JPH04330565A

JPH04330565A - 自然言語処理システム

Info

Publication number: JPH04330565A
Application number: JP2318274A
Authority: JP
Inventors: Masa Saito; 雅斎藤; Hiroshi Teranishi; 浩寺西; Takahiro Nakajima; 孝浩中島
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 1990-11-22
Filing date: 1990-11-22
Publication date: 1992-11-18
Anticipated expiration: 2015-03-06
Also published as: JP3016040B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の目的：（産業上の利用分野）この発明は、自然言語処理システムを利用してキーワー
ドの抽出を行なうデータの分かち書き／カナ振りを行な
い、品詞情報より名詞、形容詞、動詞の抽出を行なうキ
ーワードを作成するようにしたシステムとＣＴＳ（Ｃｏ
ｍｐｕｔｅｒｉｚｅｄ　ＴｙｐｅＳｅｔｔｉｎｇ）シス
テムとを結合した汎用ファイルを用いた自然言語処理シ
ステムに関する。

（従来の技術）最近、印刷物用に蓄積した文書データを２次利用してＣ
Ｄ−ＲＯＭやデータベースを作成することが多くなつて
いる。そして、データベース検索用のキーワードを抽出
する作業は、従来より専門家による手作業によっていた
。

（発明が解決しようとする課題）データベース検索用のキーワードを抽出する作業が、従
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。また、印刷分野ではコンピュータ
植字のＣＴＳが大いに発展して来ており、他のシステム
との接続も強く要請されている。

この発明は上述のような事情より成されたものであり、
この発明の目的は、ＡＩ（人工知能）の一分野の自然言
語処理技術を利用したシステムとＣＴＳ（Ｃｏｍｐｕｔ
ｅｒｉｚｅｄ　Ｔｙｐｅ　Ｓｅｔｔｉｎｇ）システムと
を結合した汎用ファイルを用いた自然言語処理システム
を提供することにある。

発明の構成、（課題を解決するための手段）この発明はＣＴＳに接続される自然言語処理システムに
関するもので、この発明の上記目的は、組版情報を表わ
すファンクションデータを含むＣＴＳのコード体系と自
然言語処理のコード体系との間で往復のコード変換を行
なう汎用ファイルを設けることによって達成される。

（作用）この発明では、ＣＤ−ＲＯＭデータに対する検索用キー
ワードの作成にＡＩの一種である自然言語処理を用いて
おり、基本辞書を参照して入力原文データに対して分か
ち書き（品詞分解）及びカナ振りを自動的に行なってい
ると共に、このシステムに対してＣＴＳシステムを接続
し、ＣＴＳのファンクションデータを有効にかつ正確に
利用できるようにしている。また、ＣＴＳのコード体系
と自然言語処理システムのコード体系の違いがデータに
影響を及ぼさないようにしている。

コンピュータに内蔵した内蔵とＡＩ手法により名詞、助
詞、動詞等の要素に分解し、分割された文書の漢字への
読みがなの付加とキーワードの抽出を行なう。従来は人
手によって行なわれた作業を機械が処理するので、後は
従来と同じチェックだけで済む。作成されたキーワード
は、ＣＤ−ＲＯＭやオンラインデータベースのインデッ
クスとして加工されて利用され、またカナ振り機能を利
用して総ルビの本として組版することもでき、汎用ファ
イルを用いて従来よりのＣＴＳデータをそのまま利用す
ることができる。

（実施例）先ず、この発明で用いる自然言語処理システムについて
説明する。

第６図は自然言語処理システムのハードウェア構成例を
示しており、ホストマシン１０にはＣＰＵ１１及び実装
メモリ１２が内蔵されると共に、バスライン１３を介し
て磁気ディスク装置１４、カセット磁気テープ装置１５
が接続されている。ホストマシン１０には、更に磁気テ
ープ装置２ａ、レーザープリンタ２１及びコンソール端
末２３が接続されると共に、ＲＳ−２３２Ｃのインター
フェイス１６を介して確認／修正用端末２２が接続され
ている。

第７図は自然言語処理システムのソフトウェア構成を示
しており、磁気テープからの入力データは入力処理１０
１されて取込まれ、ホストマシン１０で処理された情報
は出力処理１２０されて磁気テープの出力データとなる
。すなわち、入力処理１０１は自然言語処理システム入
力データ磁気テープをディスクファイル上に入力データ
１０２としてコピーし、漢字コード等のチェックを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理１２０はディスク上の処理結果ファイルを処理
結果データ１２１として自然言語処理出力磁気テープへ
コピーする。ドライバ１０３は入力データ１０２の分類
／解析を行ない、日本語処理システム１１０を制御し、
分かち書き、カナ振り、キーワード抽出結果を取得し、
自然言語処理システム出力データ形式で、処理結果を編
集／出力する。

日本語処理システム１１０は基本辞書アクセスルーチン
１１２を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として出力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の（ａ）、（ｂ）に該当すると
きに名詞として抽出する。

（ａ）一般名詞、サ変型名詞、形動型名詞、転成名詞、
時詞、数詞、固有名詞、代名詞、形式名詞（ｂ）接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。

■接頭辞の場合後方品・一般名詞、サ変型名詞、形動型名詞、転成名詞
、時詞、数詞、固有名詞、代名詞、形式名詞 ■接尾辞の場合前方品詞：一般名詞、サ変型名詞、形動型名詞、転成名
詞、時詞、数詞、固有名詞、代名詞、形式名詞また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析、構文解析、知
識処理等の手法を用いてアクセスファイルルーチン１１
１と協働して入力日本語文章の解析を行ない、キーワー
ド抽出、絞り込み、重要度評価を行なう。

端末通信処理工２３は確認／修正用端末２２との間で通
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト出力処理１２２は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ２１に出力する。

ところで、ホストマシン１０が扱い得る自然言語処理機
能は、Ａ、処理種１：分かち書きＢ、処理種２：カナ振りＩ（分かち暑き単位のカナ振り
）Ｃ、処理種３：カナ振りＩＩ（漢字単位のカナ振り、総
ルビ振り）Ｄ、処理種：４キーワード抽出及びキーワードへのカナ
振りの４種であり、入力ファイルのレコード単位に上記各機
能を切替えて処理することができる。

次に、各機能（処理種１〜４）について説明する。

Ａ、分かち書き（処理種１）日本語文章（漢字かな交じり文）を入力して分かち書き
を行ない、名詞、動詞、形容詞について品詞情報を付加
する。出力される情報は、スラッシュ“／“による分か
ち書きと品詞情報（名詞、動詞、形容詞、未知語）であ
る。処理種１の出力形式は第８図のようになる。

Ｂ、カナ振りＩ（処理種２：分かち書き単位のカナ振り
）：日本語文章（漢字かな交じり分）を入力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き、品詞情報（名詞、動詞
、形容詞、未知語）、分かち書き単語へのカナ振り結果
である。処理種２の出力形式は第９図のようになる。

ｃ、カナ振りＩＩ（処理種３）：この処理種３は、分野別辞１０６を使用したカナ振り及
び総ルビ振り（漢字（列）単位のカナ振り）の機能を有
している。分野別辞書１０６を使用したカナ振りは人名
、地名、各種専門用語等の項目データに対して、品目専
用の辞書を利用してカナ振りを行なうものである。かな
振りの方法は項目データをＫＥＹにして分野別辞書１０
６をサーチし、マッチングした場合に分野別辞書１０６
に登録されているカナを振る。これでカナが得られなか
った場合、日本語処理システムを呼出して基本辞書１１
５によってカナを振る。

データの入力形式は、単項目データの場合は“項目デー
タ”であり、複数項目データを１レコードで処理する場
合は、“項目データ１”／項目データ２”／……・／“
項目データＮ”のように各項目データをスラッシュで区
切るようにしている。そして、出力される情報は、入力
項目データに対する読み（カタカナ）とカナデータの典
拠辞書識別（どの辞書に基づいてカナが振られたかの識
別）である。処理種３の出力形式は第１０図のようにな
っており、■分軒別辞書１０６で読みが取得された場合
、■基本辞書１１５で読みが取得された場合、■分野別
辞書１０６及び基本辞書１１５の両方共に読みが登録さ
れていない場合、に分けて識別コード（例えばＡＡ、Ａ
Ｂ、ＡＣ）を与えている。

分野別辞書１０６を使用したカナ振りで処理対象となる
データは、人名、地名、各種専門用語等の項目データ（
主に固有名詞）であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り（
漢字（列）単位のカナ振り）の機能は、日本語文章（漢
字かな交じり文）を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、入力原文中の
漢字（列）（ＪＩＳ非漢字以外）に対してカナ（ルビ）
を振り、ルビは「群扱いルビ」の形式で振られる。その
出力形式は第１１図のようになつている。

Ｄ、キーワード抽出及びキーワードへのカナ振り（処理
種４）：入力した日本語文章から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。

出力される情報は、抽出されたキーワード。

キーワードの読み（カタカナ）及びキーワードの解析結
果であり、出力形式は第１２図のようになっている。な
お、解析情報は、日本語処理システムによるキーワード
認定の過程で得られた解析情報がセットされるエリアで
ある。

確認／修正用端末２２の機能は、処理結果ファイルの中
の入力原文データと処理結果データ１２１をホストマシ
ン１０より端末通信処理１２３を介して受け取り、端末
装置のディスプレイに表示し、ホストマシン１０のレー
ザープリンタ２１に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末２
２からのキーボード操作により、確認／修正を行なう処
理結果ファイルのジョブ名指定を行ない、１レコード毎
に入力原文データと処理結果データ１２１を端末装置の
ディスプレイ上に表示し、確認／修正作業を行なう。

ディスプレイの表示形式は、処理種により以下（Ａ）〜
（Ｄ）のようになっている。

（Ａ）処理種１（分かち書き）の場合は、入力原文と処理された入力原文の分かち書き結果を画面出力する。

（Ｂ）処理種２（分かち書き単位のカナ振り）の場合は
、入力原文と処理された入力原文の分かち書き単位のカ
ナ振り結果を画面出力する。

（Ｃ）処理種３（総ルビ振り）の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。

（Ｄ）処理種４（キーワード抽出）の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。

次に、キーボード操作により処理結果データの修正を行
なうが、基本的な修正機能を以下に挙げて説明する。

処理種３及び処理種４の場合のみ修正が可能である。処
理種３（総ルビ振り）の場合はカナ振り結果の修正が可
能であり、処理種４（キーワード抽出）の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えが可能である。

端末２２で処理結果データ１２１の修正があつた場合、
キーボード操作によつて修正後データをホストマシン１
０に送信する。ホストマシン１０では、修正後データを
基に処理結果ファイルのレコード更新を行なう。

一方、端末２２からのキーボード操作により、ホストマ
シン１０のレーザープリンタ２１に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう。オ
ペレータによるＰキー（プリントキー）の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理種毎のフォーマットに合
せてホストマシン１０から取り出したレコードのプリン
タ出力を行なう。

以上が自然言語処理システムの概要であるが、この自然
言語処理システムを用いてＣＤ−ＲＯＭデータベースの
キーワードを自動作成する例が第１図である。すなわち
、磁気記憶媒体に格納されたデータベースに対して先ず
前処理を行なう（ステップＳ１０）。前処理の詳細は第
２図に示すようになっており、最初にデータの抽出を行
ない（ステップＳ１１）、抽出したデータのコード変換
を行なう（スチップＳ１２）。そして、コード変換され
たデータに対して自然言語処理入力ファイルを作成し（
ステップＳ１３）、全データに対して上記動作を繰り返
す。データの抽出はデータベースより当処理でキーワー
ドを作成する元データの抽出を行なうもので、コード変
換データはＪＩＳコード及びＣＴＳコードで作成されて
いる場合が多い。自然言語処理システムのコード体系は
一般的にシステム固有コードであるため、データのコー
ド変換を行なう必要がある。また、自然言語処理入力フ
ァイル作成は、抽出したデータ毎に自然言語処理入力フ
ァイルレコードの作成を行なうものである。

上述のように前処理されたデータは次のステップＳ１で
自然言語処理されるが、これに関しては後に詳述する。

自然言語処理では自然言語処理入力ファイルを作成し、
自然言語処理で基本辞書１１５（システム辞書１３１＋
ユーザ辞書１３２）を参照して、第３図に示すような入
力原文データに対して第４図に示すように分かち書き（
品詞分解）及びカナ振りを行なう。分かち書きされたデ
ータの直前にはその単語の品詞識別ＩＤが付加されてお
り、単語の品詞を判別できるようになっている。次に、
自然言語処理された自然言語処理出力ファイルに対して
後処理を行なう（ステップＳ２０）。後処理の詳細は第
５図に示すようになっており、先ず品詞抽出を行なう（
ステップＳ２１）。すなわち、分かち書き／カナ振りの
行なわれたデータから名詞、形容詞、動詞の抽出を行な
う。そして、複合語作成を行なうが（ステップＳ２２）
、これは名詞が連続している場合に複合語の作成を行な
うものである。例えば自然言語処理結果が“自然／言語
／処理”の場合、複合語は“自然、自然言語、自然言語
処理、言語、言語処理、処理”となる。これと同時に形
容詞、動詞は語尾の終止形への変換を行なう（ステップ
Ｓ２３）。そして、自然言語処理システムの処理結果は
システム固有コードで出力されるので、ＣＴＳコードへ
のコード変換を行ない（ステップＳ２４）、次にデータ
ベースの作成を行なう（ステップＳ２５）。つまり、品
詞を抽出し、加工された単語をＣＤ−ＲＯＭ検索用キー
ワード候補語としてデータベースへの登録を行なう。次
に、データベースの内容をリスト出力し（ステップＳ２
）、赤字等を入れた後にキーワードデータの校正を行な
う。校正を終了したキーワードデータをＣＤ−ＲＯＭ検
索用キーワードとする。分かち書き及びカナ振りが正し
く行なわれなかったデータについて、基本辞書１１５（
実際はユーザ辞書１３２）の修正を行ない、次回の自然
言語処理の精度の向上を図る。

基本辞書１１５は自然言語処理（分かち書き／カナ振り
）を行なう上で一番基本となる辞書で、システム辞書１
３１とユーザ辞書１３２とから構成されている。ユーザ
辞書１３２の修正を行なう事により、自然言語処理の精
度を向上する事が出来る。

この発明ではＣＴＳの自然言語処理の汎用入出力ファイ
ルとして汎用ファイル（以下、ＮＬファイルとする）を
用いているが、ＮＬファイルでは第１３図に示すように
ＮＬインファイル、ＮＬアウトファイル及びＮＬ情報フ
ァイルの３種類で構成され、フォーマットは同一である
。全体のフォーマットはヘダーレコード及びデータレコ
ードで成っており、ヘダーレコードにはレコード識別、
シーケンス番号、ファイル識別、ジョブ名、原稿名、Ｃ
ＴＳシステム名等がある。また、データレコードとして
はレコード識別、シーケンス番号、データ番号、処理種
、データ等が含まれている。

入力ルーチンＳ１００は第１４図に示すように、ＮＬイ
ンファイルをパラメータと共に読込んで自然言語処理入
力ファイル及びＮＬ情報ファイルを作成するようになっ
ており、その詳細は第１５図に示すようになつている。

ＮＬインファイルを読込んで、パラメータの指定による
ファンクションの削除及びコード変換（外部→システム
固有コード）を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコード
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチェック（ステッ
プＳ１０１）では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう。

ヘダーレコード作成（ステップＳ１０２）では、ＮＬイ
ンファイルのヘダーレコードの内容より、自然言語処理
入力ファイル及びＮＬ情報ファイルのヘダーレコードを
作成する。

■自然言語処理入力ファイル（ａ）ダミー１ＬＯＷ（２５）固定（ｂ）ファイル識別 “Ｉ”固定（ｃ）品目通番ＮＬインファイルヘダーレコードの原稿名をセットする
。

（ｄ）ジョブ名ＮＬインファイルヘダーレコードのＪＯＢ名をセットす
る。

（ｅ）原稿名ＮＬインファイルヘダーレコードの原稿名をセットする
。

（ｆ）ファイル作成日時当ファイルが作成された日時（ｇ）ダミー２ＬＯＷ（１２）固定（ｈ）ＣＴＳシステム名ＮＬインファイルヘダーレコードのＣＴＳシステム名を
セットする。

（ｉ）シソーラス識別ＮＬインファイルヘダーレコードのシソーラス識別をセ
ットする。

（ｊ）しぼりこみパラメータＮＬインファイルヘダーレコードのしぼりこみパラメー
タをセットする。

■ＮＬ情報ファイル次の３点を除いてＮＬインファイルと同じである。

（ａ）ＦＩＬＥ識別 “Ｊ”固定（ｂ）Ｆ情報データ有無ＮＬインファイルヘダレコードのデータレコード識別が
“ＣＴＳ”（データがＣＴＳコード）でファンクション
の削除を行なう（パラメータが“Ｎ”）時、“Ｙ”をセ
ットし、それ以外は“Ｎ”をセットする。

（ｃ）Ｃ情報データ有無 “Ｙ”をセットする。

ＮＬインファイルヘダレーコードのデータコード識別は
“ＤＥＣ”、“ＣＴＳ”“ＪＩＳ”（データがＤＥＣ、
ＣＴＳ、ＪＩＳコード）のみ許される。

同データＮＯのデータの読込２１（ステップＳ１０３）
の処理は、同データＮＯを持つレコードの全有効データ
を処理単位とする。従って、ＮＬインファイルデータレ
コード中の同データＮＯを持つデータレコードから有効
データを抽出する。データの加工（ステップＳ１０４）
では、ＮＬインファイルから抽出したデータのファンク
ションの削除及びコード変換を行なう。削除したファン
クションの情報（位置、ファンクション）コード及びコ
ード変換情報（変換前コード、変換後コード）はＮＬ情
報ファイルへ、処理されたデータは自然言語処理入力フ
ァイルに出力する。

■ファンクションの削除ＮＬインファイルヘダーレコードのデータレコード識別
が“ＣＴＳ”でパラメータが“Ｎ”の時のみファンクシ
ョンを削除する。

ファンクションを削除する場合、ルビ文字の削除も行な
う。

ルビファンクションの定型は第１８図のようになる。

「ルがデータ中にあった場合、次に現れる区１からル」
まではファンクションとみなす。

■コード変換ＮＬインファイルヘダーレコードのデータレコード識別
が “ＣＴＳ”の時、コード変換テーブルを用いて変換する
。“ＪＩＳ”の時、ＪＩＳコードに［８０８０］を加算
する。

“ＤＥＣ”の時、何もしない。

インバリッドコードはパラメータで与えられたコードに
設定する。ただし、パラメータ省略時は［Ａ１Ａ１］（
ブランク）とする。

自然言語処理固有コードに変換した後、第１９図左欄の
コードのものは自然言語処理で発生され出力データ中で
区切りとして用いられるコードと同一のため、元データ
と区別するために更に第１９図の右欄に示すように変換
する。

再変換したコードのコード変換情報をＮＬ情報ファイル
へ格納する時は、外部コードとそれに対応する再変換後
のコードをセットする。１Ｗ対１Ｗの例外変換が指定出
来る。

■削除コード外部コードを自然言語処理固有コードに変換した後、そ
のコードが自然言語処理で扱えないコードの場合には、
そのコードを削除する。

削除したコードについては、コード変換情報をＮＬ情報
ファイルに出力しない。

削除コード範囲〜２バイトコードの前半、後半１バイト
のどちらか一方でも“００”から“Ａ０”の時。

また、データレコードの作成（ステップＳ１０５）では
、同データＮＯの加工後（ファンクションの削除、コー
ド変換）のデータを自然言語処理入力ファイルへ出力し
、加工情報をＮＬ情報ファイルへ出力する。

■自然言語処理入力ファイル（ａ）データＮＯ処理したデータのＮＬインファイルデータレコードのデ
ータＮＯをセットする。

（ｂ）処理結果再編集情報処理したデータのＮＬインファイルデータレコードの処
理結果再編集情報をセットする。

（ｃ）処理種処理したデータのＮＬインファイルデータレコードの処
理種をセットする。

（ｄ）データ属性処理したデータのＮＬインファイルデータレコードの分
野辞書ＩＤをセットする。

（分野別辞書〜専門分野辞書）（ｅ）レコード継続フラグ加工後のデータが１レコードに入り切らない時は、次レ
コードヘ継続する。次レコードへ継続する場合には“１
”をしない場合には“０”をセットする。

（ｆ）ダミーＬＯＷ（１１）固定。

（ｇ）ポインタ１入力原文データの開始位置。データＮＯの先頭を１とし
た時のバイト数。

（ｈ）ポインタ２次レコードへ継続する場合にはＨＩＧＨ（２）をしない
場合にはＬＯＷ（２）をセットする。

（ｊ）入力原文データ加工後データをセットする。

■ＮＬ情報ファイル（ａ）ＲＥＣ識別・ファンクション位置情報のレコードは“Ｆ”を、変換
コード情報のレコードは“Ｃ”をセットする、情報レコ
ードはＮＬインファイル中のデータＮＣ順に並び、同デ
ータＮＯ中ではＦ−Ｃの順に並ぶ。第２０図にその例を
示す。

・当ファイルのヘダーレコードの情報データの有無が“
Ｎ”の情報レコードは存在しない。例えば、Ｆ情報デー
タの有無が“Ｎ”でＣＣ情報データの有無が“Ｙ”の場
合、ＮＬ情報ファイル中にはＲＥＣ識別が“Ｃ”のレコ
ードしか存在しない。

（ｂ）ＳＥＱ．ＮＯ．ＮＬ情報ファイルのヘダーレコードからの通し番号をセ
ットする。

（ｃ）データＮＯ．当レコードの情報の発生元のデータのデータＮＯをセッ
トする。

（ｄ）データＮＯ内分割ＮＯ同データＮＯの情報データが１レコードに入り切らない
場合には、次レコードに継続する。同データＮＯ内の通
し番号（１〜）をセットする。

（ｅ）処理結果再編集情報当レコードの情報の発生元のデータの処理結果再編集情
報をセットする。

（ｆ）処理種当レコードの情報の発生元のデータの処理種をセットす
る。

（ｇ）分野別辞書ＩＤ当レコードの情報の発生のデータの分野別辞書ＩＤをセ
ットする。

（ｈ）有効データバイト数次に続くデータ２００バイトの中で有効なデータの長さ
をセットする。

（ｉ）データ ■ファンクション位置情報（Ｆ′）（第２１図参照）Ｆ
情報データ有無が“Ｙ”で、ファンクション情報のない
データＮＯの時は、有効データバイト数を０にする。フ
ァンクションが連続している場合には、連続しているフ
ァンクションを一括して扱う。

■変換コード情報（“Ｃ”）外部コードと自然言語処理固有コードが交互に並ぶ。そ
の例を第２２図に示す。ＮＬインタファイルのデータが
自然言語処理固有コードの場合には、外部＝自然言語処
理固有コードである。

一方、第１３面の出力ルーチンＳ２００は第１６図に示
すように、自然言語処理の後処理として自然言語処理出
力ファイルとＮＬ情報ファイルを、パラメータと共に読
込んでＮＬアウトファイルを作成するものであり、その
詳細は第１７図のようになっている。すなわち、自然言
語処理出力ファイルとＮＬ情報ファイルを読込んで、パ
ラメータの指定によるファンクションの復帰及びコード
変換（システム固有コード→外部）を行ない、ＮＬアウ
トファイルを作成する。パラメータチェック（ステップ
Ｓ２０１）では、ファンクション復帰実行の有無及びコ
ード変換情報の指示の解析を行なう。

ヘダーレコードの作成（ステップＳ２０３）では、ＮＬ
情報ファイル及び自然言語処理出力ファイルのヘダーレ
コードの内容よりＮＬアウトファイルのヘダーレコード
を作成する。

■ＲＥＣ識別 “Ｈ”固定。

■ＳＥＱ．ＮＯ． “Ｉ”固定。

■ファイル識別 “Ｏ”固定。

■データコード識別ＮＬ情報ファイルヘダーレコードのデータコード識別を
セットする。

■品目番号ＮＬ情報ファイルヘダーレコードの品目番号をセットす
る。

■ＪＯＢ名ＮＬ情報ファイルヘダーレコードのＪＯＢ名をセットす
る。

■原稿名ＮＬ情報ファイルヘダーレコードの原稿名をセットする
。

■ＦＩＬＥ作成日時当ファイルが作成された日時。

■自然言語処理開始日時自然言語処理出力ファイルヘダーレコードの処理作成開
始日時をセットする。

■自然言語処理終了日時自然言語処理出力ファイルヘダーレコードの処理終了日
時をセットする。

■ＣＴＳシステム名ＮＬ情報ファイルヘダーレコードのＣＴＳシステム名を
セットする。

■シソーラス識別ＮＬ情報ファイルヘダーレコードのシソーラス識別をセ
ットする。

■しぼり込みパラメータＮＬ情報ファイルヘダーレコードのしぼり込みパラメー
タをセットする。

■情報データ有無ＬＯＷ（１）固定×２同データＮＯのデータの読込み（ステップＳ２０４）は
同データＮＯを持つレコードの全有効データを処理単位
とする。自然言語処理出力ファイルデータレコード中に
は、入力原文データと処理結果データが存在するが、処
理結果データのみを有効データとする。従って、自然言
語処理出力ファイルレコード中の同データＮＯを持つデ
ータレコードから処理結果データを抽出する。また、デ
ータの加工（ステップＳ２０５）では、自然言語処理出
力ファイルから抽出したデータにファンクションの復帰
及びコード変換を行なう。加工したデータはＮＬアウト
ファイルに出力する。

■ファンクションの復帰ＮＬ情報ファイルヘダーレコードのＦ情報データ有無が
“Ｙ”で、パラメータが“Ｙ”の時にファンクション情
報に従ってデータ中にファンクションを復帰する。ファ
ンクションの復帰方法は、データの処理種により異なる
。

（ａ）処理種１・「ル、区１〜ル」は復帰しない。

・処理結果データ中で以下のコードは、自然語処理によ
り付加されたデータである。

スラッシュ”／”［Ａ１ＢＦ］アスキーコードこれ以外のデータは、自然言語処理入力ファイル中の入
力原文データと同じである。このデータとファンクショ
ン情報により、処理結果データ中の所定の位置にファン
クションを復帰する。

・復帰位置が処理結果データの先頭の場合には、スラッ
シュ、アスキーコード以外のコードの先頭文字の直前に
ファンクションを復帰する。（ｂ）処理種２ファンクションは復帰しない。

（ｃ）処理種３・「ル、区１〜ル」は復帰しない。

・処理結果データ中で以下のコードは、自然言語処理に
より付加されたデータである。

カッコ初め“《”［Ａ１Ｄ４］カッコ終わり“》”［Ａ１Ｄ５］アスタリスク“＊”［Ａ１Ｆ６］これ以外のデータは、自然言語処理入力ファイル中の入
力原文データと同じである。このデータとファンクショ
ン情報により、処理結果データ中の所定の位置にファン
クションを復帰する。

・ファンクションを復帰する場合には、“《”と“＊”
の間のデータの先頭文字の直前及び最終文字の直後に復
帰する場合には、前者は“《”の直前に、後者は“》”
の直後に復帰する。

（ｄ）処理種４・ファンクションは復帰しない。

■コード変換・自然言語処理結果データは、以下のデータから構成さ
れる。

入力原文データセパレータ（“／”、“＊”、“《”、“》”、“｜”
）カナ振り文字アスキーコード文字・入力原文データは、ＮＬ情報ファイルヘダーレコード
のＣ情報データ有無が“Ｙ”の時、コード変換情報に従
ってコード変換を行なう。

・処理種１〜３の場合には、処理結果データ中に入力原
文データが順番通りに全て含まれているので、コード変
換情報を先頭から検索してコード変換を行なう。

・処理種４の場合には、ＮＬ情報ファイルのコード変換
情報は参照せず、次頁の自然言語処理付加コードのコー
ド変換のカナ振り文字と同等にコード変換を行なう。

■自然言語処理付加コードのコード変換自然言語処理に
より処理結果データ中に付加されたセパレータ、カナ振
り文字、アスキーコード文字の変換は第２３図の通りで
ある。また、アスキーコード文字の変換は第２４図のよ
うになる。カナ振り文字はＮＬ情報ファイルヘダーレコ
ードデータコード識別により異なる。

・“ＤＥＣ”の時、変換しない。

・“ＣＴＳ”の時、コード変換テーブルを使用して変換
を行なう。インバリッドコード［Ａ０８８］・“ＪＩＳ
”の時、自然言語処理固有コードから［８０８０］を引
く。インバリッドコード［２２２Ｅ］この発明はＣＤ−
ＲＯＭ等のデータベースの構築支援として利用でき、デ
ータ検索用キーワードの抽出、抽出したキーワードへの
読みの付加を行ない得る。また、印刷業務での利用が可
能で、カナ振り機能を利用した総ルビの印刷物作成や名
簿の住所、氏名などの項目の自動カナ振り、索引作成の
支援システムとして利用できる。

発明の効果：以上のようにこの発明のシステムによれば、専門的な知
識や技術を要することなく自動的にＣＤ−ＲＯＭデータ
の検索用キーワードを作成するシステムとＣＴＳを効率
良く結合することができる。

【図面の簡単な説明】

　第１図はこの発明を適用できるシステムの動作例を示
すフローチャート、第２図は前処理の動作例を示すフロ
ーチャート、第３図は自然言語処理する原文の例を示す
図、第４図は分かちカナの例を示す図、第５図は後処理
の動作例を示すフローチャート、第６図は自然言語処理
システムのハードウェア構成例を示すブロック図、第７
図はそのソフトウェア構成例を示す図、第８図は分かち
書きの出力形式を示す図、第１０図は分野別辞書を使用
したカナ振りの出力形式を示す図、第１１図は総ルビ振
りの出力形式を示す図、第１２図はキーワード抽出及び
キーワードへのカナ振りの出力形式を示す図、第１３図
はこの発明の汎用ファイルの構成例を示すフローチャー
ト、第１４図は入力ルーチンの入出力を示す図、第１５
図は入力ルーチンの詳細を示すフローチャート、第１６
図は出ルリーチンの入出力を示す図、第１７図は出力ル
ーチンの詳細を示すフローチャート、第１８図〜第２４
図はこの発明の汎用ファイルを説明するためのである。１０…ホストマシン、１１…ＣＰＵ、１２…メモリ、１
４…磁気ディスク装置、１５…カセット磁気テープ装置
、２０…磁気テープ装置、２１…レーザープリンタ、２
２…確認／修正用端末、２３…コンソール端末。

Claims

【特許請求の範囲】

【請求項１】記憶媒体に格納されたデータベースを前処
理し、基本辞書を参照して自然言語処理による分かち書
き、カナ振り及びキーワード抽出処理を行なうシステム
において、組版情報を表わすファンクションデータを含
むＣＴＳのコード体系と前記自然言語処理のコード体系
との間で往復のコード変換を行なう汎用ファイルを具備
したことを特徴とする汎用ファイルを用いた自然言語処
理システム。