JP3016040B2 - 自然言語処理システム - Google Patents

自然言語処理システム

Info

Publication number
JP3016040B2
JP3016040B2 JP2318274A JP31827490A JP3016040B2 JP 3016040 B2 JP3016040 B2 JP 3016040B2 JP 2318274 A JP2318274 A JP 2318274A JP 31827490 A JP31827490 A JP 31827490A JP 3016040 B2 JP3016040 B2 JP 3016040B2
Authority
JP
Japan
Prior art keywords
data
natural language
file
processing
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2318274A
Other languages
English (en)
Other versions
JPH04330565A (ja
Inventor
雅 斎藤
浩 寺西
孝浩 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2318274A priority Critical patent/JP3016040B2/ja
Publication of JPH04330565A publication Critical patent/JPH04330565A/ja
Application granted granted Critical
Publication of JP3016040B2 publication Critical patent/JP3016040B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 発明の目的; (産業上の利用分野) この発明は、自然言語処理システムを利用してキーワ
ードの抽出を行なうデータの分かち書き/カナ振りを行
ない、品詞情報より名詞,形容詞,動詞の抽出を行なう
キーワードを作成するようにしたシステムとCTS(Compu
terized Type Setting)システムとを結合した自然言語
処理システムに関する。
(従来の技術) 最近、印刷物用に蓄積した文書データを2次利用して
CD−ROMやデータベースを作成することが多くなってい
る。そして、データベース検索用のキーワードを抽出す
る作業は、従来より専門家による手作業によっていた。
(発明が解決しようとする課題) データベース検索用のキーワードを抽出する作業が、
従来は専門家が文書の中から重要語を選択し、更に読み
方を付けるようになっている。このため、データベース
のキーワード抽出作業に多大な労力を要し、作業そのも
のが非効率的であった。また、印刷分野ではコンピュー
タ植字のCTSが大いに発展して来ており、他のシステム
との接続も強く要請されている。
この発明は上述のような事情より成されたものであ
り、この発明の目的は、AI(人工知能)の一分野の自然
言語処理技術を利用したシステムとCTS(Computerized
Type Setting)システムとを結合した自然言語処理シス
テムを提供することにある。
発明の構成; (課題を解決するための手段) この発明はCTSに接続される自然言語処理システムに
関するもので、この発明の上記目的は、記憶媒体に記憶
された組版情報を表すファンクションデータを含むCTS
のコード体系を用いて作成されているデータに対して、
基本辞書を参照して自然言語処理による分かち書き、カ
タ振り及びキーワード抽出処理を行うシステムにおい
て、前記CTSコード体系から前記自然言語処理のコード
体系へのコード変換を行う際に、後に前記自然言語処理
コード体系データから前記CTSのコード体系データに戻
すときのために、削除したファンクションの位置情報及
びコード変換情報を有するファイルを作成する手段を設
けることによって達成される。
(作用) この発明では、CD−ROMデータに対する検索用キーワ
ードの作成にAIの一種である自然言語処理を用いてお
り、基本辞書を参照して入力原文データに対して分かち
書き(品詞分解)及びカナ振りを自動的に行なっている
と共に、このシステムに対してCTSシステムを接続し、C
TSのファンクションデータを有効にかつ正確に利用でき
るようにしている。また、CTSのコード体系と自然言語
処理システムのコード体系の違いがデータに影響を及ぼ
さないようにしている。
コンピュータに内蔵した辞書とAIの手法により名詞,
助詞,動詞等の要素に分解し、分割された文書の漢字へ
の読みがなの付加とキーワードの抽出を行なう。従来は
人手によって行なわれた作業を機械が処理するので、後
は従来と同じチェックだけで済む。作成されたキーワー
ドは、CD−ROMやオンラインデータベースのインデック
スとして加工されて利用され、またカナ振り機能を利用
して総ルビの本として組版することもでき、汎用ファイ
ルを用いて従来よりのCTSデータをそのまま利用するこ
とができる。
(実施例) 先ず、この発明で用いる自然言語処理システムについ
て説明する。
第6図は自然言語処理システムのハードウエア構成例
を示しており、ホストマシン10にはCPU11及び実装メモ
リ12が内蔵されると共に、バスライン13を介して磁気デ
ィスク装置14,カセット磁気テープ装置15が接続されて
いる。ホストマシン10には、更に磁気テープ装置20,レ
ーザープリンタ21及びコンソール端末23が接続されると
共に、RS−232Cのインターフェイス16を介して確認/修
正用端末22が接続されている。
第7図は自然言語処理システムのソフトウエア構成を
示しており、磁気テープからの入力データは入力処理10
1されて取込まれ、ホストマシン10で処理された情報は
出力処理120されて磁気テープの出力データとなる。す
なわち、入力処理101は自然言語処理システム入力デー
タ磁気テープをディスクファイル上に入力データ102と
してコピーし、漢字コード等のチェックを行ない、その
後に日本語処理用レコードに変換する。また、出力処理
120はディスク上の処理結果ファイルを処理結果データ1
21として自然言語処理出力磁気テープへコピーする。ド
ライバ103は入力データ102の分類/解析を行ない、日本
語処理システム110を制御し、分かち書き,カナ振り,
キーワード抽出結果を取得し、自然言語処理システム出
力データ形式で、処理結果を編集/出力する。
日本語処理システム110は基本辞書アクセスルーチン1
12を介して形態素解析を行ない、言語処理で認定する全
ての単語についてその読みを抽出し、カナ振り出力文と
して出力する。名詞列抽出は言語処理による単語認定結
果で、その品詞が次の(a),(b)に該当するときに
名詞として抽出する。
(a)一般名詞,サ変型名詞,形動型名詞,転成名詞,
時詞,数詞,固有名詞,代名詞、形式名詞 (b)接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。
接頭辞の場合 後方品詞:一般名詞,サ変型名詞,形動型名詞,転成
名詞,時詞,数詞,固有名詞,代名詞,形式名詞 接尾辞の場合 前方品詞:一般名詞,サ変型名詞,形動型名詞,転成
名詞,時詞,数詞,固有名詞,代名詞,形式名詞 また、日本語文章と上記より求められたキーワード分
析テーブルを入力すると共に、統計的解析,構文解析,
知識処理等の手法を用いてアクセスファイルルーチン11
1と協働して入力日本語文章の解析を行ない、キーワー
ド抽出,絞り込み,重要度評価を行なう。
端末通信処理123は確認/修正用端末22との間で通信
を行ない、端末出力用のデータ変換を行なう。そして、
端末からの修正データを出力ファイルの形式に変換して
書込む。また、リスト出力処理122は、端末から出力依
頼のあった処理結果データをプリンタ出力用データに編
集すると共に、プリンタ出力用データをレーザープリン
タ21に出力する。
ところで、ホストマシン10が扱い得る自然言語処理機
能は、 A.処理種1:分かち書き B.処理種2:カナ振りI(分かち書き単位のカナ振り) C.処理種3:カナ振りII(漢字単位のカナ振り,総ルビ振
り) D.処理種4:キーワード抽出及びキーワードへのカナ振り の4種であり、入力ファイルのレコード単位に上記各機
能を切替えて処理することができる。
次に、各機能(処理種1〜4)について説明する。
A.分かち書き(処理種1): 日本語文章(漢字かな交じり文)を入力して分かち書
きを行ない、名詞,動詞,形容詞について品詞情報を付
加する。出力される情報は、スラッシュ“/"による分か
ち書きと品詞情報(名詞,動詞,形容詞,未知語)であ
る。処理種1の出力形式は第8図のようになる。
B.カナ振りI(処理種2;分かち書き単位のカナ振り): 日本語文章(漢字かな交じり分)を入力して分かち書
きを行ない、分かち書きされた単語単位にカナ振りを行
なう。読みはカタカナで振られ、名詞,動詞,形容詞に
ついては品詞情報を付加する。そして、出力される情報
は、スラッシュによる分かち書き,品詞情報(名詞,動
詞,形容詞,未知語),分かち書き単語要素へのカナ振
り結果である。処理種2の出力形式は第9図のようにな
る。
C.カナ振りII(処理種3): この処理種3は、分野別辞書106を使用したカナ振り
及び総ルビ振り(漢字(列)単位のカナ振り)の機能を
有している。分野別辞書106を使用したカナ振りは人
名,地名,各種専門用語等の項目データに対して、品目
専用の辞書を利用してカナ振りを行なうものである。か
な振りの方法は項目データをKEYにして分野別辞書106を
サーチし、マッチングした場合に分野別辞書106に登録
されているカナを振る。これでカナが得られなかった場
合、日本語処理システムを呼出して基本辞書115によっ
てカナを振る。
データの入力形式は、単項目データの場合は“項目デ
ータ”であり、複数項目データを1レコードで処理する
場合は、“項目データ1"/“項目データ2"/………/“項
目データN"のように各項目データをスラッシュで区切る
ようにしている。そして、出力される情報は、入力項目
データに対する読み(カタカナ)とカナデータの典拠辞
書識別(どの辞書に基づいてカナが振られたかの識別)
である。処理種3の出力形式は第10図のようになってお
り、分野別辞書106で読みが取得された場合、基本
辞書115で読みが取得された場合、分野別辞書106及び
基本辞書115の両方共に読みが登録されていない場合、
に分けて識別コード(例えばAA,AB,AC)を与えている。
分野別辞書106を使用したカナ振りで処理対象となる
データは、人名,地名,各種専門用語等の項目データ
(主に固有名詞)であり、総ルビ振りで処理対象となる
データは日本語の漢字かな交じり文である。総ルビ振り
(漢字(列)単位のカナ振り)の機能は、日本語文章
(漢字かな交じり文)を入力して全ての漢字に対してカ
ナ振りを行なうものである。カナ振り方法は、入力原文
中の漢字(列)(JIS非漢字以外)に対してカナ(ル
ビ)を振り、ルビは「群扱いルビ」の形式で振られる。
その出力形式は第11図のようになっている。
D.キーワード抽出及びキーワードへのカナ振り(処理種
4): 入力した日本語文章から日本語処理システムの言語処
理機能によりフリーキーワードの抽出を行ない、抽出し
たキーワードに読みを付加する。
出力される情報は、抽出されたキーワード,キーワー
ドの読み(カタカナ)及びキーワードの解析結果であ
り、出力形式は第12図のようになっている。なお、解析
情報は、日本語処理システムによるキーワード認定の過
程で得られた解析情報がセットされるエリアである。
確認/修正用端末22の機能は、処理結果ファイルの中
の入力原文データと処理結果データ121をホストマシン1
0より端末通信処理123を介して受け取り、端末装置のデ
ィスプレイに表示し、ホストマシン10のレーザープリン
タ21に出力することにより処理結果の確認及び修正作業
を容易に行なうことを目的とする。端末22からのキーボ
ード操作により、確認/修正を行なう処理結果ファイル
のジョブ名指定を行ない、1レコード毎に入力原文デー
タと処理結果データ121を端末装置のデイスプレイ上に
表示し、確認/修正作業を行なう。ディスプレイの表示
形式は、処理種により以下(A)〜(D)のようになっ
ている。
(A)処理種1(分かち書き)の場合は、入力原文と 処理された入力原文の分かち書き結果を画面出力す
る。
(B)処理種2(分かち書き単位のカナ振り)の場合
は、入力原文と処理された入力原文の分かち書き単位の
カナ振り結果を画面出力する。
(C)処理種3(総ルビ振り)の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。
(D)処理種4(キーワード抽出)の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。
次に、キーボード操作により処理結果データの修正を
行なうが、基本的な修正機能を以下に挙げて説明する。
処理種3及び処理種4の場合のみ修正が可能である。
処理種3(総ルビ振り)の場合はカナ振り結果の修正が
可能であり、処理種4(キーワード抽出)の場合はカナ
振り結果の修正及びキーワードの挿入,削除,順位の入
れ替えが可能である。端末22で処理結果データ121の修
正があった場合、キーワード操作によって修正後データ
をホストマシン10に送信する。ホストマシン10では、修
正後データを基に処理結果ファイルのレコード更新を行
なう。
一方、端末22からのキーボード操作により、ホストマ
シン10のレーザープリンタ21に指定された処理結果ファ
イルあるいはレコードのプリンタ出力を行なう。オペレ
ータによるPキー(プリントキー)の押下による処理結
果ファイルあるいは処理結果レコード単位のプリント出
力要求があった場合、処理種毎のフォーマットに合せて
ホストマシン10から取り出したレコードのプリンタ出力
を行なう。
以上が自然言語処理システムの概要であるが、この自
然言語処理システムを用いてCD−ROMデータベースのキ
ーワードを自動作成する例が第1図である。すなわち、
磁気記憶媒体に格納されたデータベースに対して先ず前
処理を行なう(ステップS10)。前処理の詳細は第2図
に示すようになっており、最初にデータの抽出を行ない
(ステップS11)、抽出したデータのコード変換を行な
う(ステップS12)。そして、コード変換されたデータ
に対して自然言語処理入力ファイルを作成し(ステップ
S13)、全データに対して上記動作を繰り返す。データ
の抽出はデータベースより当処理でキーワードを作成す
る元データの抽出を行なうもので、コード変換データは
JISコード及びCTSコードで作成されている場合が多い。
自然言語処理システムのコード体系は一般的にシステム
固有コードであるため、データのコード変換を行なう必
要がある。また、自然言語処理入力ファイル作成は、抽
出したデータ毎に自然言語処理入力ファイルレコードの
作成を行なうものである。
上述のように前処理されたデータは次のステップS1で
自然言語処理されるが、これに関しては後に詳述する。
自然言語処理では自然言語処理入力ファイルを作成し、
自然言語処理で基本辞書115(システム辞書131+ユーザ
辞書132)を参照して、第3図に示すような入力原文デ
ータに対して第4図に示すように分かち書き(品詞分
解)及びカナ振りを行なう。分かち書きされたデータの
直前にはその単語の品詞識別IDが付加されており、単語
の品詞を判別できるようになっている。次に、自然言語
処理された自然言語処理出力ファイルに対して後処理を
行なう(ステップS20)。後処理の詳細は第5図に示す
ようになっており、先ず品詞抽出を行なう(ステップS2
1)。すなわち、分かち書き/カナ振りの行なわれたデ
ータから名詞,形容詞,動詞の抽出を行なう。そして、
複合語作成を行なうが(ステップS22)、これは名詞が
連続している場合に複合語の作成を行なうものである。
例えば自然言語処理結果が“自然/言語/処理”の場
合、複合語は“自然、自然言語、自然言語処理、言語、
言語処理、処理”となる。これと同時に形容詞,動詞は
語尾の終止形への変換を行なう(ステップS23)。そし
て、自然言語処理システムの処理結果はシステム固有コ
ードで出力されるので、CTSコードへのコード変換を行
ない(ステップS24)、次にデータベースの作成を行な
う(ステップS25)。つまり、品詞を抽出し、加工され
た単語をCD−ROM検索用キーワード候補語としてデータ
ベースへの登録を行なう。次に、データベースの内容を
リスト出力し(ステップS2)、赤字等を入れた後にキー
ワードデータの校正を行なう。校正を終了したキーワー
ドデータをCD−ROM検索用キーワードとする。分かち書
き及びカナ振りが正しく行なわれなかったデータについ
て、基本辞書115(実際はユーザ辞書132)の修正を行な
い、次回の自然言語処理の精度の向上を図る。
基本辞書115は自然言語処理(分かち書き/カナ振
り)を行なう上で一番基本となる辞書で、システム辞書
131とユーザ辞書132とから構成されている。ユーザ辞書
132の修正を行なう事により、自然言語処理の精度を向
上する事が出来る。
この発明ではCTSの自然言語処理の汎用入出力ファイ
ルとして汎用ファイル(以下、NLファイルとする)を用
いているが、NLファイルでは第13図に示すようにNLイン
ファイル,NLアウトファイル及びNL情報ファイルの3種
類で構成され、フォーマットは同一である。全体のフォ
ーマットはヘダーレコード及びデータレコードで成って
おり、ヘダーレコードにはレコード識別,シーケンス番
号,ファイル識別,ジョブ名,原稿名,CTSシステム名等
がある。また、データレコードとしてはレコード識別,
シーケンス番号,データ番号,処理種,データ等が含ま
れている。
入力ルーチンS100は第14図に示すように、NLインファ
イルをパラメータと共に読込んで自然言語処理入力ファ
イル及びNL情報ファイルを作成するようになっており、
その詳細は第15図に示すようになっている。NLインファ
イルを読込んで、パラメータの指定によるファンクショ
ンの削除及びコード変換(外部→システム固有コード)
を行ない、自然言語処理入力ファイルを作成する。削除
したファンクションの位置情報及びコード変換情報は、
NL情報ファイルに格納し、処理終了後にジョブ名等をリ
スト出力する。パラメータチェック(ステップS101)で
は、ファンクション削除実行の有無及びコード変換情報
の指示の解析を行なう。
ヘダーレコード作成(ステップS102)では、NLインフ
ァイルのヘダーレコードの内容より、自然言語処理入力
ファイル及びNL情報ファイルのヘダーレコードを作成す
る。
自然言語処理入力ファイル (a)ダミー1 LOW(25) 固定 (b)ファイル識別 “I" 固定 (c)品目通番 NLインファイルヘダーレコードの原稿名をセットす
る。
(d)ジョブ名 NLインファイルヘダーレコードのJOB名をセットす
る。
(e)原稿名 NLインファイルヘダーレコードの原稿名をセットす
る。
(f)ファイル作成日時 当ファイルが作成された日時 (g)ダミー2 LOW(12) 固定 (h)CTSシステム名 NLインファイルヘダーレコードのCTSシステム名をセ
ットする。
(i)シソーラス識別 NLインファイルヘダーレコードのシソーラス識別をセ
ットする。
(j)しぼりこみパラメータ NLインファイルヘダーレコードのしぼりこみパラメー
タをセットする。
NL情報ファイル 次の3点を除いてNLインファイルと同じである。
(A)FILE識別 “J" 固定 (b)F情報データ有無 NLインファイルヘダレコードのデータレコード識別が
“CTS"(データがCTSコード)でファンクションの削除
を行なう(パラメータが“N")時、“Y"をセットし、そ
れ以外は“N"をセットする。
(c)C情報データ有無 “Y"をセットする。
NLインファイルヘダーレコードのデータコード識別は
“DEC"、“CTS"“JIS"(データがDEC,CTS,JISコード)
のみ許される。
同データNOのデータの読込21(ステップS103)の処理
は、同データNOを持つレコードの全有効データを処理単
位とする。従って、NLインファイルデータレコード中の
同データNOを持つデータレコードから有効データを抽出
する。データの加工(ステップS104)では、NLインファ
イルから抽出したデータのファンクションの削除及びコ
ード変換を行なう。削除したファンクションの情報(位
置,ファンクション)コード及びコード変換情報(変換
前コード,変換後コード)はNL情報ファイルへ、処理さ
れたデータは自然言語処理入力ファイルに出力する。
ファンクションの削除 NLインファイルヘダーレコードのデータレコード識別
が“CTS"でパラメータが“N"の時のみファンクションを
削除する。
ファンクションを削除する場合、ルビ文字の削除も行
なう。
ルビファンクションの定型は第18図のようになる。
「ルがデータ中にあった場合、次に現れる区1から
ル」まではファンクションとみなす。
コード変換 NLインファイルヘダーレコードのデータレコード識別
が “CTS"の時、コード変換テーブルを用いて変換する。
“JIS"の時、JISコードに[8080]を加算する。
“DEC"の時、何もしない。
インバリッドコードはパラメータで与えられたコード
に設定する。ただし、パラメータ省略時は[A1A1](ブ
ランク)とする。
自然言語処理固有コードに変換した後、第19図左欄の
コードのものは自然言語処理で発生され出力データ中で
区切りとして用いられるコードと同一のため、元データ
と区別するために更に第19図の右欄に示すように変換す
る。
再変換したコードのコード変換情報をNL情報ファイル
へ格納する時は、外部コードとそれに対応する再変換後
のコードをセットする。1W対1Wの例外変換が指定出来
る。
削除コード 外部コードの自然言語処理固有コードに変換した後、
そのコードが自然言語処理で扱えないコードの場合に
は、そのコードを削除する。
削除したコードについては、コード変換情報をNL情報
ファイルに出力しない。
削除コード範囲〜2バイトコードの前半、後半1バイ
トのどちらか一方でも“00"から“A0"の時。
また、データレコードの作成(ステップS105)では、
同データNOの加工後(ファンクションの削除,コード変
換)のデータを自然言語処理入力ファイルへ出力し、加
工情報をNL情報ファイルへ出力する。
自然言語処理入力ファイル (a)データNO 処理したデータのNLインファイルデータレコードのデ
ータNOをセットする。
(b)処理結果再編集情報 処理したデータのNLインファイルデータレコードの処
理結果再編集情報をセットする。
(c)処理種 処理したデータのNLインファイルデータレコードの処
理種をセットする。
(d)データ属性 処理したデータのNLインファイルデータレコードの分
野辞書IDをセットする。
(分野別辞書〜専門分野辞書) (e)レコード継続フラグ 加工後のデータが1レコードに入り切らない時は、次
レコードへ継続する。次レコードへ継続する場合には
“1"をしない場合には“0"をセットする。
(f)ダミー LOW(11)固定。
(g)ポインタ1 入力原文データの開始位置。データNOの先頭を1とし
た時のバイト数。
(h)ポインタ2 次レコードへ継続する場合にはHIGH(2)をしない場
合にはLOW(2)をセットする。
(i)入力原文データ 加工後データをセットする。
NL情報ファイル (a)REC識別 ・ファンクション位置情報のレコードは“F"を、変換コ
ード情報のレコードは“C"をセットする。情報レコード
はNLインファイル中のデータNO順に並び、同データNO中
ではF→Cの順に並ぶ。第20図にその例を示す。
・当ファイルのヘダーレコードの情報データの有無が
“N"の情報レコードは存在しない。例えば、F情報デー
タの有無が“N"でCC情報データの有無が“Y"の場合、NL
情報ファイル中にはREC識別が“C"のレコードしか存在
しない。
(b)SEQ.NO. NL情報ファイルのヘダーレコードからの通し番号をセ
ットする。
(c)データNO. 当レコードの情報の発生元のデータのデータNOをセッ
トする。
(d)データNO内分割NO 同データNOの情報データが1レコードに入り切らない
場合には、次レコードに継続する。同データNO内の通し
番号(1〜)をセットする。
(e)処理結果再編集情報 当レコードの情報の発生元のデータの処理結果再編集
情報をセットする。
(f)処理種 当レコードの情報の発生元のデータの処理種をセット
する。
(g)分野別辞書ID 当レコードの情報の発生のデータの分野別辞書IDをセ
ットする。
(h)有効データバイト数 次に続くデータ200バイトの中で有効なデータの長さ
をセットする。
(i)データ ファンクション位置情報(F′)(第21図参照) F情報データ有無が“Y"で、ファンクション情報のな
いデータNOの時は、有効データバイト数を0にする。フ
ァンクションが連続している場合には、連続しているフ
ァンクションを一括して扱う。
変換コード情報(“C") 外部コードと自然言語処理固有コードが交互に並ぶ。
その例を第22図に示す。NLインタファイルのデータが自
然言語処理固有コードの場合には、外部=自然言語処理
固有コードである。
一方、第13図の出力ルーチンS200は第16図に示すよう
に、自然言語処理の後処理として自然言語処理出力ファ
イルとNL情報ファイルを、パラメータと共に読込んでNL
アウトファイルを作成するものであり、その詳細は第17
図のようになっている。すなわち、自然言語処理出力フ
ァイルとNL情報ファイルを読込んで、パラメータの指定
によるファンクションの復帰及びコード変換(システム
固有コード→外部)を行ない、NLアウトファイルを作成
する。パラメータチェック(ステップS201)では、ファ
ンクション復帰実行の有無及びコード変換情報の指示の
解析を行なう。
ヘダーレコードの作成(ステップS203)では、NL情報
ファイル及び自然言語処理出力ファイルのヘダーレコー
ドの内容よりNLアウトファイルのヘダーレコードを作成
する。
REC識別 “H"固定。
SEQ.NO. “I"固定。
ファイル識別 “O"固定。
データコード識別 NL情報ファイルヘダーレコードのデータコード識別を
セットする。
品目番号 NL情報ファイルヘダーレコードの品目番号をセットす
る。
JOB名 NL情報ファイルヘダーレコードのJOB名をセットす
る。
原稿名 NL情報ファイルヘダーレコードの原稿名をセットす
る。
FILE作成日時 当ファイルが作成された日時。
自然言語処理開始日時 自然言語処理出力ファイルヘダーレコードの処理作成
開始日時をセットする。
自然言語処理終了日時 自然言語処理出力ファイルヘダーレコードの処理終了
日時をセットする。
CTSシステム名 NL情報ファイルヘダーレコードのCTSシステム名をセ
ットする。
シソーラス識別 NL情報ファイルヘダーレコードのシソーラス識別をセ
ットする。
しぼり込みパラメータ NL情報ファイルヘダーレコードのしぼり込みパラメー
タをセットする。
情報データ有無 LOW(1)固定×2 同データNOのデータの読込み(ステップS204)は同デ
ータNOを持つレコードの全有効データを処理単位とす
る。自然言語処理出力ファイルデータレコード中には、
入力原文データと処理結果データが存在するが、処理結
果データのみを有効データとする。従って、自然言語処
理出力ファイルレコード中の同データNOを持つデータレ
コードから処理結果データを抽出する。また、データの
加工(ステップS205)では、自然言語処理出力ファイル
から抽出したデータにファンクションの復帰及びコード
変換を行なう。加工したデータはNLアウトファイルに出
力する。
ファンクションの復帰 NL情報ファイルヘダーレコードのF情報データ有無が
“Y"で、パラメータが“Y"の時にファンクション情報に
従ってデータ中にファンクションを復帰する。ファンク
ションの復帰方法は、データの処理種により異なる。
(a)処理種1 ・「ル、区1〜ル」は復帰しない。
・処理結果データ中で以下のコードは、自然語処理によ
り付加されたデータである。
スラッシュ“/"[A1BF] アスキーコード これ以外のデータは、自然言語処理入力ファイル中の
入力原文データと同じである。このデータとファンクシ
ョン情報により、処理結果データ中の所定の位置にファ
ンクションを復帰する。
・復帰位置が処理結果データの先頭の場合には、スラッ
シュ,アスキーコード以外のコードの先頭文字の直前に
ファンクションを復帰する。(b)処理種2 ファンクションは復帰しない。
(c)処理種3 ・「ル、区1〜ル」は復帰しない。
・処理結果データ中で以下のコードは、自然言語処理に
より付加されたデータである。
カッコ初め “≪”[A1D4] カッコ終わり“≫”[A1D5] アスタリスク“*”[A1F6] これ以外のデータは、自然言語処理入力ファイル中の
入力原文データと同じである。このデータとファンクシ
ョン情報により、処理結果データ中の所定の位置にファ
ンクションを復帰する。
・ファンクションを復帰する場合には、“≪”と“*”
の間のデータの先頭文字の直前及び最終文字の直後に復
帰する場合には、前者は“≪”の直前に、後者は“≫”
の直後に復帰する。
(d)処理種4 ・ファンクションは復帰しない。
コード変換 ・自然言語処理結果データは、以下のデータから構成さ
れる。
入力原文データ セパレータ(“/"、“*”、“≪”、“≫”、“|") カナ振り文字 アスキーコード文字 ・入力原文データは、NL情報ファイルヘダーレコードの
C情報データ有無が“Y"の時、コード変換情報に従って
コード変換を行なう。
・処理種1〜3の場合には、処理結果データ中に入力原
文データが順番通りに全て含まれているので、コード変
換情報を先頭から検索してコード変換を行なう。
・処理種4の場合には、NL情報ファイルのコード変換情
報は参照せず、次頁の自然言語処理付加コードのコード
変換のカナ振り文字と同等にコード変換を行なう。
自然言語処理付加コードのコード変換 自然言語処理により処理結果データ中に付加されたセ
パレータ、カナ振り文字、アスキーコード文字の変換は
第23図の通りである。また、アスキーコード文字の変換
は第24図のようになる。カナ振り文字はNL情報ファイル
ヘダーレコードデータコード識別により異なる。
・“DEC"の時、変換しない。
・“CTS"の時、コード変換テーブルを使用して変換を行
なう。インバリッドコード[A088] ・“JIS"の時、自然言語処理固有コードから[8080]を
引く。インバリッドコード[222E] この発明はCD−ROM等のデータベースの構築支援とし
て利用でき、データ検索用キーワードの抽出,抽出した
キーワードへの読みの付加を行ない得る。また、印刷業
務での利用が可能で、カナ振り機能を利用した総ルビの
印刷物作成や名簿の住所,氏名などの項目の自動カナ振
り,索引作成の支援システムとして利用できる。
発明の効果; 以上のようにこの発明のシステムによれば、専門的な
知識や技術を要することなく自動的にCD−ROMデータの
検索用キーワードを作成するシステムとCTSを効率良く
結合することができる。
【図面の簡単な説明】
第1図はこの発明を適用できるシステムの動作例を示す
フローチャート、第2図は前処理の動作例を示すフロー
チャート、第3図は自然言語処理する原文の例を示す
図、第4図は分かちカナの例を示す図、第5図は後処理
の動作例を示すフローチャート、第6図は自然言語処理
システムのハードウエア構成例を示すブロック図、第7
図はそのソフトウエア構成例を示す図、第8図は分かち
書きの出力形式を示す図、第9図はカナ振りの出力形式
を示す図、第10図は分野別辞書を使用したカナ振りの出
力形式を示す図、第11図は総ルビ振りの出力形式を示す
図、第12図はキーワード抽出及びキーワードへのカナ振
りの出力形式を示す図、第13図はこの発明の汎用ファイ
ルの構成例を示すフローチャート、第14図は入力ルーチ
ンの入出力を示す図、第15図は入力ルーチンの詳細を示
すフローチャート、第16図は出ルリーチンの入出力を示
す図、第17図は出力ルーチンの詳細を示すフローチャー
ト、第18図〜第24図はこの発明の汎用ファイルを説明す
るためのである。 10……ホストマシン、11……CPU、12……メモリ、14…
…磁気デイスク装置、15……カセット磁気テープ装置、
20……磁気テープ装置、21……レーザープリンタ、22…
…確認/修正用端末、23……コンソール端末。
フロントページの続き (56)参考文献 齋藤「印刷業における自然言語処理の 応用事例」情報管理,Vol.33,N o.5,Aug.1990(平2−8− 1),p.425−433 鈴木「活力ある活字組版の再生を求め て−多目的コンバートシステムの採用 −」印刷雑誌,Vol.65,No.11, p.3−11,1982(昭57−11−15) 荒尾「文字処理標準化についての交差 ▲III▼ ワードプロセッサから電算 写植へ」印刷雑誌,Vol.67,No. 1,p.49−55,1984(昭59−1−15) 阿部「ワープロのCTSへの活用 A NETシステムについて」印刷界,N o.361,p.34−38,1983(昭58−12) 後藤「電子組版システム特集 ワープ ロのコンバート これだけは知っておき たい」印刷界,No.433,p.43−51, 1989(平1−12) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/30 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】記憶媒体に記憶された組版情報を表すファ
    ンクションデータを含むCTSのコード体系を用いて作成
    されているデータに対して、基本辞書を参照して自然言
    語処理による分かち書き、カタ振り及びキーワード抽出
    処理を行うシステムにおいて、前記CTSコード体系から
    前記自然言語処理のコード体系へのコード変換を行う際
    に、後に前記自然言語処理コード体系データから前記CT
    Sのコード体系データに戻すときのために、削除したフ
    ァンクションの位置情報及びコード変換情報を有するフ
    ァイルを作成する手段を有することを特徴とする自然言
    語処理システム。
JP2318274A 1990-11-22 1990-11-22 自然言語処理システム Expired - Lifetime JP3016040B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2318274A JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2318274A JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Publications (2)

Publication Number Publication Date
JPH04330565A JPH04330565A (ja) 1992-11-18
JP3016040B2 true JP3016040B2 (ja) 2000-03-06

Family

ID=18097377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2318274A Expired - Lifetime JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Country Status (1)

Country Link
JP (1) JP3016040B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JP3313490B2 (ja) * 1993-12-14 2002-08-12 大日本印刷株式会社 キーワード作成装置
JP2001331496A (ja) * 2000-05-22 2001-11-30 Nec Corp ドメイン用語辞書作成システム及び方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
後藤「電子組版システム特集 ワープロのコンバート これだけは知っておきたい」印刷界,No.433,p.43−51,1989(平1−12)
荒尾「文字処理標準化についての交差▲III▼ ワードプロセッサから電算写植へ」印刷雑誌,Vol.67,No.1,p.49−55,1984(昭59−1−15)
鈴木「活力ある活字組版の再生を求めて−多目的コンバートシステムの採用−」印刷雑誌,Vol.65,No.11,p.3−11,1982(昭57−11−15)
阿部「ワープロのCTSへの活用 ANETシステムについて」印刷界,No.361,p.34−38,1983(昭58−12)
齋藤「印刷業における自然言語処理の応用事例」情報管理,Vol.33,No.5,Aug.1990(平2−8−1),p.425−433

Also Published As

Publication number Publication date
JPH04330565A (ja) 1992-11-18

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP2783558B2 (ja) 要約生成方法および要約生成装置
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
EP0645720A2 (en) Dictionary creation supporting system
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
CA2227383A1 (en) Method and apparatus for automated search and retrieval processing
JPS63273964A (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
US5289376A (en) Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus
Hishiki et al. Developing NLP tools for genome informatics: An information extraction perspective
JPH08147311A (ja) 構造化文書検索方法及び装置
JP3016040B2 (ja) 自然言語処理システム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH0877196A (ja) 文書情報抽出装置
JP2778025B2 (ja) 共起関係辞書の学習方法
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH0486948A (ja) 分野別辞書を利用したカナ振りデータベースの作成方法
JP2854000B2 (ja) 検索装置
JPH04243477A (ja) 自然言語処理システムによる索引語抽出方法
JP2621999B2 (ja) 文書処理装置
JP2830097B2 (ja) 文章検索方式
JP2000029882A (ja) 要約文作成装置
JP2973369B2 (ja) 日本文形態素解析処理用日本語辞書構成装置
Schmitt et al. Linguistic computing with UNIX tools
JPH0981581A (ja) データベースの作成方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101224

Year of fee payment: 11

EXPY Cancellation because of completion of term