JPH04330565A - 自然言語処理システム - Google Patents

自然言語処理システム

Info

Publication number
JPH04330565A
JPH04330565A JP2318274A JP31827490A JPH04330565A JP H04330565 A JPH04330565 A JP H04330565A JP 2318274 A JP2318274 A JP 2318274A JP 31827490 A JP31827490 A JP 31827490A JP H04330565 A JPH04330565 A JP H04330565A
Authority
JP
Japan
Prior art keywords
data
processing
natural language
language processing
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2318274A
Other languages
English (en)
Other versions
JP3016040B2 (ja
Inventor
Masa Saito
雅 斎藤
Hiroshi Teranishi
浩 寺西
Takahiro Nakajima
孝浩 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2318274A priority Critical patent/JP3016040B2/ja
Publication of JPH04330565A publication Critical patent/JPH04330565A/ja
Application granted granted Critical
Publication of JP3016040B2 publication Critical patent/JP3016040B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の目的: (産業上の利用分野) この発明は、自然言語処理システムを利用してキーワー
ドの抽出を行なうデータの分かち書き/カナ振りを行な
い、品詞情報より名詞、形容詞、動詞の抽出を行なうキ
ーワードを作成するようにしたシステムとCTS(Co
mputerized TypeSetting)シス
テムとを結合した汎用ファイルを用いた自然言語処理シ
ステムに関する。
(従来の技術) 最近、印刷物用に蓄積した文書データを2次利用してC
D−ROMやデータベースを作成することが多くなつて
いる。そして、データベース検索用のキーワードを抽出
する作業は、従来より専門家による手作業によっていた
(発明が解決しようとする課題) データベース検索用のキーワードを抽出する作業が、従
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。また、印刷分野ではコンピュータ
植字のCTSが大いに発展して来ており、他のシステム
との接続も強く要請されている。
この発明は上述のような事情より成されたものであり、
この発明の目的は、AI(人工知能)の一分野の自然言
語処理技術を利用したシステムとCTS(Comput
erized Type Setting)システムと
を結合した汎用ファイルを用いた自然言語処理システム
を提供することにある。
発明の構成、 (課題を解決するための手段) この発明はCTSに接続される自然言語処理システムに
関するもので、この発明の上記目的は、組版情報を表わ
すファンクションデータを含むCTSのコード体系と自
然言語処理のコード体系との間で往復のコード変換を行
なう汎用ファイルを設けることによって達成される。
(作用) この発明では、CD−ROMデータに対する検索用キー
ワードの作成にAIの一種である自然言語処理を用いて
おり、基本辞書を参照して入力原文データに対して分か
ち書き(品詞分解)及びカナ振りを自動的に行なってい
ると共に、このシステムに対してCTSシステムを接続
し、CTSのファンクションデータを有効にかつ正確に
利用できるようにしている。また、CTSのコード体系
と自然言語処理システムのコード体系の違いがデータに
影響を及ぼさないようにしている。
コンピュータに内蔵した内蔵とAI手法により名詞、助
詞、動詞等の要素に分解し、分割された文書の漢字への
読みがなの付加とキーワードの抽出を行なう。従来は人
手によって行なわれた作業を機械が処理するので、後は
従来と同じチェックだけで済む。作成されたキーワード
は、CD−ROMやオンラインデータベースのインデッ
クスとして加工されて利用され、またカナ振り機能を利
用して総ルビの本として組版することもでき、汎用ファ
イルを用いて従来よりのCTSデータをそのまま利用す
ることができる。
(実施例) 先ず、この発明で用いる自然言語処理システムについて
説明する。
第6図は自然言語処理システムのハードウェア構成例を
示しており、ホストマシン10にはCPU11及び実装
メモリ12が内蔵されると共に、バスライン13を介し
て磁気ディスク装置14、カセット磁気テープ装置15
が接続されている。ホストマシン10には、更に磁気テ
ープ装置2a、レーザープリンタ21及びコンソール端
末23が接続されると共に、RS−232Cのインター
フェイス16を介して確認/修正用端末22が接続され
ている。
第7図は自然言語処理システムのソフトウェア構成を示
しており、磁気テープからの入力データは入力処理10
1されて取込まれ、ホストマシン10で処理された情報
は出力処理120されて磁気テープの出力データとなる
。すなわち、入力処理101は自然言語処理システム入
力データ磁気テープをディスクファイル上に入力データ
102としてコピーし、漢字コード等のチェックを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理120はディスク上の処理結果ファイルを処理
結果データ121として自然言語処理出力磁気テープへ
コピーする。ドライバ103は入力データ102の分類
/解析を行ない、日本語処理システム110を制御し、
分かち書き、カナ振り、キーワード抽出結果を取得し、
自然言語処理システム出力データ形式で、処理結果を編
集/出力する。
日本語処理システム110は基本辞書アクセスルーチン
112を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として出力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の(a)、(b)に該当すると
きに名詞として抽出する。
(a)一般名詞、サ変型名詞、形動型名詞、転成名詞、
時詞、数詞、固有名詞、代名詞、形式名詞 (b)接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。
■接頭辞の場合 後方品・一般名詞、サ変型名詞、形動型名詞、転成名詞
、時詞、数詞、固有 名詞、代名詞、形式名詞 ■接尾辞の場合 前方品詞:一般名詞、サ変型名詞、形動型名詞、転成名
詞、時詞、数詞、固有 名詞、代名詞、形式名詞 また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析、構文解析、知
識処理等の手法を用いてアクセスファイルルーチン11
1と協働して入力日本語文章の解析を行ない、キーワー
ド抽出、絞り込み、重要度評価を行なう。
端末通信処理工23は確認/修正用端末22との間で通
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト出力処理122は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ21に出力する。
ところで、ホストマシン10が扱い得る自然言語処理機
能は、 A、処理種1:分かち書き B、処理種2:カナ振りI(分かち暑き単位のカナ振り
) C、処理種3:カナ振りII(漢字単位のカナ振り、総
ルビ振り) D、処理種:4キーワード抽出及びキーワードへのカナ
振り の4種であり、入力ファイルのレコード単位に上記各機
能を切替えて処理することができる。
次に、各機能(処理種1〜4)について説明する。
A、分かち書き(処理種1) 日本語文章(漢字かな交じり文)を入力して分かち書き
を行ない、名詞、動詞、形容詞について品詞情報を付加
する。出力される情報は、スラッシュ“/“による分か
ち書きと品詞情報(名詞、動詞、形容詞、未知語)であ
る。処理種1の出力形式は第8図のようになる。
B、カナ振りI(処理種2:分かち書き単位のカナ振り
): 日本語文章(漢字かな交じり分)を入力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き、品詞情報(名詞、動詞
、形容詞、未知語)、分かち書き単語へのカナ振り結果
である。処理種2の出力形式は第9図のようになる。
c、カナ振りII(処理種3): この処理種3は、分野別辞106を使用したカナ振り及
び総ルビ振り(漢字(列)単位のカナ振り)の機能を有
している。分野別辞書106を使用したカナ振りは人名
、地名、各種専門用語等の項目データに対して、品目専
用の辞書を利用してカナ振りを行なうものである。かな
振りの方法は項目データをKEYにして分野別辞書10
6をサーチし、マッチングした場合に分野別辞書106
に登録されているカナを振る。これでカナが得られなか
った場合、日本語処理システムを呼出して基本辞書11
5によってカナを振る。
データの入力形式は、単項目データの場合は“項目デー
タ”であり、複数項目データを1レコードで処理する場
合は、“項目データ1”/項目データ2”/……・/“
項目データN”のように各項目データをスラッシュで区
切るようにしている。そして、出力される情報は、入力
項目データに対する読み(カタカナ)とカナデータの典
拠辞書識別(どの辞書に基づいてカナが振られたかの識
別)である。処理種3の出力形式は第10図のようにな
っており、■分軒別辞書106で読みが取得された場合
、■基本辞書115で読みが取得された場合、■分野別
辞書106及び基本辞書115の両方共に読みが登録さ
れていない場合、に分けて識別コード(例えばAA、A
B、AC)を与えている。
分野別辞書106を使用したカナ振りで処理対象となる
データは、人名、地名、各種専門用語等の項目データ(
主に固有名詞)であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り(
漢字(列)単位のカナ振り)の機能は、日本語文章(漢
字かな交じり文)を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、入力原文中の
漢字(列)(JIS非漢字以外)に対してカナ(ルビ)
を振り、ルビは「群扱いルビ」の形式で振られる。その
出力形式は第11図のようになつている。
D、キーワード抽出及びキーワードへのカナ振り(処理
種4): 入力した日本語文章から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。
出力される情報は、抽出されたキーワード。
キーワードの読み(カタカナ)及びキーワードの解析結
果であり、出力形式は第12図のようになっている。な
お、解析情報は、日本語処理システムによるキーワード
認定の過程で得られた解析情報がセットされるエリアで
ある。
確認/修正用端末22の機能は、処理結果ファイルの中
の入力原文データと処理結果データ121をホストマシ
ン10より端末通信処理123を介して受け取り、端末
装置のディスプレイに表示し、ホストマシン10のレー
ザープリンタ21に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末2
2からのキーボード操作により、確認/修正を行なう処
理結果ファイルのジョブ名指定を行ない、1レコード毎
に入力原文データと処理結果データ121を端末装置の
ディスプレイ上に表示し、確認/修正作業を行なう。
ディスプレイの表示形式は、処理種により以下(A)〜
(D)のようになっている。
(A)処理種1(分かち書き)の場合は、入力原文と 処理された入力原文の分かち書き結果を画面出力する。
(B)処理種2(分かち書き単位のカナ振り)の場合は
、入力原文と処理された入力原文の分かち書き単位のカ
ナ振り結果を画面出力する。
(C)処理種3(総ルビ振り)の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。
(D)処理種4(キーワード抽出)の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。
次に、キーボード操作により処理結果データの修正を行
なうが、基本的な修正機能を以下に挙げて説明する。
処理種3及び処理種4の場合のみ修正が可能である。処
理種3(総ルビ振り)の場合はカナ振り結果の修正が可
能であり、処理種4(キーワード抽出)の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えが可能である。
端末22で処理結果データ121の修正があつた場合、
キーボード操作によつて修正後データをホストマシン1
0に送信する。ホストマシン10では、修正後データを
基に処理結果ファイルのレコード更新を行なう。
一方、端末22からのキーボード操作により、ホストマ
シン10のレーザープリンタ21に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう。オ
ペレータによるPキー(プリントキー)の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理種毎のフォーマットに合
せてホストマシン10から取り出したレコードのプリン
タ出力を行なう。
以上が自然言語処理システムの概要であるが、この自然
言語処理システムを用いてCD−ROMデータベースの
キーワードを自動作成する例が第1図である。すなわち
、磁気記憶媒体に格納されたデータベースに対して先ず
前処理を行なう(ステップS10)。前処理の詳細は第
2図に示すようになっており、最初にデータの抽出を行
ない(ステップS11)、抽出したデータのコード変換
を行なう(スチップS12)。そして、コード変換され
たデータに対して自然言語処理入力ファイルを作成し(
ステップS13)、全データに対して上記動作を繰り返
す。データの抽出はデータベースより当処理でキーワー
ドを作成する元データの抽出を行なうもので、コード変
換データはJISコード及びCTSコードで作成されて
いる場合が多い。自然言語処理システムのコード体系は
一般的にシステム固有コードであるため、データのコー
ド変換を行なう必要がある。また、自然言語処理入力フ
ァイル作成は、抽出したデータ毎に自然言語処理入力フ
ァイルレコードの作成を行なうものである。
上述のように前処理されたデータは次のステップS1で
自然言語処理されるが、これに関しては後に詳述する。
自然言語処理では自然言語処理入力ファイルを作成し、
自然言語処理で基本辞書115(システム辞書131+
ユーザ辞書132)を参照して、第3図に示すような入
力原文データに対して第4図に示すように分かち書き(
品詞分解)及びカナ振りを行なう。分かち書きされたデ
ータの直前にはその単語の品詞識別IDが付加されてお
り、単語の品詞を判別できるようになっている。次に、
自然言語処理された自然言語処理出力ファイルに対して
後処理を行なう(ステップS20)。後処理の詳細は第
5図に示すようになっており、先ず品詞抽出を行なう(
ステップS21)。すなわち、分かち書き/カナ振りの
行なわれたデータから名詞、形容詞、動詞の抽出を行な
う。そして、複合語作成を行なうが(ステップS22)
、これは名詞が連続している場合に複合語の作成を行な
うものである。例えば自然言語処理結果が“自然/言語
/処理”の場合、複合語は“自然、自然言語、自然言語
処理、言語、言語処理、処理”となる。これと同時に形
容詞、動詞は語尾の終止形への変換を行なう(ステップ
S23)。そして、自然言語処理システムの処理結果は
システム固有コードで出力されるので、CTSコードへ
のコード変換を行ない(ステップS24)、次にデータ
ベースの作成を行なう(ステップS25)。つまり、品
詞を抽出し、加工された単語をCD−ROM検索用キー
ワード候補語としてデータベースへの登録を行なう。次
に、データベースの内容をリスト出力し(ステップS2
)、赤字等を入れた後にキーワードデータの校正を行な
う。校正を終了したキーワードデータをCD−ROM検
索用キーワードとする。分かち書き及びカナ振りが正し
く行なわれなかったデータについて、基本辞書115(
実際はユーザ辞書132)の修正を行ない、次回の自然
言語処理の精度の向上を図る。
基本辞書115は自然言語処理(分かち書き/カナ振り
)を行なう上で一番基本となる辞書で、システム辞書1
31とユーザ辞書132とから構成されている。ユーザ
辞書132の修正を行なう事により、自然言語処理の精
度を向上する事が出来る。
この発明ではCTSの自然言語処理の汎用入出力ファイ
ルとして汎用ファイル(以下、NLファイルとする)を
用いているが、NLファイルでは第13図に示すように
NLインファイル、NLアウトファイル及びNL情報フ
ァイルの3種類で構成され、フォーマットは同一である
。全体のフォーマットはヘダーレコード及びデータレコ
ードで成っており、ヘダーレコードにはレコード識別、
シーケンス番号、ファイル識別、ジョブ名、原稿名、C
TSシステム名等がある。また、データレコードとして
はレコード識別、シーケンス番号、データ番号、処理種
、データ等が含まれている。
入力ルーチンS100は第14図に示すように、NLイ
ンファイルをパラメータと共に読込んで自然言語処理入
力ファイル及びNL情報ファイルを作成するようになっ
ており、その詳細は第15図に示すようになつている。
NLインファイルを読込んで、パラメータの指定による
ファンクションの削除及びコード変換(外部→システム
固有コード)を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコード
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチェック(ステッ
プS101)では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう。
ヘダーレコード作成(ステップS102)では、NLイ
ンファイルのヘダーレコードの内容より、自然言語処理
入力ファイル及びNL情報ファイルのヘダーレコードを
作成する。
■自然言語処理入力ファイル (a)ダミー1 LOW(25)固定 (b)ファイル識別 “I”固定 (c)品目通番 NLインファイルヘダーレコードの原稿名をセットする
(d)ジョブ名 NLインファイルヘダーレコードのJOB名をセットす
る。
(e)原稿名 NLインファイルヘダーレコードの原稿名をセットする
(f)ファイル作成日時 当ファイルが作成された日時 (g)ダミー2 LOW(12)固定 (h)CTSシステム名 NLインファイルヘダーレコードのCTSシステム名を
セットする。
(i)シソーラス識別 NLインファイルヘダーレコードのシソーラス識別をセ
ットする。
(j)しぼりこみパラメータ NLインファイルヘダーレコードのしぼりこみパラメー
タをセットする。
■NL情報ファイル 次の3点を除いてNLインファイルと同じである。
(a)FILE識別 “J”固定 (b)F情報データ有無 NLインファイルヘダレコードのデータレコード識別が
“CTS”(データがCTSコード)でファンクション
の削除を行なう(パラメータが“N”)時、“Y”をセ
ットし、それ以外は“N”をセットする。
(c)C情報データ有無 “Y”をセットする。
NLインファイルヘダレーコードのデータコード識別は
“DEC”、“CTS”“JIS”(データがDEC、
CTS、JISコード)のみ許される。
同データNOのデータの読込21(ステップS103)
の処理は、同データNOを持つレコードの全有効データ
を処理単位とする。従って、NLインファイルデータレ
コード中の同データNOを持つデータレコードから有効
データを抽出する。データの加工(ステップS104)
では、NLインファイルから抽出したデータのファンク
ションの削除及びコード変換を行なう。削除したファン
クションの情報(位置、ファンクション)コード及びコ
ード変換情報(変換前コード、変換後コード)はNL情
報ファイルへ、処理されたデータは自然言語処理入力フ
ァイルに出力する。
■ファンクションの削除 NLインファイルヘダーレコードのデータレコード識別
が“CTS”でパラメータが“N”の時のみファンクシ
ョンを削除する。
ファンクションを削除する場合、ルビ文字の削除も行な
う。
ルビファンクションの定型は第18図のようになる。
「ルがデータ中にあった場合、次に現れる区1からル」
まではファンクションとみなす。
■コード変換 NLインファイルヘダーレコードのデータレコード識別
が “CTS”の時、コード変換テーブルを用いて変換する
。“JIS”の時、JISコードに[8080]を加算
する。
“DEC”の時、何もしない。
インバリッドコードはパラメータで与えられたコードに
設定する。ただし、パラメータ省略時は[A1A1](
ブランク)とする。
自然言語処理固有コードに変換した後、第19図左欄の
コードのものは自然言語処理で発生され出力データ中で
区切りとして用いられるコードと同一のため、元データ
と区別するために更に第19図の右欄に示すように変換
する。
再変換したコードのコード変換情報をNL情報ファイル
へ格納する時は、外部コードとそれに対応する再変換後
のコードをセットする。1W対1Wの例外変換が指定出
来る。
■削除コード 外部コードを自然言語処理固有コードに変換した後、そ
のコードが自然言語処理で扱えないコードの場合には、
そのコードを削除する。
削除したコードについては、コード変換情報をNL情報
ファイルに出力しない。
削除コード範囲〜2バイトコードの前半、後半1バイト
のどちらか一方でも“00”から“A0”の時。
また、データレコードの作成(ステップS105)では
、同データNOの加工後(ファンクションの削除、コー
ド変換)のデータを自然言語処理入力ファイルへ出力し
、加工情報をNL情報ファイルへ出力する。
■自然言語処理入力ファイル (a)データNO 処理したデータのNLインファイルデータレコードのデ
ータNOをセットする。
(b)処理結果再編集情報 処理したデータのNLインファイルデータレコードの処
理結果再編集情報をセットする。
(c)処理種 処理したデータのNLインファイルデータレコードの処
理種をセットする。
(d)データ属性 処理したデータのNLインファイルデータレコードの分
野辞書IDをセットする。
(分野別辞書〜専門分野辞書) (e)レコード継続フラグ 加工後のデータが1レコードに入り切らない時は、次レ
コードヘ継続する。次レコードへ継続する場合には“1
”をしない場合には“0”をセットする。
(f)ダミー LOW(11)固定。
(g)ポインタ1 入力原文データの開始位置。データNOの先頭を1とし
た時のバイト数。
(h)ポインタ2 次レコードへ継続する場合にはHIGH(2)をしない
場合にはLOW(2)をセットする。
(j)入力原文データ 加工後データをセットする。
■NL情報ファイル (a)REC識別 ・ファンクション位置情報のレコードは“F”を、変換
コード情報のレコードは“C”をセットする、情報レコ
ードはNLインファイル中のデータNC順に並び、同デ
ータNO中ではF−Cの順に並ぶ。第20図にその例を
示す。
・当ファイルのヘダーレコードの情報データの有無が“
N”の情報レコードは存在しない。例えば、F情報デー
タの有無が“N”でCC情報データの有無が“Y”の場
合、NL情報ファイル中にはREC識別が“C”のレコ
ードしか存在しない。
(b)SEQ.NO. NL情報ファイルのヘダーレコードからの通し番号をセ
ットする。
(c)データNO. 当レコードの情報の発生元のデータのデータNOをセッ
トする。
(d)データNO内分割NO 同データNOの情報データが1レコードに入り切らない
場合には、次レコードに継続する。同データNO内の通
し番号(1〜)をセットする。
(e)処理結果再編集情報 当レコードの情報の発生元のデータの処理結果再編集情
報をセットする。
(f)処理種 当レコードの情報の発生元のデータの処理種をセットす
る。
(g)分野別辞書ID 当レコードの情報の発生のデータの分野別辞書IDをセ
ットする。
(h)有効データバイト数 次に続くデータ200バイトの中で有効なデータの長さ
をセットする。
(i)データ ■ファンクション位置情報(F′)(第21図参照)F
情報データ有無が“Y”で、ファンクション情報のない
データNOの時は、有効データバイト数を0にする。フ
ァンクションが連続している場合には、連続しているフ
ァンクションを一括して扱う。
■変換コード情報(“C”) 外部コードと自然言語処理固有コードが交互に並ぶ。そ
の例を第22図に示す。NLインタファイルのデータが
自然言語処理固有コードの場合には、外部=自然言語処
理固有コードである。
一方、第13面の出力ルーチンS200は第16図に示
すように、自然言語処理の後処理として自然言語処理出
力ファイルとNL情報ファイルを、パラメータと共に読
込んでNLアウトファイルを作成するものであり、その
詳細は第17図のようになっている。すなわち、自然言
語処理出力ファイルとNL情報ファイルを読込んで、パ
ラメータの指定によるファンクションの復帰及びコード
変換(システム固有コード→外部)を行ない、NLアウ
トファイルを作成する。パラメータチェック(ステップ
S201)では、ファンクション復帰実行の有無及びコ
ード変換情報の指示の解析を行なう。
ヘダーレコードの作成(ステップS203)では、NL
情報ファイル及び自然言語処理出力ファイルのヘダーレ
コードの内容よりNLアウトファイルのヘダーレコード
を作成する。
■REC識別 “H”固定。
■SEQ.NO. “I”固定。
■ファイル識別 “O”固定。
■データコード識別 NL情報ファイルヘダーレコードのデータコード識別を
セットする。
■品目番号 NL情報ファイルヘダーレコードの品目番号をセットす
る。
■JOB名 NL情報ファイルヘダーレコードのJOB名をセットす
る。
■原稿名 NL情報ファイルヘダーレコードの原稿名をセットする
■FILE作成日時 当ファイルが作成された日時。
■自然言語処理開始日時 自然言語処理出力ファイルヘダーレコードの処理作成開
始日時をセットする。
■自然言語処理終了日時 自然言語処理出力ファイルヘダーレコードの処理終了日
時をセットする。
■CTSシステム名 NL情報ファイルヘダーレコードのCTSシステム名を
セットする。
■シソーラス識別 NL情報ファイルヘダーレコードのシソーラス識別をセ
ットする。
■しぼり込みパラメータ NL情報ファイルヘダーレコードのしぼり込みパラメー
タをセットする。
■情報データ有無 LOW(1)固定×2 同データNOのデータの読込み(ステップS204)は
同データNOを持つレコードの全有効データを処理単位
とする。自然言語処理出力ファイルデータレコード中に
は、入力原文データと処理結果データが存在するが、処
理結果データのみを有効データとする。従って、自然言
語処理出力ファイルレコード中の同データNOを持つデ
ータレコードから処理結果データを抽出する。また、デ
ータの加工(ステップS205)では、自然言語処理出
力ファイルから抽出したデータにファンクションの復帰
及びコード変換を行なう。加工したデータはNLアウト
ファイルに出力する。
■ファンクションの復帰 NL情報ファイルヘダーレコードのF情報データ有無が
“Y”で、パラメータが“Y”の時にファンクション情
報に従ってデータ中にファンクションを復帰する。ファ
ンクションの復帰方法は、データの処理種により異なる
(a)処理種1 ・「ル、区1〜ル」は復帰しない。
・処理結果データ中で以下のコードは、自然語処理によ
り付加されたデータである。
スラッシュ”/”[A1BF] アスキーコード これ以外のデータは、自然言語処理入力ファイル中の入
力原文データと同じである。このデータとファンクショ
ン情報により、処理結果データ中の所定の位置にファン
クションを復帰する。
・復帰位置が処理結果データの先頭の場合には、スラッ
シュ、アスキーコード以外のコードの先頭文字の直前に
ファンクションを復帰する。(b)処理種2 ファンクションは復帰しない。
(c)処理種3 ・「ル、区1〜ル」は復帰しない。
・処理結果データ中で以下のコードは、自然言語処理に
より付加されたデータである。
カッコ初め“《”[A1D4] カッコ終わり“》”[A1D5] アスタリスク“*”[A1F6] これ以外のデータは、自然言語処理入力ファイル中の入
力原文データと同じである。このデータとファンクショ
ン情報により、処理結果データ中の所定の位置にファン
クションを復帰する。
・ファンクションを復帰する場合には、“《”と“*”
の間のデータの先頭文字の直前及び最終文字の直後に復
帰する場合には、前者は“《”の直前に、後者は“》”
の直後に復帰する。
(d)処理種4 ・ファンクションは復帰しない。
■コード変換 ・自然言語処理結果データは、以下のデータから構成さ
れる。
入力原文データ セパレータ(“/”、“*”、“《”、“》”、“|”
) カナ振り文字 アスキーコード文字 ・入力原文データは、NL情報ファイルヘダーレコード
のC情報データ有無が“Y”の時、コード変換情報に従
ってコード変換を行なう。
・処理種1〜3の場合には、処理結果データ中に入力原
文データが順番通りに全て含まれているので、コード変
換情報を先頭から検索してコード変換を行なう。
・処理種4の場合には、NL情報ファイルのコード変換
情報は参照せず、次頁の自然言語処理付加コードのコー
ド変換のカナ振り文字と同等にコード変換を行なう。
■自然言語処理付加コードのコード変換自然言語処理に
より処理結果データ中に付加されたセパレータ、カナ振
り文字、アスキーコード文字の変換は第23図の通りで
ある。また、アスキーコード文字の変換は第24図のよ
うになる。カナ振り文字はNL情報ファイルヘダーレコ
ードデータコード識別により異なる。
・“DEC”の時、変換しない。
・“CTS”の時、コード変換テーブルを使用して変換
を行なう。インバリッドコード[A088]・“JIS
”の時、自然言語処理固有コードから[8080]を引
く。インバリッドコード[222E]この発明はCD−
ROM等のデータベースの構築支援として利用でき、デ
ータ検索用キーワードの抽出、抽出したキーワードへの
読みの付加を行ない得る。また、印刷業務での利用が可
能で、カナ振り機能を利用した総ルビの印刷物作成や名
簿の住所、氏名などの項目の自動カナ振り、索引作成の
支援システムとして利用できる。
発明の効果: 以上のようにこの発明のシステムによれば、専門的な知
識や技術を要することなく自動的にCD−ROMデータ
の検索用キーワードを作成するシステムとCTSを効率
良く結合することができる。
【図面の簡単な説明】
 第1図はこの発明を適用できるシステムの動作例を示
すフローチャート、第2図は前処理の動作例を示すフロ
ーチャート、第3図は自然言語処理する原文の例を示す
図、第4図は分かちカナの例を示す図、第5図は後処理
の動作例を示すフローチャート、第6図は自然言語処理
システムのハードウェア構成例を示すブロック図、第7
図はそのソフトウェア構成例を示す図、第8図は分かち
書きの出力形式を示す図、第10図は分野別辞書を使用
したカナ振りの出力形式を示す図、第11図は総ルビ振
りの出力形式を示す図、第12図はキーワード抽出及び
キーワードへのカナ振りの出力形式を示す図、第13図
はこの発明の汎用ファイルの構成例を示すフローチャー
ト、第14図は入力ルーチンの入出力を示す図、第15
図は入力ルーチンの詳細を示すフローチャート、第16
図は出ルリーチンの入出力を示す図、第17図は出力ル
ーチンの詳細を示すフローチャート、第18図〜第24
図はこの発明の汎用ファイルを説明するためのである。 10…ホストマシン、11…CPU、12…メモリ、1
4…磁気ディスク装置、15…カセット磁気テープ装置
、20…磁気テープ装置、21…レーザープリンタ、2
2…確認/修正用端末、23…コンソール端末。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】記憶媒体に格納されたデータベースを前処
    理し、基本辞書を参照して自然言語処理による分かち書
    き、カナ振り及びキーワード抽出処理を行なうシステム
    において、組版情報を表わすファンクションデータを含
    むCTSのコード体系と前記自然言語処理のコード体系
    との間で往復のコード変換を行なう汎用ファイルを具備
    したことを特徴とする汎用ファイルを用いた自然言語処
    理システム。
JP2318274A 1990-11-22 1990-11-22 自然言語処理システム Expired - Lifetime JP3016040B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2318274A JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2318274A JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Publications (2)

Publication Number Publication Date
JPH04330565A true JPH04330565A (ja) 1992-11-18
JP3016040B2 JP3016040B2 (ja) 2000-03-06

Family

ID=18097377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2318274A Expired - Lifetime JP3016040B2 (ja) 1990-11-22 1990-11-22 自然言語処理システム

Country Status (1)

Country Link
JP (1) JP3016040B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JPH07168842A (ja) * 1993-12-14 1995-07-04 Dainippon Printing Co Ltd キーワード作成装置
JP2001331496A (ja) * 2000-05-22 2001-11-30 Nec Corp ドメイン用語辞書作成システム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141392A (ja) * 1993-11-15 1995-06-02 Dainippon Printing Co Ltd キーワード作成装置
JPH07168842A (ja) * 1993-12-14 1995-07-04 Dainippon Printing Co Ltd キーワード作成装置
JP2001331496A (ja) * 2000-05-22 2001-11-30 Nec Corp ドメイン用語辞書作成システム及び方法

Also Published As

Publication number Publication date
JP3016040B2 (ja) 2000-03-06

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP3300866B2 (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP3015223B2 (ja) 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
JPH04330565A (ja) 自然言語処理システム
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPS61248160A (ja) 文書情報登録方式
JPH0877196A (ja) 文書情報抽出装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP3343941B2 (ja) 例文検索システム
JP2002132789A (ja) 文書検索方法
JPH04243477A (ja) 自然言語処理システムによる索引語抽出方法
JPH0486948A (ja) 分野別辞書を利用したカナ振りデータベースの作成方法
JPH0130173B2 (ja)
JP2000029882A (ja) 要約文作成装置
JPS6389976A (ja) 言語解析装置
JP2978647B2 (ja) 日本語変換装置ならびに日本語変換方法
JPH0954781A (ja) 文書検索システム
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH0320866A (ja) テキストベース検索方式
JP2973369B2 (ja) 日本文形態素解析処理用日本語辞書構成装置
CA1257705A (en) Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
JPH01258069A (ja) 日本語文字列の形態素解析方式

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081224

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091224

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101224

Year of fee payment: 11

EXPY Cancellation because of completion of term