JPH08329090A - 共起辞書装置、共起辞書データ作成方法及び文解析システム - Google Patents

共起辞書装置、共起辞書データ作成方法及び文解析システム

Info

Publication number
JPH08329090A
JPH08329090A JP7131485A JP13148595A JPH08329090A JP H08329090 A JPH08329090 A JP H08329090A JP 7131485 A JP7131485 A JP 7131485A JP 13148595 A JP13148595 A JP 13148595A JP H08329090 A JPH08329090 A JP H08329090A
Authority
JP
Japan
Prior art keywords
information
occurrence
bunsetsu
clause
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7131485A
Other languages
English (en)
Inventor
Hiroshi Yasuhara
宏 安原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7131485A priority Critical patent/JPH08329090A/ja
Publication of JPH08329090A publication Critical patent/JPH08329090A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 出来る限り少ない共起データで、種々の入力
文の解析に適確に使用できる共起辞書装置。 【構成】 一つのレコードは、係り側文節の自立語品詞
(例えば、「名詞1」など)を格納する係り側文節自立
語品詞格納部4と、係り側文節の付属語(例えば、
「が」など)を格納する係り側文節付属語格納部5と、
受け側文節の自立語品詞(例えば、「動詞」など)を格
納する受け側文節自立語格納部6と、受け側文節の付属
語(例えば、「た。」など)を格納する受け側文節付属
語格納部7と、係り側文節と受け側文節との係り受け関
係(例えば、「が主語」、「で連用」などの係り受け関
係)を格納する係り受け関係格納部8と、係り側文節と
受け側文節との連続性有りか無しかを格納する連続性情
報格納部9と、複数の文解析によって収集され係り側文
節と受け側文節との共起関係の出現頻度を格納する頻度
格納部10とから構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は共起辞書装置、共起辞書
データ作成方法及び文解析システムに関し、自然言語処
理システムや、機械翻訳システムなどに適用し得るもの
である。
【0002】
【従来の技術】近年、自然言語処理のための様々な技術
開発が行われている。例えば、自然言語文を解析する上
で、一般に共起データを格納した共起辞書を使用して解
析することが行われている。例えば、ある文として、
「鳥が大空で飛ぶ。」が与えられた場合に、「鳥が」
と、「飛ぶ。」との関係のように、文節と文節、又は単
語と単語とが特定の関係をもっていることを共起と呼
ぶ。このような共起関係の文節又は単語の組み合わせを
共起データとして共起辞書に登録して使用していた。
【0003】このような共起辞書が文解析に実用し得る
ためには、多くの共起データを格納しておくことが必要
である。このため、多くの文を分析して共起データを登
録していた。
【0004】
【発明が解決しようとする課題】このように文解析の実
用に供するためには、共起辞書に、膨大な数の文例から
収集した膨大な数の共起データが登録されることにな
る。このため共起辞書のメモリ容量が大きくなり、ハー
ドウエアが大きくなると共に、登録されている共起デー
タの数が膨大なため共起辞書を検索するときに、必要な
共起データを探し当てるまでに時間がかかるという問題
もある。
【0005】このため、出来る限り少ない共起データ
で、種々の入力文の解析に適確に使用できる共起辞書装
置と、この共起辞書装置に記憶する共起辞書データを能
率的に、しかも無駄のない十分な量だけ作成する方法
と、上記共起辞書装置を用いて能率的に、しかも確から
しい解析結果を得る文解析システムの提供が要請されて
いる。
【0006】
【課題を解決するための手段】そこで、本発明の共起辞
書装置は、共起関係にある係り側文節と受け側文節とか
ら、上記係り側文節の自立語の品詞情報と、上記係り側
文節の付属語情報と、上記受け側文節の自立語の品詞情
報と、上記受け側文節の付属語情報と、上記係り側文節
と上記受け側文節との係り受け関係の情報と、上記係り
側文節と上記受け側文節との連続性の情報と、上記係り
側文節と上記受け側文節との組み合わせの統計的な出現
頻度の情報とを一つのレコードに収容すると共に、複数
種類の係り側文節と受け側文節間の共起関係の上記情報
を複数のレコードに収容し、これらの複数のレコードを
記憶回路に記憶する構成を採ることで、上述の課題を解
決するものである。
【0007】また、本発明の共起辞書データ作成方法
は、解析対象の文を1文取り込んで形態素解析を行う形
態素解析工程Aと、上記形態素解析結果から構文解析を
行う構文解析工程Bと、上記構文解析結果から係り側文
節と受け側文節の間の共起関係を検出し、検出された2
文節間の共起関係から、上記係り側文節の自立語の品詞
情報と、上記係り側文節の付属語情報と、上記受け側文
節の自立語の品詞情報と、上記受け側文節の付属語情報
と、上記係り受け側文節と上記受け側文節との係り受け
関係の情報と、上記係り受け側文節と受け側文節との連
続性の情報とを生成し、これらの上記情報を一つのレコ
ードに収容する共起関係レコード生成工程Cと、上記工
程A〜Cを複数文に対して行い、得られた複数のレコー
ドの並び替えを行い、共通する共起関係のレコードを一
つにまとめると共にまとめられたレコードの統計的な出
現頻度の情報を付与する処理工程とから構成すること
で、上述の課題を解決するものである。
【0008】更に、本発明の文解析システムは、共起辞
書装置を用いて、入力文に対する解析を行って文節間の
係り受け関係を決定するものであって、共起辞書装置
は、複数のレコードに、複数種類の文節間の共起関係の
情報を収容し、記憶回路に記憶しているものであって、
各レコードには、共起関係の係り側文節の自立語の品詞
情報と、係り側文節の付属語情報と、係り側文節と共起
関係の受け側文節の自立語の品詞情報と、受け側文節の
付属語情報と、係り側文節と受け側文節との係り受け関
係の情報と、係り側文節と受け側文節との連続性の情報
と係り側文節と受け側文節との組み合わせの統計的な出
現頻度の情報とが収容されている。更に、本発明は、入
力文を取り込むと形態素解析を行う形態素解析手段と、
形態素解析結果から入力文中の最後の文節を除く全ての
係り側文節に対して、それより後にある全ての仮の受け
側文節を抽出し、抽出した係り側文節と、仮の受け側文
節とからそれぞれの自立語品詞情報と付属語情報とを求
め、求めた自立語品詞情報と付属語情報とを結合して同
一又は類似の結合パターンを持つレコードを上記共起辞
書装置から探し、該当するレコードが1又は2以上存在
すると、そのレコードに収容されている係り側文節と受
け側文節との連続性の情報と統計的な出現頻度の情報と
から、抽出した係り側文節と、受け側文節との係り受け
関係を決定する係り受け関係決定手段とを備えること
で、上述の課題を解決するものである。
【0009】
【作用】上述の本発明の共起辞書装置の構成によれば、
係り側文節と受け側文節とが共起関係の場合に、係り側
文節、受け側文節共に、各文節の自立語そのものを辞書
に記憶するのではなく、その自立語の品詞に置き替えて
記憶することで、多くの異なる自立語を一つの共通する
品詞(例えば、名詞、動詞、形容詞、副詞など)にまと
めて記憶することによる記憶容量の軽減を図ることがで
きると共に、検索効率を向上させることができる。
【0010】更に、共起関係の係り側文節の自立語の品
詞情報と、上記係り側文節の付属語情報と、上記受け側
文節の自立語の品詞情報と、上記受け側文節の付属語情
報と共に、上記係り側文節と受け側文節との係り受け関
係(例えば、「が主語」、「で連用」などによる係り受
け関係)の情報と、係り側文節と上記受け側文節とが連
続的に係り受けをするものであるか否かの情報と、上記
係り側文節と上記受け側文節との統計的な出現頻度の情
報とを一つのレコードに収容することで、一つのレコー
ドは少ない情報でありながら、文節の連続性に着目した
文解析若しくは出現頻度に着目した解析に対して適確に
対応することができ、いろいろな共起関係の文節対の情
報を記憶回路に効率的に記憶することができる。
【0011】また、上述の発明の共起辞書データ作成方
法の構成によれば、形態素解析工程Aと、構文解析工程
Bと、共起関係レコード生成工程Cとを一回実行するこ
とで入力された1文に対する共起関係のレコードを得る
ことができ、このような処理を処理工程で複数文に対す
るレコードを整理して、重複するレコードを一つにまと
め、しかも出現頻度を重複した数などから付与すること
で効果的な辞書データを得ることができ、能率的に無駄
のない量の共起辞書データを得ることができる。
【0012】更に、上述の発明の文解析システムの構成
によれば、上述の発明の共起辞書装置を用いて、入力文
に存在する係り側文節と係り受け関係を有する受け側文
節を、辞書の連続性の情報と統計的な出現頻度の情報と
から解析し、最も確からしい係り受け関係を能率的に決
定することができる。
【0013】
【実施例】次に本発明の好適な実施例を図面を用いて説
明する。 (共起辞書装置の構成): 従来、例えば、入力文と
して、「鳥が大空で飛ぶ。」を例とした場合、文節「鳥
が」と、文節「飛ぶ。」とを共起関係として、共起辞書
へ「鳥が」−「飛ぶ」、或いは「鳥」−「が」−「飛
ぶ」を共起データとして登録していたが、本実施例で
は、上記文節「鳥が」に対して、「名詞iが」と変換す
る。このiは1、2、…である。そして、「鳥が」−
「飛ぶ。」に対して、「名詞1が動詞。」という表現に
変換する。このような「名詞1が動詞。」という表現
を、本実施例では、『縮退型共起表現』と呼ぶものとす
る。尚、名詞1は普通名詞、名詞2は固有名詞などとす
ることでもよい。
【0014】また、上記入力文、「鳥が大空で飛ぶ。」
に対して、更に、「大空で」−「飛ぶ。」の共起関係か
ら、この関係を縮退型共起表現に変換すると、「名詞1
で動詞。」を得るものである。
【0015】図2に示すように、これらの縮退型共起表
現を共起辞書として登録し辞書を形成する。この辞書を
本実施例では『縮退型共起辞書』と呼ぶものとする。更
に、この縮退型共起辞書には、上記「鳥が」−「飛
ぶ。」の係り受け関係を、「が主語」による関係で係っ
ていて、係り側と受け側とは文節番号が「不連続」であ
って、統計的な出現頻度が例えば、「5」であることな
ども、登録するものである。このようにして、図2のレ
コード11を登録するものである。
【0016】更に、上記「大空で」−「飛ぶ。」の係り
受け関係を、「で連用」による関係で係っていて、係り
側と受け側とは文節番号が「連続」であって、統計的な
出現頻度が例えば、「3」として、レコード12を登録
するものである。
【0017】図1は本実施例の縮退型共起辞書装置に登
録される上述のレコード11、12の構造形式を示すも
のである。一つのレコードは、係り側文節の自立語品詞
(例えば、「名詞1」など)を格納する係り側文節自立
語品詞格納部4と、係り側文節の付属語(例えば、
「が」など)を格納する係り側文節付属語格納部5と、
受け側文節の自立語品詞(例えば、「名詞1」など)を
格納する受け側文節自立語格納部6と、受け側文節の付
属語(例えば、「で」など)を格納する受け側文節付属
語格納部7と、係り側文節と受け側文節との係り受け関
係(例えば、「が主語」、「で連用」などに係り受け関
係)を格納する係り受け関係格納部8と、係り側文節と
受け側文節との連続性有りか無しかを格納する連続性情
報格納部9と、複数の文解析によって収集された係り側
文節と受け側文節との共起関係の統計的な出現頻度を格
納する統計的頻度情報格納部10とから構成されてい
る。
【0018】このようなレコード構造で、種々の縮退型
共起表現を辞書情報として記憶回路20に記憶するので
ある。従って、従来のように、共起関係の係り側文節と
受け側文節の自立語を直接格納するのではなく、共起関
係の文節の品詞を、係り側文節自立語品詞格納部4と、
受け側文節自立語格納部6とに格納するものである。こ
のように、自立語を直接格納せず、その自立語を品詞に
変換して格納することで、共通する共起関係を簡略な縮
退型共起表現(例えば、「名詞1が動詞。」、「名詞1
で動詞。」)に変換し、登録すべき縮退型共起表現の共
起データを従来に比べ非常に少なくすることができる。
【0019】(縮退型共起辞書データの収集方法):
次に縮退型共起辞書データの収集方法を図3を用いて
説明する。一文を取り込む(ステップS1)。例えば、
上述の「鳥が大空で飛ぶ。」の文を取り込む。次に形態
素解析と構文解析を行う(ステップS2)。上記一文に
対する形態素解析で、「鳥(名詞1)/が(格助詞)/
/大空(名詞1)/で(格助詞)//飛ぶ(動詞)/。
(記号)//」となる。ここで、「/」は単語の区切り
を表し、「//」は文節の区切りを表す。
【0020】構文解析では、形態素解析で決定された品
詞などの構文情報を用いて、構文規則を適用して文節間
の係り受け構造を作成する。次にこの構文解析後に、縮
退型共起表現を収集する(ステップS3)。つまり、縮
退型共起表現、「名詞1が動詞。」、「名詞1で動
詞。」を収集し、更に、図2、図1で示したように文節
間の連続性の情報の付与、係り受け関係の情報の付与な
どを行って登録する。
【0021】以上のステップS1〜S3によって入力1
文に対する処理によって得られた縮退型共起辞書データ
をレコード構造形式で登録する。このようなステップS
1〜S3の処理を複数文に対して行い(ステップS
4)、次に縮退型共起辞書データが複数レコード収集さ
れた中で、同じ重複するレコードを一つにする、つま
り、ソーティングし、図1のレコード形式のフィールド
4〜9が同一のものはまとめて統計的頻度情報格納部1
0に付与することで、縮退型共起辞書の中を整理するこ
とができ(ステップS5)、多くの収集した種々の縮退
型共起表現の縮退型共起辞書データを効率的に収集し、
作成することができる。
【0022】(縮退型共起辞書を用いた文解析システム
の構成): 図4は上述の縮退型共起辞書を用いた文
解析システムの構成図である。この図4において文解析
システムは文解析部1と、単語辞書2と、縮退型共起辞
書3とから構成されている。文解析部1は、原文を入力
されると形態素解析や構文解析などを行い縮退型共起表
現を収集し、収集した縮退型共起辞書データを登録しソ
ーティングを行う。
【0023】また、入力原文に対する係り受け関係を解
析する場合は、単語辞書2と縮退型共起辞書3とを使用
して形態素解析、構文解析などを行い、入力文に対する
係り受け関係を明らかにする。具体的な文解析の方法を
以下に説明する。そこで、文解析を行う場合に、係り受
けマトリクスを作成し、解析を行う。
【0024】(係り受けマトリクスの生成): 具体
的には、図5に示すように係り側のi番目の文節と、受
け側のj番目の係り受け関係を記録している。もちろ
ん、j≦iなる組み合わせのi、jの交点は、係り受け
が存在しないので無視してよい。一般にi行、j列の交
点の行列要素はコストCijと、係り受け関係Rijの
2成分からなる。尚、このコストCijは、文節間の尤
度、或いは文節間の距離を表すものである。コストは最
低値が1で、0は係り受け関係が存在しないことを示
す。係り受け関係Rijには係り受け関係のコードが記
入される。
【0025】(縮退型共起辞書を使用した文解析方
法): 図6は文解析の処理フローチャートである。
この図6において、原文の1文をキーボード又はファイ
ルから入力する(ステップS20)。次に形態素解析を
行い(ステップS21)、入力した文を単語に分割し、
文節を切り出す(ステップS21)。次に、入力文の係
り受けの可能性を各文節毎にチェックし、図5に示す係
り受けマトリックスで表現する(ステップS22)。次
に作成された係り受けマトリックスを用いてコスト最小
の方法で入力文の係り受け構造を抽出する(ステップS
23)。
【0026】(係り受けマトリックス作成の方法):
ここで、更に詳しく上述の係り受けマトリックス作成
の方法を図7を用いて説明する。先ず文節の数の平方の
要素を持つ係り受けマトリックスの記憶領域を確保し、
各要素をゼロで初期化する(ステップS30)。係り側
となる1番目の文節から最終の文節の一つ前まで変化す
る外側のループ(ステップS31)と、各k番目の文節
に対して、受け側の文節となるuがk+1から最終文節
まで変化する内側のループ(ステップS32)とからな
る。
【0027】先ず、文節kと文節uとから縮退型共起表
現を作成する(ステップS33)。具体的には、「鳥
が」の文節から「名詞1が」になり、「大空で」から
「名詞1で」になる。これらを結合したものが縮退型共
起表現である。即ち、本実施例では縮退型共起表現「名
詞1が名詞1で」になる。次に、その縮退型共起表現
「名詞1が名詞1で」を縮退型共起辞書3で検索する
(ステップS34)。しかし、この検索で、該当するレ
コードは縮退型共起辞書3に存在しない(ステップS3
5)ことから再度、上述の各k番目の文節に対して、受
け側の文節となるuがk+1から最終文節まで変化する
内側のループ(ステップS32)に戻る。
【0028】今度は「鳥が」と「飛ぶ。」の縮退型共起
表現である「名詞1が動詞。」で縮退型共起辞書3を検
索する(ステップS34)。図2のレコード11に示す
ような縮退型共起データが縮退型共起辞書3に存在する
か否かを確認し(ステップS35)、今度は存在するこ
とから、次に、「鳥が」と「飛ぶ。」との文節間(k:
u)が連続するものであるか否かを、縮退型共起辞書3
のレコード11から確認し(ステップS36)、不連続
であることから、次に係り受け関係をコストCk,u=
2(不連続)とし、係り受け関係Rk,uを「が主語」
による係り受け関係であると決定し(ステップS3
8)、この受け側文節が最終のため再び、係り側となる
1番目の文節から最終の文節の一つ前まで変化する外側
のループ(ステップS31)に戻る。
【0029】次の係り側は第2文節である「大空で」
で、係り受け側は「飛ぶ。」になり、同様にして縮退型
共起表現は「名詞1で動詞。」となり(ステップS3
3)、この縮退型共起表現「名詞1で動詞。」のレコー
ドを縮退型共起辞書3で検索する(ステップS34)。
この検索で縮退型共起辞書3にはレコード12が存在
し、これと一致するため(ステップS35)、次に「大
空で」と、係り受け側の「飛ぶ。」との文節間の連続性
を判断し(ステップS36)、縮退型共起辞書3のレコ
ード12には、連続であることが登録されており、実際
の「大空で」と、係り受け側の「飛ぶ。」とも連続する
ことから一致し、コストCk,k+1=1(連続)と
し、縮退型共起辞書3のレコード12に登録されている
内容から、係り受け関係Rk,k+1=「で連用」とで
あると決定する。
【0030】このようにして、上述の「鳥が大空で飛
ぶ。」の文に対する係り受けマトリクスを図8のように
まとめ上げることができる。即ち、図8において、縦は
係り側文節番号であり、横は受け側文節番号であり、第
1文節は「鳥が」であり、第2文節は「大空で」であ
り、第3文節は「飛ぶ。」である。上述の図7による係
り受けマトリックスの作成によって、第1文節の「鳥
が」が、第3文節の「飛ぶ。」に係り、コスト=2、係
り受け関係=「が主語」であることを表すものである。
また、第2文節の「大空で」が、第3文節の「飛ぶ。」
に係り、コスト=1、係り受け関係=「で連用」である
ことを表すものである。その他の文節間については、係
り受け関係が存在しないので、マトリックスには0が設
定されている。
【0031】以上のようにして作成された係り受けマト
リックスを用いて入力文の係り受け関係を抽出する。こ
の図8に示すように係り受けマトリックスがユニークに
作成され、図9のように係り受け関係の構造を得ること
ができる。一般的には複数の解が存在する。このような
係り受け関係の解析において、複数の係り受け関係が存
在するときは、コストの低いものや、頻度の高いものを
優先して行うことで迅速に係り受け関係の構造を明らか
にすることができる。
【0032】即ち、本実施例は、文節表現を文節を構成
する自立語をその品詞で代用し、自立語品詞と付属語か
らなる縮退型の文節で表現し、文節間の係り受けの関係
を2文節の縮退型の文節表現、2文節の係り受け関係、
2文節の連続/不連続の指定、及び2文節の頻度情報か
らなる縮退型共起辞書を用い、文節間の係り受けの可能
性を求めるために、縮退型共起辞書を検索することによ
って得られる情報から係り受けマトリックスを作成し、
係り受けマトリックスからコスト最小或いは頻度最高の
係り受け関係を抽出する文解析方法を行うものである。
【0033】また、上述の文解析装置のハードウエア構
成としては、一般のコンピュータシステム(例えば、ワ
ークステーションや、パーソナルコンピュータ)と同じ
ような構成で実現することができる。即ち、CPUと、
主記憶装置、補助記憶装置、キーボード、ディスプレ
イ、プリンタ、文字読取装置(OCR)などから構成
し、上述の文解析のプログラムを搭載することで実現す
ることができる。
【0034】また、縮退型共起辞書装置のハードウエア
構成についても、上述と同じような構成で実現すること
ができる。
【0035】(実施例の効果): 以上の実施例によ
れば、上述の新しい縮退型共起辞書を用いることによっ
て、少ない記憶容量で係り受け関係を表現でき、検索効
率も向上させることができる。対象とする分野ごとに例
文を解析して縮退型共起辞書を作成することによって安
定した自然言語解析が可能になる。
【0036】具体的には、縮退型共起辞書を図1、図2
のように構成したことで、出来る限り少ない共起データ
で、記憶容量を軽減でき、検索効率を向上させ、種々の
入力文の解析に適確に使用できる。
【0037】また、縮退型共起辞書データの作成方法と
して、図3のような構成を採ったことで、上述の縮退型
共起辞書装置に記憶する縮退型共起辞書データを能率的
に、しかも無駄のない十分な量だけ作成することができ
る。
【0038】更に、文解析システムとして、図4、図6
〜図8のような構成を採ったことで、上述の縮退型共起
辞書装置を用いて能率的に、しかも確からしい係り受け
関係の解析結果を得ることができる。
【0039】(他の実施例): (1)尚、以上の実
施例において、他の入力文として、例えば、図10
(a)に示すように「グローバル情報ネットワークによ
り、国際的な調達、分業生産・販売体制の構築も期待さ
れている。」を入力した場合、縮退型共起表現は、図1
0(b)のように表すことができる。
【0040】即ち、「グローバル情報ネットワークによ
り、」に対して、「名詞1により、」に変換し、この文
節は「期待されている。」に、「動詞れている。」、
「連用接続」で係る。また、「国際的な」は「形容動
詞」で表し、「調達、」は「名詞1、」で表し、「連体
格」で係る。更に、「調達、」(名詞1、)は、「分業
生産・販売体制の」(名詞1の)へ、「連体並列」で係
る。更にまた、「分業生産・販売体制の」(名詞1の)
は、「構築も」(名詞1も)へ、「連体ノ」で係る。ま
た、「構築も」(名詞1も)は、「期待されている。」
(動詞れている。)に、「が主語」の関係で係るのであ
る。
【0041】これらの自立語を品詞で代用する縮退型共
起表現を、係り受け関係と、連続性情報と、統計的な出
現頻度など付与して縮退型共起辞書に登録することが好
ましい。
【0042】以上の係り受け関係の解析によって、図1
1のように上記入力文に対する係り受け関係の構造を決
定することができる。
【0043】(2)また、上述の縮退型共起辞書データ
を用いて文解析を行った場合に、文解析で検索した縮退
型共起表現が検索されない場合は、未登録として、新た
に登録することが、縮退型共起辞書を実用的なものにす
る上で重要である。
【0044】(3)更に、縮退型共起辞書装置の記憶回
路20は、メモリ回路や、ハードディスク装置や、磁気
テープ装置や、これらの複合装置で構成することも好ま
しい。
【0045】(4)更にまた、上述の図1において、記
憶回路20の複数のレコードに格納されている共起関係
の情報を外部からの検索要求によって検索する検索手段
を備え、この検索によって該当する共起関係の情報が存
在しない場合は、新たにレコードを追加記憶する追加記
憶手段とを備えることで、縮退型共起辞書装置の内容を
より充実した、実用的なものにすることが容易になる。
【0046】(5)また、上述の図1の記憶回路20の
複数のレコードに格納されている共起関係の情報を修正
する修正手段を備えることで、より係り受け決定精度の
高い実用的な縮退型共起辞書装置を実現することができ
る。
【0047】(6)更に、上述の図3のソーティング
(並べ替え)は、例えば、クイックソートや、バブルソ
ートや、ヒープソートなど種々の方式を適用することが
できる。
【0048】
【発明の効果】以上述べた様に本発明の共起辞書装置
は、共起関係にある係り側文節と受け側文節とから、上
記係り側文節の自立語の品詞情報と、上記係り側文節の
付属語情報と、上記受け側文節の自立語の品詞情報と、
上記受け側文節の付属語情報と、上記係り側文節と上記
受け側文節との係り受け関係の情報と、上記係り側文節
と上記受け側文節との連続性の情報と、上記係り側文節
と上記受け側文節との組み合わせの統計的な出現頻度の
情報とを一つのレコードに収容すると共に、複数種類の
係り側文節と受け側文節間の共起関係の上記情報を複数
のレコードに収容し、これらの複数のレコードを記憶回
路に記憶する構成としたことで、出来る限り少ない共起
データで、記憶容量を軽減でき、検索効率を向上させ、
種々の入力文の解析に適確に使用できる。
【0049】また、本発明の共起辞書データ作成方法
は、解析対象の文を1文取り込んで形態素解析を行う形
態素解析工程Aと、上記形態素解析結果から構文解析を
行う構文解析工程Bと、上記構文解析結果から係り側文
節と受け側文節の間の共起関係を検出し、検出された2
文節間の共起関係から、上記係り側文節の自立語の品詞
情報と、上記係り側文節の付属語情報と、上記受け側文
節の自立語の品詞情報と、上記受け側文節の付属語情報
と、上記係り受け側文節と上記受け側文節との係り受け
関係の情報と、上記係り受け側文節と受け側文節との連
続性の情報とを生成し、これらの上記情報を一つのレコ
ードに収容する共起関係レコード生成工程Cと、上記工
程A〜Cを複数文に対して行い、得られた複数のレコー
ドの並び替えを行い、共通する共起関係のレコードを一
つにまとめると共にまとめられたレコードの統計的な出
現頻度の情報を付与する処理工程とから構成したこと
で、上述の共起辞書装置に記憶する共起辞書データを能
率的に、しかも無駄のない十分な量だけ作成することが
できる。
【0050】更に、本発明の文解析システムは、上述の
共起辞書装置を用いて、入力文に対する解析を行って文
節間の係り受け関係を決定するものであって、入力文を
取り込むと形態素解析を行う形態素解析手段と、上記形
態素解析結果から入力文中の最後の文節を除く全ての係
り側文節に対して、それより後にある全ての仮の受け側
文節を抽出し、抽出した係り側文節と、仮の受け側文節
とからそれぞれの自立語品詞情報と付属語情報とを求
め、求めた自立語品詞情報と付属語情報とを結合して同
一又は類似の結合パターンを持つレコードを上記共起辞
書装置から探し、該当するレコードが1又は2以上存在
すると、そのレコードに収容されている係り側文節と受
け側文節との連続性の情報と統計的な出現頻度の情報と
から、抽出した上記係り側文節と、上記受け側文節との
係り受け関係を決定する係り受け関係決定手段とを備え
たことで、上記共起辞書装置を用いて能率的に、しかも
確からしい係り受け関係の解析結果を得ることができ
る。
【図面の簡単な説明】
【図1】本発明の実施例の縮退型共起辞書装置の機能構
成図である。
【図2】実施例の縮退型共起表現の説明図である。
【図3】実施例の縮退型共起辞書データの作成方法のフ
ローチャートである。
【図4】実施例の文解析システムの説明図である。
【図5】実施例の係り受けマトリックスの説明図であ
る。
【図6】実施例の文解析方法のフローチャートである。
【図7】実施例の係り受けマトリックスの作成方法のフ
ローチャートである。
【図8】実施例の係り受けマトリックスの具体的な説明
図である。
【図9】実施例の係り受け関係の説明図である。
【図10】他の実施例の入力文に対する縮退型共起表現
の説明図である。
【図11】他の実施例の係り受け関係図である。
【符号の説明】
1…文解析部、2…単語辞書、3…縮退型共起辞書、4
…係り側文節自立語品詞格納部、5…係り側文節付属語
格納部、6…受け側文節自立語品詞格納部、7…受け側
文節付属語格納部、8…係り受け関係格納部、9…連続
性格納部、10…統計的頻度情報格納部、20…記憶回
路。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 共起関係にある係り側文節と受け側文節
    とから、上記係り側文節の自立語の品詞情報と、上記係
    り側文節の付属語情報と、上記受け側文節の自立語の品
    詞情報と、上記受け側文節の付属語情報と、上記係り側
    文節と上記受け側文節との係り受け関係の情報と、上記
    係り側文節と上記受け側文節との連続性の情報と、上記
    係り側文節と上記受け側文節との組み合わせの統計的な
    出現頻度の情報とを一つのレコードに収容すると共に、 複数種類の係り側文節と受け側文節間の共起関係の上記
    情報を複数のレコードに収容し、これらの複数のレコー
    ドを記憶回路に記憶する構成であることを特徴とする共
    起辞書装置。
  2. 【請求項2】 更に、上記記憶回路の複数のレコードに
    格納されている共起関係の上記情報を外部からの検索要
    求によって検索する検索手段と、 上記検索によって該当する共起関係の情報が存在しない
    場合、新たにレコードを追加記憶する追加記憶手段とを
    備えることを特徴とする請求項1記載の共起辞書装置。
  3. 【請求項3】 更に、上記記憶回路の複数のレコードに
    格納されている共起関係の上記情報を修正する修正手段
    を備えることを特徴とする請求項1又は2記載の共起辞
    書装置。
  4. 【請求項4】 解析対象の文を1文取り込んで形態素解
    析を行う形態素解析工程Aと、 上記形態素解析結果から構文解析を行う構文解析工程B
    と、 上記構文解析結果から係り側文節と受け側文節の間の共
    起関係を検出し、検出された2文節間の共起関係から、
    上記係り側文節の自立語の品詞情報と、上記係り側文節
    の付属語情報と、上記受け側文節の自立語の品詞情報
    と、上記受け側文節の付属語情報と、上記係り受け側文
    節と上記受け側文節との係り受け関係の情報と、上記係
    り受け側文節と受け側文節との連続性の情報とを生成
    し、これらの上記情報を一つのレコードに収容する共起
    関係レコード生成工程Cと、 上記工程A〜Cを複数文に対して行い、得られた複数の
    レコードの並び替えを行い、共通する共起関係のレコー
    ドを一つにまとめると共にまとめられたレコードの統計
    的な出現頻度の情報を付与する処理工程とから構成され
    ることを特徴とする共起辞書データ作成方法。
  5. 【請求項5】 共起辞書装置を用いて、入力文に対する
    解析を行って文節間の係り受け関係を決定する文解析シ
    ステムであって、 上記共起辞書装置は、複数のレコードに、複数種類の文
    節間の共起関係の情報を収容し、記憶回路に記憶してい
    るものであって、各レコードには、共起関係の係り側文
    節の自立語の品詞情報と、上記係り側文節の付属語情報
    と、上記係り側文節と共起関係の受け側文節の自立語の
    品詞情報と、上記受け側文節の付属語情報と、上記係り
    側文節と上記受け側文節との係り受け関係の情報と、上
    記係り側文節と上記受け側文節との連続性の情報と、上
    記係り側文節と上記受け側文節との組み合わせの統計的
    な出現頻度の情報とが収容されていて、 入力文を取り込むと形態素解析を行う形態素解析手段
    と、 上記形態素解析結果から入力文中の最後の文節を除く全
    ての係り側文節に対して、それより後にある全ての仮の
    受け側文節を抽出し、抽出した係り側文節と、仮の受け
    側文節とからそれぞれの自立語品詞情報と、付属語情報
    とを求め、求めた自立語品詞情報と付属語情報とを結合
    して同一又は類似の結合パターンを持つレコードを上記
    共起辞書装置から探し、該当するレコードが1又は2以
    上存在すると、そのレコードに収容されている係り側文
    節と受け側文節との連続性の情報と統計的な出現頻度の
    情報とから、抽出した上記係り側文節と、上記受け側文
    節との係り受け関係を決定する係り受け関係決定手段と
    を備えることを特徴とする文解析システム。
  6. 【請求項6】 係り受け関係決定手段は、係り受け関係
    を決定するために、入力文中に存在し得る係り側文節と
    受け側文節の組み合わせをマトリックスで管理し、この
    マトリックス内で組み合わせ関係のある係り側文節と受
    け側文節との係り受けの確からしさを、上記共起辞書装
    置を検索して連続性の情報又は統計的な出現頻度の情報
    から求めて管理し、上記マトリックスで管理されている
    係り側文節と受け側文節との係り受けの確からしさの高
    い係り受け関係を優先的に抽出することを特徴とする請
    求項5記載の文解析システム。
JP7131485A 1995-05-30 1995-05-30 共起辞書装置、共起辞書データ作成方法及び文解析システム Pending JPH08329090A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7131485A JPH08329090A (ja) 1995-05-30 1995-05-30 共起辞書装置、共起辞書データ作成方法及び文解析システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7131485A JPH08329090A (ja) 1995-05-30 1995-05-30 共起辞書装置、共起辞書データ作成方法及び文解析システム

Publications (1)

Publication Number Publication Date
JPH08329090A true JPH08329090A (ja) 1996-12-13

Family

ID=15059092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7131485A Pending JPH08329090A (ja) 1995-05-30 1995-05-30 共起辞書装置、共起辞書データ作成方法及び文解析システム

Country Status (1)

Country Link
JP (1) JPH08329090A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009123260A1 (ja) * 2008-04-01 2009-10-08 日本電気株式会社 共起辞書作成システムおよびスコアリングシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009123260A1 (ja) * 2008-04-01 2009-10-08 日本電気株式会社 共起辞書作成システムおよびスコアリングシステム
JP5321583B2 (ja) * 2008-04-01 2013-10-23 日本電気株式会社 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Similar Documents

Publication Publication Date Title
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
AU713225B2 (en) Automated document classification system
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
Lawrie et al. Quantifying identifier quality: an analysis of trends
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
JP2000235584A (ja) 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
CN110348020A (zh) 一种英文单词拼写纠错方法、装置、设备及可读存储介质
CN106776590A (zh) 一种获取词条译文的方法及系统
JP3139658B2 (ja) 文書表示方式
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JPH08329090A (ja) 共起辞書装置、共起辞書データ作成方法及び文解析システム
CN112711695A (zh) 基于内容的搜索建议生成方法及装置
JPH03132872A (ja) 索引情報生成装置
Tamang et al. Adding smarter systems instead of human annotators: re-ranking for system combination
KR20010008962A (ko) 개념분류망을 이용한 정보 검색 장치 및 그 방법
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP3360261B2 (ja) 自然語解析装置
Manad et al. A cleaning algorithm for noiseless opinion mining corpus construction
JPH0612451A (ja) 例文検索システム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3099425B2 (ja) かな漢字変換装置及び方法
JP3289894B2 (ja) 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置
KR20070072929A (ko) 데이터 처리 시스템 및 방법
CN117828007A (zh) 基于自然语言处理的建设征地移民档案管理方法及系统