JPH0244462A

JPH0244462A - 自然言語処理装置

Info

Publication number: JPH0244462A
Application number: JP63194362A
Authority: JP
Inventors: Hiroto Inagaki; 博人稲垣; Kiyoshi Kabetani; 壁谷　喜義; Fumihiko Kobashi; 小橋　史彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-08-05
Filing date: 1988-08-05
Publication date: 1990-02-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は、文章の係り受け解析方法２文章表示方法、
索引抽出方法、抄録生成方法などを実行しつる自然言語
処理装置に関するものである。

（従来の技術）文章の係り受け解析は自然言語処理の前処理であり、係
り受けの精度が処理全体の性能に大きく影響する。その
ため、精度の高い係り受け解析方法が強く望まれている
。

一般に、日本語文の係り受けにはできるだけ受け語を係
り語の近くに配置するという規則がある。しかし、係り
受け関係の全てが上記規則に当てはまらないため係り受
け関係にあいまい性が生じる。そこで、係り受け関係を
正確に決定するために種々の方法が従来から提案されて
いる。

意味情報を付与した動詞の格関係の文型表を用いる方法
を路用ら（路用、木村：日本語文構造解析による自動イ
ンデクシング方式、情報処理学会論文誌、ｖｏｌ、２１
．Ｎｏ、３．１９８０）は提案している。第１４図は彼
らの係り受け解析方法で用いられている動詞の格関係の
文型表の例である。文中の動詞に着目し、その動詞に接
続する名詞と格助詞およびその名詞句の意味分類を規定
し、その関係を用いて係り受け解析を行っている。しか
し、この方法は全ての動詞について、動詞と名詞の格関
係を記述する困難な作業を必要とする。さらに、名詞句
から名詞句への係り受けや用語の連体修飾による名詞句
への係り受けなどの場合、係り受けの決定が難しいとい
う問題点がある。

高松、百出ら（高松０日下、西日：技術抄録文からの関
係情報の自動抽出、情報処理学会論文誌、ｖｏｌ、２５
．Ｎｏ、２．１９８４）は、線用らの文型表による係り
受け解析方法の問題点を世界知識を用いることにより補
っている。この方法は、特許請求範囲文などの技術抄録
文に対し、動詞の格構造パターンと個別に記述された専
門分野の知識を組み合せて、格構造関係だけでは解析で
きなかったあいまいな係り受け解析の決定を可能として
いる。具体例を用いてその方法を説明する。

まず、入力文の格構造を解析してから第１５図の知識表
へのアクセス表を参照する。次に、そのアクセス表を基
に文の格構造に対応する格ラベルの組立を知識表から検
索する。そして、知識表に書かれている格関係事例を最
尤係り受け候補とし係り受けを判定する。

第１６図は半導体装置に関する知識表の例である。

第１７図の文例で上記方法の係り受け解析例を示す。こ
の例では、“含む”動詞が“シリコン基板上の”に係る
か゛°絶縁層”に係るかの０．０２通りの解釈が成り立
つ。“含む′°型動詞の格としては、ＯＢＪ　とＰＡＲ
ＴＩＣを取り、その間には“ＧＯＭＰＯ−５ＩＴＩＯＮ
”の概念関係があることが第１５図（ａ）のアクセス表
より判断される。第１６図の半導体装置における°“（
：ＯＭＰＯ５ＩＴＩＯＮ”の知識表を検索し、ＯＢＪと
ＰＡＲＴＩＣの格関係の事例を調べる。実際には、゛チ
ャンネル領域”（ＰＡＲＴＩＣ）と°“シリコン基板”
（ＯＢＪ）の格関係事例が知識表より抽出され、チャン
ネル領域はシリコン基板に含まれるが・絶縁層はシリコ
ン基板に含まれないという知識が抽出でき、この例では
■の係り受けが正しいと判断される。この方法により連
体修飾に関する係り受け解析を正確に行うことができる
が、構成素など各種の知識表や格専門分野ごとに綿密な
知識表を作成しなければならないという問題点がある。

一方、文章の自動索引抽出方法は種々の研究が行われて
いる。索引を抽出する前処理のレベルでは、統計処理と
構文解析処理の２つに分類することができる。また、検
索の立場に立った場合、検索に入力することが可能なキ
ーワードの種類（フリーキーワード、統制キーワード）
によって検索抽出処理も２種類に分類される。１つはフ
リーキーワードの抽出を目的とする不要語辞書法で、も
う１つは統制キーワードを抽出する統制語辞書法である
。つまり、不要語辞書法では不要語辞書を用いてキーワ
ードになりえないような単語（例えば゛場合”図３−３
”、“同様′°など）を排除することにより、文章中か
らフリーキーワードを抽出する。また、統制語辞書法で
は統制語辞書と抽出した名詞とのマツチングをとり、辞
書中に存在する単語のみをキーワードとすることにより
、統制キーワードを抽出する。

統計処理を用いた索引抽出では、単語の出現顕度の傾向
が第１８図（ｖａｎ　ＲｉＪｓｂｅｒｇｅｎ、Ｃ：、Ｊ
、：Ｉｎｆｏ−ｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ、
５ｅｃｏｎｄ　Ｅｄｉｔｉｏｎ、Ｂｕｔｔｅｒ　Ｗｏｒ
−ｔｈｓ、Ｌｏｎｄｏｎ、１９７９）のようになってお
り、キーワードはｕｐｐｅｒ　ｃｕｔ−ｏｆｆと１ｏｖ
ｅｒ　ｃｕｔ−ｏｆｆの間にあるというルールに基づい
てキーワードを選定する。

構文解析を用いた自動索引抽出では、先に述べたような
格辞書および世界知識を用いた係り受け解析処理を基本
としている。斎藤ら（斎藤、野寄：日本語文解析による
キーワード抽出、電子通信学会技術研究回報告、ｖｏｌ
、８１．　Ｎｏ、９０．ｐｐ、４１−４８．１９８１）
の場合、係り受け解析結果に基づき、係り受け関係のあ
る単語を結合して複合語とし、生成した複合語の中でシ
ソーラスの用語と一致し、かつシソーラスで最も上位の
語をキーワードとして出力する。キーワード抽出例を第
１９図に示す。

文章の自動抄録では、文単位の抄録だけでなく、単語単
位の抄録まで考慮している報告としては、高松ら（高松
、西山、百出；技術文書の理解と要約情報の抽出、情報
処理学会第３３会全国大会、４Ｌ−２，１９８８＞のフ
レームを用いた手法がある。これは、第２０図に示すよ
うなフレームを各分野ごとに記述しておき、人力文書の
ヘッディング情報などから入力文章に適合するフレーム
を同定する。適合するフレームが決定された時点で文章
をフレームに当てはめる。この一連の作業により単文内
の抄録を可能としている。

〔発明が解決しようとする課題〕

文章の自動検索抽出、自動抄録における従来手法は、係
り受け解析で述べたように、正解率を向上するためフレ
ームや世界知識などの分野依存の情報を用いているため
、分野依存性が非常に高くなってしまう。逆に分野依存
性の少ない手法では高い正解率が得られないなどの問題
点がある。

この発明の目的は、特許請求の範囲文などのように繰り
返し表現の多い文章の構文解析に際し、詳細な格関係や
世界知識を用いずに文章内の情報により係り受けのあい
まい性を解消する係り受け解析手法を提供するとともに
、係り受け解析結果に基づき文章の理解を促進する表示
方法、重要度を付与した索引を生成する方法、簡易に文
章の抄録を生成する方法を提供することにある。

〔課題を解決するための手段〕

この発明にかかる自然言語処置装置は、文章の係り受け
解析において、係り受けが一義に決定できる係り受け関
係を係り受け関係テーブルに保存し、係り受けが一義に
決定できない係り受け関係の判定に際し、テーブルを参
照して、テーブルに存在する係り受け関係をテーブルに
存在しない係り受け関係に優先して採用し係り受け関係
を判定する係り受け解析部と、係り受け判定結果に基づ
き文章の構造を表示する文章表示部と、係り受け判定結
果に基づき索引を抽出するとともに索引の重要度を付与
する索引抽出部と、係り受け判定結果および索引抽出部
の索引に基づき文章の抄録を生成する抄録生成部とを具
備したものである。

〔作用〕

この発明においては、係り受け解析部において、文中に
依存する言い替え、繰り返し、複合語の各表現から抽出
する意味情報を用いて係り受け解析を行う。また、文書
表示方部は、係り受け解析に基づき文章を階層的に表示
するため、わかりにくい文の文章構造を容易に理解させ
ることが可能となる。さらに、索引抽出部は、文章の係
り受け構造に基づき索引の重要度を付与するため、従来
の索引を用いた検索よりきめ細かな、かつヒツト率の高
い検索が可能となる。また、抄録生成部は、文章の係り
受け構造に基づき抄録を生成する。

〔実施例〕

以下、この発明の実施例について説明する。

まず、この発明の自然言語処理装置の全体の構成につい
て述べ、次に各構成部分の詳細を説明する。

第１図はこの発明の一実施例の構成を示すブロック図で
ある。１は係り受け解析部で、入力文Ｓの形態素解析を
実施し、単語単位に分割するとともに品詞情報を付与す
る。また、その形態素解析結果を用いて係り受け解析を
実施する。２は文章表示部で、入力文Ｓの係り受け解析
結果を活用して、文章の理解を促進させるような文章表
示を行う。３は索引抽出部で、係り受け解析結果を用い
て重み付けされたフリーキーワードを自動的に生成する
。４は抄録生成部で、キーワードを含む重要文節を中心
に文章を構成し該文章を抄録として出力する。

この発明の実施例においては、係り受け関係の係り語と
受け語は共に文節を単位とする。また、係り受け関係と
しては、係り語と受け語の意味カテゴリの連結関係およ
び係り語と受け語の接続関係を用いる。ここで、意味カ
テゴリとは、単語の持つ共通的な意味概念を表しており
、各単語にはその概念に対応した意味カテゴリ番号等が
割り当てられる。この実施例で使用している意味カテゴ
リ番号は、国立国語研究所発行の分類語粟表（国立国語
研究所資料集６　分類語重表、秀突出版、１９６４）に
記載されているものを用いる。

第２図は、第１図の係り受け解析部１の詳細を示すブロ
ック図である。

第２図において、１Ａは文節単位分割部で、入力文Ｓを
文節単位に分割する。１Ｂは文節抽出部で、分割された
入力文Ｓの文節を抽出する。１Ｃは係り受け候補抽出部
で、抽出された文節について係り受けの候補を全て抽出
する。１Ｄは複合語分割部で、文節内の複合語を単語に
分割する。

１Ｅは複合語係り受け解析部で、複合語の単語間の係り
受け関係を判定する。１Ｆは係り受け関係テーブルであ
る係り受け候補保存部で、文節間の係り受け関係、複合
語内の単語間の係り受け関係を記憶するテーブルである
。１Ｇは係り受け関係登録部で、係り受け候補保存部１
Ｆへの登録を行う。１Ｈは係り受け候補検索部で、係り
受け候補保存部１Ｆの係り受け候補を検索する。１■は
係り受け判定部で、係り受け関係を照合１判定する。１
Ｊは係り受け関係決定部で、係り受け判定部１１の結果
に基づき係り受け関係を決定する。

次に、第３図を用いて係り受け解析の動作について説明
する。なお、第３図中の　（１）〜（１３）は各ステッ
プを示す。

まず、ステップ　（１）で入力された文章を文節単位に
区切る。次に、ステップ（２）で文章の先頭から順次１
文節ずつ取り出す。ステップ　（３）では、対象文節中
の自立語の品詞、活用形および付属語の種類により、受
け語となりえる全ての文節候補を抽出する。受け語とな
る文節候補が１つのみで、係りと受けが一義に決定でき
る場合、ステップ　（７）を実行する。つまり、係り語
と受け語の関係を係り受け候補保存部１Ｆに登録する。

係り受け候補保存部１Ｆは、係り語と受け語の意味カテ
ゴリ番号を対とするリスト、係り語の受け語の接続テー
ブルからなる。

係り受け解析が一義に決定できないときは、ステップ　
（９）に示すように、係り受け候補保存部１Ｆを用いて
係り受け関係を判定する。判定方法としては、意味カテ
ゴリ番号の連結関係リストを用いる場合、全ての係り受
け候補に対して係りと受けの意味カテ・ゴリ番号をリス
トにする。

次に、すでに作成した連結関係リストを検索し、前記連
結関係リストとマツチングが取れ、かつ係り語と受け語
の距離が最も近い係り受け候補を正解とする。係り語と
受け語の接続テーブルを用いる場合、まず、全ての係り
受け候補に対して係りと受けの単語をリストにする。そ
して、すでに作成した前記係り受け候補保存部１Ｆを検
索し、この係り受け候補保存部１Ｆとマツチングが取れ
、かつ係り語と受け語の距離が最も近い係り受け候補を
正解とする。係り受け関係の優先度は、係り語と受け語
の接続テーブル、意味カテゴリ番号の連結関係リストの
順に低くなる。係り受け関係の判定は、係り受け関係の
優先度の高い順に行い、マツチングが取れた時点で、そ
れより優先度の低い係り受け関係による判定は行わない
。

係り受け候補保存部１Ｆが空である場合や対応するテー
ブルがなかった場合、係り受け候補保存部１Ｆによる係
り受け関係の判定は終了し、次にステップ（１０）の処
理にＢる。ステップ（１０）では、意味カテゴリ番号の
連結関係のリストの中で係り語と受け語の意味カテゴリ
番号が等しいリストを検索し、該当するリストがあれば
、その係り受け関係を正解とする（ステップ（１１））
。意味カテゴリ番号の等しいリストがない場合、ステッ
プ（１２）に進み、入力された文節の係り受けの判定を
保留し、係り受けの全候補を一時的に退避する。そして
、次文節の係り受け解析を開始する（ステップ（１３）
）、ステップ（８）では、ステップ（１２）で係り受け
解析を保留した文節に対し、新規登録された係り受け候
補保存部１Ｆとの比較を行い、マツチングの取れたリス
トを持つ係り受け関係を正解と判断する。そして、すべ
ての文節の係り受け解析が終了した時点で、係り受けの
あいまいな文節は最も係り語と受け語の距離が短い候補
を正解とする。

係り語を構成する自立語が複合語である場合、その複合
語から意味カテゴリ番号の連結関係リストを作成する。

まず、ステップ　（４）で複合語を単語単位に分割し、
接頭語、接尾語を取り除く。次に、ステップ（５）で得
た複合語の単語間の係り受け関係から意味カテゴリ番号
の連結関係リストを作成する（ステップ（６））。各単
語の係り受け関係は、特許請求の範囲文のような文章の
場合、直後の単語に係るとする。ステップ　（６）の処
理により一般の文節単位の係り受け解析において、複合
語内の単語の係り受け情報が利用できる。

以下に、特許請求の範囲文の解析を例にとってこの発明
の文章の係り受け解析方法を詳細に説明する。

第４図は特許請求の範囲文の文例である。この文を係り
受け解析すると一義に決定できない係り受けが存在する
。例えば例文中の　（１）の例では、“作成中の”とい
う文節は次の“文章中に°。

゛°変換結果の′°、°゛同音語を“°、゛手段と′°
の４通りに係る可能性がある。文章中には例　（１）と
同様な表現がないため、係り語と受け語の接続テーブル
を用いて係り受け候補を絞ることができない。そのため
、意味カテゴリ番号の連結関係リストを用いて係り受け
を決定する。なお、■は２重下線箇所であり、これにつ
いては後述する。

第５図は“作成中の”の文節まで係り受け解析を実行し
た場合の連結関係リストである。〈１〉は係り語とその
係り語の意味カテゴリ番号、（２〉は受け語とその受け
語の意味カテゴリ番号、〈３〉は係り語と受け語の意味
カテゴリ番号のリストである。最初の２組の“カナ”−
”漢字”と“漢字”−゛°変換の関係は、第６図に示す
ように、複合語“カナ漢字変換”から連結関係リストを
抽出した例で、３番目の“カナ漢字変換”変換結果”の
関係は、係り語“カナ漢字変換時の°゛と受け語“変換
結果の”の係り受け解析から抽出した関係である。複合
語としての意味カテゴリ番号は、普通、複合語の係り受
け解析の結果より、複合語を構成する単語群の中で複合
語の意味を明確に示す単語の意味カテゴリ番号を用いる
。

特許請求の範囲文において用いられる複合語は、最後の
単語（接尾語を除く）によってその意味が表現される場
合が多い。第４図の例では、一番最後の意味カテゴリを
複合語の意味カテゴリ番号として用いている。第５図の
最後の３つのリストは゛作成中の文中に表示する手段と
″（−行目）という文から抽出した連結関係リストであ
る。この時点までに作成された連結関係リストを用いて
（１）の例の係り受け解析を行う。例（１）の係り受け
候補（Ｃ）、（ｄ）、（ｅ）、（ｆ）の意味カテゴリ番
号のリストは、それぞれ（１，３８６，１，３１５４）
、（１，３８６，１，１１１２）、（１，３８６，１，
３１１２）、（１，３８６，１，１１１３）である。こ
の中で、第５図の連結関係リストとマツチングが取れる
のは（ｃ）の（１，３８６，１，３１５４）の関係、つ
まり、生成関係の単語と文章関係の単語の関係である。

そのため、生成関係の単語である゛作成′°と文章関係
の単語である゛文章“°に係り受け関係があることがわ
かり、゛作成中の°。

は゛′文童中に”に係るのが正解であるということが判
明する。

この例で示されるように、（１，３８６，１，３１５４
）の連結関係リストから“作成する”という動詞（意味
カテゴリ番号１．３８６）は意味カテゴリ番号１．３１
５４（文章、論文１文、・・・川）を格として持つとい
うことを表している。そのため、必ずしも同じ単語が係
り受けに用いられていなくとも、意味カテゴリ番号の同
じ単語であれば、同様に係り受け関係があると判定する
ことができる。

例えば“文を作るとき・・・・・・　という文を”と作
る”の係り受け関係の判定にも用いることができる。ま
た、意味カテゴリ番号のリストは係り受けを区別しない
ので、上記リストを用いて“作成された文書の・・・川
　という係りと受けが逆になった係り受け関係も一義決
定できる。

第４図の　（２）の例で、“変換結果の”という文節は
“°同音語を”（ｇ）と°“手段と”　（ｈ）の２種類
の係り受けの可能性がある。しかし、この文節に至るま
でに作成した係り受け関係テーブルには、この係り受け
のあいまいさを解消するのに適した情報がない。そのた
め、文節゛変換結果の”の係り受け候補をすべて一時退
避し、次文節の係り受け解析を実行する。他の文節の係
り受け解析を実行した結果、最終的にこの文節の係り受
けは第４図の■の二重下線箇所の係り受けを解析するこ
とにより決定される。つまり、二重下線箇所■から係り
語“変換結果の”および受け語“同音語”が係り語と受
け語の接続テーブルに登録される。また、意味カテゴリ
番号の連結関係リストには、°゛変換結果′°の意味カ
テゴリ番号１．１１１２と°゛同音語”の意味カテゴリ
番号１．３１１２がリストとして登録される。そのため
“変換結果の”が“同音語を”に係ると接続テーブルお
よび連結関係リストから決定できる。つまり、　（２）
の例では、語の文節を係り受け解析することにより（ｇ
）の係り受けが正解であると判断される。

第４図の　（３）の例で、該当する係り受け関係情報が
、係り受け関係テーブルになかった場合のステップ（１
０）の処理例を示す。“選択させる′°は連体修飾形で
あるため、名詞（句）、つまり、゛同音語表示選択手段
を′°と゛同音語出力方式”のどちらにも係る可能性が
ある。この場合、意味カテゴリ番号の連体関係リストを
用いても係り受けを一義に決定できないため、ステップ
（１０）を実行することになる。゛選択”は意味カテゴ
リ番号が１゜３０６３であるため、複合語を構成する単
語群の中に意味カテゴリ番号が１．３０６３である単語
が含まれている場合、その複合語を受け語とする係り受
け関係を優先する。この場合、“同音語表示選択手段”
の中の“選択′°が意味カテゴリ番号が１．３０６３で
あるため、“選択させる”は°°同音語表示選択手段”
にかかると判定される。

第４図の　（４）の例では、図に示すように、（ｋ）、
（１）、（ｍ）、（ｎ）４種類の係り受けのあいまいさ
が生じる。この場合、文章の係り受け解析から得られた
意味カテゴリ番号の連結関係リストからは、該当するリ
ストは得られない。しかし、複合語“同音語表示選択手
段”を単語に分割し、その単語間から抽出された連結関
係リストにより“同音語を”は°゛表示て°°　（ｋ）
に係ると決定することができる。

以上のような係り受け解析部の解析結果を用いて、文章
の表示を行う文章表示部２の処理の流れ図を第７図に示
す。文章表示部２は実際、文章構成解析部５と文章要旨
抽出部６と文章理解促進表示部７の３つの処理からなる
。

処理の実施例を第８図に示す。第８図の実施例は、（ｉ）　　係り語の表示レベルをＬとすると、受け語の
レベルは（Ｌ−１）とする。

（ｉ　ｉ）並列要素間では、表示レベルは同じとする。

（ｉｉｉ）最も係りの深い受け語を表示レベル０とする
。

（ｉ　ｖ）画面に表示するときは、表示レベルの大きい
順とする。

という４つのルールを用いて表示したものであり、文章
理解促進表示部７で処理を行っている。

例えば、第１文節゛′文童を”　（表示レベル７）は°
゛構成る°°に係っており、ルール（ｉ）より第２文節
の表示レベル６　（７−１＝６）となる。また、文節゛
°範囲指定手段°”は゛文章情報記憶手段”　（表示レ
ベル３）と並列であるため、ルール（ｉ　ｉ）が適用さ
れ同じ表示レベル３となる。最後の文節“日本語入力装
置゛′はルール（ｉｉｉ）が適用され表示レベル０とな
る。このようにして、全ての文節の表示レベルを算出し
たのちルール（ｉｖ）を適用し第８図の表示を得る。

第９図は文章の構成を明示するとともに、文章の要旨を
強調して表示する例である。第９図の表示のための処理
は以下のようになっている。

入力文章を係り受け解析（係り受け解析部１）した後、
読点を含む文節を解析する。

文章構成解析部５では、入力文章を前提部、構成部、結
論部の３つに分ける。。「〜を備え」という文節に対し
て並列要素である文節群を゛構成部゛°、構成部よりも
前の文節群を゛前提部′°、構成部よりも後の文節群を
°゛結論部パとする。文章要旨抽出部６では文章構成に
基づき文章の要旨部を抽出する。前提部では、主語（「
は」および「が」の助詞が付与されている文節）と、目
的語（「を」の助詞が付与されている文節）と読点文節
を抽出する。構成部では、並列要素とそれを束ねている
用言を、結論部では、結論誘導表現（例えばｒ〜に関す
る」、「〜を特徴とする」など）を含む文節を抽出する
。

文章理解促進表示部７では要旨部以外の注釈部の解析お
よび表示を行う。注釈部では、並列要素を抽出するとと
もに、単一文単位に分割する。単−文とはく体言〉く体
言〉・・・・・・〈用言〉という複数の体言文節と１つ
の用言文節との組み合せからなる文と定義する。そして
、それぞれの単一文の係り受け関係を矢印で表示する。

例えば“同一の読みのものは同一のグループとし、”は
単一文である。この単一文は次の文節”この同一の・・
・・・・以下の文節に係る。

最終的にこれらの処理を行った後、各部を強調して表示
する。

次に索引抽出部３の処理流れ図を第１０図に示す。

索引抽出部３は体言抽出部８と、不要語排除部９とキー
ワード重み付は付与部１０とから構成されている。各部
の処理について述べる。

体言抽出部８では、係り受け解析部１の形態素解析結果
より、品詞が体言である単語を文章中からすべて抽出す
る。

不要語排除部９では不要語辞書と該単語群との一致判定
処理を行い、一致した単語を該単語群から排除する。キ
ーワード重み付は付与部１０では、係り受け解析結果に
より付与された文節の表示レベルの値に基づき、該単語
群のすべての単語にキーワードレベルを付与する。一般
に、日本語の文章は係り受けが深いもの（修飾の割合が
高いもの）はど文書中における重要度が高いという特徴
がある。そのため、キーワードレベルは表示レベルに比
例させた値を与える。

第１１図は、第８図に示す文章を入力とした場合の索引
抽出処理の一実施例である。この例では、キーワードレ
ベルは、表示レベル類にソートしたキーワード群に対し
て、表示レベルの低い順に１から重み付けしたものであ
り、キーワードレベルの小さい単語はどキーワードとし
ての重要度が高い。この重み付は値は表示レベル数、文
章の長さによって適当に決定される。

抄録生成部４では、抄録率（Ｃｏｍｐａｃｔａｔｉｏｎ
　Ｒａｔｅ：Ｃ率）なる値に基づき所望の抄録を生成す
る。

Ｃ率の定義は以下のようになっている。

Ｃ率は抄録要求に応じて変動する。例えば非常に簡単な
抄録を希望する場合、Ｃ率を低く与え、内容の濃い抄録
を希望する場合、Ｃ率を高く設定することにより所望の
抄録を得ることができる。

使用者がＣ率を与えない場合、抽出文節数Ｂに対するＣ
率の傾き（ｄＣ／ｄＢ）が最小となるＣ率を自動的に算
出し、該Ｃ率を満足するような抄録を作成する。

具体的な抄録生成処理の流れは第１２図のようになって
いる。１は係り受け解析部、３は係り受け解析結果に基
づいてキーワードを抽出する索引抽出部、重要文節抽出
部１１は抽出されたキーワードとＣ率に基づき、表示レ
ベルの低い方からＣ率を満たすのに十分な文節を抽出す
る。文節補充部１２では重要文節抽出部１１で抽出した
文節を接続した場合、非文法的となる箇所を捜し、文節
を補充する。第１３図に、第８図で表示された文章を例
として係り受け解析部１．索引抽出部３゜重要文節抽出
部１１１文節補充部１２を順に実行し、抽出された文節
を下線で表示する。

表示レベルが最大の文節のうち、その文節が用言である
場合、該用言の格の文節を補充する。第１３図の例では
文頭の゛単語毎に、”や“少なくとも”なとの文節は重
要文節抽出部１１から抽出された文節である。この場合
、重要文節抽出部１１では、表示レベルがＯ〜５に含ま
れる文節を抽出する。さらに、文節補填部１２では、２
重下線で示す文節■“表示して°のように格となる文節
（“出力を°と゛画面に′）が抽出されていない場合、
該文節を補填する。抄録表示部１３では全抽出文節を接
続し、出力する。

なお、この発明は日本語の文章に限らず、英文に対して
も適用することが可能である。

〔発明の効果〕

この発明は以上説明したように、係り受け解析部は、特
別な世界知識を用いずに、各文章内にある情報を抽出し
利用することにより、精度の高い係り受け解析を実現す
る。実施例で示したように、係り受け関係を意味カテゴ
リの連結としてとらえた場合、動詞の格関係に基づく係
り受けや名詞句による修飾を一元的に扱うことができ、
かつ言い替えを含む文章に対しても係り受け関係を一義
的に決定できる。この方法を用いれば、世界知識を分野
ごとに作成するために必要となるコストを節減すること
ができる。また、この方法をハードウェア、ソフトウェ
アいずれで実現する場合においても、世界知識を常駐さ
せておく領域を必要としないため、非常に小規模のシス
テムとすることができる。

さらに、分野依存性の少ない係り受け解析を用いること
により、文章の表示、索引抽出、抄録生成処理を分野に
依存せず高精度に実施できる。

また、係り受け解析結果を用いて、文章を構造化表示す
ることにより、特許文のような繰り返しが多く、長い文
意の内容理解が容易になる。

さらに、分野に依存しない係り受け解析を用いた索引抽
出により、分野に依存せず、高精度のフリーキーワード
を抽出できるばかりでなく、抽出したキーワ−ドを重み
付けして出力するため、情報検索時に高いヒツト率が得
られる。また、抄録生成処理では、簡易に文章の抄録を
自動的に生成することができる。

【図面の簡単な説明】

第１図はこの発明を実施するための装置の構成を示すブ
ロック図、第２図は、第１図の実施例中の係り受け解析
部の詳細を示すブロック図、第３図はこの発明の係り受
け解析部の処理の流れ図、第４図は係り受け解析部の一
実施例の説明に用いた特許請求の範囲文の文例を示す図
、第５図は前記実施例で作成した連結関係リスト図、第
６図は前記実施例における複合語解析の例を示す図、第
７図は文章表示部の処理の流れ図、第８図、第９図は文
章表示の一実施例を示す図、第１０図は索引抽出部の処
理の流れ図、第１１図は索引抽出の一実施例を示す図、
第１２図は抄録生成部の処理の流れ図、第１３図は抄録
生成処理の一実施例を示す図、第１４図は従来の係り受
け解析方法で用いられた格関係表の例を示す図、第１５
図、第１６図は、従来の係り受け解析方法で用いられた
知識表へのアクセス表と知識表の例を示す図、第１７図
は従来の係り受け解析の実行例の説明に用いた特許文の
文例を示す図、第１８図は従来手法で用いられた索引抽
出手法の原理説明図、第１９図は従来の係り受け解析を
用いた索引抽出例を示す図、第２０図は従来の抄録生成
手法の原理説明図である。図中、１は係り受け解析部、２は文章表示部、３は索引
抽出部、４は抄録生成部、５は文章構成解析部、６は文
章要旨抽出部、７は文章理解促進表示部、８は体言抽出
部、９は不要語排除部、１０はキーワード重み付は付与
部、１１は重要文節抽出部、１２は文節補填部、１３は
抄録表示部である。第１図第２図第図カナ漢字変換時の結果の３４１候補を作成中の文中に表
示する手段と、前記更新手段の操作に応答して第図矛図複語虹１主時の ↓ ↓ ↓ 第図第図第図第図第図ＣＯＭＰＯ５ＩＴＯＮＬＯＣＡＴＩＯＮＰＲＯｆ：ＥＳＳ第図〈述語〉〈名詞〉＋〈格助詞）〈意味分類）（ロール）〈有意志体〉ガニの主体く非有意志体〉ガニ■ 主題〈組織体）ヲ：■ 客体（地名〉ヲ：■ 場所〈物買名〉ヲ：■ 主題〈組織体〉ガニ■ 主体〈組織体〉ニ：■ 客体〈組繊体〉ヲ：■ 主題〈地名）ヲ：■ 主題〈物買名〉ヲ：■ 主題第図第図第図Ｗｏｒｄｓ　ｂｙ　ｒａｎｋ　ｏｒｄｅｒ′Ｍ１９図半導体基板の表面にグート絶祿膜をｒ設は一土垂僅　　　：ゲート　　　　≦　　　：その「ヱ二二史婦膜上、＆：ｒゲーグーａｉノを設けた：「穐稀ヱユ土型
生！体員土」を：有する：

【土掻体Ｒ１盟ｌ】において、上記Ｙ二Σ杷朋は２種以上のｒ！ａ！ｕＩの芝厘逍遣」とされ、：そ
のグ：」」Ｅ建膜の半導体表面と接した「廼樋厘のみが絶縁破壊さＪれたか否かにより、２値符号が「記憶→二値Ｒ１！ｒＥａ」される二
ことを特徴とした土浸μｍ１１４！２

Claims

【特許請求の範囲】

文章の係り受け解析において、係り受けが一義に決定で
きる係り受け関係を係り受け関係テーブルに保存し、係
り受けが一義に決定できない係り受け関係の判定に際し
、前記テーブルを参照して、テーブルに存在する係り受
け関係をテーブルに存在しない係り受け関係に優先して
採用し係り受け関係を判定する係り受け解析部と、前記
係り受け判定結果に基づき文章の構造を表示する文章表
示部と、前記係り受け判定結果に基づき索引を抽出する
とともに索引の重要度を付与する索引抽出部と、前記係
り受け判定結果および前記索引抽出部の索引に基づき文
章の抄録を生成する抄録生成部とを具備したことを特徴
とする自然言語処理装置。