JPH0244462A - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JPH0244462A
JPH0244462A JP63194362A JP19436288A JPH0244462A JP H0244462 A JPH0244462 A JP H0244462A JP 63194362 A JP63194362 A JP 63194362A JP 19436288 A JP19436288 A JP 19436288A JP H0244462 A JPH0244462 A JP H0244462A
Authority
JP
Japan
Prior art keywords
dependency
sentence
word
analysis
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63194362A
Other languages
English (en)
Inventor
Hiroto Inagaki
博人 稲垣
Kiyoshi Kabetani
壁谷 喜義
Fumihiko Kobashi
小橋 史彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63194362A priority Critical patent/JPH0244462A/ja
Publication of JPH0244462A publication Critical patent/JPH0244462A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、文章の係り受け解析方法2文章表示方法、
索引抽出方法、抄録生成方法などを実行しつる自然言語
処理装置に関するものである。
(従来の技術) 文章の係り受け解析は自然言語処理の前処理であり、係
り受けの精度が処理全体の性能に大きく影響する。その
ため、精度の高い係り受け解析方法が強く望まれている
一般に、日本語文の係り受けにはできるだけ受け語を係
り語の近くに配置するという規則がある。しかし、係り
受け関係の全てが上記規則に当てはまらないため係り受
け関係にあいまい性が生じる。そこで、係り受け関係を
正確に決定するために種々の方法が従来から提案されて
いる。
意味情報を付与した動詞の格関係の文型表を用いる方法
を路用ら(路用、木村:日本語文構造解析による自動イ
ンデクシング方式、情報処理学会論文誌、vol、21
.No、3.1980)は提案している。第14図は彼
らの係り受け解析方法で用いられている動詞の格関係の
文型表の例である。文中の動詞に着目し、その動詞に接
続する名詞と格助詞およびその名詞句の意味分類を規定
し、その関係を用いて係り受け解析を行っている。しか
し、この方法は全ての動詞について、動詞と名詞の格関
係を記述する困難な作業を必要とする。さらに、名詞句
から名詞句への係り受けや用語の連体修飾による名詞句
への係り受けなどの場合、係り受けの決定が難しいとい
う問題点がある。
高松、百出ら(高松0日下、西日:技術抄録文からの関
係情報の自動抽出、情報処理学会論文誌、vol、25
.No、2.1984)は、線用らの文型表による係り
受け解析方法の問題点を世界知識を用いることにより補
っている。この方法は、特許請求範囲文などの技術抄録
文に対し、動詞の格構造パターンと個別に記述された専
門分野の知識を組み合せて、格構造関係だけでは解析で
きなかったあいまいな係り受け解析の決定を可能として
いる。具体例を用いてその方法を説明する。
まず、入力文の格構造を解析してから第15図の知識表
へのアクセス表を参照する。次に、そのアクセス表を基
に文の格構造に対応する格ラベルの組立を知識表から検
索する。そして、知識表に書かれている格関係事例を最
尤係り受け候補とし係り受けを判定する。
第16図は半導体装置に関する知識表の例である。
第17図の文例で上記方法の係り受け解析例を示す。こ
の例では、“含む”動詞が“シリコン基板上の”に係る
か゛°絶縁層”に係るかの0.02通りの解釈が成り立
つ。“含む′°型動詞の格としては、OBJ とPAR
TICを取り、その間には“GOMPO−5ITION
”の概念関係があることが第15図(a)のアクセス表
より判断される。第16図の半導体装置における°“(
:OMPO5ITION”の知識表を検索し、OBJと
PARTICの格関係の事例を調べる。実際には、゛チ
ャンネル領域”(PARTIC)と°“シリコン基板”
(OBJ)の格関係事例が知識表より抽出され、チャン
ネル領域はシリコン基板に含まれるが・絶縁層はシリコ
ン基板に含まれないという知識が抽出でき、この例では
■の係り受けが正しいと判断される。この方法により連
体修飾に関する係り受け解析を正確に行うことができる
が、構成素など各種の知識表や格専門分野ごとに綿密な
知識表を作成しなければならないという問題点がある。
一方、文章の自動索引抽出方法は種々の研究が行われて
いる。索引を抽出する前処理のレベルでは、統計処理と
構文解析処理の2つに分類することができる。また、検
索の立場に立った場合、検索に入力することが可能なキ
ーワードの種類(フリーキーワード、統制キーワード)
によって検索抽出処理も2種類に分類される。1つはフ
リーキーワードの抽出を目的とする不要語辞書法で、も
う1つは統制キーワードを抽出する統制語辞書法である
。つまり、不要語辞書法では不要語辞書を用いてキーワ
ードになりえないような単語(例えば゛場合”図3−3
”、“同様′°など)を排除することにより、文章中か
らフリーキーワードを抽出する。また、統制語辞書法で
は統制語辞書と抽出した名詞とのマツチングをとり、辞
書中に存在する単語のみをキーワードとすることにより
、統制キーワードを抽出する。
統計処理を用いた索引抽出では、単語の出現顕度の傾向
が第18図(van RiJsbergen、C:、J
、:Info−rmation Retrieval、
5econd Edition、Butter Wor
−ths、London、1979)のようになってお
り、キーワードはupper cut−offと1ov
er cut−offの間にあるというルールに基づい
てキーワードを選定する。
構文解析を用いた自動索引抽出では、先に述べたような
格辞書および世界知識を用いた係り受け解析処理を基本
としている。斎藤ら(斎藤、野寄:日本語文解析による
キーワード抽出、電子通信学会技術研究回報告、vol
、81. No、90.pp、41−48.1981)
の場合、係り受け解析結果に基づき、係り受け関係のあ
る単語を結合して複合語とし、生成した複合語の中でシ
ソーラスの用語と一致し、かつシソーラスで最も上位の
語をキーワードとして出力する。キーワード抽出例を第
19図に示す。
文章の自動抄録では、文単位の抄録だけでなく、単語単
位の抄録まで考慮している報告としては、高松ら(高松
、西山、百出;技術文書の理解と要約情報の抽出、情報
処理学会第33会全国大会、4L−2,1988>のフ
レームを用いた手法がある。これは、第20図に示すよ
うなフレームを各分野ごとに記述しておき、人力文書の
ヘッディング情報などから入力文章に適合するフレーム
を同定する。適合するフレームが決定された時点で文章
をフレームに当てはめる。この一連の作業により単文内
の抄録を可能としている。
〔発明が解決しようとする課題〕
文章の自動検索抽出、自動抄録における従来手法は、係
り受け解析で述べたように、正解率を向上するためフレ
ームや世界知識などの分野依存の情報を用いているため
、分野依存性が非常に高くなってしまう。逆に分野依存
性の少ない手法では高い正解率が得られないなどの問題
点がある。
この発明の目的は、特許請求の範囲文などのように繰り
返し表現の多い文章の構文解析に際し、詳細な格関係や
世界知識を用いずに文章内の情報により係り受けのあい
まい性を解消する係り受け解析手法を提供するとともに
、係り受け解析結果に基づき文章の理解を促進する表示
方法、重要度を付与した索引を生成する方法、簡易に文
章の抄録を生成する方法を提供することにある。
〔課題を解決するための手段〕
この発明にかかる自然言語処置装置は、文章の係り受け
解析において、係り受けが一義に決定できる係り受け関
係を係り受け関係テーブルに保存し、係り受けが一義に
決定できない係り受け関係の判定に際し、テーブルを参
照して、テーブルに存在する係り受け関係をテーブルに
存在しない係り受け関係に優先して採用し係り受け関係
を判定する係り受け解析部と、係り受け判定結果に基づ
き文章の構造を表示する文章表示部と、係り受け判定結
果に基づき索引を抽出するとともに索引の重要度を付与
する索引抽出部と、係り受け判定結果および索引抽出部
の索引に基づき文章の抄録を生成する抄録生成部とを具
備したものである。
〔作用〕
この発明においては、係り受け解析部において、文中に
依存する言い替え、繰り返し、複合語の各表現から抽出
する意味情報を用いて係り受け解析を行う。また、文書
表示方部は、係り受け解析に基づき文章を階層的に表示
するため、わかりにくい文の文章構造を容易に理解させ
ることが可能となる。さらに、索引抽出部は、文章の係
り受け構造に基づき索引の重要度を付与するため、従来
の索引を用いた検索よりきめ細かな、かつヒツト率の高
い検索が可能となる。また、抄録生成部は、文章の係り
受け構造に基づき抄録を生成する。
〔実施例〕
以下、この発明の実施例について説明する。
まず、この発明の自然言語処理装置の全体の構成につい
て述べ、次に各構成部分の詳細を説明する。
第1図はこの発明の一実施例の構成を示すブロック図で
ある。1は係り受け解析部で、入力文Sの形態素解析を
実施し、単語単位に分割するとともに品詞情報を付与す
る。また、その形態素解析結果を用いて係り受け解析を
実施する。2は文章表示部で、入力文Sの係り受け解析
結果を活用して、文章の理解を促進させるような文章表
示を行う。3は索引抽出部で、係り受け解析結果を用い
て重み付けされたフリーキーワードを自動的に生成する
。4は抄録生成部で、キーワードを含む重要文節を中心
に文章を構成し該文章を抄録として出力する。
この発明の実施例においては、係り受け関係の係り語と
受け語は共に文節を単位とする。また、係り受け関係と
しては、係り語と受け語の意味カテゴリの連結関係およ
び係り語と受け語の接続関係を用いる。ここで、意味カ
テゴリとは、単語の持つ共通的な意味概念を表しており
、各単語にはその概念に対応した意味カテゴリ番号等が
割り当てられる。この実施例で使用している意味カテゴ
リ番号は、国立国語研究所発行の分類語粟表(国立国語
研究所資料集6 分類語重表、秀突出版、1964)に
記載されているものを用いる。
第2図は、第1図の係り受け解析部1の詳細を示すブロ
ック図である。
第2図において、1Aは文節単位分割部で、入力文Sを
文節単位に分割する。1Bは文節抽出部で、分割された
入力文Sの文節を抽出する。1Cは係り受け候補抽出部
で、抽出された文節について係り受けの候補を全て抽出
する。1Dは複合語分割部で、文節内の複合語を単語に
分割する。
1Eは複合語係り受け解析部で、複合語の単語間の係り
受け関係を判定する。1Fは係り受け関係テーブルであ
る係り受け候補保存部で、文節間の係り受け関係、複合
語内の単語間の係り受け関係を記憶するテーブルである
。1Gは係り受け関係登録部で、係り受け候補保存部1
Fへの登録を行う。1Hは係り受け候補検索部で、係り
受け候補保存部1Fの係り受け候補を検索する。1■は
係り受け判定部で、係り受け関係を照合1判定する。1
Jは係り受け関係決定部で、係り受け判定部11の結果
に基づき係り受け関係を決定する。
次に、第3図を用いて係り受け解析の動作について説明
する。なお、第3図中の (1)〜(13)は各ステッ
プを示す。
まず、ステップ (1)で入力された文章を文節単位に
区切る。次に、ステップ(2)で文章の先頭から順次1
文節ずつ取り出す。ステップ (3)では、対象文節中
の自立語の品詞、活用形および付属語の種類により、受
け語となりえる全ての文節候補を抽出する。受け語とな
る文節候補が1つのみで、係りと受けが一義に決定でき
る場合、ステップ (7)を実行する。つまり、係り語
と受け語の関係を係り受け候補保存部1Fに登録する。
係り受け候補保存部1Fは、係り語と受け語の意味カテ
ゴリ番号を対とするリスト、係り語の受け語の接続テー
ブルからなる。
係り受け解析が一義に決定できないときは、ステップ 
(9)に示すように、係り受け候補保存部1Fを用いて
係り受け関係を判定する。判定方法としては、意味カテ
ゴリ番号の連結関係リストを用いる場合、全ての係り受
け候補に対して係りと受けの意味カテ・ゴリ番号をリス
トにする。
次に、すでに作成した連結関係リストを検索し、前記連
結関係リストとマツチングが取れ、かつ係り語と受け語
の距離が最も近い係り受け候補を正解とする。係り語と
受け語の接続テーブルを用いる場合、まず、全ての係り
受け候補に対して係りと受けの単語をリストにする。そ
して、すでに作成した前記係り受け候補保存部1Fを検
索し、この係り受け候補保存部1Fとマツチングが取れ
、かつ係り語と受け語の距離が最も近い係り受け候補を
正解とする。係り受け関係の優先度は、係り語と受け語
の接続テーブル、意味カテゴリ番号の連結関係リストの
順に低くなる。係り受け関係の判定は、係り受け関係の
優先度の高い順に行い、マツチングが取れた時点で、そ
れより優先度の低い係り受け関係による判定は行わない
係り受け候補保存部1Fが空である場合や対応するテー
ブルがなかった場合、係り受け候補保存部1Fによる係
り受け関係の判定は終了し、次にステップ(10)の処
理にBる。ステップ(10)では、意味カテゴリ番号の
連結関係のリストの中で係り語と受け語の意味カテゴリ
番号が等しいリストを検索し、該当するリストがあれば
、その係り受け関係を正解とする(ステップ(11))
。意味カテゴリ番号の等しいリストがない場合、ステッ
プ(12)に進み、入力された文節の係り受けの判定を
保留し、係り受けの全候補を一時的に退避する。そして
、次文節の係り受け解析を開始する(ステップ(13)
)、ステップ(8)では、ステップ(12)で係り受け
解析を保留した文節に対し、新規登録された係り受け候
補保存部1Fとの比較を行い、マツチングの取れたリス
トを持つ係り受け関係を正解と判断する。そして、すべ
ての文節の係り受け解析が終了した時点で、係り受けの
あいまいな文節は最も係り語と受け語の距離が短い候補
を正解とする。
係り語を構成する自立語が複合語である場合、その複合
語から意味カテゴリ番号の連結関係リストを作成する。
まず、ステップ (4)で複合語を単語単位に分割し、
接頭語、接尾語を取り除く。次に、ステップ(5)で得
た複合語の単語間の係り受け関係から意味カテゴリ番号
の連結関係リストを作成する(ステップ(6))。各単
語の係り受け関係は、特許請求の範囲文のような文章の
場合、直後の単語に係るとする。ステップ (6)の処
理により一般の文節単位の係り受け解析において、複合
語内の単語の係り受け情報が利用できる。
以下に、特許請求の範囲文の解析を例にとってこの発明
の文章の係り受け解析方法を詳細に説明する。
第4図は特許請求の範囲文の文例である。この文を係り
受け解析すると一義に決定できない係り受けが存在する
。例えば例文中の (1)の例では、“作成中の”とい
う文節は次の“文章中に°。
゛°変換結果の′°、°゛同音語を“°、゛手段と′°
の4通りに係る可能性がある。文章中には例 (1)と
同様な表現がないため、係り語と受け語の接続テーブル
を用いて係り受け候補を絞ることができない。そのため
、意味カテゴリ番号の連結関係リストを用いて係り受け
を決定する。なお、■は2重下線箇所であり、これにつ
いては後述する。
第5図は“作成中の”の文節まで係り受け解析を実行し
た場合の連結関係リストである。〈1〉は係り語とその
係り語の意味カテゴリ番号、(2〉は受け語とその受け
語の意味カテゴリ番号、〈3〉は係り語と受け語の意味
カテゴリ番号のリストである。最初の2組の“カナ”−
”漢字”と“漢字”−゛°変換の関係は、第6図に示す
ように、複合語“カナ漢字変換”から連結関係リストを
抽出した例で、3番目の“カナ漢字変換”変換結果”の
関係は、係り語“カナ漢字変換時の°゛と受け語“変換
結果の”の係り受け解析から抽出した関係である。複合
語としての意味カテゴリ番号は、普通、複合語の係り受
け解析の結果より、複合語を構成する単語群の中で複合
語の意味を明確に示す単語の意味カテゴリ番号を用いる
特許請求の範囲文において用いられる複合語は、最後の
単語(接尾語を除く)によってその意味が表現される場
合が多い。第4図の例では、一番最後の意味カテゴリを
複合語の意味カテゴリ番号として用いている。第5図の
最後の3つのリストは゛作成中の文中に表示する手段と
″(−行目)という文から抽出した連結関係リストであ
る。この時点までに作成された連結関係リストを用いて
(1)の例の係り受け解析を行う。例(1)の係り受け
候補(C)、(d)、(e)、(f)の意味カテゴリ番
号のリストは、それぞれ(1,386,1,3154)
、(1,386,1,1112)、(1,386,1,
3112)、(1,386,1,1113)である。こ
の中で、第5図の連結関係リストとマツチングが取れる
のは(c)の(1,386,1,3154)の関係、つ
まり、生成関係の単語と文章関係の単語の関係である。
そのため、生成関係の単語である゛作成′°と文章関係
の単語である゛文章“°に係り受け関係があることがわ
かり、゛作成中の°。
は゛′文童中に”に係るのが正解であるということが判
明する。
この例で示されるように、(1,386,1,3154
)の連結関係リストから“作成する”という動詞(意味
カテゴリ番号1.386)は意味カテゴリ番号1.31
54(文章、論文1文、・・・川)を格として持つとい
うことを表している。そのため、必ずしも同じ単語が係
り受けに用いられていなくとも、意味カテゴリ番号の同
じ単語であれば、同様に係り受け関係があると判定する
ことができる。
例えば“文を作るとき・・・・・・ という文を”と作
る”の係り受け関係の判定にも用いることができる。ま
た、意味カテゴリ番号のリストは係り受けを区別しない
ので、上記リストを用いて“作成された文書の・・・川
 という係りと受けが逆になった係り受け関係も一義決
定できる。
第4図の (2)の例で、“変換結果の”という文節は
“°同音語を”(g)と°“手段と” (h)の2種類
の係り受けの可能性がある。しかし、この文節に至るま
でに作成した係り受け関係テーブルには、この係り受け
のあいまいさを解消するのに適した情報がない。そのた
め、文節゛変換結果の”の係り受け候補をすべて一時退
避し、次文節の係り受け解析を実行する。他の文節の係
り受け解析を実行した結果、最終的にこの文節の係り受
けは第4図の■の二重下線箇所の係り受けを解析するこ
とにより決定される。つまり、二重下線箇所■から係り
語“変換結果の”および受け語“同音語”が係り語と受
け語の接続テーブルに登録される。また、意味カテゴリ
番号の連結関係リストには、°゛変換結果′°の意味カ
テゴリ番号1.1112と°゛同音語”の意味カテゴリ
番号1.3112がリストとして登録される。そのため
“変換結果の”が“同音語を”に係ると接続テーブルお
よび連結関係リストから決定できる。つまり、 (2)
の例では、語の文節を係り受け解析することにより(g
)の係り受けが正解であると判断される。
第4図の (3)の例で、該当する係り受け関係情報が
、係り受け関係テーブルになかった場合のステップ(1
0)の処理例を示す。“選択させる′°は連体修飾形で
あるため、名詞(句)、つまり、゛同音語表示選択手段
を′°と゛同音語出力方式”のどちらにも係る可能性が
ある。この場合、意味カテゴリ番号の連体関係リストを
用いても係り受けを一義に決定できないため、ステップ
(10)を実行することになる。゛選択”は意味カテゴ
リ番号が1゜3063であるため、複合語を構成する単
語群の中に意味カテゴリ番号が1.3063である単語
が含まれている場合、その複合語を受け語とする係り受
け関係を優先する。この場合、“同音語表示選択手段”
の中の“選択′°が意味カテゴリ番号が1.3063で
あるため、“選択させる”は°°同音語表示選択手段”
にかかると判定される。
第4図の (4)の例では、図に示すように、(k)、
(1)、(m)、(n)4種類の係り受けのあいまいさ
が生じる。この場合、文章の係り受け解析から得られた
意味カテゴリ番号の連結関係リストからは、該当するリ
ストは得られない。しかし、複合語“同音語表示選択手
段”を単語に分割し、その単語間から抽出された連結関
係リストにより“同音語を”は°゛表示て°° (k)
に係ると決定することができる。
以上のような係り受け解析部の解析結果を用いて、文章
の表示を行う文章表示部2の処理の流れ図を第7図に示
す。文章表示部2は実際、文章構成解析部5と文章要旨
抽出部6と文章理解促進表示部7の3つの処理からなる
処理の実施例を第8図に示す。第8図の実施例は、 (i)  係り語の表示レベルをLとすると、受け語の
レベルは(L−1)とする。
(i i)並列要素間では、表示レベルは同じとする。
(iii)最も係りの深い受け語を表示レベル0とする
(i v)画面に表示するときは、表示レベルの大きい
順とする。
という4つのルールを用いて表示したものであり、文章
理解促進表示部7で処理を行っている。
例えば、第1文節゛′文童を” (表示レベル7)は°
゛構成る°°に係っており、ルール(i)より第2文節
の表示レベル6 (7−1=6)となる。また、文節゛
°範囲指定手段°”は゛文章情報記憶手段” (表示レ
ベル3)と並列であるため、ルール(i i)が適用さ
れ同じ表示レベル3となる。最後の文節“日本語入力装
置゛′はルール(iii)が適用され表示レベル0とな
る。このようにして、全ての文節の表示レベルを算出し
たのちルール(iv)を適用し第8図の表示を得る。
第9図は文章の構成を明示するとともに、文章の要旨を
強調して表示する例である。第9図の表示のための処理
は以下のようになっている。
入力文章を係り受け解析(係り受け解析部1)した後、
読点を含む文節を解析する。
文章構成解析部5では、入力文章を前提部、構成部、結
論部の3つに分ける。。「〜を備え」という文節に対し
て並列要素である文節群を゛構成部゛°、構成部よりも
前の文節群を゛前提部′°、構成部よりも後の文節群を
°゛結論部パとする。文章要旨抽出部6では文章構成に
基づき文章の要旨部を抽出する。前提部では、主語(「
は」および「が」の助詞が付与されている文節)と、目
的語(「を」の助詞が付与されている文節)と読点文節
を抽出する。構成部では、並列要素とそれを束ねている
用言を、結論部では、結論誘導表現(例えばr〜に関す
る」、「〜を特徴とする」など)を含む文節を抽出する
文章理解促進表示部7では要旨部以外の注釈部の解析お
よび表示を行う。注釈部では、並列要素を抽出するとと
もに、単一文単位に分割する。単−文とはく体言〉く体
言〉・・・・・・〈用言〉という複数の体言文節と1つ
の用言文節との組み合せからなる文と定義する。そして
、それぞれの単一文の係り受け関係を矢印で表示する。
例えば“同一の読みのものは同一のグループとし、”は
単一文である。この単一文は次の文節”この同一の・・
・・・・以下の文節に係る。
最終的にこれらの処理を行った後、各部を強調して表示
する。
次に索引抽出部3の処理流れ図を第10図に示す。
索引抽出部3は体言抽出部8と、不要語排除部9とキー
ワード重み付は付与部10とから構成されている。各部
の処理について述べる。
体言抽出部8では、係り受け解析部1の形態素解析結果
より、品詞が体言である単語を文章中からすべて抽出す
る。
不要語排除部9では不要語辞書と該単語群との一致判定
処理を行い、一致した単語を該単語群から排除する。キ
ーワード重み付は付与部10では、係り受け解析結果に
より付与された文節の表示レベルの値に基づき、該単語
群のすべての単語にキーワードレベルを付与する。一般
に、日本語の文章は係り受けが深いもの(修飾の割合が
高いもの)はど文書中における重要度が高いという特徴
がある。そのため、キーワードレベルは表示レベルに比
例させた値を与える。
第11図は、第8図に示す文章を入力とした場合の索引
抽出処理の一実施例である。この例では、キーワードレ
ベルは、表示レベル類にソートしたキーワード群に対し
て、表示レベルの低い順に1から重み付けしたものであ
り、キーワードレベルの小さい単語はどキーワードとし
ての重要度が高い。この重み付は値は表示レベル数、文
章の長さによって適当に決定される。
抄録生成部4では、抄録率(Compactation
 Rate:C率)なる値に基づき所望の抄録を生成す
る。
C率の定義は以下のようになっている。
C率は抄録要求に応じて変動する。例えば非常に簡単な
抄録を希望する場合、C率を低く与え、内容の濃い抄録
を希望する場合、C率を高く設定することにより所望の
抄録を得ることができる。
使用者がC率を与えない場合、抽出文節数Bに対するC
率の傾き(dC/dB)が最小となるC率を自動的に算
出し、該C率を満足するような抄録を作成する。
具体的な抄録生成処理の流れは第12図のようになって
いる。1は係り受け解析部、3は係り受け解析結果に基
づいてキーワードを抽出する索引抽出部、重要文節抽出
部11は抽出されたキーワードとC率に基づき、表示レ
ベルの低い方からC率を満たすのに十分な文節を抽出す
る。文節補充部12では重要文節抽出部11で抽出した
文節を接続した場合、非文法的となる箇所を捜し、文節
を補充する。第13図に、第8図で表示された文章を例
として係り受け解析部1.索引抽出部3゜重要文節抽出
部111文節補充部12を順に実行し、抽出された文節
を下線で表示する。
表示レベルが最大の文節のうち、その文節が用言である
場合、該用言の格の文節を補充する。第13図の例では
文頭の゛単語毎に、”や“少なくとも”なとの文節は重
要文節抽出部11から抽出された文節である。この場合
、重要文節抽出部11では、表示レベルがO〜5に含ま
れる文節を抽出する。さらに、文節補填部12では、2
重下線で示す文節■“表示して°のように格となる文節
(“出力を°と゛画面に′)が抽出されていない場合、
該文節を補填する。抄録表示部13では全抽出文節を接
続し、出力する。
なお、この発明は日本語の文章に限らず、英文に対して
も適用することが可能である。
〔発明の効果〕
この発明は以上説明したように、係り受け解析部は、特
別な世界知識を用いずに、各文章内にある情報を抽出し
利用することにより、精度の高い係り受け解析を実現す
る。実施例で示したように、係り受け関係を意味カテゴ
リの連結としてとらえた場合、動詞の格関係に基づく係
り受けや名詞句による修飾を一元的に扱うことができ、
かつ言い替えを含む文章に対しても係り受け関係を一義
的に決定できる。この方法を用いれば、世界知識を分野
ごとに作成するために必要となるコストを節減すること
ができる。また、この方法をハードウェア、ソフトウェ
アいずれで実現する場合においても、世界知識を常駐さ
せておく領域を必要としないため、非常に小規模のシス
テムとすることができる。
さらに、分野依存性の少ない係り受け解析を用いること
により、文章の表示、索引抽出、抄録生成処理を分野に
依存せず高精度に実施できる。
また、係り受け解析結果を用いて、文章を構造化表示す
ることにより、特許文のような繰り返しが多く、長い文
意の内容理解が容易になる。
さらに、分野に依存しない係り受け解析を用いた索引抽
出により、分野に依存せず、高精度のフリーキーワード
を抽出できるばかりでなく、抽出したキーワ−ドを重み
付けして出力するため、情報検索時に高いヒツト率が得
られる。また、抄録生成処理では、簡易に文章の抄録を
自動的に生成することができる。
【図面の簡単な説明】
第1図はこの発明を実施するための装置の構成を示すブ
ロック図、第2図は、第1図の実施例中の係り受け解析
部の詳細を示すブロック図、第3図はこの発明の係り受
け解析部の処理の流れ図、第4図は係り受け解析部の一
実施例の説明に用いた特許請求の範囲文の文例を示す図
、第5図は前記実施例で作成した連結関係リスト図、第
6図は前記実施例における複合語解析の例を示す図、第
7図は文章表示部の処理の流れ図、第8図、第9図は文
章表示の一実施例を示す図、第10図は索引抽出部の処
理の流れ図、第11図は索引抽出の一実施例を示す図、
第12図は抄録生成部の処理の流れ図、第13図は抄録
生成処理の一実施例を示す図、第14図は従来の係り受
け解析方法で用いられた格関係表の例を示す図、第15
図、第16図は、従来の係り受け解析方法で用いられた
知識表へのアクセス表と知識表の例を示す図、第17図
は従来の係り受け解析の実行例の説明に用いた特許文の
文例を示す図、第18図は従来手法で用いられた索引抽
出手法の原理説明図、第19図は従来の係り受け解析を
用いた索引抽出例を示す図、第20図は従来の抄録生成
手法の原理説明図である。 図中、1は係り受け解析部、2は文章表示部、3は索引
抽出部、4は抄録生成部、5は文章構成解析部、6は文
章要旨抽出部、7は文章理解促進表示部、8は体言抽出
部、9は不要語排除部、10はキーワード重み付は付与
部、11は重要文節抽出部、12は文節補填部、13は
抄録表示部である。 第1図 第2図 第 図 カナ漢字変換時の結果の341候補を作成中の文中に表
示する手段と、前記更新手段の操作に応答して 第 図 矛 図 複 語 虹 1主 時の ↓ ↓ ↓ 第 図 第 図 第 図 第 図 第 図 COMPO5ITON LOCATION PROf:ESS 第 図 〈述語〉 〈名詞〉+〈格助詞) 〈意味分類) (ロール) 〈有意志体〉 ガニの 主体 く非有意志体〉 ガニ■ 主題 〈組 織 体) ヲ:■ 客体 (地 名〉 ヲ:■ 場所 〈物 買 名〉 ヲ:■ 主題 〈組 織 体〉 ガニ■ 主体 〈組 織 体〉 ニ:■ 客体 〈組 繊 体〉 ヲ:■ 主題 〈地 名) ヲ:■ 主題 〈物 買 名〉 ヲ:■ 主題 第 図 第 図 第 図 Words by rank order′M19図 半導体基板の表面にグー ト絶祿膜をr設は一土垂僅   : ゲート    ≦   : その「ヱ二二史婦 膜上、&:rゲーグーaiノを設けた:「穐稀ヱユ土型
生!体員土」を: 有する:
【土掻体R1盟l】において、 上記Y二Σ杷 朋は2種以上のr!a!uIの芝厘逍遣」とされ、:そ
のグ:」」E建 膜の半導体表面と接した「廼樋厘 のみが絶縁破壊さJれたか否かに より、2値符号が「記憶→二値R1!rEa」される二
ことを特徴とした土浸μm114!2

Claims (1)

    【特許請求の範囲】
  1. 文章の係り受け解析において、係り受けが一義に決定で
    きる係り受け関係を係り受け関係テーブルに保存し、係
    り受けが一義に決定できない係り受け関係の判定に際し
    、前記テーブルを参照して、テーブルに存在する係り受
    け関係をテーブルに存在しない係り受け関係に優先して
    採用し係り受け関係を判定する係り受け解析部と、前記
    係り受け判定結果に基づき文章の構造を表示する文章表
    示部と、前記係り受け判定結果に基づき索引を抽出する
    とともに索引の重要度を付与する索引抽出部と、前記係
    り受け判定結果および前記索引抽出部の索引に基づき文
    章の抄録を生成する抄録生成部とを具備したことを特徴
    とする自然言語処理装置。
JP63194362A 1988-08-05 1988-08-05 自然言語処理装置 Pending JPH0244462A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63194362A JPH0244462A (ja) 1988-08-05 1988-08-05 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63194362A JPH0244462A (ja) 1988-08-05 1988-08-05 自然言語処理装置

Publications (1)

Publication Number Publication Date
JPH0244462A true JPH0244462A (ja) 1990-02-14

Family

ID=16323318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63194362A Pending JPH0244462A (ja) 1988-08-05 1988-08-05 自然言語処理装置

Country Status (1)

Country Link
JP (1) JPH0244462A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257186A (en) * 1990-05-21 1993-10-26 Kabushiki Kaisha Toshiba Digital computing apparatus for preparing document text
JPH07244673A (ja) * 1994-03-04 1995-09-19 Fujitsu Ltd 文書索引作成システム
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257186A (en) * 1990-05-21 1993-10-26 Kabushiki Kaisha Toshiba Digital computing apparatus for preparing document text
JPH07244673A (ja) * 1994-03-04 1995-09-19 Fujitsu Ltd 文書索引作成システム
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体

Similar Documents

Publication Publication Date Title
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
Cussens Part-of-speech tagging using Progol
JPH03172966A (ja) 類似文書検索装置
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
Abidin et al. Computer-aided Translation Based on Lampung Language as Low Resource Language
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Bhat Morpheme segmentation for kannada standing on the shoulder of giants
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
JP2960936B2 (ja) 係り受け解析装置
Hellwig Morphological disambiguation of classical Sanskrit
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
JPH0244462A (ja) 自然言語処理装置
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JPH06149887A (ja) テキスト型データベース装置
Behera Odia parts of speech tagging corpora: suitability of statistical models
JPH03132872A (ja) 索引情報生成装置
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Kermes et al. Exploiting large corpora: A circular process of partial syntactic analysis, corpus query and extraction of lexikographic information
Neumann et al. Shallow natural language technology and text mining