JP2560224B2 - 文脈構造解析装置 - Google Patents

文脈構造解析装置

Info

Publication number
JP2560224B2
JP2560224B2 JP3096023A JP9602391A JP2560224B2 JP 2560224 B2 JP2560224 B2 JP 2560224B2 JP 3096023 A JP3096023 A JP 3096023A JP 9602391 A JP9602391 A JP 9602391A JP 2560224 B2 JP2560224 B2 JP 2560224B2
Authority
JP
Japan
Prior art keywords
sentence
connection
word
sentences
connection relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3096023A
Other languages
English (en)
Other versions
JPH04306768A (ja
Inventor
輝彦 浮田
顕司 小野
陽一 佐藤
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP3096023A priority Critical patent/JP2560224B2/ja
Publication of JPH04306768A publication Critical patent/JPH04306768A/ja
Application granted granted Critical
Publication of JP2560224B2 publication Critical patent/JP2560224B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語文章の文脈構
造の解析を行う文脈構造解析装置に関するものである。
【0002】
【従来の技術】最近、日本語ワードプロセッサの普及は
目覚ましいものがあり、文書生成処理の合理化により、
使用するものにとって簡単な操作により所望する文書を
容易に作成できるようになっている。
【0003】ところで、日本語ワードプロセッサは、確
かに文書生成ための機能が合理化され、文書作成の上で
は著しい進歩が見られるが、最近になって、作成された
文書の要点を抽出する要約機能や大量の文書データから
真に必要とする文書のみを探し出す検索機能の充実も要
求される傾向にある。
【0004】このような文書の要点を抽出する要約機能
や大量の文書データから真に必要とする文書を探し出す
検索機能の実現には、文書の処理に当たって文書中に書
かれている内容を適切に判断する必要があり、これに
は、単に一つ一つの文の処理だけでなく、複数の一連の
文章がどのような関係にあるかを判断する文脈構造の解
析技術を実現する必要がある。
【0005】しかして、従来、文書に関する構造解析の
技術としては、文書の題名、章名、節などの書式構造を
処理する方法が考えられているが、この方法では、節内
部での文章の内容に関する文章構造、すなわち文脈構造
を取り扱うことはできない。
【0006】一方、文脈構造の解析手法として[小野顕
司:文脈構造の分析、情報処理学会自然言語処理研究会
資料70−2、1989.1]に開示されているよう
に、文間の接続関係に着目し、複数の文の構造を木構造
により表現する方法が提案されている。
【0007】しかし、この方法は、文間の接続関係とし
て論旨の展開を記述するもののみを対象に考えられてい
るため、接続関係がない単なる解説文や説明文などの文
では、希望するような構造解析の処理ができない欠点が
ある。さらに、構造解析を行う対象文章が多くなると、
解析のための処理時間が膨大になってしまい、この点で
使用しずらい欠点もある。
【0008】
【発明が解決しようとする課題】このように従来提案さ
れている文脈構造解析法では、文と文の間の接続関係と
して論旨の展開を記述するものでない、解説文や説明文
などでは、希望するような解析処理ができず、しかも、
構造解析を行う対象文章が多くなると、解析のための処
理時間が膨大にかかってしまうなどの問題点があった。
【0009】本発明は、上記事情に鑑みてなされたもの
で、幅広い種類の文章から文脈構造を抽出することがで
き、しかも、文脈構造を正確に解析できるとともに、処
理時間の改善を図ることができる文脈構造解析装置を提
供することを目的とする。
【0010】
【課題を解決するための手段】本発明の文脈構造解析装
置は、入力された自然言語文章を構成する各文に対し形
態素解析を行なって各文の文字列を単語とその品詞に区
分する形態素解析手段と、この形態素解析手段により単
語とその品詞に区分された各文に対し予め記憶された接
続表現に従って該当する単語を同定し、この単語を含む
文とその前の文との文間が該接続表現に対応した接続関
係であることを判定する接続関係抽出手段と、この接続
関係抽出手段により前記該当する単語が同定されなかっ
た文に対し助詞の直前の自立語を話題語として検出し、
該話題語が前記同定されなかった文に先行する文中に存
在する場合は前記同定されなかった文とその前の文との
接続関係を「展開」とし、該話題語が前記同定されなか
った文に先行する文中に存在しない場合は前記同定され
なかった文とその前の文との接続関係を「並列」として
推定する接続関係推定手段と、前記接続関係抽出手段よ
り判定された接続関係、前記接続関係推定手段より推定
された「展開」の接続関係、「並列」の接続関係の各れ
かを夫々の文間関係として有する前記各文に対し、「展
開」の接続関係が文間関係として連続して含まれた複数
の文を一つの文に併合する文併合手段と、この文併合手
段により併合された一つの文、前記各文の中で前記一つ
の文に併合されなかった文及びこれらの文間関係から成
る前記各文の構造候補を全て生成し、この中から文章と
して成立しない構造候補を除外する構造解析手段と、を
具備したことを特徴とする。
【0011】
【作用】この結果、本発明によれば、文間の接続関係か
ら論旨の流れを論旨の展開を持たない文で連続する部分
については一纏めにして論旨の流れを持つ部分とともに
一つの文に併合して取扱い、論旨の流れを持つ文の接続
関係について構造解析を行うようになるので、文脈の構
造を正確に解析できまた、構造を持たない部分には、不
必要な解析処理を施すことがなくなるので、全体の処理
時間の向上が得られるようになる。
【0012】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。
【0013】図1は同実施例の概略的構成を示すもの
で、ここでは、形態素解析部11、形態解析用辞書1
2、接続関係抽出部13、接続表現テーブル記憶部1
4、接続関係推定部15、文併合部16、構造解析部1
7、思考制約テーブル記憶部18から構成されている。
【0014】まず、電子化された文書の自然言語テキス
トが形態素解析部11に入力されると、形態素解析部1
1で、文書中から必要な部分が取り出され、形態解析用
辞書12を使用した形態素解析が実行される。
【0015】この場合、形態素解析部11での形態素解
析は、入力文字列から単語の位置と品詞を認定するとと
もに、各文の文字列を単語とその品詞に区分する。
【0016】例えば、「従って、解析方法には3種類あ
ります。」の文の場合は、「接続詞(従って)+名詞
(解析方法)+助詞(に)+助詞(は)+数詞(3)+
名詞(種類)+動詞(あり)+助動詞(ます)]のよう
な形態素解析がなされることになる。
【0017】次に、形態素解析部11での形態素解析結
果は、接続関係抽出部13と接続関係推定部15に送ら
れ、接続関係の同定と推定が行われる。
【0018】まず、接続関係抽出部13で接続表現の同
定が行なわれる。この場合、接続表現の同定は、各文の
形態素結果を調べ接続表現テーブル記憶部14に記憶さ
れた接続関係の表層表現に基づいて判定される。
【0019】図2は、接続表現テーブル記憶部14に記
憶された文間の接続関係の一覧表とその表現例を示して
いる。この結果、上述した文例の場合には、接続表現と
して、接続詞の「従って」が発見され、図2に示す接続
関係の一覧表から、この文の前の文に対して<順接>の
関係であることが判定されることになる。
【0020】一方、文中に上述した「従って」のような
接続関係が明示されていない場合は、接続関係推定部1
5で文の話題提示表現を調べることで、その文の前の文
に対する接続関係の推定が行われる。
【0021】この場合、接続関係推定部15は、図3に
示すように話題語抽出部151、話題語検索部152、
文間関係判定部153から構成されている。
【0022】図4は、接続関係推定部15での処理のフ
ローを示している。まず、パラグラフの第1文かを判断
する(ステップS41)。ここで、NOならば、話題語
抽出部151により話題提示表現が抽出される(ステッ
プS42)。この場合、一般の文における話題は、
「は」などの助詞をマーカとして提示されるので、その
直前の言葉を取り出すことによって抽出することができ
る。具体的には、助詞や他の表現も含めて「は、も、と
は、ときたら、といえば、こそ、さえ、しも」などの表
現を探し、その直前の名詞などを取り出すことにより行
われる。
【0023】そして、ステップS43で、話題提示表現
が存在するか判断される。ここで、YESと判断される
と、話題語検索部152により話題語検索が行われる。
この場合、話題提示表現に先行する自立語(話題語)を
検出し(ステップS45)、さらにパラグラフ内で話題
語をサーチする(ステップS46)。つまり、話題提示
表現に先行する話題語が先行する文章にすでに出現する
かどうかを直前の文からそれ以前の文について検索す
る。
【0024】そして、この検索結果は、文間関係判定部
153に与えられる。ここで、先行する文中に話題語が
存在すると判断されると(ステップS47)、現在処理
している文が、先行する文に対して説明を加えるもので
あると考えられるので、接続関係として<展開>の関係
が推定される(ステップS48)。これは、例えば、
「AはBとCから構成される。Bは…である。Cも…」
などの文の場合で、この文では、第2文および第3文
が、第1文の内容を説明するようになっており、接続関
係として<展開>が推定されることになる。
【0025】一方、話題表現に先行する話題語が見付か
らなかった場合には、新しい話題が開始されたことを示
しているので、先行文に対する関係は<並列>として推
定される(ステップS49)。
【0026】以上で接続表現は持たないが、話題提示表
現を持つ文に対する接続関係推定のための処理が終了す
る。
【0027】なお、話題提示表現の存在しない文の場合
(ステップS43でNOの場合)、単純に直前の文に情
報を追加するものと考えられるので、文合併部17を起
動して(ステップS44)、直前の文の一部として扱え
るようにすればよい。
【0028】ところで、上述の接続関係推定部15での
接続関係の推定は、話題提示表現を探索する場合に、ま
ったく同一の表層表現を持つ語を探すようにしたが、類
義語テーブルを併用することも当然に可能である。ここ
での類義語テーブルは、図5に示すように、見出し語に
対して、同じあるいは似た意味の類義語をテーブル化し
たものである。この場合は、接続関係を推定するのに、
話題語の出現を検索するが、その際に提示される話題語
そのものの他に類義語テーブルを使って、別の表現も合
わせて検索するようになる。
【0029】また、上述の接続関係推定部15での接続
関係の推定は、新たに、話題/関係テーブルを作成する
ことで、文間の接続関係を導き出すことも可能である。
この場合、図3に示す文間関係判定部153に話題/関
係テーブル記憶部154を接続する。この話題/関係テ
ーブル記憶部154は、記憶される話題/関係テーブル
として図6に示すようによく利用される話題表現と接続
関係を登録しており、それぞれの話題表現に対応して文
間の接続関係を得られるようなっている。また、図4に
示した処理フローは、ステップS45を図7に示すよう
に変更する。しかして、入力文中に話題表現が存在する
と判断されると、この話題表現を抽出する(ステップS
71)。そして、この抽出された話題表現の基づいて話
題/関係テーブル記憶部154の話題/関係テーブルを
参照する(ステップS72)。ここで、一致するものが
あるか判断し(ステップS73)、YESならば話題/
関係テーブルに登録された接続関係を出力して(ステッ
プS74)、処理を終了する。一方、NOならば話題表
現から自立語(話題語)を検出し(ステップS75)、
上述した図4に示す処理フローのステップS46以降の
動作が実行される。
【0030】さらに、上述の接続関係推定部15での接
続関係の推定に、いわゆる概念間の体系に関する知識を
利用することも可能である。つまり、図8に示すような
概念の体系が与えられれば、上述したと同様な処理を実
現することができる。この場合、概念の体系として図8
(a)に上位/下位の関係の具体例が示され、また図8
(b)(c)にそれぞれ全体/部分の関係の具体例が示
されている。ここで、例えば、処理対象の文が、「Aは
…。Bは…。Cは…。」であるとすると、図8(a)に
示す関係から第2文Bと第3文Cが第1文Aの下位概念
であることが判るので、第2文、第3文は、第1文の<
展開>であると位置付けることができる。一方、同一語
の検索を行う際に、「…A…。A´は…。」のような文
の連続が存在することがある。この場合、第2文「A
´]は、「XのA」「XするA」などのように「A」を
修飾して形成されていることがあるが、このような場合
でも、第2文「A´]は、第1文の「A」をさら限定し
たものであるから、第2文「A´]は、前方の文に対し
て<展開>の関係を判断できるようになる。
【0031】以上の処理により各文間の接続関係の認定
が完了する。
【0032】次に、各文間の接続関係の認定結果は、文
併合部16に送られる。この文併合部16は、特定の接
続関係が連続する場合や特定の現象に対応させるために
連続する複数の文を併合し、後述する構造解析部17に
おいて一つの文として取扱うようにするためのものであ
る。
【0033】例えば、特定の接続関係が連続する場合と
して、連続関係<展開>に関しては明確な論旨を持たず
単に物事を説明することが多いので、接続関係<展開>
で連続する文は、一つにまとめるようにする。
【0034】具体的には、1<展開>2<展開>3<順
接>4…(1、2、3、4は文を示す)というような系
列があるとすると、1から3の文をまとめて(1、2、
3)<順接>4のように文併合を行うようになる。一
方、特定の現象に対応させる場合として、次の処理を導
入することも可能である。すなわち、図表などの説明文
では、本文に出現せずに図表のみに表れる用語を説明す
るようなことが多い。図9(a)は、このような場合の
文章例で、この場合、<参照>関係が明示された第1文
の後で、図中に表れる用語を説明しているので、このよ
うな場合は、話題語の検証は行わず、単に接続表現を持
たない接続文すべてを併合するようになり、この時の併
合処理結果として図9(b)に示す文間関係が得られる
ことになる。
【0035】図10は、文間接続関係処理および併合処
理の一例を示すもので、ここでは、詳細は上述した説明
に準じるものとして、図10(a)に示す1〜5の文か
ら構成される各文について、上述した文間接続関係処理
および併合処理を実行することにより、図10(b)に
示すような接続関係の系列が得られることを示してい
る。
【0036】次に、構造解析部7により構造解析を行
う。この場合の構造解析は、思考制約テーブル記憶部1
8にあらかじめ登録された思考制約規則を利用して実行
されるようになる。
【0037】ここで、思考制約規則とは、例えば、A
r1 B r2 C(A、B、Cは文あるいは文の固ま
り:r1、r2はそれらの間の関係)なる系列が存在す
る場合、((A r1 B)r2 C)または(A r
1(B r2 C))の2種類の構造のうち、どちらを
を許すかということを規則化したもので、すべてのr
1、r2の組み合わせについて、あらかじめ一覧表で用
意されている。
【0038】ここで、例えば、「A 従って(順接)
B だから(順接) C」のような場合には、((A従
ってB)だからC)の構造は、文章として成立するの
で、思考制約規則により許可されるが、もう一つ可能な
(A従って(BだからC))の構造は、文章として成立
しないので、思考制約規則により許可されない。
【0039】図11は、このような構造解析の処理フロ
ーを示すもので、構造候補をすべての組み合わせとして
生成し(ステップS111)、この結果から思考制約規
則を満たさないものを削除することにより(ステップS
112)、入力文章に対する文脈構造を取り出せること
になる。
【0040】図12は、図10に示した文書について上
述した構造解析処理を実行した結果を示すもので、この
場合、入力文章に対する文脈構造の処理結果を木構造で
表現できるようになる。
【0041】従って、このようにすれば、入力文に対し
て、その文の前の文に対する文間の接続関係から、<展
開>の関係のように文章の論旨の流れを持たない文と、
<順接>の関係のように文章の論旨の流れを持つ文とを
調べ、論旨の展開を持たない文の系列を一つに併合して
取り扱うとともに、<順接>の関係のような論旨の流れ
を持つ文の接続関係に基づいて構造解析を実行するよう
にしたので、従来の文間の接続関係として論旨の展開を
記述するもののみを文脈解析の対象としているものに比
べ、文章の論旨の流れを持たない文を含む幅広い種類の
文章から文脈構造を抽出することができるとともに、文
脈構造を正確に解析できるようになる。また、文章の論
旨の流れを持たない文については、不必要な解析処理を
施すことがなくなるため全体の処理時間の向上も得られ
ることになる。
【0042】なお、本発明は、上記実施例にのみ限定さ
れず、要旨を変更しない範囲で適宜変形して実施でき
る。
【0043】
【発明の効果】本発明の文脈構造解析装置によれば、文
間の接続関係から論旨の流れを論旨の展開を持たない文
で連続する部分については一纏めにして論旨の流れを持
つ部分とともに一つの文に併合して取扱い、論旨の流れ
を持つ文の接続関係について構造解析を行うようになる
ので、文脈の構造を正確に解析できる。また、構造を持
たない部分に対しては不必要な解析処理を施すことがな
くなるので、全体の処理時間の改善を図ることもでき
る。
【図面の簡単な説明】
【図1】本発明の一実施例の概略的構成を示す図。
【図2】接続表現テーブル記憶部に記憶される文間の接
続関係の一覧表とその表現例を示す図。
【図3】接続関係推定部の概略的構成を示す図。
【図4】接続関係推定部での処理フローを示す図。
【図5】接続関係の推定に用いられる類義語テーブルの
一例を示す図。
【図6】話題/関係テーブル記憶部に記憶される話題/
関係テーブルの一例を示す図。
【図7】話題/関係テーブルを用いた場合の処理フロー
を示す図。
【図8】接続関係の推定に用いられる概念の体系を説明
する図。
【図9】図表などの説明文に用いられる文章例を示す
図。
【図10】文間接続関係処理および併合処理される文章
例を示す図。
【図11】構造解析の処理フローを示す図。
【図12】構造解析処理を実行した結果を示す図。
【符号の説明】
11…形態素解析部、12…形態解析用辞書、13…接
続関係抽出部、14…接続表現テーブル記憶部、15…
接続関係推定部、151…話題語抽出部、152…話題
語検索部、153…文間関係判定部、16…文併合部、
17…構造解析部、18…思考制約テーブル記憶部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 住田 一男 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝総合研究所内 (56)参考文献 特開 平2−188870(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された自然言語文章を構成する各文
    に対し形態素解析を行なって各文の文字列を単語とその
    品詞に区分する形態素解析手段と、 この形態素解析手段により単語とその品詞に区分された
    各文に対し予め記憶された接続表現に従って該当する単
    語を同定し、この単語を含む文とその前の文との文間が
    該接続表現に対応した接続関係であることを判定する接
    続関係抽出手段と、 この接続関係抽出手段により前記該当する単語が同定さ
    れなかった文に対し助詞の直前の自立語を話題語として
    検出し、該話題語が前記同定されなかった文に先行する
    文中に存在する場合は前記同定されなかった文とその前
    の文との接続関係を「展開」とし、該話題語が前記同定
    されなかった文に先行する文中に存在しない場合は前記
    同定されなかった文とその前の文との接続関係を「並
    列」として推定する接続関係推定手段と、 前記接続関係抽出手段より判定された接続関係、前記接
    続関係推定手段より推定された「展開」の接続関係、
    「並列」の接続関係の各れかを夫々の文間関係として有
    する前記各文に対し、「展開」の接続関係が文間関係と
    して連続して含まれた複数の文を一つの文に併合する文
    併合手段と、 この文併合手段により併合された一つの文、前記各文の
    中で前記一つの文に併合されなかった文及びこれらの文
    間関係から成る前記各文の構造候補を全て生成し、この
    中から文章として成立しない構造候補を除外する構造解
    析手段と、 を具備したことを特徴とする文脈構造解析装置。
JP3096023A 1991-04-03 1991-04-03 文脈構造解析装置 Expired - Lifetime JP2560224B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3096023A JP2560224B2 (ja) 1991-04-03 1991-04-03 文脈構造解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3096023A JP2560224B2 (ja) 1991-04-03 1991-04-03 文脈構造解析装置

Publications (2)

Publication Number Publication Date
JPH04306768A JPH04306768A (ja) 1992-10-29
JP2560224B2 true JP2560224B2 (ja) 1996-12-04

Family

ID=14153717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3096023A Expired - Lifetime JP2560224B2 (ja) 1991-04-03 1991-04-03 文脈構造解析装置

Country Status (1)

Country Link
JP (1) JP2560224B2 (ja)

Also Published As

Publication number Publication date
JPH04306768A (ja) 1992-10-29

Similar Documents

Publication Publication Date Title
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP3594701B2 (ja) キーセンテンス抽出装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2560224B2 (ja) 文脈構造解析装置
JPH10254900A (ja) 自動文書要約装置及び方法
JP3082890B2 (ja) 書き言葉テキストに対する話題構造認識方法および装置
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP6665029B2 (ja) 言語解析装置、言語解析方法、及びプログラム
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP3082889B2 (ja) モノローグ・データに対する話題構造認識方法および装置
JP3698454B2 (ja) 並列句解析装置および学習データ自動作成装置
JP2010040020A (ja) キーワード抽出装置、方法及びプログラム
JP3924260B2 (ja) 節境界検出装置、機械翻訳装置及びコンピュータプログラム
KR101994901B1 (ko) 인공지능 키워드 등록 방법 및 장치
JP4114580B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0561902A (ja) 機械翻訳システム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3333952B2 (ja) 話題構造認識方法及び装置
JPH05233689A (ja) 文書自動要約方法
JPH0320866A (ja) テキストベース検索方式
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term