JP3698454B2

JP3698454B2 - 並列句解析装置および学習データ自動作成装置

Info

Publication number: JP3698454B2
Application number: JP08251095A
Authority: JP
Inventors: 秀富士
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-04-07
Filing date: 1995-04-07
Publication date: 2005-09-21
Anticipated expiration: 2020-09-21
Also published as: JPH08278973A

Description

【０００１】
【産業上の利用分野】
本発明は、学習辞書を参照して入力文中の並列構造を認識する並列句解析装置および学習データを作成する学習データ自動作成装置に関するものである。並列句解析装置や学習データ自動作成装置は、自然言語解析システムの中に存在する。
【０００２】
一般に出回っている文書にはかなりの数の並列構造が含まれている。機械翻訳システムや文書推敲支援システムなどの自然言語解析システムでは、これらの並列構造を正しく認識しなければ正しい解析を行うことが出来ない。並列構造の認識を誤ると、殆どの場合、文意が正しく解釈できなくなり、解析全体として見ると致命的である。
【０００３】
【従来の技術】
自然言語解析システムでは、並列構造を認識するための仕組みとして、次のようなものが考案され、実現されている。
１．システム操作者が並列構造を対話的に指定するもの。
システム解析できるところまで自動的に解析を行い、並列構造の曖昧性が生じた時点で、システム操作者に並列の範囲を指定させる。並列範囲の周囲に括弧付けさせるもの等がある。また、可能な並列候補を提示して操作者に正しいものを選ばせるものもある。
２．構文情報を使うもの。
並列候補の中で、構文的に妥当なもののみを使う。ただし、構文的に妥当な並列候補が複数ある場合があるので、この方法のみでは正しいものを見つけることが出来ない。
３．並列構造のバランスを使うもの。
並列候補の中で、並列キー両側の並列要素のバランスの良いものを優先的に正解として扱う。
４．用言の格情報を使うもの。
並列要素が、係り受け関係を持つとき、この係り受けの妥当性を加味して計算を行う。
５．意味属性を使うもの。
並列要素候補の意味属性から、その並列要素の妥当性を計算する。
６．上記の複数の情報を統合して使うもの。
【０００４】
【発明が解決しようとする課題】
上述したような従来の並列構造認定では、使っている情報が固定的なものが多いので、或る分野に特徴的な並列構造を精度よく認識することが難しかった。分野に特徴的な並列構造とは、例えば文書処理の分野では、「書き込み」と「読み出し」、「作成」と「更新」と「保存」などがある。このような分野依存の構造は一般的な情報から或る程度は認識することが出来るが、分野に合わせて調整でき、確実な認識が出来るような装置が必要となる。
【０００５】
また、上述したように並列構造は分野毎に特徴があるが、文書毎に特徴があることも多い。すなわち、或る特定の文書で一度使われた並列表現は、同一文書内で同じような形で再度使われることが多い。このような文脈依存の情報も合わせた調節が出来ることが望ましい。
【０００６】
本発明は、この点に鑑みて創作されたものであって、分野や文脈依存の並列構造の知識を自動的に作成する学習データ自動作成装置を提供することを目的としている。
また、本発明は、学習データ作成自動装置によって作成された学習データを参照して、並列構造認識を行う並列句解析装置を提供することを目的としている。
【０００７】
【課題を解決するための手段】
請求項１の学習データ自動作成装置は、学習文を形態素に分解する形態素解析部と、形態素列を文節列に合成する文節合成部と、文節列の中から名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、文節列および並列キーから、学習文の並列型を判定する並列型分類部と、文節列から、学習文の係り受け型を判定する係り受け型分類部と、学習文の並列型に基づいて、学習文における並列構造に曖昧性があるかを判断し、学習文の並列構造に並列の曖昧性がない並列要素だけを並列要素抽出の対象とする並列要素抽出部と、学習文の係り受け型に基づいて、係り受け要素を学習文から抽出する係り受け要素抽出部とを具備することを特徴とするものである。
【０００９】
請求項２の学習データ自動作成装置は、前記係り受け要素抽出部が、係り受け型分類部の出力結果の内、学習文の並列構造に係り受けの曖昧性がないものだけを係り受け要素抽出の対象とすることを特徴とするものである。
【００１０】
請求項３の学習データ自動作成装置は、前記並列要素抽出部が、並列型分類部の出力結果の内、学習文の並列構造に並列の曖昧性がある場合でも、全ての可能な並列の組合せに対して並列要素抽出を行い、頻度の高い並列要素のみを学習データとして登録することを特徴とするものである。
【００１１】
請求項４の学習データ自動作成装置は、前記係り受け要素抽出部が、係り受け型分類部の出力結果の内、学習文の並列構造に係り受けの曖昧性がある場合でも、全ての可能な並列の組合せに対して係り受け要素抽出を行い、頻度の高い係り受け要素のみを学習データとして登録することを特徴とするものである。
【００１２】
請求項５の並列句解析装置は、入力文を形態素列に分解する形態素解析部と、形態素列から文節列を合成する文節合成部と、並列要素および係り受け要素を記憶する学習辞書と、文節列の中から名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、文節列および並列キーから、入力文の並列型を判定する並列型分類部と、文節列から、入力文の係り受け型を判定する係り受け型分類部と、入力文の並列型を参照して入力文から並列要素を抽出し、学習辞書に登録する並列要素抽出登録部と、入力文の係り受け型を参照して入力文から係り受け要素を抽出し、学習辞書に登録する係り受け要素抽出登録部と文節列および学習辞書の内容に基づいて、入力文中に存在する並列句の認識を行う並列構造認識部とを具備することを特徴とするものである。
【００１３】
請求項６の並列句解析装置は、請求項５の並列句解析装置において、並列構造認識部が、文脈の学習データを事前の学習によって得られた学習データに優先させることを特徴とするものである。
【００１４】
【作用】
本発明の学習データ自動作成装置の作用について説明する。例えば、「編集と印刷を行なう」と言う学習文が入力されると、この学習文は「編集」「と」「印刷」「を」「行な」「う」「。」と言う形態素列に変換される。
【００１５】
この形態素列から文節列が作成される。上述の学習文に対応する文節列は、
「編集と」文節型＝体（並）係り受け型＝体
「印刷を」文節型＝体係り受け型＝用
「行なう。」文節型＝用係り受け型＝×
と言うものである。上述の文節列の中に存在する並列キーは「編集と」と言う文節である。「編集と」の係り先は体言であり、この例では「編集と」に係る体言は「印刷を」しか存在しないので、学習文から「編集と印刷」と言う並列要素が抽出される。
【００１６】
「文書の編集を行なう。」と言う学習文が学習データ作成装置に入力されると、この学習文は「文書」「の」「編集」「を」「行な」「う」「。」と言う形態素列に変換される。
【００１７】
この形態素列から文節列が作成される。上述の学習文に対応する文節列は、
「文書の」文節型＝体係り受け型＝体
「印刷を」文節型＝体係り受け型＝用
「行なう。」文節型＝用係り受け型＝×
と言うものである。この文節列において、「文書の」の係り先になるものは「印刷を」と言う文節しか存在しないので、学習文から「文書の印刷」と言う係り受け要素が抽出される。
【００１８】
本発明の並列句解析装置の作用について説明する。学習辞書には、例えば「編集，印刷」「作成，更新，削除」「解析，生成」「分割，合成」などの並列要素と、「文書の作成」「文書の編集」「文書の更新」「文書の印刷」と言う係り受け要素が格納されている。例えば「編集と印刷を行なう」と言う文が入力されると、この入力文は「編集」「と」「印刷」「を」「行な」「う」「。」と言う形態素列に変換される。各形態素には文法上の属性が付加されている。文法上の属性とは、例えば「編集」がサ変名詞と言うものである。
【００１９】
この形態素列から文節列が作成される。上述の入力文に対応する文節列は、
「編集と」文節型＝体（並）係り受け型＝体
「印刷を」文節型＝体係り受け型＝用
「行なう。」文節型＝用係り受け型＝×
と言うものである。上述の文節列から、「編集と」が体言属性を持ち、且つ並列キーであり、「編集と」の係り先が体言であることが判る。
【００２０】
「編集と」が並列キーであり、並列の相手が体言であり、学習辞書に「編集，印刷」と言う並列要素が登録されているので、「編集の」の並列相手が「印刷」であることが判る。
【００２１】
【実施例】
図１は本発明の学習データ作成装置の例を示す図である。同図において、１は形態素解析部、２は文節合成部、３は並列キー判定部、４は並列型分類部、５は並列要素抽出部、６は係り受け型分類部、７は係受け関係抽出部をそれぞれ示している。
【００２２】
形態素解析部１は、学習文を受け取り、学習文を形態素列に分解する。文節合成部２は、上述の形態素解析結果で得られた形態素列を文節に組み上げる。ここで言う文節とは、標準的な学校文法に基づく文節である。名詞や動詞などの自立語に、付属語が付いた形が多い。並列キー判定部３は、文節合成部２によって合成された文節列から文節のキーとなるものを判定する。並列キーとは、例えば「編集（名詞）と（並立助詞）」と言う形を持つ文節を意味している。
【００２３】
並列型分類部４は、これまでに求めた文節および並列キーの情報から、入力文の並列型を分類する。並列型とは、例えば並列キーとされた文節と並立し得る文節が１個か複数個かを表すものである。並列要素抽出部５は、並列型分類部４で判定された学習文の並列型から、その学習文が学習に有用なものであるかどうかを判断し、有用であれば、その学習文からから並列要素を取り出す。取り出された並列要素は、後述の並列要素学習辞書に書き込まれる。
【００２４】
係り受け型分類部６は、文節合成部２によって得られた文節列から、学習文の係り受け型を判定する。係り受け型とは、例えば係り元の文節の係り先となり得る文節が１個か複数個かを表すものである。係り受け関係抽出部７は、係り受け型分類部６によって判定された係り受け型から、学習文が係り受け情報を抽出するのに適当であるかどうかを判断し、適当であれば係り受け要素を取り出す。取り出された係り受け要素は、後述の係り受け要素学習辞書に格納される。
【００２５】
図２は学習データ作成のための処理の流れを示す図である。ステップＳ１では、入力文が入力される。ステップＳ２では、入力文が形態素に分解される。ステップＳ３では、形態素列が文節列に組み上げられる。ステップＳ４では、文節列から並列型が判定される。ステップＳ５では、この判定結果から入力文が学習に適しているかどうかが判定される。学習に適している場合は、ステップＳ６で並列要素が並列要素学習辞書に登録される。
【００２６】
ステップＳ７では、ステップＳ３で得られた文節列から係り受け型が判定される。ステップＳ８では、判定された係り受け型が学習に適しているか否が判断される。学習に適している場合は、ステップＳ９で係り受け要素を係り受け要素学習辞書に登録する。ステップＳ１０では、入力文が最後の文かどうかを判定し、最後であれば終了する。最後でなければ、ステップＳ１に戻って次の入力文を受け付ける。
【００２７】
図３は学習データ作成を説明する図である。図３(a) は、学習データである。図３(b) は、学習データに形態素解析をかけ、形態素列に分解したものである。図３(c) は、形態素列を文節に組み上げたものである。各文節には、文節の型および係り得る先の文節型を示してある。図３(c) は次のことを示す。「編集と」と言う文節が、体言であること、並列キーであること、係り先は体言であることを示す。また、「印刷を」と言う文節が、体言であること、係り先が用言であることを示す。更に、「行なう。」と言う文節が、用言であること、係り先がないことを示す。
【００２８】
図３(c) によって、「編集と」と言う文節が並列キーであることが認識される。この文では、「編集と」と並列になり得る文節は「印刷を」しかないので、並列の曖昧性はなく、よって確実に並列要素を特定することが出来る文である。このことから、この文は、並列要素抽出に適した文であることが判断される。このような並列要素データを抽出して蓄積したものが、図３(e) の並列要素学習辞書である。
【００２９】
図３(d) は「文書の編集を行う」と言う学習文から、文節を取り出したものである。この文は、「編集を」の対象として「文書の」しかあり得ず、係り受けの曖昧性がない。したがって、この文は係り受け要素抽出に適していると判断され、係り受け要素が抽出される。このようにして抽出された係り受け要素を蓄積したものが図３(e) の係り受け要素学習辞書である。
【００３０】
図４は並列構造の曖昧性を説明する図である。本発明では、並列構造の型で文を分類し、入力文が学習に向いているかどうかを判定する。以下の例では、仮に“並列構造を含む文で、且つ、並列の曖昧性のない文”が学習に向いた文だとする。図４(a) および(b) の文は、ともに「読みだしと」と言う並列キーを持っているので、並列構造を持った文と言える。
【００３１】
更に、図４(a) によると、「読みだしと」の係り先（この場合は並列の相手）は体言であるが、「読みだしと」の後には「ファイルへの」と言う体言と「書き込み」と言う体言があり、どちらに係るかは曖昧である。このようにして、この文は「並列構造に曖昧性がある」と判定される。一方、図４(b) においては、「読み出しと」の係り先（並列の相手）としては「書き込み」しか存在しないので、並列の曖昧性がない。このようにして、この文は「並列の曖昧性がない」と判定される。
【００３２】
図５は係り受けの曖昧性を説明する図である。本発明においては、係り受け型で文を分類し、入力文が学習に向いているかどうかを判定する。以下の例では、仮に「係り受けの曖昧性のない文」が学習に向いた文だとする。図５(a) においては、「ファイルへ」と言う体言文節は用言に係るが、「ファイルへ」の後には「書き込まれた」と「読み出す」の２つの用言文節があり、どちらに係るかは本格的な解析をしないと判定できない。よって、この文を「係り受けの曖昧性のある文」と判定する。図５(b) では、「ファイルへの」の係り先は「読み出す」しかないので、この文は「係り受けの曖昧性のない文」だと判定される。
【００３３】
学習文の並列構造における係り受けの曖昧性について例をあげて説明する。
例１（曖昧性なし）：「東京および大阪に行った」
例２（曖昧性あり）：「東京および大阪の町に行った」
例１では、「東京」と「大阪」が並列になっており、よって「行った」は「東京」と「大阪」の両方にかかると言うことが、一意に認識できる。例２では、「東京」と「大阪」が並列であると言う解釈と、「東京」と「大阪の町」が並列になっていると言う解釈ができる。よって、「行った」が「東京」と「大阪」にかかると言う解釈と、「行った」が「東京」と「町」にかかると言う解釈の両方ができる。このことから、この例文の係り受けは曖昧であると言える。
【００３４】
以上のような操作を全ての学習文に対して行い、学習データの蓄積を行う。上述の例では、曖昧性のない文のみを学習の対象にするようになっているが、曖昧性がある場合には、全ての可能な組合せに展開してから学習辞書に蓄積し、頻度の低いものは捨てるような方法を取ることも出来る。例えば、上述の例１の場合は、全ての可能な組合せは、「東京に行った。」「大阪に行った。」になり、上述の例２の場合は、全ての可能な組合せは、「東京に行った。」「東京の町に行った。」「大阪の町に行った。」になる。
【００３５】
図６は本発明の並列句解析装置の例を示す図である。同図において、１は形態素解析部、２は文節合成部、８は並列構造認識部、９は並列要素学習辞書、１０は係り受け要素学習辞書をそれぞれ示す。
【００３６】
形態素解析部１は、解析対象の入力文を形態素に分解する。文節合成部２は、上述の形態素列を文節列にまとめあげる。並列構造認識部８は、上述の文節列から並列構造を認識する。並列構造認識部８は、認識のために、並列要素学習辞書９および係り受け要素学習辞書１０を参照する。これら並列要素学習辞書９および係り受け要素学習辞書１０は、学習データ作成装置（図１を参照）によって、解析に先立って作成しておくものである。
【００３７】
図７は学習データを使用して並列句解析を行うための処理の流れを示す図である。ステップＳ１では、文が入力される。ステップＳ２では、入力文が形態素に分解される。ステップＳ３では、形態素列が文節に組み上げられる。ステップＳ４では、学習段階で作成された学習辞書を参照しながら、並列句認識を行う。
【００３８】
図８は並列構造の認識を説明する図である。図８(a) は解析対象の入力文である。図８(b) は入力文を文節に分解したものである。図８(c) は文節列から作ることが出来る並列の組合せの例である。図中、組合せは括弧で表してある。ここで、それぞれの組合せから得られる，全ての並列要素の組と係り受け要素の組について、学習辞書を検索する。検索した結果、要素が辞書に存在したものを，右側に並べてある。この中で、上から３番目の組合せが，学習辞書の内容にもっとも沿ったものであるので、並列句認識結果として出力する。図８(d) は、この出力結果である。なお、それぞれの組合せについて従来手法による点数付けを行っておき、この点数に学習辞書の検索結果の点数を加味して候補を選ぶようにしても良い。
【００３９】
図９は本発明の文脈追従型並列句解析装置の例を示す図である。同図において、１は形態素解析部、２は文節合成部、３は並列キー判定部、４は並列型分類部、６は係り受け型分類部、８は並列構造認識部、９は並列要素学習辞書、１０は係り受け要素学習辞書をそれぞれ示している。
【００４０】
図９の文脈追従型並列句解析装置は、学習辞書を用いて並列句解析を行う装置において、学習辞書の学習も同時に行うようにしたものである。基本的には、学習のための構成と認識のための構成を組み合わせたような構成になっている。
【００４１】
図中、並列キー判定部３までは普通の並列句解析装置と同じである。並列型分類部４および係り受け型分類部６は、並列構造認識処理中に、並列キー判定部３からの文節列を監視しており、学習に適当な文の場合には、並列要素学習辞書９又は係り受け要素学習辞書１０に学習データを追加する。並列構造認識部８は、この動的に変化する学習辞書９，１０を参照しながら、認識処理を行う。よって、学習が起こった次の文の認識から、この学習結果が並列構造認識部８に反映されるようになる。
【００４２】
図９の文脈追従型並列句解析装置においては、学習辞書の中には、現文書の認識前から存在する学習データと、現文書の認識中に抽出された学習データとが存在することになるが、現文書の認識中で抽出された学習データの重みを、現文書の認識前から存在する学習データの重みよりも大きくすることが出来る。
【００４３】
【発明の効果】
以上の説明から明らかなように、本発明によれば、並列句認識を行う際に、解析対象の分野に多用されるような並列表現を確実に認識することが出来る。また、この際に用られる学習データを，人手作業なしに自動的に作成することが出来る。
【図面の簡単な説明】
【図１】本発明の学習データ作成装置の例を示す図である。
【図２】学習データ作成のための処理の流れを示す図である。
【図３】学習データの作成を説明する図である。
【図４】並列構造の曖昧性を説明する図である。
【図５】係り受けの曖昧性を説明する図である。
【図６】本発明の並列句解析装置の例を示す図である。
【図７】学習データを用いて並列句解析を行うための処理の流れを示す図である。
【図８】並列構造の認識を説明する図である。
【図９】本発明の文脈追従型並列句解析装置の例を示す図である。
【符号の説明】
１形態素解析部
２文節合成部
３並列キー判定部
４並列型分類部
５並列要素抽出部
６係り受け分類部
７係り受け関係抽出部
８並列構造認識部
９並列要素学習辞書
１０係り受け要素学習辞書

Claims

学習文を形態素に分解する形態素解析部と、形態素列を文節列に合成する文節合成部と、
文節列の中から、名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、
文節列および並列キーから、学習文の並列型を判定する並列型分類部と、
文節列から、学習文の係り受け型を判定する係り受け型分類部と、
学習文の並列型に基づいて、学習文における並列構造に曖昧性があるかを判断し、学習文の並列構造に並列の曖昧性がない並列要素だけを学習文から抽出する並列要素抽出部と、
学習文の係り受け型に基づいて、係り受け要素を学習文から抽出する係り受け要素抽出部とを具備する
ことを特徴とする学習データ自動作成装置。
学習文を形態素に分解する形態素解析部と、形態素列を文節列に合成する文節合成部と、
文節列の中から、名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、
文節列および並列キーから、学習文の並列型を判定する並列型分類部と、
文節列から、学習文の係り受け型を判定する係り受け型分類部と、
学習文の並列型に基づいて、並列要素を学習文から抽出する並列要素抽出部と、
学習文の係り受け型に基づいて、学習文における並列構造に係り受けの曖昧性があるかを判断し、学習文の並列構造に係り受けの曖昧性がない係り受け要素だけを係り受け要素抽出の対象とする係り受け要素抽出部とを具備する
ことを特徴とする学習データ自動作成装置。
学習文を形態素に分解する形態素解析部と、形態素列を文節列に合成する文節合成部と、
文節列の中から、名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、
文節列および並列キーから、学習文の並列型を判定する並列型分類部と、
文節列から、学習文の係り受け型を判定する係り受け型分類部と、
学習文の並列型に基づいて、学習文における並列構造に曖昧性があるかを判断し、学習文の並列構造に並列の曖昧性がある場合でも、全ての可能な並列の組合せに対して並列要素抽出を行い、頻度の高い並列要素のみを学習データとして登録する並列要素抽出部と、学習文の係り受け型に基づいて、係り受け要素を学習文から抽出する係り受け要素抽出部とを具備する
ことを特徴とする学習データ自動作成装置。
学習文を形態素に分解する形態素解析部と、形態素列を文節列に合成する文節合成部と、
文節列の中から、名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、
文節列および並列キーから、学習文の並列型を判定する並列型分類部と、
文節列から、学習文の係り受け型を判定する係り受け型分類部と、
学習文の並列型に基づいて、並列要素を学習文から抽出する並列要素抽出部と、
学習文の係り受け型に基づいて、学習文における並列構造に係り受けの曖昧性があるかを判断し、学習文の並列構造に係り受けの曖昧性がある場合でも、全ての可能な並列の組合せに対して係り受け要素抽出を行い、頻度の高い係り受け要素のみを学習データとして登録する係り受け要素抽出部とを具備する
ことを特徴とする学習データ自動作成装置。
入力文を形態素列に分解する形態素解析部と、形態素列から文節列を合成する文節合成部と、
並列要素および係り受け要素を記憶する学習辞書と、
文節列の中から名詞と並列助詞という形を持つ文節である並列キーを見つけ出す並列キー判定部と、
文節列および並列キーから、入力文の並列型を判定する並列型分類部と、
文節列から、入力文の係り受け型を判定する係り受け型分類部と、
入力文の並列型を参照して、入力文から並列要素を抽出し、学習辞書に登録する並列要素抽出登録部と、
入力文の係り受け型を参照して入力文から係り受け要素を抽出し、学習辞書に登録する係り受け要素抽出登録部と文節列および学習辞書の内容に基づいて、入力文中に存在する並列句の認識を行う並列構造認識部とを具備する
ことを特徴とする並列句解析装置。
並列構造認識部が、文脈の学習データを事前の学習によって得られた学習データに優先させる
ことを特徴とする請求項５の並列句解析装置。