JP2004145433A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム - Google Patents
自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2004145433A JP2004145433A JP2002306884A JP2002306884A JP2004145433A JP 2004145433 A JP2004145433 A JP 2004145433A JP 2002306884 A JP2002306884 A JP 2002306884A JP 2002306884 A JP2002306884 A JP 2002306884A JP 2004145433 A JP2004145433 A JP 2004145433A
- Authority
- JP
- Japan
- Prior art keywords
- semantic analysis
- tree
- natural language
- parsing
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】ある入力文に対して通常の意味解析処理を施すことによって得られる複数の意味解析結果候補の各々から係り受け関係を抽出してその他の部分を捨象し、複数の依存木を生成する。また、同じ文に対して構文解析処理を施し、曖昧性のない1つの依存木を得る。さらに、構文解析依存木と複数の意味解析依存木とを比較し、類似する意味解析依存木を選択する。そして、得られた意味解析依存木に対応する意味解析結果候補を最終的な意味解析結果とする。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0002】
さらに詳しくは、本発明は、意味解析の曖昧性を解消することができる自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、構文解析による曖昧性解消の手法を利用することによって意味解析の曖昧性を解消する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0003】
【従来の技術】
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。自然言語は自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化し、現在、多種多様な自然言語が存在している。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
【0004】
自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
【0005】
自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
【0006】
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
【0007】
また、統語意味解析では、構文解析などで係り受け関係を求めた後の構造文に対して、動詞と主語などの文中の他の構成要素との関係(すなわち、述語の格フレーム)を記述した結合価辞書を用いて、述部とそれに係る語の意味関係を抽出するということが行なわれている。
【0008】
【発明が解決しようとする課題】
構文解析は、自然言語文を受け取り、単語(文節)間の係り受け関係を決定する処理のことを指す。例えば長尾真著「自然言語処理」(岩波書店(1996))に述べられている通り、構文解析結果は、通常、構文木と呼ばれる木構造、又は依存構造と呼ばれる木構造(依存木)の形態で表現される。構文木から依存木へは変換が可能であるが、逆に、依存木から構文木への変換はできない。日本語の文「太郎が花子に本を渡す。」の構文解析結果として得られる構文木及び依存木の例を、図2(a)及び(b)に示しておく。
【0009】
構文解析の技術には、係り受け関係を決定する際に文法規則に基づいた処理を行なうものと、あらかじめ係り受け関係の正解集合を用意して統計的な計算に基づいて学習を行ない、得られた学習結果に基づいて構文解析処理を行なうものとがある。
【0010】
例えば内元清貴、村田真樹、関根聡、井佐原均共著の論文”後方文脈を考慮した係り受けモデル”(自然言語処理, Vol. 7, No.5, pp. 3−17 (2000))に述べられている構文解析システムは後者の代表的な例である。
【0011】
さらに、両者を組み合わせた処理手法の提案も数多く行なわれている。例えば特開平6−19963号公報には、統計的処理(事例ベースの誤解析除去処理)を構文解析システムに組み込む点が開示されている。現状の日本語構文解析システムでは、ほとんどの場合なんらかの統計処理手法(あるいは事例ベース手法)を利用している。
【0012】
これらの統計的な計算に基づく構文解析処理の特徴は、解析結果の候補を1つに絞り込む機構がシステム内に含まれていることである。自然言語文は多くの場合構文的な曖昧性を含んでいるため、通常は構文解析処理により複数の解析結果候補が得られることになる。しかしながら、統計的手法に基づく構文解析においては、解析結果候補の各々に対して統計値に基づく評価値が付与されるため、最も評価値の高い解析結果候補を最終解として採用することによって解析結果の曖昧性解消を実現することができる。
【0013】
一方、意味解析は文中の格関係を決定する処理を含む。ここで言う格関係とは、文を構成する各要素(単語あるいは文節)が持つ、主語、目的語といった文法上の役割(文法機能)のことを指す。また、文の時制や様相、話法などを判定する処理含む場合もある。
【0014】
意味解析技術についても、構文解析技術と同様に、文法規則に基づくものと統計的手法に基づくものが存在する。但し、特に時制や様相、話法などの判定を処理に含む場合は精緻な言語学的解析が必要となるため、人手により細やかな文法記述を行なうことによって意味解析を行なうことがほとんどである。このような深い意味解析を行うための代表的な文法理論として、例えば、Butt, M., King, T. H., Nino, M. E. 及びSegond, F.共著の論文”A Grammar Writer Cookbook”(CSLI Publications, Stanford, CA (1999))に詳解されているLFG(Lexical Functional Grammar)やHPSG(Head−driven Phrase Structure Grammar)を挙げることができる。
【0015】
LFGやHPSGのような文法規則に基づく意味解析技術では、曖昧性の解消が困難である点が問題となる。構文解析の場合と同様に、自然言語文は多くの場合意味的な曖昧性を含んでいるため、通常は意味解析結果として複数の解析結果候補が得られることになる。しかしながら、文法規則だけでこれらの曖昧性を十分に解消することは極めて困難である。実際、LFGやHPSGに基づくシステムのような文法規則に基づく深い解析を行なう意味解析システムにおいて文法規則のみで曖昧性を十分に解消できるシステムはこれまで実現されていない。
【0016】
また、文法規則に基づく意味解析処理に統計処理手法を組み合わせる技術も現状では十分に進展しているとは言い難い。既に述べたように、構文解析技術においては、文法規則に基づく解析技術に統計処理手法を組み合わせた技術が数多く存在し、既に成果が上がっている。例えば、確率文脈自由文法と呼ばれる技術が代表的な例である。しかしながら、構文解析処理に必要な文法規則と意味解析に必要な文法規則は大きく異なるため、文法規則に基づく構文解析に対して統計処理手法を組み合わせる技術を、そのまま文法規則に基づく意味解析に適用することはできない。
【0017】
本発明は、上述したような技術的課題を鑑みたものであり、その主な目的は、意味解析の曖昧性を解消することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0018】
本発明のさらなる目的は、構文解析による曖昧性解消の手法を利用することによって意味解析の曖昧性を解消することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0019】
【課題を解決するための手段及び作用】
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理システムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析手段と、
前記意味解析手段から得られる意味解析結果候補の各々を意味解析依存木に変換する変換手段と、
前記意味解析手段が受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文解析依存木で出力する構文解析手段と、
前記変換手段から得られる1以上の意味解析依存木と、前記構文解析手段から得られる構文解析依存木を比較し、構文解析依存木に類似する意味解析依存木を選択する比較手段と、
前記比較手段によって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定手段と、
を具備することを特徴とする自然言語処理システムである。
【0020】
また、本発明の第2の側面は、自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理システムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析手段と、
前記意味解析手段から得られる意味解析結果候補の各々を意味解析依存木に変換する第1の変換手段と、
前記意味解析手段が受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文木で出力する構文解析手段と、
前記構文解析手段から得られる構文解析結果を構文解析依存木に変換する第2の変換手段と、
前記第1の変換手段から得られる1以上の意味解析依存木と、前記第2の変換手段から得られる構文解析依存木を比較し、前記第1の変換手段から得られる意味解析依存木の中で前記第2の変換手段から得られる構文解析依存木に類似する依存木を選択する比較手段と、
前記比較手段によって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定手段と、
を具備することを特徴とする自然言語処理システムである。
【0021】
本発明に係る自然言語の意味解析システムは、自然言語文を受け取り、意味解析処理を施すことによって少なくとも文の格関係を含む意味解析結果候補を出力し、これら意味解析結果候補の各々を意味解析依存木に変換する。一方、同じ自然言語文に対して構文解析処理を施すことによって解析結果を構文解析依存木で出力して、複数の意味解析依存木と構文解析依存木をそれぞれ比較し、構文解析依存木に最も類似する意味解析依存木を意味解析結果として特定することができる。
【0022】
意味解析結果が格関係を同定しているということは、すなわち、文の構成要素間の文法機能が決定されているということである。また、構成要素間の文法機能が同定されているということは、必然的に構成要素間の係り受け関係が同定されており、その係り受け関係に対して文法機能が付与されていることになる。したがって、意味解析結果から係り受け関係を抽出し、それを依存木に変換することが可能である。
【0023】
本発明に係る意味解析システムでは、ある入力文に対して通常の意味解析処理を施すことによって得られる複数の意味解析結果候補の各々から係り受け関係を抽出してその他の部分を捨象し、複数の依存木(意味解析依存木)を生成する。また、同じ文に対して構文解析処理を施し、曖昧性のない1つの依存木(構文解析依存木)を得る。さらに、構文解析依存木と複数の意味解析依存木とを比較し、類似する意味解析依存木を選択する。そして、得られた意味解析依存木に対応する意味解析結果候補を最終的な意味解析結果とする。
【0024】
このような処理手順によって、これまでに提案されてきた構文解析の曖昧性解消のための技術を有効に利用し、意味解析結果の曖昧性解消を実現することが可能となる。
【0025】
また、本発明の第3の側面は、自然言語文についての文中の格関係を決定する意味解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップにより得られる意味解析結果候補の各々を意味解析依存木に変換する変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文解析依存木で出力する構文解析ステップと、
前記変換ステップによって得られる1以上の意味解析依存木と、前記構文解析手段から得られる構文解析依存木を比較し、構文解析依存木に類似する意味解析依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
【0026】
また、本発明の第4の側面は、自然言語文についての文中の格関係を決定する意味解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップによって得られる意味解析結果候補の各々を意味解析依存木に変換する第1の変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文木で出力する構文解析ステップと、前記構文解析ステップによって得られる構文解析結果を構文解析依存木に変換する第2の変換ステップと、
前記第1の変換ステップによって得られる1以上の意味解析依存木と、前記第2の変換手段から得られる構文解析依存木を比較し、前記第1の変換ステップによって得られる意味解析依存木の中で前記第2の変換ステップによって得られる構文解析依存木に類似する依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
【0027】
本発明の第3及び第4の各側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第3及び第4の各側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1及び第2の各側面に係る自然言語処理システムと同様の作用効果を得ることができる。
【0028】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
【0029】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態について詳解する。
【0030】
第1の実施形態:
図3には、本発明の第1の実施形態に係る自然言語の意味解析システムの機能構成を模式的に示している。
【0031】
なお、本実施形態では、意味解析としてLFG(Lexical Functional Grammar)に基づいた解析を行なうものを例として挙げる。LFGでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。LFGは、f−structureと呼ばれる、言語に依存しない構造を出力する。すなわち、言語が異なっても、文の意味が同じであれば、同じ構造を持つf−structureが出力される。但し、格関係を解析結果に含む意味解析技術(解析結果を依存木の形式に変換可能な技術)であれば、いかなる意味解析技術であっても同等の効果が得られることは、当業者には理解できるであろう。
【0032】
図3に示すように、本実施形態に係る意味解析システムは、解析対象文保持手段11と、形態素解析手段12と、意味解析手段13と、変換手段14と、意味解析依存木保持手段15と、構文解析手段16と、構文解析依存木保持手段17と、依存木比較手段18と、最終解選択手段19とを備えている。
【0033】
解析対象文保持手段11は、解析の対象となる日本語文を計算機内部に保持している。解析対象文を計算機内部に取り込む形態は特に限定されない。
【0034】
形態素解析手段12は、解析対象文保持手段11に保持されている日本語文に形態素解析処理を施し、文を単語へと分割しその品詞を決定する。また、分割された各単語に対して自然数のIDを付与する。図4には、「その画家は赤い帽子と女性の絵を描いていた。」という例文を形態素解析した結果を示している。同図に示したように、日本語文から分割された各単語「その」、「画家」、「は」…は、それぞれ品詞「連体詞」、「名詞」、「助詞」…が決定されるとともに、ID1,2,3…が付与されている。
【0035】
意味解析手段13は、形態素解析手段12から形態素解析結果を受け取り、LFGに基づいて意味解析を実行する。1つの文に対して得られる意味解析結果(候補)は、通常複数である。
【0036】
図5〜図7には、例文「その画家は赤い帽子と女性の絵を描いていた。」を対象とした場合に、LFGに基づく意味解析によって得られる解析結果候補をそれぞれ示している。LFGに基づく意味解析から得られる解析結果は、f−structureと呼ばれている。f−structureは、属性と属性値のペアの入れ子構造によって文の意味を表現する。なお、属性とそれに対応する属性値は、図中で水平の位置に並べることによって表現する(図8を参照のこと)。 また、f−structure中の「PRED」(predicate:述語)属性に対応する属性値は単語であり、各単語には形態素解析手段12で付与されたIDが付与されている。
【0037】
変換手段14は、意味解析手段13から複数の意味解析結果(f−structure)の候補を受け取り、それぞれを依存木へと変換する。意味解析結果を依存木に変換のための処理手順について、以下に詳解する。
【0038】
[ステップ1]
f−structure中のPRED属性に対応する属性値をすべて抽出し、それぞれを依存木中のノードとする。
【0039】
[ステップ2]
f−structure中の属性−属性値ペアの入れ子構造の包含関係を、依存木のノード間の親子関係とみなして、ノードを接続して依存木を作成する。すなわち、「あるノードn1に対応する(PREDの)属性値をv1とし、v1を包含する最も内側の属性値をv2とする。さらに、v2を包含する最も内側の属性値をv3とし、v3が持つPRED属性に対応する属性値をv4とすれば、v4に対応するノードをn1の親ノードn2とする。」(図9を参照のこと)というn1に関する処理を、[ステップ1]で得られたすべてのノードに対して行なう。但し、f−structure全体も一つの属性値であるとして処理を行なう。また、f−structure全体に対応する属性値が持つPRED属性の属性値(最も外側の属性値)に対応するノードに関しては、親ノードが存在しないため、依存木の根に対応するノードとみなす。f−structure中のすべての属性値には必ずPRED属性及びその属性値が存在するため、この処理によって依存木(意味解析依存木)が完成する。図10〜図12には、図5〜図7に示した意味解析結果から得られた意味解析依存木をそれぞれ示している。
【0040】
意味解析依存木保持手段15は、変換手段14から得られる複数の意味解析依存木をコンピュータ内部に保持する。
【0041】
構文解析手段16は、解析対象文保持手段11に保持されている文、すなわち、意味解析手段12によって意味解析処理が施される文と同じ文の形態素解析結果を形態素解析手段12から受け取り、構文解析処理を施すと同時に解析結果の曖昧性を解消する。曖昧性の解消された構文解析結果は単一の依存木(構文解析依存木)として出力される。構文解析依存木のノードは、1つ以上の単語から成る文節に対応する。構文解析依存木の各ノードには、対応する文節が含む単語に形態素解析手段12によって付与された1つ以上のID(単語ID集合)が保持されている。
【0042】
構文解析依存木保持手段17は、構文解析手段16から得られる構文解析依存木をコンピュータ内部に保持する。
【0043】
依存木比較手段18は、意味解析依存木保持手段15に保持されている複数の意味解析依存木と構文解析依存木保持手段17に保持されている構文解析依存木を比較し、構文解析依存木と最も類似する意味解析依存木を選択する。より具体的には、構文解析依存木中に存在するノード(単語ID集合)ペアと、各意味解析依存木中に存在するノード(単語ID)ペアとを比較し、一致するペアが最も多い意味解析依存木を選択する。但し、構文解析依存木のノードに付与されている単語ID集合のうちの1つが、意味解析依存木のノードに付与されている単語IDと一致していればノード同士が一致していると定義する。また、係り受け関係を持つノードペア中の2つのノードがともに一致すれば、ノード・ペアが一致していると定義する。
【0044】
最終解選択手段19は、依存木比較手段18で選択された意味解析依存木に対応する意味解析結果を最終的な意味解析結果として選択する。
【0045】
図4には例文「その画家は赤い帽子と女性の絵を描いていた。」の形態素解析結果を示したが、これについて構文解析手段16によって構文解析して得られる依存木の例を図13に示している。なお、同図中の「PARA」は文中の並置構造を表現するための特別な記号である。「PARA」の単語IDは0と定義する。
【0046】
同様に、この例文を意味解析手段13に投入して得られた複数の候補をさらに変換手段14によって意味解析依存木に変換した結果を図14〜図16に示している。図14〜図16は、図10〜図12に示した依存木とほぼ同じものであるが、ノードに対応する単語IDを明示した。
【0047】
また、図17〜図19には、図13に示した構文解析依存木に対する図14〜図16に示した意味解析依存木のノードペアをそれぞれ依存木比較手段18により照合した結果を示している。この場合、図17に示した意味解析依存木が構文解析依存木との一致ペア数が最も多くなることから、最終解選択手段19によって、図17に対応する意味解析結果である図5が最終解として選択される。
【0048】
上述した本実施形態では、依存木比較手段18による照合手法をノードペアの一致数とした。但し、高橋哲郎、乾健太郎、 松本裕治共著の論文 ”テキストの構文的類似度の評価方法について”(情報処理学会研究報告, 2002−NL−150, pp. 163−170 (2002))で提案されているような、他の手法を用いても同様の効果が得られることは、当業者には理解できるであろう。
【0049】
構文解析手段16が統計処理に基づく構文解析処理を行なう場合は、図20に示すように、構文解析依存木中の各リンクに対して確信度を付与することが可能である。このような場合、図17〜図19に示したような意味解析依存木と構文解析依存木との単なる一致ペア数ではなく、確信度の合計値を計算し、その値が最も大きい意味解析依存木を依存木比較手段18が選択するという処理を行なうことが可能である。
【0050】
図21〜図23には、図20に示すような各リンクに対して確信度が付与された構文解析依存木に対する図14〜図16に示した意味解析依存木のノードペアをそれぞれ依存木比較手段18により確信度の合計値に基づいて比較照合した結果を示している。この場合、確信度の合計値が最も大きくなる、図21に対応する意味解析結果である図5が最終解として選択される。
【0051】
第2の実施形態:
図24には、本発明の第2の実施形態に係る自然言語文の意味解析システムの機能構成を模式的に示している。本実施形態に係る意味解析システムは、図3に示した第1の実施形態に係る意味解析システムのそれとほぼ同じ構成で実現される。但し、図24に示す通り、2つ(又はそれ以上)の構文解析手段26A及び26Bを備えている点が第1の実施形態とは相違する。2つの構文解析手段26A及び26Bは異なるアルゴリズムで構文解析を実行し、したがって同じ入力文に対して異なる構文解析結果(構文解析依存木)を出力する可能性がある。
【0052】
例えば、2つの構文解析手段26A及び26Bと、構文解析依存木保持手段27との間に切替器(図示しない)を設けて、解析対象文の性質や意味解析結果などに応じて切替器がいずれの構文解析手段の構文解析結果を利用すべきかを判断して、切替動作を行なうようにしてもよい。
【0053】
また、依存木比較手段28は、2つの構文解析手段26A及び26Bから得られる2つの構文解析依存木に対して、それぞれ確信度の合計値(一致ペア数)を計算し、さらにそれらの和をとり、その値が最も大きい意味解析依存木を選択する。
【0054】
図25及び図26には、2つの構文解析手段26A及び26Bから得られる構文解析依存木をそれぞれ示している。各依存木に付与されている確信度は、依存木中で最も大きい値が1.0となるように正規化されているものとする。
【0055】
図25に示した構文依存木を対象として確信度の合計値を計算すると、図21〜図23に示すような結果が得られる。同様に、図26に示した構文依存木を対象として確信度の合計値を計算すると、図28〜図30に示すような結果が得られるとする。
【0056】
ここで、図21と図27、図22と図28、並びに図23と図29の確信度の和をそれぞれとると、図21及び図27の意味解析依存木の値が6.8、図22と図28の意味解析依存木値が5.6、図23と図29の意味解析依存木値が5.3となる。したがって、最終解選択手段29では、最終解として図21及び図27に相当する意味解析結果(図5を参照のこと)が選択されることになる。
【0057】
このように、意味解析システムが2つの構文解析手段を用意することによって、互いの解析結果の誤りを補い合うことが可能となり、より精度の高い曖昧性解消を実現することが可能となる。なお、本実施形態では、構文解析手段を2つとしたが、3つ以上の構文解析手段を持つ場合でも同様の効果が得られることは当業者には理解できるであろう。
【0058】
また、意味解析システムが2以上の構文解析手段を装備する場合、意味解析依存木の構造あるいは特徴に応じて構文解析手段を選択的に利用することも可能である。例えば、意味解析依存木中に「PARA」が含まれる場合は構文解析手段26Aのみを利用して最終解を選択し、それ以外の場合は構文解析手段26Bを利用するといった例が考えられる。これは、入力文の特徴に応じて構文解析手段の解析精度に偏りがあり、その偏り方が明確な場合に効果的である。
【0059】
さらに、2以上の構文解析手段を選択的に利用するのではなく、意味解析依存木の構造あるいは特徴に応じて各構文解析手段に重み付けを行ない、その重み付けを構文依存木の確信度に乗じた上で最終解を選択することも可能である。例えば、意味解析依存木中に「PARA」が含まれる場合は構文解析手段26Bから得られる構文解析依存木中の各確信度に0.5を乗じ、それ以外の場合は構文解析手段26Aから得られる構文解析依存木中の各確信度に0.5を乗じるといった例が考えられる。
【0060】
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
【0061】
【発明の効果】
以上詳記したように、本発明によれば、これまで困難であった意味解析の曖昧性解消を、既に確立された構文解析の曖昧性解消技術を利用することによって実現するシステムを構築することが可能となる。
【0062】
文法規則に基づく意味解析を用いた場合は、文法的に正しいことが保証された解析結果を得ることが可能である半面、曖昧性の解消は困難となる。一方、統計的手法に基づく構文解析は曖昧性の解消の実現が容易である反面、解析結果には誤解析が多く含まれる傾向がある。これに対し、本発明に係る意味解析システムによれば、両者の技術の融合を依存木を介して実現するものであることから、意味解析から得られる信頼性の高い解析結果候補から、曖昧性の解消された構文解析結果を利用して最終的な解析結果を選択することが可能となる。
【0063】
さらに、本発明に係る意味解析システムによれば、構文解析手段と意味解析手段が独立した手段であるため両者を別々に開発することが可能であるので、システム全体のメンテナンス及びエンハンスが容易である。
【0064】
また、本発明に係る意味解析システムによれば、複数の構文解析システムを利用して、より信頼性の高い曖昧性解消を実現することも可能である。
【図面の簡単な説明】
【図1】本発明に係る典型的な意味解析システムの構成を示した図である。
【図2】構文解析結果の一例を示す図である。
【図3】本発明の第1の実施形態に係る意味解析システムの構成を示した図である。
【図4】形態素解析結果の一例を示した図である。
【図5】意味解析結果の一例を示した図である。
【図6】意味解析結果の一例を示した図である。
【図7】意味解析結果の一例を示した図である。
【図8】意味解析結果の構造を説明するための図である。
【図9】意味解析結果の依存構造への変換手法を示した概念図である。
【図10】図5に示した意味解析結果の依存構造への変換手法を示した概念図である。
【図11】図6に示した意味解析結果の依存構造への変換手法を示した概念図である。
【図12】図7に示した意味解析結果の依存構造への変換手法を示した概念図である。
【図13】構文解析結果の一例を示した図である。
【図14】意味解析結果から得られる依存木の一例を示した図である。
【図15】意味解析結果から得られる依存木の一例を示した図である。
【図16】意味解析結果から得られる依存木の一例を示した図である。
【図17】木構造の照合結果の一例を示した図である。
【図18】木構造の照合結果の一例を示した図である。
【図19】木構造の照合結果の一例を示した図である。
【図20】構文解析結果の一例を示した図である。
【図21】木構造の照合結果の一例を示した図である。
【図22】木構造の照合結果の一例を示した図である。
【図23】木構造の照合結果の一例を示した図である。
【図24】本発明の第2の実施形態に係る意味解析システムの機能構成を模式的に示した図である。
【図25】構文解析結果の一例を示した図である。
【図26】構文解析結果の一例を示した図である。
【図27】図26に示した構文依存木を対象として確信度の合計値を計算した結果を示した図である。
【図28】図26に示した構文依存木を対象として確信度の合計値を計算した結果を示した図である。
【図29】図26に示した構文依存木を対象として確信度の合計値を計算した結果を示した図である。
【符号の説明】
1…意味解析手段
2…変換手段
3…構文解析手段
4…比較手段
5…意味解析結果特定手段
11…解析対象文保持手段
12…形態素解析手段
13…意味解析手段
14…変換手段
15…意味解析依存木保持手段
16…構文解析手段
17…構文解析依存木保持手段
18…依存木比較手段
19…最終解選択手段
21…解析対象文保持手段
22…形態素解析手段
23…意味解析手段
24…変換手段
25…意味解析依存木保持手段
26A,26B…構文解析手段
27…構文解析依存木保持手段
28…依存木比較手段
29…最終解選択手段
Claims (14)
- 自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理システムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析手段と、
前記意味解析手段から得られる意味解析結果候補の各々を意味解析依存木に変換する変換手段と、
前記意味解析手段が受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文解析依存木で出力する構文解析手段と、
前記変換手段から得られる1以上の意味解析依存木と、前記構文解析手段から得られる構文解析依存木を比較し、構文解析依存木に類似する意味解析依存木を選択する比較手段と、
前記比較手段によって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定手段と、
を具備することを特徴とする自然言語処理システム。 - 自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理システムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析手段と、
前記意味解析手段から得られる意味解析結果候補の各々を意味解析依存木に変換する第1の変換手段と、
前記意味解析手段が受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文木で出力する構文解析手段と、
前記構文解析手段から得られる構文解析結果を構文解析依存木に変換する第2の変換手段と、
前記第1の変換手段から得られる1以上の意味解析依存木と、前記第2の変換手段から得られる構文解析依存木を比較し、前記第1の変換手段から得られる意味解析依存木の中で前記第2の変換手段から得られる構文解析依存木に類似する依存木を選択する比較手段と、
前記比較手段によって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定手段と、
を具備することを特徴とする自然言語処理システム。 - 前記比較手段は、複数の意味解析依存木と構文解析依存木を比較する際に、依存木中のノードペア数の一致数が多いものを類似する意味解析依存木として選択する、
ことを特徴とする請求項1又は2のいずれかに記載の自然言語処理システム。 - 前記構文解析依存木は、依存木中のノードペア間のリンクに確信度を持ち、
前記比較手段は、意味解析依存木と構文解析依存木を比較する際に、ノードペア間のリンクに持つ確信度を利用することによって、複数の意味解析依存木の中から最も信頼性の高い依存木を選択する、
ことを特徴とする請求項1又は2のいずれかに記載の自然言語処理システム。 - 前記構文解析依存木は、依存木中のノードペア間のリンクに確信度を持ち、
前記比較手段は、複数の意味解析依存木と構文解析依存木を比較する際に、複数の意味解析依存木の中で、一致するノードペア間のリンクに付与されている確信度の合計値が最も大きいものを最も信頼性の高い意味解析依存木として選択する、
ことを特徴とする請求項1又は2のいずれかに記載の自然言語処理システム。 - 前記構文解析依存木は、依存木中のノードペア間のリンクに確信度を持ち、
前記比較手段は、複数の意味解析依存木と構文解析依存木を比較する際に、複数の意味解析依存木の中で、一定の閾値よりも大きい確信度を持つノードペアの一致数、又は、確信度の合計値が最も大きいものを最も信頼性の高い意味解析依存木として選択する、
ことを特徴とする請求項1又は2のいずれかに記載の自然言語処理システム。 - それぞれ異なるアルゴリズムで構文解析を実行する複数の構文解析手段を備え、
前記比較手段は、複数の意味解析依存木と、前記複数の構文解析手段からそれぞれ得られる構文解析依存木を比較し、複数の意味解析依存木の中から最も信頼性の高い依存木を選択する、
ことを特徴とする請求項1乃至6のいずれかに記載の自然言語処理システム。 - それぞれ異なるアルゴリズムで構文解析を実行する複数の構文解析手段を備え、
前記比較手段は、複数の意味解析依存木と、前記複数の構文解析手段からそれぞれ得られる構文解析依存木を比較する際に、前記複数の構文解析手段の中から得られる構文解析依存木の構造に応じて1つを選択し、該選択した構文解析依存木を比較対照とする
ことを特徴とする請求項1乃至6のいずれかに記載の自然言語処理システム。 - それぞれ異なるアルゴリズムで構文解析を実行する複数の構文解析手段を備え、
前記比較手段は、複数の意味解析依存木と、前記複数の構文解析手段からそれぞれ得られる構文解析依存木を比較する際に、前記複数の構文解析手段に対して意味解析依存木の構造に応じて重み付けを行ない、構文解析依存木のノード間リンクに該重み付けを行なった上で比較する、
ことを特徴とする請求項1乃至6のいずれかに記載の自然言語処理システム。 - 前記意味解析手段は、受け取った自然言語文に対してLexical Functional Grammarに基づく意味解析処理を施すことによって、意味解析結果候補としてf−structureを出力し、
前記変換手段(又は前記第1の変換手段)は、前記意味解析手段から得られるf−structureを、f−structure中のPRED属性の属性値をノードとし、f−structure中の属性−属性値ペアの入れ子構造をノード間の親子関係として、意味解析依存木に変換する、
ことを特徴とする請求項1乃至9のいずれかに記載の自然言語処理システム。 - 自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理方法であって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップにより得られる意味解析結果候補の各々を意味解析依存木に変換する変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文解析依存木で出力する構文解析ステップと、
前記変換ステップによって得られる1以上の意味解析依存木と、前記構文解析手段から得られる構文解析依存木を比較し、構文解析依存木に類似する意味解析依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とする自然言語処理方法。 - 自然言語文についての文中の格関係を決定する意味解析を行なう自然言語処理方法であって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップによって得られる意味解析結果候補の各々を意味解析依存木に変換する第1の変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文木で出力する構文解析ステップと、
前記構文解析ステップによって得られる構文解析結果を構文解析依存木に変換する第2の変換ステップと、
前記第1の変換ステップによって得られる1以上の意味解析依存木と、前記第2の変換手段から得られる構文解析依存木を比較し、前記第1の変換ステップによって得られる意味解析依存木の中で前記第2の変換ステップによって得られる構文解析依存木に類似する依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とする自然言語処理方法。 - 自然言語文についての文中の格関係を決定する意味解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップにより得られる意味解析結果候補の各々を意味解析依存木に変換する変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文解析依存木で出力する構文解析ステップと、
前記変換ステップによって得られる1以上の意味解析依存木と、前記構文解析手段から得られる構文解析依存木を比較し、構文解析依存木に類似する意味解析依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とするコンピュータ・プログラム。 - 自然言語文についての文中の格関係を決定する意味解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
自然言語文を受け取り、意味解析処理を施すことによって、少なくとも文の格関係を含む1以上の意味解析結果候補を出力する意味解析ステップと、
前記意味解析ステップによって得られる意味解析結果候補の各々を意味解析依存木に変換する第1の変換ステップと、
前記意味解析ステップにおいて受け取った自然言語文と同じ自然言語文に構文解析処理を施すことによって解析結果を構文木で出力する構文解析ステップと、
前記構文解析ステップによって得られる構文解析結果を構文解析依存木に変換する第2の変換ステップと、
前記第1の変換ステップによって得られる1以上の意味解析依存木と、前記第2の変換手段から得られる構文解析依存木を比較し、前記第1の変換ステップによって得られる意味解析依存木の中で前記第2の変換ステップによって得られる構文解析依存木に類似する依存木を選択する比較ステップと、
前記比較ステップによって選択された意味解析依存木に対応する意味解析結果を特定する意味解析結果特定ステップと、
を具備することを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306884A JP4039205B2 (ja) | 2002-10-22 | 2002-10-22 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306884A JP4039205B2 (ja) | 2002-10-22 | 2002-10-22 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004145433A true JP2004145433A (ja) | 2004-05-20 |
JP4039205B2 JP4039205B2 (ja) | 2008-01-30 |
Family
ID=32453506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002306884A Expired - Fee Related JP4039205B2 (ja) | 2002-10-22 | 2002-10-22 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4039205B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190101156A (ko) * | 2018-02-22 | 2019-08-30 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
-
2002
- 2002-10-22 JP JP2002306884A patent/JP4039205B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190101156A (ko) * | 2018-02-22 | 2019-08-30 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20200356728A1 (en) * | 2018-02-22 | 2020-11-12 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US11544469B2 (en) | 2018-02-22 | 2023-01-03 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
KR102551343B1 (ko) * | 2018-02-22 | 2023-07-05 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113657115B (zh) * | 2021-07-21 | 2023-06-30 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4039205B2 (ja) | 2008-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101031970B1 (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 | |
JP6727610B2 (ja) | 文脈解析装置及びそのためのコンピュータプログラム | |
US5424947A (en) | Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
KR102013230B1 (ko) | 구문 전처리 기반의 구문 분석 장치 및 그 방법 | |
KR20170106308A (ko) | 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램 | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
EP1754169A2 (en) | A system for multilingual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach | |
WO2003056450A1 (fr) | Procede et appareil d'analyse syntaxique | |
JP2006268375A (ja) | 翻訳メモリシステム | |
JP6946842B2 (ja) | モデル学習装置、変換装置、方法、及びプログラム | |
Scholivet et al. | Identification of ambiguous multiword expressions using sequence models and lexical resources | |
Wax | Automated grammar engineering for verbal morphology | |
JP2005208782A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Sawai | Semantic structure analysis of noun phrases using abstract meaning representation | |
Anguiano et al. | Parse correction with specialized models for difficult attachment types | |
KR101064950B1 (ko) | 번역 오류 후처리 보정 장치 및 방법 | |
Nambiar et al. | Abstractive summarization of Malayalam document using sequence to sequence model | |
JP4039205B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
KR950013128B1 (ko) | 기계번역장치 및 방법 | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
JP4114526B2 (ja) | 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム | |
Ariaratnam et al. | A shallow parser for Tamil |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071029 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131116 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |