JP2005092279A

JP2005092279A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2005092279A
Application number: JP2003320738A
Authority: JP
Inventors: Hiroshi Masuichi; 博増市; Tomoko Okuma; 智子大熊; Daigo Sugihara; 大悟杉原; Hiroki Yoshimura; 宏樹吉村
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07
Anticipated expiration: 2023-09-12
Also published as: JP4033089B2

Abstract

【課題】読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行する。
【解決手段】読点情報を扱うことが可能な言語解析技術と扱うことができない言語解析技術を区別する。前者には読点情報を含んだ文の解析を、後者には読点情報を削除した文の解析を、それぞれ受け持たせ、両者から得られる解析結果を利用する。これまで十分に利用されていなかった読点情報を用いて解析結果の曖昧性を減ずることが可能となる。
【選択図】図２

Description

本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、自然言語文の構文・意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

さらに詳しくは、本発明は、所定の文法規則に基づいて構文解析あるいは意味解析を行う際における曖昧性を解消する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。

他方、情報技術の発展に伴い、コンピュータが人間社会に定着し、各種産業や日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。

例えば、日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション／サービスが実現される。

かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。

形態素解析では、文を意味的最小単位である形態素（ｍｏｒｐｈｅｍｅ）に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義（概念）や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章（談話）を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。

ここで、意味解析は、自然言語文の格関係を同定し、さらに、文の時制や様相、話法などを判定する処理のことである。ここで言う格関係とは、文を構成する各要素（単語あるいは文節）が持つ、主語、目的語といった文法上の役割（文法機能）のことを意味する。

意味解析を行うためには、精緻な言語学的解析が必要となる。このため、人手により細やかな文法規則記述を行い、その文法規則に基づいて解析を実行することが多い。このような文法規則に基づく意味解析を行うための代表的な文法理論として、ＬｅｘｉｃａｌＦｕｎｃｔｉｏｎａｌＧｒａｍｍａｒ（ＬＦＧ）（非特許文献１を参照のこと）やＨｅａｄ−ｄｒｉｖｅｎＰｈｒａｓｅＳｔｒｕｃｔｕｒｅＧｒａｍｍａｒ（ＨＰＳＧ）などを挙げることができる。

図１１には、「その画家は赤い帽子と女性の絵を描いていた。」を解析対象文とした場合に、ＬＦＧに基づく意味解析から得られる解析結果例を示している。ＬＦＧに基づく意味解析から得られる解析結果は、ｆ（ｕｎｃｔｉｏｎａｌ）−ｓｔｒｕｃｔｕｒｅと呼ばれる。ｆ−ｓｔｒｕｃｔｕｒｅは、属性と属性値のペアの入れ子構造（入れ子のマトリックス構造）によって文の意味を表現する。同図に示されているように、ｆ−ｓｔｒｕｃｔｕｒｅ中では、属性とそれに対応する属性値は水平の位置に並べることによって表現されている。

ところで、ＬＦＧやＨＰＳＧのような文法規則に基づく意味解析技術では、曖昧性の解消が困難である点が問題となる。自然言語文は、多くの場合、意味的な曖昧性を含んでいる。このため、通常は意味解析結果として複数の解析結果候補が得られることになる。このような意味解析結果の曖昧性を絞り込むための有効な情報の１つとして、読点情報を挙げることができる。ここで、以下に示す３つの例文を用いて、意味解析結果の曖昧性について考察してみる。

（１）太郎は合格するはずだと言いました。
（２）太郎は、合格するはずだと、言いました。
（３）太郎は合格するはずだ、と言いました。

例えば、上記の例文（１）では、「（誰かが）合格するはずだと、太郎が言った。」（「言う」の主語が「太郎」であり、「合格する」の主語は省略されている）という解釈（ここでは「解釈Ａ」とする）と、「太郎が合格するはずだと、（誰かが）言った。」（「合格する」の主語が「太郎」であり、「言う」の主語は省略されている）という解釈（ここでは「解釈Ｂ」とする）の２つの解釈が可能である。例文（１）だけからは、この２つの解釈のいずれが正しいかを判断することは困難である。

一方、例文（２）のように読点が付与されていれば、前者の解釈である可能性が高い。また、例文（３）のように読点が付与されていれば、後者の解釈である可能性が高い。このように、文中で読点が付与されている位置の情報は、意味解析結果の曖昧性を減少させる上で重要な情報であると言える。

しかしながら、読点がどのような条件で文中（文節間）のどの位置に出現し得るかについて、定まった規則があるとは言い難い。つまり、読点は文中のほとんどいかなる位置にも出現することが可能であり、句点の出現位置を司る文法規則を記述することは極めて困難である。実際、ＬＦＧやＨＰＳＧといった文法規則に基礎を置く意味解析システムで、読点に関する体系的な文法規則を有するものは存在しない。

このため、文中に読点が含まれている場合、それらを削除した上で意味解析処理を行うのが通常の手法である。すなわち、文法規則に基づく意味解析システムでは、曖昧性解消のための重要な情報である読点の位置情報が活用されておらず、曖昧性の解消が適切になされているとは言い難い。このような事情は、文法規則に基づく構文解析（文の構成要素（文節）間の係り受け関係を同定する処理）においても、同様である。

例えば、限定的に読点の解析ルールを用意しておくものがある（例えば、特許文献１を参照のこと）。すなわち、時間を表す言葉の後に読点「、」が続く場合には、この読点を助詞「に」に置き換えて処理を進める。このように読点に関する部分的な規則を記述することは可能であるが、日本語文中における読点の出現可能箇所は極めて多様であることから、読点に関する規則を網羅的に記述することは不可能に等しい。

特開２００１−１２５８９８号公報Ｂｕｔｔ，Ｍ．、Ｋｉｎｇ，Ｔ．Ｈ．、Ｎｉｎｏ，Ｍ．Ｅ．及びＳｅｇｏｎｄ，Ｆ．共著"ＡＧｒａｍｍａｒＷｒｉｔｅｒＣｏｏｋｂｏｏｋ"（ＣＳＬＩＰｕｂｌｉｃａｔｉｏｎｓ，Ｓｔａｎｆｏｒｄ，ＣＡ（１９９９））

本発明の目的は、所定の文法規則に基づいて構文解析あるいは意味解析を行う際における曖昧性を解消することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明のさらなる目的は、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明は、上記課題を参酌してなされたものであり、その第１の側面は、
読点情報を含んだまま自然言語文の言語解析を行なう第１の言語解析手段と、
読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第２の言語解析手段と、
前記第１の言語解析手段による解析結果及び前記第２の言語解析手段による解析結果候補から得られる素性情報と、前記第２の言語解析手段の解析結果候補についての正誤の情報との間の対応関係を保持する機械学習手段と、
前記機械学習手段の保持する対応関係に基づいて、前記第２の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
を具備することを特徴とする自然言語処理システムである。

図１には、本発明の第１の側面に係る自然言語処理システムの機能構成を模式的に示している。

ここで、前記第１の言語解析手段１は、自然言語文を形態素毎に分節して品詞の認定などを行なう形態素解析に相当する。また、前記第２の言語解析手段２は、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める構文・意味解析に相当する。

本発明に係る自然言語処理システムによれば、１つの文に対して得られる形態素解析結果、及び文節への纏め上げ結果は一意に決定され、曖昧性は生じないことから、形態素解析を行なう前記第１の言語解析手段では読点情報を含んだまま言語解析を行なう。一方、読点の振る舞いは文法規則として記述することが困難であるから、文法規則に基づく構文・意味解析を行なう前記第２の言語解析手段２においては読点情報を用いずに解析を行ない、該言語解析手段１とは異なる言語解析手段において読点情報を取り扱う。

さらに、これら両言語解析手段から得られる解析結果を用いることより、文法規則に基づく言語解析手段が出力する解析結果の曖昧性解消を、読点情報を用いて行なうことができる。

より具体的には、各文に対応する形態素解析結果と、各文に対応する複数の意味解析結果候補に基づいて、各文の各意味解析結果に対してそれぞれ素性情報を生成する。また、複数の解析結果候補のうち正しい解析結果と誤った解析結果を分別し、各文についての素性情報と解析結果の正誤の関係を機械学習手段３により機械学習する。機械学習には、例えばＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）や決定木などの統計処理手法を用いることができる。

一方、解析対象文が入力されると、機械学習時と同様に、形態素解析結果と構文・意味解析結果候補が出力されるとともに、各構文・意味解析結果についての素性情報が生成される。そして、最終解選択手段４は、この素性情報と機械学習の結果を比較して、解析対象文についての各構文・意味解析結果候補がそれぞれ正誤２つのクラスのうちいずれに属するかに応じて、構文・意味解析結果の正誤を判定する。

本発明によれば、学習サンプルの読点情報を利用することにより、さまざまな文の意味解析結果の曖昧性を減少させることができる。また、学習サンプル数を十分大きく取ることにより、構文・意味解析結果の曖昧性をさらに減少していくことができる。

また、本発明の第２の側面は、自然言語の言語解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式的術されたコンピュータ・プログラムであって、
読点情報を含んだまま入力された自然言語文の言語解析を行なう第１の言語解析ステップと、
前記第１の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第２の言語解析ステップと、
前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第２の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とするコンピュータ・プログラムである。

本発明の第２の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第２の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第１の側面に係る自然言語処理システムと同様の作用効果を得ることができる。

本発明によれば、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。

本発明によれば、文法規則に基づく言語解析において、これまで十分に利用されていなかった読点情報を用いて解析結果の曖昧性を減ずることが可能となる。本発明では、読点情報を扱うことが可能な言語解析技術と扱うことができない言語解析技術を区別する。前者には読点情報を含んだ文の解析を、後者には読点情報を削除した文の解析を、それぞれ受け持たせ、両者から得られる解析結果を利用することにより、いずれか一方の解析結果を用いる曖昧性解消と比較して、より精度の高い曖昧性解消を実現することが可能となる。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

以下、図面を参照しながら本発明の実施形態について詳解する。

図２には、本発明の一実施形態に係る言語解析システムの機能構成を模式的に示している。図示の言語解析システムは、例えばパーソナル・コンピュータ（ＰＣ）などの一般的な計算機システム上で所定の言語解析アプリケーションを実行するという形態で実現される。

同図に示すように、言語解析システムは、学習コーパス（ｃｏｒｐｕｓ）保持部１１と、形態素解析部１２と、構文・意味解析部１３と、素性情報生成部１４と、正誤情報付与部１５と、機械学習部１６と、解析対象文保持部１７と、最終解選択部１８で構成される。

学習コーパス保持部１１は、「文及びその解析結果の種々の特性（素性）」と「正しい意味解析結果であるか否か」との関連性を機械学習部１６において学習するための学習サンプル・セットとして、文の集合を計算機内部に保持している。本実施形態では、読点の位置情報を用いることによって解析結果の曖昧性を減少させることが目的であることから、学習コーパス保持部１１に格納する文は読点を含むものとする。

形態素解析部１２は、学習コーパス保持部１１に保持されているそれぞれの文、並びに、解析対象文保持部１７に保持されている文に対しそれぞれ形態素解析処理を施し、文を単語（形態素）へと分割しその品詞を決定する。また、各単語が自立語であるか付属語であるかの情報から単語（形態素）列を文節単位にまとめる処理を行なう。ここで言う文節は、基本的に一つの自立語に０個以上の付属語が後続する構文上の単位に相当する。

１つの文に対して得られる形態素解析結果、及び文節への纏め上げ結果は一意に決定され、曖昧性は生じないものとする。図３には、上記で挙げた例文（２）を対象とした場合の、形態素解析部１２による解析結果の例を示している。同図に示すように、形態素解析結果として、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されてなるテーブルが得られる。各見出し語エントリには、見出し語となる単語と、その品詞カテゴリ、自立語又は付属語の区別、見出し語毎に割り振られた固有の単語ＩＤが記述されている。図中の太線は文節の区切りを示す。

構文・意味解析部１３は、形態素解析部１２から形態素解析結果を入力として受け取り、構文・意味解析を実行する。構文・意味解析を行なうための文法理論の代表的な例として、ＬＦＧ（前述）を挙げることができる。ＬＦＧでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。ＬＦＧに基づいて構文・意味解析を行なった結果として、単語や形態素などからなる文章の句構造を木構造として表した“ｃ−ｓｔｒｕｃｔｕｒｅ（ｃｏｎｓｔｉｔｕｅｎｔｓｔｒｕｃｔｕｒｅ）”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“ｆ−ｓｔｒｕｃｔｕｒｅ（ｆｕｎｃｔｉｏｎａｌｓｔｒｕｃｔｕｒｅ）”を出力する。

１つの文に対して得られる意味解析結果（候補）は、通常複数である。既に述べた通り、読点の振る舞いは文法規則として記述することが困難である。このため、本実施形態では、構文・意味解析部１３は、読点情報を削除した上で、構文・意味解析を実行する。図４並びに図５は、上記の例文（２）を対象とした場合の、構文・意味解析部１３による構文・意味解析結果をｆ−ｓｔｒｕｃｔｕｒｅの形式で示している。

ここで、ｆ−ｓｔｒｕｃｔｕｒｅは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。ｆ−ｓｔｒｕｃｔｕｒｅを参照することにより、主語（ｓｕｂｊｅｃｔ）、目的語（ｏｂｊｅｃｔ）、補語（ｃｏｍｐｌｅｍｅｎｔ）、修飾語（ａｄｊｕｎｃｔ）といった意味理解を得ることができる。ｆ−ｓｔｒｕｃｔｕｒｅは、ｃ−ｓｔｒｕｃｔｕｒｅの各節点に付随する素性の集合であり、属性−属性値のマトリックスの形で表現される。すなわち、［］で囲まれた中の左側は素性（属性）の名前であり、右側は素性の値（属性値）である。

本実施形態では、構造・意味解析部１３では読点情報を削除しているため、上記の例文（１）〜（３）は同一の文として取り扱われることになる。したがって、意味解析結果もまったく同じである。図４には解釈Ａに対応する意味解析結果を、図５には解釈Ｂに対応する解析結果をそれぞれ示している。

素性情報生成部１４は、形態素解析部１２から各文に対応する形態素解析結果を受け取るとともに、さらに、意味解析部１３から各文に対応する複数の意味解析結果候補を受け取る。そして、受け取った両解析結果から、各文の各意味解析結果に対してそれぞれ素性情報を生成する。

図６には、文の素性情報項目の例と、例文（２）を入力とした構文・意味解析結果が図４の場合、例文（２）を入力とし構文・意味解析結果が図５の場合、例文（３）を入力とし意味解析結果が図４の場合、例文（３）を入力とし構文・意味解析結果が図５の場合のそれぞれについての素性値を示している。

同図に示すように、本実施形態では、読点が後続する文節、係り先距離などを素性情報として取り扱っている。ここで言う「係り先距離」とは、ある文節と、その係り先（修飾先）の文節との間の距離のこととする。係り先が右隣の文節であれば、係り先距離は１であり、両者の間に別の文節が１つ存在すれば２である、というように距離を計測する。

図６に示したような係り元文節と係り先文節の間の距離（位置関係）以外にも、係り元文節と係り先文節の統語上の関係（主語、目的語、補語など）を素性情報項目として利用することもできる。

ｆ−ｓｔｒｕｃｔｕｒｅ中の「ＰＲＥＤ」（ｐｒｅｄｉｃａｔｅ：述語）属性に対応する属性値は、解析対象文中に出現する単語（形態素）であり、これらの各単語には、形態素解析部１２で付与されたＩＤがそのまま付与されている。このＩＤを参照することによって、ＰＲＥＤ属性の属性値と文節との対応関係を決定することができ、さらに、ｆ−ｓｔｒｕｃｔｕｒｅの入れ子構造を参照することによって文節間の係り受け関係を決定することができる。

例えば、図７に示すｆ−ｓｔｒｕｃｔｕｒｅ（図３と同一）では、「言う」、「太郎」、「合格する」という各形態素にはそれぞれ９、１、４というＩＤが割り振られている。したがって、これらに対応する文節は、それぞれ「言いました。」、「太郎は、」、「合格するはずだと、」であると決定することができる（図３を参照のこと）。また、図７を参照することにより、「太郎」と「合格する」は、「言う」に対して、ｆ−ｓｔｒｕｃｔｕｒｅの入れ子構造の中で１レベルだけ下のマトリックス構造中に含まれることが分かる。ＬＦＧにおいて、これは「太郎」と「合格する」に対応する文節が、「言う」に対応する文節を修飾していることを意味する。このようにして得られる文節間の係り先関係と、文節の文中での出現順序から、各文の各意味解析結果に対して図６に示した素性の値を決定することが可能である。

正誤情報付与部１５は、構造・意味解析部１３から得られる複数の解析結果候補のうち正しい解析結果と誤った解析結果を例えば人手で分別し、学習コーパス保持部１１中に保持されている文の各解析結果に対して正誤のマークを付与することを可能とするユーザ・インターフェースなどで構成される。図８には、図６に対応する解析結果の各々に対して人手によって正誤マークを付与した例を示している。

機械学習部１６は、素性情報生成部１４から各文の各解析結果候補に対応する素性情報を受け取り、また、正誤情報付与部１５から各文の各解析結果候補の正誤情報を受け取り、両者の情報を用いることによって、素性情報と解析結果の正誤の関係を例えばＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ（ＳＶＭ）と呼ばれる統計処理手法に基づいて学習する。

ここで、ＳＶＭでは、学習サンプル毎に「複数の「素性−素性値ペア」」と「２つのクラスのいずれであるか」の情報を入力として受け取り、学習を行なう。ＳＶＭの詳細については、例えばＦａｂｒｉｚｉｏＳｅｂａａｓｔｉａｎｉ著の論文“ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＡｕｔｏｍａｔｅｄＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ”（ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，Ｖｏｌ．３４，Ｎｏ．１，ｐｐ．１−４７（２００２））及び当該論文中の引用文献を参照されたい。

本実施形態では、解析結果毎に、図６に例を示した「複数の「素性−素性値ペア」」と図８に示した「正誤のいずれであるか」の情報を入力として学習を行なう。学習サンプル数（学習コーパス保持部１１中に保持されている文の個数）を十分大きくとることによって、文中の読点の分布と解析結果の正誤との間の対応関係を学習することが可能となる。

既に述べたように、ＳＶＭの他にも、例えば決定木（ｄｅｃｉｓｉｏｎｔｒｅｅ）と呼ばれる統計処理手法を用いても同様の効果を得ることが可能である。決定木の詳細については、ＦａｂｒｉｚｉｏＳｅｂａａｓｔｉａｎｉ著の上記文献及びその中の引用文献を参照されたい。

解析対象文保持部１７は、任意の自然言語文を計算機内部に保持している。解析対象文保持部１７に保持された文は、学習コーパス保持部１１に保持されている文と同様に、形態素解析部１２により、文節に分割される。また、構文・意味解析部１３によって、対応する構文・意味解析結果候補が出力されるとともに、素性情報生成部１４によって各構文・意味解析結果候補についての素性−素性値ペアが生成される。

最終解選択部１８は、解析対象文保持部１７に保持されている文の構文・意味解析結果候補の各々に対応する素性−素性値ペアを、素性情報生成部１４から受け取る。そして、この素性−素性値ペアと、機械学習部１６による学習結果（素性−素性値ペアと正誤の対応関係を記述した機械学習データ）を入力として、各構文・意味解析結果候補が正誤２つのクラスのいずれに属するかを出力する。正しい解析結果として分類された意味解析結果候補を最終解とする。

なお、ＳＶＭの学習結果に基づく分類処理の詳細については、ＦａｂｒｉｚｉｏＳｅｂａａｓｔｉａｎｉ著の上記論文及びその中の引用文献を参照されたい。

図９及び図１０には、本実施形態に係る言語解析処理の手順をフローチャートの形式で示している。このうち、図９は学習データを生成するための機械学習処理時、図１０には機械学習データに基づいて解析対象文の分析時の曖昧性を解消するための処理時の手順を、それぞれ示している。

機械学習時には、まず、学習コーパス保持部１１から供給される複数のサンプル文に、形態素解析部１２により形態素解析処理を施す（ステップＳ１）。さらに、これら各文に対し、構文・意味解析部１３により構文・意味解析処理を施す（ステップＳ２）。

次いで、素性情報生成部１４において、各文についての形態素解析並びに構文・意味解析の両解析結果に基づいて、各文の各構文・意味解析結果候補に関する素性情報をそれぞれ生成する（ステップＳ３）。

次いで、各文の各構文・意味解析結果候補に対し、例えば人手（あるいは機械的な手法）により、正誤情報を付与する（ステップＳ４）。そして、機械学習部１６では、ＳＶＭやその他の統計処理手法などを用いて、各構文・意味解析結果候補についての素性情報とそれぞれの正誤の対応関係を機械学習する（ステップＳ５）。

続いて、分析時には、まず、解析対象文に対して、形態素解析部１２により形態素解析処理を施す（ステップＳ１１）。さらに、この解析対象文に対し、構文・意味解析部１３により構文・意味解析処理を施す（ステップＳ１２）。

このとき、構文・意味解析処理により構文・意味解析結果候補が複数得られたかどうかをチェックする（ステップＳ１３）。単一の構文・意味解析結果候補のみが得られた場合は、これを最終解として出力する（ステップＳ１４）。

一方、複数の構文・意味解析結果候補が得られた場合には（ステップＳ１３）、素性情報生成部１４において、当該解析対象文についての形態素解析並びに構文・意味解析の両解析結果に基づいて、各構文・意味解析結果候補に関する素性情報をそれぞれ生成する（ステップＳ１５）。

次いで、機械学習データを用いることによって、各構文・意味解析結果候補についての正誤を判定する（ステップＳ１６）。具体的には、解析対象文の構文・意味解析結果候補の各々に対応する素性−素性値ペアと、（素性−素性値ペアと正誤の対応関係を記述した）機械学習データを入力として、各構文・意味解析結果候補が正誤２つのクラスのいずれに属するかを判断する。

ここで、正しいと判断された構文・意味解析結果候補が存在する場合には（ステップＳ１７）、正しいと判断された構文・意味解析結果候補を最終解として出力する（ステップＳ１８）。

一方、正しいと判断された構文・意味解析結果候補が存在しない場合には（ステップＳ１７）、すべての構文・意味解析結果候補を最終解として出力する（ステップＳ１４）。

図９並びに図１０に示した処理手順により、図６に示した素性情報及び図７に示した構文・意味解析結果の情報を基にした学習から、例えば「彼は、故障するはずだと、思いました。」という文が解釈Ａであると同定することが可能となる。

既に述べた通り、学習サンプル数（学習コーパス保持部１１中の文の個数）を十分大きくとり、これら読点情報を利用することにより、さまざまな文の意味解析結果の曖昧性を減少させることができる。

なお、図３に示した形態素解析結果のうち、読点の有無の情報を、図７中の対応するＰＲＥＤに付与しておくことによっても、上述と同様に図６に示した素性情報を生成することが可能であり、本発明の効果を得ることができる。

［追補］
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書中では、言語解析としてＬＦＧに基づく意味解析を行なうものを例として挙げたが、他の意味解析技術であっても同等の効果が得られることは明らかである。また、本明細書では機械学習の手法としてＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ（ＳＶＭ）を用いているが、他の機械学習手法であっても同等の効果が得られることは明らかである。さらに、文法記述に基づく構文解析による解析結果の曖昧性解消も同等の手法で実現することが可能である。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。

図１は、本発明の第１の側面に係る自然言語処理システムの機能構成を模式的に示した図である。図２は、本発明の一実施形態に係る言語解析システムの機能構成を模式的に示した図である。図３は、例文（２）を対象とした場合の、形態素解析部１２による解析結果の例を示した図である。図４は、例文（２）を対象とした場合の、解釈Ａに対応する構文・意味解析部１３による構文・意味解析結果をｆ−ｓｔｒｕｃｔｕｒｅの形式で示した図である。図５は、例文（２）を対象とした場合の、解釈Ｂに対応する構文・意味解析部１３による構文・意味解析結果をｆ−ｓｔｒｕｃｔｕｒｅの形式で示した図である。図６は、文の素性情報項目の例と、例文（２）を入力とした構文・意味解析結果が図４の場合、例文（２）を入力とし構文・意味解析結果が図５の場合、例文（３）を入力とし意味解析結果が図４の場合、例文（３）を入力とし構文・意味解析結果が図５の場合のそれぞれについての素性値を示した図である。図７は、例文（２）を対象とした場合の、解釈Ａに対応する構文・意味解析部１３による構文・意味解析結果をｆ−ｓｔｒｕｃｔｕｒｅの形式で示した図である。図８は、図６に対応する解析結果の各々に対して人手によって正誤マークを付与した例を示した図である。図９は、本発明に係る言語解析処理の手順をフローチャートの形式で示した図である。図１０は、本発明に係る言語解析処理の手順をフローチャートの形式で示した図である。図１１は、「その画家は赤い帽子と女性の絵を描いていた。」を解析対象文とした場合に、ＬＦＧに基づく意味解析から得られる解析結果例を示した図である。

符号の説明

１１…学習コーパス（ｃｏｒｐｕｓ）保持部
１２…形態素解析部
１３…構文・意味解析部
１４…素性情報生成部
１５…正誤情報付与部
１６…機械学習部
１７…解析対象文保持部
１８…最終解選択部

Claims

読点情報を含んだまま自然言語文の言語解析を行なう第１の言語解析手段と、
読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第２の言語解析手段と、
前記第１の言語解析手段による解析結果及び前記第２の言語解析手段による解析結果候補から得られる素性情報と、前記第２の言語解析手段の解析結果候補の正誤の情報との間の対応関係を保持する機械学習手段と、
前記機械学習手段の保持する対応関係に基づいて、前記第２の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
を具備することを特徴とする自然言語処理システム。
前記第１の言語解析手段は、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記第２の言語解析手段は、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記第２の言語解析手段は、所定の文法規則に基づいて構文・意味解析を行なう、
ことを特徴とする請求項３に記載の自然言語処理システム。
前記機械学習手段は、前記第１の言語解析手段による解析結果及び前記第２の言語解析手段による解析結果候補から得られる素性情報と、前記第２の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記機械学習手段は、前記第１の言語解析手段による解析結果及び前記第２の言語解析手段による解析結果候補から得られる素性情報と、前記第２の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）に基づく統計処理手法により生成する、
ことを特徴とする請求項５に記載の自然言語処理システム。
前記機械学習手段は、前記第１の言語解析手段による解析結果及び前記第２の言語解析手段による解析結果候補から得られる素性情報と、前記第２の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
ことを特徴とする請求項５に記載の自然言語処理システム。
前記機械学習手段は、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
ことを特徴とする請求項１に記載の自然言語処理システム。
前記第１の言語解析手段により得られる読点に関する解析結果を前記第２の言語解析手段により得られる解析結果候補に付与し、
前記機械学習手段は、前記第２の言語解析手段により得られる解析結果候補から得られる素性情報と、前記第２の言語解析手段による解析結果候補の正誤の情報との間の対応関係を保持する、
ことを特徴とする請求項１に記載の自然言語処理システム。
読点情報を含んだまま入力された自然言語文の言語解析を行なう第１の言語解析ステップと、
前記第１の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第２の言語解析ステップと、
前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第２の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とする自然言語処理方法。
前記第１の言語解析ステップでは、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
ことを特徴とする請求項１０に記載の自然言語処理方法。
前記第２の言語解析ステップでは、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
ことを特徴とする請求項１０に記載の自然言語処理方法。
前記第２の言語解析ステップでは、所定の文法規則に基づいて構文・意味解析を行なう、
ことを特徴とする請求項１２に記載の自然言語処理方法。
前記機械学習ステップでは、前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
ことを特徴とする請求項１０に記載の自然言語処理方法。
前記機械学習ステップでは、前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）に基づく統計処理手法により生成する、
ことを特徴とする請求項１４に記載の自然言語処理方法。
前記機械学習ステップでは、前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
ことを特徴とする請求項１４に記載の自然言語処理方法。
前記機械学習ステップでは、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
ことを特徴とする請求項１０に記載の自然言語処理方法。
前記第１の言語解析ステップにおいて得られる読点に関する解析結果を前記第２の言語解析ステップにおいて得られる解析結果候補に付与し、
前記機械学習ステップでは、前記第２の言語解析ステップにおいて得られる解析結果候補から得られる素性情報と、前記第２の言語解析ステップにおける解析結果候補の正誤の情報との間の対応関係を保持する、
ことを特徴とする請求項１０に記載の自然言語処理方法。
自然言語の言語解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式的術されたコンピュータ・プログラムであって、
読点情報を含んだまま入力された自然言語文の言語解析を行なう第１の言語解析ステップと、
前記第１の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第２の言語解析ステップと、
前記第１の言語解析ステップにおける解析結果及び前記第２の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第２の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第２の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とするコンピュータ・プログラム。