JP2005092279A - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム - Google Patents

自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2005092279A
JP2005092279A JP2003320738A JP2003320738A JP2005092279A JP 2005092279 A JP2005092279 A JP 2005092279A JP 2003320738 A JP2003320738 A JP 2003320738A JP 2003320738 A JP2003320738 A JP 2003320738A JP 2005092279 A JP2005092279 A JP 2005092279A
Authority
JP
Japan
Prior art keywords
analysis
language
analysis result
sentence
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003320738A
Other languages
English (en)
Other versions
JP4033089B2 (ja
Inventor
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Daigo Sugihara
大悟 杉原
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2003320738A priority Critical patent/JP4033089B2/ja
Publication of JP2005092279A publication Critical patent/JP2005092279A/ja
Application granted granted Critical
Publication of JP4033089B2 publication Critical patent/JP4033089B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行する。
【解決手段】 読点情報を扱うことが可能な言語解析技術と扱うことができない言語解析技術を区別する。前者には読点情報を含んだ文の解析を、後者には読点情報を削除した文の解析を、それぞれ受け持たせ、両者から得られる解析結果を利用する。これまで十分に利用されていなかった読点情報を用いて解析結果の曖昧性を減ずることが可能となる。
【選択図】 図2

Description

本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、自然言語文の構文・意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、所定の文法規則に基づいて構文解析あるいは意味解析を行う際における曖昧性を解消する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
他方、情報技術の発展に伴い、コンピュータが人間社会に定着し、各種産業や日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。
例えば、日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
ここで、意味解析は、自然言語文の格関係を同定し、さらに、文の時制や様相、話法などを判定する処理のことである。ここで言う格関係とは、文を構成する各要素(単語あるいは文節)が持つ、主語、目的語といった文法上の役割(文法機能)のことを意味する。
意味解析を行うためには、精緻な言語学的解析が必要となる。このため、人手により細やかな文法規則記述を行い、その文法規則に基づいて解析を実行することが多い。このような文法規則に基づく意味解析を行うための代表的な文法理論として、Lexical Functional Grammar(LFG)(非特許文献1を参照のこと)やHead−driven Phrase Structure Grammar(HPSG)などを挙げることができる。
図11には、「その画家は赤い帽子と女性の絵を描いていた。」を解析対象文とした場合に、LFGに基づく意味解析から得られる解析結果例を示している。LFGに基づく意味解析から得られる解析結果は、f(unctional)−structureと呼ばれる。f−structureは、属性と属性値のペアの入れ子構造(入れ子のマトリックス構造)によって文の意味を表現する。同図に示されているように、f−structure中では、属性とそれに対応する属性値は水平の位置に並べることによって表現されている。
ところで、LFGやHPSGのような文法規則に基づく意味解析技術では、曖昧性の解消が困難である点が問題となる。自然言語文は、多くの場合、意味的な曖昧性を含んでいる。このため、通常は意味解析結果として複数の解析結果候補が得られることになる。このような意味解析結果の曖昧性を絞り込むための有効な情報の1つとして、読点情報を挙げることができる。ここで、以下に示す3つの例文を用いて、意味解析結果の曖昧性について考察してみる。
(1)太郎は合格するはずだと言いました。
(2)太郎は、合格するはずだと、言いました。
(3)太郎は合格するはずだ、と言いました。
例えば、上記の例文(1)では、「(誰かが)合格するはずだと、太郎が言った。」(「言う」の主語が「太郎」であり、「合格する」の主語は省略されている)という解釈(ここでは「解釈A」とする)と、「太郎が合格するはずだと、(誰かが)言った。」(「合格する」の主語が「太郎」であり、「言う」の主語は省略されている)という解釈(ここでは「解釈B」とする)の2つの解釈が可能である。例文(1)だけからは、この2つの解釈のいずれが正しいかを判断することは困難である。
一方、例文(2)のように読点が付与されていれば、前者の解釈である可能性が高い。また、例文(3)のように読点が付与されていれば、後者の解釈である可能性が高い。このように、文中で読点が付与されている位置の情報は、意味解析結果の曖昧性を減少させる上で重要な情報であると言える。
しかしながら、読点がどのような条件で文中(文節間)のどの位置に出現し得るかについて、定まった規則があるとは言い難い。つまり、読点は文中のほとんどいかなる位置にも出現することが可能であり、句点の出現位置を司る文法規則を記述することは極めて困難である。実際、LFGやHPSGといった文法規則に基礎を置く意味解析システムで、読点に関する体系的な文法規則を有するものは存在しない。
このため、文中に読点が含まれている場合、それらを削除した上で意味解析処理を行うのが通常の手法である。すなわち、文法規則に基づく意味解析システムでは、曖昧性解消のための重要な情報である読点の位置情報が活用されておらず、曖昧性の解消が適切になされているとは言い難い。このような事情は、文法規則に基づく構文解析(文の構成要素(文節)間の係り受け関係を同定する処理)においても、同様である。
例えば、限定的に読点の解析ルールを用意しておくものがある(例えば、特許文献1を参照のこと)。すなわち、時間を表す言葉の後に読点「、」が続く場合には、この読点を助詞「に」に置き換えて処理を進める。このように読点に関する部分的な規則を記述することは可能であるが、日本語文中における読点の出現可能箇所は極めて多様であることから、読点に関する規則を網羅的に記述することは不可能に等しい。
特開2001−125898号公報 Butt,M.、King,T.H.、Nino,M.E.及びSegond,F.共著"A Grammar Writer Cookbook"(CSLI Publications,Stanford,CA(1999))
本発明の目的は、所定の文法規則に基づいて構文解析あるいは意味解析を行う際における曖昧性を解消することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、
読点情報を含んだまま自然言語文の言語解析を行なう第1の言語解析手段と、
読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析手段と、
前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段の解析結果候補についての正誤の情報との間の対応関係を保持する機械学習手段と、
前記機械学習手段の保持する対応関係に基づいて、前記第2の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
を具備することを特徴とする自然言語処理システムである。
図1には、本発明の第1の側面に係る自然言語処理システムの機能構成を模式的に示している。
ここで、前記第1の言語解析手段1は、自然言語文を形態素毎に分節して品詞の認定などを行なう形態素解析に相当する。また、前記第2の言語解析手段2は、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める構文・意味解析に相当する。
本発明に係る自然言語処理システムによれば、1つの文に対して得られる形態素解析結果、及び文節への纏め上げ結果は一意に決定され、曖昧性は生じないことから、形態素解析を行なう前記第1の言語解析手段では読点情報を含んだまま言語解析を行なう。一方、読点の振る舞いは文法規則として記述することが困難であるから、文法規則に基づく構文・意味解析を行なう前記第2の言語解析手段2においては読点情報を用いずに解析を行ない、該言語解析手段1とは異なる言語解析手段において読点情報を取り扱う。
さらに、これら両言語解析手段から得られる解析結果を用いることより、文法規則に基づく言語解析手段が出力する解析結果の曖昧性解消を、読点情報を用いて行なうことができる。
より具体的には、各文に対応する形態素解析結果と、各文に対応する複数の意味解析結果候補に基づいて、各文の各意味解析結果に対してそれぞれ素性情報を生成する。また、複数の解析結果候補のうち正しい解析結果と誤った解析結果を分別し、各文についての素性情報と解析結果の正誤の関係を機械学習手段3により機械学習する。機械学習には、例えばSupport Vector Machine(SVM)や決定木などの統計処理手法を用いることができる。
一方、解析対象文が入力されると、機械学習時と同様に、形態素解析結果と構文・意味解析結果候補が出力されるとともに、各構文・意味解析結果についての素性情報が生成される。そして、最終解選択手段4は、この素性情報と機械学習の結果を比較して、解析対象文についての各構文・意味解析結果候補がそれぞれ正誤2つのクラスのうちいずれに属するかに応じて、構文・意味解析結果の正誤を判定する。
本発明によれば、学習サンプルの読点情報を利用することにより、さまざまな文の意味解析結果の曖昧性を減少させることができる。また、学習サンプル数を十分大きく取ることにより、構文・意味解析結果の曖昧性をさらに減少していくことができる。
また、本発明の第2の側面は、自然言語の言語解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式的術されたコンピュータ・プログラムであって、
読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システムと同様の作用効果を得ることができる。
本発明によれば、読点情報を活用することによって、文法規則に基づく言語解析システムの解析結果候補の絞込みを効果的に実行することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
本発明によれば、文法規則に基づく言語解析において、これまで十分に利用されていなかった読点情報を用いて解析結果の曖昧性を減ずることが可能となる。本発明では、読点情報を扱うことが可能な言語解析技術と扱うことができない言語解析技術を区別する。前者には読点情報を含んだ文の解析を、後者には読点情報を削除した文の解析を、それぞれ受け持たせ、両者から得られる解析結果を利用することにより、いずれか一方の解析結果を用いる曖昧性解消と比較して、より精度の高い曖昧性解消を実現することが可能となる。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
図2には、本発明の一実施形態に係る言語解析システムの機能構成を模式的に示している。図示の言語解析システムは、例えばパーソナル・コンピュータ(PC)などの一般的な計算機システム上で所定の言語解析アプリケーションを実行するという形態で実現される。
同図に示すように、言語解析システムは、学習コーパス(corpus)保持部11と、形態素解析部12と、構文・意味解析部13と、素性情報生成部14と、正誤情報付与部15と、機械学習部16と、解析対象文保持部17と、最終解選択部18で構成される。
学習コーパス保持部11は、「文及びその解析結果の種々の特性(素性)」と「正しい意味解析結果であるか否か」との関連性を機械学習部16において学習するための学習サンプル・セットとして、文の集合を計算機内部に保持している。本実施形態では、読点の位置情報を用いることによって解析結果の曖昧性を減少させることが目的であることから、学習コーパス保持部11に格納する文は読点を含むものとする。
形態素解析部12は、学習コーパス保持部11に保持されているそれぞれの文、並びに、解析対象文保持部17に保持されている文に対しそれぞれ形態素解析処理を施し、文を単語(形態素)へと分割しその品詞を決定する。また、各単語が自立語であるか付属語であるかの情報から単語(形態素)列を文節単位にまとめる処理を行なう。ここで言う文節は、基本的に一つの自立語に0個以上の付属語が後続する構文上の単位に相当する。
1つの文に対して得られる形態素解析結果、及び文節への纏め上げ結果は一意に決定され、曖昧性は生じないものとする。図3には、上記で挙げた例文(2)を対象とした場合の、形態素解析部12による解析結果の例を示している。同図に示すように、形態素解析結果として、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されてなるテーブルが得られる。各見出し語エントリには、見出し語となる単語と、その品詞カテゴリ、自立語又は付属語の区別、見出し語毎に割り振られた固有の単語IDが記述されている。図中の太線は文節の区切りを示す。
構文・意味解析部13は、形態素解析部12から形態素解析結果を入力として受け取り、構文・意味解析を実行する。構文・意味解析を行なうための文法理論の代表的な例として、LFG(前述)を挙げることができる。LFGでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。LFGに基づいて構文・意味解析を行なった結果として、単語や形態素などからなる文章の句構造を木構造として表した“c−structure(constituent structure)”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“f−structure(functional structure)”を出力する。
1つの文に対して得られる意味解析結果(候補)は、通常複数である。既に述べた通り、読点の振る舞いは文法規則として記述することが困難である。このため、本実施形態では、構文・意味解析部13は、読点情報を削除した上で、構文・意味解析を実行する。図4並びに図5は、上記の例文(2)を対象とした場合の、構文・意味解析部13による構文・意味解析結果をf−structureの形式で示している。
ここで、f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、c−structureの各節点に付随する素性の集合であり、属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
本実施形態では、構造・意味解析部13では読点情報を削除しているため、上記の例文(1)〜(3)は同一の文として取り扱われることになる。したがって、意味解析結果もまったく同じである。図4には解釈Aに対応する意味解析結果を、図5には解釈Bに対応する解析結果をそれぞれ示している。
素性情報生成部14は、形態素解析部12から各文に対応する形態素解析結果を受け取るとともに、さらに、意味解析部13から各文に対応する複数の意味解析結果候補を受け取る。そして、受け取った両解析結果から、各文の各意味解析結果に対してそれぞれ素性情報を生成する。
図6には、文の素性情報項目の例と、例文(2)を入力とした構文・意味解析結果が図4の場合、例文(2)を入力とし構文・意味解析結果が図5の場合、例文(3)を入力とし意味解析結果が図4の場合、例文(3)を入力とし構文・意味解析結果が図5の場合のそれぞれについての素性値を示している。
同図に示すように、本実施形態では、読点が後続する文節、係り先距離などを素性情報として取り扱っている。ここで言う「係り先距離」とは、ある文節と、その係り先(修飾先)の文節との間の距離のこととする。係り先が右隣の文節であれば、係り先距離は1であり、両者の間に別の文節が1つ存在すれば2である、というように距離を計測する。
図6に示したような係り元文節と係り先文節の間の距離(位置関係)以外にも、係り元文節と係り先文節の統語上の関係(主語、目的語、補語など)を素性情報項目として利用することもできる。
f−structure中の「PRED」(predicate:述語)属性に対応する属性値は、解析対象文中に出現する単語(形態素)であり、これらの各単語には、形態素解析部12で付与されたIDがそのまま付与されている。このIDを参照することによって、PRED属性の属性値と文節との対応関係を決定することができ、さらに、f−structureの入れ子構造を参照することによって文節間の係り受け関係を決定することができる。
例えば、図7に示すf−structure(図3と同一)では、「言う」、「太郎」、「合格する」という各形態素にはそれぞれ9、1、4というIDが割り振られている。したがって、これらに対応する文節は、それぞれ「言いました。」、「太郎は、」、「合格するはずだと、」であると決定することができる(図3を参照のこと)。また、図7を参照することにより、「太郎」と「合格する」は、「言う」に対して、f−structureの入れ子構造の中で1レベルだけ下のマトリックス構造中に含まれることが分かる。LFGにおいて、これは「太郎」と「合格する」に対応する文節が、「言う」に対応する文節を修飾していることを意味する。このようにして得られる文節間の係り先関係と、文節の文中での出現順序から、各文の各意味解析結果に対して図6に示した素性の値を決定することが可能である。
正誤情報付与部15は、構造・意味解析部13から得られる複数の解析結果候補のうち正しい解析結果と誤った解析結果を例えば人手で分別し、学習コーパス保持部11中に保持されている文の各解析結果に対して正誤のマークを付与することを可能とするユーザ・インターフェースなどで構成される。図8には、図6に対応する解析結果の各々に対して人手によって正誤マークを付与した例を示している。
機械学習部16は、素性情報生成部14から各文の各解析結果候補に対応する素性情報を受け取り、また、正誤情報付与部15から各文の各解析結果候補の正誤情報を受け取り、両者の情報を用いることによって、素性情報と解析結果の正誤の関係を例えばSupport Vector Machines(SVM)と呼ばれる統計処理手法に基づいて学習する。
ここで、SVMでは、学習サンプル毎に「複数の「素性−素性値ペア」」と「2つのクラスのいずれであるか」の情報を入力として受け取り、学習を行なう。SVMの詳細については、例えばFabrizio Sebaastiani著の論文“Machine Learning in Automated Text Categorization”(ACM Computing Surveys,Vol.34,No.1,pp.1−47(2002))及び当該論文中の引用文献を参照されたい。
本実施形態では、解析結果毎に、図6に例を示した「複数の「素性−素性値ペア」」と図8に示した「正誤のいずれであるか」の情報を入力として学習を行なう。学習サンプル数(学習コーパス保持部11中に保持されている文の個数)を十分大きくとることによって、文中の読点の分布と解析結果の正誤との間の対応関係を学習することが可能となる。
既に述べたように、SVMの他にも、例えば決定木(decision tree)と呼ばれる統計処理手法を用いても同様の効果を得ることが可能である。決定木の詳細については、Fabrizio Sebaastiani著の上記文献及びその中の引用文献を参照されたい。
解析対象文保持部17は、任意の自然言語文を計算機内部に保持している。解析対象文保持部17に保持された文は、学習コーパス保持部11に保持されている文と同様に、形態素解析部12により、文節に分割される。また、構文・意味解析部13によって、対応する構文・意味解析結果候補が出力されるとともに、素性情報生成部14によって各構文・意味解析結果候補についての素性−素性値ペアが生成される。
最終解選択部18は、解析対象文保持部17に保持されている文の構文・意味解析結果候補の各々に対応する素性−素性値ペアを、素性情報生成部14から受け取る。そして、この素性−素性値ペアと、機械学習部16による学習結果(素性−素性値ペアと正誤の対応関係を記述した機械学習データ)を入力として、各構文・意味解析結果候補が正誤2つのクラスのいずれに属するかを出力する。正しい解析結果として分類された意味解析結果候補を最終解とする。
なお、SVMの学習結果に基づく分類処理の詳細については、Fabrizio Sebaastiani著の上記論文及びその中の引用文献を参照されたい。
図9及び図10には、本実施形態に係る言語解析処理の手順をフローチャートの形式で示している。このうち、図9は学習データを生成するための機械学習処理時、図10には機械学習データに基づいて解析対象文の分析時の曖昧性を解消するための処理時の手順を、それぞれ示している。
機械学習時には、まず、学習コーパス保持部11から供給される複数のサンプル文に、形態素解析部12により形態素解析処理を施す(ステップS1)。さらに、これら各文に対し、構文・意味解析部13により構文・意味解析処理を施す(ステップS2)。
次いで、素性情報生成部14において、各文についての形態素解析並びに構文・意味解析の両解析結果に基づいて、各文の各構文・意味解析結果候補に関する素性情報をそれぞれ生成する(ステップS3)。
次いで、各文の各構文・意味解析結果候補に対し、例えば人手(あるいは機械的な手法)により、正誤情報を付与する(ステップS4)。そして、機械学習部16では、SVMやその他の統計処理手法などを用いて、各構文・意味解析結果候補についての素性情報とそれぞれの正誤の対応関係を機械学習する(ステップS5)。
続いて、分析時には、まず、解析対象文に対して、形態素解析部12により形態素解析処理を施す(ステップS11)。さらに、この解析対象文に対し、構文・意味解析部13により構文・意味解析処理を施す(ステップS12)。
このとき、構文・意味解析処理により構文・意味解析結果候補が複数得られたかどうかをチェックする(ステップS13)。単一の構文・意味解析結果候補のみが得られた場合は、これを最終解として出力する(ステップS14)。
一方、複数の構文・意味解析結果候補が得られた場合には(ステップS13)、素性情報生成部14において、当該解析対象文についての形態素解析並びに構文・意味解析の両解析結果に基づいて、各構文・意味解析結果候補に関する素性情報をそれぞれ生成する(ステップS15)。
次いで、機械学習データを用いることによって、各構文・意味解析結果候補についての正誤を判定する(ステップS16)。具体的には、解析対象文の構文・意味解析結果候補の各々に対応する素性−素性値ペアと、(素性−素性値ペアと正誤の対応関係を記述した)機械学習データを入力として、各構文・意味解析結果候補が正誤2つのクラスのいずれに属するかを判断する。
ここで、正しいと判断された構文・意味解析結果候補が存在する場合には(ステップS17)、正しいと判断された構文・意味解析結果候補を最終解として出力する(ステップS18)。
一方、正しいと判断された構文・意味解析結果候補が存在しない場合には(ステップS17)、すべての構文・意味解析結果候補を最終解として出力する(ステップS14)。
図9並びに図10に示した処理手順により、図6に示した素性情報及び図7に示した構文・意味解析結果の情報を基にした学習から、例えば「彼は、故障するはずだと、思いました。」という文が解釈Aであると同定することが可能となる。
既に述べた通り、学習サンプル数(学習コーパス保持部11中の文の個数)を十分大きくとり、これら読点情報を利用することにより、さまざまな文の意味解析結果の曖昧性を減少させることができる。
なお、図3に示した形態素解析結果のうち、読点の有無の情報を、図7中の対応するPREDに付与しておくことによっても、上述と同様に図6に示した素性情報を生成することが可能であり、本発明の効果を得ることができる。
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書中では、言語解析としてLFGに基づく意味解析を行なうものを例として挙げたが、他の意味解析技術であっても同等の効果が得られることは明らかである。また、本明細書では機械学習の手法としてSupport Vector Machines(SVM)を用いているが、他の機械学習手法であっても同等の効果が得られることは明らかである。さらに、文法記述に基づく構文解析による解析結果の曖昧性解消も同等の手法で実現することが可能である。
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
図1は、本発明の第1の側面に係る自然言語処理システムの機能構成を模式的に示した図である。 図2は、本発明の一実施形態に係る言語解析システムの機能構成を模式的に示した図である。 図3は、例文(2)を対象とした場合の、形態素解析部12による解析結果の例を示した図である。 図4は、例文(2)を対象とした場合の、解釈Aに対応する構文・意味解析部13による構文・意味解析結果をf−structureの形式で示した図である。 図5は、例文(2)を対象とした場合の、解釈Bに対応する構文・意味解析部13による構文・意味解析結果をf−structureの形式で示した図である。 図6は、文の素性情報項目の例と、例文(2)を入力とした構文・意味解析結果が図4の場合、例文(2)を入力とし構文・意味解析結果が図5の場合、例文(3)を入力とし意味解析結果が図4の場合、例文(3)を入力とし構文・意味解析結果が図5の場合のそれぞれについての素性値を示した図である。 図7は、例文(2)を対象とした場合の、解釈Aに対応する構文・意味解析部13による構文・意味解析結果をf−structureの形式で示した図である。 図8は、図6に対応する解析結果の各々に対して人手によって正誤マークを付与した例を示した図である。 図9は、本発明に係る言語解析処理の手順をフローチャートの形式で示した図である。 図10は、本発明に係る言語解析処理の手順をフローチャートの形式で示した図である。 図11は、「その画家は赤い帽子と女性の絵を描いていた。」を解析対象文とした場合に、LFGに基づく意味解析から得られる解析結果例を示した図である。
符号の説明
11…学習コーパス(corpus)保持部
12…形態素解析部
13…構文・意味解析部
14…素性情報生成部
15…正誤情報付与部
16…機械学習部
17…解析対象文保持部
18…最終解選択部

Claims (19)

  1. 読点情報を含んだまま自然言語文の言語解析を行なう第1の言語解析手段と、
    読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析手段と、
    前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段の解析結果候補の正誤の情報との間の対応関係を保持する機械学習手段と、
    前記機械学習手段の保持する対応関係に基づいて、前記第2の言語解析手段の解析結果候補から最終解を選択する最終解選択手段と、
    を具備することを特徴とする自然言語処理システム。
  2. 前記第1の言語解析手段は、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  3. 前記第2の言語解析手段は、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  4. 前記第2の言語解析手段は、所定の文法規則に基づいて構文・意味解析を行なう、
    ことを特徴とする請求項3に記載の自然言語処理システム。
  5. 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  6. 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、Support Vector Machine(SVM)に基づく統計処理手法により生成する、
    ことを特徴とする請求項5に記載の自然言語処理システム。
  7. 前記機械学習手段は、前記第1の言語解析手段による解析結果及び前記第2の言語解析手段による解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
    ことを特徴とする請求項5に記載の自然言語処理システム。
  8. 前記機械学習手段は、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  9. 前記第1の言語解析手段により得られる読点に関する解析結果を前記第2の言語解析手段により得られる解析結果候補に付与し、
    前記機械学習手段は、前記第2の言語解析手段により得られる解析結果候補から得られる素性情報と、前記第2の言語解析手段による解析結果候補の正誤の情報との間の対応関係を保持する、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  10. 読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
    前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
    前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
    前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
    を具備することを特徴とする自然言語処理方法。
  11. 前記第1の言語解析ステップでは、自然言語文を形態素毎に分節して品詞の認定などの形態素解析を行なう、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  12. 前記第2の言語解析ステップでは、自然言語文の句構造などの構造解析、又は、文中のそれぞれの語の語義や語と語の間の意味関係に基づいて文が伝える意味を表現する意味構造を求める意味解析を行なう、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  13. 前記第2の言語解析ステップでは、所定の文法規則に基づいて構文・意味解析を行なう、
    ことを特徴とする請求項12に記載の自然言語処理方法。
  14. 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、所定の統計処理手法により生成する、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  15. 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、Support Vector Machine(SVM)に基づく統計処理手法により生成する、
    ことを特徴とする請求項14に記載の自然言語処理方法。
  16. 前記機械学習ステップでは、前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補に関する正誤の情報との間の対応関係を、決定木に基づく統計処理手法により生成する、
    ことを特徴とする請求項14に記載の自然言語処理方法。
  17. 前記機械学習ステップでは、読点が後続する文節と、該文節の係り先の文節との間の位置関係あるいは統語上の関係を素性情報として用いる、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  18. 前記第1の言語解析ステップにおいて得られる読点に関する解析結果を前記第2の言語解析ステップにおいて得られる解析結果候補に付与し、
    前記機械学習ステップでは、前記第2の言語解析ステップにおいて得られる解析結果候補から得られる素性情報と、前記第2の言語解析ステップにおける解析結果候補の正誤の情報との間の対応関係を保持する、
    ことを特徴とする請求項10に記載の自然言語処理方法。
  19. 自然言語の言語解析処理をコンピュータ・システム上で実行するようにコンピュータ可読形式的術されたコンピュータ・プログラムであって、
    読点情報を含んだまま入力された自然言語文の言語解析を行なう第1の言語解析ステップと、
    前記第1の言語解析ステップと同じ自然言語文を対象として、読点情報を含めずに言語解析を行ない、複数の解析結果候補を出力する第2の言語解析ステップと、
    前記第1の言語解析ステップにおける解析結果及び前記第2の言語解析ステップにおける解析結果候補から得られる素性情報と、前記第2の言語解析ステップの解析結果候補についての正誤の情報との間の対応関係を保持する機械学習ステップと、
    前記機械学習ステップにより保持される対応関係に基づいて、前記第2の言語解析ステップによる解析結果候補から最終解を選択する最終解選択ステップと、
    を具備することを特徴とするコンピュータ・プログラム。
JP2003320738A 2003-09-12 2003-09-12 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP4033089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003320738A JP4033089B2 (ja) 2003-09-12 2003-09-12 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003320738A JP4033089B2 (ja) 2003-09-12 2003-09-12 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2005092279A true JP2005092279A (ja) 2005-04-07
JP4033089B2 JP4033089B2 (ja) 2008-01-16

Family

ID=34452605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003320738A Expired - Fee Related JP4033089B2 (ja) 2003-09-12 2003-09-12 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP4033089B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338457A (ja) * 2005-06-03 2006-12-14 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2010140263A (ja) * 2008-12-11 2010-06-24 Fuji Xerox Co Ltd 自然言語処理装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338457A (ja) * 2005-06-03 2006-12-14 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654776B2 (ja) * 2005-06-03 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2010140263A (ja) * 2008-12-11 2010-06-24 Fuji Xerox Co Ltd 自然言語処理装置及びプログラム

Also Published As

Publication number Publication date
JP4033089B2 (ja) 2008-01-16

Similar Documents

Publication Publication Date Title
JP5356197B2 (ja) 単語意味関係抽出装置
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
Vasyl et al. Application of sentence parsing for determining keywords in Ukrainian texts
WO2017163346A1 (ja) 文章解析システム及びプログラム
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
US20200143112A1 (en) Fault-tolerant information extraction
WO2008059111A2 (en) Natural language processing
Díez Platas et al. Medieval Spanish (12th–15th centuries) named entity recognition and attribute annotation system based on contextual information
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
López et al. Experiments on sentence boundary detection in user-generated web content
Jayasuriya et al. Learning a stochastic part of speech tagger for sinhala
Aziz et al. Urdu spell checker: A scarce resource language
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Ackermann et al. Model [nl] generation: natural language model extraction
Varshini et al. A recognizer and parser for basic sentences in telugu using cyk algorithm
Óladóttir et al. Developing a spell and grammar checker for Icelandic using an error corpus
Jolly et al. Anatomizing lexicon with natural language Tokenizer Toolkit 3
Nevzorova et al. Corpus management system: Semantic aspects of representation and processing of search queries
Angle et al. Kannada morpheme segmentation using machine learning
Ouersighni Robust rule-based approach in Arabic processing
Athira et al. Pronominal anaphora resolution using salience score for Malayalam

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees