JP4036172B2 - 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム - Google Patents

自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP4036172B2
JP4036172B2 JP2003326399A JP2003326399A JP4036172B2 JP 4036172 B2 JP4036172 B2 JP 4036172B2 JP 2003326399 A JP2003326399 A JP 2003326399A JP 2003326399 A JP2003326399 A JP 2003326399A JP 4036172 B2 JP4036172 B2 JP 4036172B2
Authority
JP
Japan
Prior art keywords
morpheme
natural language
syntax
semantic analysis
parenthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003326399A
Other languages
English (en)
Other versions
JP2005092618A (ja
Inventor
智子 大熊
博 増市
宏樹 吉村
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003326399A priority Critical patent/JP4036172B2/ja
Publication of JP2005092618A publication Critical patent/JP2005092618A/ja
Application granted granted Critical
Publication of JP4036172B2 publication Critical patent/JP4036172B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、自然言語文の構文・意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、引用符を含む自然言語文についての構文・意味解析結果を出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
他方、情報技術の発展に伴い、コンピュータが人間社会に定着し、各種産業や日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。
例えば、日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
とりわけ、構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。
ところで、文中で、他からの引用であることを示す符号として引用符が用いられることがしばしばある。また、引用符は、引用箇所を示す以外に、会話文、強調や解釈、また「いわゆる」などの意を表すのに用いられる。和文では「」や『』、欧文では“ ”、‘ ’などが引用符に相当し、語句を囲む。
ここで、引用符の使われ方は各自まちまちで、あまり規則性がない。このため、引用符を含む文の構文解析や意味解析は一般に困難とされている。
引用符を含む文の取り扱いとして、引用符を扱うための対応表やルールを用いて解析を試みている。例えば、文に含まれるカッコ部のカッコ外での役割を解析することができる翻訳装置について提案がなされている(例えば、特許文献1を参照のこと)。この場合、入力文のカッコ部を検出しカッコ内部及びカッコ外部を別々に翻訳し、カッコ外部処理に関してカッコ部の役割をカッコの種類により複数の種類に区別する。
しかしながら、引用符の使い方には個人差があるため、引用符のためのルールを個別に用意したとしても、うまく解析できない構文が存在する。
また、引用符で囲まれた部分を抜き出し、別の処理系で処理をした後、他の解析結果と統合する、という手法を提案しているが、これも上記と同じ理由から、解析のカバー率を低下させる恐れがある。
引用符は文の曖昧性解消の手がかりとして重要な情報である。例えば、下記の例文(1)に対して構文・意味解析を行うと、図12と図13にそれぞれ示されるような2つの解析結果の候補が出力され、曖昧性が生じる。
(1)その画家は赤い塔の屋根を描いた。
これに対し、引用符を含む例文(2)に対しては図12の解釈を採用することができる。また、引用符を含む例文(3)に対しては図13の解釈を決定できる。
(2)その画家は「赤い塔」の屋根を描いた。
(3)その画家は赤い「塔の屋根」を描いた。
すなわち、引用符を無視してしまっては、このような曖昧性を解消することができない。
特開平7−200588号公報
本発明の目的は、自然言語文の構文・意味解析を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、引用符を含む自然言語文を好適に構文・意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、特定の品詞からなる複数の語が連なって構成される複合語が出現する自然言語文を解析する自然言語処理システムであって、
入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、
前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加手段と、
前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析手段と、
を具備することを特徴とする自然言語処理システムである。
一般に、形態素解析結果に基づいて、入力文の各形態素を見出し語として文法カテゴリを記述した構文・意味解析用の辞書が一時的に生成される。本発明では、この構文・意味解析辞書中で、引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加し、文中での引用符の出現場所の情報を表すようにしている。
そして、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択するようにする。
ここで、構文・意味解析結果として、文中の単語や句の構造を表した依存木が出力される。形態素間の距離は、この依存木上では、形態素間のリンク数として計数することができる。また、被修飾要素の数は、依存木上でノード数として計数することができる。
構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。
そして、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちノード数を参照し、ノード数のより少ない方の候補を選択する。
したがって、本発明に係る自然言語処理システムによれば、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。また、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。
また、本発明の第2の側面は、引用符を含んだ自然言語文を解析するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、
前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加ステップと、
前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システムと同様の作用効果を得ることができる。
本発明によれば、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
本発明によれば、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。したがって、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
本発明に係る自然言語処理システムは、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる。
ここで、構文・意味解析を行うための文法理論の代表的な例として、Lexical Functional Grammar(LFG)を挙げることができる。本発明は、例えばLFG文法理論に基づく統語・意味解析処理に組み込んで実装することができる。LFGでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。
まず、自然言語処理システムの全体像について簡単に説明する。図1には、LFGに基づく自然言語処理システム1の構成を模式的に示している。図示の自然言語処理システム1は、例えばパーソナル・コンピュータ(PC)などの一般的な計算機システム上で所定の自然言語処理アプリケーションを実行するという形態で実現される。
形態素解析部2は、日本語など特定の言語に関する形態素ルール2Aと形態素辞書2Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun}の{up}娘{Noun}は{up}英語{Noun}を{up}話す{Verb1}{tr}ます{jp}。{pt}」が出力される。
このような形態素解析結果は、次いで、統語・意味解析部3に入力される。統語・意味解析部3は、文法ルール3Aや結合価辞書3Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した“c−structure(constituent structure)”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“f−structure(functional structure)”を出力する。
図2及び図3には、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structure及びf−structureをそれぞれ示している。
c−structureは、文中の単語や句の構造を木構造形式で表したものであり、構文カテゴリによって定義される。例えば音素列を生成するための音韻学的な解釈を、c−structureを基に行なうことができる。一方、f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、c−structureの各節点に付随する素性の集合であり、図3に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
なお、LFGの詳細に関しては、例えばR.M.Kaplan及びJ.Bresnan共著の論文“Lexical−Functional Grammar: A Formal System for Grammatical Representation”(The MIT Press,Cambridge (1982). Reprinted in Formal Issues in Lexical−Functional Grammar,pp.29−130.CSLI publications,Stanford University(1995).)などに記述されている。
次いで、本発明に係る自然言語処理において、引用符が出現したときの処理について詳解する。
本発明では、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。したがって、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。
一般に、形態素解析結果に基づいて、構文・意味解析(LFG)用の辞書が一時的に生成される。この構文・意味解析用辞書は、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。本発明の一実施形態では、構文・意味解析辞書に、引用符に隣接する見出し語に引用符に関する情報を付加することで、文中での引用符の出現場所の情報を表すようにしている。引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加する。
そして、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択するようにする。
LFGの構文・意味解析結果(f−structure)から構文の統語意味構造を表す依存木を得ることができる。形態素間の距離は、この依存木上では、形態素間のリンク数として計数することができる。また、被修飾要素の数は、依存木上でノード数として計数することができる。
構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。
係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちノード数を参照し、ノード数のより少ない方の候補を選択する。
このようにして、構文・意味解析結果の候補を制限することにより、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。
図4には、例文(2)を構文・意味解析するための入力情報を示している。この入力情報は、構文・意味解析用辞書に相当し、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。同図に示すように、開き括弧の右側の形態素「赤い」には、開き括弧に続く形態素であることを示す属性OPEN−P=+を与えておく。また、閉じ括弧の左側の形態素「塔」には、閉じ括弧が続く形態素であることを示す属性CLOSE−P=+を与えておく。
図5並びに図6には、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果を依存木の形式で示している。ここでは、各図に示すように2個の候補が出力されたとする。
構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。すなわち、図5並びに図6に示す各依存木上で、属性OPEN−P=+とCLOSE−P=+の間の距離lを計算する。図5における距離はリンク数が1なのでl=1、図6における距離はリンク数が2なので、l=2になる。したがって、図5に示す候補が解析結果として採用される。
一方、複数の候補について係り受け関係の距離が同等な場合には、さらに、開き括弧に続く形態素についての被修飾要素の数、すなわち属性OPEN−Pを持つノードにぶらさがるノードの数で判断する。
図7には、例文(3)を構文・意味解析するための入力情報を示している。この入力情報は、構文・意味解析用辞書に相当し、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。同図に示すように、開き括弧の右側の形態素「塔」には、開き括弧に続く形態素であることを示す属性OPEN−P=+を与えておく。また、閉じ括弧の左側の形態素「屋根」には、閉じ括弧が続く形態素であることを示す属性CLOSE−P=+を与えておく。
図8並びに図9には、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析結果を行った結果を依存木の形式で示している。ここでは、各図に示すように2個の候補が出力されたとする。
この場合も構文・意味解析結果が複数存在するので、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。すなわち、図5並びに図6に示す各依存木上で、属性OPEN−P=+とCLOSE−P=+の間の距離を計算する。図8における距離はリンク数が1なのでl=1、図9における距離はリンク数が1なので、l=1になる。したがって、図8と図9の距離は等しいので、この時点で候補を絞ることはできない。
このように係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちOPEN−Pを持つノードにぶらさがるノードの数を計数し、各候補で比較し、ノード数のより少ない方の候補を選択する。図8において、「塔」にぶらさがるノードの数は1である。これに対し、図8において「塔」にぶらさがるノードの数は0である。したがって、図9に示す候補が解析結果として採用される。
このように、本発明によれば、引用符の位置情報を形態素に属性として持たせることによって、文法ルールに影響を与えることなく構文意味解析ができる。また、その位置情報を用いて、曖昧性を解消することができる。
図10には、形態素解析結果に基づいて構文・意味解析用辞書に引用符の制約を付与するための処理手順をフローチャートの形式で示している。
まず、元の日本語原文を入力するとともに、別途行なわれる形態素解析処理から得られる形態素解析結果を取得する(ステップS1)。形態素解析では、入力文を意味的最小単位である形態素に分節して品詞の認定が行われる。
次いで、変数iに1を代入し(ステップS2)、入力文中から、i番目にエントリされている形態素を取り出す。そして、iが入力文に含まれる形態素数に到達するまでの間、ループ内では、入力文中で開き括弧に続く形態素並びに閉じ括弧が続く形態素を探索するための処理が行われる。
ここで、i番目の形態素が開き括弧である場合には(ステップS3)、構文・意味解析用辞書で(i+1)番目の形態素に該当するエントリに、開き括弧に続く形態素であることを示す制約OPEN_P=+1を付与する(ステップS4)。
一方、i番目の形態素が閉じ括弧である場合には(ステップS7)、構文・意味解析用辞書で(i−1)番目の形態素に該当するエントリに、閉じ括弧が続く形態素であることを示す制約CLOSE_P=+1を付与する(ステップS8)。
次いで、処理済みのi番目の形態素を削除するとともに、iを1だけ増分して、入力文中の次の形態素を取り出して、上記と同様の処理を繰り返し実行する。
また、図11には、引用符の制約に関する情報が付与された構文・意味解析用辞書を用いて、複数の構文・意味解析結果の候補から最適な候補を選択するための処理手順をフローチャートの形式で示している。
形態素解析結果を基に入力文の構文・意味解析を行った結果(ステップS10)、複数の候補が存在する場合には(ステップS11)、まず、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を求め、距離の比較を行う(ステップS12)。形態素間の距離は、構文・意味解析により得られる依存木上で、形態素間のリンク数として計数することができる。
開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。ここで、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には(ステップS13)、さらに、同じく最小距離となる各候補について開き括弧に続く形態素についての被修飾要素の数を求め、当該要素数を比較する(ステップS14)。被修飾要素の数は、依存木上でノード数として計数することができる。そして、ノード数のより少ない方の候補を選択する。
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本実施形態ではLFG文法理論に基づいて説明したが、勿論、他の文法ルールを備えた解析システムにおいても本発明を同様に適用することができる。
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
図1は、LFGに基づく自然言語処理システム1の構成を模式的に示した図である。 図2は、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structureを示した図である。 図3は、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるf−structureを示した図である。 図4は、例文(2)を構文・意味解析するための入力情報を示した図である。 図5は、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。 図6は、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。 図7は、例文(3)を構文・意味解析するための入力情報を示した図である。 図8は、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。 図9は、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。 図10は、形態素解析結果に基づいて構文・意味解析用辞書に引用符の制約を付与するための処理手順を示したフローチャートである。 図11は、引用符の制約に関する情報が付与された構文・意味解析用辞書を用いて、複数の構文・意味解析結果の候補から最適な候補を選択するための処理手順を示したフローチャートである。 図12は、例文(1)についての構文・意味解析結果の例を示した図である。 図13は、例文(1)についての構文・意味解析結果の他の例を示した図である。
符号の説明
1…自然言語処理システム
2…形態素解析部
2A…形態素ルール,2B…形態素辞書
3…統語・意味解析部
3A…文法ルール,3B…結合価辞書

Claims (9)

  1. 引用符を含んだ自然言語文を解析する自然言語処理システムであって、
    入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、
    前記形態素解析結果に基づいて、引用符に係る形態素を検出し、入力文の各形態素を見出し語として文法カテゴリが記述されている構文・意味解析用辞書中において、開き括弧に続く形態素及び閉じ括弧が続く形態素に対してそれぞれ開き括弧並びに閉じ括弧に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加手段と、
    前記引用符情報を利用して入力された自然言語文の構文・意味解析を行い、構文・意味解析結果の候補が複数ある場合には、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を比較して距離のより少ない方を最適な候補として選択し、又は、各候補について開き括弧に続く形態素についての被修飾要素の数のより少ない方を最適な候補として選択する構文・意味解析手段と、
    を具備することを特徴とする自然言語処理システム。
  2. 前記構文・意味解析手段は、文中の単語や句の構造を表した依存木上で、形態素間の係り受け関係の距離として形態素間のリンク数を計数する、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  3. 前記構文・意味解析手段は、文中の単語や句の構造を表した依存木上で、形態素についての被修飾要素の数としてノード数を計数する、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  4. 前記構文・意味解析手段は、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに各候補について開き括弧に続く形態素についての被修飾要素の数を比較し、該要素数のより少ない方の候補を選択する、
    ことを特徴とする請求項1に記載の自然言語処理システム。
  5. コンピュータを用いて構築される自然言語処理システム上において、の引用符を含んだ自然言語文を解析する自然言語処理方法であって、
    入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、
    前記コンピュータが備える引用符情報付加手段が、前記形態素解析結果に基づいて、引用符に係る形態素を検出し、入力文の各形態素を見出し語として文法カテゴリが記述されている構文・意味解析用辞書中において、開き括弧に続く形態素及び閉じ括弧が続く形態素に対してそれぞれ開き括弧並びに閉じ括弧に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加ステップと、
    前記コンピュータが備える構文・意味解析手段が、前記引用符情報を利用して入力された自然言語文の構文・意味解析を行い、構文・意味解析結果の候補が複数ある場合には、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を比較して距離のより少ない方を最適な候補として選択し、又は、各候補について開き括弧に続く形態素についての被修飾要素の数のより少ない方を最適な候補として選択する構文・意味解析ステップと、
    を具備することを特徴とする自然言語処理方法。
  6. 前記構文・意味解析ステップでは、文中の単語や句の構造を表した依存木上で、形態素間の係り受け関係の距離として形態素間のリンク数を計数する、
    ことを特徴とする請求項5に記載の自然言語処理方法。
  7. 前記構文・意味解析ステップでは、文中の単語や句の構造を表した依存木上で、形態素についての被修飾要素の数としてノード数を計数する、
    ことを特徴とする請求項5に記載の自然言語処理方法。
  8. 前記構文・意味解析ステップでは、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに各候補について開き括弧に続く形態素についての被修飾要素の数を比較し、該要素数のより少ない方の候補を選択する、
    ことを特徴とする請求項5に記載の自然言語処理方法。
  9. 引用符を含んだ自然言語文を解析するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
    入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、
    前記形態素解析結果に基づいて、引用符に係る形態素を検出し、入力文の各形態素を見出し語として文法カテゴリが記述されている構文・意味解析用辞書中において、開き括弧に続く形態素及び閉じ括弧が続く形態素に対してそれぞれ開き括弧並びに閉じ括弧に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加手段と、
    前記引用符情報を利用して入力された自然言語文の構文・意味解析を行い、構文・意味解析結果の候補が複数ある場合には、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を比較して距離のより少ない方を最適な候補として選択し、又は、各候補について開き括弧に続く形態素についての被修飾要素の数のより少ない方を最適な候補として選択する構文・意味解析手段と、
    として機能させるためのコンピュータ・プログラム
JP2003326399A 2003-09-18 2003-09-18 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP4036172B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003326399A JP4036172B2 (ja) 2003-09-18 2003-09-18 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003326399A JP4036172B2 (ja) 2003-09-18 2003-09-18 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2005092618A JP2005092618A (ja) 2005-04-07
JP4036172B2 true JP4036172B2 (ja) 2008-01-23

Family

ID=34456608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003326399A Expired - Fee Related JP4036172B2 (ja) 2003-09-18 2003-09-18 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP4036172B2 (ja)

Also Published As

Publication number Publication date
JP2005092618A (ja) 2005-04-07

Similar Documents

Publication Publication Date Title
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US6356865B1 (en) Method and apparatus for performing spoken language translation
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033011B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2005284723A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4036172B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2000305930A (ja) 言語変換規則作成装置、言語変換装置及びプログラム記録媒体
Jolly et al. Anatomizing lexicon with natural language Tokenizer Toolkit 3
JP4039282B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033012B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4114580B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033088B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3903820B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972699B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Patil et al. A review on implementation of Sandhi Viccheda for Sanskrit words
JP2005092616A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972698B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Huiskens et al. Developing a tool for the description of language acquisition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071022

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131109

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees