JP6145011B2

JP6145011B2 - 文正規化システム、文正規化方法及び文正規化プログラム

Info

Publication number: JP6145011B2
Application number: JP2013197319A
Authority: JP
Inventors: 孝輔辻野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2017-06-07
Anticipated expiration: 2033-09-24
Also published as: JP2015064671A

Description

本発明は、自然言語等で記述された文を正規化する文正規化システム、文正規化方法及び文正規化プログラムに関する。

従来から、自然言語で記述された文の意味を解釈して、解釈した意味に基づき分析や応答を行うシステムが知られている。例えば、特許文献１には、入力したテキストを単語列に分解した後、自然言語に対する構文解析処理を行って構文木を得て、更に構文木から意味情報を抽出して情報検索を行う方法が開示されている。

特許第４７３８５２３号公報

自然言語で記述された文からの意味情報の抽出は、文の意味に与える影響の薄い表層上の揺らぎを除去して文意と一対一対応する記号列への文の正規化を行うことに相当する。自然言語では、ほぼ同一の意味を書き示すのに多様な表現をとることができる。能動態や受動態、類義語、語尾表現等の多様な言い換えを考慮すると、同一の意味にとることのできる文の揺らぎのバリエーションは膨大である。実用的な自然言語処理システムにはこれら多くの文の揺らぎを頑健に受理し処理することが望まれる。そのため、前出の揺らぎを除去し文を正規化する技術は、情報検索や対話、翻訳等の自然言語を受理する多くの応用において非常に重要である。

特許文献１等に示される従来技術においては、この文正規化は構文解析処理を基礎として行われている。構文解析により主語、動詞、目的語といった文の構成要素を明確にして解析を行うことができ、文意の深い解析が可能である。

しかしながら、文が口語的で文法上の崩れがあったり、音声認識等において伝送手段に起因する誤りを含んだりする場合には、構文解析は必ずしも頑健に動作しない。

本発明は、上記の問題点に鑑みてなされたものであり、構文解析では頑健な正規化が困難な文に対しても頑健に正規化を行うことを可能とする文正規化システム、文正規化方法及び文正規化プログラムを提供することを目的とする。

上記の目的を達成するために、本発明に係る文正規化システムは、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、を備える。

本発明に係る文正規化システムでは、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報と機能情報とが抽出されて、それらが文の正規化された表現として出力される。即ち、本発明に係る文正規化システムでは、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明に係る文正規化システムによれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。

分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。

内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断することとしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。

出力手段は、内容情報を自立語が文に登場した順序に応じたものとし、機能情報を、当該機能情報を示す文字列に従って一定の基準でソートして出力することとしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。

形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなすこととしてもよい。また、予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなすこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。

ところで、本発明は、上記のように文正規化システムの発明として記述できる他に、以下のように文正規化方法及び文正規化プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係る文正規化方法は、文正規化システムの動作方法である文正規化方法であって、文を入力する入力ステップと、入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、分離ステップにおいて文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出ステップと、分離ステップにおいて文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出ステップと、内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力ステップと、を含み、分離ステップにおいて、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする。

また、本発明に係る文正規化プログラムは、コンピュータを、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、として機能させ、分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする。

本発明では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明によれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。

本発明の実施形態に係る文正規化システムの機能構成を示す図である。内容部と文末とへの文の分離例を示す図である。単語の表記と識別子とを対応付けた対応表である。表記と意味ラベルとを対応付けた対応表である。入力文と当該入力文に対応する正規化記号列とを示す表である。本発明の実施形態に係る文正規化システムのハードウェア構成を示す図である。本発明の実施形態に係る文正規化システムで実行される処理である文正規化方法を示すフローチャートである。本発明の実施形態に係る文正規化プログラムの構成を、記録媒体と共に示す図である。

以下、図面と共に本発明に係る文正規化システム、文正規化方法及び文正規化プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る文正規化システム１０を示す。文正規化システム１０は、文を入力して、入力した文を正規化するシステムである。文正規化システム１０による正規化の結果は、文に基づき応答を行うシステムに用いられる。例えば、ユーザの発話の音声認識結果の文に基づいて機能を自動的に実行するシステムで用いられる。入力される文（テキスト）は、例えば、自然言語で記述された短文である。更に、入力される文は口語文であってもよい。但し、正規化対象の文は、必ずしも上記のものに限られず、任意の文を正規化対象とすることとしてもよい。

文の正規化は、一定のルールに基づいて、文の意味に与える影響の薄い表層上の揺らぎを除去して、文意と一対一対応する記号列等の予め設定された形式に変更することである。上述したように、例えば、口語文等の自然言語で記述された文は、同じ文意であっても様々な表現がある。即ち、文に表層上の揺らぎが存在する。正規化は、同一の文意の文を一律の表現（正規化した表現）にして、正規化の結果が用いられるシステムで文の示す意味を用いやすいようにするためのものである。具体的に、どのような形式に正規化するかについては後述する。

文正規化システム１０は、具体的には、サーバ装置やＰＣ（Personal Computer）等のコンピュータにより実現される。なお、文正規化システム１０は、必ずしも１台のコンピュータによって実現されている必要はなく、互いに接続された複数台のコンピュータによるコンピュータシステムによって実現されてもよい。また、文正規化システム１０は、必要な情報を入力するため、あるいは生成した情報を出力するために他の装置と接続されており、情報の送受信が可能となっていてもよい。

引き続いて、文正規化システム１０の機能構成を説明する。図１に示すように文正規化システム１０は、入力部１１と、形態素解析部１２と、分離部１３と、内容語列抽出部１４と、意味ラベル列抽出部１５と、記号列結合部１６とを備えて構成される。

入力部１１は、正規化対象の文を入力する入力手段である。具体的には、入力部１１は、外部の装置あるいはモジュールから文（テキスト情報）を受信することで文を入力する。あるいは、入力部１１は、ユーザの文の入力を受け付けることで文を入力する。入力部１１は、入力した文を形態素解析部１２に出力する。

形態素解析部１２は、入力部１１から入力された文を単語列（形態素列）に分割すると共に分割した各単語の品詞を推定する形態素解析手段である。形態素解析部１２は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。

一例として、入力文が「私のアイス食べたでしょう」であった場合、形態素解析部１２による形態素解析結果である単語列及び当該単語の品詞は、「私：名詞」「の：助詞」「アイス：名詞」「食べる：動詞」「た：助動詞」「でしょ：助動詞」「う：助動詞」のようになる。なお、上記の記載は「文から分割した単語：推定した当該単語の品詞」である。単語列は、単語が文に登場（出現）した順番で並んだものである。単語分割の単位は、処理の本質には影響がなく、形態素解析の実装により異なってもよい。また、動詞等の活用語については、原型（終止形）への変換をおこなってもよい。この変換は、形態素解析処理に一般的に備えられる機能である。本実施形態においては、活用語は原型に変換されたものとして取り扱う。形態素解析部１２は、文から分割した単語列及び推定した各単語の品詞を示す情報を分離部１３に出力する。

分離部１３は、形態素解析部１２から入力された単語列を、形態素解析の結果により得られる単語境界と推定された各単語の品詞とに基づいて、当該文の内容を含む内容部と文末とに分離する分離手段である。具体的には、分離部１３は、まず各単語の品詞に基づき、単語が自立語であるか付属語であるかの判断を行う。例えば、当該判断は一般的な文法に従って行う。即ち、分離部１３は、予め設定した品詞である名詞、動詞、形容詞、形容動詞、副詞及び感動詞等の品詞の単語を自立語と判断する。また、分離部１３は、自立語と判断されなかった単語を付属語と判断する。なお、副詞については、流儀により自立語に含めてもよいし、含めなくてもよい。

続いて、分離部１３は、文の先頭から、最も後ろに位置する自立語までの区間の連続した単語列を内容部する。また、分離部１３は、内容部の次の単語から文末尾までの連続した単語列を文末とする。結果として、文末は、文末尾から連続する付属語の区間ということになる。例外として、形態素解析部１２から入力された単語列に含まれる自立語のうち、予め設定された単語である「いい」「よい」「こと」「ある」「ない」「できる」「よろしく」（「よろしい」）といった内容語としての意味の薄い自立語を付属語と同様にみなしてもよい。

また、予め設定された単語である、これらの自立語の一部又は全部を、当該予め設定された単語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて（依存して）当該対象単語を付属語とみなすか否かを判断してもよい。例えば、形容詞「いい」は、「〜していいですか」のように、直前に助詞「て」「で」がある場合には本来の語義である「良い・悪い」の意味を持たず許可を求める機能表現と解釈するのが自然だが、「それはいい」のように直前に助詞「て」「で」がない場合には「良い・悪い」の意味を持つと解釈するのが自然である。分離部１３は、予め自立語を付属語とみなすための上記に従ったルールを記憶しておき、当該ルールに基づき自立語を付属語とみなすか否かの判断を行う。

なお、自立語を付属語とみなす判断は、文正規化システム１０全体で行われることとしてもよい。例えば、一旦分離部１３において自立語が付属語とみなすものされた場合には、以降の処理においても当該自立語は付属語として扱われる。あるいは、自立語及び付属語の別が用いられる機能部（例えば、分離部１３及び内容語列抽出部１４）の何れかにおいて当該判断が行われて、当該機能部における処理でのみ当該自立語は付属語として扱われることとしてもよい。

図２に内容部と文末とへの文の分離例を示す。図２に示すように、入力文が「私のアイス食べたでしょう」であった場合、文の先頭から、最も後ろに位置する自立語である「食べる：動詞」までの連続した単語列を内容部とする。また、最も後ろに位置する自立語の次の単語である「た：助動詞」から文末尾までの連続した単語列を文末とする。分離部１３は、上記の分離によって内容部とされた単語列を内容語列抽出部１４に、文末とされた単語列を意味ラベル列抽出部１５に出力する。

内容語列抽出部１４は、分離部１３から入力された内容部に含まれる自立語から、入力文の内容を示す内容情報を抽出する内容情報抽出手段である。具体的には、内容語列抽出部１４は、内容部から、入力文の内容を示す単語列である内容語列を内容情報として抽出する。内容語列抽出部１４は、内容部に含まれる単語のうち自立語に当たる単語を全て抽出し、内容語列とする。内容語列は、抽出された単語が文に登場した順番で並んだものとしてもよい。

また、内容語列抽出部１４は、内容語列に含まれる単語のうち、類義語又は同義語としてグループ化が可能な単語を、グループを一意に示す識別子に置き換えてもよい。例えば、「私」と「僕」との単語は何れも一人称単数を示す代名詞で同義であると考えてよいため、何れの単語が内容語列に含まれる場合も、＜代名詞：一人称単数＞という識別子に置き換えてもよい。この置き換えは、例えば、予め図３に示すような単語の表記と識別子とを対応付けた対応表を内容語列抽出部１４に記憶させておき、当該対応表に基づいて行うことができる。

また、内容語列抽出部１４は、必須ではないが次に述べる方法で疑問文判定処理を行うこととしてもよい。内容語列抽出部１４は、内容語列に予め設定された疑問詞が含まれるか否かを判断することで入力文が疑問文であるか否かを判定する。予め設定された疑問詞は、例えば、「何」「いつ」といった単語である。内容語列抽出部１４は、内容語列に予め設定された疑問詞が含まれると判断した場合には、内容語列から疑問詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部１４は、内容語列に予め設定された疑問詞が含まれないと判断した場合には、入力文が疑問文ではないと判定する。

また、内容語列抽出部１４は、上記のように入力文が疑問文であると判定した場合に、当該疑問詞に基づき当該疑問文の種別を判断する。例えば、「何」であればＷｈａｔ、「いつ」であればＷｈｅｎというように疑問文が５Ｗ１Ｈ（Ｗｈｏ（誰が）、Ｗｈａｔ（何を）、Ｗｈｅｎ（いつ）、Ｗｈｅｒｅ（どこで）、Ｗｈｙ（なぜ）、Ｈｏｗ（どのように））の何れを聞いているのかの種別を判断する。疑問文の種別は、例えば、予め設定された疑問詞に対応付けられている。上記の判断は、例えば、予め図３に示すような疑問詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた対応表を内容語列抽出部１４に記憶させておき、当該対応表に基づいて行うことができる。

あるいは、内容語列抽出部１４は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であるか否かを判断することで入力文が疑問文であるか否かを判定する。疑問文に対応する名詞とは、例えば、「時間」「長さ」「理由」といった、５Ｗ１Ｈの何れかに相当する抽象名詞である。内容語列抽出部１４は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であると判断した場合には、内容語列から当該名詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部１４は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞ではないと判断した場合には、入力文が疑問文ではないと判定する。

また、内容語列抽出部１４は、上記のように入力文が疑問文であると判断した場合に、当該末尾の単語に基づき当該疑問文の種別を判断する。疑問文の種別は、例えば、疑問文に対応する予め設定された名詞に対応付けられている。「時間」であれば「Ｗｈｅｎ」、「長さ」であれば「ＨｏｗＭｕｃｈ」、「理由」であれば「Ｗｈｙ」との疑問文の種別がそれぞれ対応付けられている。上記の判断は、例えば、予め疑問文に対応する予め設定された名詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた情報（例えば、図３に示す対応表）を内容語列抽出部１４に記憶させておき、当該情報に基づいて行うことができる。

上記の判断の具体例を示す。抽出した内容語列が「ご飯」「何」というものであった場合、「何」は「Ｗｈａｔ」の種別に相当する疑問詞であるので内容語列から取り除き、文を「Ｗｈａｔ」の種別に相当する疑問文であると判断する。また、抽出した内容語列が「富士山」「高さ」というものであった場合、内容語列の末尾の単語である「高さ」は「ＨｏｗＭｕｃｈ」に相当する抽象名詞であるので内容語列から取り除き、文を「ＨｏｗＭｕｃｈ」の種別に相当する疑問文であると判断する。

内容語列抽出部１４は、上記の処理の結果として、内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の３つの情報を得る。内容語列抽出部１４は、これらの情報を記号列結合部１６に出力する。但し、文が疑問文であるか否かの判定、及び文が疑問文である場合には疑問文の種別の判断は必須ではなく、これらの判定及び判断結果の情報の出力は必須ではない。

意味ラベル列抽出部１５は、分離部１３から入力された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段である。文の機能表現を示す機能情報は、例えば、「依頼」「否定」「完了」「推量」等の文全体としてどのような意図を表すかを示すものである。本実施形態では、意味ラベル列抽出部１５は、機能情報として以下に示すような意味ラベルの集合からなる意味ラベル列を抽出する。意味ラベル列抽出部１５は、予め図４に示すような表記と意味ラベルとを対応付けた対応表を記憶しておき、当該対応表に基づいて意味ラベルの抽出を行う。意味ラベル列抽出部１５は、文末に含まれる連続した単語列（１つの単語も含まれる）の表記と、記憶した対応表の表記との一致を判断し、それらが一致した場合には、対応する意味ラベルを意味ラベル列に加える。文末と図４の対応表の表記との照合は単純な文字列一致に基づいて行ってもよい。あるいは、単純な文字列一致ではなく、直前の単語やその活用形を考慮して意味ラベルの推定を行ってもよい。例えば、特開２０１１−１４５８４４号公報（述部機能表現正規化方法、その装置及びプログラム、特許文献２）及び特開２０１２−２０３５８４号公報（述部正規化装置、方法、及びプログラム、特許文献３）に示される方法で行われる。

例えば、図２に示す例文の場合であれば、「た」が「完了」、「でしょ」が「推量」の意味ラベルに対応するため、意味ラベル列抽出部１５は、「完了」「推量」の２つの意味ラベルを意味ラベル列として抽出する。意味ラベル列抽出部１５は、抽出した意味ラベル列を記号列結合部１６に出力する。

記号列結合部１６は、内容語列抽出部１４から入力された内容語列、及び意味ラベル列抽出部１５から入力された意味ラベル列を連結して正規化記号列を生成し、正規化記号列に基づく文の正規化された表現を示す情報を出力する出力手段である。例えば、記号列結合部１６は、入力文に基づき応答を行うシステムに当該情報を送信することとで当該出力を行う。また、それ以外の任意の出力先に当該情報を出力することとしてもよい。

記号列結合部１６は、内容語列抽出部１４から文が疑問文であるとの判定結果が入力された場合には、意味ラベル列にその旨を示す「疑問」を加える。また、記号列結合部１６は、内容語列抽出部１４から入力された疑問文の種別を示す情報も意味ラベル列に加える。正規化記号列の生成において、記号列結合部１６は、内容語列を入力文に登場した順序で内容語が並んだ列として扱う。即ち、記号列結合部１６は、内容情報を自立語が文に登場した順序に応じたものとする。あるいは、内容語を、内容語の文字列に従って一定の基準でソートしてもよい。この基準は、例えば、５０音順又はアルファベット順である。正規化の手順の中でソートを行うことは、内容語列を入力文中の順序を無視して扱うことに相当する。

また、記号列結合部１６は、意味ラベル列を、意味ラベルの文字列に従って一定の基準でソートしてもよい。この基準は、例えば、上記と同様の５０音順又はアルファベット順である。また、疑問文判定結果を加えた結果、意味ラベル列に重複が生じる場合があるので、その重複は取り除くこととしてもよい。

以上の処理により、疑問文判定処理を内容語列抽出部１４において行っていた場合は、入力文のいずれの位置に疑問詞があった場合も正規化記号列は同一になるとい効果が得られる。また、「会議はいつ」と「会議の時間」といったように、疑問詞を使った疑問文と使わない疑問文とが内容語列「会議」、意味ラベル列「疑問」、「Ｗｈｅｎ」という同一の正規化記号列に変換されることにより、同一の意味とみなすことができる。

図５に入力文と、記号列結合部１６によって得られる、当該入力文に対応する正規化記号列とを示す。図５の表の正規化パターンの欄に示される正規化記号列の例では、Ｃｏｎｔｅｎｔとの文字列に続く単語列が内容語列、Ｌａｂｅｌとの文字列に続く単語列が意味ラベル列をそれぞれ示している。なお、ここでの単語列には、単語が置き換えられた識別子（例えば、＜代名詞：一人称単数＞）も含まれる。

上記の通り、正規化記号列は、内容語列と意味ラベル列という２つの識別子配列（単語列）の集合である。記号列結合部１６は、この集合を、図５の正規化パターンの欄に示すように一定のルールに従って識別子配列を文字列に展開することとしてもよい。この文字列を入力文から一意に定まる正規化パターン（文の正規化された表現）とみなすことができる。記号列結合部１６は、上記の正規化パターンを出力する。なお、文の正規化された表現は、必ずしも図５に示すような正規化パターンである必要はなく、正規化記号列に基づく情報であれば任意の形式をとることができる。

複数の文から得られる正規化パターンが同一であれば、それらの文は同義であるとみなすことができる。例えば、図５において「私のアイス食べたでしょう」という文と「私アイス食べたい」という文とは意味ラベル列が異なり正規化パターンが完全一致しないので同義ではない。一方、「いつ会議ですか」という文と「会議は何時」という文とは正規化パターンが完全一致するので同義である。なお、上記の通り、意味ラベル列はソートされており、正規化パターン同志の比較は意味ラベルについては集合間の比較に相当する。以上の手順で示された複数の文の間の同義判定を利用し、例えばユーザによる文入力に対して頑健に応答を返す対話システム等の応用が可能である。以上が、文正規化システム１０の機能構成である。

図６に本実施形態に係る文正規化システム１０のハードウェア構成を示す。図６に示すように文正規化システム１０は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した文正規化システム１０の機能が発揮される。以上が、本実施形態に係る文正規化システム１０の構成である。

引き続いて、図７のフローチャートを用いて、本実施形態に係る文正規化システム１０の動作方法であり、文正規化システム１０で実行される処理である文正規化方法を説明する。本処理では、入力部１１によって、正規化対象の文が入力される（Ｓ０１、入力ステップ）。入力された正規化対象の文は、入力部１１から形態素解析部１２に出力される。続いて、形態素解析部１２によって、入力部１１から入力された文に対して形態素解析が行われ、当該文が単語列（形態素列）に分割されると共に分割された各単語の品詞が推定される（Ｓ０２、形態素解析ステップ）。文から分割された単語列及び推定された各単語の品詞を示す情報が、形態素解析部１２から分離部１３に出力される。

続いて、分離部１３によって、形態素解析部１２から入力された単語列が、推定された各単語の品詞に基づいて内容部と文末とに分離される（Ｓ０３、分離ステップ）。内容部とされた単語列は、分離部１３から内容語列抽出部１４に出力される。文末とされた単語列は、分離部１３から意味ラベル列抽出部１５に出力される。

続いて、内容語列抽出部１４によって、分離部１３から入力された内容部に含まれる自立語が、内容情報である内容語列として抽出される（Ｓ０４、内容情報抽出ステップ）。この際、内容部に基づいて文が疑問文であるか否かの判定、及び疑問文の種別の判断が合わせて行われてもよい。上記により得られた内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の３つの情報は、内容語列抽出部１４から記号列結合部１６に出力される。

一方で、意味ラベル列抽出部１５によって、分離部１３から入力された文末から、機能情報である意味ラベル列が抽出される（Ｓ０５、機能情報抽出ステップ）。抽出された意味ラベル列は、意味ラベル列抽出部１５から記号列結合部１６に出力される。なお、Ｓ０４及びＳ０５の処理は、独立した処理であるため必ずしも上記の順番に行われる必要はなく、並行してあるいは上記とは逆の順番で行われてもよい。

続いて、記号列結合部１６によって、内容語列抽出部１４から入力された内容語列、及び意味ラベル列抽出部１５から入力された意味ラベル列が連結されて正規化記号列が生成される（Ｓ０６、出力ステップ）。続いて、記号列結合部１６によって、正規化記号列に基づく正規化パターン（文の正規化された表現）が、例えば、入力文に基づき応答を行うシステムに送信されることにより出力される（Ｓ０７、出力ステップ）。以上が、本実施形態に係る文正規化システム１０で実行される処理である文正規化方法である。

上述したように本実施形態では、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報である内容語列と機能情報である意味ラベル列とが抽出されて、それらに基づく正規化パターンが文の正規化された表現として出力される。即ち、本実施形態では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から単純で決定論的な操作に基づく正規化が行われる。即ち、構文解析の精度限界に起因する文正規化の誤りを避け、頑健に正規化が行われる。これにより、本発明に係る文正規化システムによれば、例えば、口語的な文等の構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。

また、上述したように内容部と文末との分離は、単語列のうち最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。

また、本実施形態のように内容語列の単語に基づいて疑問文判定及び疑問文の種別の判断を行うこととしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。

また、本実施形態のように内容語列についてはソートせず、意味ラベル列についてはソートして正規化を行うこととしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。但し、内容語列及び意味ラベル列のソートについては、必ずしも上記のようにする必要はない。想定される文や正規化が利用されるシステムに応じて、内容語列についてソートしたり、意味ラベル列についてソートしなかったりしてもよい。

また、上述したように特定の自立語を付属語とみなして正規化を行うこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。

引き続いて、上述した一連の文正規化システム１０による処理をコンピュータに実行させるための文正規化プログラムを説明する。図８に示すように、文正規化プログラム３０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体２０に形成されたプログラム格納領域２１内に格納される。

文正規化プログラム３０は、入力モジュール３１と、形態素解析モジュール３２と、分離モジュール３３と、内容語列抽出モジュール３４と、意味ラベル列抽出モジュール３５と、記号列結合モジュール３６とを備えて構成される。入力モジュール３１と、形態素解析モジュール３２と、分離モジュール３３と、内容語列抽出モジュール３４と、意味ラベル列抽出モジュール３５と、記号列結合モジュール３６とを実行させることにより実現される機能は、上述した文正規化システム１０の入力部１１と、形態素解析部１２と、分離部１３と、内容語列抽出部１４と、意味ラベル列抽出部１５と、記号列結合部１６との機能とそれぞれ同様である。

なお、文正規化プログラム３０は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、文正規化プログラム３０の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の文正規化プログラム３０の処理が行われる。

１０…文正規化システム、１１…入力部、１２…形態素解析部、１３…分離部、１４…内容語列抽出部、１５…意味ラベル列抽出部、１６…記号列結合部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置、２０…記録媒体、２１…プログラム格納領域、３０…文正規化プログラム、３１…入力モジュール、３２…形態素解析モジュール、３３…分離モジュール、３４…内容語列抽出モジュール、３５…意味ラベル列抽出モジュール、３６…記号列結合モジュール。

Claims

文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
を備え、
前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化システム。
前記内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで前記文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断する請求項１に記載の文正規化システム。
前記出力手段は、前記内容情報を前記自立語が前記文に登場した順序に応じたものとし、前記機能情報を、当該機能情報を示す文字列に従って一定の基準でソートして出力する請求項１又は２に記載の文正規化システム。
前記形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなす請求項１〜３の何れか一項に記載の文正規化システム。
前記予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなす請求項４に記載の文正規化システム。
文正規化システムの動作方法である文正規化方法であって、
文を入力する入力ステップと、
前記入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、
前記形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、
前記分離ステップにおいて前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出ステップと、
前記分離ステップにおいて前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出ステップと、
前記内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力ステップと、
を含み、
前記分離ステップにおいて、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化方法。
コンピュータを、
文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
として機能させ、
前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化プログラム。