JP6145011B2 - 文正規化システム、文正規化方法及び文正規化プログラム - Google Patents

文正規化システム、文正規化方法及び文正規化プログラム Download PDF

Info

Publication number
JP6145011B2
JP6145011B2 JP2013197319A JP2013197319A JP6145011B2 JP 6145011 B2 JP6145011 B2 JP 6145011B2 JP 2013197319 A JP2013197319 A JP 2013197319A JP 2013197319 A JP2013197319 A JP 2013197319A JP 6145011 B2 JP6145011 B2 JP 6145011B2
Authority
JP
Japan
Prior art keywords
sentence
word
content
normalization
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013197319A
Other languages
English (en)
Other versions
JP2015064671A (ja
Inventor
孝輔 辻野
孝輔 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013197319A priority Critical patent/JP6145011B2/ja
Publication of JP2015064671A publication Critical patent/JP2015064671A/ja
Application granted granted Critical
Publication of JP6145011B2 publication Critical patent/JP6145011B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、自然言語等で記述された文を正規化する文正規化システム、文正規化方法及び文正規化プログラムに関する。
従来から、自然言語で記述された文の意味を解釈して、解釈した意味に基づき分析や応答を行うシステムが知られている。例えば、特許文献1には、入力したテキストを単語列に分解した後、自然言語に対する構文解析処理を行って構文木を得て、更に構文木から意味情報を抽出して情報検索を行う方法が開示されている。
特許第4738523号公報
自然言語で記述された文からの意味情報の抽出は、文の意味に与える影響の薄い表層上の揺らぎを除去して文意と一対一対応する記号列への文の正規化を行うことに相当する。自然言語では、ほぼ同一の意味を書き示すのに多様な表現をとることができる。能動態や受動態、類義語、語尾表現等の多様な言い換えを考慮すると、同一の意味にとることのできる文の揺らぎのバリエーションは膨大である。実用的な自然言語処理システムにはこれら多くの文の揺らぎを頑健に受理し処理することが望まれる。そのため、前出の揺らぎを除去し文を正規化する技術は、情報検索や対話、翻訳等の自然言語を受理する多くの応用において非常に重要である。
特許文献1等に示される従来技術においては、この文正規化は構文解析処理を基礎として行われている。構文解析により主語、動詞、目的語といった文の構成要素を明確にして解析を行うことができ、文意の深い解析が可能である。
しかしながら、文が口語的で文法上の崩れがあったり、音声認識等において伝送手段に起因する誤りを含んだりする場合には、構文解析は必ずしも頑健に動作しない。
本発明は、上記の問題点に鑑みてなされたものであり、構文解析では頑健な正規化が困難な文に対しても頑健に正規化を行うことを可能とする文正規化システム、文正規化方法及び文正規化プログラムを提供することを目的とする。
上記の目的を達成するために、本発明に係る文正規化システムは、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、を備える。
本発明に係る文正規化システムでは、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報と機能情報とが抽出されて、それらが文の正規化された表現として出力される。即ち、本発明に係る文正規化システムでは、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明に係る文正規化システムによれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。
分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。
内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断することとしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。
出力手段は、内容情報を自立語が文に登場した順序に応じたものとし、機能情報を、当該機能情報を示す文字列に従って一定の基準でソートして出力することとしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。
形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなすこととしてもよい。また、予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなすこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。
ところで、本発明は、上記のように文正規化システムの発明として記述できる他に、以下のように文正規化方法及び文正規化プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る文正規化方法は、文正規化システムの動作方法である文正規化方法であって、文を入力する入力ステップと、入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、分離ステップにおいて文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出ステップと、分離ステップにおいて文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出ステップと、内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力ステップと、を含み、分離ステップにおいて、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする
また、本発明に係る文正規化プログラムは、コンピュータを、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、として機能させ、分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする
本発明では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明によれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。
本発明の実施形態に係る文正規化システムの機能構成を示す図である。 内容部と文末とへの文の分離例を示す図である。 単語の表記と識別子とを対応付けた対応表である。 表記と意味ラベルとを対応付けた対応表である。 入力文と当該入力文に対応する正規化記号列とを示す表である。 本発明の実施形態に係る文正規化システムのハードウェア構成を示す図である。 本発明の実施形態に係る文正規化システムで実行される処理である文正規化方法を示すフローチャートである。 本発明の実施形態に係る文正規化プログラムの構成を、記録媒体と共に示す図である。
以下、図面と共に本発明に係る文正規化システム、文正規化方法及び文正規化プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る文正規化システム10を示す。文正規化システム10は、文を入力して、入力した文を正規化するシステムである。文正規化システム10による正規化の結果は、文に基づき応答を行うシステムに用いられる。例えば、ユーザの発話の音声認識結果の文に基づいて機能を自動的に実行するシステムで用いられる。入力される文(テキスト)は、例えば、自然言語で記述された短文である。更に、入力される文は口語文であってもよい。但し、正規化対象の文は、必ずしも上記のものに限られず、任意の文を正規化対象とすることとしてもよい。
文の正規化は、一定のルールに基づいて、文の意味に与える影響の薄い表層上の揺らぎを除去して、文意と一対一対応する記号列等の予め設定された形式に変更することである。上述したように、例えば、口語文等の自然言語で記述された文は、同じ文意であっても様々な表現がある。即ち、文に表層上の揺らぎが存在する。正規化は、同一の文意の文を一律の表現(正規化した表現)にして、正規化の結果が用いられるシステムで文の示す意味を用いやすいようにするためのものである。具体的に、どのような形式に正規化するかについては後述する。
文正規化システム10は、具体的には、サーバ装置やPC(Personal Computer)等のコンピュータにより実現される。なお、文正規化システム10は、必ずしも1台のコンピュータによって実現されている必要はなく、互いに接続された複数台のコンピュータによるコンピュータシステムによって実現されてもよい。また、文正規化システム10は、必要な情報を入力するため、あるいは生成した情報を出力するために他の装置と接続されており、情報の送受信が可能となっていてもよい。
引き続いて、文正規化システム10の機能構成を説明する。図1に示すように文正規化システム10は、入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16とを備えて構成される。
入力部11は、正規化対象の文を入力する入力手段である。具体的には、入力部11は、外部の装置あるいはモジュールから文(テキスト情報)を受信することで文を入力する。あるいは、入力部11は、ユーザの文の入力を受け付けることで文を入力する。入力部11は、入力した文を形態素解析部12に出力する。
形態素解析部12は、入力部11から入力された文を単語列(形態素列)に分割すると共に分割した各単語の品詞を推定する形態素解析手段である。形態素解析部12は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。
一例として、入力文が「私のアイス食べたでしょう」であった場合、形態素解析部12による形態素解析結果である単語列及び当該単語の品詞は、「私:名詞」「の:助詞」「アイス:名詞」「食べる:動詞」「た:助動詞」「でしょ:助動詞」「う:助動詞」のようになる。なお、上記の記載は「文から分割した単語:推定した当該単語の品詞」である。単語列は、単語が文に登場(出現)した順番で並んだものである。単語分割の単位は、処理の本質には影響がなく、形態素解析の実装により異なってもよい。また、動詞等の活用語については、原型(終止形)への変換をおこなってもよい。この変換は、形態素解析処理に一般的に備えられる機能である。本実施形態においては、活用語は原型に変換されたものとして取り扱う。形態素解析部12は、文から分割した単語列及び推定した各単語の品詞を示す情報を分離部13に出力する。
分離部13は、形態素解析部12から入力された単語列を、形態素解析の結果により得られる単語境界と推定された各単語の品詞とに基づいて、当該文の内容を含む内容部と文末とに分離する分離手段である。具体的には、分離部13は、まず各単語の品詞に基づき、単語が自立語であるか付属語であるかの判断を行う。例えば、当該判断は一般的な文法に従って行う。即ち、分離部13は、予め設定した品詞である名詞、動詞、形容詞、形容動詞、副詞及び感動詞等の品詞の単語を自立語と判断する。また、分離部13は、自立語と判断されなかった単語を付属語と判断する。なお、副詞については、流儀により自立語に含めてもよいし、含めなくてもよい。
続いて、分離部13は、文の先頭から、最も後ろに位置する自立語までの区間の連続した単語列を内容部する。また、分離部13は、内容部の次の単語から文末尾までの連続した単語列を文末とする。結果として、文末は、文末尾から連続する付属語の区間ということになる。例外として、形態素解析部12から入力された単語列に含まれる自立語のうち、予め設定された単語である「いい」「よい」「こと」「ある」「ない」「できる」「よろしく」(「よろしい」)といった内容語としての意味の薄い自立語を付属語と同様にみなしてもよい。
また、予め設定された単語である、これらの自立語の一部又は全部を、当該予め設定された単語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて(依存して)当該対象単語を付属語とみなすか否かを判断してもよい。例えば、形容詞「いい」は、「〜していいですか」のように、直前に助詞「て」「で」がある場合には本来の語義である「良い・悪い」の意味を持たず許可を求める機能表現と解釈するのが自然だが、「それはいい」のように直前に助詞「て」「で」がない場合には「良い・悪い」の意味を持つと解釈するのが自然である。分離部13は、予め自立語を付属語とみなすための上記に従ったルールを記憶しておき、当該ルールに基づき自立語を付属語とみなすか否かの判断を行う。
なお、自立語を付属語とみなす判断は、文正規化システム10全体で行われることとしてもよい。例えば、一旦分離部13において自立語が付属語とみなすものされた場合には、以降の処理においても当該自立語は付属語として扱われる。あるいは、自立語及び付属語の別が用いられる機能部(例えば、分離部13及び内容語列抽出部14)の何れかにおいて当該判断が行われて、当該機能部における処理でのみ当該自立語は付属語として扱われることとしてもよい。
図2に内容部と文末とへの文の分離例を示す。図2に示すように、入力文が「私のアイス食べたでしょう」であった場合、文の先頭から、最も後ろに位置する自立語である「食べる:動詞」までの連続した単語列を内容部とする。また、最も後ろに位置する自立語の次の単語である「た:助動詞」から文末尾までの連続した単語列を文末とする。分離部13は、上記の分離によって内容部とされた単語列を内容語列抽出部14に、文末とされた単語列を意味ラベル列抽出部15に出力する。
内容語列抽出部14は、分離部13から入力された内容部に含まれる自立語から、入力文の内容を示す内容情報を抽出する内容情報抽出手段である。具体的には、内容語列抽出部14は、内容部から、入力文の内容を示す単語列である内容語列を内容情報として抽出する。内容語列抽出部14は、内容部に含まれる単語のうち自立語に当たる単語を全て抽出し、内容語列とする。内容語列は、抽出された単語が文に登場した順番で並んだものとしてもよい。
また、内容語列抽出部14は、内容語列に含まれる単語のうち、類義語又は同義語としてグループ化が可能な単語を、グループを一意に示す識別子に置き換えてもよい。例えば、「私」と「僕」との単語は何れも一人称単数を示す代名詞で同義であると考えてよいため、何れの単語が内容語列に含まれる場合も、<代名詞:一人称単数>という識別子に置き換えてもよい。この置き換えは、例えば、予め図3に示すような単語の表記と識別子とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。
また、内容語列抽出部14は、必須ではないが次に述べる方法で疑問文判定処理を行うこととしてもよい。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれるか否かを判断することで入力文が疑問文であるか否かを判定する。予め設定された疑問詞は、例えば、「何」「いつ」といった単語である。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれると判断した場合には、内容語列から疑問詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれないと判断した場合には、入力文が疑問文ではないと判定する。
また、内容語列抽出部14は、上記のように入力文が疑問文であると判定した場合に、当該疑問詞に基づき当該疑問文の種別を判断する。例えば、「何」であればWhat、「いつ」であればWhenというように疑問文が5W1H(Who(誰が)、What(何を)、When(いつ)、Where(どこで)、Why(なぜ)、How(どのように))の何れを聞いているのかの種別を判断する。疑問文の種別は、例えば、予め設定された疑問詞に対応付けられている。上記の判断は、例えば、予め図3に示すような疑問詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。
あるいは、内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であるか否かを判断することで入力文が疑問文であるか否かを判定する。疑問文に対応する名詞とは、例えば、「時間」「長さ」「理由」といった、5W1Hの何れかに相当する抽象名詞である。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であると判断した場合には、内容語列から当該名詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞ではないと判断した場合には、入力文が疑問文ではないと判定する。
また、内容語列抽出部14は、上記のように入力文が疑問文であると判断した場合に、当該末尾の単語に基づき当該疑問文の種別を判断する。疑問文の種別は、例えば、疑問文に対応する予め設定された名詞に対応付けられている。「時間」であれば「When」、「長さ」であれば「HowMuch」、「理由」であれば「Why」との疑問文の種別がそれぞれ対応付けられている。上記の判断は、例えば、予め疑問文に対応する予め設定された名詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた情報(例えば、図3に示す対応表)を内容語列抽出部14に記憶させておき、当該情報に基づいて行うことができる。
上記の判断の具体例を示す。抽出した内容語列が「ご飯」「何」というものであった場合、「何」は「What」の種別に相当する疑問詞であるので内容語列から取り除き、文を「What」の種別に相当する疑問文であると判断する。また、抽出した内容語列が「富士山」「高さ」というものであった場合、内容語列の末尾の単語である「高さ」は「HowMuch」に相当する抽象名詞であるので内容語列から取り除き、文を「HowMuch」の種別に相当する疑問文であると判断する。
内容語列抽出部14は、上記の処理の結果として、内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報を得る。内容語列抽出部14は、これらの情報を記号列結合部16に出力する。但し、文が疑問文であるか否かの判定、及び文が疑問文である場合には疑問文の種別の判断は必須ではなく、これらの判定及び判断結果の情報の出力は必須ではない。
意味ラベル列抽出部15は、分離部13から入力された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段である。文の機能表現を示す機能情報は、例えば、「依頼」「否定」「完了」「推量」等の文全体としてどのような意図を表すかを示すものである。本実施形態では、意味ラベル列抽出部15は、機能情報として以下に示すような意味ラベルの集合からなる意味ラベル列を抽出する。意味ラベル列抽出部15は、予め図4に示すような表記と意味ラベルとを対応付けた対応表を記憶しておき、当該対応表に基づいて意味ラベルの抽出を行う。意味ラベル列抽出部15は、文末に含まれる連続した単語列(1つの単語も含まれる)の表記と、記憶した対応表の表記との一致を判断し、それらが一致した場合には、対応する意味ラベルを意味ラベル列に加える。文末と図4の対応表の表記との照合は単純な文字列一致に基づいて行ってもよい。あるいは、単純な文字列一致ではなく、直前の単語やその活用形を考慮して意味ラベルの推定を行ってもよい。例えば、特開2011−145844号公報(述部機能表現正規化方法、その装置及びプログラム、特許文献2)及び特開2012−203584号公報(述部正規化装置、方法、及びプログラム、特許文献3)に示される方法で行われる。
例えば、図2に示す例文の場合であれば、「た」が「完了」、「でしょ」が「推量」の意味ラベルに対応するため、意味ラベル列抽出部15は、「完了」「推量」の2つの意味ラベルを意味ラベル列として抽出する。意味ラベル列抽出部15は、抽出した意味ラベル列を記号列結合部16に出力する。
記号列結合部16は、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列を連結して正規化記号列を生成し、正規化記号列に基づく文の正規化された表現を示す情報を出力する出力手段である。例えば、記号列結合部16は、入力文に基づき応答を行うシステムに当該情報を送信することとで当該出力を行う。また、それ以外の任意の出力先に当該情報を出力することとしてもよい。
記号列結合部16は、内容語列抽出部14から文が疑問文であるとの判定結果が入力された場合には、意味ラベル列にその旨を示す「疑問」を加える。また、記号列結合部16は、内容語列抽出部14から入力された疑問文の種別を示す情報も意味ラベル列に加える。正規化記号列の生成において、記号列結合部16は、内容語列を入力文に登場した順序で内容語が並んだ列として扱う。即ち、記号列結合部16は、内容情報を自立語が文に登場した順序に応じたものとする。あるいは、内容語を、内容語の文字列に従って一定の基準でソートしてもよい。この基準は、例えば、50音順又はアルファベット順である。正規化の手順の中でソートを行うことは、内容語列を入力文中の順序を無視して扱うことに相当する。
また、記号列結合部16は、意味ラベル列を、意味ラベルの文字列に従って一定の基準でソートしてもよい。この基準は、例えば、上記と同様の50音順又はアルファベット順である。また、疑問文判定結果を加えた結果、意味ラベル列に重複が生じる場合があるので、その重複は取り除くこととしてもよい。
以上の処理により、疑問文判定処理を内容語列抽出部14において行っていた場合は、入力文のいずれの位置に疑問詞があった場合も正規化記号列は同一になるとい効果が得られる。また、「会議はいつ」と「会議の時間」といったように、疑問詞を使った疑問文と使わない疑問文とが内容語列「会議」、意味ラベル列「疑問」、「When」という同一の正規化記号列に変換されることにより、同一の意味とみなすことができる。
図5に入力文と、記号列結合部16によって得られる、当該入力文に対応する正規化記号列とを示す。図5の表の正規化パターンの欄に示される正規化記号列の例では、Contentとの文字列に続く単語列が内容語列、Labelとの文字列に続く単語列が意味ラベル列をそれぞれ示している。なお、ここでの単語列には、単語が置き換えられた識別子(例えば、<代名詞:一人称単数>)も含まれる。
上記の通り、正規化記号列は、内容語列と意味ラベル列という2つの識別子配列(単語列)の集合である。記号列結合部16は、この集合を、図5の正規化パターンの欄に示すように一定のルールに従って識別子配列を文字列に展開することとしてもよい。この文字列を入力文から一意に定まる正規化パターン(文の正規化された表現)とみなすことができる。記号列結合部16は、上記の正規化パターンを出力する。なお、文の正規化された表現は、必ずしも図5に示すような正規化パターンである必要はなく、正規化記号列に基づく情報であれば任意の形式をとることができる。
複数の文から得られる正規化パターンが同一であれば、それらの文は同義であるとみなすことができる。例えば、図5において「私のアイス食べたでしょう」という文と「私アイス食べたい」という文とは意味ラベル列が異なり正規化パターンが完全一致しないので同義ではない。一方、「いつ会議ですか」という文と「会議は何時」という文とは正規化パターンが完全一致するので同義である。なお、上記の通り、意味ラベル列はソートされており、正規化パターン同志の比較は意味ラベルについては集合間の比較に相当する。以上の手順で示された複数の文の間の同義判定を利用し、例えばユーザによる文入力に対して頑健に応答を返す対話システム等の応用が可能である。以上が、文正規化システム10の機能構成である。
図6に本実施形態に係る文正規化システム10のハードウェア構成を示す。図6に示すように文正規化システム10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した文正規化システム10の機能が発揮される。以上が、本実施形態に係る文正規化システム10の構成である。
引き続いて、図7のフローチャートを用いて、本実施形態に係る文正規化システム10の動作方法であり、文正規化システム10で実行される処理である文正規化方法を説明する。本処理では、入力部11によって、正規化対象の文が入力される(S01、入力ステップ)。入力された正規化対象の文は、入力部11から形態素解析部12に出力される。続いて、形態素解析部12によって、入力部11から入力された文に対して形態素解析が行われ、当該文が単語列(形態素列)に分割されると共に分割された各単語の品詞が推定される(S02、形態素解析ステップ)。文から分割された単語列及び推定された各単語の品詞を示す情報が、形態素解析部12から分離部13に出力される。
続いて、分離部13によって、形態素解析部12から入力された単語列が、推定された各単語の品詞に基づいて内容部と文末とに分離される(S03、分離ステップ)。内容部とされた単語列は、分離部13から内容語列抽出部14に出力される。文末とされた単語列は、分離部13から意味ラベル列抽出部15に出力される。
続いて、内容語列抽出部14によって、分離部13から入力された内容部に含まれる自立語が、内容情報である内容語列として抽出される(S04、内容情報抽出ステップ)。この際、内容部に基づいて文が疑問文であるか否かの判定、及び疑問文の種別の判断が合わせて行われてもよい。上記により得られた内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報は、内容語列抽出部14から記号列結合部16に出力される。
一方で、意味ラベル列抽出部15によって、分離部13から入力された文末から、機能情報である意味ラベル列が抽出される(S05、機能情報抽出ステップ)。抽出された意味ラベル列は、意味ラベル列抽出部15から記号列結合部16に出力される。なお、S04及びS05の処理は、独立した処理であるため必ずしも上記の順番に行われる必要はなく、並行してあるいは上記とは逆の順番で行われてもよい。
続いて、記号列結合部16によって、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列が連結されて正規化記号列が生成される(S06、出力ステップ)。続いて、記号列結合部16によって、正規化記号列に基づく正規化パターン(文の正規化された表現)が、例えば、入力文に基づき応答を行うシステムに送信されることにより出力される(S07、出力ステップ)。以上が、本実施形態に係る文正規化システム10で実行される処理である文正規化方法である。
上述したように本実施形態では、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報である内容語列と機能情報である意味ラベル列とが抽出されて、それらに基づく正規化パターンが文の正規化された表現として出力される。即ち、本実施形態では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から単純で決定論的な操作に基づく正規化が行われる。即ち、構文解析の精度限界に起因する文正規化の誤りを避け、頑健に正規化が行われる。これにより、本発明に係る文正規化システムによれば、例えば、口語的な文等の構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。
また、上述したように内容部と文末との分離は、単語列のうち最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。
また、本実施形態のように内容語列の単語に基づいて疑問文判定及び疑問文の種別の判断を行うこととしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。
また、本実施形態のように内容語列についてはソートせず、意味ラベル列についてはソートして正規化を行うこととしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。但し、内容語列及び意味ラベル列のソートについては、必ずしも上記のようにする必要はない。想定される文や正規化が利用されるシステムに応じて、内容語列についてソートしたり、意味ラベル列についてソートしなかったりしてもよい。
また、上述したように特定の自立語を付属語とみなして正規化を行うこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。
引き続いて、上述した一連の文正規化システム10による処理をコンピュータに実行させるための文正規化プログラムを説明する。図8に示すように、文正規化プログラム30は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体20に形成されたプログラム格納領域21内に格納される。
文正規化プログラム30は、入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを備えて構成される。入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを実行させることにより実現される機能は、上述した文正規化システム10の入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16との機能とそれぞれ同様である。
なお、文正規化プログラム30は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、文正規化プログラム30の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の文正規化プログラム30の処理が行われる。
10…文正規化システム、11…入力部、12…形態素解析部、13…分離部、14…内容語列抽出部、15…意味ラベル列抽出部、16…記号列結合部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、20…記録媒体、21…プログラム格納領域、30…文正規化プログラム、31…入力モジュール、32…形態素解析モジュール、33…分離モジュール、34…内容語列抽出モジュール、35…意味ラベル列抽出モジュール、36…記号列結合モジュール。

Claims (7)

  1. 文を入力する入力手段と、
    前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
    前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
    前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
    前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
    前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
    を備え
    前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化システム。
  2. 前記内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで前記文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断する請求項1に記載の文正規化システム。
  3. 前記出力手段は、前記内容情報を前記自立語が前記文に登場した順序に応じたものとし、前記機能情報を、当該機能情報を示す文字列に従って一定の基準でソートして出力する請求項1又は2に記載の文正規化システム。
  4. 前記形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなす請求項1〜の何れか一項に記載の文正規化システム。
  5. 前記予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなす請求項に記載の文正規化システム。
  6. 文正規化システムの動作方法である文正規化方法であって、
    文を入力する入力ステップと、
    前記入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、
    前記形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、
    前記分離ステップにおいて前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出ステップと、
    前記分離ステップにおいて前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出ステップと、
    前記内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力ステップと、
    を含み、
    前記分離ステップにおいて、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化方法。
  7. コンピュータを、
    文を入力する入力手段と、
    前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
    前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
    前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
    前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
    前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
    として機能させ
    前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化プログラム。
JP2013197319A 2013-09-24 2013-09-24 文正規化システム、文正規化方法及び文正規化プログラム Active JP6145011B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013197319A JP6145011B2 (ja) 2013-09-24 2013-09-24 文正規化システム、文正規化方法及び文正規化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013197319A JP6145011B2 (ja) 2013-09-24 2013-09-24 文正規化システム、文正規化方法及び文正規化プログラム

Publications (2)

Publication Number Publication Date
JP2015064671A JP2015064671A (ja) 2015-04-09
JP6145011B2 true JP6145011B2 (ja) 2017-06-07

Family

ID=52832512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013197319A Active JP6145011B2 (ja) 2013-09-24 2013-09-24 文正規化システム、文正規化方法及び文正規化プログラム

Country Status (1)

Country Link
JP (1) JP6145011B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522932B (zh) * 2020-04-23 2023-05-16 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050203934A1 (en) * 2004-03-09 2005-09-15 Microsoft Corporation Compression of logs of language data
JP5366849B2 (ja) * 2010-02-04 2013-12-11 日本電信電話株式会社 機能表現補完装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2015064671A (ja) 2015-04-09

Similar Documents

Publication Publication Date Title
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
US9697477B2 (en) Non-factoid question-answering system and computer program
JP3906356B2 (ja) 構文解析方法及び装置
KR101726667B1 (ko) 어법컴파일방법, 어의해석방법, 디바이스, 컴퓨터 저장매체 및 장치
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
TWI536183B (zh) 語言歧義消除系統及方法
Graliński et al. PSI-toolkit: A natural language processing pipeline
US10740570B2 (en) Contextual analogy representation
WO2012079257A1 (zh) 机器翻译装置和方法
KR20090061844A (ko) 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법
Reshadat et al. A new open information extraction system using sentence difficulty estimation
Alosaimy et al. Tagging classical Arabic text using available morphological analysers and part of speech taggers
US20210064820A1 (en) Machine learning lexical discovery
US20210073466A1 (en) Semantic vector rule discovery
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Issam et al. Goud. ma: a news article dataset for summarization in Moroccan Darija
JP6145011B2 (ja) 文正規化システム、文正規化方法及び文正規化プログラム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Labidi New combined method to improve Arabic POS tagging
US10325025B2 (en) Contextual analogy representation
Ouersighni Robust rule-based approach in Arabic processing
Ondáš et al. Extracting sentence elements for the natural language understanding based on slovak national corpus
KR102581221B1 (ko) 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
Colton Text classification using Python

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170512

R150 Certificate of patent or registration of utility model

Ref document number: 6145011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250