JP4084816B2 - 依存構造情報処理装置、そのプログラム及び記録媒体 - Google Patents
依存構造情報処理装置、そのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4084816B2 JP4084816B2 JP2005269419A JP2005269419A JP4084816B2 JP 4084816 B2 JP4084816 B2 JP 4084816B2 JP 2005269419 A JP2005269419 A JP 2005269419A JP 2005269419 A JP2005269419 A JP 2005269419A JP 4084816 B2 JP4084816 B2 JP 4084816B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- dependency
- dependency structure
- learning data
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
さて、こうした依存構造を、解析する技術や、また文字認識のように依存構造が何を表しているかを判定する認識技術は、対象とするものの構造を構成する各依存関係のパターンを統計的に学習することに基づいている(例えば、非特許文献1参照)。そして、ある解析対象となるデータが与えられると、各要素の関係性が求められ、全体としてどういった構造であるとみなすのが尤もらしいかを評価することにより、解析結果が得られる。
工藤拓、松本裕治、"相対的な係りやすさを考慮した日本語係り受け解析モデル、" IPSJ SIG Technical Report 2004-NL-162、 vol.2004、 No.73、 pp.205-212、 2004.
従来の技法は、処理対象情報の全体が得られていることを前提としたものである。しかしながら、依存関係を構成する一部の要素情報が不明もしくは未入力であるため、処理対象情報の一部しか得られない場合もある。例えば、カメラに映った文字が何という文字であるのかを判定する文字認識を例にとれば、カメラに文字全体が映っていない場合、すなわち、カメラに映った文字の一部が欠けている場合もある。このような場合、従来の技法では、データの欠落があるにもかかわらず、それがないものと仮定して全体の依存関係を評価するしかなかった。これは解析・認識エラーの原因となる。
ここで、置換学習データは、要素情報の一部が置換情報に置換された情報である。この置換情報を、不明である要素情報としてみると、この置換学習データは、要素情報の一部が不明である情報の依存構造を学習するためのデータに相当する。そして、この置換学習データを用いた学習によって得られる依存構造は、データの全体が得られていない情報の依存構造を示すものとなる。その結果、データの全体が得られていない処理対象情報に対し、データの依存構造に基づく処理を適切に行うことが可能となる。なお「学習」とは、情報工学における学習を意味し、所定の参照データを用いた演算処理によって何らかの規則性を示すデータを生成する処理をいう。
上述のように、本発明の依存構造情報は、データの全体が得られていない情報の依存構造にも対応するものである。これにより、要素情報の一部が不明である処理対象情報に対しても、データの依存構造に基づく処理を適切に行うことが可能となる。
また、本発明において好ましくは、処理対象情報は、単語が逐次入力され、一部の単語が未入力のため不明である文であり、依存構造解析部は、新たに単語が入力されるたびに、当該単語を追加した文の依存構造を、依存構造情報を用いて解析し、その解析結果によって解析結果情報を更新する。
また、このように逐次入力される処理対象情報としては、例えば、逐次入力される音声の認識結果を例示できる。本発明を逐次入力される音声の認識結果に適用することにより、音声認識結果の依存構造解析を高速に実現できる。
〔原理〕
本発明の核のひとつとなる要素に、未入手の要素情報(以下「未入手情報」という)と、入手済みの要素情報(以下「入手情報」という)との依存関係表現がある。以下、これについて説明する。
情報間に依存関係が存在するが、その一部の情報が未入手である場合を想定する。この場合、既に入手されている情報と依存関係にあるはずの情報が、未入手のため存在しないといった状況が生まれる。本発明では、このような場合にも依存関係(未入手情報と入手情報との依存関係)を表現し、依存構造の学習と解析及び認識を可能にする。
統計的処理に基づく手法では、依存関係の種類や有無が学習され、それを表現したモデルが作られる。
本発明では、まず、全体の情報が得られているときの依存構造が得られているとする(図1(a)(b))。ここでは、依存構造を依存関係の集合と定義し、依存関係は各情報間の関係性の種類や有無を表すものとする。また、図1では、各ノード(ノード1a,1b,3a〜3c等)が要素情報を表し、ノード間のリンク(ノード2等)が要素情報間の依存関係を示している。なお、図1(a)(b)に示す依存構造は、従来技術において学習に用いられる(全ての要素情報が明瞭な)学習データそのものである。
1.未入手情報がなく全体が観測されている依存構造を持つ学習データ(従来手法で用いられるデータそのもの)を用意する。
2.任意の(もしくは何らかのルールに則り)幾つかの要素情報を消去する。
3.消去した要素情報を置換情報に置き換える。なお、前述のように、置換情報としては、本来要素情報があるはずだということを示すに過ぎない情報や、本来存在する要素情報の属性を示す情報等を例示できる。
4.置換情報とその他の情報との依存関係を設定し(例えば、置換された要素情報とその他の情報との間にあった依存関係を、そのまま置換情報とその他の情報との間の依存関係として設定し)、このような依存構造を持つ情報群を置換学習データとする。なお、学習データと置換学習データとを区別することなく取り扱ってもよい。
この他、予め一部の要素情報が欠けたデータを用意し、その依存構造を人手で設定することも可能である。しかし、不足している情報をみてからでなければ、正確に依存関係を与えることができない場合もある。上記ように要素情報が全て知られている依存構造から一部の要素情報が知られていない情報の依存構造を生成する手法であれば、この問題を回避することができる。さらに、本来不足分の情報を観測しなければ関係がわからないものに対しても、学習データに登場するそのような事例の割合を反映した依存関係のモデルを学習することができる。
次に、解析処理(係り受け解析等)や認識処理(文字認識等)に本発明を適用した場合の概要について説明する。
[学習手法]
解析処理の場合、まず、依存構造を表現した学習データを集める。次に、集めた学習データを構成する要素情報の一部を置換情報に置換し、置換された要素情報と同じ依存関係を当該置換情報に設定する。このように学習データの一部の要素情報を置換情報に置換したものを置換学習データと呼ぶ。学習データと置換学習データとが用意できたならば、次にそれらのデータから依存関係をモデル化する。この方法にはさまざまあるが、大まかには次のようなステップを踏む。
2.特徴量/素性とそれが与えられたときの依存関係の種類や有無が学習データ中のより多くの事例で成り立つようにモデルを構成する。モデル構成には様々な方法がある。例えば、最尤推定法や最大エントロピー法といった確率モデルに基づく手法、SVMやブーステイングといった機械学習に基づく手法、そのほか、ニューラルネットワークなどが挙げられる。なお、モデルを構成するとは、各モデル構成手法におけるパラメータを設定することであり、その設定方法は、各手法で理論的に保証された手法が確立されている。
以上のように構成されたモデルを用いて処理対象情報の依存構造を解析する。この解析は、大まかには次のようなステップを踏む。
1.解析対象となる処理対象情報が入力される。この処理対象情報の一部の要素情報が欠如していることもありうる。
2.解析対象となる処理対象情報から特徴量/素性を抽出する。
3.学習によりパラメータ設定されたモデルと得られた特徴量/素性から各依存関係の妥当性を評価し、全体として尤もらしい構造を依存構造の解析結果とする。
[学習手法]
認識処理の場合、まず、依存構造を表現した学習データを集める。ここで、認識処理における依存構造には、構造の依存関係だけではなく、その構造が表しているもの(正解値)との依存関係をも含む。これは文字認識で言うならば、「あ」という映像を形作る画素の位置関係等の依存関係だけではなく、この映像に映っているのは「あ」、この画像に映っているものは「い」というような対応を示す依存関係をも含むという意味である。
1.学習データ及び置換学習データのそれぞれについて、特徴量/素性を抽出する。
2.同一の正解値を持つ依存構造に関して、特徴量の次元でのまとまりを表すようなモデルを構成する。正解値の数だけモデルが生成される。モデル構成には、解析処理の場合と同様、様々な手法を適用できる。
[認識手法]
1.認識対象となる処理対象情報が入力される。この処理対象情報の一部の要素情報が欠如していることもありうる。
3.得られた特徴量/素性について、各正解値のモデルとの類似度を評価し、最もマッチしたモデルの正解値を認識結果とする。
〔第1の実施の形態〕
次に、本発明における第1の実施の形態について説明する。
本形態は、言語の係り受け解析処理に本発明を適用した形態である。係り受け解析は、単語列(もしくは文節列)が与えられた時に、それらの修飾関係を解析するものである。単語wが単語vを修飾しているとき、wがvに係るといい、w→vと表記する。このときw,vは係り受け関係にあるといい、特にvをwの主辞と呼ぶ。各単語(もしくは文節)が各要素情報にあたり、要素情報間の係り受け関係の有無が依存関係の有無にあたる。また、係り受け解析は、文全体に渡る係り受け構造を解析するものである。従って、本形態で解析対象となるのは文であり、入力は単語境界が記された文である。
<構成>
まず、本形態の処理を実行する依存構造情報処理装置10の構成を説明する。
[ハードウェア構成]
図2は、本形態における依存構造情報処理装置10のハードウェア構成を例示したブロック図である。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、依存構造情報処理装置10としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
CPU11(図2)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11bは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11aに順次実行させ、その演算結果をレジスタ11cに格納していく。
図3に例示するように、本形態の依存構造情報処理装置10は、学習データ記憶部10a、置換学習データ生成部10b、置換学習データ記憶部10c、依存構造学習部10d、依存構造情報格納部10e、入力部10f、処理対象情報格納部10g、依存構造解析部10h、一時メモリ10i及び制御部10jを有している。
次に、本形態の依存構造情報処理装置10が実行する処理を説明する。
[学習処理]
図4(a)は、本形態の依存構造情報処理装置10の学習処理を説明するためのフローチャートである。以下、この図を用いて本形態の学習処理を説明する。
まず、前処理として、学習データ記憶部10a(図3)に従来の係り受け解析処理で用いたのと同様な学習データを格納しておく。
この例の学習データ100は、所定の依存関係を持つ複数の明瞭な単語(「要素情報」に相当)からなる。具体的には、図5の例の学習データ100は、「私」「は」「彼」「が」「いる」「と」「思っ」「た」という単語と、それらの係り受け関係とを関連付けた情報である。すなわち、この例の学習データ100は、それぞれ「w1」「w2」「w3」「w4」「w5」「w6」「w7」「w8」に対応付けられた「私」「は」「彼」「が」「いる」「と」「思っ」「た」という単語と、その係り先である主辞「w2」「w8」「w4」「w6」「w6」「w8」「w8」「−」とを関連付けたテーブルである。例えば、「私」は「は」に係るため、単語「w1」「私」に、主辞「w2(「は」に対応)」が関連付けられている。また、主辞が「−」とは係り先がないことを意味している。
置換学習データの例示:
図6及び図7は、本形態の置換学習データ110,120を例示した図である。
ここで、図6は、置換された単語の属性を示さない置換情報を用いて生成された置換学習データ110の例示である。すなわち、置換学習データ110は、図5の学習データ100の単語「w3/彼」を置換情報「w31/W」111に置換し、単語「w5/いる」を置換情報「w51/W」112に置換したものであるが、これらの置換情報の「W」は、置換された単語(「w3/彼」や「w5/いる」)の属性を示すものではない。なお、置換学習データ110の置換情報「w31/W」111は、置換した単語「w3/彼」と同じ主辞「w4」と関連付けられ、置換情報「w51/W」112は、置換した単語「w5/いる」と同じ主辞「w6」と関連付けられている。
相対的な係りやすさを考慮した係り受け解析手法では、単語wiが係る可能性のある単語集合Ciが与えられたときに、その中から係り先wj∈Ciを選択するという形式で解析が進む。この際、ある単語wiがwj∈Ciに係る条件付確率は、
図4(b)は、依存構造情報としてパラメータ列λを学習する場合の処理を説明するためのフローチャートである。以下、依存構造情報としてパラメータ列λを学習する場合の処理を説明する。
2.依存構造学習部10dは、読み込んだ学習データや置換学習データから式(1)における係り元wiとその正解係り先wjおよび係り先の候補の集合Ciを取り出す。依存構造学習部10dは、これを元に素性ベクトルφを決定する(ステップS6)。
なお、置換情報から抽出される素性は、メタシンボルの値や、品詞なし、などである。
3.そして、依存構造学習部10dは、得られた素性ベクトルφを全て用いて式(1)のパラメータ列λを決定する(ステップS7)。なお、パラメータ列λの決定には、反復スケーリング法やL‐BFGSといった準ニュートン法に基づく手法等を用いる(学習処理(ステップS3)の具体例の説明終わり)。
以上のように生成された依存構造情報(上記の例では「パラメータ列λ」)は、依存構造情報格納部10eに出力され、そこに格納される(ステップS4)。
図4(c)は、本形態の依存構造情報処理装置10の解析処理を説明するためのフローチャートである。以下、この図を用いて本形態の解析処理を説明する。
まず、入力部10fに解析対象となる文書(「処理対象情報」に相当)が入力され(ステップS11)、処理対象情報格納部10gに格納される(ステップS12)。この文書には、全ての単語が明瞭なものだけではなく、単語の一部が欠落しており不明であるものも含まれている。
依存構造の解析処理(ステップS13)の具体例:
前述のように、本形態では、単語(不明な単語を含む。この具体例において、以下同様。)wiが係る可能性のある単語の集合Ciが与えられたときに、その中から係り先wj∈Ciを選択するという形式で解析を進める。すなわち、この例の依存構造解析部10hは、処理対象情報格納部10gから解析対象の文を読み込み、素性ベクトルφを算出する(例えば「Kiyotaka Uchimoto, Satoshi Sekine, Hitoshi Isahara, "Japanese Dependency Structure based on Maximum Entropy Models, "Proceedings of Computational Linguistics (ACL), pp. 196-203, 1999.」参照)。また、この例の依存構造解析部10hは、依存構造情報格納部10eから上述の学習処理によって得られたパラメータ列λ(「依存構造情報」に相当)を読み込む。そして、この例の依存構造解析部10hは、得られた素性ベクトルφとパラメータ列λとを用い、式(1)に従って条件付確率P(wi→wj|Ci)を算出し、これが最大となる単語wj∈Ciが単語wiに対して最も信頼の高い係り先であると判断する。つまり、
ちなみに、単語集合Ciは、言語的な制約と係り先を決める単語の順番に依存する。日本語の係り受けにおける言語的制約は一般的に以下のように設定される。
・係り先は後方にある(後方一致性)。
・文の主辞を除いて、必ず係り先をひとつ持つ(係り先の唯一性)。
・後方一致性により、日本語における文の主辞とは文末の単語(文節)となる。
・係り関係は互いに交差しない(非交差性)。例えば、先頭の単語が4番目の単語に係るとき、2番目の単語は、5番目以降の単語には係らず、係り先が後方にあることも考慮すると必ず3番目か4番目の単語に係る。
次に解析する単語の順番であるが、本形態の例では、入力単語列の最も後方の単語から始め、順に先頭の単語ヘと進むものとする。これにより、日本語における制約とあわせて以下のような係り受けの解析アルゴリズム(例えば、「Satoshi Sekine, Kiyutaka Uchimoto, Hitoshi Isahara, "Backward Beam Search Algorithm for Dependency Analysis of Japanese," Proceedings of Computational Linguistics (ACL), pp.754-760, 200.」等参照)を適用することができる。図8に、この係り受け解析アルゴリズムを説明するための図を示す。なお、図8におけるwiは、単語或いは置換情報であり、<b>は文の境界を示すメタシンボルを意味し、文の最後の単語又は置換情報は、便宜上<b>に係るものとする。また、本形態の一時メモリ10iは、スコアと係り受け構造とを保存できるN個の記憶領域Aと、任意の長さのデータを保存できる記憶領域Bとを持つものとする(図3)。
2.次に、制御部10jは、一時メモリ10iの記憶領域Bを空にする。
4.まず、依存構造解析部10hは、すでに係り先が仮定されている単語のひとつ前に位置する単語(又は置換情報)wiの係り先となり得る全ての単語(又は置換情報)wjを、前述の言語的制約に基づいて選択し、単語(又は置換情報)wiの係り先の候補集合Ciとする。例えば、ステップS21のように単語w5までの係り先が仮定されていた場合、ひとつ前に位置する単語(又は置換情報)w4の係り先となり得る全ての単語(又は置換情報)w5,w6を、前述の言語的制約に基づいて選択し、w5,w6をC4とする。
図9(b−1)(b−2)は、ステップS22で生成された2つの仮説情報151,152のデータ構成を例示した図である。仮説情報151では、単語「w4」に主辞「w5」が、単語「w5」に主辞「w6」が、単語「w6」に<b>が関連付けられ、さらに、この係り受け構造に対応するスコア「0.70」が関連付けられている。また、仮説情報152では、単語「w4」に主辞「w6」が、単語「w5」に主辞「w6」が、単語「w6」に<b>が関連付けられ、さらに、この係り受け構造に対応するスコア「0.30」が関連付けられている。
7.そして、一時メモリ10iの記憶領域Bに保存されているもののうち、スコアが上位N位(図8の例ではN=2)までの仮説情報を、一時メモリ10iの記憶領域Aに保存(仮説1,仮説2)する(ステップS23,S25)。
8.先頭の単語についての解析が終了していないなら2に戻る。そうでなければ、一時メモリ10iの記憶領域Aに格納されている仮説情報のうち最もスコアの値が高いものを選択し、その係り受け構造を解析結果とする(依存構造の解析処理(ステップS13)の具体例の説明終わり)。
次に、本発明における第2の実施の形態について説明する。
本形態は、第1の応用例であり、本発明を適用することにより、逐次的に入力される単語の逐次的係り受け解析を実現するものである。なお、以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項(例えば、構成)については説明を省略する。
音声認識は音声を単語列表記に変換するだけに過ぎず、多くの場合、より詳しい意味的情報を付与することが求められる。これに関し、係り受け解析は、基本的でかつ主要な意味的情報を表現しており、汎用的な理解のために有力視される技術のひとつである。しかし、従来の係り受け解析技術は文単位の入力・解析を仮定しているため、逐次入力される音声の文境界が検出された後でなければ解析処理を行うことができない。このことは音声認識の実時間処理の消失であり、同時字幕や同時通訳といった実時間性を重視するアプリケーションや、よりヒューマンフレンドリーな対話の実現に向けて障害となる。これに対し、本発明を導入すると、未出単語との係り受け構造を表現することで、音声の入力に沿って、係り受け構造を逐次的に解析すること(逐次的係り受け解析)が可能となる。また、その構築過程において文境界を検出することも可能となる。以下、本発明を適用した逐次的係り受け解析処理を説明する。
完全な文に対する係り受け構造が図10(a)のように与えられているとする。ただし、図10(a)の<b>は文境界を表すメタシンボルであり、最後の単語は便宜上<b>に係るものとしている。このとき先頭3単語のみからなる不完全な文の構造を図10(b)のように表現するものとする。ここでメタシンボル<c>は未出の単語を表しており、未出の単語との係り受けは<c>に係るものとして表す。
図11は、このようにして可能となる本形態の逐次係り受け解析処理の概要を説明するための図である。以下、図11に沿って、この逐次係り受け解析処理の概要を説明する。
a)入力部10fには、音声解析結果等によって得られた単語列(「処理対象情報」に相当)が逐次入力され、処理対象情報格納部10gに格納されていく。依存構造解析部10hは、まず、この処理対象情報格納部10gに格納された単語列から最初の数単語(w1,...,w4)を読み込み。
c)次に、依存構造解析部10hは、処理対象情報格納部10gから新たな単語列(w5,w6)を読み込み、以前の単語列(w1,...,w4,<c>)の<c>を(<b>)に置換し、新たな単語列(w5,w6)を付加した単語列(w1,...,w4,(<b>),w5,w6)を生成する。なお、(<b>)は文境界となる可能性のある地点を示す。
e),f)このとき、以前の<c>を主辞としていた単語(w2,w4)は、再度係り先を固定し直す。その他の解析済み単語(w1,w3)については、係り先を再同定(しても、)しなくてもよい。
ここで(<b>)に係る可能性がある単語(例えばw4)については、<b>∈Ciとする。同じく、<c>に係る可能性がある単語(例えばw4)については、<c>∈Ciとする。その結果、単語w4の例では、C4={<b>,w5,<c>}となる。
<逐次係り受け解析処理の詳細>
次に、この逐次係り受け解析処理の詳細を説明する。
図12及び図13は、逐次係り受け解析処理の詳細を説明するためのフローチャートである。以下、この図に従って、本形態の逐次係り受け解析処理の詳細を説明する。
まず、依存構造解析部10hは、変数Lに0を代入し、係り受け関係の仮説h(単語と主辞とを対応付けたテーブル)と、そのスコアとの組の集合を示す変数Hに空集合φを代入し、これらを一時メモリ10iに格納する(ステップS31)。次に、依存構造解析部10hは、前述のように入力部10fから逐次入力され解析対象情報格納部10gに格納された単語列のうちm単語文のセグメントを読み込み、それらをwL+1,wL+2,...,wL+mとする(ステップS32)。なお、これらは、Hの全要素に追加される。このとき、それらに対応する主辞は未定にしておく。ただし、H=φのときは、仮説hをスコアが1で係り受け関係が全く未定のw1,w2,...,wm(Lは必ず0)とし、このhをHに加える。また、mは自然数であり、読み込んだ単語の数である。次に、依存構造解析部10hは、変数iにL+mを代入し、それを一時メモリ10iに格納する(ステップS33)。また、依存構造解析部10hは、係り受け関係の仮説と、そのスコアとの組の集合を示す変数Gに空集合φを代入し、これを一時メモリ10iに格納する(ステップS34)。
次に、依存構造解析部10hは、解析対象情報格納部10gを参照し、未解析のセグメントが存在するか否かを判断する(ステップS49)。ここで、未解析のセグメントが存在すると判断された場合には、ステップS32に戻る。一方、未解析のセグメントが存在しないと判断された場合には、依存構造解析部10hは、一時メモリ10iに格納されているHを参照し、それが示す仮定のうちスコアが最大のものを選択し、それを解析結果として出力する(ステップS50)。
次に、本形態の逐次的係り受け解析手法の実験結果を示す。ここでは、本発明を利用した逐次的係り受け解析手法(以下、「提案法」と呼ぶ)と、文境界が完全に正しく与えられた場合の従来法とで係り受け解析精度を比較した。つまり、従来法において本実験での理論的な最大値が与えられる。
なお、提案法での複数単語入力の単位は音声のショートポーズで囲まれた区間(以下、「セグメント」と呼ぶ)とした。また、学習と解析には、CSJコーパスのコアデータを用いた。CSJコーパスには約660時間の講演音声が収録されており、うちコアセットと呼ばれるデータには、音声のトランスクリプト(発話をテキストに書き出したもの)や、その係り受け構造、音声のショートポーズの位置と長さ、文境界の位置などが記されている。そのコアセット全177講演中、12講演をテストセットとし、残りの講演データを用いて学習を行い、式(1)のパラメータ列λを求めた。なお、提案法、従来法ともに素性ベクトルφには、前述した「見出し」「品詞」「品詞細分類」「活用」等を用いた。また、<c>,<b>は、単語の「見出し」の値として扱った。
そして、以下の2種類の係り受け解析実験を通し、提案法と従来法の比較を行った。
トランスクリプトでの実験では、従来法と提案法とを係り受け精度で比較したほか、提案法の文境界検出精度として再現率/適合率/F値も算出した。また、音声認識は(文単位に切らずに)講演単位で行った。さらに、従来法における文境界は、トランスクリプトとのアライメント(認識結果と正解の単語列の対応)を採って与えている。つまり、提案法と従来法で解析した単語列は完全に一致する。さらに、音声認識結果の係り受け解析では、誤認識単語の存在のため係り受け精度を求めることができないので、再現率/適合率/F値で評価し、認識結果と係り関係の両方を正しく判定したものだけを正解とした。
係り受け精度(accuracy)=係り先を正しく同定した単語数/単語総数
再現率(recall)=正解数/正解データ内の要素総数
適合率(precision)=正解数/解析結果データ内の要素総数
F値=再現率と適合率の調和平均
である。
図14(a)は、このトランスクリプト及び認識結果に対する係り受け解析の実験結果を示した表である。なお、係り先を持たない文の主辞については、<b>を係り先に持つと判定できて正解とした。提案法は、途中で幾度となく<c>との係り受け関係を評価しながら解析を進めていき、その中で文境界の検出も同時に行うという枠組みを有しているにも関わらず、文境界が完全に正しく与えられた従来法とほぼ同等の精度で解析できるという結果が得られた。しかも、誤認識が含まれる音声認識の結果に対しても同様に従来法と近い値を示している。若干、両者の差がひろがった理由は、誤認識により文境界検出の難易度が増したためと考えられる。
[実験2:文頭からN番目までのセグメントで構成される不完全な文もしくは完全な文に対する係り受け解析]
例えば、音声認識を用いたアプリケーションでは、発話の中に含まれる無音時間を観測し、この無音区間をもとに1回の発話の終了を仮定して、そこまでの認識結果を一文として、以後の係り受け解析等の処理を進めるような場合がある。しかし、実際は無音部位が文境界であるのはまれである。ここでは、上記のような場合を想定して、文頭からN番目のセグメントまでの入力をあたえ、それを提案法で解析した場合と、従来法で解析した場合を比較する。提案法では不完全な文であることを想定して処理を進めることが可能であり、この実験では、そういった<c>を用いた係り受け予期モデルの導入の効果をみる。ここで、最後の単語の係り先に関して、提案法による解析では必ず<c>に係るため入力が完全な文の場合は必然的に誤りが生じる。逆に、不完全な文を従来法で解析すると、完全な文が入力されたと仮定するので必ず最後の単語の係り先を<b>と判定し、誤りとなる。なお、実験全体を通し、学習・解析においてフィラータグのついた単語を除外している。
不完全な文に対する解析が多く合まれるこの実験において、提案法では最大10%程度の改善がみらた。これにより<c>による未出単語との係り受けモデルを導入することの効果が確かめられた。
〔第3の実施の形態〕
次に、本発明における第3の実施の形態について説明する。
第3の実施の形態は、本発明を構文解析に適用した例である。以下では、第1の実施の形態との相違点を中心に説明する。
本形態の依存構造情報処理装置の構成は第1の実施の形態と同様である。以下では、図3を利用して本形態の処理を説明していく。
1.前処理として、学習データ記憶部10a(図3)に従来の構文解析で用いたのと同様な学習データを格納しておく。
図15(b)は、この学習データ記憶部10aに格納しておく学習データ200の例示である。この例の学習データ200は、図15(a)の木構造に対応するものである。すなわち、この例の学習データ200は、「学校」「に」「兄」「と」「行く」という5つの単語の句構造を表現している。ここで、「N」は名詞を、「V」は動詞を、「P」は助詞を、「NP」は名詞句を、「VP」は動詞句を、「PP」は前置詞句を、「S」は文を示す。そして、図15(a)の木構造を示すテーブルを学習データ200としている。具体的には、例えば「学校」という単語は、名詞で名詞句である。また、「に」という単語は、助詞である。そして、「学校」と「に」という2つの単語によって前置詞句を構成している。学習データ200は、これを表すために、「学校」という単語を「N」「NP」に関連付け、「に」という単語を「P」に関連付け、さらに、これら2つの単語を同じ「PP」に関連付けている。すなわち、この例の学習データ200は、要素の関連付けによって木構造を表現できるデータ構成となっている。
図16から図18は、本形態の置換学習データ201〜203を例示した図である。
ここで、図16は、置換された単語の属性を示さない置換情報を用いて生成された置換学習データ201の例示である。すなわち、置換学習データ201は、図15の学習データ200の単語「に」「兄」「と」を、対応関係を維持しつつ、3つの置換情報「W」「W」「W」に置換したものである。これらの置換情報「W」は、置換された単語「に」「兄」「と」の属性を示すものではない。また、図17の置換学習データ202と比較すれば分かるように、語数によって句構造がどのように変化するのかを学習し、解析できるようになる。
3.置換学習データが蓄積されると、次に、依存構造学習部10dが、学習データ記憶部10a及び置換学習データ記憶部10cから学習データ及び置換学習データを読み込み、これらを用いた学習処理によって依存構造(構文木)を学習し、当該依存構造を示す依存構造情報を依存構造情報格納部10eに出力し、そこに格納する。具体的には、依存構造学習部10dは、構文木のあるシンボル(品詞或いは単語)が、それにすぐ下に接続しているシンボルが与えられているときに存在する条件付確率
P(X|AB)=C(X)/C(AB)
P(X|w)=C(X)/C(w)
を学習データ及び置換学習データから算出し、これを依存構造情報として依存構造情報格納部10eに格納する。ただし、A,B,Xは品詞のシンボルを表し、wは単語や置換情報のシンボル若しくは品詞のシンボルを表す。また、P(X|AB)とは、品詞Aと品詞Bとが与えられているときに、それらが品詞Xを構成する条件付確率を示す。またP(X|w)とは、シンボルwが品詞Xを構成する条件付確率を示す。さらに、C(X)及びC(w)は、シンボルXおよびwが学習データ及び置換学習データに出現した回数を示し、C(AB)は、A,Bと続く品詞が学習データ及び置換学習データに出現した回数を示す。なお、これらの条件付確率が、各置換情報に対応する品詞情報を特定するための情報に相当する。
次に、本形態の解析処理について説明する。
1.まず、解析対象である処理対象情報が入力部10fから入力され、これが処理対象情報格納部10gに格納される。この例の処理対象情報は単語列であるが、特に文には限定されない。また、この単語列の一部に完全に明瞭でない単語が含まれているものとする。なお、完全に明瞭でない単語とは、品詞だけしか分からない単語や、それさえも不明な単語等を意味する。
3.次に、依存構造解析部10hは、この置換を行った単語列が採りうる木構造を仮定し、依存構造情報格納部10eに格納された条件付確率(「依存構造情報」に相当)を用いて各仮定に対応するスコアを算出して一時メモリ10iに格納していく。なお、この処理では、単語や品詞のシンボルそのものを素性として解析処理を実行する。そして、依存構造解析部10hは、一時メモリ10iに格納された各仮定のスコアを参照し、最もスコアが高い木構造を検索結果として選択し、それを特定する検索結果情報を出力する。
〔第4の実施の形態〕
次に、本発明における第4の実施の形態について説明する。
本形態は、文字認識処理に本発明を適用した例である。以下では、第1の実施の形態との相違点を中心に説明する。
文字認識は、文字が映った画像を入力とし、そこに映された文字が何という文字であるかを判定する技術である。例えば、カメラで文字を映したような場合、その映された文字は必ずしも文字全体が写っているとは限らない。画面のサイドで文字が切れている場合や、文字の上に物体がありその陰になって文字の一部しか映っていない場合もある。このように断片だけが映された文字を入力とした場合、従来技術では、文字全体が入力されたものと仮定して処理を行うことしかできなかった。特に、物体が文字の一部を隠しているときには、物体がノイズとなり認識結果に大きな影響を与えていた。
本形態の依存構造情報処理装置の構成は第1の実施の形態と同様である。以下では、図3を利用して本形態の処理を説明していく。ここではHMMに基づく手法を説明する。なお、HMMとは、学習によって特徴量系列のパターンを記憶し、類似する特徴量系列の入力に対して高いスコアを付与するモデルである。
1.前処理として、学習データ記憶部10a(図3)に従来の文字解析で用いたのと同様な複数の画素(ピクセル)情報からなる画像情報と、その正解値とを関連付けた学習データを大量に格納しておく。
例えば、図19(a)に例示するように、平仮名の「あ」の学習データとして複数種類の画像情報301a〜301cが用意され、これらの画像情報301a〜301cと、それらが平仮名の「あ」を示す旨の情報(「文字情報」に相当)とを関連付けた学習データを学習データ記憶部10aに格納しておく。なお、学習データの画像情報としては、画素情報の欠如がないものが望ましい。
図21(a)は、学習データ記憶部10aに格納される学習データ310のデータ構成を例示した図である。この例の学習データ310は、画素の「座標」と「値(色を示す)」との組(画素情報)の集合からなる「画像情報」と、その画像に対応する「文字情報」と「部位」との組からなる「正解値」と、を関連付けたテーブルである。なお。「部位」とは、対応する「画像情報」が文字情報の示す文字のどの部位を示しているかを表す。図21(a)の例では、「画像情報」が文字「E」の全部の部分を示していることを表している。
図20(b)は、このような置換学習データの画像情報303を例示した図である。この図に例示するように、置換学習データの画像情報303は、学習データの画像情報302が有する画素情報302の一部を、一部の画素が映っていない(不明である)ことを表すメタシンボル「M」(置換情報305)に置換した情報である。なお、この例では、複数の画素情報302を1つの置換情報305に置換し、置換された画素情報の他の画素情報との依存関係を、そのまま1つの置換情報305に持たせている。
このような置換学習データを用いることで、認識する文字の一部が物体の裏に隠れていても、画面の端で切れていても、映っていない部分の影響を受けずに映っている部分だけで評価を行うことができる。また、置換学習データの画像情報が文字のどの部分であるかを「部位」の欄に設定しておくことにより、認識対象の画像に写っているものが、どの文字であるかだけではなく、その文字のどこの部分であるかをも認識することが可能となる。なお、隠れている箇所や大きさによって置換するメタシンボルを変えることも可能である。また、部位の欄を設けない構成であってもよい。
次に、本形態の認識処理について説明する。図19(b)は、本形態の認識処理の概要を示した概念図である。
1.まず、認識対象である処理対象情報が入力部10fから入力され、これが処理対象情報格納部10gに格納される。本形態の処理対象情報は画像情報であり、その一部の画素が欠損しているものも含む。
2.依存構造解析部10hは、処理対象情報格納部10gから処理対象情報である画像情報を読み込み、その画像情報から特徴量を抽出する。抽出した特徴量は、一旦、一時メモリ10iに格納される。
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、学習データから置換学習データを生成し、生成した置換学習データだけを用いた学習処理を行ってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
110,120,201,202,203,320 置換学習データ
Claims (7)
- 依存構造を有する情報を処理する依存構造情報処理装置であって、
単語もしくは文節(以下、要素情報と記す)間の係り受け関係を示す、要素情報とその係り先の要素情報である主辞情報とを関連付けた学習データを格納する学習データ記憶部と、
上記学習データの要素情報の一部を置換情報に置換し、当該置換情報に対して置換元の要素情報に関連付けられていた主辞情報を関連付けた置換学習データを生成する置換学習データ生成部と、
上記学習データおよび置換学習データを読み込み、係り元要素情報とその正解係り先要素情報および係り先の候補の要素情報の集合から素性ベクトルを決定し、当該素性ベクトルを用い、ある要素情報が別の要素情報に係る可能性を表す統計モデルを示す式のパラメータ列を決定し、当該パラメータ列を、依存構造を示す依存構造情報として出力する依存構造学習部と、
上記依存構造情報を格納する依存構造情報格納部と、
を有することを特徴とする依存構造情報処理装置。 - 請求項1に記載の依存構造情報処理装置であって、
要素情報の一部が欠落した文章である処理対象情報を格納する処理対象情報格納部と、
上記処理対象情報を読み込み、素性ベクトルを算出し、上記依存構造情報を読み込み、得られた素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って、係り受け構造を解析結果として出力する依存構造解析部と、
を有することを特徴とする依存構造情報処理装置。 - 依存構造を有する情報を処理する依存構造情報処理装置であって、
単語もしくは文節(以下、要素情報と記す)間の係り受け関係を示す、要素情報とその係り先の要素情報である主辞情報とを関連付けた学習データを格納する学習データ記憶部と、
上記学習データの先頭から要素情報の一部を抽出し、抽出した一部の要素情報の最後に未出の要素情報を表すメタシンボルを付加した置換学習データを生成する置換学習データ生成部と、
上記学習データおよび置換学習データを読み込み、係り元要素情報とその正解係り先要素情報および係り先の候補の要素情報の集合から素性ベクトルを決定し、当該素性ベクトルを用い、ある要素情報が別の要素情報に係る可能性を表す統計モデルを示す式のパラメータ列を決定し、当該パラメータ列を、依存構造を示す依存構造情報として出力する依存構造学習部と、
上記依存構造情報を格納する依存構造情報格納部と、
を有することを特徴とする依存構造情報処理装置。 - 請求項3に記載の依存構造情報処理装置であって、
要素情報の列からなる処理対象情報を格納する処理対象情報格納部と、
上記処理対象情報の先頭から要素情報の一部の列を読み込み、当該一部の列の最後に上記メタシンボルを付加した第1の列に対して、第1の素性ベクトルを算出し、上記依存構造情報を読み込み、得られた第1の素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って、係り元要素情報に対する係り先要素情報が文境界を表すメタシンボルとなる場合を含めて、係り受け構造を解析し結果として出力するとともに、上記第1の列に対して、要素情報の列の次の一部の列を付加し、さらに、上記メタシンボルを最後に付加した第2の列に対して、同様に第2の素性ベクトルを算出し、得られた第2の素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って係り受け構造を解析し結果として出力する依存構造解析部と、
を有することを特徴とする依存構造情報処理装置。 - 請求項2または請求項4において、
上記統計モデルを示す式は、素性ベクトルを用いた、ある要素情報が別の要素情報に係る条件付確率を示す式であり、
上記依存構造解析部は、素性ベクトルと依存構造情報とを用いて上記条件付確率を示す式に従って条件付確率を算出し、当該確率が最大となる係り元要素情報に対する係り先要素情報を選択し、その係り受け構造を解析結果とする
ことを特徴とする依存構造情報処理装置。 - 請求項1から5の何れかに記載の依存構造情報処理装置としてコンピュータを機能させるためのプログラム。
- 請求項6に記載のプログラムを格納したコンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269419A JP4084816B2 (ja) | 2005-09-16 | 2005-09-16 | 依存構造情報処理装置、そのプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269419A JP4084816B2 (ja) | 2005-09-16 | 2005-09-16 | 依存構造情報処理装置、そのプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007080117A JP2007080117A (ja) | 2007-03-29 |
JP4084816B2 true JP4084816B2 (ja) | 2008-04-30 |
Family
ID=37940339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005269419A Expired - Fee Related JP4084816B2 (ja) | 2005-09-16 | 2005-09-16 | 依存構造情報処理装置、そのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4084816B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6482084B2 (ja) * | 2016-02-18 | 2019-03-13 | 日本電信電話株式会社 | 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム |
-
2005
- 2005-09-16 JP JP2005269419A patent/JP4084816B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007080117A (ja) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4532863B2 (ja) | 2言語コーパスを整列させるための方法および装置 | |
US7603267B2 (en) | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system | |
US7496621B2 (en) | Method, program, and apparatus for natural language generation | |
KR101120798B1 (ko) | 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치 | |
US8311825B2 (en) | Automatic speech recognition method and apparatus | |
US5610812A (en) | Contextual tagger utilizing deterministic finite state transducer | |
US20210232948A1 (en) | Question responding apparatus, question responding method and program | |
Chelba | Exploiting syntactic structure for natural language modeling | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
Kurita et al. | Neural joint model for transition-based Chinese syntactic analysis | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
JP4738753B2 (ja) | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 | |
JP2020118929A (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
Khassanov et al. | Enriching rare word representations in neural language models by embedding matrix augmentation | |
JP5238034B2 (ja) | 近似照合装置、近似照合方法、プログラム及び記録媒体 | |
JP4084816B2 (ja) | 依存構造情報処理装置、そのプログラム及び記録媒体 | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
JP3027553B2 (ja) | 構文解析装置 | |
JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム | |
JP2005234800A (ja) | 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム | |
JP3100556B2 (ja) | 品詞付与装置 | |
CN117648908A (zh) | 一种自动生成文本的方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070918 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |