JP4084816B2 - 依存構造情報処理装置、そのプログラム及び記録媒体 - Google Patents

依存構造情報処理装置、そのプログラム及び記録媒体 Download PDF

Info

Publication number
JP4084816B2
JP4084816B2 JP2005269419A JP2005269419A JP4084816B2 JP 4084816 B2 JP4084816 B2 JP 4084816B2 JP 2005269419 A JP2005269419 A JP 2005269419A JP 2005269419 A JP2005269419 A JP 2005269419A JP 4084816 B2 JP4084816 B2 JP 4084816B2
Authority
JP
Japan
Prior art keywords
information
dependency
dependency structure
learning data
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005269419A
Other languages
English (en)
Other versions
JP2007080117A (ja
Inventor
隆伸 大庭
貴明 堀
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005269419A priority Critical patent/JP4084816B2/ja
Publication of JP2007080117A publication Critical patent/JP2007080117A/ja
Application granted granted Critical
Publication of JP4084816B2 publication Critical patent/JP4084816B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、依存構造を有する情報を処理する技術に関する。
極めて多くのもの・こと・情報に依存関係が成立しており、その構造を知ること、利用することは非常に有用なことである。例えば、路線図は各駅と線路の位置的関係を構造化したものであり言うまでもなく我々にとって有用なものとなっている。また、文は、複数の単語列(もしくは文節列)が所定の修飾構造(係り受け構造)をとることにより構成されている。さらに、文字は、各線の依存関係が表現されたものであり、その関係性の違いが文字の違いとなっている。
さて、こうした依存構造を、解析する技術や、また文字認識のように依存構造が何を表しているかを判定する認識技術は、対象とするものの構造を構成する各依存関係のパターンを統計的に学習することに基づいている(例えば、非特許文献1参照)。そして、ある解析対象となるデータが与えられると、各要素の関係性が求められ、全体としてどういった構造であるとみなすのが尤もらしいかを評価することにより、解析結果が得られる。
工藤拓、松本裕治、"相対的な係りやすさを考慮した日本語係り受け解析モデル、" IPSJ SIG Technical Report 2004-NL-162、 vol.2004、 No.73、 pp.205-212、 2004.
しかし、従来の技法では、データの全体が得られていない処理対象情報に対し、データの依存構造に基づく処理を適切に行うことが困難であった。以下にこの理由を述べる。
従来の技法は、処理対象情報の全体が得られていることを前提としたものである。しかしながら、依存関係を構成する一部の要素情報が不明もしくは未入力であるため、処理対象情報の一部しか得られない場合もある。例えば、カメラに映った文字が何という文字であるのかを判定する文字認識を例にとれば、カメラに文字全体が映っていない場合、すなわち、カメラに映った文字の一部が欠けている場合もある。このような場合、従来の技法では、データの欠落があるにもかかわらず、それがないものと仮定して全体の依存関係を評価するしかなかった。これは解析・認識エラーの原因となる。
本発明はこのような点に鑑みてなされたものであり、データの全体が得られていない処理対象情報に対し、データの依存構造に基づく処理を適切に行うことが可能な技術を提供することを目的とする。
本発明では上記課題を解決するために、所定の依存関係を持つ複数の明瞭な要素情報からなる学習データの当該要素情報の一部を置換情報に置換し、当該置換情報に所定の依存関係を持たせた置換学習データを置換学習データ記憶部に格納する。そして、依存構造学習部が、当該置換学習データを用いた学習処理によって依存構造を学習し、当該依存構造を示す依存構造情報を出力し、依存構造情報格納部に当該依存構造情報を格納する。
ここで、置換学習データは、要素情報の一部が置換情報に置換された情報である。この置換情報を、不明である要素情報としてみると、この置換学習データは、要素情報の一部が不明である情報の依存構造を学習するためのデータに相当する。そして、この置換学習データを用いた学習によって得られる依存構造は、データの全体が得られていない情報の依存構造を示すものとなる。その結果、データの全体が得られていない処理対象情報に対し、データの依存構造に基づく処理を適切に行うことが可能となる。なお「学習」とは、情報工学における学習を意味し、所定の参照データを用いた演算処理によって何らかの規則性を示すデータを生成する処理をいう。
また、本発明において好ましくは、処理対象情報格納部に要素情報の一部が不明である処理対象情報を格納し、依存構造解析部が、上述の依存構造情報を用いて処理対象情報の依存構造を解析し、その解析結果を示す解析結果情報を出力する。
上述のように、本発明の依存構造情報は、データの全体が得られていない情報の依存構造にも対応するものである。これにより、要素情報の一部が不明である処理対象情報に対しても、データの依存構造に基づく処理を適切に行うことが可能となる。
また、本発明において好ましくは、処理対象情報は、単語が逐次入力され、一部の単語が未入力のため不明である文であり、依存構造解析部は、新たに単語が入力されるたびに、当該単語を追加した文の依存構造を、依存構造情報を用いて解析し、その解析結果によって解析結果情報を更新する。
これにより、逐次入力される文の依存構造の解析を、単語が文境界まで入力される前に実行することが可能となる。その結果、処理の遅延を防ぐことができ、また、任意時刻までの入力における依存構造を抽出することができる。
また、このように逐次入力される処理対象情報としては、例えば、逐次入力される音声の認識結果を例示できる。本発明を逐次入力される音声の認識結果に適用することにより、音声認識結果の依存構造解析を高速に実現できる。
本発明では、所定の依存関係を持つ複数の明瞭な要素情報からなる学習データの当該要素情報の一部を置換情報に置換し、当該置換情報に所定の依存関係を持たせた置換学習データを用いて学習を行うこととしたため、データの全体が得られていない処理対象情報に対し、データの依存構造に基づく処理を適切に行うことが可能となる。
以下、本発明の実施の形態を図面を参照して説明する。
〔原理〕
本発明の核のひとつとなる要素に、未入手の要素情報(以下「未入手情報」という)と、入手済みの要素情報(以下「入手情報」という)との依存関係表現がある。以下、これについて説明する。
情報間に依存関係が存在するが、その一部の情報が未入手である場合を想定する。この場合、既に入手されている情報と依存関係にあるはずの情報が、未入手のため存在しないといった状況が生まれる。本発明では、このような場合にも依存関係(未入手情報と入手情報との依存関係)を表現し、依存構造の学習と解析及び認識を可能にする。
図1(a)〜(h)は、本発明における未入手情報と入手情報との依存関係を説明するための概念図である。以下、この図を用い、未入手情報と入手情報との依存関係の表現について説明する。
統計的処理に基づく手法では、依存関係の種類や有無が学習され、それを表現したモデルが作られる。
本発明では、まず、全体の情報が得られているときの依存構造が得られているとする(図1(a)(b))。ここでは、依存構造を依存関係の集合と定義し、依存関係は各情報間の関係性の種類や有無を表すものとする。また、図1では、各ノード(ノード1a,1b,3a〜3c等)が要素情報を表し、ノード間のリンク(ノード2等)が要素情報間の依存関係を示している。なお、図1(a)(b)に示す依存構造は、従来技術において学習に用いられる(全ての要素情報が明瞭な)学習データそのものである。
ここで、図1(a)(b)に示す依存構造から一部のノード1a,1b,3a〜3cを削り取ると、その依存構造は、図1(c)(d)のようになる。この削り取られたノード1a,1b,3a〜3cは、まさに未入手情報に相当する。本発明では、この削り取られたノード1a,1b,3a〜3cの代わりに、メタシンボル(「置換情報」に相当)であるノード1c,3d,3eを配置する(図1(e)(f))。この際、削り取られた1つのノードを1つのメタシンボルで置換してもよく、削り取られた複数のノードを1つのメタシンボルで置換してもよい。また、メタシンボルは、図1(e)のように、何ら属性を示さないノード1c(何らかのノードがあるはずということを示すに過ぎないノード「M」)であってもよいし、図1(f)のように、何らかの属性を示すノード3d,3e(「L」と「R」とは異なる属性を示す)であってもよい。
そして、このように置換されたノード1c,3d,3eと他のノードとのリンク、すなわち依存関係を持たせる(図1(g)(h))。例えば、ノード1c,3d,3eに置換されたノード1a,1b及び3a〜3cの他のノードとのリンクを、そのままノード1c,3d,3eにつなぐ。これにより、未入力情報がある場合の依存関係を表現する。本発明では、このように表現される依存関係の情報を学習データ(「置換学習データ」)として用い、データの全体が得られていない情報の依存構造を学習する。すなわち、本発明では、未入手情報を扱う枠組みを用意することで、学習の段階で未入手情報と入手情報との依存関係を設定する。
以下に、ここまで述べた未入手情報がある場合の依存構造の学習データの生成方法を示す。
1.未入手情報がなく全体が観測されている依存構造を持つ学習データ(従来手法で用いられるデータそのもの)を用意する。
2.任意の(もしくは何らかのルールに則り)幾つかの要素情報を消去する。
3.消去した要素情報を置換情報に置き換える。なお、前述のように、置換情報としては、本来要素情報があるはずだということを示すに過ぎない情報や、本来存在する要素情報の属性を示す情報等を例示できる。
4.置換情報とその他の情報との依存関係を設定し(例えば、置換された要素情報とその他の情報との間にあった依存関係を、そのまま置換情報とその他の情報との間の依存関係として設定し)、このような依存構造を持つ情報群を置換学習データとする。なお、学習データと置換学習データとを区別することなく取り扱ってもよい。
この他、予め一部の要素情報が欠けたデータを用意し、その依存構造を人手で設定することも可能である。しかし、不足している情報をみてからでなければ、正確に依存関係を与えることができない場合もある。上記ように要素情報が全て知られている依存構造から一部の要素情報が知られていない情報の依存構造を生成する手法であれば、この問題を回避することができる。さらに、本来不足分の情報を観測しなければ関係がわからないものに対しても、学習データに登場するそのような事例の割合を反映した依存関係のモデルを学習することができる。
次に、解析処理(係り受け解析等)や認識処理(文字認識等)に本発明を適用した場合の概要について説明する。
<解析処理に本発明を適用した場合>
[学習手法]
解析処理の場合、まず、依存構造を表現した学習データを集める。次に、集めた学習データを構成する要素情報の一部を置換情報に置換し、置換された要素情報と同じ依存関係を当該置換情報に設定する。このように学習データの一部の要素情報を置換情報に置換したものを置換学習データと呼ぶ。学習データと置換学習データとが用意できたならば、次にそれらのデータから依存関係をモデル化する。この方法にはさまざまあるが、大まかには次のようなステップを踏む。
1.学習データ及び置換学習データのそれぞれについて、ある依存関係、もしくは複数の依存関係を為す要素間から得られる特徴量/素性(要素間の情報からなるベクトル値)を取得する。
2.特徴量/素性とそれが与えられたときの依存関係の種類や有無が学習データ中のより多くの事例で成り立つようにモデルを構成する。モデル構成には様々な方法がある。例えば、最尤推定法や最大エントロピー法といった確率モデルに基づく手法、SVMやブーステイングといった機械学習に基づく手法、そのほか、ニューラルネットワークなどが挙げられる。なお、モデルを構成するとは、各モデル構成手法におけるパラメータを設定することであり、その設定方法は、各手法で理論的に保証された手法が確立されている。
[解析手法]
以上のように構成されたモデルを用いて処理対象情報の依存構造を解析する。この解析は、大まかには次のようなステップを踏む。
1.解析対象となる処理対象情報が入力される。この処理対象情報の一部の要素情報が欠如していることもありうる。
2.解析対象となる処理対象情報から特徴量/素性を抽出する。
3.学習によりパラメータ設定されたモデルと得られた特徴量/素性から各依存関係の妥当性を評価し、全体として尤もらしい構造を依存構造の解析結果とする。
なお、場合によっては、学習データと置換学習データの両方から学習したモデルを用いて、未入手情報のない場合と、未入手情報のある場合とでの解析結果を比較する処理を加えることもできる。例えば、処理対象となる情報が与えられたときに、それ以上未入手情報がないのか判定がつかない場合がある。このようなときは、未入手情報があると仮定してメタシンボルを加えて解析した結果と、未入手情報がないと仮定して解析を行なった結果を比較することで、より尤もらしい方の結果を選択することで、未入手情報の有無まで評価できる。
<認識処理に本発明を適用した場合>
[学習手法]
認識処理の場合、まず、依存構造を表現した学習データを集める。ここで、認識処理における依存構造には、構造の依存関係だけではなく、その構造が表しているもの(正解値)との依存関係をも含む。これは文字認識で言うならば、「あ」という映像を形作る画素の位置関係等の依存関係だけではなく、この映像に映っているのは「あ」、この画像に映っているものは「い」というような対応を示す依存関係をも含むという意味である。
次に、集めた学習データを構成する要素情報の一部を置換情報に置換し、置換された要素情報と同じ依存構造を当該置換情報に設定する(これが「置換学習データ」に相当)。これは文字認識で言うならば、例えば、「あ」という映像を形作る画素の一部を置換情報に置換し、置換後の映像は「あ」であるという対応関係を設定することを意味する。また、場合によっては、情報の欠落に伴って正解値を変えてもよい。例えば、「あ」という映像を形作る画素の一部を置換情報に置換し、置換後の映像は「『あ』の一部」であるという対応関係を設定してもよい。
学習データと置換学習データとが用意できたならば、次にそれらのデータから依存関係をモデル化する。この学習は、大まかには次のようなステップを踏む。
1.学習データ及び置換学習データのそれぞれについて、特徴量/素性を抽出する。
2.同一の正解値を持つ依存構造に関して、特徴量の次元でのまとまりを表すようなモデルを構成する。正解値の数だけモデルが生成される。モデル構成には、解析処理の場合と同様、様々な手法を適用できる。
[認識手法]
1.認識対象となる処理対象情報が入力される。この処理対象情報の一部の要素情報が欠如していることもありうる。
2.認識対象となる処理対象情報から特徴量/素性を抽出する。
3.得られた特徴量/素性について、各正解値のモデルとの類似度を評価し、最もマッチしたモデルの正解値を認識結果とする。
〔第1の実施の形態〕
次に、本発明における第1の実施の形態について説明する。
本形態は、言語の係り受け解析処理に本発明を適用した形態である。係り受け解析は、単語列(もしくは文節列)が与えられた時に、それらの修飾関係を解析するものである。単語wが単語vを修飾しているとき、wがvに係るといい、w→vと表記する。このときw,vは係り受け関係にあるといい、特にvをwの主辞と呼ぶ。各単語(もしくは文節)が各要素情報にあたり、要素情報間の係り受け関係の有無が依存関係の有無にあたる。また、係り受け解析は、文全体に渡る係り受け構造を解析するものである。従って、本形態で解析対象となるのは文であり、入力は単語境界が記された文である。
なお、本形態では、現代法の一つである相対的な係りやすさを考慮した係り受け解析手法(「工藤拓、松本裕治、”相対的な係りやすさを考慮した日本語係り受け解析モデル、” IPSJ SIG Technical Report 2004-NL-162、 vol.2004、 No.73、 pp.205-212、 2004.」等参照)に本発明を適用した例を説明する。
<構成>
まず、本形態の処理を実行する依存構造情報処理装置10の構成を説明する。
[ハードウェア構成]
図2は、本形態における依存構造情報処理装置10のハードウェア構成を例示したブロック図である。
図2に例示するように、この例の依存構造情報処理装置10は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、依存構造情報処理装置10としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
[ハードウェアとプログラムとの協働]
CPU11(図2)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11bは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11aに順次実行させ、その演算結果をレジスタ11cに格納していく。
図3は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される依存構造情報処理装置10の機能構成を例示したブロック図である。なお、図3における矢印はデータの流れを示すが、制御部10jに出入りするデータの流れに対応する矢印は省略してある。
図3に例示するように、本形態の依存構造情報処理装置10は、学習データ記憶部10a、置換学習データ生成部10b、置換学習データ記憶部10c、依存構造学習部10d、依存構造情報格納部10e、入力部10f、処理対象情報格納部10g、依存構造解析部10h、一時メモリ10i及び制御部10jを有している。
ここで、学習データ記憶部10a、置換学習データ記憶部10c、依存構造情報格納部10e、処理対象情報格納部10g及び一時メモリ10iは、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、置換学習データ生成部10b、依存構造学習部10d、依存構造解析部10h及び制御部10jは、CPU11に上記のプログラムを実行させることにより構成されるものである。また、本形態の依存構造情報処理装置10は、制御部10jの制御のもと各処理を実行する。
<処理>
次に、本形態の依存構造情報処理装置10が実行する処理を説明する。
[学習処理]
図4(a)は、本形態の依存構造情報処理装置10の学習処理を説明するためのフローチャートである。以下、この図を用いて本形態の学習処理を説明する。
まず、前処理として、学習データ記憶部10a(図3)に従来の係り受け解析処理で用いたのと同様な学習データを格納しておく。
図5(a)(b)は、このような学習データ100の1つを例示した図である。
この例の学習データ100は、所定の依存関係を持つ複数の明瞭な単語(「要素情報」に相当)からなる。具体的には、図5の例の学習データ100は、「私」「は」「彼」「が」「いる」「と」「思っ」「た」という単語と、それらの係り受け関係とを関連付けた情報である。すなわち、この例の学習データ100は、それぞれ「w」「w」「w」「w」「w」「w」「w」「w」に対応付けられた「私」「は」「彼」「が」「いる」「と」「思っ」「た」という単語と、その係り先である主辞「w」「w」「w」「w」「w」「w」「w」「−」とを関連付けたテーブルである。例えば、「私」は「は」に係るため、単語「w」「私」に、主辞「w(「は」に対応)」が関連付けられている。また、主辞が「−」とは係り先がないことを意味している。
学習処理が開始されると、まず、置換学習データ生成部10bが、学習データ記憶部10aから学習データを順次読み込み、その単語の一部を置換情報に置換し、当該置換情報に所定の依存関係を持たせた置換学習データを生成する(ステップS1)。
置換学習データの例示:
図6及び図7は、本形態の置換学習データ110,120を例示した図である。
ここで、図6は、置換された単語の属性を示さない置換情報を用いて生成された置換学習データ110の例示である。すなわち、置換学習データ110は、図5の学習データ100の単語「w/彼」を置換情報「w31/W」111に置換し、単語「w/いる」を置換情報「w51/W」112に置換したものであるが、これらの置換情報の「W」は、置換された単語(「w/彼」や「w/いる」)の属性を示すものではない。なお、置換学習データ110の置換情報「w31/W」111は、置換した単語「w/彼」と同じ主辞「w」と関連付けられ、置換情報「w51/W」112は、置換した単語「w/いる」と同じ主辞「w」と関連付けられている。
一方、図7は、置換された単語の属性の一部のみを示す置換情報を用いて生成された置換学習データ120を例示している。すなわち、置換学習データ120は、図5の学習データ100の単語「w/彼」を置換情報「w31/N」121に置換し、単語「w/と」を置換情報「w61/P」122に置換したものである。ここで、置換情報の「N」は「名詞」を示し、「P」は「助詞」を示す。これは、それぞれ置換された単語「彼」及び「と」の属性の一部である「品詞」のみを示す置換情報を用いて置換学習データ120を生成したことに相当する。なお、置換学習データ120の置換情報「w31/N」121は、置換した単語「w/彼」と同じ主辞「w」と関連付けられ、置換情報「w61/W」122は、置換した単語「w/と」と同じ主辞「w」と関連付けられている。また、置換学習データ120では、学習データ100で単語「w」を主辞としていた単語「w/が」「w/いる」の主辞も「w61」に置換される(置換学習データの例示の説明終わり)。
以上のように生成された置換学習データは、置換学習データ記憶部10cに格納される(ステップS2)。そして、これらの処理により置換学習データ記憶部10cに置換学習データが蓄積されると、次に、依存構造学習部10dが、学習データ記憶部10a及び置換学習データ記憶部10cから学習データや置換学習データを読み込み、これらを用いた学習処理によって依存構造を決定する(ステップS3)。本形態の例の場合、依存構造学習部10dは、この学習処理によって、単語或いは置換情報間の係り受け関係を特定するため依存構造情報を決定する。以下、この学習処理(ステップS3)の具体例を説明する。
学習処理(ステップS3)の具体例:
相対的な係りやすさを考慮した係り受け解析手法では、単語wが係る可能性のある単語集合Cが与えられたときに、その中から係り先w∈Cを選択するという形式で解析が進む。この際、ある単語wがw∈Cに係る条件付確率は、
Figure 0004084816
と表現され、これが最大となる係り先がw∈Cが単語wの係り先として最も信頼が高いと判断される。ここで、λは、最大エントロピー法でのモデル化に用いられるパラメータ列である。また、φ(<wi,wj>)は、単語w,wから得られる素性列(特徴量)であり、0,1の値で構成される素性ベクトルである。なお、素性としては、「見出し」「品詞」「品詞細分類」「活用」「活用形」「文頭」「文の主辞」「距離」等、或いはこれらの組合せを例示できる(例えば「Kiyotaka Uchimoto, Satoshi Sekine, Hitoshi Isahara, "Japanese Dependency Structure based on Maximum Entropy Models, "Proceedings of Computational Linguistics (ACL), pp. 196-203, 1999.」参照)。
本形態の学習処理では、上述した学習データや置換学習データを用い、上述のパラメータ列λを求める。なお、このパラメータ列λは、「単語或いは置換情報間の係り受け関係を特定するため依存構造情報」の一例であり、他の情報を依存構造情報としてもよい。
図4(b)は、依存構造情報としてパラメータ列λを学習する場合の処理を説明するためのフローチャートである。以下、依存構造情報としてパラメータ列λを学習する場合の処理を説明する。
1.まず、依存構造学習部10dが、学習データ記憶部10a及び置換学習データ記憶部10cから、学習データや置換学習データ(図5〜図7)を読み込む(ステップS5)。
2.依存構造学習部10dは、読み込んだ学習データや置換学習データから式(1)における係り元wとその正解係り先wおよび係り先の候補の集合Cを取り出す。依存構造学習部10dは、これを元に素性ベクトルφを決定する(ステップS6)。
なお、置換情報から抽出される素性は、メタシンボルの値や、品詞なし、などである。
3.そして、依存構造学習部10dは、得られた素性ベクトルφを全て用いて式(1)のパラメータ列λを決定する(ステップS7)。なお、パラメータ列λの決定には、反復スケーリング法やL‐BFGSといった準ニュートン法に基づく手法等を用いる(学習処理(ステップS3)の具体例の説明終わり)。
以上のように生成された依存構造情報(上記の例では「パラメータ列λ」)は、依存構造情報格納部10eに出力され、そこに格納される(ステップS4)。
[解析処理]
図4(c)は、本形態の依存構造情報処理装置10の解析処理を説明するためのフローチャートである。以下、この図を用いて本形態の解析処理を説明する。
まず、入力部10fに解析対象となる文書(「処理対象情報」に相当)が入力され(ステップS11)、処理対象情報格納部10gに格納される(ステップS12)。この文書には、全ての単語が明瞭なものだけではなく、単語の一部が欠落しており不明であるものも含まれている。
次に、依存構造解析部10hが、処理対象情報格納部10gから解析対象となる文書を読み込み、さらに依存構造情報格納部10eから依存構造情報(上記の例では「パラメータ列λ」)を読み込む。そして、依存構造解析部10hは、依存構造情報を用いて解析対象となる文書の依存構造(本形態では係り受け関係)を解析し(ステップS13)、その解析結果を示す解析結果情報を出力する(ステップS14)。そして、全単語についての係り先が決定した段階で解析処理が終了する。
依存構造の解析処理(ステップS13)の具体例:
前述のように、本形態では、単語(不明な単語を含む。この具体例において、以下同様。)wが係る可能性のある単語の集合Cが与えられたときに、その中から係り先w∈Cを選択するという形式で解析を進める。すなわち、この例の依存構造解析部10hは、処理対象情報格納部10gから解析対象の文を読み込み、素性ベクトルφを算出する(例えば「Kiyotaka Uchimoto, Satoshi Sekine, Hitoshi Isahara, "Japanese Dependency Structure based on Maximum Entropy Models, "Proceedings of Computational Linguistics (ACL), pp. 196-203, 1999.」参照)。また、この例の依存構造解析部10hは、依存構造情報格納部10eから上述の学習処理によって得られたパラメータ列λ(「依存構造情報」に相当)を読み込む。そして、この例の依存構造解析部10hは、得られた素性ベクトルφとパラメータ列λとを用い、式(1)に従って条件付確率P(wi→wj|Ci)を算出し、これが最大となる単語w∈Cが単語wに対して最も信頼の高い係り先であると判断する。つまり、
Figure 0004084816
が単語wに対して最も信頼の高い係り先であると判断する。ただし、実際には、構造全体のスコアが最大な係り受け構造を最適なものと判断する。なお、係り受け構造全体のスコアは、
Figure 0004084816
である。ここで、vは、単語wの係り先の1つ(∈C)を意味する。
ちなみに、単語集合Cは、言語的な制約と係り先を決める単語の順番に依存する。日本語の係り受けにおける言語的制約は一般的に以下のように設定される。
・係り先は後方にある(後方一致性)。
・文の主辞を除いて、必ず係り先をひとつ持つ(係り先の唯一性)。
・後方一致性により、日本語における文の主辞とは文末の単語(文節)となる。
・係り関係は互いに交差しない(非交差性)。例えば、先頭の単語が4番目の単語に係るとき、2番目の単語は、5番目以降の単語には係らず、係り先が後方にあることも考慮すると必ず3番目か4番目の単語に係る。
次に解析する単語の順番であるが、本形態の例では、入力単語列の最も後方の単語から始め、順に先頭の単語ヘと進むものとする。これにより、日本語における制約とあわせて以下のような係り受けの解析アルゴリズム(例えば、「Satoshi Sekine, Kiyutaka Uchimoto, Hitoshi Isahara, "Backward Beam Search Algorithm for Dependency Analysis of Japanese," Proceedings of Computational Linguistics (ACL), pp.754-760, 200.」等参照)を適用することができる。図8に、この係り受け解析アルゴリズムを説明するための図を示す。なお、図8におけるwは、単語或いは置換情報であり、<b>は文の境界を示すメタシンボルを意味し、文の最後の単語又は置換情報は、便宜上<b>に係るものとする。また、本形態の一時メモリ10iは、スコアと係り受け構造とを保存できるN個の記憶領域Aと、任意の長さのデータを保存できる記憶領域Bとを持つものとする(図3)。
1.依存構造解析部10hが、処理対象情報格納部10gから読み込んだ処理対象情報である文(単語「w1」,...,「w6」からなる)を一時メモリ10iの記憶領域Aに格納する。日本語の場合、文末2語の係り先は決まっている。そこで、依存構造解析部10hは、記憶領域Aに格納した文書の文末2語の係り先を図8のステップS21のように特定し、その係り受け構造を特定する情報(例えば、単語とその係り先の単語とを関連付けた情報)とそのスコアとを関連付けたテーブルである仮説情報(仮説1)を記憶領域Aに格納する(ステップS21)。なお、この時点でのスコアは任意の定数(図8の例では「1.00」)とする。
図9(a)は、この最初に生成される仮説情報150のデータ構成の例示である。この図に例示するように、この例の仮説情報150は、単語「w1」,...,「w6」と、その係り先である主辞の仮定と、その仮定を採った場合のスコアとを対応付けたテーブルである。図9(a)の例は、図8のステップS21に対応するものであり、単語「w」に主辞「w」が、単語「w」に<b>が関連付けられている。また、この係り受け構造に対応するスコア「1.00」も関連付けられている。
2.次に、制御部10jは、一時メモリ10iの記憶領域Bを空にする。
3.その後、依存構造解析部10hは、一時メモリ10iの記憶領域Aに保存されている全ての仮説情報が示す仮説情報に対して以下の4,5の処理を行う。
4.まず、依存構造解析部10hは、すでに係り先が仮定されている単語のひとつ前に位置する単語(又は置換情報)wの係り先となり得る全ての単語(又は置換情報)wを、前述の言語的制約に基づいて選択し、単語(又は置換情報)wの係り先の候補集合Cとする。例えば、ステップS21のように単語w5までの係り先が仮定されていた場合、ひとつ前に位置する単語(又は置換情報)wの係り先となり得る全ての単語(又は置換情報)w,wを、前述の言語的制約に基づいて選択し、w,wをCとする。
5.また、4で決定された全ての係り関係の可能性(wi→wj∈C)に対し、以下の処理を行う。すなわち、依存構造解析部10hは、依存構造情報格納部10eから依存構造情報であるパラメータ列λを読み込み、前述の式(1)によって条件付確率P(wi→wj|Ci)を算出し、これをそれまでのスコアに乗じた値(新たなスコア)と、wi→wjを追加した係り受け構造を特定する情報とを関連付けたテーブルを仮説情報として一時メモリ10iの記憶領域Bに追加保存する(ステップS22,S24)。
図9(b−1)(b−2)は、ステップS22で生成された2つの仮説情報151,152のデータ構成を例示した図である。仮説情報151では、単語「w」に主辞「w」が、単語「w」に主辞「w」が、単語「w」に<b>が関連付けられ、さらに、この係り受け構造に対応するスコア「0.70」が関連付けられている。また、仮説情報152では、単語「w」に主辞「w」が、単語「w」に主辞「w」が、単語「w」に<b>が関連付けられ、さらに、この係り受け構造に対応するスコア「0.30」が関連付けられている。
6.その後、一時メモリ10iの記憶領域Aを空にする。
7.そして、一時メモリ10iの記憶領域Bに保存されているもののうち、スコアが上位N位(図8の例ではN=2)までの仮説情報を、一時メモリ10iの記憶領域Aに保存(仮説1,仮説2)する(ステップS23,S25)。
8.先頭の単語についての解析が終了していないなら2に戻る。そうでなければ、一時メモリ10iの記憶領域Aに格納されている仮説情報のうち最もスコアの値が高いものを選択し、その係り受け構造を解析結果とする(依存構造の解析処理(ステップS13)の具体例の説明終わり)。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
本形態は、第1の応用例であり、本発明を適用することにより、逐次的に入力される単語の逐次的係り受け解析を実現するものである。なお、以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項(例えば、構成)については説明を省略する。
音声認識は音声を単語列表記に変換するだけに過ぎず、多くの場合、より詳しい意味的情報を付与することが求められる。これに関し、係り受け解析は、基本的でかつ主要な意味的情報を表現しており、汎用的な理解のために有力視される技術のひとつである。しかし、従来の係り受け解析技術は文単位の入力・解析を仮定しているため、逐次入力される音声の文境界が検出された後でなければ解析処理を行うことができない。このことは音声認識の実時間処理の消失であり、同時字幕や同時通訳といった実時間性を重視するアプリケーションや、よりヒューマンフレンドリーな対話の実現に向けて障害となる。これに対し、本発明を導入すると、未出単語との係り受け構造を表現することで、音声の入力に沿って、係り受け構造を逐次的に解析すること(逐次的係り受け解析)が可能となる。また、その構築過程において文境界を検出することも可能となる。以下、本発明を適用した逐次的係り受け解析処理を説明する。
数単語を読み込むたびに係り受け構造の解析結果を更新していき、その過程で文境界も検出する場合、入力の単位が文ではないので、係り先が存在しない場合もある。そのような文を不完全な文と呼ぶことにする。まず、不完全な文に対する係り受け構造を定義する。
完全な文に対する係り受け構造が図10(a)のように与えられているとする。ただし、図10(a)の<b>は文境界を表すメタシンボルであり、最後の単語は便宜上<b>に係るものとしている。このとき先頭3単語のみからなる不完全な文の構造を図10(b)のように表現するものとする。ここでメタシンボル<c>は未出の単語を表しており、未出の単語との係り受けは<c>に係るものとして表す。
この逐次係り受け解析処理の技術上核となるポイントは、メタシンボル<c>を普通の単語と同等に扱う点、{<c>,<b>}∈Cを許す点、係り先として<b>が選ばれた場合にその<b>の部位を文境界とみなす点である。すなわち、本形態では、完全な文書の一部の単語をメタシンボル<b><c>(「置換情報」に相当)に置換した置換学習データをもモデル学習に使用する。具体的には、本形態の置換学習データ生成部10bは、学習データ記憶部10aに記憶された学習データを先頭から数単語単位で抽出し、抽出されない残りの単語をメタシンボル<c>で置き換え、文境界を<b>と表し、それに元の文書と同様な係り受け関係を設定したものを順次置換学習データとする。すなわち、置換学習データには{<c>,<b>}∈Cとなる係り受けが許可される。そして、第1の実施の形態と同様に、依存構造学習部10dが、学習データ記憶部10aに格納された完全な文である学習データと、置換学習データ記憶部10cに格納された置換学習データとを用い、最大エントロピー法のパラメータ列λ(「依存構造情報格納部」に相当)をL-BFGS等により求め、これを依存構造情報格納部10eに格納する。これにより、完全な文からなる学習データのみを用いてモデルを学習した場合には不可能であった逐次係り受け解析処理が可能となる。
<逐次係り受け解析処理の概要>
図11は、このようにして可能となる本形態の逐次係り受け解析処理の概要を説明するための図である。以下、図11に沿って、この逐次係り受け解析処理の概要を説明する。
a)入力部10fには、音声解析結果等によって得られた単語列(「処理対象情報」に相当)が逐次入力され、処理対象情報格納部10gに格納されていく。依存構造解析部10hは、まず、この処理対象情報格納部10gに格納された単語列から最初の数単語(w1,...,w4)を読み込み。
b)次に、依存構造解析部10hは、依存構造情報格納部10eに格納されたパラメータ列λ(「依存構造情報」に相当)を読み込む。そして、依存構造解析部10hは、a)で読み込んだ数単語(w1,...,w4)の最後に<c>を付加した単語列(w1,...,w4,<c>)を第1の実施の形態と同様、式(1)を用いて解析し、その解析結果情報を出力する。
c)次に、依存構造解析部10hは、処理対象情報格納部10gから新たな単語列(w5,w6)を読み込み、以前の単語列(w1,...,w4,<c>)の<c>を(<b>)に置換し、新たな単語列(w5,w6)を付加した単語列(w1,...,w4,(<b>),w5,w6)を生成する。なお、(<b>)は文境界となる可能性のある地点を示す。
d)さらに、依存構造解析部10hは、この単語列(w1,...,w4,(<b>),w5,w6)の最後に<c>を追加した単語列(w1,...,w4,(<b>),w5,w6,<c>)を生成し、この単語列(w1,...,w4,(<b>),w5,w6,<c>)を第1の実施の形態と同様に式(1)を用いて解析する。
e),f)このとき、以前の<c>を主辞としていた単語(w2,w4)は、再度係り先を固定し直す。その他の解析済み単語(w1,w3)については、係り先を再同定(しても、)しなくてもよい。
ここで(<b>)に係る可能性がある単語(例えばw4)については、<b>∈Cとする。同じく、<c>に係る可能性がある単語(例えばw4)については、<c>∈Cとする。その結果、単語w4の例では、C={<b>,w5,<c>}となる。
g)依存構造解析部10hは、解析対象情報格納部10gに新しい単語が存在する限り、c)以降の処理を繰り返す。
<逐次係り受け解析処理の詳細>
次に、この逐次係り受け解析処理の詳細を説明する。
図12及び図13は、逐次係り受け解析処理の詳細を説明するためのフローチャートである。以下、この図に従って、本形態の逐次係り受け解析処理の詳細を説明する。
まず、依存構造解析部10hは、変数Lに0を代入し、係り受け関係の仮説h(単語と主辞とを対応付けたテーブル)と、そのスコアとの組の集合を示す変数Hに空集合φを代入し、これらを一時メモリ10iに格納する(ステップS31)。次に、依存構造解析部10hは、前述のように入力部10fから逐次入力され解析対象情報格納部10gに格納された単語列のうちm単語文のセグメントを読み込み、それらをwL+1,wL+2,...,wL+mとする(ステップS32)。なお、これらは、Hの全要素に追加される。このとき、それらに対応する主辞は未定にしておく。ただし、H=φのときは、仮説hをスコアが1で係り受け関係が全く未定のw1,w2,...,wm(Lは必ず0)とし、このhをHに加える。また、mは自然数であり、読み込んだ単語の数である。次に、依存構造解析部10hは、変数iにL+mを代入し、それを一時メモリ10iに格納する(ステップS33)。また、依存構造解析部10hは、係り受け関係の仮説と、そのスコアとの組の集合を示す変数Gに空集合φを代入し、これを一時メモリ10iに格納する(ステップS34)。
次に、依存構造解析部10hは、係り受け構造の仮説h∈Hを選択し、それを示す仮説情報を一時メモリ10iに格納する(ステップS35)。次に、依存構造解析部10hは、wiの主辞が決まっていないか、決まっていてもwiの主辞が<c>かを判断する(ステップS36)。ここで、wiの主辞が決まっており、それが<c>でなければステップS35に戻る。一方、wiの主辞が決まっていないか、決まっていてもwiの主辞が<c>であった場合、依存構造解析部10hは、{<b>,wi+1,wi+2,...,wL+m,<c>}から、言語的制約と、仮説hの係り受け関係の間で矛盾が生じないようにCiの要素を選出し、Ciを決定し、これを一時メモリ10iに格納する(ステップS37)。
次に、依存構造解析部10hは、一時メモリ10iに格納したCiからwiの1つの係り先候補vを選択する(ステップS38)。そして、依存構造解析部10hは、ステップS35で選択した仮説hにwi→v(単語wiと主辞vとの対応付けを示すレコード)を加えたものをgとし、これを一時メモリ10iに格納する(ステップS39)。また、依存構造解析部10hは、仮説hのスコアにP(wi→v|Ci)を乗じたものをgのスコアとし、これをgに関連付けて一時メモリ10iに格納する(ステップS40)。そして、依存構造解析部10hは、一時メモリ10iに格納したgとそのスコアとを、一時メモリ10iに格納しておいたGに追加し、この新たなGを再び一時メモリ10iに格納する(ステップS41)。その後、依存構造解析部10hは、全てのv∈Ciが選択済みであるか否かを判断する(ステップS42)。ここで、全てのv∈Ciが選択済みでなければステップS38の処理に戻る。一方、全てのv∈Ciが選択済みであれば、次に依存構造解析部10hは、全ての係り受け構造の仮説h∈Hを選択済みであるか否かを判断する(ステップS43)。ここで、全ての係り受け構造の仮説h∈Hが選択済みでなければ、ステップS35に進む。一方、全ての係り受け構造の仮説h∈Hが選択済みであれば、依存構造解析部10hは、一時メモリ10iに格納されているGを参照し、スコアが上位N位までのgだけをGに残し、その他のgとそのスコアとを削除する。このように更新されたGは一時メモリ10iに格納される(ステップS44)。次に、依存構造解析部10hは、一時メモリ10iに格納されているGをHに代入し、このHを一時メモリ10iに格納する(ステップS45)。
次に、依存構造解析部10hは、一時メモリ10iに格納されている変数iが1であるか否かを判断する(ステップS46)。ここで、i=1でなければ、i‐1を新たなiとして一時メモリ10iに格納し、ステップS34の処理に戻る。一方、i=1であれば、依存構造解析部10hは、一時メモリ10iに格納されている変数Lにmを加算した値を新たなLとし、これを一時メモリ10iに格納する(ステップS48)。
次に、依存構造解析部10hは、解析対象情報格納部10gを参照し、未解析のセグメントが存在するか否かを判断する(ステップS49)。ここで、未解析のセグメントが存在すると判断された場合には、ステップS32に戻る。一方、未解析のセグメントが存在しないと判断された場合には、依存構造解析部10hは、一時メモリ10iに格納されているHを参照し、それが示す仮定のうちスコアが最大のものを選択し、それを解析結果として出力する(ステップS50)。
<実験結果>
次に、本形態の逐次的係り受け解析手法の実験結果を示す。ここでは、本発明を利用した逐次的係り受け解析手法(以下、「提案法」と呼ぶ)と、文境界が完全に正しく与えられた場合の従来法とで係り受け解析精度を比較した。つまり、従来法において本実験での理論的な最大値が与えられる。
なお、提案法での複数単語入力の単位は音声のショートポーズで囲まれた区間(以下、「セグメント」と呼ぶ)とした。また、学習と解析には、CSJコーパスのコアデータを用いた。CSJコーパスには約660時間の講演音声が収録されており、うちコアセットと呼ばれるデータには、音声のトランスクリプト(発話をテキストに書き出したもの)や、その係り受け構造、音声のショートポーズの位置と長さ、文境界の位置などが記されている。そのコアセット全177講演中、12講演をテストセットとし、残りの講演データを用いて学習を行い、式(1)のパラメータ列λを求めた。なお、提案法、従来法ともに素性ベクトルφには、前述した「見出し」「品詞」「品詞細分類」「活用」等を用いた。また、<c>,<b>は、単語の「見出し」の値として扱った。
そして、以下の2種類の係り受け解析実験を通し、提案法と従来法の比較を行った。
[実験1:テストセット講演データのトランスクリプト及び音声認識結果に対する係り受け解析]
トランスクリプトでの実験では、従来法と提案法とを係り受け精度で比較したほか、提案法の文境界検出精度として再現率/適合率/F値も算出した。また、音声認識は(文単位に切らずに)講演単位で行った。さらに、従来法における文境界は、トランスクリプトとのアライメント(認識結果と正解の単語列の対応)を採って与えている。つまり、提案法と従来法で解析した単語列は完全に一致する。さらに、音声認識結果の係り受け解析では、誤認識単語の存在のため係り受け精度を求めることができないので、再現率/適合率/F値で評価し、認識結果と係り関係の両方を正しく判定したものだけを正解とした。
なお、
係り受け精度(accuracy)=係り先を正しく同定した単語数/単語総数
再現率(recall)=正解数/正解データ内の要素総数
適合率(precision)=正解数/解析結果データ内の要素総数
F値=再現率と適合率の調和平均
である。
図14(a)は、このトランスクリプト及び認識結果に対する係り受け解析の実験結果を示した表である。なお、係り先を持たない文の主辞については、<b>を係り先に持つと判定できて正解とした。提案法は、途中で幾度となく<c>との係り受け関係を評価しながら解析を進めていき、その中で文境界の検出も同時に行うという枠組みを有しているにも関わらず、文境界が完全に正しく与えられた従来法とほぼ同等の精度で解析できるという結果が得られた。しかも、誤認識が含まれる音声認識の結果に対しても同様に従来法と近い値を示している。若干、両者の差がひろがった理由は、誤認識により文境界検出の難易度が増したためと考えられる。
次に、提案法のトランスクリプトにおける文境界検出精度を図14(b)に示す。話し言葉の文境界検出としては十分高い値を示している。また、適合率に比ベ、再現率が高いことから、正解境界数よりもやや多めに文区切りと判定していることがわかる。しかし、それは、図14(a)にあるように、全体の係り受け精度にはあまり影響していない程度となっている。
[実験2:文頭からN番目までのセグメントで構成される不完全な文もしくは完全な文に対する係り受け解析]
例えば、音声認識を用いたアプリケーションでは、発話の中に含まれる無音時間を観測し、この無音区間をもとに1回の発話の終了を仮定して、そこまでの認識結果を一文として、以後の係り受け解析等の処理を進めるような場合がある。しかし、実際は無音部位が文境界であるのはまれである。ここでは、上記のような場合を想定して、文頭からN番目のセグメントまでの入力をあたえ、それを提案法で解析した場合と、従来法で解析した場合を比較する。提案法では不完全な文であることを想定して処理を進めることが可能であり、この実験では、そういった<c>を用いた係り受け予期モデルの導入の効果をみる。ここで、最後の単語の係り先に関して、提案法による解析では必ず<c>に係るため入力が完全な文の場合は必然的に誤りが生じる。逆に、不完全な文を従来法で解析すると、完全な文が入力されたと仮定するので必ず最後の単語の係り先を<b>と判定し、誤りとなる。なお、実験全体を通し、学習・解析においてフィラータグのついた単語を除外している。
図14(c)は、この実験における係り受け精度を示したグラフである。
不完全な文に対する解析が多く合まれるこの実験において、提案法では最大10%程度の改善がみらた。これにより<c>による未出単語との係り受けモデルを導入することの効果が確かめられた。
〔第3の実施の形態〕
次に、本発明における第3の実施の形態について説明する。
第3の実施の形態は、本発明を構文解析に適用した例である。以下では、第1の実施の形態との相違点を中心に説明する。
構文解析は、与えられた単語列の句構造を抽出するものであり、各単語と句の関係を構文木と呼ばれる木構造で表現するものである。図15(a)は、このような構文解析によって得られた句構造を木構造で表現した例である。本形態では、単語や句が各要素情報であり、それらの関連が依存関係に対応する。そして構文木が依存構造である。従来は文単位の単語列で、かつ単語は全て既知でなければ構文解析ができなかったが、本発明を適用することにより、一部未知単語を含んでいても句構造を推定することが可能となる。以下、本形態の内容を説明する。
本形態の依存構造情報処理装置の構成は第1の実施の形態と同様である。以下では、図3を利用して本形態の処理を説明していく。
[学習処理]
1.前処理として、学習データ記憶部10a(図3)に従来の構文解析で用いたのと同様な学習データを格納しておく。
図15(b)は、この学習データ記憶部10aに格納しておく学習データ200の例示である。この例の学習データ200は、図15(a)の木構造に対応するものである。すなわち、この例の学習データ200は、「学校」「に」「兄」「と」「行く」という5つの単語の句構造を表現している。ここで、「N」は名詞を、「V」は動詞を、「P」は助詞を、「NP」は名詞句を、「VP」は動詞句を、「PP」は前置詞句を、「S」は文を示す。そして、図15(a)の木構造を示すテーブルを学習データ200としている。具体的には、例えば「学校」という単語は、名詞で名詞句である。また、「に」という単語は、助詞である。そして、「学校」と「に」という2つの単語によって前置詞句を構成している。学習データ200は、これを表すために、「学校」という単語を「N」「NP」に関連付け、「に」という単語を「P」に関連付け、さらに、これら2つの単語を同じ「PP」に関連付けている。すなわち、この例の学習データ200は、要素の関連付けによって木構造を表現できるデータ構成となっている。
2.学習処理が開始されると、まず、置換学習データ生成部10bが、学習データ記憶部10aから学習データを順次読み込み、その単語の一部を置換情報に置換し、当該置換情報に所定の依存関係を持たせた置換学習データを生成する。
図16から図18は、本形態の置換学習データ201〜203を例示した図である。
ここで、図16は、置換された単語の属性を示さない置換情報を用いて生成された置換学習データ201の例示である。すなわち、置換学習データ201は、図15の学習データ200の単語「に」「兄」「と」を、対応関係を維持しつつ、3つの置換情報「W」「W」「W」に置換したものである。これらの置換情報「W」は、置換された単語「に」「兄」「と」の属性を示すものではない。また、図17の置換学習データ202と比較すれば分かるように、語数によって句構造がどのように変化するのかを学習し、解析できるようになる。
また、図18は、置換された単語の属性の一部のみを示す置換情報を用いて生成された置換学習データ203を例示している。すなわち、置換学習データ203は、図15の学習データ200の単語「に」「兄」「と」を、対応関係を維持しつつ、各品詞を示す置換情報「P」「N」「P」に置換したものである。このような置換学習データ203を用いることにより、単語の一部が不明であるがその品詞だけはわかっている文の構文解析を精度良く実現することができる。すなわち、本形態では、単語自体は不明であるが、不明なりにもその一部の情報が得られているときに、その内容を解析結果に反映させることも可能である。
以上のように生成された置換学習データは、置換学習データ記憶部10cに送られ、そこに逐次格納される。
3.置換学習データが蓄積されると、次に、依存構造学習部10dが、学習データ記憶部10a及び置換学習データ記憶部10cから学習データ及び置換学習データを読み込み、これらを用いた学習処理によって依存構造(構文木)を学習し、当該依存構造を示す依存構造情報を依存構造情報格納部10eに出力し、そこに格納する。具体的には、依存構造学習部10dは、構文木のあるシンボル(品詞或いは単語)が、それにすぐ下に接続しているシンボルが与えられているときに存在する条件付確率
P(X|AB)=C(X)/C(AB)
P(X|w)=C(X)/C(w)
を学習データ及び置換学習データから算出し、これを依存構造情報として依存構造情報格納部10eに格納する。ただし、A,B,Xは品詞のシンボルを表し、wは単語や置換情報のシンボル若しくは品詞のシンボルを表す。また、P(X|AB)とは、品詞Aと品詞Bとが与えられているときに、それらが品詞Xを構成する条件付確率を示す。またP(X|w)とは、シンボルwが品詞Xを構成する条件付確率を示す。さらに、C(X)及びC(w)は、シンボルXおよびwが学習データ及び置換学習データに出現した回数を示し、C(AB)は、A,Bと続く品詞が学習データ及び置換学習データに出現した回数を示す。なお、これらの条件付確率が、各置換情報に対応する品詞情報を特定するための情報に相当する。
[解析処理]
次に、本形態の解析処理について説明する。
1.まず、解析対象である処理対象情報が入力部10fから入力され、これが処理対象情報格納部10gに格納される。この例の処理対象情報は単語列であるが、特に文には限定されない。また、この単語列の一部に完全に明瞭でない単語が含まれているものとする。なお、完全に明瞭でない単語とは、品詞だけしか分からない単語や、それさえも不明な単語等を意味する。
2.依存構造解析部10hは、処理対象情報格納部10gから処理対象情報である単語列を読み込む。そして、その単語列が有する完全に明瞭でない単語を学習時に用いた置換情報に置換する。例えば、不明である単語をシンボル「W」に置換し、品詞が名詞であることのみが分かっている単語をシンボル「N」に置換する。
3.次に、依存構造解析部10hは、この置換を行った単語列が採りうる木構造を仮定し、依存構造情報格納部10eに格納された条件付確率(「依存構造情報」に相当)を用いて各仮定に対応するスコアを算出して一時メモリ10iに格納していく。なお、この処理では、単語や品詞のシンボルそのものを素性として解析処理を実行する。そして、依存構造解析部10hは、一時メモリ10iに格納された各仮定のスコアを参照し、最もスコアが高い木構造を検索結果として選択し、それを特定する検索結果情報を出力する。
ちなみに、入力単語列が完全に明瞭な単語のみからなる場合には、通常の構文解析が行われる。
〔第4の実施の形態〕
次に、本発明における第4の実施の形態について説明する。
本形態は、文字認識処理に本発明を適用した例である。以下では、第1の実施の形態との相違点を中心に説明する。
文字認識は、文字が映った画像を入力とし、そこに映された文字が何という文字であるかを判定する技術である。例えば、カメラで文字を映したような場合、その映された文字は必ずしも文字全体が写っているとは限らない。画面のサイドで文字が切れている場合や、文字の上に物体がありその陰になって文字の一部しか映っていない場合もある。このように断片だけが映された文字を入力とした場合、従来技術では、文字全体が入力されたものと仮定して処理を行うことしかできなかった。特に、物体が文字の一部を隠しているときには、物体がノイズとなり認識結果に大きな影響を与えていた。
本発明をこの文字認識に適用した場合、このような問題を回避可能となる。例えば白黒画像で文字が映されている場合、ピクセル単位で格子状に画像を見ると、各行各列において白白白…黒黒黒…白白白のような白と黒の配列になっている。本形態では、このピクセル格子をピクセルの色を各要素とする画素情報の構成とその文字情報との依存構造に本発明を適用する。以下、本形態の内容を説明する。
本形態の依存構造情報処理装置の構成は第1の実施の形態と同様である。以下では、図3を利用して本形態の処理を説明していく。ここではHMMに基づく手法を説明する。なお、HMMとは、学習によって特徴量系列のパターンを記憶し、類似する特徴量系列の入力に対して高いスコアを付与するモデルである。
[学習処理]
1.前処理として、学習データ記憶部10a(図3)に従来の文字解析で用いたのと同様な複数の画素(ピクセル)情報からなる画像情報と、その正解値とを関連付けた学習データを大量に格納しておく。
例えば、図19(a)に例示するように、平仮名の「あ」の学習データとして複数種類の画像情報301a〜301cが用意され、これらの画像情報301a〜301cと、それらが平仮名の「あ」を示す旨の情報(「文字情報」に相当)とを関連付けた学習データを学習データ記憶部10aに格納しておく。なお、学習データの画像情報としては、画素情報の欠如がないものが望ましい。
図20(a)は、学習データ記憶部10aに格納される学習データ310の画像情報302の例示である。この図に例示するように、画像情報302は、白或いは黒を示す複数の画素情報302aによって構成されている。
図21(a)は、学習データ記憶部10aに格納される学習データ310のデータ構成を例示した図である。この例の学習データ310は、画素の「座標」と「値(色を示す)」との組(画素情報)の集合からなる「画像情報」と、その画像に対応する「文字情報」と「部位」との組からなる「正解値」と、を関連付けたテーブルである。なお。「部位」とは、対応する「画像情報」が文字情報の示す文字のどの部位を示しているかを表す。図21(a)の例では、「画像情報」が文字「E」の全部の部分を示していることを表している。
2.置換学習データ生成部10bは、学習データ記憶部10aから学習データを読み込み、当該学習データが具備する画像情報の一部の画素情報を所定の置換情報に置換し、置換後の画像情報に、置換前の画像情報に関連付けられていた文字情報を関連付けた置換学習データを生成する。生成された置換学習データは、置換学習データ記憶部10cに格納される。
図20(b)は、このような置換学習データの画像情報303を例示した図である。この図に例示するように、置換学習データの画像情報303は、学習データの画像情報302が有する画素情報302の一部を、一部の画素が映っていない(不明である)ことを表すメタシンボル「M」(置換情報305)に置換した情報である。なお、この例では、複数の画素情報302を1つの置換情報305に置換し、置換された画素情報の他の画素情報との依存関係を、そのまま1つの置換情報305に持たせている。
図21(b)は、本形態の置換学習データ320のデータ構成を例示した図である。この例の置換学習データ320は、図21(a)の学習データ310の「画像情報」の「値」の一部をメタシンボル「M」(置換情報321)に置換し、「部位」を「右下」と書き換えた構成となる。
このような置換学習データを用いることで、認識する文字の一部が物体の裏に隠れていても、画面の端で切れていても、映っていない部分の影響を受けずに映っている部分だけで評価を行うことができる。また、置換学習データの画像情報が文字のどの部分であるかを「部位」の欄に設定しておくことにより、認識対象の画像に写っているものが、どの文字であるかだけではなく、その文字のどこの部分であるかをも認識することが可能となる。なお、隠れている箇所や大きさによって置換するメタシンボルを変えることも可能である。また、部位の欄を設けない構成であってもよい。
3.次に、依存構造学習部10dは、学習データ記憶部10a及び置換学習データ記憶部10cから学習データ及び置換学習データを読み込み、それら全ての画像情報から特徴量を抽出する。なお、特徴量の抽出は、例えば、いくつかのピクセルの塊ごとにコサイン変換を取るなどして行う。そして、依存構造学習部10dは、正解値毎に、得られた特徴量を用いてHMMパラメータを決定し、当該HMMパラメータを、特徴量と正解値(文字情報を含む)との対応関係を示す依存構造情報として依存構造情報格納部10eに格納する。なお、HMMパラメータは、同じ正解値を持つデータごと作成される(図19(a)参照)。仮に正解値がN種類であるとすると、各正解値に対応するN個のHMMパラメータが作成される。また、HMMパラメータの学習手順は多くの参考書に記されている。
[認識処理]
次に、本形態の認識処理について説明する。図19(b)は、本形態の認識処理の概要を示した概念図である。
1.まず、認識対象である処理対象情報が入力部10fから入力され、これが処理対象情報格納部10gに格納される。本形態の処理対象情報は画像情報であり、その一部の画素が欠損しているものも含む。
2.依存構造解析部10hは、処理対象情報格納部10gから処理対象情報である画像情報を読み込み、その画像情報から特徴量を抽出する。抽出した特徴量は、一旦、一時メモリ10iに格納される。
3.次に依存構造解析部10hは、依存構造情報格納部10eから、依存構造情報であるHMMパラメータを読み込み、一時メモリ10iから上述の特徴量を読み込む。そして、このHMMパラメータを用い、読み込んだ特徴量に対し、各正解値(「あ」「い」「う」…等)に対応するHMMのスコアを算出する。そして、最も高いスコアを示したHMMに対応する正解値(「あ」)を認識結果として出力する。また、例えば、図21(b)に対応するHMMのスコアが最も高かったとすると、処理対象情報である画像情報は、文字「E」の「右下部分」である旨の認識結果を出力する。
実際は、映された画像の中に、文字が納まっているのか、収まっていたとしても一部がものの影に隠れているのかなどを事前には判定できない。そのため、そういった状況を仮定して置換情報を用いた場合の認識結果と、画像に文字が収まっているのを仮定して認識した結果のスコアを比較して最終的な認識結果を決めるという処理を行うなどとしてもよい。
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、学習データから置換学習データを生成し、生成した置換学習データだけを用いた学習処理を行ってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明の利用分野としては、音声認識分野、漢字変換分野、文字認識分野等の様々な統計情報集計処理が必要とされる分野を例示できる。
図1(a)〜(h)は、本発明における未入手情報と入手情報との依存関係を説明するための概念図である。 図2は、第1の実施の形態における依存構造情報処理装置のハードウェア構成を例示したブロック図である。 第1の実施の形態における依存構造情報処理装置の機能構成を例示したブロック図である。 図4(a)は、本形態の依存構造情報処理装置の学習処理を説明するためのフローチャートである。図4(b)は、依存構造情報を学習する処理を説明するためのフローチャートである。 図5(a)(b)は、第1の実施の形態の学習データを例示した図である。 図6(a)(b)は、第1の実施の形態の置換学習データを例示した図である。 図7(a)(b)は、第1の実施の形態の置換学習データを例示した図である。 図8は、第1の実施の形態の係り受け解析アルゴリズムを説明するための図である。 図9(a)(b)(c)は、仮説情報のデータ構成の例示である。 図10(a)は、完全な文に対する係り受け構造を説明するための図である。図10(b)は、不完全な文に対する係り受け構造を説明するための図である。 図11は、第2の実施の形態の逐次係り受け解析処理の概要を説明するための図である。 図12は、第2の実施の形態の逐次係り受け解析処理の詳細を説明するためのフローチャートである。 図13は、第2の実施の形態の逐次係り受け解析処理の詳細を説明するためのフローチャートである。 図14(a)は、このトランスクリプト及び認識結果に対する係り受け解析の実験結果を示した表である。図14(b)は、提案法のトランスクリプトにおける文境界検出精度を示した図である。図14(c)は、文頭からN番目までのセグメントで構成される不完全な文もしくは完全な文に対する係り受け解析実験における、係り受け精度を示したグラフである。 図15(a)は、構文解析によって得られた句構造を木構造で表現した例である。図15(c)は、第3の実施の形態の学習データ記憶部に格納しておく学習データの例示である。 図16(a)(b)は、第3の実施の形態の置換学習データを例示した図である。 図17(a)(b)は、第3の実施の形態の置換学習データを例示した図である。 図18(a)(b)は、第3の実施の形態の置換学習データを例示した図である。 図19(a)は、第4の実施の形態の学習処理の概要を示した概念図である。図19(b)は、本形態の認識処理の概要を示した概念図である。 図20(a)は、第4の実施の形態の学習データ記憶部に格納される学習データの画像情報の例示である。図20(b)は、本形態の置換学習データの画像情報を例示した図である。 図21(a)は、第4の実施の形態の学習データ記憶部に格納される学習データのデータ構成を例示した図である。図21(b)は、本形態の置換学習データのデータ構成を例示した図である。
符号の説明
10 依存構造情報処理装置
110,120,201,202,203,320 置換学習データ

Claims (7)

  1. 依存構造を有する情報を処理する依存構造情報処理装置であって、
    単語もしくは文節(以下、要素情報と記す)間の係り受け関係を示す、要素情報とその係り先の要素情報である主辞情報とを関連付けた学習データを格納する学習データ記憶部と、
    上記学習データの要素情報の一部を置換情報に置換し、当該置換情報に対して置換元の要素情報に関連付けられていた主辞情報を関連付けた置換学習データを生成する置換学習データ生成部と、
    上記学習データおよび置換学習データを読み込み、係り元要素情報とその正解係り先要素情報および係り先の候補の要素情報の集合から素性ベクトルを決定し、当該素性ベクトルを用い、ある要素情報が別の要素情報に係る可能性を表す統計モデルを示す式のパラメータ列を決定し、当該パラメータ列を、依存構造を示す依存構造情報として出力する依存構造学習部と、
    上記依存構造情報を格納する依存構造情報格納部と、
    を有することを特徴とする依存構造情報処理装置。
  2. 請求項1に記載の依存構造情報処理装置であって、
    要素情報の一部が欠落した文章である処理対象情報を格納する処理対象情報格納部と、
    上記処理対象情報を読み込み、素性ベクトルを算出し、上記依存構造情報を読み込み、得られた素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って、係り受け構造を解析結果として出力する依存構造解析部と、
    を有することを特徴とする依存構造情報処理装置。
  3. 依存構造を有する情報を処理する依存構造情報処理装置であって、
    単語もしくは文節(以下、要素情報と記す)間の係り受け関係を示す、要素情報とその係り先の要素情報である主辞情報とを関連付けた学習データを格納する学習データ記憶部と、
    上記学習データの先頭から要素情報の一部を抽出し、抽出した一部の要素情報の最後に未出の要素情報を表すメタシンボルを付加した置換学習データを生成する置換学習データ生成部と、
    上記学習データおよび置換学習データを読み込み、係り元要素情報とその正解係り先要素情報および係り先の候補の要素情報の集合から素性ベクトルを決定し、当該素性ベクトルを用い、ある要素情報が別の要素情報に係る可能性を表す統計モデルを示す式のパラメータ列を決定し、当該パラメータ列を、依存構造を示す依存構造情報として出力する依存構造学習部と、
    上記依存構造情報を格納する依存構造情報格納部と、
    を有することを特徴とする依存構造情報処理装置。
  4. 請求項3に記載の依存構造情報処理装置であって、
    要素情報の列からなる処理対象情報を格納する処理対象情報格納部と、
    上記処理対象情報の先頭から要素情報の一部の列を読み込み、当該一部の列の最後に上記メタシンボルを付加した第1の列に対して、第1の素性ベクトルを算出し、上記依存構造情報を読み込み、得られた第1の素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って、係り元要素情報に対する係り先要素情報が文境界を表すメタシンボルとなる場合を含めて、係り受け構造を解析し結果として出力するとともに、上記第1の列に対して、要素情報の列の次の一部の列を付加し、さらに、上記メタシンボルを最後に付加した第2の列に対して、同様に第2の素性ベクトルを算出し、得られた第2の素性ベクトルと依存構造情報とを用いて上記統計モデルを示す式に従って係り受け構造を解析し結果として出力する依存構造解析部と、
    を有することを特徴とする依存構造情報処理装置。
  5. 請求項2または請求項4において、
    上記統計モデルを示す式は、素性ベクトルを用いた、ある要素情報が別の要素情報に係る条件付確率を示す式であり、
    上記依存構造解析部は、素性ベクトルと依存構造情報とを用いて上記条件付確率を示す式に従って条件付確率を算出し、当該確率が最大となる係り元要素情報に対する係り先要素情報を選択し、その係り受け構造を解析結果とする
    ことを特徴とする依存構造情報処理装置。
  6. 請求項1から5の何れかに記載の依存構造情報処理装置としてコンピュータを機能させるためのプログラム。
  7. 請求項6に記載のプログラムを格納したコンピュータ読取り可能な記録媒体。
JP2005269419A 2005-09-16 2005-09-16 依存構造情報処理装置、そのプログラム及び記録媒体 Expired - Fee Related JP4084816B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005269419A JP4084816B2 (ja) 2005-09-16 2005-09-16 依存構造情報処理装置、そのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005269419A JP4084816B2 (ja) 2005-09-16 2005-09-16 依存構造情報処理装置、そのプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2007080117A JP2007080117A (ja) 2007-03-29
JP4084816B2 true JP4084816B2 (ja) 2008-04-30

Family

ID=37940339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005269419A Expired - Fee Related JP4084816B2 (ja) 2005-09-16 2005-09-16 依存構造情報処理装置、そのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4084816B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6482084B2 (ja) * 2016-02-18 2019-03-13 日本電信電話株式会社 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム

Also Published As

Publication number Publication date
JP2007080117A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
JP4532863B2 (ja) 2言語コーパスを整列させるための方法および装置
US7603267B2 (en) Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US7496621B2 (en) Method, program, and apparatus for natural language generation
KR101120798B1 (ko) 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치
US8311825B2 (en) Automatic speech recognition method and apparatus
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US20210232948A1 (en) Question responding apparatus, question responding method and program
Chelba Exploiting syntactic structure for natural language modeling
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
Kurita et al. Neural joint model for transition-based Chinese syntactic analysis
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
JP2020118929A (ja) 要約生成装置、方法、プログラム、及び記憶媒体
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
Khassanov et al. Enriching rare word representations in neural language models by embedding matrix augmentation
JP5238034B2 (ja) 近似照合装置、近似照合方法、プログラム及び記録媒体
JP4084816B2 (ja) 依存構造情報処理装置、そのプログラム及び記録媒体
JP3309174B2 (ja) 文字認識方法及び装置
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
JP3027553B2 (ja) 構文解析装置
JP6772393B1 (ja) 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
JP3100556B2 (ja) 品詞付与装置
CN117648908A (zh) 一种自动生成文本的方法、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080215

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees