JP2016197289A

JP2016197289A - パラメタ学習装置、類似度算出装置、方法、及びプログラム

Info

Publication number: JP2016197289A
Application number: JP2015076086A
Authority: JP
Inventors: 幸徳本間; Yukinori Homma; 仁西川; Hitoshi Nishikawa; 俊朗牧野; Toshiaki Makino; 義博松尾; Yoshihiro Matsuo
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-04-02
Filing date: 2015-04-02
Publication date: 2016-11-24

Abstract

【課題】言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる。【解決手段】順序付木生成部３０で訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、操作系列推定部３２で、訓練データの各々について、生成された順序付き木と、木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、操作分割部３４で、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、最頻の木編集操作を置換して、木編集操作の集合を更新し、パラメタ推定部３６で、木編集距離が最小となる木編集操作の系列と、木編集操作の集合とに基づいて、荷重ベクトルを更新すること繰り返す。【選択図】図１

Description

本発明は、パラメタ学習装置、類似度算出装置、方法、及びプログラムに係り、特に、文ペアの類似度を算出するためのパラメタ学習装置、類似度算出装置、方法、及びプログラムに関する。

近年、インターネット上にある大量のテキストデータが利用可能になっており、その中から必要な情報を取り出すために、文書や文間の意味内容の比較に関する技術が重要となっている。２つの文の意味内容を比較する手段の１つとして、２つの文に含まれる単語やフレーズごとの関連性から２つの文の類似度（以下、文類似度）を算出する手法が知られている（例えば非特許文献１参照）。その手法の１つとして、編集距離を利用した手法が提案されている。一般的な編集距離では、文字の挿入、削除、置換、又は入れ替えといった操作によって１つの文字列を別の文字列に変形するのに必要な最短手順と、各操作のコストから算出される合計コストとして与えられる（例えば非特許文献２参照）。文類似度を求める手法では、挿入、削除、又は置換の３つの操作がよく用いられる。

また、近年では、文字情報を利用するだけではなく、構文情報や係り受け情報を解析することで文を木構造で表現し、その木構造を基に編集距離を算出する木編集距離と呼ばれる手法が用いられている（例えば非特許文献３参照）。木編集距離を用いた計算では、文類似度は、文字や単語をノードとして表現し、ノードの挿入、削除、又は置換によるコストとして計算され、１つの木構造から別の木構造に変形するために必要な合計コストの最小値として与えられる。

また、木編集距離における挿入や削除、置換といった操作のコストは、教師信号（正例及び負例を含む）を用いた機械学習によって算出することができる。学習手法の１つとして、２つの木構造間において、考えうるすべての木編集操作系列を求め、正例の木編集操作コストの合計が小さくなるように学習する手法がある。例えば木編集操作系列を推定するために条件付き確率場（ＣＲＦ）を用いた手法などが提案されている（例えば、非特許文献４参照）。ＣＲＦを用いる手法は、２つの文の木構造の各ノードの組に対して適切な木編集操作を付与したものを木編集系列として、系列ラベリング問題を解く手法と捉えることができる。このような系列ラベリング問題を解く手法では、木編集操作系列内の連続している木編集操作間にマルコフ性を仮定しているため、２つの木構造に含まれる単語対単語や単語対フレーズといった、２つの文の木構造におけるノード間の対応付け関係を、木編集操作コストの学習と同時に学習することができる。

Daniel Jurafsky, James H. Martin. "Speech and Language Processing". Pearson Education International, 2nd ed, p.107-109, 2009. Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein. "Introduction to Algorithms". The MIT Press, 3rd ed, p.406-407, 2009. Milen Kouylekov, Bernardo Magnini. "Recognizing Textual Entailment with Tree Edit Distance Algorithms."Proceedings of the PASCAL RTE Challenge, pp.17-20, 2005 Mengqiu Wang and Christopher D. "Manning. Probabilistic Tree-Edit Models with Structured Latent Variables for Textual Entailment and Question Answering." Proceedings of the 23rd International Conference on Computational Linguistics, pp.1164-1172, 2010.

一方で、言語情報を持ったノード間の対応付けを行うためには、例えば「普通名詞の挿入を行う木編集操作」と「固有名詞の挿入を行う木編集操作」など、あらかじめ言語情報に対応した編集操作を多く用意する必要がある。そのため、学習時に２つの文の木構造間の木編集操作系列のすべてを探索又は走査をする必要があるＣＲＦを用いた学習では、計算量やメモリの使用量が大きくなるという課題がある。

本発明は、上記問題点を解決するために成されたものであり、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができるパラメタ学習装置、方法、及びプログラムを提供することを目的とする。

また、言語情報に対応した木編集操作を用いて、効率よく、文ペアの類似度を算出することができる類似度算出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るパラメタ学習装置は、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置であって、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部により前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定する操作系列推定部と、前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された２つの木編集操作で置換して、前記木編集操作の集合を更新する操作分割部と、前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部により更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するパラメタ推定部と、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返す反復判定部と、を含んで構成されている。

また、第１の発明に係るパラメタ学習装置において、前記パラメタ推定部は、前記訓練データの各々に対し、前記学習対象文の順序付き木を正例の前記学習目標文の順序付き木に変形するための、前記操作分割部により更新された前記木編集操作の集合に含まれる前記木編集操作の系列であって、前記木編集距離が最小となる前記木編集操作の系列を推定し、前記推定した前記木編集操作の系列から得られる特徴ベクトルに基づいて、前記荷重ベクトルを更新すると共に、前記操作系列推定部により前記訓練データについて推定された前記木編集距離が最小となる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新するようにしてもよい。

また、第１の発明に係るパラメタ学習装置において、前記特徴ベクトルが表す複数の特徴量は、前記学習対象文の順序付き木のノードと前記学習目標文の順序付き木のノードとの関連性に関する特徴量、前記学習対象文の順序付き木と前記学習目標文の順序付き木との関連性に関する特徴量、及び前記木編集操作の系列に関する特徴量を含むようにしてもよい。

第２の発明に係る類似度算出装置は、文ペアの類似度を算出する類似度算出装置であって、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、前記順序付木生成部により前記文ペアの文の各々について生成された順序付き木と、第１の発明に係るパラメタ学習装置で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力する操作系列推定部と、を含んで構成されている。

第３の発明に係るパラメタ学習方法は、順序付木生成部と、操作系列推定部と、操作分割部と、パラメタ推定部と、反復判定部と、を含む、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置におけるパラメタ学習方法であって、前記順序付木生成部が、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、前記操作系列推定部が、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部において生成するステップにより前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定するステップと、前記操作分割部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された２つの木編集操作で置換して、前記木編集操作の集合を更新するステップと、前記パラメタ推定部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部が更新するステップにより更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するステップと、前記反復判定部が、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返すステップと、を含んで実行することを特徴とする。

第４の発明に係る類似度算出方法は、順序付木生成部と、操作系列推定部と、を含む、文ペアの類似度を算出する類似度算出装置における類似度算出方法であって、前記順序付木生成部が、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、前記操作系列推定部が、前記順序付木生成部において生成するステップにより前記文ペアの文の各々について生成された順序付き木と、請求項５に記載のパラメタ学習方法で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力するステップと、を含んで実行することを特徴とする。

第５の発明に係るプログラムは、コンピュータを、第１の発明に係るパラメタ学習装置又は第２の発明に係る類似度算出装置を構成する各部として機能させるためのプログラムである。

本発明のパラメタ学習装置、方法、及びプログラムによれば、訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、訓練データの各々について、生成された順序付き木と、形態素の木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、最頻の木編集操作を、分割された２つの木編集操作で置換して、木編集操作の集合を更新し、木編集距離が最小となる木編集操作の系列と、操作分割部により更新された木編集操作の集合とに基づいて、荷重ベクトルを更新することを繰り返すことにより、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる、という効果が得られる。

また、本発明の類似度算出装置、方法、及びプログラムによれば、文ペアに含まれる文の各々について、木構造である順序付き木を生成し、生成された順序付き木と、パラメタ学習装置で得られた木編集操作の集合と、特徴ベクトルと、荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として出力することにより、言語情報に対応した木編集操作を用いて、効率よく、文ペアの類似度を算出することができる、という効果が得られる。

本発明の実施の形態に係るパラメタ学習装置の構成を示すブロック図である。訓練データの集合の一例を示す図である。順序付木生成部３０における順序付き木の生成の結果の一例を示す図である。パラメタにおける、特徴ベクトルの一例を示す図である。学習対象文の順序付き木τ_ｔと学習目標文の順序付き木τ_ｈの一例を示す図である。学習対象文の順序付き木τ_ｔと学習目標文の順序付き木τ_ｈが与えられた時の動的計画法による木編集操作の系列の推定の一例を示す図である。木編集操作の系列の推定結果の一例を示す図である。木編集操作の分割処理の一例を示す図である。パラメタの学習における更新プロセスの疑似コードの一例を示す図である。本発明の実施の形態に係る類似度算出装置の構成を示すブロック図である。本発明の実施の形態に係るパラメタ学習装置におけるパラメタ学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る類似度算出装置における類似度算出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本実施の形態では、訓練データの集合に応じて木編集操作の種類を最適化すること、及び学習時に最小コストを取る木編集操作系列のみを走査する学習手法を用いることで、上記の問題点に対処する。第１に、木編集操作数の最適化のために、学習用の訓練データに応じて木編集操作の種類数を分割する機能を加える。データによって最適な木編集操作の種類数を取るように逐次的に分割処理を行うために、あらかじめ木編集操作の種類を分割して用意する必要がなく、メモリの使用量と計算時間を削減することができる。第２に、学習の際、ＣＲＦと同様に系列問題を扱う構造化パーセプトロンを適用する。構造化パーセプトロンを利用した手法によって、最大の確率値を取る木編集操作系列のみの走査で学習が可能となるため、計算量を軽減することが可能となる。

＜本発明の実施の形態に係るパラメタ学習装置の構成＞

次に、本発明の実施の形態に係るパラメタ学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係るパラメタ学習装置１００は、ＣＰＵと、ＲＡＭと、後述するパラメタ学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このパラメタ学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、図２に示すような、訓練データの集合を受け付ける。訓練データの集合における訓練データは、学習対象文と、学習対象文と類似する正例の学習目標文及び学習対象文と類似しない負例の学習目標文との２つ組からなる。本実施の形態では、正例の学習目標文を一つとし、負例の学習目標文を複数とする。例えば、訓練データは、「“プロメーテウスは人類に火を渡し、張り付けにされた”」という学習対象文に対して、「“プロメテウスは人類に火を齎して罰を受けた。”」のように意味的関連性を含む正例の学習目標文１つと、「“飲むヨーグルトは、酒の一種だ。”、“あたり付ききなこ棒がある。”」のように意味的関連性を含まない複数の負例の学習目標文とを含む。

演算部２０は、順序付木生成部３０と、操作系列推定部３２と、操作分割部３４と、パラメタ推定部３６と、反復判定部３８と、パラメタ集合ＤＢ４０とを含んで構成されている。

順序付木生成部３０は、以下に説明するように、入力部１０により受け付けた訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、ノードの各々に順序が付けられた木構造である順序付き木を生成する。

順序付木生成部３０は、まず、学習対象文及び学習目標文の各々に対して形態素解析及び係り受け解析の処理を行う。例えば、形態素解析に非特許文献５（Takeshi Fuchi and Shinichiro Takagi. “Japanese Morphological Analyzer using Word Co-occurrence -JTAG.”In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (Volume 1), pp. 409-413, 1998.）記載の方法を利用することができる。また、係り受け解析に非特許文献６（Kenji Imamura, Genichiro Kikui and Norihito Yasuda. “Japanese Dependency Parsing Using Sequential Labeling for Semi-spoken Language.” In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pp. 225-228, 2007.）記載の方法を利用することができる。次に、係り受け解析によって得られた係り受け木に対して順序付けを行う。ここでは、係り受け解析で得られたそれぞれの形態素をノードと見なした係り受け木に対して、当該木に対して後順に走査した順番をノードに付与する。図３に、順序付木生成部３０における順序付き木の生成の結果の一例を示す。ここで順序付き木の各ノードは、単に表層の語彙を持つだけでなく、形態素解析によって得られた、形態素の種類、連用形、読み、及び原型といった言語情報と、当該ノードの親ノードや子ノードの有無及びポインタといった木構造情報とを保持している。

パラメタ集合ＤＢ４０には、パラメタとして、木編集操作の集合と、置換、削除、又は追加の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、当該複数の特徴ベクトルの各々に関連する、複数の特徴量に対する複数の重みを表す荷重ベクトルとが格納されている。図４にパラメタの一例として、特徴ベクトル

の要素として表現される複数の特徴量を示す。

特徴ベクトルが表す複数の特徴量は、具体的には、学習対象文の順序付き木のノードと学習目標文の順序付き木のノードとの関連性に関する特徴量と、学習対象文の順序付き木及び学習目標文の順序付き木の関連性に関する特徴量と、木編集操作の各々を行うか否かを表す特徴量と、木編集操作の系列に関する特徴量と、を含んで表される。複数の特徴量の値は｛０，１｝の二値で定義される。また、学習対象文の順序付き木をτ_ｔ、学習目標文の順序付き木をτ_ｈと定義する。例えば学習対象文の順序付き木のノード及び学習目標文の順序付き木のノード（以下、２つのノード、と記述する）の関連性に関する特徴量として、「２つのノードの表層が等しい」、「２つのノードの固有名詞が等しい」等の特徴量が挙げられる。「２つのノードの表層が等しい」という特徴量の場合、該当する木編集操作の対象である２つのノードの表層が等しければ１の値、表層が等しくなければ０の値を取る。また、学習対象文の順序付き木τ_ｔ及び学習目標文の順序付き木τ_ｈの関連性に関する特徴量として、「２つのノードの親ノード間において表層が等しい」等の特徴量が挙げられる。これは、着目している２つのノードにおいて、親ノードの表象が等しければ１の値、等しくなければ０の値を取る。また、木編集操作の系列に関する特徴量として、「計算対象の操作系列に直前に遷移した操作系列が置換である」等の特徴量が挙げられる。これは、現在着目している２つのノードの組に対し、当該２つのノードの組に遷移可能な直前の２つのノードの組に対して行われた木編集操作ｅ_ｍ−１が置換であれば１の値、置換でなければ０の値を取る。

荷重ベクトルは、関連する特徴ベクトルの特徴量における影響の大きさを示し、荷重ベクトルの各要素は実数の定義域を持つ。木編集操作のコストは、ノードの組に対応する特徴ベクトルと、当該特徴ベクトルに関連する荷重ベクトルとの値を用いた重み付き線形和によって決定される。

操作系列推定部３２は、以下に説明するように、訓練データの集合における訓練データの各々について、順序付木生成部３０により当該訓練データの学習対象文及び学習目標文の各々について生成された順序付き木と、パラメタ集合ＤＢ４０に格納されている木編集操作の集合と、パラメタ集合ＤＢ４０に格納されている複数の特徴ベクトルと、パラメタ集合ＤＢ４０に格納されている当該複数の特徴ベクトルの各々に関連する複数の荷重ベクトルとに基づいて、当該訓練データの学習対象文の順序付き木を何れかの学習目標文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集操作の系列に対応する特徴ベクトルの系列及び特徴ベクトルの系列に関連する荷重ベクトルの系列に基づいて算出される木編集距離が最小となる木編集操作の系列を推定する。

操作系列推定部３２の具体的な処理について、以下に説明する。操作系列推定部３２は、まず、順序付木生成部３０から出力される学習対象文の順序付き木、正例の学習目標文の順序付き木、及び複数の負例の学習目標文の順序付き木を受け取る。そして、動的計画法等を利用した手法を用いて、木編集距離が最小のコストとなる木編集操作の系列を推定する。木編集距離が最小のコストとなる木編集操作の系列は、パラメタ集合ＤＢ４０に格納されている複数の特徴ベクトルと、関連する荷重ベクトルとに基づいて各木編集操作におけるコストを算出することにより推定できる。ここでは、学習対象文の順序付き木τ_ｔから何れかの学習目標文の順序付き木τ_ｈへ変形するコストが最小である木編集操作の系列＾ｅを以下の（１）式によって推定する。

ただし、ｅ＝ｅ_０，ｅ_１，…，ｅ_Ｍは学習対象文の順序付き木τ_ｔから学習目標文の順序付き木τ_ｈへと変形する際の可能な、ある連続するＭ個の木編集操作からなる木編集操作の系列を示している。ここでｅ_０は操作しないという操作である。また、木編集操作の系列＾ｅは、学習対象文の順序付き木τ_ｔから正例の学習目標文の順序付き木τ_ｈへ変形するコストが最小である木編集操作の系列、及び学習対象文の順序付き木τ_ｔから負例の学習目標文の順序付き木τ_ｈへ変形するコストが最小である木編集操作の系列のうち、コストが最小である木編集操作の系列である。また、

は、パラメタ集合ＤＢ４０に格納されている特徴ベクトルを示し、ｗは、当該特徴ベクトルに関連する荷重ベクトルを示している。最小のコストを持つ木編集操作の系列の推定手法としては、例えば非特許文献７（Kaizhong Zhang and Dennis Shasha.“Simple fast algorithms for the editing distance between trees and related problems. SIAM J.” Comput, Vol.18 No.6, pp.1245-1262, 1989.）記載の方法を利用することができる。図５〜図７に木編集操作の系列の推定の一例を示す。図５は、学習対象文の順序付き木τ_ｔと学習目標文の順序付き木τ_ｈの一例を表している。図６は、図５の学習対象文の順序付き木τ_ｔと学習目標文の順序付き木τ_ｈが与えられた時の動的計画法による木編集操作の系列の推定を表している。図７は、図６の木編集操作の系列の推定結果を示している。図７中のεは、ノードの置換、削除、又は追加を統一的に表現するために導入した、存在しない仮想ノードを表している。図６中の動的計画法は以下の手順によって定義される。まず、学習対象文の順序付き木τ_ｔに含まれるノードの数に１を加えた数の行と、学習目標文の順序付き木τ_ｈに含まれるノードの数に１を加えた数の列を持つ表を作成する。当該表のｉ行ｊ列目のセルは、学習対象文の順序付き木τ_ｔにおいて付与された順序がｉ番目以上のノードを削除した順序付き木から、学習目標文の順序付き木τ_ｈにおいて付与された順序ｊ番目以上のノードを削除した順序付き木へと変形する際の木編集操作のコストの合計値を示している。例えば、２行２列目のセルはＢ１ノードのみからなる順序付き木からｃ１ノードのみからなる順序付き木へ変形するまでの木編集操作のコストの合計値を示している。また、例えば１行２列目のセルはｃ１ノードを挿入する木編集操作のコストを示している。表では簡単のため、各行列の項目名を該当する順序付き木の最大順序を持つノードで表している。次に、パラメタ集合ＤＢ４０に格納されている特徴ベクトル及び荷重ベクトルから算出される木編集操作のコスト

を用いて表の左上から該当セルにおける最小コストの総和と、学習目標文に到達するために通った表中の経路を記入していく。図６の表では、当該経路は矢印によって表現されており、矢印の方向によって木編集操作の種類が同定できる。例えば、１行目１列目から１行目２列目への経路を示す横矢印はｃ１ノードの追加操作を示し、１行目２列目から２行目２列目への経路を示す縦矢印はＢ１ノードの削除操作を示す。また２行目２列目から３行目３列目への経路を示す斜め矢印はＣノードからｃ２ノードへの置換操作を示す。ここで、該当セルに到達するための最小コストを取る経路が複数存在することも考えられるが、その場合、例えばノードの置換、削除、又は追加といった、木編集操作の種類によって優先度をあらかじめ設けるなどの処理を行うことで、木編集距離が最小コストを取る経路を一意に決定する。最後に、表の右下から経路が存在するセルを辿ることによって最小コストを持つ木編集操作の系列をパラメタ集合ＤＢ４０の木編集操作の系列の集合に加えると共に、操作分割部３４に出力する。

操作分割部３４は、以下に説明するように、操作系列推定部３２により訓練データの各々について推定された木編集距離が最小となる木編集操作の系列において、木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、木編集操作の系列に含まれる最頻の木編集操作に対応して出現する特徴ベクトル及び特徴ベクトルに関連する荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、木編集操作の集合に含まれる最頻の木編集操作を、分割された２つの木編集操作で置換して、木編集操作の集合を更新する。

操作分割部３４は、まず、操作系列推定部３２により訓練データの集合における訓練データの各々について推定された木編集操作の系列を受け取る。ここで多数の木編集操作の系列から真に最適に木編集操作が分割された木編集操作の集合を求めたいが、特徴ベクトルの各要素におけるカテゴリ分類や木編集操作の階層的な構造などに関する膨大な組み合わせ問題を解く必要があり、計算量の削減という目的に合わせても、それを実現することは難しい。そこで最も分割されるべき木編集操作を推定し分割するという処理を繰り返すことによって木編集操作の精密化を逐次的に行う手法を実施する。

操作分割部３４は、具体的には２つの仮定を置くことで該当する木編集操作を推定し分割を行う。まず１つめの仮定として、与えられた多数の木編集操作系列の中で最も多く出現する最頻の木編集操作の分割が効果的であると考え、当該木編集操作を２つの木編集操作に分割する対象と推定する。次に２つめの仮定として、ある木編集操作を分割するとき、その木編集操作に対応する複数の特徴ベクトルにおいて、最も分散が大きく、木編集操作に対して強い影響（大きい重み）を与える特徴量に応じて分割を実施するべきと考え、当該特徴量の値に対応した木編集操作の分割を行う。分割で用いる特徴量の選択は、例えば以下のような手順で行う。まず分割対象の木編集操作に対応する特徴ベクトルに関連する荷重ベクトルにおいて一定値以上の値（重み）を持つ特徴量を抽出する。次に抽出した特徴量において、荷重ベクトルの値の降順に、分割の対象となる木編集操作に対応する特徴ベクトルであって、木編集操作の系列の推定で出現した特徴ベクトルから、当該特徴量における値の分散を計算し、一定値以上の分散の値を持つ１つの特徴量の二値に対応して、木編集操作の分割を行う。ここで分割された２つの木編集操作における荷重ベクトルは、分割前の木編集操作の荷重ベクトルと同じ値を継承する。分散または荷重の大きさが一定値以上でない場合、分割は行わない。

図８に木編集操作の分割処理の一例を示す。図８は、分割の対象候補となっている木編集操作と、その木編集操作を用いて木編集操作の系列＾ｅを推定した際に出現した、すべての特徴ベクトルと、当該すべての特徴ベクトルに関連する荷重ベクトルの一例を示している。ここでは簡単な例として、「置換」操作は２回計算されており、計算の際に出現した特徴ベクトルが２つ存在する場合を挙げている。各特徴量の中で、対応する荷重ベクトルの値が一定値以上であり、かつ２つの特徴ベクトルから計算される分散が一定値以上である１つの特徴量「固有名詞である」について、「置換」操作を２つの操作に分割している。このようにして最頻の木編集操作を分割された２つの木編集操作で置換し、パラメタ集合ＤＢ４０の木編集操作の集合を更新すると共に、パラメタ集合ＤＢ４０に置換した木編集操作に関連する特徴ベクトル及び荷重ベクトルを格納する。

操作分割部３４において、上記の木編集操作の分割手法を用いるとき、木編集操作集合の初期値としては「置換」、「削除」、「追加」といった３つの木編集操作からなる集合を用いる。また、複数の特徴ベクトルに関連するそれぞれの荷重ベクトルの初期値としては、例えば標準正規分布から生成される乱数を用いる。ここで、学習の初期段階においてパラメタ集合ＤＢ４０から算出される荷重ベクトルの学習が十分でなく、木編集操作の分割を推定するためにふさわしい値でない場合が考えられる。このような場合は、例えば学習を繰り返した回数が一定以下のときは木編集操作の分割は行わないなどの条件を設定して学習を実施してもよい。

パラメタ推定部３６は、以下に説明するように、訓練データの各々に対し、学習対象文の順序付き木を正例の学習目標文の順序付き木に変形するための、操作分割部３４により更新された木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列を推定し、推定した木編集操作の系列から得られる特徴ベクトルに基づいて、荷重ベクトルを更新すると共に、操作系列推定部３２により訓練データについて推定された木編集距離が最小となる特徴ベクトルに基づいて、荷重ベクトルを更新する。

本実施の形態のパラメタ推定部３６における荷重ベクトルの更新には、構造化パーセプトロンを用いる。ここでは、例えば非特許文献８（Michael Collins. “Discriminative training methods for hidden marko models: Theory and experiments with perceptron algorithms.” In Proceedings of EMNLP, pp.1-8, 2002.）記載のアルゴリズムを利用することができる。

パラメタ推定部３６は、更に、学習対象文の順序付き木τ_ｔから最小のコストを取る木編集操作の系列として推定された＾ｅによって変形される学習目標文の順序付き木＾τ_ｈが、正例の学習目標文から生成される順序付き木τ'_ｈと一致していない場合、荷重ベクトルｗの更新を行う。つまり、荷重ベクトルの学習が十分でないと、推定された＾ｅが、正しく推定されておらず、正例の学習目標文へと変形するものとなっていない場合があるため、正例の学習目標文へと変形するものとなるように、荷重ベクトルの最適化を行う。

更新では、まず学習対象文の順序付き木τ_ｔと正例の学習目標文の順序付き木τ'_ｈ間の最小コストを持つ連続するＮ個の木編集操作の系列ｅ'＝ｅ_０，ｅ_１，…，ｅ_Ｎを求める。ここで、ｅ'は、

である。そして、学習対象文の順序付き木τ_ｔから、正例の学習目標文の順序付き木τ'_ｈへと変形する際の木編集操作の系列ｅ'に含まれるすべての木編集操作の各々に対し、当該木編集操作に対応する特徴ベクトルに関連する荷重ベクトルｗを、当該木編集操作に対応する特徴ベクトルを用いて以下（２）式の更新式

によって更新する。また学習対象文の順序付き木τ_ｔから、誤って推定された学習目標文の順序付き木＾τ_ｈへと変形する際の木編集操作の系列＾ｅに含まれるすべての木編集操作の各々に対し、当該木編集操作に対応する特徴ベクトルに関連する荷重ベクトルｗを、当該木編集操作に対応する特徴ベクトルを用いて以下（３）式の更新式

によって更新する。

反復判定部３８は、反復終了条件を満たすまで、操作系列推定部３２による推定、操作分割部３４による分割、及びパラメタ推定部３６による更新を繰り返す。反復終了条件としては、例えば予め定められた回数を繰り返すようにすればよい。

以上のように本実施の形態におけるパラメタ学習装置１００は、パラメタ集合ＤＢ４０に格納されているパラメタの内、木編集操作の集合と、荷重ベクトルとを更新することによりパラメタを学習する。図９にパラメタの学習における更新プロセスの疑似コードを示す。図９において、５行目から９行目が操作系列推定部３２の処理、１０行目から２５行目が操作分割部３４の処理、２６行目から３４行目がパラメタ推定部３６の処理をそれぞれ表している。

＜本発明の実施の形態に係る類似度算出装置の構成＞

次に、本発明の実施の形態に係る類似度算出装置の構成について説明する。図１０に示すように、本発明の実施の形態に係る類似度算出装置２００は、ＣＰＵと、ＲＡＭと、後述する類似度算出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この類似度算出装置２００は、機能的には図１０に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、類似度を算出したい文ペアの入力を受け付ける。例えば、「プロメーテウスは人類に火を渡し、張り付けにされた。」と「プロメテウスは人類に火を齎して罰を受けた。」のような文ペアのテキストデータを入力として受け付ける。

演算部２２０は、順序付木生成部２３０と、操作系列推定部２３２と、パラメタ集合ＤＢ２４０とを含んで構成されている。

順序付木生成部２３０は、入力部２１０で受け付けた文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、ノードの各々に順序が付けられた木構造である順序付き木を生成する。なお、順序付木生成部２３０の具体的な処理は、上記パラメタ学習装置１００の順序付木生成部３０と同様であるため詳細な説明を省略する。

パラメタ集合ＤＢ２４０には、上記パラメタ学習装置１００により学習されたパラメタ集合ＤＢ４０と同様のものが格納されている。

操作系列推定部２３２は、順序付木生成部２３０により文ペアの文の各々について生成された順序付き木と、パラメタ集合ＤＢ２４０に格納されている木編集操作の集合と、パラメタ集合ＤＢ２４０に格納されている複数の特徴ベクトル及び複数の荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集操作の系列に対応する特徴ベクトルの系列及び特徴ベクトルの系列に関連する荷重ベクトルの系列に基づいて算出される木編集距離が最小となる木編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として、出力部２５０へと出力する。なお、操作系列推定部２３２における具体的な処理は、上記パラメタ学習装置１００の操作系列推定部２３２と同様であるため、詳細な説明を省略する。また、操作系列推定部２３２では、合計コストの最小値を出力するが、木編集操作の系列によっては、合計コストが負の値を取ることも考えられる。その場合、必要ならば、例えばシグモイド関数などの単調増加関数を用いて、正の値に変換してもよい。

＜本発明の実施の形態に係るパラメタ学習装置の作用＞

次に、本発明の実施の形態に係るパラメタ学習装置１００の作用について説明する。入力部１０において訓練データの集合を受け付けると、パラメタ学習装置１００は、図１１に示すパラメタ学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成する。

次に、ステップＳ１０１では、パラメタ集合ＤＢ４０に格納されている木編集操作の集合及び荷重ベクトルの集合を初期化する。

ステップＳ１０２では、入力部１０において受け付けた訓練データの集合における訓練データを選択する。

ステップＳ１０３では、ステップＳ１０２で選択された訓練データについて、ステップＳ１００で生成された順序付き木と、パラメタ集合ＤＢ４０に格納されている木編集操作の集合と、パラメタ集合ＤＢ４０に格納されている複数の特徴ベクトルと、パラメタ集合ＤＢ４０に格納されている複数の荷重ベクトルとに基づいて、当該訓練データの学習対象文の順序付き木を何れかの学習目標文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列＾ｅを推定する。

ステップＳ１０４では、すべての訓練データについてステップＳ１０３の推定をしたかを判定し、推定していればステップＳ１０６へ移行し、推定していなければステップＳ１０２へ戻って次の訓練データを選択して推定を繰り返す。

ステップＳ１０６では、ステップＳ１０２で訓練データの各々について推定された木編集操作の系列において、木編集操作の集合に含まれる木編集操作のうち最頻の木編集操作を選択する。

ステップＳ１０８では、ステップＳ１０６で選択した最頻の木編集操作に対応して出現する特徴ベクトル及び特徴ベクトルに関連する荷重ベクトルにおいて、特徴量の分散値が一定値以上で、かつ、対応する重みが一定値以上となる特徴量が存在する、という条件を満たすか否かを判定し、当該条件を満たす場合はステップＳ１１０へ移行し、当該条件を満たさない場合はステップＳ１１３へ移行する。

ステップＳ１１０では、ステップＳ１０８で判定された条件に該当する特徴量の二値に従って、ステップＳ１０６で選択した最頻の木編集操作を２つに分割する。

ステップＳ１１２では、パラメタ集合ＤＢ４０に格納されている木編集操作の集合に含まれる最頻の木編集操作を、上記ステップＳ１１０で分割された２つの木編集操作で置換すると共に、ステップＳ１０３で訓練データの各々について推定された木編集操作の系列に含まれる最頻の木編集操作を、対応する特徴ベクトルに応じて、ステップＳ１１０で分割された２つの木編集操作の何れかで置換する。

ステップＳ１１３では、入力部１０において受け付けた訓練データ集合における訓練データを選択する。

ステップＳ１１４では、ステップＳ１１３で選択した訓練データに対応してステップＳ１０３で推定された木編集距離が最小となる木編集操作の系列＾ｅにより変形された順序付き木＾τ_ｈが、当該訓練データにおける正例の学習目標文の順序付き木τ'_ｈと一致するかを判定し、一致していなければステップＳ１１５へ移行し、一致していればステップＳ１２０へ移行する。

ステップＳ１１５では、ステップＳ１１３で選択した訓練データの学習対象文の順序付き木を正例の学習目標文の順序付き木へ変形するための、木編集距離が最小となる木編集操作の系列ｅ'を推定する。

ステップＳ１１６では、ステップＳ１１５で推定された木編集操作の系列ｅ'に基づいて、木編集操作の各々に対応する特徴ベクトルに関連する荷重ベクトルｗを上記（２）式の更新式により更新する。

ステップＳ１１８では、ステップＳ１１３で選択した訓練データに対応してステップＳ１０３で推定された木編集距離が最小となる木編集操作の系列＾ｅに基づいて、木編集操作の各々に対応する特徴ベクトルに関連する荷重ベクトルｗを上記（３）式の更新式により更新する。

ステップＳ１２０では、すべての訓練データについて、ステップＳ１１４の更新判定をしたかを判定し、更新判定していればステップＳ１２２へ移行し、更新判定していなければステップＳ１１３へ戻って次の訓練データを選択して更新判定を繰り返す。

ステップＳ１２２では、予め定められた回数を繰り返す反復終了条件を満たすかを判定し、反復終了条件を満たしていればパラメタ学習処理ルーチンを終了し、反復終了条件を満たしていなければステップＳ１０２へ戻ってステップＳ１０２〜ステップＳ１２０の処理を繰り返す。

以上説明したように、本実施の形態に係るパラメタ学習装置によれば、訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、訓練データの各々について、生成された順序付き木と、形態素の木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、最頻の木編集操作を、分割された２つの木編集操作で置換して、木編集操作の集合を更新し、木編集距離が最小となる木編集操作の系列と、操作分割部により更新された木編集操作の集合とに基づいて、荷重ベクトルを更新することを繰り返すことにより、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる。

また、本実施の形態によれば、与えられた訓練データの集合を用いた、文から生成されるある木構造からある木構造への木編集操作の合計コストの最小値として計算される２つの文類似度の学習において、最適な木編集操作群と木編集操作のコストを同時に推定し、学習における計算量を削減することができる。

＜本発明の実施の形態に係るパラメタ学習装置の作用＞

次に、本発明の実施の形態に係る類似度算出装置２００の作用について説明する。入力部２１０において文ペアを受け付けると、類似度算出装置２００は、図１２に示す類似度算出処理ルーチンを実行する。

ステップＳ２００では、入力部２１０において受け付けた文ペアに含まれる文の各々について、木構造である順序付き木を生成する。

ステップＳ２０２では、文ペアについて、ステップＳ２００で生成された順序付き木と、パラメタ集合ＤＢ２４０に格納されている木編集操作の集合と、パラメタ集合ＤＢ２４０に格納されている複数の特徴ベクトルと、パラメタ集合ＤＢ２４０に格納されている複数の荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列＾ｅを推定する。

ステップＳ２０４では、ステップＳ２０２で推定された木編集操作の系列＾ｅを出力部２５０へと出力して処理を終了する。

以上説明したように、本実施の形態に係る類似度算出装置によれば、文ペアに含まれる文の各々について、木構造である順序付き木を生成し、生成された順序付き木と、パラメタ学習装置で得られた木編集操作の集合と、特徴ベクトルと、荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として出力することにより、言語情報に対応した編集操作を用いて、効率よく、文ペアの類似度を算出することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、特徴ベクトルが表す複数の特徴量は、学習対象文の順序付き木のノードと学習目標文の順序付き木のノードとの関連性に関する特徴量と、学習対象文の順序付き木及び学習目標文の順序付き木の関連性に関する特徴量と、木編集操作の各々を行うか否かを表す特徴量と、木編集操作の系列に関する特徴量と、を含んで表されるものとして説明したが、これに限定されるものではなく、木編集操作に関する特徴量を含んでいれば、他の特徴量を用いてもよい。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。

１０、２１０入力部
２０、２２０演算部
３０、２３０順序付木生成部
３２、２３２操作系列推定部
３４操作分割部
３６パラメタ推定部
３８反復判定部
４０、２４０パラメタ集合ＤＢ
１００パラメタ学習装置
２００類似度算出装置
２５０出力部

Claims

学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置であって、
前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、
前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部により前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定する操作系列推定部と、
前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された２つの木編集操作で置換して、前記木編集操作の集合を更新する操作分割部と、
前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部により更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するパラメタ推定部と、
予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返す反復判定部と、
を含むパラメタ学習装置。
前記パラメタ推定部は、前記訓練データの各々に対し、前記学習対象文の順序付き木を正例の前記学習目標文の順序付き木に変形するための、前記操作分割部により更新された前記木編集操作の集合に含まれる前記木編集操作の系列であって、前記木編集距離が最小となる前記木編集操作の系列を推定し、前記推定した前記木編集操作の系列から得られる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新すると共に、前記操作系列推定部により前記訓練データについて推定された前記木編集距離が最小となる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新する請求項１記載のパラメタ学習装置。
前記特徴ベクトルが表す複数の特徴量は、前記学習対象文の順序付き木のノードと前記学習目標文の順序付き木のノードとの関連性に関する特徴量、前記学習対象文の順序付き木と前記学習目標文の順序付き木との関連性に関する特徴量、及び前記木編集操作の系列に関する特徴量を含む請求項１又は２記載のパラメタ学習装置。
文ペアの類似度を算出する類似度算出装置であって、
前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、
前記順序付木生成部により前記文ペアの文の各々について生成された順序付き木と、請求項１〜請求項３のいずれか１項に記載のパラメタ学習装置で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力する操作系列推定部と、
を含む類似度算出装置。
順序付木生成部と、操作系列推定部と、操作分割部と、パラメタ推定部と、反復判定部と、を含む、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置におけるパラメタ学習方法であって、
前記順序付木生成部が、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、
前記操作系列推定部が、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部において生成するステップにより前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定するステップと、
前記操作分割部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って２つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された２つの木編集操作で置換して、前記木編集操作の集合を更新するステップと、
前記パラメタ推定部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部が更新するステップにより更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するステップと、
前記反復判定部が、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返すステップと、
を含むパラメタ学習方法。
順序付木生成部と、操作系列推定部と、を含む、文ペアの類似度を算出する類似度算出装置における類似度算出方法であって、
前記順序付木生成部が、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、
前記操作系列推定部が、前記順序付木生成部において生成するステップにより前記文ペアの文の各々について生成された順序付き木と、請求項５に記載のパラメタ学習方法で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力するステップと、
を含む類似度算出方法。
コンピュータを、請求項１〜請求項３のいずれか１項に記載のパラメタ学習装置又は請求項４に記載の類似度算出装置を構成する各部として機能させるためのプログラム。