JP2016197289A - パラメタ学習装置、類似度算出装置、方法、及びプログラム - Google Patents

パラメタ学習装置、類似度算出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016197289A
JP2016197289A JP2015076086A JP2015076086A JP2016197289A JP 2016197289 A JP2016197289 A JP 2016197289A JP 2015076086 A JP2015076086 A JP 2015076086A JP 2015076086 A JP2015076086 A JP 2015076086A JP 2016197289 A JP2016197289 A JP 2016197289A
Authority
JP
Japan
Prior art keywords
tree
ordered
sequence
tree editing
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015076086A
Other languages
English (en)
Inventor
幸徳 本間
Yukinori Homma
幸徳 本間
仁 西川
Hitoshi Nishikawa
仁 西川
俊朗 牧野
Toshiaki Makino
俊朗 牧野
義博 松尾
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015076086A priority Critical patent/JP2016197289A/ja
Publication of JP2016197289A publication Critical patent/JP2016197289A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる。【解決手段】順序付木生成部30で訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、操作系列推定部32で、訓練データの各々について、生成された順序付き木と、木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、操作分割部34で、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、最頻の木編集操作を置換して、木編集操作の集合を更新し、パラメタ推定部36で、木編集距離が最小となる木編集操作の系列と、木編集操作の集合とに基づいて、荷重ベクトルを更新すること繰り返す。【選択図】図1

Description

本発明は、パラメタ学習装置、類似度算出装置、方法、及びプログラムに係り、特に、文ペアの類似度を算出するためのパラメタ学習装置、類似度算出装置、方法、及びプログラムに関する。
近年、インターネット上にある大量のテキストデータが利用可能になっており、その中から必要な情報を取り出すために、文書や文間の意味内容の比較に関する技術が重要となっている。2つの文の意味内容を比較する手段の1つとして、2つの文に含まれる単語やフレーズごとの関連性から2つの文の類似度(以下、文類似度)を算出する手法が知られている(例えば非特許文献1参照)。その手法の1つとして、編集距離を利用した手法が提案されている。一般的な編集距離では、文字の挿入、削除、置換、又は入れ替えといった操作によって1つの文字列を別の文字列に変形するのに必要な最短手順と、各操作のコストから算出される合計コストとして与えられる(例えば非特許文献2参照)。文類似度を求める手法では、挿入、削除、又は置換の3つの操作がよく用いられる。
また、近年では、文字情報を利用するだけではなく、構文情報や係り受け情報を解析することで文を木構造で表現し、その木構造を基に編集距離を算出する木編集距離と呼ばれる手法が用いられている(例えば非特許文献3参照)。木編集距離を用いた計算では、文類似度は、文字や単語をノードとして表現し、ノードの挿入、削除、又は置換によるコストとして計算され、1つの木構造から別の木構造に変形するために必要な合計コストの最小値として与えられる。
また、木編集距離における挿入や削除、置換といった操作のコストは、教師信号(正例及び負例を含む)を用いた機械学習によって算出することができる。学習手法の1つとして、2つの木構造間において、考えうるすべての木編集操作系列を求め、正例の木編集操作コストの合計が小さくなるように学習する手法がある。例えば木編集操作系列を推定するために条件付き確率場(CRF)を用いた手法などが提案されている(例えば、非特許文献4参照)。CRFを用いる手法は、2つの文の木構造の各ノードの組に対して適切な木編集操作を付与したものを木編集系列として、系列ラベリング問題を解く手法と捉えることができる。このような系列ラベリング問題を解く手法では、木編集操作系列内の連続している木編集操作間にマルコフ性を仮定しているため、2つの木構造に含まれる単語対単語や単語対フレーズといった、2つの文の木構造におけるノード間の対応付け関係を、木編集操作コストの学習と同時に学習することができる。
Daniel Jurafsky, James H. Martin. "Speech and Language Processing". Pearson Education International, 2nd ed, p.107-109, 2009. Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein. "Introduction to Algorithms". The MIT Press, 3rd ed, p.406-407, 2009. Milen Kouylekov, Bernardo Magnini. "Recognizing Textual Entailment with Tree Edit Distance Algorithms."Proceedings of the PASCAL RTE Challenge, pp.17-20, 2005 Mengqiu Wang and Christopher D. "Manning. Probabilistic Tree-Edit Models with Structured Latent Variables for Textual Entailment and Question Answering." Proceedings of the 23rd International Conference on Computational Linguistics, pp.1164-1172, 2010.
一方で、言語情報を持ったノード間の対応付けを行うためには、例えば「普通名詞の挿入を行う木編集操作」と「固有名詞の挿入を行う木編集操作」など、あらかじめ言語情報に対応した編集操作を多く用意する必要がある。そのため、学習時に2つの文の木構造間の木編集操作系列のすべてを探索又は走査をする必要があるCRFを用いた学習では、計算量やメモリの使用量が大きくなるという課題がある。
本発明は、上記問題点を解決するために成されたものであり、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができるパラメタ学習装置、方法、及びプログラムを提供することを目的とする。
また、言語情報に対応した木編集操作を用いて、効率よく、文ペアの類似度を算出することができる類似度算出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るパラメタ学習装置は、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置であって、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部により前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定する操作系列推定部と、前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された2つの木編集操作で置換して、前記木編集操作の集合を更新する操作分割部と、前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部により更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するパラメタ推定部と、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返す反復判定部と、を含んで構成されている。
また、第1の発明に係るパラメタ学習装置において、前記パラメタ推定部は、前記訓練データの各々に対し、前記学習対象文の順序付き木を正例の前記学習目標文の順序付き木に変形するための、前記操作分割部により更新された前記木編集操作の集合に含まれる前記木編集操作の系列であって、前記木編集距離が最小となる前記木編集操作の系列を推定し、前記推定した前記木編集操作の系列から得られる特徴ベクトルに基づいて、前記荷重ベクトルを更新すると共に、前記操作系列推定部により前記訓練データについて推定された前記木編集距離が最小となる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新するようにしてもよい。
また、第1の発明に係るパラメタ学習装置において、前記特徴ベクトルが表す複数の特徴量は、前記学習対象文の順序付き木のノードと前記学習目標文の順序付き木のノードとの関連性に関する特徴量、前記学習対象文の順序付き木と前記学習目標文の順序付き木との関連性に関する特徴量、及び前記木編集操作の系列に関する特徴量を含むようにしてもよい。
第2の発明に係る類似度算出装置は、文ペアの類似度を算出する類似度算出装置であって、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、前記順序付木生成部により前記文ペアの文の各々について生成された順序付き木と、第1の発明に係るパラメタ学習装置で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力する操作系列推定部と、を含んで構成されている。
第3の発明に係るパラメタ学習方法は、順序付木生成部と、操作系列推定部と、操作分割部と、パラメタ推定部と、反復判定部と、を含む、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置におけるパラメタ学習方法であって、前記順序付木生成部が、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、前記操作系列推定部が、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部において生成するステップにより前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定するステップと、前記操作分割部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された2つの木編集操作で置換して、前記木編集操作の集合を更新するステップと、前記パラメタ推定部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部が更新するステップにより更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するステップと、前記反復判定部が、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返すステップと、を含んで実行することを特徴とする。
第4の発明に係る類似度算出方法は、順序付木生成部と、操作系列推定部と、を含む、文ペアの類似度を算出する類似度算出装置における類似度算出方法であって、前記順序付木生成部が、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、前記操作系列推定部が、前記順序付木生成部において生成するステップにより前記文ペアの文の各々について生成された順序付き木と、請求項5に記載のパラメタ学習方法で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、第1の発明に係るパラメタ学習装置又は第2の発明に係る類似度算出装置を構成する各部として機能させるためのプログラムである。
本発明のパラメタ学習装置、方法、及びプログラムによれば、訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、訓練データの各々について、生成された順序付き木と、形態素の木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、最頻の木編集操作を、分割された2つの木編集操作で置換して、木編集操作の集合を更新し、木編集距離が最小となる木編集操作の系列と、操作分割部により更新された木編集操作の集合とに基づいて、荷重ベクトルを更新することを繰り返すことにより、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる、という効果が得られる。
また、本発明の類似度算出装置、方法、及びプログラムによれば、文ペアに含まれる文の各々について、木構造である順序付き木を生成し、生成された順序付き木と、パラメタ学習装置で得られた木編集操作の集合と、特徴ベクトルと、荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として出力することにより、言語情報に対応した木編集操作を用いて、効率よく、文ペアの類似度を算出することができる、という効果が得られる。
本発明の実施の形態に係るパラメタ学習装置の構成を示すブロック図である。 訓練データの集合の一例を示す図である。 順序付木生成部30における順序付き木の生成の結果の一例を示す図である。 パラメタにおける、特徴ベクトルの一例を示す図である。 学習対象文の順序付き木τと学習目標文の順序付き木τの一例を示す図である。 学習対象文の順序付き木τと学習目標文の順序付き木τが与えられた時の動的計画法による木編集操作の系列の推定の一例を示す図である。 木編集操作の系列の推定結果の一例を示す図である。 木編集操作の分割処理の一例を示す図である。 パラメタの学習における更新プロセスの疑似コードの一例を示す図である。 本発明の実施の形態に係る類似度算出装置の構成を示すブロック図である。 本発明の実施の形態に係るパラメタ学習装置におけるパラメタ学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る類似度算出装置における類似度算出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本実施の形態では、訓練データの集合に応じて木編集操作の種類を最適化すること、及び学習時に最小コストを取る木編集操作系列のみを走査する学習手法を用いることで、上記の問題点に対処する。第1に、木編集操作数の最適化のために、学習用の訓練データに応じて木編集操作の種類数を分割する機能を加える。データによって最適な木編集操作の種類数を取るように逐次的に分割処理を行うために、あらかじめ木編集操作の種類を分割して用意する必要がなく、メモリの使用量と計算時間を削減することができる。第2に、学習の際、CRFと同様に系列問題を扱う構造化パーセプトロンを適用する。構造化パーセプトロンを利用した手法によって、最大の確率値を取る木編集操作系列のみの走査で学習が可能となるため、計算量を軽減することが可能となる。
<本発明の実施の形態に係るパラメタ学習装置の構成>
次に、本発明の実施の形態に係るパラメタ学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係るパラメタ学習装置100は、CPUと、RAMと、後述するパラメタ学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このパラメタ学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、図2に示すような、訓練データの集合を受け付ける。訓練データの集合における訓練データは、学習対象文と、学習対象文と類似する正例の学習目標文及び学習対象文と類似しない負例の学習目標文との2つ組からなる。本実施の形態では、正例の学習目標文を一つとし、負例の学習目標文を複数とする。例えば、訓練データは、「“プロメーテウスは人類に火を渡し、張り付けにされた”」という学習対象文に対して、「“プロメテウスは人類に火を齎して罰を受けた。”」のように意味的関連性を含む正例の学習目標文1つと、「“飲むヨーグルトは、酒の一種だ。”、“あたり付ききなこ棒がある。”」のように意味的関連性を含まない複数の負例の学習目標文とを含む。
演算部20は、順序付木生成部30と、操作系列推定部32と、操作分割部34と、パラメタ推定部36と、反復判定部38と、パラメタ集合DB40とを含んで構成されている。
順序付木生成部30は、以下に説明するように、入力部10により受け付けた訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、ノードの各々に順序が付けられた木構造である順序付き木を生成する。
順序付木生成部30は、まず、学習対象文及び学習目標文の各々に対して形態素解析及び係り受け解析の処理を行う。例えば、形態素解析に非特許文献5(Takeshi Fuchi and Shinichiro Takagi. “Japanese Morphological Analyzer using Word Co-occurrence -JTAG.”In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (Volume 1), pp. 409-413, 1998.)記載の方法を利用することができる。また、係り受け解析に非特許文献6(Kenji Imamura, Genichiro Kikui and Norihito Yasuda. “Japanese Dependency Parsing Using Sequential Labeling for Semi-spoken Language.” In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pp. 225-228, 2007.)記載の方法を利用することができる。次に、係り受け解析によって得られた係り受け木に対して順序付けを行う。ここでは、係り受け解析で得られたそれぞれの形態素をノードと見なした係り受け木に対して、当該木に対して後順に走査した順番をノードに付与する。図3に、順序付木生成部30における順序付き木の生成の結果の一例を示す。ここで順序付き木の各ノードは、単に表層の語彙を持つだけでなく、形態素解析によって得られた、形態素の種類、連用形、読み、及び原型といった言語情報と、当該ノードの親ノードや子ノードの有無及びポインタといった木構造情報とを保持している。
パラメタ集合DB40には、パラメタとして、木編集操作の集合と、置換、削除、又は追加の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、当該複数の特徴ベクトルの各々に関連する、複数の特徴量に対する複数の重みを表す荷重ベクトルとが格納されている。図4にパラメタの一例として、特徴ベクトル
の要素として表現される複数の特徴量を示す。
特徴ベクトルが表す複数の特徴量は、具体的には、学習対象文の順序付き木のノードと学習目標文の順序付き木のノードとの関連性に関する特徴量と、学習対象文の順序付き木及び学習目標文の順序付き木の関連性に関する特徴量と、木編集操作の各々を行うか否かを表す特徴量と、木編集操作の系列に関する特徴量と、を含んで表される。複数の特徴量の値は{0,1}の二値で定義される。また、学習対象文の順序付き木をτ、学習目標文の順序付き木をτと定義する。例えば学習対象文の順序付き木のノード及び学習目標文の順序付き木のノード(以下、2つのノード、と記述する)の関連性に関する特徴量として、「2つのノードの表層が等しい」、「2つのノードの固有名詞が等しい」等の特徴量が挙げられる。「2つのノードの表層が等しい」という特徴量の場合、該当する木編集操作の対象である2つのノードの表層が等しければ1の値、表層が等しくなければ0の値を取る。また、学習対象文の順序付き木τ及び学習目標文の順序付き木τの関連性に関する特徴量として、「2つのノードの親ノード間において表層が等しい」等の特徴量が挙げられる。これは、着目している2つのノードにおいて、親ノードの表象が等しければ1の値、等しくなければ0の値を取る。また、木編集操作の系列に関する特徴量として、「計算対象の操作系列に直前に遷移した操作系列が置換である」等の特徴量が挙げられる。これは、現在着目している2つのノードの組に対し、当該2つのノードの組に遷移可能な直前の2つのノードの組に対して行われた木編集操作em−1が置換であれば1の値、置換でなければ0の値を取る。
荷重ベクトルは、関連する特徴ベクトルの特徴量における影響の大きさを示し、荷重ベクトルの各要素は実数の定義域を持つ。木編集操作のコストは、ノードの組に対応する特徴ベクトルと、当該特徴ベクトルに関連する荷重ベクトルとの値を用いた重み付き線形和によって決定される。
操作系列推定部32は、以下に説明するように、訓練データの集合における訓練データの各々について、順序付木生成部30により当該訓練データの学習対象文及び学習目標文の各々について生成された順序付き木と、パラメタ集合DB40に格納されている木編集操作の集合と、パラメタ集合DB40に格納されている複数の特徴ベクトルと、パラメタ集合DB40に格納されている当該複数の特徴ベクトルの各々に関連する複数の荷重ベクトルとに基づいて、当該訓練データの学習対象文の順序付き木を何れかの学習目標文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集操作の系列に対応する特徴ベクトルの系列及び特徴ベクトルの系列に関連する荷重ベクトルの系列に基づいて算出される木編集距離が最小となる木編集操作の系列を推定する。
操作系列推定部32の具体的な処理について、以下に説明する。操作系列推定部32は、まず、順序付木生成部30から出力される学習対象文の順序付き木、正例の学習目標文の順序付き木、及び複数の負例の学習目標文の順序付き木を受け取る。そして、動的計画法等を利用した手法を用いて、木編集距離が最小のコストとなる木編集操作の系列を推定する。木編集距離が最小のコストとなる木編集操作の系列は、パラメタ集合DB40に格納されている複数の特徴ベクトルと、関連する荷重ベクトルとに基づいて各木編集操作におけるコストを算出することにより推定できる。ここでは、学習対象文の順序付き木τから何れかの学習目標文の順序付き木τへ変形するコストが最小である木編集操作の系列^eを以下の(1)式によって推定する。
ただし、e=e,e,…,eは学習対象文の順序付き木τから学習目標文の順序付き木τへと変形する際の可能な、ある連続するM個の木編集操作からなる木編集操作の系列を示している。ここでeは操作しないという操作である。また、木編集操作の系列^eは、学習対象文の順序付き木τから正例の学習目標文の順序付き木τへ変形するコストが最小である木編集操作の系列、及び学習対象文の順序付き木τから負例の学習目標文の順序付き木τへ変形するコストが最小である木編集操作の系列のうち、コストが最小である木編集操作の系列である。また、
は、パラメタ集合DB40に格納されている特徴ベクトルを示し、wは、当該特徴ベクトルに関連する荷重ベクトルを示している。最小のコストを持つ木編集操作の系列の推定手法としては、例えば非特許文献7(Kaizhong Zhang and Dennis Shasha.“Simple fast algorithms for the editing distance between trees and related problems. SIAM J.” Comput, Vol.18 No.6, pp.1245-1262, 1989.)記載の方法を利用することができる。図5〜図7に木編集操作の系列の推定の一例を示す。図5は、学習対象文の順序付き木τと学習目標文の順序付き木τの一例を表している。図6は、図5の学習対象文の順序付き木τと学習目標文の順序付き木τが与えられた時の動的計画法による木編集操作の系列の推定を表している。図7は、図6の木編集操作の系列の推定結果を示している。図7中のεは、ノードの置換、削除、又は追加を統一的に表現するために導入した、存在しない仮想ノードを表している。図6中の動的計画法は以下の手順によって定義される。まず、学習対象文の順序付き木τに含まれるノードの数に1を加えた数の行と、学習目標文の順序付き木τに含まれるノードの数に1を加えた数の列を持つ表を作成する。当該表のi行j列目のセルは、学習対象文の順序付き木τにおいて付与された順序がi番目以上のノードを削除した順序付き木から、学習目標文の順序付き木τにおいて付与された順序j番目以上のノードを削除した順序付き木へと変形する際の木編集操作のコストの合計値を示している。例えば、2行2列目のセルはB1ノードのみからなる順序付き木からc1ノードのみからなる順序付き木へ変形するまでの木編集操作のコストの合計値を示している。また、例えば1行2列目のセルはc1ノードを挿入する木編集操作のコストを示している。表では簡単のため、各行列の項目名を該当する順序付き木の最大順序を持つノードで表している。次に、パラメタ集合DB40に格納されている特徴ベクトル及び荷重ベクトルから算出される木編集操作のコスト
を用いて表の左上から該当セルにおける最小コストの総和と、学習目標文に到達するために通った表中の経路を記入していく。図6の表では、当該経路は矢印によって表現されており、矢印の方向によって木編集操作の種類が同定できる。例えば、1行目1列目から1行目2列目への経路を示す横矢印はc1ノードの追加操作を示し、1行目2列目から2行目2列目への経路を示す縦矢印はB1ノードの削除操作を示す。また2行目2列目から3行目3列目への経路を示す斜め矢印はCノードからc2ノードへの置換操作を示す。ここで、該当セルに到達するための最小コストを取る経路が複数存在することも考えられるが、その場合、例えばノードの置換、削除、又は追加といった、木編集操作の種類によって優先度をあらかじめ設けるなどの処理を行うことで、木編集距離が最小コストを取る経路を一意に決定する。最後に、表の右下から経路が存在するセルを辿ることによって最小コストを持つ木編集操作の系列をパラメタ集合DB40の木編集操作の系列の集合に加えると共に、操作分割部34に出力する。
操作分割部34は、以下に説明するように、操作系列推定部32により訓練データの各々について推定された木編集距離が最小となる木編集操作の系列において、木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、木編集操作の系列に含まれる最頻の木編集操作に対応して出現する特徴ベクトル及び特徴ベクトルに関連する荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、木編集操作の集合に含まれる最頻の木編集操作を、分割された2つの木編集操作で置換して、木編集操作の集合を更新する。
操作分割部34は、まず、操作系列推定部32により訓練データの集合における訓練データの各々について推定された木編集操作の系列を受け取る。ここで多数の木編集操作の系列から真に最適に木編集操作が分割された木編集操作の集合を求めたいが、特徴ベクトルの各要素におけるカテゴリ分類や木編集操作の階層的な構造などに関する膨大な組み合わせ問題を解く必要があり、計算量の削減という目的に合わせても、それを実現することは難しい。そこで最も分割されるべき木編集操作を推定し分割するという処理を繰り返すことによって木編集操作の精密化を逐次的に行う手法を実施する。
操作分割部34は、具体的には2つの仮定を置くことで該当する木編集操作を推定し分割を行う。まず1つめの仮定として、与えられた多数の木編集操作系列の中で最も多く出現する最頻の木編集操作の分割が効果的であると考え、当該木編集操作を2つの木編集操作に分割する対象と推定する。次に2つめの仮定として、ある木編集操作を分割するとき、その木編集操作に対応する複数の特徴ベクトルにおいて、最も分散が大きく、木編集操作に対して強い影響(大きい重み)を与える特徴量に応じて分割を実施するべきと考え、当該特徴量の値に対応した木編集操作の分割を行う。分割で用いる特徴量の選択は、例えば以下のような手順で行う。まず分割対象の木編集操作に対応する特徴ベクトルに関連する荷重ベクトルにおいて一定値以上の値(重み)を持つ特徴量を抽出する。次に抽出した特徴量において、荷重ベクトルの値の降順に、分割の対象となる木編集操作に対応する特徴ベクトルであって、木編集操作の系列の推定で出現した特徴ベクトルから、当該特徴量における値の分散を計算し、一定値以上の分散の値を持つ1つの特徴量の二値に対応して、木編集操作の分割を行う。ここで分割された2つの木編集操作における荷重ベクトルは、分割前の木編集操作の荷重ベクトルと同じ値を継承する。分散または荷重の大きさが一定値以上でない場合、分割は行わない。
図8に木編集操作の分割処理の一例を示す。図8は、分割の対象候補となっている木編集操作と、その木編集操作を用いて木編集操作の系列^eを推定した際に出現した、すべての特徴ベクトルと、当該すべての特徴ベクトルに関連する荷重ベクトルの一例を示している。ここでは簡単な例として、「置換」操作は2回計算されており、計算の際に出現した特徴ベクトルが2つ存在する場合を挙げている。各特徴量の中で、対応する荷重ベクトルの値が一定値以上であり、かつ2つの特徴ベクトルから計算される分散が一定値以上である1つの特徴量「固有名詞である」について、「置換」操作を2つの操作に分割している。このようにして最頻の木編集操作を分割された2つの木編集操作で置換し、パラメタ集合DB40の木編集操作の集合を更新すると共に、パラメタ集合DB40に置換した木編集操作に関連する特徴ベクトル及び荷重ベクトルを格納する。
操作分割部34において、上記の木編集操作の分割手法を用いるとき、木編集操作集合の初期値としては「置換」、「削除」、「追加」といった3つの木編集操作からなる集合を用いる。また、複数の特徴ベクトルに関連するそれぞれの荷重ベクトルの初期値としては、例えば標準正規分布から生成される乱数を用いる。ここで、学習の初期段階においてパラメタ集合DB40から算出される荷重ベクトルの学習が十分でなく、木編集操作の分割を推定するためにふさわしい値でない場合が考えられる。このような場合は、例えば学習を繰り返した回数が一定以下のときは木編集操作の分割は行わないなどの条件を設定して学習を実施してもよい。
パラメタ推定部36は、以下に説明するように、訓練データの各々に対し、学習対象文の順序付き木を正例の学習目標文の順序付き木に変形するための、操作分割部34により更新された木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列を推定し、推定した木編集操作の系列から得られる特徴ベクトルに基づいて、荷重ベクトルを更新すると共に、操作系列推定部32により訓練データについて推定された木編集距離が最小となる特徴ベクトルに基づいて、荷重ベクトルを更新する。
本実施の形態のパラメタ推定部36における荷重ベクトルの更新には、構造化パーセプトロンを用いる。ここでは、例えば非特許文献8(Michael Collins. “Discriminative training methods for hidden marko models: Theory and experiments with perceptron algorithms.” In Proceedings of EMNLP, pp.1-8, 2002.)記載のアルゴリズムを利用することができる。
パラメタ推定部36は、更に、学習対象文の順序付き木τから最小のコストを取る木編集操作の系列として推定された^eによって変形される学習目標文の順序付き木^τが、正例の学習目標文から生成される順序付き木τ'と一致していない場合、荷重ベクトルwの更新を行う。つまり、荷重ベクトルの学習が十分でないと、推定された^eが、正しく推定されておらず、正例の学習目標文へと変形するものとなっていない場合があるため、正例の学習目標文へと変形するものとなるように、荷重ベクトルの最適化を行う。
更新では、まず学習対象文の順序付き木τと正例の学習目標文の順序付き木τ'間の最小コストを持つ連続するN個の木編集操作の系列e'=e,e,…,eを求める。ここで、e'は、
である。そして、学習対象文の順序付き木τから、正例の学習目標文の順序付き木τ'へと変形する際の木編集操作の系列e'に含まれるすべての木編集操作の各々に対し、当該木編集操作に対応する特徴ベクトルに関連する荷重ベクトルwを、当該木編集操作に対応する特徴ベクトルを用いて以下(2)式の更新式
によって更新する。また学習対象文の順序付き木τから、誤って推定された学習目標文の順序付き木^τへと変形する際の木編集操作の系列^eに含まれるすべての木編集操作の各々に対し、当該木編集操作に対応する特徴ベクトルに関連する荷重ベクトルwを、当該木編集操作に対応する特徴ベクトルを用いて以下(3)式の更新式
によって更新する。
反復判定部38は、反復終了条件を満たすまで、操作系列推定部32による推定、操作分割部34による分割、及びパラメタ推定部36による更新を繰り返す。反復終了条件としては、例えば予め定められた回数を繰り返すようにすればよい。
以上のように本実施の形態におけるパラメタ学習装置100は、パラメタ集合DB40に格納されているパラメタの内、木編集操作の集合と、荷重ベクトルとを更新することによりパラメタを学習する。図9にパラメタの学習における更新プロセスの疑似コードを示す。図9において、5行目から9行目が操作系列推定部32の処理、10行目から25行目が操作分割部34の処理、26行目から34行目がパラメタ推定部36の処理をそれぞれ表している。
<本発明の実施の形態に係る類似度算出装置の構成>
次に、本発明の実施の形態に係る類似度算出装置の構成について説明する。図10に示すように、本発明の実施の形態に係る類似度算出装置200は、CPUと、RAMと、後述する類似度算出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この類似度算出装置200は、機能的には図10に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、類似度を算出したい文ペアの入力を受け付ける。例えば、「プロメーテウスは人類に火を渡し、張り付けにされた。」と「プロメテウスは人類に火を齎して罰を受けた。」のような文ペアのテキストデータを入力として受け付ける。
演算部220は、順序付木生成部230と、操作系列推定部232と、パラメタ集合DB240とを含んで構成されている。
順序付木生成部230は、入力部210で受け付けた文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、ノードの各々に順序が付けられた木構造である順序付き木を生成する。なお、順序付木生成部230の具体的な処理は、上記パラメタ学習装置100の順序付木生成部30と同様であるため詳細な説明を省略する。
パラメタ集合DB240には、上記パラメタ学習装置100により学習されたパラメタ集合DB40と同様のものが格納されている。
操作系列推定部232は、順序付木生成部230により文ペアの文の各々について生成された順序付き木と、パラメタ集合DB240に格納されている木編集操作の集合と、パラメタ集合DB240に格納されている複数の特徴ベクトル及び複数の荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集操作の系列に対応する特徴ベクトルの系列及び特徴ベクトルの系列に関連する荷重ベクトルの系列に基づいて算出される木編集距離が最小となる木編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として、出力部250へと出力する。なお、操作系列推定部232における具体的な処理は、上記パラメタ学習装置100の操作系列推定部232と同様であるため、詳細な説明を省略する。また、操作系列推定部232では、合計コストの最小値を出力するが、木編集操作の系列によっては、合計コストが負の値を取ることも考えられる。その場合、必要ならば、例えばシグモイド関数などの単調増加関数を用いて、正の値に変換してもよい。
<本発明の実施の形態に係るパラメタ学習装置の作用>
次に、本発明の実施の形態に係るパラメタ学習装置100の作用について説明する。入力部10において訓練データの集合を受け付けると、パラメタ学習装置100は、図11に示すパラメタ学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成する。
次に、ステップS101では、パラメタ集合DB40に格納されている木編集操作の集合及び荷重ベクトルの集合を初期化する。
ステップS102では、入力部10において受け付けた訓練データの集合における訓練データを選択する。
ステップS103では、ステップS102で選択された訓練データについて、ステップS100で生成された順序付き木と、パラメタ集合DB40に格納されている木編集操作の集合と、パラメタ集合DB40に格納されている複数の特徴ベクトルと、パラメタ集合DB40に格納されている複数の荷重ベクトルとに基づいて、当該訓練データの学習対象文の順序付き木を何れかの学習目標文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列^eを推定する。
ステップS104では、すべての訓練データについてステップS103の推定をしたかを判定し、推定していればステップS106へ移行し、推定していなければステップS102へ戻って次の訓練データを選択して推定を繰り返す。
ステップS106では、ステップS102で訓練データの各々について推定された木編集操作の系列において、木編集操作の集合に含まれる木編集操作のうち最頻の木編集操作を選択する。
ステップS108では、ステップS106で選択した最頻の木編集操作に対応して出現する特徴ベクトル及び特徴ベクトルに関連する荷重ベクトルにおいて、特徴量の分散値が一定値以上で、かつ、対応する重みが一定値以上となる特徴量が存在する、という条件を満たすか否かを判定し、当該条件を満たす場合はステップS110へ移行し、当該条件を満たさない場合はステップS113へ移行する。
ステップS110では、ステップS108で判定された条件に該当する特徴量の二値に従って、ステップS106で選択した最頻の木編集操作を2つに分割する。
ステップS112では、パラメタ集合DB40に格納されている木編集操作の集合に含まれる最頻の木編集操作を、上記ステップS110で分割された2つの木編集操作で置換すると共に、ステップS103で訓練データの各々について推定された木編集操作の系列に含まれる最頻の木編集操作を、対応する特徴ベクトルに応じて、ステップS110で分割された2つの木編集操作の何れかで置換する。
ステップS113では、入力部10において受け付けた訓練データ集合における訓練データを選択する。
ステップS114では、ステップS113で選択した訓練データに対応してステップS103で推定された木編集距離が最小となる木編集操作の系列^eにより変形された順序付き木^τが、当該訓練データにおける正例の学習目標文の順序付き木τ'と一致するかを判定し、一致していなければステップS115へ移行し、一致していればステップS120へ移行する。
ステップS115では、ステップS113で選択した訓練データの学習対象文の順序付き木を正例の学習目標文の順序付き木へ変形するための、木編集距離が最小となる木編集操作の系列e'を推定する。
ステップS116では、ステップS115で推定された木編集操作の系列e'に基づいて、木編集操作の各々に対応する特徴ベクトルに関連する荷重ベクトルwを上記(2)式の更新式により更新する。
ステップS118では、ステップS113で選択した訓練データに対応してステップS103で推定された木編集距離が最小となる木編集操作の系列^eに基づいて、木編集操作の各々に対応する特徴ベクトルに関連する荷重ベクトルwを上記(3)式の更新式により更新する。
ステップS120では、すべての訓練データについて、ステップS114の更新判定をしたかを判定し、更新判定していればステップS122へ移行し、更新判定していなければステップS113へ戻って次の訓練データを選択して更新判定を繰り返す。
ステップS122では、予め定められた回数を繰り返す反復終了条件を満たすかを判定し、反復終了条件を満たしていればパラメタ学習処理ルーチンを終了し、反復終了条件を満たしていなければステップS102へ戻ってステップS102〜ステップS120の処理を繰り返す。
以上説明したように、本実施の形態に係るパラメタ学習装置によれば、訓練データの集合における訓練データの各々に含まれる学習対象文及び学習目標文の各々について、木構造である順序付き木を生成し、訓練データの各々について、生成された順序付き木と、形態素の木編集操作の集合と、複数の特徴ベクトルと、荷重ベクトルとに基づいて、木編集距離が最小となる木編集操作の系列を推定し、推定された木編集距離が最小となる木編集操作の系列において、最頻の木編集操作を、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、最頻の木編集操作を、分割された2つの木編集操作で置換して、木編集操作の集合を更新し、木編集距離が最小となる木編集操作の系列と、操作分割部により更新された木編集操作の集合とに基づいて、荷重ベクトルを更新することを繰り返すことにより、言語情報に対応した木編集操作を用いて文ペアの類似度を効率よく算出するためのパラメタを学習することができる。
また、本実施の形態によれば、与えられた訓練データの集合を用いた、文から生成されるある木構造からある木構造への木編集操作の合計コストの最小値として計算される2つの文類似度の学習において、最適な木編集操作群と木編集操作のコストを同時に推定し、学習における計算量を削減することができる。
<本発明の実施の形態に係るパラメタ学習装置の作用>
次に、本発明の実施の形態に係る類似度算出装置200の作用について説明する。入力部210において文ペアを受け付けると、類似度算出装置200は、図12に示す類似度算出処理ルーチンを実行する。
ステップS200では、入力部210において受け付けた文ペアに含まれる文の各々について、木構造である順序付き木を生成する。
ステップS202では、文ペアについて、ステップS200で生成された順序付き木と、パラメタ集合DB240に格納されている木編集操作の集合と、パラメタ集合DB240に格納されている複数の特徴ベクトルと、パラメタ集合DB240に格納されている複数の荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる木編集操作の系列^eを推定する。
ステップS204では、ステップS202で推定された木編集操作の系列^eを出力部250へと出力して処理を終了する。
以上説明したように、本実施の形態に係る類似度算出装置によれば、文ペアに含まれる文の各々について、木構造である順序付き木を生成し、生成された順序付き木と、パラメタ学習装置で得られた木編集操作の集合と、特徴ベクトルと、荷重ベクトルとに基づいて、文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、木編集操作の集合に含まれる木編集操作の系列であって、木編集距離が最小となる編集操作の系列を推定し、推定された木編集操作の系列の木編集距離を、文ペアの類似度として出力することにより、言語情報に対応した編集操作を用いて、効率よく、文ペアの類似度を算出することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、特徴ベクトルが表す複数の特徴量は、学習対象文の順序付き木のノードと学習目標文の順序付き木のノードとの関連性に関する特徴量と、学習対象文の順序付き木及び学習目標文の順序付き木の関連性に関する特徴量と、木編集操作の各々を行うか否かを表す特徴量と、木編集操作の系列に関する特徴量と、を含んで表されるものとして説明したが、これに限定されるものではなく、木編集操作に関する特徴量を含んでいれば、他の特徴量を用いてもよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。
10、210 入力部
20、220 演算部
30、230 順序付木生成部
32、232 操作系列推定部
34 操作分割部
36 パラメタ推定部
38 反復判定部
40、240 パラメタ集合DB
100 パラメタ学習装置
200 類似度算出装置
250 出力部

Claims (7)

  1. 学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置であって、
    前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、
    前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部により前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定する操作系列推定部と、
    前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された2つの木編集操作で置換して、前記木編集操作の集合を更新する操作分割部と、
    前記操作系列推定部により前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部により更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するパラメタ推定部と、
    予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返す反復判定部と、
    を含むパラメタ学習装置。
  2. 前記パラメタ推定部は、前記訓練データの各々に対し、前記学習対象文の順序付き木を正例の前記学習目標文の順序付き木に変形するための、前記操作分割部により更新された前記木編集操作の集合に含まれる前記木編集操作の系列であって、前記木編集距離が最小となる前記木編集操作の系列を推定し、前記推定した前記木編集操作の系列から得られる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新すると共に、前記操作系列推定部により前記訓練データについて推定された前記木編集距離が最小となる前記特徴ベクトルに基づいて、前記荷重ベクトルを更新する請求項1記載のパラメタ学習装置。
  3. 前記特徴ベクトルが表す複数の特徴量は、前記学習対象文の順序付き木のノードと前記学習目標文の順序付き木のノードとの関連性に関する特徴量、前記学習対象文の順序付き木と前記学習目標文の順序付き木との関連性に関する特徴量、及び前記木編集操作の系列に関する特徴量を含む請求項1又は2記載のパラメタ学習装置。
  4. 文ペアの類似度を算出する類似度算出装置であって、
    前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成する順序付木生成部と、
    前記順序付木生成部により前記文ペアの文の各々について生成された順序付き木と、請求項1〜請求項3のいずれか1項に記載のパラメタ学習装置で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力する操作系列推定部と、
    を含む類似度算出装置。
  5. 順序付木生成部と、操作系列推定部と、操作分割部と、パラメタ推定部と、反復判定部と、を含む、学習対象文と、前記学習対象文と類似する正例の学習目標文及び前記学習対象文と類似しない負例の学習目標文とを含む訓練データの集合を用いてパラメタを学習するパラメタ学習装置におけるパラメタ学習方法であって、
    前記順序付木生成部が、前記訓練データの集合における前記訓練データの各々に含まれる前記学習対象文及び前記学習目標文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、
    前記操作系列推定部が、前記訓練データの集合における前記訓練データの各々について、前記順序付木生成部において生成するステップにより前記訓練データの前記学習対象文及び前記学習目標文の各々について生成された順序付き木と、木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記訓練データの前記学習対象文の順序付き木を前記学習目標文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定するステップと、
    前記操作分割部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列において、前記木編集操作の集合に含まれる木編集操作のうちで最も多く出現する最頻の木編集操作を、前記木編集操作の系列に含まれる前記最頻の木編集操作に対応して出現する前記特徴ベクトル及び前記特徴ベクトルに関連する前記荷重ベクトルにおいて、分散値が一定値以上で、かつ、重みが一定値以上となる特徴量の二値に従って2つに分割し、前記木編集操作の集合に含まれる最頻の木編集操作を、分割された2つの木編集操作で置換して、前記木編集操作の集合を更新するステップと、
    前記パラメタ推定部が、前記操作系列推定部において推定するステップにより前記訓練データの各々について推定された前記木編集距離が最小となる前記木編集操作の系列と、前記操作分割部が更新するステップにより更新された前記木編集操作の集合とに基づいて、前記荷重ベクトルを更新するステップと、
    前記反復判定部が、予め定められた反復終了条件を満たすまで、前記操作系列推定部による推定、前記操作分割部による分割、及び前記パラメタ推定部による更新を繰り返すステップと、
    を含むパラメタ学習方法。
  6. 順序付木生成部と、操作系列推定部と、を含む、文ペアの類似度を算出する類似度算出装置における類似度算出方法であって、
    前記順序付木生成部が、前記文ペアに含まれる文の各々について、形態素を表すノードの各々から構成され、かつ、前記ノードの各々に順序が付けられた木構造である順序付き木を生成するステップと、
    前記操作系列推定部が、前記順序付木生成部において生成するステップにより前記文ペアの文の各々について生成された順序付き木と、請求項5に記載のパラメタ学習方法で得られた前記木編集操作の集合と、予め定められた複数の木編集操作の各々を行うか否かを表す二値の特徴量を含む複数の特徴量を表す複数の特徴ベクトルと、前記複数の特徴ベクトルの各々に関連する、前記複数の特徴量に対する複数の重みを表す荷重ベクトルとに基づいて、前記文ペアの一方の文の順序付き木を他方の文の順序付き木に変形するための、前記木編集操作の集合に含まれる木編集操作の系列であって、前記木編集操作の系列に対応する前記特徴ベクトルの系列及び前記特徴ベクトルの系列に関連する前記荷重ベクトルの系列に基づいて算出される木編集距離が最小となる前記木編集操作の系列を推定し、推定された前記木編集操作の系列の前記木編集距離を、前記文ペアの類似度として出力するステップと、
    を含む類似度算出方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項に記載のパラメタ学習装置又は請求項4に記載の類似度算出装置を構成する各部として機能させるためのプログラム。
JP2015076086A 2015-04-02 2015-04-02 パラメタ学習装置、類似度算出装置、方法、及びプログラム Pending JP2016197289A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015076086A JP2016197289A (ja) 2015-04-02 2015-04-02 パラメタ学習装置、類似度算出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015076086A JP2016197289A (ja) 2015-04-02 2015-04-02 パラメタ学習装置、類似度算出装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016197289A true JP2016197289A (ja) 2016-11-24

Family

ID=57357902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015076086A Pending JP2016197289A (ja) 2015-04-02 2015-04-02 パラメタ学習装置、類似度算出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2016197289A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
KR20200078576A (ko) * 2018-01-22 2020-07-01 보에 테크놀로지 그룹 컴퍼니 리미티드 관련성을 계산하는 방법, 관련성을 계산하기 위한 장치, 데이터 쿼리 장치, 및 비-일시적 컴퓨터-판독가능 저장 매체

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
KR20200078576A (ko) * 2018-01-22 2020-07-01 보에 테크놀로지 그룹 컴퍼니 리미티드 관련성을 계산하는 방법, 관련성을 계산하기 위한 장치, 데이터 쿼리 장치, 및 비-일시적 컴퓨터-판독가능 저장 매체
KR102411921B1 (ko) 2018-01-22 2022-06-23 보에 테크놀로지 그룹 컴퍼니 리미티드 관련성을 계산하는 방법, 관련성을 계산하기 위한 장치, 데이터 쿼리 장치, 및 비-일시적 컴퓨터-판독가능 저장 매체

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US10725836B2 (en) Intent-based organisation of APIs
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN110717034A (zh) 一种本体构建方法及装置
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
JP6498095B2 (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN106570162B (zh) 基于人工智能的谣言识别方法及装置
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN111581954A (zh) 一种基于语法依存信息的文本事件抽取方法及装置
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN112765985A (zh) 一种面向特定领域专利实施例的命名实体识别方法
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
JP2005092253A (ja) 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
Hsu et al. An interpretable generative adversarial approach to classification of latent entity relations in unstructured sentences
Majumder et al. Event extraction from biomedical text using crf and genetic algorithm
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质