JP2017162112A

JP2017162112A - 単語抽出装置、方法、及びプログラム

Info

Publication number: JP2017162112A
Application number: JP2016044822A
Authority: JP
Inventors: 九月貞光; Kugatsu Sadamitsu; 義博松尾; Yoshihiro Matsuo; 竜一郎東中; Ryuichiro Higashinaka; 久子浅野; Hisako Asano; 幸徳本間; Yukinori Homma
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2017-09-14
Anticipated expiration: 2036-03-08
Also published as: JP6334587B2

Abstract

【課題】未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる。【解決手段】系列モデル用素性化部２３８が、意味ベクトルを用いて、質問文に含まれる各単語について、テーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出する。系列モデル適用部２４０が、テーブル構成要素を抽出するための系列モデルと、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与する。回帰モデル用素性化部２４４が、各単語の意味ベクトルを用いて、単語チャンクの各々について、エントリを表す単語の各々との類似度を、素性として抽出する。回帰モデル適用部２４６が、エントリ表す単語を抽出するための回帰モデルと、抽出された、単語チャンクの各々の素性とに基づいて、質問文に対応するエントリを表す単語を抽出する。【選択図】図１

Description

本発明は、単語抽出装置、方法、及びプログラムに係り、特に、文中から質問応答に必要となる単語を抽出するための単語抽出装置、方法、及びプログラムに関する。

従来より、与えられた文と、知識を蓄えたデータベースを用いて、文中からデータベースに存在する表現に近い単語列を抽出する技術が知られている。例えば、３つ組のデータベース構造であった場合、質問文において、データベース中の表現を２つ含むことが分かれば、残りの１つを回答として提示することが可能となる。

また、単語の類似度を計算する際には、単語を意味空間でベクトル化した上で類似度を測る方法が知られている（非特許文献３参照）。

K. Yao et al. "Recurrent Conditional Random Field for Language Understanding", ICASSP2014 Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).

文中の抽出すべき単語列に対し、どのデータベース項目に紐づくかが予めアノテートされた学習用データが存在する場合、汎用的機械学習方法（非特許文献１参照）を採ることで上記の単語列を抽出することができる。しかし、データベースに対応する学習用データを作成することはコストが高い。

また、例えば、個別に単語の類似度を求める場合、分類ベースのアプローチと比べ、学習時にどの素性に重みを置くべきかという判断が難しくなる。

また、非特許文献３では、元ドメイン教師なしテキストと対象ドメイン教師なしテキストを別々のベクトルモデルで表現してしまうと、ベクトル空間自体が全く異なることに起因して、学習時に付与される重みと適用時に利用すべき重みが同等とならない場合がある。また、ドメインに無関係な大量の教師なしテキストを使うことも考えられるが、単語は様々な意味で使われることから、複数のドメインが混じることでベクトル空間が対象ドメインにおいて適切に用いることができない場合がある。

また、疑問詞等において、文中の文字列とＤＢ内の文字列とが表層的にも意味的にも類似しない場合が生じる。例えば「XYZ説明会は<いつ>？」→「開催日」というように表層的にも意味的にも類似しない場合である。

また、元ドメインと対象ドメインが遠い場合には上記課題の解決だけではなく、そもそもデータリソースが不足する場合も生じる。このような困難な状況に備えるためにどのようなドメインでも汎用的に用いることのできる補足情報を得たい。

本発明は、上記事情を鑑みて成されたものであり、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる単語抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る単語抽出装置は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、を含んで構成されている。

また、第１の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも１つの素性の各々を抽出し、前記少なくとも１つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行うようにしてもよい。

また、第１の発明に係る単語抽出装置において、各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものであるようにしてもよい。

また、第１の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出するようにしてもよい。

また、第１の発明に係る単語抽出装置において、前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出するようにしてもよい。

第２の発明に係る単語抽出方法は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、を含んで実行することを特徴とする。

第３の発明に係るプログラムは、コンピュータを、第１の発明に係る単語抽出装置の各部として機能させるためのプログラムである。

本発明の単語抽出装置、方法、及びプログラムによれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、データベースのテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデルと、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデルと、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる、という効果が得られる。

学習対象の元ドメインと、未学習の対象ドメインとのデータベースにおけるテーブル構成要素の関係性を表した抽象図である。本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。学習時のドメイン間類似度素性の一例を示す図である。素性の相対化の一例を示す図である。本発明の実施の形態に係る単語抽出装置の構成を示すブロック図である。適用時のドメイン間類似度素性の一例を示す図である。本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る系列モデル用素性化処理ルーチンを示すフローチャートである。本発明の実施の形態に係る回帰モデル用素性化処理ルーチンを示すフローチャートである。本発明の実施の形態に係る単語抽出装置における単語抽出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

ここで本発明の実施の形態で解く問題について説明する。図１に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとする。学習時入力文「本はいくら？」、学習時入力文のアノテート結果（例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」）、３つ組のテーブル構成要素からなる元ドメインＤＢに基づいて、単語抽出モデルを学習する。テーブル構成要素は、subject/predicate/objectの３つ組のデータベースを構成する要素である。ここでのobjectとはsubjectとpredicateがテーブルで交差するエントリの値を指す。本実施の形態では３つ組の場合を例に説明するが、４つ組以上でも適用は可能である。

そして、学習したモデルを、未学習の対象ドメインである家電ドメインに適用する。適用時入力文「掃除機はいくら」、及び対象ドメインＤＢの入力に対して、出力として例えば「「掃除機」⇒subject-掃除機」、「「いくら」⇒predicate-値段」というように、入力文の単語と、テーブル構成要素及びエントリとの対応を得る。

本発明の実施の形態では、上記の問題について、２段階に分けた解法を採る。１段階目では、抽象度の高い、データベースの同じ意味構造（テーブル構成要素）レベルでの抽出モデルを用いる。

２段階目では、テーブル構成要素を細分化してエントリに紐づけるため、分類アプローチで解く。ここでは、学習済みの元ドメインの学習用データベースと、対象ドメインのデータベースとが異なる場合、学習用データベースに対し直接的な分類ベースのアプローチを採ることは不可能であるため、対象ドメインの各エントリに対する類似度を求めるアプローチを採る。このようにすることで、未知のドメインでもエントリと紐づけた単語抽出が可能となる。

（素性の相対化）

どの素性に重みを置くべきかという判断が難しいという課題に対しては、素性の相対化を行うことで対応する。他の分類候補であるエントリに対する相対的なスコアを付与する。これにより、分類問題と同等の情報量を与えることを考慮することができる。

（ドメイン横断の意味ベクトルモデル）

学習時の重みと適用時の重みが同等の重みにならない場合があるという課題に対しては、元ドメインの教師なしテキストと対象ドメインの教師なしテキストを同時に学習し、意味ベクトルモデルを得る。これにより、学習時に得られた当該ベクトルに対する重みを、適用時でもそのまま用いることができる。

（ドメイン間類似度素性）

文字列が類似しない場合があるという課題に対しては、対象ドメインの文中文字列と元ドメインの文中文字列（例えば、XYZパーティは＜いつですか＞）との類似度を測り、次に、元ドメインのエントリとの対応（例：元ドメインＤＢ内エントリ「日付」と対応）を元として、元ドメインＤＢのエントリと、対象ドメインＤＢのエントリとの類似度(「開催日」と「日付」との類似度)を計算する。これにより、表層的、意味的に類似しない文中表記でも、ＤＢ内エントリに紐づけることができる。

（汎用モデル素性）

汎用的な補足情報を得るために、どのようなドメインでもおおよそ用いられる汎用な教師データから学習した汎用モデルを、対象ドメインにおける推定の手がかりとして用いる。これにより、元ドメインと対象ドメインが大きく異なるものであっても、ＤＢ内エントリに紐づけることができる。

＜本発明の実施の形態に係るモデル学習装置の構成＞

次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図２に示すように、本発明の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図２に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２と、元ドメイン教師なしテキスト２３とを受け付ける。アノテート済元ドメイン質問文は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の？」というような質問文に対して、形態素境界を示すスラッシュ、及びテーブル構成要素とエントリの対応付けが付与された質問文である。

また、入力部１０は、適用時の対象ドメインについての対象ドメイン教師なしテキスト２４と、汎用モデル教師ありテキストとを受け付ける。

演算部２０は、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２と、元ドメイン教師なしテキスト２３と、対象ドメイン教師なしテキスト２４と、汎用モデル教師ありテキスト２５と、意味ベクトル学習部３０と、意味ベクトルモデル３２と、汎用モデル学習部３４と、汎用モデル３６と、系列モデル用素性化部３８と、系列モデル学習部４０と、系列モデル４２と、回帰モデル用素性化部４４と、回帰モデル学習部４６と、回帰モデル４８とを含んで構成されている。

意味ベクトル学習部３０は、入力部１０で受け付けた、元ドメイン教師なしテキスト２３と、対象ドメイン教師なしテキスト２４とに基づいて、各単語についての意味ベクトルからなる意味ベクトルモデル３２を学習する。意味ベクトルモデル３２は、例えば、「本」と「絵本」との意味的類似度が0.5である、といった出力が可能なモデルである。意味ベクトルモデル３２は、元ドメイン教師なしテキスト２３、及び対象ドメイン教師なしテキスト２４に含まれる単語を同時にベクトルモデル化することで学習する。モデル化には非特許文献２に記載の既存のモデル化手法を用いる。また、変形例として、入力にドメインに依存しない汎用テキストをさらに加えて学習しても良い。

汎用モデル学習部３４は、入力部１０で受け付けた汎用モデル教師ありテキスト２５に基づいて、汎用モデル３６を学習する。汎用モデル３６は、例えば、「NTT」が企業名であることが識別可能なモデルである。ここでは、教師ありテキストを用いて、ドメインに依存しない汎用なモデルを学習する。本実施の形態で学習する汎用モデルは文分類モデルと、単語列抽出モデルとの２通りが考えられるが、本実施の形態では文分類モデルを学習する。文分類モデルは、一文に対しての識別結果を付与するデータ、及びデータから既存の分類手法（Support Vector Machines等）を用いたモデルである。文分類モデルは、例えば、「これっていくら」という文から「価格」を聞いている、という推定ラベルを付与する。なお、単語列抽出モデルを学習する場合には、文中の各単語に対しての識別結果を付与するデータ、及びデータから既存の系列ラベリング手法（CRF等）を用いたモデルを学習する。例えば「<企業名>NTT</企業名>の<金額>回線使用料</金額>は<金額疑問>いくら</金額疑問>？」というように各単語に上位概念を表すラベルが対応付けられる。

系列モデル用素性化部３８は、意味ベクトル学習部３０で学習された意味ベクトルモデル３２を用いて、アノテート済元ドメイン質問文集合２１における質問文に含まれる各単語について、元ドメインＤＢ２２のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。なお、質問文のアノテートデータではエントリへのマッピングまで施されている前提である。系列モデル用素性化部３８では、アノテートデータのうちテーブル構成要素へのマッピング情報のみを用いる。

例えば、系列モデルの出力ラベルを元ドメインＤＢ２２のテーブル構成要素として、系列モデル用素性化部３８は、質問文に含まれる各単語について、テーブル構成要素毎に、以下第１〜第３の処理によって素性を抽出する。

系列モデル用素性化部３８は、第１の処理において、まず、各エントリとの表層類似度及び意味類似度を抽出し、元ドメインＤＢ２２のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。例えば、テーブル構成要素がsubject、predicate、objectの３種類であれば、３種類それぞれについて、表層類似度及び意味類似度の各々が抽出される。

表層類似度は、質問文中の対象単語とエントリの各々との編集距離等であり、当該テーブル構成要素のエントリの各々との表層類似度の最大値が、当該テーブル構成要素の表層類似度として抽出される。例えば、「本⇔subject:絵本編集距離=1、文字重複率=0.5、単語一致率=0」というような対象単語とエントリの結果を元に類似度を算出して、表層類似度を得る。また、意味類似度は、対象単語とエントリとペアに対し、意味ベクトルモデルを用いて算出される類似度であり、当該テーブル構成要素のエントリの各々との意味類似度の最大値が、当該テーブル構成要素の意味類似度として抽出される。例えば、「本⇔subject:絵本意味類似度=0.5」というような対象単語とエントリとの結果を元に類似度を算出して、最大値となるものを、対象単語とテーブル構成要素との表層類似度として抽出する。テーブル構成要素の系列モデル用素性化データの出力の例は以下のようになる。注目する対象単語が「本」であれば、「正解ラベル=B-subj subj編集距離=1 subj意味類似度=0.5 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「は」であれば、「正解ラベル=O subj編集距離=2 subj意味類似度=0.1 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「どこ」であれば「正解ラベル=B-pred subj編集距離=6 subj意味類似度=0.1 pred編集距離=6 pred意味類似度=0.1 obj編集距離=6 obj意味類似度=0.1」となる。ここで正解ラベルのヘッダに付与されるB/I/Oは、B=抽出したい対象単語列の先頭、I=抽出したい対象単語列の先頭以外、O=抽出しない単語を表す。

系列モデル用素性化部３８は、第２の処理において、質問文の各々について、質問文の質問内容を推定するための、ドメインに依存しない汎用モデル３６を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。例えば、汎用モデル３６である文分類モデルの推定結果として、「金額」を聞いている文であるという推定結果が得られる。「何を文全体として聞いているか」を示す本推定結果は、特に末尾の内容語、先頭の疑問詞にとって重要な手がかりとなる場合が多いため、末尾の内容語、又は先頭の疑問詞に素性として付与する。なお、汎用モデル３６が、単語列抽出モデルの場合、単語の上位概念を推定するための、ドメインに依存しない汎用モデル３６を用いて推定された単語の推定結果を当該単語の素性として抽出するようにすればよい。例えば、推定された単語列の範囲（例：「NTT⇒企業名」「回線使用料⇒金額」）の各単語に対し、当該推定結果を素性として与える。

系列モデル用素性化部３８は、第３の処理において、質問文に含まれる各単語について、ドメイン間に関するドメイン間類似度素性を抽出する。学習時においては、対象単語と、アノテートデータにより当該対象単語と同じ表記に付与されたエントリを表す単語との類似度をドメイン間類似度素性とする。なお、学習データにおいて、対象単語と同じ表記に対して、付与されたエントリが複数種類存在する場合には、対象単語と同じ表記に対して付与されたエントリとのペアのうち、対象単語と当該対象単語に付与されたエントリとのペアが出現する割合を、ドメイン間類似素性とする。例えば、図３に示すように、「いくら」という対象単語と、アノテートされたエントリ「価格」についてのドメイン間類似度素性（類似度ｂ）は、アノテート済元ドメイン質問文集合２１の質問文に出現する全ての「いくら」という単語と、アノテートされたエントリとのペアのうち、単語「いくら」とエントリ「価格」のペアの割合をドメイン間類似度素性とすればよい。

系列モデル学習部４０は、系列モデル用素性化部３８によってアノテート済元ドメイン質問文集合２１における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合２１における質問文に付与されたラベルとに基づいて、既存手法のCRF（非特許文献３）等を用いて、テーブル構成要素を抽出するための系列モデル４２を学習する。系列モデル４２は、各ラベル（テーブル構成要素）に対応する各素性に対する重みパラメータである。学習される系列モデルによって、「<subj>本</subj>は<pred>どこ/で/買える</pred>の」というように、１つの単語又は２つ以上の単語を連結した単語列である単語チャンクにラベルを付与することができる。

回帰モデル用素性化部４４は、意味ベクトル学習部３０で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合２１における質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。

回帰モデル用素性化部４４では、系列モデル用素性化部３８と異なり、具体的には以下第１〜第４の処理を行って、質問文に含まれるラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素であって、元ドメインＤＢ２２のテーブル構成要素のエントリ候補毎に素性化を行う。

回帰モデル用素性化部４４は、まず、第１の処理において、質問文に含まれる単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインＤＢ２２のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部３８と同様に、素性として抽出する。

回帰モデル用素性化部４４は、第２の処理において、系列モデル用素性化部３８と同様に、質問文の各々について、汎用モデル３６を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。また、回帰モデル用素性化部４４の第２の処理はエントリ毎に処理するため、まず、元ドメインＤＢ２２の各エントリが、汎用モデル３６で分類されるラベルのうちどれに近いかをマッピングしておく。例えば元ドメインＤＢ２２のエントリに「価格」があり、汎用モデル３６の分類対象に「金額」が存在していれば、それらは近いものであるとしてマッピングしておく。回帰モデルでは、全てのエントリ候補に対する素性化を行うため、それぞれのエントリ候補にについて、マッピングされる汎用モデルのラベルと、実際に推定された汎用モデル推定ラベルとの間のペアを、素性として抽出する。例えば、学習時に、元ドメインＤＢ２２のエントリ候補「価格」について素性化する場合であって、かつ汎用モデル３６の推定ラベル（文分類器）が「金額」を出力した場合、「{ＤＢ候補マップ＝価格＆汎用モデル推定結果＝金額}=1」という素性が抽出される。

回帰モデル用素性化部４４は、第３の処理において、質問文に含まれる単語チャンクの各々について、系列モデル用素性化部３８と同様に、ドメイン間に関するドメイン間類似度素性を抽出する。

回帰モデル用素性化部４４は、第４の処理において、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。第４の処理では、単語チャンクの各々について、上記第１の処理で抽出した表層類似度、意味類似度、第３の処理で抽出したドメイン間類似度の３種それぞれに対し、エントリ候補毎に抽出したもののうちの最大の値となるものを相対化素性とし、全てのエントリ候補の素性に対して、相対化表層類似度、相対化意味類似度、相対化ドメイン間類似度を追加する。図４に示すように、例えば、単語チャンクに付与されたラベルが表すテーブル構成要素predicateにおいて、エントリ候補「値段」、「重量」、「販売日」があり、意味類似度の最大値が「重量」の0.2であれば、0.2の値を相対化意味類似度として全てのエントリ候補「値段」、「重量」、「販売日」に追加する。

回帰モデル学習部４６は、回帰モデル用素性化部４４によってアノテート済元ドメイン質問文集合２１における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合２１における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル４８を学習する。具体的には、質問文におけるラベルが付与された単語チャンク（表層の文字列）とエントリを表す単語との正しいアノテートペア（例えば、「1:本-絵本」）に対して値１を、それ以外（例えば、「0:本-ぬいぐるみ」）に０を付与して、回帰学習を行う。

＜本発明の実施の形態に係る単語抽出装置の構成＞

次に、本発明の実施の形態に係る単語抽出装置の構成について説明する。図５に示すように、本発明の実施の形態に係る単語抽出装置２００は、ＣＰＵと、ＲＡＭと、後述する単語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語抽出装置１００は、機能的には図５に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインＤＢ２２５とを受け付ける。以下の説明では対象ドメイン質問文を質問文と記載する。

また、入力部２１０は、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２とを受け付ける。

演算部２２０は、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２と、意味ベクトルモデル３２と、汎用モデル３６と、系列モデル４２と、回帰モデル４８と、系列モデル用素性化部２３８と、系列モデル適用部２４０と、回帰モデル用素性化部２４４と、回帰モデル適用部２４６とを含んで構成されている。

アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２と、意味ベクトルモデル３２と、汎用モデル３６と、系列モデル４２と、回帰モデル４８とには、上記モデル学習装置１００と同じものが格納されている。

系列モデル用素性化部２３８は、予め作成された意味ベクトルモデル３２を用いて、質問文に含まれる各単語について、対象ドメインＤＢ２２５のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。具体的には、上記とモデル学習装置１００の系列モデル用素性化部３８と同様に第１〜第３の処理を行って素性を抽出するが、以下に説明する点が異なっている。

系列モデル用素性化部２３８は、第１の処理においては、対象ドメインＤＢ２２５の各エントリとの表層類似度及び意味類似度を抽出し、対象ドメインＤＢ２２５のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。また、系列モデル用素性化部２３８は、第３の処理において、ドメイン間類似度素性として、次の類似度ａ〜ｃを組み合わせた素性を抽出する。類似度ａは、対象ドメインの質問文に含まれる対象単語と最も類似する、アノテート済元ドメイン質問文集合２１の質問文に含まれる単語との類似度である。類似度ｂは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインＤＢ２２のエントリを表す単語との類似度である。類似度ｃは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインＤＢ２２のエントリを表す単語と、対象ドメインＤＢ２２５の当該テーブル構成要素の各エントリを表す単語との類似度のうち、最大の類似度である。また、学習済みドメインの質問文に含まれる単語に付与されたエントリを表す単語については、アノテート済元ドメイン質問文集合２１及び元ドメインＤＢ２２を参照すればよい。図６に類似度ａ〜ｃの一例を示す。

系列モデル適用部２４０は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するテーブル構成要素を抽出するための系列モデル４２と、系列モデル用素性化部２３８によって質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。系列モデル４２の適用には既存手法のCRF（非特許文献３）等を用いればよい。例えば、「<subj>掃除機</subj>は<pred>どこ/で/買える</pred>の」のようにラベルが付与される。

回帰モデル用素性化部２４４は、意味ベクトルモデル３２を用いて、系列モデル適用部２４０によってラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。具体的には、上記モデル学習装置１００の回帰モデル用素性化部４４と同様に第１〜第４の処理を行って素性を抽出する。また、第３の処理では、系列モデル用素性化部２３８と同様に、単語チャンクの各々について、ドメイン間類似度素性として、類似度ａ〜ｃを組み合わせた素性を抽出する。

回帰モデル適用部２４６は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデル４８と、回帰モデル用素性化部２４４によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインＤＢ２２５のエントリを表す単語を抽出し、出力部２５０に出力する。単語の抽出は、単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性に、回帰モデルを適用して、単語チャンクとエントリ候補とのペアについての値を算出し、テーブル構成要素毎に、最も高い出力値を得たエントリ候補を最終結果として出力する。例えば、subjectのラベルが付与された単語チャンク「掃除機」について、エントリ候補とのペアの出力値が、「1.0 掃除機-”subj-掃除機”」、「0.2 掃除機-”subj-洗濯機”」となっていれば前者を出力する。

＜本発明の実施の形態に係るモデル学習装置の作用＞

次に、本発明の実施の形態に係る単語抽出装置１００の作用について説明する。入力部１０において、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２と、元ドメイン教師なしテキスト２３とを受け付け、適用時の対象ドメインについて、対象ドメイン教師なしテキスト２４と、汎用モデル教師ありテキストとを受け付けると、単語抽出装置１００は、図７に示すモデル学習処理ルーチンを実行する。

ステップＳ１００では、入力部１０で受け付けた、元ドメイン教師なしテキスト２３と、対象ドメイン教師なしテキスト２４とに基づいて、意味ベクトルモデル３２を学習する。

ステップＳ１０２では、入力部１０で受け付けた汎用モデル教師ありテキスト２５に基づいて、汎用モデル３６を学習する。

ステップＳ１０４では、ステップＳ１００で学習された意味ベクトルモデル３２を用いて、アノテート済元ドメイン質問文集合２１における質問文に含まれる各単語について、元ドメインＤＢ２２のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。

ステップＳ１０６では、ステップＳ１０４でアノテート済元ドメイン質問文集合２１における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合２１における各質問文に付与されたラベルとに基づいて、テーブル構成要素を抽出するための系列モデル４２を学習する。

ステップＳ１０８では、意味ベクトル学習部３０で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合２１における各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。

ステップＳ１１０では、回帰モデル用素性化部４４によってアノテート済元ドメイン質問文集合２１における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合２１における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル４８を学習する。

上記ステップＳ１０４は、具体的には図８に示す系列モデル用素性化処理ルーチンによって実行される。

ステップＳ２００では、アノテート済元ドメイン質問文集合２１の各質問文に含まれる各単語について、テーブル構成要素毎に、元ドメインＤＢ２２の当該テーブル構成要素の各エントリとの表層類似度及び意味類似度を抽出し、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。

ステップＳ２０２では、アノテート済元ドメイン質問文集合２１の各質問文について、汎用モデル３６を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。

ステップＳ２０４では、アノテート済元ドメイン質問文集合２１の各質問文に含まれる各単語について、アノテートデータにより当該単語と同じ表記に付与されたエントリを表す単語との類似度を、ドメイン間に関するドメイン間類似度素性として抽出する。

上記ステップＳ１０８は、具体的には図９に示す回帰モデル用素性化処理ルーチンによって実行される。

ステップＳ３００では、アノテート済元ドメイン質問文集合２１の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインＤＢ２２のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部３８と同様に、素性として抽出する。

ステップＳ３０２では、アノテート済元ドメイン質問文集合２１の質問文の各々について、汎用モデル３６を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。

ステップＳ３０４では、アノテート済元ドメイン質問文集合２１の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、ドメイン間に関するドメイン間類似度素性を抽出する。

ステップＳ３０６では、アノテート済元ドメイン質問文集合２１の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。

＜本発明の実施の形態に係る単語抽出装置の作用＞

次に、本発明の実施の形態に係る単語抽出装置２００の作用について説明する。入力部１０において未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインＤＢ２２５とを受け付け、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合２１と、元ドメインＤＢ２２とを受け付けると、単語抽出装置２００は、図１０に示す単語抽出処理ルーチンを実行する。

まず、ステップＳ４００では、意味ベクトルモデル３２を用いて、質問文に含まれる各単語について、対象ドメインＤＢ２２５のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。

次に、ステップＳ４０２では、系列モデル４２と、ステップＳ４００で質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。

ステップＳ４０４では、意味ベクトルモデル３２を用いて、ステップＳ４０２でラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。

ステップＳ４０６では、回帰モデル４８と、回帰モデル用素性化部２４４によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインＤＢ２２５のエントリを表す単語を抽出し、出力部２５０に出力し処理を終了する。

なお、ステップＳ４００は上記図８に示す系列モデル化用素性化処理ルーチンと同様の処理を実行する。また、ステップＳ４０４は、上記図９に示す回帰モデル化用素性化処理ルーチンと同様の処理を実行する。

以上説明したように、本発明の実施の形態に係る単語抽出装置によれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、対象ドメインＤＢ２２５のテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデル４２と、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデル４８と、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０、２１０入力部
２０、２２０演算部
２１アノテート済元ドメイン質問文集合
２３元ドメイン教師なしテキスト
２４対象ドメイン教師なしテキスト
２５汎用モデル教師ありテキスト
３０意味ベクトル学習部
３２意味ベクトルモデル
３４汎用モデル学習部
３６汎用モデル
３８、２３８系列モデル用素性化部
４０系列モデル学習部
４２系列モデル
４４、２４４回帰モデル用素性化部
４６回帰モデル学習部
４８回帰モデル
１００モデル学習装置
２００単語抽出装置
２４０系列モデル適用部
２４６回帰モデル適用部
２５０出力部

Claims

未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、
予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、
学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、
各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、
前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、
を含む単語抽出装置。
前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも１つの素性の各々を抽出し、
前記少なくとも１つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行う請求項１記載の単語抽出装置。
各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものである請求項１又は２記載の単語抽出装置。
前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出する請求項１〜請求項３の何れか１項記載の単語抽出装置。
前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、
前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出する請求項１〜請求項４の何れか１項記載の単語抽出装置。
未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、
系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、
系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、
回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、
回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、
を含む単語抽出方法。
コンピュータを、請求項１〜請求項５のいずれか１項に記載の単語抽出装置の各部として機能させるためのプログラム。