JP2018169835A

JP2018169835A - モデル学習装置、単語抽出装置、方法、及びプログラム

Info

Publication number: JP2018169835A
Application number: JP2017067159A
Authority: JP
Inventors: 九月貞光; Kugatsu Sadamitsu; 松尾　義博; Yoshihiro Matsuo; 義博松尾; 久子浅野; Hisako Asano; 京介西田; Kyosuke Nishida; 幸徳本間; Yukinori Homma
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2018-11-01

Abstract

【課題】質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるようにする。【解決手段】汎用ｖａｌｕｅタイプ付与部２４３が、特定のエントリ種を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定して汎用ラベルを付与する。回帰モデル適用部２４６が、特定のエントリ種を含むラベルが付与された単語チャンクの各々について、特定のエントリ種のエントリを表す単語の各々と、特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、単語チャンクに付与された汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、抽出された単語チャンクの各々の回帰モデル用素性に基づいて、前記質問文に対応する、目的ドメインのデータベースの、特定のエントリ種のエントリを表す単語、及び他のエントリ種のエントリを表す単語を抽出する。【選択図】図４

Description

本発明は、モデル学習装置、単語抽出装置、方法、及びプログラムに係り、特に、文中から質問応答に必要となる単語を抽出するためのモデル学習装置、単語抽出装置、方法、及びプログラムに関する。

従来より、与えられた文と、知識を蓄えたデータベースを用いて、文中からデータベースに存在する表現に近い単語列を抽出する技術が知られている。例えば、３つ組のデータベース構造であった場合、質問文において、データベース中の表現を２つ含むことが分かれば、残りの１つを回答として提示することが可能となる。

また、自然文中の文字列に対し、系列ラベリングを用いて、任意のラベルセット、特に「学習時と異なるドメインのラベルセット」に対応づくように抽出、分類を行う方法が知られている（非特許文献２）。その際、質問文に対する汎用的な知識を用いて、質問文が大凡どのようなことを聞いているのかを事前定義した質問文タイプと、機械学習によって得られた分類モデルに従い分類し、それを利用する。

また、単語対の類似度を計算する際には、単語を意味空間でベクトル化した上で類似度を測る方法が知られている（非特許文献３参照）。

Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). 貞光九月他、「オープンドメインな情報提供のためのzero-shot 学習に基づく自然言語理解」、人工知能学会全国大会、2016年 Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).

しかしながら、上記非特許文献２に記載の方法では、ある文字列に対し、複数のラベルを取りえる場合、単純な系列ラベリングでは対応不能である。また汎用的な質問文タイプを用いるための分類モデルは、このような事例に対応するための学習データを含んでいない場合があり、十分な精度向上を果たせない場合がある。

本発明は、上記事情を鑑みて成されたものであり、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。

また、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる単語抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係るモデル学習装置は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置であって、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習する系列モデル学習部と、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する汎用ｖａｌｕｅタイプ付与部と、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する回帰モデル学習部と、を含んで構成されている。

本発明に係るモデル学習方法は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置におけるモデル学習方法であって、系列モデル学習部が、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習し、汎用ｖａｌｕｅタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、回帰モデル学習部が、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する。

本発明に係る単語抽出装置は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与する系列モデル適用部と、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する汎用ｖａｌｕｅタイプ付与部と、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する回帰モデル適用部と、を含んで構成されている。

本発明に係る単語抽出方法は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、系列モデル適用部が、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与し、汎用ｖａｌｕｅタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、回帰モデル適用部が、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する。

本発明に係るプログラムは、コンピュータを、上記のモデル学習装置又は単語抽出装置の各部として機能させるためのプログラムである。

本発明のモデル学習装置、方法、及びプログラムによれば、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができる、という効果が得られる。

本発明の単語抽出装置、方法、及びプログラムによれば、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる、という効果が得られる。

学習対象の元ドメインのデータベースと、未学習の目的ドメインのデータベースとを示す図である。特定のエントリ種のエントリを表す単語を示すラベルと、他のエントリ種のエントリを表す単語を示すラベルとを付与する方法を説明するための図である。本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。本発明の実施の形態に係る単語抽出装置の構成を示すブロック図である。本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る単語抽出装置における単語抽出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞
まず、本発明の実施の形態における概要を説明する。

ここで本発明の実施の形態で解く問題について説明する。図１に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとする。学習時入力文「本はいくら？」、学習時入力文のアノテート結果（例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」）、３つ組のエントリ種からなる元ドメインＤＢに基づいて、単語抽出モデルを学習する。エントリ種は、subject（主体）/predicate（属性）/object（値）の３つ組のデータベースを構成する要素である。ここでのobjectとはsubjectとpredicateがテーブルで交差するエントリの値を指す。本実施の形態では３つ組の場合を例に説明するが、４つ組以上でも適用は可能である。

そして、学習したモデルを、未学習の目的ドメインである家電ドメインに適用する。適用時入力文「１００００円の商品はどれ？」、及び目的ドメインＤＢの入力に対して、出力として例えば「「10000円」⇒object-10000」、「「10000円」⇒predicate-値段」というように、入力文の単語と、エントリ種及びエントリとの対応を複数得る。

このとき、以下の２つの課題がある。

第１の課題は、同じ文字列に対し、predicate、object両方に対するラベル付与が必要となることである。

第２の課題は、上記非特許文献２で用いられる質問文の汎用質問タイプ分類を用いた場合でも、この文は「価格」を聞いているとはみなされない可能性が高いことである。なぜなら汎用質問タイプ分類用のモデルの学習データは、「〜はいくら？」「〜は1000円するの？」のように、真に価格について質問をしている文であり、本例文のように価格を「条件」として扱った文が少ないためである。

本発明の実施の形態では、上記の２つの課題について、適用時の入力文中の文字列に対し、汎用valueタイプ(固有表現クラス等)の分類・抽出が可能な場合、あわせてエントリ種predicate（属性）のエントリを推定する。

例えば、入力文「10000円の商品はどれ？」に対して、図２に示すように、エントリ種object（値）及びエントリ「10000」のラベルが決定された後、汎用valueタイプ「money」を推定し、汎用valueタイプ「money」と目的ドメインＤＢのエントリ種predicate（属性）のエントリとの類似性を考慮して、エントリ種predicate（属性）及びエントリ「値段」のラベルが更に決定される。これにより、以下の２つの効果が得られる。

第１の効果は、複数のラベルを付与することが可能となることである。第２の効果は、質問文中の文字列を、汎用valueタイプに置き換えることで、エントリ種predicate（属性）及びエントリとのマッピングが容易となることである。

＜本発明の実施の形態に係るモデル学習装置の構成＞
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図３に示すように、本発明の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図３に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、学習対象の元ドメインについての、アノテート済元ドメイン質問文集合である元ドメイン学習データ２１、及び元ドメインＤＢ２２を受け付ける。アノテート済元ドメイン質問文は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の？」というような質問文に対して、形態素境界を示すスラッシュ、及びエントリ種とエントリとを示すラベルが付与された質問文である。特定のエントリ種（object）及びエントリのラベルが付与された単語チャンクには、更に、他のエントリ種（predicate）及びエントリのラベルが更に付与されている。

また、入力部１０は、汎用ｖａｌｕｅタイプ推定モデル３２を受け付ける。汎用ｖａｌｕｅタイプ推定モデル３２は、例えば、固有表現を抽出し、固有表現クラスを付与する固有表現抽出器である。汎用ｖａｌｕｅタイプ推定モデル３２の適用には既存手法のCRF（非特許文献３）等を用いればよい。

演算部２０は、元ドメイン学習データ２１と、元ドメインＤＢ２２と、汎用ｖａｌｕｅタイプ推定モデル３２と、系列モデル学習部４０と、系列モデル４２と、汎用ｖａｌｕｅタイプ付与部４３と、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４と、回帰モデル学習部４６と、回帰モデル４８とを含んで構成されている。

系列モデル学習部４０は、まず、元ドメイン学習データ２１における質問文に含まれる各単語について、元ドメインＤＢ２２のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度、品詞などを、系列モデル用素性として抽出する。なお、質問文のアノテートデータではエントリへのマッピングまで施されている前提である。系列モデル学習部４０では、アノテートデータのうちエントリ種へのマッピング情報のみを用いる。

例えば、系列モデルの出力ラベルを元ドメインＤＢ２２のエントリ種又はＮＩＬ（無）とし、系列モデル学習部４０は、質問文に含まれる各単語について、エントリ種毎に、以下の処理によって系列モデル用素性を抽出する。

系列モデル学習部４０は、各エントリとの表層類似度及び意味類似度を抽出し、元ドメインＤＢ２２のエントリ種の各々について、当該エントリ種の各エントリとの表層類似度及び意味類似度の中での最大値を、当該エントリ種の素性とする。例えば、エントリ種がsubject、predicate、objectの３種類であれば、３種類それぞれについて、表層類似度及び意味類似度の各々が抽出される。

表層類似度は、質問文中の対象単語とエントリの各々との編集距離等であり、当該エントリ種のエントリの各々との表層類似度の最大値が、当該エントリ種の表層類似度として抽出される。例えば、「本⇔subject:絵本編集距離=1、文字重複率=0.5、単語一致率=0」というような対象単語とエントリの結果を元に類似度を算出して、表層類似度を得る。また、意味類似度は、対象単語とエントリとペアに対し、意味ベクトルを用いて算出される類似度であり、当該エントリ種のエントリの各々との意味類似度の最大値が、当該エントリ種の意味類似度として抽出される。例えば、「本⇔subject:絵本意味類似度=0.5」というような対象単語とエントリとの結果を元に類似度を算出して、最大値となるものを、対象単語とエントリ種との表層類似度として抽出する。

系列モデル学習部４０は、元ドメイン学習データ２１における質問文に含まれる各単語について抽出された、エントリ種ごとの系列モデル用素性と、元ドメイン学習データ２１における質問文に付与されたラベルと、に基づいて、既存手法のCRF（非特許文献３）等を用いて、エントリ種を抽出するための系列モデル４２を学習する。系列モデル４２は、各ラベル（エントリ種）に対応する各素性に対する重みパラメータである。学習される系列モデルによって、「<subj>本</subj>は<pred>どこ/で/買える</pred>の」というように、１つの単語又は２つ以上の単語を連結した単語列である単語チャンクにラベルを付与することができる。

汎用ｖａｌｕｅタイプ付与部４３は、元ドメイン学習データ２１における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプ推定モデル３２を用いて、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する。

汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４は、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルが追加された、アノテート済元ドメイン質問文集合である。

回帰モデル学習部４６は、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、当該単語チャンクと、特定のエントリ種（object）の各エントリ候補を表す単語との類似度を、第１の回帰モデル用素性として抽出する。

回帰モデル学習部４６では、系列モデル学習部４０と異なり、具体的には以下の処理を行って、質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、元ドメインＤＢ２２の特定のエントリ種（object）のエントリ候補毎に素性化を行う。

回帰モデル学習部４６は、具体的には、質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、元ドメインＤＢ２２の特定のエントリ種（object）のエントリ候補の各々との表層類似度と意味類似度を、系列モデル学習部４０と同様に、第１の回帰モデル用素性として抽出する。

また、回帰モデル学習部４６は、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、予め定められた他のエントリ種（predicate）の各エントリ候補を表す単語との類似度を、第２の回帰モデル用素性として抽出する。

回帰モデル学習部４６は、具体的には、質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、元ドメインＤＢ２２の他のエントリ種（predicate）のエントリ候補の各々との表層類似度と意味類似度を、系列モデル学習部４０と同様に、第２の回帰モデル用素性として抽出する。

回帰モデル学習部４６は、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる各単語チャンクについて抽出された、特定のエントリ種（object）のエントリ候補毎の第１の回帰モデル用素性と、他のエントリ種（predicate）のエントリ候補毎の第２の回帰モデル用素性と、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における各質問文に付与されたラベルと、に基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル４８を学習する。具体的には、質問文における特定のエントリ種（object）のラベルが付与された単語チャンク（表層の文字列）と特定のエントリ種（object）のエントリを表す単語との正しいアノテートペアに対して値１を、それ以外に０を付与し、質問文における特定のエントリ種（object）のラベルが付与された単語チャンクと他のエントリ種（predicate）のエントリを表す単語との正しいアノテートペアに対して値１を、それ以外に０を付与し、回帰学習を行う。

＜本発明の実施の形態に係る単語抽出装置の構成＞
次に、本発明の実施の形態に係る単語抽出装置の構成について説明する。図４に示すように、本発明の実施の形態に係る単語抽出装置２００は、ＣＰＵと、ＲＡＭと、後述する単語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語抽出装置２００は、機能的には図４に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、未学習の目的ドメインについての質問文である目的ドメイン質問文と、目的ドメインの目的ドメインＤＢ２２５とを受け付ける。以下の説明では目的ドメイン質問文を質問文と記載する。

演算部２２０は、汎用ｖａｌｕｅタイプ推定モデル３２と、系列モデル４２と、回帰モデル４８と、系列モデル適用部２４０と、エントリ種推定済目的ドメインテストデータ２４２と、汎用ｖａｌｕｅタイプ付与部２４３と、汎用ｖａｌｕｅタイプ付目的ドメインテストデータ２４４と、回帰モデル適用部２４６とを含んで構成されている。

汎用ｖａｌｕｅタイプ推定モデル３２と、系列モデル４２と、回帰モデル４８とには、上記モデル学習装置１００と同じものが格納されている。

系列モデル適用部２４０は、質問文に含まれる各単語について、目的ドメインＤＢ２２５のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。具体的には、以下のように、上記とモデル学習装置１００の系列モデル学習部４０と同様の処理を行って系列モデル用素性を抽出する。

系列モデル適用部２４０は、目的ドメインＤＢ２２５の各エントリとの表層類似度及び意味類似度を抽出し、目的ドメインＤＢ２２５のエントリ種の各々について、当該エントリ種の各エントリとの表層類似度及び意味類似度の中での最大値を、当該エントリ種の素性とする。

系列モデル適用部２４０は、モデル学習装置１００によって学習された、単語に対応するエントリ種を抽出するための系列モデル４２と、質問文に含まれる各単語について抽出された、エントリ種毎の系列モデル用素性とに基づいて、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与する。系列モデル４２の適用には既存手法のCRF（非特許文献３）等を用いればよい。例えば、各エントリ種に対応する系列モデル用素性の各々に対する重みパラメータを、抽出された、エントリ種毎の系列モデル用素性に適用して、「<subj>掃除機</subj>は<pred>どこ/で/買える</pred>の」のようにラベルが付与される。

エントリ種推定済目的ドメインテストデータ２４２は、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与したものである。

汎用ｖａｌｕｅタイプ付与部２４３は、エントリ種推定済目的ドメインテストデータ２４２における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプ推定モデル３２を用いて、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する。

汎用ｖａｌｕｅタイプ付目的ドメインテストデータ２４４は、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルが追加された質問文である。

回帰モデル適用部２４６は、系列モデル適用部２４０によって特定のエントリ種（object）のラベルが付与された単語チャンクの各々について、特定のエントリ種（object）のエントリ候補を表す単語の各々との類似度を、第１の回帰モデル用素性として抽出する。具体的には、上記モデル学習装置１００の回帰モデル学習部４６と同様の処理を行って素性を抽出する。

回帰モデル適用部２４６は、系列モデル適用部２４０によって特定のエントリ種（object）のラベルが付与された単語チャンクの各々について、汎用ラベルと、他のエントリ種（predicate）のエントリ候補を表す単語の各々との類似度を、第２の回帰モデル用素性として抽出する。具体的には、上記モデル学習装置１００の回帰モデル学習部４６と同様の処理を行って素性を抽出する。

回帰モデル適用部２４６は、モデル学習装置１００によって学習された、単語に対応するエントリを表す単語を抽出するための回帰モデル４８と、特定のエントリ種（object）のラベルが付与された単語チャンクの各々について抽出された、特定のエントリ種（object）のエントリ候補毎の第１の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインＤＢ２２５の特定のエントリ種（object）のエントリを表す単語を抽出し、出力部２５０に出力する。単語の抽出は、単語チャンクの各々について抽出された、特定のエントリ種（object）のエントリ候補毎の第１の回帰モデル用素性に、回帰モデル４８を適用して、単語チャンクとエントリ候補とのペアについての値を算出し、最も高い出力値を得たエントリ候補を最終結果として出力する。

また、回帰モデル適用部２４６は、モデル学習装置１００によって学習された、単語に対応するエントリを表す単語を抽出するための回帰モデル４８と、特定のエントリ種のラベルが付与された単語チャンクの各々について抽出された、他のエントリ種（predicate）のエントリ候補毎の第２の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインＤＢ２２５の他のエントリ種（predicate）のエントリを表す単語を抽出し、出力部２５０に出力する。単語の抽出は、単語チャンクの各々について抽出された、他のエントリ種（predicate）のエントリ候補毎の第２の回帰モデル用素性に、回帰モデル４８を適用して、単語チャンクとエントリ候補とのペアについての値を算出し、最も高い出力値を得たエントリ候補を最終結果として出力する。

＜本発明の実施の形態に係るモデル学習装置の作用＞
次に、本発明の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において、学習対象の元ドメインについて、元ドメイン学習データ２１と、元ドメインＤＢ２２とを受け付けると、モデル学習装置１００は、図５に示すモデル学習処理ルーチンを実行する。

ステップＳ１００では、学習対象の元ドメインについて、入力部１０で受け付けた、元ドメイン学習データ２１と、元ドメインＤＢ２２とに基づいて、元ドメイン学習データ２１における質問文に含まれる各単語について、元ドメインＤＢ２２のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。

ステップＳ１０２では、ステップＳ１００で元ドメイン学習データ２１における質問文に含まれる各単語について抽出された、エントリ種ごとの系列モデル用素性と、元ドメイン学習データ２１における各質問文に付与されたラベルと、に基づいて、エントリ種を抽出するための系列モデル４２を学習する。

ステップＳ１０４では、元ドメイン学習データ２１と、元ドメインＤＢ２２とに基づいて、元ドメイン学習データ２１における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプ推定モデル３２を用いて、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する。

ステップＳ１０６では、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４と、元ドメインＤＢ２２とに基づいて、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、当該単語チャンクと、特定のエントリ種（object）の各エントリ候補を表す単語との類似度を、第１の回帰モデル用素性として抽出する。

また、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、他のエントリ種（predicate）の各エントリ候補を表す単語との類似度を、第２の回帰モデル用素性として抽出する。

ステップＳ１０８では、上記ステップＳ１０６で汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における質問文に含まれる各単語チャンクについて抽出された、特定のエントリ種（object）のエントリ候補毎の第１の回帰モデル用素性と、他のエントリ種（predicate）のエントリ候補毎の第２の回帰モデル用素性と、汎用ｖａｌｕｅタイプ付元ドメイン学習データ４４における各質問文に付与されたラベル及び汎用ラベルと、に基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル４８を学習し、モデル学習処理ルーチンを終了する。

＜本発明の実施の形態に係る単語抽出装置の作用＞
次に、本発明の実施の形態に係る単語抽出装置２００の作用について説明する。入力部２１０において未学習の目的ドメインについての質問文である目的ドメイン質問文と、目的ドメインの目的ドメインＤＢ２２５とを受け付けると、単語抽出装置２００は、図６に示す単語抽出処理ルーチンを実行する。

まず、ステップＳ２００では、質問文に含まれる各単語について、目的ドメインＤＢ２２５のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。

次に、ステップＳ２０２では、系列モデル４２と、ステップＳ２００で質問文に含まれる各単語について抽出された、エントリ種毎の系列モデル用素性とに基づいて、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与する。

ステップＳ２０４では、上記ステップＳ２０２で特定のエントリ種（object）を表すラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプ推定モデル３２を用いて、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する。

ステップＳ２０６では、上記ステップＳ２０２で特定のエントリ種（object）を表すラベルが付与された単語チャンクの各々について、特定のエントリ種（object）のエントリ候補を表す単語の各々との類似度を、第１の回帰モデル用素性として抽出すると共に、上記ステップＳ２０４で付与された汎用ラベルと、他のエントリ種（predicate）のエントリ候補を表す単語の各々との類似度を、第２の回帰モデル用素性として抽出する。

ステップＳ２０８では、回帰モデル４８と、上記ステップＳ２０６で、特定のエントリ種（object）を表すラベルが付与された単語チャンクの各々について抽出された、特定のエントリ種（object）のエントリ候補毎の第１の回帰モデル用素性とに基づいて、目的ドメインＤＢ２２５の特定のエントリ種（object）のエントリを表す単語を抽出し、また、回帰モデル４８と、他のエントリ種（predicate）のエントリ候補毎の第２の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインＤＢ２２５の他のエントリ種（predicate）のエントリを表す単語を抽出して、出力部２５０に出力し処理を終了する。

以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、特定のエントリ種（object）のエントリを表す単語の各々と、当該単語チャンクに付与された汎用ラベルとに基づいて、回帰モデル用素性を抽出し、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について得られた回帰モデル用素性と、単語チャンクの各々について付与されたラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができる。

また、自然言語文中の文字列に対し、データベース中の各要素をラベルと見なしてラベルの付与を行う問題において、質問文中で条件的に扱われる値(object)に対し、汎用ｖａｌｕｅタイプを推定することで、同時に属性(predicate)を推定して、複数のラベルを付与することができる。

また、本発明の実施の形態に係る単語抽出装置によれば、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々について、特定のエントリ種（object）のエントリを表す単語の各々と、他のエントリ種（predicate）のエントリを表す単語の各々と、単語チャンクに付与された汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、抽出された、特定のエントリ種（object）を含むラベルが付与された単語チャンクの各々の回帰モデル用素性に基づいて、質問文に対応する、目的ドメインのデータベースの、特定のエントリ種（object）のエントリを表す単語、及び他のエントリ種（predicate）のエントリを表す単語を抽出することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０、２１０入力部
２０、２２０演算部
２１元ドメイン学習データ
２２元ドメインＤＢ
３２汎用ｖａｌｕｅタイプ推定モデル
４０系列モデル学習部
４２系列モデル
４３汎用ｖａｌｕｅタイプ付与部
４４汎用ｖａｌｕｅタイプ付元ドメイン学習データ
４６回帰モデル学習部
４８回帰モデル
１００モデル学習装置
２００単語抽出装置
２４０系列モデル適用部
２４２エントリ種推定済目的ドメインテストデータ
２４３汎用ｖａｌｕｅタイプ付与部
２４４汎用ｖａｌｕｅタイプ付目的ドメインテストデータ
２４６回帰モデル適用部
２５０出力部
２２５目的ドメインＤＢ

Claims

未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置であって、
元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、
前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習する系列モデル学習部と、
前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する汎用ｖａｌｕｅタイプ付与部と、
前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する回帰モデル学習部と、
を含むモデル学習装置。
前記質問文に含まれる、前記特定のエントリ種及び前記特定のエントリ種のエントリを表す単語を示す前記ラベルが付与された単語チャンクには、更に、前記特定のエントリ種とは異なる予め定められた他のエントリ種、及び前記他のエントリ種のエントリを表す単語を示す前記ラベルが付与されており、
前記回帰モデル学習部は、
前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクとに基づいて、第１の回帰モデル用素性を抽出し、前記他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、第２の回帰モデル用素性を抽出し、
前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記第１の回帰モデル用素性及び前記第２の回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、前記回帰モデルを学習する請求項１記載のモデル学習装置。
未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、
前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、
前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与する系列モデル適用部と、
前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与する汎用ｖａｌｕｅタイプ付与部と、
前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する回帰モデル適用部と、
を含む単語抽出装置。
前記回帰モデル適用部は、
前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクとに基づいて、第１の回帰モデル用素性を抽出し、前記他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、第２の回帰モデル用素性を抽出し、
前記抽出された、前記第１の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの前記特定のエントリ種のエントリを表す単語を抽出し、前記抽出された、前記第２の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの前記他のエントリ種のエントリを表す単語を抽出する請求項３記載の単語抽出装置。
未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置におけるモデル学習方法であって、
系列モデル学習部が、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、
前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習し、
汎用ｖａｌｕｅタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、
回帰モデル学習部が、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する
モデル学習方法。
未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、
系列モデル適用部が、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、
前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与し、
汎用ｖａｌｕｅタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用ｖａｌｕｅタイプを推定し、推定された汎用ｖａｌｕｅタイプを示す汎用ラベルを付与し、
回帰モデル適用部が、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ｖａｌｕｅタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する
単語抽出方法。
コンピュータを、請求項１又は２に記載のモデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項３又は４に記載の単語抽出装置の各部として機能させるためのプログラム。