JP2018169835A - モデル学習装置、単語抽出装置、方法、及びプログラム - Google Patents

モデル学習装置、単語抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018169835A
JP2018169835A JP2017067159A JP2017067159A JP2018169835A JP 2018169835 A JP2018169835 A JP 2018169835A JP 2017067159 A JP2017067159 A JP 2017067159A JP 2017067159 A JP2017067159 A JP 2017067159A JP 2018169835 A JP2018169835 A JP 2018169835A
Authority
JP
Japan
Prior art keywords
word
entry
type
label
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017067159A
Other languages
English (en)
Inventor
九月 貞光
Kugatsu Sadamitsu
九月 貞光
松尾 義博
Yoshihiro Matsuo
義博 松尾
久子 浅野
Hisako Asano
久子 浅野
京介 西田
Kyosuke Nishida
京介 西田
幸徳 本間
Yukinori Homma
幸徳 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017067159A priority Critical patent/JP2018169835A/ja
Publication of JP2018169835A publication Critical patent/JP2018169835A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるようにする。【解決手段】汎用valueタイプ付与部243が、特定のエントリ種を含むラベルが付与された単語チャンクの各々について、汎用valueタイプを推定して汎用ラベルを付与する。回帰モデル適用部246が、特定のエントリ種を含むラベルが付与された単語チャンクの各々について、特定のエントリ種のエントリを表す単語の各々と、特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、単語チャンクに付与された汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、抽出された単語チャンクの各々の回帰モデル用素性に基づいて、前記質問文に対応する、目的ドメインのデータベースの、特定のエントリ種のエントリを表す単語、及び他のエントリ種のエントリを表す単語を抽出する。【選択図】図4

Description

本発明は、モデル学習装置、単語抽出装置、方法、及びプログラムに係り、特に、文中から質問応答に必要となる単語を抽出するためのモデル学習装置、単語抽出装置、方法、及びプログラムに関する。
従来より、与えられた文と、知識を蓄えたデータベースを用いて、文中からデータベースに存在する表現に近い単語列を抽出する技術が知られている。例えば、3つ組のデータベース構造であった場合、質問文において、データベース中の表現を2つ含むことが分かれば、残りの1つを回答として提示することが可能となる。
また、自然文中の文字列に対し、系列ラベリングを用いて、任意のラベルセット、特に「学習時と異なるドメインのラベルセット」に対応づくように抽出、分類を行う方法が知られている(非特許文献2)。その際、質問文に対する汎用的な知識を用いて、質問文が大凡どのようなことを聞いているのかを事前定義した質問文タイプと、機械学習によって得られた分類モデルに従い分類し、それを利用する。
また、単語対の類似度を計算する際には、単語を意味空間でベクトル化した上で類似度を測る方法が知られている(非特許文献3参照)。
Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). 貞光九月他、「オープンドメインな情報提供のためのzero-shot 学習に基づく自然言語理解」、人工知能学会全国大会、2016年 Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
しかしながら、上記非特許文献2に記載の方法では、ある文字列に対し、複数のラベルを取りえる場合、単純な系列ラベリングでは対応不能である。また汎用的な質問文タイプを用いるための分類モデルは、このような事例に対応するための学習データを含んでいない場合があり、十分な精度向上を果たせない場合がある。
本発明は、上記事情を鑑みて成されたものであり、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
また、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる単語抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係るモデル学習装置は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置であって、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習する系列モデル学習部と、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する汎用valueタイプ付与部と、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する回帰モデル学習部と、を含んで構成されている。
本発明に係るモデル学習方法は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置におけるモデル学習方法であって、系列モデル学習部が、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習し、汎用valueタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、回帰モデル学習部が、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する。
本発明に係る単語抽出装置は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与する系列モデル適用部と、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する汎用valueタイプ付与部と、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する回帰モデル適用部と、を含んで構成されている。
本発明に係る単語抽出方法は、未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、系列モデル適用部が、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与し、汎用valueタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、回帰モデル適用部が、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する。
本発明に係るプログラムは、コンピュータを、上記のモデル学習装置又は単語抽出装置の各部として機能させるためのプログラムである。
本発明のモデル学習装置、方法、及びプログラムによれば、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができる、という効果が得られる。
本発明の単語抽出装置、方法、及びプログラムによれば、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる、という効果が得られる。
学習対象の元ドメインのデータベースと、未学習の目的ドメインのデータベースとを示す図である。 特定のエントリ種のエントリを表す単語を示すラベルと、他のエントリ種のエントリを表す単語を示すラベルとを付与する方法を説明するための図である。 本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 本発明の実施の形態に係る単語抽出装置の構成を示すブロック図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る単語抽出装置における単語抽出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
ここで本発明の実施の形態で解く問題について説明する。図1に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとする。学習時入力文「本はいくら?」、学習時入力文のアノテート結果(例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」)、3つ組のエントリ種からなる元ドメインDBに基づいて、単語抽出モデルを学習する。エントリ種は、subject(主体)/predicate(属性)/object(値)の3つ組のデータベースを構成する要素である。ここでのobjectとはsubjectとpredicateがテーブルで交差するエントリの値を指す。本実施の形態では3つ組の場合を例に説明するが、4つ組以上でも適用は可能である。
そして、学習したモデルを、未学習の目的ドメインである家電ドメインに適用する。適用時入力文「10000円の商品はどれ?」、及び目的ドメインDBの入力に対して、出力として例えば「「10000円」⇒object-10000」、「「10000円」⇒predicate-値段」というように、入力文の単語と、エントリ種及びエントリとの対応を複数得る。
このとき、以下の2つの課題がある。
第1の課題は、同じ文字列に対し、predicate、object両方に対するラベル付与が必要となることである。
第2の課題は、上記非特許文献2で用いられる質問文の汎用質問タイプ分類を用いた場合でも、この文は「価格」を聞いているとはみなされない可能性が高いことである。なぜなら汎用質問タイプ分類用のモデルの学習データは、「〜はいくら?」「〜は1000円するの?」のように、真に価格について質問をしている文であり、本例文のように価格を「条件」として扱った文が少ないためである。
本発明の実施の形態では、上記の2つの課題について、適用時の入力文中の文字列に対し、汎用valueタイプ(固有表現クラス等)の分類・抽出が可能な場合、あわせてエントリ種predicate(属性)のエントリを推定する。
例えば、入力文「10000円の商品はどれ?」に対して、図2に示すように、エントリ種object(値)及びエントリ「10000」のラベルが決定された後、汎用valueタイプ「money」を推定し、汎用valueタイプ「money」と目的ドメインDBのエントリ種predicate(属性)のエントリとの類似性を考慮して、エントリ種predicate(属性)及びエントリ「値段」のラベルが更に決定される。これにより、以下の2つの効果が得られる。
第1の効果は、複数のラベルを付与することが可能となることである。第2の効果は、質問文中の文字列を、汎用valueタイプに置き換えることで、エントリ種predicate(属性)及びエントリとのマッピングが容易となることである。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図3に示すように入力部10と、演算部20とを備えている。
入力部10は、学習対象の元ドメインについての、アノテート済元ドメイン質問文集合である元ドメイン学習データ21、及び元ドメインDB22を受け付ける。アノテート済元ドメイン質問文は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の?」というような質問文に対して、形態素境界を示すスラッシュ、及びエントリ種とエントリとを示すラベルが付与された質問文である。特定のエントリ種(object)及びエントリのラベルが付与された単語チャンクには、更に、他のエントリ種(predicate)及びエントリのラベルが更に付与されている。
また、入力部10は、汎用valueタイプ推定モデル32を受け付ける。汎用valueタイプ推定モデル32は、例えば、固有表現を抽出し、固有表現クラスを付与する固有表現抽出器である。汎用valueタイプ推定モデル32の適用には既存手法のCRF(非特許文献3)等を用いればよい。
演算部20は、元ドメイン学習データ21と、元ドメインDB22と、汎用valueタイプ推定モデル32と、系列モデル学習部40と、系列モデル42と、汎用valueタイプ付与部43と、汎用valueタイプ付元ドメイン学習データ44と、回帰モデル学習部46と、回帰モデル48とを含んで構成されている。
系列モデル学習部40は、まず、元ドメイン学習データ21における質問文に含まれる各単語について、元ドメインDB22のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度、品詞などを、系列モデル用素性として抽出する。なお、質問文のアノテートデータではエントリへのマッピングまで施されている前提である。系列モデル学習部40では、アノテートデータのうちエントリ種へのマッピング情報のみを用いる。
例えば、系列モデルの出力ラベルを元ドメインDB22のエントリ種又はNIL(無)とし、系列モデル学習部40は、質問文に含まれる各単語について、エントリ種毎に、以下の処理によって系列モデル用素性を抽出する。
系列モデル学習部40は、各エントリとの表層類似度及び意味類似度を抽出し、元ドメインDB22のエントリ種の各々について、当該エントリ種の各エントリとの表層類似度及び意味類似度の中での最大値を、当該エントリ種の素性とする。例えば、エントリ種がsubject、predicate、objectの3種類であれば、3種類それぞれについて、表層類似度及び意味類似度の各々が抽出される。
表層類似度は、質問文中の対象単語とエントリの各々との編集距離等であり、当該エントリ種のエントリの各々との表層類似度の最大値が、当該エントリ種の表層類似度として抽出される。例えば、「本⇔subject:絵本 編集距離=1、文字重複率=0.5、単語一致率=0」というような対象単語とエントリの結果を元に類似度を算出して、表層類似度を得る。また、意味類似度は、対象単語とエントリとペアに対し、意味ベクトルを用いて算出される類似度であり、当該エントリ種のエントリの各々との意味類似度の最大値が、当該エントリ種の意味類似度として抽出される。例えば、「本⇔subject:絵本 意味類似度=0.5」というような対象単語とエントリとの結果を元に類似度を算出して、最大値となるものを、対象単語とエントリ種との表層類似度として抽出する。
系列モデル学習部40は、元ドメイン学習データ21における質問文に含まれる各単語について抽出された、エントリ種ごとの系列モデル用素性と、元ドメイン学習データ21における質問文に付与されたラベルと、に基づいて、既存手法のCRF(非特許文献3)等を用いて、エントリ種を抽出するための系列モデル42を学習する。系列モデル42は、各ラベル(エントリ種)に対応する各素性に対する重みパラメータである。学習される系列モデルによって、「<subj>本</subj>は<pred>どこ/で/買える</pred>の」というように、1つの単語又は2つ以上の単語を連結した単語列である単語チャンクにラベルを付与することができる。
汎用valueタイプ付与部43は、元ドメイン学習データ21における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、汎用valueタイプ推定モデル32を用いて、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する。
汎用valueタイプ付元ドメイン学習データ44は、推定された汎用valueタイプを示す汎用ラベルが追加された、アノテート済元ドメイン質問文集合である。
回帰モデル学習部46は、汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、当該単語チャンクと、特定のエントリ種(object)の各エントリ候補を表す単語との類似度を、第1の回帰モデル用素性として抽出する。
回帰モデル学習部46では、系列モデル学習部40と異なり、具体的には以下の処理を行って、質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、元ドメインDB22の特定のエントリ種(object)のエントリ候補毎に素性化を行う。
回帰モデル学習部46は、具体的には、質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、元ドメインDB22の特定のエントリ種(object)のエントリ候補の各々との表層類似度と意味類似度を、系列モデル学習部40と同様に、第1の回帰モデル用素性として抽出する。
また、回帰モデル学習部46は、汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、予め定められた他のエントリ種(predicate)の各エントリ候補を表す単語との類似度を、第2の回帰モデル用素性として抽出する。
回帰モデル学習部46は、具体的には、質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、元ドメインDB22の他のエントリ種(predicate)のエントリ候補の各々との表層類似度と意味類似度を、系列モデル学習部40と同様に、第2の回帰モデル用素性として抽出する。
回帰モデル学習部46は、汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる各単語チャンクについて抽出された、特定のエントリ種(object)のエントリ候補毎の第1の回帰モデル用素性と、他のエントリ種(predicate)のエントリ候補毎の第2の回帰モデル用素性と、汎用valueタイプ付元ドメイン学習データ44における各質問文に付与されたラベルと、に基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習する。具体的には、質問文における特定のエントリ種(object)のラベルが付与された単語チャンク(表層の文字列)と特定のエントリ種(object)のエントリを表す単語との正しいアノテートペアに対して値1を、それ以外に0を付与し、質問文における特定のエントリ種(object)のラベルが付与された単語チャンクと他のエントリ種(predicate)のエントリを表す単語との正しいアノテートペアに対して値1を、それ以外に0を付与し、回帰学習を行う。
<本発明の実施の形態に係る単語抽出装置の構成>
次に、本発明の実施の形態に係る単語抽出装置の構成について説明する。図4に示すように、本発明の実施の形態に係る単語抽出装置200は、CPUと、RAMと、後述する単語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語抽出装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、未学習の目的ドメインについての質問文である目的ドメイン質問文と、目的ドメインの目的ドメインDB225とを受け付ける。以下の説明では目的ドメイン質問文を質問文と記載する。
演算部220は、汎用valueタイプ推定モデル32と、系列モデル42と、回帰モデル48と、系列モデル適用部240と、エントリ種推定済目的ドメインテストデータ242と、汎用valueタイプ付与部243と、汎用valueタイプ付目的ドメインテストデータ244と、回帰モデル適用部246とを含んで構成されている。
汎用valueタイプ推定モデル32と、系列モデル42と、回帰モデル48とには、上記モデル学習装置100と同じものが格納されている。
系列モデル適用部240は、質問文に含まれる各単語について、目的ドメインDB225のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。具体的には、以下のように、上記とモデル学習装置100の系列モデル学習部40と同様の処理を行って系列モデル用素性を抽出する。
系列モデル適用部240は、目的ドメインDB225の各エントリとの表層類似度及び意味類似度を抽出し、目的ドメインDB225のエントリ種の各々について、当該エントリ種の各エントリとの表層類似度及び意味類似度の中での最大値を、当該エントリ種の素性とする。
系列モデル適用部240は、モデル学習装置100によって学習された、単語に対応するエントリ種を抽出するための系列モデル42と、質問文に含まれる各単語について抽出された、エントリ種毎の系列モデル用素性とに基づいて、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与する。系列モデル42の適用には既存手法のCRF(非特許文献3)等を用いればよい。例えば、各エントリ種に対応する系列モデル用素性の各々に対する重みパラメータを、抽出された、エントリ種毎の系列モデル用素性に適用して、「<subj>掃除機</subj>は<pred>どこ/で/買える</pred>の」のようにラベルが付与される。
エントリ種推定済目的ドメインテストデータ242は、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与したものである。
汎用valueタイプ付与部243は、エントリ種推定済目的ドメインテストデータ242における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、汎用valueタイプ推定モデル32を用いて、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する。
汎用valueタイプ付目的ドメインテストデータ244は、推定された汎用valueタイプを示す汎用ラベルが追加された質問文である。
回帰モデル適用部246は、系列モデル適用部240によって特定のエントリ種(object)のラベルが付与された単語チャンクの各々について、特定のエントリ種(object)のエントリ候補を表す単語の各々との類似度を、第1の回帰モデル用素性として抽出する。具体的には、上記モデル学習装置100の回帰モデル学習部46と同様の処理を行って素性を抽出する。
回帰モデル適用部246は、系列モデル適用部240によって特定のエントリ種(object)のラベルが付与された単語チャンクの各々について、汎用ラベルと、他のエントリ種(predicate)のエントリ候補を表す単語の各々との類似度を、第2の回帰モデル用素性として抽出する。具体的には、上記モデル学習装置100の回帰モデル学習部46と同様の処理を行って素性を抽出する。
回帰モデル適用部246は、モデル学習装置100によって学習された、単語に対応するエントリを表す単語を抽出するための回帰モデル48と、特定のエントリ種(object)のラベルが付与された単語チャンクの各々について抽出された、特定のエントリ種(object)のエントリ候補毎の第1の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインDB225の特定のエントリ種(object)のエントリを表す単語を抽出し、出力部250に出力する。単語の抽出は、単語チャンクの各々について抽出された、特定のエントリ種(object)のエントリ候補毎の第1の回帰モデル用素性に、回帰モデル48を適用して、単語チャンクとエントリ候補とのペアについての値を算出し、最も高い出力値を得たエントリ候補を最終結果として出力する。
また、回帰モデル適用部246は、モデル学習装置100によって学習された、単語に対応するエントリを表す単語を抽出するための回帰モデル48と、特定のエントリ種のラベルが付与された単語チャンクの各々について抽出された、他のエントリ種(predicate)のエントリ候補毎の第2の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインDB225の他のエントリ種(predicate)のエントリを表す単語を抽出し、出力部250に出力する。単語の抽出は、単語チャンクの各々について抽出された、他のエントリ種(predicate)のエントリ候補毎の第2の回帰モデル用素性に、回帰モデル48を適用して、単語チャンクとエントリ候補とのペアについての値を算出し、最も高い出力値を得たエントリ候補を最終結果として出力する。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において、学習対象の元ドメインについて、元ドメイン学習データ21と、元ドメインDB22とを受け付けると、モデル学習装置100は、図5に示すモデル学習処理ルーチンを実行する。
ステップS100では、学習対象の元ドメインについて、入力部10で受け付けた、元ドメイン学習データ21と、元ドメインDB22とに基づいて、元ドメイン学習データ21における質問文に含まれる各単語について、元ドメインDB22のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。
ステップS102では、ステップS100で元ドメイン学習データ21における質問文に含まれる各単語について抽出された、エントリ種ごとの系列モデル用素性と、元ドメイン学習データ21における各質問文に付与されたラベルと、に基づいて、エントリ種を抽出するための系列モデル42を学習する。
ステップS104では、元ドメイン学習データ21と、元ドメインDB22とに基づいて、元ドメイン学習データ21における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、汎用valueタイプ推定モデル32を用いて、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する。
ステップS106では、汎用valueタイプ付元ドメイン学習データ44と、元ドメインDB22とに基づいて、汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、当該単語チャンクと、特定のエントリ種(object)の各エントリ候補を表す単語との類似度を、第1の回帰モデル用素性として抽出する。
また、汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、付与された汎用ラベルと、他のエントリ種(predicate)の各エントリ候補を表す単語との類似度を、第2の回帰モデル用素性として抽出する。
ステップS108では、上記ステップS106で汎用valueタイプ付元ドメイン学習データ44における質問文に含まれる各単語チャンクについて抽出された、特定のエントリ種(object)のエントリ候補毎の第1の回帰モデル用素性と、他のエントリ種(predicate)のエントリ候補毎の第2の回帰モデル用素性と、汎用valueタイプ付元ドメイン学習データ44における各質問文に付与されたラベル及び汎用ラベルと、に基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習し、モデル学習処理ルーチンを終了する。
<本発明の実施の形態に係る単語抽出装置の作用>
次に、本発明の実施の形態に係る単語抽出装置200の作用について説明する。入力部210において未学習の目的ドメインについての質問文である目的ドメイン質問文と、目的ドメインの目的ドメインDB225とを受け付けると、単語抽出装置200は、図6に示す単語抽出処理ルーチンを実行する。
まず、ステップS200では、質問文に含まれる各単語について、目的ドメインDB225のエントリ種毎に、当該エントリ種のエントリを表す単語との類似度を、系列モデル用素性として抽出する。
次に、ステップS202では、系列モデル42と、ステップS200で質問文に含まれる各単語について抽出された、エントリ種毎の系列モデル用素性とに基づいて、質問文に含まれる単語チャンクに、エントリ種を表すラベルを付与する。
ステップS204では、上記ステップS202で特定のエントリ種(object)を表すラベルが付与された単語チャンクの各々について、汎用valueタイプ推定モデル32を用いて、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する。
ステップS206では、上記ステップS202で特定のエントリ種(object)を表すラベルが付与された単語チャンクの各々について、特定のエントリ種(object)のエントリ候補を表す単語の各々との類似度を、第1の回帰モデル用素性として抽出すると共に、上記ステップS204で付与された汎用ラベルと、他のエントリ種(predicate)のエントリ候補を表す単語の各々との類似度を、第2の回帰モデル用素性として抽出する。
ステップS208では、回帰モデル48と、上記ステップS206で、特定のエントリ種(object)を表すラベルが付与された単語チャンクの各々について抽出された、特定のエントリ種(object)のエントリ候補毎の第1の回帰モデル用素性とに基づいて、目的ドメインDB225の特定のエントリ種(object)のエントリを表す単語を抽出し、また、回帰モデル48と、他のエントリ種(predicate)のエントリ候補毎の第2の回帰モデル用素性とに基づいて、質問文に対応する、目的ドメインDB225の他のエントリ種(predicate)のエントリを表す単語を抽出して、出力部250に出力し処理を終了する。
以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、特定のエントリ種(object)のエントリを表す単語の各々と、当該単語チャンクに付与された汎用ラベルとに基づいて、回帰モデル用素性を抽出し、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について得られた回帰モデル用素性と、単語チャンクの各々について付与されたラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできるモデルを学習することができる。
また、自然言語文中の文字列に対し、データベース中の各要素をラベルと見なしてラベルの付与を行う問題において、質問文中で条件的に扱われる値(object)に対し、汎用valueタイプを推定することで、同時に属性(predicate)を推定して、複数のラベルを付与することができる。
また、本発明の実施の形態に係る単語抽出装置によれば、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々について、特定のエントリ種(object)のエントリを表す単語の各々と、他のエントリ種(predicate)のエントリを表す単語の各々と、単語チャンクに付与された汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、抽出された、特定のエントリ種(object)を含むラベルが付与された単語チャンクの各々の回帰モデル用素性に基づいて、質問文に対応する、目的ドメインのデータベースの、特定のエントリ種(object)のエントリを表す単語、及び他のエントリ種(predicate)のエントリを表す単語を抽出することにより、質問文に対応する単語が複数存在する場合であっても精度良く抽出することできる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10、210 入力部
20、220 演算部
21 元ドメイン学習データ
22 元ドメインDB
32 汎用valueタイプ推定モデル
40 系列モデル学習部
42 系列モデル
43 汎用valueタイプ付与部
44 汎用valueタイプ付元ドメイン学習データ
46 回帰モデル学習部
48 回帰モデル
100 モデル学習装置
200 単語抽出装置
240 系列モデル適用部
242 エントリ種推定済目的ドメインテストデータ
243 汎用valueタイプ付与部
244 汎用valueタイプ付目的ドメインテストデータ
246 回帰モデル適用部
250 出力部
225 目的ドメインDB

Claims (8)

  1. 未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置であって、
    元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、
    前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習する系列モデル学習部と、
    前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する汎用valueタイプ付与部と、
    前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
    前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する回帰モデル学習部と、
    を含むモデル学習装置。
  2. 前記質問文に含まれる、前記特定のエントリ種及び前記特定のエントリ種のエントリを表す単語を示す前記ラベルが付与された単語チャンクには、更に、前記特定のエントリ種とは異なる予め定められた他のエントリ種、及び前記他のエントリ種のエントリを表す単語を示す前記ラベルが付与されており、
    前記回帰モデル学習部は、
    前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクとに基づいて、第1の回帰モデル用素性を抽出し、前記他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、第2の回帰モデル用素性を抽出し、
    前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記第1の回帰モデル用素性及び前記第2の回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、前記回帰モデルを学習する請求項1記載のモデル学習装置。
  3. 未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、
    前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、
    前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与する系列モデル適用部と、
    前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与する汎用valueタイプ付与部と、
    前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
    前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する回帰モデル適用部と、
    を含む単語抽出装置。
  4. 前記回帰モデル適用部は、
    前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクとに基づいて、第1の回帰モデル用素性を抽出し、前記他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、第2の回帰モデル用素性を抽出し、
    前記抽出された、前記第1の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの前記特定のエントリ種のエントリを表す単語を抽出し、前記抽出された、前記第2の回帰モデル用素性に基づいて、前記質問文に対応する、前記目的ドメインのデータベースの前記他のエントリ種のエントリを表す単語を抽出する請求項3記載の単語抽出装置。
  5. 未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出するためのモデル学習装置におけるモデル学習方法であって、
    系列モデル学習部が、元ドメインのデータベースのエントリを表す単語及びエントリ種を示すラベルが付与された、前記元ドメインの質問文の集合に基づいて、前記質問文に含まれる各単語について、前記エントリ種毎に、系列モデル用素性を抽出し、
    前記元ドメインに対する、前記質問文に含まれる各単語について得られた前記系列モデル用素性と、前記質問文に含まれる各単語について付与された前記ラベルとに基づいて、単語チャンクに対応するエントリ種を抽出するための系列モデルを学習し、
    汎用valueタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、
    回帰モデル学習部が、前記元ドメインの質問文の集合に基づいて、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
    前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について得られた前記回帰モデル用素性と、前記単語チャンクの各々について付与された前記ラベルとに基づいて、単語に対応するエントリを表す単語を抽出するための回帰モデルを学習する
    モデル学習方法。
  6. 未学習の目的ドメインのデータベースのエントリを表す単語から、入力された目的ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、
    系列モデル適用部が、前記質問文に含まれる各単語について、前記目的ドメインのデータベースのエントリ種毎に、系列モデル用素性を抽出し、
    前記質問文に含まれる各単語について抽出された、前記エントリ種毎の系列モデル用素性と、単語チャンクに対応するエントリ種を抽出するための系列モデルとに基づいて、前記質問文に含まれる各単語チャンクに、前記エントリ種を表すラベルを付与し、
    汎用valueタイプ付与部が、前記質問文に含まれる、特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、汎用valueタイプを推定し、推定された汎用valueタイプを示す汎用ラベルを付与し、
    回帰モデル適用部が、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々について、前記特定のエントリ種のエントリを表す単語の各々と、前記特定のエントリ種とは異なる予め定められた他のエントリ種のエントリを表す単語の各々と、前記単語チャンクに付与された前記汎用valueタイプを示す汎用ラベルとに基づいて、回帰モデル用素性を抽出し、
    前記抽出された、前記特定のエントリ種を含む前記ラベルが付与された単語チャンクの各々の回帰モデル用素性と、単語に対応するエントリを表す単語を抽出するための回帰モデルとに基づいて、前記質問文に対応する、前記目的ドメインのデータベースの、前記特定のエントリ種のエントリを表す単語、及び前記他のエントリ種のエントリを表す単語を抽出する
    単語抽出方法。
  7. コンピュータを、請求項1又は2に記載のモデル学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項3又は4に記載の単語抽出装置の各部として機能させるためのプログラム。
JP2017067159A 2017-03-30 2017-03-30 モデル学習装置、単語抽出装置、方法、及びプログラム Pending JP2018169835A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017067159A JP2018169835A (ja) 2017-03-30 2017-03-30 モデル学習装置、単語抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017067159A JP2018169835A (ja) 2017-03-30 2017-03-30 モデル学習装置、単語抽出装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2018169835A true JP2018169835A (ja) 2018-11-01

Family

ID=64020535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017067159A Pending JP2018169835A (ja) 2017-03-30 2017-03-30 モデル学習装置、単語抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2018169835A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020222179A3 (en) * 2019-04-30 2020-12-24 Soul Machines System for sequencing and planning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020222179A3 (en) * 2019-04-30 2020-12-24 Soul Machines System for sequencing and planning

Similar Documents

Publication Publication Date Title
CN110737758B (zh) 用于生成模型的方法和装置
US9384450B1 (en) Training machine learning models for open-domain question answering system
JP6781760B2 (ja) 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
WO2019084810A1 (zh) 一种信息处理方法及终端、计算机存储介质
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN108804428A (zh) 一种译文中术语错译的纠正方法、系统及相关装置
CN109408811B (zh) 一种数据处理方法及服务器
WO2014126657A1 (en) Latent semantic analysis for application in a question answer system
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
US20180113950A1 (en) Queryng graph topologies
CN109063164A (zh) 一种基于深度学习的智能问答方法
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
JP2016170636A (ja) 接続関係推定装置、方法、及びプログラム
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113821605A (zh) 一种事件抽取方法
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
JP6334587B2 (ja) 単語抽出装置、方法、及びプログラム
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP2018169835A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
JP2017204219A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム