JP2017162112A - 単語抽出装置、方法、及びプログラム - Google Patents

単語抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017162112A
JP2017162112A JP2016044822A JP2016044822A JP2017162112A JP 2017162112 A JP2017162112 A JP 2017162112A JP 2016044822 A JP2016044822 A JP 2016044822A JP 2016044822 A JP2016044822 A JP 2016044822A JP 2017162112 A JP2017162112 A JP 2017162112A
Authority
JP
Japan
Prior art keywords
word
entry
question sentence
representing
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016044822A
Other languages
English (en)
Other versions
JP6334587B2 (ja
Inventor
九月 貞光
Kugatsu Sadamitsu
九月 貞光
義博 松尾
Yoshihiro Matsuo
義博 松尾
竜一郎 東中
Ryuichiro Higashinaka
竜一郎 東中
久子 浅野
Hisako Asano
久子 浅野
幸徳 本間
Yukinori Homma
幸徳 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016044822A priority Critical patent/JP6334587B2/ja
Publication of JP2017162112A publication Critical patent/JP2017162112A/ja
Application granted granted Critical
Publication of JP6334587B2 publication Critical patent/JP6334587B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる。【解決手段】系列モデル用素性化部238が、意味ベクトルを用いて、質問文に含まれる各単語について、テーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出する。系列モデル適用部240が、テーブル構成要素を抽出するための系列モデルと、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与する。回帰モデル用素性化部244が、各単語の意味ベクトルを用いて、単語チャンクの各々について、エントリを表す単語の各々との類似度を、素性として抽出する。回帰モデル適用部246が、エントリ表す単語を抽出するための回帰モデルと、抽出された、単語チャンクの各々の素性とに基づいて、質問文に対応するエントリを表す単語を抽出する。【選択図】図1

Description

本発明は、単語抽出装置、方法、及びプログラムに係り、特に、文中から質問応答に必要となる単語を抽出するための単語抽出装置、方法、及びプログラムに関する。
従来より、与えられた文と、知識を蓄えたデータベースを用いて、文中からデータベースに存在する表現に近い単語列を抽出する技術が知られている。例えば、3つ組のデータベース構造であった場合、質問文において、データベース中の表現を2つ含むことが分かれば、残りの1つを回答として提示することが可能となる。
また、単語の類似度を計算する際には、単語を意味空間でベクトル化した上で類似度を測る方法が知られている(非特許文献3参照)。
K. Yao et al. "Recurrent Conditional Random Field for Language Understanding", ICASSP2014 Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013). Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).
文中の抽出すべき単語列に対し、どのデータベース項目に紐づくかが予めアノテートされた学習用データが存在する場合、汎用的機械学習方法(非特許文献1参照)を採ることで上記の単語列を抽出することができる。しかし、データベースに対応する学習用データを作成することはコストが高い。
また、例えば、個別に単語の類似度を求める場合、分類ベースのアプローチと比べ、学習時にどの素性に重みを置くべきかという判断が難しくなる。
また、非特許文献3では、元ドメイン教師なしテキストと対象ドメイン教師なしテキストを別々のベクトルモデルで表現してしまうと、ベクトル空間自体が全く異なることに起因して、学習時に付与される重みと適用時に利用すべき重みが同等とならない場合がある。また、ドメインに無関係な大量の教師なしテキストを使うことも考えられるが、単語は様々な意味で使われることから、複数のドメインが混じることでベクトル空間が対象ドメインにおいて適切に用いることができない場合がある。
また、疑問詞等において、文中の文字列とDB内の文字列とが表層的にも意味的にも類似しない場合が生じる。例えば「XYZ説明会は<いつ>?」→「開催日」というように表層的にも意味的にも類似しない場合である。
また、元ドメインと対象ドメインが遠い場合には上記課題の解決だけではなく、そもそもデータリソースが不足する場合も生じる。このような困難な状況に備えるためにどのようなドメインでも汎用的に用いることのできる補足情報を得たい。
本発明は、上記事情を鑑みて成されたものであり、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる単語抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る単語抽出装置は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、を含んで構成されている。
また、第1の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも1つの素性の各々を抽出し、前記少なくとも1つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行うようにしてもよい。
また、第1の発明に係る単語抽出装置において、各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものであるようにしてもよい。
また、第1の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出するようにしてもよい。
また、第1の発明に係る単語抽出装置において、前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出するようにしてもよい。
第2の発明に係る単語抽出方法は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、を含んで実行することを特徴とする。
第3の発明に係るプログラムは、コンピュータを、第1の発明に係る単語抽出装置の各部として機能させるためのプログラムである。
本発明の単語抽出装置、方法、及びプログラムによれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、データベースのテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデルと、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデルと、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる、という効果が得られる。
学習対象の元ドメインと、未学習の対象ドメインとのデータベースにおけるテーブル構成要素の関係性を表した抽象図である。 本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 学習時のドメイン間類似度素性の一例を示す図である。 素性の相対化の一例を示す図である。 本発明の実施の形態に係る単語抽出装置の構成を示すブロック図である。 適用時のドメイン間類似度素性の一例を示す図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る系列モデル用素性化処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る回帰モデル用素性化処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る単語抽出装置における単語抽出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
ここで本発明の実施の形態で解く問題について説明する。図1に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとする。学習時入力文「本はいくら?」、学習時入力文のアノテート結果(例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」)、3つ組のテーブル構成要素からなる元ドメインDBに基づいて、単語抽出モデルを学習する。テーブル構成要素は、subject/predicate/objectの3つ組のデータベースを構成する要素である。ここでのobjectとはsubjectとpredicateがテーブルで交差するエントリの値を指す。本実施の形態では3つ組の場合を例に説明するが、4つ組以上でも適用は可能である。
そして、学習したモデルを、未学習の対象ドメインである家電ドメインに適用する。適用時入力文「掃除機はいくら」、及び対象ドメインDBの入力に対して、出力として例えば「「掃除機」⇒subject-掃除機」、「「いくら」⇒predicate-値段」というように、入力文の単語と、テーブル構成要素及びエントリとの対応を得る。
本発明の実施の形態では、上記の問題について、2段階に分けた解法を採る。1段階目では、抽象度の高い、データベースの同じ意味構造(テーブル構成要素)レベルでの抽出モデルを用いる。
2段階目では、テーブル構成要素を細分化してエントリに紐づけるため、分類アプローチで解く。ここでは、学習済みの元ドメインの学習用データベースと、対象ドメインのデータベースとが異なる場合、学習用データベースに対し直接的な分類ベースのアプローチを採ることは不可能であるため、対象ドメインの各エントリに対する類似度を求めるアプローチを採る。このようにすることで、未知のドメインでもエントリと紐づけた単語抽出が可能となる。
(素性の相対化)
どの素性に重みを置くべきかという判断が難しいという課題に対しては、素性の相対化を行うことで対応する。他の分類候補であるエントリに対する相対的なスコアを付与する。これにより、分類問題と同等の情報量を与えることを考慮することができる。
(ドメイン横断の意味ベクトルモデル)
学習時の重みと適用時の重みが同等の重みにならない場合があるという課題に対しては、元ドメインの教師なしテキストと対象ドメインの教師なしテキストを同時に学習し、意味ベクトルモデルを得る。これにより、学習時に得られた当該ベクトルに対する重みを、適用時でもそのまま用いることができる。
(ドメイン間類似度素性)
文字列が類似しない場合があるという課題に対しては、対象ドメインの文中文字列と元ドメインの文中文字列(例えば、XYZパーティは<いつですか>)との類似度を測り、次に、元ドメインのエントリとの対応(例:元ドメインDB内エントリ「日付」と対応)を元として、元ドメインDBのエントリと、対象ドメインDBのエントリとの類似度(「開催日」と「日付」との類似度)を計算する。これにより、表層的、意味的に類似しない文中表記でも、DB内エントリに紐づけることができる。
(汎用モデル素性)
汎用的な補足情報を得るために、どのようなドメインでもおおよそ用いられる汎用な教師データから学習した汎用モデルを、対象ドメインにおける推定の手がかりとして用いる。これにより、元ドメインと対象ドメインが大きく異なるものであっても、DB内エントリに紐づけることができる。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20とを備えている。
入力部10は、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23とを受け付ける。アノテート済元ドメイン質問文は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の?」というような質問文に対して、形態素境界を示すスラッシュ、及びテーブル構成要素とエントリの対応付けが付与された質問文である。
また、入力部10は、適用時の対象ドメインについての対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキストとを受け付ける。
演算部20は、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキスト25と、意味ベクトル学習部30と、意味ベクトルモデル32と、汎用モデル学習部34と、汎用モデル36と、系列モデル用素性化部38と、系列モデル学習部40と、系列モデル42と、回帰モデル用素性化部44と、回帰モデル学習部46と、回帰モデル48とを含んで構成されている。
意味ベクトル学習部30は、入力部10で受け付けた、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24とに基づいて、各単語についての意味ベクトルからなる意味ベクトルモデル32を学習する。意味ベクトルモデル32は、例えば、「本」と「絵本」との意味的類似度が0.5である、といった出力が可能なモデルである。意味ベクトルモデル32は、元ドメイン教師なしテキスト23、及び対象ドメイン教師なしテキスト24に含まれる単語を同時にベクトルモデル化することで学習する。モデル化には非特許文献2に記載の既存のモデル化手法を用いる。また、変形例として、入力にドメインに依存しない汎用テキストをさらに加えて学習しても良い。
汎用モデル学習部34は、入力部10で受け付けた汎用モデル教師ありテキスト25に基づいて、汎用モデル36を学習する。汎用モデル36は、例えば、「NTT」が企業名であることが識別可能なモデルである。ここでは、教師ありテキストを用いて、ドメインに依存しない汎用なモデルを学習する。本実施の形態で学習する汎用モデルは文分類モデルと、単語列抽出モデルとの2通りが考えられるが、本実施の形態では文分類モデルを学習する。文分類モデルは、一文に対しての識別結果を付与するデータ、及びデータから既存の分類手法(Support Vector Machines等)を用いたモデルである。文分類モデルは、例えば、「これっていくら」という文から「価格」を聞いている、という推定ラベルを付与する。なお、単語列抽出モデルを学習する場合には、文中の各単語に対しての識別結果を付与するデータ、及びデータから既存の系列ラベリング手法(CRF等)を用いたモデルを学習する。例えば「<企業名>NTT</企業名>の<金額>回線使用料</金額>は<金額疑問>いくら</金額疑問>?」というように各単語に上位概念を表すラベルが対応付けられる。
系列モデル用素性化部38は、意味ベクトル学習部30で学習された意味ベクトルモデル32を用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる各単語について、元ドメインDB22のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。なお、質問文のアノテートデータではエントリへのマッピングまで施されている前提である。系列モデル用素性化部38では、アノテートデータのうちテーブル構成要素へのマッピング情報のみを用いる。
例えば、系列モデルの出力ラベルを元ドメインDB22のテーブル構成要素として、系列モデル用素性化部38は、質問文に含まれる各単語について、テーブル構成要素毎に、以下第1〜第3の処理によって素性を抽出する。
系列モデル用素性化部38は、第1の処理において、まず、各エントリとの表層類似度及び意味類似度を抽出し、元ドメインDB22のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。例えば、テーブル構成要素がsubject、predicate、objectの3種類であれば、3種類それぞれについて、表層類似度及び意味類似度の各々が抽出される。
表層類似度は、質問文中の対象単語とエントリの各々との編集距離等であり、当該テーブル構成要素のエントリの各々との表層類似度の最大値が、当該テーブル構成要素の表層類似度として抽出される。例えば、「本⇔subject:絵本 編集距離=1、文字重複率=0.5、単語一致率=0」というような対象単語とエントリの結果を元に類似度を算出して、表層類似度を得る。また、意味類似度は、対象単語とエントリとペアに対し、意味ベクトルモデルを用いて算出される類似度であり、当該テーブル構成要素のエントリの各々との意味類似度の最大値が、当該テーブル構成要素の意味類似度として抽出される。例えば、「本⇔subject:絵本 意味類似度=0.5」というような対象単語とエントリとの結果を元に類似度を算出して、最大値となるものを、対象単語とテーブル構成要素との表層類似度として抽出する。テーブル構成要素の系列モデル用素性化データの出力の例は以下のようになる。注目する対象単語が「本」であれば、「正解ラベル=B-subj subj編集距離=1 subj意味類似度=0.5 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「は」であれば、「正解ラベル=O subj編集距離=2 subj意味類似度=0.1 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「どこ」であれば「正解ラベル=B-pred subj編集距離=6 subj意味類似度=0.1 pred編集距離=6 pred意味類似度=0.1 obj編集距離=6 obj意味類似度=0.1」となる。ここで正解ラベルのヘッダに付与されるB/I/Oは、B=抽出したい対象単語列の先頭、I=抽出したい対象単語列の先頭以外、O=抽出しない単語を表す。
系列モデル用素性化部38は、第2の処理において、質問文の各々について、質問文の質問内容を推定するための、ドメインに依存しない汎用モデル36を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。例えば、汎用モデル36である文分類モデルの推定結果として、「金額」を聞いている文であるという推定結果が得られる。「何を文全体として聞いているか」を示す本推定結果は、特に末尾の内容語、先頭の疑問詞にとって重要な手がかりとなる場合が多いため、末尾の内容語、又は先頭の疑問詞に素性として付与する。なお、汎用モデル36が、単語列抽出モデルの場合、単語の上位概念を推定するための、ドメインに依存しない汎用モデル36を用いて推定された単語の推定結果を当該単語の素性として抽出するようにすればよい。例えば、推定された単語列の範囲(例:「NTT⇒企業名」「回線使用料⇒金額」)の各単語に対し、当該推定結果を素性として与える。
系列モデル用素性化部38は、第3の処理において、質問文に含まれる各単語について、ドメイン間に関するドメイン間類似度素性を抽出する。学習時においては、対象単語と、アノテートデータにより当該対象単語と同じ表記に付与されたエントリを表す単語との類似度をドメイン間類似度素性とする。なお、学習データにおいて、対象単語と同じ表記に対して、付与されたエントリが複数種類存在する場合には、対象単語と同じ表記に対して付与されたエントリとのペアのうち、対象単語と当該対象単語に付与されたエントリとのペアが出現する割合を、ドメイン間類似素性とする。例えば、図3に示すように、「いくら」という対象単語と、アノテートされたエントリ「価格」についてのドメイン間類似度素性(類似度b)は、アノテート済元ドメイン質問文集合21の質問文に出現する全ての「いくら」という単語と、アノテートされたエントリとのペアのうち、単語「いくら」とエントリ「価格」のペアの割合をドメイン間類似度素性とすればよい。
系列モデル学習部40は、系列モデル用素性化部38によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合21における質問文に付与されたラベルとに基づいて、既存手法のCRF(非特許文献3)等を用いて、テーブル構成要素を抽出するための系列モデル42を学習する。系列モデル42は、各ラベル(テーブル構成要素)に対応する各素性に対する重みパラメータである。学習される系列モデルによって、「<subj>本</subj>は<pred>どこ/で/買える</pred>の」というように、1つの単語又は2つ以上の単語を連結した単語列である単語チャンクにラベルを付与することができる。
回帰モデル用素性化部44は、意味ベクトル学習部30で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。
回帰モデル用素性化部44では、系列モデル用素性化部38と異なり、具体的には以下第1〜第4の処理を行って、質問文に含まれるラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素であって、元ドメインDB22のテーブル構成要素のエントリ候補毎に素性化を行う。
回帰モデル用素性化部44は、まず、第1の処理において、質問文に含まれる単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインDB22のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部38と同様に、素性として抽出する。
回帰モデル用素性化部44は、第2の処理において、系列モデル用素性化部38と同様に、質問文の各々について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。また、回帰モデル用素性化部44の第2の処理はエントリ毎に処理するため、まず、元ドメインDB22の各エントリが、汎用モデル36で分類されるラベルのうちどれに近いかをマッピングしておく。例えば元ドメインDB22のエントリに「価格」があり、汎用モデル36の分類対象に「金額」が存在していれば、それらは近いものであるとしてマッピングしておく。回帰モデルでは、全てのエントリ候補に対する素性化を行うため、それぞれのエントリ候補にについて、マッピングされる汎用モデルのラベルと、実際に推定された汎用モデル推定ラベルとの間のペアを、素性として抽出する。例えば、学習時に、元ドメインDB22のエントリ候補「価格」について素性化する場合であって、かつ汎用モデル36の推定ラベル(文分類器)が「金額」を出力した場合、「{DB候補マップ=価格&汎用モデル推定結果=金額}=1」という素性が抽出される。
回帰モデル用素性化部44は、第3の処理において、質問文に含まれる単語チャンクの各々について、系列モデル用素性化部38と同様に、ドメイン間に関するドメイン間類似度素性を抽出する。
回帰モデル用素性化部44は、第4の処理において、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。第4の処理では、単語チャンクの各々について、上記第1の処理で抽出した表層類似度、意味類似度、第3の処理で抽出したドメイン間類似度の3種それぞれに対し、エントリ候補毎に抽出したもののうちの最大の値となるものを相対化素性とし、全てのエントリ候補の素性に対して、相対化表層類似度、相対化意味類似度、相対化ドメイン間類似度を追加する。図4に示すように、例えば、単語チャンクに付与されたラベルが表すテーブル構成要素predicateにおいて、エントリ候補「値段」、「重量」、「販売日」があり、意味類似度の最大値が「重量」の0.2であれば、0.2の値を相対化意味類似度として全てのエントリ候補「値段」、「重量」、「販売日」に追加する。
回帰モデル学習部46は、回帰モデル用素性化部44によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習する。具体的には、質問文におけるラベルが付与された単語チャンク(表層の文字列)とエントリを表す単語との正しいアノテートペア(例えば、「1:本-絵本」)に対して値1を、それ以外(例えば、「0:本-ぬいぐるみ」)に0を付与して、回帰学習を行う。
<本発明の実施の形態に係る単語抽出装置の構成>
次に、本発明の実施の形態に係る単語抽出装置の構成について説明する。図5に示すように、本発明の実施の形態に係る単語抽出装置200は、CPUと、RAMと、後述する単語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語抽出装置100は、機能的には図5に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインDB225とを受け付ける。以下の説明では対象ドメイン質問文を質問文と記載する。
また、入力部210は、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合21と、元ドメインDB22とを受け付ける。
演算部220は、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、意味ベクトルモデル32と、汎用モデル36と、系列モデル42と、回帰モデル48と、系列モデル用素性化部238と、系列モデル適用部240と、回帰モデル用素性化部244と、回帰モデル適用部246とを含んで構成されている。
アノテート済元ドメイン質問文集合21と、元ドメインDB22と、意味ベクトルモデル32と、汎用モデル36と、系列モデル42と、回帰モデル48とには、上記モデル学習装置100と同じものが格納されている。
系列モデル用素性化部238は、予め作成された意味ベクトルモデル32を用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。具体的には、上記とモデル学習装置100の系列モデル用素性化部38と同様に第1〜第3の処理を行って素性を抽出するが、以下に説明する点が異なっている。
系列モデル用素性化部238は、第1の処理においては、対象ドメインDB225の各エントリとの表層類似度及び意味類似度を抽出し、対象ドメインDB225のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。また、系列モデル用素性化部238は、第3の処理において、ドメイン間類似度素性として、次の類似度a〜cを組み合わせた素性を抽出する。類似度aは、対象ドメインの質問文に含まれる対象単語と最も類似する、アノテート済元ドメイン質問文集合21の質問文に含まれる単語との類似度である。類似度bは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインDB22のエントリを表す単語との類似度である。類似度cは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインDB22のエントリを表す単語と、対象ドメインDB225の当該テーブル構成要素の各エントリを表す単語との類似度のうち、最大の類似度である。また、学習済みドメインの質問文に含まれる単語に付与されたエントリを表す単語については、アノテート済元ドメイン質問文集合21及び元ドメインDB22を参照すればよい。図6に類似度a〜cの一例を示す。
系列モデル適用部240は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するテーブル構成要素を抽出するための系列モデル42と、系列モデル用素性化部238によって質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。系列モデル42の適用には既存手法のCRF(非特許文献3)等を用いればよい。例えば、「<subj>掃除機</subj>は<pred>どこ/で/買える</pred>の」のようにラベルが付与される。
回帰モデル用素性化部244は、意味ベクトルモデル32を用いて、系列モデル適用部240によってラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。具体的には、上記モデル学習装置100の回帰モデル用素性化部44と同様に第1〜第4の処理を行って素性を抽出する。また、第3の処理では、系列モデル用素性化部238と同様に、単語チャンクの各々について、ドメイン間類似度素性として、類似度a〜cを組み合わせた素性を抽出する。
回帰モデル適用部246は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデル48と、回帰モデル用素性化部244によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインDB225のエントリを表す単語を抽出し、出力部250に出力する。単語の抽出は、単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性に、回帰モデルを適用して、単語チャンクとエントリ候補とのペアについての値を算出し、テーブル構成要素毎に、最も高い出力値を得たエントリ候補を最終結果として出力する。例えば、subjectのラベルが付与された単語チャンク「掃除機」について、エントリ候補とのペアの出力値が、「1.0 掃除機-”subj-掃除機”」、「0.2 掃除機-”subj-洗濯機”」となっていれば前者を出力する。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係る単語抽出装置100の作用について説明する。入力部10において、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23とを受け付け、適用時の対象ドメインについて、対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキストとを受け付けると、単語抽出装置100は、図7に示すモデル学習処理ルーチンを実行する。
ステップS100では、入力部10で受け付けた、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24とに基づいて、意味ベクトルモデル32を学習する。
ステップS102では、入力部10で受け付けた汎用モデル教師ありテキスト25に基づいて、汎用モデル36を学習する。
ステップS104では、ステップS100で学習された意味ベクトルモデル32を用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる各単語について、元ドメインDB22のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。
ステップS106では、ステップS104でアノテート済元ドメイン質問文集合21における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、テーブル構成要素を抽出するための系列モデル42を学習する。
ステップS108では、意味ベクトル学習部30で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合21における各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。
ステップS110では、回帰モデル用素性化部44によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習する。
上記ステップS104は、具体的には図8に示す系列モデル用素性化処理ルーチンによって実行される。
ステップS200では、アノテート済元ドメイン質問文集合21の各質問文に含まれる各単語について、テーブル構成要素毎に、元ドメインDB22の当該テーブル構成要素の各エントリとの表層類似度及び意味類似度を抽出し、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。
ステップS202では、アノテート済元ドメイン質問文集合21の各質問文について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。
ステップS204では、アノテート済元ドメイン質問文集合21の各質問文に含まれる各単語について、アノテートデータにより当該単語と同じ表記に付与されたエントリを表す単語との類似度を、ドメイン間に関するドメイン間類似度素性として抽出する。
上記ステップS108は、具体的には図9に示す回帰モデル用素性化処理ルーチンによって実行される。
ステップS300では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインDB22のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部38と同様に、素性として抽出する。
ステップS302では、アノテート済元ドメイン質問文集合21の質問文の各々について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。
ステップS304では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、ドメイン間に関するドメイン間類似度素性を抽出する。
ステップS306では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。
<本発明の実施の形態に係る単語抽出装置の作用>
次に、本発明の実施の形態に係る単語抽出装置200の作用について説明する。入力部10において未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインDB225とを受け付け、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合21と、元ドメインDB22とを受け付けると、単語抽出装置200は、図10に示す単語抽出処理ルーチンを実行する。
まず、ステップS400では、意味ベクトルモデル32を用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。
次に、ステップS402では、系列モデル42と、ステップS400で質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。
ステップS404では、意味ベクトルモデル32を用いて、ステップS402でラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。
ステップS406では、回帰モデル48と、回帰モデル用素性化部244によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインDB225のエントリを表す単語を抽出し、出力部250に出力し処理を終了する。
なお、ステップS400は上記図8に示す系列モデル化用素性化処理ルーチンと同様の処理を実行する。また、ステップS404は、上記図9に示す回帰モデル化用素性化処理ルーチンと同様の処理を実行する。
以上説明したように、本発明の実施の形態に係る単語抽出装置によれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデル42と、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデル48と、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10、210 入力部
20、220 演算部
21 アノテート済元ドメイン質問文集合
23 元ドメイン教師なしテキスト
24 対象ドメイン教師なしテキスト
25 汎用モデル教師ありテキスト
30 意味ベクトル学習部
32 意味ベクトルモデル
34 汎用モデル学習部
36 汎用モデル
38、238 系列モデル用素性化部
40 系列モデル学習部
42 系列モデル
44、244 回帰モデル用素性化部
46 回帰モデル学習部
48 回帰モデル
100 モデル学習装置
200 単語抽出装置
240 系列モデル適用部
246 回帰モデル適用部
250 出力部

Claims (7)

  1. 未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、
    予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、
    学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、
    各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、
    前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、
    を含む単語抽出装置。
  2. 前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも1つの素性の各々を抽出し、
    前記少なくとも1つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行う請求項1記載の単語抽出装置。
  3. 各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものである請求項1又は2記載の単語抽出装置。
  4. 前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、
    前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、
    前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び
    前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出する請求項1〜請求項3の何れか1項記載の単語抽出装置。
  5. 前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、
    前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出する請求項1〜請求項4の何れか1項記載の単語抽出装置。
  6. 未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、
    系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、
    系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、
    回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、
    回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、
    を含む単語抽出方法。
  7. コンピュータを、請求項1〜請求項5のいずれか1項に記載の単語抽出装置の各部として機能させるためのプログラム。
JP2016044822A 2016-03-08 2016-03-08 単語抽出装置、方法、及びプログラム Active JP6334587B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016044822A JP6334587B2 (ja) 2016-03-08 2016-03-08 単語抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044822A JP6334587B2 (ja) 2016-03-08 2016-03-08 単語抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017162112A true JP2017162112A (ja) 2017-09-14
JP6334587B2 JP6334587B2 (ja) 2018-05-30

Family

ID=59857634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044822A Active JP6334587B2 (ja) 2016-03-08 2016-03-08 単語抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6334587B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977203A (zh) * 2019-03-07 2019-07-05 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN114492437A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2013250926A (ja) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、方法、及びプログラム
US20150161242A1 (en) * 2013-12-05 2015-06-11 International Business Machines Corporation Identifying and Displaying Relationships Between Candidate Answers
JP2015176355A (ja) * 2014-03-14 2015-10-05 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2013250926A (ja) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、方法、及びプログラム
US20150161242A1 (en) * 2013-12-05 2015-06-11 International Business Machines Corporation Identifying and Displaying Relationships Between Candidate Answers
JP2015176355A (ja) * 2014-03-14 2015-10-05 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977203A (zh) * 2019-03-07 2019-07-05 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN109977203B (zh) * 2019-03-07 2021-06-08 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN114492437A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词识别方法、装置、电子设备及存储介质
CN114492437B (zh) * 2022-02-16 2023-07-18 平安科技(深圳)有限公司 关键词识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP6334587B2 (ja) 2018-05-30

Similar Documents

Publication Publication Date Title
CN110825881B (zh) 一种建立电力知识图谱的方法
CN111522994B (zh) 用于生成信息的方法和装置
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
JP6062879B2 (ja) モデル学習装置、方法及びプログラム
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
US20200233908A1 (en) Interactive system and computer program therefor
JP6663826B2 (ja) 計算機及び応答の生成方法
JP6334587B2 (ja) 単語抽出装置、方法、及びプログラム
CN111814487A (zh) 一种语义理解方法、装置、设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
JP6305630B2 (ja) 文書検索装置、方法及びプログラム
JP2017204219A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム
WO2022262080A1 (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113408271B (zh) 基于rpa及ai的信息抽取方法、装置、设备及介质
CN115589446A (zh) 一种基于预训练与提示的会议摘要生成方法及系统
JP2018169835A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R150 Certificate of patent or registration of utility model

Ref document number: 6334587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150