JP6334587B2 - Word extraction apparatus, method, and program - Google Patents

Word extraction apparatus, method, and program Download PDF

Info

Publication number
JP6334587B2
JP6334587B2 JP2016044822A JP2016044822A JP6334587B2 JP 6334587 B2 JP6334587 B2 JP 6334587B2 JP 2016044822 A JP2016044822 A JP 2016044822A JP 2016044822 A JP2016044822 A JP 2016044822A JP 6334587 B2 JP6334587 B2 JP 6334587B2
Authority
JP
Japan
Prior art keywords
word
entry
representing
domain
question sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016044822A
Other languages
Japanese (ja)
Other versions
JP2017162112A (en
Inventor
九月 貞光
九月 貞光
松尾 義博
義博 松尾
東中 竜一郎
竜一郎 東中
久子 浅野
久子 浅野
幸徳 本間
幸徳 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016044822A priority Critical patent/JP6334587B2/en
Publication of JP2017162112A publication Critical patent/JP2017162112A/en
Application granted granted Critical
Publication of JP6334587B2 publication Critical patent/JP6334587B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、単語抽出装置、方法、及びプログラムに係り、特に、文中から質問応答に必要となる単語を抽出するための単語抽出装置、方法、及びプログラムに関する。   The present invention relates to a word extraction device, method, and program, and more particularly, to a word extraction device, method, and program for extracting a word necessary for question answering from a sentence.

従来より、与えられた文と、知識を蓄えたデータベースを用いて、文中からデータベースに存在する表現に近い単語列を抽出する技術が知られている。例えば、3つ組のデータベース構造であった場合、質問文において、データベース中の表現を2つ含むことが分かれば、残りの1つを回答として提示することが可能となる。   2. Description of the Related Art Conventionally, a technique for extracting a word string close to an expression existing in a database from a sentence using a given sentence and a database storing knowledge is known. For example, in the case of a triple database structure, if it is found that the query sentence includes two expressions in the database, the remaining one can be presented as an answer.

また、単語の類似度を計算する際には、単語を意味空間でベクトル化した上で類似度を測る方法が知られている(非特許文献3参照)。   Moreover, when calculating the similarity of a word, the method of measuring a similarity after vectorizing a word in a semantic space is known (refer nonpatent literature 3).

K. Yao et al. “Recurrent Conditional Random Field for Language Understanding”, ICASSP2014K. Yao et al. “Recurrent Conditional Random Field for Language Understanding”, ICASSP2014 Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." ArXiv preprint arXiv: 1301.3781 (2013). Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).Lafferty, John, Andrew McCallum, and Fernando CN Pereira. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data." (2001).

文中の抽出すべき単語列に対し、どのデータベース項目に紐づくかが予めアノテートされた学習用データが存在する場合、汎用的機械学習方法(非特許文献1参照)を採ることで上記の単語列を抽出することができる。しかし、データベースに対応する学習用データを作成することはコストが高い。   When there is learning data that is annotated in advance as to which database item is associated with a word string to be extracted in a sentence, the above word string is obtained by using a general-purpose machine learning method (see Non-Patent Document 1). Can be extracted. However, creating learning data corresponding to a database is expensive.

また、例えば、個別に単語の類似度を求める場合、分類ベースのアプローチと比べ、学習時にどの素性に重みを置くべきかという判断が難しくなる。   In addition, for example, when obtaining the similarity of words individually, it is difficult to determine which features should be weighted at the time of learning, compared to the classification-based approach.

また、非特許文献3では、元ドメイン教師なしテキストと対象ドメイン教師なしテキストを別々のベクトルモデルで表現してしまうと、ベクトル空間自体が全く異なることに起因して、学習時に付与される重みと適用時に利用すべき重みが同等とならない場合がある。また、ドメインに無関係な大量の教師なしテキストを使うことも考えられるが、単語は様々な意味で使われることから、複数のドメインが混じることでベクトル空間が対象ドメインにおいて適切に用いることができない場合がある。   Further, in Non-Patent Document 3, if the original domain unsupervised text and the target domain unsupervised text are expressed by different vector models, the vector space itself is completely different, so The weight to be used at the time of application may not be equivalent. It is also possible to use a large amount of unsupervised text unrelated to the domain, but because words are used in various meanings, if multiple domains are mixed, the vector space cannot be used appropriately in the target domain There is.

また、疑問詞等において、文中の文字列とDB内の文字列とが表層的にも意味的にも類似しない場合が生じる。例えば「XYZ説明会は<いつ>?」→「開催日」というように表層的にも意味的にも類似しない場合である。   Moreover, in question words and the like, there are cases where the character string in the sentence and the character string in the DB are not similar in terms of surface or semantics. For example, it is a case where “XYZ briefing session is <when>?” → “date”, and the surface layer and the semantics are not similar.

また、元ドメインと対象ドメインが遠い場合には上記課題の解決だけではなく、そもそもデータリソースが不足する場合も生じる。このような困難な状況に備えるためにどのようなドメインでも汎用的に用いることのできる補足情報を得たい。   Further, when the original domain and the target domain are far from each other, not only the above-mentioned problem can be solved but also data resources may be insufficient in the first place. To prepare for such a difficult situation, we want to obtain supplementary information that can be used universally in any domain.

本発明は、上記事情を鑑みて成されたものであり、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる単語抽出装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and provides a word extraction device, method, and program capable of extracting a word corresponding to a question sentence when a database of unlearned domains is used. Objective.

上記目的を達成するために、第1の発明に係る単語抽出装置は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、を含んで構成されている。   In order to achieve the above object, a word extraction device according to a first aspect of the present invention is a word representing an entry corresponding to a question sentence of an input target domain from a word indicating an entry in an unlearned target domain database. For each word included in the question sentence, for each table component of the database of the target domain, using a semantic vector of each word created in advance. Learning in advance from a set of question sentences in the original domain, to which the similarity of the word representing the entry is extracted as a feature, and the word representing the entry in the learned original domain database The sequence model for extracting the table constituent elements corresponding to the word chunks, and the quality by the sequence model feature conversion unit A sequence model applying unit that assigns a label representing the table component to each word chunk included in the question sentence based on the features of each table component extracted for each word included in the sentence; For each of the word chunks to which the label is given by the sequence model application unit using the semantic vector of each word, each of the words representing the entry of the table component represented by the label attached to the word chunk; Corresponding to a word learned in advance from a set of question sentences in the original domain, to which a feature representing a regression model is extracted as a feature and a word representing an entry in the original domain database A regression model for extracting a word representing an entry and the label extracted by the regression model featureizing unit The on the basis of the respective feature word chunks, corresponding to the question, is configured to include a, a regression model application unit for extracting a word representing an entry in the database of the target domain.

また、第1の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも1つの素性の各々を抽出し、前記少なくとも1つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行うようにしてもよい。   Further, in the word extracting device according to the first aspect, the regression model feature adding unit is configured such that, for each of the word chunks to which the label is given by the sequence model applying unit, the label given to the word chunk is Extracting each of the at least one feature representing a similarity to each of the words representing the entry of the table component to represent, and representing the entry of the table component represented by the label for each of the at least one feature You may make it perform the relativity of the said feature showing the similarity with each of a word.

また、第1の発明に係る単語抽出装置において、各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものであるようにしてもよい。   In the word extracting device according to the first aspect, the semantic vector of each word may be created in advance based on the text of the target domain and the text of the original domain.

また、第1の発明に係る単語抽出装置において、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出するようにしてもよい。   Further, in the word extracting device according to the first invention, the regression model feature converting unit is similar to the word chunk for each of the word chunks to which the label is given by the sequence model applying unit. Similarity with a word included in a question sentence of a domain, similarity with a word representing the entry given to a word included in a question sentence of the original domain that is most similar to the word chunk, and the word chunk Combining the similarity between the most similar word representing the entry given to the word contained in the question sentence of the original domain and the word representing the entry of the table component represented by the label given to the word The similarity feature between domains may be further extracted.

また、第1の発明に係る単語抽出装置において、前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出するようにしてもよい。   In the word extraction device according to the first aspect, the sequence model feature estimation unit estimates, for each word included in the question sentence, a question content of the question sentence or a superordinate concept of the word learned in advance. In order to further extract the estimation result of the question sentence or the estimation result of the word estimated using a domain-independent general-purpose model as a feature, the regression model featureization unit applies the series model For each of the word chunks to which the label is assigned by the unit, the estimation result of the question sentence or the estimation result of the word estimated using the general-purpose model may be further extracted as a feature.

第2の発明に係る単語抽出方法は、未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、を含んで実行することを特徴とする。   The word extraction method according to the second invention is a word extraction apparatus for extracting a word representing an entry corresponding to an inputted question sentence of a target domain from a word representing a database entry of an unlearned target domain. In the extraction method, the sequence model feature generating unit uses, for each word included in the question sentence, for each table component of the database of the target domain for each word included in the question sentence. The step of extracting the similarity with the word representing the entry of the table component as a feature, and the question sentence of the original domain to which the word representing the entry of the database of the learned original domain is assigned by the series model application unit A sequence model for extracting table components corresponding to word chunks learned in advance from a set of A label representing the table component is given to each word chunk included in the question sentence based on the feature for each table component extracted for each word included in the question sentence by the feature making unit And the regression model feature generating unit uses the meaning vector of each word to represent each of the word chunks to which the label has been added by the sequence model applying unit, as indicated by the label attached to the word chunk. A step of extracting the similarity with each of the words representing the entries of the table component as a feature, and a query of the original domain to which the regression model applying unit is given a word representing an entry of the database of the original domain A regression model for extracting a word representing an entry corresponding to the word learned in advance from a set of sentences; Extracting a word representing an entry in the database of the target domain corresponding to the question sentence based on the feature of each of the word chunks to which the label has been extracted, extracted by a feature unit for It is characterized by including.

第3の発明に係るプログラムは、コンピュータを、第1の発明に係る単語抽出装置の各部として機能させるためのプログラムである。   A program according to a third invention is a program for causing a computer to function as each part of the word extracting device according to the first invention.

本発明の単語抽出装置、方法、及びプログラムによれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、データベースのテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデルと、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデルと、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる、という効果が得られる。   According to the word extraction device, method, and program of the present invention, the similarity between each word included in the question sentence and the word representing the entry is determined for each table component of the database using the semantic vector of each word. Based on the series model for extracting table features corresponding to words, extracted as features, and the extracted features of each word included in the question sentence, each word chunk included in the question sentence, Assigning a label representing a table component, and using each word's semantic vector, the similarity between each word chunk and each word representing an entry in the table component represented by the label attached to the word chunk, Regression model for extracting the word representing the entry corresponding to the word extracted as a feature and each extracted word chunk of the labeled word chunk Based on the above, it is possible to extract the word corresponding to the question sentence when the database of the unlearned domain is used by extracting the word representing the entry of the unlearned domain database corresponding to the question sentence. An effect is obtained.

学習対象の元ドメインと、未学習の対象ドメインとのデータベースにおけるテーブル構成要素の関係性を表した抽象図である。It is an abstract figure showing the relationship of the table component in the database of the original domain of learning object, and the unlearned object domain. 本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。It is a block diagram which shows the structure of the model learning apparatus which concerns on embodiment of this invention. 学習時のドメイン間類似度素性の一例を示す図である。It is a figure which shows an example of the similarity feature between domains at the time of learning. 素性の相対化の一例を示す図である。It is a figure which shows an example of relativity of a feature. 本発明の実施の形態に係る単語抽出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the word extraction apparatus which concerns on embodiment of this invention. 適用時のドメイン間類似度素性の一例を示す図である。It is a figure which shows an example of the similarity feature between domains at the time of application. 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。It is a flowchart which shows the model learning process routine in the model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る系列モデル用素性化処理ルーチンを示すフローチャートである。It is a flowchart which shows the feature-processing routine for series models which concerns on embodiment of this invention. 本発明の実施の形態に係る回帰モデル用素性化処理ルーチンを示すフローチャートである。It is a flowchart which shows the feature-processing routine for regression models which concerns on embodiment of this invention. 本発明の実施の形態に係る単語抽出装置における単語抽出処理ルーチンを示すフローチャートである。It is a flowchart which shows the word extraction processing routine in the word extracting device which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る概要> <Outline according to Embodiment of the Present Invention>

まず、本発明の実施の形態における概要を説明する。   First, an outline of the embodiment of the present invention will be described.

ここで本発明の実施の形態で解く問題について説明する。図1に示すように、学習時において、学習対象の元ドメインがおもちゃドメインとする。学習時入力文「本はいくら?」、学習時入力文のアノテート結果(例えば「本⇒subject-絵本」、「いくら⇒predicate-価格」)、3つ組のテーブル構成要素からなる元ドメインDBに基づいて、単語抽出モデルを学習する。テーブル構成要素は、subject/predicate/objectの3つ組のデータベースを構成する要素である。ここでのobjectとはsubjectとpredicateがテーブルで交差するエントリの値を指す。本実施の形態では3つ組の場合を例に説明するが、4つ組以上でも適用は可能である。   Here, a problem to be solved by the embodiment of the present invention will be described. As shown in FIG. 1, during learning, the original domain to be learned is a toy domain. Input sentence at learning “How much is this book?”, Annotation result of input sentence at learning (eg, “Book⇒subject-picture book”, “How much⇒predicate-Price”) In original domain DB consisting of three table components Based on this, the word extraction model is learned. The table component is an element that constitutes a triple database of subject / predicate / object. The object here refers to the value of the entry where subject and predicate intersect in the table. In this embodiment, a case of a triplet will be described as an example, but the present invention can be applied to a triplet or more.

そして、学習したモデルを、未学習の対象ドメインである家電ドメインに適用する。適用時入力文「掃除機はいくら」、及び対象ドメインDBの入力に対して、出力として例えば「「掃除機」⇒subject-掃除機」、「「いくら」⇒predicate-値段」というように、入力文の単語と、テーブル構成要素及びエントリとの対応を得る。   Then, the learned model is applied to the home appliance domain, which is an unlearned target domain. When applying the input sentence “How much is a vacuum cleaner” and the input of the target domain DB, for example, ““ Vacuum cleaner ”⇒subject-vacuum”, ““ How much ”⇒predicate-price” Get correspondences between sentence words and table elements and entries.

本発明の実施の形態では、上記の問題について、2段階に分けた解法を採る。1段階目では、抽象度の高い、データベースの同じ意味構造(テーブル構成要素)レベルでの抽出モデルを用いる。   In the embodiment of the present invention, a solution divided into two stages is adopted for the above problem. In the first stage, an extraction model with a high level of abstraction and the same semantic structure (table constituent element) level of the database is used.

2段階目では、テーブル構成要素を細分化してエントリに紐づけるため、分類アプローチで解く。ここでは、学習済みの元ドメインの学習用データベースと、対象ドメインのデータベースとが異なる場合、学習用データベースに対し直接的な分類ベースのアプローチを採ることは不可能であるため、対象ドメインの各エントリに対する類似度を求めるアプローチを採る。このようにすることで、未知のドメインでもエントリと紐づけた単語抽出が可能となる。   In the second stage, the table components are subdivided and linked to the entries, so the classification approach is used. Here, if the learning database of the learned original domain and the database of the target domain are different, it is impossible to take a direct classification-based approach to the learning database. Take an approach to find the similarity to. In this way, it is possible to extract words associated with entries even in unknown domains.

(素性の相対化) (Relativity of features)

どの素性に重みを置くべきかという判断が難しいという課題に対しては、素性の相対化を行うことで対応する。他の分類候補であるエントリに対する相対的なスコアを付与する。これにより、分類問題と同等の情報量を与えることを考慮することができる。   The problem that it is difficult to determine which features should be weighted is handled by relativizing the features. A relative score is assigned to an entry that is another classification candidate. Thereby, it can be considered to give the same amount of information as the classification problem.

(ドメイン横断の意味ベクトルモデル) (Semantic vector model across domains)

学習時の重みと適用時の重みが同等の重みにならない場合があるという課題に対しては、元ドメインの教師なしテキストと対象ドメインの教師なしテキストを同時に学習し、意味ベクトルモデルを得る。これにより、学習時に得られた当該ベクトルに対する重みを、適用時でもそのまま用いることができる。   In response to the problem that the weight at the time of learning and the weight at the time of application may not be equal to each other, the unsupervised text in the original domain and the unsupervised text in the target domain are learned simultaneously to obtain a semantic vector model. Thereby, the weight with respect to the said vector obtained at the time of learning can be used as it is also at the time of application.

(ドメイン間類似度素性) (Interdomain similarity feature)

文字列が類似しない場合があるという課題に対しては、対象ドメインの文中文字列と元ドメインの文中文字列(例えば、XYZパーティは<いつですか>)との類似度を測り、次に、元ドメインのエントリとの対応(例:元ドメインDB内エントリ「日付」と対応)を元として、元ドメインDBのエントリと、対象ドメインDBのエントリとの類似度(「開催日」と「日付」との類似度)を計算する。これにより、表層的、意味的に類似しない文中表記でも、DB内エントリに紐づけることができる。   For issues where the strings may not be similar, measure the similarity between the target domain text string and the source domain text string (eg <when is the XYZ party>), Based on the correspondence with the entry of the original domain (for example, corresponding to the entry “date” in the original domain DB), the similarity between the entry of the original domain DB and the entry of the target domain DB (“date” and “date”) The similarity is calculated. Thereby, even in-sentence notations that are not superficially and semantically similar can be linked to entries in the DB.

(汎用モデル素性) (General model features)

汎用的な補足情報を得るために、どのようなドメインでもおおよそ用いられる汎用な教師データから学習した汎用モデルを、対象ドメインにおける推定の手がかりとして用いる。これにより、元ドメインと対象ドメインが大きく異なるものであっても、DB内エントリに紐づけることができる。   In order to obtain general-purpose supplemental information, a general-purpose model learned from general-purpose teacher data that is roughly used in any domain is used as a clue for estimation in the target domain. Thereby, even if the original domain and the target domain are greatly different, they can be linked to the entry in the DB.

<本発明の実施の形態に係るモデル学習装置の構成> <Configuration of Model Learning Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20とを備えている。   Next, the configuration of the model learning device according to the embodiment of the present invention will be described. As shown in FIG. 2, the model learning device 100 according to the embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program and various data for executing a model learning processing routine described later. Can be configured with a computer. Functionally, the model learning apparatus 100 includes an input unit 10 and a calculation unit 20 as shown in FIG.

入力部10は、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23とを受け付ける。アノテート済元ドメイン質問文は、例えば、「<subj=絵本>本</subj>は<pred=販売店>どこ/で/買える</pred>の?」というような質問文に対して、形態素境界を示すスラッシュ、及びテーブル構成要素とエントリの対応付けが付与された質問文である。   The input unit 10 receives the annotated source domain question sentence set 21, the source domain DB 22, and the source domain unsupervised text 23 for the source domain to be learned. Annotated source domain question text is, for example, a morpheme for a question text like "<subj = picture book> book </ subj> where <pred = reseller> where / where can I buy </ pred>?" This is a question sentence to which a slash indicating a boundary and an association between a table component and an entry are given.

また、入力部10は、適用時の対象ドメインについての対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキストとを受け付ける。   Further, the input unit 10 receives the target domain unsupervised text 24 and the general model supervised text for the target domain at the time of application.

演算部20は、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキスト25と、意味ベクトル学習部30と、意味ベクトルモデル32と、汎用モデル学習部34と、汎用モデル36と、系列モデル用素性化部38と、系列モデル学習部40と、系列モデル42と、回帰モデル用素性化部44と、回帰モデル学習部46と、回帰モデル48とを含んで構成されている。   The arithmetic unit 20 includes an annotated original domain question sentence set 21, an original domain DB 22, an original domain unsupervised text 23, a target domain unsupervised text 24, a general model supervised text 25, a semantic vector learning unit 30, The semantic vector model 32, the general-purpose model learning unit 34, the general-purpose model 36, the series model feature making unit 38, the series model learning unit 40, the series model 42, the regression model feature making unit 44, and the regression A model learning unit 46 and a regression model 48 are included.

意味ベクトル学習部30は、入力部10で受け付けた、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24とに基づいて、各単語についての意味ベクトルからなる意味ベクトルモデル32を学習する。意味ベクトルモデル32は、例えば、「本」と「絵本」との意味的類似度が0.5である、といった出力が可能なモデルである。意味ベクトルモデル32は、元ドメイン教師なしテキスト23、及び対象ドメイン教師なしテキスト24に含まれる単語を同時にベクトルモデル化することで学習する。モデル化には非特許文献2に記載の既存のモデル化手法を用いる。また、変形例として、入力にドメインに依存しない汎用テキストをさらに加えて学習しても良い。   The semantic vector learning unit 30 learns a semantic vector model 32 composed of semantic vectors for each word based on the original domain unsupervised text 23 and the target domain unsupervised text 24 received by the input unit 10. The semantic vector model 32 is a model that can output, for example, that the semantic similarity between “book” and “picture book” is 0.5. The semantic vector model 32 learns by simultaneously vectorizing words included in the original domain unsupervised text 23 and the target domain unsupervised text 24. The existing modeling method described in Non-Patent Document 2 is used for modeling. As a modification, learning may be performed by further adding general-purpose text that does not depend on the domain to the input.

汎用モデル学習部34は、入力部10で受け付けた汎用モデル教師ありテキスト25に基づいて、汎用モデル36を学習する。汎用モデル36は、例えば、「NTT」が企業名であることが識別可能なモデルである。ここでは、教師ありテキストを用いて、ドメインに依存しない汎用なモデルを学習する。本実施の形態で学習する汎用モデルは文分類モデルと、単語列抽出モデルとの2通りが考えられるが、本実施の形態では文分類モデルを学習する。文分類モデルは、一文に対しての識別結果を付与するデータ、及びデータから既存の分類手法(Support Vector Machines等)を用いたモデルである。文分類モデルは、例えば、「これっていくら」という文から「価格」を聞いている、という推定ラベルを付与する。なお、単語列抽出モデルを学習する場合には、文中の各単語に対しての識別結果を付与するデータ、及びデータから既存の系列ラベリング手法(CRF等)を用いたモデルを学習する。例えば「<企業名>NTT</企業名>の<金額>回線使用料</金額>は<金額疑問>いくら</金額疑問>?」というように各単語に上位概念を表すラベルが対応付けられる。   The general-purpose model learning unit 34 learns the general-purpose model 36 based on the general-purpose model supervised text 25 received by the input unit 10. The general-purpose model 36 is a model that can identify that “NTT” is a company name, for example. Here, a general-purpose model that does not depend on the domain is learned using supervised text. There are two general-purpose models to be learned in this embodiment: a sentence classification model and a word string extraction model. In this embodiment, a sentence classification model is learned. The sentence classification model is a model that uses an existing classification technique (such as Support Vector Machines) from data that provides an identification result for one sentence and the data. For example, the sentence classification model gives an estimated label that “price” is heard from a sentence “this is how much”. Note that when learning a word string extraction model, data that gives an identification result for each word in a sentence and a model that uses an existing sequence labeling method (CRF or the like) are learned from the data. For example, “<company name> NTT </ company name> <amount> line usage fee </ amount> is <amount question> how much </ amount question>?” It is done.

系列モデル用素性化部38は、意味ベクトル学習部30で学習された意味ベクトルモデル32を用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる各単語について、元ドメインDB22のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。なお、質問文のアノテートデータではエントリへのマッピングまで施されている前提である。系列モデル用素性化部38では、アノテートデータのうちテーブル構成要素へのマッピング情報のみを用いる。   The sequence model feature conversion unit 38 uses the semantic vector model 32 learned by the semantic vector learning unit 30 to configure the table configuration of the original domain DB 22 for each word included in the question sentence in the annotated original domain question sentence set 21. For each element, the similarity with the word representing the entry of the table constituent element is extracted as a feature. In addition, it is a premise that the annotation data of the question sentence is mapped to the entry. The sequence model feature generating unit 38 uses only the mapping information to the table components in the annotation data.

例えば、系列モデルの出力ラベルを元ドメインDB22のテーブル構成要素として、系列モデル用素性化部38は、質問文に含まれる各単語について、テーブル構成要素毎に、以下第1〜第3の処理によって素性を抽出する。   For example, using the output label of the sequence model as a table component of the original domain DB 22, the sequence model feature generating unit 38 performs the following first to third processes for each word included in the question sentence for each table component. Extract features.

系列モデル用素性化部38は、第1の処理において、まず、各エントリとの表層類似度及び意味類似度を抽出し、元ドメインDB22のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。例えば、テーブル構成要素がsubject、predicate、objectの3種類であれば、3種類それぞれについて、表層類似度及び意味類似度の各々が抽出される。   In the first process, the series model feature obtaining unit 38 first extracts the surface layer similarity and the semantic similarity with each entry, and for each table component of the original domain DB 22, for each entry of the table component The maximum value among the surface layer similarity and the semantic similarity is taken as the feature of the table component. For example, if there are three types of table elements, subject, predicate, and object, the surface layer similarity and the semantic similarity are extracted for each of the three types.

表層類似度は、質問文中の対象単語とエントリの各々との編集距離等であり、当該テーブル構成要素のエントリの各々との表層類似度の最大値が、当該テーブル構成要素の表層類似度として抽出される。例えば、「本⇔subject:絵本 編集距離=1、文字重複率=0.5、単語一致率=0」というような対象単語とエントリの結果を元に類似度を算出して、表層類似度を得る。また、意味類似度は、対象単語とエントリとペアに対し、意味ベクトルモデルを用いて算出される類似度であり、当該テーブル構成要素のエントリの各々との意味類似度の最大値が、当該テーブル構成要素の意味類似度として抽出される。例えば、「本⇔subject:絵本 意味類似度=0.5」というような対象単語とエントリとの結果を元に類似度を算出して、最大値となるものを、対象単語とテーブル構成要素との表層類似度として抽出する。テーブル構成要素の系列モデル用素性化データの出力の例は以下のようになる。注目する対象単語が「本」であれば、「正解ラベル=B-subj subj編集距離=1 subj意味類似度=0.5 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「は」であれば、「正解ラベル=O subj編集距離=2 subj意味類似度=0.1 pred編集距離=2 pred意味類似度=0.1 obj編集距離=2 obj意味類似度=0.1」となる。注目する対象単語が「どこ」であれば「正解ラベル=B-pred subj編集距離=6 subj意味類似度=0.1 pred編集距離=6 pred意味類似度=0.1 obj編集距離=6 obj意味類似度=0.1」となる。ここで正解ラベルのヘッダに付与されるB/I/Oは、B=抽出したい対象単語列の先頭、I=抽出したい対象単語列の先頭以外、O=抽出しない単語を表す。   The surface layer similarity is the edit distance between the target word in the question sentence and each entry, and the maximum value of the surface layer similarity with each entry of the table component is extracted as the surface layer similarity of the table component Is done. For example, the similarity is calculated based on the target word and entry results such as “main subject: picture book editing distance = 1, character duplication rate = 0.5, word matching rate = 0”, and the surface layer similarity is obtained. The semantic similarity is a similarity calculated using a semantic vector model for the target word and entry pair, and the maximum value of the semantic similarity with each entry of the table component is the table. Extracted as the semantic similarity of components. For example, the similarity is calculated based on the result of the target word and entry such as “main subject: picture book semantic similarity = 0.5”, and the maximum value is determined from the surface layer of the target word and the table component. Extract as similarity. An example of the output of the feature data for the series model of the table constituent elements is as follows. If the target word of interest is `` book '', `` correct answer label = B-subj subj edit distance = 1 subj semantic similarity = 0.5 pred edit distance = 2 pred semantic similarity = 0.1 obj edit distance = 2 obj semantic similarity = 0.1 ". If the target word of interest is “ha”, then “correct answer label = O subj edit distance = 2 subj semantic similarity = 0.1 pred edit distance = 2 pred semantic similarity = 0.1 obj edit distance = 2 obj semantic similarity = 0.1 " If the target word of interest is `` where '', `` correct answer label = B-pred subj edit distance = 6 subj semantic similarity = 0.1 pred edit distance = 6 pred semantic similarity = 0.1 obj edit distance = 6 obj semantic similarity = 0.1 ". Here, B / I / O given to the header of the correct label represents O = a word that is not extracted except for B = the head of the target word string to be extracted, I = the head of the target word string to be extracted.

系列モデル用素性化部38は、第2の処理において、質問文の各々について、質問文の質問内容を推定するための、ドメインに依存しない汎用モデル36を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。例えば、汎用モデル36である文分類モデルの推定結果として、「金額」を聞いている文であるという推定結果が得られる。「何を文全体として聞いているか」を示す本推定結果は、特に末尾の内容語、先頭の疑問詞にとって重要な手がかりとなる場合が多いため、末尾の内容語、又は先頭の疑問詞に素性として付与する。なお、汎用モデル36が、単語列抽出モデルの場合、単語の上位概念を推定するための、ドメインに依存しない汎用モデル36を用いて推定された単語の推定結果を当該単語の素性として抽出するようにすればよい。例えば、推定された単語列の範囲(例:「NTT⇒企業名」「回線使用料⇒金額」)の各単語に対し、当該推定結果を素性として与える。   In the second process, the series model feature obtaining unit 38 estimates the question contents of the question sentence using the general model 36 that does not depend on the domain for estimating the question contents of the question sentence for each question sentence. Then, the estimation result of the question sentence is extracted as a feature of a specific word included in the question sentence. For example, as the estimation result of the sentence classification model that is the general-purpose model 36, an estimation result that the sentence is listening to “amount” is obtained. This estimation result indicating "what is heard as a whole sentence" is often an important clue to the content word at the end and the first question word. As given. When the general model 36 is a word string extraction model, the estimation result of the word estimated using the domain-independent general model 36 for estimating the superordinate concept of the word is extracted as the feature of the word. You can do it. For example, the estimation result is given as a feature to each word in the estimated word string range (eg, “NTT⇒company name”, “line usage fee⇒amount”).

系列モデル用素性化部38は、第3の処理において、質問文に含まれる各単語について、ドメイン間に関するドメイン間類似度素性を抽出する。学習時においては、対象単語と、アノテートデータにより当該対象単語と同じ表記に付与されたエントリを表す単語との類似度をドメイン間類似度素性とする。なお、学習データにおいて、対象単語と同じ表記に対して、付与されたエントリが複数種類存在する場合には、対象単語と同じ表記に対して付与されたエントリとのペアのうち、対象単語と当該対象単語に付与されたエントリとのペアが出現する割合を、ドメイン間類似素性とする。例えば、図3に示すように、「いくら」という対象単語と、アノテートされたエントリ「価格」についてのドメイン間類似度素性(類似度b)は、アノテート済元ドメイン質問文集合21の質問文に出現する全ての「いくら」という単語と、アノテートされたエントリとのペアのうち、単語「いくら」とエントリ「価格」のペアの割合をドメイン間類似度素性とすればよい。   In the third process, the series model feature generating unit 38 extracts an inter-domain similarity feature for each word included in the question sentence. At the time of learning, the similarity between a target word and a word representing an entry given to the same notation as the target word by annotate data is set as an inter-domain similarity feature. In the learning data, when there are a plurality of types of entries given to the same notation as the target word, the target word and the corresponding one of the pairs of entries given to the same notation as the target word A ratio of occurrence of a pair with an entry assigned to the target word is defined as an inter-domain similarity feature. For example, as shown in FIG. 3, the inter-domain similarity feature (similarity b) for the target word “how much” and the annotated entry “price” is included in the question sentence of the annotated source domain question sentence set 21. Of the pairs of all appearing words “how much” and annotated entries, the ratio of the pair of the word “how much” and the entry “price” may be used as the similarity feature between domains.

系列モデル学習部40は、系列モデル用素性化部38によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合21における質問文に付与されたラベルとに基づいて、既存手法のCRF(非特許文献3)等を用いて、テーブル構成要素を抽出するための系列モデル42を学習する。系列モデル42は、各ラベル(テーブル構成要素)に対応する各素性に対する重みパラメータである。学習される系列モデルによって、「<subj>本</subj>は<pred>どこ/で/買える</pred>の」というように、1つの単語又は2つ以上の単語を連結した単語列である単語チャンクにラベルを付与することができる。   The sequence model learning unit 40 extracts the features for each table component extracted for each word included in the question sentence in the annotated source domain question sentence set 21 by the series model feature converting part 38 and the annotated source domain question sentence. Based on the labels given to the question sentences in the set 21, a sequence model 42 for extracting table constituent elements is learned using CRF (Non-Patent Document 3) or the like of the existing method. The series model 42 is a weight parameter for each feature corresponding to each label (table constituent element). Depending on the sequence model to be learned, it is a word string that concatenates one word or two or more words, such as "<subj> book </ subj> is <pred> where / where / buy </ pred>". A label can be assigned to a certain word chunk.

回帰モデル用素性化部44は、意味ベクトル学習部30で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。   The regression model feature conversion unit 44 uses the meaning vector of each word learned by the semantic vector learning unit 30 to include a labeled word chunk included in the question sentence in the annotated source domain question sentence set 21. For each, the similarity between the word chunk and the word representing each entry candidate of the table component represented by the label is extracted as a feature.

回帰モデル用素性化部44では、系列モデル用素性化部38と異なり、具体的には以下第1〜第4の処理を行って、質問文に含まれるラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素であって、元ドメインDB22のテーブル構成要素のエントリ候補毎に素性化を行う。   In the regression model feature conversion unit 44, differently from the series model feature conversion unit 38, specifically, the first to fourth processes are performed below for each word chunk to which a label included in the question sentence is given. A feature is performed for each entry candidate of the table constituent element represented by the label given to the word chunk and the table constituent element of the original domain DB 22.

回帰モデル用素性化部44は、まず、第1の処理において、質問文に含まれる単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインDB22のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部38と同様に、素性として抽出する。   First, in the first process, the regression model feature converting unit 44 selects, for each word chunk included in the question sentence, the entry candidate of the original domain DB 22 of the table component represented by the label attached to the word chunk. The surface layer similarity and the semantic similarity with each of them are extracted as features in the same manner as in the series model feature converting unit 38.

回帰モデル用素性化部44は、第2の処理において、系列モデル用素性化部38と同様に、質問文の各々について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。また、回帰モデル用素性化部44の第2の処理はエントリ毎に処理するため、まず、元ドメインDB22の各エントリが、汎用モデル36で分類されるラベルのうちどれに近いかをマッピングしておく。例えば元ドメインDB22のエントリに「価格」があり、汎用モデル36の分類対象に「金額」が存在していれば、それらは近いものであるとしてマッピングしておく。回帰モデルでは、全てのエントリ候補に対する素性化を行うため、それぞれのエントリ候補にについて、マッピングされる汎用モデルのラベルと、実際に推定された汎用モデル推定ラベルとの間のペアを、素性として抽出する。例えば、学習時に、元ドメインDB22のエントリ候補「価格」について素性化する場合であって、かつ汎用モデル36の推定ラベル(文分類器)が「金額」を出力した場合、「{DB候補マップ=価格&汎用モデル推定結果=金額}=1」という素性が抽出される。   In the second process, the regression model feature generating unit 44 estimates the question content of the question sentence using the general-purpose model 36 for each question sentence, as in the case of the series model feature providing unit 38, Is extracted as a feature of a specific word chunk included in the question sentence. In addition, since the second processing of the regression model feature generating unit 44 is performed for each entry, first, the mapping of which entry in the original domain DB 22 is closest to the label classified by the general-purpose model 36 is performed. deep. For example, if there is “Price” in the entry of the original domain DB 22 and “Price” exists in the classification target of the general-purpose model 36, they are mapped as being close. In the regression model, all entry candidates are featured, so for each entry candidate, a pair between the mapped generic model label and the actually estimated generic model estimation label is extracted as a feature. To do. For example, when learning is performed on the entry candidate “price” of the original domain DB 22 during learning and the estimated label (sentence classifier) of the general-purpose model 36 outputs “money”, “{DB candidate map = A feature of “price & general model estimation result = amount} = 1” is extracted.

回帰モデル用素性化部44は、第3の処理において、質問文に含まれる単語チャンクの各々について、系列モデル用素性化部38と同様に、ドメイン間に関するドメイン間類似度素性を抽出する。   In the third process, the regression model feature converting unit 44 extracts the inter-domain similarity feature for each of the word chunks included in the question sentence in the same manner as the sequence model feature generating unit 38.

回帰モデル用素性化部44は、第4の処理において、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。第4の処理では、単語チャンクの各々について、上記第1の処理で抽出した表層類似度、意味類似度、第3の処理で抽出したドメイン間類似度の3種それぞれに対し、エントリ候補毎に抽出したもののうちの最大の値となるものを相対化素性とし、全てのエントリ候補の素性に対して、相対化表層類似度、相対化意味類似度、相対化ドメイン間類似度を追加する。図4に示すように、例えば、単語チャンクに付与されたラベルが表すテーブル構成要素predicateにおいて、エントリ候補「値段」、「重量」、「販売日」があり、意味類似度の最大値が「重量」の0.2であれば、0.2の値を相対化意味類似度として全てのエントリ候補「値段」、「重量」、「販売日」に追加する。   In the fourth process, the regression model feature-imparting unit 44, for each of the word chunks to which the label is assigned, has a surface layer with each of the words representing the entry candidate of the table component represented by the label attached to the word chunk. The features are relativized with respect to similarity, semantic similarity, and interdomain similarity. In the fourth process, for each of the word chunks, for each of the entry candidates, for each of the three types of surface layer similarity, semantic similarity extracted in the first process, and interdomain similarity extracted in the third process, The extracted value having the maximum value is set as the relativization feature, and the relativistic surface layer similarity, the relativistic semantic similarity, and the relativistic domain similarity are added to the features of all entry candidates. As shown in FIG. 4, for example, in the table element predicate represented by the label given to the word chunk, there are entry candidates “price”, “weight”, “sales date”, and the maximum value of semantic similarity is “weight”. "0.2" is added to all entry candidates "price", "weight", and "sales date" as a relative semantic similarity.

回帰モデル学習部46は、回帰モデル用素性化部44によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習する。具体的には、質問文におけるラベルが付与された単語チャンク(表層の文字列)とエントリを表す単語との正しいアノテートペア(例えば、「1:本-絵本」)に対して値1を、それ以外(例えば、「0:本-ぬいぐるみ」)に0を付与して、回帰学習を行う。   The regression model learning unit 46 extracts the features for each entry candidate extracted for each word chunk included in the question sentence in the annotated source domain question sentence set 21 by the regression model featureizing part 44 and the annotated source domain question sentence. Based on the labels given to each question sentence in the set 21, a regression model 48 for extracting a word representing an entry is learned using a logistic regression model or the like of an existing method. Specifically, the value 1 is assigned to a correct annotate pair (for example, “1: book-picture book”) of a word chunk (surface character string) with a label in a question sentence and a word representing an entry. Regression learning is performed by assigning 0 to other than (for example, “0: book-stuffed toy”).

<本発明の実施の形態に係る単語抽出装置の構成> <Configuration of Word Extraction Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係る単語抽出装置の構成について説明する。図5に示すように、本発明の実施の形態に係る単語抽出装置200は、CPUと、RAMと、後述する単語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語抽出装置100は、機能的には図5に示すように入力部210と、演算部220と、出力部250とを備えている。   Next, the configuration of the word extraction device according to the embodiment of the present invention will be described. As shown in FIG. 5, a word extraction device 200 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program and various data for executing a word extraction processing routine described later. Can be configured with a computer. Functionally, the word extraction device 100 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

入力部210は、未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインDB225とを受け付ける。以下の説明では対象ドメイン質問文を質問文と記載する。   The input unit 210 receives a target domain question sentence that is a question sentence about an unlearned target domain and a target domain DB 225 of the target domain. In the following explanation, the target domain question sentence is described as a question sentence.

また、入力部210は、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合21と、元ドメインDB22とを受け付ける。   Further, the input unit 210 receives the annotated source domain question sentence set 21 and the source domain DB 22 for the learned source domain.

演算部220は、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、意味ベクトルモデル32と、汎用モデル36と、系列モデル42と、回帰モデル48と、系列モデル用素性化部238と、系列モデル適用部240と、回帰モデル用素性化部244と、回帰モデル適用部246とを含んで構成されている。   The calculation unit 220 includes an annotated original domain question sentence set 21, an original domain DB 22, a semantic vector model 32, a general model 36, a series model 42, a regression model 48, a series model featureizing unit 238, A series model application unit 240, a regression model feature conversion unit 244, and a regression model application unit 246 are included.

アノテート済元ドメイン質問文集合21と、元ドメインDB22と、意味ベクトルモデル32と、汎用モデル36と、系列モデル42と、回帰モデル48とには、上記モデル学習装置100と同じものが格納されている。   The annotated original domain question sentence set 21, the original domain DB 22, the semantic vector model 32, the general model 36, the series model 42, and the regression model 48 are stored in the same manner as the model learning apparatus 100. Yes.

系列モデル用素性化部238は、予め作成された意味ベクトルモデル32を用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。具体的には、上記とモデル学習装置100の系列モデル用素性化部38と同様に第1〜第3の処理を行って素性を抽出するが、以下に説明する点が異なっている。   The series model feature generating unit 238 uses, for each word included in the question sentence, a word representing an entry of the table constituent element for each table constituent element of the target domain DB 225 using the semantic vector model 32 created in advance. Are extracted as features. Specifically, the features are extracted by performing the first to third processes in the same manner as the above and the sequence model feature converting unit 38 of the model learning apparatus 100, but the points described below are different.

系列モデル用素性化部238は、第1の処理においては、対象ドメインDB225の各エントリとの表層類似度及び意味類似度を抽出し、対象ドメインDB225のテーブル構成要素の各々について、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。また、系列モデル用素性化部238は、第3の処理において、ドメイン間類似度素性として、次の類似度a〜cを組み合わせた素性を抽出する。類似度aは、対象ドメインの質問文に含まれる対象単語と最も類似する、アノテート済元ドメイン質問文集合21の質問文に含まれる単語との類似度である。類似度bは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインDB22のエントリを表す単語との類似度である。類似度cは、対象ドメインの単語と最も類似する、学習済みドメインの質問文に含まれる単語に付与された、元ドメインDB22のエントリを表す単語と、対象ドメインDB225の当該テーブル構成要素の各エントリを表す単語との類似度のうち、最大の類似度である。また、学習済みドメインの質問文に含まれる単語に付与されたエントリを表す単語については、アノテート済元ドメイン質問文集合21及び元ドメインDB22を参照すればよい。図6に類似度a〜cの一例を示す。   In the first process, the series model feature obtaining unit 238 extracts the surface layer similarity and the semantic similarity with each entry of the target domain DB 225, and for each table component of the target domain DB 225, the table component The maximum value of the surface layer similarity and the semantic similarity with each entry is the feature of the table component. In addition, in the third process, the series model feature generating unit 238 extracts features obtained by combining the following similarities a to c as interdomain similarity features. The similarity a is a similarity to a word included in the question sentence of the annotated source domain question sentence set 21 that is most similar to the target word included in the question sentence in the target domain. The similarity b is a similarity with a word representing an entry in the original domain DB 22 assigned to a word included in a question sentence of a learned domain that is most similar to a word in the target domain. The similarity c is a word representing an entry in the original domain DB 22 given to a word included in a question sentence of a learned domain that is most similar to a word in the target domain, and each entry of the table component of the target domain DB 225 Among the similarities to the word representing, it is the maximum similarity. Moreover, what is necessary is just to refer to the annotated former domain question sentence set 21 and former domain DB22 about the word showing the entry provided to the word contained in the question sentence of the learned domain. FIG. 6 shows an example of the similarities a to c.

系列モデル適用部240は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するテーブル構成要素を抽出するための系列モデル42と、系列モデル用素性化部238によって質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。系列モデル42の適用には既存手法のCRF(非特許文献3)等を用いればよい。例えば、「<subj>掃除機</subj>は<pred>どこ/で/買える</pred>の」のようにラベルが付与される。   The sequence model application unit 240 extracts a table component corresponding to a word learned in advance from a set of questioned sentences in the learned domain, to which a word representing an entry in the learned domain database is assigned. 42 and the feature for each word included in the question sentence extracted by the series model feature generating unit 238, the word chunk included in the question sentence is labeled with a table element. Give. Application of the sequence model 42 may be performed using CRF (Non-patent Document 3) or the like of an existing method. For example, a label such as “<subj> vacuum cleaner </ subj> is <pred> where / where / buy </ pred>” is given.

回帰モデル用素性化部244は、意味ベクトルモデル32を用いて、系列モデル適用部240によってラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。具体的には、上記モデル学習装置100の回帰モデル用素性化部44と同様に第1〜第4の処理を行って素性を抽出する。また、第3の処理では、系列モデル用素性化部238と同様に、単語チャンクの各々について、ドメイン間類似度素性として、類似度a〜cを組み合わせた素性を抽出する。   The regression model feature conversion unit 244 uses the semantic vector model 32 to determine entry candidates of the table constituent elements represented by the labels assigned to the word chunks for each of the word chunks assigned the labels by the sequence model application unit 240. Similarity with each word to be expressed is extracted as a feature. Specifically, the first to fourth processes are performed in the same manner as the regression model feature converting unit 44 of the model learning apparatus 100 to extract features. Further, in the third process, similar to the sequence model feature generating unit 238, for each word chunk, a feature obtained by combining the similarities a to c is extracted as the inter-domain similarity feature.

回帰モデル適用部246は、学習済みドメインのデータベースのエントリを表す単語が付与された、学習済みドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデル48と、回帰モデル用素性化部244によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインDB225のエントリを表す単語を抽出し、出力部250に出力する。単語の抽出は、単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性に、回帰モデルを適用して、単語チャンクとエントリ候補とのペアについての値を算出し、テーブル構成要素毎に、最も高い出力値を得たエントリ候補を最終結果として出力する。例えば、subjectのラベルが付与された単語チャンク「掃除機」について、エントリ候補とのペアの出力値が、「1.0 掃除機-”subj-掃除機”」、「0.2 掃除機-”subj-洗濯機”」となっていれば前者を出力する。   The regression model applying unit 246 extracts a regression model for extracting a word representing an entry corresponding to a word learned in advance from a set of question sentences in the learned domain, to which a word representing an entry in the learned domain database is assigned. 48 for each table component, based on 48 and the features for each entry candidate of the table component represented by the label, extracted for each of the word chunks to which the label is assigned by the regression model featureizing unit 244. A word representing an entry in the target domain DB 225 corresponding to the sentence is extracted and output to the output unit 250. In the word extraction, a regression model is applied to the feature of each entry candidate of the table element represented by the label extracted for each word chunk to calculate a value for the pair of the word chunk and the entry candidate. For each table component, the entry candidate that obtained the highest output value is output as the final result. For example, for the word chunk “vacuum cleaner” with the subject label, the output value of the pair with the entry candidate is “1.0 vacuum cleaner-“ subj-vacuum cleaner ””, “0.2 vacuum cleaner-“ subj-washer ” If "", the former is output.

<本発明の実施の形態に係るモデル学習装置の作用> <Operation of Model Learning Device According to Embodiment of Present Invention>

次に、本発明の実施の形態に係る単語抽出装置100の作用について説明する。入力部10において、学習対象の元ドメインについて、アノテート済元ドメイン質問文集合21と、元ドメインDB22と、元ドメイン教師なしテキスト23とを受け付け、適用時の対象ドメインについて、対象ドメイン教師なしテキスト24と、汎用モデル教師ありテキストとを受け付けると、単語抽出装置100は、図7に示すモデル学習処理ルーチンを実行する。   Next, the operation of the word extraction device 100 according to the embodiment of the present invention will be described. The input unit 10 accepts the annotated source domain question sentence set 21, the source domain DB 22, and the source domain unsupervised text 23 for the source domain to be learned, and the target domain unsupervised text 24 for the target domain at the time of application. When the general model supervised text is received, the word extraction device 100 executes a model learning processing routine shown in FIG.

ステップS100では、入力部10で受け付けた、元ドメイン教師なしテキスト23と、対象ドメイン教師なしテキスト24とに基づいて、意味ベクトルモデル32を学習する。   In step S <b> 100, the semantic vector model 32 is learned based on the original domain unsupervised text 23 and the target domain unsupervised text 24 received by the input unit 10.

ステップS102では、入力部10で受け付けた汎用モデル教師ありテキスト25に基づいて、汎用モデル36を学習する。   In step S102, the general-purpose model 36 is learned based on the general-purpose model supervised text 25 received by the input unit 10.

ステップS104では、ステップS100で学習された意味ベクトルモデル32を用いて、アノテート済元ドメイン質問文集合21における質問文に含まれる各単語について、元ドメインDB22のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。   In step S104, for each word included in the question sentence in the annotated source domain question sentence set 21, using the semantic vector model 32 learned in step S100, for each table constituent element of the original domain DB 22, the table constituent element The similarity with the word representing the entry is extracted as a feature.

ステップS106では、ステップS104でアノテート済元ドメイン質問文集合21における質問文に含まれる各単語について抽出された、テーブル構成要素ごとの素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、テーブル構成要素を抽出するための系列モデル42を学習する。   In step S106, the feature for each table component extracted for each word included in the question sentence in the annotated source domain question sentence set 21 in step S104 and the question sentence in the annotated source domain question sentence set 21 are given. The sequence model 42 for extracting the table constituent elements is learned based on the labeled labels.

ステップS108では、意味ベクトル学習部30で学習された各単語の意味ベクトルを用いて、アノテート済元ドメイン質問文集合21における各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクと、当該ラベルが表すテーブル構成要素の各エントリ候補を表す単語との類似度を、素性として抽出する。   In step S108, for each word chunk with a label included in each question sentence in the annotated source domain question sentence set 21, using the semantic vector of each word learned by the semantic vector learning unit 30, The similarity between the word chunk and the word representing each entry candidate of the table component represented by the label is extracted as a feature.

ステップS110では、回帰モデル用素性化部44によってアノテート済元ドメイン質問文集合21における質問文に含まれる各単語チャンクについて抽出された、エントリ候補毎の素性と、アノテート済元ドメイン質問文集合21における各質問文に付与されたラベルとに基づいて、既存手法のロジスティック回帰モデル等を用いて、エントリを表す単語を抽出するための回帰モデル48を学習する。   In step S110, the features for each entry candidate extracted for each word chunk included in the question sentence in the annotated source domain question sentence set 21 by the regression model featureizing unit 44 and the annotated source domain question sentence set 21 Based on the label given to each question sentence, a regression model 48 for extracting a word representing an entry is learned using a logistic regression model or the like of an existing method.

上記ステップS104は、具体的には図8に示す系列モデル用素性化処理ルーチンによって実行される。   Specifically, step S104 is executed by a sequence model feature processing routine shown in FIG.

ステップS200では、アノテート済元ドメイン質問文集合21の各質問文に含まれる各単語について、テーブル構成要素毎に、元ドメインDB22の当該テーブル構成要素の各エントリとの表層類似度及び意味類似度を抽出し、当該テーブル構成要素の各エントリとの表層類似度及び意味類似度の中での最大値を、当該テーブル構成要素の素性とする。   In step S200, for each word included in each question sentence of the annotated original domain question sentence set 21, the surface layer similarity and the semantic similarity with each entry of the table constituent element of the original domain DB 22 are obtained for each table constituent element. The maximum value among the surface layer similarity and the semantic similarity with each entry of the table constituent element is extracted as the feature of the table constituent element.

ステップS202では、アノテート済元ドメイン質問文集合21の各質問文について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問文の推定結果を、当該質問文に含まれる特定の単語の素性として抽出する。   In step S202, for each question sentence in the annotated source domain question sentence set 21, the question content of the question sentence is estimated using the general model 36, and the estimation result of the question sentence is obtained as a specific word included in the question sentence. Extracted as a feature of.

ステップS204では、アノテート済元ドメイン質問文集合21の各質問文に含まれる各単語について、アノテートデータにより当該単語と同じ表記に付与されたエントリを表す単語との類似度を、ドメイン間に関するドメイン間類似度素性として抽出する。   In step S204, the similarity between each word included in each question sentence of the annotated source domain question sentence set 21 and the word representing the entry given to the same notation by the annotate data is calculated between the domains related to the domains. Extracted as similarity feature.

上記ステップS108は、具体的には図9に示す回帰モデル用素性化処理ルーチンによって実行される。   Specifically, step S108 is executed by a regression model feature processing routine shown in FIG.

ステップS300では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素の、元ドメインDB22のエントリ候補の各々との表層類似度と意味類似度を、系列モデル用素性化部38と同様に、素性として抽出する。   In step S300, for each of the word chunks with a label included in each question sentence of the annotated source domain question sentence set 21, the table constituent elements represented by the label attached to the word chunk are stored in the original domain DB 22. The surface layer similarity and the semantic similarity with each of the entry candidates are extracted as features in the same manner as the sequence model feature generating unit 38.

ステップS302では、アノテート済元ドメイン質問文集合21の質問文の各々について、汎用モデル36を用いて当該質問文の質問内容を推定し、質問内容の推定結果を、当該質問文に含まれる特定の単語チャンクの素性として抽出する。   In step S302, for each question sentence in the annotated source domain question sentence set 21, the question contents of the question sentence are estimated using the general-purpose model 36, and the estimation result of the question contents is determined as a specific item included in the question sentence. Extracted as a word chunk feature.

ステップS304では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、ドメイン間に関するドメイン間類似度素性を抽出する。   In step S304, the domain similarity feature between domains is extracted for each of the labeled word chunks included in each question sentence of the annotated source domain question sentence set 21.

ステップS306では、アノテート済元ドメイン質問文集合21の各質問文に含まれる、ラベルが付与された単語チャンクの各々について、当該単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との表層類似度、意味類似度、及びドメイン間類似度に対して素性の相対化を行う。   In step S306, for each of the word chunks to which a label is attached, which is included in each question sentence of the annotated source domain question sentence set 21, a word representing an entry candidate of the table component represented by the label attached to the word chunk The features are relativized with respect to the surface layer similarity, the semantic similarity, and the inter-domain similarity with each.

<本発明の実施の形態に係る単語抽出装置の作用> <Operation of the word extraction device according to the embodiment of the present invention>

次に、本発明の実施の形態に係る単語抽出装置200の作用について説明する。入力部10において未学習の対象ドメインについての質問文である対象ドメイン質問文と、対象ドメインの対象ドメインDB225とを受け付け、学習済みの元ドメインについての、アノテート済元ドメイン質問文集合21と、元ドメインDB22とを受け付けると、単語抽出装置200は、図10に示す単語抽出処理ルーチンを実行する。   Next, the operation of the word extraction device 200 according to the embodiment of the present invention will be described. The input unit 10 accepts a target domain question sentence that is a question sentence about an unlearned target domain and a target domain DB 225 of the target domain, and an annotated original domain question sentence set 21 about the learned original domain, Upon receipt of the domain DB 22, the word extraction device 200 executes a word extraction processing routine shown in FIG.

まず、ステップS400では、意味ベクトルモデル32を用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、当該テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する。   First, in step S400, using the semantic vector model 32, for each word included in the question sentence, for each table component of the target domain DB 225, the similarity to the word representing the entry of the table component is used as a feature. Extract.

次に、ステップS402では、系列モデル42と、ステップS400で質問文に含まれる各単語について抽出された、テーブル構成要素毎の素性とに基づいて、質問文に含まれる単語チャンクに、テーブル構成要素を表すラベルを付与する。   Next, in step S402, based on the sequence model 42 and the feature for each table component extracted for each word included in the question sentence in step S400, the word constituent included in the question sentence is converted into a table constituent element. A label representing is attached.

ステップS404では、意味ベクトルモデル32を用いて、ステップS402でラベルが付与された単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリ候補を表す単語の各々との類似度を、素性として抽出する。   In step S404, using the semantic vector model 32, the similarity between each word chunk assigned a label in step S402 and each word representing an entry candidate of a table element represented by the label assigned to the word chunk. Are extracted as features.

ステップS406では、回帰モデル48と、回帰モデル用素性化部244によってラベルが付与された単語チャンクの各々について抽出された、当該ラベルが表すテーブル構成要素のエントリ候補毎の素性とに基づいて、テーブル構成要素毎に、質問文に対応する、対象ドメインDB225のエントリを表す単語を抽出し、出力部250に出力し処理を終了する。   In step S406, based on the regression model 48 and the features for each entry candidate of the table element represented by the label extracted for each of the word chunks to which the label is assigned by the regression model featureizing unit 244, the table For each component, a word representing an entry in the target domain DB 225 corresponding to the question sentence is extracted and output to the output unit 250, and the process ends.

なお、ステップS400は上記図8に示す系列モデル化用素性化処理ルーチンと同様の処理を実行する。また、ステップS404は、上記図9に示す回帰モデル化用素性化処理ルーチンと同様の処理を実行する。   Note that step S400 executes the same processing as the sequence modeling feature processing routine shown in FIG. In step S404, the same processing as the regression modeling feature processing routine shown in FIG. 9 is executed.

以上説明したように、本発明の実施の形態に係る単語抽出装置によれば、各単語の意味ベクトルを用いて、質問文に含まれる各単語について、対象ドメインDB225のテーブル構成要素毎に、エントリを表す単語との類似度を、素性として抽出し、単語に対応するテーブル構成要素を抽出するための系列モデル42と、抽出された、質問文に含まれる各単語の素性とに基づいて、質問文に含まれる各単語チャンクに、テーブル構成要素を表すラベルを付与し、各単語の意味ベクトルを用いて、単語チャンクの各々について、単語チャンクに付与されたラベルが表すテーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出し、単語に対応するエントリ表す単語を抽出するための回帰モデル48と、抽出された、ラベルが付与された単語チャンクの各々の素性とに基づいて、質問文に対応する、未学習ドメインのデータベースのエントリを表す単語を抽出することにより、未学習ドメインのデータベースを用いる場合に、質問文に対応する単語を抽出することできる。   As described above, according to the word extraction device according to the embodiment of the present invention, an entry is made for each table component of the target domain DB 225 for each word included in the question sentence using the semantic vector of each word. Based on the series model 42 for extracting a table component corresponding to the word and the extracted feature of each word included in the question sentence. Each word chunk included in the sentence is assigned a label representing a table component, and the meaning vector of each word is used to represent the entry of the table component represented by the label attached to the word chunk for each word chunk. The similarity with each word is extracted as a feature, a regression model 48 for extracting a word representing an entry corresponding to the word, and the extracted label is Corresponding to a question sentence when using an unlearned domain database by extracting a word representing an unlearned domain database entry corresponding to the question sentence based on the features of each given word chunk Can be extracted.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

10、210 入力部
20、220 演算部
21 アノテート済元ドメイン質問文集合
23 元ドメイン教師なしテキスト
24 対象ドメイン教師なしテキスト
25 汎用モデル教師ありテキスト
30 意味ベクトル学習部
32 意味ベクトルモデル
34 汎用モデル学習部
36 汎用モデル
38、238 系列モデル用素性化部
40 系列モデル学習部
42 系列モデル
44、244 回帰モデル用素性化部
46 回帰モデル学習部
48 回帰モデル
100 モデル学習装置
200 単語抽出装置
240 系列モデル適用部
246 回帰モデル適用部
250 出力部
10, 210 Input unit 20, 220 Arithmetic unit 21 Annotated source domain question sentence set 23 Original domain unsupervised text 24 Target domain unsupervised text 25 General model supervised text 30 Semantic vector learning unit 32 Semantic vector model 34 General model learning unit 36 General-purpose model 38, 238 Sequence model feature unit 40 Sequence model learning unit 42 Sequence model 44, 244 Regression model feature unit 46 Regression model learning unit 48 Regression model 100 Model learning device 200 Word extraction device 240 Sequence model application unit 246 regression model application unit 250 output unit

Claims (7)

未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置であって、
予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出する系列モデル用素性化部と、
学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与する系列モデル適用部と、
各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出する回帰モデル用素性化部と、
前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出する回帰モデル適用部と、
を含む単語抽出装置。
A word extraction device for extracting a word representing an entry corresponding to a question sentence of an input target domain from a word representing an entry in an unlearned target domain database,
For each word included in the question sentence for each table component of the database of the target domain, the similarity with the word representing the entry of the table component is obtained using a semantic vector of each word created in advance. A sequence model feature extraction unit to extract as features,
A sequence model for extracting a table component corresponding to a word chunk, learned in advance from a set of question sentences in the original domain, to which a word representing an entry in a learned original domain database is assigned, and the sequence Based on the features for each table component extracted for each word included in the question sentence by the model feature conversion unit, each word chunk included in the question sentence has a label representing the table element. A series model application section to be assigned;
For each of the word chunks to which the label is given by the sequence model application unit using the semantic vector of each word, each of the words representing the entry of the table component represented by the label attached to the word chunk; A regression model featureizing unit that extracts the similarity of
A regression model for extracting a word representing an entry corresponding to a word learned in advance from a set of question sentences in the original domain, to which a word representing an entry in the original domain database is assigned, and the features for the regression model A regression model application unit that extracts words representing database entries of the target domain corresponding to the question sentence, based on the features of each of the word chunks to which the label is attached, extracted by the conversion unit;
Word extraction device including
前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す、少なくとも1つの素性の各々を抽出し、
前記少なくとも1つの素性の各々について、前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を表す前記素性の相対化を行う請求項1記載の単語抽出装置。
The regression model feature generating unit includes, for each word chunk assigned the label by the sequence model application unit, each word representing an entry in the table component represented by the label attached to the word chunk; Each of at least one feature representing the similarity of
The word extraction device according to claim 1, wherein each of the at least one feature is subjected to relativity of the feature representing a similarity to each of the words representing the entry of the table component represented by the label.
各単語の意味ベクトルは、前記対象ドメインのテキスト及び前記元ドメインのテキストに基づいて予め作成されたものである請求項1又は2記載の単語抽出装置。   The word extraction device according to claim 1 or 2, wherein the semantic vector of each word is created in advance based on the text of the target domain and the text of the original domain. 前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語との類似度、
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語との類似度、及び
前記単語チャンクと最も類似する、前記元ドメインの質問文に含まれる単語に付与された前記エントリを表す単語と、前記単語に付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語との類似度を組み合わせたドメイン間類似度素性を更に抽出する請求項1〜請求項3の何れか1項記載の単語抽出装置。
The regression model feature-imparting unit, for each of the word chunks that have been given the label by the series model application unit,
Similarity to the word contained in the question of the original domain that is most similar to the word chunk,
Included in the original domain question sentence that is most similar to the word chunk and similar to the word representing the entry given to the word contained in the original domain question sentence and the word chunk most similar to the word chunk The inter-domain similarity feature is further extracted by combining the similarity between the word representing the entry given to the word and the word representing the entry of the table component represented by the label given to the word. The word extraction device according to any one of claims 3 to 4.
前記系列モデル用素性化部は、前記質問文に含まれる各単語について、予め学習された、質問文の質問内容、又は単語の上位概念を推定するための、ドメインに依存しない汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出し、
前記回帰モデル用素性化部は、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記汎用モデルを用いて推定された、前記質問文の推定結果、又は前記単語の推定結果を素性として更に抽出する請求項1〜請求項4の何れか1項記載の単語抽出装置。
The sequence model feature generating unit uses a general-purpose model that does not depend on a domain for estimating a question content of a question sentence or a high-level concept of a word that has been learned in advance for each word included in the question sentence. The estimated result of the question sentence or the estimated result of the word is further extracted as a feature,
The regression model feature generating unit is configured to estimate the question sentence, or the word estimation result, estimated using the general-purpose model for each of the word chunks to which the label is assigned by the series model application unit. The word extraction device according to claim 1, further extracting as a feature.
未学習の対象ドメインのデータベースのエントリを表す単語から、入力された対象ドメインの質問文に対応する、前記エントリを表す単語を抽出する単語抽出装置における単語抽出方法であって、
系列モデル用素性化部が、予め作成された各単語の意味ベクトルを用いて、前記質問文に含まれる各単語について、前記対象ドメインのデータベースのテーブル構成要素毎に、前記テーブル構成要素のエントリを表す単語との類似度を、素性として抽出するステップと、
系列モデル適用部が、学習済みの元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語チャンクに対応するテーブル構成要素を抽出するための系列モデルと、前記系列モデル用素性化部によって前記質問文に含まれる各単語について抽出された、前記テーブル構成要素毎の素性とに基づいて、前記質問文に含まれる各単語チャンクに、前記テーブル構成要素を表すラベルを付与するステップと、
回帰モデル用素性化部が、各単語の意味ベクトルを用いて、前記系列モデル適用部によって前記ラベルが付与された単語チャンクの各々について、前記単語チャンクに付与された前記ラベルが表す前記テーブル構成要素のエントリを表す単語の各々との類似度を、素性として抽出するステップと、
回帰モデル適用部が、前記元ドメインのデータベースのエントリを表す単語が付与された、前記元ドメインの質問文の集合から予め学習された、単語に対応するエントリ表す単語を抽出するための回帰モデルと、前記回帰モデル用素性化部によって抽出された、前記ラベルが付与された単語チャンクの各々の素性とに基づいて、前記質問文に対応する、前記対象ドメインのデータベースのエントリを表す単語を抽出するステップと、
を含む単語抽出方法。
A word extraction method in a word extraction device for extracting a word representing an entry corresponding to a question sentence of an input target domain from a word representing an entry in an unlearned target domain database,
The sequence model feature recognition unit uses the semantic vector of each word created in advance to store the entry of the table component for each table component of the target domain database for each word included in the question sentence. Extracting the similarity to the word to be represented as a feature;
A sequence model application unit extracts a table component corresponding to a word chunk learned in advance from a set of question sentences in the original domain, to which a word representing an entry in a learned original domain database is assigned. Based on the sequence model and the features for each table component extracted for each word included in the question sentence by the sequence model feature conversion unit, the word chunk included in the question sentence includes the table. Providing a label representing the component;
The table constituent element represented by the label attached to the word chunk for each word chunk assigned the label by the sequence model applying unit using the semantic vector of each word Extracting the similarity with each of the words representing the entries as features,
A regression model for extracting a word representing an entry corresponding to a word learned in advance from a set of question sentences in the original domain, to which a regression model application unit is given a word representing an entry in the database of the original domain; The word representing the database domain entry of the target domain corresponding to the question sentence is extracted based on the features of each of the word chunks with the labels extracted by the regression model featureizing unit. Steps,
Word extraction method including
コンピュータを、請求項1〜請求項5のいずれか1項に記載の単語抽出装置の各部として機能させるためのプログラム。   The program for functioning a computer as each part of the word extraction apparatus of any one of Claims 1-5.
JP2016044822A 2016-03-08 2016-03-08 Word extraction apparatus, method, and program Active JP6334587B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016044822A JP6334587B2 (en) 2016-03-08 2016-03-08 Word extraction apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044822A JP6334587B2 (en) 2016-03-08 2016-03-08 Word extraction apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2017162112A JP2017162112A (en) 2017-09-14
JP6334587B2 true JP6334587B2 (en) 2018-05-30

Family

ID=59857634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044822A Active JP6334587B2 (en) 2016-03-08 2016-03-08 Word extraction apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6334587B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977203B (en) * 2019-03-07 2021-06-08 北京九狐时代智能科技有限公司 Sentence similarity determining method and device, electronic equipment and readable storage medium
CN110347796A (en) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 Short text similarity calculating method under vector semantic tensor space
CN114492437B (en) * 2022-02-16 2023-07-18 平安科技(深圳)有限公司 Keyword recognition method and device, electronic equipment and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (en) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> Method and system for answering question and recording medium with recorded question answering program
JP5812534B2 (en) * 2012-06-04 2015-11-17 日本電信電話株式会社 Question answering apparatus, method, and program
US9558263B2 (en) * 2013-12-05 2017-01-31 International Business Machines Corporation Identifying and displaying relationships between candidate answers
JP6062879B2 (en) * 2014-03-14 2017-01-18 日本電信電話株式会社 Model learning apparatus, method and program

Also Published As

Publication number Publication date
JP2017162112A (en) 2017-09-14

Similar Documents

Publication Publication Date Title
CN110825881B (en) Method for establishing electric power knowledge graph
CN111522994B (en) Method and device for generating information
CN110795913B (en) Text encoding method, device, storage medium and terminal
CN110245238B (en) Graph embedding method and system based on rule reasoning and syntax mode
CN112989055B (en) Text recognition method and device, computer equipment and storage medium
US11113335B2 (en) Dialogue system and computer program therefor
JP6062879B2 (en) Model learning apparatus, method and program
CN111831911A (en) Query information processing method and device, storage medium and electronic device
JP6663826B2 (en) Computer and response generation method
CN105446986B (en) Method and apparatus for handling web page
JP6334587B2 (en) Word extraction apparatus, method, and program
CN111814487A (en) Semantic understanding method, device, equipment and storage medium
Wohlgenannt et al. Extracting social networks from literary text with word embedding tools
Hao et al. A subgraph-representation-based method for answering complex questions over knowledge bases
CN111368066B (en) Method, apparatus and computer readable storage medium for obtaining dialogue abstract
CN112582073B (en) Medical information acquisition method, device, electronic equipment and medium
JP6305630B2 (en) Document search apparatus, method and program
JP2017204219A (en) Model learning apparatus, word extraction apparatus, method and program
CN116204635A (en) Potential customer intention level judging method and system based on enterprise WeChat
WO2022262080A1 (en) Dialogue relationship processing method, computer and readable storage medium
CN113408271B (en) Information extraction method, device, equipment and medium based on RPA and AI
JP2018169835A (en) Model learning device, word extraction device, method, and program
CN114218431A (en) Video searching method and device, electronic equipment and storage medium
JP2014232145A (en) Pause application model selection apparatus, pause application device, methods thereof, and program
JP5087994B2 (en) Language analysis method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R150 Certificate of patent or registration of utility model

Ref document number: 6334587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150