JP7052438B2 - Training data generation method, training data generation program and data structure - Google Patents
Training data generation method, training data generation program and data structure Download PDFInfo
- Publication number
- JP7052438B2 JP7052438B2 JP2018043606A JP2018043606A JP7052438B2 JP 7052438 B2 JP7052438 B2 JP 7052438B2 JP 2018043606 A JP2018043606 A JP 2018043606A JP 2018043606 A JP2018043606 A JP 2018043606A JP 7052438 B2 JP7052438 B2 JP 7052438B2
- Authority
- JP
- Japan
- Prior art keywords
- question
- case
- learning data
- answer
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態は、学習データ生成方法、学習データ生成プログラムおよびデータ構造に関する。 Embodiments of the present invention relate to a training data generation method, a training data generation program, and a data structure.
従来、製品やサービス等を提供する企業は、頻繁に問い合わせのある質問と回答のペアをFAQ集として準備している。このFAQ集は、コールセンターのオペレータが顧客からの問い合わせに回答するための知識源として利用される。また、顧客が直接問い合わせを行うための検索対象としてWeb上で提供されている。 Conventionally, companies that provide products and services prepare frequently asked questions and answer pairs as FAQ collections. This FAQ collection is used as a knowledge source for call center operators to answer inquiries from customers. In addition, it is provided on the Web as a search target for customers to make inquiries directly.
このFAQ集における検索では、問い合わせとして入力された自然文や語彙をもとに検索が行われる。しかしながら、FAQ集に含まれる語彙と、ユーザが検索の際に使う語彙とが異なる場合には検索が困難となり、検索精度が低減する。このような精度低減に対処する手法としては、FAQ集における質問と、その質問に対応する回答のペアによる機械学習を用いたモデル構築を行う手法が知られている。 In the search in this FAQ collection, the search is performed based on the natural sentences and vocabulary entered as inquiries. However, if the vocabulary included in the FAQ collection is different from the vocabulary used by the user during the search, the search becomes difficult and the search accuracy is reduced. As a method for coping with such a decrease in accuracy, a method for constructing a model using machine learning by a pair of a question in the FAQ and a pair of answers corresponding to the question is known.
しかしながら、上記の従来技術では、例えば、コールセンター運用開始直後や、新規のFAQ集において、ユーザが問い合わせに用いる語彙の多様性に対応することが困難であった。このため、十分な検索精度を提供することが困難な場合があった。 However, with the above-mentioned conventional technique, it has been difficult to deal with the diversity of vocabulary used by users for inquiries, for example, immediately after the start of call center operation or in a new FAQ collection. Therefore, it may be difficult to provide sufficient search accuracy.
1つの側面では、検索精度の向上を可能とする学習データ生成方法、学習データ生成プログラムおよびデータ構造を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a learning data generation method, a training data generation program, and a data structure that enable improvement of search accuracy.
第1の案では、第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成方法であって、取得する処理と、学習する処理と、生成する処理とをコンピュータが実行する。取得する処理は、質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から第2の事例を取得する。学習する処理は、取得した第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、質問生成器が出力した仮想質問の単語列が質問の単語列に対応するように質問生成器を学習する。生成する処理は、学習した質問生成器に対して第1の事例に基づく入力を行って生成した仮想質問と、入力した第1の事例とを対応付けた学習データを生成する。 The first plan is a learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases, and is a process of acquiring, a process of learning, and a process of generating. The computer performs the processing. The process of acquiring acquires the second case from the second case collection, which is a set of the second cases including the question and at least one answer to the question. In the process of learning, in response to the input to the question generator based on the question and answer included in the acquired second case, the question is asked so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the generator. The generated process generates learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other.
本発明の1実施態様によれば、検索精度の向上を可能とする。 According to one embodiment of the present invention, it is possible to improve the search accuracy.
以下、図面を参照して、実施形態にかかる学習データ生成方法、学習データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習データ生成方法、学習データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。 Hereinafter, the learning data generation method, the training data generation program, and the data structure according to the embodiment will be described with reference to the drawings. Configurations having the same function in the embodiment are designated by the same reference numerals, and duplicate description will be omitted. The learning data generation method, the learning data generation program, and the data structure described in the following embodiments are merely examples, and do not limit the embodiments. In addition, the following embodiments may be appropriately combined within a consistent range.
図1は、実施形態にかかるシステムの機能構成例を示すブロック図である。図1に示すように、学習データ生成装置1は、検索対象QA集DB3に格納された、検索対象の事例の集合である事例集を検索する検索装置2の回答検索器21について、機械学習を用いたモデル構築を行う際の学習データ4を生成する。すなわち、回答検索器21は、検索器の一例である。
FIG. 1 is a block diagram showing a functional configuration example of the system according to the embodiment. As shown in FIG. 1, the learning
検索対象QA集DB3は、コールセンターのオペレータ等のユーザが検索する検索対象の事例(質問(xm),回答(yj))の集合である事例集を格納するデータベースである。例えば、検索対象QA集DB3には、頻繁に問い合わせのある質問と回答のペアとする複数の事例が格納されている。 The search target QA collection DB3 is a database that stores a collection of search target cases (questions (x m ), answers (y j )) searched by users such as call center operators. For example, the search target QA collection DB3 stores a plurality of cases in which frequently inquired questions and answers are paired.
検索装置2は、インタフェース部20と、回答検索器21とを有する。インタフェース部20は、キーボードなどの入力装置102(図8参照)を介したユーザからの入力を受け付け、入力に対する処理結果をモニタ103(図8参照)などの出力装置へ出力する。例えば、インタフェース部20は、コールセンターのオペレータが顧客から受け付けた質問6を入力とし、入力された質問6による回答検索器21の検索結果7を出力する。これにより、ユーザ(オペレータ)は、検索結果7として得られた回答を顧客に伝えることができる。
The
回答検索器21は、学習データ4を教師データとする機械学習を用いて構築された検索対象QA集DB3の検索モデルにより、検索装置2において入力された質問6に対応する回答を検索対象QA集DB3より検索し、検索結果7として出力する。回答検索器21における検索モデルとしては、例えば、脳のニューロンを模したユニットを入力層から中間層を経て出力層に至る間に階層的に結合したニューラル・ネットワークを適用できる。
The
回答検索器21は、学習時において、回答検索器21の入力層に学習データ4に基づく入力(例えば質問(xj,x’)の入力)を行い、演算結果を示す出力値を出力層から出力させる。そして、学習データ4における正解情報(回答(yj))と出力値との比較に基づいて、回答検索器21が回答を出力するためのパラメータを学習する。より具体的には、回答検索器21は、出力値と正解情報との比較結果を用いた誤差逆伝播(error Back Propagation:BP)法などによって、回答検索器21におけるニューラル・ネットワークのパラメータを学習する。
At the time of learning, the answer searcher 21 inputs to the input layer of the
そして、検索時(検索モデルの適用時)においては、回答検索器21は、入力層に入力された質問6に対し、学習したパラメータに応じた回答を検索結果7として出力する。
Then, at the time of search (when the search model is applied), the
学習データ生成装置1は、取得部10、学習部11、質問生成器12および生成部13を有する。
The learning
取得部10は、オンラインQA集DB5に格納された、質問(qi)と、質問に対する少なくとも1つの回答(ai)とを含む事例の集合である事例集(オンラインQA集)より事例を取得する。
The
オンラインQA集DB5に格納されたオンラインQA集は、検索対象QA集DB3とは別の、例えば、インターネット等の通信ネットワークを介して知識を共有する電子掲示板などの共有サイト(ナレッジコミュニティ)の情報である。このオンラインQA集は、通信ネットワークを介して投稿された質問(qi)および当該質問に対して投稿された少なくとも1つの回答(ai)を事例として有する。 The online QA collection stored in the online QA collection DB5 is information on a shared site (knowledge community) such as an electronic bulletin board that shares knowledge via a communication network such as the Internet, which is different from the search target QA collection DB3. be. This online QA collection has, as an example, a question ( qi) posted via a communication network and at least one answer (ai ) posted to the question.
取得部10は、オンラインQA集DB5に格納された事例(1,…,n)を順次読み出し、事例における質問(qi)と、回答(ai)とを取得する。
The
なお、オンラインQA集DB5に格納された事例は、複数のカテゴリ(例えば、パソコン関係、家電関係、…)に分類されていてもよい。このように、オンラインQA集DB5に格納された事例が分類分けされている場合、取得部10は、検索対象QA集DB3にかかるカテゴリの事例を取得してもよい。
The cases stored in the online QA collection DB5 may be classified into a plurality of categories (for example, personal computer-related, home appliance-related, ...). In this way, when the cases stored in the online QA collection DB 5 are classified, the
例えば、検索対象QA集DB3に含まれる事例がパソコン関係である場合、取得部10は、オンラインQA集DB5においてパソコン関係のカテゴリに該当する事例を取得する。検索対象QA集DB3に含まれる事例がオンラインQA集DB5のカテゴリのいずれに該当するかについては、ユーザが判断した上で事前に設定してもよいし、検索対象QA集DB3の事例を自然言語処理で解析した上でカテゴリ判断してもよい。
For example, when the case included in the search target QA collection DB3 is related to a personal computer, the
また、事例に含まれる回答(ai)のそれぞれには、回答(ai)に対する評価情報を有してもよい。一例として、評価情報は、回答に対して質問者が行う評価結果などがあり、質問者がよいと判断した回答に対する「いいね」や、最もよいと判断した回答に対する「ベストアンサー」などがある。 Further, each of the answers ( ai ) included in the case may have evaluation information for the answer ( ai ). As an example, the evaluation information includes the evaluation result performed by the questioner for the answer, such as "like" for the answer judged to be good by the questioner and "best answer" for the answer judged to be the best. ..
取得部10は、事例に含まれる回答(ai)の中から、評価情報が所定の条件を満たす回答を取得してもよい。例えば、取得部10は、質問(qi)とともに、質問に対する複数の回答(ai)の中から評価情報が「ベストアンサー」の回答を取得する。
The
学習部11は、取得部10が取得した事例を教師データとし、例えば機械翻訳の分野で用いられている、sequence to sequenceの枠組みにて、事例に基づく入力に対して仮想質問を生成する質問生成器12の学習を行う。
The learning unit 11 uses the case acquired by the
このsequence to sequenceについては、Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. In advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014, Montreal, Quebec, Canada, pp. 3104-3112, 2014.などがある。 About this sequence to sequence, Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. In advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014 , Montreal, Quebec, Canada, pp. 3104-3112, 2014. etc.
具体的には、学習部11は、取得部10が取得した事例に含まれる質問(qi)および回答(ai)に基づく入力を質問生成器12に行う。次いで、学習部11は、質問生成器12への入力に対し、質問生成器12が出力した仮想質問の単語列が質問(qi)の単語列に対応するように質問生成器12が仮想質問の単語列を生成するためのパラメータを学習する。
Specifically, the learning unit 11 inputs to the
より具体的には、学習部11は、取得部10が取得した事例に含まれる質問(qi)の単語列(y=<y1,…,yM>)および回答(ai)の単語列(x=<x1,…,xN>)の対を教師データDとする。学習部11は、質問生成器12の学習では、次の式(1)において、負の対数尤度を最小化するように質問生成器12のパラメータ(φ)を更新する。
More specifically, the learning unit 11 has a word string (y = <y 1 , ..., y M >) of a question (q i ) and a word of an answer ( ai ) included in the case acquired by the
質問生成器12は、学習部11による学習により構築された質問生成のモデルにより、生成部13により入力された事例に対応する仮想質問を生成して出力する。具体的には、質問生成器12は、回答検索器21と同様のニューラル・ネットワークを適用できる。
The
生成部13は、検索対象QA集DB3に含まれる事例(質問(xj),回答(yj))を基に質問生成器12により生成した仮想質問を用いた学習データ4を生成する。具体的には、生成部13は、学習部11により学習した質問生成器12に対して検索対象QA集DB3に含まれる事例(質問(xj),回答(yj))に基づく入力を行い、入力した事例に対応する仮想質問(x’)を得る。次いで、生成部13は、質問生成器12に入力した事例(質問(xj),回答(yj))と、入力により生成した仮想質問(x’)とを対応付けた学習データ4を生成する。
The
図2は、実施形態にかかるシステムの動作例を示すフローチャートである。図2に示すように、学習データ生成装置1の学習部11は、オンラインQA集DB5より取得した事例を教師データとして質問生成器12を学習する(S1)。
FIG. 2 is a flowchart showing an operation example of the system according to the embodiment. As shown in FIG. 2, the learning unit 11 of the learning
次いで、学習データ生成装置1の生成部13は、学習後の質問生成器12で検索対象QA集DB3に含まれる対象事例の回答から質問(仮想質問)を生成する(S2)。これにより、生成部13は、生成した仮想質問と対象事例とを対応付けた学習データ4を生成する。
Next, the
ここで、S1、S2において学習データ4を生成する学習データ生成処理の詳細を説明する。図3は、実施形態にかかる学習データ生成処理の一例を示すフローチャートである。 Here, the details of the learning data generation process for generating the learning data 4 in S1 and S2 will be described. FIG. 3 is a flowchart showing an example of the learning data generation process according to the embodiment.
図3に示すように、処理が開始されると、学習データ生成装置1は、オンラインQA集DB5に格納された事例の中で読み出し対象とする事例分(1,…,n:for i=1 to n)のループ処理(S10~S15)を開始する。読み出し対象となる事例とは、例えば、検索対象QA集DB3にかかるカテゴリの事例などである。
As shown in FIG. 3, when the processing is started, the learning
ループ処理が開始されると、取得部10は、オンラインQA集DB5より質問(qi)および回答(ai)を取得する(S11)。ここで、回答(ai)については、例えば、複数の中から評価情報が「ベストアンサー」であるものを取得する。
When the loop processing is started, the
次いで、学習部11は、質問生成器12の入力層に例えば回答(ai)を入力し、質問生成器12のパラメータ(φ)に基づいて回答(ai)から質問(q)を生成する(S12)。
Next, the learning unit 11 inputs, for example, an answer ( ai ) to the input layer of the
次いで、学習部11は、正しい質問(qi)および生成した質問(q)に基づいて損失(正しい質問に対する誤差)を計算する(S13)。 Next, the learning unit 11 calculates the loss (error with respect to the correct question) based on the correct question (q i ) and the generated question (q) (S13).
次いで、学習部11は、正しい質問(qi)に近い質問を質問生成器12が生成できるように、質問生成器12のパラメータ(φ)を更新する(S14)。
Next, the learning unit 11 updates the parameter (φ) of the
図4は、学習時における質問生成器12の動作例を説明する説明図である。図4に示すように、学習時において、質問生成器12には回答(ai)を入力する。次いで、質問生成器12から出力される単語列と、正しい質問(qi)の単語列とを比較し、式(1)において負の対数尤度を最小化するようにパラメータ(φ)を更新する。
FIG. 4 is an explanatory diagram illustrating an operation example of the
学習データ生成装置1は、上記のループ処理(S10~S15)を読み出し対象の事例分繰り返すことで、質問生成器12のパラメータ(φ)を取得する(S16)。
The learning
次いで、学習データ生成装置1は、検索対象QA集DB3に格納された事例分(1,…,k:for j=1 to k)のループ処理(S17~S20)を開始する。
Next, the learning
ループ処理が開始されると、生成部13は、質問生成器12の入力層に例えば検索対象QA集DB3の回答(yi)を入力し、質問生成器12のパラメータ(φ)に基づいて検索対象QA集DB3の回答(yi)から仮想質問(x’)を生成する(S18)。
When the loop processing is started, the
図5は、質問生成時における質問生成器12の動作例を説明する説明図である。図5に示すように、質問生成時において、質問生成器12には回答(yi)を入力する。この入力に対し、質問生成器12は、パラメータ(φ)に基づいて生成した単語列を、仮想質問(x’)として出力する。
FIG. 5 is an explanatory diagram illustrating an operation example of the
次いで、生成部13は、生成した仮想質問(x’)を検索対象QA集DB3のFAQ事例(質問(xj),回答(yj))が正解となるクエリとして対応付けて学習データ4に追加する(S19)。
Next, the
学習データ生成装置1は、上記のループ処理(S17~S20)を検索対象QA集DB3のFAQ事例分繰り返すことで、検索対象QA集DB3のFAQ事例を学習するための学習データ4を生成し、生成した学習データ4を出力する(S21)。
The learning
図2に戻り、検索装置2は、生成した仮想質問(x’)を用いた学習データ4により、回答検索器21を学習する(S3)。
Returning to FIG. 2, the
例えば、回答検索器21による検索対象QA集DB3のFAQ事例の検索では、次の式(2)に示すように、検索モデルによって与えられるスコアが最大となるFAQ事例を返す。
For example, in the search of the FAQ case of the search target QA collection DB3 by the
式(2)において、Sは検索対象のFAQ事例の集合とし、Fθ(q,d)は検索モデルのパラメータをθとしたときのクエリ(q)に対するFAQ事例(d)のスコアとする。 In the formula (2), S is a set of FAQ cases to be searched, and F θ (q, d) is the score of the FAQ case (d) for the query (q) when the parameter of the search model is θ.
回答検索器21の学習においては、クエリとその正しい回答のペアの集合がR={(q(1),d(1)),…,(q(n),d(n))}と与えられた際に次の式(3)を最小にするようなθを求めることとなる。
In the learning of the
ただし、S(q(i))はクエリq(i)に対して検索対象となるFAQ事例の集合とする。この式(3)は、検索に関するエラーとなり、全ての質問に対して正しい回答を返すことができれば、値は0となる。 However, S (q (i) ) is a set of FAQ cases to be searched for the query q (i) . This formula (3) becomes an error related to the search, and if the correct answer can be returned to all the questions, the value becomes 0.
次いで、検索装置2は、インタフェース部20よりユーザからの質問6を受け付ける(S4)。検索装置2は、回答検索器21を用いて、受け付けた質問6に対応するFAQ事例の検索を実施する(S5)。次いで、検索装置2は、検索の実施によって得られた検索結果7をインタフェース部20より出力する。
Next, the
以上のように、学習データ生成装置1は、検索対象QA集DB3に含まれる事例を検索する、検索装置2における回答検索器21の学習データ4を生成する。学習データ生成装置1の取得部10は、質問と、この質問に対する少なくとも1つの回答とを含む事例を格納するオンラインQA集DB5から事例を取得する。学習データ生成装置1の学習部11は、取得した事例に含まれる質問および回答に基づく質問生成器12への入力に対し、質問生成器12が出力した仮想質問の単語列が取得した質問の単語列に対応するように質問生成器12を学習する。学習データ生成装置1の生成部13は、学習した質問生成器12に対して検索対象QA集DB3に含まれる事例に基づく入力を行って生成した仮想質問と、入力した事例とを対応付けた学習データ4を生成する。
As described above, the learning
このように、学習データ生成装置1は、回答検索器21の学習を行う学習データ4として、検索対象QA集DB3とは別のオンラインQA集DB5で質問生成器12を学習して生成した、検索対象QA集DB3に含まれる事例に対応する仮想質問と、検索対象QA集DB3の事例とを対応付けたものを生成する。したがって、学習データ4は、回答検索器21の学習に用いることで、ユーザが問い合わせに用いる語彙の多様性に回答検索器21を対応させることができる。また、学習データ4は、例えば、検索対象QA集DB3がコールセンター運用開始直後の新規のものであっても、回答検索器21における検索精度の向上を可能とする。
As described above, the learning
図6は、従来の回答検索の具体例を説明する説明図である。図6に示すように、従来の回答検索器30では、検索対象QA集DB3における質問と回答のペアをそのまま教師データとして学習している。このため、回答検索器30では、「HPが見れない」などの検索対象QA集DB3内で該当しない語彙が含まれる質問6については、「ヒットなし」などとする検索結果7となる。
FIG. 6 is an explanatory diagram illustrating a specific example of a conventional answer search. As shown in FIG. 6, in the conventional
図7は、実施形態にかかるシステムの回答検索の具体例を説明する説明図である。図7に示すように、本実施形態では、オンラインQA集DB5で学習した質問生成器12により、検索対象QA集DB3に含まれる事例に対応する仮想質問を生成する。そして、検索対象QA集DB3に含まれる事例に対し、生成した仮想質問を加えたものを回答検索器21の学習データとする。質問生成器12が生成した仮想質問には、例えば、「HPが見れない」などの質問6に対しても、該当する語彙(例えば「HPが閲覧できません」)が含まれる場合がある。したがって、本実施形態では、回答検索器21は、質問6に対して該当する回答である「ルータなど、ネットワーク機器を再起動して下さい。」を検索結果7とすることができる。
FIG. 7 is an explanatory diagram illustrating a specific example of the response search of the system according to the embodiment. As shown in FIG. 7, in the present embodiment, the
また、取得部10は、オンラインQA集DB5の事例集における複数のカテゴリの中で、検索対象QA集DB3の事例集にかかるカテゴリに含まれる事例を取得する。これにより、学習データ生成装置1では、検索対象QA集DB3の事例集に関連する事例をオンラインQA集DB5より取得して質問生成器12の学習を行うことができる。したがって、学習データ生成装置1は、検索対象QA集DB3の事例集に関連する仮想質問を質問生成器12に生成させることができることから、回答検索器21における検索精度の向上を可能とする。
Further, the
また、取得部10は、オンラインQA集DB5の事例に含まれる質問と、当該質問に対する複数の回答の中の、評価情報が所定の条件を満たす回答とを取得する。このため、学習データ生成装置1は、評価情報が所定の条件を満たす回答、例えば、評価の高い回答を用いて質問生成器12の学習を行うことができ、回答検索器21における検索精度の向上を可能とする。
Further, the
また、オンラインQA集DB5に格納される事例集は通信ネットワークを介して知識を共有する共有サイトであり、取得部10がオンラインQA集DB5より取得する事例は、共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である。これにより、学習データ生成装置1は、共有サイトの投稿内容で質問生成器12の学習を行うことができ、共有サイトのユーザが用いる多様な語彙を仮想質問に反映させることができる。したがって、仮想質問を含めた学習データ4を回答検索器21の学習に用いることで、ユーザが問い合わせに用いる語彙の多様性に回答検索器21を対応させることができる。
Further, the casebook stored in the online QA collection DB5 is a shared site for sharing knowledge via a communication network, and the cases acquired by the
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 It should be noted that each component of each of the illustrated devices does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.
学習データ生成装置1、検索装置2で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、学習データ生成装置1、検索装置2で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
The various processing functions performed by the learning
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウェア)の一例を説明する。図8は、プログラムを実行するコンピュータの一例を示す説明図である。 By the way, various processes described in the above-described embodiment can be realized by executing a program prepared in advance on a computer. Therefore, in the following, an example of a computer (hardware) that executes a program having the same function as the above embodiment will be described. FIG. 8 is an explanatory diagram showing an example of a computer that executes a program.
図8に示すように、コンピュータ100は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ100は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ100は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ100内の各部(101~109)は、バス110に接続される。
As shown in FIG. 8, the
ハードディスク装置109には、上記の実施形態で説明した取得部10、学習部11、質問生成器12、生成部13、インタフェース部20および回答検索器21等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する検索対象QA集DB3や学習データ4等の各種データ112が記憶される。入力装置102は、例えば、コンピュータ100の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
The
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、取得部10、学習部11、質問生成器12、生成部13、インタフェース部20および回答検索器21等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ100は、読み取り可能な記憶媒体に記憶されたプログラム111を読み出して実行するようにしてもよい。コンピュータ100が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ100がこれらからプログラム111を読み出して実行するようにしてもよい。
The
以上の実施形態に関し、さらに以下の付記を開示する。 The following additional notes are further disclosed with respect to the above embodiments.
(付記1)第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成方法であって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
(Appendix 1) A learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
A learning data is generated in which a virtual question generated by inputting an input based on the first case to the learned question generator and the input first case are associated with each other.
A learning data generation method characterized by a computer performing processing.
(付記2)前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集にかかるカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする付記1に記載の学習データ生成方法。
(Appendix 2) The acquisition process acquires the second case included in the category related to the first case collection among the plurality of categories in the second case collection.
The learning data generation method according to
(付記3)前記第2の事例は、前記質問に対する複数の回答それぞれに評価を示す評価情報を有し、
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする付記1または2に記載の学習データ生成方法。
(Appendix 3) The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation method according to
(付記4)前記第2の事例集は、通信ネットワークを介して知識を共有する共有サイトであり、前記第2の事例は、前記共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である、
ことを特徴とする付記1乃至3のいずれか一に記載の学習データ生成方法。
(Appendix 4) The second casebook is a shared site for sharing knowledge via a communication network, and the second casebook is a question posted on the shared site and posted for the question. At least one answer,
The learning data generation method according to any one of
(付記5)第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成プログラムであって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
(Appendix 5) A learning data generation program that generates learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
A learning data is generated in which a virtual question generated by inputting an input based on the first case to the learned question generator and the input first case are associated with each other.
A learning data generation program characterized by having a computer execute processing.
(付記6)前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集にかかるカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする付記5に記載の学習データ生成プログラム。
(Appendix 6) The acquisition process acquires the second case included in the category related to the first case collection among the plurality of categories in the second case collection.
The learning data generation program according to
(付記7)前記第2の事例は、前記質問に対する複数の回答それぞれに評価を示す評価情報を有し、
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする付記5または6に記載の学習データ生成プログラム。
(Appendix 7) The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation program according to the
(付記8)前記第2の事例集は、通信ネットワークを介して知識を共有する共有サイトであり、前記第2の事例は、前記共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である、
ことを特徴とする付記5乃至7のいずれか一に記載の学習データ生成プログラム。
(Appendix 8) The second casebook is a shared site for sharing knowledge via a communication network, and the second casebook is a question posted on the shared site and posted for the question. At least one answer,
The learning data generation program according to any one of
(付記9)第1の事例の集合である第1の事例集を検索する検索器の学習に用いる学習データのデータ構造であって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、
入力した前記第1の事例と、が対応付けられた学習データとして、前記検索器の入力層に入力されることにより、演算結果を示す出力値を前記検索器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
(Appendix 9) A data structure of learning data used for learning of a search device for searching a first casebook, which is a set of first cases.
The second case is acquired from the second casebook, which is a set of the second case including the question and at least one answer to the question, and the question and answer included in the acquired second case The question generator is learned so that the word string of the virtual question output by the question generator corresponds to the word string of the question in response to the input to the question generator based on the question generator. A virtual question generated by inputting based on the first case,
By inputting to the input layer of the search device as learning data associated with the input first example, an output value indicating a calculation result is output from the output layer of the search device, and correct answer information is obtained. And learning based on the comparison with the output value,
A data structure characterized by having a computer perform processing.
1…学習データ生成装置
2…検索装置
3…検索対象QA集DB
4…学習データ
5…オンラインQA集DB
6…質問
7…検索結果
10…取得部
11…学習部
12…質問生成器
13…生成部
20…インタフェース部
21…回答検索器
30…回答検索器
100…コンピュータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
1 ... Learning
4 ...
6 ...
102 ... Input device 103 ... Monitor 104 ... Speaker 105 ... Medium reading device 106 ...
109 ... Hard disk device 110 ... Bus 111 ... Program 112 ... Various data
Claims (4)
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、処理をコンピュータが実行し、
前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集の事例を自然言語処理で解析して判断したカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする学習データ生成方法。 It is a learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
The computer executes a process of generating learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other. ,
The acquisition process acquires the second case included in the category determined by analyzing the case of the first case collection by natural language processing among the plurality of categories in the second case collection. ,
A learning data generation method characterized by this.
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする請求項1に記載の学習データ生成方法。 The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation method according to claim 1 , wherein the learning data is generated.
ことを特徴とする請求項1または2に記載の学習データ生成方法。 The second casebook is a shared site that shares knowledge via a communication network, and the second casebook is a question posted on the shared site and at least one answer posted to the question. Is,
The learning data generation method according to claim 1 or 2 , wherein the learning data is generated.
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、処理をコンピュータに実行させ、
前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集の事例を自然言語処理で解析して判断したカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする学習データ生成プログラム。 It is a learning data generation program that generates learning data of a search device that searches the first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
Let the computer execute a process of generating learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other. ,
The acquisition process acquires the second case included in the category determined by analyzing the case of the first case collection by natural language processing among the plurality of categories in the second case collection. ,
A learning data generation program characterized by this.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018043606A JP7052438B2 (en) | 2018-03-09 | 2018-03-09 | Training data generation method, training data generation program and data structure |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018043606A JP7052438B2 (en) | 2018-03-09 | 2018-03-09 | Training data generation method, training data generation program and data structure |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159613A JP2019159613A (en) | 2019-09-19 |
JP7052438B2 true JP7052438B2 (en) | 2022-04-12 |
Family
ID=67996286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018043606A Active JP7052438B2 (en) | 2018-03-09 | 2018-03-09 | Training data generation method, training data generation program and data structure |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7052438B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7242585B2 (en) * | 2020-01-31 | 2023-03-20 | 株式会社日立製作所 | Recommendation system and recommendation method |
-
2018
- 2018-03-09 JP JP2018043606A patent/JP7052438B2/en active Active
Non-Patent Citations (1)
Title |
---|
牧野 拓哉、野呂 智哉、吉川 和、岩倉 友哉、関根 聡、乾 健太郎,自動生成した質問に基づく質問応答学習手法の提案と評価,言語処理学会第24回年次大会 発表論文集,日本,言語処理学会,2018年03月05日,p.861~864 |
Also Published As
Publication number | Publication date |
---|---|
JP2019159613A (en) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249207B2 (en) | Educational teaching system and method utilizing interactive avatars with learning manager and authoring manager functions | |
US10936821B2 (en) | Testing and training a question-answering system | |
US20210256390A1 (en) | Computationally efficient neural network architecture search | |
US11373047B2 (en) | Method, system, and computer program for artificial intelligence answer | |
US20150079554A1 (en) | Language learning system and learning method | |
CN110909145B (en) | Training method and device for multi-task model | |
CN109614480B (en) | Method and device for generating automatic abstract based on generation type countermeasure network | |
WO2020224220A1 (en) | Knowledge graph-based question answering method, electronic device, apparatus, and storage medium | |
Eshghi et al. | Bootstrapping incremental dialogue systems from minimal data: the generalisation power of dialogue grammars | |
CN112685550B (en) | Intelligent question-answering method, intelligent question-answering device, intelligent question-answering server and computer readable storage medium | |
Xu et al. | ChatGPT vs. Google: a comparative study of search performance and user experience | |
JP2020035135A (en) | Question and answer system, question and answer processing method, and question and answer integrated system | |
CN114492451B (en) | Text matching method, device, electronic equipment and computer readable storage medium | |
CN111553140A (en) | Data processing method, data processing apparatus, and computer storage medium | |
JP7052438B2 (en) | Training data generation method, training data generation program and data structure | |
CN113705792A (en) | Personalized recommendation method, device, equipment and medium based on deep learning model | |
JP6846666B2 (en) | Translation sentence generation method, translation sentence generation device and translation sentence generation program | |
US20220327445A1 (en) | Workshop assistance system and workshop assistance method | |
Celikkan et al. | A consolidated approach for design pattern recommendation | |
CN113704452B (en) | Data recommendation method, device, equipment and medium based on Bert model | |
CN115630147A (en) | Response method, response device, electronic equipment and storage medium | |
JP2022152367A (en) | Machine learning program, machine learning method, and information processing device | |
Dikshit et al. | Automating Questions and Answers of Good and Services Tax system using clustering and embeddings of queries | |
JP2020154514A (en) | Learning device, learning method, retrieval device, retrieval method and program | |
JP2020140674A (en) | Answer selection device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7052438 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |