JP7052438B2 - Training data generation method, training data generation program and data structure - Google Patents

Training data generation method, training data generation program and data structure Download PDF

Info

Publication number
JP7052438B2
JP7052438B2 JP2018043606A JP2018043606A JP7052438B2 JP 7052438 B2 JP7052438 B2 JP 7052438B2 JP 2018043606 A JP2018043606 A JP 2018043606A JP 2018043606 A JP2018043606 A JP 2018043606A JP 7052438 B2 JP7052438 B2 JP 7052438B2
Authority
JP
Japan
Prior art keywords
question
case
learning data
answer
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018043606A
Other languages
Japanese (ja)
Other versions
JP2019159613A (en
Inventor
拓哉 牧野
智哉 野呂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018043606A priority Critical patent/JP7052438B2/en
Publication of JP2019159613A publication Critical patent/JP2019159613A/en
Application granted granted Critical
Publication of JP7052438B2 publication Critical patent/JP7052438B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、学習データ生成方法、学習データ生成プログラムおよびデータ構造に関する。 Embodiments of the present invention relate to a training data generation method, a training data generation program, and a data structure.

従来、製品やサービス等を提供する企業は、頻繁に問い合わせのある質問と回答のペアをFAQ集として準備している。このFAQ集は、コールセンターのオペレータが顧客からの問い合わせに回答するための知識源として利用される。また、顧客が直接問い合わせを行うための検索対象としてWeb上で提供されている。 Conventionally, companies that provide products and services prepare frequently asked questions and answer pairs as FAQ collections. This FAQ collection is used as a knowledge source for call center operators to answer inquiries from customers. In addition, it is provided on the Web as a search target for customers to make inquiries directly.

このFAQ集における検索では、問い合わせとして入力された自然文や語彙をもとに検索が行われる。しかしながら、FAQ集に含まれる語彙と、ユーザが検索の際に使う語彙とが異なる場合には検索が困難となり、検索精度が低減する。このような精度低減に対処する手法としては、FAQ集における質問と、その質問に対応する回答のペアによる機械学習を用いたモデル構築を行う手法が知られている。 In the search in this FAQ collection, the search is performed based on the natural sentences and vocabulary entered as inquiries. However, if the vocabulary included in the FAQ collection is different from the vocabulary used by the user during the search, the search becomes difficult and the search accuracy is reduced. As a method for coping with such a decrease in accuracy, a method for constructing a model using machine learning by a pair of a question in the FAQ and a pair of answers corresponding to the question is known.

特開2017-228272号公報Japanese Unexamined Patent Publication No. 2017-228272

しかしながら、上記の従来技術では、例えば、コールセンター運用開始直後や、新規のFAQ集において、ユーザが問い合わせに用いる語彙の多様性に対応することが困難であった。このため、十分な検索精度を提供することが困難な場合があった。 However, with the above-mentioned conventional technique, it has been difficult to deal with the diversity of vocabulary used by users for inquiries, for example, immediately after the start of call center operation or in a new FAQ collection. Therefore, it may be difficult to provide sufficient search accuracy.

1つの側面では、検索精度の向上を可能とする学習データ生成方法、学習データ生成プログラムおよびデータ構造を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a learning data generation method, a training data generation program, and a data structure that enable improvement of search accuracy.

第1の案では、第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成方法であって、取得する処理と、学習する処理と、生成する処理とをコンピュータが実行する。取得する処理は、質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から第2の事例を取得する。学習する処理は、取得した第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、質問生成器が出力した仮想質問の単語列が質問の単語列に対応するように質問生成器を学習する。生成する処理は、学習した質問生成器に対して第1の事例に基づく入力を行って生成した仮想質問と、入力した第1の事例とを対応付けた学習データを生成する。 The first plan is a learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases, and is a process of acquiring, a process of learning, and a process of generating. The computer performs the processing. The process of acquiring acquires the second case from the second case collection, which is a set of the second cases including the question and at least one answer to the question. In the process of learning, in response to the input to the question generator based on the question and answer included in the acquired second case, the question is asked so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the generator. The generated process generates learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other.

本発明の1実施態様によれば、検索精度の向上を可能とする。 According to one embodiment of the present invention, it is possible to improve the search accuracy.

図1は、実施形態にかかるシステムの機能構成例を示すブロック図である。FIG. 1 is a block diagram showing a functional configuration example of the system according to the embodiment. 図2は、実施形態にかかるシステムの動作例を示すフローチャートである。FIG. 2 is a flowchart showing an operation example of the system according to the embodiment. 図3は、実施形態にかかる学習データ生成処理の一例を示すフローチャートである。FIG. 3 is a flowchart showing an example of the learning data generation process according to the embodiment. 図4は、学習時における質問生成器の動作例を説明する説明図である。FIG. 4 is an explanatory diagram illustrating an operation example of the question generator during learning. 図5は、質問生成時における質問生成器の動作例を説明する説明図である。FIG. 5 is an explanatory diagram illustrating an operation example of the question generator at the time of question generation. 図6は、従来の回答検索の具体例を説明する説明図である。FIG. 6 is an explanatory diagram illustrating a specific example of a conventional answer search. 図7は、実施形態にかかるシステムの回答検索の具体例を説明する説明図である。FIG. 7 is an explanatory diagram illustrating a specific example of the response search of the system according to the embodiment. 図8は、プログラムを実行するコンピュータの一例を示す説明図である。FIG. 8 is an explanatory diagram showing an example of a computer that executes a program.

以下、図面を参照して、実施形態にかかる学習データ生成方法、学習データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習データ生成方法、学習データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。 Hereinafter, the learning data generation method, the training data generation program, and the data structure according to the embodiment will be described with reference to the drawings. Configurations having the same function in the embodiment are designated by the same reference numerals, and duplicate description will be omitted. The learning data generation method, the learning data generation program, and the data structure described in the following embodiments are merely examples, and do not limit the embodiments. In addition, the following embodiments may be appropriately combined within a consistent range.

図1は、実施形態にかかるシステムの機能構成例を示すブロック図である。図1に示すように、学習データ生成装置1は、検索対象QA集DB3に格納された、検索対象の事例の集合である事例集を検索する検索装置2の回答検索器21について、機械学習を用いたモデル構築を行う際の学習データ4を生成する。すなわち、回答検索器21は、検索器の一例である。 FIG. 1 is a block diagram showing a functional configuration example of the system according to the embodiment. As shown in FIG. 1, the learning data generation device 1 performs machine learning on the answer search device 21 of the search device 2 that searches the casebook, which is a set of cases to be searched, stored in the search target QA collection DB3. The training data 4 for constructing the model using is generated. That is, the answer search device 21 is an example of a search device.

検索対象QA集DB3は、コールセンターのオペレータ等のユーザが検索する検索対象の事例(質問(x),回答(y))の集合である事例集を格納するデータベースである。例えば、検索対象QA集DB3には、頻繁に問い合わせのある質問と回答のペアとする複数の事例が格納されている。 The search target QA collection DB3 is a database that stores a collection of search target cases (questions (x m ), answers (y j )) searched by users such as call center operators. For example, the search target QA collection DB3 stores a plurality of cases in which frequently inquired questions and answers are paired.

検索装置2は、インタフェース部20と、回答検索器21とを有する。インタフェース部20は、キーボードなどの入力装置102(図8参照)を介したユーザからの入力を受け付け、入力に対する処理結果をモニタ103(図8参照)などの出力装置へ出力する。例えば、インタフェース部20は、コールセンターのオペレータが顧客から受け付けた質問6を入力とし、入力された質問6による回答検索器21の検索結果7を出力する。これにより、ユーザ(オペレータ)は、検索結果7として得られた回答を顧客に伝えることができる。 The search device 2 has an interface unit 20 and an answer search device 21. The interface unit 20 receives an input from a user via an input device 102 (see FIG. 8) such as a keyboard, and outputs a processing result for the input to an output device such as a monitor 103 (see FIG. 8). For example, the interface unit 20 inputs the question 6 received from the customer by the operator of the call center, and outputs the search result 7 of the answer search device 21 based on the input question 6. As a result, the user (operator) can convey the answer obtained as the search result 7 to the customer.

回答検索器21は、学習データ4を教師データとする機械学習を用いて構築された検索対象QA集DB3の検索モデルにより、検索装置2において入力された質問6に対応する回答を検索対象QA集DB3より検索し、検索結果7として出力する。回答検索器21における検索モデルとしては、例えば、脳のニューロンを模したユニットを入力層から中間層を経て出力層に至る間に階層的に結合したニューラル・ネットワークを適用できる。 The answer search device 21 searches for answers corresponding to the question 6 input in the search device 2 by the search model of the search target QA collection DB3 constructed by using machine learning using the learning data 4 as the teacher data. Search from DB3 and output as search result 7. As a search model in the answer search device 21, for example, a neural network in which units imitating neurons in the brain are hierarchically connected from an input layer to an output layer via an intermediate layer can be applied.

回答検索器21は、学習時において、回答検索器21の入力層に学習データ4に基づく入力(例えば質問(x,x’)の入力)を行い、演算結果を示す出力値を出力層から出力させる。そして、学習データ4における正解情報(回答(y))と出力値との比較に基づいて、回答検索器21が回答を出力するためのパラメータを学習する。より具体的には、回答検索器21は、出力値と正解情報との比較結果を用いた誤差逆伝播(error Back Propagation:BP)法などによって、回答検索器21におけるニューラル・ネットワークのパラメータを学習する。 At the time of learning, the answer searcher 21 inputs to the input layer of the answer searcher 21 based on the learning data 4 (for example, input of a question (x j , x')), and outputs an output value indicating the calculation result from the output layer. Output. Then, based on the comparison between the correct answer information (answer (y j )) in the learning data 4 and the output value, the answer searcher 21 learns the parameters for outputting the answer. More specifically, the answer searcher 21 learns the parameters of the neural network in the answer searcher 21 by an error back propagation (BP) method or the like using the comparison result between the output value and the correct answer information. do.

そして、検索時(検索モデルの適用時)においては、回答検索器21は、入力層に入力された質問6に対し、学習したパラメータに応じた回答を検索結果7として出力する。 Then, at the time of search (when the search model is applied), the answer search device 21 outputs the answer according to the learned parameter to the question 6 input to the input layer as the search result 7.

学習データ生成装置1は、取得部10、学習部11、質問生成器12および生成部13を有する。 The learning data generation device 1 has an acquisition unit 10, a learning unit 11, a question generator 12, and a generation unit 13.

取得部10は、オンラインQA集DB5に格納された、質問(q)と、質問に対する少なくとも1つの回答(a)とを含む事例の集合である事例集(オンラインQA集)より事例を取得する。 The acquisition unit 10 acquires cases from a casebook (online QA collection), which is a set of cases including a question ( qi ) and at least one answer ( ai ) to the question, stored in the online QA collection DB5. do.

オンラインQA集DB5に格納されたオンラインQA集は、検索対象QA集DB3とは別の、例えば、インターネット等の通信ネットワークを介して知識を共有する電子掲示板などの共有サイト(ナレッジコミュニティ)の情報である。このオンラインQA集は、通信ネットワークを介して投稿された質問(q)および当該質問に対して投稿された少なくとも1つの回答(a)を事例として有する。 The online QA collection stored in the online QA collection DB5 is information on a shared site (knowledge community) such as an electronic bulletin board that shares knowledge via a communication network such as the Internet, which is different from the search target QA collection DB3. be. This online QA collection has, as an example, a question ( qi) posted via a communication network and at least one answer (ai ) posted to the question.

取得部10は、オンラインQA集DB5に格納された事例(1,…,n)を順次読み出し、事例における質問(q)と、回答(a)とを取得する。 The acquisition unit 10 sequentially reads out the cases (1, ..., N) stored in the online QA collection DB5, and acquires the question (q i ) and the answer ( ai ) in the case.

なお、オンラインQA集DB5に格納された事例は、複数のカテゴリ(例えば、パソコン関係、家電関係、…)に分類されていてもよい。このように、オンラインQA集DB5に格納された事例が分類分けされている場合、取得部10は、検索対象QA集DB3にかかるカテゴリの事例を取得してもよい。 The cases stored in the online QA collection DB5 may be classified into a plurality of categories (for example, personal computer-related, home appliance-related, ...). In this way, when the cases stored in the online QA collection DB 5 are classified, the acquisition unit 10 may acquire the cases in the category related to the search target QA collection DB 3.

例えば、検索対象QA集DB3に含まれる事例がパソコン関係である場合、取得部10は、オンラインQA集DB5においてパソコン関係のカテゴリに該当する事例を取得する。検索対象QA集DB3に含まれる事例がオンラインQA集DB5のカテゴリのいずれに該当するかについては、ユーザが判断した上で事前に設定してもよいし、検索対象QA集DB3の事例を自然言語処理で解析した上でカテゴリ判断してもよい。 For example, when the case included in the search target QA collection DB3 is related to a personal computer, the acquisition unit 10 acquires the case corresponding to the personal computer-related category in the online QA collection DB5. The user may decide in advance which of the categories of the online QA collection DB5 the case included in the search target QA collection DB3 corresponds to, or the case of the search target QA collection DB3 may be set in natural language. You may judge the category after analyzing it by processing.

また、事例に含まれる回答(a)のそれぞれには、回答(a)に対する評価情報を有してもよい。一例として、評価情報は、回答に対して質問者が行う評価結果などがあり、質問者がよいと判断した回答に対する「いいね」や、最もよいと判断した回答に対する「ベストアンサー」などがある。 Further, each of the answers ( ai ) included in the case may have evaluation information for the answer ( ai ). As an example, the evaluation information includes the evaluation result performed by the questioner for the answer, such as "like" for the answer judged to be good by the questioner and "best answer" for the answer judged to be the best. ..

取得部10は、事例に含まれる回答(a)の中から、評価情報が所定の条件を満たす回答を取得してもよい。例えば、取得部10は、質問(q)とともに、質問に対する複数の回答(a)の中から評価情報が「ベストアンサー」の回答を取得する。 The acquisition unit 10 may acquire an answer whose evaluation information satisfies a predetermined condition from the answers ( ai ) included in the case. For example, the acquisition unit 10 acquires an answer whose evaluation information is "best answer" from a plurality of answers ( ai ) to the question together with the question (q i ).

学習部11は、取得部10が取得した事例を教師データとし、例えば機械翻訳の分野で用いられている、sequence to sequenceの枠組みにて、事例に基づく入力に対して仮想質問を生成する質問生成器12の学習を行う。 The learning unit 11 uses the case acquired by the acquisition unit 10 as teacher data, and generates a virtual question for input based on the case in the framework of sequence to sequence, which is used in the field of machine translation, for example. Learn the vessel 12.

このsequence to sequenceについては、Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. In advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014, Montreal, Quebec, Canada, pp. 3104-3112, 2014.などがある。 About this sequence to sequence, Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to sequence learning with neural networks. In advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014 , Montreal, Quebec, Canada, pp. 3104-3112, 2014. etc.

具体的には、学習部11は、取得部10が取得した事例に含まれる質問(q)および回答(a)に基づく入力を質問生成器12に行う。次いで、学習部11は、質問生成器12への入力に対し、質問生成器12が出力した仮想質問の単語列が質問(q)の単語列に対応するように質問生成器12が仮想質問の単語列を生成するためのパラメータを学習する。 Specifically, the learning unit 11 inputs to the question generator 12 based on the question (q i ) and the answer ( ai ) included in the case acquired by the acquisition unit 10. Next, the learning unit 11 asks the question generator 12 a virtual question so that the word string of the virtual question output by the question generator 12 corresponds to the word string of the question (q i ) in response to the input to the question generator 12. Learn the parameters for generating the word string of.

より具体的には、学習部11は、取得部10が取得した事例に含まれる質問(q)の単語列(y=<y,…,y>)および回答(a)の単語列(x=<x,…,x>)の対を教師データDとする。学習部11は、質問生成器12の学習では、次の式(1)において、負の対数尤度を最小化するように質問生成器12のパラメータ(φ)を更新する。 More specifically, the learning unit 11 has a word string (y = <y 1 , ..., y M >) of a question (q i ) and a word of an answer ( ai ) included in the case acquired by the acquisition unit 10. Let the pair of columns (x = <x 1 , ..., x N >) be the teacher data D. In the learning of the question generator 12, the learning unit 11 updates the parameter (φ) of the question generator 12 so as to minimize the negative log-likelihood in the following equation (1).

Figure 0007052438000001
Figure 0007052438000001

質問生成器12は、学習部11による学習により構築された質問生成のモデルにより、生成部13により入力された事例に対応する仮想質問を生成して出力する。具体的には、質問生成器12は、回答検索器21と同様のニューラル・ネットワークを適用できる。 The question generator 12 generates and outputs a virtual question corresponding to the case input by the generation unit 13 by the question generation model constructed by the learning by the learning unit 11. Specifically, the question generator 12 can apply the same neural network as the answer searcher 21.

生成部13は、検索対象QA集DB3に含まれる事例(質問(x),回答(y))を基に質問生成器12により生成した仮想質問を用いた学習データ4を生成する。具体的には、生成部13は、学習部11により学習した質問生成器12に対して検索対象QA集DB3に含まれる事例(質問(x),回答(y))に基づく入力を行い、入力した事例に対応する仮想質問(x’)を得る。次いで、生成部13は、質問生成器12に入力した事例(質問(x),回答(y))と、入力により生成した仮想質問(x’)とを対応付けた学習データ4を生成する。 The generation unit 13 generates learning data 4 using a virtual question generated by the question generator 12 based on the cases (question (x j ), answer (y j )) included in the search target QA collection DB3. Specifically, the generation unit 13 inputs to the question generator 12 learned by the learning unit 11 based on the cases (question (x j ), answer (y j )) included in the search target QA collection DB3. , Get a virtual question (x') corresponding to the entered case. Next, the generation unit 13 generates learning data 4 in which the case (question (x j ), answer (y j )) input to the question generator 12 and the virtual question (x') generated by the input are associated with each other. do.

図2は、実施形態にかかるシステムの動作例を示すフローチャートである。図2に示すように、学習データ生成装置1の学習部11は、オンラインQA集DB5より取得した事例を教師データとして質問生成器12を学習する(S1)。 FIG. 2 is a flowchart showing an operation example of the system according to the embodiment. As shown in FIG. 2, the learning unit 11 of the learning data generation device 1 learns the question generator 12 using the case acquired from the online QA collection DB 5 as teacher data (S1).

次いで、学習データ生成装置1の生成部13は、学習後の質問生成器12で検索対象QA集DB3に含まれる対象事例の回答から質問(仮想質問)を生成する(S2)。これにより、生成部13は、生成した仮想質問と対象事例とを対応付けた学習データ4を生成する。 Next, the generation unit 13 of the learning data generation device 1 generates a question (virtual question) from the answers of the target cases included in the search target QA collection DB 3 by the question generator 12 after learning (S2). As a result, the generation unit 13 generates the learning data 4 in which the generated virtual question and the target case are associated with each other.

ここで、S1、S2において学習データ4を生成する学習データ生成処理の詳細を説明する。図3は、実施形態にかかる学習データ生成処理の一例を示すフローチャートである。 Here, the details of the learning data generation process for generating the learning data 4 in S1 and S2 will be described. FIG. 3 is a flowchart showing an example of the learning data generation process according to the embodiment.

図3に示すように、処理が開始されると、学習データ生成装置1は、オンラインQA集DB5に格納された事例の中で読み出し対象とする事例分(1,…,n:for i=1 to n)のループ処理(S10~S15)を開始する。読み出し対象となる事例とは、例えば、検索対象QA集DB3にかかるカテゴリの事例などである。 As shown in FIG. 3, when the processing is started, the learning data generation device 1 has the cases (1, ..., n: for i = 1) to be read out among the cases stored in the online QA collection DB5. To n) loop processing (S10 to S15) is started. The case to be read is, for example, the case of the category related to the search target QA collection DB3.

ループ処理が開始されると、取得部10は、オンラインQA集DB5より質問(q)および回答(a)を取得する(S11)。ここで、回答(a)については、例えば、複数の中から評価情報が「ベストアンサー」であるものを取得する。 When the loop processing is started, the acquisition unit 10 acquires a question (q i ) and an answer ( ai ) from the online QA collection DB 5 (S11). Here, as for the answer ( ai ), for example, the one whose evaluation information is the "best answer" is acquired from a plurality of answers.

次いで、学習部11は、質問生成器12の入力層に例えば回答(a)を入力し、質問生成器12のパラメータ(φ)に基づいて回答(a)から質問(q)を生成する(S12)。 Next, the learning unit 11 inputs, for example, an answer ( ai ) to the input layer of the question generator 12, and generates a question (q) from the answer ( ai ) based on the parameter (φ) of the question generator 12. (S12).

次いで、学習部11は、正しい質問(q)および生成した質問(q)に基づいて損失(正しい質問に対する誤差)を計算する(S13)。 Next, the learning unit 11 calculates the loss (error with respect to the correct question) based on the correct question (q i ) and the generated question (q) (S13).

次いで、学習部11は、正しい質問(q)に近い質問を質問生成器12が生成できるように、質問生成器12のパラメータ(φ)を更新する(S14)。 Next, the learning unit 11 updates the parameter (φ) of the question generator 12 so that the question generator 12 can generate a question close to the correct question (q i ) (S14).

図4は、学習時における質問生成器12の動作例を説明する説明図である。図4に示すように、学習時において、質問生成器12には回答(a)を入力する。次いで、質問生成器12から出力される単語列と、正しい質問(q)の単語列とを比較し、式(1)において負の対数尤度を最小化するようにパラメータ(φ)を更新する。 FIG. 4 is an explanatory diagram illustrating an operation example of the question generator 12 during learning. As shown in FIG. 4, an answer ( ai ) is input to the question generator 12 at the time of learning. Next, the word string output from the question generator 12 is compared with the word string of the correct question (q i ), and the parameter (φ) is updated so as to minimize the negative log-likelihood in the equation (1). do.

学習データ生成装置1は、上記のループ処理(S10~S15)を読み出し対象の事例分繰り返すことで、質問生成器12のパラメータ(φ)を取得する(S16)。 The learning data generator 1 acquires the parameter (φ) of the question generator 12 by repeating the above loop processing (S10 to S15) for the cases to be read (S16).

次いで、学習データ生成装置1は、検索対象QA集DB3に格納された事例分(1,…,k:for j=1 to k)のループ処理(S17~S20)を開始する。 Next, the learning data generation device 1 starts the loop processing (S17 to S20) for the cases (1, ..., k: for j = 1 to k) stored in the search target QA collection DB3.

ループ処理が開始されると、生成部13は、質問生成器12の入力層に例えば検索対象QA集DB3の回答(y)を入力し、質問生成器12のパラメータ(φ)に基づいて検索対象QA集DB3の回答(y)から仮想質問(x’)を生成する(S18)。 When the loop processing is started, the generation unit 13 inputs, for example, the answer (y i ) of the search target QA collection DB 3 to the input layer of the question generator 12, and searches based on the parameter (φ) of the question generator 12. A virtual question (x') is generated from the answer (y i ) of the target QA collection DB3 (S18).

図5は、質問生成時における質問生成器12の動作例を説明する説明図である。図5に示すように、質問生成時において、質問生成器12には回答(y)を入力する。この入力に対し、質問生成器12は、パラメータ(φ)に基づいて生成した単語列を、仮想質問(x’)として出力する。 FIG. 5 is an explanatory diagram illustrating an operation example of the question generator 12 at the time of question generation. As shown in FIG. 5, an answer (y i ) is input to the question generator 12 at the time of question generation. In response to this input, the question generator 12 outputs the word string generated based on the parameter (φ) as a virtual question (x').

次いで、生成部13は、生成した仮想質問(x’)を検索対象QA集DB3のFAQ事例(質問(x),回答(y))が正解となるクエリとして対応付けて学習データ4に追加する(S19)。 Next, the generation unit 13 associates the generated virtual question (x') with the learning data 4 as a query in which the FAQ example (question (x j ), answer (y j )) of the search target QA collection DB3 is the correct answer. Add (S19).

学習データ生成装置1は、上記のループ処理(S17~S20)を検索対象QA集DB3のFAQ事例分繰り返すことで、検索対象QA集DB3のFAQ事例を学習するための学習データ4を生成し、生成した学習データ4を出力する(S21)。 The learning data generation device 1 generates learning data 4 for learning the FAQ cases of the search target QA collection DB3 by repeating the above loop processing (S17 to S20) for the FAQ cases of the search target QA collection DB3. The generated learning data 4 is output (S21).

図2に戻り、検索装置2は、生成した仮想質問(x’)を用いた学習データ4により、回答検索器21を学習する(S3)。 Returning to FIG. 2, the search device 2 learns the answer search device 21 from the learning data 4 using the generated virtual question (x') (S3).

例えば、回答検索器21による検索対象QA集DB3のFAQ事例の検索では、次の式(2)に示すように、検索モデルによって与えられるスコアが最大となるFAQ事例を返す。 For example, in the search of the FAQ case of the search target QA collection DB3 by the answer search device 21, the FAQ case having the maximum score given by the search model is returned as shown in the following equation (2).

Figure 0007052438000002
Figure 0007052438000002

式(2)において、Sは検索対象のFAQ事例の集合とし、Fθ(q,d)は検索モデルのパラメータをθとしたときのクエリ(q)に対するFAQ事例(d)のスコアとする。 In the formula (2), S is a set of FAQ cases to be searched, and F θ (q, d) is the score of the FAQ case (d) for the query (q) when the parameter of the search model is θ.

回答検索器21の学習においては、クエリとその正しい回答のペアの集合がR={(q(1),d(1)),…,(q(n),d(n))}と与えられた際に次の式(3)を最小にするようなθを求めることとなる。 In the learning of the answer searcher 21, the set of pairs of the query and its correct answer is given as R = {(q (1) , d (1) ), ..., (Q (n) , d (n) )}. When this is done, θ is obtained so as to minimize the following equation (3).

Figure 0007052438000003
Figure 0007052438000003

ただし、S(q(i))はクエリq(i)に対して検索対象となるFAQ事例の集合とする。この式(3)は、検索に関するエラーとなり、全ての質問に対して正しい回答を返すことができれば、値は0となる。 However, S (q (i) ) is a set of FAQ cases to be searched for the query q (i) . This formula (3) becomes an error related to the search, and if the correct answer can be returned to all the questions, the value becomes 0.

次いで、検索装置2は、インタフェース部20よりユーザからの質問6を受け付ける(S4)。検索装置2は、回答検索器21を用いて、受け付けた質問6に対応するFAQ事例の検索を実施する(S5)。次いで、検索装置2は、検索の実施によって得られた検索結果7をインタフェース部20より出力する。 Next, the search device 2 receives the question 6 from the user from the interface unit 20 (S4). The search device 2 uses the answer search device 21 to search for FAQ cases corresponding to the received question 6 (S5). Next, the search device 2 outputs the search result 7 obtained by executing the search from the interface unit 20.

以上のように、学習データ生成装置1は、検索対象QA集DB3に含まれる事例を検索する、検索装置2における回答検索器21の学習データ4を生成する。学習データ生成装置1の取得部10は、質問と、この質問に対する少なくとも1つの回答とを含む事例を格納するオンラインQA集DB5から事例を取得する。学習データ生成装置1の学習部11は、取得した事例に含まれる質問および回答に基づく質問生成器12への入力に対し、質問生成器12が出力した仮想質問の単語列が取得した質問の単語列に対応するように質問生成器12を学習する。学習データ生成装置1の生成部13は、学習した質問生成器12に対して検索対象QA集DB3に含まれる事例に基づく入力を行って生成した仮想質問と、入力した事例とを対応付けた学習データ4を生成する。 As described above, the learning data generation device 1 generates the learning data 4 of the answer search device 21 in the search device 2 for searching the cases included in the search target QA collection DB 3. The acquisition unit 10 of the learning data generation device 1 acquires a case from the online QA collection DB 5 that stores the question and the case including at least one answer to the question. The learning unit 11 of the learning data generation device 1 receives the input to the question generator 12 based on the questions and answers included in the acquired case, and the word string of the virtual question output by the question generator 12 is the acquired question word. The question generator 12 is trained to correspond to the columns. The generation unit 13 of the learning data generation device 1 inputs a virtual question generated by inputting to the learned question generator 12 based on the case included in the search target QA collection DB3, and the learning in which the input case is associated with each other. Generate data 4.

このように、学習データ生成装置1は、回答検索器21の学習を行う学習データ4として、検索対象QA集DB3とは別のオンラインQA集DB5で質問生成器12を学習して生成した、検索対象QA集DB3に含まれる事例に対応する仮想質問と、検索対象QA集DB3の事例とを対応付けたものを生成する。したがって、学習データ4は、回答検索器21の学習に用いることで、ユーザが問い合わせに用いる語彙の多様性に回答検索器21を対応させることができる。また、学習データ4は、例えば、検索対象QA集DB3がコールセンター運用開始直後の新規のものであっても、回答検索器21における検索精度の向上を可能とする。 As described above, the learning data generation device 1 is generated by learning the question generator 12 in the online QA collection DB 5 different from the search target QA collection DB 3 as the learning data 4 for learning the answer search device 21. A virtual question corresponding to a case included in the target QA collection DB3 is associated with a case of the search target QA collection DB3. Therefore, by using the learning data 4 for learning the answer search device 21, the answer search device 21 can be made to correspond to the variety of vocabulary used by the user for inquiries. Further, the learning data 4 makes it possible to improve the search accuracy in the answer search device 21, even if the search target QA collection DB 3 is a new one immediately after the start of the call center operation.

図6は、従来の回答検索の具体例を説明する説明図である。図6に示すように、従来の回答検索器30では、検索対象QA集DB3における質問と回答のペアをそのまま教師データとして学習している。このため、回答検索器30では、「HPが見れない」などの検索対象QA集DB3内で該当しない語彙が含まれる質問6については、「ヒットなし」などとする検索結果7となる。 FIG. 6 is an explanatory diagram illustrating a specific example of a conventional answer search. As shown in FIG. 6, in the conventional answer search device 30, the pair of the question and the answer in the search target QA collection DB3 is learned as it is as teacher data. Therefore, in the answer search device 30, for the question 6 including the vocabulary that does not correspond in the search target QA collection DB3 such as "HP cannot be seen", the search result 7 is "no hit" or the like.

図7は、実施形態にかかるシステムの回答検索の具体例を説明する説明図である。図7に示すように、本実施形態では、オンラインQA集DB5で学習した質問生成器12により、検索対象QA集DB3に含まれる事例に対応する仮想質問を生成する。そして、検索対象QA集DB3に含まれる事例に対し、生成した仮想質問を加えたものを回答検索器21の学習データとする。質問生成器12が生成した仮想質問には、例えば、「HPが見れない」などの質問6に対しても、該当する語彙(例えば「HPが閲覧できません」)が含まれる場合がある。したがって、本実施形態では、回答検索器21は、質問6に対して該当する回答である「ルータなど、ネットワーク機器を再起動して下さい。」を検索結果7とすることができる。 FIG. 7 is an explanatory diagram illustrating a specific example of the response search of the system according to the embodiment. As shown in FIG. 7, in the present embodiment, the question generator 12 learned in the online QA collection DB 5 generates a virtual question corresponding to the case included in the search target QA collection DB 3. Then, the learning data of the answer search device 21 is obtained by adding the generated virtual question to the case included in the search target QA collection DB3. The virtual question generated by the question generator 12 may include the corresponding vocabulary (for example, "HP cannot be viewed") even for question 6 such as "HP cannot be viewed". Therefore, in the present embodiment, the answer searcher 21 can use the answer "Please restart the network device such as a router" corresponding to the question 6 as the search result 7.

また、取得部10は、オンラインQA集DB5の事例集における複数のカテゴリの中で、検索対象QA集DB3の事例集にかかるカテゴリに含まれる事例を取得する。これにより、学習データ生成装置1では、検索対象QA集DB3の事例集に関連する事例をオンラインQA集DB5より取得して質問生成器12の学習を行うことができる。したがって、学習データ生成装置1は、検索対象QA集DB3の事例集に関連する仮想質問を質問生成器12に生成させることができることから、回答検索器21における検索精度の向上を可能とする。 Further, the acquisition unit 10 acquires the cases included in the category related to the case collection of the search target QA collection DB3 among the plurality of categories in the case collection of the online QA collection DB5. As a result, the learning data generation device 1 can acquire the cases related to the case collection of the search target QA collection DB3 from the online QA collection DB5 and learn the question generator 12. Therefore, since the learning data generation device 1 can cause the question generator 12 to generate a virtual question related to the casebook of the search target QA collection DB3, it is possible to improve the search accuracy in the answer searcher 21.

また、取得部10は、オンラインQA集DB5の事例に含まれる質問と、当該質問に対する複数の回答の中の、評価情報が所定の条件を満たす回答とを取得する。このため、学習データ生成装置1は、評価情報が所定の条件を満たす回答、例えば、評価の高い回答を用いて質問生成器12の学習を行うことができ、回答検索器21における検索精度の向上を可能とする。 Further, the acquisition unit 10 acquires a question included in the case of the online QA collection DB5 and an answer among a plurality of answers to the question whose evaluation information satisfies a predetermined condition. Therefore, the learning data generation device 1 can learn the question generator 12 by using an answer whose evaluation information satisfies a predetermined condition, for example, an answer having a high evaluation, and improves the search accuracy in the answer search device 21. Is possible.

また、オンラインQA集DB5に格納される事例集は通信ネットワークを介して知識を共有する共有サイトであり、取得部10がオンラインQA集DB5より取得する事例は、共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である。これにより、学習データ生成装置1は、共有サイトの投稿内容で質問生成器12の学習を行うことができ、共有サイトのユーザが用いる多様な語彙を仮想質問に反映させることができる。したがって、仮想質問を含めた学習データ4を回答検索器21の学習に用いることで、ユーザが問い合わせに用いる語彙の多様性に回答検索器21を対応させることができる。 Further, the casebook stored in the online QA collection DB5 is a shared site for sharing knowledge via a communication network, and the cases acquired by the acquisition unit 10 from the online QA collection DB5 are questions posted on the shared site and the relevant cases. At least one answer posted to the question. As a result, the learning data generation device 1 can learn the question generator 12 from the posted contents of the shared site, and can reflect various vocabularies used by the users of the shared site in the virtual question. Therefore, by using the learning data 4 including the virtual question for the learning of the answer searcher 21, the answer searcher 21 can correspond to the diversity of the vocabulary used by the user for the inquiry.

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 It should be noted that each component of each of the illustrated devices does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.

学習データ生成装置1、検索装置2で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、学習データ生成装置1、検索装置2で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。 The various processing functions performed by the learning data generation device 1 and the search device 2 are executed on the CPU (or a microcomputer such as an MPU or MCU (Micro Controller Unit)) in whole or in any part thereof. May be good. In addition, various processing functions may be executed in whole or in any part on a program analyzed and executed by a CPU (or a microcomputer such as an MPU or MCU) or on hardware by wired logic. Needless to say, it's good. Further, various processing functions performed by the learning data generation device 1 and the search device 2 may be executed by a plurality of computers in cooperation by cloud computing.

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウェア)の一例を説明する。図8は、プログラムを実行するコンピュータの一例を示す説明図である。 By the way, various processes described in the above-described embodiment can be realized by executing a program prepared in advance on a computer. Therefore, in the following, an example of a computer (hardware) that executes a program having the same function as the above embodiment will be described. FIG. 8 is an explanatory diagram showing an example of a computer that executes a program.

図8に示すように、コンピュータ100は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ100は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ100は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ100内の各部(101~109)は、バス110に接続される。 As shown in FIG. 8, the computer 100 includes a CPU 101 that executes various arithmetic processes, an input device 102 that accepts data input, a monitor 103, and a speaker 104. Further, the computer 100 has a medium reading device 105 for reading a program or the like from a storage medium, an interface device 106 for connecting to various devices, and a communication device 107 for communicating with an external device by wire or wirelessly. Further, the computer 100 has a RAM 108 for temporarily storing various information and a hard disk device 109. Further, each part (101 to 109) in the computer 100 is connected to the bus 110.

ハードディスク装置109には、上記の実施形態で説明した取得部10、学習部11、質問生成器12、生成部13、インタフェース部20および回答検索器21等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する検索対象QA集DB3や学習データ4等の各種データ112が記憶される。入力装置102は、例えば、コンピュータ100の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。 The hard disk device 109 is for executing various processes in the functional units such as the acquisition unit 10, the learning unit 11, the question generator 12, the generation unit 13, the interface unit 20, and the answer searcher 21 described in the above embodiment. Program 111 is stored. Further, the hard disk device 109 stores various data 112 such as the search target QA collection DB 3 and the learning data 4 referenced by the program 111. The input device 102 receives, for example, input of operation information from the operator of the computer 100. The monitor 103 displays, for example, various screens operated by the operator. For example, a printing device or the like is connected to the interface device 106. The communication device 107 is connected to a communication network such as a LAN (Local Area Network), and exchanges various information with an external device via the communication network.

CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、取得部10、学習部11、質問生成器12、生成部13、インタフェース部20および回答検索器21等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ100は、読み取り可能な記憶媒体に記憶されたプログラム111を読み出して実行するようにしてもよい。コンピュータ100が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ100がこれらからプログラム111を読み出して実行するようにしてもよい。 The CPU 101 reads out the program 111 stored in the hard disk device 109, expands it into the RAM 108, and executes it, so that the acquisition unit 10, the learning unit 11, the question generator 12, the generation unit 13, the interface unit 20, and the answer searcher are executed. Various processes related to 21 and the like are performed. The program 111 may not be stored in the hard disk device 109. For example, the computer 100 may read and execute the program 111 stored in the readable storage medium. The storage medium that can be read by the computer 100 corresponds to, for example, a CD-ROM, a DVD disk, a portable recording medium such as a USB (Universal Serial Bus) memory, a semiconductor memory such as a flash memory, a hard disk drive, or the like. Further, the program 111 may be stored in a device connected to a public line, the Internet, a LAN, or the like, and the computer 100 may read the program 111 from these and execute the program 111.

以上の実施形態に関し、さらに以下の付記を開示する。 The following additional notes are further disclosed with respect to the above embodiments.

(付記1)第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成方法であって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
(Appendix 1) A learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
A learning data is generated in which a virtual question generated by inputting an input based on the first case to the learned question generator and the input first case are associated with each other.
A learning data generation method characterized by a computer performing processing.

(付記2)前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集にかかるカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする付記1に記載の学習データ生成方法。
(Appendix 2) The acquisition process acquires the second case included in the category related to the first case collection among the plurality of categories in the second case collection.
The learning data generation method according to Appendix 1, wherein the learning data is generated.

(付記3)前記第2の事例は、前記質問に対する複数の回答それぞれに評価を示す評価情報を有し、
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする付記1または2に記載の学習データ生成方法。
(Appendix 3) The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation method according to Appendix 1 or 2, wherein the learning data is generated.

(付記4)前記第2の事例集は、通信ネットワークを介して知識を共有する共有サイトであり、前記第2の事例は、前記共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である、
ことを特徴とする付記1乃至3のいずれか一に記載の学習データ生成方法。
(Appendix 4) The second casebook is a shared site for sharing knowledge via a communication network, and the second casebook is a question posted on the shared site and posted for the question. At least one answer,
The learning data generation method according to any one of Supplementary note 1 to 3, wherein the learning data is generated.

(付記5)第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成プログラムであって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
(Appendix 5) A learning data generation program that generates learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
A learning data is generated in which a virtual question generated by inputting an input based on the first case to the learned question generator and the input first case are associated with each other.
A learning data generation program characterized by having a computer execute processing.

(付記6)前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集にかかるカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする付記5に記載の学習データ生成プログラム。
(Appendix 6) The acquisition process acquires the second case included in the category related to the first case collection among the plurality of categories in the second case collection.
The learning data generation program according to Appendix 5, characterized in that.

(付記7)前記第2の事例は、前記質問に対する複数の回答それぞれに評価を示す評価情報を有し、
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする付記5または6に記載の学習データ生成プログラム。
(Appendix 7) The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation program according to the appendix 5 or 6, characterized in that.

(付記8)前記第2の事例集は、通信ネットワークを介して知識を共有する共有サイトであり、前記第2の事例は、前記共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である、
ことを特徴とする付記5乃至7のいずれか一に記載の学習データ生成プログラム。
(Appendix 8) The second casebook is a shared site for sharing knowledge via a communication network, and the second casebook is a question posted on the shared site and posted for the question. At least one answer,
The learning data generation program according to any one of Supplementary note 5 to 7, wherein the learning data generation program is characterized by the above.

(付記9)第1の事例の集合である第1の事例集を検索する検索器の学習に用いる学習データのデータ構造であって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、
入力した前記第1の事例と、が対応付けられた学習データとして、前記検索器の入力層に入力されることにより、演算結果を示す出力値を前記検索器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
(Appendix 9) A data structure of learning data used for learning of a search device for searching a first casebook, which is a set of first cases.
The second case is acquired from the second casebook, which is a set of the second case including the question and at least one answer to the question, and the question and answer included in the acquired second case The question generator is learned so that the word string of the virtual question output by the question generator corresponds to the word string of the question in response to the input to the question generator based on the question generator. A virtual question generated by inputting based on the first case,
By inputting to the input layer of the search device as learning data associated with the input first example, an output value indicating a calculation result is output from the output layer of the search device, and correct answer information is obtained. And learning based on the comparison with the output value,
A data structure characterized by having a computer perform processing.

1…学習データ生成装置
2…検索装置
3…検索対象QA集DB
4…学習データ
5…オンラインQA集DB
6…質問
7…検索結果
10…取得部
11…学習部
12…質問生成器
13…生成部
20…インタフェース部
21…回答検索器
30…回答検索器
100…コンピュータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
1 ... Learning data generation device 2 ... Search device 3 ... Search target QA collection DB
4 ... Learning data 5 ... Online QA collection DB
6 ... Question 7 ... Search result 10 ... Acquisition unit 11 ... Learning unit 12 ... Question generator 13 ... Generation unit 20 ... Interface unit 21 ... Answer searcher 30 ... Answer searcher 100 ... Computer 101 ... CPU
102 ... Input device 103 ... Monitor 104 ... Speaker 105 ... Medium reading device 106 ... Interface device 107 ... Communication device 108 ... RAM
109 ... Hard disk device 110 ... Bus 111 ... Program 112 ... Various data

Claims (4)

第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成方法であって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、処理をコンピュータが実行し、
前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集の事例を自然言語処理で解析して判断したカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする学習データ生成方法。
It is a learning data generation method for generating learning data of a search device for searching a first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
The computer executes a process of generating learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other. ,
The acquisition process acquires the second case included in the category determined by analyzing the case of the first case collection by natural language processing among the plurality of categories in the second case collection. ,
A learning data generation method characterized by this.
前記第2の事例は、前記質問に対する複数の回答それぞれに評価を示す評価情報を有し、
前記取得する処理は、前記第2の事例に含まれる質問と、当該質問に対する複数の回答の中の、前記評価情報が所定の条件を満たす回答とを取得する、
ことを特徴とする請求項に記載の学習データ生成方法。
The second case has evaluation information indicating an evaluation for each of a plurality of answers to the question.
The acquisition process acquires a question included in the second case and an answer from a plurality of answers to the question whose evaluation information satisfies a predetermined condition.
The learning data generation method according to claim 1 , wherein the learning data is generated.
前記第2の事例集は、通信ネットワークを介して知識を共有する共有サイトであり、前記第2の事例は、前記共有サイトに投稿された質問および当該質問に対して投稿された少なくとも1つの回答である、
ことを特徴とする請求項1または2に記載の学習データ生成方法。
The second casebook is a shared site that shares knowledge via a communication network, and the second casebook is a question posted on the shared site and at least one answer posted to the question. Is,
The learning data generation method according to claim 1 or 2 , wherein the learning data is generated.
第1の事例の集合である第1の事例集を検索する検索器の学習データを生成する学習データ生成プログラムであって、
質問と、当該質問に対する少なくとも1つの回答とを含む第2の事例の集合である第2の事例集から前記第2の事例を取得し、
取得した前記第2の事例に含まれる質問および回答に基づく質問生成器への入力に対し、当該質問生成器が出力した仮想質問の単語列が前記質問の単語列に対応するように前記質問生成器を学習し、
学習した前記質問生成器に対して前記第1の事例に基づく入力を行って生成した仮想質問と、入力した前記第1の事例とを対応付けた学習データを生成する、処理をコンピュータに実行させ、
前記取得する処理は、前記第2の事例集における複数のカテゴリの中で、前記第1の事例集の事例を自然言語処理で解析して判断したカテゴリに含まれる前記第2の事例を取得する、
ことを特徴とする学習データ生成プログラム。
It is a learning data generation program that generates learning data of a search device that searches the first casebook, which is a set of first cases.
Obtain the second case from the second casebook, which is a set of second cases including a question and at least one answer to the question.
In response to the input to the question generator based on the questions and answers included in the acquired second case, the question generation is performed so that the word string of the virtual question output by the question generator corresponds to the word string of the question. Learn the vessel,
Let the computer execute a process of generating learning data in which the virtual question generated by inputting the learned question generator based on the first case and the input first case are associated with each other. ,
The acquisition process acquires the second case included in the category determined by analyzing the case of the first case collection by natural language processing among the plurality of categories in the second case collection. ,
A learning data generation program characterized by this.
JP2018043606A 2018-03-09 2018-03-09 Training data generation method, training data generation program and data structure Active JP7052438B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018043606A JP7052438B2 (en) 2018-03-09 2018-03-09 Training data generation method, training data generation program and data structure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018043606A JP7052438B2 (en) 2018-03-09 2018-03-09 Training data generation method, training data generation program and data structure

Publications (2)

Publication Number Publication Date
JP2019159613A JP2019159613A (en) 2019-09-19
JP7052438B2 true JP7052438B2 (en) 2022-04-12

Family

ID=67996286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018043606A Active JP7052438B2 (en) 2018-03-09 2018-03-09 Training data generation method, training data generation program and data structure

Country Status (1)

Country Link
JP (1) JP7052438B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7242585B2 (en) * 2020-01-31 2023-03-20 株式会社日立製作所 Recommendation system and recommendation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牧野 拓哉、野呂 智哉、吉川 和、岩倉 友哉、関根 聡、乾 健太郎,自動生成した質問に基づく質問応答学習手法の提案と評価,言語処理学会第24回年次大会 発表論文集,日本,言語処理学会,2018年03月05日,p.861~864

Also Published As

Publication number Publication date
JP2019159613A (en) 2019-09-19

Similar Documents

Publication Publication Date Title
US10249207B2 (en) Educational teaching system and method utilizing interactive avatars with learning manager and authoring manager functions
US10936821B2 (en) Testing and training a question-answering system
US20210256390A1 (en) Computationally efficient neural network architecture search
US11373047B2 (en) Method, system, and computer program for artificial intelligence answer
US20150079554A1 (en) Language learning system and learning method
CN110909145B (en) Training method and device for multi-task model
CN109614480B (en) Method and device for generating automatic abstract based on generation type countermeasure network
WO2020224220A1 (en) Knowledge graph-based question answering method, electronic device, apparatus, and storage medium
Eshghi et al. Bootstrapping incremental dialogue systems from minimal data: the generalisation power of dialogue grammars
CN112685550B (en) Intelligent question-answering method, intelligent question-answering device, intelligent question-answering server and computer readable storage medium
Xu et al. ChatGPT vs. Google: a comparative study of search performance and user experience
JP2020035135A (en) Question and answer system, question and answer processing method, and question and answer integrated system
CN114492451B (en) Text matching method, device, electronic equipment and computer readable storage medium
CN111553140A (en) Data processing method, data processing apparatus, and computer storage medium
JP7052438B2 (en) Training data generation method, training data generation program and data structure
CN113705792A (en) Personalized recommendation method, device, equipment and medium based on deep learning model
JP6846666B2 (en) Translation sentence generation method, translation sentence generation device and translation sentence generation program
US20220327445A1 (en) Workshop assistance system and workshop assistance method
Celikkan et al. A consolidated approach for design pattern recommendation
CN113704452B (en) Data recommendation method, device, equipment and medium based on Bert model
CN115630147A (en) Response method, response device, electronic equipment and storage medium
JP2022152367A (en) Machine learning program, machine learning method, and information processing device
Dikshit et al. Automating Questions and Answers of Good and Services Tax system using clustering and embeddings of queries
JP2020154514A (en) Learning device, learning method, retrieval device, retrieval method and program
JP2020140674A (en) Answer selection device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R150 Certificate of patent or registration of utility model

Ref document number: 7052438

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150