JP2019192246A - Method and device for providing training data for natural language question-answer system - Google Patents

Method and device for providing training data for natural language question-answer system Download PDF

Info

Publication number
JP2019192246A
JP2019192246A JP2019081333A JP2019081333A JP2019192246A JP 2019192246 A JP2019192246 A JP 2019192246A JP 2019081333 A JP2019081333 A JP 2019081333A JP 2019081333 A JP2019081333 A JP 2019081333A JP 2019192246 A JP2019192246 A JP 2019192246A
Authority
JP
Japan
Prior art keywords
examples
answers
answer
type
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019081333A
Other languages
Japanese (ja)
Inventor
チ チャン
Chi Zhang
チ チャン
シンユ グオ
xin yu Guo
シンユ グオ
アンシン リ
An-Shin Lee
アンシン リ
ラン チェン
Lan Chen
ラン チェン
ジュン ジャオ
Jun Zhao
ジュン ジャオ
カン リュー
Kang Liu
カン リュー
シィージュ ホー
Shi Zhu He
シィージュ ホー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2019192246A publication Critical patent/JP2019192246A/en
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a method and device for providing training data for a natural language question-answer system, a computer readable recording medium, and a natural language question-answer system.SOLUTION: The method includes: a step S101 for receiving original training data that includes at least one question and a plurality of corresponding answers in a question-answer pair form; a step S102 for specifying the data quality of the plurality of answers; a step S103 for marking the plurality of answers as an example of first type or an example of second type on the basis of the data quality; a step S104 for selecting and combining examples of first and second types from among the plurality of answers and thereby acquiring a plurality of example combinations; and a step S105 for ordering the plurality of example combinations so that each of the plurality of example combinations corresponds to the training data of each session of training in time order of a natural language question-answer system.SELECTED DRAWING: Figure 1

Description

本発明は、人工知能の分野に関し、より具体的には、自然言語質問回答システム用のトレーニングデータを提供する方法および装置、コンピュータ読み取り可能な記録媒体、及び自然言語質問回答システムに関する。 The present invention relates to the field of artificial intelligence, and more specifically to a method and apparatus for providing training data for a natural language question answering system, a computer readable recording medium, and a natural language question answering system.

近年、コンピュータ技術の継続的な発展に伴い、人工知能はより多くの分野で広く適用されてきている。自然言語質問回答システムは、人間の自然言語処理における、人工知能の応用であり、ユーザにより自然言語の形で記述される質問を受けることができ、大量のヘテロジニアスデータの中からユーザの質問に対する答えをサーチ、または推測し、自然言語の方式で答えを提供することができる。自然言語質問回答システムにより、ユーザは自然言語で質問し、正確で流暢な自然言語の回答を得ることができるため、ユーザは知識を習得しやすくなる。 In recent years, with the continuous development of computer technology, artificial intelligence has been widely applied in more fields. The natural language question answering system is an application of artificial intelligence in human natural language processing, can receive questions written in the form of natural language by the user, and responds to user questions from a large amount of heterogeneous data. You can search for or guess the answer and provide the answer in a natural language fashion. The natural language question answering system allows a user to ask a question in natural language and obtain an accurate and fluent natural language answer, so that the user can easily acquire knowledge.

自然言語質問回答システムでは、一般的にトレーニングデータをニューラルネットワークなどの分類器に予め入力してトレーニングする必要がある。ユーザから自然言語での質問を受ける時、入力された質問に対して、よくトレーニングされた分類器または事前設定された規則を利用して分析し、予め確立された知識ベースから対応する答えをサーチ、または推測し、言語の形式で質問に対する答えをユーザにプッシュする。既存の自然言語質問回答システムでは、トレーニングデータの品質は非常に厳格であり、良いトレーニング結果を得るためには、通常高品質のデータを使用してトレーニングを行う必要があるため、トレーニング段階で低品質のデータが直接に選別される。しかし、現在のビッグデータ時代では、トレーニングデータが非常に貴重であって、低品質データを十分に利用してトレーニングしないことは、多くの貴重な情報が失われることを意味し、それによって非常に大きなサンプルデータから選別する必要がある。 In a natural language question answering system, it is generally necessary to perform training by inputting training data into a classifier such as a neural network in advance. When a user receives a natural language question, the input question is analyzed using a well-trained classifier or preset rules, and the corresponding answer is searched from a pre-established knowledge base Or guess and push the answer to the question to the user in the form of a language. In existing natural language question answering systems, the quality of the training data is very strict, and in order to obtain good training results it is usually necessary to train with high quality data, so it is low in the training phase. Quality data is screened directly. However, in today's big data era, training data is extremely valuable, and not fully training with low quality data means that a lot of valuable information is lost, It is necessary to sort out from large sample data.

したがって、トレーニングデータを利用して自然言語質問回答システムにおける自然言語生成モデル対して更によくトレーニングして、ユーザがより簡単、全面的、かつ友好的に知識を得るように、高品質データおよび低品質データを適宜に使用して、自然言語質問回答システムにおいて自然言語生成タスクのトレーニングデータを提供するための方法および装置を提供することが望ましい。 Therefore, high-quality data and low-quality data are used so that the training data can be used to better train the natural language generation model in the natural language question answering system so that users can gain knowledge more easily, completely and friendly. It would be desirable to provide a method and apparatus for providing training data for natural language generation tasks in a natural language question answering system using data appropriately.

上記の質問に鑑み、本発明は、自然言語質問回答システム用のトレーニングデータを提供する方法および装置、コンピュータ読み取り可能な記録媒体、及び自然言語質問回答システムを提供する。 In view of the above questions, the present invention provides a method and apparatus for providing training data for a natural language question answering system, a computer readable recording medium, and a natural language question answering system.

本発明の一実施例により、質問-答えペア形式の、少なくとも1つの質問と対応する複数の答えを含むオリジナルトレーニングデータを受信することと、前記複数の答えのデータ品質を特定することと、前記データ品質に基づいて前記複数の答えを第1タイプの実例または第2タイプの実例としてマークすることと、前記複数の答えの中から、第1タイプの実例と第2タイプの実例とを選択して組み合わせることによって、複数の実例の組み合わせを取得することと、前記複数の実例の組み合わせをオーダリングし、オーダリングされた前記複数の実例の組み合わせがそれぞれに自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータに対応することと、を含み、オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する、自然言語質問回答システム用のトレーニングデータを提供する方法を提供する。 According to one embodiment of the present invention, receiving original training data including a plurality of answers corresponding to at least one question in a question-answer pair format; identifying data quality of the plurality of answers; Marking the plurality of answers as first type or second type examples based on data quality, and selecting a first type example and a second type example from the plurality of answers To obtain a combination of a plurality of examples, order a combination of the plurality of examples, and train each of the ordered combinations of the plurality of examples in time order of the natural language question answering system. In the combination of the plurality of examples ordered. Provided is training data for a natural language question answering system in which the proportion of the first type instance increases monotonically and the proportion of the second type instance in the combination of the ordered examples monotonously decreases. Provide a method.

本発明の他の一実施例により、質問-答えペア形式の、少なくとも1つの質問と対応する複数の答えを含むオリジナルトレーニングデータを受信するように配置されるデータ受信部と、複数の答えのデータ品質を特定するように配置される品質特定部と、前記データ品質に基づいて、前記複数の答えを第1タイプの実例または第2タイプの実例としてマークするように配置されるマーク部と、前記複数の答えの中から第1タイプの実例と第2タイプの実例とを選択して組み合わせることで、複数の実例の組み合わせを取得するように配置される組み合わせ部と、前記複数の実例の組み合わせがそれぞれに自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータに対応するように、前記複数の実例の組み合わせをオーダリングするように配置されるオーダリング部と、オーダリングされた前記複数の組み合わせを自然言語質問回答システムに提供するように配置されるトレーニングデータ提供部と、を含み、オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する自然言語質問回答システム用のトレーニングデータを提供する装置を提供する。 According to another embodiment of the present invention, a data receiver arranged to receive original training data including a plurality of answers corresponding to at least one question in a question-answer pair format, and a plurality of answer data A quality specifying unit arranged to specify quality, a mark unit arranged to mark the plurality of answers as a first type example or a second type example based on the data quality, and A combination unit arranged to acquire a combination of a plurality of examples by selecting and combining a first type of example and a second type of examples from a plurality of answers, and a combination of the plurality of examples The combination of the plurality of examples is ordered so that each corresponds to the training data of each training in the time order of the natural language question answering system. A combination of the plurality of examples ordered, including: an ordering unit arranged to be arranged, and a training data providing unit arranged to provide the ordered combination to the natural language question answering system Providing training data for a natural language question answering system in which the proportion of the first type examples in the monotonically increases and the proportion of the second type examples in the combination of the ordered examples monotonously decreases Providing the device.

本発明の更なる他の一実施例により、非一時的コンピュータ読み取り可能な指示を記憶するメモリと、前記コンピュータ読み取り可能な指示を実行するプロセッサと、を含み、前記コンピュータ読み取り可能な指示がプロセッサによって実行されるとき、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法を実行する自然言語質問回答システムのトレーニングデータを提供する装置を提供する。 According to yet another embodiment of the invention, a memory for storing non-transitory computer readable instructions and a processor for executing the computer readable instructions, wherein the computer readable instructions are by a processor. When executed, an apparatus for providing training data for a natural language question answering system is provided that performs a method for providing training data for a natural language question answering system according to an embodiment of the present invention.

本発明の更なる他の一実施例により、非一時的コンピュータ読み取り可能な指示を記憶するコンピュータ読み取り可能な記録媒体を提供し、前記コンピュータ読み取り可能な指示がコンピュータによって実行されるとき、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法が実行される。 According to yet another embodiment of the present invention, a computer-readable recording medium storing non-transitory computer-readable instructions is provided, and when the computer-readable instructions are executed by a computer, A method is provided for providing training data for a natural language question answering system according to an embodiment.

本発明の更なる他の一実施例により、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置からトレーニングデータを受信し、前記トレーニングデータを利用して機械学習を行うように配置される自然言語質問回答トレーニング装置と、ユーザによって入力される質問を受信し、トレーニングされた機械を利用して、ユーザによって入力される質問に対応する答えを自然言語形式で提供するように配置される自然言語答え提供装置と、を含む自然言語質問回答システムを提供する。 According to still another embodiment of the present invention, training data is received from an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention, and machine learning is performed using the training data. A natural language question answer training device arranged in the system, and receives a question entered by a user and uses a trained machine to provide an answer corresponding to the question entered by the user in a natural language format Provided is a natural language question answering system including a natural language answer providing device arranged.

本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法および装置、コンピュータ読み取り可能な記録媒体、と自然言語質問回答システムによって、高品質データおよび低品質データを利用して適宜に組み合わせることができ、コース学習理論に基づいて各実例の組み合わせにおける高品質データと低品質データの割合を設定することで、コーパス内のトレーニングデータを十分かつ適宜に利用し、分類器モデルトレーニングの精度を向上することができる。 According to an embodiment of the present invention, a method and apparatus for providing training data for a natural language question answering system, a computer-readable recording medium, and a natural language question answering system appropriately use high quality data and low quality data. By setting the ratio of high quality data and low quality data in each example combination based on course learning theory, the training data in the corpus can be used sufficiently and appropriately, and the accuracy of classifier model training Can be improved.

図面を参照して本発明の実施例を更に詳しく説明することにより、本発明の上記および他の目的、特徴、および利点が更に明らかになる。図面は、本発明の実施例への更なる理解を提供し、明細書の一部として構成され、本発明の実施例とともに本発明を説明するためのものであり、本発明を限定するものとして構成されない。図面において、同じ参照符号は一般的に同じ部品またはステップを示す。
本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法を示すフローチャートである。 本発明の実施例による前記複数の答えの中から第1タイプの実例および第2タイプの実例を選択して組み合わせて複数の実例の組み合わせを取得することを示す模式図である。 本発明の実施例による第1タイプの実例および第2タイプの実例の割合が満たすパワー関数関係を示す模式図である。 本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置の機能構成ブロック図を示す。 本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置の機能構成ブロック図を示す。 本発明の実施例による自然言語質問回答システムの機能構成ブロック図を示す。
The above and other objects, features and advantages of the present invention will become more apparent from the detailed description of the embodiments of the present invention with reference to the drawings. The drawings provide a further understanding of the embodiments of the invention, are configured as part of the specification, are intended to illustrate the invention together with the embodiments of the invention, and are intended to limit the invention. Not configured. In the drawings, like reference numbers generally indicate identical parts or steps.
4 is a flowchart illustrating a method for providing training data for a natural language question answering system according to an embodiment of the present invention. FIG. 10 is a schematic diagram showing that a combination of a plurality of examples is obtained by selecting and combining a first type of example and a second type of example from among the plurality of answers according to the embodiment of the present invention. It is a schematic diagram which shows the power function relationship which the ratio of the example of 1st type by the Example of this invention and the example of 2nd type satisfy | fills. 1 shows a functional block diagram of an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention. FIG. 1 shows a functional block diagram of an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention. FIG. 1 shows a functional configuration block diagram of a natural language question answering system according to an embodiment of the present invention. FIG.

以下、本開示の目的、技術案、および利点をより明らかにするために、図面を参照して本開示による例示的な実施例を詳しく説明する。記載された実施例は本開示の実施例の一部にすぎず、本開示の実施例の全てではないことは明らかであり、本開示はここに記載された例示的実施例によって限定されるものではないことを理解すべきである。本開示で説明された本開示の実施例に基づいて、当業者は創造的な労働を払っていない場合に得られたすべての他の実施例が本公開の保護範囲内に入るべきである。 Hereinafter, in order to clarify the objects, technical solutions, and advantages of the present disclosure, exemplary embodiments according to the present disclosure will be described in detail with reference to the drawings. Apparently, the described embodiments are only a part of the embodiments of the present disclosure, and not all of the embodiments of the present disclosure, and the present disclosure is limited by the exemplary embodiments described herein. It should be understood that this is not the case. Based on the embodiments of the present disclosure described in this disclosure, all other embodiments obtained when the person skilled in the art does not have creative labor should fall within the protection scope of this disclosure.

まず、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する技術の基本的な概念を簡単に説明する。前述のように、既存の自然言語質問回答システムのトレーニング段階では、低品質のデータを排除し、トレーニングに高品質のデータのみが利用されるため、大量のトレーニングデータが無駄になってしまう。したがって、高品質のデータと低品質のデータを適宜に使用して、それらに含まれた情報を十分に取得し、高品質のデータと低品質のデータのそれぞれの一部を選択して組み合わせて、トレーニングデータとして複数の実例の組み合わせを取得することで、トレーニングデータが無駄になってしまうことを回避することが望ましい。また、本発明のトレーニングデータを提供する技術は、コース学習理論を更に結合して、各実例の組み合わせにおける高品質のデータと低品質のデータの割合を適宜に設定し、オーダリングすることで、機械が容易から困難までの方式で学習を効率的かつ正確に完成するに適したトレーニングデータを提供する。 First, a basic concept of a technique for providing training data for a natural language question answering system according to an embodiment of the present invention will be briefly described. As described above, in the training stage of the existing natural language question answering system, low-quality data is excluded and only high-quality data is used for training, so a large amount of training data is wasted. Therefore, use high-quality data and low-quality data as appropriate, acquire sufficient information contained in them, and select and combine parts of high-quality data and low-quality data. It is desirable to avoid wasting training data by acquiring a combination of a plurality of examples as training data. Further, the technology for providing training data of the present invention further combines course learning theory, sets the ratio of high-quality data and low-quality data appropriately in the combination of each example, and orders the machine. It provides training data suitable for completing learning efficiently and accurately in an easy to difficult manner.

以下、図面を参照して本発明の実施例を詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法を示すフローチャートである。図1に示すように、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法は以下のステップを含む。 FIG. 1 is a flowchart illustrating a method for providing training data for a natural language question answering system according to an embodiment of the present invention. As shown in FIG. 1, a method for providing training data for a natural language question answering system according to an embodiment of the present invention includes the following steps.

ステップS101において、オリジナルトレーニングデータを受信する。前記オリジナルトレーニングデータは、質問-答えペア形式の、少なくとも1つの質問と対応する複数の答えとを含む。本発明の実施例では、オリジナルトレーニングデータが様々なソースから取得され得る。例えば、自然言語コーパスのオリジナルトレーニングデータ入力は、「Baidu Knower」のようなウェブサイトから取得することができる。他の例として、オリジナルトレーニングデータ入力は、複数のユーザの歴史質問/答えを記憶するサーバなどの装置から取得することができる。 In step S101, original training data is received. The original training data includes at least one question and a plurality of corresponding answers in a question-answer pair format. In an embodiment of the present invention, original training data can be obtained from various sources. For example, the original training data input of a natural language corpus can be obtained from a website such as “Baidu Knower”. As another example, the original training data input may be obtained from a device such as a server that stores multiple users' historical questions / answers.

オリジナルトレーニングデータは、少なくとも1つの質問と対応する複数の答えを含む質問-答えペア形式のデータであってもよい。表1は、オリジナルトレーニングデータ中の1つの質問である「魯迅の元の名前は何ですか?」とそれに対応する8つの答えを例示している。受信されたオリジナルデータ中の質問および答えの数が実際のニーズに従って選択されてもよく、本発明はそれに限定されないことを理解すべきである。
The original training data may be data in a question-answer pair format including a plurality of answers corresponding to at least one question. Table 1 illustrates one question in the original training data, “What is Lu Xun's original name?” And eight corresponding answers. It should be understood that the number of questions and answers in the received original data may be selected according to actual needs, and the invention is not so limited.

ステップS102において、前記複数の答えのデータ品質が特定される。オリジナルトレーニングデータは、複数の質問および対応する複数の答えを含む可能性があり、答えは高品質のデータまたは低品質のデータである可能性があることを理解すべきである。例えば、低品質のデータはノイズを含む答えまたは一方的な答えであり、高品質のデータは比較的に全面的かつ流暢な答えである。以下に説明する異なるタイプの答えの実例を選択して組み合わせるために、まず、各答えのデータ品質が特定されるべきである。本発明の実施例では、異なる判別基準に従って複数の答えのデータ品質を特定することができる。以下、本発明における前記複数の答えのデータ品質を特定する例示的な方法を、語法(lexical)分析と文法(sentential)分析との2つの観点から説明する。 In step S102, the data quality of the plurality of answers is specified. It should be understood that the original training data may include multiple questions and corresponding multiple answers, and the answers may be high quality data or low quality data. For example, low quality data is a noisy or unilateral answer, and high quality data is a relatively full and fluent answer. In order to select and combine examples of different types of answers described below, the data quality of each answer should first be identified. In the embodiment of the present invention, the data quality of a plurality of answers can be specified according to different discrimination criteria. Hereinafter, an exemplary method for specifying the data quality of the plurality of answers according to the present invention will be described from two viewpoints of lexical analysis and grammatical analysis.

本発明の一態様によれば、前記複数の答えに対して語法分析を行う方法を採用して、前記複数の答えのデータ品質を特定することができる。語法分析とは、文字系列を単語系列に変換して分析を行う手順であり、これにより、答えに現れる各単語に基づいて答えのデータ品質を特定できる。例えば、前記複数の答えに対して語法分析を行うことで、その中に現れる各単語の単語頻度を特定することができる。そして、前記各単語の単語頻度および予め設定された閾値に基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークする。 According to an aspect of the present invention, it is possible to specify the data quality of the plurality of answers by adopting a method of performing wording analysis on the plurality of answers. The wording analysis is a procedure for performing an analysis by converting a character sequence into a word sequence, whereby the data quality of the answer can be specified based on each word appearing in the answer. For example, the word frequency of each word appearing in the plurality of answers can be specified by performing wording analysis on the plurality of answers. Then, based on the word frequency of each word and a preset threshold, the plurality of answers are marked as high quality answers or low quality answers.

語法分析を利用してデータ品質を特定する1つの実施例として、前記複数の答えに対して語法分析を行って、現れる各単語の単語頻度を特定することができる。そして、各単語の単語頻度が所定の単語頻度区間内に入るかどうかを特定することができる。最後に、単語頻度区間内に入る単語を含む答えを高品質の答えとし、単語頻度区間内に入る単語を含まない答えを低品質の答えとする。 As an example of specifying data quality using word analysis, word analysis may be performed on the plurality of answers to specify the word frequency of each word that appears. Then, it can be specified whether the word frequency of each word falls within a predetermined word frequency interval. Finally, an answer that includes a word that falls within the word frequency interval is a high quality answer, and an answer that does not include a word that falls within the word frequency interval is a low quality answer.

上記の表1の例示的な質問-答えペアの説明を参照すると、単語頻度区間を予め設定し、「周樹人」または「周樟寿」などの単語を当該単語頻度区間内に入っているものとしてマークし、他の補助語(particle)および機能語(function word)を当該単語頻度区間に入っていないものとしてマークすることができる。更に、「周樹人」または「周樟寿」を含む答えを高品質の答えとして特定し、「周樹人」または「周樟寿」を含まない答えを低品質の答えとして特定することで、各答えのデータ品質に対するを実現できる。 Referring to the description of the example question-answer pair in Table 1 above, a word frequency interval is preset and a word such as “Zhou Jin” or “Zhou Yushou” is marked as being in the word frequency interval. Other auxiliary words (particles) and function words can be marked as not in the word frequency interval. In addition, by identifying answers that include “Zhou Jin” or “Zhou Jiang” as high-quality answers, and by specifying answers that do not include “Zhou Jin” or “Zhou Xiao Jiang” as low-quality answers, the data quality of each answer realizable.

本発明者らは、上記の実施例で、単語を当該単語頻度区間内に入っているタイプおよび当該単語頻度区間内に入っていないタイプの2のタイプに分ける方式により、多数の答えが高品質の答えとして特定されるため、低品質である答えが高品質の答えと判別され、データ品質分割の精度が少々低下してしまうことを認識した。データの品質をより正確に特定するために、本発明の技術案は、各単語の単語頻度の基準を更に細分化し、上記の実施例における単語頻度区間内に入る範囲を更に2タイプの単語頻度に分割することができる。これにより、各答えに含まれる単語に対応する、より多くの単語頻度に基づいて、データの品質を特定する。 In the above embodiment, the present inventors divided a word into two types: a type that is included in the word frequency interval and a type that is not included in the word frequency interval. Therefore, it was recognized that the low quality answer was judged as the high quality answer, and the accuracy of the data quality division was slightly lowered. In order to specify the quality of data more accurately, the technical solution of the present invention further subdivides the word frequency criteria of each word, and further includes two types of word frequencies within the range within the word frequency interval in the above embodiment. Can be divided into Thereby, the quality of data is specified based on more word frequencies corresponding to the word contained in each answer.

語法分析を利用してデータ品質を特定する別の実施例として、前記各単語の単語頻度を所定の単語頻度閾値と比較し、前記各単語を高頻度単語、低頻度単語、および極低頻度単語のいずれかとしてマークすることができる。そして、前記複数の答えにおいて低頻度単語を含む答えを高品質の答えとして特定し、前記複数の答えにおいて高頻度単語および/または極低頻度単語のみを含み、低頻度単語を含まない答えを低品質の答えとして特定することができる。 As another example of identifying data quality using wording analysis, the word frequency of each word is compared with a predetermined word frequency threshold, and each word is a high-frequency word, a low-frequency word, and a very low-frequency word. Can be marked as either. Then, in the plurality of answers, an answer including a low-frequency word is identified as a high-quality answer, and in the plurality of answers, only a high-frequency word and / or a very low-frequency word is included, and an answer not including the low-frequency word is low. Can be specified as a quality answer.

上記の表1の例示的な質問-答えペアの説明を参照すると、一般的に、「周樹人」を含む答えが公衆によく知られているため、「周樹人」が各答えに現れる頻度が高い可能性がある。しかし、真理は少数の人によって決められるのもであり、「周樟寿」の現れる頻度が「周樹人」より低いが、「周樟寿」を含む答えが、正確かつ全面的な答えに傾いている。従って、少なくとも2つの単語頻度判別閾値を予め設定し、「周樹人」を高頻度単語とし、「周樟寿」を低頻度単語としてマークし、その他の補助語および機能語などを極低頻度単語とマークすることができる。更に、「周樟寿」を含む答えを高品質の答えと特定し、「周樟寿」を含まない答えを低品質の答えと特定することで、各答えのデータ品質をより正確に特定することができる。 Referring to the explanation of the example question-answer pairs in Table 1 above, the answers that contain “Persons” are generally well known to the public, so “Persons” may appear more frequently in each answer. There is sex. However, the truth is determined by a small number of people, and the frequency of “Zhou Jinju” appearing lower than “Zhou Jinjin”, but the answers including “Zhou Xiang Jin” tend to be accurate and complete. Therefore, at least two word frequency discrimination thresholds are set in advance, “Zhou Jin” is marked as a high frequency word, “Zhou Xiaoju” is marked as a low frequency word, and other auxiliary words and function words are marked as extremely low frequency words. be able to. Furthermore, the data quality of each answer can be more accurately specified by specifying the answer including “Zhou Xiaoju” as a high-quality answer and specifying the answer not including “Zhou Xiaoju” as a low-quality answer.

本発明の他の態様によれば、前記複数の答えに対して文法分析を行う方法を採用して、前記複数の答えのデータ品質を特定することができる。文法は、語句における述語、修飾語、その他の単語間の関係などの語句の構成性能を評価する指標であり、文法スコアによって答えがユーザにとって読みやすく理解しやすいものかどうかを特定する。したがって、文法スコアは答えのデータ品質を反映できる。以下、本発明の実施例による文法分析を採用して複数の答えのデータ品質を特定する方法を説明する。 According to another aspect of the present invention, it is possible to specify the data quality of the plurality of answers by employing a method of performing grammatical analysis on the plurality of answers. Grammar is an index for evaluating the performance of a phrase such as predicates, modifiers, and other relations between words, and the grammar score specifies whether the answer is easy for the user to read and understand. Thus, the grammar score can reflect the data quality of the answer. Hereinafter, a method for identifying the data quality of a plurality of answers using grammar analysis according to an embodiment of the present invention will be described.

文法分析を利用してデータの品質を特定する一実施例として、前記複数の答えに対して文法分析を行い、前記複数の答えの語句スコアを特定することができる。そして、前記語句スコア基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークする。例えば、Stanford Parserツール(https://nlp.stanford.edu/software/lex-parser.shtmlへ参照)を採用して、各答えの語句のスコアを特定するように各答えの文法上の性能を評価できる。これに対して、1つの文法判別閾値を予め設定し、語句スコアが当該閾値を超えた答えを高品質の答えとして特定し、語句スコアが当該閾値を超えていない答えを低品質の答えとして特定することで、各答えのデータ品質の特定を実現できる。 As an example of identifying data quality using grammatical analysis, grammatical analysis may be performed on the plurality of answers to determine phrase scores of the plurality of answers. Then, based on the phrase score, the plurality of answers are marked as high quality answers or low quality answers. For example, use the Stanford Parser tool (see https://nlp.stanford.edu/software/lex-parser.shtml) to improve the grammatical performance of each answer to determine the score of each answer phrase. Can be evaluated. On the other hand, one grammatical discrimination threshold is set in advance, an answer whose phrase score exceeds the threshold is specified as a high-quality answer, and an answer whose phrase score does not exceed the threshold is specified as a low-quality answer By doing so, the data quality of each answer can be specified.

一般的に、文法に優れた答えに対応する文法スコアが比較的に高い。しかし、本発明者らは、短い単語に対応する文法スコアも同じく高いものの、これらの短い単語が語句ほど表現および構成完備性上でユーザにとって受け入れやすく理解しやすいものではないことを認識した。したがって、各答えの文法スコアを取得した後、各答えが短い単語に属する可能性があるかどうかを更に特定し、これに応じて、各文法スコアを重み付け、最後に文法スコアの高い答えのうち短い単語である答えの割合を減らすことができる。 In general, the grammar score corresponding to the grammatical answer is relatively high. However, the present inventors have recognized that although the grammatical scores corresponding to short words are also high, these short words are not as easy to accept and understand for the user in terms of expression and completeness. Therefore, after obtaining the grammatical score of each answer, we further identify whether each answer may belong to a short word, weighting each grammar score accordingly, and finally out of the answers with high grammatical scores The proportion of answers that are short words can be reduced.

文法分析によってデータ品質を特定する更に他の実施例として、前記複数の答えの語句スコアを特定した後に、前記複数の答えの語句の長さを更に特定することができる。そして、前記語句の長さに基づいて、前記複数の答えの語句スコアが重み付けられる。最後に、前記複数の答えは、重み付けられた語句スコアに基づいて高品質の答えまたは低品質の答えとしてマークされる。 As yet another example of specifying data quality by grammatical analysis, after the phrase scores of the plurality of answers are specified, the lengths of the phrases of the plurality of answers can be further specified. The phrase scores of the plurality of answers are weighted based on the length of the phrase. Finally, the plurality of answers are marked as high quality answers or low quality answers based on the weighted phrase scores.

上記の表1の例示的な質問-答えペアに対する説明を参照すると、答え3-8に対応する文法スコアが比較的に高いが、答え3および4は短い単語であるため、それらの文法性能および構成完備性が低い。本発明の実施例の方法により、上記答え3および4を重み付けて、その文法スコアを下げることができる。これにより、短い単語である答えの割合を減らすことができる。同様に、残りの各答えを重み付けた後、重み付けられた各語句スコアに基づいて、各答えのデータ品質をより正確に特定することができる。 Referring to the description for the example question-answer pair in Table 1 above, the grammar scores corresponding to answers 3-8 are relatively high, but since answers 3 and 4 are short words, their grammatical performance and Low completeness of configuration. According to the method of the embodiment of the present invention, the answers 3 and 4 can be weighted to reduce the grammatical score. This can reduce the proportion of answers that are short words. Similarly, after weighting each remaining answer, the data quality of each answer can be more accurately identified based on each weighted phrase score.

ステップS103において、前記データ品質に基づいて、前記複数の答えが第1タイプの実例または第2タイプの実例としてマークされる。異なる品質タイプのデータを適宜に利用することで貴重なトレーニングデータを十分に利用できることを考慮して、本発明は、各答えのデータ品質を特定した後に、各答えを異なる品質タイプとしてマークすることができる。これにより、その後に異なる品質タイプの答えの中からそれぞれに一部を選択し、組み合わせて、機械学習を行うために使用されるトレーニングデータ実例の組み合わせを取得する。例えば、上記のように特定された高品質の答えを第1タイプの実例としてマークし、上記のように特定された低品質の答えを第2タイプの実例としてマークすることができる。 In step S103, based on the data quality, the plurality of answers are marked as a first type instance or a second type instance. Considering that the valuable training data can be fully utilized by using different quality types as appropriate, the present invention identifies each answer as a different quality type after identifying the data quality of each answer. Can do. As a result, after that, a part of answers of different quality types is selected and combined to obtain a combination of training data examples used for machine learning. For example, a high quality answer identified as described above may be marked as a first type instance and a low quality answer identified as above may be marked as a second type instance.

ステップS104では、前記複数の答えの中から第1タイプの実例と第2タイプの実例を選択して組み合わせて、複数の実例の組み合わせを取得する。以下、図2を参照して当該ステップの概略的な過程を説明する。 In step S104, a first type of example and a second type of example are selected from the plurality of answers and combined to obtain a combination of a plurality of examples. Hereinafter, a schematic process of this step will be described with reference to FIG.

図2は、本発明の実施例による前記複数の答えの中から第1タイプの実例と第2タイプの実例を選択して組み合わせて、複数の実例の組み合わせを取得することを示す模式図である。図2に示すように、複数の答えの中から第1タイプの実例と第2タイプの実例をそれぞれ選択して組み合わせて、実例の組み合わせ1乃至実例の組み合わせNを取得する。図2における図形は、割合でプロットされたものではなく、第1タイプの実例および第2タイプの実例からそれぞれの一部を選択して組み合わせることに対する概略的な説明に過ぎないことは理解すべきである。また、各実例の組み合わせにおけるトレーニング実例の総数は、同じでもよく、異なってもよく、本発明はこれに限定されない。第1タイプの実例および第2タイプの実例からそれぞれの一部を選択して組み合わせることで複数のトレーニングデータ実例を取得した後に、対応する質問を結合し、これらの実例の組み合わせを利用して機械学習を行うことで、正確なトレーニングモデルを得ることができる。以下、本発明における、コース学習の概念を結合して、各実例の組み合わせ中の第1タイプの実例と第2タイプの実例の割合を設定する方法、および各実例の組み合わせをオーダリングする方法について、詳しく説明する。 FIG. 2 is a schematic diagram illustrating that a combination of a plurality of examples is obtained by selecting and combining a first type example and a second type example from among the plurality of answers according to an embodiment of the present invention. . As illustrated in FIG. 2, the first type example and the second type example are selected and combined from among a plurality of answers, and the example combinations 1 to N are obtained. It should be understood that the graphics in FIG. 2 are not plotted in proportion, but are only a schematic explanation for selecting and combining portions of each of the first type examples and the second type examples. It is. Further, the total number of training examples in each example combination may be the same or different, and the present invention is not limited to this. After acquiring a plurality of training data examples by selecting and combining a part of each of the first type examples and the second type examples, the corresponding questions are combined, and a machine using the combination of these examples is used. By performing learning, an accurate training model can be obtained. Hereinafter, in the present invention, combining the concept of course learning, setting a ratio of the first type of examples and the second type of examples in the combination of each example, and a method of ordering the combination of each example, explain in detail.

機械学習は、人工知能の分野において、コンピュータが新しい知識またはスキルを取得するように人間の学習行動をどのようにシミュレートまたは実現するかを研究する技術であり、トレーニングデータを通じて自身の性能を不断に向上させていくものである。言葉は人間が他の種類と異なるという根本的な印であるため、機械学習を利用して自然言語の処理を実現することは、人工知能の最高のタスクと境界を体現している。本発明者らは、人間の学習および認知過程について、「コース学習」との方式で教育を受けている、即ち、簡単な知識を慎重に優先的に学習し、そして比較的に困難な知識の学習へだんだん移行することを認識した。機械学習と人間の学習過程との比較可能性を考慮して、本発明者らは、人間の認知学習過程を機械学習に適用し、学習対象(例えば、トレーニングデータなど)をそれらの難易度に従って分類し、機械にトレーニングデータを利用して容易から困難へ学習させることで、自然言語質問回答システム中の複雑な学習タスクを完成させる。以下、機械が対応する質問を結合してコース学習を行うためのトレーニングデータを提供するように、各実例の組み合わせ中の異なるタイプの実例の割合をどのように選択するかを、詳しく説明する。 Machine learning is a technology that researches how computers simulate or implement human learning behaviors to acquire new knowledge or skills in the field of artificial intelligence. It will be improved. Since language is a fundamental sign that humans are different from other types, the realization of natural language processing using machine learning embodies the best artificial intelligence tasks and boundaries. The inventors have been educated about the human learning and cognitive process in the form of "course learning", i.e., learning simple knowledge carefully and preferentially and learning relatively difficult knowledge. I realized that I would gradually shift to learning. Considering the comparability between machine learning and human learning process, we apply human cognitive learning process to machine learning and assign learning targets (eg training data etc.) according to their difficulty level. By classifying and letting the machine learn from easy to difficult using the training data, the complex learning task in the natural language question answering system is completed. In the following, it will be described in detail how to select the proportions of different types of examples in the combination of each example so that the machine provides training data for combining courses to perform course learning.

図1に戻って、ステップS105において、前記複数の実例の組み合わせをオーダリングして、オーダリングされた前記複数の実例の組み合わせは、自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータにそれぞれ対応する。オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する。例えば、オーダリングされた複数の実例の組み合わせにおける各タイプの実例の割合が、線形的に単調に増加または減少してもよい。 Returning to FIG. 1, in step S <b> 105, a combination of the plurality of examples is ordered, and the combination of the plurality of examples ordered corresponds to the training data of each training in the time order of the natural language question answering system. To do. The ratio of the first type of examples in the combination of the plurality of ordered examples monotonously increases, and the ratio of the second type of examples in the combination of the plurality of ordered examples monotonously decreases. For example, the proportion of each type of instance in a combination of ordered instances may increase or decrease linearly and monotonically.

図2に示すように、オーダリングされた複数の実例の組み合わせは、図2に示す実例の組み合わせ1乃至実例の組み合わせNに対応してもよく、実例の組み合わせ1乃至実例の組み合わせNのそれぞれが、自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータである。例えば、実例の組み合わせ1は、自然言語質問回答システムの初回のトレーニングに対応するトレーニングデータであり、実例の組み合わせNは、自然言語質問回答システムの最後のトレーニングに対応するトレーニングデータであってもよい。更に、オーダリングされた複数の実例の組み合わせにおける第1タイプの実例の割合は単調に増加し(即ち、組み合わせの番号とともに単調に増加する)、オーダリングされた前記複数の実例の組み合わせにおける第2タイプの実例の割合は単調に減少する(即ち、組み合わせの番号とともに単調に減少する)。これにより、これらのオーダリングされた実例の組み合わせが時間順に自然質問回答システムにおける学習を始めようとする機械に入力されるとき、対応する質問を結合して、複数回のトレーニングによって、容易から困難への機械の学習過程を実現することができる。 As shown in FIG. 2, the combination of the plurality of ordered examples may correspond to the combination 1 to the example combination N shown in FIG. 2, and each of the combination 1 to the example combination N shown in FIG. It is the training data of each training of the natural language question answering system in order of time. For example, the example combination 1 may be training data corresponding to the first training of the natural language question answering system, and the example combination N may be training data corresponding to the last training of the natural language question answering system. . Further, the proportion of the first type of instances in the combination of the plurality of ordered examples increases monotonically (ie, increases monotonically with the number of the combination), and the second type of the combination of the plurality of instances ordered. The percentage of instances decreases monotonically (ie, decreases monotonically with the combination number). Thus, when a combination of these ordered examples is input to a machine that is going to start learning in a natural question answering system in chronological order, the corresponding questions are combined, and multiple trainings make it easy to difficult. The machine learning process can be realized.

一般的に言えば、低品質のデータに含まれる価値のある情報が比較的に少なく、比較的に学習しやすいデータである。高品質のデータに含まれる価値のある情報が比較的に多く、比較的に学習しにくいデータである。本発明の上記の実例の組み合わせのオーダリング方法によれば、トレーニング回数の増加に対応して、トレーニングデータの実例の組み合わせにおける低品質データが単調に減少し、高品質データが単調に増加する。これにより、簡単なデータから困難なデータへだんだん移行することが可能となり、機械に機械学習をより効率的かつ正確に完成させることができる。 Generally speaking, it is data that is relatively easy to learn because it contains relatively little valuable information contained in low quality data. The high-quality data contains relatively valuable information and is relatively difficult to learn. According to the example combination ordering method of the present invention, the low quality data in the combination of training data examples monotonously decreases and the high quality data monotonously increases corresponding to the increase in the number of trainings. As a result, it becomes possible to gradually shift from simple data to difficult data, and machine learning can be completed more efficiently and accurately.

好適には、初回のトレーニングおよび最後のトレーニングに使用される実例の組み合わせにおける第1タイプの実例および第2タイプの実例の相対数量関係を更に設定することで、より良い機械トレーニング効果を達成することができる。例えば、オーダリングされた複数の実例の組み合わせのうちの第1の実例の組み合わせでは、第2タイプの実例より第1タイプの実例が少なくなり、オーダリングされた複数の実例の組み合わせのうちの最後の実例の組み合わせでは、第2タイプの実例より第1タイプの実例が多くなるように、第1の実例の組み合わせ(実例の組み合わせ1)および最後の実例の組み合わせ(実例の組み合わせN)における二つのタイプの実例の相対数量関係を設定することができる。上記の設定規則によると、初期トレーニング時の第1タイプの実例(高品質の簡単な実例に対応する)は少なく、第2タイプの実例(低品質の簡単な実例に対応する)は多く、第1タイプの実例の割合が実例の組み合わせの番号とともに単調に増加し、第2タイプの実例の割合が実例の組み合わせの番号とともに単調に減少し、最終のトレーニング時の第1タイプの実例はが多く、第2タイプの実例が少ない。この方式で形成された実例の組み合わせは、機械がコース学習方法でトレーニングされることをより容易にし、これにより、より正確なトレーニングモデルを得る。これに代わって、初期トレーニング時の第1タイプの実例の割合が小さく、対応するトレーニング回数の増加とともにだんだん増加し、トレーニングが終了する際の第1タイプの実例の割合は第2タイプの実例よりはるかに大きくなるように、第1タイプの実例および第2タイプの実例の相対数量関係を設定することができる。 Preferably, a better machine training effect is achieved by further setting the relative quantity relationship of the first type example and the second type example in the combination of the examples used for the first training and the last training. Can do. For example, the first example combination among the plurality of ordered example combinations has fewer first type examples than the second type example, and the last example among the plurality of ordered example combinations. The combination of the two types of the first example combination (example combination 1) and the last example combination (example combination N) so that there are more first type examples than second type examples. An actual relative quantity relationship can be set. According to the above setting rules, there are few first type examples (corresponding to simple examples of high quality) during initial training, many examples of second type (corresponding to simple examples of low quality), The proportion of one type of example increases monotonously with the number of example combinations, the proportion of type 2 examples monotonously decreases with the number of example combinations, and there are many examples of the first type at the final training. There are few examples of the second type. The combination of examples formed in this manner makes it easier for the machine to be trained with the course learning method, thereby obtaining a more accurate training model. Instead, the proportion of the first type examples at the initial training is small, and gradually increases with the corresponding increase in the number of training, and the proportion of the first type examples at the end of the training is more than the second type examples. The relative quantity relationship between the first type instance and the second type instance can be set to be much larger.

また、本発明者らは、第1タイプの実例の割合の単調増加かつ第2タイプの実例の割合の単調減少という設定規則に加えて、この二つのタイプの実例の割合の増加率/減少率も機械学習のトレーニング効果に対して非常に重要であることを認識した。従って、本発明は、オーダリングされた複数の実例の組み合わせにおける第1タイプの実例の割合の増加率が、オーダリングされた複数の実例の組み合わせの番号とともに単調に増加し、オーダリングされた複数の実例の組み合わせにおける第2タイプの実例の割合の減少率が、オーダリングされた複数の実例の組み合わせの番号とともに単調に増加する規則に従って、各タイプの実例の割合の増加率/減少率を設定することを提案する。この規則によって各実例の割合の増加率/減少率を設定することは、各実例の割合が線形的に増加/減少する方法に対して、機械に機械学習をより効率的かつ正確に完成させることができる。以下、本発明の実施例による上記の規則に採用される、各実例の組み合わせにおける二つのタイプの実例の割合の計算式を説明する。 In addition to the setting rule of monotonically increasing the ratio of the first type of examples and monotonically decreasing the ratio of the second type of examples, the present inventors also increased / decreased the ratio of the ratios of the two types of examples. Even recognized that it is very important for the training effect of machine learning. Therefore, the present invention is such that the rate of increase of the proportion of the first type instance in the combination of the plurality of ordered examples monotonically increases with the number of the combination of the plurality of ordered examples, Proposed to set the rate of increase / decrease of the proportion of each type of example according to the rule that the rate of decrease of the proportion of the second type of example in the combination increases monotonically with the number of the combination of ordered examples To do. Setting the rate of increase / decrease of each instance rate according to this rule is to make the machine complete machine learning more efficiently and accurately than the method of increasing / decreasing the rate of each instance linearly. Can do. Hereinafter, formulas for calculating the ratio of the two types of examples in each example combination adopted in the above rules according to the embodiment of the present invention will be described.

本発明の一実施例によれば、オーダリングされた複数の実例の組み合わせにおける第1タイプの実例および第2タイプの実例の割合と、オーダリングされた複数の実例の組み合わせの番号とは、パワー関数関係を満たす。例えば、第1タイプの実例および第2タイプの実例の割合は、以下の式(1)および式(2)の関係を満たすことができる。
According to an embodiment of the present invention, the ratio of the first type instance and the second type instance in the combination of the plurality of ordered examples and the number of the combination of the plurality of ordered examples are power function relationships. Meet. For example, the ratio of the first type example and the second type example can satisfy the relationship of the following expressions (1) and (2).

ここで、ω1はオーダリングされた複数の実例の組み合わせにおける第1タイプの実例の割合を表し、ω2はオーダリングされた複数の実例の組み合わせにおける第2タイプの実例の割合を表し、epochtはt回目のトレーニング、即ちt番目の実例の組み合わせに対応しており、epochはトレーニングの総回数、即ち実例の組み合わせの総数に対応している。ここで、0≦ω1≦1かつ0≦ω2≦1。以下、図3を参照して、この例示的な関数関係を説明する。 Here, ω 1 represents the ratio of the first type of examples in the combination of the plurality of ordered examples, ω 2 represents the ratio of the second type of examples in the combination of the plurality of ordered examples, and epoch t is This corresponds to the t-th training, that is, the combination of the t-th example, and epoch corresponds to the total number of trainings, that is, the total number of combinations of the examples. Here, 0 ≦ ω 1 ≦ 1 and 0 ≦ ω 2 ≦ 1. Hereinafter, this exemplary functional relationship will be described with reference to FIG.

図3は本発明の実施例による第1タイプの実例および第2タイプの実例の割合が満たすパワー関数関係を示す図である。図3に示すように、初期の数回のトレーニングに対応して、第1タイプの実例の割合が低く、第2タイプの実例の割合が高い。トレーニングの回数の増加とともに、第1タイプの実例の割合がだんだん増加し、第2タイプの実例の割合がだんだん減少する。最後の数回のトレーニングに対応して、第1タイプの実例の割合が高く、第2タイプの実例の割合が低い。また、曲線から、第1タイプの実例の割合の単調増加の増加率(曲線の傾き)もだんだん増加し、第2タイプの実例の割合の単調減少の減少率(曲線の傾き)もだんだん増加することが分かる。上記の設定規則に従って第1タイプのデータと第2タイプのデータとを組み合わせてオーダリングすることにより、より良いトレーニング効果を達成することができる。 FIG. 3 is a diagram illustrating a power function relationship that is satisfied by the ratio of the first type example and the second type example according to the embodiment of the present invention. As shown in FIG. 3, the proportion of the first type examples is low and the proportion of the second type examples is high, corresponding to the initial several times of training. As the number of trainings increases, the proportion of the first type examples increases gradually, and the proportion of the second type examples decreases gradually. Corresponding to the last several training sessions, the proportion of the first type examples is high and the proportion of the second type examples is low. Also, from the curve, the rate of increase in monotonic increase (curve slope) of the proportion of examples of the first type gradually increases, and the rate of decrease in monotonic decrease (rate of curve) of the proportions of examples of the second type also gradually increases. I understand that. A better training effect can be achieved by combining and ordering the first type data and the second type data according to the above setting rules.

本発明の他の実施例によれば、オーダリングされた複数の実例の組み合わせにおける第1タイプの実例および第2タイプの実例の割合と、オーダリングされた複数の実例の組み合わせの番号とが指数関数関係を満たす。例えば、第1タイプの実例および第2タイプの実例の割合は、以下の式(3)および式(4)の関係を満たすことができる。
According to another embodiment of the present invention, the ratio of the first type instance and the second type instance in the combination of the plurality of ordered examples and the number of the combination of the plurality of ordered examples is an exponential function relationship. Meet. For example, the ratio of the first type example and the second type example can satisfy the relationship of the following expressions (3) and (4).

ここで、ω1はオーダリングされた複数の実例の組み合わせにおける第1タイプの実例の割合を表し、ω2はオーダリングされた複数の実例の組み合わせにおける第2タイプの実例の割合を表し、epochtはt回目のトレーニング、即ちt番目の実例の組み合わせに対応しており、epochはトレーニングの総回数、即ち実例の組み合わせの総数に対応しており、aは指数関数の漸増速度の未定係数を表し、bは指数関数のシフトの未定係数を表し、aとbは、0≦ω1≦1かつ0≦ω2≦1を満たすように選択されている。上記のパワー関数関係を満たす割合選択と類似に、指数関数関係を満たすことも良いトレーニング効果を達成できる。 Here, ω 1 represents the ratio of the first type of examples in the combination of the plurality of ordered examples, ω 2 represents the ratio of the second type of examples in the combination of the plurality of ordered examples, and epoch t is corresponds to the t-th training, i.e. the combination of the t-th example, epoch corresponds to the total number of trainings, i.e. the total number of example combinations, a represents the undetermined coefficient of the exponential rate of increase, b represents an undetermined coefficient of shift of the exponential function, and a and b are selected so as to satisfy 0 ≦ ω 1 ≦ 1 and 0 ≦ ω 2 ≦ 1. Similar to the ratio selection satisfying the above power function relationship, satisfying the exponential function relationship can also achieve a good training effect.

以上では、パワー関数と指数関数との2つの関数関係を挙げて本発明における第1タイプの実例および第2タイプの実例の割合選択を説明したが、当業者は、本発明がこれに限定されないことを理解すべきである。当業者は、他の非線形関数関係を満たすように、第1タイプの実例および第2タイプの実例の割合を選択することができる。これにより、機械がコース学習方式でトレーニングされることにより適した、トレーニングデータを提供することができる。 In the above, the ratio selection of the first type example and the second type example in the present invention has been described by giving two functional relationships between the power function and the exponential function, but those skilled in the art are not limited to this. You should understand that. One of ordinary skill in the art can select the proportions of the first type instance and the second type instance to satisfy other nonlinear functional relationships. Thereby, it is possible to provide training data that is more suitable when the machine is trained by the course learning method.

以上では、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法を詳しく説明した。本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法により、高品質データと低品質データを適宜に利用して組み合わせ、コース学習理論に基づいて各実例の組み合わせにおける高品質データおよび低品質データの割合を設定することで、コーパス内のトレーニングデータを十分かつ適宜に利用し、分類器モデルトレーニングの精度を向上することができる。 The method for providing training data for a natural language question answering system according to an embodiment of the present invention has been described in detail above. The method for providing training data for a natural language question answering system according to an embodiment of the present invention combines high-quality data and low-quality data appropriately, and combines high-quality data in each example combination based on course learning theory And by setting the ratio of low quality data, the training data in the corpus can be used sufficiently and appropriately, and the accuracy of the classifier model training can be improved.

以下、図4を参照して本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置を説明する。図4は、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置の機能構成ブロック図を示す。図4に示すように、自然言語質問回答システム用のトレーニングデータを提供する装置400は、データ受信部401、品質特定部402、マーク部403、組み合わせ部404、オーダリング部405、及びトレーニングデータ提供部406を含み得る。前記各部品の具体的な機能及び動作は、図1−図3について前述したものと基本的に同じであるので、以下に、繰り返しを避けるために、前記装置のみについて簡単に説明し、同じ詳細に対する詳しい説明は省略する。 Hereinafter, an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention will be described with reference to FIG. FIG. 4 is a functional block diagram of an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention. As shown in FIG. 4, a device 400 for providing training data for a natural language question answering system includes a data receiving unit 401, a quality specifying unit 402, a mark unit 403, a combination unit 404, an ordering unit 405, and a training data providing unit. 406 may be included. Since the specific functions and operations of the components are basically the same as those described above with reference to FIGS. 1-3, only the apparatus will be briefly described below to avoid repetition, and the same details will be described. Detailed explanation for is omitted.

データ受信部401は、オリジナルトレーニングデータを受信するように配置される。前記オリジナルトレーニングデータは、質問-答えペア形式の、少なくとも1つの質問と対応する複数の答えを含む。本発明の実施例では、データ受信部401は、異なるソースからオリジナルトレーニングデータを取得することができる。例えば、データ受信部401は、「Baidu Knower」などのウェブサイトから自然言語コーパスのオリジナルトレーニングデータ入力を取得することができる。他の例として、データ受信部401は、複数のユーザの歴史質問/答えを記憶可能なサーバなどの装置からオリジナルトレーニングデータを取得する。 The data receiving unit 401 is arranged to receive original training data. The original training data includes a plurality of answers corresponding to at least one question in a question-answer pair format. In the embodiment of the present invention, the data receiving unit 401 can acquire original training data from different sources. For example, the data receiving unit 401 can acquire an original training data input of a natural language corpus from a website such as “Baidu Knower”. As another example, the data receiving unit 401 acquires original training data from a device such as a server that can store history questions / answers of a plurality of users.

品質特定部402は、複数の答えのデータ品質を特定するように配置される。例えば、品質特定部402は、語法分析および文法分析のうちの少なくとも1つに基づいて、複数の答えのデータ品質を特定することができる。具体的な詳細はここで省略する。 The quality specifying unit 402 is arranged to specify the data quality of a plurality of answers. For example, the quality specifying unit 402 can specify data quality of a plurality of answers based on at least one of wording analysis and grammatical analysis. Specific details are omitted here.

マーク部403は、前記データ品質に基づいて前記複数の答えを第1タイプの実例または第2タイプの実例としてマークするように配置される。例えば、マーク部403は、特定された高品質の答えを第1タイプの実例としてマークし、特定された低品質の答えを第2タイプの実例としてマークすることができる。 The mark unit 403 is arranged to mark the plurality of answers as a first type example or a second type example based on the data quality. For example, the marking unit 403 may mark the identified high quality answer as a first type instance and mark the identified low quality answer as a second type instance.

組み合わせ部404は、前記複数の答えから第1タイプの実例と第2タイプの実例を選択して組み合わせることで、複数の実例の組み合わせを取得するように配置される。例えば、組み合わせ部404は、図2に示すように、前記複数の答えから第1タイプの実例と第2タイプの実例を選択して組み合わせることで、複数の実例の組み合わせを取得することができる。 The combination unit 404 is arranged to acquire a combination of a plurality of examples by selecting and combining the first type example and the second type example from the plurality of answers. For example, as illustrated in FIG. 2, the combination unit 404 can acquire a combination of a plurality of examples by selecting and combining the first type example and the second type example from the plurality of answers.

オーダリング部405は、前記複数の実例の組み合わせをオーダリングするように配置されており、オーダリングされた前記複数の実例の組み合わせは、それぞれに自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータに対応する。オーダリングされた複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する。例えば、オーダリング部405は、コース学習の概念に基づいて各実例の組み合わせにおける第1タイプの実例および第2タイプの実例の割合を設定し、各実例の組み合わせをオーダリングすることができる。具体的な詳細について、ここで説明を省略する。 The ordering unit 405 is arranged to order a combination of the plurality of examples, and each of the ordered combinations of the plurality of examples is included in training data for each training in the time order of the natural language question answering system. Correspond. The ratio of the first type instance in the combination of the plurality of ordered examples monotonously increases, and the ratio of the second type instance in the combination of the plurality of ordered examples monotonously decreases. For example, the ordering unit 405 can set the ratio of the first type examples and the second type examples in the combinations of the examples based on the concept of course learning, and can order the combinations of the examples. Specific details are not described here.

トレーニングデータ提供部406は、前記オーダリングされた複数の実例の組み合わせを自然言語質問回答システムに提供するように配置される。例えば、トレーニングデータ提供部406は、オーダリングされたトレーニングデータを学習を始めようとする機械に提供することにより、対応する質問を結合して容易から困難へ学習させることができる。機械学習の例として、オーダリングされたデータを、系列−系列(seq2seq)モデル、対抗(adversarial)トレーニングモデルなどのトレーニングを必要とする分類器モデルに提供することによって、トレーニングを通じて精度の高いトレーニングモデルを得ることができる。例えば、自然言語質問回答システムにおけるよくトレーニングされたモデルに基づいて、自然言語形式で表現される答えがユーザにプッシュされるように、よくトレーニングされた長期短期記憶ネットワーク(LSTM,Long Short−Term Memory)、生成式対抗ネットワーク(GAN,Generative Adversarial Networks)などを取得する。系列−系列モデルおよび対抗トレーニングモデルについての詳細はここで説明しない。また、系列−系列モデル、対抗トレーニングモデルなどの分類器モデルを列挙したが、当業者は必要に応じて自然質問回答システムにおける機械学習に他の学習モデルを採用することもできる。 The training data providing unit 406 is arranged to provide the natural language question answering system with a combination of the ordered examples. For example, the training data providing unit 406 can provide learning from easy to difficult by combining corresponding questions by providing the ordered training data to a machine that is about to start learning. As an example of machine learning, by providing ordered data to classifier models that require training, such as series-series (seq2seq) models, adversarial training models, etc. Obtainable. For example, based on a well-trained model in a natural language question answering system, a well-trained long-term short-term memory network (LSTM, Long Short-Term Memory) so that answers expressed in natural language form are pushed to the user. ), A generation type opposition network (GAN, General Adverse Network), and the like. Details about the sequence-series model and the counter-training model are not described here. In addition, although classifier models such as a sequence-sequence model and a countermeasure training model have been listed, those skilled in the art can employ other learning models for machine learning in the natural question answering system as necessary.

以上、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置を詳しく説明した。本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置は、高品質データと低品質データを適宜に利用して組み合わせ、コース学習理論に基づいて各実例の組み合わせにおける高品質データと低品質データの割合を設定することができる。これにより、コーパス内のトレーニングデータを十分かつ適宜に利用し、分類器モデルトレーニングの精度を向上することができる。 The apparatus for providing training data for the natural language question answering system according to the embodiment of the present invention has been described in detail above. An apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention combines high-quality data and low-quality data as appropriate, and combines high-quality data in each example combination based on course learning theory. And the ratio of low quality data can be set. Thereby, the training data in the corpus can be sufficiently and appropriately used to improve the accuracy of the classifier model training.

以下、図5を参照して本発明の実施例による自然言語質問回答システムのトレーニングデータを提供する装置を説明する。図5は、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置の機能構成ブロック図を示す。図5に示すように、自然言語質問回答システム用のトレーニングデータを提供する装置500は、メモリ501とプロセッサ502とを含み得る。特に、図5に示す自然言語質問回答システム用のトレーニングデータを提供する装置500の部品および構成は単なる例示的なものであり、制限的なものではなく、装置500は、必要に応じて例えば入力機器、出力機器などの他の部品および構成を有しても良い。 Hereinafter, an apparatus for providing training data of a natural language question answering system according to an embodiment of the present invention will be described with reference to FIG. FIG. 5 shows a functional block diagram of an apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention. As shown in FIG. 5, an apparatus 500 for providing training data for a natural language question answering system may include a memory 501 and a processor 502. In particular, the components and configuration of the apparatus 500 for providing training data for the natural language question answering system shown in FIG. 5 are merely exemplary and not restrictive. You may have other components and structures, such as an apparatus and an output apparatus.

メモリ501は、例えば揮発性メモリおよび/または不揮発性メモリなどの何れの形式のコンピュータ読み取り可能な記憶媒体であってもよい。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)および/またはキャッシュ(cache)などを含んでもよい。前記不揮発性メモリは、例えば、ROM(Read Only Memory)、ハードディスク、フラッシュメモリ等を含んでもよい。1つまたは複数の非一時的コンピュータ読み取り可能な指示は、プロセッサ502で実行されるように、前記コンピュータ読み取り可能な記憶媒体に記憶されてもよい。 The memory 501 may be any type of computer readable storage medium such as volatile memory and / or non-volatile memory. The volatile memory may include, for example, a random access memory (RAM) and / or a cache. The non-volatile memory may include, for example, a ROM (Read Only Memory), a hard disk, a flash memory, and the like. One or more non-transitory computer readable instructions may be stored on the computer readable storage medium for execution by the processor 502.

プロセッサ502は、中央処理装置(CPU)またはデータ処理能力および/または指示実行能力を有する他の形式の処理装置であってもよく、所望の機能が実行されるように、制御装置500内の他の部品を制御することができる。プロセッサ502は、上述の本発明の実施例の機能および/または他の所望の機能が実施されるように、メモリ501に記憶されている指示を実行することができる。例えば、プロセッサ502は、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法が実行されるように、メモリ501に記憶されている指示を実行することができる。 The processor 502 may be a central processing unit (CPU) or other type of processing device with data processing capability and / or instruction execution capability, and other in the controller 500 to perform the desired function. Can control the parts. The processor 502 may execute instructions stored in the memory 501 such that the functions of the above-described embodiments of the present invention and / or other desired functions are implemented. For example, the processor 502 can execute instructions stored in the memory 501 such that a method for providing training data for a natural language question answering system according to an embodiment of the present invention is executed.

以上、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置を詳細に説明した。本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置は、高品質データと低品質データを適宜に利用して組み合わせ、コース学習理論に基づいて各実例の組み合わせにおける高品質データと低品質データの割合を設定することができる。これにより、コーパス内のトレーニングデータを十分かつ適宜に利用し、分類器モデルのトレーニングの精度を向上することができる。 The apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention has been described in detail. An apparatus for providing training data for a natural language question answering system according to an embodiment of the present invention combines high-quality data and low-quality data as appropriate, and combines high-quality data in each example combination based on course learning theory. And the ratio of low quality data can be set. Thereby, the training data in the corpus can be used sufficiently and appropriately, and the accuracy of training of the classifier model can be improved.

以下、本発明の実施例によるコンピュータ読み取り可能な記録媒体について説明する。前記コンピュータ読み取り可能な記録媒体は、非一時的コンピュータ読み取り可能な指示を記憶するためのものであり、前記非一時的コンピュータ読み取り可能な指示がコンピュータによって実行されるときに、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する方法を実行する。前記コンピュータ読み取り可能な記録媒体は、揮発性メモリおよび/または不揮発性メモリを含んでもよい。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)および/またはキャッシュ(cache)などを含んでもよい。前記不揮発性メモリは、例えば、ROM(Read Only Memory)、ハードディスク、フラッシュメモリなどを含んでもよい。 Hereinafter, a computer-readable recording medium according to an embodiment of the present invention will be described. The computer-readable recording medium is for storing non-transitory computer-readable instructions, and when the non-transitory computer-readable instructions are executed by a computer, according to an embodiment of the present invention. Implement a method for providing training data for a natural language question answering system. The computer-readable recording medium may include volatile memory and / or nonvolatile memory. The volatile memory may include, for example, a random access memory (RAM) and / or a cache. The nonvolatile memory may include, for example, a ROM (Read Only Memory), a hard disk, a flash memory, and the like.

以下、図6を参照して本発明の実施例による自然言語質問回答システムについて説明する。図6は本発明の実施例による自然言語質問回答システムの機能構成ブロック図である。図6に示すように、自然言語質問回答システム600は、自然言語質問回答トレーニング装置601および自然言語答え提供装置602とを含むことができる。特に、図6に示す自然言語質問回答システム600の部品および構成は単なる例示的なものであり、制限的なものではなく、自然言語質問回答システム600は必要に応じて、例えば入力装置および出力装置などの他の部品および構成を有してもよい。 Hereinafter, a natural language question answering system according to an embodiment of the present invention will be described with reference to FIG. FIG. 6 is a functional block diagram of a natural language question answering system according to an embodiment of the present invention. As shown in FIG. 6, the natural language question answering system 600 can include a natural language question answer training device 601 and a natural language answer providing device 602. In particular, the components and configuration of the natural language question answering system 600 shown in FIG. 6 are merely illustrative and not restrictive, and the natural language question answering system 600 may be used as necessary, for example, an input device and an output device. Other parts and configurations may be included.

自然言語質問回答トレーニング装置601は、トレーニングされるべき機械であり、例えば、上述のような系列−系列モデル、対抗トレーニングモデルなどのモデルである。自然言語質問回答トレーニング装置601は、本発明の実施例による自然言語質問回答システム用のトレーニングデータを提供する装置からトレーニングデータを受信し、前記トレーニングデータを利用して対応する質問を結合して機械学習を行うように配置される。本発明による上述のような実例の組み合わせの例示的な割合設定およびオーダリング方法によって、トレーニング回数の増加とともに、トレーニングデータの実例の組み合わせにおける低品質データが単調に減少し、高品質データが単調に増加する。これにより、簡単なデータから困難なデータへだんだん移行しながらトレーニングを行え、機械に機械学習をより効率的かつ正確に完成させ、それによって、正確なトレーニングモデルを得る。 The natural language question answer training apparatus 601 is a machine to be trained, and is, for example, a model such as the above-described series-series model or a counter training model. The natural language question answer training apparatus 601 receives training data from an apparatus that provides training data for a natural language question answer system according to an embodiment of the present invention, and combines the corresponding questions using the training data. Arranged to do learning. With the exemplary ratio setting and ordering method of the example combination as described above according to the present invention, as the number of training increases, the low quality data in the example combination of training data decreases monotonously and the high quality data increases monotonously. To do. Thus, training can be performed while gradually shifting from simple data to difficult data, and machine learning is completed more efficiently and accurately, thereby obtaining an accurate training model.

自然言語答え提供装置602は、ユーザが知識を得るように、ユーザによる自然言語形式で記述した質問を受け入れ、大量のヘテロジーニアスデータの中からユーザの質問に対する答えをサーチ、または推測し、最後に自然言語の方式で答えをユーザにプッシュすることができる。自然言語答え提供装置602は、ユーザによって入力された質問を受信し、トレーニングされた機械を利用して自然言語形式でユーザによって入力された質問に対応する答えを提供するように配置される。例えば、自然言語答え提供装置602は、予めトレーニングされた分類器モデルまたは予め設定された規則を利用して自然言語質問の構造化特徴を抽出し、そして当該構造化特徴に基づいて、予め確立された知識ベースの中から対応する答えのエンティティを検索、または推理することで得て(例えば、上記の表1中の質問-答えペアに現れた「周樹人」および「周樟寿」などの単語のエンティティ)、更に、本発明の予めトレーニングされた分類器モデルに基づいて、答えのエンティティを利用して、自然言語形式で表現される答えを生成する。自然言語答え提供装置602は、様々な方法で自然言語形式の答えをユーザにプッシュするためのディスプレイ、スピーカなどを含んでもよい。 The natural language answer providing device 602 accepts a question written in a natural language format by the user so as to obtain knowledge, and searches or guesses an answer to the user's question from a large amount of heterogeneous data. The answer can be pushed to the user in a natural language manner. The natural language answer providing device 602 is arranged to receive a question input by a user and provide an answer corresponding to the question input by the user in a natural language format using a trained machine. For example, the natural language answer providing device 602 extracts a structured feature of a natural language question using a pre-trained classifier model or a preset rule, and is established in advance based on the structured feature. Obtained by searching or inferring the corresponding answer entity from the knowledge base (for example, entities of words such as “Zhou Jin” and “Zhou Yushou” appearing in the question-answer pair in Table 1 above) Further, based on the pretrained classifier model of the present invention, the answer entity is used to generate an answer expressed in natural language form. The natural language answer providing device 602 may include a display, a speaker, and the like for pushing a natural language answer to the user in various ways.

以上、本発明の実施例による自然言語質問回答システムを詳しく説明した。本発明の実施例による自然言語質問回答システムは、機械に機械学習をより効率的かつ正確に完成させてるように、簡単なデータから困難なデータへだんだん移行しながら、トレーニングを行うことができ、それによって、より正確かつ流暢な、自然言語方式で表現される答えをユーザに提供する。 The natural language question answering system according to the embodiment of the present invention has been described in detail above. The natural language question answering system according to the embodiment of the present invention can perform training while gradually shifting from simple data to difficult data so that machine learning is completed more efficiently and accurately in the machine. It provides users with answers that are expressed in a more accurate and fluent natural language manner.

テスト検証
以下、本発明は、異なる実例の選択方式で第1タイプの実例および第2タイプの実例を組み合わせ、異なる実例の組み合わせ方式によるトレーニングデータを利用してトレーニングを行うことでトレーニングモデルを得た後に、当該トレーニングされたモデルを利用して、自然言語質問回答システムにおいて提供された答えの品質に対してテストを行う。これにより、各種の実例の組み合わせの方式に対応するトレーニングモデルの性能の高さを評価する。具体的には、各種の実例の選択方式は下記表2に示すようになっている。
Test verification Hereinafter, the present invention combines a first type of example and a second type of example with different example selection methods, and obtains a training model by performing training using training data according to a combination method of different examples. Later, the trained model is used to test the quality of the answers provided in the natural language question answering system. Thereby, the high performance of the training model corresponding to the combination method of various examples is evaluated. Specifically, the selection methods of various examples are as shown in Table 2 below.

まず、本発明は、自動評価方法により、トレーニングモデルのトレーニング品質を検証する。例えば、トレーニングされたモデルで提供される自然言語答えの性能を、正確度(Accuracy)および単語の重なり(WBM)に基づいて判断することができる。正確度は、答えが標準的な答えのエンティティを含む場合を評価でき、単語の重なりは、生成された答えと標準的な答えの間の単語の重なりを評価することができる。テスト結果は下記表3に示すようになっている。
First, the present invention verifies the training quality of a training model by an automatic evaluation method. For example, the performance of a natural language answer provided in a trained model can be determined based on accuracy (Accuracy) and word overlap (WBM). The accuracy can be evaluated when the answer includes a standard answer entity, and the word overlap can evaluate the word overlap between the generated answer and the standard answer. The test results are as shown in Table 3 below.

表3に示すように、本発明によって提案された、コース学習理論に基づいて第1タイプの実例および第2タイプの実例を選択して組み合わせ、オーダリングすることによって得られたトレーニングデータのトレーニングモデルは、多数の指標上で最良の結果を得た。例えば、Grammar-CL組み合わせの方式でトレーニングされて得られた答えは、既存の方法より正確度が約6.8%高くなっている。 As shown in Table 3, the training model of the training data obtained by selecting and combining and ordering the first type example and the second type example based on the course learning theory proposed by the present invention is as follows. Obtained the best results on numerous indicators. For example, the answer obtained by training in the Grammar-CL combination method is approximately 6.8% more accurate than the existing method.

また、本発明は、人工的評価方法によってトレーニングモデルのトレーニング品質を更に検証する。例えば、トレーニングされた機械で提供された自然言語答えの性能を、正確性(correctness)、流暢性(fluency)、および一致性(coherence)に基づいて判断することができる。正確性は、答えが正しいかどうかを評価でき、流暢性は、生成された語句の自然程度および文法の良さを評価でき、一致性は、生成された答えと質問の一致性を評価できる。テスト結果は下記表4に示すようになっている。
The present invention further verifies the training quality of the training model by an artificial evaluation method. For example, the performance of a natural language answer provided on a trained machine can be determined based on correctness, fluency, and coherence. Accuracy can assess whether the answer is correct, fluency can assess the naturalness and grammar of the generated phrase, and consistency can assess the consistency between the generated answer and the question. The test results are as shown in Table 4 below.

表4に示すように、本発明によって提案された、コース学習理論に基づいて第1タイプの実例および第2タイプの実例を選択して組み合わせ、オーダリングして得られたトレーニングデータに対応するトレーニングモデルは、多数の指標上で最良の結果を得た。 As shown in Table 4, the training model proposed by the present invention corresponds to the training data obtained by selecting and combining the first type examples and the second type examples based on the course learning theory and ordering them. Got the best results on a number of indicators.

以上、具体的な実施例を結合して本発明の基本原理を説明したが、特に、本発明において言及された利点、優位性、効果等は単なる例示的なものであり、制限的なものではなく、これらの利点、優位性、効果等が本発明の各実施例に必要なものであると考えるべきではない。なお、上記開示の具体的な詳細は、例示および理解を簡単にするためのものに過ぎず、制限的なものではなく、上記詳細は、本発明が必ず上記具体的な詳細によって実現しなければならないことを限定しない。 The basic principles of the present invention have been described above by combining specific embodiments. In particular, the advantages, advantages, effects, etc. mentioned in the present invention are merely illustrative and not restrictive. These advantages, advantages, effects, etc. should not be considered necessary for each embodiment of the present invention. It should be noted that the specific details of the above disclosure are merely for ease of illustration and understanding, and are not limiting. The above details must be realized by the above specific details. It does not limit what must be done.

本発明に係る部品、装置、デバイス、およびシステムのブロック図は単なる例示的なものであり、必ずブロック図に示される方式で接続、配置および構成されることを要求または暗示することを意図するものではない。これらの部品、装置、デバイス、およびシステムを任意の方式で接続、配置、および構成することができることは当業者に理解されるべきである。「含む」、「備える」、「有する」などの単語は、オープン形式な単語であり、「…含むが、これに限定されない」を指し、これと互換的に使用され得る。ここで使用される単語「または」と「および」は、単語「および/または」を意味し、文脈で明確に指示がない限り、これと互換的に使用され得る。ここで使用される「のような」は、「…のようだが、これに限定されない」などの語句を指し、互換的に使用され得る。 The block diagrams of the components, apparatus, devices and systems according to the invention are merely exemplary and are intended to require or imply that they are necessarily connected, arranged and configured in the manner shown in the block diagrams. is not. It should be understood by those skilled in the art that these components, apparatus, devices, and systems can be connected, arranged, and configured in any manner. Words such as “including”, “comprising”, “having”, etc. are open-form words, which refer to “... including but not limited to” and can be used interchangeably. As used herein, the words “or” and “and” mean the words “and / or” and can be used interchangeably unless the context clearly indicates otherwise. As used herein, “like” refers to phrases such as “but like but not limited to” and may be used interchangeably.

本発明におけるフローチャートおよび上記方法の説明は、単なる例示的なものであり、必ず提示された順序で各実施例が実行されることを要求または暗示することを意図するものではない。いくつかのステップは、並行的に、個別に、または他の適切な順序で実行されてもよい。なお、「その後」、「そして」、「次に」などの単語は、ステップの順序を限定することを意図しなく、これらの単語は、方法の説明を通読するように読者を導くためにのみ使用されている。 The flowcharts and method descriptions above are merely exemplary and are not intended to require or imply that the examples are performed in the order presented. Some steps may be performed in parallel, individually or in any other suitable order. It should be noted that words such as “after”, “and”, “next” are not intended to limit the order of the steps, and these words are only to guide the reader to read through the description of the method in use.

特に、本発明の装置および方法では、各部品または各ステップを分解および/または再結合することができる。これらの分解および/または再結合は、本発明と等価なものと見なされるべきである。 In particular, in the apparatus and method of the present invention, each part or each step can be disassembled and / or recombined. These decompositions and / or recombinations should be considered equivalent to the present invention.

当業者が本発明を実施または使用することを可能にするように、開示された態様の上記説明を提供する。これらの態様に対する様々な修正は当業者にとって非常に明らかであり、ここで定義された一般的な原理は本発明の範囲から逸脱することなく他の態様に適用されてもよい。したがって、本発明は、ここで示された態様に限定されることを意図しなく、ここで開示された原理および新規な特徴と一致する最も広い範囲内にあることを意図する。複数の例示的な態様および実施例は以上で検討されたが、当業者はそれらのいくつかの変形、修正、変更、追加およびサブコンビネーションを認識すべきである。 The previous description of the disclosed aspects is provided to enable any person skilled in the art to make or use the present invention. Various modifications to these aspects will be apparent to those skilled in the art, and the generic principles defined herein may be applied to other aspects without departing from the scope of the invention. Accordingly, the present invention is not intended to be limited to the embodiments shown herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein. Although several exemplary aspects and examples have been discussed above, those skilled in the art should recognize some of their variations, modifications, changes, additions, and subcombinations.

Claims (14)

質問-答えペア形式の、少なくとも1つの質問と対応する複数の答えを含むオリジナルトレーニングデータを受信することと、
前記複数の答えのデータ品質を特定することと、
前記データ品質に基づいて、前記複数の答えを第1タイプの実例または第2タイプの実例としてマークすることと、
前記複数の答えの中から、第1タイプの実例と第2タイプの実例とを選択して組み合わせることによって、複数の実例の組み合わせを取得することと、
前記複数の実例の組み合わせをオーダリングし、オーダリングされた前記複数の実例の組み合わせがそれぞれに自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータに対応することと、を含み、
オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する、
自然言語質問回答システム用のトレーニングデータを提供する方法。
Receiving original training data in question-answer pair format, including at least one question and corresponding multiple answers;
Identifying the data quality of the plurality of answers;
Marking the plurality of answers as a first type instance or a second type instance based on the data quality;
Obtaining a combination of a plurality of examples by selecting and combining the first type of examples and the second type of examples from the plurality of answers;
Ordering a combination of the plurality of examples, and each of the ordered combinations of the plurality of examples corresponds to training data of each training in the order of time of the natural language question answering system,
The proportion of the first type instance in the ordered combination of the plurality of examples monotonically increases, and the proportion of the second type instance in the ordered combination of the plurality of instances monotonously decreases.
A method of providing training data for a natural language question answering system.
前記複数の答えのデータ品質を特定することは、
前記複数の答えに対して語法分析を行って、その中に現れた各単語の単語頻度を特定することと、
前記各単語の単語頻度に基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークすることと、を含む請求項1に記載の方法。
Identifying the data quality of the multiple answers is
Performing a grammatical analysis on the plurality of answers to identify a word frequency for each word appearing therein,
The method of claim 1, comprising marking the plurality of answers as a high quality answer or a low quality answer based on the word frequency of each word.
前記各単語の単語頻度に基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークすることは、
前記各単語の単語頻度を所定の単語頻度閾値と比較して、前記各単語を高頻度単語、低頻度単語、および極低頻度単語のいずれかとしてマークすることと、
前記複数の答えのうち低頻度単語を含む答えを高品質の答えとして特定することと、
前記複数の答えのうち高頻度単語および/または極低頻度単語のみを含み、低頻度単語を含まない答えを低品質の答えとして特定することと、を含む請求項2に記載の方法。
Based on the word frequency of each word, marking the plurality of answers as a high quality answer or a low quality answer is:
Comparing the word frequency of each word with a predetermined word frequency threshold and marking each word as one of a high frequency word, a low frequency word, and a very low frequency word;
Identifying an answer including a low-frequency word among the plurality of answers as a high-quality answer;
The method according to claim 2, further comprising: identifying an answer that includes only high-frequency words and / or very low-frequency words and does not include low-frequency words among the plurality of answers as a low-quality answer.
前記複数の答えのデータ品質を特定することは、
前記複数の答えに対して文法分析を行って、前記複数の答えの語句スコアを特定することと、
前記語句スコアに基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークすることと、を含む請求項1に記載の方法。
Identifying the data quality of the multiple answers is
Performing a grammatical analysis on the plurality of answers to identify a phrase score for the plurality of answers;
2. The method of claim 1, comprising marking the plurality of answers as a high quality answer or a low quality answer based on the phrase score.
前記語句スコアに基づいて、前記複数の答えを高品質の答えまたは低品質の答えとしてマークすることは、
前記複数の答えの語句の長さを特定することと、
前記語句の長さに基づいて、前記複数の答えの語句スコアを重み付けることと、
前記複数の答えを、重み付けられた語句スコアに基づいて高品質の答えまたは低品質の答えとしてマークすることと、を含む請求項4に記載の方法。
Marking the plurality of answers as a high quality answer or a low quality answer based on the phrase score is:
Identifying the length of the plurality of answer phrases;
Weighting the phrase scores of the plurality of answers based on the length of the phrases;
5. The method of claim 4, comprising marking the plurality of answers as a high quality answer or a low quality answer based on a weighted phrase score.
前記データ品質に基づいて、前記複数の答えを第1タイプの実例または第2タイプの実例としてマークすることは、
高品質の答えを第1タイプの実例としてマークすることと、
低品質の答えを第2タイプの実例としてマークすることと、を含む請求項2から請求項5のいずれかに記載の方法。
Based on the data quality, marking the plurality of answers as a first type instance or a second type instance,
Marking high-quality answers as type 1 examples,
6. A method according to any of claims 2 to 5, comprising marking a low quality answer as a second type of illustration.
オーダリングされた前記複数の実例の組み合わせのうちの第1の実例の組み合わせでは、前記第2タイプの実例より第1タイプの実例が少なく、オーダリングされた前記複数の実例の組み合わせのうちの最後の実例の組み合わせでは、第2タイプの実例より第1タイプの実例が多い請求項2から請求項5のいずれかに記載の方法。 The first example combination among the plurality of ordered example combinations has fewer first type instances than the second type instance, and the last example of the ordered example combinations. 6. The method according to claim 2, wherein there are more first type examples than second type examples. オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合の増加率が、オーダリングされた前記複数の実例の組み合わせの番号とともに単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合の減少率が、オーダリングされた前記複数の実例の組み合わせの番号とともに単調に増加する請求項7に記載の方法。 The rate of increase of the proportion of the first type instance in the plurality of example combinations ordered is monotonically increased with the number of the combination of the plurality of example instances ordered, in the combination of the plurality of example instances ordered. The method of claim 7, wherein the rate of decrease of the proportion of the second type instance increases monotonically with the number of the combination of the ordered example instances. オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例および第2タイプの実例の割合と、オーダリングされた前記複数の実例の組み合わせの番号とが指数関数関係を満たす請求項8に記載の方法。 9. The ratio of the first type instance and the second type instance in the combination of the plurality of ordered examples, and the number of the combination of the plurality of ordered examples satisfy an exponential relationship. Method. オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例および第2タイプの実例の割合と、オーダリングされた前記複数の実例の組み合わせの番号とがパワー関数関係を満たす請求項8に記載の方法。 9. The ratio of the first type instance and the second type instance in the combination of the plurality of ordered examples and the number of the combination of the plurality of ordered examples satisfy a power function relationship. Method. 質問−答え対形式の、少なくとも1つの質問と対応する複数の答えを含むオリジナルトレーニングデータを受信するように配置されるデータ受信部と、
複数の答えのデータ品質を特定するように配置される品質特定部と、
前記データ品質に基づいて、前記複数の答えを第1タイプの実例または第2タイプの実例としてマークするように配置されるマーク部と、
前記複数の答えの中から第1タイプの実例および第2タイプの実例を選択して組み合わせることで、複数の実例の組み合わせを取得するように配置される組み合わせ部と、
前記複数の実例の組み合わせが、それぞれに自然言語質問回答システムの時間順の各回のトレーニングのトレーニングデータに対応するように、前記複数の実例の組み合わせをオーダリングするように配置されるオーダリング部と、
オーダリングされた前記複数の実例の組み合わせを自然言語質問回答システムに提供するように配置されるトレーニングデータ提供部と、を含み、
オーダリングされた前記複数の実例の組み合わせにおける前記第1タイプの実例の割合が単調に増加し、オーダリングされた前記複数の実例の組み合わせにおける前記第2タイプの実例の割合が単調に減少する自然言語質問回答システム用のトレーニングデータを提供する装置。
A data receiver arranged to receive original training data including a plurality of answers corresponding to at least one question in a question-answer pair format;
A quality identification section arranged to identify the data quality of multiple answers;
A mark portion arranged to mark the plurality of answers as a first type instance or a second type instance based on the data quality;
A combination unit arranged to obtain a combination of a plurality of examples by selecting and combining the first type of examples and the second type of examples from the plurality of answers;
An ordering unit arranged to order the combination of the plurality of examples such that the combination of the plurality of examples corresponds to training data of each training in each time order of the natural language question answering system;
A training data providing unit arranged to provide the ordered combination of the plurality of examples to the natural language question answering system,
The natural language question in which the ratio of the first type of examples in the combination of the plurality of ordered examples is monotonically increased and the ratio of the second type of examples in the combination of the plurality of ordered examples is monotonously decreased. A device that provides training data for the answering system.
非一時的コンピュータ読み取り可能な指示を記憶するメモリと、
前記コンピュータ読み取り可能な指示を実行するプロセッサであり、前記コンピュータ読み取り可能な指示が前記プロセッサによって実行されるときに、請求項1から請求項10のいずれかの前記自然言語質問回答システム用のトレーニングデータを提供する方法を実行するプロセッサと、を含む、自然言語質問回答システム用のトレーニングデータを提供する装置。
A memory for storing non-transitory computer readable instructions;
11. A training data for the natural language question answering system of any of claims 1-10, wherein the processor is a processor that executes the computer readable instructions, and when the computer readable instructions are executed by the processor. An apparatus for providing training data for a natural language question answering system, comprising:
非一時的コンピュータ読み取り可能な指示を記憶しており、前記非一時的コンピュータ読み取り可能な指示がコンピュータによって実行されるときに、請求項1から請求項10のいずれかの自然言語質問回答システム用のトレーニングデータを提供する方法が実行される、コンピュータ読み取り可能な記録媒体。 11. A non-transitory computer readable instruction is stored, and when the non-transitory computer readable instruction is executed by a computer, the natural language question answering system of any of claims 1-10. A computer readable recording medium on which a method for providing training data is executed. 請求項11又は請求項12に記載の自然言語質問回答システム用のトレーニングデータを提供する装置からトレーニングデータを受信し、前記トレーニングデータを利用して機械学習を行うように配置される自然言語質問回答トレーニング装置と、
ユーザによって入力される質問を受信し、トレーニングされた機械を利用して、ユーザによって入力される質問に対応する答えを自然言語形式で提供するように配置される自然言語答え提供装置と、を含む自然言語質問回答システム。
A natural language question answer arranged to receive training data from an apparatus for providing training data for the natural language question answering system according to claim 11 or claim 12, and to perform machine learning using the training data. A training device;
A natural language answer providing device arranged to receive a question entered by a user and utilize a trained machine to provide an answer corresponding to the question entered by the user in a natural language form. Natural language question answering system.
JP2019081333A 2018-04-20 2019-04-22 Method and device for providing training data for natural language question-answer system Pending JP2019192246A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810362548.9 2018-04-20
CN201810362548.9A CN110399467A (en) 2018-04-20 2018-04-20 The method and apparatus of training data for natural language question answering system is provided

Publications (1)

Publication Number Publication Date
JP2019192246A true JP2019192246A (en) 2019-10-31

Family

ID=68319564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019081333A Pending JP2019192246A (en) 2018-04-20 2019-04-22 Method and device for providing training data for natural language question-answer system

Country Status (2)

Country Link
JP (1) JP2019192246A (en)
CN (1) CN110399467A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429355A (en) * 2020-03-30 2020-07-17 新疆大学 Image super-resolution reconstruction method based on generation countermeasure network
CN112948560A (en) * 2021-03-23 2021-06-11 平安科技(深圳)有限公司 Buddhism question-answer data generation method and device, computer equipment and storage medium
CN113139039A (en) * 2021-05-06 2021-07-20 京东数字科技控股股份有限公司 Dialogue data processing method, device, equipment and storage medium
CN117238451A (en) * 2023-11-16 2023-12-15 北京无疆脑智科技有限公司 Training scheme determining method, device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051393A (en) * 2019-12-27 2021-06-29 财团法人工业技术研究院 Question-answer learning method, question-answer learning system and computer program product thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429355A (en) * 2020-03-30 2020-07-17 新疆大学 Image super-resolution reconstruction method based on generation countermeasure network
CN112948560A (en) * 2021-03-23 2021-06-11 平安科技(深圳)有限公司 Buddhism question-answer data generation method and device, computer equipment and storage medium
CN113139039A (en) * 2021-05-06 2021-07-20 京东数字科技控股股份有限公司 Dialogue data processing method, device, equipment and storage medium
CN117238451A (en) * 2023-11-16 2023-12-15 北京无疆脑智科技有限公司 Training scheme determining method, device, electronic equipment and storage medium
CN117238451B (en) * 2023-11-16 2024-02-13 北京无疆脑智科技有限公司 Training scheme determining method, device, electronic equipment and storage medium

Also Published As

Publication number Publication date
CN110399467A (en) 2019-11-01

Similar Documents

Publication Publication Date Title
JP2019192246A (en) Method and device for providing training data for natural language question-answer system
JP2022153441A (en) Method and device for pre-training models, method and device for generating text, electronic device, storage medium, and computer program
Dodda et al. Conversational AI-Chatbot Architectures and Evaluation: Analyzing architectures and evaluation methods for conversational AI systems, including chatbots, virtual assistants, and dialogue systems
KR101285217B1 (en) System of generating problems using q vector and method thereof
WO2021110180A1 (en) Recommendation method for children&#39;s independent reading, client terminal, and server
CN111124916B (en) Model training method based on motion semantic vector and electronic equipment
KR20230141683A (en) Method, apparatus and computer program for buildding knowledge graph using qa model
KR20220128260A (en) Electronic apparatus for designing learning process based on comparative evaluation between student and artificial inteligence model, and learning management method
CN117371428A (en) Text processing method and device based on large language model
CN112786028A (en) Acoustic model processing method, device, equipment and readable storage medium
CN117112742A (en) Dialogue model optimization method and device, computer equipment and storage medium
CN110059164B (en) Method and system for presenting a user interface of a dialog system
WO2023245523A1 (en) Method and apparatus for generating training data
JP6983729B2 (en) Extractor, evaluation device, extraction method and extraction program
Surendran et al. Conversational AI-A retrieval based chatbot
CN113407806B (en) Network structure searching method, device, equipment and computer readable storage medium
CN113761337B (en) Event prediction method and device based on implicit event element and explicit connection
CN108536818A (en) The generation method and device of question and answer sentence
Chandramohan et al. Behavior specific user simulation in spoken dialogue systems
Williams Evaluating user simulations with the Cramér–von Mises divergence
KR20230071673A (en) Method, computer device, and computer program for building open-domain dialogue system using language model
JP7057229B2 (en) Evaluation device, evaluation method and evaluation program
JP7013329B2 (en) Learning equipment, learning methods and learning programs
CN108536811B (en) Voice interaction path determining method and device based on machine learning, storage medium and terminal
WO2023245522A1 (en) Method and apparatus for generating target deep learning model