JP2022008207A

JP2022008207A - トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2022008207A
Application number: JP2021103322A
Authority: JP
Inventors: リウ，ホンギュ; Hongyu Li; リウ，ジン; Jing Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2021-06-22
Publication date: 2022-01-13
Also published as: EP3929768A1; CN111858883A; KR20210158815A; US20210406467A1

Abstract

【課題】既存の方式で生成されたトリプル（Ｑ、Ｐ、Ａ）サンプルの正確度が悪いので、正確度が高いトリプルサンプルの生成方法を提供する。
【解決手段】トリプルサンプルの生成方法は、トリプルサンプルにおける段落テキストを取得しＳ１０１、段落テキストから少なくとも１つの答案セグメントを抽出しＳ１０２、段落テキストと各答案セグメントとに基づいて、それぞれ事前に訓練された語義表現モデルに基づいて訓練された質問生成モデルを用いて対応する質問を生成してトリプルサンプルを得るＳ１０３。
【選択図】図１

Description

本開示は、コンピュータ技術分野に関し、特に人工知能に基づく自然言語処理の技術分野、及びディープラーニング技術分野に関し、具体的にトリプルサンプルの生成方法、装置、電子デバイス、及び記憶媒体に関する。

自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ；ＮＬＰ）では、質問生成技術とは、自然なテキストのパラグラフＰを与え、パラグラフＰからある質問可能な答案セグメントＡを見つけ、その答案セグメントＡに対して質問を行うことで質問Ｑを生成することである。質問生成技術を用いて、大量の自然なテキストから大規模な（Ｑ、Ｐ、Ａ）トリプルを生成的に得ることができる。これらのトリプルはパラグラフ序列、読解モデルの訓練に大量の訓練サンプルを提供し、人工でサンプルをマークするコストを節約することができる。それと共に、キー対（ｋｅｙ－ｖａｌｕｅ；ｋｖ）検索の方式に従って検索、質問応答システムをサポートすることも可能である。

従来技術における（Ｑ、Ｐ、Ａ）トリプルのサンプル取得方法は、主に循環型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ；ＲＮＮ）、長短期記憶（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ；ＬＳＴＭ）ネットワーク又はＴｒａｎｓｆｏｒｍｅｒ等の従来のｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅモデル構造を利用して、目標領域のデータセットにおいて直接に訓練を行う。そして、訓練されたモデルを用いて、提供されたパラグラフＰと答案セグメントＡから対応する生成質問Ｑを生成する。

しかし、目標領域のデータセットのデータ量が少ないため、訓練されたモデルの効果が望ましくなく、さらにこの訓練されたモデルを用いて対応する生成質問Ｑを生成した場合の正確度が悪く、既存の方式で生成されたトリプル（Ｑ、Ｐ、Ａ）サンプルの正確度が悪い。

上述問題を解決するために、本開示はトリプルサンプルの生成方法、装置、電子デバイス、及び記憶媒体を提供する。

本開示の一態様によれば、トリプルサンプルにおけるパラグラフテキストを取得ことと、前記パラグラフテキストから少なくとも１つの答案セグメントを抽出ことと、前記パラグラフテキスト及び各前記答案セグメントに基づいて、事前訓練された語義表現モデルに基づいて訓練された予め訓練された質問生成モデルを用いてそれぞれ対応する質問を生成して前記トリプルサンプルを得ることと、を含むトリプルサンプルの生成方法を提供する。

本開示の別の態様によれば、トリプルサンプルにおけるパラグラフテキストを取得する取得モジュールと、前記パラグラフテキストから少なくとも１つの答案セグメントを抽出する答案抽出モジュールと、前記パラグラフテキスト及び各前記答案セグメントに基づいて、事前訓練された語義表現モデルに基づいて訓練された予め訓練された質問生成モデルを用いてそれぞれ対応する質問を生成して前記トリプルサンプルを得る質問生成モジュールと、を備えるトリプルサンプルの生成装置を提供する。

本開示の別の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに上述の方法を実行させる電子デバイスを提供する。

本開示の別の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本願の技術によれば、事前に訓練された質問生成モデルは、事前訓練された語義表現モデルに基づいて訓練されたため、当該質問生成モデルの正確度は非常に良い。したがって、当該質問生成モデルを用いて生成された（Ｑ、Ｐ、Ａ）トリプルサンプルの正確度は非常に高い。

理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。

図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
本発明の第１実施形態に係る概略図である。本発明の第２実施形態に係る概略図である。図２に示した実施形態の一例を示す図である。本発明の第３実施形態に係る概略図である。本発明の第４実施形態に係る概略図である。本発明の実施形態に係るトリプルサンプルの生成方法を実施するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１本発明の第１実施形態に係る概略図である。図１に示すように、本実施形態は、トリプルサンプルの生成方法を提供し、具体的に以下のステップを含むことができる。

Ｓ１０１において、トリプルサンプルにおけるパラグラフテキストを取得する。

本実施形態のトリプルサンプルの生成方法の実行主体は、トリプルサンプルの生成装置である。この装置は、電子エンティティであってもよく、使用時にコンピュータ装置上で動作してトリプルサンプルの生成を実現するソフトウェア統合によるアプリケーションであってもよい。

本実施形態のパラグラフテキストは、取得可能ないずれかの文章のパラグラフである。例えば、トリプルサンプルを生成するために、本実施形態では、様々な書籍、定期刊行物、雑誌のいずれかの文章を取得し、いずれかのパラグラフを抽出することにより、トリプルサンプルの生成を実現することができる。また、本実施例では、ネットワーク上のニュース、電子書籍、あるいはフォーラムなどのネットワークプラットフォームからいずれかの文章を取得し、文章中のいずれかのパラグラフテキストを抽出することにより、トリプルサンプルの生成を実現することもできる。

Ｓ１０２において、パラグラフテキストから少なくとも１つの答案セグメントを抽出する。

本実施形態のパラグラフテキストには、少なくとも１つの文が含まれる。通常の場合に、一つのパラグラフテキストに複数の文を含めることができる。パラグラフテキストの内容が豊富であるため、パラグラフテキストにおいて答案となり得る答案セグメントの数も少なくとも１つ含まれる。これに基づいて、パラグラフテキストから少なくとも１つの答案セグメントを抽出することができる。この場合にパラグラフテキストと各答案セグメントとが１セットの（Ｐ，Ａ）を構成することができる。

Ｓ１０３において、パラグラフテキストと各答案セグメントに基づいて、それぞれ事前に訓練された質問生成モデルを用いて対応する質問を生成してトリプルサンプルを得る。この事前に訓練された質問生成モデルは、事前に訓練された語義表現モデルに基づいて訓練された。

上記で得られたパラグラフテキストと各答案セグメント、すなわち１セットの（Ｐ，Ａ）に対して、事前に訓練された質問生成モデルを用いて対応する質問Ｑを生成することができる。この場合に（Ｑ，Ｐ，Ａ）トリプルが得られる。

本実施形態における事前に訓練された質問生成モデルは、事前に訓練された語義表現モデルに基づいて訓練され、すなわち、訓練のＦｉｎｅ－ｔｕｎｉｎｇ段階で、目標領域で収集された少量の（Ｑ，Ｐ，Ａ）トリプルサンプルを用いて、事前訓練（Ｐｒｅ－ｔｒａｉｎｉｎｇ）により得られた語義表現モデルを微調整して当該質問生成モデルを得る。この質問生成モデルは、新たに大量の訓練データを収集して生成タスク向けの事前訓練を実現することなく、事前に訓練された語義表現モデルを用いてＦｉｎｅ－ｔｕｎｉｎｇ段階の微調整により得られるため、構築コストが低く、且つ事前に訓練された語義表現モデルを採用しているため、正確度が非常に高い。従って、得られた当該質問生成モデルの効果も非常に高い。

オプションとして、本実施形態の当該語義表現モデルは、具体的に、Ｔｒａｎｓｆｏｒｍｅｒベースの双方向符号化器（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ；ＢＥＲＴ）又は知識強化語義表現モデル（ＥｎｈａｎｃｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍｋｎｏｗｌｅｄｇｅＩｎｔｅｇｒａｔｉｏｎ；ＥＲＮＩＥ）のような当該技術分野における既知の事前訓練モデルを使用することができる。

本実施形態の技術案によれば、取得された各パラグラフテキストＰについて、対応する少なくとも１つの答案セグメントＡを抽出することができ、さらに、各（Ｐ，Ａ）セットに基づいて、上述の事前訓練された質問生成モデルを用いて対応するＱを生成することにより、各（Ｑ，Ｐ，Ａ）トリプルサンプルを得ることができる。上記のスキームを使用すると、取得された大量のパラグラフテキストＰに対して、大量の（Ｑ，Ｐ，Ａ）トリプルサンプルを生成することができる。本実施形態の技術案によれば、生成された（Ｑ，Ｐ，Ａ）トリプルサンプルの正確度が非常に高い。これらの（Ｑ，Ｐ，Ａ）トリプルサンプルは、パラグラフ順序付け、読解モデルの訓練として大量の訓練サンプルを提供し、人工によるサンプルの標識のコストを節約することができる。また、ｋｖ検索の方式に沿って、検索、質問応答システムをサポートすることも可能である。

本実施形態のトリプルサンプルの生成方法は、トリプルサンプルにおけるパラグラフテキストを取得し、パラグラフテキストから少なくとも１つの答案セグメントを抽出し、パラグラフテキストと各答案セグメントとに基づいて、それぞれ事前に訓練された質問生成モデルを用いて対応する質問を生成してトリプルサンプルを得る。本実施形態では、事前に訓練された質問生成モデルは、事前に訓練された語義表現モデルに基づいて訓練されるため、正確度が非常に良い。従って、この質問生成モデルを用いて生成された（Ｑ，Ｐ，Ａ）トリプルサンプルの正確度は非常に高い。

図２は本発明の第２実施形態に係る概略図である。図２に示すように、本実施形態のトリプルサンプルの生成方法は、上述した図１に示した実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。図２に示すように、本実施形態のトリプルサンプルの生成方法は、具体的に以下のステップを含むことができる。

Ｓ２０１において、トリプルサンプルにおけるパラグラフテキストを取得する。

このステップの実施形態は、上述した図１に示した実施形態のステップＳ１０１の実現と同じであり、上述の実施形態の関連記載を参照でき、ここでは詳しく説明しない。

Ｓ２０２において、事前に訓練された語義表現モデルに基づいて訓練された事前訓練された答案選択モデルを用いて、パラグラフテキストから少なくとも１つの答案セグメントを抽出する。

このステップＳ２０２は、上述した図１に示された実施形態のステップＳ１０２の一実施形態である。この実施形態では、答案選択モデルを用いて、パラグラフから少なくとも１つの答案セグメントを抽出する。例えば、オプションとして、当該ステップＳ２０２は、具体的に以下のステップを含むことができる。

（１）事前に訓練された答案選択モデルを用いて、パラグラフテキストにおけるすべての答案候補セグメントが答案セグメントとなり得る確率を予測する。

（２）全ての候補答案セグメントから確率が最大となる少なくとも１つを少なくとも１つの答案セグメントとして選択する。

具体的には、本実施形態を実施する場合、答案選択モデルは、答案セグメントを抽出する際に、パラグラフテキストにおけるすべての候補答案セグメントを解析する必要がある。具体的には、パラグラフテキストをトークン化してＴ_１、Ｔ_２、……、Ｔ_ＮというＮ個のトークンを得ることができる。そして、各トークンは、単独で候補答案セグメントとしても良く、隣接する少なくとも１つのトークンと共に候補答案セグメントとしても良い。例えば、１番目のトークンから始めて、候補答案セグメントを分割可能なすべての可能な長さで、Ｔ_１、Ｔ_１Ｔ_２、Ｔ_１Ｔ_２Ｔ_３、…、Ｔ_１…Ｔ_Ｎ、Ｔ_２、Ｔ_２Ｔ_３、Ｔ_２Ｔ_３Ｔ_４、…、Ｔ_２…Ｔ_Ｎ、…、Ｔ_Ｎ－２、Ｔ_Ｎ－２Ｔ_Ｎ－１、Ｔ_Ｎ－２Ｔ_Ｎ－１Ｔ_Ｎ、Ｔ_Ｎ－１、Ｔ_Ｎ－１Ｔ_Ｎ、Ｔ_Ｎという候補答案セグメントを全て得られる。本実施形態の答案選択モデルは、符号化層による符号化処理と予測層による予測とを経て、各答案候補セグメントに対する確率を予測することができる。次に、必要に応じて、その中から最も確率の高いＴｏｐＮ個を選択すべき答案セグメントとして選択することができる。ここで、当該Ｎは１以上の正整数であってよい。

上記の答案選択モデルを用いて答案セグメントを選別することにより、選別された候補答案セグメントの正確度を効果的に確保することにより、後続で抽出される（Ｑ，Ｐ，Ａ）トリプルサンプルの正確度を確保することができる。

また、オプションとして、上述した図１に示す実施形態のステップＳ１０２における「パラグラフテキストから少なくとも１つの答案セグメントを抽出する」ことは、具体的に、予め設定された答案セグメント抽出ルールに従って、パラグラフテキストから少なくとも１つの答案セグメントを抽出することであって良い。

例えば、本実施形態では、当該分野の専門家が、当該分野における全てのパラグラフテキストのうち答案となり得る答案セグメントを分析することにより、対応する答案セグメント抽出ルールを抽出し、さらに答案セグメント抽出ルールに基づいて、パラグラフテキストから少なくとも１つの答案セグメントを抽出することができる。具体的には、実際の必要に応じて、１つ、２つ、又は複数の答案セグメント抽出ルールを予め設定することができる。

このような答案セグメント抽出ルールを用いて答案セグメントを選別することにより、選別された答案セグメント候補の正確度も効果的に保証し、後続で抽出される（Ｑ，Ｐ，Ａ）トリプルサンプルの正確度を保証することができる。

Ｓ２０３において、各答案セグメントについて、質問生成モデルを用いて答案セグメントとパラグラフテキストに基づいて、予め設定されたシソーラスにおいて復号化して確率が最大の単語を質問の１番目の単語として取得する。

Ｓ２０４において、質問生成モデルを用いて、答案セグメント、パラグラフテキスト及び質問において復号化された最初のＮ個の単語に基づいて、予め設定されたシソーラスにおいて復号化を継続して確率が最大の単語を質問のＮ＋１番目の単語として取得する。ここで、Ｎは１以上である。

Ｓ２０５において、Ｎ＋１番目の単語がエンドキャラクタであるか否か、又は現在に得られているＮ＋１個の単語の全長が予め設定された長さ閾値に達しているか否かを判断し、肯定の場合に、ステップＳ２０６を実行し、否定の場合に、ステップＳ２０４に戻る。

Ｓ２０６において、復号化の終了を確定し、Ｎ＋１個の単語を復号順でスプライシングして質問を得る。

上述のステップＳ２０３～Ｓ２０６は、上述の図１に示された実施形態のステップＳ１０３の一実施形態である。

本実施形態では、この質問生成の過程で、質問中のすべての単語を一度に生成することではなく、１単語ずつ段階的に生成する。

たとえば、各答案セグメントについて、対応する質問を生成する過程で、抽出された答案セグメントとパラグラフテキストをこの質問生成モデルに入力する場合に、この質問生成モデルは、入力された情報に基づいて、あらかじめ設定されたシソーラスにおいて復号化して確率が最大の単語を質問の１番目の単語として取得することができる。ここで、当該予め設定されたシソーラスは、１つの分野のすべてのトークンを含む予め設定されたシソーラスであってよい。ここで、予め設定されたシソーラスは、質問生成モデル内に配置することができ、質問生成モデル外に配置するが質問生成モデルが使用されているときにいつでも呼び出すこともできる。

同様に、この質問生成モデルでは、ループ復号化の過程であり、２番目の単語を復号化することから、答案セグメント、パラグラフテキスト及びすでに復号化された前のＮ個の単語に基づいて、あらかじめ設定されたシソーラスにおいて復号化を継続して確率が最大の単語を質問のＮ＋１番目の単語として取得する。Ｎは１以上である。

そして、２番目の単語を復号化してから、復号後に現在復号して得られたＮ＋１番目の単語がエンドキャラクタであるか否かを検出するとともに、現在復号して得られたＮ＋１個の単語の全長が予め設定された長さ閾値に達しているか否かを検出し、いずれかの条件を満たしていれば復号を停止し、このとき復号化されたＮ＋１個の単語を復号順でスプライシングして生成すべき質問となる。さもなければ、ステップＳ２０４を用いて復号化を継続し、復号化が終了するまで同様にして質問を生成する。

例えば、図３は、図２に示す実施形態の一例を示す図である。図３に示すように、答案選択モデルと質問生成モデルにより一つの質問生成システムを構成することを例にする。ここで、答案選択モデルは、ｓｔｅｐ１の作業を行い、与えられたテキストパラグラフＰから答案セグメントＡを選択する。質問生成モデルは、ｓｔｅｐ２の作業を行い、テキストパラグラフＰと答案セグメントＡに基づいて復号化して対応する質問Ｑを取得する。

図３に示すように、一つのテキストパラグラフＰを例にする。当該テキストパラグラフＰは、「王羲之（３２１－３７９年、又は３０３－６１年）は、字が逸少、東晋の著名な書家。琅邪臨沂（現在の山東臨沂）人。初任は秘書郎、後に寧遠将軍、江州刺史、右軍将軍、会稽内史などを歴任し、世は右軍王と呼ばれた。その後、揚州刺史である王述との不仲により、官職を辞して会稽山陰（現在の紹興）に定住した。王羲之の出身は…」である。

そして、本実施形態のトリプルサンプルの生成方法を用いて、取得されたテキストパラグラフＰに基づいて、答案選択モデルを採用してこのテキストパラグラフＰから、図３の「東晋」のような答案セグメントＡを抽出し、さらに本実施形態の質問生成モデルを採用することにより、入力されたテキストパラグラフＰと答案セグメントＡ「東晋」とに基づいて、対応する質問Ｑを生成することができる。例えば、図３に生成された質問Ｑは「王羲之はどの時代の人ですか」であって良い。図３は１つの実施形態のみを示しており、実際の応用においては、本実施形態のように、任意の分野において、任意のパラグラフテキストに基づいて（Ｑ，Ｐ，Ａ）トリプルの生成を実現することができる。

本実施形態に係るトリプルサンプルの生成方法は、上述の技術案を採用することにより、事前に訓練された答案選択モデルを使用して、パラグラフテキストから答案セグメントを抽出し、事前に訓練された質問生成モデルを使用してパラグラフテキストと答案セグメントに基づいて対応する質問を生成することができる。事前に訓練された語義表現モデルに基づいて訓練された答案選択モデルと質問生成モデルを採用しているため、この答案選択モデルと質問生成モデルの正確度は非常に高く、更に生成された（Ｑ，Ｐ，Ａ）トリプルの正確度が非常に高いことを確保することができる。

図４は本開示の第３実施形態に係る概略図である。図４に示すように、本実施形態は、トリプルサンプルにおけるパラグラフテキストを取得する取得モジュール４０１と、パラグラフテキストから少なくとも１つの答案セグメントを抽出する答案抽出モジュール４０２と、パラグラフテキスト及び各答案セグメントに基づいて、それぞれ事前訓練された語義表現モデルに基づいて訓練された事前に訓練された質問生成モデルを用いて対応する質問を生成する質問生成モジュール４０３と、を備えるトリプルサンプルの生成装置４００を提供する。

本実施形態のトリプルサンプルの生成装置４００は、上述したモジュールを用いてトリプルサンプルの生成を実現する実現原理及び技術的効果は、上述した関連方法の実施形態の実現と同じであり、詳細は上述した関連する実施形態の記載を参照でき、ここでは再度言及しない。

図５は本開示の第４実施形態に係る概略図である。図５に示すように、本実施形態のトリプルサンプルの生成装置４００は、上述した図４に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。

本実施形態に係るトリプルサンプルの生成装置４００において、答案抽出モジュール４０２は、予め設定された答案セグメント抽出ルールに従って、パラグラフテキストから少なくとも１つの答案セグメントを抽出する。

或いは、答案抽出モジュール４０２は、事前に訓練された語義表現モデルに基づいて訓練された事前訓練された答案選択モデルを用いて、パラグラフテキストから少なくとも１つの答案セグメントを抽出する。

さらに、当該答案抽出モジュール４０２は、答案選択モデルを用いて、パラグラフテキストにおけるすべての候補答案セグメントが答案セグメントとなり得る確率を予測し、全ての候補答案セグメントから確率が最大となる少なくとも１つを少なくとも１つの答案セグメントとして選択する。

さらに、オプションとして、図５に示すように、本実施形態のトリプルサンプルの生成装置４００において、質問生成モジュール４０３は、各答案セグメントについて、質問生成モデルを用いて、答案セグメントとパラグラフテキストとに基づいて予め設定されたシソーラスにおいて復号化して確率が最大の単語を質問の１番目の単語として取得する第１復号ユニット４０３１と、質問生成モデルを用いて、答案セグメント、パラグラフテキスト、及び質問において復号化された最初のＮ個（Ｎは１以上である）の単語に基づいて、予め設定されたシソーラスにおいて復号化を継続して質問のＮ＋１番目の単語として最も確率の高い単語を取得する第２復号ユニット４０３２と、Ｎ＋１番目の単語がエンドキャラクタであるか否か、又は現在得られているＮ＋１個の単語の全長が予め設定された長さ閾値に達しているか否かを判定する検出ユニット４０３３と、肯定の場合に、復号が終了したと判定し、Ｎ＋１個の単語を復号順でスプライシングして質問を得る生成ユニット４０３４とを備える。

本開示の実施形態によれば、本開示はさらに電子デバイス及び可読記憶媒体を提供する。

図６は、トリプルサンプルの生成方法を実施する本開示の実施形態の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図６に示すように、この電子デバイスは、一つ又は複数のプロセッサ６０１、メモリ６０２、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図６において、一つのプロセッサ６０１を例とする。

メモリ６０２は、本開示で提供される非一時的なコンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供されたトリプルサンプルの生成方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供されたトリプルサンプルの生成方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータに実行可能なプログラム、モジュール、例えば、本開示の実施例におけるトリプルサンプルの生成方法に対応するプログラムコマンド／モジュール（例えば、図４及び図５に示す関連モジュール）を記憶するために用いられる。プロセッサ６０１は、メモリ６０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるトリプルサンプルの生成方法を実現する。

メモリ６０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はトリプルサンプルの生成方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ６０２は、プロセッサ６０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してトリプルサンプルの生成方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

トリプルサンプルの生成方法を実現する電子デバイスは、入力装置６０３と出力装置６０４とをさらに備えても良い。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バス又は他の手段により接続されても良く、図６においてバスによる接続を例とする。

入力装置６０３は、入力された数字又はキャラクタ情報を受信し、トリプルサンプルの生成方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生じる。

本開示の実施形態の技術案によれば、トリプルサンプルにおけるパラグラフテキストを取得し、パラグラフテキストから少なくとも１つの答案セグメントを抽出し、パラグラフテキストと各答案セグメントとに基づいて、それぞれ事前に訓練された質問生成モデルを用いて対応する質問を生成してトリプルサンプルを得る。本実施形態では、事前に訓練された質問生成モデルは、事前に訓練された語義表現モデルに基づいて得られ、正確度が非常に良いため、この質問生成モデルを用いて生成された（Ｑ，Ｐ，Ａ）トリプルサンプルの正確度は非常に高い。

本開示の実施形態に係る技術案によれば、事前に訓練された答案選択モデルを使用してパラグラフテキストから答案セグメントを抽出し、事前に訓練された質問生成モデルを使用してパラグラフテキストと答案セグメントに基づいて対応する質問を生成することができる。事前に訓練された語義表現モデルに基づいて訓練された答案選択モデルと質問生成モデルを採用しているため、この答案選択モデルと質問生成モデルの正確度は非常に高く、更に生成された（Ｑ，Ｐ，Ａ）トリプルの正確度が非常に高いことを確保することができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

トリプルサンプルの生成方法であって、
トリプルサンプルにおけるパラグラフテキストを取得することと、
前記パラグラフテキストから少なくとも１つの答案セグメントを抽出することと、
前記パラグラフテキスト及び各前記答案セグメントに基づいて、予め訓練された語義表現モデルに基づいて訓練された事前に訓練された質問生成モデルを用いてそれぞれ対応する質問を生成して前記トリプルサンプルを得ることと、を含む
方法。
前記パラグラフテキストから少なくとも１つの答案セグメントを抽出することは、
予め設定された答案セグメント抽出ルールに従って、前記パラグラフテキストから前記少なくとも１つの答案セグメントを抽出すること、を含む、
請求項１に記載の方法。
前記パラグラフテキストから少なくとも１つの答案セグメントを抽出することは、
予め訓練された語義表現モデルに基づいて訓練された事前に訓練された答案選択モデルを用いて前記パラグラフテキストから前記少なくとも１つの答案セグメントを抽出すること、を含む、
請求項１に記載の方法。
事前に訓練された答案選択モデルを用いて前記パラグラフテキストから前記少なくとも１つの答案セグメントを抽出することは、
前記答案選択モデルを用いて、前記パラグラフテキストにおけるすべての候補答案セグメントが答案セグメントとなり得る確率を予測することと、
前記全ての候補答案セグメントから確率が最大の少なくとも１つを前記少なくとも１つの答案セグメントとして選択することと、を含む
請求項３に記載の方法。
前記パラグラフテキスト及び各前記答案セグメントに基づいて、事前に訓練された質問生成モデルを用いてそれぞれ対応する質問を生成することは、
各前記答案セグメントについて、前記質問生成モデルを用いて、前記答案セグメントと前記パラグラフテキストとに基づいて、予め設定されたシソーラスにおいて復号化して確率が最大の単語を前記質問の１番目の単語として取得することと、
前記質問生成モデルを用いて、前記答案セグメント、前記パラグラフテキスト、及び前記質問において復号化された前のＮ（Ｎは１以上である）個の単語に基づいて、前記予め設定されたシソーラスにおいて復号化を継続して確率が最大の単語を前記質問のＮ＋１番目の単語として取得することと、
前記Ｎ＋１番目の単語がエンドキャラクタであるか否か、又は現在得られているＮ＋１個の単語の全長が予め設定された長さ閾値に達しているか否かを判断することと、
肯定の場合に、復号化が終了したと判定し、前記Ｎ＋１個の単語を復号順でスプライシングして前記質問を得ることと、を含む
請求項１～４のいずれか１項に記載の方法。
トリプルサンプルの生成装置であって、
トリプルサンプルにおけるパラグラフテキストを取得する取得モジュールと、
前記パラグラフテキストから少なくとも１つの答案セグメントを抽出する答案抽出モジュールと、
前記パラグラフテキスト及び各前記答案セグメントに基づいて、予め訓練された語義表現モデルに基づいて訓練された事前に訓練された質問生成モデルを用いてそれぞれ対応する質問を生成して前記トリプルサンプルを得る質問生成モジュールと、を備える
装置。
前記答案抽出モジュールは、
予め設定された答案セグメント抽出ルールに従って、前記パラグラフテキストから前記少なくとも１つの答案セグメントを抽出する、
請求項６に記載の装置。
前記答案抽出モジュールは、
予め訓練された語義表現モデルに基づいて訓練された事前に訓練された答案選択モデルを用いて、前記パラグラフテキストから前記少なくとも１つの答案セグメントを抽出する、
請求項６に記載の装置。
前記答案抽出モジュールは、
前記答案選択モデルを用いて、前記パラグラフテキストにおけるすべての候補答案セグメントが答案セグメントとなり得る確率を予測し、
前記全ての候補答案セグメントから確率が最大の少なくとも１つを前記少なくとも１つの答案セグメントとして選択する、
請求項８に記載の装置。
前記質問生成モジュールは、
各前記答案セグメントについて、前記質問生成モデルを用いて、前記答案セグメントと前記パラグラフテキストとに基づいて、予め設定されたシソーラスにおいて復号化して確率が最大となる単語を前記質問の１番目の単語として取得する第１復号ユニットと、
前記質問生成モデルを用いて、前記答案セグメント、前記パラグラフテキスト、及び前記質問において復号化された前のＮ（Ｎは１以上である）個の単語に基づいて、前記予め設定されたシソーラスにおいて復号化を継続して最も確率の高い単語を前記質問のＮ＋１番目の単語として取得する第２復号ユニットと、
前記Ｎ＋１番目の単語がエンドキャラクタであるか否か、又は現在得られているＮ＋１個の単語の全長が予め設定された長さ閾値に達しているか否かを判定する検出ユニットと、
肯定の場合に、復号化が終了したと判定し、前記Ｎ＋１個の単語を復号順でスプライシングして前記質問を得る生成ユニットと、を備える
請求項６～９のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～５のいずれか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項１～５のいずれか１項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～５のいずれか１項に記載の方法を実行させるためのプログラム。