JP2021108115A

JP2021108115A - 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2021108115A
Application number: JP2020204323A
Authority: JP
Inventors: リュウ，カイ; Kai Liu; シェ，チャオチャオ; Qiaoqiao She
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2020-12-09
Publication date: 2021-07-29
Anticipated expiration: 2040-12-09
Also published as: CN111160568B; CN111160568A; JP7079311B2; US11410084B2; US20210201196A1

Abstract

【課題】機械読解モデルのトレーニングにおいて、モデル入力に他のソースからのより多くのデータを追加することにより、読解モデルの難易度及びトレーニングの複雑さを増大させない、モデルのノイズに抵抗する能力を強化するような方式を提供する。【解決手段】機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するステップ１０１と、第１の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出するステップ１０２と、予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップ１０３と、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップ１０４と、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップ１０５と、を含む。【選択図】図１

Description

本発明は、コンピュータ技術の分野に関し、具体的には自然言語処理（ＮａtｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）技術の分野に関し、特に機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体に関する。

いずれのノイズがない場合に、機械読解モデルは所定の段落において質問の回答を正しく見つけることができる。現在、機械読解モデルの堅牢性を向上させるために、通常モデル入力に他のソースからのより多くのデータを追加することにより、例えば、強力な言語モデルを入力として追加して、機械読解モデルがノイズに抵抗する能力を強化する。

しかしながら、この方式は、読解モデルを修正する必要があるので、読解モデルの難易度及びトレーニングの複雑さを増大させる。

本発明によって提供される機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体は、関連技術において、モデル入力に他のソースからのより多くのデータを追加することにより、モデルのノイズに抵抗する能力を強化するような方式が、読解モデルの難易度及びトレーニングの複雑さを増大させることを解决するものである。

本発明の一態様の実施例によって提供される機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングし、中間モデルを生成するステップと、第１の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップと、予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップと、前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップと、前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップと、を含む。

本発明の実施例の機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成し、第１の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、その後、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、次にノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、さらにノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。当該方法は、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。

本発明の別の態様の実施例によって提供される機械読解モデルのトレーニング装置は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するための第１の生成モジュールと、第１の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するための抽出モジュールと、予め設定されたノイズ生成方法に従ってノイズテキストを生成するための第２の生成モジュールと、前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するための取得モジュールと、前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するための第３の生成モジュールと、を含む。

本発明の実施例の機械読解モデルのトレーニング装置は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成し、第１の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。これにより、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。

本発明の別の態様の実施例によって提供される電子機器は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行された場合、前記少なくとも一つのプロセッサが、上記一態様の実施例に記載の機械読解モデルのトレーニング方法を実行する。

本発明の別の態様の実施例によりコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記一態様の実施例に記載の機械読解モデルのトレーニング方法を実行させる。

上記の出願の実施例は、以下のような利点又は有益な効果を有する。上記機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、ノイズサンプルを使用して中間モデルに対して補正トレーニングを行って、機械読解モデルを取得する。機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングする技術手段を採用したので、モデルの入力に、より多くの他のソースからのデータを追加することにより、モデルのノイズに抵抗する能力を向上させるような方式が、読解モデルの難易度及びトレーニングの複雑さを増大する技術的課題を克服し、さらにモデルを修正する必要がなく、人間の関与の必要がなく、コストが低い技術効果を達成する。

上記の選択可能な方式が有する他の効果については、以下に具体的な実施例を組み合わせて説明する。

図面は、本技術案をよりよく理解するために使用されており、本発明を限定するものではない。

本発明の実施例によって提供される機械読解モデルのトレーニング方法の概略フローチャートである。本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。本発明の実施例によって提供される重み行列を更新する概略図である。本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。本発明の実施例によって提供される機械読解モデルのトレーニング装置の概略構成図である。本発明の実施例による機械読解モデルのトレーニング方法の電子機器のブロック図である。

以下に、図面を組み合わせて本発明の例示的な実施例を説明し、理解を容易にするために、その中には本発明の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下に、図面を参照して、本発明の実施例の機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体を説明する。

本発明の実施例は、関連技術において、モデル入力に他のソースからのより多くのデータを追加することにより、モデルのノイズに抵抗する能力を向上させるような方式が、読解モデルの難易度及びトレーニングの複雑さを増大させる技術的課題に対して、機械読解モデルのトレーニング方法を提供する。

本発明の実施例の機械読解モデルのトレーニング方法は、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、ノイズサンプルを使用して中間モデルに対して補正トレーニングを行って、機械読解モデルを取得することにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。

図１は、本発明の実施例によって提供される機械読解モデルのトレーニング方法の概略フローチャートである。

本発明の実施例の機械読解モデルのトレーニング方法は、本発明の実施例によって提供される機械読解モデルのトレーニング装置によって実行されることができる。当該装置は、電子機器に構成され、モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、モデルをトレーニングして、機械読解モデルの堅牢性を向上させることができる。

図１に示すように、当該機械読解モデルのトレーニング方法は、以下のようなステップを含む。
ステップ１０１において、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成する。

本実施例において、サンプルデータには多数のサンプルが含まれ、各サンプルは{ｑ,ｐ,ｓ_ｇ}として表すことができ、ここで、ｑは質問であり、ｐは段落であり、ｓ_ｇは段落ｐにおける質問ｑの位置情報である。一般的に、ｐにおいる回答は連続するテキストとして表され、回答は一般的にｓ_ｇ＝［ｓｔａｒｔ，ｅｎｄ］のテキストスパンの情報として表され、ｓｔａｒｔは連続区間の開始位置であり、ｅｎｄは連続区間の終了位置である。

具体的には、取得されたサンプルデータ内の全てのサンプルを使用して、初期モデルをトレーニングすることができ、サンプルデータの効果が最適である場合に、トレーニングを停止し、中間モデルを取得する。具体的にトレーニングする場合、ニューラルネットワークの逆伝播アルゴリズム、ランダム勾配降下法などを含むがこれらに限定されない方法を採用して、サンプルデータに基づいてモデルパラメーターを調整することができる。

ステップ１０２において、第１の予め設定されたルールに従って、サンプルデータから処理対象サンプルを抽出する。

モデルのノイズに抵抗する能力を向上させるために、本実施例において、サンプルデータから特定量のサンプルを抽出して、処理対象サンプルとすることができる。

サンプルデータの数がＮである場合、抽出時にＭ個のサンプルを抽出して、処理対象サンプルとすることができ、ここで、ＭはＮより小さい。

具体的に抽出する場合、サンプルデータからランダムにいくつかのサンプルを抽出して、処理対象サンプルとすることができる。又は、ノイズの強度を向上させるために、サンプルデータ内の各サンプルに対応する回答のマーク位置に基づいて、回答のマーク位置が異なる特定の数のサンプルを抽出して、処理対象サンプルとすることもできる。つまり、段落における回答の位置が異なるサンプルを抽出して、処理対象サンプルとすることができる。

実際のアプリケーションにおいて、サンプルデータの数の５％のサンプルを処理対象サンプルとして抽出すればよく、もちろんニーズに応じて抽出される処理対象サンプルの数を決定することもできる。

ステップ１０３において、予め設定されたノイズ生成方法に従ってノイズテキストを生成する。

本実施例において、予め設定されたノイズ生成方法に基づいてノイズテキストを生成することができる。ここでのノイズテキストは、当該ノイズテキストがｐに存在する場合に、中間モデルが正しい回答の位置ｓ_ｇを正しく予測できないようにする。

ノイズテキストを生成する場合に、各処理対象サンプルごとに１つのノイズテキストを生成することができ、全ての処理対象サンプルに一つのノイズテキストを生成することもでき、すなわち全ての処理対象サンプルが同じ一つのノイズテキストを有する。これにより、トレーニング速度を向上させることができる。

ステップ１０４において、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得する。

ノイズテキストを生成した後、ノイズテキストをそれぞれ各処理対象サンプルに追加し、追加された処理対象サンプルに基づいて、ノイズサンプルを取得する。各処理対象サンプルごとに対応するノイズサンプルを生成した場合、各ノイズサンプルを対応する処理対象サンプルに追加し、全ての処理対象サンプルが一つのノイズサンプルを有する場合、ノイズサンプルをそれぞれ各処理対象サンプルに追加する。

ノイズテキストを処理対象サンプルに追加した後、ノイズテキストが追加された処理対象サンプルを取得し、ノイズテキストの追加位置及び処理対象サンプルにおける回答のマーク位置に基づいて、ノイズテキストが追加された処理対象サンプルにおける回答のマーク位置を決定し、ノイズサンプルを取得する。ここで、ノイズサンプルの数は、処理対象サンプルの数と同じにすることができ、処理対象サンプルの数よりも大きくすることもできる。

例えば、処理対象サンプルが｛ｑ，ｐ，ｓ_ｇ｝であり、ノイズテキストＡをｐに追加した後、段落ｐ’を取得し、ノイズテキストが｛ｑ，ｐ’，ｓ_ｇ’｝であり、ここで、ｓ_ｇ’はノイズテキストＡを插入することによって元の回答がオフセットされた後の区間である。

本実施例において、ノイズテキストは処理対象サンプル内の段落の最初、中間、又は終わりに插入されることができる。しかしながら、ノイズテキストは回答が存在する区間に插入されることができなく、つまり、回答に影響することができない。

例えば、処理対象サンプルが｛ｑ，ｐ，ｓ_ｇ｝であり、ｓ_ｇ＝［ｓｔａｒｔ，ｅｎｄ］であり、ｓｔａｒｔが回答の開始位置であり、ｅｎｄが回答の終了位置であり、ノイズテキストＡの長さがｈであると、ノイズテキストの插入位置がｓｔａｒｔ−ｈ以下であるか、又はｅｎｄ以上である必要がある。例えば、回答は段落における１５〜２０番目の文字であり、ノイズテキストの長さは５であるので、ノイズテキストの插入位置が１０番目の文字の前、又は２０番目の文字の後にある必要があり、ノイズテキストが回答に插入されないことを保証する。

ステップ１０５において、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。

中間モデルをトレーニングする場合、中間モデルによって出力された回答予測位置と、ノイズサンプルにおける回答のマーク位置とのマッチング度に基づいて、補正する必要があるか否かを判断する。マッチング度が予め設定された閾値よりも小さい場合、補正する必要があり、ノイズサンプルを使用して中間モデルを補正する。又は、間違ったマーク位置を予め設定した後、中間モデルによって出力された回答予測位置と、間違ったマーク位置とのマッチング度に基づいて、マッチング度が予め設定された閾値よりも小さい場合、補正する必要がない。

又は、トレーニングの回数が指定された回数に達するか、又はトレーニングに用いられるノイズサンプルが特定の数に達する場合、補正トレーニングが終了する。具体的な補正トレーニングの終了条件は、ニーズに応じて設定することができる。

本発明の一つの実施例において、図２に示す方法によりノイズテキストを生成することができる。図２は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。

図２に示すように、上記の予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップは、以下のようなステップを含む。
ステップ２０１において、中間モデルに対応する辞書と予め設定された重み行列とに基づいて、ノイズベクトル内の各要素の値を算出する。

本実施例において、ノイズベクトルの長さは予め設定された重み行列の行数と同じであってもよい。具体的には、予め設定された重み行列内の要素値と辞書内の文字に対応するベクトルとに基づいて、ノイズベクトル内の各要素の値を算出することができる。

一実施方式として、予め設定された重み行列にＬ×Ｎ個の要素が含まれていると仮定し、即ち重み行列は、Ｌ行とＫ列である行列である。ノイズベクトル内の各要素の値を算出する場合、予め設定された重み行列内の第ｉ行の要素の値と、中間モデルに対応する辞書内の最初のＫ個の文字にそれぞれ対応するベクトル値とに基づいて、ノイズベクトル内のｉ番目の要素の値を決定することができる。具体的に以下の式に示すようである。

ここで、ｅ_ｉ’はノイズベクトルｅ’内のｉ番目の要素の値を示し、ｖ_ｊは辞書内のｊ番目の文字に対応するベクトル値を示し、ｗ_ｉｊはｊ番目の文字におけるノイズベクトル内のｉ番目の要素の値ｅ_ｉ’の重みの大きさを示す。これから分かるように、予め設定された重み行列Ｗ_Ｌ×Ｋ内の第ｉ行の要素の値は、辞書内の最初のＫ個の文字におけるノイズベクトル内のｉ番目の要素の値それぞれの重みである。

ステップ２０２において、ノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成する。

ノイズベクトル内の各要素の値を取得した後、各要素の値に基づいて、ノイズベクトルを取得することができる。次に、ノイズベクトルをデコードして、対応するノイズテキストを取得することができる。

本発明の実施例において、中間モデルに対応する辞書と予め設定された重み行列とに基づいて、ノイズベクトル内の各要素の値を算出し、ノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成することができる。

実際のアプリケーションにおいて、上記方式により取得されたノイズベクトル又はノイズテキストが処理対象サンプルに追加され、ノイズテキストが段落に存在する場合、中間モデルが正しい回答の位置を正しく予測できない目的を達成できなく、機械読解モデルのノイズに抵抗する能力を強化する目的を達成できない。これに基づいて、本発明の一つの実施例において、ノイズベクトルを取得した後、ノイズベクトルが要件を満たしているか否かを判断し、要件を満たしていない場合、ノイズベクトルを再生成することができる。以下に、図３を参照して説明し、図３は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。

図３に示すように、上記のノイズベクトル内の各要素の値を算出した後、以下のようなステップをさらに含む。
ステップ３０１において、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成する。

ノイズベクトル内の各要素の値を算出した後、ノイズベクトルを取得することができ、その後、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入し、挿入して取得されたベクトルを解析対象ベクトルと呼ぶ。

例えば、処理対象サンプル内の段落がｐであり、段落にｎ個の文字が含まれると、段落に対応するテキストベクトルｅ_ｐはｅ_ｐ＝ｅ_ｐ１ｅ_ｐ２ｅ_ｐ３Ｌｅ_ｐｎとして表すことができる。ここで、ｅ_ｐ１は段落内の１番目の文字に対応するベクトルを示し、ノイズテキストベクトルｅ’＝［ｅ_１’，ｅ_２’，Ｌ，ｅ_ｋ’］をｅ_ｐに插入して、取得された解析対象ベクトルは

である。ここで、ｋはｅ_ｐにおけるノイズベクトルｅ’＝［ｅ_１’，ｅ_２’，Ｌ，ｅ_ｋ’］の插入位置を示す。

ステップ３０２において、ノイズベクトルの插入位置と処理対象サンプル内の回答の初期マーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置を決定する。

解析対象ベクトルを取得した後、処理対象サンプル内の回答の初期マーク位置に基づいて、処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置を決定することができる。次に、ノイズベクトルの插入位置と処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置と、解析対象ベクトルにおける回答に対応するベクトルの位置とを決定することができる。

ステップ３０３において、中間モデルを使用して解析対象ベクトルをエンコード及びデコード処理して、解析対象ベクトル内の回答の予測位置を決定する。

解析対象ベクトル内の回答のマーク位置を決定した後、解析対象ベクトルと質問に対応するベクトルとを中間モデルに入力し、中間モデルによって回答の位置を予測する。具体的には、中間モデルを使用して解析対象ベクトルと質問に対応するベクトルとをエンコード及びデコード処理し、モデルが解析対象ベクトル内の回答の予測位置を出力する。

ステップ３０４において、解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度が閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と調整マーク位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成する。

回答の予測位置を取得した後、解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度を算出し、具体的に既存のマッチングを算出する方法を使用することができる。解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度が閾値以上である場合、ノイズベクトルがモデルのノイズに抵抗する能力にほとんど影響しないことを示し、予め設定された重み行列を更新して、更新された重み行列及び辞書に基づいて、ノイズベクトルを再生成する。

次に、再生成されたノイズベクトルに対して上記のステップ３０１〜３０４を繰り返して、回答の予測位置とマーク位置とのマッチング度が依然として閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置とマーク位置とのマッチング度が閾値より小さくなるまで、引き続き重み行列を更新して、ノイズベクトルを再生成する。この時、取得されたノイズベクトルはノイズテキストを生成することに用いられる。

重み行列を更新する場合、初期モデルによって予め設定された重み行列を調整し、具体的にサンプルデータを使用して初期モデルを逆にトレーニングし、トレーニングが特定のレベルに達した時に取得された重み行列を、更新された重み行列とすることができる。

ノイズベクトルを決定する別の実施方式として、解析対象ベクトルにおける一つ以上の無効な回答の初期マーク位置を指定し、その後、中間トレーニングモデルを使用して、無効な回答の予測位置を取得し、無効な回答の予測位置とマーク位置とのマッチング度が閾値より小さい場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された無効な回答の予測位置とマーク位置とのマッチング度が閾値以上になるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成することができる。この時、取得されたノイズベクトルはノイズテキストを生成することに用いられる。

重み行列を更新する場合、初期トレーニングモデルを使用して予め設定された重みを調整し、具体的に、サンプルデータを使用して初期モデルをトレーニングし、トレーニングが特定のレベルに達した時に取得された重み行列を、更新された重み行列とすることができる。

本発明の実施例において、ノイズベクトル内の各要素の値を算出した後、中間トレーニングモデルとノイズベクトルが插入された処理対象サンプルに対応するテキストベクトルとに基づいて、中間モデルが予測する回答の位置と回答のマーク位置とのマッチング度が閾値の要件を満たしているか否かを決定し、閾値以上の場合、即ち要件を満たしていない場合、中間トレーニングモデルが予測する回答の位置と回答のマーク位置とのマッチング度が閾値より小さくなるまで、重み行列を更新して、ノイズベクトルを再生成する。これにより、モデルのノイズに抵抗する能力を向上させるノイズベクトルを取得することができる。

以下に、図４を参照して上記の重み行列を更新する方法を説明する。図４は、本発明の実施例によって提供される重み行列を更新する概略図である。

図４において、質問ｑと、回答が存在する段落ｐと、辞書とをベクトル化し、対応するベクトルｅ_ｑと、ｅ_ｐと、Ｖとをそれぞれ取得する。予め設定された重み行列ｗ及びベクトルＶを使用して、ノイズベクトルｅ’を取得し、その後、ノイズベクトルｅ’をテキストベクトルｅ_ｐのｋ位置に插入し、即ちノイズベクトルをｋとｋ＋１との間に插入する。次に、ベクトルｅ_ｑ及びノイズベクトルが插入されたｅ_ｐを中間モデルに入力し、回答の位置を予測する。ここで、ｓ_ｇは正しい回答のマーク位置を示し、ｓ_ｄは指定された無効な回答のマーク位置を示す。

指定された正しい回答ｓ_ｇに基づいて、予測された回答の位置と正しい回答の位置とのマッチング度が閾値以上である場合、予測された回答の位置と正しい回答の位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成する。又は、無効な回答のマーク位置ｓ_ｄに基づいて、予測された回答の位置と無効な回答の位置とのマッチング度が閾値より小さいか否かを判断し、はいの場合、予測された回答の位置と無効な回答の位置とのマッチング度が閾値以上になるまで、重み行列を更新して、ノイズベクトルを再生成する。

回答の正確性を保証するために、本発明の一つの実施例において、上記のノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入する前に、まずノイズベクトルの插入位置を決定する。

具体的には、処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置［Ｓ_ｓ，Ｓ_ｅ］に基づいて、ノイズベクトルの插入位置Ｓ_ｉがＳ_ｓ−ｘ以下であるか、又は、Ｓ_ｉがＳ_ｅ以上であるかを決定する。ここで、Ｓ_ｓは回答の開始位置であり、Ｓ_ｅは回答の終了位置であり、ｘはノイズベクトルの長さである。

ここで、Ｓ_ｓはテキストベクトルにおける回答に対応するベクトルの開始行数であり、Ｓ_ｅは終了行数である。つまり、Ｓ_ｓとＳ_ｅとの間の要素で構成されるベクトルが回答に対応するベクトルである。

これにより、ノイズベクトルを插入する場合、ノイズベクトルを回答に対応するベクトルの前または後に插入し、回答に対応するベクトルに插入して質問の回答に影響することを回避する。

本発明の一つの実施例において、上記のノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成する場合、図５に示す方式により、ノイズテキストを生成することができる。図５は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。

図５に示すように、上記のノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成するステップは、以下のようなステップを含む。
ステップ４０１において、予め設定された重み行列から、ノイズベクトル内の各要素に対応する重みベクトルを取得する。

本実施例において、予め設定された重み行列内の毎行に対応する要素を、ノイズベクトル内の各要素に対応する重みベクトルとすることができる。

例えば、重み行列がＬ×Ｋ行列であると、重み行列内の第１行から第Ｌ行までの各行の要素で構成されるベクトルが、それぞれノイズベクトル内の各要素に対応する重みベクトルとすることができる。例えば、ノイズベクトルの１番目の要素に対応する重みベクトルは、重み行列内の第１行の要素で構成されるベクトルである。

ステップ４０２において、各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする。

重み行列はＬ×Ｋ行列であり、ノイズベクトルにはＬ個の要素が含まれると仮定し、ノイズベクトル内のｉ番目の要素に対応する重みベクトルは［Ｗ_ｉ1，Ｗ_ｉ２，Ｗ_ｉ３，…，Ｗ_ｉＬ］として表すことができ、Ｗ_ｉjの値が最大の場合、辞書のj番目の文字をノイズテキスト内のｉ番目の文字とする。

例えば、ノイズベクトル内の２番目の要素に対応する重みベクトルにおいて、Ｗ_２４の値が最大であり、辞書内の４番目の文字をノイズテキストの２番目の文字とすることができる。また、例えば、ノイズベクトル内の４番目の要素に対応する重みベクトルにおいて、Ｗ_４６の値が最大であり、辞書内の６番目の文字をノイズテキスト内の４番目の文字とすることができる。

これにより、ノイズベクトルの各要素を決定する場合、当該要素に対応する重みベクトル内の最大値の位置に基づいて、辞書の対応する位置から取り出した文字を対応する位置の文字として使用することで、ノイズテキストを取得することができる。

本発明の一つの実施例において、上記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成する場合、以下のような方式によりノイズテキストを生成することができる。

具体的には、ノイズベクトルの各要素に対して、要素の値と中間モデルに対応する辞書の各文字に対応するベクトル値との間のマッチング度を算出して、マッチング度が最高である文字を当該要素の位置に対応する文字とすることができる。

つまり、中間モデルに対応する辞書から、文字に対応するベクトル値と、ノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のｊ番目の位置の文字とする。これにより、ノイズベクトルの各要素の値及び辞書の各文字に対応するベクトル値に基づいて、各要素に対応する文字を決定することができ、さらにノイズテキストを取得する。

上記の実施例を実現するために、本発明の実施例は、装置をさらに提供する。図６は、本発明の実施例によって提供される機械読解モデルのトレーニング装置の概略構成図である。

図６に示すように、当該機械読解モデルのトレーニング装置５００は、第１の生成モジュール５１０と、抽出モジュール５２０と、第２の生成モジュール５３０と、取得モジュール５４０と、第３の生成モジュール５５０と、を含む。

第１の生成モジュール５１０は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するし、抽出モジュール５２０は、第１の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、第２の生成モジュール５３０は、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、取得モジュール５４０は、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、第３の生成モジュール５５０は、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。

本発明の実施例の一つの可能な実現方式において、上記抽出モジュール５２０は、具体的に、サンプルデータの数Ｎに基づいて、サンプルデータから抽出される処理対象サンプルの数Ｍを決定し、ここで、ＭはＮより小さく、又は、サンプルデータからランダムに処理対象サンプルを抽出し、又は、サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出する。

本発明の実施例の一つの可能な実現方式において、上記第２の生成モジュール５３０は、中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するための算出ユニットと、ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するための第１の生成ユニットと、を含む。

本発明の実施例の一つの可能な実現方式において、予め設定された重み行列にはＬ×Ｋ個の要素が含まれ、上記算出ユニットは、具体的に、予め設定された重み行列内の第ｉ行の要素の値と、中間モデルに対応する辞書内の最初のＫ個の文字にそれぞれ対応するベクトル値とに基づいて、ノイズベクトルのｉ番目の要素の値を決定する。

本発明の実施例の一つの可能な実現方式において、上記第２の生成モジュール５３０は、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するための第２の生成ユニットと、ノイズベクトルの插入位置と処理対象サンプル内の回答の初期のマーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置を決定するための第１の決定ユニットと、中間モデルを使用して解析対象ベクトルをエンコード及びデコード処理して、解析対象ベクトル内の回答の予測位置を決定するための第２の決定ユニットと、解析対象ベクトル内の回答の予測位置とマーク位置のマッチング度が閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置とマーク位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成するための更新ユニットと、をさらに含む。

本発明の実施例の一つの可能な実現方式において、当該装置は、処理対象サンプルに対応するテキストベクトル内の回答のマーク位置［Ｓ_ｓ，Ｓ_ｅ］に基づいて、ノイズベクトルの插入位置Ｓ_ｉがＳ_ｓ−ｘ以下であるか、又は、Ｓ_ｉがＳ_ｅ以上であると決定するための決定モジュールをさらに含むことができる。ここで、Ｓ_ｓは回答の開始位置であり、Ｓ_ｅは回答の終了位置であり、ｘはノイズベクトルの長さである。

本発明の実施例の一つの可能な実現方式において、上記第１の生成ユニットは、具体的に、予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得し、各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする。

本発明の実施例の一つの可能な実現方式において、上記第１の生成ユニットは、具体的に、中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のｊ番目の位置の文字とする。

なお、上記の機械読解モデルのトレーニング方法の実施例の説明は、当該実施例の機械読解モデルのトレーニング装置にも適用され、ここでは説明を省略する。

本発明の実施例によれば、本発明は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図７に示すように、それは本発明の実施例の機械読解モデルのトレーニング方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び／又は要求される本発明の実現を制限することを意図したものではない。

図７に示すように、当該電子機器は、一つ以上のプロセッサ６０１と、メモリ６０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施方式では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作を提供することができる（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）。図７では、一つのプロセッサ６０１を例とする。

メモリ６０２は、本発明によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも一つのプロセッサによって実行される命令が記憶され、前記少なくとも一つのプロセッサが本発明によって提供される機械読解モデルのトレーニング方法を実行することができるようにする。本発明の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本発明によって提供される機械読解モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている。

メモリ６０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本発明の実施例における機械読解モデルのトレーニング方法に対応するプログラム命令／モジュール（例えば、図６に示す第１の生成モジュール５１０、抽出モジュール５２０、第２の生成モジュール５３０、取得モジュール５４０、及び第３の生成モジュール５５０）のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ６０１は、メモリ６０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における機械読解モデルのトレーニング方法を実現する。

メモリ６０２は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、機械読解モデルのトレーニング方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ６０２は、プロセッサ６０１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して機械読解モデルのトレーニング方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

機械読解モデルのトレーニング方法の電子機器は、入力装置６０３と出力装置６０４とをさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バス又は他の方式を介して接続することができ、図７では、バスを介して接続することを例とする。

入力装置６０３は、入力された数字又は文字情報を受信することができ、機械読解モデルのトレーニング方法の電子機器のユーザ設定及び機能制御に関するキー信号の入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施方式で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ以上のコンピュータプログラムで実施されることができ、当該一つ以上のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータでここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本発明の実施例の発明によれば、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。

本発明の説明において、「第１」、「第２」の用語は目的を説明することだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示するものと理解してはいけない。そこで、「第１」、「第２」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確に且つ具体的に限定されていない限り、「複数」とは、二つ、三つなどの二つ以上のことを意味する。

本発明の実施例を示して説明したが、上記実施例は例示するものであって、本発明を制限するものと理解してはいけない。当業者は、本発明の原理及び主旨から逸脱することなく、これらの実施例に対して各種の変更、修正、切り替え及び変形を行うことができる。

Claims

機械読解モデルのトレーニング方法であって、
取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するステップと、
第１の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップと、
予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップと、
前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップと、
前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップと、を含む、
ことを特徴とする機械読解モデルのトレーニング方法。
前記予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップは、
前記サンプルデータの数Ｎに基づいて、前記サンプルデータから抽出される処理対象サンプルの数Ｍを決定するステップであって、ＭはＮより小さいステップ、
又は、
前記サンプルデータからランダムに処理対象サンプルを抽出するステップ、
又は、
前記サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出するステップ、を含む、
ことを特徴とする請求項１に記載の機械読解モデルのトレーニング方法。
前記予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップは、
前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するステップと、
前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップと、を含む、
ことを特徴とする請求項１に記載の機械読解モデルのトレーニング方法。
前記予め設定された重み行列にはＬ×Ｋ個の要素が含まれ、
前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するステップは、
予め設定された重み行列内の第ｉ行の要素の値と、前記中間モデルに対応する辞書内の最初のＫ個の文字にそれぞれ対応するベクトル値とに基づいて、前記ノイズベクトルのｉ番目の要素の値を決定するステップを含む、
ことを特徴とする請求項３に記載の機械読解モデルのトレーニング方法。
前記ノイズベクトルの各要素の値を算出した後に、
前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するステップと、
前記ノイズベクトルの插入位置及び前記処理対象サンプル内の回答の初期マーク位置に基づいて、前記解析対象ベクトル内の回答のマーク位置を決定するステップと、
前記中間モデルを使用して前記解析対象ベクトルをエンコード及びデコード処理して、前記解析対象ベクトル内の回答の予測位置を決定するステップと、
前記解析対象ベクトル内の回答の予測位置と前記マーク位置とのマッチング度が閾値以上である場合、前記中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と前記マーク位置とのマッチング度が閾値より小さくなるまで、前記予め設定された重み行列を更新して、ノイズベクトルを再生成するステップと、をさらに含む、
ことを特徴とする請求項４に記載の機械読解モデルのトレーニング方法。
前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入する前に、
前記処理対象サンプルに対応するテキストベクトル内の回答のマーク位置［Ｓ_ｓ，Ｓ_ｅ］に基づいて、前記ノイズベクトルの插入位置Ｓ_ｉがＳ_ｓ−ｘ以下であるか、又は、Ｓ_ｉがＳ_ｅ以上であると決定するステップをさらに含み、Ｓ_ｓは回答の開始位置であり、Ｓ_ｅは回答の終了位置であり、ｘはノイズベクトルの長さである、
ことを特徴とする請求項５に記載の機械読解モデルのトレーニング方法。
前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップは、
前記予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得するステップと、
各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とするステップと、を含む、
ことを特徴とする請求項３〜６のいずれかに記載の機械読解モデルのトレーニング方法。
前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップは、
前記中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のｊ番目の位置の文字とするステップを含む、
ことを特徴とする請求項３〜６のいずれかに記載の機械読解モデルのトレーニング方法。
機械読解モデルのトレーニング装置であって、
取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するための第１の生成モジュールと、
第１の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するための抽出モジュールと、
予め設定されたノイズ生成方法に従ってノイズテキストを生成するための第２の生成モジュールと、
前記ノイズテキストをそれぞれ各処理対象サンプルに追加し、ノイズサンプルを取得するための取得モジュールと、
前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するための第３の生成モジュールと、を含む、
ことを特徴とする機械読解モデルのトレーニング装置。
前記抽出モジュールは、具体的に、
前記サンプルデータの数Ｎに基づいて、前記サンプルデータから抽出される処理対象サンプルの数Ｍを決定し、ＭはＮより小さく、
又は、
前記サンプルデータからランダムに処理対象サンプルを抽出し、
又は、
前記サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出する、
ことを特徴とする請求項９に記載の機械読解モデルのトレーニング装置。
前記第２の生成モジュールは、
前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するための算出ユニットと、
前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するための第１の生成ユニットと、を含む、
ことを特徴とする請求項９に記載の機械読解モデルのトレーニング装置。
前記予め設定された重み行列にはＬ×Ｋ個の要素が含まれ、
前記算出ユニットは、具体的に、
予め設定された重み行列内の第ｉ行の要素の値と、前記中間モデルに対応する辞書内の最初のＫ個の文字にそれぞれ対応するベクトル値とに基づいて、前記ノイズベクトル内のｉ番目の要素の値を決定する、
ことを特徴とする請求項１１に記載の機械読解モデルのトレーニング装置。
前記第２の生成モジュールは、
前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するための第２の生成ユニットと、
前記ノイズベクトルの插入位置及び前記処理対象サンプル内の回答の初期マーク位置に基づいて、前記解析対象ベクトル内の回答のマーク位置を決定するための第１の決定ユニットと、
前記中間モデルを使用して前記解析対象ベクトルをエンコード及びデコード処理して、前記解析対象ベクトル内の回答の予測位置を決定するための第２の決定ユニットと、
前記解析対象ベクトル内の回答の予測位置と前記マーク位置とのマッチング度が閾値以上である場合、前記中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と前記マーク位置とのマッチング度が閾値より小さくなるまで、前記予め設定された重み行列を更新して、ノイズベクトルを再生成するための更新ユニットと、をさらに含む、
ことを特徴とする請求項１２に記載の機械読解モデルのトレーニング装置。
前記処理対象サンプルに対応するテキストベクトル内の回答のマーク位置［Ｓ_ｓ，Ｓ_ｅ］に基づいて、前記ノイズベクトルの插入位置Ｓ_ｉがＳ_ｓ−ｘ以下であるか、又は、Ｓ_ｉがＳ_ｅ以上であると決定するための決定モジュールをさらに含み、Ｓ_ｓは回答の開始位置であり、Ｓ_ｅは回答の終了位置であり、ｘはノイズベクトルの長さである、
ことを特徴とする請求項１３に記載の機械読解モデルのトレーニング装置。
前記第１の生成ユニットは、具体的に、
前記予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得し、
各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする、
ことを特徴とする請求項１１〜１４のいずれかに記載の機械読解モデルのトレーニング装置。
前記第１の生成ユニットは、具体的に、
前記中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のｊ番目の位置の文字とする、
ことを特徴とする請求項１１〜１４のいずれかに記載の機械読解モデルのトレーニング装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項１〜８のいずれかに記載の機械読解モデルのトレーニング方法を実行する、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜８のいずれかに記載の機械読解モデルのトレーニング方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１〜８のいずれかに記載の機械読解モデルのトレーニング方法を実行させる、
ことを特徴とするコンピュータプログラム。