JP2021108115A - 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 - Google Patents

機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021108115A
JP2021108115A JP2020204323A JP2020204323A JP2021108115A JP 2021108115 A JP2021108115 A JP 2021108115A JP 2020204323 A JP2020204323 A JP 2020204323A JP 2020204323 A JP2020204323 A JP 2020204323A JP 2021108115 A JP2021108115 A JP 2021108115A
Authority
JP
Japan
Prior art keywords
noise
vector
model
machine reading
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020204323A
Other languages
English (en)
Other versions
JP7079311B2 (ja
Inventor
リュウ,カイ
Kai Liu
シェ,チャオチャオ
Qiaoqiao She
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021108115A publication Critical patent/JP2021108115A/ja
Application granted granted Critical
Publication of JP7079311B2 publication Critical patent/JP7079311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Abstract

【課題】機械読解モデルのトレーニングにおいて、モデル入力に他のソースからのより多くのデータを追加することにより、読解モデルの難易度及びトレーニングの複雑さを増大させない、モデルのノイズに抵抗する能力を強化するような方式を提供する。【解決手段】機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するステップ101と、第1の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出するステップ102と、予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップ103と、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップ104と、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップ105と、を含む。【選択図】図1

Description

本発明は、コンピュータ技術の分野に関し、具体的には自然言語処理(Natural Language Processing,NLP)技術の分野に関し、特に機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体に関する。
いずれのノイズがない場合に、機械読解モデルは所定の段落において質問の回答を正しく見つけることができる。現在、機械読解モデルの堅牢性を向上させるために、通常モデル入力に他のソースからのより多くのデータを追加することにより、例えば、強力な言語モデルを入力として追加して、機械読解モデルがノイズに抵抗する能力を強化する。
しかしながら、この方式は、読解モデルを修正する必要があるので、読解モデルの難易度及びトレーニングの複雑さを増大させる。
本発明によって提供される機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体は、関連技術において、モデル入力に他のソースからのより多くのデータを追加することにより、モデルのノイズに抵抗する能力を強化するような方式が、読解モデルの難易度及びトレーニングの複雑さを増大させることを解决するものである。
本発明の一態様の実施例によって提供される機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングし、中間モデルを生成するステップと、第1の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップと、予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップと、前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップと、前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップと、を含む。
本発明の実施例の機械読解モデルのトレーニング方法は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成し、第1の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、その後、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、次にノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、さらにノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。当該方法は、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
本発明の別の態様の実施例によって提供される機械読解モデルのトレーニング装置は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するための第1の生成モジュールと、第1の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するための抽出モジュールと、予め設定されたノイズ生成方法に従ってノイズテキストを生成するための第2の生成モジュールと、前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するための取得モジュールと、前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するための第3の生成モジュールと、を含む。
本発明の実施例の機械読解モデルのトレーニング装置は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成し、第1の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。これにより、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
本発明の別の態様の実施例によって提供される電子機器は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行された場合、前記少なくとも一つのプロセッサが、上記一態様の実施例に記載の機械読解モデルのトレーニング方法を実行する。
本発明の別の態様の実施例によりコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記一態様の実施例に記載の機械読解モデルのトレーニング方法を実行させる。
上記の出願の実施例は、以下のような利点又は有益な効果を有する。上記機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、ノイズサンプルを使用して中間モデルに対して補正トレーニングを行って、機械読解モデルを取得する。機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングする技術手段を採用したので、モデルの入力に、より多くの他のソースからのデータを追加することにより、モデルのノイズに抵抗する能力を向上させるような方式が、読解モデルの難易度及びトレーニングの複雑さを増大する技術的課題を克服し、さらにモデルを修正する必要がなく、人間の関与の必要がなく、コストが低い技術効果を達成する。
上記の選択可能な方式が有する他の効果については、以下に具体的な実施例を組み合わせて説明する。
図面は、本技術案をよりよく理解するために使用されており、本発明を限定するものではない。
本発明の実施例によって提供される機械読解モデルのトレーニング方法の概略フローチャートである。 本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。 本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。 本発明の実施例によって提供される重み行列を更新する概略図である。 本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。 本発明の実施例によって提供される機械読解モデルのトレーニング装置の概略構成図である。 本発明の実施例による機械読解モデルのトレーニング方法の電子機器のブロック図である。
以下に、図面を組み合わせて本発明の例示的な実施例を説明し、理解を容易にするために、その中には本発明の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下に、図面を参照して、本発明の実施例の機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体を説明する。
本発明の実施例は、関連技術において、モデル入力に他のソースからのより多くのデータを追加することにより、モデルのノイズに抵抗する能力を向上させるような方式が、読解モデルの難易度及びトレーニングの複雑さを増大させる技術的課題に対して、機械読解モデルのトレーニング方法を提供する。
本発明の実施例の機械読解モデルのトレーニング方法は、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、ノイズサンプルを使用して中間モデルに対して補正トレーニングを行って、機械読解モデルを取得することにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
図1は、本発明の実施例によって提供される機械読解モデルのトレーニング方法の概略フローチャートである。
本発明の実施例の機械読解モデルのトレーニング方法は、本発明の実施例によって提供される機械読解モデルのトレーニング装置によって実行されることができる。当該装置は、電子機器に構成され、モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、モデルをトレーニングして、機械読解モデルの堅牢性を向上させることができる。
図1に示すように、当該機械読解モデルのトレーニング方法は、以下のようなステップを含む。
ステップ101において、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成する。
本実施例において、サンプルデータには多数のサンプルが含まれ、各サンプルは{q,p,s}として表すことができ、ここで、qは質問であり、pは段落であり、sは段落pにおける質問qの位置情報である。一般的に、pにおいる回答は連続するテキストとして表され、回答は一般的にs=[start,end]のテキストスパンの情報として表され、startは連続区間の開始位置であり、endは連続区間の終了位置である。
具体的には、取得されたサンプルデータ内の全てのサンプルを使用して、初期モデルをトレーニングすることができ、サンプルデータの効果が最適である場合に、トレーニングを停止し、中間モデルを取得する。具体的にトレーニングする場合、ニューラルネットワークの逆伝播アルゴリズム、ランダム勾配降下法などを含むがこれらに限定されない方法を採用して、サンプルデータに基づいてモデルパラメーターを調整することができる。
ステップ102において、第1の予め設定されたルールに従って、サンプルデータから処理対象サンプルを抽出する。
モデルのノイズに抵抗する能力を向上させるために、本実施例において、サンプルデータから特定量のサンプルを抽出して、処理対象サンプルとすることができる。
サンプルデータの数がNである場合、抽出時にM個のサンプルを抽出して、処理対象サンプルとすることができ、ここで、MはNより小さい。
具体的に抽出する場合、サンプルデータからランダムにいくつかのサンプルを抽出して、処理対象サンプルとすることができる。又は、ノイズの強度を向上させるために、サンプルデータ内の各サンプルに対応する回答のマーク位置に基づいて、回答のマーク位置が異なる特定の数のサンプルを抽出して、処理対象サンプルとすることもできる。つまり、段落における回答の位置が異なるサンプルを抽出して、処理対象サンプルとすることができる。
実際のアプリケーションにおいて、サンプルデータの数の5%のサンプルを処理対象サンプルとして抽出すればよく、もちろんニーズに応じて抽出される処理対象サンプルの数を決定することもできる。
ステップ103において、予め設定されたノイズ生成方法に従ってノイズテキストを生成する。
本実施例において、予め設定されたノイズ生成方法に基づいてノイズテキストを生成することができる。ここでのノイズテキストは、当該ノイズテキストがpに存在する場合に、中間モデルが正しい回答の位置sを正しく予測できないようにする。
ノイズテキストを生成する場合に、各処理対象サンプルごとに1つのノイズテキストを生成することができ、全ての処理対象サンプルに一つのノイズテキストを生成することもでき、すなわち全ての処理対象サンプルが同じ一つのノイズテキストを有する。これにより、トレーニング速度を向上させることができる。
ステップ104において、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得する。
ノイズテキストを生成した後、ノイズテキストをそれぞれ各処理対象サンプルに追加し、追加された処理対象サンプルに基づいて、ノイズサンプルを取得する。各処理対象サンプルごとに対応するノイズサンプルを生成した場合、各ノイズサンプルを対応する処理対象サンプルに追加し、全ての処理対象サンプルが一つのノイズサンプルを有する場合、ノイズサンプルをそれぞれ各処理対象サンプルに追加する。
ノイズテキストを処理対象サンプルに追加した後、ノイズテキストが追加された処理対象サンプルを取得し、ノイズテキストの追加位置及び処理対象サンプルにおける回答のマーク位置に基づいて、ノイズテキストが追加された処理対象サンプルにおける回答のマーク位置を決定し、ノイズサンプルを取得する。ここで、ノイズサンプルの数は、処理対象サンプルの数と同じにすることができ、処理対象サンプルの数よりも大きくすることもできる。
例えば、処理対象サンプルが{q,p,s}であり、ノイズテキストAをpに追加した後、段落p’を取得し、ノイズテキストが{q,p’,s’}であり、ここで、s’はノイズテキストAを插入することによって元の回答がオフセットされた後の区間である。
本実施例において、ノイズテキストは処理対象サンプル内の段落の最初、中間、又は終わりに插入されることができる。しかしながら、ノイズテキストは回答が存在する区間に插入されることができなく、つまり、回答に影響することができない。
例えば、処理対象サンプルが{q,p,s}であり、s=[start,end]であり、startが回答の開始位置であり、endが回答の終了位置であり、ノイズテキストAの長さがhであると、ノイズテキストの插入位置がstart−h以下であるか、又はend以上である必要がある。例えば、回答は段落における15〜20番目の文字であり、ノイズテキストの長さは5であるので、ノイズテキストの插入位置が10番目の文字の前、又は20番目の文字の後にある必要があり、ノイズテキストが回答に插入されないことを保証する。
ステップ105において、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。
中間モデルをトレーニングする場合、中間モデルによって出力された回答予測位置と、ノイズサンプルにおける回答のマーク位置とのマッチング度に基づいて、補正する必要があるか否かを判断する。マッチング度が予め設定された閾値よりも小さい場合、補正する必要があり、ノイズサンプルを使用して中間モデルを補正する。又は、間違ったマーク位置を予め設定した後、中間モデルによって出力された回答予測位置と、間違ったマーク位置とのマッチング度に基づいて、マッチング度が予め設定された閾値よりも小さい場合、補正する必要がない。
又は、トレーニングの回数が指定された回数に達するか、又はトレーニングに用いられるノイズサンプルが特定の数に達する場合、補正トレーニングが終了する。具体的な補正トレーニングの終了条件は、ニーズに応じて設定することができる。
本発明の実施例の機械読解モデルのトレーニング方法は、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成し、ノイズテキストに基づいてノイズサンプルを取得し、ノイズサンプルを使用して中間モデルに対して補正トレーニングを行って、機械読解モデルを取得することにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
本発明の一つの実施例において、図2に示す方法によりノイズテキストを生成することができる。図2は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。
図2に示すように、上記の予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップは、以下のようなステップを含む。
ステップ201において、中間モデルに対応する辞書と予め設定された重み行列とに基づいて、ノイズベクトル内の各要素の値を算出する。
本実施例において、ノイズベクトルの長さは予め設定された重み行列の行数と同じであってもよい。具体的には、予め設定された重み行列内の要素値と辞書内の文字に対応するベクトルとに基づいて、ノイズベクトル内の各要素の値を算出することができる。
一実施方式として、予め設定された重み行列にL×N個の要素が含まれていると仮定し、即ち重み行列は、L行とK列である行列である。ノイズベクトル内の各要素の値を算出する場合、予め設定された重み行列内の第i行の要素の値と、中間モデルに対応する辞書内の最初のK個の文字にそれぞれ対応するベクトル値とに基づいて、ノイズベクトル内のi番目の要素の値を決定することができる。具体的に以下の式に示すようである。
Figure 2021108115
ここで、e’はノイズベクトルe’内のi番目の要素の値を示し、vは辞書内のj番目の文字に対応するベクトル値を示し、wijはj番目の文字におけるノイズベクトル内のi番目の要素の値e’の重みの大きさを示す。これから分かるように、予め設定された重み行列WL×K内の第i行の要素の値は、辞書内の最初のK個の文字におけるノイズベクトル内のi番目の要素の値それぞれの重みである。
ステップ202において、ノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成する。
ノイズベクトル内の各要素の値を取得した後、各要素の値に基づいて、ノイズベクトルを取得することができる。次に、ノイズベクトルをデコードして、対応するノイズテキストを取得することができる。
本発明の実施例において、中間モデルに対応する辞書と予め設定された重み行列とに基づいて、ノイズベクトル内の各要素の値を算出し、ノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成することができる。
実際のアプリケーションにおいて、上記方式により取得されたノイズベクトル又はノイズテキストが処理対象サンプルに追加され、ノイズテキストが段落に存在する場合、中間モデルが正しい回答の位置を正しく予測できない目的を達成できなく、機械読解モデルのノイズに抵抗する能力を強化する目的を達成できない。これに基づいて、本発明の一つの実施例において、ノイズベクトルを取得した後、ノイズベクトルが要件を満たしているか否かを判断し、要件を満たしていない場合、ノイズベクトルを再生成することができる。以下に、図3を参照して説明し、図3は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。
図3に示すように、上記のノイズベクトル内の各要素の値を算出した後、以下のようなステップをさらに含む。
ステップ301において、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成する。
ノイズベクトル内の各要素の値を算出した後、ノイズベクトルを取得することができ、その後、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入し、挿入して取得されたベクトルを解析対象ベクトルと呼ぶ。
例えば、処理対象サンプル内の段落がpであり、段落にn個の文字が含まれると、段落に対応するテキストベクトルeはe=ep1p2p3Lepnとして表すことができる。ここで、ep1は段落内の1番目の文字に対応するベクトルを示し、ノイズテキストベクトルe’=[e’,e’,L,e’]をeに插入して、取得された解析対象ベクトルは
Figure 2021108115
である。ここで、kはeにおけるノイズベクトルe’=[e’,e’,L,e’]の插入位置を示す。
ステップ302において、ノイズベクトルの插入位置と処理対象サンプル内の回答の初期マーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置を決定する。
解析対象ベクトルを取得した後、処理対象サンプル内の回答の初期マーク位置に基づいて、処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置を決定することができる。次に、ノイズベクトルの插入位置と処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置と、解析対象ベクトルにおける回答に対応するベクトルの位置とを決定することができる。
ステップ303において、中間モデルを使用して解析対象ベクトルをエンコード及びデコード処理して、解析対象ベクトル内の回答の予測位置を決定する。
解析対象ベクトル内の回答のマーク位置を決定した後、解析対象ベクトルと質問に対応するベクトルとを中間モデルに入力し、中間モデルによって回答の位置を予測する。具体的には、中間モデルを使用して解析対象ベクトルと質問に対応するベクトルとをエンコード及びデコード処理し、モデルが解析対象ベクトル内の回答の予測位置を出力する。
ステップ304において、解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度が閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と調整マーク位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成する。
回答の予測位置を取得した後、解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度を算出し、具体的に既存のマッチングを算出する方法を使用することができる。解析対象ベクトル内の回答の予測位置とマーク位置とのマッチング度が閾値以上である場合、ノイズベクトルがモデルのノイズに抵抗する能力にほとんど影響しないことを示し、予め設定された重み行列を更新して、更新された重み行列及び辞書に基づいて、ノイズベクトルを再生成する。
次に、再生成されたノイズベクトルに対して上記のステップ301〜304を繰り返して、回答の予測位置とマーク位置とのマッチング度が依然として閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置とマーク位置とのマッチング度が閾値より小さくなるまで、引き続き重み行列を更新して、ノイズベクトルを再生成する。この時、取得されたノイズベクトルはノイズテキストを生成することに用いられる。
重み行列を更新する場合、初期モデルによって予め設定された重み行列を調整し、具体的にサンプルデータを使用して初期モデルを逆にトレーニングし、トレーニングが特定のレベルに達した時に取得された重み行列を、更新された重み行列とすることができる。
ノイズベクトルを決定する別の実施方式として、解析対象ベクトルにおける一つ以上の無効な回答の初期マーク位置を指定し、その後、中間トレーニングモデルを使用して、無効な回答の予測位置を取得し、無効な回答の予測位置とマーク位置とのマッチング度が閾値より小さい場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された無効な回答の予測位置とマーク位置とのマッチング度が閾値以上になるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成することができる。この時、取得されたノイズベクトルはノイズテキストを生成することに用いられる。
重み行列を更新する場合、初期トレーニングモデルを使用して予め設定された重みを調整し、具体的に、サンプルデータを使用して初期モデルをトレーニングし、トレーニングが特定のレベルに達した時に取得された重み行列を、更新された重み行列とすることができる。
本発明の実施例において、ノイズベクトル内の各要素の値を算出した後、中間トレーニングモデルとノイズベクトルが插入された処理対象サンプルに対応するテキストベクトルとに基づいて、中間モデルが予測する回答の位置と回答のマーク位置とのマッチング度が閾値の要件を満たしているか否かを決定し、閾値以上の場合、即ち要件を満たしていない場合、中間トレーニングモデルが予測する回答の位置と回答のマーク位置とのマッチング度が閾値より小さくなるまで、重み行列を更新して、ノイズベクトルを再生成する。これにより、モデルのノイズに抵抗する能力を向上させるノイズベクトルを取得することができる。
以下に、図4を参照して上記の重み行列を更新する方法を説明する。図4は、本発明の実施例によって提供される重み行列を更新する概略図である。
図4において、質問qと、回答が存在する段落pと、辞書とをベクトル化し、対応するベクトルeと、eと、Vとをそれぞれ取得する。予め設定された重み行列w及びベクトルVを使用して、ノイズベクトルe’を取得し、その後、ノイズベクトルe’をテキストベクトルeのk位置に插入し、即ちノイズベクトルをkとk+1との間に插入する。次に、ベクトルe及びノイズベクトルが插入されたeを中間モデルに入力し、回答の位置を予測する。ここで、sは正しい回答のマーク位置を示し、sは指定された無効な回答のマーク位置を示す。
指定された正しい回答sに基づいて、予測された回答の位置と正しい回答の位置とのマッチング度が閾値以上である場合、予測された回答の位置と正しい回答の位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成する。又は、無効な回答のマーク位置sに基づいて、予測された回答の位置と無効な回答の位置とのマッチング度が閾値より小さいか否かを判断し、はいの場合、予測された回答の位置と無効な回答の位置とのマッチング度が閾値以上になるまで、重み行列を更新して、ノイズベクトルを再生成する。
回答の正確性を保証するために、本発明の一つの実施例において、上記のノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入する前に、まずノイズベクトルの插入位置を決定する。
具体的には、処理対象サンプルに対応するテキストベクトルにおける回答のマーク位置[S,S]に基づいて、ノイズベクトルの插入位置SがS−x以下であるか、又は、SがS以上であるかを決定する。ここで、Sは回答の開始位置であり、Sは回答の終了位置であり、xはノイズベクトルの長さである。
ここで、Sはテキストベクトルにおける回答に対応するベクトルの開始行数であり、Sは終了行数である。つまり、SとSとの間の要素で構成されるベクトルが回答に対応するベクトルである。
これにより、ノイズベクトルを插入する場合、ノイズベクトルを回答に対応するベクトルの前または後に插入し、回答に対応するベクトルに插入して質問の回答に影響することを回避する。
本発明の一つの実施例において、上記のノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成する場合、図5に示す方式により、ノイズテキストを生成することができる。図5は、本発明の実施例によって提供される別の機械読解モデルのトレーニング方法の概略フローチャートである。
図5に示すように、上記のノイズベクトル内の各要素の値に基づいて、ノイズテキストを生成するステップは、以下のようなステップを含む。
ステップ401において、予め設定された重み行列から、ノイズベクトル内の各要素に対応する重みベクトルを取得する。
本実施例において、予め設定された重み行列内の毎行に対応する要素を、ノイズベクトル内の各要素に対応する重みベクトルとすることができる。
例えば、重み行列がL×K行列であると、重み行列内の第1行から第L行までの各行の要素で構成されるベクトルが、それぞれノイズベクトル内の各要素に対応する重みベクトルとすることができる。例えば、ノイズベクトルの1番目の要素に対応する重みベクトルは、重み行列内の第1行の要素で構成されるベクトルである。
ステップ402において、各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする。
重み行列はL×K行列であり、ノイズベクトルにはL個の要素が含まれると仮定し、ノイズベクトル内のi番目の要素に対応する重みベクトルは[Wi1,Wi2,Wi3,…,WiL]として表すことができ、Wijの値が最大の場合、辞書のj番目の文字をノイズテキスト内のi番目の文字とする。
例えば、ノイズベクトル内の2番目の要素に対応する重みベクトルにおいて、W24の値が最大であり、辞書内の4番目の文字をノイズテキストの2番目の文字とすることができる。また、例えば、ノイズベクトル内の4番目の要素に対応する重みベクトルにおいて、W46の値が最大であり、辞書内の6番目の文字をノイズテキスト内の4番目の文字とすることができる。
これにより、ノイズベクトルの各要素を決定する場合、当該要素に対応する重みベクトル内の最大値の位置に基づいて、辞書の対応する位置から取り出した文字を対応する位置の文字として使用することで、ノイズテキストを取得することができる。
本発明の一つの実施例において、上記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成する場合、以下のような方式によりノイズテキストを生成することができる。
具体的には、ノイズベクトルの各要素に対して、要素の値と中間モデルに対応する辞書の各文字に対応するベクトル値との間のマッチング度を算出して、マッチング度が最高である文字を当該要素の位置に対応する文字とすることができる。
つまり、中間モデルに対応する辞書から、文字に対応するベクトル値と、ノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のj番目の位置の文字とする。これにより、ノイズベクトルの各要素の値及び辞書の各文字に対応するベクトル値に基づいて、各要素に対応する文字を決定することができ、さらにノイズテキストを取得する。
上記の実施例を実現するために、本発明の実施例は、装置をさらに提供する。図6は、本発明の実施例によって提供される機械読解モデルのトレーニング装置の概略構成図である。
図6に示すように、当該機械読解モデルのトレーニング装置500は、第1の生成モジュール510と、抽出モジュール520と、第2の生成モジュール530と、取得モジュール540と、第3の生成モジュール550と、を含む。
第1の生成モジュール510は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するし、抽出モジュール520は、第1の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、第2の生成モジュール530は、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、取得モジュール540は、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、第3の生成モジュール550は、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。
本発明の実施例の一つの可能な実現方式において、上記抽出モジュール520は、具体的に、サンプルデータの数Nに基づいて、サンプルデータから抽出される処理対象サンプルの数Mを決定し、ここで、MはNより小さく、又は、サンプルデータからランダムに処理対象サンプルを抽出し、又は、サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出する。
本発明の実施例の一つの可能な実現方式において、上記第2の生成モジュール530は、中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するための算出ユニットと、ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するための第1の生成ユニットと、を含む。
本発明の実施例の一つの可能な実現方式において、予め設定された重み行列にはL×K個の要素が含まれ、上記算出ユニットは、具体的に、予め設定された重み行列内の第i行の要素の値と、中間モデルに対応する辞書内の最初のK個の文字にそれぞれ対応するベクトル値とに基づいて、ノイズベクトルのi番目の要素の値を決定する。
本発明の実施例の一つの可能な実現方式において、上記第2の生成モジュール530は、ノイズベクトルを処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するための第2の生成ユニットと、ノイズベクトルの插入位置と処理対象サンプル内の回答の初期のマーク位置とに基づいて、解析対象ベクトル内の回答のマーク位置を決定するための第1の決定ユニットと、中間モデルを使用して解析対象ベクトルをエンコード及びデコード処理して、解析対象ベクトル内の回答の予測位置を決定するための第2の決定ユニットと、解析対象ベクトル内の回答の予測位置とマーク位置のマッチング度が閾値以上である場合、中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置とマーク位置とのマッチング度が閾値より小さくなるまで、予め設定された重み行列を更新して、ノイズベクトルを再生成するための更新ユニットと、をさらに含む。
本発明の実施例の一つの可能な実現方式において、当該装置は、処理対象サンプルに対応するテキストベクトル内の回答のマーク位置[S,S]に基づいて、ノイズベクトルの插入位置SがS−x以下であるか、又は、SがS以上であると決定するための決定モジュールをさらに含むことができる。ここで、Sは回答の開始位置であり、Sは回答の終了位置であり、xはノイズベクトルの長さである。
本発明の実施例の一つの可能な実現方式において、上記第1の生成ユニットは、具体的に、予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得し、各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする。
本発明の実施例の一つの可能な実現方式において、上記第1の生成ユニットは、具体的に、中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のj番目の位置の文字とする。
なお、上記の機械読解モデルのトレーニング方法の実施例の説明は、当該実施例の機械読解モデルのトレーニング装置にも適用され、ここでは説明を省略する。
本発明の実施例の機械読解モデルのトレーニング装置は、取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成し、第1の予め設定されたルールに従ってサンプルデータから処理対象サンプルを抽出し、予め設定されたノイズ生成方法に従ってノイズテキストを生成し、ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得し、ノイズサンプルに基づいて、中間モデルに対して補正トレーニングを行って、機械読解モデルを生成する。これにより、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
本発明の実施例によれば、本発明は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図7に示すように、それは本発明の実施例の機械読解モデルのトレーニング方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求される本発明の実現を制限することを意図したものではない。
図7に示すように、当該電子機器は、一つ以上のプロセッサ601と、メモリ602と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施方式では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作を提供することができる(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)。図7では、一つのプロセッサ601を例とする。
メモリ602は、本発明によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも一つのプロセッサによって実行される命令が記憶され、前記少なくとも一つのプロセッサが本発明によって提供される機械読解モデルのトレーニング方法を実行することができるようにする。本発明の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本発明によって提供される機械読解モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本発明の実施例における機械読解モデルのトレーニング方法に対応するプログラム命令/モジュール(例えば、図6に示す第1の生成モジュール510、抽出モジュール520、第2の生成モジュール530、取得モジュール540、及び第3の生成モジュール550)のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における機械読解モデルのトレーニング方法を実現する。
メモリ602は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、機械読解モデルのトレーニング方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ602は、プロセッサ601に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して機械読解モデルのトレーニング方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
機械読解モデルのトレーニング方法の電子機器は、入力装置603と出力装置604とをさらに含むことができる。プロセッサ601、メモリ602、入力装置603、及び出力装置604は、バス又は他の方式を介して接続することができ、図7では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信することができ、機械読解モデルのトレーニング方法の電子機器のユーザ設定及び機能制御に関するキー信号の入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施方式で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ以上のコンピュータプログラムで実施されることができ、当該一つ以上のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータでここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本発明の実施例の発明によれば、機械読解モデルのトレーニング中に、ノイズテキストを自動的に生成して、モデルをトレーニングすることにより、機械読解モデルのノイズに抵抗する能力を向上させ、モデルの堅牢性を向上させ、モデルを修正する必要がなく、人間の関与の必要がなく、コストが低い。
本発明の説明において、「第1」、「第2」の用語は目的を説明することだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示するものと理解してはいけない。そこで、「第1」、「第2」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確に且つ具体的に限定されていない限り、「複数」とは、二つ、三つなどの二つ以上のことを意味する。
本発明の実施例を示して説明したが、上記実施例は例示するものであって、本発明を制限するものと理解してはいけない。当業者は、本発明の原理及び主旨から逸脱することなく、これらの実施例に対して各種の変更、修正、切り替え及び変形を行うことができる。

Claims (19)

  1. 機械読解モデルのトレーニング方法であって、
    取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するステップと、
    第1の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップと、
    予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップと、
    前記ノイズテキストをそれぞれ各処理対象サンプルに追加して、ノイズサンプルを取得するステップと、
    前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するステップと、を含む、
    ことを特徴とする機械読解モデルのトレーニング方法。
  2. 前記予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するステップは、
    前記サンプルデータの数Nに基づいて、前記サンプルデータから抽出される処理対象サンプルの数Mを決定するステップであって、MはNより小さいステップ、
    又は、
    前記サンプルデータからランダムに処理対象サンプルを抽出するステップ、
    又は、
    前記サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出するステップ、を含む、
    ことを特徴とする請求項1に記載の機械読解モデルのトレーニング方法。
  3. 前記予め設定されたノイズ生成方法に従ってノイズテキストを生成するステップは、
    前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するステップと、
    前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップと、を含む、
    ことを特徴とする請求項1に記載の機械読解モデルのトレーニング方法。
  4. 前記予め設定された重み行列にはL×K個の要素が含まれ、
    前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するステップは、
    予め設定された重み行列内の第i行の要素の値と、前記中間モデルに対応する辞書内の最初のK個の文字にそれぞれ対応するベクトル値とに基づいて、前記ノイズベクトルのi番目の要素の値を決定するステップを含む、
    ことを特徴とする請求項3に記載の機械読解モデルのトレーニング方法。
  5. 前記ノイズベクトルの各要素の値を算出した後に、
    前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するステップと、
    前記ノイズベクトルの插入位置及び前記処理対象サンプル内の回答の初期マーク位置に基づいて、前記解析対象ベクトル内の回答のマーク位置を決定するステップと、
    前記中間モデルを使用して前記解析対象ベクトルをエンコード及びデコード処理して、前記解析対象ベクトル内の回答の予測位置を決定するステップと、
    前記解析対象ベクトル内の回答の予測位置と前記マーク位置とのマッチング度が閾値以上である場合、前記中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と前記マーク位置とのマッチング度が閾値より小さくなるまで、前記予め設定された重み行列を更新して、ノイズベクトルを再生成するステップと、をさらに含む、
    ことを特徴とする請求項4に記載の機械読解モデルのトレーニング方法。
  6. 前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入する前に、
    前記処理対象サンプルに対応するテキストベクトル内の回答のマーク位置[S,S]に基づいて、前記ノイズベクトルの插入位置SがS−x以下であるか、又は、SがS以上であると決定するステップをさらに含み、Sは回答の開始位置であり、Sは回答の終了位置であり、xはノイズベクトルの長さである、
    ことを特徴とする請求項5に記載の機械読解モデルのトレーニング方法。
  7. 前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップは、
    前記予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得するステップと、
    各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とするステップと、を含む、
    ことを特徴とする請求項3〜6のいずれかに記載の機械読解モデルのトレーニング方法。
  8. 前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するステップは、
    前記中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のj番目の位置の文字とするステップを含む、
    ことを特徴とする請求項3〜6のいずれかに記載の機械読解モデルのトレーニング方法。
  9. 機械読解モデルのトレーニング装置であって、
    取得されたサンプルデータに基づいて、初期モデルをトレーニングして、中間モデルを生成するための第1の生成モジュールと、
    第1の予め設定されたルールに従って前記サンプルデータから処理対象サンプルを抽出するための抽出モジュールと、
    予め設定されたノイズ生成方法に従ってノイズテキストを生成するための第2の生成モジュールと、
    前記ノイズテキストをそれぞれ各処理対象サンプルに追加し、ノイズサンプルを取得するための取得モジュールと、
    前記ノイズサンプルに基づいて、前記中間モデルに対して補正トレーニングを行って、機械読解モデルを生成するための第3の生成モジュールと、を含む、
    ことを特徴とする機械読解モデルのトレーニング装置。
  10. 前記抽出モジュールは、具体的に、
    前記サンプルデータの数Nに基づいて、前記サンプルデータから抽出される処理対象サンプルの数Mを決定し、MはNより小さく、
    又は、
    前記サンプルデータからランダムに処理対象サンプルを抽出し、
    又は、
    前記サンプルデータ内の各サンプルに対応するマーク回答位置に基づいて、マーク回答位置が異なる処理対象サンプルを抽出する、
    ことを特徴とする請求項9に記載の機械読解モデルのトレーニング装置。
  11. 前記第2の生成モジュールは、
    前記中間モデルに対応する辞書及び予め設定された重み行列に基づいて、ノイズベクトルの各要素の値を算出するための算出ユニットと、
    前記ノイズベクトルの各要素の値に基づいて、ノイズテキストを生成するための第1の生成ユニットと、を含む、
    ことを特徴とする請求項9に記載の機械読解モデルのトレーニング装置。
  12. 前記予め設定された重み行列にはL×K個の要素が含まれ、
    前記算出ユニットは、具体的に、
    予め設定された重み行列内の第i行の要素の値と、前記中間モデルに対応する辞書内の最初のK個の文字にそれぞれ対応するベクトル値とに基づいて、前記ノイズベクトル内のi番目の要素の値を決定する、
    ことを特徴とする請求項11に記載の機械読解モデルのトレーニング装置。
  13. 前記第2の生成モジュールは、
    前記ノイズベクトルを前記処理対象サンプルに対応するテキストベクトルに插入して、解析対象ベクトルを生成するための第2の生成ユニットと、
    前記ノイズベクトルの插入位置及び前記処理対象サンプル内の回答の初期マーク位置に基づいて、前記解析対象ベクトル内の回答のマーク位置を決定するための第1の決定ユニットと、
    前記中間モデルを使用して前記解析対象ベクトルをエンコード及びデコード処理して、前記解析対象ベクトル内の回答の予測位置を決定するための第2の決定ユニットと、
    前記解析対象ベクトル内の回答の予測位置と前記マーク位置とのマッチング度が閾値以上である場合、前記中間モデルが再生成されたノイズベクトルをエンコード及びデコード処理した後、決定された予測位置と前記マーク位置とのマッチング度が閾値より小さくなるまで、前記予め設定された重み行列を更新して、ノイズベクトルを再生成するための更新ユニットと、をさらに含む、
    ことを特徴とする請求項12に記載の機械読解モデルのトレーニング装置。
  14. 前記処理対象サンプルに対応するテキストベクトル内の回答のマーク位置[S,S]に基づいて、前記ノイズベクトルの插入位置SがS−x以下であるか、又は、SがS以上であると決定するための決定モジュールをさらに含み、Sは回答の開始位置であり、Sは回答の終了位置であり、xはノイズベクトルの長さである、
    ことを特徴とする請求項13に記載の機械読解モデルのトレーニング装置。
  15. 前記第1の生成ユニットは、具体的に、
    前記予め設定された重み行列からノイズベクトルの各要素に対応する重みベクトルを取得し、
    各重みベクトル内の最大の重み値の位置に基づいて、予め設定された辞書から対応する位置の文字を抽出して、ノイズテキストの対応する位置の文字とする、
    ことを特徴とする請求項11〜14のいずれかに記載の機械読解モデルのトレーニング装置。
  16. 前記第1の生成ユニットは、具体的に、
    前記中間モデルに対応する辞書から、文字に対応するベクトル値とノイズベクトル内のj番目の要素の値とのマッチング度が最高である文字を選択して、ノイズテキスト内のj番目の位置の文字とする、
    ことを特徴とする請求項11〜14のいずれかに記載の機械読解モデルのトレーニング装置。
  17. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1〜8のいずれかに記載の機械読解モデルのトレーニング方法を実行する、
    ことを特徴とする電子機器。
  18. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜8のいずれかに記載の機械読解モデルのトレーニング方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1〜8のいずれかに記載の機械読解モデルのトレーニング方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2020204323A 2019-12-27 2020-12-09 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 Active JP7079311B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911376949.0A CN111160568B (zh) 2019-12-27 2019-12-27 机器阅读理解模型训练方法、装置、电子设备和存储介质
CN201911376949.0 2019-12-27

Publications (2)

Publication Number Publication Date
JP2021108115A true JP2021108115A (ja) 2021-07-29
JP7079311B2 JP7079311B2 (ja) 2022-06-01

Family

ID=70558589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020204323A Active JP7079311B2 (ja) 2019-12-27 2020-12-09 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US11410084B2 (ja)
JP (1) JP7079311B2 (ja)
CN (1) CN111160568B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置
CN112380845B (zh) * 2021-01-15 2021-04-09 鹏城实验室 句子噪声设计方法、设备及计算机存储介质
CN113571052A (zh) * 2021-07-22 2021-10-29 湖北亿咖通科技有限公司 一种噪声提取及指令识别方法和电子设备
CN113282738B (zh) * 2021-07-26 2021-10-08 北京世纪好未来教育科技有限公司 文本选择方法及装置
CN113642667B (zh) * 2021-08-30 2024-02-02 重庆紫光华山智安科技有限公司 一种图片增强策略确定方法、装置、电子设备及存储介质
CN114241268A (zh) * 2021-12-21 2022-03-25 支付宝(杭州)信息技术有限公司 一种模型的训练方法、装置及设备
CN114490990B (zh) * 2022-01-28 2023-05-23 北京百度网讯科技有限公司 待标注文本的确定方法、装置、设备和存储介质
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081298A (ja) * 2016-11-16 2018-05-24 三星電子株式会社Samsung Electronics Co.,Ltd. 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8439684B2 (en) * 2005-08-31 2013-05-14 School Specialty, Inc. Method of teaching reading
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
US10997221B2 (en) * 2018-04-07 2021-05-04 Microsoft Technology Licensing, Llc Intelligent question answering using machine reading comprehension
CN108959396B (zh) * 2018-06-04 2021-08-17 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
US20200034750A1 (en) * 2018-07-26 2020-01-30 Sap Se Generating artificial training data for machine-learning
CN109033478B (zh) * 2018-09-12 2022-08-19 重庆工业职业技术学院 一种用于搜索引擎的文本信息规律分析方法与系统
CN109685102A (zh) * 2018-11-13 2019-04-26 平安科技(深圳)有限公司 胸部病灶图像分类方法、装置、计算机设备及存储介质
CN109741406A (zh) * 2019-01-03 2019-05-10 广州广电银通金融电子科技有限公司 一种监控场景下的车身颜色识别方法
CN114298310A (zh) * 2019-01-29 2022-04-08 北京金山数字娱乐科技有限公司 长度损失确定方法以及装置
CN110096698B (zh) * 2019-03-20 2020-09-29 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
US11151478B2 (en) * 2019-04-05 2021-10-19 Vmware, Inc. Enhanced learning with feedback loop for machine reading comprehension models
CN110222152B (zh) * 2019-05-29 2021-05-14 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110516059B (zh) * 2019-08-30 2023-06-09 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
CN111079938B (zh) * 2019-11-28 2020-11-03 百度在线网络技术(北京)有限公司 问答阅读理解模型获取方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081298A (ja) * 2016-11-16 2018-05-24 三星電子株式会社Samsung Electronics Co.,Ltd. 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山本 航平: "ノウハウ質問応答におけるニューラル読解モデルの評価", 言語処理学会第25回年次大会 発表論文集 [ONLINE] PROCEEDINGS OF THE TWENTY-FIFTH ANNUAL M, JPN6021043680, 4 March 2019 (2019-03-04), JP, pages 695 - 698, ISSN: 0004632031 *
澤山 熱気 ATSUKI SAWAYAMA: "半自動学習データ構築による固有表現認識の改善 Named Entity Recognition Improvement through Semi-supe", 情報処理学会 研究報告 音声言語情報処理(SLP) 2016−SLP−111 [ONLINE], JPN6021043679, 9 May 2016 (2016-05-09), JP, pages 1 - 6, ISSN: 0004632032 *

Also Published As

Publication number Publication date
CN111160568B (zh) 2021-04-06
CN111160568A (zh) 2020-05-15
JP7079311B2 (ja) 2022-06-01
US11410084B2 (en) 2022-08-09
US20210201196A1 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
JP7079311B2 (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
EP3916611A1 (en) Method, apparatus, computer program, and storage medium for training text generation model
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
CN109313719B (zh) 使用神经网络生成文本段的依存性解析
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
KR102554758B1 (ko) 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
KR102630243B1 (ko) 구두점 예측 방법 및 장치
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN111126061B (zh) 对联信息生成方法和装置
CN112560499B (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112507101A (zh) 一种建立预训练语言模型的方法和装置
KR20210158815A (ko) 트리플 샘플 생성 방법, 장치, 전자 기기 및 기록 매체
CN111950293A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
KR20210139152A (ko) 의미적 유사성 모델의 훈련 방법, 장치, 전자 기기 및 기록 매체
EP3855339A1 (en) Method and apparatus for generating text based on semantic representation
JP7262519B2 (ja) 質問の答えの決定方法、装置、機器及び記憶媒体
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
CN111475614B (zh) 知识推理对话方法、装置、电子设备和存储介质
JP7352640B2 (ja) 検索項目書き換え方法、装置、機器および記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7079311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150