JP7293543B2 - 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム - Google Patents

自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム Download PDF

Info

Publication number
JP7293543B2
JP7293543B2 JP2021117352A JP2021117352A JP7293543B2 JP 7293543 B2 JP7293543 B2 JP 7293543B2 JP 2021117352 A JP2021117352 A JP 2021117352A JP 2021117352 A JP2021117352 A JP 2021117352A JP 7293543 B2 JP7293543 B2 JP 7293543B2
Authority
JP
Japan
Prior art keywords
natural language
language processing
processing model
training
training corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021117352A
Other languages
English (en)
Other versions
JP2022020582A (ja
Inventor
オウヤン、シュアン
ワン、シュオフアン
スン、ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020582A publication Critical patent/JP2022020582A/ja
Application granted granted Critical
Publication of JP7293543B2 publication Critical patent/JP7293543B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、コンピュータ技術分野に関し、特に人工知能に基づく自然言語処理分野に関し、具体的に自然言語処理モデルの訓練方法、装置、デバイス及び記憶媒体に関する。
自然言語処理(Natural Language Processing;NLP)タスクでは、大量の照応解析タスクのニーズが存在している。
例えば、読解の中で、各代名詞が照応する名詞が何であるかを知ってからこそ、文章に対する正確で全面的な理解をやり遂げることができる。機械翻訳では、トルコ語の代名詞には彼と彼女が区別されておらず、英語に翻訳すると代名詞の意味を正確に解析できず、機械翻訳の効果に大きく影響する。どのように照応解析タスクをより良くモデリングし、自然言語処理モデルの照応解析タスクに対する処理能力を高めるかは、早急に解決しなければならない技術問題である。
上述の問題を解決するために、本開示は、自然言語処理モデルの訓練方法、装置、電子デバイス、及び記憶媒体を提供する。
本開示の一態様によれば、予め設定されたコーパスセットに基づいて、それぞれ照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築することと、前記各訓練コーパスペアを用いて、対応する前記ポジティブサンプルと前記ネガティブサンプルとを識別する能力を学習するように前記自然言語処理モデルを訓練することと、前記各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように前記自然言語処理モデルを訓練することと、を含む自然言語処理モデルの訓練方法を提供する。
本開示の別の態様によれば、予め設定されたコーパスセットに基づいて、それぞれ照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築する構築モジュールと、前記各訓練コーパスペアを用いて、対応する前記ポジティブサンプル及び前記ネガティブサンプルを識別する能力を学習するように前記自然言語処理モデルを訓練する第1訓練モジュールと、前記各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように前記自然言語処理モデルを訓練する第2訓練モジュールと、を備える自然言語処理モデルの訓練装置を提供する。
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。
本開示の別の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本開示の技術によれば、自然言語処理モデルによる照応解析タスクのモデル化を実現し、自然言語処理モデルによる照応解析タスクの処理能力を向上し、自然言語処理モデルの機能を多様化し、自然言語処理モデルの実用性を高めることができる。
理解すべきなのは、ここで説明される内容は、本開示の実施形態の肝心又は重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
本開示の第1実施形態に係る模式図である。 本開示の第2実施形態に係る模式図である。 本実施形態で構築された訓練コーパスペアの例示図である。 本実施形態の自然言語処理モデルの予備訓練の模式図である。 本開示の第3実施形態に係る模式図である。 本開示の第4実施形態に係る模式図である。 本開示の実施形態の上述の方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本開示の第1実施形態に係る模式図である。図1に示されたように、本実施形態は、自然言語処理モデルの訓練方法を提供し、具体的には、以下のステップを含むことができる。
S101において、予め設定されたコーパスセットに基づいて、照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築する。
S102において、各訓練コーパスペアを用いて、対応するポジティブサンプルとネガティブサンプルを識別する能力を学習するように自然言語処理モデルを訓練する。
S103において、各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように自然言語処理モデルを訓練する。
本実施形態の自然言語処理モデルの訓練方法の実行主体は、自然言語処理モデルの訓練方法である。当該自然言語処理モデルの訓練方法はコンピュータ等の実体的な電子デバイスであってよい。あるいは、使用時にコンピュータ上で実行されて自然言語処理モデルの訓練を実現する、ソフトウェア統合を用いたアプリケーションであっても良い。
本実施形態の目的は、自然言語処理モデルが照応解析タスクを実行できるように訓練することである。当該照応解析タスクは、具体的には、1つの語句に代名詞が存在し、且つ少なくとも2つの異なる名詞が存在する場合に、その代名詞が語句の中のどの名詞を具体的に照応するかをどのように識別するかを指す。本実施形態の自然言語処理モデルは、情報実体強化の言語表現(Enhanced Language Representation with Informative Entities;ERNIE)モデルに基づいて訓練されてよい。
本実施形態では、予め設定されたコーパスセットは、沢山のコーパスを含む予め採集されたセットである。このコーパスセットの言語は、照応解析タスクを実行するために訓練される自然言語処理モデルが適用される言語シナリオとすることができる。例えば、英語、中国語、日本語、トルコ語などである。各言語に対して、対応する自然言語処理モデルを訓練して対応する照応解析タスクを実行することを実現することができる。
本実施形態では、予め設定されたコーパスセットの各コーパスに基づいて、照応解析タスクの訓練コーパスペアを構築することができる。本実施形態の各訓練コーパスペアは、ポジティブサンプル及びネガティブサンプルを含むことができる。ここで、ポジティブサンプルには正しい照応関係が含まれ、ネガティブサンプルには誤る照応関係が含まれる。例えば、各訓練コーパスペアには、1つのポジティブサンプルと1つのネガティブサンプルとが含まれても良く、1つのポジティブサンプルと少なくとも2つのネガティブサンプルとが含まれても良い。具体的には、ネガティブサンプルの数は、対応するコーパスにおける名詞の数に基づいて決定される。或いは、各訓練コーパスペアにポジティブサンプルとネガティブサンプルが1つのみ含まれている場合に、コーパスセットにおける1つのコーパスに基づいて、複数の訓練コーパスペアを生成することもできる。たとえば、あるコーパスSにa、b、cの3つの名詞と1つの代名詞itが含まれており、代名詞itが名詞cを照応しているとわかった場合に、2つの訓練コーパスペアを構成することができる。第1訓練コーパスペアには、ポジティブサンプルSにおけるitがcを照応し、ネガティブサンプルSにおけるitがaを照応するように含まれて良い。第2訓練コーパスペアには、ポジティブサンプルSにおけるitがcを照応し、ネガティブサンプルSにおけるitがbを照応するように含まれて良い。以上のように、コーパスセットに基づいて、照応解析タスクの沢山の訓練コーパスペアを構築することができる。
本実施形態では、自然言語処理モデルに対する訓練は、2段階に分けられる。 第1段階では各訓練コーパスペアを用いて対応するポジティブサンプルとネガティブサンプルを識別する能力を学習するように自然言語処理モデルを訓練する。この段階の訓練は、まずどのような照応関係が正しいか、どのような照応関係が間違っているかを知るようにポジティブサンプルとネガティブサンプルを識別することを自然言語処理モデルに学習させる。この段階では、大量の訓練コーパスペアを用いて、この自然言語処理モデルをこのような認識能力を持つように訓練することができる。
第1段階の学習に基づいて、自然言語処理モデルは、どのような照応関係が正しいか、どのような照応関係が間違っているかを識別できるように調整されている。次に第2段階の訓練では、段階的に学習の難しさを増加し、各訓練コーパスペアのポジティブサンプルを用いて自然言語処理モデルを照応解析タスクの能力を学習するように訓練し、即ち当該言語処理モデルが語句の中の代名詞が語句の中のどの名詞を照応するかを識別することを学習し、照応解析タスクを実行する能力を実現できるようにする。この過程は第1段階の学習に基づいて、自然言語処理モデルがパラメータを微調整し、タスク及び目的のある学習を行い、照応解析タスクを実行する能力を具備できるようにする。本実施形態の第1段階の学習において、当該自然言語処理モデルはERNIEモデルに基づいて、予備訓練(Pre-training)段階でモデルパラメータの予備調整を完了することができる。第2段階の学習において、第1段階の訓練で得られた自然言語処理モデルに基づいて、各訓練コーパスペアのポジティブサンプルを引き続き採用し、微調整(Fine-Tuning)段階でモデルのパラメータの最終的な調整を実現し、照応解析タスクの能力を学習させることができる。
本実施形態で訓練された自然言語処理モデルは、照応解析タスクを有するあらゆる場面で使用することができる。例えば、読解の場合に、語句の中の各代名詞の正確な照応関係を理解し、全文の完全な理解を支援することができる。
本実施形態の自然言語処理モデルの訓練方法は、予め設定されたコーパスセットに基づいて、照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築し、各訓練コーパスペアを用いて、対応するポジティブサンプルとネガティブサンプルを識別する能力を学習するように自然言語処理モデルを訓練し、各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように自然言語処理モデルを訓練することにより、自然言語処理モデルによる照応解析タスクのモデリングを実現し、自然言語処理モデルによる照応解析タスクの処理能力を向上させ、自然言語処理モデルの機能を多様化し、自然言語処理モデルの実用性を高めることができる。
図2は、本開示の第2実施形態に係る模式図である。本実施形態の自然言語処理モデルの訓練方法は、上述した図1に示した実施形態の技術案に加えて、本願の技術案をより詳細に紹介する。図2に示されたように、本実施形態の自然言語処理モデルの訓練方法は、具体的に以下のステップを含むことができる。
S201において、予め設定されたコーパスセットにおける各コーパスについて、対応するコーパスのうち非初出の目的名詞を代名詞に置き換えて訓練コーパスとする。
説明すべきなのは、本実施形態では、コーパスセットに採集されたコーパスは、すべて名詞を使用し、代名詞の使用を避けるコーパスである。これにより、このようなコーパスに基づいて本実施形態の照応解析タスクの訓練コーパスペアを便利に構築することができる。具体的に、語句の表現特性に応じて、語句の中の代名詞が非初出の位置に出現してこそ、既に出現している別の名詞を照応することができるため、本実施例では、非初出の目的名詞を代名詞に置き換えることができる。
S202において、訓練コーパスから他の名詞を取得する。
S203において、訓練コーパス及び代名詞が目的名詞を照応する照応関係を訓練コーパスペアのポジティブサンプルとする。
S204において、訓練コーパス及び代名詞が他の名詞を照応する照応関係を訓練コーパスペアのネガティブサンプルとし、合計で数本の訓練コーパスペアを得ることができる。
上記のステップでは目的名詞を代名詞で置き換えるため、この訓練コーパスにおいて、当該代名詞が目的名詞を照応する照応関係は正しい照応関係であり、ポジティブサンプルとする。一方、代名詞が訓練コーパスにおける他の名詞を照応する照応関係は誤る照応関係であり、ネガティブサンプルとする。
上述したステップS201~S204は、上述した図1に示された実施形態のステップS101の一実施形態である。当該方式により、照応解析タスクの沢山の訓練コーパスペアを正確かつ効率的に構築し、ひいては構築された訓練コーパスペアに基づいて自然言語処理モデルに対してポジティブサンプルとネガティブサンプルの識別能力の学習を容易に行うことができる。
例えば、図3は、本実施形態で構築された訓練コーパスペアの例示図である。図3に示されたように、「The troph7 didn't fit into the suitcase because the suitcase was too small」というコーパスについて、語句の中の名詞を標識し、非初出の名詞「the suitcase」について代名詞itで置き換えることで、一つの訓練コーパスを得ることができる。次に、当該訓練コーパスに基づいて、訓練コーパスペアのポジティブサンプル及びネガティブサンプルを構築することができる。以上の手順に基づいて、このitが「the suitcase」を照応することがわかったため、ポジティブサンプルにおいてitが「the suitcase」を照応する照応関係を記録することができる。一方、ネガティブサンプルにおいて、ネガティブサンプル自体が誤るサンプルを表すため、このitがこの訓練コーパスにおける「the suitcase」以外の他の名詞を照応する照応関係を記録することができ、例えば、本実施形態ではこのネガティブサンプルにおいてこのitが「The troph7」を照応すると記録することができる。
S205において、自然言語処理モデルがポジティブサンプルとネガティブサンプルにおける照応関係が正しいか否かをそれぞれ予測することを学習するように、各訓練コーパスペアを自然言語処理モデルに入力する。
具体的には、このステップは、照応解析タスクの各訓練コーパスペアを構築した後、マルチタスク学習を用いて自然言語処理モデルによる照応解析タスクのモデリング能力を向上させるものとして理解して良い。例えば、ここでは、自然言語処理モデルを二項分類タスクとしてモデル化し、構築された各訓練コーパスペアをSent[代名詞][Candidatepos]とSent[代名詞][Candidateneg]で自然言語処理モデルに入力することができる。ここでCandidateposは代名詞が照応した正しい名詞、Candidatenegは代名詞が照応した誤る名詞を示す。この訓練過程における自然言語処理モデルの最適化目標は、Candidateが当該代名詞の照応する名詞であるか否かを判断することであり、これにより照応解析タスクに対する最初のモデリングを実現する。
例えば、各訓練コーパスペアを自然言語処理モデルに入力する場合に、訓練コーパス、ポジティブサンプルにおける照応関係を1つのデータとして入力し、入力時の各部分の内容をそれぞれ1つのセグメントとして入力し、照応関係の中の代名詞と名詞を2つのセグメントに分割することができる。同様に、訓練コーパス、ネガティブサンプルにおける照応関係も1つのデータとして入力される。例えば、図4は、本実施形態の自然言語処理モデルの予備訓練の模式図である。図4に示されたように、訓練中に、データ入力ごとに先頭にスタート文字CLSを追加し、各セグメント間をSEP文字で分割する。この過程の訓練は、自然言語処理モデルがポジティブサンプルにおける正しい照応関係とネガティブサンプルにおける誤る照応関係とを認識できるようにすることである。
S206において、予測が正しいか否かを判断し、正しくない場合にステップS207を実行し、正しい場合にステップS208を実行する。
説明すべきなのは、自然言語処理モデルが予測する際には、ポジティブサンプルとネガティブサンプルを誤って認識する可能性があり、即ちポジティブサンプルにおける照応関係が誤ると認識する一方、ネガティブサンプルにおける照応関係が正しいと認識する。この場合に、自然言語処理モデルの予測は誤っていると考えられる。
S207において、自然言語処理モデルがポジティブサンプルとネガティブサンプルにおける照応関係が正しいと予測する傾向に調整されるように、自然言語処理モデルのパラメータを調整し、ステップS205に戻って次の訓練コーパスペアを用いて訓練を継続する。
S208において、自然言語処理モデルが予め設定された回数の連続の訓練において予測した正確度が予め設定された閾値に達しているか否かを判断し、達していない場合にステップS205に戻って次の訓練コーパスペアを用いて訓練を継続し、達した場合に自然言語処理モデルの初期パラメータを決定してステップS209を実行する。
ここで、予め設定された閾値は、実際の必要に基づいて設定することができ、例えば、80%、90%、又は他の割合であっても良い。正確度が予め設定された当該閾値に達した時点で、この自然言語処理モデルが予備訓練段階でほぼ要求を満たしていると考えられ、この時点で予備訓練段階の訓練を停止することができる。
上述のステップS205~S208は、上述の図1に示された実施形態のステップS102の一実施形態である。この過程は、予備訓練(Pre-training)段階で発生するものであって、自然言語処理モデルがポジティブサンプルとネガティブサンプルを識別する能力を備えるように、自然言語処理モデルのパラメータを初期に調整する。
S209において、各訓練コーパスペアのポジティブサンプルの訓練コーパスにおける代名詞をマスキングする。
このステップは、具体的には、上述したステップS203で得られた各訓練コーパスペアのポジティブサンプルの訓練コーパスを用いることができる。本実施形態では、マスキングを行う場合に、一つの特殊文字を用いてマスキングし、例えばOPT文字を用いてマスキングすることができる。
S210において、自然言語処理モデルに代名詞が訓練コーパスの中の各名詞に属する確率を予測させるように、代名詞がマスキングされた訓練コーパスを自然言語処理モデルに入力する。
本実施形態では、マスキングされた訓練コーパスを自然言語処理モデルに入力した後、この自然言語処理モデルは、当該訓練コーパスにおけるマスキング代名詞の文脈情報に基づいて、当該代名詞が当該訓練コーパスにおける他の各名詞になり得る確率を予測することができる。
S211において、自然言語処理モデルにより予測された代名詞が訓練コーパス中の各名詞に属する確率と、ポジティブサンプルで標識された代名詞が照応する目的名詞に基づいて、目標損失関数を生成する。
例えば、本実施形態において、目標損失関数を生成することは、具体的に以下のステップを含むことができる。
(a)ポジティブサンプルで標識された代名詞が照応する目的名詞に基づいて、自然言語処理モデルにより予測された代名詞が目的名詞に属する確率を取得する。
ここで、目的名詞とは、itが正しい名詞を照応することを意味する。
(b)自然言語処理モデルにより予測された代名詞が目的名詞に属する確率に基づいて、第1損失関数を構築する。
(c)自然言語処理モデルにより予測された代名詞が目的名詞以外の他の名詞に属する確率に基づいて、第2損失関数を構築する。
他の名詞はitが誤る名詞を照応することである。具体的に、1つの語句に1つの他の名詞が存在する可能性もあり、2つ以上の他の名詞が存在する可能性もある。
(d)第1損失関数及び第2損失関数に基づいて、目標損失関数を生成する。
例えば、上記実施形態における「The troph7 didn't fit into the suitcase because it was too small」の場合に、itがthe suitcaseに照応することがポジティブサンプルであることを例にすると、本実施形態では、c1がitに照応された正しい目的名詞、c2がitに照応された誤る他の名詞であると記録し、語句をsと標記することができる。この場合に、自然言語処理モデルにより予測された代名詞が目的名詞に属する確率は、条件付き確率であるp(c1|s)で示されて良い。同様に、自然言語処理モデルにより予測された代名詞が目的名詞以外の他の名詞に属する確率は、p(c2|s)で示されて良い。実際の応用において、1つの語句の中に他の名詞c3、c4などが存在すると、それに応じてp(c3|s)、p(c4|s)などが存在しても良い。
それに応じて、第1損失関数は、Llogloss=-log(p(c1|s))のように表されることができる。
他の名詞としてc2のみが存在する場合に、それに応じて第2損失関数は、Lrankloss=alpha*max(0,log(p(c2|s))-log(p(c1|s))+beta)のように表されて良い。
ここで、alpha及びbetaはスーパーパラメータであり、実際のニーズに基づいて設定することができる。
また、オプションとして、他の名詞としてc3、c4などが更に存在する場合に、第2損失関数は、Lrankloss=alpha*max(0,log(p(c2|s),log(p(c3|s),log(p(c4|s),…)-log(p(c1|s))+beta)のように表されて良い。
本実施形態の目標損失関数は、第1損失関数Loglossと第2損失関数Ranklossとの和、即ちL=Llogloss+Lranklossを直接に取得して照応解析タスクの最適化目標とすることができる。これにより、モデルの候補予測の正確度を維持しつつ、モデルが異なる候補間の差異に注目することができる。
あるいは、実際の応用において、目標損失関数は、2つの損失関数の線形又は非線形の重畳をとるか、又は他の数学的な方法を用いて組み合わせてもよい。
S212において、目標損失関数が収束しているか否かを判断し、収束していない場合にステップS213を実行し、収束した場合にステップS214を実行する。
S213において、勾配降下法に基づいて自然言語処理モデルのパラメータを調整し、ステップS209に戻って次の訓練コーパスペアのポジティブサンプルの訓練コーパスを用いて訓練を継続する。
S214において、連続する予め設定された回数の訓練において常に収束しているか否かを判断し、肯定の場合に、訓練が終了し、自然言語処理モデルのパラメータを決定し、さらに自然言語処理モデルを決定して終了する。否定の場合に、ステップS209に戻り、次の訓練コーパスペアのポジティブサンプルの訓練コーパスを用いて訓練を継続する。
本実施形態の連続する予め設定された回数は、連続する100回、200回であっても良く、実際の需要に応じて設定されたその他の回数であってもよい。
本実施形態のステップS209~S215は、上述した図1に示した実施形態のステップS103の一実施形態である。この過程は、微調整(fine-tuning)段階の訓練段階で発生するものであって、初期に調整された自然言語処理モデルのパラメータに基づいて、自然言語処理モデルが照応解析タスクを実行する能力を学習するように、当該自然言語処理モデルの訓練を継続する。
本実施形態の自然言語処理モデルの訓練方法は、大量の教師なしコーパスから半教師な照応解析タスクの訓練コーパスペアを構築することができ、照応解析タスクに対するモデルのモデリング能力を効果的に向上させることができる。さらに、本実施形態では、第1損失関数と第2損失関数により構築された目標損失関数は、照応解析タスクをモデリングすることにより、モデルが代名詞がどの正しい目的名詞を照応するかを予測するとともに、異なる他の名詞間の差異性にも注目することができるため、モデルが照応解析タスクをよりよくモデリングし、モデルの照応解析タスクに対する処理能力を効果的に向上させ、自然言語処理モデルの機能を効果的に多様化し、自然言語処理モデルの実用性を高めることができる。
図5は、本開示の第3実施形態に係る模式図である。図5に示されたように、本実施形態は、予め設定されたコーパスセットに基づいて、照応解析タスクのポジティブサンプル及びネガティブサンプルが含まれる各訓練コーパスペアを構築する構築モジュール501と、各訓練コーパスペアを用いて、対応するポジティブサンプルとネガティブサンプルとを識別する能力を学習するように自然言語処理モデルを訓練する第1訓練モジュール502と、各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように自然言語処理モデルを訓練する第2訓練モジュール503と、を備える自然言語処理モデルの訓練装置500を提供する。
本実施形態の自然言語処理モデルの訓練装置500は、上述したモジュールを用いて自然言語処理モデルの訓練を実現する実現原理及び技術的な効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは詳しく説明しない。
図6は、本開示の第4実施形態に係る模式図である。図6に示されたように、本実施形態の自然言語処理モデルの訓練装置500は、上述した図5に示す実施形態の技術方法に加えて、本開示の技術案をより詳細に説明する。
図6に示されたように、本実施形態の自然言語処理モデルの訓練装置500において、構築モジュール501は、予め設定されたコーパスセット内の各コーパスについて、対応するコーパスにおける非初出の目的名詞を代名詞に置換して訓練コーパスとする置換部5011と、訓練コーパスから他の名詞を取得する取得部5012と、訓練コーパス及び代名詞が目的名詞を照応する照応関係を訓練コーパスペアのポジティブサンプルとする設置部5013とを備える。
設置部5013は、更に、訓練コーパス及び代名詞が他の名詞を照応する照応関係を訓練コーパスペアのネガティブサンプルとする。
さらにオプションとして、図6に示されたように、本実施形態の自然言語処理モデルの訓練装置500において、第1訓練モジュール502は、自然言語処理モデルがポジティブサンプル及びネガティブサンプルにおける照応関係が正しいか否かをそれぞれ予測することを学習するように、各訓練コーパスペアを自然言語処理モデルに入力する第1予測部5021と、予測が誤る場合に、自然言語処理モデルがポジティブサンプル及びネガティブサンプルにおける照応関係が正しいと予測される傾向に調整されるように、自然言語処理モデルのパラメータを調整する第1調整部5022とを備える。
さらにオプションとして、図6に示されたように、本実施形態の自然言語処理モデルの訓練装置500において、第2訓練モジュール503は、各訓練コーパスペアのポジティブサンプルの訓練コーパスにおける代名詞をマスキングするマスキング部5031と、自然言語処理モデルが代名詞が訓練コーパスの中の各名詞に属する確率を予測するように、代名詞がマスキングされた訓練コーパスを自然言語処理モデルに入力する第2予測部5032と、自然言語処理モデルにより予測された代名詞が訓練コーパスの中の各名詞に属する確率と、ポジティブサンプルに標識された代名詞が照応する目標名詞とに基づいて、目標損失関数を生成する生成部5033と、目標損失関数が収束しているか否かを判定する検出部5034と、収束しない場合に、自然言語処理モデルのパラメータを勾配降下法に基づいて調整する第2調整部5035とを備える。
さらにオプションとして、生成部5033は、ポジティブサンプルで標識された代名詞が照応する目標名詞に基づいて、自然言語処理モデルにより予測される代名詞が目的名詞に属する確率を取得し、自然言語処理モデルにより予測された代名詞が目的名詞に属する確率に基づいて、第1損失関数を構築し、自然言語処理モデルにより予測された代名詞が目的名詞以外の他の名詞に属する確率に基づいて、第2損失関数を構築し、第1損失関数及び第2損失関数に基づいて、目標損失関数を生成する。
本実施形態の自然言語処理モデルの訓練装置500は、上述したモジュールを用いて自然言語処理モデルの訓練を実現する実現原理及び技術的な効果は、上述した関連方法の実施形態の実現と同様であり、詳細は上述した関連方法の実施形態の記載を参照でき、ここでは詳しく説明しない。
本開示の実施形態によれば、本開示は更に、電子デバイス及び可読記憶媒体を提供する。
図7は、上述の方法を実現する本開示の実施形態の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図7に示すように、この電子デバイスは、一つ又は複数のプロセッサ701、メモリ702、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図7において、一つのプロセッサ701を例とする。
メモリ702は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された自然言語処理モデルの訓練方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された自然言語処理モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ702は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における自然言語処理モデルの訓練方法に対応するプログラムコマンド/モジュールを記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における自然言語処理モデルの訓練方法を実現する。
メモリ702は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は自然言語処理モデルの訓練方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ702は、プロセッサ701に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して自然言語処理モデルの訓練方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
自然言語処理モデルの訓練方法を実現する電子デバイスは、更に、入力装置703と出力装置704とを備えても良い。プロセッサ701、メモリ702、入力装置703及び出力装置704は、バス又は他の手段により接続されても良く、図7においてバスによる接続を例とする。
入力装置703は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
本開示の実施形態の技術案によれば、予め設定されたコーパスセットに基づいて、照応解析タスクのポジティブサンプルとネガティブサンプルとが含まれる各訓練コーパスペアを構築し、各訓練コーパスペアを用いて、対応するポジティブサンプルとネガティブサンプルを識別する能力を学習するように自然言語処理モデルを訓練し、各訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように自然言語処理モデルを訓練することにより、自然言語処理モデルによる照応解析タスクのモデリングを実現し、自然言語処理モデルによる照応解析タスクの処理能力を向上させ、自然言語処理モデルの機能を多様化し、自然言語処理モデルの実用性を高めることができる。
本開示の実施形態の技術案によれば、大量の教師なしコーパスから半教師な照応解析タスクの訓練コーパスペアを構築可能であり、モデルによる照応解析タスクのモデリング能力を効果的に向上させることができる。さらに、本実施形態では、第1損失関数と第2損失関数により構築された目標損失関数で照応解析タスクをモデリングすることにより、モデルが代名詞がどの正しい目的名詞を照応するかを予測するとともに、異なる他の名詞間の差異性に注目することができ、モデルが照応解析タスクをよりよくモデリングし、モデルによる照応解析タスクの処理能力を効果的に向上させ、自然言語処理モデルの機能を効果的に多様化し、自然言語処理モデルの実用性を高めることができる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (11)

  1. コンピュータにより実行される、自然言語処理モデルの訓練方法であって、
    予め設定されたコーパスセットに基づいて、それぞれ照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築することと、
    各前記訓練コーパスペアを用いて、対応する前記ポジティブサンプルと前記ネガティブサンプルとを識別する能力を学習するように、前記自然言語処理モデルを訓練することと、
    各前記訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように、前記自然言語処理モデルを訓練することと、を含
    各前記訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように前記自然言語処理モデルを訓練することは
    各前記訓練コーパスペアの前記ポジティブサンプルの訓練コーパスにおける代名詞をマスキングすることと、
    前記自然言語処理モデルが前記代名詞が前記訓練コーパスにおける各名詞に属する確率を予測するように、前記代名詞がマスキングされた前記訓練コーパスを前記自然言語処理モデルに入力することと、
    前記自然言語処理モデルにより予測された前記代名詞が前記訓練コーパスにおける各名詞に属する確率と、前記ポジティブサンプルにおいて標識された前記代名詞が照応する目的名詞とに基づいて目標損失関数を生成することと、
    前記目標損失関数が収束しているか否かを判定することと、
    収束しない場合に、勾配降下法に基づいて前記自然言語処理モデルのパラメータを調整することと、を含む、
    方法。
  2. 予め設定されたコーパスセットに基づいて、照応解析タスクの各訓練コーパスペアを構築することは、
    前記予め設定されたコーパスセットにおける各コーパスについて、対応する前記コーパスのうち非初出の目的名詞を代名詞に置き換えて訓練コーパスとすることと、
    前記訓練コーパスから他の名詞を取得することと、
    前記訓練コーパス及び前記代名詞が前記目的名詞を照応する照応関係を前記訓練コーパスペアのポジティブサンプルとすることと、
    前記訓練コーパス及び前記代名詞が前記他の名詞を照応する照応関係を前記訓練コーパスペアのネガティブサンプルとすることと、を含む、
    請求項1に記載の方法。
  3. 各前記訓練コーパスペアを用いて、対応する前記ポジティブサンプルと前記ネガティブサンプルとを識別する能力を学習するように前記自然言語処理モデルを訓練することは、
    前記自然言語処理モデルが前記ポジティブサンプル及び前記ネガティブサンプルにおける照応関係が正しいかどうかをそれぞれ予測することを学習するように、各前記訓練コーパスペアを前記自然言語処理モデルに入力することと、
    予測が誤る場合に、前記自然言語処理モデルが前記ポジティブサンプルと前記ネガティブサンプルにおける照応関係を正しく予測する傾向に調整されるように、前記自然言語処理モデルのパラメータを調整することと、を含む、
    請求項1又は2に記載の方法。
  4. 前記自然言語処理モデルにより予測された前記代名詞が前記訓練コーパスにおける各名詞に属する確率と、前記ポジティブサンプルにおいて標識された前記代名詞が照応する目的名詞とに基づいて目標損失関数を生成することは、
    前記ポジティブサンプルにおいて標識された前記代名詞が照応する目的名詞に基づいて、前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞に属する確率を取得することと、
    前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞に属する確率に基づいて第1損失関数を構築することと、
    前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞以外の他の名詞に属する確率に基づいて第2損失関数を構築することと、
    前記第1損失関数及び前記第2損失関数に基づいて前記目標損失関数を生成することと、を含む、
    請求項に記載の方法。
  5. 自然言語処理モデルの訓練装置であって、
    予め設定されたコーパスセットに基づいて、それぞれ照応解析タスクのポジティブサンプルとネガティブサンプルが含まれる各訓練コーパスペアを構築する構築モジュールと、
    各前記訓練コーパスペアを用いて、対応する前記ポジティブサンプル及び前記ネガティブサンプルを識別する能力を学習するように前記自然言語処理モデルを訓練する第1訓練モジュールと、
    各前記訓練コーパスペアのポジティブサンプルを用いて、照応解析タスクの能力を学習するように前記自然言語処理モデルを訓練する第2訓練モジュールと、を備え、
    前記第2訓練モジュールは、
    各前記訓練コーパスペアの前記ポジティブサンプルの訓練コーパスにおける代名詞をマスキングするマスキング部と、
    前記自然言語処理モデルが前記代名詞が前記訓練コーパスにおける各名詞に属する確率を予測するように、前記代名詞がマスキングされた前記訓練コーパスを前記自然言語処理モデルに入力する第2予測部と、
    前記自然言語処理モデルにより予測された前記代名詞が前記訓練コーパスにおける各名詞に属する確率と、前記ポジティブサンプルにおいて標識された前記代名詞が照応する目的名詞とに基づいて、目標損失関数を生成する生成部と、
    前記目標損失関数が収束しているか否かを判定する検出部と、
    収束しない場合に、勾配降下法に基づいて前記自然言語処理モデルのパラメータを調整する第2調整部と、を備える、
    装置。
  6. 前記構築モジュールは、
    前記予め設定されたコーパスセットにおける各コーパスについて、対応する前記コーパスのうち非初出の目的名詞を代名詞に置き換えて訓練コーパスとする置換部と、
    前記訓練コーパスから他の名詞を取得する取得部と、
    前記訓練コーパスと前記代名詞が前記目的名詞を照応する照応関係とを前記訓練コーパスペアのポジティブサンプルとする設置部と、を備え、
    前記設置部は、更に、前記訓練コーパス及び前記代名詞が前記他の名詞に照応する照応関係を前記訓練コーパスペアのネガティブサンプルとする、
    請求項に記載の装置。
  7. 前記第1訓練モジュールは、
    前記自然言語処理モデルが前記ポジティブサンプル及び前記ネガティブサンプルにおける照応関係が正しいか否かをそれぞれ予測することを学習するように、各前記訓練コーパスペアを前記自然言語処理モデルに入力する第1予測部と、
    予測が誤る場合に、前記自然言語処理モデルが前記ポジティブサンプル及び前記ネガティブサンプルにおける照応関係を正しく予測する傾向に調整されるように、前記自然言語処理モデルのパラメータを調整する第1調整部と、を備える、
    請求項又はに記載の装置。
  8. 前記生成部は、
    前記ポジティブサンプルにおいて標識された前記代名詞が照応する目的名詞に基づいて、前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞に属する確率を取得し、
    前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞に属する確率に基づいて第1損失関数を構築し、
    前記自然言語処理モデルにより予測された前記代名詞が前記目的名詞以外の他の名詞に属する確率に基づいて第2損失関数を構築し、
    前記第1損失関数及び前記第2損失関数に基づいて前記目標損失関数を生成する、
    請求項に記載の装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載の方法を実行させる電子デバイス。
  10. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  11. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのプログラム。
JP2021117352A 2020-07-20 2021-07-15 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム Active JP7293543B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010699284.3A CN112001190A (zh) 2020-07-20 2020-07-20 自然语言处理模型的训练方法、装置、设备及存储介质
CN202010699284.3 2020-07-20

Publications (2)

Publication Number Publication Date
JP2022020582A JP2022020582A (ja) 2022-02-01
JP7293543B2 true JP7293543B2 (ja) 2023-06-20

Family

ID=73467685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021117352A Active JP7293543B2 (ja) 2020-07-20 2021-07-15 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US20220019736A1 (ja)
EP (1) EP3944128A1 (ja)
JP (1) JP7293543B2 (ja)
KR (1) KR102549972B1 (ja)
CN (1) CN112001190A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989043B (zh) * 2021-03-17 2024-03-12 中国平安人寿保险股份有限公司 指代消解方法、装置、电子设备及可读存储介质
CN113011162B (zh) * 2021-03-18 2023-07-28 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质
CN113409884B (zh) * 2021-06-30 2022-07-22 北京百度网讯科技有限公司 排序学习模型的训练方法及排序方法、装置、设备及介质
CN114091468A (zh) * 2021-10-27 2022-02-25 北京奇艺世纪科技有限公司 指代消解模型的训练方法及装置、电子设备
CN114091467A (zh) * 2021-10-27 2022-02-25 北京奇艺世纪科技有限公司 指代消解模型的训练方法及装置、电子设备
CN114444462B (zh) * 2022-01-26 2022-11-29 北京百度网讯科技有限公司 模型训练方法及人机交互方法、装置
CN115035890B (zh) * 2022-06-23 2023-12-05 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、电子设备及存储介质
CN115470781B (zh) * 2022-11-01 2023-03-14 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备
CN116050433B (zh) * 2023-02-13 2024-03-26 北京百度网讯科技有限公司 自然语言处理模型的场景适配方法、装置、设备及介质
CN116629235B (zh) * 2023-07-25 2024-01-05 深圳须弥云图空间科技有限公司 大规模预训练语言模型微调方法、装置、电子设备及介质
CN117708601B (zh) * 2024-02-06 2024-04-26 智慧眼科技股份有限公司 一种相似度计算模型训练方法、装置、设备及存储介质
CN117892828B (zh) * 2024-03-18 2024-05-31 青岛市勘察测绘研究院 一种地理信息系统自然语言交互方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150586A (ja) 2011-01-18 2012-08-09 Toshiba Corp 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
WO2014002172A1 (ja) 2012-06-25 2014-01-03 株式会社東芝 文脈解析装置および文脈解析方法
WO2018174816A1 (en) 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
US20190197109A1 (en) 2017-12-26 2019-06-27 The Allen Institute For Artificial Intelligence System and methods for performing nlp related tasks using contextualized word representations

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US11704552B2 (en) * 2018-10-29 2023-07-18 Microsoft Technology Licensing, Llc Task detection in communications using domain adaptation
CN110765235B (zh) * 2019-09-09 2023-09-05 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN113806646A (zh) * 2020-06-12 2021-12-17 上海智臻智能网络科技股份有限公司 序列标注系统及序列标注模型的训练系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150586A (ja) 2011-01-18 2012-08-09 Toshiba Corp 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
WO2014002172A1 (ja) 2012-06-25 2014-01-03 株式会社東芝 文脈解析装置および文脈解析方法
CN104169909A (zh) 2012-06-25 2014-11-26 株式会社东芝 上下文解析装置及上下文解析方法
US20150032444A1 (en) 2012-06-25 2015-01-29 Kabushiki Kaisha Toshiba Contextual analysis device and contextual analysis method
WO2018174816A1 (en) 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
US20190197109A1 (en) 2017-12-26 2019-06-27 The Allen Institute For Artificial Intelligence System and methods for performing nlp related tasks using contextualized word representations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飯田 龍,外3名,文脈的手がかりを考慮した機械学習によるゼロ照応解析,言語処理学会 第9回年次大会 発表論文集,日本,言語処理学会,2003年03月20日,pp.585-588

Also Published As

Publication number Publication date
JP2022020582A (ja) 2022-02-01
KR20220011082A (ko) 2022-01-27
US20220019736A1 (en) 2022-01-20
CN112001190A (zh) 2020-11-27
EP3944128A1 (en) 2022-01-26
KR102549972B1 (ko) 2023-06-29

Similar Documents

Publication Publication Date Title
JP7293543B2 (ja) 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム
Uc-Cetina et al. Survey on reinforcement learning for language processing
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7250052B2 (ja) 自然言語及び知識グラフに基づく表現学習方法及び装置
JP7242993B2 (ja) 多言語語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
EP3916611A1 (en) Method, apparatus, computer program, and storage medium for training text generation model
JP7292321B2 (ja) イベント引数抽出方法、イベント引数抽出装置、電子デバイス、記憶媒体及びコンピュータプログラム製品
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
CN111079945B (zh) 端到端模型的训练方法及装置
US11995405B2 (en) Multi-lingual model training method, apparatus, electronic device and readable storage medium
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
US11562150B2 (en) Language generation method and apparatus, electronic device and storage medium
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
Zou et al. Maps: Joint multimodal attention and pos sequence generation for video captioning
KR102524766B1 (ko) 자연어 및 지식 그래프 기반 표현 학습 방법 및 장치
Ibraheem et al. Learning an interactive attention policy for neural machine translation
Islam et al. Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language
Abood et al. A Survey of Next Words Prediction Models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230515

R150 Certificate of patent or registration of utility model

Ref document number: 7293543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150