JP7267342B2 - 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 - Google Patents

語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP7267342B2
JP7267342B2 JP2021074989A JP2021074989A JP7267342B2 JP 7267342 B2 JP7267342 B2 JP 7267342B2 JP 2021074989 A JP2021074989 A JP 2021074989A JP 2021074989 A JP2021074989 A JP 2021074989A JP 7267342 B2 JP7267342 B2 JP 7267342B2
Authority
JP
Japan
Prior art keywords
training
language
data model
semantic data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021074989A
Other languages
English (en)
Other versions
JP2022014429A (ja
Inventor
シュオホアン ワン
チアシアン リウ
シュアン オウヤン
ユイ スン
ホア ウー
ハイフォン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022014429A publication Critical patent/JP2022014429A/ja
Application granted granted Critical
Publication of JP7267342B2 publication Critical patent/JP7267342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピュータ応用技術分野に関し、特に人工知能技術に関する。
今年は、BERT(Bidirectional Encoder Representation from Transformers、transformerからの双方向エンコーダ表現)モデルをはじめとする事前訓練モデルは、NLP(Natural Language Processing、自然言語処理)タスクの効果を大幅に向上させた。しかし、現在主流の語義表現モデルは英語、中国語、フランス語、ドイツ語などの一般的な言語に集中している。しかし、世界には何千もの言語があり、ほとんどの言語は英語などの一般的な言語に比べてコーパスが少ないので、低リソース言語と呼ばれる。事前訓練モデルの訓練は大量のコンピューティングリソースを必要とし、コストが高く、各モデルのコストは数十万から数百万に達するため、各言語に対して訓練のために十分なコーパスを構築することは困難である。また、チェコ語のようなコーパスが非常に少ない言語では、訓練のために十分なコーパスを集めることさえ困難である。
これに鑑みて、本出願は、コーパスの少ない言語に対する語義表現モデルの訓練方法、装置、デバイス、およびコンピュータ記憶媒体を提供する。
第1の態様では、本出願は、第1の言語により訓練された語義表現モデルを第1の語義表現モデルとして取得し、前記第1の語義表現モデルの最下位層と最上位層を訓練対象層とし、訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、未訓練の各層を下から順に訓練対象層に加えてそれぞれ実行し、訓練対象層以外の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練し、全ての層について訓練が終了した後、第2の言語に対する語義表現モデルを得る、ことを含む語義表現モデルの訓練方法を提供する。
第2の態様では、本出願は、第1の言語により訓練された語義表現モデルを第1の語義表現モデルとして取得する第1の取得部と、前記第1の語義表現モデルの最下位層および最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、未訓練の各層を下から順に訓練対象層に加えてそれぞれ実行し、訓練対象層以外の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練し、すべての層について訓練が終了した後、第2言語に対する語義表現モデルを得る訓練部と、を備える語義表現モデルの訓練装置を提供する。
第3の態様では、本出願は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記の何れか一つに記載の方法を実行させる電子デバイスを提供する。
第4の態様では、本出願は、コンピュータに前記何れか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本出願では、既存の言語で訓練された語義表現モデルを十分に利用し、各層を順次に転移訓練を行って別の言語の語義表現モデルを得ることにより、コーパスの少ない言語について、訓練サンプルの収集に必要なコストを大幅に削減し、訓練効率を向上させた。
前記選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。ここで、
本出願の実施形態一により提供される語義表現モデルの訓練方法のフローチャートである。 本出願の実施形態一により提供される語義表現モデルの訓練の各段階の模式図である。 本出願の実施形態二により提供されるパラレルコーパスを用いたモデル訓練の模式図である。 本出願の実施形態二により提供されるアラインメントモデルの動作原理の実例図である。 本発明の実施形態三により提供される語義表現モデルの訓練装置の構成図である。 本発明の実施形態を実現するための電子デバイスのブロック図である。
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
本出願の主旨は、十分に訓練された第1の言語の語義表現モデルを利用して、第2の言語の語義表現モデルの訓練を支援することである。説明を容易にし理解を助けるために、後続の実施形態に関連する例では、第1の言語が英語、第2の言語が中国語である例として説明されるが、本出願はこれに限定されなく、任意の言語に適用されてもよい。
なお、本願に係る語義表現モデルとしては、RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)、Transformerモデル等を用いることができる。典型的な語義表現モデルとして、後続の実施形態に関連する例では、Transformerモデルを例にして説明され、他のモデルの実現原理は類似している。
実施形態一
図1は、本出願の実施形態一により提供される語義表現モデルの訓練方法のフローチャートである。本方法の実行主体は語義表現モデルを訓練する装置である。当該装置は、コンピュータシステム/サーバ上にあるアプリケーションであっても良く、コンピュータシステム/サーバ上にあるアプリケーションにおけるプラグインやソフトウェア開発キット(Software Development Kit、SDK)などの機能ユニットであってもよい。図1に示すように、当該方法は以下のステップを含むことができる。
101では、第1の言語により訓練された語義表現モデルを第1の語義表現モデルとして取得する。
英語を第1の言語とすると、英語は国際共通言語であり、一般的に英語に対するコーパスが多いため、英語を用いることでTransformerモデルのような語義表現モデルを容易かつ良好に訓練することができる。本ステップでは、既に訓練された英語のTransformerモデルを第1の語義表現モデルとし、後続の転移訓練に備えて中国語のTransformerモデルの訓練を支援する。
102では、第1の語義表現モデルの最下位層および最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで、第2の言語の訓練コーパスを用いて訓練対象層を訓練する。
Figure 0007267342000001
Transformerモデルは、図2に示されたように、多層構造を持つ。ここで、最下位層はEmbedding Layerで示される埋め込み層であり、訓練コーパスにおける各文字のベクトル表現を特定するために用いられる。最上位層は通常にTask Layerで示される全連結層であり、Transformerの中の各層の処理を経たベクトル表現をマッピングして訓練コーパスにおけるmaskの内容の予測を得るために用いられる。最上位層と最下位層の間に更に複数の層が含まれており、通常にTransformer Blockで示される。Transformer Blockの各層は、入力された各文字のベクトル表現をアテンション(Attention)メカニズムの処理を行ってグローバルベクトル表現に変更させるために用いられる。Transformer Blockの各層は、Attentionを実行するときに、前の層のグローバルベクトル表現を参照する。具体的な各層のTransformer Blockの動作メカニズムについては、ここでは詳しく説明しない。本出願の実施形態の図2では、Transformer Blockとして3つの層を有することを例とする。
通常に、Transformerモデルの最下位層は字面上の論理を処理することに注目する一方、上位層は語義上の論理を処理することに注目し、上位層の語義論理は異なる言語に対して一貫性がより強い。この仮定に基づいて、本願の実施形態では、各層を順次に訓練する方式を採用し、最初に最下位層と最上位層を訓練し、その後に最下位層と最上位層を組み合わせて中間層を個別に訓練する。
図2に示された(a)段階では、英語のTransformerモデルにおけるEmbedding LayerとTask Layerを訓練対象層として初期化し、すなわちモデルパラメータを初期化する。他の層、すなわち各Transformer Blockのパラメータを変更せず、すなわち各Transformer Blockのパラメータは今まで英語に対して訓練して得られたモデルパラメータのままとする。そして、中国語の訓練コーパスを入力して訓練対象層であるEmbedding LayerとTask Layerを訓練する。
訓練目標は、訓練対象層を訓練するたびに、Task Layer層によるmaskの予測結果が期待に一致することである。すなわち、この訓練目標に基づいて損失関数を構築し、損失関数の値を用いて訓練対象層のモデルパラメータを最適化することができる。各訓練対象層に対する訓練終了条件は、Lossが徐々に収束しているか、反復回数が予め設定された閾値に達しているかなどであってよい。
つまり、(a)段階では、中国語の訓練コーパスを用いてEmbedding LayerとTask Layerを訓練する過程で、lossを用いて反復を行い、lossが徐々に収束するか、反復回数が予め設定された閾値に達するまで、Embedding LayerとTask Layerのパラメータを徐々に最適化する。
103では、未訓練の各層を下から順に訓練対象層に加え、それぞれが訓練終了条件に達するまで、訓練対象層以外の層のモデルパラメータを変更せず、第2の言語の訓練コーパスを用いて訓練対象層を訓練することをそれぞれ実行する。
図2に示された(b)段階では、下から上に向かってまずTransformer Block 1を訓練対象層に加える。このときの訓練対象層はEmbedding Layer、Task Layer、Transformer Block 1を含む。このうち、Embedding Layer、Task Layerの現在のパラメータは102により訓練されたパラメータであり、Transformer Block 1のパラメータは英語のTransformerモデルにおけるTransformer Block 1のパラメータである。Transformer Block 2とTransformer Block 3のパラメータを変更せず、Embedding Layer、Task Layer、Transformer Block 1を訓練する。中国語の訓練コーパスを使用してEmbedding Layer、Task LayerおよびTransformer Block 1を訓練する過程で、Lossを使用して反復を行い、lossが徐々に収束するか、反復回数が予め設定された閾値に達するまでEmbedding Layer、Task LayerおよびTransformer Block 1のパラメータを徐々に最適化する。
図2に示された(c)段階では、下から上に向かってTransformer Block 2を訓練対象層に加える。このときの訓練対象層はEmbedding Layer、Task Layer、Transformer Block 1、Transformer Block 2を含む。Transformer Block 3のパラメータを変更せず、Embedding Layer、Task Layer、Transformer Block 1、Transformer Block 2を訓練する。中国語の訓練コーパスを使用してEmbedding Layer、Task Layer、Transformer Block 1およびTransformer Block 2を訓練する過程で、lossを使用して反復を行い、lossが徐々に収束するか、反復回数が予め設定された閾値に達するまでEmbedding Layer、Task Layer、Transformer Block 1およびTransformer Block 2のパラメータを徐々に最適化する。
図2に示された(d)段階では、下から上に向かってTransformer Block 3を訓練対象層に加える。このときの訓練対象層はEmbedding Layer、Task Layer、Transformer Block 1、Transformer Block 2、Transformer Block 3を含む。中国語の訓練コーパスを使用してEmbedding Layer、Task Layer、Transformer Block 1、Transformer Block 2、およびTransformer Block 3を訓練する過程で、lossを使用して反復を行い、lossが徐々に収束するか、反復回数が予め設定された閾値に達するまで、Embedding Layer、Task Layer、Transformer Block 1、Transformer Block 2、およびTransformer Block 3のパラメータを徐々に最適化する。
以上の過程からわかるように、実際には各中間層に対して英語の各Transformer Block層を用いてホットスタートを行って中国語の各Transformer Block層を訓練する。また、各中間層については、上記の下から上へ1層ずつ訓練する方式に加えて、中間層数が多ければ、下から上へ2層ずつ訓練したり、逐次より多くの層数を訓練したりすることもできる。
104では、すべての層の訓練が終了した後、第2の言語に対する語義表現モデルが得られる。
図2に示された(d)段階の訓練が完了すると、中国語のTransformerモデルが得られ、訓練済みの英語のTransformerモデルから徐々に転移訓練されて中国語のTransformerモデルが得られることが実現された。
本実施形態では、単一のコーパス、すなわち中国語コーパスを利用して英語のTransformerモデルから転移する方式を用いて中国語のTransformerモデルを訓練する。バイリンガルのパラレルコーパスを使用することができれば、訓練コストをさらに削減し、訓練効果を高めることができる。この場合に、実施形態二に示される方法を用いて訓練を行うことができる。
実施形態二
本実施形態では、実施形態1に加えて、第1の言語を利用して訓練された語義表現モデルを第2の語義表現モデルとしてさらに取得する。ここで、第1の語義表現モデルは、基礎として層毎に転移訓練を行うために用いられ、第2の語義表現モデルは、第2の言語の語義表現モデルを訓練する過程において、第2の語義表現モデルにより出力された第1の言語の結果と第1の語義表現モデルにより出力された結果とをアラインメント処理するために用いられる。
ここで、第1の語義表現モデルの転移訓練を支援するために、前記のアラインメント処理を行うためのアラインメントモデルを追加する必要がある。
図2における(a)段階の訓練を例にすると、図3に示されたように、中英パラレルコーパスのうちの英語訓練コーパスを予め訓練された英語のTransformerモデルに入力し、Task Layer層が出力した英語結果をアラインメントモデルに入力する。これとともに、英語訓練コーパスに対応する中国語訓練コーパスを(a)段階に対応する訓練過程における中国語のTransformerモデルに入力し、Task Layer層が出力した中国語結果もアラインメントモデルに入力する。アラインメントモデルは、訓練中の中国語のTransformerモデルの出力結果を用いて英語のTransformerモデルの出力結果にAttentionメカニズムの処理を行った後に、Attention処理結果をマッピングして中国語訓練コーパスの中のmaskの予測結果を得る。同様に、訓練目標は、maskの予測結果が訓練コーパスの中の期待文字に一致することである。アラインメントモデルの予測結果を用いてLossを構築し、Lossの値を用いて訓練中の中国語のTransformerモデルパラメータ(すなわち訓練対象層のモデルパラメータ)を最適化すると共に、アラインメントモデルのモデルパラメータを最適化する。
アラインメントモデルはAttention処理を行う際に、中国語のTransformerモデルが出力する文字をxで示し、英語のTransformerモデルが出力する文字をyで示すと仮定する。xとyのドット積をAijで示し、Aijを利用してyに対して重み付け処理を行う。
Figure 0007267342000002
ここで、nは英語のTransformerモデルが出力する文字の総数である。
次にAttention処理で得られた各x’構成のベクトルを用いて全連結層(Softmax)のマッピングを行い、中国語の訓練コーパスにおけるmaskの値を予測する。
他の段階の訓練過程は類似しており、同様に英語のTransformerモデルの出力結果を用いてアラインメント処理を行い、ここでは詳しく説明しない。
例えば、「英語:I ate an apple、中国語:我吃了个[mask](私はリンゴを[mask])」というパラレルコーパスを仮定する。ここで、maskの期待文字は「吃(食べる)」である。
図4に示されたように、中国語コーパスおよび各文字の位置ラベル(図中に「私」の位置ラベルは「0」、「mask」の位置ラベルは1、以下同様)を訓練中の中国語Transformerモデルに入力する。パラレル英語コーパスおよび各文字の位置ラベル(図中に「I」の位置ラベルは0、「ate」の位置ラベルは1、以下同様)を訓練された英語Transformerモデルに入力する。英語Transformerモデルが出力した各英語の文字および中国語Transformerモデルが出力した各中国語の文字はアラインメントモデルに出力され、アラインメントモデルは中国語Transformerモデルの出力結果を用いて英語Transformerモデルの出力結果をAttentionした後、Attentionで得られた結果をSoftmaxマッピングして中国語予測の各中国語の文字を得る。この中国語予測の文字と中国語コーパスの所望の文字とを用いてlossを特定した後に、層ごとに訓練された中国語Transformerにおける訓練対象層のモデルパラメータを更新し、アラインメントモデルのモデルパラメータを更新する。
なお、上記実施形態二では、バイリンガルパラレルコーパスを用いれば、採用された訓練データにマスクを行わなくてもよい。たとえば、「英語:I ate an apple、中国語: 我吃了个苹果(私はリンゴを食べた)」というパラレルコーパスを仮定する。
アラインメントモデルがAttention処理を行う過程は実施形態二で述べた過程と同じであり、Softmaxを経た後、同様に中国語訓練コーパスにおける各文字を予測した。この中国語予測の文字と中国語コーパスの所望の文字とを用いてlossを特定した後に、層ごとに訓練された中国語Transformerにおける訓練対象層のモデルパラメータを更新し、アラインメントモデルのモデルパラメータを更新する。
実施形態二により提供された方式により、バイリンガルパラレルコーパスを十分に利用し、高リソース言語のコーパスを十分に利用し、訓練コストをさらに低減し、低リソース言語の語義表現モデルの訓練効果を更に向上させた。
以上は、本出願により提供された方法の詳細な説明であり、以下は、実施形態と合わせて本出願により提供される装置を詳しく説明する。
実施形態三
図5は、本発明の実施形態三により提供される語義表現モデルの訓練装置の構成図である。図5に示されたように、当該装置は、第1の取得部01および訓練部02を備え、さらに第2の取得部03を備えてもよい。これらの各構成ユニットの主な機能は次のとおりである。
第1の取得部01は、第1の言語により訓練された語義表現モデルを第1の語義表現モデルとして取得する。
訓練部02は、第1の語義表現モデルの最下位層及び最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、未訓練の各層を下から順に訓練対象層に加えてそれぞれ実行し、訓練対象層以外の他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練し、すべての層の訓練が終了した後、第2の言語に対する語義表現モデルを得る。
ここで、最下位層は埋め込みEmbedding層、最上位層は全連結層である。語義表現モデルは、CNN、RNN、Transformerモデルなどであって良い。
第2の言語の訓練コーパスは、第2の言語を用いたマスクmask付きテキスト及びmaskに対応する文字を含む。
訓練部02は、第1の語義表現モデルの各層を訓練する際に、最上位層によるmaskの予測結果が訓練コーパスの中のmaskに対応する文字に一致することを訓練目標とする。
訓練目標は、訓練対象層を訓練するたびに、最上位層によるmaskの予測結果が期待に一致することである。つまり、この訓練目標に基づいて損失関数を構築し、損失関数の値を用いて訓練対象層のモデルパラメータを最適化することができる。各訓練層に対する訓練終了条件は、Lossが徐々に収束しているか、反復回数が予め設定された閾値に達しているかなどであってよい。
幾つかのバイリンガルのパラレルコーパスを使用することができれば、訓練コストをさらに削減し、訓練効果を高めることができる。このとき、第2の取得部03は、第1の言語により訓練された語義表現モデルを第2の語義表現モデルとして取得する。
訓練部02は、第2の言語の訓練コーパスを用いて訓練対象層を訓練する際に、第2の言語の訓練コーパスに対応する第1の言語のパラレルコーパスを第2の語義表現モデルに入力し、第2の語義表現モデルの出力結果と第1の語義表現モデルの出力結果とをアラインメントする。
具体的には、訓練部02は、第2の語義表現モデルの出力結果と第1の語義表現モデルの出力結果とをアラインメントする場合に、第1の語義表現モデルの出力結果と第2の語義表現モデルの出力結果をアラインメントモデルに入力し、アラインメントモデルにより第1の語義表現モデルの出力結果を用いて第2の語義表現モデルの出力結果に対してアテンションメカニズムの処理を行い、アテンションメカニズムの処理結果をマッピングして、第2の言語の訓練コーパスにおける文字の予測結果を得ることを具体的に実行することができる。
パラレルコーパスにおける第2の言語の訓練コーパスに第2の言語を用いたmask付きテキスト及び前記maskに対応する文字が含まれる場合に、訓練目標は、第2の言語の訓練コーパスにおけるmaskのコーパス結果が訓練コーパスにおけるmaskに対応する文字に一致することである。
パラレルコーパスにおける第2の言語の訓練コーパスが第2の言語のmaskなしテキストである場合に、訓練目標は、前記第2の言語の訓練コーパスにおける各文字の予測結果が前記訓練コーパスにおける各文字に一致することである。
本発明の実施形態によれば、本発明は更に電子デバイスおよび可読記憶媒体を提供する。
図6は、本出願の実施形態による語義表現モデルの訓練方法の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本出願の実現を限定することが意図されない。
図6に示すように、この電子デバイスは、一つ又は複数のプロセッサ601、メモリ602、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図6において、一つのプロセッサ601を例とする。
メモリ602は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された語義表現モデルの訓練方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供された語義表現モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における語義表現モデルの訓練方法に対応するプログラムコマンド/モジュールを記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における語義表現モデルの訓練方法を実現する。
メモリ602は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は当該電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ602は、プロセッサ601に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して当該電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
当該電子デバイスは、更に、入力装置603と出力装置604とを備えても良い。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の手段により接続されても良く、図6においてバスによる接続を例とする。
入力装置603は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. コンピュータにより実行される、セマンティックデータモデル(Semantic data Model)の訓練方法であって、前記セマンティックデータモデルは、Embedding Layerを最下位層として、Task Layerを最上位層として、Transformer Blockを他の層として含むニューラルネットワークであり、
    前記セマンティックデータモデルの訓練方法は、
    第1の言語により訓練されたセマンティックデータモデルを第1のセマンティックデータモデルとして取得し、
    前記第1のセマンティックデータモデルの最下位層と最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、
    未訓練の各層を下から順に訓練対象層に加え、且つ、訓練対象層以外の他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練することをそれぞれ実行し、
    すべての層の訓練が終了した後、第2の言語に対するセマンティックデータモデルを得、
    第1の言語により訓練された前記セマンティックデータモデルを第2のセマンティックデータモデルとして取得し、
    前記第2の言語の訓練コーパスを用いて訓練対象層を訓練する場合に、前記第2の言語の訓練コーパスに対応する第1の言語のパラレルコーパスを前記第2のセマンティックデータモデルに入力し、
    前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすること、を含み、
    前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
    前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とにより、第2の言語の訓練コーパスにおける文字に対する予測結果が得られ、第2の言語の訓練コーパスにおける文字に対する予測結果が対応する第2の言語の訓練コーパスにおける期待文字に一致するように、訓練対象層のモデルパラメータを更新することを含む、
    方法。
  2. 前記セマンティックデータモデルはTransformerモデルを含む、請求項1に記載の方法。
  3. 前記第2の言語の訓練コーパスは、第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字を含み、
    第1のセマンティックデータモデルの各層を訓練する場合に、前記最上位層によるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することを訓練目標とする、請求項1または2に記載の方法。
  4. 前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
    前記第1のセマンティックデータモデルの出力結果と前記第2のセマンティックデータモデルの出力結果とをアラインメントモデルに入力し、
    前記アラインメントモデルにより、第1のセマンティックデータモデルの出力結果における文字のベクトル表示と第2のセマンティックデータモデルの出力結果における文字のベクトル表示とのドット積を利用して、第2のセマンティックデータモデルの出力結果における文字のベクトル表示に対して重み付け処理を行い、新たなベクトル表示を得、前記新たなベクトル表示を用いて全連結層(Softmax)のマッピングを行い、第2の言語の訓練コーパスにおける文字の予測結果を得る、
    ことを含む請求項1又は2に記載の方法。
  5. 前記第2の言語の訓練コーパスに第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字が含まれている場合に、訓練目標は、前記第2の言語の訓練コーパスにおけるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することであり、
    前記第2の言語の訓練コーパスが第2の言語のmaskなしテキストである場合に、訓練目標は、前記第2の言語の訓練コーパスにおける各文字の予測結果が前記訓練コーパスにおける各文字に一致することである、
    請求項に記載の方法。
  6. セマンティックデータモデル(Semantic data Model)の訓練装置であって、前記セマンティックデータモデルは、Embedding Layerを最下位層として、Task Layerを最上位層として、Transformer Blockを他の層として含むニューラルネットワークであり、
    前記セマンティックデータモデルの訓練装置は、
    第1の言語により訓練されたセマンティックデータモデルを第1のセマンティックデータモデルとして取得する第1の取得部と、
    前記第1のセマンティックデータモデルの最下位層及び最上位層を訓練対象層として訓練対象層を初期化し、他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層を訓練し、未訓練の各層を下から順に訓練対象層に加え、且つ、訓練対象層以外の他の層のモデルパラメータを変更せず、訓練終了条件に達するまで第2の言語の訓練コーパスを用いて訓練対象層をそれぞれ訓練することをそれぞれ実行し、すべての層の訓練が終了した後、第2の言語に対するセマンティックデータモデルを得る訓練部と、
    第1の言語により訓練された前記セマンティックデータモデルを第2のセマンティックデータモデルとして取得する第2の取得部と、を備え、
    前記訓練部は、前記第2の言語の訓練コーパスを用いて訓練対象層を訓練する場合に、前記第2の言語の訓練コーパスに対応する第1の言語のパラレルコーパスを前記第2のセマンティックデータモデルに入力し、前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントし、
    前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントすることは、
    前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とにより、第2の言語の訓練コーパスにおける文字に対する予測結果が得られ、第2の言語の訓練コーパスにおける文字に対する予測結果が対応する第2の言語の訓練コーパスにおける期待文字に一致するように、訓練対象層のモデルパラメータを更新することを含む、
    装置。
  7. 前記セマンティックデータモデルはTransformerモデルを含む、請求項に記載の装置。
  8. 前記第2の言語の訓練コーパスは、第2の言語を用いたマスク(mask)付きテキスト及び前記maskに対応する文字を含み、
    前記訓練部は、第1のセマンティックデータモデルの各層を訓練する場合に、前記最上位層によるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することを訓練目標とする、請求項6または7に記載の装置。
  9. 前記訓練部は、前記第2のセマンティックデータモデルの出力結果と前記第1のセマンティックデータモデルの出力結果とをアラインメントする場合に、具体的に、
    前記第1のセマンティックデータモデルの出力結果と前記第2のセマンティックデータモデルの出力結果とをアラインメントモデルに入力し、
    前記アラインメントモデルにより、第1のセマンティックデータモデルの出力結果における文字のベクトル表示と第2のセマンティックデータモデルの出力結果における文字のベクトル表示とのドット積を利用して、第2のセマンティックデータモデルの出力結果における文字のベクトル表示に対して重み付け処理を行い、新たなベクトル表示を得、前記新たなベクトル表示を用いて全連結層(Softmax)のマッピングを行い、第2の言語の訓練コーパスにおける文字の予測結果を得る、
    請求項に記載の装置。
  10. 前記第2の言語の訓練コーパスに前記第2の言語を用いたマスク(mask)付きテキストおよび前記maskに対応する文字が含まれている場合に、訓練目標は、前記第2の言語の訓練コーパスにおけるmaskの予測結果が前記訓練コーパスにおけるmaskに対応する文字に一致することであり、
    前記第2の言語の訓練コーパスが第2の言語のmaskなしテキストである場合に、訓練目標は、前記第2の言語の訓練コーパスにおける各文字の予測結果が前記訓練コーパスにおける各文字に一致することである、
    請求項に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか一項に記載の方法を実行させる電子デバイス。
  12. コンピュータに請求項1~のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  13. コンピュータに請求項1~のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
JP2021074989A 2020-07-06 2021-04-27 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 Active JP7267342B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010638228.9A CN111539227B (zh) 2020-07-06 2020-07-06 训练语义表示模型的方法、装置、设备和计算机存储介质
CN202010638228.9 2020-07-06

Publications (2)

Publication Number Publication Date
JP2022014429A JP2022014429A (ja) 2022-01-19
JP7267342B2 true JP7267342B2 (ja) 2023-05-01

Family

ID=71968594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021074989A Active JP7267342B2 (ja) 2020-07-06 2021-04-27 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US11914964B2 (ja)
EP (1) EP3937060A1 (ja)
JP (1) JP7267342B2 (ja)
KR (1) KR102567635B1 (ja)
CN (1) CN111539227B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475226B2 (en) * 2020-09-21 2022-10-18 International Business Machines Corporation Real-time optimized translation
CN112528669B (zh) 2020-12-01 2023-08-11 北京百度网讯科技有限公司 多语言模型的训练方法、装置、电子设备和可读存储介质
CN113033801A (zh) * 2021-03-04 2021-06-25 北京百度网讯科技有限公司 神经网络模型的预训练方法、装置、电子设备和介质
CN112989844A (zh) * 2021-03-10 2021-06-18 北京奇艺世纪科技有限公司 一种模型训练及文本识别方法、装置、设备及存储介质
CN113011126B (zh) * 2021-03-11 2023-06-30 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113590865B (zh) * 2021-07-09 2022-11-22 北京百度网讯科技有限公司 图像搜索模型的训练方法及图像搜索方法
CN114926460B (zh) * 2022-07-19 2022-10-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 眼底图像分类模型的训练方法、眼底图像分类方法及系统
CN115982583A (zh) * 2022-12-30 2023-04-18 北京百度网讯科技有限公司 预训练语言模型的训练方法、装置、设备和介质
CN116932728B (zh) * 2023-08-30 2024-01-26 苏州浪潮智能科技有限公司 语言交互方法、装置、通信设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846126B (zh) * 2018-06-29 2021-07-27 北京百度网讯科技有限公司 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN111160016B (zh) * 2019-04-15 2022-05-03 深圳碳云智能数字生命健康管理有限公司 语义识别方法、装置、计算机可读存储介质和计算机设备
US11586930B2 (en) * 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training
US11604965B2 (en) * 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
CN110209817B (zh) * 2019-05-31 2023-06-09 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法
US11620515B2 (en) * 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN111159416B (zh) * 2020-04-02 2020-07-17 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Abrhalei Tela 他2名,Transferring Monolingual Model to Low-Resource Language: The Case of Tigrinya[online],2020年06月19日,[令和04年05月17日検索],インターネット<URL:https://arxiv.org/pdf/2006.07698.pdf>
大熊顕至,ニューラルネットワークのモデルのバリエーション[online],2015年09月09日,[令和04年05月17日検索],インターネット<URL:https:/thinkit.co.jp/story/2015/09/09/6399>

Also Published As

Publication number Publication date
CN111539227A (zh) 2020-08-14
JP2022014429A (ja) 2022-01-19
KR102567635B1 (ko) 2023-08-16
US11914964B2 (en) 2024-02-27
EP3937060A1 (en) 2022-01-12
CN111539227B (zh) 2020-12-18
US20220004716A1 (en) 2022-01-06
KR20220005384A (ko) 2022-01-13

Similar Documents

Publication Publication Date Title
JP7267342B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体
JP7122365B2 (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP7214954B2 (ja) 言語モデルのトレーニング方法、装置、電子機器、プログラム及び可読記憶媒体
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP7250052B2 (ja) 自然言語及び知識グラフに基づく表現学習方法及び装置
CN111598216B (zh) 学生网络模型的生成方法、装置、设备及存储介质
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
US20210374359A1 (en) Method, electronic device, and storage medium for training text generation model
JP7222162B2 (ja) 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
JP7242993B2 (ja) 多言語語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
US11182648B2 (en) End-to-end model training method and apparatus, and non-transitory computer-readable medium
CN112528669B (zh) 多语言模型的训练方法、装置、电子设备和可读存储介质
CN110597959A (zh) 文本信息抽取方法、装置以及电子设备
JP2021131858A (ja) エンティティワードの認識方法と装置
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN112148871A (zh) 摘要生成方法、装置、电子设备及存储介质
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
CN111539225B (zh) 语义理解框架结构的搜索方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230217

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230217

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230224

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230419

R150 Certificate of patent or registration of utility model

Ref document number: 7267342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150