JP7358698B2 - 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 - Google Patents

語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 Download PDF

Info

Publication number
JP7358698B2
JP7358698B2 JP2022031735A JP2022031735A JP7358698B2 JP 7358698 B2 JP7358698 B2 JP 7358698B2 JP 2022031735 A JP2022031735 A JP 2022031735A JP 2022031735 A JP2022031735 A JP 2022031735A JP 7358698 B2 JP7358698 B2 JP 7358698B2
Authority
JP
Japan
Prior art keywords
sample
sentence
anchor
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022031735A
Other languages
English (en)
Other versions
JP2023007367A (ja
Inventor
ジャン、シュアイ
ワン、リジエ
シャオ、シンヤン
チャン、ユエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023007367A publication Critical patent/JP2023007367A/ja
Application granted granted Critical
Publication of JP7358698B2 publication Critical patent/JP7358698B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、コンピュータ技術の分野に関し、具体的に自然言語処理、ディープラーニングなどの人工知能の分野に関し、特に語義表現モデルの訓練方法、装置、デバイス及び記憶媒体に関する。
自然言語処理を行う際に、語義表現モデルを用いて文を対応する語義表現に変換して後続の処理に供することができる。文の構文構造の違いは、語義の大きな違いを引き起こす。
関連技術では、語義表現モデルの構造を修正し、構文情報を導入して語義表現モデルを訓練することが可能である。
本開示は、語義表現モデルの訓練方法、装置、デバイス及び記憶媒体を提供する。
本開示の一態様によれば、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得し、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて比較損失関数を構築し、前記比較損失関数に基づいて前記語義表現モデルを訓練することを含む語義表現モデルの訓練方法を提供する。
本開示の別の態様によれば、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプルとネガティブサンプルとを取得する取得モジュールと、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得する符号化モジュールと、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて比較損失関数を構築する構築モジュールと、前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールとを備える語義表現モデルの訓練装置を提供する。
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の態様のいずれか1項に記載された方法を実行させる電子デバイスを提供する。
本開示の別の態様によれば、コンピュータに上記の態様のいずれか1項に記載された方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサにより実行されると、上記の態様のいずれか1項に記載された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の技術案によれば、モデル構造を修正することなく、文の語義表現が構文情報を含むようにすることができる。
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
本開示の第1実施形態に係る概略図である。 本開示の第2実施形態に係る概略図である。 本開示の第3実施形態に係る概略図である。 本開示の第4実施形態に係る概略図である。 本開示の第5実施形態に係る概略図である。 本開示の実施形態の語義表現モデルの訓練方法のいずれかを実現するための電子デバイスの概略図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
文の構文情報が異なる場合、異なる語義に対応することができる。例えば、「Q1:おばあちゃんが亡くなって孫に相続権があるのか」、「Q2:孫が亡くなっておばあちゃんに相続権があるのか」という2つの文は、字面は似ているが、表現された語義は全く異なる。
関連技術では、語義表現モデルの構造を修正することで語義表現に構文情報を含めることが可能であるが、このようなモデル構造を修正する方式は、下流タスクの利用に不利であり、精度の面でも問題がある。
図1は、本開示の第1実施形態に係る概略図である。本実施形態により提供される語義表現モデルの訓練方法は、以下を含む。
101において、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプルとネガティブサンプルを取得する。
102において、語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を取得する。
103において、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する。
104において、前記比較損失関数に基づいて、前記語義表現モデルを訓練する。
ここで、予め文をサンプルとして収集し、その後に文に基づいて語義表現モデルを訓練することができる。
文を取得した後、文を依存構文解析して前記文の構文情報を取得することができる。
依存構文解析は自然言語処理のコア技術の1つであり、文における単語間の依存関係を解析することにより文の構文情報を決定することを目的としている。
「百度是一家高科技公司」という文を例にすると、その文に対して依存構文解析を行った結果、得られた構文情報を図2に示す。構文情報には文における各単語間の関係を含めることができ、異なる関係には異なる記号で標識することができる。図2における各単語間の関係標識の意味は以下の通りである。即ち、HEDはコア関係であり、文全体のコアを指す。SBVは主述関係であり、主語と述語の間の関係を指す。VOBは動賓関係であり、目的語と述語の間の関係を指す。ATTは定中関係であり、指定語と中心語との関係を指す。
文に対して依存構文解析を行うことにより、文の構文情報を容易かつ迅速に取得することができる。
文の構文情報を取得した後、構文情報に基づいて構文木を構築することができる。図2に示す例に基づいて、構築された構文木は図3のようになる。
構文木を取得した後、前記構文木に含まれる部分木に対応するテキストをポジティブサンプルとし、前記部分木内の単語に基づいて、前記単語を含み且つ前記構文木内の部分木に対応しない別のテキストを取得し、前記別のテキストをネガティブサンプルとすることができる。区別するために、ポジティブサンプルであるテキストを第1テキストと呼び、ネガティブサンプルであるテキストを第2テキストと呼ぶことができる。
例えば、図3に示すように、「一家」「高科技」「公司」という3つの単語(token)が構文木中の1つの部分木を構成することができるため、その部分木に対応するテキスト「一家高科技公司」を1つのポジティブサンプルとすることができる。
構文木の部分木に基づいてポジティブサンプルとネガティブサンプルを得ることにより、ポジティブサンプルとネガティブサンプルの精度を向上させることができる。
ポジティブサンプルに対応する部分木を取得した後、前記部分木内の単語に基づいてネガティブサンプルを取得することができる。
語義表現モデルの訓練効果を高めるために、一般にポジティブサンプルとネガティブサンプルは同じ個数の単語を含むことができる。すなわち、前記部分木中の単語に基づいて、前記文から単語が連続し且つ前記ポジティブサンプルに含まれる単語の数と同じ単語数のテキストを第2テキストとして選択することができる。
「一家」「高科技」「公司」という3つの単語からなる部分木を例にすると、その中の単語「高科技」に基づいてネガティブサンプルを得ることができる。例えば、テキスト「是一家高科技」には3つの単語が含まれ、且つ3つの単語が連続しており、且つこれら3つの単語に「高科技」が含まれているため、そのテキスト「是一家高科技」をネガティブサンプルとすることができる。
ポジティブサンプルの単語数と同じ単語数のテキストをネガティブサンプルとして選択することにより、語義表現モデルの効果を高めることができる。
1つのポジティブサンプルに対して、複数のネガティブサンプルを選択することができる。例えば、前記のポジティブサンプル「一家高科技公司」に対して、その中の単語「一家」に基づいて、「百度是一家」を1つのネガティブサンプルとして選択することもできる。
アンカサンプルは、上記の文全体の文であってもよく、前記部分木におけるポジティブサンプルとネガティブサンプルに対応する単語であっても良い。例えば、上記の文全体の「百度是一家高科技公司」をアンカサンプルとしてもよく、上記の「高科技」をアンカサンプルとしてもよい。
文全体又はポジティブサンプル/ネガティブサンプルに対応する単語を選択することにより、アンカサンプルのデータを拡張し、更に語義表現モデルの効果を高めることができる。
アンカサンプル、ポジティブサンプル、ネガティブサンプルを取得した後、それぞれ語義表現モデルに入力して、それぞれ対応する語義表現を取得することができる。
語義表現モデルとは、文を対応するベクトル表現に変換するモデルであり、Transformerによる双方向符号化表現(Bidirectional Encoder Representations from Transformers、BERT)、最適化BERT(A Robustly Optimized BERT Pretraining Approach、RoBERTa)、知識強化語義表現(Enhanced Representation from kNowledge IntEgration、ERNIE)など、様々な関連する事前訓練モデル構造を用いることができる。
図4に示すように、アンカサンプルが文であることを例にすると、文を語義表現モデルに入力し、出力された表現をアンカサンプル語義表現と呼ぶことができる。ポジティブサンプルを語義表現モデルに入力し、出力された表現をポジティブサンプル語義表現と呼ぶことができる。ネガティブサンプルを語義表現モデルに入力し、出力された表現をネガティブサンプル語義表現と呼ぶことができる。
その後、これら3つの語義表現に基づいて比較損失関数を構築することができる。
比較損失関数とは、比較学習の際に採用される損失関数である。比較学習は自己教師付き学習の一種であり、ポジティブサンプルを近づけ、ネガティブサンプルを遠ざけることを目的とする。
比較損失関数の計算式の一つは、次のように表される。
Figure 0007358698000001
ここで、Lは比較損失関数、qはアンカサンプル、kはポジティブサンプル、kはi番目のネガティブサンプルである。ネガティブサンプルの総数はKである。θは語義表現モデルのパラメータである。f(*,θ)は*が語義表現モデルにより処理されて得られた対応する語義表現である。τはスーパーパラメータである。sim()はベクトル間の類似度計算を表す。
比較損失関数を取得した後、比較損失関数を用いて語義表現モデルを訓練し、すなわち、あらかじめ設定された終了条件に達するまで、比較損失関数に基づいて語義表現モデルのパラメータを調整することができる。終了条件は、例えば、比較損失関数が収束したり、あらかじめ設定された反復回数に達したりすることである。予め設定された終了条件に達した場合のモデルパラメータを最終的なモデルパラメータとし、対応する語義表現モデルを最終的な語義表現モデルとすることにより、この最終的な語義表現モデルを適用して文を処理して構文情報を含む文に対応する語義表現を得られる。
本実施形態では、文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、アンカサンプル、ポジティブサンプル及びネガティブサンプルに基づいて語義表現モデルを訓練することにより、モデル構造を修正することなく、文の語義表現に構文情報を含ませることができる。
更に、本実施形態の方法は、事前訓練プロセスに適用可能であり、すなわち語義表現モデルの事前訓練プロセスにおいて、事前訓練モデルの構造を変更することなく、前記比較損失関数を用いて訓練を行うことができるため、下流タスクに事前訓練モデルを適用する場合に下流タスクが知覚されないようにすることができる。また、下流タスクにこの事前訓練モデルを適用して微調整(finetuning)を行う際にも、構文情報を導入する必要はなく、下流タスクの性能に影響を与えることはない。本実施形態は、語義表現に暗黙的に構文情報を含めることができるため、構文情報を明示的に使用する方法、例えば、各語の親ノードを予測する事前訓練タスクを追加することに比べて、構文の誤りの累積を回避し、語義表現モデルの精度を向上させることができる。
図5は、語義表現モデルの訓練装置を提供する本開示の第5の実施形態に係る概略図である。図5に示すように、当該装置500は、取得モジュール501と、符号化モジュール502と、構築モジュール503と、訓練モジュール504とを備える。
取得モジュール501は、文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する。符号化モジュール502は、語義表現モデルを使用して前記アンカサンプル、前記ポジティブサンプル及び前記ネガティブサンプルをそれぞれ処理してアンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る。構築モジュール503は、前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する。訓練モジュール504は、前記比較損失関数に基づいて前記語義表現モデルを訓練する。
幾つかの実施形態では、当該装置500は、前記文について依存構文解析を実行して前記文の構文情報を取得する解析モジュールをさらに備える。
幾つかの実施形態では、前記取得モジュール501は、具体的に、前記文の構文情報に基づいて構文木を構築し、前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストをネガティブサンプルとして取得する。
いくつかの実施形態では、前記取得モジュール501は、さらに具体的に、前記部分木における単語に基づいて、前記文から単語が連続し且つ前記ポジティブサンプルが含む単語と同じ数の単語を有するテキストを第2テキストとして選択する。
いくつかの実施形態では、前記取得モジュール501は、具体的に、前記文をアンカサンプルとし、あるいは、前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする。
本実施形態では、文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得し、アンカサンプル、ポジティブサンプル及びネガティブサンプルに基づいて語義表現モデルを訓練することにより、モデル構造を修正することなく、文の語義表現に構文情報を含ませることができる。
理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容が相互に参照され得る。
理解すべきなのは、本開示の実施形態における「第1」、「第2」等は、単に区別するためのものであり、重要度の高低、タイミングの前後等を表すものではない。
本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
図6は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス600の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
図6に示すように、電子デバイス600は、読み取り専用メモリ(ROM)602に記憶されたコンピュータプログラム、又は記憶手段606からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段601を含む。RAM603には、電子デバイス600の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段601、ROM602及びRAM603は、バス604を介して接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
例えばキーボード、マウス等の入力手段606と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段609を含む電子デバイス600の複数の構成要素は、I/Oインターフェース605に接続される。通信手段609は、電子デバイス600が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
演算手段601は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段601のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段601は、上述した様々な方法及び処理、例えば語義表現モデルの訓練方法を実行する。例えば、幾つかの実施形態では、語義表現モデルの訓練方法は、例えば記憶手段608のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信手段609を介して電子デバイス600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM603にロードされ、演算手段601により実行されると、上述した語義表現モデルの訓練方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段601は、語義表現モデルの訓練方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音声入力、音声入力、又は触覚入力を含む)で受信して良い。
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (15)

  1. コンピュータにより実行される、語義表現モデルの訓練方法であって、
    文に対して依存構文解析を行って前記文の構文情報を得ることと、
    文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
    を含む語義表現モデルの訓練方法。
  2. 前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することは、
    前記文の構文情報に基づいて構文木を構築することと、
    前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとすることと、
    前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとすることと、
    を含む請求項1に記載の語義表現モデルの訓練方法。
  3. コンピュータにより実行される、語義表現モデルの訓練方法であって、
    文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
    を含み、
    前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することは、
    前記文の構文情報に基づいて構文木を構築することと、
    前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとすることと、
    前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとすることと、
    を含む、語義表現モデルの訓練方法。
  4. 前記部分木における単語に基づいて前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得することは、
    前記部分木における単語に基づいて、前記文から単語が連続し且つ単語の数が前記ポジティブサンプルに含まれる単語の数と同じであるテキストを第2テキストとして選択する、
    ことを含む請求項2または3に記載の語義表現モデルの訓練方法。
  5. 文に基づいてアンカサンプルを取得することは、
    前記文をアンカサンプルとし、あるいは、
    前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
    ことを含む請求項1から4のいずれか1項に記載の語義表現モデルの訓練方法。
  6. コンピュータにより実行される、語義表現モデルの訓練方法であって、
    文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得することと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得ることと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築することと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練することと、
    を含み、
    文に基づいてアンカサンプルを取得することは、
    前記文をアンカサンプルとし、あるいは、
    前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
    ことを含む、語義表現モデルの訓練方法。
  7. 語義表現モデルの訓練装置であって、
    文に対して依存構文解析を行って前記文の構文情報を得る解析モジュールと、
    前記文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
    を備える語義表現モデルの訓練装置。
  8. 前記取得モジュールは、具体的に、
    前記文の構文情報に基づいて構文木を構築し、
    前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、
    前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとする、
    請求項7に記載の語義表現モデルの訓練装置。
  9. 語義表現モデルの訓練装置であって、
    文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
    を備え、
    前記取得モジュールは、具体的に、
    前記文の構文情報に基づいて構文木を構築し、
    前記構文木に含まれる部分木に対応する第1テキストを取得し、前記第1テキストをポジティブサンプルとし、
    前記部分木における単語に基づいて、前記単語を含み且つ前記部分木に対応するテキストと異なる第2テキストを取得し、前記第2テキストをネガティブサンプルとする、
    語義表現モデルの訓練装置。
  10. 前記取得モジュールは、さらに具体的に、
    前記部分木における単語に基づいて、前記文から単語が連続し且つ単語の数が前記ポジティブサンプルに含まれると同じであるテキストを第2テキストとして選択する、
    請求項8または9に記載の語義表現モデルの訓練装置。
  11. 前記取得モジュールは、具体的に、
    前記文をアンカサンプルとし、あるいは、
    前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
    請求項から10のいずれか1項に記載の語義表現モデルの訓練装置。
  12. 語義表現モデルの訓練装置であって、
    文に基づいてアンカサンプルを取得し、前記文の構文情報に基づいてポジティブサンプル及びネガティブサンプルを取得する取得モジュールと、
    語義表現モデルを用いて、前記アンカサンプル、前記ポジティブサンプル、及び前記ネガティブサンプルをそれぞれ処理して、アンカサンプル語義表現、ポジティブサンプル語義表現、及びネガティブサンプル語義表現を得る符号化モジュールと、
    前記アンカサンプル語義表現、前記ポジティブサンプル語義表現、及び前記ネガティブサンプル語義表現に基づいて、比較損失関数を構築する構築モジュールと、
    前記比較損失関数に基づいて前記語義表現モデルを訓練する訓練モジュールと、
    を備え、
    前記取得モジュールは、具体的に、
    前記文をアンカサンプルとし、あるいは、
    前記文に対応する構文木に含まれる部分木における単語をアンカサンプルとする、
    語義表現モデルの訓練装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実行させる電子デバイス。
  14. コンピュータに請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
  15. プロセッサにより実行されると、請求項1からのいずれか1項に記載の語義表現モデルの訓練方法を実現するコンピュータプログラム。
JP2022031735A 2021-06-30 2022-03-02 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 Active JP7358698B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110738680.7A CN113408299B (zh) 2021-06-30 2021-06-30 语义表示模型的训练方法、装置、设备和存储介质
CN202110738680.7 2021-06-30

Publications (2)

Publication Number Publication Date
JP2023007367A JP2023007367A (ja) 2023-01-18
JP7358698B2 true JP7358698B2 (ja) 2023-10-11

Family

ID=77680695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022031735A Active JP7358698B2 (ja) 2021-06-30 2022-03-02 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体

Country Status (3)

Country Link
US (1) US20230004721A1 (ja)
JP (1) JP7358698B2 (ja)
CN (1) CN113408299B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186548B (zh) * 2021-12-15 2023-08-15 平安科技(深圳)有限公司 基于人工智能的句子向量生成方法、装置、设备及介质
CN114417879B (zh) * 2021-12-29 2022-12-27 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备
CN114444462B (zh) * 2022-01-26 2022-11-29 北京百度网讯科技有限公司 模型训练方法及人机交互方法、装置
CN114580442B (zh) * 2022-02-28 2023-04-18 北京百度网讯科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN114676227B (zh) * 2022-04-06 2023-07-18 北京百度网讯科技有限公司 样本生成方法、模型的训练方法以及检索方法
CN114861651B (zh) * 2022-05-05 2023-05-30 北京百度网讯科技有限公司 一种模型训练优化方法、计算设备、电子设备及存储介质
CN116304560B (zh) * 2023-01-17 2023-11-24 北京信息科技大学 一种轨迹表征模型训练方法、表征方法及装置
CN116151892B (zh) * 2023-04-20 2023-08-29 中国科学技术大学 物品推荐方法、系统、设备及存储介质
CN116364055B (zh) * 2023-05-31 2023-09-01 中国科学院自动化研究所 基于预训练语言模型的语音生成方法、装置、设备及介质
CN116579320B (zh) * 2023-07-07 2023-09-15 航天宏康智能科技(北京)有限公司 句向量模型的训练方法、文本语义增强的方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031198A (ja) 2004-07-14 2006-02-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JP2019509551A (ja) 2016-02-04 2019-04-04 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. Nペア損失による距離計量学習の改善
CN109918663A (zh) 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种语义匹配方法、装置及存储介质
US20200097742A1 (en) 2018-09-20 2020-03-26 Nvidia Corporation Training neural networks for vehicle re-identification
CN111143530A (zh) 2019-12-24 2020-05-12 平安健康保险股份有限公司 一种智能答复方法及装置
JP2020181486A (ja) 2019-04-26 2020-11-05 株式会社日立製作所 特徴ベクトルを生成するシステム
US20200380298A1 (en) 2019-05-30 2020-12-03 Adobe Inc. Text-to-Visual Machine Learning Embedding Techniques
CN112733550A (zh) 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
US20210182662A1 (en) 2019-12-17 2021-06-17 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830385B (zh) * 2018-07-10 2021-01-26 京东数字科技控股有限公司 深度学习模型训练方法和装置及计算机可读存储介质
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111832312B (zh) * 2020-05-15 2024-05-17 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN112560496B (zh) * 2020-12-09 2024-02-02 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN113033194B (zh) * 2021-03-09 2023-10-24 北京百度网讯科技有限公司 语义表示图模型的训练方法、装置、设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031198A (ja) 2004-07-14 2006-02-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JP2019509551A (ja) 2016-02-04 2019-04-04 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. Nペア損失による距離計量学習の改善
US20200097742A1 (en) 2018-09-20 2020-03-26 Nvidia Corporation Training neural networks for vehicle re-identification
CN109918663A (zh) 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 一种语义匹配方法、装置及存储介质
JP2020181486A (ja) 2019-04-26 2020-11-05 株式会社日立製作所 特徴ベクトルを生成するシステム
US20200380298A1 (en) 2019-05-30 2020-12-03 Adobe Inc. Text-to-Visual Machine Learning Embedding Techniques
US20210182662A1 (en) 2019-12-17 2021-06-17 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation
CN111143530A (zh) 2019-12-24 2020-05-12 平安健康保险股份有限公司 一种智能答复方法及装置
CN112733550A (zh) 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置

Also Published As

Publication number Publication date
US20230004721A1 (en) 2023-01-05
JP2023007367A (ja) 2023-01-18
CN113408299A (zh) 2021-09-17
CN113408299B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
JP7358698B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
JP7412060B2 (ja) 自然言語分類のための訓練データの拡張
CN112507040B (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110140133A (zh) 机器学习任务的隐式桥接
EP3971761A1 (en) Method and apparatus for generating summary, electronic device and storage medium thereof
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
JP2023012493A (ja) 言語モデルの事前トレーニング方法、装置、デバイスおよび記憶媒体
CN111488742B (zh) 用于翻译的方法和装置
KR102561951B1 (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
EP4123474A1 (en) Method for acquiring structured question-answering model, question-answering method and corresponding apparatus
JP2023015215A (ja) テキスト情報の抽出方法、装置、電子機器及び記憶媒体
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
JP2023007376A (ja) 情報抽出方法、装置、電子デバイス及び可読記憶媒体
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
US10460044B2 (en) Methods and systems for translating natural language requirements to a semantic modeling language statement
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
JP7242797B2 (ja) 語句処理方法、機器及び記憶媒体
CN114255427B (zh) 视频理解方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230901

R150 Certificate of patent or registration of utility model

Ref document number: 7358698

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150