JP2021179978A - 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 - Google Patents

語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP2021179978A
JP2021179978A JP2021075224A JP2021075224A JP2021179978A JP 2021179978 A JP2021179978 A JP 2021179978A JP 2021075224 A JP2021075224 A JP 2021075224A JP 2021075224 A JP2021075224 A JP 2021075224A JP 2021179978 A JP2021179978 A JP 2021179978A
Authority
JP
Japan
Prior art keywords
training data
training
data sets
similarity model
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021075224A
Other languages
English (en)
Other versions
JP7192192B2 (ja
Inventor
リ、ジェン
Zhen Li
リ、ユクン
Yukun Li
スン、ユ
Yu Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021179978A publication Critical patent/JP2021179978A/ja
Application granted granted Critical
Publication of JP7192192B2 publication Critical patent/JP7192192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】本出願の技術案は、fine−tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することにより、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。【解決手段】本出願は、人工知能分野に関し、語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体を開示した。具体的な実現方法は、訓練待ちの語義類似度モデルが使用する目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて前記語義類似度モデルを訓練する。【選択図】 図1

Description

本出願はコンピュータ技術に関し、特に人工知能技術に関し、具体的には語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体に関する。
従来技術では、大量の教師なしテキストを用いて言語モデルの自己教師な事前訓練学習(pre−training)を行い、次に教師ありタスクデータを用いて言語モデルのパラメータ微調整(fine−tuning)を行うことは、現在の自然言語処理(Natural Language Processing;NLP)分野における先進的なモデル訓練技術である。
例えば、NLP分野における語義マッチングタスクは、2つのテキストが語義に類似しているか否かを判断することを目的としている。現在公開されているテキストマッチングの標識データは少なく、分野にも大きな差があるため、fine−tuning段階では、既存の高品質な標識データをよりよく利用して、事前に訓練された訓練語義類似度モデルを微調整し、モデルの潜在力を掘り起こし、モデルの効果を高める必要がある。従来技術における高品質な標識データセットとしてlcqmc、bq_corpusなどがよく用いられているが、訓練効果を高めるために、従来技術では、複数のデータセットを統合して語義類似度モデルに対してfine−tuning段階の訓練を行う。
しかし、従来技術において単純に複数のデータセットを統合して語義類似度モデルに対してfine−tuning段階の訓練を行うと、訓練された語義類似度モデルが偏り、正確性が劣る。
本出願は、上述した技術的課題を解決するために、語義類似度モデルの訓練方法、装置、電子デバイスおよび記憶媒体を提供する。
第1の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて前記語義類似度モデルを訓練することを含む語義類似度モデルの訓練方法を提供する。
第2の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュールと、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュールと、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて語義類似度モデルを訓練する訓練モジュールと、を備える語義類似度モデルの訓練装置を提供する。
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。
第4の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本出願の技術によれば、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を解決し、fine−tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照して、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができ、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。
理解待ちなのは、本セクションで説明される内容は、本開示の実施形態の肝心または重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。ここで、
本出願の第1の実施形態に係る概略図である。 本出願の第2の実施形態に係る概略図である。 本出願の第3の実施形態に係る概略図である。 本出願の第4の実施形態に係る概略図である。 本出願の実施形態における語義類似度モデルの訓練方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は、本出願の第1の実施形態に係る概略図である。図1に示すように、本実施形態は語義類似度モデルの訓練方法を提供し、具体的には以下のステップを含むことができる。
S101において、訓練待ち語義類似度モデルが使用する目標分野を取得する。
S102において、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する。
S103において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。
本実施形態の語義類似度モデルの訓練方法の実行主体は、語義類似度モデルの訓練装置である。この装置は、コンピュータに類似した電子エンティティであってもよく、ソフトウェア統合を採用するアプリケーションであってもよく、使用時にコンピュータ装置上で動作して語義類似度モデルを訓練する。
本実施形態の語義類似度モデルの訓練方法は、パラメータの微調整、すなわちfine−tuning段階の訓練に適用される。NLP分野の語義マッチングタスクでは、事前訓練段階であるpre−training段階で、この語義類似度モデルの最初の構造が得られる。次に、fine−tuning段階では、対応する高品質のタスクデータセットを用いて事前訓練により得られた語義類似度モデルをパラメータ微調整することができる。しかし、既存のfine−tuning段階の訓練データセットは比較的少なく、例えば「バイドゥが知る」分野の類似度データからなるlcqmcデータセット、銀行金融分野の類似度データからなるbq_corpusデータセットなどが含まれ、同様に他の分野、例えば電子商取引、医療、教育、財経、スポーツ、音楽などの様々な分野の類似度データからなるデータセットをマイニングすることもできる。しかし、従来技術の方案では、これらのデータセットを直接統合してあらかじめ得られた語義類似度モデルを訓練するため、訓練後の語義類似度モデルの正確度が劣る。
本実施例では、語義類似度モデルの正確度を向上させるために、その語義類似度モデルが使用する目標分野を参照してfine−tuning段階の微調整を行う必要がある。具体的には、この訓練目標語義類似度モデルが使用する目標分野を先に取得する。本実施例では、語義類似度モデルが対応可能な各分野をあらかじめ設定しておくことができ、実際の必要に応じて複数の分野を設定することが可能である。また、本実施例では、既知の各訓練データセット及び各訓練データセットに対応する応用分野を取得する必要があり、例えば「バイドゥが知る」分野のlcqmcデータセットを訓練データセットとしても良く、銀行金融分野のbq_corpusデータセットを訓練データセットとしても良い。次に、目標分野と既知の各訓練データセットに対応する応用分野との関連度を計算する。
説明待ちなのは、ここでの関連度の計算は、目標分野と各訓練データセットに対応する応用分野との語義類似度に基づいて計算することができる。例えば、具体的には、訓練された単語ベクトルモデルを用いて目標分野の単語ベクトルと各訓練データセットに対応する応用分野の単語ベクトルを取得し、単語ベクトル間の類似度を計算することにより、目標分野と各訓練データセットに対応する応用分野との関連度を求めることができる。たとえば、ここでの単語ベクトルモデルは訓練されたWord2vecモデルを用いて実現することができる。
最後に、目標分野と複数の訓練データセットのそれぞれに対応する応用分野との関連度を参照して、各訓練データセットを順次用いて語義類似度モデルを訓練し、語義類似度モデルの正確度を向上させる。
本実施形態の語義類似度モデルの訓練方法は、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。本実施形態の技術案は、fine−tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができるため、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。
図2は、本出願の第2の実施形態に係る概略図である。図2に示すように、本実施形態の語義類似度モデルの訓練方法は、上述した図1に示す実施形態の技術案に加えて、本出願の技術案をより詳細に説明する。図2に示すように、本実施形態の語義類似度モデルの訓練方法は、具体的には以下のステップを含むことができる。
S201において、訓練待ち語義類似度モデルが使用する目標分野を取得する。
S202において、目標分野と各訓練データセットに対応する応用分野との関連度を計算する。
このステップS201およびS202は、それぞれ上述した図1に示した実施例のステップS101およびS102と同様であり、詳細は上述した図1に示した実施例の記載を参照でき、ここでは再度言及しない。
S202において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する。
本出願の実施例では、複数の訓練データセットを、高関連度の訓練データセットの集合と低関連度の訓練データセットの集合に分割する例を考える。例えば、分割する際には、目標分野との関連度が最も高いN個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、残りの訓練データセットを、低関連度の訓練データセットの集合に分割することができる。ここでNは実際の経験に基づいてとることができ、例えばNは1をとることができる。この場合、高関連度の訓練データセットの集合には1つの訓練データセット、すなわち複数の訓練データセットのうち、目標分野と最も関連度の高い応用分野に対応する訓練データセットのみが含まれる。複数の訓練データセットのうち残りの訓練データセットは、すべて低関連度の訓練データセットに分割される。実際の経験に基づいて、Nは2や3などの他の数値をとることができる。
オプションとして、上記の分割は、複数の訓練データセットを2つの訓練データセットの集合に分割することを例にする。実際の応用では、訓練データセットが多い場合には、実際の必要に応じて複数の訓練データセットを3つ以上の訓練データセットの集合に分割することも可能であり、各訓練データセットの集合における各訓練データセットの応用分野と目標分野との関連度が近い。例えば、3つの訓練データセットに分割する場合、第1関連度閾値と第2関連度閾値の2つの関連度閾値を設定することができ、第1関連度閾値は第2関連度閾値よりも大きい。分割の際には、目標分野との関連度が第1関連度閾値以上である応用分野に対応する各訓練データセットを、第1レベルの訓練データセットの集合に分割し、目標分野との関連度が第2関連度閾値以上であり、かつ第1関連度閾値未満である応用分野に対応する各訓練データセットを、第2レベルの訓練データセットの集合に分割し、目標分野との関連度が第2関連度閾値よりも小さい応用分野に対応する各訓練データセットを、第3レベルの訓練データセットの集合に分割することができる。同様に、実際の必要に応じて複数のレベルの訓練データセットの集合を設定することも可能であり、ここでは言及しない。
S204において、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練する。
オプションとして、このステップは実施される場合に、以下のいずれかの方法で実現されてよい。
(1)目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。或いは、
(2)低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
低関連度の訓練データセットの集合における各訓練データセットに対して、上記のいずれかの方法で語義類似度モデルを訓練することができる。低関連度の訓練データセットの集合は、高関連度の訓練データセットの集合よりも前に語義類似度モデルを訓練し、且つ低関連度の訓練データセットの集合における各訓練データセットは語義類似度モデルにあまり影響を与えないため、上記の方式(2)を用いて、低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練することができる。
しかし、好ましいのは、低関連度の訓練データセットの集合においても、含まれる各訓練データセットの対応する応用分野と目標分野との関連度にも高低差があるため、目標分野の語義類似度モデルに対する後続の訓練効果を高めるために、上記(1)のように、目的分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにすることができる。
S205において、高関連度の訓練データセットの集合における各訓練データセットを用いて、語義類似度モデルを訓練する。
オプションとして、上記のように高関連度の訓練データセットの集合を分割するときにN=1であれば、高関連度の訓練データセットの集合における訓練データセットを直接に用いて語義類似度モデルを訓練すればよい。N>1である場合に、目的分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにする。
本実施形態の上述した技術案は、低関連度の訓練データセットの集合と高関連度の訓練データセットの集合との分割を実現し、最初に低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練し、次に高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、語義類似度モデルに関連度の低い訓練データセットの情報を先に学習させ、次に関連度の高い訓練データセットの情報を段階的に学習させ、目標分野における語義類似度モデルの正確度を向上させることができる。
また、オプションとして、上記に記載されているように、関連度の訓練データセットの集合が複数のレベルに分割された場合に、各レベルの関連度の訓練データセットの集合の訓練データセットと目標分野との関連度の高い順に、関連度の低い訓練データセットの集合の各訓練データセットを先に採用して語義類似度モデルを訓練し、次に関連度の高い訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、目標分野の語義類似度モデルを訓練する際に、関連度の低い順による段階的な学習過程であって、より良好な学習過程を実現させるため、語義類似度モデルの学習効果を向上させ、学習により得られた目標分野の語義類似度モデルの表現をより正確にすることができる。
本実施形態の語義類似度モデルの訓練方法は、上述の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットにおける情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
図3は、本出願の第3の実施形態に係る概略図である。図3に示すように、本実施形態は、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュール301と、目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュール302と、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて語義類似度モデルを訓練する訓練モジュール303と、を備える語義類似度モデルの訓練装置300を提供した。
本実施例の語義類似度モデルの訓練装置300は、上述したモジュールを用いて語義類似度モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは再度言及しない。
図4は、本出願の第4の実施形態に係る概略図である。図4に示すように、本実施形態の語義類似度モデルの訓練装置300は、上述した図3に示す実施形態の技術案に基づいて、本出願の技術案をより詳細に説明する。
図4に示すように、本実施形態の語義類似度モデルの訓練装置300において、訓練モジュール303は、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニット3031と、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第1訓練ユニット3032と、高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第2訓練ユニット3033と、を備える。
さらに、オプションとして、第1訓練ユニット3032は、目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練し、或いは、
低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
さらに、オプションとして、分割ユニット3031は、目標分野との関連度が最も高いN個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、その残りの訓練データセットを低関連度の訓練データセットの集合に分割する。
さらに、オプションとして、第2訓練ユニット3033は、Nが1より大きければ、目標分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。
本実施例の語義類似度モデルの訓練装置300は、上述したモジュールを用いて語義類似度モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは再度言及しない。
本出願の実施形態によれば、本出願は更に、電子デバイスおよび可読記憶媒体を提供する。
図5は、本願の実施形態による語義類似度モデルの訓練方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本出願の実現を限定することが意図されない。
図5に示すように、この電子デバイスは、一つ又は複数のプロセッサ501、メモリ502、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図5において、一つのプロセッサ501を例とする。
メモリ502は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された語義類似度モデルの訓練方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供された語義類似度モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における語義類似度モデルの訓練方法に対応するプログラムコマンド/モジュール(例えば、図3と図4に示された関連モジュール)を記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における語義類似度モデルの訓練方法を実現する。
メモリ502は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は語義類似度モデルの訓練方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ502は、プロセッサ501に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して語義類似度モデルの訓練方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
語義類似度モデルの訓練方法を実現する当該電子デバイスは、更に、入力装置503と出力装置504とを備えても良い。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の手段により接続されても良く、図5においてバスによる接続を例とする。
入力装置503は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント−サーバの関係を有するコンピュータプログラムによって生じる。
本出願の実施形態の技術案によれば、訓練待ち語義類似度モデルが使用される目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて前記語義類似度モデルを訓練する。本出願の実施形態の技術案は、fine−tuning段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することにより、従来技術において複数の訓練データセットを一緒に統合することで語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
本出願の実施形態の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットの情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本願の実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. 語義類似度モデルの訓練方法であって、
    訓練待ちの語義類似度モデルが使用する目標分野を取得し、
    前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算し、
    目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する、
    ことを含む語義類似度モデルの訓練方法。
  2. 目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練することは、
    前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割し、
    前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練し、
    前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する、
    ことを含む請求項1に記載の語義類似度モデルの訓練方法。
  3. 前記低関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
    前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
    前記低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
    ことを含む請求項2に記載の語義類似度モデルの訓練方法。
  4. 前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割することは、
    前記目標分野と最も関連性の高いN個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
    残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
    ことを含む請求項2または3に記載の語義類似度モデルの訓練方法。
  5. 前記高関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
    Nが1より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
    ことを含む請求項4に記載の語義類似度モデルの訓練方法。
  6. 語義類似度モデルの訓練装置であって、
    訓練待ちの語義類似度モデルが使用する目標分野を取得する取得モジュールと、
    前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算する計算モジュールと、
    目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する訓練モジュールと、
    を備える語義類似度モデルの訓練装置。
  7. 訓練モジュールは、
    前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニットと、
    前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第1訓練ユニットと、
    前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第2訓練ユニットと、
    を備える請求項6に記載の語義類似度モデルの訓練装置。
  8. 前記第1訓練ユニットは、
    前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
    前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々をランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
    請求項7に記載の語義類似度モデルの訓練装置。
  9. 前記分割ユニットは、
    前記目標分野と最も関連性の高いN個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
    残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
    請求項7または8に記載の語義類似度モデルの訓練装置。
  10. 前記第2訓練ユニットは、
    Nが1より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
    請求項9に記載の語義類似度モデルの訓練装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1〜5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させる電子デバイス。
  12. コンピュータに請求項1〜5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  13. コンピュータに請求項1〜5のいずれか1項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータプログラム。
JP2021075224A 2020-05-12 2021-04-27 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 Active JP7192192B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010399048.X 2020-05-12
CN202010399048.XA CN111539220B (zh) 2020-05-12 2020-05-12 语义相似度模型的训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021179978A true JP2021179978A (ja) 2021-11-18
JP7192192B2 JP7192192B2 (ja) 2022-12-20

Family

ID=71979346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021075224A Active JP7192192B2 (ja) 2020-05-12 2021-04-27 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体

Country Status (5)

Country Link
US (1) US20230004753A9 (ja)
EP (1) EP3910526A1 (ja)
JP (1) JP7192192B2 (ja)
KR (1) KR20210139152A (ja)
CN (1) CN111539220B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669816B (zh) * 2020-12-24 2023-06-02 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN113746899B (zh) * 2021-07-29 2023-04-07 济南浪潮数据技术有限公司 一种云平台访问方法及装置
CN116167455B (zh) * 2022-12-27 2023-12-22 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203539A1 (en) * 2011-02-08 2012-08-09 Microsoft Corporation Selection of domain-adapted translation subcorpora
JP2019125343A (ja) * 2018-01-17 2019-07-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 曖昧なエンティティワードに基づくテキスト処理方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311390B2 (en) * 2008-01-29 2016-04-12 Educational Testing Service System and method for handling the confounding effect of document length on vector-based similarity scores
US9846836B2 (en) * 2014-06-13 2017-12-19 Microsoft Technology Licensing, Llc Modeling interestingness with deep neural networks
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109753566B (zh) * 2019-01-09 2020-11-24 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109960805A (zh) * 2019-03-26 2019-07-02 北京博瑞彤芸文化传播股份有限公司 一种基于语义领域划分的智能语义匹配方法
CN110991195B (zh) * 2019-12-13 2023-09-29 北京小米智能科技有限公司 机器翻译模型训练方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203539A1 (en) * 2011-02-08 2012-08-09 Microsoft Corporation Selection of domain-adapted translation subcorpora
JP2019125343A (ja) * 2018-01-17 2019-07-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 曖昧なエンティティワードに基づくテキスト処理方法及び装置

Also Published As

Publication number Publication date
CN111539220A (zh) 2020-08-14
KR20210139152A (ko) 2021-11-22
US20220300763A1 (en) 2022-09-22
US20230004753A9 (en) 2023-01-05
EP3910526A1 (en) 2021-11-17
JP7192192B2 (ja) 2022-12-20
CN111539220B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
JP7214954B2 (ja) 言語モデルのトレーニング方法、装置、電子機器、プログラム及び可読記憶媒体
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
JP7126542B2 (ja) データセット処理方法、装置、電子機器及び記憶媒体
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
EP3822842A2 (en) Method and apparatus for generating semantic representation model, electronic device, and storage medium
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
US20210374343A1 (en) Method and apparatus for obtaining word vectors based on language model, device and storage medium
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP2021197131A (ja) 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体
JP2021174516A (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN111079945B (zh) 端到端模型的训练方法及装置
JP7279138B2 (ja) 多言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
JP7230304B2 (ja) 対話生成方法、装置、電子機器、プログラム及び記憶媒体
CN111950293B (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
JP2021192289A (ja) 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体
JP7201654B2 (ja) 意味表現に基づくテキスト生成方法、意味表現に基づくテキスト生成装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2021111400A (ja) ビデオセグメント記述の生成方法、装置、プログラム、電子デバイス及び記憶媒体
CN118113293A (zh) 深度学习框架的代码处理方法及其装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221116

R150 Certificate of patent or registration of utility model

Ref document number: 7192192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150