JP2021179978A

JP2021179978A - 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2021179978A
Application number: JP2021075224A
Authority: JP
Inventors: リ、ジェン; Zhen Li; リ、ユクン; Yukun Li; スン、ユ; Yu Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-12
Filing date: 2021-04-27
Publication date: 2021-11-18
Anticipated expiration: 2041-04-27
Also published as: CN111539220A; KR20210139152A; US20220300763A1; US20230004753A9; EP3910526A1; JP7192192B2; CN111539220B

Abstract

【課題】本出願の技術案は、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することにより、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。【解決手段】本出願は、人工知能分野に関し、語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体を開示した。具体的な実現方法は、訓練待ちの語義類似度モデルが使用する目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて前記語義類似度モデルを訓練する。【選択図】図１

Description

本出願はコンピュータ技術に関し、特に人工知能技術に関し、具体的には語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体に関する。

従来技術では、大量の教師なしテキストを用いて言語モデルの自己教師な事前訓練学習（ｐｒｅ−ｔｒａｉｎｉｎｇ）を行い、次に教師ありタスクデータを用いて言語モデルのパラメータ微調整（ｆｉｎｅ−ｔｕｎｉｎｇ）を行うことは、現在の自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ；ＮＬＰ）分野における先進的なモデル訓練技術である。

例えば、ＮＬＰ分野における語義マッチングタスクは、２つのテキストが語義に類似しているか否かを判断することを目的としている。現在公開されているテキストマッチングの標識データは少なく、分野にも大きな差があるため、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、既存の高品質な標識データをよりよく利用して、事前に訓練された訓練語義類似度モデルを微調整し、モデルの潜在力を掘り起こし、モデルの効果を高める必要がある。従来技術における高品質な標識データセットとしてｌｃｑｍｃ、ｂｑ＿ｃｏｒｐｕｓなどがよく用いられているが、訓練効果を高めるために、従来技術では、複数のデータセットを統合して語義類似度モデルに対してｆｉｎｅ−ｔｕｎｉｎｇ段階の訓練を行う。

しかし、従来技術において単純に複数のデータセットを統合して語義類似度モデルに対してｆｉｎｅ−ｔｕｎｉｎｇ段階の訓練を行うと、訓練された語義類似度モデルが偏り、正確性が劣る。

本出願は、上述した技術的課題を解決するために、語義類似度モデルの訓練方法、装置、電子デバイスおよび記憶媒体を提供する。

第１の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて前記語義類似度モデルを訓練することを含む語義類似度モデルの訓練方法を提供する。

第２の態様によれば、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュールと、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュールと、目標分野と各前記訓練データセットに対応する応用分野との関連度に基づいて、各前記訓練データセットを順次用いて語義類似度モデルを訓練する訓練モジュールと、を備える語義類似度モデルの訓練装置を提供する。

第３の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに上述の方法を実行させる電子デバイスを提供する。

第４の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本出願の技術によれば、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を解決し、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照して、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができ、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。

理解待ちなのは、本セクションで説明される内容は、本開示の実施形態の肝心または重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。ここで、
本出願の第１の実施形態に係る概略図である。本出願の第２の実施形態に係る概略図である。本出願の第３の実施形態に係る概略図である。本出願の第４の実施形態に係る概略図である。本出願の実施形態における語義類似度モデルの訓練方法を実施するための電子デバイスのブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は、本出願の第１の実施形態に係る概略図である。図１に示すように、本実施形態は語義類似度モデルの訓練方法を提供し、具体的には以下のステップを含むことができる。

Ｓ１０１において、訓練待ち語義類似度モデルが使用する目標分野を取得する。

Ｓ１０２において、前記目標分野と、既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する。

Ｓ１０３において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。

本実施形態の語義類似度モデルの訓練方法の実行主体は、語義類似度モデルの訓練装置である。この装置は、コンピュータに類似した電子エンティティであってもよく、ソフトウェア統合を採用するアプリケーションであってもよく、使用時にコンピュータ装置上で動作して語義類似度モデルを訓練する。

本実施形態の語義類似度モデルの訓練方法は、パラメータの微調整、すなわちｆｉｎｅ−ｔｕｎｉｎｇ段階の訓練に適用される。ＮＬＰ分野の語義マッチングタスクでは、事前訓練段階であるｐｒｅ−ｔｒａｉｎｉｎｇ段階で、この語義類似度モデルの最初の構造が得られる。次に、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、対応する高品質のタスクデータセットを用いて事前訓練により得られた語義類似度モデルをパラメータ微調整することができる。しかし、既存のｆｉｎｅ−ｔｕｎｉｎｇ段階の訓練データセットは比較的少なく、例えば「バイドゥが知る」分野の類似度データからなるｌｃｑｍｃデータセット、銀行金融分野の類似度データからなるｂｑ＿ｃｏｒｐｕｓデータセットなどが含まれ、同様に他の分野、例えば電子商取引、医療、教育、財経、スポーツ、音楽などの様々な分野の類似度データからなるデータセットをマイニングすることもできる。しかし、従来技術の方案では、これらのデータセットを直接統合してあらかじめ得られた語義類似度モデルを訓練するため、訓練後の語義類似度モデルの正確度が劣る。

本実施例では、語義類似度モデルの正確度を向上させるために、その語義類似度モデルが使用する目標分野を参照してｆｉｎｅ−ｔｕｎｉｎｇ段階の微調整を行う必要がある。具体的には、この訓練目標語義類似度モデルが使用する目標分野を先に取得する。本実施例では、語義類似度モデルが対応可能な各分野をあらかじめ設定しておくことができ、実際の必要に応じて複数の分野を設定することが可能である。また、本実施例では、既知の各訓練データセット及び各訓練データセットに対応する応用分野を取得する必要があり、例えば「バイドゥが知る」分野のｌｃｑｍｃデータセットを訓練データセットとしても良く、銀行金融分野のｂｑ＿ｃｏｒｐｕｓデータセットを訓練データセットとしても良い。次に、目標分野と既知の各訓練データセットに対応する応用分野との関連度を計算する。

説明待ちなのは、ここでの関連度の計算は、目標分野と各訓練データセットに対応する応用分野との語義類似度に基づいて計算することができる。例えば、具体的には、訓練された単語ベクトルモデルを用いて目標分野の単語ベクトルと各訓練データセットに対応する応用分野の単語ベクトルを取得し、単語ベクトル間の類似度を計算することにより、目標分野と各訓練データセットに対応する応用分野との関連度を求めることができる。たとえば、ここでの単語ベクトルモデルは訓練されたＷｏｒｄ２ｖｅｃモデルを用いて実現することができる。

最後に、目標分野と複数の訓練データセットのそれぞれに対応する応用分野との関連度を参照して、各訓練データセットを順次用いて語義類似度モデルを訓練し、語義類似度モデルの正確度を向上させる。

本実施形態の語義類似度モデルの訓練方法は、訓練待ち語義類似度モデルが使用する目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次用いて前記語義類似度モデルを訓練する。本実施形態の技術案は、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することができるため、従来技術において複数の訓練データセットを一緒に統合することにより、語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、語義類似度モデルの学習能力を効果的に向上させ、ひいては訓練された語義類似度モデルの正確度を効果的に向上させることができる。

図２は、本出願の第２の実施形態に係る概略図である。図２に示すように、本実施形態の語義類似度モデルの訓練方法は、上述した図１に示す実施形態の技術案に加えて、本出願の技術案をより詳細に説明する。図２に示すように、本実施形態の語義類似度モデルの訓練方法は、具体的には以下のステップを含むことができる。

Ｓ２０１において、訓練待ち語義類似度モデルが使用する目標分野を取得する。

Ｓ２０２において、目標分野と各訓練データセットに対応する応用分野との関連度を計算する。

このステップＳ２０１およびＳ２０２は、それぞれ上述した図１に示した実施例のステップＳ１０１およびＳ１０２と同様であり、詳細は上述した図１に示した実施例の記載を参照でき、ここでは再度言及しない。

Ｓ２０２において、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する。

本出願の実施例では、複数の訓練データセットを、高関連度の訓練データセットの集合と低関連度の訓練データセットの集合に分割する例を考える。例えば、分割する際には、目標分野との関連度が最も高いＮ個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、残りの訓練データセットを、低関連度の訓練データセットの集合に分割することができる。ここでＮは実際の経験に基づいてとることができ、例えばＮは１をとることができる。この場合、高関連度の訓練データセットの集合には１つの訓練データセット、すなわち複数の訓練データセットのうち、目標分野と最も関連度の高い応用分野に対応する訓練データセットのみが含まれる。複数の訓練データセットのうち残りの訓練データセットは、すべて低関連度の訓練データセットに分割される。実際の経験に基づいて、Ｎは２や３などの他の数値をとることができる。

オプションとして、上記の分割は、複数の訓練データセットを２つの訓練データセットの集合に分割することを例にする。実際の応用では、訓練データセットが多い場合には、実際の必要に応じて複数の訓練データセットを３つ以上の訓練データセットの集合に分割することも可能であり、各訓練データセットの集合における各訓練データセットの応用分野と目標分野との関連度が近い。例えば、３つの訓練データセットに分割する場合、第１関連度閾値と第２関連度閾値の２つの関連度閾値を設定することができ、第１関連度閾値は第２関連度閾値よりも大きい。分割の際には、目標分野との関連度が第１関連度閾値以上である応用分野に対応する各訓練データセットを、第１レベルの訓練データセットの集合に分割し、目標分野との関連度が第２関連度閾値以上であり、かつ第１関連度閾値未満である応用分野に対応する各訓練データセットを、第２レベルの訓練データセットの集合に分割し、目標分野との関連度が第２関連度閾値よりも小さい応用分野に対応する各訓練データセットを、第３レベルの訓練データセットの集合に分割することができる。同様に、実際の必要に応じて複数のレベルの訓練データセットの集合を設定することも可能であり、ここでは言及しない。

Ｓ２０４において、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練する。

オプションとして、このステップは実施される場合に、以下のいずれかの方法で実現されてよい。

（１）目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。或いは、

（２）低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。

低関連度の訓練データセットの集合における各訓練データセットに対して、上記のいずれかの方法で語義類似度モデルを訓練することができる。低関連度の訓練データセットの集合は、高関連度の訓練データセットの集合よりも前に語義類似度モデルを訓練し、且つ低関連度の訓練データセットの集合における各訓練データセットは語義類似度モデルにあまり影響を与えないため、上記の方式（２）を用いて、低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練することができる。

しかし、好ましいのは、低関連度の訓練データセットの集合においても、含まれる各訓練データセットの対応する応用分野と目標分野との関連度にも高低差があるため、目標分野の語義類似度モデルに対する後続の訓練効果を高めるために、上記（１）のように、目的分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにすることができる。

Ｓ２０５において、高関連度の訓練データセットの集合における各訓練データセットを用いて、語義類似度モデルを訓練する。

オプションとして、上記のように高関連度の訓練データセットの集合を分割するときにＮ＝１であれば、高関連度の訓練データセットの集合における訓練データセットを直接に用いて語義類似度モデルを訓練すればよい。Ｎ＞１である場合に、目的分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に採用して語義類似度モデルをそれぞれ訓練することにより、当該語義類似度モデルに目標分野とより関連性のある応用分野の訓練データセットの情報を段階的に学習させ、目標分野における表現がより正確になるようにする。

本実施形態の上述した技術案は、低関連度の訓練データセットの集合と高関連度の訓練データセットの集合との分割を実現し、最初に低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練し、次に高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、語義類似度モデルに関連度の低い訓練データセットの情報を先に学習させ、次に関連度の高い訓練データセットの情報を段階的に学習させ、目標分野における語義類似度モデルの正確度を向上させることができる。

また、オプションとして、上記に記載されているように、関連度の訓練データセットの集合が複数のレベルに分割された場合に、各レベルの関連度の訓練データセットの集合の訓練データセットと目標分野との関連度の高い順に、関連度の低い訓練データセットの集合の各訓練データセットを先に採用して語義類似度モデルを訓練し、次に関連度の高い訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを訓練することにより、目標分野の語義類似度モデルを訓練する際に、関連度の低い順による段階的な学習過程であって、より良好な学習過程を実現させるため、語義類似度モデルの学習効果を向上させ、学習により得られた目標分野の語義類似度モデルの表現をより正確にすることができる。

本実施形態の語義類似度モデルの訓練方法は、上述の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットにおける情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。

図３は、本出願の第３の実施形態に係る概略図である。図３に示すように、本実施形態は、訓練待ち語義類似度モデルが使用する目標分野を取得する取得モジュール３０１と、目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算する計算モジュール３０２と、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて語義類似度モデルを訓練する訓練モジュール３０３と、を備える語義類似度モデルの訓練装置３００を提供した。

本実施例の語義類似度モデルの訓練装置３００は、上述したモジュールを用いて語義類似度モデルの訓練を実現する実現原理及び技術的効果は、上述した関連方法の実施例の実現と同様であり、詳細は上述した関連方法の実施例の記載を参照でき、ここでは再度言及しない。

図４は、本出願の第４の実施形態に係る概略図である。図４に示すように、本実施形態の語義類似度モデルの訓練装置３００は、上述した図３に示す実施形態の技術案に基づいて、本出願の技術案をより詳細に説明する。

図４に示すように、本実施形態の語義類似度モデルの訓練装置３００において、訓練モジュール３０３は、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニット３０３１と、低関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第１訓練ユニット３０３２と、高関連度の訓練データセットの集合における各訓練データセットを用いて語義類似度モデルを順次に訓練する第２訓練ユニット３０３３と、を備える。

さらに、オプションとして、第１訓練ユニット３０３２は、目標分野と低関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練し、或いは、

低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、ランダムにソートされた順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。

さらに、オプションとして、分割ユニット３０３１は、目標分野との関連度が最も高いＮ個の応用分野の訓練データセットを、高関連度の訓練データセットの集合に分割し、その残りの訓練データセットを低関連度の訓練データセットの集合に分割する。

さらに、オプションとして、第２訓練ユニット３０３３は、Ｎが１より大きければ、目標分野と高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する訓練データセットを順次に用いて語義類似度モデルをそれぞれ訓練する。

本出願の実施形態によれば、本出願は更に、電子デバイスおよび可読記憶媒体を提供する。

図５は、本願の実施形態による語義類似度モデルの訓練方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図５に示すように、この電子デバイスは、一つ又は複数のプロセッサ５０１、メモリ５０２、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図５において、一つのプロセッサ５０１を例とする。

メモリ５０２は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された語義類似度モデルの訓練方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願に提供された語義類似度モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ５０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における語義類似度モデルの訓練方法に対応するプログラムコマンド／モジュール（例えば、図３と図４に示された関連モジュール）を記憶するために用いられる。プロセッサ５０１は、メモリ５０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における語義類似度モデルの訓練方法を実現する。

メモリ５０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は語義類似度モデルの訓練方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ５０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ５０２は、プロセッサ５０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して語義類似度モデルの訓練方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

語義類似度モデルの訓練方法を実現する当該電子デバイスは、更に、入力装置５０３と出力装置５０４とを備えても良い。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バス又は他の手段により接続されても良く、図５においてバスによる接続を例とする。

入力装置５０３は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置５０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント−サーバの関係を有するコンピュータプログラムによって生じる。

本出願の実施形態の技術案によれば、訓練待ち語義類似度モデルが使用される目標分野を取得し、前記目標分野と既知の複数の訓練データセットのそれぞれに対応する応用分野との関連度を計算し、目標分野と各訓練データセットに対応する応用分野との関連度に基づいて、各訓練データセットを順次に用いて前記語義類似度モデルを訓練する。本出願の実施形態の技術案は、ｆｉｎｅ−ｔｕｎｉｎｇ段階では、目標分野と各訓練データセットに対応する応用分野との関連度を参照し、各訓練データセットを用いて語義類似度モデルをより的確に訓練することにより、従来技術において複数の訓練データセットを一緒に統合することで語義類似度モデルに対してモデルが偏ってしまうという問題を克服し、訓練された語義類似度モデルの正確度を効果的に向上させることができる。

本出願の実施形態の技術案によれば、複数の訓練データセットを高関連度の訓練データセットの集合と、低関連度の訓練データセットの集合とに分割し、そして低関連度の訓練データセットの集合と高関連度の訓練データセットの集合における各訓練データセットを順に採用して語義類似度モデルを訓練することにより、語義類似度モデルに目標分野との関連度がより高い訓練データセットの情報を段階的に学習させるため、目標分野における語義類似度モデルの正確度をより高くすることができる。従って、本願の実施形態の技術案は、訓練された語義類似度モデルの正確度を効果的に向上させることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

語義類似度モデルの訓練方法であって、
訓練待ちの語義類似度モデルが使用する目標分野を取得し、
前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算し、
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する、
ことを含む語義類似度モデルの訓練方法。
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練することは、
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割し、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練し、
前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する、
ことを含む請求項１に記載の語義類似度モデルの訓練方法。
前記低関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
前記低関連度の訓練データセットの集合における各訓練データセットをランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
ことを含む請求項２に記載の語義類似度モデルの訓練方法。
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割することは、
前記目標分野と最も関連性の高いＮ個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
ことを含む請求項２または３に記載の語義類似度モデルの訓練方法。
前記高関連度の訓練データセットの集合における各訓練データセットを用いて前記語義類似度モデルを順次に訓練することは、
Ｎが１より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における各訓練データセットに対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
ことを含む請求項４に記載の語義類似度モデルの訓練方法。
語義類似度モデルの訓練装置であって、
訓練待ちの語義類似度モデルが使用する目標分野を取得する取得モジュールと、
前記目標分野と既知の複数の訓練データセットにおける前記複数の訓練データセットの各々に対応する応用分野との関連度を計算する計算モジュールと、
目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットの各々を順次に用いて前記語義類似度モデルを訓練する訓練モジュールと、
を備える語義類似度モデルの訓練装置。
訓練モジュールは、
前記目標分野と前記複数の訓練データセットの各々に対応する応用分野との関連度に基づいて、前記複数の訓練データセットを高関連度の訓練データセットの集合と低関連度の訓練データセットの集合とに分割する分割ユニットと、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第１訓練ユニットと、
前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々を用いて前記語義類似度モデルを順次に訓練する第２訓練ユニットと、
を備える請求項６に記載の語義類似度モデルの訓練装置。
前記第１訓練ユニットは、
前記目標分野と前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練し、或いは、
前記低関連度の訓練データセットの集合における前記複数の訓練データセットの各々をランダムにソートし、前記ランダムにソートされた順に従って対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
請求項７に記載の語義類似度モデルの訓練装置。
前記分割ユニットは、
前記目標分野と最も関連性の高いＮ個の応用分野の前記訓練データセットを前記高関連度の訓練データセットの集合に分割し、
残りの前記訓練データセットを前記低関連度の訓練データセットの集合に分割する、
請求項７または８に記載の語義類似度モデルの訓練装置。
前記第２訓練ユニットは、
Ｎが１より大きければ、前記目標分野と前記高関連度の訓練データセットの集合における前記複数の訓練データセットの各々に対応する応用分野との関連度の低い順に従って、対応する前記訓練データセットを順次に用いて前記語義類似度モデルをそれぞれ訓練する、
請求項９に記載の語義類似度モデルの訓練装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１〜５のいずれか１項に記載の語義類似度モデルの訓練方法を実行させる電子デバイス。
コンピュータに請求項１〜５のいずれか１項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１〜５のいずれか１項に記載の語義類似度モデルの訓練方法を実行させるためのコンピュータプログラム。