JP2021182430A

JP2021182430A - 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021182430A
Application number: JP2021130067A
Authority: JP
Inventors: ジャシャンリュウ，; Jiaxiang Liu; シクンフェン，; Shikun Feng
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2021-08-06
Publication date: 2021-11-25
Anticipated expiration: 2041-08-06
Also published as: JP7253593B2; CN112560496B; CN112560496A; US20210342549A1

Abstract

【課題】意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体を提供する。【解決手段】各グループのトレーニングデータが検索語と、検索語を用いて検索して得られた少なくとも１つのテキストの情報と、テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得し、トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報及びサンプル関連語を含む目標トレーニングデータを決定し、また、サンプル検索語、サンプル情報及びサンプル関連語を用いて意味解析モデルをトレーニングする。検索応用シーンにおけるトレーニングデータに効果的に適用し、検索応用シーンにおける意味解析モデルのモデル表現効果を向上させる。【選択図】図１

Description

本出願はコンピュータ技術分野に関し、具体的には自然言語処理、深層学習、ビッグデータ処理などの人工知能の技術分野に関し、特に意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体に関する。

人工知能はコンピュータが人間の思惟過程とインテリジェントな挙動（例えば学習、推論、考え、計画など）を模擬するように研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能のハードウェア技術は、一般的に、例えばセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識マップ技術などのいくつかの面を含む。

関連技術において、通常、ビッグデータを用いて教師無しタスクを構成し、意味解析モデルの事前トレーニングを行う。

意味解析モデルのトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム製品を提供する。

第１の態様によれば、意味解析モデルのトレーニング方法を提供し、この方法は、各グループのトレーニングデータが検索語と、前記検索語を用いて検索して得られた少なくとも１つのテキストの情報と、前記テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得するステップと、前記トレーニングデータを用いてグラフモデルを構築するとともに、前記グラフモデルに基づいて前記複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定するステップと、前記サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするステップと、を含む。

第２の態様によれば、意味解析モデルのトレーニング装置を提供し、この装置は、各グループのトレーニングデータが検索語と、前記検索語を用いて検索して得られた少なくとも１つのテキストの情報と、前記テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得するための取得モジュールと、前記トレーニングデータを用いてグラフモデルを構築するとともに、前記グラフモデルに基づいて前記複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定するための決定モジュールと、前記サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするためのトレーニングモジュールと、を備える。

第３の態様によれば、電子機器を提供し、この電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリとを備え、前記メモリが、前記少なくとも１つのプロセッサによって実行可能な命令を記憶しており、前記命令が、少なくとも１つのプロセッサが本出願の実施例の意味解析モデルのトレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令が前記コンピュータに本出願の実施例に開示された意味解析モデルのトレーニング方法を実行させるために用いられる。

第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがコンピュータに本出願の実施例に開示された意味解析モデルのトレーニング方法を実行させることに用いられる。

この部分に記載されている内容は、本出願の実施例の肝心な、又は重要な特徴を特定することを意図しておらず、本出願の範囲を限定するものでもないことを理解すべきである。本出願の他の特徴は、以下の明細書を通じて容易に理解される。

図面は、本技術案をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の第１の実施例による概略図である。本出願の実施例におけるグラフモデルの概略図である。本出願の第２の実施例による概略図である。本出願の第３の実施例による概略図である。本出願の第４の実施例による概略図である。本出願の実施例の意味解析モデルのトレーニング方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら、本出願の例示的な実施例について説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は本出願の第１の実施例による概略図である。

なお、ここで、本実施例の意味解析モデルのトレーニング方法の実行主体は意味解析モデルのトレーニング装置であり、この装置はソフトウェア及び／又はハードウェアの形態で実現でき、この装置は電子機器に配置することができ、電子機器は端末、サーバ側を含むことができるが、これらに限定されるものではない。

本出願の実施例は、自然言語処理、深層学習、ビッグデータ処理などの人工知能の技術分野に関する。

ここで、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、ＡＩと略称される。それは、人間の知能を模擬、延伸及び拡張するための理論、方法、技術及び応用システムを開発する新しい技術科学である。

深層学習は、サンプルデータの内在的ルール及び表示レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与するものである。深層学習の最終目標は、ロボットが人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。

自然言語処理は、人間とコンピュータとの間に自然言語で効果的な通信を行う様々な理論及び方法を実現することができる。深層学習は、サンプルデータの内在的ルール及び表示レベルを学習するものであり、これらの学習過程において取得された情報は、文字、画像及び音声などのデータの解釈に大きく寄与するものである。深層学習の最終目標は、ロボットが人間のように解析と学習能力を持つことができ、文字、画像及び音声などのデータを認識できるようにすることである。

ビッグデータ処理とは、人工知能の方式を用いて大規模なデータを解析しかつ処理するプロセスであり、ビッグデータは、大きなデータ量（Ｖｏｌｕｍｅ）、速い速度（Ｖｅｌｏｃｉｔｙ）、多種のタイプ（Ｖａｒｉｅｔｙ）、価値（Ｖａｌｕｅ）、真実性（Ｖｅｒａｃｉｔｙ）という５つのＶに総括することができる。

図１に示すように、この意味解析モデルのトレーニング方法はステップＳ１０１〜Ｓ１０３を含む。

Ｓ１０１において、各グループのトレーニングデータが検索語と、検索語を用いて検索して得られた少なくとも１つのテキストの情報と、テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得する。

本出願の実施例では、検索エンジンの補助で、大量のトレーニングデータを事前に取得することができ、トレーニングデータは、例えばユーザがよく使用している検索語、検索語を用いて検索エンジンにおいて検索して得られたテキスト、テキストの情報（情報は例えばテキストのタイトルや要約、又はテキストのハイパーリンクであり、これについて限定しない）、及びこのテキストに関連する他の検索語（このテキストに関連する他の検索語は、テキストに対応する関連語と呼ばれてもよい）である。

本出願の実施例は、検索エンジンの補助で、大量のトレーニングデータを事前に取得した後、さらに、大量のトレーニングデータをグループ化し、各グループのトレーニングデータには１つ又は１つのタイプの検索語と、この検索語を用いて検索して得られた少なくとも１つのテキストの情報と、テキストに対応する少なくとも１つの関連語とが含まれるようにすることができ、これについて限定しない。

Ｓ１０２において、トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定する。

ここで、グラフモデルに基づいて複数グループのトレーニングデータの中から決定された、意味解析モデルに適合する１グループ又は複数グループのトレーニングデータは、目標トレーニングデータと呼ぶことができ、すなわち、目標トレーニングデータのグループ数は１グループ又は複数グループであってもよく、これについて限定しない。

上記のように複数グループのトレーニングデータを取得した後には、トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定するものとすることができ、意味解析モデルに適合する１グループ又は複数グループのトレーニングデータを高速に決定し、モデルトレーニング効率を向上させ、モデルトレーニング効果を保証することができる。

ここで、グラフモデルは、深層学習におけるグラフモデルであってもよく、又は人工知能の技術分野における他の任意の可能なアーキテクチャ態様のグラフモデルであってもよく、これについて限定しない。

本発明の実施例に用いられるグラフモデルは確率分布のグラフ表示であり、１つのグラフはノードとそれらの間のリンクによって構成され、確率グラフモデルにおいて、各ノードは１つの確率変数（又は１グループの確率変数）を表し、リンクはこれらの変数間の確率関係を表す。このように、グラフモデルは同時確率分布が全ての確率変数において１グループの係数の積に分解できる方式を記述し、各係数は確率変数の１つの部分集合のみに依存する。

任意選択的に、いくつかの実施例では、目標グラフモデルは、複数の経路を含み、各経路は複数のノードを繋げり、ノードは１つの検索語に対応し、又は１つの関連語に対応し、又は１つの情報に対応し、経路は繋げられるノードに対応する内容の間の検索関連重みを記述し、それにより、複数グループのトレーニングデータにおける検索関連重みの分布を明確且つ効率的に示し、検索応用シーンにおけるトレーニングデータと意味解析モデルとの融合を補助することができる。

すなわち、本出願の実施例では、まず、複数グループのトレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定することができ、それにより、後続する決定されたサンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングすることをトリガし、意味解析モデルが検索応用シーンにおけるトレーニングデータ間のコンテキスト意味関係をよりよく学習できるようにする。

任意選択的に、いくつかの実施例では、トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定するには、トレーニングデータにおける検索語と情報と関連語との間の検索関連重みを取得し、複数グループのトレーニングデータを用いて初期のグラフモデルを構築するとともに、検索関連重みに基づいて初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得し、目標グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定するものとしてもよく、グラフモデルのトレーニング効果を効果的に向上させ、トレーニングして得られた目標グラフモデルがより高い目標トレーニングデータ選別能力を有するようにすることができる。

例を挙げると、上記検索関連重みは、予め配置されてもよく、例えば検索語Ａが挙げられ、検索語Ａを用いて検索応用シーンにおいて検索してテキストＡ１、テキストＡ２を得ると、検索語Ａを用いて検索してテキストＡ１を得る検索関連重みは１としてもよく、検索語Ａを用いて検索してテキストＡ２を得る検索関連重みは２としてもよく、テキストＡ１に対応する関連語１は、テキストＡ１と関連語１との間の検索関連重みが１１としてもよく、１つの経路が検索語ＡとテキストＡ１を接続すると仮定すると、この経路が記述する検索関連重みは１であり、１つの経路が検索語ＡとテキストＡ２を接続すると仮定すると、この経路が記述する検索関連重みは２であり、１つの経路がテキストＡ１と関連語１を接続すると仮定すると、この経路が記述する検索関連重みは１１であり、以下同様である。

図２に示すように、図２は本出願の実施例におけるグラフモデルの概略図であり、ここで、ｑ０は１つの検索語を表し、ｔ１は検索語ｑ０を用いて検索して得られたテキスト（このテキストは具体的にはクリックされるテキストである）の情報を表し、ｑ２はテキストｔ１に対応する関連語を表し、ｔ３は関連語ｑ２を用いて検索して得られたテキストを表し、これによって類推すると、初期のグラフモデルを構築することができ、その後、検索関連重みに基づいて初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得し、目標グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定することができる。

例えば、上記のように初期のグラフモデルを構築した後、初期のグラフモデルの中に含まれる各経路が記述する検索関連重みに基づいて１つの損失値を算出するとともに、この損失値に基づいて初期のグラフモデルを反復してトレーニングし、初期のグラフモデルから出力された損失値が設定値を満たすようになると、トレーニングして得られたグラフモデルを目標グラフモデルとし、これについて限定しない。

そして、この目標グラフモデルを用いて目標トレーニングデータの決定を補助し、具体的には下記実施例を参照する。

Ｓ１０３において、サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングする。

トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定する上記ステップの後に、目標トレーニングデータにおけるサンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするステップを実行することができる。

本出願の実施例における意味解析モデルは機械翻訳による双方向の符号化表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ）モデルであり、又は人工知能分野における他の任意の可能なニューラルネットワークモデルであってもよく、これについて限定しない。

サンプル検索語、サンプル情報、及びサンプル関連語を用いて機械翻訳による双方向の符号化表現ＢＥＲＴモデルをトレーニングすると、トレーニングして得られたＢＥＲＴモデルはより高い意味解析能力を取得することができ、また、一般的に、ＢＥＲＴモデルは他のモデルトレーニングにおける事前トレーニングタスクに適用され、それにより、検索応用シーンにおけるＢＥＲＴモデルに基づく事前トレーニングタスクのモデル表現を効果的に向上させることができる。

本実施例では、トレーニングデータを１つのグラフモデルとして構築し、グラフモデルを用いて、サンプル検索語と、検索して得られたテキストのサンプル情報と、テキストに対応するサンプル関連語を含む目標トレーニングデータを決定することにより、トレーニングして得られた意味解析モデルは検索応用シーンにおけるトレーニングデータに効果的に適用し、検索応用シーンにおける意味解析モデルのモデル表現効果を向上させることができる。

図３は本出願の第２の実施例による概略図である。

図３に示すように、この意味解析モデルのトレーニング方法はステップＳ３０１〜Ｓ３０７を含む。

Ｓ３０１において、各グループのトレーニングデータが検索語と、検索語を用いて検索して得られた少なくとも１つのテキストの情報と、テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得する。

Ｓ３０２において、トレーニングデータにおける検索語と情報と関連語との間の検索関連重みを取得する。

Ｓ３０３において、複数グループのトレーニングデータを用いて初期のグラフモデルを構築するとともに、検索関連重みに基づいて初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得する。

ステップＳ３０１〜Ｓ３０３の説明は上記実施例を参照することができ、ここでは説明を省略する。

Ｓ３０４において、目標グラフモデルから、複数の目標ノードを繋げる目標経路を決定する。

任意選択的に、いくつかの実施例では、目標グラフモデルから、目標経路を決定するステップは、ランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定するステップ、又は幅優先検索方式を用いて、目標グラフモデルから目標経路を決定するステップを含む。

例を挙げると、上記図２に示されるグラフモデル構造と組み合わせて、ランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定する場合に、得られた目標経路上のトレーニングデータはＳ＝［ｑ０，ｔ１，…，ｑＮ−１，ｔＮ］と表すことができ、幅優先検索方式を用いて、目標グラフモデルから目標経路を決定する場合に、得られた目標経路上のトレーニングデータはＳ＝［ｑ０，ｔ１，…，ｔＮ］と表すことができる。

もちろん、他の任意の可能な選択方式を用い、例えばモデリング方式、エンジニアリング方式などを用いて、目標グラフモデルから目標経路を決定してもよく、これについて限定しない。

Ｓ３０５において、目標ノードに対応する検索語をサンプル検索語とし、目標ノードに対応する関連語をサンプル関連語とし、目標ノードに対応する情報をサンプル情報とする。

上記のようにランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定するステップ、又は幅優先検索方式を用いて、目標グラフモデルから目標経路を決定するステップであって、目標経路は複数の目標ノードを繋げるステップにより、目標ノードに対応する検索語をサンプル検索語とし、目標ノードに対応する関連語をサンプル関連語とし、目標ノードに対応する情報をサンプル情報とすることができ、トレーニングして得られた意味解析モデルが検索応用シーンにおけるトレーニングデータに効果的に適用できるようにするとともに、モデルデータ取得の完全性を向上させ、モデルデータの取得効率を向上させ、またモデルトレーニング全体の時間コストを効果的に削減することができる。

Ｓ３０６において、サンプル検索語、サンプル情報、サンプル関連語、及びサンプル検索語とサンプル情報とサンプル関連語との間の検索関連重みを意味解析モデルに入力し、意味解析モデルから出力されたコンテキスト予測意味を取得する。

Ｓ３０７において、コンテキスト予測意味及びコンテキスト注記意味に基づいて意味解析モデルをトレーニングする。

上記例と組み合わせると、各グループのトレーニングデータがサンプル検索語、サンプル情報、サンプル関連語で構成される１グループ又は複数グループの目標トレーニングデータが決定されるため、各グループのトレーニングデータに対応する目標経路上の各検索関連重みの加算値は、サンプル検索語とサンプル情報とサンプル関連語との間の検索関連重みとすることができる。

これにより、サンプル検索語、サンプル情報、サンプル関連語、及びサンプル検索語とサンプル情報とサンプル関連語との間の検索関連重みを機械翻訳による双方向の符号化表現ＢＥＲＴモデルに入力し、ＢＥＲＴモデルから出力されたコンテキスト予測意味を取得し、その後、コンテキスト予測意味とコンテキスト注記意味との間の損失値を決定することができ、損失値が参照損失値を満たす場合、意味解析モデルのトレーニングが完了し、意味解析モデルのトレーニング効率及びトレーニング正確性を向上させる。

例えば、機械翻訳による双方向の符号化表現ＢＥＲＴモデルに対して対応する損失関数を配置し、この損失関数に基づいて、サンプル検索語、サンプル情報、サンプル関連語、及び検索関連重みを入力した後に、得られたコンテキスト予測意味とコンテキスト注記意味との間の損失値を取得し、それにより、損失値と予め定められた参照損失値を比較し、損失値が参照損失値を満たす場合、意味解析モデルのトレーニングが完了する。

限定されるものではないが、トレーニングして得られた意味解析モデルは入力された１段落のテキストに対して意味解析を行い、この段落のテキストにおけるマスクワードを決定し、又は、この段落のテキストが特定の文章に由来するか否かを解析するために用いることができる。

本実施例では、トレーニングデータを１つのグラフモデルとして構築し、グラフモデルを用いて、サンプル検索語と、検索して得られたテキストのサンプル情報と、テキストに対応するサンプル関連語を含む目標トレーニングデータを決定することにより、トレーニングして得られた意味解析モデルは検索応用シーンにおけるトレーニングデータに効果的に適用し、検索応用シーンにおける意味解析モデルのモデル表現効果を向上させることができる。トレーニングして得られた意味解析モデルが検索応用シーンにおけるトレーニングデータに効果的に適用できるようにするとともに、モデルデータ取得の完全性を向上させ、モデルデータの取得効率を向上させ、またモデルトレーニング全体の時間コストを効果的に削減することができる。サンプル検索語、サンプル情報、サンプル関連語、及びサンプル検索語とサンプル情報とサンプル関連語との間の検索関連重みを意味解析モデルに入力し、意味解析モデルから出力されたコンテキスト予測意味を取得するとともに、コンテキスト予測意味及びコンテキスト注記意味に基づいて意味解析モデルをトレーニングすることにより、意味解析モデルのトレーニング効果を効果的に向上させ、さらに検索応用シーンにおける意味解析モデルの適用性を保証することができる。

図４は本出願の第３の実施例による概略図である。

図４に示すように、この意味解析モデルのトレーニング装置４０は、
各グループのトレーニングデータが検索語と、検索語を用いて検索して得られた少なくとも１つのテキストの情報と、テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得するための取得モジュール４０１と、トレーニングデータを用いてグラフモデルを構築するとともに、グラフモデルに基づいて複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定するための決定モジュール４０２と、サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするためのトレーニングモジュール４０３と、を備える。

本出願のいくつかの実施例では、図５に示すように、図５は本出願の第４の実施例による概略図であり、図５において、この意味解析モデルのトレーニング装置５０は、取得モジュール５０１と、決定モジュール５０２と、トレーニングモジュール５０３とを備え、ここで、決定モジュール５０２は、トレーニングデータにおける検索語と情報と関連語との間の検索関連重みを取得するための取得サブモジュール５０２１と、複数グループのトレーニングデータを用いて初期のグラフモデルを構築するとともに、検索関連重みに基づいて初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得するための構築サブモジュール５０２２と、目標グラフモデルに基づいて複数グループのトレーニングデータの中から目標トレーニングデータを決定するための決定サブモジュール５０２３と、を備える。

本出願のいくつかの実施例では、目標グラフモデルは、複数の経路を含み、各経路は複数のノードを繋げり、ノードは１つの検索語に対応し、又は１つの関連語に対応し、又は１つの情報に対応し、経路は繋げられるノードに対応する内容の間の検索関連重みを記述する。

本出願のいくつかの実施例では、ここで、決定サブモジュール５０２３は、具体的に、目標グラフモデルから、複数の目標ノードを繋げる目標経路を決定し、目標ノードに対応する検索語をサンプル検索語とし、目標ノードに対応する関連語をサンプル関連語とし、目標ノードに対応する情報をサンプル情報とするために用いられる。

本出願のいくつかの実施例では、ここで、決定サブモジュール５０２３は、さらに、ランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定し、又は幅優先検索方式を用いて、目標グラフモデルから目標経路を決定するために用いられる。

本出願のいくつかの実施例において、ここで、トレーニングモジュール５０３は、具体的に、サンプル検索語、サンプル情報、サンプル関連語、及びサンプル検索語とサンプル情報とサンプル関連語との間の検索関連重みを意味解析モデルに入力し、意味解析モデルから出力されたコンテキスト予測意味を取得し、コンテキスト予測意味及びコンテキスト注記意味に基づいて意味解析モデルをトレーニングするために用いられる。

本出願のいくつかの実施例において、ここで、トレーニングモジュール５０３は、さらに、コンテキスト予測意味とコンテキスト注記意味との間の損失値を決定し、損失値が参照損失値を満たす場合、意味解析モデルのトレーニングを完了させるために用いられる。

本出願のいくつかの実施例では、意味解析モデルは機械翻訳による双方向の符号化表現ＢＥＲＴモデルである。

理解されるように、本実施例の図５における意味解析モデルのトレーニング装置５０と上記実施例における意味解析モデルのトレーニング装置４０、取得モジュール５０１と上記実施例における取得モジュール４０１、決定モジュール５０２と上記実施例における決定モジュール４０２、トレーニングモジュール５０３と上記実施例におけるトレーニングモジュール４０３は、同一の機能及び構成を有してもよい。

なお、前述した意味解析モデルのトレーニング方法についての解釈及び説明は、本実施例の意味解析モデルのトレーニング装置にも適用し、ここでは重複する説明を省略する。

本出願の実施例によれば、本出願は電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。

図６は本出願の実施例の意味解析モデルのトレーニング方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は請求される本出願の実施を限定することを意図しない。

図６に示すように、機器６００は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラムや、記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、各種の適切な動作及び処理を実行することができるコンピューティングユニット６０１を備える。ＲＡＭ６０３には、さらに、機器６００の操作に必要な各種のプログラム及びデータを記憶してもよい。コンピューティングユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントはＩ／Ｏインタフェース６０５に接続されており、例えば、キーボード、マウス、マイクなどのような入力ユニット６０６と、例えば、各種のディスプレイ、スピーカなどのような出力ユニット６０７と、例えば、磁気ディスク、光ディスクなどのような記憶ユニット６０８と、例えば、ネットワークカード、モデム、無線通信送受信機などのような通信ユニット６０９とを備える。通信ユニット６０９は、機器６００が、インターネットのようなコンピュータネットワーク及び／又は各種の電気通信網を介して、他の機器と情報／データを交換することを可能にする。

コンピューティングユニット６０１は、処理及びコンピューティング能力を有する汎用及び／又は専用処理コンポーネントである。コンピューティングユニット６０１のいくつかの例として、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、各種の人工知能（ＡＩ）専用コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行するコンピューティングユニット、デジタル信号処理装置（ＤＳＰ）、及びあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。コンピューティングユニット６０１は、上述した各方法及び処理、例えば意味解析モデルのトレーニング方法を実行する。

例えば、いくつかの実施例では、意味解析モデルのトレーニング方法は、コンピュータソフトウェアプログラムとして実現されてもよく、それは、具現化されて、例えば、記憶ユニット６０８のような機械読み取り可能な媒体に備えられる。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信ユニット６０９を経由して、機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、コンピューティングユニット６０１によって実行されると、上述した意味解析モデルのトレーニング方法の１つ又は複数のステップを実行することができる。それに代えて、他の実施例では、コンピューティングユニット６０１は、他の任意の適切な方式（例えばファームウェアの助けを借りる）によって、意味解析モデルのトレーニング方法を実行するように構成されてもよい。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途用標準品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を送信することができる。

本出願の意味解析モデルのトレーニング方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードを、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ若しくはコントローラに提供することができ、それにより、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図において定められた機能／操作が実施される。プログラムコードは、機械上で完全に実行され、機械上で部分的に実行され、スタンドアロンソフトウェアパッケージとして機械上で部分的に実行され、且つ遠隔機械上で部分的に実行され、又は遠隔機械やプロセッサ上で完全に実行されてもよい。

本出願の文脈において、機械読み取り可能な媒体は形のある媒体であってもよく、それは、命令実行システム、装置又は機器に使用され、或いは、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含み、又は記憶することができる。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は機器、或いは上述した内容の任意の適切な組み合わせを備えることができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例は１つ又は複数の電線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）であって、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供可能なものと、を有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意のグループの組み合わせを備えるコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は略称「ＶＰＳ」）において存在する、管理の難易度が大きく、業務拡張性が低いという欠点を解決するためのものである。サーバは分散システムのサーバ、又はブロックチェーンと結び付けたサーバであってもよい。

以上に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本出願に開示されている技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、グループみ合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本出願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

各グループのトレーニングデータが、検索語と、該検索語を用いて検索して得られた少なくとも１つのテキストの情報と、前記テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得するステップと、
前記トレーニングデータを用いてグラフモデルを構築するとともに、前記グラフモデルに基づいて前記複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定するステップと、
前記サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするステップと、
を含む、意味解析モデルのトレーニング方法。
前記トレーニングデータを用いてグラフモデルを構築するとともに、前記グラフモデルに基づいて前記複数グループのトレーニングデータの中から、目標トレーニングデータを決定するステップが、
前記トレーニングデータにおける前記検索語及び前記情報と前記関連語との間の検索関連重みを取得するステップと、
前記複数グループのトレーニングデータを用いて初期のグラフモデルを構築するとともに、前記検索関連重みに基づいて前記初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得するステップと、
前記目標グラフモデルに基づいて前記複数グループのトレーニングデータの中から目標トレーニングデータを決定するステップと、
を含む請求項１に記載の方法。
前記目標グラフモデルが、複数の経路を含み、
各前記経路が複数のノードを繋げ、該ノードが、１つの前記検索語に対応し、又は１つの前記関連語に対応し、又は１つの前記情報に対応し、前記経路が、繋げられるノードに対応する内容の間の検索関連重みを記述する請求項２に記載の方法。
前記目標グラフモデルに基づいて前記複数グループのトレーニングデータの中から、目標トレーニングデータを決定するステップが、
前記目標グラフモデルから、複数の目標ノードを繋げる目標経路を決定するステップと、
前記目標ノードに対応する検索語を前記サンプル検索語とし、前記目標ノードに対応する関連語を前記サンプル関連語とし、前記目標ノードに対応する情報を前記サンプル情報とするステップと、
を含む請求項３に記載の方法。
前記目標グラフモデルから、目標経路を決定するステップが、
ランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定するステップ、又は
幅優先検索方式を用いて、目標グラフモデルから目標経路を決定するステップ
を含む請求項４に記載の方法。
前記サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするステップが、
前記サンプル検索語、前記サンプル情報、前記サンプル関連語、及び前記サンプル検索語と前記サンプル情報と前記サンプル関連語との間の検索関連重みを前記意味解析モデルに入力し、前記意味解析モデルから出力されたコンテキスト予測意味を取得するステップと、
前記コンテキスト予測意味及びコンテキスト注記意味に基づいて前記意味解析モデルをトレーニングするステップと、
を含む請求項２に記載の方法。
前記コンテキスト予測意味及びコンテキスト注記意味に基づいて前記意味解析モデルをトレーニングするステップが、
前記コンテキスト予測意味と前記コンテキスト注記意味との間の損失値を決定するステップと、
前記損失値が参照損失値を満たす場合、前記意味解析モデルのトレーニングを完了させるステップと、
を含む請求項６に記載の方法。
前記意味解析モデルが機械翻訳による双方向の符号化表現ＢＥＲＴモデルである請求項１から７のいずれか一項に記載の方法。
各グループのトレーニングデータが検索語と、前記検索語を用いて検索して得られた少なくとも１つのテキストの情報と、前記テキストに対応する少なくとも１つの関連語とを含む複数グループのトレーニングデータを取得するための取得モジュールと、
前記トレーニングデータを用いてグラフモデルを構築するとともに、前記グラフモデルに基づいて前記複数グループのトレーニングデータの中から、サンプル検索語、サンプル情報、及びサンプル関連語を含む目標トレーニングデータを決定するための決定モジュールと、
前記サンプル検索語、サンプル情報、及びサンプル関連語を用いて意味解析モデルをトレーニングするためのトレーニングモジュールと、
を備える、意味解析モデルのトレーニング装置。
前記決定モジュールが、
前記トレーニングデータにおける前記検索語及び前記情報と前記関連語との間の検索関連重みを取得するための取得サブモジュールと、
前記複数グループのトレーニングデータを用いて初期のグラフモデルを構築するとともに、前記検索関連重みに基づいて前記初期のグラフモデルを反復トレーニングし、目標グラフモデルを取得するための構築サブモジュールと、
前記目標グラフモデルに基づいて前記複数グループのトレーニングデータの中から目標トレーニングデータを決定するための決定サブモジュールと、
を備える請求項９に記載の装置。
前記目標グラフモデルが、複数の経路を含み、各前記経路が複数のノードを繋げ、該ノードが１つの前記検索語に対応し、又は１つの前記関連語に対応し、又は１つの前記情報に対応し、前記経路は繋げられるノードに対応する内容の間の検索関連重みを記述する請求項１０に記載の装置。
前記決定サブモジュールが、
前記目標グラフモデルから、複数の目標ノードを繋げる目標経路を決定し、
前記目標ノードに対応する検索語を前記サンプル検索語とし、前記目標ノードに対応する関連語を前記サンプル関連語とし、前記目標ノードに対応する情報を前記サンプル情報とするために用いられる請求項１１に記載の装置。
前記決定サブモジュールが、
ランダムウオーク方式を用いて、目標グラフモデルから目標経路を決定し、又は
幅優先検索方式を用いて、目標グラフモデルから目標経路を決定するために用いられる請求項１２に記載の装置。
前記トレーニングモジュールが、
前記サンプル検索語、前記サンプル情報、前記サンプル関連語、及び前記サンプル検索語と前記サンプル情報と前記サンプル関連語との間の検索関連重みを前記意味解析モデルに入力し、前記意味解析モデルから出力されたコンテキスト予測意味を取得し、
前記コンテキスト予測意味及びコンテキスト注記意味に基づいて前記意味解析モデルをトレーニングするために用いられる請求項１０に記載の装置。
前記トレーニングモジュールが、
前記コンテキスト予測意味と前記コンテキスト注記意味との間の損失値を決定し、
前記損失値が参照損失値を満たす場合、前記意味解析モデルのトレーニングを完了させるために用いられる請求項１４に記載の装置。
前記意味解析モデルは機械翻訳による双方向の符号化表現ＢＥＲＴモデルである請求項９から１５のいずれか一項に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１から８のいずれか一項に記載の方法を実行させる電子機器。
コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から８のいずれか一項に記載の方法を実行させるために用いられる、コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１から８のいずれか一項に記載の方法を前記コンピュータに実現させるコンピュータプログラム。