JP2021152963A

JP2021152963A - 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム

Info

Publication number: JP2021152963A
Application number: JP2021104325A
Authority: JP
Inventors: 碩寰王; Shuohuan Wang; 思宇丁; Siyu Ding; 駿遠尚; Junyuan Shang; 宇孫; Yu Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2021-06-23
Publication date: 2021-09-30
Also published as: CN112560501A; US20210312139A1; CN112560501B

Abstract

【課題】目標ドキュメント中の各ドキュメントセグメントの語義特徴を正確に生成することが可能な語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体を提供する。【解決手段】語義特徴生成方法は、目標ドキュメントをセグメント区切りして、目標ドキュメントのセグメントシーケンスを取得し、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。【選択図】図１

Description

本開示はコンピュータ技術分野に関しており、具体的に機械学習と自然言語処理などの人工知的技術分野に関しており、特に語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体に関している。

語義検索は、サーチエンジンのうちの１つのコア技術であり、所定のユーザが入力するサーチワード、例えばＱｕｅｒｙについて、どのようにドキュメント（Ｄｏｃｕｍｅｎｔ）ベースから快速に当該Ｑｕｅｒｙ語義と最も相関の候補Ｄｏｃｕｍｅｎｔを検索したことである。

従来技術において、ユーザのＱｕｅｒｙ及びＤｏｃｕｍｅｎｔベース中の各Ｄｏｃｕｍｅｎｔに対してそれぞれ語義表現を算出できる。その後、近似最近接検索（ＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ。ＡＮＮ）技術を利用して、Ｑｕｅｒｙの語義表現及びＤｏｃｕｍｅｎｔベース中の各Ｄｏｃｕｍｅｎｔの語義表現に基づいて語義検索し、ＴｏｐＫ個の最も相関の候補Ｄｏｃｕｍｅｎｔを取得できる。そのうちのＤｏｃｕｍｅｎｔの語義表現は、当該Ｄｏｃｕｍｅｎｔの１個の重要なドメイン或複数個の重要なドメインの表現をとってよく、例えばＤｏｃｕｍｅｎｔのタイトル（Ｔｉｔｌｅ）、要旨などの語義表現をそのＤｏｃｕｍｅｎｔの語義表現として取ることができる。

本開示は、語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体を提供している。

本開示の一局面によれば、
目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得することと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することとを含む、語義特徴の生成方法を提供している。

本開示のもう１つの局面によれば、
トレーニングデータセットを採集することと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることとを含む、双方向語義符号化モデルのトレーニング方法を提供している。

本開示の別の１つの局面によれば、
目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュールと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成するための生成モジュールと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得するための取得モジュールとを含む、語義特徴の生成装置を提供している。

本開示のもう１つの局面によれば、
トレーニングデータセットを採集するための採集モジュールと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュールとを含む、双方向語義符号化モデルのトレーニング装置を提供している。

本開示の別の１つの局面によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を含んでおり、
前記メモリには前記少なくとも１つのプロセッサに実行されるコマンドを記憶しており、
前記コマンドが前記少なくとも１つのプロセッサに実行されることで、前記少なくとも１つのプロセッサは上記の方法を実行可能となる、電子機器を提供している。

本開示の別の１つの局面によれば、コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体を提供している。

本開示の別の１つの局面によれば、プロセッサに実行される時に上記の方法を実現するコンピュータプログラムを提供している。

本開示の技術によれば、予めトレーニングされた双方向語義符号化モデルを利用することで、効率的に目標ドキュメント中の各ドキュメントセグメントの語義特徴の正確性を向上でき、さらに、目標ドキュメントの語義特徴の表現正確性を効率的に向上できる。しかも、本開示の技術によれば、トレーニングデータセットを採集し、採集したトレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることで、双方向語義符号化モデルに対する効率的なトレーニングを実現してもよく、さらに、双方向語義符号化モデルが語義特徴表現に対する正確性を効率的に向上できる。

本部分に述べられた内容は、本開示の実施例のキーや重要な特徴を標記するわけではなく、本開示の範囲が限定されるためのものではないと理解すべきである。本開示のほかの特徴は、以下の明細書によって理解を容易になっている。

図面は本案をより一層理解させるためのものであり、本願に対する限定を構成していない。
図１は本開示第１実施例による模式図である。図２は本開示第２実施例による模式図である。図３は本実施例の双方向語義符号化モデルの構成模式図である。図４は本実施例のＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの動作原理図である。図５は図４に示されたＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの集中力メカニズム図である。図６は本実施例の左符号化モジュールの動作原理図である。図７は本実施例の右符号化モジュールの動作原理図である。図８は本実施例の双方向語義符号化モデルの集中力メカニズム図である。図９は本開示第３実施例による模式図である。図１０は本開示の第４実施例による模式図である。図１１は本実施例の左符号化モジュール及び右符号化モジュールのマスキングトレーニング模式図である。図１２は本開示の第５実施例による模式図である。図１３は本開示の第６実施例による模式図である。図１４は本開示の第７実施例による模式図である。図１５は本開示の第８実施例による模式図である。図１６は本開示の実施例を実現するための電子機器のブロック図である。

以下、図面を参照しながら本願の例示の実施例を説明したが、その中、本願実施例の各々の詳細を含むことで理解の便利の上、それらを例示のものと考えるに過ぎない。したがって、当業者は、ここで述べられた実施例を各々の改良や修正をしても、本願の範囲と要旨から逸脱することないと、認識すべきである。同様に、以下の説明では、明瞭で簡潔になるために、周知の構造及び技術に対する説明は省略する。

図１は本開示の第１実施例による模式図である。図１に示すように、本実施例は具体的に以下のステップを含む語義特徴の生成方法を提供している。

Ｓ１０１：目標ドキュメントをセグメント区切りし、目標ドキュメントのセグメントシーケンスを取得する。

Ｓ１０２：予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する。

Ｓ１０３：目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。

本実施例の語義特徴の生成方法の実行本体は語義特徴の生成装置であり、この語義特徴の生成装置の実行本体は電子実体であったり、或いはソフトウェア集積のアプリケーションを利用したりする。本実施例の語義特徴の生成装置は、予めトレーニングされた双方向語義符号化モデルに基づいて、目標ドキュメント中の各ドキュメントセグメントの語義特徴の生成を実現するために用いられる。

本実施例中の目標ドキュメント（Ｄｏｃｕｍｅｎｔ）はドキュメント（Ｄｏｃｕｍｅｎｔ）ベース中のいずれか一枚のＤｏｃｕｍｅｎｔであってもよい。本実施例のＤｏｃｕｍｅｎｔベース中のＤｏｃｕｍｅｎｔは多くの語句を含んだり、或いは多くの段落を含んだりする長ドキュメントであってもよい。例えば、ネットワーク上の１枚新聞、１冊の電子ブック或いはほかの多くの語句を含む長ドキュメントであってもよい。好ましくは、本実施例の目標ドキュメントは句読点を消去し、ドキュメント中の言葉情報だけを保留してもよい。しかし、理論によって証明したように、句読点を消去しなくても、後続処理効果に影響を与えない。

本実施例において、先に目標ドキュメントをセグメント区切りする必要となり、目標ドキュメントのセグメントシーケンスを取得し、当該目標ドキュメントのセグメントシーケンスには、少なくとも２個のドキュメントセグメントを含んでおり、且つ、少なくとも２個のドキュメントセグメントが目標ドキュメントにおける前後順に順次に並べる。具体的には、本実施例において、目標ドキュメントをセグメント区切りする時に、一定のプリセット長さに従って目標ドキュメントをセグメント区切りし、このようにして、前から後への順に、最後１個のドキュメントセグメントを除いて、前のそれぞれのドキュメントセグメントの長さが理論的にいずれも同じである。

本実施例は、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する時に、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する。当該双方向語義符号化モデルは各ドキュメントセグメントを２方向の符号化し、さらに符号化後のドキュメントセグメントの語義特徴をより正確にさせることができる。最後、具体的な自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ。ＮＬＰ）ジョブにおいて、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得できる。例えば、語義マッチジョブにおいて、目標ドキュメントのセグメントシーケンス中各ドキュメントセグメントの語義特徴に基づいて、同時にマッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得してもよい。例えば、ほかのジョブにおいて、直接に目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を生成してもよく、例えば目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、平均などの数学演算を行い、目標ドキュメントの語義特徴を生成してよい。

本実施例の語義特徴の生成方法の適用現場は、ユーザがサーチワードを入力してから、ユーザのサーチワードに基づいて、ＤｏｃｕｍｅｎｔベースからＤｏｃｕｍｅｎｔをサーチし、個々のＤｏｃｕｍｅｎｔを目標ドキュメントとして、本実施例の形態に従って、個々の目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、続いて個々の目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、語義マッチジョブを実現でき、ユーザのサーチワード相関のＤｏｃｕｍｅｎｔがサーチされたことで、ドキュメントマッチの正確率とマッチ効率を効率的に向上できる。なお、本実施例の語義特徴の生成方法はほかのＮＬＰの処理ジョブにも適用されるが、ここでは詳細に説明しない。

本実施例の語義特徴の生成方法は、目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得し、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。本実施例の技術案において、予めトレーニングされた双方向語義符号化モデルを利用することで、目標ドキュメント中の各ドキュメントセグメントの語義特徴の正確性を効率的に向上でき、さらに目標ドキュメントの語義特徴の表現正確を性効率的に向上できる。

図２は本開示の第２実施例による模式図である。図２に示すように、本実施例の語義特徴の生成方法は、上記の図１に示された実施例の技術案を元に、より詳細に本願の技術案を説明する。図２に示すように、本実施例の語義特徴の生成方法は、具体的に以下のステップを含んでいる。

Ｓ２０１：目標ドキュメントをセグメント区切りし、目標ドキュメントのセグメントシーケンスを取得する。

このステップの実施形態は上記の図１に示された実施例のステップＳ１０１を参照でき、ここでは詳細に説明しない。

Ｓ２０２：双方向語義符号化モデル中の左符号化モジュールで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得する。

Ｓ２０３：双方向語義符号化モデル中の右符号化モジュールで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得する。

Ｓ２０４：目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントに対して、対応のドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴をスプライシングして、対応のドキュメントセグメントの語義特徴を取得する。

本実施例中のステップＳ２０２〜Ｓ２０４は上記の図１に示された実施例のステップＳ１０２の実現形態の１種類である。

Ｓ２０５：目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出する。

Ｓ２０６：各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得する。

本実施例において、ユーザのサーチワードに基づいて、ＤｏｃｕｍｅｎｔベースからユーザのサーチワードとマッチするＤｏｃｕｍｅｎｔをサーチするシーンを例として、本願の技術案を説明する。この時に、対応的に、上記の図１に示された実施例のステップＳ１０３は、具体的に目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得することを含んでいる。さらに、本実施例において、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得することを含む本実施例のステップＳ２０５及びステップＳ２０６を例として、本願の技術案を説明する。実際の利用には、ほかのＮＬＰジョブにおいて、図１に示された実施例のステップＳ１０３はほかの実現する形態も利用されるが、ここでは詳細に説明しない。

図３は本実施例の双方向語義符号化モデルの構成模式図である。図３に示すように、本実施例の双方向語義符号化モデルは左符号化モジュールと右符号化モジュールを含むことを例としている。

本実施例の双方向語義符号化モデルはＢｉ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルと呼ばれ、このモデルは従来のＴｒａｎｓｆｏｒｍｅｒ−ＸＬ或いはＸＬＮｅｔに基づいて改良してもよい。例えば、図４は本実施例のＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの動作原理図である。図４に示すように、Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルはドキュメントＤｏｃｕｍｅｎｔを左から右へ段階別にモデリングし、例えば図４にドキュメントＤｏｃｕｍｅｎｔがＸ１Ｘ２…．Ｘ９を含むことを例として、ＤｏｃｕｍｅｎｔをＤｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−３という３つのドキュメントセグメントに分けることを例としている。もし、本実施例中に一回モデリングの最大長さが３であり、そのうち、Ｄｏｃｕｍｅｎｔ−１にＸ１、Ｘ２、Ｘ３を含み、Ｄｏｃｕｍｅｎｔ−２にＸ４、Ｘ５、Ｘ６を含み、Ｄｏｃｕｍｅｎｔ−３にＸ７、Ｘ８、Ｘ９を含む。

図４に示すように、このＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは、動作の時に、それぞれＤｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−３を順次にＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルへ入力する。そのＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは、先にＤｏｃｕｍｅｎｔ−１中のＸ１、Ｘ２及びＸ３に基づいて符号化し、符号化結果ｍｅｍ−Ｄｏｃ−１を取得する。その後、Ｄｏｃｕｍｅｎｔ−１の符号化結果ｍｅｍ−Ｄｏｃ−１とＤｏｃｕｍｅｎｔ−２中のＸ４、Ｘ５及びＸ６に基づいて符号化し、符号化結果ｍｅｍ−Ｄｏｃ−２を取得する。さらに、Ｄｏｃｕｍｅｎｔ−２の符号化結果ｍｅｍ−Ｄｏｃ−２とＤｏｃｕｍｅｎｔ−３中のＸ７、Ｘ８及びＸ９に基づいて符号化し、符号化結果ｍｅｍ−Ｄｏｃ−３を取得する。

図５は図４に示されたＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの集中力メカニズム図である。上記の図４に示された動作原理を組み合せて、図５に示す集中力メカニズムを取得できる。図５に示すように、Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは個々のドキュメントセグメント内に、その集中力が双方向となり、例えばＤｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２とＤｏｃｕｍｅｎｔ−３内に、Ｘ１−Ｘ３、Ｘ４−Ｘ６、Ｘ７−Ｘ９それぞれの内部が互いに相手を見えて、相手の存在も感知できる。Ｄｏｃｕｍｅｎｔ−２の符号化はＤｏｃｕｍｅｎｔ−１の符号化結果を参照し、Ｄｏｃｕｍｅｎｔ−３の符号化もＤｏｃｕｍｅｎｔ−２の符号化結果を参照したので、異なるドキュメントセグメント間にその集中力メカニズムが単向、たとえば左から右へとなっている。このようなモデリングは、モデルの能力を制限し、例えば、最左の文字Ｘ１の語義表現はＤｏｃｕｍｅｎｔ−２とＤｏｃｕｍｅｎｔ−３セグメント内のＸ４−Ｘ９の文字を参照できない。

上記のＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの制限能力に基づいて、本実施例の双方向語義符号化モデルであるＢｉ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは、２個の連携モデルによってモデリングすることで、それぞれ左から右までや右から左までに語義特徴をモデリングしてもよい。すなわち、その双方向語義符号化モデルに含まれる左符号化モジュールは左から右までにモデリングする一方、右符号化モジュールは右から左までにモデリングする。そのなか、左符号化モジュールはＬｅｆｔ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルと呼ばれ、右符号化モジュールはＲｉｇｈｔ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルと呼ばれる。ただし、左符号化モジュールへ入力されたドキュメントセグメントは左から右までにセグメント別に順次に入力される。図６は本実施例の左符号化モジュールの動作原理図であり、その動作原理は上記の図４に示されたＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの動作原理と同じであり、その集中力メカニズムは図５に示される。図７は本実施例の右符号化モジュールの動作原理図である。図６に示すように、右符号化モジュールと上記の左符号化モジュールの動作原理とは対称で、右符号化モジュールへ入力されたドキュメントセグメントは右から左までにセグメント別に順次に入力される。

例えば、その右符号化モジュールであるＲｉｇｈｔ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは、動作の時に、それぞれＤｏｃｕｍｅｎｔ−３、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−１が順次にＲｉｇｈｔ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルへ入力される。当該Ｒｉｇｈｔ−Ｔｒａｎｓｆｏｒｍｅｒ−ＸＬモデルは、先にＤｏｃｕｍｅｎｔ−３中のＸ７、Ｘ８及びＸ９に基づいて符号化し、符号化結果Ｒｍｅｍ−Ｄｏｃ−１を取得する。以降、Ｄｏｃｕｍｅｎｔ−３の符号化結果Ｒｍｅｍ−Ｄｏｃ−３とＤｏｃｕｍｅｎｔ−２中のＸ４、Ｘ５及びＸ６に基づいて符号化し、符号化結果Ｒｍｅｍ−Ｄｏｃ−２を取得する。さらに、Ｄｏｃｕｍｅｎｔ−２の符号化結果Ｒｍｅｍ−Ｄｏｃ−２とＤｏｃｕｍｅｎｔ−１中のＸ１、Ｘ２及びＸ３に基づいて符号化し、符号化結果Ｒｍｅｍ−Ｄｏｃ−１を取得する。

例えば、上記の図６を参照すると、ステップＳ２０２の実施時に、Ｌｍｅｍ−Ｄｏｃ−１、Ｌｍｅｍ−Ｄｏｃ−２とＬｍｅｍ−Ｄｏｃ−３は、それぞれドキュメントＤｏｃｕｍｅｎｔの３つのドキュメントセグメントＤｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−３の左符号化特徴としてもよい。

その通り、上記の図７を参照すると、ステップＳ２０３の実施時に、Ｒｍｅｍ−Ｄｏｃ−３、Ｒｍｅｍ−Ｄｏｃ−２とＲｍｅｍ−Ｄｏｃ−１は、それぞれドキュメントＤｏｃｕｍｅｎｔの３つのドキュメントセグメントＤｏｃｕｍｅｎｔ−３、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−１の右符号化特徴としてもよい。

図３に示すように、当該双方向語義符号化モデルには、１個の特徴処理モジュールをさらに含み、ドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴とをスプライシングして、対応のドキュメントセグメントの語義特徴を取得する。例えば、ドキュメントセグメントＤｏｃｕｍｅｎｔ−１について、Ｌｍｅｍ−Ｄｏｃ−１とＲｍｅｍ−Ｄｏｃ−１とをスプライシングして、Ｄｏｃｕｍｅｎｔ−１の語義特徴を取得し、ただしＲｍｅｍ−Ｄｏｃ−１の生成過程は、Ｄｏｃｕｍｅｎｔ−２とＤｏｃｕｍｅｎｔ−３の右符号化結果Ｒｍｅｍ−Ｄｏｃ−２とＲｍｅｍ−Ｄｏｃ−３とを参照したので、この形態によって得られたＤｏｃｕｍｅｎｔ−１の語義特徴はＤｏｃｕｍｅｎｔ−２中のＸ４−Ｘ６、及びＤｏｃｕｍｅｎｔ−３中のＸ７−Ｘ９を参照でき、さらに、得られたＤｏｃｕｍｅｎｔ−１の語義特徴にすべての前後文の語義情報を参照させると思われる。

その通り、ドキュメントセグメントＤｏｃｕｍｅｎｔ−２について、Ｌｍｅｍ−Ｄｏｃ−２とＲｍｅｍ−Ｄｏｃ−２とをスプライシングして、Ｄｏｃｕｍｅｎｔ−２の語義特徴を取得でき、ただし、Ｌｍｅｍ−Ｄｏｃ−２の生成過程はＤｏｃｕｍｅｎｔ−１の左符号化結果Ｌｍｅｍ−Ｄｏｃ−１を参照、Ｒｍｅｍ−Ｄｏｃ−２の生成過程はＤｏｃｕｍｅｎｔ−３符号化結果Ｒｍｅｍ−Ｄｏｃ−３を参照したので、この形態によって得られたＤｏｃｕｍｅｎｔ−２の語義特徴がＤｏｃｕｍｅｎｔ−１中のＸ１−Ｘ３、及びＤｏｃｕｍｅｎｔ−３中のＸ７−Ｘ９を参照でき、さらに得られたＤｏｃｕｍｅｎｔ−２の語義特徴にすべての前後文の語義情報を参照させると、思われる。

その通り、ドキュメントセグメントＤｏｃｕｍｅｎｔ−３について、Ｌｍｅｍ−Ｄｏｃ−３とＲｍｅｍ−Ｄｏｃ−３とをスプライシングして、Ｄｏｃｕｍｅｎｔ−３の語義特徴を取得でき、その中、Ｌｍｅｍ−Ｄｏｃ−３の生成過程は、Ｄｏｃｕｍｅｎｔ−２の左符号化結果Ｌｍｅｍ−Ｄｏｃ−２を参照し、Ｌｍｅｍ−Ｄｏｃ−２の生成過程は、Ｄｏｃｕｍｅｎｔ−１符号化結果Ｌｍｅｍ−Ｄｏｃ−１を参照したので、その形態によって得られたＤｏｃｕｍｅｎｔ−３の語義特徴はＤｏｃｕｍｅｎｔ−１中のＸ１−Ｘ３、及びＤｏｃｕｍｅｎｔ−２中のＸ４−Ｘ６を参照でき、さらに、得られたＤｏｃｕｍｅｎｔ−３の語義特徴にすべての前後文の語義情報を参照させると、思われる。

以上によると、図８に示された双方向語義符号化モデルの集中力メカニズム図が得られる。図８に示すように、左側は左符号化モジュールの集中力メカニズム図となり、上記の図５に示されたＴｒａｎｓｆｏｒｍｅｒ−ＸＬモデルの集中力メカニズム図と同じである。右側は右符号化モジュールの集中力メカニズム図となり、左符号化モジュールの集中力メカニズム図と対称である。このように、両者をスプライシングしたことによって、最終に得られた個々のドキュメントセグメントの語義特徴に、共にすべての前後文の語義情報を十分に参照させ、動的に語義表現を行い、双方向語義符号化モデルの語義特徴表現効果を高くし、各ドキュメントセグメントの語義特徴の正確性を強くする。

本実施例の語義マッチ現場には、ドキュメントセグメントの語義特徴を取得してから、上記のステップＳ２０５及びステップＳ２０６を参照して、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴和とマッチ待ちのサーチワードの語義特徴との類似度を算出でき、本実施例のマッチ待ちのサーチワードの語義特徴は、予めトレーニングされた双方向語義符号化モデルによって生成される。例えば本実施例のマッチ待ちのサーチワードはユーザの入力するサーチワードであってもよく、目標ドキュメントの区切りに用いられるプリセット長さに対して、そのマッチ待ちのサーチワードの長さは比較的に短いので、本実施例にマッチ待ちのサーチワードの語義特徴を生成する時に、マッチ待ちのサーチワードを区切りしない。マッチ待ちのサーチワードがそのまま双方向語義符号化モデルへ入力され、左符号化モジュールにより符号化されることで、当該マッチ待ちのサーチワードの左符号化特徴を取得する一方、右符号化モジュールによって符号化されることで当該マッチ待ちのサーチワードの右符号化特徴を取得でき、そのマッチ待ちのサーチワードの左符号化特徴と右符号化特徴とをスプライシングして、そのマッチ待ちのサーチワードの語義特徴を取得する。実際の利用には、ほかの形態を利用して当該マッチ待ちのサーチワードの語義特徴を取得してもよいが、ここでは詳細に説明しない。

以降、各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得する。

さらに、語義マッチには、Ｄｏｃｕｍｅｎｔベース中の各Ｄｏｃｕｍｅｎｔを目標ドキュメントとして、本実施例の形態に従って、各Ｄｏｃｕｍｅｎｔの語義特徴を取得し、その後、各Ｄｏｃｕｍｅｎｔの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出して、類似度が最も大きいＤｏｃｕｍｅｎｔを候補Ｄｏｃｕｍｅｎｔとして取得することで、語義マッチのサーチを実現できる。本実施例の形態は、用いられるＤｏｃｕｍｅｎｔの語義特徴の正確性が非常に高いので、語義マッチジョブの正確性を効率的に向上できる。

本実施例の語義特徴の生成方法は、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールを利用ことによって、各ドキュメントセグメントの語義特徴にすべての前後文の語義情報を十分に参照させ、動的に語義表現を行い、更にドキュメントの語義特徴表現の正確性を効率的に向上できる。

図９は本開示の第３実施例による模式図である。図９は本実施例の提供された双方向語義符号化モデルのトレーニング方法であり、図９に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、具体的に以下のステップを含んでよい。

Ｓ９０１：トレーニングデータセットを採集する。

Ｓ９０２：採集したトレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングする。

本実施例の双方向語義符号化モデルのトレーニング方法の実行本体は双方向語義符号化モデルのトレーニング装置であってもよく、当該双方向語義符号化モデルのトレーニング装置は電子実体であったり、ソフトウェア集積が用いられるアプリケーションであったり、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするために用いられる。

つまり、本実施例の双方向語義符号化モデルは左符号化モジュールと右符号化モジュールという２部分の構成を含んでいる。本実施例の左符号化モジュールは入力された言葉情報を左から右への方向の符号化し、対応する左符号化特徴を取得すると理解される。右符号化モジュールは入力された言葉情報を右から左への方向の符号化し、対応する右符号化特徴を取得すると理解される。本実施例の双方向語義符号化モデルは、左符号化モジュールと右符号化モジュールを利用することで、入力された言葉情報の２つの方向の符号化を実現し、さらに最終に得られた符号化後の語義特徴をより正確にさせることはできる。具体的には、本実施例の双方向語義符号化モデルは、具体的に上記の図２に示された実施例の用いられた双方向語義符号化モデルを利用してもよく、細部は上記の実施例の相関記載を参照できるが、ここでは詳細に説明しない。

本実施例の双方向語義符号化モデルのトレーニング方法は、トレーニングデータセットを採集し、採集したトレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることによって、双方向語義符号化モデルを効率的にトレーニングすることは実現でき、さらに双方向語義符号化モデルの語義特徴表現に対する正確性を効率的に向上できる。

図１０は本開示の第４実施例による模式図である。図１０に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、上記の図９に記載の実施例を元に、より一層詳細に本願の技術案を説明する。図１０に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、具体的に以下のステップを含んでもよい。

Ｓ１００１：数条のトレーニングコーパスを含む第１トレーニングデータセットを採集する。

Ｓ１００２：採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールがマスキング文字を予測する能力を学習するように、左符号化モジュール及び右符号化モジュールをマスキングトレーニングする。

Ｓ１００３：数組のサンプル対を含む第２トレーニングデータセットを採集する。そのなか、各組のサンプル対には正サンプル対及び負サンプル対を含み、正サンプル対及び負サンプル対には、共同のトレーニングサーチワードを含んでいる。正サンプル対には正サンプルドキュメントをさらに含み、負サンプル対には負サンプルドキュメントをさらに含んでいる。

本実施例のサンプル対に含まれるトレーニングサーチワードは、ユーザのサーチワードＱｕｅｒｙであってもよい。正サンプル対中の正サンプルドキュメントは、Ｑｕｅｒｙと関連性を有するドキュメントＤｏｃｕｍｅｎｔであってもよい。一方、負サンプル対中の負サンプルドキュメントはＱｕｅｒｙと関連性を有しないドキュメントＤｏｃｕｍｅｎｔであってもよい。本実施例のサンプル対は人工標記したり、ユーザクリックなどの行動ログによって自動に集めたりできる。Ｑｕｅｒｙ−Ｄｏｃｕｍｅｎｔが正サンプルを構成すると、ＱｕｅｒｙとＤｏｃｕｍｅｎｔにおける個々のセグメントはともに正例示であり、逆もまた然りである。

Ｓ１００４：採集した第２トレーニングデータセット中の数組のサンプル対に基づいて、双方向語義符号化モデルが語義マッチの能力を学習するように、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールに語義マッチジョブのトレーニングを行う。

説明すべきことは、本実施例において、双方向語義符号化モデルのトレーニングに上記のステップＳ１００１〜Ｓ１００２及びＳ１００３〜Ｓ１００４という２種類のトレーニングを同時に含むことを例として、Ｓ１００３〜Ｓ１００４の前にＳ１００１−Ｓ１００２のマスキングトレーニング過程を追加することで、双方向語義符号化モデルのトレーニング効果をより強くできる。好ましくは、実際の利用において、双方向語義符号化モデルのトレーニングは上記のＳ１００３〜Ｓ１００４のトレーニングステップだけを含んでもよい。

より好ましくは、本実施例のステップＳ１００２には、具体的に以下の２つの形態を含んでよい。

第１の形態：採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングする。

つまり、このようなトレーニング形態において、左符号化モジュール及び右符号化モジュールのパラメータは共有化されなく、それぞれ左符号化モジュール及び右符号化モジュールをマスキングトレーニングできる。

第２の形態：採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール或いは右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の左符号化モジュール或いは右符号化モジュールのパラメータが、マスキングトレーニングされない右符号化モジュール或いは左符号化モジュールに共有化されている。

このようなトレーニング形態には、左符号化モジュール及び右符号化モジュールのパラメータは共有化され、トレーニング過程において、そのうちの１個だけをマスキングトレーニングできる。その後、トレーニングしたパラメータが別の１個に共有化されている。

上記のどのトレーニング形態であっても、いずれもトレーニング後の双方向語義符号化モデルに、ドキュメントセグメントの語義特徴表現の正確性を効率的に向上させて、さらにドキュメントの語義特徴表現の正確性を効率的に向上させてうる。

例えば、採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュールをマスキングトレーニングすることは、具体的に以下のステップを含んでいる。

（ａ１）各トレーニングコーパスについて、トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得する。

例えば、上記の図１に示された実施例中の目標ドキュメントの区切り形態を参照して、トレーニングコーパスを区切りできる。本実施例のトレーニングコーパスは長テキストの形式であってもよい。その通り、区切り後のトレーニングコーパスセグメントシーケンスには、少なくとも２個のトレーニングコーパスセグメントを含んでもよく、上記の実施例の相関記載を参照し、ここでは詳細に説明しない。

なお、本実施例において、トレーニングコーパスのマスキングはランダムマスキングであってもよい。例えば、トレーニングコーパスがＸ１Ｘ２…．Ｘ９のドキュメントＤｏｃｕｍｅｎｔを含むことを例とする。図１１は本実施例の左符号化モジュール及び右符号化モジュールのマスキングトレーニング模式図である。図１１に示すように、本実施例においてＸ２、Ｘ４、Ｘ８及びＸ９をマスキング化することを例として、セグメント長さを３とし、Ｄｏｃｕｍｅｎｔをセグメント区切りしてから、Ｄｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−３という３つのドキュメントセグメントを取得し、ただし、Ｄｏｃｕｍｅｎｔ−１がＸ１、［Ｍ］（［Ｍ］はマスキング化した文字である）、Ｘ３を含み、Ｄｏｃｕｍｅｎｔ−２が［Ｍ］、Ｘ５、Ｘ６を含み、Ｄｏｃｕｍｅｎｔ−３がＸ７、［Ｍ］、［Ｍ］を含んでいる。

（ｂ１）トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、左符号化モジュールへ順次に入力される。

（ｃ１）左符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、予測された各トレーニングセグメント中のマスキング化した文字を取得する。

例えば、Ｄｏｃｕｍｅｎｔ−１、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−３が順次に左符号化モジュールへ入力され、左符号化モジュールが先に、入力されたＤｏｃｕｍｅｎｔ−１中のＸ１、［Ｍ］、Ｘ３に基づいて符号化してＬｍｅｍ−Ｄｏｃ−１を取得し、符号化結果Ｌｍｅｍ−Ｄｏｃ−１に基づいて復号化し、隠れた［Ｍ］を予測してもよい。その後、Ｌｍｅｍ−Ｄｏｃ−１及び入力されるＤｏｃｕｍｅｎｔ−２中の［Ｍ］、Ｘ５、Ｘ６に基づいて符号化して、Ｌｍｅｍ−Ｄｏｃ−２を取得し、符号化結果Ｌｍｅｍ−Ｄｏｃ−２に基づいて復号化し、隠れた［Ｍ］を予測する。その通り、Ｄｏｃｕｍｅｎｔ２の符号化したＬｍｅｍ−Ｄｏｃ−２及び入力されるＤｏｃｕｍｅｎｔ−３中のＸ７、［Ｍ］、［Ｍ］に基づいて符号化して、Ｌｍｅｍ−Ｄｏｃ−３を取得し、符号化結果Ｌｍｅｍ−Ｄｏｃ−３に基づいて復号化し、隠れた２個の［Ｍ］を予測する。

（ｄ１）各トレーニングセグメント中の本当にマスキングした文字及び左符号化モジュールの予測マスキングの文字に基づいて、第１ロース関数を構築する。

本実施例のトレーニング過程において、毎回の予測の結果に基づいて第１ロース関数を構築してもよいし、１個のトレーニングコーパスの予測結果に基づいて、第１ロース関数全体を構築してもよい。例えば、構築した第１ロース関数が左符号化モジュールの予測するマスキングの文字と本当にマスキングした文字コードとの差分を表すために用いられ、たとえば両者の文字特徴が表現する差分を取ってできる。差分が小さいほど、両者が近接すると表れ、そうでなければ、両者の差分が大きくなっている。

例えば、１個のトレーニングコーパス中の複数個の予測結果に基づいて第１ロース関数を構築する時に、それぞれの予測するマスキング文字と対応する本当マスキング文字の文字特徴表現との平均差分或いは平均平方差などをとってよいが、ここでは限定されていない。

（ｅ１）第１ロース関数が収束するか否かを検出し、収束しないときに、ステップ（ｆ１）を実行し、収束すると、ステップ（ｇ１）を実行する。

（ｆ１）左符号化モジュールのパラメータを調整して、第１ロース関数が収束する傾向になりさせ、ステップ（ａ１）へ返して、次のトレーニングコーパスを選択して引き続きトレーニングを行う。

（ｇ１）連続プリセット回数のトレーニングに第１ロース関数が常に収束するか否かを、検出したり、或いはトレーニング回数がプリセットしきい値に達したか否かを検出したりし、そうであれば、左符号化モジュールのパラメータを特定して、さらに左符号化モジュールを特定して終了し、そうでなければ、（ａ１）へ返して、次のトレーニングコーパスを選択して、引き続きトレーニングを行う。

ステップ（ａ１）〜（ｆ１）は左符号化モジュールのトレーニング過程となる。

ステップ（ｇ１）は左符号化モジュールのトレーニング締切り条件である。本実施例において、トレーニング締切り条件には２種類のケースを含むことを例として、第１のトレーニング締切り条件では、連続プリセット回数のトレーニングに第１ロース関数が常に収束するか否かというものとなり、常に収束すると、当該左符号化モジュールがもうトレーニングし済んだと考える。そのなか、この連続プリセット回数は実際な必要に応じて設けられ、例えば連続的な８０回、１００回、２００回或いはほかの正整数であってもよく、ここでは限定されていない。第２のトレーニング締切り条件では、第１ロース関数が常に収束する傾向になるが、永遠に収束に達すことができないことを防止するケースとなっている。このときに、１個のトレーニングの最大回数が設置され、トレーニング回数が最大トレーニング回数に達した時に、左符号化モジュールがもうトレーニングし済んだと考えることはできる。例えば実際な必要に応じて、プリセットしきい値は百万オーダー或いはほかの更大オーダーの数値と設置され、ここでは限定されていない。

本実施例のマスキングトレーニング過程において、Ｔｒａｎｓｆｏｒｍｅｒｓに基づく双方向符号化表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ：ＢＥＲＴ）モデルのマスキング言語モデル（ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌ；ＭＬＭ）を使用したり、或いはＸＬＮｅｔモデルの配列言語モデル（ＰｅｒｍｕｔａｔｉｏｎＬａｎｇｕａｇｅＭｏｄｅｌ；ＰＬＭ）メカニズムを使用したりして、学習でき、細部は相関技術を参照できるが、ここでは詳細に説明しない。しかし、本願の左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルのマスキングトレーニングは、伝統のＢＥＲＴ及びＸＬＮｅｔのマスキングと異なっており、セグメント内の学習のみに基づくものとなったが、本実施例の双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのマスキングトレーニングは、モデルに前文或いは後文の内容に基づいて学習でき、マスキングトレーニングの学習効果をより向上できる。

上記の左符号化モジュールに対するトレーニングによれば、引き続き左符号化処理のセグメントを正確に語義特徴表現するように、トレーニング後の左符号化モジュールに正確にマスキング情報を予測させることは可能となる。

例えば、採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の右符号化モジュールをマスキングトレーニングすることは、具体的に以下のステップを含んでいる。

（ａ２）各トレーニングコーパスについて、トレーニングコーパスをマスキング化してセグメント区切りし、トレーニングコーパスセグメントシーケンスを取得する。ただし、レーニングコーパスセグメントシーケンスには少なくとも２個のトレーニングコーパスセグメントを含んでいる。

（ｂ２）トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが、右から左への順に、右符号化モジュールに順次に入力される。

（ｃ２）右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキング化した文字を予測して取得する。

図１１に示すように、左符号化モジュールと異なるのは、Ｄｏｃｕｍｅｎｔ−３、Ｄｏｃｕｍｅｎｔ−２、Ｄｏｃｕｍｅｎｔ−１が順次に右符号化モジュールに入力され、右符号化モジュールが先に、入力されたＤｏｃｕｍｅｎｔ−３中のＸ７、［Ｍ］、［Ｍ］に基づいて符号化して、Ｒｍｅｍ−Ｄｏｃ−３を取得し、また符号化結果Ｒｍｅｍ−Ｄｏｃ−３に基づいて復号化して、隠れた２個の［Ｍ］を予測する。そのあと、Ｒｍｅｍ−Ｄｏｃ−３及び入力されたＤｏｃｕｍｅｎｔ−２中の［Ｍ］、Ｘ５、Ｘ６に基づいて符号化して、Ｒｍｅｍ−Ｄｏｃ−２を取得し、また符号化結果Ｒｍｅｍ−Ｄｏｃ−２に基づく復号化し、隠れた［Ｍ］を予測する。その通り、Ｄｏｃｕｍｅｎｔ２の符号化後のＲｍｅｍ−Ｄｏｃ−２及び入力されたＤｏｃｕｍｅｎｔ−１中のＸ１、［Ｍ］、Ｘ３に基づいて符号化してＲｍｅｍ−Ｄｏｃ−１を取得し、また符号化結果Ｒｍｅｍ−Ｄｏｃ−１に基づいて復号化して、隠れた［Ｍ］を予測する。

（ｄ２）各トレーニングセグメント中の本当にマスキングした文字と右符号化モジュールの予測したマスキングの文字に基づいて、第２ロース関数を構築する。

その中、第２ロース関数の構築過程と上記の第１ロース関数の構築過程とは類似であるので、細部は上記の第１ロース関数の構築過程を参照できるが、ここでは詳細に説明しない。

（ｅ２）第２ロース関数が収束するか否かを検出し、収束しない時にステップ（ｆ２）を実行し、収束する時にステップ（ｇ２）を実行する。

（ｆ２）右符号化モジュールのパラメータを調整することで、第２ロース関数が収束する傾向になさせ、ステップ（ａ２）へ返して次のトレーニングコーパスを選択して、引き続きトレーニングを行う。

（ｇ２）連続プリセット回数のトレーニングに第２ロース関数が常に収束か否か、或いはトレーニング回数がプリセットしきい値に達したか否かを検出する。そうであれば、右符号化モジュールのパラメータを特定し、さらに右符号化モジュールを特定して終了する。そうでなければ、（ａ２）へ返して、次のトレーニングコーパスを選択して引き続きトレーニングする。

ステップ（ａ２）−（ｆ２）は右符号化モジュールのトレーニング過程となる。

ステップ（ｇ２）は右符号化モジュールのトレーニング締切り条件であり、上記のステップ（ｇ１）に記載の左符号化モジュールのトレーニング締切り条件に類似し、細部は上記の相関記載を参照できるが、ここでは詳細に説明しない。

上記の右符号化モジュールに対するトレーニングによれば、後続的に右符号化処理のセグメントを正確に語義特徴表現するように、トレーニングした右符号化モジュールに正確にマスキング情報を予測することができる。

より好ましくは、本実施例のステップＳ１００４は、具体的に以下のステップを含んでもよい。

（ａ３）各組のサンプル対中のトレーニングサーチワードに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、トレーニングサーチワードの語義特徴を取得する。

例えば、このステップは具体的に、実行の時に、毎組のサンプル対に対して、左符号化モジュールがサンプル対中のトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの左符号化特徴を取得する。また、右符号化モジュールがそのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの右符号化特徴を取得する。最後、トレーニングサーチワードの左符号化特徴とトレーニングサーチワードの右符号化特徴とをスプライシングして、トレーニングサーチワードの語義特徴を取得する。

（ｂ３）各組のサンプル対中の正サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、正サンプルドキュメントの語義特徴を取得する。

（ｃ３）各組のサンプル対中の負サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、負サンプルドキュメントの語義特徴を取得する。

（ｄ３）第１語義類似度と第２語義類似度との差分がプリセットしきい値よりも大きいように、トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第１語義類似度、及びトレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第２語義類似度に基づいて、第３ロース関数を構築する。

本実施例において、第３ロース関数を構築する目的は、トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第１語義類似度を十分に大きくさせる一方、トレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第２語義類似度を十分に小さくさせることであり、両者の格差を制御するために、プリセットしきい値よりも大きくなるように、第１語義類似度と第２語義類似度との差分を設置することで、当該プリセットしきい値が十分に大きい時に、第１語義類似度が十分に大きくなる一方、第２語義類似度が十分に小さくなることを確保できる。

実際の利用には、異なるトレーニング考案にて、異なる第３ロース関数を更に設置するが、ここでは１つずつ例を挙げて説明しない。

（ｅ３）第３ロース関数が収束するか否かを検出する。収束しない時に、ステップ（ｆ３）を実行する。収束する時に、ステップ（ｇ３）を実行する。

（ｆ３）双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整して、第３ロース関数が収束する傾向になさせる。ステップ（ａ３）へ返して、次の組のサンプル対を選択して引き続きトレーニングする。

本実施例において、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整することは、２種類の形態を含んでいる。

第１の形態：左符号化モジュール及び右符号化モジュールのパラメータは共有化され、その時に調整した左符号化モジュール及び右符号化モジュールのパラメータは常に同期している。

第２の形態：左符号化モジュール及び右符号化モジュールのパラメータは共有化されておらず、そのときに、左符号化モジュール及び右符号化モジュールのパラメータを随時調整でき、両者のパラメータは同期しなくてよく、第３ロース関数が収束に偏らせればよい。

どのようなトレーニング形態を利用しても、いずれもトレーニングによって得られた双方向語義符号化モデルが語義特徴表現を行う正確性を効率的に保証できる。

（ｇ３）連続的に回数をプリセットしたトレーニングに第３ロース関数が常に収束するか否か、或いはトレーニング回数がプリセットしきい値に達したか否かを検出する。収束すると、左符号化モジュール及び右符号化モジュールのパラメータを特定し、さらに双方向語義符号化モデルを特定して終了する。そうでければ、（ａ３）へ返して、次の１組のサンプル対を選択し、引き続きトレーニングする。

ステップ（ａ３）〜（ｆ３）は双方向語義符号化モデルのトレーニング過程となる。

ステップ（ｇ３）は双方向語義符号化モデルのトレーニング締切り条件であり、上記のステップ（ｇ１）に記載の左符号化モジュールのトレーニング締切り条件及びステップ（ｇ２）に記載の右符号化モジュールのトレーニング締切り条件と類似しており、細部は上記の相関記載を参照できるが、ここでは詳細に説明しない。

上記の双方向語義符号化モデルに対するトレーニングは、その双方向語義符号化モデルに語義特徴表現をさせる時に、前後文のすべての情報を十分に考慮でき、双方向語義符号化モデルの語義表現の正確性を効率的に向上しうる。

より好ましくは、上記の実施例中のステップ（ｂ３）は、具体的に実現する時に以下のステップを含んでよい。

（ａ４）各組のサンプル対中の正サンプルドキュメントに基づいて、正サンプルドキュメントをセグメント区切りして、正サンプルドキュメントセグメントシーケンスを取得する。

具体的には、上記の実施例中の目標ドキュメントのセグメント区切りについては同様の原理で実現されるので、ここでは詳細に説明しない。

（ｂ４）正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールが入力に基づく各正サンプルドキュメントセグメントを取得し、各正サンプルドキュメントセグメントの左符号化特徴が得られた。

例えば、上記の図６に示された実施例の左符号化モジュールの動作原理を参照でき、各正サンプルドキュメントセグメントの左符号化特徴の取得を実現できる。

（ｃ４）正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得し、各正サンプルドキュメントセグメントの右符号化特徴が得られた。

例えば、上記の図７に示された実施例の右符号化モジュールの動作原理を参照でき、各正サンプルドキュメントセグメントの右符号化特徴の取得を実現できる。

（ｄ４）正サンプルドキュメント中の各正サンプルドキュメントセグメントについて、正サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、正サンプルドキュメントセグメントの語義特徴を取得する。

上記の実施例の相関記載を参照すれば、各正サンプルドキュメントセグメントの左符号化特徴と右符号化特徴とをスプライシングして、当該正サンプルドキュメントセグメントの語義特徴を取得することによって、得られた当該正サンプルドキュメントセグメントの語義特徴に正サンプルドキュメント中のすべての前後文情報を十分に参照させ、さらに正サンプルドキュメントセグメントの語義特徴をより一層正確的な表現とさせることは可能となる。

（ｅ４）正サンプルドキュメント中の各正サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、正サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい正サンプルドキュメントセグメントの語義特徴を取得する。

より好ましくは、ステップ（ｂ４）は具体的に実現する時に以下のステップを含んでもよい。

（ａ５）各組のサンプル対中の負サンプルドキュメントに基づいて、負サンプルドキュメントをセグメント区切りして、負サンプルドキュメントセグメントシーケンスを取得する。

その通り、上記の実施例中の目標ドキュメントのセグメント区切りをも参照でき、その実現原理も同じであり、ここでは詳細に説明しない。

（ｂ５）負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントを、左から右への順に、左符号化モジュール中に順次に入力されており、左符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得し、各負サンプルドキュメントセグメントの左符号化特徴が得られた。

（ｃ５）負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントを、右から左への順に、右符号化モジュール中に順次に入力されており、右符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得し、各負サンプルドキュメントセグメントの右符号化特徴が得られた。

（ｄ５）負サンプルドキュメント中の各負サンプルドキュメントセグメントについて、負サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、負サンプルドキュメントセグメントの語義特徴を取得する。

（ｅ５）負サンプルドキュメント中の各負サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、負サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい負サンプルドキュメントセグメントの語義特徴を取得する。

また、ステップ（ａ５）〜（ｅ５）の負サンプルドキュメントの語義特徴を取得する過程は、上記のステップ（ａ４）〜（ｅ４）の正サンプルドキュメントの語義特徴を取得する過程と類似しており、具体的な実現する過程はステップ（ａ４）〜（ｅ４）の実現形態を参照できるが、ここでは詳細に説明しない。

本実施例の双方向語義符号化モデルのトレーニング方法は、上記のトレーニング形態を用いて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールにてトレーニングすることで、トレーニングの双方向語義符号化モデルに、語義特徴表現をする時に、前後文情報を十分に参照させ、得られた語義特徴により正確とさせることができる。

図１２は本開示の第５実施例による模式図である。図１２に示すように、本実施例は、
目標ドキュメントをセグメント区切りして、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュール１２０１と、
予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの語義特徴を生成するための生成モジュール１２０２と、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得するための取得モジュール１２０３と、を含む語義特徴の生成装置１２００を提供している。

本実施例の語義特徴の生成装置１２００は、上記のモジュールを利用することで、語義特徴の生成の実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。

図１３は本開示の第６実施例による模式図である。図１３に示すように、本実施例の語義特徴の生成装置は、上記の図１２に記載の実施例を元に、より一層詳細に本願の技術案を説明する。

図１３に示すように、本実施例の語義特徴の生成装置では、生成モジュール１２０２は、
双方向語義符号化モデル中の左符号化モジュールで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの左符号化特徴を取得するための第１符号化手段１２０２１と、
双方向語義符号化モデル中の右符号化モジュールで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの右符号化特徴を取得するための第２符号化手段１２０２２と、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントについて、対応のドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴とをスプライシングして、対応のドキュメントセグメントの語義特徴を取得するためのスプライシング手段１２０２３とを含んでいる。

より好ましくは、本実施例の語義特徴の生成装置では、取得モジュール１２０３は、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、目標ドキュメントの語義特徴を取得するために用いられる。

より好ましくは、図１３に示すように、本実施例の語義特徴の生成装置では、取得モジュール１２０３は、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出するための算出手段１２０３１と、
各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得するための取得手段１２０３２と、を含んでいる。

図１４は本開示の第７実施例による模式図である。図１４に示すように、本実施例は、
トレーニングデータセットを採集するための採集モジュール１４０１と、
採集したトレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュール１４０２と、を含む双方向語義符号化モデルのトレーニング装置１４００を提供している。

本実施例の双方向語義符号化モデルのトレーニング装置１４００は、上記のモジュールを利用することで、双方向語義符号化モデルのトレーニングの実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。

図１５は本開示の第８実施例による模式図である。図１５に示すように、本実施例の双方向語義符号化モデルのトレーニング装置は上記の図１４に記載の実施例を元に、より一層詳細に本願の技術案を説明する。

例えば、本実施例の採集モジュール１４０１は、数条のトレーニングコーパスを含む第１トレーニングデータセットを採集するために用いられる。

より好ましくは、本実施例のトレーニングモジュール１４０２は、
採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングすることで、左符号化モジュール及び右符号化モジュールにマスキング文字の予測能力を学習させるために用いられる。

より好ましくは、本実施例のトレーニングモジュール１４０２は、
採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングする、或いは
採集した第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュールや右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の左符号化モジュールや右符号化モジュールのパラメータが、マスキングトレーニングされない右符号化モジュールや左符号化モジュールに共有化されるために用いられる。

より好ましくは、図１５に示すように、本実施例の双方向語義符号化モデルのトレーニング装置では、トレーニングモジュール１４０２は、
各トレーニングコーパスに対して、トレーニングコーパスをマスキングしてセグメント区切りし、トレーニングコーパスセグメントシーケンスを取得するための前処理手段１４０２１と、
トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが、左から右への順に、左符号化モジュールに順次に入力されるための入力手段１４０２２と、
左符号化モジュールが入力された各トレーニングセグメントに基づいて符号化して、符号化後の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキング後の文字を予測して取得するための予測手段１４０２３と、
各トレーニングセグメント中の本当にマスキングした文字及び左符号化モジュールの予測のマスキングした文字に基づいて、第１ロース関数を構築するための第１構築手段１４０２４と、
第１ロース関数が収束するか否かを検出するための第１検出手段１４０２５と、
第１ロース関数が収束しない時に、第１ロース関数が収束する傾向になるように、左符号化モジュールのパラメータを調整するための第１調整手段１４０２６と、を含んでいる。

より好ましくは、入力手段１４０２２は、さらに、トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが右から左への順に、右符号化モジュールに順次に入力されるために用いられる。

予測手段１４０２３は、さらに、右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化後の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキングした文字を予測して取得するために用いられる。

第１構築手段１４０２４は、さらに、各トレーニングセグメント中の本当にマスキングした文字及び右符号化モジュールの予測のマスキングした文字に基づいて、第２ロース関数を構築するために用いられる。

第１検出手段１４０２５は、さらに、第２ロース関数が収束するか否かを検出するために用いられる。

第１調整手段１４０２６は、更に、第２ロース関数が収束しない時に、第２ロース関数が収束する傾向になるように、右符号化モジュールのパラメータを調整するために用いられる。

より好ましくは、本実施例の双方向語義符号化モデルのトレーニング装置１４００では、採集モジュール１４０１は、さらに、
数組のサンプル対を含む第２トレーニングデータセットを採集するために用いられ、各組のサンプル対には正サンプル対と負サンプル対とを含んでおり、正サンプル対と負サンプル対には共通のトレーニングサーチワードを含んでおり、正サンプル対には正サンプルドキュメントをさらに含む一方、負サンプル対には負サンプルドキュメントをさらに含んでいる。

より好ましくは、本実施例の双方向語義符号化モデルのトレーニング装置１４００では、トレーニングモジュール１４０２は、さらに、具体的に
採集した第２トレーニングデータセット中の数組のサンプル対に基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールを語義マッチジョブのトレーニングし、双方向語義符号化モデルに語義マッチの能力を学習させる、ために用いられる。

より好ましくは、図１５に示すように、本実施例の双方向語義符号化モデルのトレーニング装置では、トレーニングモジュール１４０２は、
各組のサンプル対中のトレーニングサーチワードに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、トレーニングサーチワードの語義特徴を取得するための第１特徴取得手段１４０２ａと、
各組のサンプル対中の正サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、正サンプルドキュメントの語義特徴を取得するための第２特徴取得手段１４０２ｂと、
各組のサンプル対中の負サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、負サンプルドキュメントの語義特徴を取得するための第３特徴取得手段１４０２ｃと、
トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第１語義類似度、及びトレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第２語義類似度に基づいて、第３ロース関数を構築するための第２構築手段１４０２ｄと、
第３ロース関数が収束するか否かを検出するための第２検出手段１４０２ｅと、
第３ロース関数が収束しなければ、第３ロース関数が収束する傾向になるように、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整するための第２調整手段１４０２ｆと、をさらに含んでいる。

より好ましくは、第１特徴取得手段１４０２ａは、
左符号化モジュールのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの左符号化特徴を取得し、
右符号化モジュールのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの右符号化特徴を取得し、
トレーニングサーチワードの左符号化特徴とトレーニングサーチワードの右符号化特徴とをスプライシングして、トレーニングサーチワードの語義特徴を取得するために用いられる。

より好ましくは、第２特徴取得手段１４０２ｂは、
各組のサンプル対中の正サンプルドキュメントに基づいて、正サンプルドキュメントをセグメント区切りして、正サンプルドキュメントセグメントシーケンスを取得し、
正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得して、各正サンプルドキュメントセグメントの左符号化特徴を取得し、
正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得して、各正サンプルドキュメントセグメントの右符号化特徴を取得し、
正サンプルドキュメント中の各正サンプルドキュメントセグメントについて、正サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、正サンプルドキュメントセグメントの語義特徴を取得し、
正サンプルドキュメント中の各正サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、正サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい正サンプルドキュメントセグメントの語義特徴を取得する、ために用いられる。

より好ましくは、第３特徴取得手段１４０２ｂは、
各組のサンプル対中の負サンプルドキュメントに基づいて、負サンプルドキュメントをセグメント区切りして、負サンプルドキュメントセグメントシーケンスを取得し、
負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得して、各負サンプルドキュメントセグメントの左符号化特徴を取得し、
負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得して、各負サンプルドキュメントセグメントの右符号化特徴を取得し、
負サンプルドキュメント中の各負サンプルドキュメントセグメントについて、負サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、負サンプルドキュメントセグメントの語義特徴を取得し、
負サンプルドキュメント中の各負サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、負サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい負サンプルドキュメントセグメントの語義特徴を取得するために用いられる。

実際の利用に、上記のトレーニングモジュール１４０２には前処理手段１４０２１−第１調整手段１４０２６だけを含んでもよいし、第１特徴取得手段１４０２ａ−第２調整手段１４０２ｆだけを含んでもよいし、或いは両者とも同時に含んでもよい。図１４に示された実施例では同時に含むことを例としている。

本開示の実施例によると、本開示はさらに、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供している。

図１６には本開示の実施例を実施するための電子機器８００の示意性框図が示された。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す旨である。電子機器は、様々な形式の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本文に示す部品と、それらの接続及び関係と、それらの機能とは単に例示であり、本文で説明した及び／又は要求した本開示の実現を限定することを意図しない。

図１６に示すように、電子機器１６００は、リードオンリーメモリ（ＲＯＭ）１６０２に記憶されたコンピュータプログラム又は記憶手段１６０８からランダムアクセスメモリ（ＲＡＭ）１６０３にロードされたコンピュータプログラムに基づいて、各種の適宜な動作及び処理を実行することができる計算手段１６０１を含んでいる。ＲＡＭ１６０３には、電子機器１６００の操作のために必要とする各種プログラム及びデータが記憶されてもよい。計算手段１６０１と、ＲＯＭ１６０２と、ＲＡＭ１６０３とは、互いにバス１６０４を介して接続される。入力・出力（Ｉ／Ｏ）インターフェース１６０５もバス１６０４に接続されている。

電子機器１６００における複数の部品は、Ｉ／Ｏインターフェース１６０５に接続され、キーボード、マウスなどの入力手段１６０６と、各種タイプのディスプレイ、スピーカなどの出力手段１６０７と、磁気ディスク、光ディスクなどの記憶手段１６０８と、ネットワークカード、モデム、無線通信送受信機などの通信手段１６０９とを含む。通信手段１６０９は、機器１６００がインターネットというコンピュータネットワーク及び／又は各種電気通信ネットワークを介して他の機器と情報・データをやりとりすることを可能にする。

計算手段１６０１は、各種の処理及び計算能力を有する汎用及び／又は専用処理コンポーネントであってもよい。計算手段１６０１の幾つかの例示は、中央処理手段（ＣＰＵ）と、図形処理手段（ＧＰＵ）と、各種の専用の人工知能（ＡＩ）計算チップと、各種の機器学習モデルアルゴリズムを実行する計算ユニットと、デジタル信号プロセッサ（ＤＳＰ）と、任意の適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限られない。計算手段１６０１は、前文で説明した各方法及び処理、例えば語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法を実行する。例えば、幾つかの実施例において、語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法は、コンピュータソフトウェアプログラムとして実現されてもよく、それが機器読取可能な媒体、例えば記憶手段１６０８に有形的に含まれる。幾つかの実施例において、コンピュータプログラムの一部又は全部がＲＯＭ１６０２及び／又は通信手段１６０９を介して電子機器１６００上にロード及び／又はインストールされ得る。コンピュータプログラムがＲＡＭ１６０３にロードされ、計算手段１６０１によって実行される時に、前文で説明した語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法の１つ又は複数のステップを実行することができる。選択可能的に、他の実施例において、計算手段１６０１が他の任意の適宜な方式を介して（例えば、ファームウェアを介して）語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法を実行するように配置される。

本文で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システム・オン・チップのシステム（ＳＯＣ）、負荷プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現され得る。これらの各種実施形態は、１つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び／又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに転送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラへ供給されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。

本開示の前後文において、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子、磁気的、光学的、電磁気的や赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、ファイバ、携帯コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記内容の任意の適宜な組合せを含む。

ユーザとのインタラクティブを提供するために、コンピュータにおいて、ここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含んでいる。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータで実行されるとともに、互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバやクラウドホストとも呼ばれ、クラウドコンピューティングサービス系統における１種類のホスト製品であり、伝統の物理ホストとＶＰＳ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｖｅｒ」、或いは「ＶＰＳ」と単に呼ばれる）サービスに存在する、管理難しさが大きく、業務拡張性が弱い不具合を解決するために設けられた。サーバは分散システムのサーバであってもよいし、ブロックチェーンと組み合せたサーバであってもよい。

上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。

上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得することと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することとを含む、
語義特徴の生成方法。
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することは、
前記双方向語義符号化モデル中の左符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得することと、
前記双方向語義符号化モデル中の右符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得することと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントに対して、対応の前記ドキュメントセグメントの左符号化特徴と対応の前記ドキュメントセグメントの右符号化特徴をスプライシングして、対応の前記ドキュメントセグメントの語義特徴を取得することと、を備えている、
請求項１に記載の方法。
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することは、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得することを備えている、
請求項１又は２に記載の方法。
前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得することは、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度を算出することと、
各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度に基づいて、前記目標ドキュメントの語義特徴として、前記マッチ待ちのサーチワードの語義特徴との類似度が最も大きい前記ドキュメントセグメントの語義特徴を取得することとを備えている、
請求項３に記載の方法。
トレーニングデータセットを採集することと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることとを含んでいる、
双方向語義符号化モデルのトレーニング方法。
トレーニングデータセットを採集することは、
数条のトレーニングコーパスを含む第１トレーニングデータセットを採集することを含んでいる、
請求項５に記載の方法。
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることは、
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールがマスキング文字を予測する能力を学習するように、前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすることを含んでいる、
請求項６に記載の方法。
採集の前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすることは、
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすること、或いは
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール或いは前記右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の前記左符号化モジュール或いは前記右符号化モジュールのパラメータが、マスキングトレーニングされない前記右符号化モジュール或いは前記左符号化モジュールに共有化されていることを含んでいる、
請求項７に記載の方法。
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュールをマスキングトレーニングすることは、
各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得することと、
前記トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、前記左符号化モジュールへ順次に入力されることと、
前記左符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、各前記トレーニングセグメントにマスキング化した文字を予測して取得することと、
各前記トレーニングセグメント中の本当にマスキングした文字及び前記左符号化モジュールの予測したマスキング文字に基づいて、第１ロース関数を構築することと、
前記第１ロース関数が収束するか否かを検出することと、
前記第１ロース関数が収束しないときに、前記第１ロース関数が収束する傾向になるように、前記左符号化モジュールのパラメータを調整することと、を備えている、
請求項８に記載の方法。
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記右符号化モジュールをマスキングトレーニングすることは、
各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得することと、
前記トレーニングコーパスセグメントシーケンス中の各前記トレーニングコーパスセグメントが、右から左への順に、前記右符号化モジュールに順次に入力されることと、
前記右符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各前記トレーニングセグメント中のマスキング化した文字を予測して取得することと、
各前記トレーニングセグメント中の本当にマスキングした文字と前記右符号化モジュールの予測したマスキング文字に基づいて、第２ロース関数を構築することと、
前記第２ロース関数が収束するか否かを検出することと、
前記第２ロース関数が収束しないときに、前記第２ロース関数が収束する傾向になるように、前記右符号化モジュールのパラメータを調整することと、を備えている、
請求項８に記載の方法。
トレーニングデータセットを採集することは、
数組のサンプル対を含む第２トレーニングデータセットを採集することを含んでおり、
各組の前記サンプル対には、正サンプル対と負サンプル対とを含み、
前記正サンプル対及び前記負サンプル対には、共通のトレーニングサーチワードを含み、
前記正サンプル対には、正サンプルドキュメントをさらに含み、
前記負サンプル対には、負サンプルドキュメントを含んでいる、
請求項５乃至請求項１０のいずれか一項に記載の方法。
採集した前記トレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることは、
採集した前記第２トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることで、前記双方向語義符号化モデルに語義マッチの能力を学習させることを備えている、
請求項１１に記載の方法。
採集した前記第２トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることは、
各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得することと、
各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得することと、
各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得することと、
前記トレーニングサーチワードの語義特徴と前記正サンプルドキュメントの語義特徴との第１語義類似度、及び前記トレーニングサーチワードの語義特徴と前記負サンプルドキュメントの語義特徴との第２語義類似度に基づいて、第３ロース関数を構築することと、
前記第３ロース関数が収束するか否かを検出することと、
前記第３ロース関数が収束しないと、前記第３ロース関数が収束する傾向になるように、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールのパラメータを調整することと、含んでいる、
請求項１２に記載の方法。
各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得することは、
前記左符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの左符号化特徴を取得することと、
前記右符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの右符号化特徴を取得することと、
前記トレーニングサーチワードの左符号化特徴と前記トレーニングサーチワードの右符号化特徴とをスプライシングして、前記トレーニングサーチワードの語義特徴を取得することとを含んでいる、
請求項１３に記載の方法。
各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得することは、
各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記正サンプルドキュメントをセグメント区切りし、正サンプルドキュメントセグメントシーケンスを取得することと、
前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの左符号化特徴を取得することと、
前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの右符号化特徴を取得することと、
前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントについて、前記正サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記正サンプルドキュメントセグメントの語義特徴を取得することと、
前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記正サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記正サンプルドキュメントセグメントの語義特徴を取得することとを含んでいる、
請求項１３に記載の方法。
各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得することは、
各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記負サンプルドキュメントをセグメント区切りし、負サンプルドキュメントセグメントシーケンスを取得することと、
前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの左符号化特徴を取得することと、
前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの右符号化特徴を取得することと、
前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントについて、前記負サンプルドキュメントセグメントの左符号化特徴と前記負サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記負サンプルドキュメントセグメントの語義特徴を取得することと、
前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記負サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記負サンプルドキュメントセグメントの語義特徴を取得することとを含んでいる、
請求項１３に記載の方法。
目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュールと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成するための生成モジュールと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得するための取得モジュールと、を含んでいる、
語義特徴の生成装置。
前記生成モジュールは、
前記双方向語義符号化モデル中の左符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得するための第１符号化手段と、
前記双方向語義符号化モデル中の右符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得するための第２符号化手段と、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントに対して、対応の前記ドキュメントセグメントの左符号化特徴と対応の前記ドキュメントセグメントの右符号化特徴をスプライシングして、対応の前記ドキュメントセグメントの語義特徴を取得するためのスプライシング手段とを含んでいる、
請求項１７に記載の装置。
前記取得モジュールは、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得するために用いられる、
請求項１７又は１８に記載の装置。
前記取得モジュールは、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度を算出するための算出手段と、
各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度に基づいて、前記目標ドキュメントの語義特徴として、前記マッチ待ちのサーチワードの語義特徴との類似度が最も大きい前記ドキュメントセグメントの語義特徴を取得するための取得手段とを含んでいる、
請求項１９に記載の装置。
トレーニングデータセットを採集するための採集モジュールと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュールとを含む、
双方向語義符号化モデルのトレーニング装置。
前記採集モジュールは、
数条のトレーニングコーパスを含む第１トレーニングデータセットを採集するために用いられる、請求項２１に記載の装置。
前記トレーニングモジュールは、
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールがマスキング文字を予測する能力を学習するように、前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングするために用いられる、
請求項２２に記載の装置。
前記トレーニングモジュールは、
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングし、或いは
採集した前記第１トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール或いは前記右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の前記左符号化モジュール或いは前記右符号化モジュールのパラメータが、マスキングトレーニングされない前記右符号化モジュール或いは前記左符号化モジュールに共有化されているために用いられる、
請求項２３に記載の装置。
前記トレーニングモジュールは、を含む：
各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得するための前処理手段と、
前記トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、前記左符号化モジュールへ順次に入力されるための入力手段と、
前記左符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、各前記トレーニングセグメントにマスキング化した文字を予測して取得するための予測手段と、
各前記トレーニングセグメント中の本当にマスキングした文字及び前記左符号化モジュールの予測したマスキング文字に基づいて、第１ロース関数を構築するための第１構築手段と、
前記第１ロース関数が収束するか否かを検出するための第１検出手段と、
前記第１ロース関数が収束しないときに、前記第１ロース関数が収束する傾向になるように、前記左符号化モジュールのパラメータを調整するための第１調整手段とを含んでいる、
請求項２４に記載の装置。
前記入力手段は、さらに、前記トレーニングコーパスセグメントシーケンス中の各前記トレーニングコーパスセグメントが、右から左への順に、前記右符号化モジュールに順次に入力されるために用いられ、
前記予測手段は、更に、前記右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各前記トレーニングセグメント中のマスキング化した文字を予測して取得するために用いられ、
前記第１構築手段は、更に、各前記トレーニングセグメント中の本当にマスキングした文字と前記右符号化モジュールの予測したマスキング文字に基づいて、第２ロース関数を構築するために用いられ、
前記第１検出手段は、更に、前記第２ロース関数が収束するか否かを検出するために用いられ、
前記第１調整手段は、更に、前記第２ロース関数が収束しないときに、前記第２ロース関数が収束する傾向になるように、前記右符号化モジュールのパラメータを調整するために用いられる、
請求項２５に記載の装置。
前記採集モジュールは、更に、数組のサンプル対を含む第２トレーニングデータセットを採集するために用いられ、
各組の前記サンプル対には、正サンプル対と負サンプル対とを含み、
前記正サンプル対及び前記負サンプル対には、共通のトレーニングサーチワードを含み、
前記正サンプル対には、正サンプルドキュメントをさらに含み、
前記負サンプル対には、負サンプルドキュメントを含んでいる、
請求項２１乃至請求項２４のいずれか一項に記載の装置。
前記トレーニングモジュールは、：
採集した前記第２トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることで、前記双方向語義符号化モデルに語義マッチの能力を学習させるために用いられる、
請求項２７に記載の装置。
前記トレーニングモジュールは、
各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得するための第１特徴取得手段と、
各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得するための第２特徴取得手段と、
各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得するための第３特徴取得手段と、
前記トレーニングサーチワードの語義特徴と前記正サンプルドキュメントの語義特徴との第１語義類似度、及び前記トレーニングサーチワードの語義特徴と前記負サンプルドキュメントの語義特徴との第２語義類似度に基づいて、第３ロース関数を構築するための第２構築手段と、
前記第３ロース関数が収束するか否かを検出するための第２検出手段と、
前記第３ロース関数が収束しないと、前記第３ロース関数が収束する傾向になるように、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールのパラメータを調整するための第２調整手段と、をさらに含んでいる、
請求項２８に記載の装置。
前記第１特徴取得手段は、
前記左符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの左符号化特徴を取得し、
前記右符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの右符号化特徴を取得し、
前記トレーニングサーチワードの左符号化特徴と前記トレーニングサーチワードの右符号化特徴とをスプライシングして、前記トレーニングサーチワードの語義特徴を取得するために用いられる、
請求項２９に記載の装置。
前記第２特徴取得手段は、
各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記正サンプルドキュメントをセグメント区切りし、正サンプルドキュメントセグメントシーケンスを取得し、
前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの左符号化特徴を取得し、
前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの右符号化特徴を取得し、
前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントについて、前記正サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記正サンプルドキュメントセグメントの語義特徴を取得し、
前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記正サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記正サンプルドキュメントセグメントの語義特徴を取得するために用いられる、
請求項２９に記載の装置。
前記第３特徴取得手段は、
各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記負サンプルドキュメントをセグメント区切りし、負サンプルドキュメントセグメントシーケンスを取得し、
前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの左符号化特徴を取得し、
前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの右符号化特徴を取得し、
前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントについて、前記負サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記負サンプルドキュメントセグメントの語義特徴を取得し、
前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記負サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記負サンプルドキュメントセグメントの語義特徴を取得するために用いられる、
請求項２９に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を含んでおり、
前記メモリには前記少なくとも１つのプロセッサに実行されるコマンドを記憶しており、
前記コマンドが前記少なくとも１つのプロセッサに実行されることで、前記少なくとも１つのプロセッサは請求項１乃至請求項４のいずれか一項或いは請求項５乃至請求項１６のいずれか一項に記載の方法を実行可能となる、電子機器。
コンピュータに請求項１乃至請求項４のいずれか一項或いは請求項５乃至請求項１６のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体。
プロセッサに実行される時に請求項１乃至請求項４のいずれか一項或いは請求項５乃至請求項１６のいずれか一項に記載の方法を実現するコンピュータプログラム。