JP7108675B2

JP7108675B2 - 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7108675B2
Application number: JP2020205155A
Authority: JP
Inventors: ホンジャンシ; ウェンビンジャン; シャンウェイフェン; ミャオユ; ファンユチョウ; メンティアン; シュエチェンウー; シュンチャオソン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-12-10
Publication date: 2022-07-28
Anticipated expiration: 2040-12-10
Also published as: JP2021197133A; EP3923159A1; KR20210154705A; CN111428514A; US20210390260A1

Description

本出願は、コンピュータ技術分野に関し、詳しくは、ナレッジグラフ、自然言語処理、深層学習の技術分野に関し、特に、意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。

意味マッチング技術は自然言語処理の技術分野における重要な技術研究方向であり、ビジネスにおいて幅広く使用され、アプリケーションの基礎となっている。意味マッチング技術は、２つの文字列を意味理解を経て、その意味によって類似度マッチングを行う技術である。意味マッチング技術は自然言語処理分野においてずっと非常に重要な位置を占めているだけでなく、ソート、推奨、質問応答など多くのビジネス分野において幅広く使用されており、研究やビジネスにおいて欠かせない部分である。

意味マッチング技術は通常、意味マッチングモデルを用いて実施される。意味マッチングモデルを構築する目標は、簡単に言えば、２つのテキストの間の意味類似度を記述するために、意味類似度に基づいて２つの文字列がマッチングするかどうかを判断することである。意味マッチングモデルの肝心なステップはテキストの意味を記述することであるが、このプロセスは、テキストに含まれる情報のみではテキストに含まれる意味を正確に記述することができないため、意味マッチング精度が低いという問題によく直面する。

意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供している。

第１の態様によれば、意味マッチング方法であって、第１テキスト及び第２テキストを取得するステップと、第１テキスト、第２テキストに関連する言語知識を取得するステップと、第１テキスト、第２テキスト及び言語知識に基づいて、ターゲット埋め込みベクトルを確定するステップと、ターゲット埋め込みベクトルに基づいて、第１テキストと第２テキストとの意味マッチング結果を確定するステップとを含む意味マッチング方法を提供する。

第２の態様によれば、意味マッチング装置であって、第１テキスト及び第２テキストを取得するように構成される第１取得ユニットと、第１テキスト及び第２テキストに関連する言語知識を取得するように構成される第２取得ユニットと、第１テキスト、第２テキスト及び言語知識に基づいて、ターゲット埋め込みベクトルを確定するように構成されるベクトル確定ユニットと、ターゲット埋め込みベクトルに基づいて、第１テキストと第２テキストとの意味マッチング結果を確定するように構成される意味マッチングユニットとを含む意味マッチング装置を提供する。

第３の態様によれば、意味マッチング電子機器であって、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、メモリには、少なくとも１つのプロセッサが第１の態様に記載の方法を実行できるように、少なくとも１つのプロセッサにより実行され得る指令が格納されている意味マッチング電子機器を提供する。

第４の態様によれば、コンピュータに第１の態様に記載の方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供している。

第５の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、第１の態様に記載の方法を実現するコンピュータプログラムを提供する。

本出願の技術によって、外部言語知識を利用してテキスト意味マッチングプロセスに情報量を増やすことができて、テキストの意味を正確に記述することができ、意味マッチングの精度が向上する。

この部分に記載した内容は、本出願の実施形態の重要な点や重要な特徴を示すためのものではなく、本出願の範囲を制限するためのものでもないことを理解されたい。本出願のその他特徴は以下の説明により容易に理解されるだろう。

図面は本技術的手段をよりよく理解するためのものであって、本出願を制限するためのものではない。
本出願の一実施例が適用可能な例示的システムアーキテクチャを示す図である。本出願による意味マッチング方法の一実施例のフローチャートである。本出願による意味マッチング方法の１つの適用シーンを示す図である。本出願による意味マッチング方法のもう１つの実施例のフローチャートである。本出願による意味マッチング装置の一実施例の構造概略図である。本出願の実施例の意味マッチング方法を実施するための電子機器のブロック図である。

以下、容易に理解されるように様々な細部を含む本出願の例示的な実施例を添付図面を参照しながら説明し、それらは単なる例示的なものとして見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを理解されたい。また、以下の説明では、明瞭かつ簡潔にするために、周知の機能及び構造に対する説明は省略されている。

本出願における実施例及び実施例における特徴は衝突しない限り互いに組み合わせ可能であることを理解されたい。以下、添付図面に実施例に組み合わせて本出願を詳細に説明する。

図１は、本出願の意味マッチング方法又は意味マッチング装置を適用することができる実施例の例示的システムアーキテクチャ１００を示した。

図１に示されるように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクのための媒体を提供するために使用される。ネットワーク１０４は有線、無線通信リンク又は光ファイバーケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話してメッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、例えば、テキスト入力系アプリケーション、音声認識アプリケーションなど、各種の通信クライアントアプリケーションがインストールされていても良い。

端末装置１０１、１０２、１０３はハードウェアであっても良く、ソフトウェアであっても良い。端末装置１０１、１０２及び１０３がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなど様々な電子機器であってもよいが、これらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合は、上記に挙げられた電子機器にインストールされても良い。端末装置１０１、１０２、１０３がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは、具体的な限定をしない。

サーバ１０５は、例えば、端末装置１０１、１０２、１０３に送信されたテキストを意味マッチングするバックグラウンドサーバなど、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは受信したテキストを処理し、意味マッチング結果を確定するとともに、意味マッチング結果を端末装置１０１、１０２、１０３にフィードバックすることができる。

サーバ１０５はハードウェアであってもよく、ソフトウェアであってもよいことを理解されたい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実施してもよく、単一のサーバとして実施してもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは、具体的な限定をしない。

本出願の実施例による意味マッチング方法は一般的にサーバ１０５によって実行されることを理解されたい。これに応じて、意味マッチング装置は一般的にサーバ１０５に設けられる。

図１における端末装置、ネットワーク及びサーバの数が単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。

引き続き図２を参照し、図２は本出願による意味マッチング方法の１つの実施例のフローチャート２００を示す。本実施例による意味マッチング方法は、以下のステップを含む。

ステップ２０１：第１テキスト、第２テキストを取得する。

本実施例では、モデルを訓練するための方法の実行主体（例えば、図１に示されるサーバ１０５）は、まず、第１テキスト及び第２テキストを取得することができる。ここで、第１テキストと第２テキストはマッチング対象となるテキストである。例えば、第１テキストは「どこから出荷しますか」であってもよく、第２テキストは「出荷場所はどこですか」であってもよい。

ステップ２０２：第１テキスト、第２テキストに関連付けられる言語知識を取得する。

実行主体は第１テキスト及び第２テキストを取得した後、第１テキスト、第２テキストに関連付けられる言語知識を取得することができる。具体的には、実行主体は知識ベースにおけるすべての言語知識を関連する言語知識とすることができる。或いは、実行主体は、第１テキスト及び第２テキストを含むドキュメント又はウェブページを検索し、これらのドキュメント又はウェブページを関連する言語知識とすることができる。

本実施例のいくつかの選択可能な実施方法において、実行主体は、図２に示されていない以下のステップ、すなわち、第１テキスト及び第２テキストにおける実体言及を確定するステップと、予め設定された知識ベース及び実体言及に基づいて言語知識を確定するステップとによって関連する言語知識を取得することができる。

本実施方法では、実行主体はまず第１テキスト及び第２テキストにおける実体言及を確定することができる。例えば、実行主体は、ターゲットテキストに対して単語分割処理を行い、取得した名詞を実体言及とすることができる。或いは、実行主体は、ターゲットテキストに対して固有表現抽出を行い、取得した固有表現を実体言及とすることができる。ここで、実体言及とは実体のテキスト表現形態を指し、固有表現、一般的な名詞句、代名詞などであり得る。例えば、実体「復旦大学」の場合、その実体言及は「復旦大学」、「復旦」、「旦大」などを含み得る。

そして、実行主体は予め設定された知識ベース及び実体言及に基づいて言語知識を確定することができる。ここでの言語知識は実体言及の記述テキスト、対応する候補実体、実体言及に対応する候補実体などを含み得る。

ステップ２０３：第１テキスト、第２テキスト及び言語知識に基づいてターゲット埋め込みベクトルを確定する。

実行主体は第１テキスト、第２テキスト及び言語知識に基づいてターゲット埋め込みベクトルを確定することができる。具体的には、実行主体は第１テキスト、第２テキスト及び言語知識を事前トレーニングされた埋め込みベクトル確定モデルに入力して、ターゲット埋め込みベクトル（ｅｍｂｅｄｄｉｎｇ）を得ることができる。前記埋め込みベクトル確定モデルは第１テキスト、第２テキスト及び言語知識とターゲット埋め込みベクトルとの間の対応関係を表すために使用される。前記埋め込みベクトル確定モデルは既存の複数の言語モデル、例えば、Ｂｅｒｔ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ，双方向トランスフォーマーエンコーダー）、Ｅｒｎｉｅ（Ｅｒｎｉｅはバイドゥ社のディープラーニングプラットフォームフライングパドルに基づいて構築されている）などであり得る。

前記ターゲット埋め込みベクトルには第１テキスト及び第２テキストの意味情報が含まれていることを理解することができる。

ステップ２０４：ターゲット埋め込みベクトルに基づいて、第１テキストと第２テキストとの意味マッチング結果を確定する。

実行主体はターゲット埋め込みベクトルを得た後、第１テキストと第２テキストとの意味マッチング関係を確定することができる。具体的には、実行主体は事前にトレーニングされた分類モデルにターゲット埋め込みベクトルを入力して、ターゲット埋め込みベクトルの分類結果を確定し、分類結果に基づいて第１テキストが第２テキストとマッチングするかどうかを確定することができる。

引き続き図３を参照し、図３は本出願による意味マッチング方法の１つの適用シーンを示す。図３に示される適用シーンにおいて、ユーザは端末３０１を介して第１テキスト「出荷場所はどこですか？」を入力する。サーバ３０２は前記第１テキストを受信した後、質問応答ペアセットから複数の第２テキストを選択した後、第１テキストが各第２テキストとマッチングするかどうかをそれぞれ分析する。第１テキストにマッチングする第２テキスト（どこから出荷しますか？）を確定した後、第２テキストに対応する回答（ＸＸ市ＸＸ区ＸＸ路ＸＸ号）を端末３０１に返すことができる。

本出願の上記実施例による意味マッチング方法は、外部言語知識を利用してテキスト意味マッチングプロセスに情報量を増やすことができ、それによりテキストの意味を正確に記述することができ、意味マッチングの精度を向上させることができる。

引き続き図４を参照し、図４は本出願による意味マッチング方法のもう１つの実施例のフロー４００を示す。本実施例において、意味マッチング方法は以下のステップを含む。

ステップ４０１：第１テキスト、第２テキストを取得する。

ステップ４０２：第１テキスト、第２テキストに関連する言語知識を取得する。

ステップ４０３：言語知識に基づいて、第１テキスト、第２テキストの意味情報を抽出し、意味情報に基づいて、ターゲット埋め込みベクトルを確定する。

本実施例において、まず、言語知識に基づいて、第１テキスト、第２テキストの意味情報をそれぞれ抽出することができる。ここで、意味情報は第１テキスト及び第２テキストにおける重要な情報を含んでもよく、また、第１テキスト、第２テキストと外部言語知識との間の関連情報を含んでもよい。ここで、重要な情報は無効ワード、句読点、絵文字など以外の情報として理解することができる。そして、実行主体は意味情報に基づいてターゲット埋め込みベクトルを確定することができる。具体的には、実行主体は意味情報を様々なベクトル生成アルゴリズムに入力してターゲット埋め込みベクトルを取得することができる。前記ベクトル生成アルゴリズムは言語モデル、ニューラルネットワークなどを含むことができる。

一部の適用シーンでは、マスクを介して意味情報を抽出してもよく、ナレッジグラフを介して意味情報を抽出してもよい。具体的には、実行主体はステップ４０３１１から４０３１４の第１実施方法によりターゲット埋め込みベクトルを確定してもよく、また、ステップ４０３２１から４０３２５の第２実施方法によりターゲット埋め込みベクトルを確定してもよい。

第１実施方法

ステップ４０３１１：第１テキスト、第２テキスト、言語知識及び予め設定されたマスク生成モデルにより、ターゲットマスクを確定する。

本実施例では、実行主体は前記第１テキスト、第２テキスト及び言語知識を予め設定されたマスク生成モデルに入力してターゲットマスクを取得することができる。前記マスク生成モデルはトレーニングサンプルセットにおけるトレーニングサンプルに基づいて事前にトレーニングして取得することができる。前記トレーニングサンプルは２つのテキスト及び言語知識を含んでもよく、マーク付きマスクを含んでもよい。トレーニングの際、トレーニングサンプルの２つのテキスト及び言語知識を入力とし、対応するマスクを出力として、マスク生成モデルを取得することができる。

ここで、マスクの長さは２つのテキストの長さに対応することができ、マスクには１と０を含むことができる。例えば、マスクは１１１１１０００１１１１００であってもよい。これは、第１～５位、９～１２位が隠蔽されていないテキストであり、第６～８位、１３～１４位が隠蔽されているテキストであることを意味する。本実施例では、ターゲットマスクを使用することによって第１テキスト及び第２テキストにおける重要ではない文字を隠蔽することができる。これらの重要ではない文字には無効ワード、句読点、絵文字などが含まれてもよく、これにより、抽出された埋め込みベクトルは第１テキスト及び第２テキストをより正確に表現することができる。

ステップ４０３１２：ターゲットマスク及び第１テキストに基づいて、第１更新テキストを確定する。

ターゲットマスクを取得した後、ターゲットマスク及び第１テキストに基づいて、第１更新テキストを確定することができる。第１更新テキストにおいて一部の文字が隠蔽されていることが理解できる。

ステップ４０３１３：ターゲットマスク及び第２テキストに基づいて、第２更新テキストを確定する。

同様に、実行主体はターゲットマスク及び第２テキストに基づいて、第２更新テキストを確定することもできる。

ステップ４０３１４：第１更新テキスト及び第２更新テキストに基づいて、ターゲット埋め込みベクトルを確定する。

第１更新テキスト及び第２更新テキストを取得した後、実行主体は第１更新テキストと第２更新テキストとを接続することができ、そして、接続されたテキストを言語モデルに入力して、ターゲット埋め込みベクトルを取得する。接続されたテキストには第１更新テキストと第２更新テキストとを区別するためのマークを含んでいてもよいことを理解することができる。

第１実施方法によって、実行主体は第１テキスト及び第２テキストにおける重要な語彙を言語知識と組み合わせて学習することができ、埋め込みベクトルが第１テキスト及び第２テキストの意味をより正確に表現できるようになる。

第２実施方法

ステップ４０３２１：第１テキスト、第２テキスト及び言語知識に基づいて、ナレッジグラフを生成する。

実行主体は第１テキスト、第２テキスト及び言語知識を取得した後、ナレッジグラフを生成することができる。具体的には、実行主体はまず第１テキスト及び第２テキストに対して単語分割を行って複数の単語を取得することができる。次に、各々の単語に対して、実行主体は該単語に関わる知識に基づいて、該単語を中心としたサブグラフを作成することができる。該単語は各サブグラフの中心単語と呼ぶこともできる。各サブグラフの作成が完成した後、各サブグラフは接続される。接続に際し、中心語彙間の関係に応じて接続する必要がある。接続されたグラフからナレッジグラフを作成することができる。ナレッジグラフには第１テキスト、第２テキスト及び言語知識のすべての知識が含まれていることを理解できる。

ステップ４０３２２：ナレッジグラフにおける複数のエッジを符号化して、第１ベクトル集合を取得する。

実行主体はナレッジグラフの作成を完成した後、ナレッジグラフにおける複数のエッジを符号化して、第１ベクトル集合を取得することができる。符号化する際、任意の符号化アルゴリズムを使用して実施することができる。ここで、第１ベクトル集合における各々のベクトルは１つのエッジに対応する。

ステップ４０３２３：ナレッジグラフにおける複数のノードを符号化して、第２ベクトル集合を取得する。

同様に、実行主体はナレッジグラフにおける複数のノードを符号化して、第２ベクトル集合を取得することもできる。第２ベクトル集合における各々のベクトルは１つのノードに対応する。

ステップ４０３２４：第１ベクトル集合、第２ベクトル集合及びナレッジグラフに基づいて、第３ベクトル集合を確定する。

実行主体はグラフにおけるノードとエッジとの関係に基づいて、第１ベクトル集合における各ベクトルと第２ベクトル集合における対応する各ベクトルとを接続して、第３ベクトル集合を取得することができる。第３ベクトル集合における各々のベクトルはナレッジグラフの作成の際に生成されたサブグラフに対応する。接続する際、実行主体は２つのベクトルの間に切れ目を挿入して接続された２つのベクトルを区別することができる。

ステップ４０３２５：第３ベクトル集合に基づいて、ターゲット埋め込みベクトルを確定する。

実行主体は第３ベクトル集合における各ベクトルを接続して、ターゲット埋め込みベクトルを取得することができる。接続する際、第３ベクトル集合における各ベクトルを全結合層に入力して、ターゲット埋め込みベクトルを取得することができる。

本実施方法によって確定されたターゲット埋め込みベクトルは、ナレッジグラフに第１テキスト、第２テキスト及び言語知識のすべての情報が含まれているため、埋め込みベクトルに第１テキスト、第２テキストに関するより豊富な情報が含まれるようになる。

ステップ４０４：得られたターゲット埋め込みベクトルを事前にトレーニングされた分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定する。

実行主体は上記第１実施方法によりターゲット埋め込みベクトルを取得してもよく、また、上記第２実施方法によりターゲット埋め込みベクトルを取得してもよく、第１実施方法及び第２実施方法の両方によりターゲット埋め込みベクトルを取得してもよい。単一の実施方法によりターゲット埋め込みベクトルを取得した後、ターゲット埋め込みベクトルを事前にトレーニングされた分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定することができる。第１実施方法及び第２実施方法の両方によりターゲット埋め込みベクトルを取得した後、まず２つの埋め込みベクトルを接続又は重み付けして、１つの埋め込みベクトルを取得することができる。次に、該埋め込みベクトルを事前にトレーニングされた分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定する。

該分類モデルは二分類モデルであってもよい。ここで、第１テキストと第２テキストとのマッチング問題は、実質的には分類問題と見なすことができる。２つのテキストがマッチングすれば、カテゴリ１に分類されることができる。２つのテキストがマッチングしなければ、カテゴリ０に分類されることができる。該分類モデルは、マッチングする複数のテキストペア及びマッチングしない複数のテキストペアを介して事前にトレーニングすることができる。

本実施例のいくつかの選択可能な実施方法において、実行主体が少なくとも２種類の方法により少なくとも２つのターゲット埋め込みベクトルを取得する場合、接続によって得られた各ターゲット埋め込みベクトルによって接続ベクトルを得るステップと、接続ベクトルを分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定するステップとによって意味マッチング結果を確定することができる。

本実施例では、実行主体は得られた少なくとも２つのターゲット埋め込みベクトルを接続して、接続ベクトルを取得することができる。接続する際、各ターゲット埋め込みベクトルを直接接続することができ、各ターゲット埋め込みベクトルを予め設定されたマークによって区別することができる。或いは、実行主体は、まず、各ターゲット埋め込みベクトルの長さが同じになるように各ターゲット埋め込みベクトルをインターセプトした後、予め設定された順番で各ターゲット埋め込みベクトルを接続することもできる。次に、実行主体は接続ベクトルを分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定することができる。

本出願の上記実施例によって提供される意味マッチング方法は、２種類の方法を通じて第１テキスト及び第２テキストの埋め込みベクトルを得ることができ、得られた埋め込みベクトルは外部言語知識を学習したため第１テキスト及び第２テキストの意味を正確に記述することができ、これにより、意味マッチングの精度を向上させることができる。

さらに図５を参照すると、本出願は、上記各図に示された方法の実施として、意味マッチング装置の１つの実施例を提供し、該装置の実施例は図２に示された方法の実施例に対応し、該装置は様々な電子機器に適用することができる。

図５に示すように、本実施例の出力情報装置５００は第１取得ユニット５０１、第２取得ユニット５０２、ベクトル確定ユニット５０３及び意味マッチングユニット５０４を含む。

第１取得ユニット５０１は、第１テキスト、第２テキストを取得するように構成される。

第２取得ユニット５０２は、第１テキスト、第２テキストに関連する言語知識を取得するように構成される。

ベクトル確定ユニット５０３は、第１テキスト、第２テキスト及び言語知識に基づいて、ターゲット埋め込みベクトルを確定するように構成される。

意味マッチングユニット５０４は、ターゲット埋め込みベクトルに基づいて、第１テキストと第２テキストとの意味マッチング結果を確定するように構成される。

本実施例のいくつかの選択可能な実施方法において、ベクトル確定ユニット５０３はさらに、言語知識に基づいて、第１テキスト、第２テキストの意味情報を抽出し、意味情報に基づいて、ターゲット埋め込みベクトルを確定するように構成されてもよい。

本実施例のいくつかの選択可能な実施方法において、ベクトル確定ユニット５０３はさらに、第１テキスト、第２テキスト、言語知識及び予め設定されたマスク生成モデルに基づいてターゲットマスクを確定し、ターゲットマスク及び第１テキストに基づいて第１更新テキストを確定し、ターゲットマスク及び第２テキストに基づいて第２更新テキストを確定し、第１更新テキスト及び第２更新テキストに基づいてターゲット埋め込みベクトルを確定するように構成されてもよい。

本実施例のいくつかの選択可能な実施方法において、ベクトル確定ユニット５０３はさらに、第１テキスト、第２テキスト及び言語知識に基づいてナレッジグラフを生成し、ナレッジグラフにおける複数のエッジを符号化して第１ベクトル集合を取得し、ナレッジグラフにおける複数のノードを符号化して第２ベクトル集合を取得し、第１ベクトル集合、第２ベクトル集合及びナレッジグラフに基づいて、第３ベクトル集合を確定し、第３ベクトル集合に基づいてターゲット埋め込みベクトルを確定するように構成されてもよい。

本実施例のいくつかの選択可能な実施方法において、意味マッチングユニット５０４はさらに、得られたターゲット埋め込みベクトルを事前にトレーニングされた分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定するように構成されてもよい。

本実施例のいくつかの選択可能な実施方法において、意味マッチングユニット５０４はさらに、少なくとも２種の方法により少なくとも２つのターゲット埋め込みベクトルを取得することに応答して、取得した各ターゲット埋め込みベクトルを接続して、接続ベクトルを取得し、接続ベクトルを分類モデルに入力して、第１テキストと第２テキストとの意味マッチング結果を確定するように構成されてもよい。

本実施例のいくつかの選択可能な実施方法において、第２取得ユニット５０２はさらに、第１テキスト及び第２テキストにおける実体言及を確定し、予め設定された知識ベース及び実体言及に基づいて言語知識を確定するように構成されてもよい。

意味マッチング装置５００に記載されているユニット５０１からユニット５０４はそれぞれ図２に記載されている方法の各々のステップに対応することを理解されたい。したがって、上記意味マッチング方法に対して説明した操作及び特徴は同様に装置５００及びそれに含まれるユニットにも適用可能であり、ここではその詳細を省略する。

本出願の実施例によれば、本出願はさらに電子機器及び可読記憶媒体を提供している。

図６に示すように、図６は本出願の実施例による意味マッチング方法を実行する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及びその他類似のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されている構成要素、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び／又は要求されている本出願の実施を制限するものではない。

図６に示すように、該電子機器は、１つ又は複数のプロセッサ６０１、メモリ６０２、及び高速インターフェース及び低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。各構成要素は、互いに異なるバスで接続されており、共通のマザーボードに実装されていてもよく、又は必要に応じて他の形態で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、メモリ内又はメモリに格納されて外部の入力／出力装置（インターフェースなどに接続されたディスプレイデバイス）にＧＵＩのグラフィック情報を表示させる指令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリと組み合わせて使用してもよい。同様に、複数の電子機器を接続することができ、それぞれの機器はいくつかの必要な操作（例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして）を提供する。図６では１つのプロセッサ６０１を例とする。

メモリ６０２は本出願による非一時的コンピュータ可読記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な指令を格納しており、前記少なくとも１つのプロセッサに本出願による意味マッチング方法の実行を実行させる。本出願の非一時的コンピュータ可読記憶媒体は、本出願による意味マッチング方法の実行をコンピュータに実行させるためのコンピュータ指令を格納する。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、本出願の実施例における意味マッチング方法の実行に対応するプログラム指令／モジュール（例えば、図５に示す第１取得ユニット５０１、第２取得ユニット５０２、ベクトル確定ユニット５０３及び意味マッチングユニット５０４）など、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを格納することができる。プロセッサ６０１は、メモリ６０２に格納されている非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における意味マッチング方法の実行を実施する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能を実行するために必要なアプリケーションプログラムを格納し得るストレージプログラム領域と、意味マッチングを実行する電子機器の使用によって作成されたデータなどを格納し得るストレージデータ領域とを含むことができる。また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の非一時的な固体メモリデバイスなどの非一時的メモリを含むことができる。いくつかの実施例において、メモリ６０２は、プロセッサ６０１に対して遠隔に設けられたメモリを任意選択で含んでもよく、これらのリモートメモリはネットワークを介して意味マッチングを実行する電子機器に接続されてもよい。上記ネットワークの実例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

意味マッチング方法を実行する電子機器はさらに入力装置６０３及び出力装置６０４を含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バス又はその他の形態で接続されていてもよく、図６ではバスを介して接続されている例を示している。

入力装置６０３は、入力されたデジタル又は文字情報を受け取り、意味マッチングを実行する電子機器のユーザ設定や機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を含む。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むがそれらに限定されない。いくつかの実施形態において、ディスプレイデバイスはタッチスクリーンであってもよい。

ここで説明されるシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実施することができる。これら様々な実施形態は以下を含むことができる。１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行、及び／又は解釈されてもよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信するとともに、データ及び指令を前記ストレージシステム、前記少なくとも１つの入力装置、及び前記少なくとも１つの出力装置に伝送することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械指令を含み、これらの計算プログラムを高度なプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ言語／機械語で実施することができる。本明細書で使用されているように用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械指令及び／又はデータをプログラマブルプロセッサに提供するためのあらゆるコンピュータプログラム製品、デバイス及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号としての機械指令を受信する機械可読媒体を含む。用語「機械可読信号」は機械指令及び／又はデータをプログラマブルプロセッサに提供するためのあらゆる信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上で、明細書で説明したシステム及び技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（カソードレイチューブ）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがコンピュータに入力を提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を有する。他の種類の装置はユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザへのフィードバックは任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明したシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバーとして）、又は、ミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又は、フロントエンドコンポーネント（例えば、グラフィカルユーザインタフェース又はウェブブラウザを備えたユーザーコンピュータであって、ユーザが該グラフィカルユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明したシステム及び技術の実施形態と対話することができる）、又は、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのあらゆる組み合わせを含むコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続することができる。通信ネットワークの例示として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムにはクライアント及びサーバを含むことができる。
クライアントとサーバは一般的に互いに離れており、通常は通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、対応するコンピュータに互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

本出願の実施形態の技術的手段によって、外部言語知識を利用してテキスト意味マッチングプロセスに情報量を増やすことができ、それによりテキストの意味を正確に記述することができ、意味マッチングの精度が向上する。

上記に示した様々な形態のプロセスにおけるステップを順序変更、追加又は削除できることを理解されたい。本出願に開示した技術的手段の望ましい結果を実現することができれば、例えば、本出願に記載された各ステップは並行して又は順番通りに又は異なる順番で実行されてもよく、本明細書では限定をしない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、再組合及び置き換えが可能であることを理解すべきである。本出願の精神及び原則の範囲内で行われた如何なる修正、同等の置き換え及び改善などはいずれも本出願の保護範囲内に含まれるべきである。

Claims

サーバまたは電子機器によって実行される意味マッチング方法であって、
第１テキスト及び第２テキストを取得するステップと、
前記第１テキスト及び前記第２テキストに関連する言語知識を取得するステップと、
前記言語知識に基づいて、前記第１テキスト及び前記第２テキストの意味情報を抽出し、前記意味情報に基づいて、ターゲット埋め込みベクトルを確定するステップと、
前記ターゲット埋め込みベクトルに基づいて前記第１テキストと前記第２テキストとの意味マッチング結果を確定するステップとを含む、意味マッチング方法。
前記言語知識に基づいて前記第１テキスト及び前記第２テキストの意味情報を抽出し、
前記意味情報に基づいて前記ターゲット埋め込みベクトルを確定するステップは、
前記第１テキスト、前記第２テキスト、前記言語知識及び予め設定されたマスク生成モデルにより、ターゲットマスクを確定するステップと、
前記ターゲットマスク及び前記第１テキストに基づいて、第１更新テキストを確定するステップと、
前記ターゲットマスク及び前記第２テキストに基づいて、第２更新テキストを確定するステップと、
前記第１更新テキスト及び前記第２更新テキストに基づいて、前記ターゲット埋め込みベクトルを確定するステップとを含む、請求項１に記載の方法。
前記言語知識に基づいて前記第１テキスト及び前記第２テキストの意味情報を抽出し、
前記意味情報に基づいて、前記ターゲット埋め込みベクトルを確定するステップは、
前記第１テキスト、前記第２テキスト及び前記言語知識に基づいてナレッジグラフを生成するステップと、
前記ナレッジグラフにおける複数のエッジを符号化して、第１ベクトル集合を取得するステップと、
前記ナレッジグラフにおける複数のノードを符号化して、第２ベクトル集合を取得するステップと、
前記第１ベクトル集合、前記第２ベクトル集合及び前記ナレッジグラフに基づいて、第３ベクトル集合を確定するステップと、
前記第３ベクトル集合に基づいて、前記ターゲット埋め込みベクトルを確定するステップとを含む、請求項１に記載の方法。
前記ターゲット埋め込みベクトルに基づいて前記第１テキストと前記第２テキストとの意味マッチング結果を確定するステップは、
得られたターゲット埋め込みベクトルを事前トレーニングされた分類モデルに入力して、前記第１テキストと前記第２テキストとの意味マッチング結果を確定するステップを含む、請求項１～３のいずれか１項に記載の方法。
前記ターゲット埋め込みベクトルに基づいて前記第１テキストと前記第２テキストとの意味マッチング結果を確定するステップは、
少なくとも２種の方法により少なくとも２つのターゲット埋め込みベクトルを取得することに応答して、取得した各ターゲット埋め込みベクトルを接続して、接続ベクトルを取得するステップと、
前記接続ベクトルを前記分類モデルに入力して、前記第１テキストと前記第２テキストとの意味マッチング結果を確定するステップとを含む、請求項４に記載の方法。
前記第１テキスト及び前記第２テキストに関連する言語知識を取得するステップは、
前記第１テキスト及び前記第２テキストにおける実体言及を確定するステップと、
予め設定された知識ベース及び前記実体言及に基づいて、前記言語知識を確定するステップとを含む、請求項１に記載の方法。
第１テキスト及び第２テキストを取得するように構成される第１取得ユニットと、
前記第１テキスト及び前記第２テキストに関連する言語知識を取得するように構成される第２取得ユニットと、
前記言語知識に基づいて、前記第１テキスト及び前記第２テキストの意味情報を抽出し、前記意味情報に基づいて、ターゲット埋め込みベクトルを確定するように構成されるベクトル確定ユニットと、
前記ターゲット埋め込みベクトルに基づいて、前記第１テキストと前記第２テキストとの意味マッチング結果を確定するように構成される意味マッチングユニットとを含む、意味マッチング装置。
前記ベクトル確定ユニットはさらに、
前記第１テキスト、前記第２テキスト、前記言語知識及び予め設定されたマスク生成モデルに基づいて、ターゲットマスクを確定し、
前記ターゲットマスク及び前記第１テキストに基づいて、第１更新テキストを確定し、
前記ターゲットマスク及び前記第２テキストに基づいて、第２更新テキストを確定し、
前記第１更新テキスト及び前記第２更新テキストに基づいて、前記ターゲット埋め込みベクトルを確定するように構成される、請求項７に記載の装置。
前記ベクトル確定ユニットはさらに、
前記第１テキスト、前記第２テキスト及び前記言語知識に基づいて、ナレッジグラフを生成し、
前記ナレッジグラフにおける複数のエッジを符号化して、第１ベクトル集合を取得し、
前記ナレッジグラフにおける複数のノードを符号化して、第２ベクトル集合を取得し、
前記第１ベクトル集合、前記第２ベクトル集合及び前記ナレッジグラフに基づいて、第３ベクトル集合を確定し、
前記第３ベクトル集合に基づいて前記ターゲット埋め込みベクトルを確定するように構成される、請求項７に記載の装置。
前記意味マッチングユニットはさらに、
得られたターゲット埋め込みベクトルを事前トレーニングされた分類モデルに入力して、前記第１テキストと前記第２テキストとの意味マッチング結果を確定するように構成される、請求項７に記載の装置。
前記意味マッチングユニットはさらに、
少なくとも２種の方法により少なくとも２つのターゲット埋め込みベクトルを取得することに応答して、得られた各ターゲット埋め込みベクトルを接続して、接続ベクトルを取得し、
前記接続ベクトルを前記分類モデルに入力して、前記第１テキストと前記第２テキストとの意味マッチング結果を確定するように構成される、請求項１０に記載の装置。
前記第２取得ユニットはさらに、
前記第１テキスト及び前記第２テキストにおける実体言及を確定し、
予め設定された知識ベース及び前記実体言及に基づいて、前記言語知識を確定するように構成される、請求項７に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサが請求項１～６のいずれか１項に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行され得る指令が格納されている、意味マッチング電子機器。
コンピュータに請求項１～６のいずれか１項に記載の方法を実行させるためのコンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～６のいずれか１項に記載の方法を実現するコンピュータプログラム。