JP7398402B2

JP7398402B2 - 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP7398402B2
Application number: JP2021052044A
Authority: JP
Inventors: ワン・チー; フォン・ジーファン; リウ・ジージエ; ワン・スーチー; チャイ・チュングアン; ジュー・ヨン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2021-03-25
Publication date: 2023-12-14
Anticipated expiration: 2041-03-25
Also published as: CN111523326A; KR102504699B1; US20210216716A1; US11704492B2; KR20210040319A; CN111523326B; JP2021168124A; EP3859559A3; EP3859559A2

Description

本出願はコンピュータ技術分野に関し、具体的にナレッジグラフ分野に関し、特に実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

機器がテキストをよりよく理解できるようにするために、通常に機器はテキスト内の実体を認識する必要があり、同時にテキスト内の実体を対応する知識ベース内の実体に１つずつ対応させる必要がある。知識ベースにおける同じ名称の実体が常に数多くて、実体リンキング（ＥｎｔｉｔｙＬｉｎｋｉｎｇ）を実行する必要がある。実体リンキングはたくさんの自然言語処理と情報検索タスクに積極的にサポートする。実体リンキングは一般的に固有表現抽出（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）と固有表現曖昧性除去（ＮａｍｅｄＥｎｔｉｔｙＤｉｓａｍｂｉｇｕａｔｉｏｎ）の２つの部分を含む。

従来の実体リンキング解決手段は、教師あり学習に基づく実体リンキング技術と深層学習に基づく実体リンキング技術を備える。これらの２種類の技術のいずれも特徴エンジニアリングとトレーニングサンプルの構築過程に依存し、大量の人的資源を必要とする。

実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。

第１態様により、対象テキストを取得することと、対象テキストに含まれた少なくとも１つの実体言及を確定することと、予め設定された知識ベースに基づいて、各実体言及に対応する候補実体を確定することと、各候補実体の参照テキスト及び各候補実体の付加特徴情報を確定することと、対象テキスト、各参照テキスト及び各付加特徴情報に基づいて、実体リンキング結果を確定することと、を含む実体リンキング方法が提供される。

第２態様により、対象テキストを取得するように構成される対象テキスト取得ユニットと、対象テキストに含まれた少なくとも１つの実体言及を確定するように構成される実体言及確定ユニットと、予め設定された知識ベースに基づいて、各実体言及に対応する候補実体を確定するように構成される候補実体確定ユニットと、各前記候補実体の参照テキスト及び各前記候補実体の付加特徴情報を確定するように構成される付加情報確定ユニットと、対象テキスト、各参照テキスト及び各付加特徴情報に基づいて、実体リンキング結果を確定するように構成される実体リンキング確定ユニットと、を備える実体リンキング装置が提供される。

第３態様により、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続される記憶装置とを備えており、記憶装置に少なくとも１つのプロセッサにより実行可能な指令が格納され、前記指令が少なくとも１つのプロセッサにより実行されると、少なくとも１つのプロセッサに第１態様に記載の方法が実行される電子機器が提供される。

第４態様により、コンピュータ指令が格納される非一時的なコンピュータ可読記憶媒体が提供され、上記コンピュータ指令は、コンピュータに第１態様に記載の方法を実行させることに用いられる。

第５態様において、プロセッサにより実行されると、コンピュータに第１態様に記載の方法が実装される、コンピュータプログラムを提供する。

本出願の技術により、実体リンキングを行う時に外部知識を提供し、知識主導の役割を積極的に果たし、それによって、実体リンキングの正確率を高め、複雑なシーンにおける応用要件を満たすことができる。

この部分に記載された内容は、本開示の実施形態の肝要又は重要な特徴を標識するものではなく、本開示の範囲を制限するものではないことを理解すべきである。本開示のほかの特徴は以下の説明を通して容易に理解される。

図面は本解決手段をさらによく理解させるためのものであり、本出願に対する限定ではない。

図１は本出願の１つの実施形態を適用する例示的なシステムアーキテクチャを示す図である。図２は本出願に係る実体リンキング方法の１つの実施形態のフローチャートである。図３は本出願に係る実体リンキング方法の１つの応用シーンの概略図である。図４は本出願に係る実体リンキング方法のほかの実施形態のフローチャートである。図５は図４に示される実施形態における固有表現抽出ネットワークの構造概略図である。図６は図４に示される実施形態におけるベクトル確定モデルの構造概略図である。図７は図４に示される実施形態における固有表現曖昧性除去ネットワークの構造概略図である。図８は本出願に係る実体リンキング装置の１つの実施形態の構造概略図である。図９は本出願の実施形態の実体リンキング方法を実現するための電子機器のブロック図である。

次に、図面を合わせて本出願の例示的な実施形態を説明し、理解させることに役に立つように本出願の実施形態の様々な詳細情報が含まれ、それらは例示的なものだけであるとみなされるべきである。そのため、当業者であれば、ここで記載された実施形態に対して様々な変化と修正を行うことができ、本出願の範囲と精神から逸脱しないことを認識すべきである。同様に、明確、簡潔に説明するように、以下の説明に公的な機能と構造の説明が省略される。

なお、矛盾しない限り、本出願の実施形態及び実施形態における特徴は互いに組み合わせることができる。次に図面を参照しながら実施形態と組み合わせて本出願を詳しく説明する。

図１は、本出願の実体リンキング方法又は実体リンキング装置を適用できる実施形態の例示的なシステムアーキテクチャ１００を示す。

図１に示されるように、システムアーキテクチャ１００は端末装置１０１、１０２、１０３、ネットワーク１０４およびサーバ１０５を含んでもよい。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０５の間に通信リンクを提供する媒体として用いられる。ネットワーク１０４は有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含んでもよい。

ユーザは、メッセージなどを受信又は送信するために、端末装置１０１、１０２、１０３を用いて、ネットワーク１０４を介してサーバ１０５とのインタラクションを行うことができる。端末装置１０１、１０２、１０３に、検索類アプリケーションなどの様々な通信クライアントアプリケーションをインストールできる。

端末装置１０１、１０２、１０３はハードウェアであってもよく、ソフトウェアであってもよい。端末装置１０１、１０２、１０３はハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むことができるが、それらに限定されない。端末装置１０１、１０２、１０３は、ソフトウェアである場合、上記電子機器にインストールされることができる。それは複数のソフトウェア又はソフトウェアモジュール（例えば、分散式サービスを提供することに用いられる）にして実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定をしない。

サーバ１０５は端末装置１０１、１０２、１０３に送信された情報を処理するためのバックグラウンドサーバなどの様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは端末により送信されたテキストにおける実体を識別でき、且つ上記実体と知識ベースにおける実体を関連付けることができる。実行主体はさらに実体リンキング結果を端末装置１０１、１０２、１０３にフィードバックすることができる。

なお、サーバ１０５はハードウェアであってもよく、ソフトウェアであってもよい。サーバ１０５はハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよく、さらに、単一のサーバとして実現されてもよい。サーバ１０５はソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供することに用いられる）として実装されてもよく、さらに、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定をしない。

なお、本出願の実施形態により提供される実体リンキング方法は通常にサーバ１０５により実行される。対応して、実体リンキング装置は通常にサーバ１０５の中に設置される。

図１における端末装置、ネットワークおよびサーバの数は例示的なものであることを理解すべきである。実装の必要性に応じて、任意の数の端末装置、ネットワークおよびサーバを備えてもよい。

図２に示されるように、本出願に係る実体リンキング方法の１つの実施形態のフロー２００が示される。本実施形態の実体リンキング方法は以下のステップ（２０１～２０５）を備える。

ステップ２０１、対象テキストを取得する。
本実施形態において、実体リンキング方法の実行主体（例えば、図１に示されるサーバ１０５）は有線接続又は無線接続方式により対象テキストを取得できる。上記対象テキストはユーザが端末で入力したテキストであってもよい。対象テキストは１つの検索文であってもよく、少なくとも１つの実体言及が含まれ得る。例えば、対象テキストは「この夏はどこに行けばいいですか」であってもよい。

ステップ２０２、対象テキストに含まれた少なくとも１つの実体言及を確定する。
実行主体は対象テキストを取得した後、対象テキストに対して様々な処理を行い、対象テキストに含まれた少なくとも１つの実体言及（ｅｎｔｉｔｙｍｅｎｔｉｏｎ）を確定することができる。例えば、実行主体は対象テキストに対して単語分割処理を行い、取得された名詞を実体言及とすることができる。或いは、実行主体は対象テキストに対して固有表現抽出を行い、取得された固有表現を実体言及としてもよい。ここで、実体言及は実体のテキスト表現形式を指し、固有表現、普通の名詞フレーズ、代名詞であってもよい。例えば、実体である「復旦大学」に対して、その実体言及は「復旦大学」、「復旦」、「旦大」などを含み得る。

ステップ２０３、予め設定された知識ベースに基づき、各実体言及に対応する候補実体を確定する。

実行主体は予め設定された少なくとも１つの知識ベースを接続してもよく、上記知識ベースは豊富なテキストのセマンティック情報を含む。上記知識ベースは英語の知識ベースＴＡＰ、ウィキペディア、Ｆｒｅｅｂａｓｅ、ＹＡＧＯ及び中国語の知識ベースであるバイドゥ百科事典、互動百科、中国語版ウィキペディアなどを含んでもよい。実行主体は上記知識ベースから各実体言及に対応する候補実体を探し出すことができる。ここで、候補実体は知識ベースに存在し、且つ実体言及に関連する実体である。候補実体の名称は実体言及の名称と同じであってもよく、実体言及の別称であってもよい。例えば、実体言及である「夏天」に対して、その対応する候補実体は映画『夏天』（２００８年に上映されたドイツのロマンス映画）、曲『夏天』（李栄浩が創作した曲、２０１０年７月に発行）、夏季（四季の中の第２の季節、英語でｓｕｍｍｅｒという）を含んでもよい。

ステップ２０４、各候補実体の参照テキスト及び各候補実体の付加特徴情報を確定する。

実行主体は、各実体言及に対応する各候補実体を取得した後、各候補実体の参照テキスト及び付加特徴情報を確定することができる。ここで、参照テキストは、候補実体に関連する記述テキストであってもよく、例えば、それは知識ベースにおける候補実体に対する辞書エントリ意味（ｓｅｎｓｅｓｏｆａｄｉｃｔｉｏｎａｒｙｅｎｔｒｙ）の説明、要約などを含んでもよい。付加特徴情報は人工的な特徴とも呼ばれ、それは候補実体の実体埋め込みベクトル（ｅｎｔｉｔｙｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）と候補実体の上位コンセプト、及び上位コンセプトに対応する確率を含んでもよい。これらの付加特徴情報は予め設定された処理モデルにより取得され得、例えば、実体埋め込みベクトルは言語モデル（ＬＭ，ＬａｎｇｕａｇｅＭｏｄｅｌ）により取得され得、さらにＢｉ－ＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、フォワードＬＳＴＭとバックワードＬＳＴＭからなる）により取得されてもよい。

ステップ２０５、対象テキスト、各参照テキスト及び各付加特徴情報に基づいて、実体リンキング結果を確定する。

実行主体は、各参照テキスト及び各付加特徴情報を取得した後、対象テキストを合わせて、各候補実体に対して曖昧性除去を行い、実体リンキング結果を取得することができる。具体的に、実行主体は上記各情報を接続し、且つ接続した後のテキストを予め設定されたモデルに入力し、各候補実体が対象テキストにおける実体言及に関連する確率を取得することができる。且つ、確率最大値に対応する候補実体を実体リンキング結果とする。

図３は、本出願に係る実体リンキング方法の１つの応用シーンの概略図を示す。図３の応用シーンにおいて、ユーザが端末３０１における検索類アプリケーションを通して「劉徳華演唱歌曲氷雨（劉徳華は『氷雨』の歌を歌う）」という文を入力する。サーバ３０２は上記入力文を受信した後、実体言及として「劉徳華」と「氷雨」を取得する。知識ベースに複数の劉徳華という実体があるため、サーバ３０２はこれらの実体に対して曖昧性除去を行い、「中国香港男演員、歌手、製片人、填詞人劉徳華（中国香港の俳優、歌手、プロデューサ、作詞家である劉徳華）」を正確な実体として確定する。

本出願の上記実施形態により提供される実体リンキング方法は、固有表現曖昧性除去の過程中に候補実体の参照テキストと付加特徴情報を取得するため、外部知識主導の役割を充分発揮し、実体リンキング結果の正確率を高めた。

引き続き、図４に示されるように、本出願に係る実体リンキング方法のほかの実施形態のフロー４００が示される。図４に示されるように、本実施形態の実体リンキング方法は以下のステップを含む。

ステップ４０１、対象テキストを取得する。
ステップ４０２、対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを確定する。

本実施形態において、実行主体は対象テキストを予めトレーニングした言語モデルの中に入力して、テキスト埋め込みベクトルを取得する。言語モデルは従来の複数の言語モデルであってもよく、例えば、Ｂｅｒｔ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、Ｔｒａｎｓｆｏｒｍｅｒによる双方向のエンコーダ表現）、Ｅｒｎｉｅ（Ｅｒｎｉｅはバイドゥの深層学習フレームワークパドル（ｄｅｅｐｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋｐａｄｄｌｅｏｆＢａｉｄｕ）に基づいて構築される）など。実行主体はさらに対象テキストの関連特徴ベクトルを確定することもできる。上記関連特徴ベクトルは対象テキストの品詞特徴ベクトルであってもよく、実体確率特徴ベクトルであってもよい。ここで、品詞特徴ベクトルは対象テキストにおける各文字の品詞を表すことに用いられる。例を挙げると、対象テキストは「劉徳華演唱歌曲氷雨（劉徳華は『氷雨』の歌を歌う）」であり、品詞特徴ベクトルは「ｎｒｎｒｎｒｖｖｎｎｎｎ」であってもよい。ここで、ｎｒは人の名前を示し、ｖは動詞を示し、ｎは名詞を示す。実体確率特徴ベクトルは対象テキストにおける各単語が実体に属する確率を表す。やはり上記対象テキストを例とし、対応する実体確率特徴ベクトルは「０．９２０．９２０．９２０．０１０．０１０．７３０．７３０．８８０．８８」であってもよい。

ステップ４０３、テキスト埋め込みベクトル及び関連特徴ベクトルを融合して、融合ベクトルを取得する。

テキスト埋め込みベクトル及び関連特徴ベクトルを取得した後、実行主体は両者を融合して、融合ベクトルを取得することができる。具体的に、実行主体は複数の方式を通して両者を融合することができる。例えば、実行主体はｃｏｎｃａｔ関数を通して両者を接続することができる。或いは、実行主体はさらにｐｏｏｌｉｎｇ層を通して両者の融合などを実現できる。

ステップ４０４、融合ベクトルに基づいて少なくとも１つの実体言及を確定する。
実行主体は融合ベクトルを取得した後、少なくとも１つの実体言及を確定できる。具体的に、実行主体は上記融合ベクトルを分類関数に入力して、少なくとも１つの実体言及を取得することができる。上記分類関数はｓｏｆｔｍａｘ関数であってもよく、ｓｉｇｍｏｄ関数であってもよい。実行主体は分類結果に基づいて、少なくとも１つの実体言及を確定することができる。

本実施形態の一部の選択可能な実施形態において、上記ステップ４０４は図４に示されていない以下のステップを通して実現され得る。融合ベクトルに対して注意強化を行い、強化ベクトルを取得し、強化ベクトルに対して２回の分類を行い、それぞれ各実体言及の先頭位置と末尾位置を取得し、取得された先頭位置と末尾位置に基づいて、各実体言及を確定する。

本実施形態において、実行主体は融合ベクトルに対して注意強化を行い、強化ベクトルを取得することができる。実行主体はＡｔｔｅｎｔｉｏｎメカニズムを利用して上記融合ベクトルに対する注意強化を実現できる。Ａｔｔｅｎｔｉｏｎメカニズムは人間の注意を模倣して提供された解決手段であり、簡単に言えば、大量の情報から価値の高い情報を素早くスクリーニングすることである。その後、実行主体は強化ベクトルに対して２回の分類を行うことができ、これらの２回の分類はｓｉｇｍｏｄ関数に基づいて実現される。ｓｉｇｍｏｄ関数はハーフポインタ・ハーフアノテーション（ｈａｌｆ－ｐｏｉｎｔｅｒａｎｄｈａｌｆ－ａｎｎｏｔａｔｉｏｎ）を実現でき、即ちそれぞれ実体言及の先頭位置と末尾位置を標記する。実行主体は各実体言及の先頭位置と末尾位置に基づいて、各実体言及を取得することができる。

本実施形態の一部の選択可能な実施形態において、実行主体は融合ベクトルを取得した後、融合ベクトルに対して注意強化を行う前、融合ベクトルに対して次元削減を行い、低次元融合ベクトルを取得することができる。その後、低次元融合ベクトルに対して注意強化を行う。

具体的な応用において、実行主体は図５に示された固有表現抽出ネットワークを介して対象テキストにおける実体言及を識別することができる。図５に示されるように、固有表現抽出ネットワークはＬＭ、Ｂｉ－ＬＳＴＭ、Ａｔｔｅｎｔｉｏｎ層およびＳｉｇｍｏｄ層を含んでもよい。対象テキストをＬＭの中に入力し、テキスト埋め込みベクトルを取得する。図中、ＣＬＳは開始文字を標記することに用いられ、ｔｏｋｅｎは対象テキストにおける各文字である。テキスト埋め込みベクトルは、各文字の埋め込みベクトル（図５におけるＥｍｂ_１、Ｅｍｂ_２…Ｅｍｂ_ｎ）を含む。その後、テキスト埋め込みベクトルにおける各文字の埋め込みベクトルを関連特徴ベクトル（人工的な特徴、図５における灰色のボックス）と融合し、融合ベクトルを取得する。融合ベクトルはＢｉ－ＬＳＴＭを経た後、低次元融合ベクトルを取得する。低次元融合ベクトルはＡｔｔｅｎｔｉｏｎ層を通して注意強化を行う。最後、Ｓｉｇｍｏｄ層を通して２回の分類を行い、実体の先頭位置と実体の末尾位置（図５において、Ｓｉｇｍｏｄ層から出力された結果において、白い背景のボックスは先頭位置、灰色背景のボックスは末尾位置である）を取得する。

ステップ４０５、予め設定された知識ベースに基づき、各実体言及に対応する候補実体を確定する。

ステップ４０６、各候補実体に対して、該候補実体の少なくとも１項の記述テキストを取得し、各記述テキストを接続して、該候補実体の参照テキストを取得する。

本実施形態において、実行主体は知識ベースから各候補実体の少なくとも１項の記述テキストを取得することができる。上記記述テキストは各候補実体の辞書エントリ意味の説明と要約などの情報であってもよい。百科事典の多義語において、コンセプトや意味が異なる物事の記述内容は辞書エントリ意味（ｓｅｎｓｅｓｏｆａｄｉｃｔｉｏｎａｒｙｅｎｔｒｙ）と呼ばれる。各辞書エントリ意味は、独立した辞書エントリ意味の名称、辞書エントリ意味の記述、百科名刺、要約、本文、参考資料などの内容を備える。実行主体は取得された各情報を接続して、取得されたテキストを参照テキストとすることができる。

ステップ４０７、各候補実体の実体埋め込みベクトルを取得する。
本実施形態において、付加特徴情報は実体埋め込みベクトルを含んでもよい。各候補実体に対して、実行主体は具体的に以下のステップによって該候補実体の実体埋め込みベクトルを確定することができる。

ステップ４０７１、該候補実体の記述情報を取得する。
本実施形態において、実行主体は、まず該候補実体の記述情報を取得することができる。記述情報は、実行主体が任意方式により取得した、候補実体を記述するための情報であってもよい。例えば、実行主体は、知識ベースから記述情報を取得してもよく、さらに検索エンジンから記述情報を取得してもよい。ここでの記述情報はステップ４０６における記述テキストと同じであってもよく、異なってもよい。

ステップ４０７２、該候補実体に関連するトリプルシーケンスを取得する。
実行主体は、さらに該候補実体に関連するトリプルシーケンスを取得することができる。具体的に、実行主体は知識グラフから上記トリプルシーケンスを取得してもよい。上記トリプルシーケンスは複数のトリプルシーケンスを含んでもよく、各トリプルシーケンスは主語－述語－目的語、即ちＳｕｂｊｅｃｔ－Ｐｒｅｄｉｃａｔｅ－Ｏｂｊｅｃｔとして示されてもよい。例えば、張三－出演－長征（張三は「長征」で役を演じた）。

ステップ４０７３、該候補実体、記述情報、トリプルシーケンス及び予めトレーニングされたベクトル確定モデルに基づいて、該候補実体の実体埋め込みベクトルを確定する。

実行主体は、上記記述情報、トリプルシーケンスを取得した後、該候補実体及び予めトレーニングされたベクトル確定モデルに基づいて、該候補実体の実体埋め込みベクトルを確定することができる。上記予めトレーニングされたベクトル確定モデルは第１確定サブモデルと第２確定サブモデル（図６に示される）の２つの部分を含んでもよい。図６において、第１確定サブモデルはＣＢＯＷ（ｃｏｎｔｉｎｕｏｕｓｂａｇｏｆｗｏｒｄｓ，連続バッグオフワーズモデル）と単層ニューラルネットワークを含んでもよい。第２確定サブモデルはニューラルネットワークを含んでもよい。実行主体は、候補実体と記述情報を第１確定サブモデルに入力し、第１確定サブモデルは１つのベクトルを出力することができる。その後、実行主体は、該ベクトル及びトリプルシーケンスを第２確定サブモデルに入力し、実体埋め込みベクトルを取得する。各候補実体の外部知識情報が追加されたため、第１確定サブモデルと第２確定サブモデルはいずれも上記外部知識を学習することで、取得された実体埋め込みベクトルに包含される情報をさらに正確にすることができる。

ステップ４０８、各候補実体の少なくとも１つの上位コンセプトと各上位コンセプトに対応する確率を取得する。

本実施形態において、実行主体はさらに各候補実体に対応する少なくとも１つの上位コンセプトと各上位コンセプトに対応する確率を取得することができる。具体的に、上記各上位コンセプトの取得は予め設定されたコンセプト確率予測モデルを通して実現され得る。上記コンセプト確率予測モデルはその中に入力されたテキスト及び知識ベースにおける実体、コンセプト及び指示語の間の関係に基づき、入力テキストの上位コンセプトを予測し、予測上位コンセプトとすることができる。実行主体は上記予測上位コンセプトと知識ベースにすでに存在するコンセプトとの類似度を計算し、且つ上記類似度を各上位コンセプトに対応する確率とすることができる。

具体的な応用において、上記ステップ４０８はＲＷＲ（Ｒａｎｄｏｍｗａｌｋｗｉｔｈｒｅｓｔａｒｔ）に基づくコンセプト確率予測モデルにより実現される。ＲＷＲに基づくコンセプト確率予測モデルは知識ベースにおける指示に基づき、特定されたテキストに対してそのテキストの中の文脈に最も適する実体の細粒度の上位コンセプトを一般化することができる。例を挙げると、候補実体は「劉徳華」であり、その上位コンセプトは「歌手」であってもよく、「演員」（俳優）であってもよい。テキスト「劉徳華参演天下無賊（劉徳華は『イノセントワールド -天下無賊-』の役を演じた）」において、その上位コンセプトは俳優である。テキスト「劉徳華演唱歌曲氷雨（劉徳華は『氷雨』の歌を歌う）」において、その上位コンセプトは「歌手」である。

ステップ４０９、対象テキスト及び各参照テキストの第１埋め込みベクトルと第２埋め込みベクトルをそれぞれ確定する。

実行主体は、さらに対象テキスト及び各参照テキストの第１埋め込みベクトルと第２埋め込みベクトルを確定することができる。第１埋め込みベクトルと第２埋め込みベクトルは異なる方式で取得された埋め込みベクトルであってもよい。例えば、第１埋め込みベクトルはＬＭによって取得した埋め込みベクトルであってもよく、第２埋め込みベクトルはＢｉ－ＬＳＴＭによって取得した埋め込みベクトルであってもよい。

本実施形態の一部のオプション的な実施形態において、実行主体は以下のステップによって上記ステップ４０９を実現してもよい。

ステップ４０９１、対象テキスト及び各参照テキストの単語埋め込みベクトルと文字埋め込みベクトルをそれぞれ確定する。

本実施形態において、実行主体は、まず対象テキスト及び各参照テキストの単語埋め込みベクトルと文字埋め込みベクトルを確定することができる。単語埋め込みベクトルはテキストにおける各単語の埋め込みベクトルを含み、文字埋め込みベクトルはテキストにおける各文字の埋め込みベクトルを含む。具体的に、実行主体は予めトレーニングした単語埋め込みベクトル確定モデルにより、単語埋め込みベクトルを確定することができる。同様に、実行主体は予めトレーニングした文字埋め込みベクトル確定モデルにより文字埋め込みベクトルを確定してもよい。上記単語埋め込みベクトル確定モデルはＷｏｒｄ２ｖｅｃであってもよく、上記文字埋め込みベクトル確定モデルはｃｈａｒ２ｖｅｃであってもよい。具体的に、実行主体はそれぞれ対象テキストと各参照テキストをＷｏｒｄ２ｖｅｃ、ｃｈａｒ２ｖｅｃに入力して、単語埋め込みベクトルと文字埋め込みベクトルを取得することができる。

ステップ４０９２、対象テキストの単語埋め込みベクトル、文字埋め込みベクトル及び第１事前設定ベクトル確定モデルに基づいて、対象テキストの第１埋め込みベクトルを確定する。

実行主体は、対象テキストの単語埋め込みベクトル、文字埋め込みベクトルを第１事前設定ベクトル確定モデルに入力して、対象テキストの第１埋め込みベクトルを確定することができる。上記第１事前設定ベクトル確定モデルはＢｉ－ＬＳＴＭであってもよい。

ステップ４０９２、対象テキスト及び第２事前設定ベクトル確定モデルに基づいて、対象テキストの第２埋め込みベクトルを確定する。

実行主体はさらに対象テキスト及び第２事前設定ベクトル確定モデルに基づいて、対象テキストの第２埋め込みベクトルを確定することができる。上記第２事前設定ベクトル確定モデルはＬＭであってもよい。

ステップ４０９３、各参照テキストに対して、該参照テキストの単語埋め込みベクトル、文字埋め込みベクトル及び第１事前設定ベクトル確定モデルに基づいて、該参照テキストの第１埋め込みベクトルを確定し、該参照テキスト及び第２事前設定ベクトル確定モデルに基づいて、該参照テキストの第２埋め込みベクトルを確定する。

同様に、各参照テキストに対して、実行主体は、該参照テキストの単語埋め込みベクトル、文字埋め込みベクトルを第１事前設定ベクトル確定モデルに入力して、該参照テキストの第１埋め込みベクトルを取得することができる。該参照テキストを第２事前設定ベクトル確定モデルに入力して、該参照テキストの第２埋め込みベクトルを取得することができる。

ステップ４１０、対象テキストの第１埋め込みベクトルと第２埋め込みベクトル、各参照テキストの第１埋め込みベクトルと第２埋め込みベクトル、各付加特徴情報に基づいて、実体リンキング結果を確定する。

実行主体は、対象テキストと各参照テキストの第１埋め込みベクトルと第２埋め込みベクトル、及び各候補実体の付加特徴情報を取得した後、実体リンキング結果を確定することができる。ここで、実体リンキング結果は対象テキストにおける実体言及と候補実体とのリンキング関係を指す。具体的に、実行主体は対象テキストの第１埋め込みベクトルと第２埋め込みベクトルを接続し、各参照テキストの第１埋め込みベクトルと第２埋め込みベクトル及び対応する付加特徴情報を接続することができる。接続後の情報を分類層に入力して、実体リンキング結果を取得する。

本実施形態の一部のオプション的な実施形態において、実行主体は、各第１埋め込みベクトルと第２埋め込みベクトルの次元数を低減するために、取得された複数の第１埋め込みベクトルと第２埋め込みベクトルに対してそれぞれプーリングすることができる。

本実施形態の一部のオプション的な実施形態において、実行主体は以下のステップによってステップ４１０を実現することができる。

ステップ４１０１、各参照テキストに対して、該参照テキストの第１埋め込みベクトル、第２埋め込みベクトルおよび該参照テキストに対応する候補実体の付加特徴情報を接続して、第１接続ベクトルを取得する。

本実施形態において、候補実体と付加特徴情報との間に対応関係が存在するため、候補実体と参照テキストとの間にも対応関係が存在する。それにより、付加特徴情報と参照テキストとの間にも対応関係が存在する。各参照テキストに対して、実行主体は、該参照テキストの第１埋め込みベクトル、該参照テキストの第２埋め込みベクトルおよび対応する付加特徴情報を接続して、第１接続ベクトルを取得する。即ち、各候補実体はいずれも第１接続ベクトルを取得できる。

ステップ４１０２、対象テキストの第１埋め込みベクトル、対象テキストの第２埋め込みベクトルおよび各第１接続ベクトルを接続して、第２接続ベクトルを取得する。

各候補実体の第１接続ベクトルを取得した後、対象テキストに対して、実行主体は、その第１埋め込みベクトル、第２埋め込みベクトルを接続した後に各第１接続ベクトルと再接続して、第２接続ベクトルを取得することができる。

ステップ４１０３、各第１接続ベクトル、第２接続ベクトル及び予め設定された分類モデルに基づいて、各候補実体と実体言及とのリンキング確率を確定する。

実行主体は各第１接続ベクトル、第２接続ベクトルを取得した後、各第１接続ベクトル、第２接続ベクトルを予め設定された分類モデルに入力して、分類結果を取得することができ、上記分類結果は対象テキストにおける実体言及と各候補実体との間のリンキング関係を表す。上記分類モデルはｓｏｆｔｍａｘ層などのニューラルネットワークにおける１つのデータ処理層であってもよい。

具体的な応用において、実行主体は図７における固有表現曖昧性除去ネットワークを利用して識別された実体言及に対して曖昧性除去を行うことができる。図７において、ネットワークは複数のＬＭとＢｉ－ＬＳＴＭを含んでもよい。対象テキストをそれぞれＬＭの中に入力し、対象テキストの第１埋め込みベクトルを取得することができる。その後、対象テキストの単語埋め込みベクトルと文字埋め込みベクトルをＢｉ－ＬＳＴＭの中に入力して、対象テキストの第２埋め込みベクトルを取得することができる。同様に、各参照テキストに対して、実行主体は参照テキストをＬＭの中に入力し、参照テキストの第１埋め込みベクトルを取得することができる。その後、参照テキストの単語埋め込みベクトルと文字埋め込みベクトルをＢｉ－ＬＳＴＭの中に入力して、参照テキストの第２埋め込みベクトルを取得することができる。

参照テキストの第１埋め込みベクトルと参照テキストの第２埋め込みベクトルに対してプーリングを行った後、プーリング後の第１埋め込みベクトルと第２埋め込みベクトルを接続し、その後、参照テキストに対応する候補実体の付加特徴情報を接続後のベクトルに接続して、第１接続ベクトルを取得する。実行主体は、対象テキストの第１埋め込みベクトルと対象テキストの第２埋め込みベクトルに対してプーリングを行った後、プーリング後の第１埋め込みベクトルと第２埋め込みベクトルを接続することができる。その後、各第１接続ベクトルをプーリング後の第１埋め込みベクトルと第２埋め込みベクトルに接続して第２接続ベクトルを取得する。

実行主体は、さらにそれぞれの第１接続ベクトルと第２接続ベクトルをＤｒｏｐｏｕｔ層に入力し、オーバーフィッティングを防止するために、Ｄｒｏｐｏｕｔ層はネットワークにおけるニューラルネットワークを所定の比率で廃棄することができる。その後、Ｄｅｎｓｅ層に入り、Ｄｅｎｓｅ層は、１つの全結合層であり、局所特徴を重みマトリックスによって接続する役割を果たす。最後に、Ｄｅｎｓｅ層から出力された情報をｓｏｆｔｍａｘ多クラス分類層に入力することができる。ｓｏｆｔｍａｘ多クラス分類層は、各候補実体と実体言及との関連確率を表すために、０と１の間に介在する値を出力する。上記確率に基づいて、実体言及と各候補実体とのリンキング関係を取得する。

本出願の上記実施形態により提供される実体リンキング方法は、固有表現抽出ネットワークと固有表現曖昧性除去ネットワークによって、エンドツーエンドの実体リンキングを実現した。且つ、固有表現抽出と固有表現曖昧性除去の過程中にいずれも外部知識が導入され、外部知識の主導作用がさらに高まれ、実体リンキングの正確率が向上された。

本実施形態の一部のオプション的な実施形態において、図５に示された固有表現抽出ネットワークと図７に示された固有表現曖昧性除去ネットワークは、連携してトレーニングされてもよく、即ち、固有表現抽出ネットワークと固有表現曖昧性除去ネットワークの損失関数を加算して、トレーニングし、トレーニング過程中にネットワークパラメータを最適化することができる。それにより、エンドツーエンドのトレーニングを実現できる。

さらに図８に示されるように、上記各図に示される方法の実現として、本出願は情報を出力するための装置の１つの実施形態を提供し、該装置の実施形態は図２に示される方法の実施形態に対応し、該装置は具体的に様々な電子機器に適用できる。

図８に示されるように、本実施形態の実体リンキング装置８００は、対象テキスト取得ユニット８０１、実体言及確定ユニット８０２、候補実体確定ユニット８０３、付加情報確定ユニット８０４及び実体リンキング確定ユニット８０５を備える。

対象テキスト取得ユニット８０１は、対象テキストを取得するように構成される。
実体言及確定ユニット８０２は、対象テキストに含まれた少なくとも１つの実体言及を確定するように構成される。

候補実体確定ユニット８０３は、予め設定された知識ベースに基づき、各実体言及に対応する候補実体を確定するように構成される。

付加情報確定ユニット８０４は、各候補実体の参照テキスト及び各候補実体の付加特徴情報を確定するように構成される。

実体リンキング確定ユニット８０５は、対象テキスト、各参照テキスト及び各付加特徴情報に基づいて、実体リンキング結果を確定するように構成される。

本実施形態の一部のオプション的な実施形態において、実体言及確定ユニット８０２はさらに図８に示されていない、ベクトル確定モジュール、ベクトル融合モジュール及び実体言及確定モジュールを備えてもよい。

ベクトル確定モジュールは、対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを確定するように構成される。

ベクトル融合モジュールは、テキスト埋め込みベクトル及び関連特徴ベクトルを融合して、融合ベクトルを取得するように構成される。

実体言及確定モジュールは、融合ベクトルに基づいて、少なくとも１つの実体言及を確定するように構成される。

本実施形態の一部のオプション的な実施形態において、実体言及確定モジュールはさらに、融合ベクトルに対して注意強化を行い、強化ベクトルを取得し、強化ベクトルに対して２回の分類を行い、それぞれ各実体言及の先頭位置と末尾位置を取得し、取得された先頭位置と末尾位置に基づいて、各実体言及を確定するように構成される。

本実施形態の一部のオプション的な実施形態において、付加情報確定ユニット８０４は、各候補実体に対して、該候補実体の少なくとも１項の記述テキストを取得し、各記述テキストを接続して、該候補実体の参照テキストを取得するように構成される参照テキスト確定モジュール（図８に示されていない）をさらに備えてもよい。

本実施形態の一部のオプション的な実施形態において、付加特徴情報は実体埋め込みベクトルを含む。付加情報確定ユニット８０４は、各候補実体に対して、該候補実体の記述情報を取得し、該候補実体に関連するトリプルシーケンスを取得し、該候補実体、記述情報、トリプルシーケンス及び予めトレーニングしたベクトル確定モデルに基づいて、該候補実体の実体埋め込みベクトルを確定するように構成される実体埋め込みベクトル確定モジュール（図８に示されていない）をさらに備えてもよい。

本実施形態の一部のオプション的な実施形態において、付加特徴情報は少なくとも１つの上位コンセプトと各上位コンセプトに対応する確率を備える。付加情報確定ユニット８０４は、各候補実体に対して、該候補実体及び予め設定されたコンセプト予測モデルに基づいて、該候補実体の少なくとも１つの上位コンセプトと各上位コンセプトに対応する確率を確定し、確率シーケンスを取得するように構成されるコンセプト予測モジュール（図８に示されていない）をさらに備えてもよい。

本実施形態の一部のオプション的な実施形態において、実体言及確定ユニット８０５は図８に示されていない、埋め込みベクトル確定モジュールと実体リンキング確定モジュールをさらに備えてもよい。

埋め込みベクトル確定モジュールは、それぞれ対象テキストの第１埋め込みベクトル、対象テキストの第２埋め込みベクトル、各参照テキストの第１埋め込みベクトルおよび各参照テキストの第２埋め込みベクトルを確定するように構成される。

実体リンキング確定モジュールは、対象テキストの第１埋め込みベクトル、対象テキストの第２埋め込みベクトル、各参照テキストの第１埋め込みベクトル、各参照テキストの第２埋め込みベクトル、各付加特徴情報に基づいて、実体リンキング結果を確定するように構成される。

本実施形態の一部のオプション的な実施形態において、上記埋め込みベクトル確定モジュールはさらに、それぞれ対象テキスト及び各参照テキストの単語埋め込みベクトルと文字埋め込みベクトルを確定し、対象テキストの単語埋め込みベクトル、文字埋め込みベクトル及び第１事前設定ベクトル確定モデルに基づいて、対象テキストの第１埋め込みベクトルを確定し、対象テキスト及び第２事前設定ベクトル確定モデルに基づいて、対象テキストの第２埋め込みベクトルを確定し、各参照テキストに対して、該参照テキストの単語埋め込みベクトル、文字埋め込みベクトル及び前記第１事前設定ベクトル確定モデルに基づいて、該参照テキストの第１埋め込みベクトルを確定し、該参照テキスト及び第２事前設定ベクトル確定モデルに基づいて、該参照テキストの第２埋め込みベクトルを確定するように構成される。

本実施形態の一部のオプション的な実施形態において、実体リンキング確定モジュールはさらに、各参照テキストに対して、該参照テキストの第１埋め込みベクトル、該参照テキストの第２埋め込みベクトルおよび該参照テキストに対応する候補実体の付加特徴情報を接続して、第１接続ベクトルを取得し、前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトルおよび各第１接続ベクトルを接続して、第２接続ベクトルを取得し、各第１接続ベクトル、第２接続ベクトル及び予め設定された分類モデルに基づいて、各候補実体と前記実体言及とのリンキング確率を確定するように構成される。

実体リンキング装置８００に記載のユニット８０１からユニット８０５はそれぞれ図２に記載の方法における各ステップに対応することを理解すべきである。それにより、前文は実体リンキング方法を対象として記載した動作と特徴は同様に装置８００及びその中に含まれるユニットにも適用し、ここでその説明を省略する。

本出願の実施形態により、本出願は電子機器と可読記憶媒体をさらに提供する。
図９に示されるように、本出願の実施形態に係る実体リンキング方法を実行するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータおよびその他の適切なコンピュータなどの様々な形式のデジタルコンピュータを指すことを旨とする。電子機器はさらに、個人デジタル処理、スマートフォン、ウェアラブル装置およびその他の類似する計算装置等の様々な形態のモバイルデバイスを示すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで説明および／または要求した本出願の実現を限定することを意図するものではない。

図９に示されるように、該電子機器は、１つ又は複数のプロセッサ９０１、記憶装置９０２、及び各コンポーネントを接続するためのインタフェース（高速インタフェース及び低速インタフェースを含む）を含む。各コンポーネントは、互いに異なるバスで接続され、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行する指令を処理することができ、その指令には、インタフェースに結合される表示装置などの外部入出力装置上にＧＵＩ（ＧＵＩ，ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）のグラフィック情報を表示するための、メモリ内又はメモリ上に格納された指令が含まれる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスおよび複数の記憶装置を、複数の記憶装置とともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図９において、１つのプロセッサ９０１を例とする。

記憶装置９０２は即ち、本出願により提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記記憶装置には、前記少なくとも１つのプロセッサに本出願により提供される実体リンキング方法を実行させるように、少なくとも１つのプロセッサにより実行される指令が格納される。本出願の非一時的なコンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令は、コンピュータに本出願により提供される実体リンキング方法を実行させることに用いられる。

記憶装置９０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを格納するのに用いることができ、例えば、本出願の実施形態における実体リンキング方法の実行に対応するプログラム指令／モジュール（例えば、図８に示される対象テキスト取得ユニット８０１、実体言及確定ユニット８０２、候補実体確定ユニット８０３、付加情報確定ユニット８０４および実体リンキング確定ユニット８０５）などが挙げられる。プロセッサ９０１は、記憶装置９０２に格納された非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施形態における実体リンキング方法を実現する。

記憶装置９０２はプログラム記憶エリアとデータ記憶エリアを含んでもよく、ここで、プログラム記憶エリアはオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを格納でき、データ記憶エリアは情報を出力するための電子機器の使用により作成されたデータなどを格納できる。そのほか、記憶装置９０２は、高速ランダムアクセスメモリを含むことができ、また非一時的記憶装置（例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置）を含むことができる。いくつかの実施形態において、記憶装置９０２は任意選択でプロセッサ９０１と遠隔に設置された記憶装置を含み、これらの遠隔に設置された記憶装置はネットワークを介して情報を出力する電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網及びこれらの組み合わせなどが挙げられるが、それらに限定されない。

実体リンキング方法を実行する電子機器はさらに入力装置９０３と出力装置９０４を備えてもよい。プロセッサ９０１、記憶装置９０２、入力装置９０３および出力装置９０４はバス又はほかの方式で接続可能であり、図９はバスで接続することを例とする。

入力装置９０３は入力された数字又は文字情報を受信でき、並びに情報を出力するための電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、入力装置９０３は、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどが挙げられる。出力装置９０４は表示装置、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。

ここで説明するシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実装されることができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実装され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及び指令を受信することができ、且つデータ及び指令を該記憶システム、該少なくとも１つの入力装置及び該少なくとも１つの出力装置に伝送することを含み得る。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ言語／機械語を利用して実装することができる。ここで、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、及び／又はデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実現することができ、ユーザが該キーボード及び該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックのような任意の形態のセンシングフィードバックであってもよく、且つ音の入力、音声入力又は、触覚入力を含む任意の形態でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンドコンポーネントを含む計算システム（例えば、データサーバ）に実施されてもよく、又はミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）に実施されてもよく、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又は該ウェブブラウザを介してここで説明したシステム及び技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネント間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。

本出願の実施形態の技術的解決手段により、事前トレーニングと微調整過程中に参照テキストを導入することにより、言語モデルの外部知識に対する学習能力を高め、入力テキストへの理解の正確率を高め、入力テキストと参照テキストに標記を付けることにより、雑音の導入又は入力テキストに対する希釈を回避することができる。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限はしない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および代替を行うことができることは理解される。本出願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

実体リンキング装置により実行される方法であって、
対象テキスト取得ユニットが対象テキストを取得することと、
実体言及確定ユニットが、前記対象テキストを認識して、前記対象テキストに含まれた少なくとも１つの実体言及を抽出することと、
候補実体確定ユニットが、予め設定された知識ベースから、各前記実体言及に対応する候補実体を探し出すことと、
付加情報確定ユニットが、前記知識ベースにおける前記各前記候補実体に関連する記述情報を用いて、各前記候補実体の参照テキスト及び各前記候補実体の付加特徴情報を生成することと、
実体リンキング確定ユニットが、前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記候補実体から実体リンキング結果を特定し、特定した実体リンキング結果を端末装置にフィードバックすることと、を含み、
前記付加特徴情報は、実体埋め込みベクトルを含み、
各前記候補実体の付加特徴情報を生成することは、
各候補実体に対して、前記知識ベースから該候補実体の記述情報を取得することと、
前記知識ベースから該候補実体に関連するトリプルシーケンスを取得することと、
前記候補実体、前記記述情報を、予めトレーニングされたベクトル確定モデルの第１確定サブモデルに入力して、前記第１確定サブモデルから出力されたベクトルを得ることと、
前記出力されたベクトルと、前記トリプルシーケンスとを前記ベクトル確定モデルの第２確定サブモデルに入力して、前記第２確定サブモデルから出力された該候補実体の実体埋め込みベクトルを得ることと、を含む、
方法。
前記の、前記対象テキストを認識して、前記対象テキストに含まれた少なくとも１つの実体言及を抽出することは、
対象テキストを、予めトレーニングされた言語認識モデルに入力して、前記対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを得ることであって、前記テキスト埋め込みベクトルは、前記対象テキストにおける各文字の埋め込みベクトルを有し、前記関連特徴ベクトルは、各文字の品詞又は各文字が実体に属する確率を表す、ことと、
前記テキスト埋め込みベクトル及び前記関連特徴ベクトルを融合して、融合ベクトルを取得することと、
前記融合ベクトルを所定の分類関数に入力して、前記少なくとも１つの実体言及を得ることと、を備える請求項１に記載の方法。
前記の、前記融合ベクトルを所定の分類関数に入力して、前記少なくとも１つの実体言及を得ることは、
前記融合ベクトルに対して注意強化を行い、強化ベクトルを取得することと、
前記分類関数により、前記強化ベクトルに対して分類を２回行い、それぞれ各実体言及の先頭位置と末尾位置を得ることと、
得られた先頭位置と末尾位置に基づいて、各実体言及を確定することと、を備える請求項２に記載の方法。
前記の、各前記候補実体の参照テキストを生成することは、
各候補実体に対して、該候補実体の少なくとも１つの記述テキストを取得することと、
各記述テキストを接続して、該候補実体の参照テキストを取得することと、を備える請求項１に記載の方法。
前記付加特徴情報は、少なくとも１つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を含み、
前記の、各前記候補実体の付加特徴情報を確定することは、
各候補実体に対して、該候補実体及び予め設定されたコンセプト予測モデルに基づいて、該候補実体の少なくとも１つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を確定して、確率シーケンスを取得することを備える請求項１に記載の方法。
前記の、前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定することは、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトルおよび各前記参照テキストの第２埋め込みベクトルをそれぞれ確定することであって、前記第１埋め込みベクトル及び前記第２埋め込みベクトルは、それぞれ、アルゴリズムの異なるベクトル確定モジュールにより得られた、ことと、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトル、各前記参照テキストの第２埋め込みベクトル、各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定することと、を備える請求項１に記載の方法。
前記の、前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトルおよび各前記参照テキストの第２埋め込みベクトルをそれぞれ確定することは、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル、各前記参照テキストの単語埋め込みベクトルおよび各前記参照テキストの文字埋め込みベクトルをそれぞれ確定することと、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル及び第１事前設定ベクトル確定モデルに基づいて、前記対象テキストの第１埋め込みベクトルを確定することと、
前記対象テキスト及び第２事前設定ベクトル確定モデルに基づいて、前記対象テキストの第２埋め込みベクトルを確定することと、
各参照テキストに対して、該参照テキストの単語埋め込みベクトル、該参照テキストの文字埋め込みベクトル及び前記第１事前設定ベクトル確定モデルに基づいて、該参照テキストの第１埋め込みベクトルを確定し、該参照テキスト及び前記第２事前設定ベクトル確定モデルに基づいて、該参照テキストの第２埋め込みベクトルを確定することと、を備える請求項６に記載の方法。
前記の、前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトル、各前記参照テキストの第２埋め込みベクトル、各前記付加特徴情報に基づいて、実体リンキング結果を確定することは、
各参照テキストに対して、該参照テキストの第１埋め込みベクトル、該参照テキストの第２埋め込みベクトル及び該参照テキストに対応する候補実体の付加特徴情報を接続して、第１接続ベクトルを取得することと、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル及び各第１接続ベクトルを接続して、第２接続ベクトルを取得することと、
各前記第１接続ベクトル、前記第２接続ベクトル及び予め設定された分類モデルに基づいて、各前記候補実体と前記実体言及とのリンキング確率を確定することと、を備える請求項６に記載の方法。
対象テキストを取得するように構成される対象テキスト取得ユニットと、
前記対象テキストを認識して、前記対象テキストに含まれた少なくとも１つの実体言及を抽出するように構成される実体言及確定ユニットと、
予め設定された知識ベースから、各前記実体言及に対応する候補実体を探し出すように構成される候補実体確定ユニットと、
前記知識ベースにおける前記各前記候補実体に関連する記述情報を用いて、各前記候補実体の参照テキスト及び各前記候補実体の付加特徴情報を生成するように構成される付加情報確定ユニットと、
前記対象テキスト、各前記参照テキスト及び各前記付加特徴情報に基づいて、前記候補実体から実体リンキング結果を特定し、特定した実体リンキング結果を端末装置にフィードバックするように構成される実体リンキング確定ユニットと、を備え、
前記付加特徴情報は、実体埋め込みベクトルを含み、
前記付加情報確定ユニットは、
各候補実体に対して、前記知識ベースから該候補実体の記述情報を取得し、
前記知識ベースから該候補実体に関連するトリプルシーケンスを取得し、
前記候補実体、前記記述情報を、予めトレーニングされたベクトル確定モデルの第１確定サブモデルに入力して、前記第１確定サブモデルから出力されたベクトルを得、
前記出力されたベクトルと、前記トリプルシーケンスとを前記ベクトル確定モデルの第２確定サブモデルに入力して、前記第２確定サブモデルから出力された該候補実体の実体埋め込みベクトルを得るように構成される、
実体リンキング装置。
前記実体言及確定ユニットは、
対象テキストを、予めトレーニングされた言語認識モデルに入力して、前記対象テキストのテキスト埋め込みベクトル及び関連特徴ベクトルを得るように構成されるベクトル確定モジュールであって、であって、前記テキスト埋め込みベクトルは、前記対象テキストにおける各文字の埋め込みベクトルを有し、前記関連特徴ベクトルは、各文字の品詞又は各文字が実体に属する確率を表す、モジュールと、
前記テキスト埋め込みベクトル及び前記関連特徴ベクトルを融合して、融合ベクトルを取得するように構成されるベクトル融合モジュールと、
前記融合ベクトルを所定の分類関数に入力して、前記少なくとも１つの実体言及を得るように構成される実体言及確定モジュールと、を備える請求項９に記載の装置。
前記実体言及確定モジュールはさらに、
前記融合ベクトルに対して注意強化を行い、強化ベクトルを取得し、
前記分類関数により、前記強化ベクトルに対して分類を２回行い、それぞれ各実体言及の先頭位置と末尾位置を得、
得られた先頭位置と末尾位置に基づいて、各実体言及を確定するように構成される請求項１０に記載の装置。
前記付加情報確定ユニットは、
各候補実体に対して、該候補実体の少なくとも１つの記述テキストを取得し、各記述テキストを接続して、該候補実体の参照テキストを取得するように構成される参照テキスト確定モジュールを備える、請求項９に記載の装置。
前記付加特徴情報は、少なくとも１つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を含み、及び
前記付加情報確定ユニットは、
各候補実体に対して、該候補実体及び予め設定されたコンセプト予測モデルに基づいて、該候補実体の少なくとも１つの上位コンセプトと上位コンセプトのそれぞれに対応する確率を確定し、確率シーケンスを取得するように構成されるコンセプト予測モジュールを備える、
請求項９に記載の装置。
前記実体リンキング確定ユニットは、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトルおよび各前記参照テキストの第２埋め込みベクトルをそれぞれ確定するように構成される埋め込みベクトル確定モジュールであって、前記第１埋め込みベクトル及び前記第２埋め込みベクトルは、それぞれ、アルゴリズムの異なるベクトル確定モジュールにより得られた、モジュールと、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル、各前記参照テキストの第１埋め込みベクトル、各前記参照テキストの第２埋め込みベクトル、各前記付加特徴情報に基づいて、前記前記候補実体から実体リンキング結果を特定するように構成される実体リンキング確定モジュールと、を備える請求項９に記載の装置。
前記埋め込みベクトル確定モジュールはさらに、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル、各前記参照テキストの単語埋め込みベクトルおよび各前記参照テキストの文字埋め込みベクトルをそれぞれ確定し、
前記対象テキストの単語埋め込みベクトル、前記対象テキストの文字埋め込みベクトル及び第１事前設定ベクトル確定モデルに基づいて、前記対象テキストの第１埋め込みベクトルを確定し、
前記対象テキスト及び第２事前設定ベクトル確定モデルに基づいて、前記対象テキストの第２埋め込みベクトルを確定し、
各参照テキストに対して、該参照テキストの単語埋め込みベクトル、該参照テキストの文字埋め込みベクトル及び前記第１事前設定ベクトル確定モデルに基づいて、該参照テキストの第１埋め込みベクトルを確定し、該参照テキスト及び前記第２事前設定ベクトル確定モデルに基づいて、該参照テキストの第２埋め込みベクトルを確定するように構成される請求項１４に記載の装置。
前記実体リンキング確定モジュールはさらに、
各参照テキストに対して、該参照テキストの第１埋め込みベクトル、該参照テキストの第２埋め込みベクトル及び該参照テキストに対応する候補実体の付加特徴情報を接続して、第１接続ベクトルを取得し、
前記対象テキストの第１埋め込みベクトル、前記対象テキストの第２埋め込みベクトル及び各第１接続ベクトルを接続して、第２接続ベクトルを取得し、
各前記第１接続ベクトル、前記第２接続ベクトル及び予め設定された分類モデルに基づいて、各前記候補実体と前記実体言及とのリンキング確率を確定するように構成される請求項１４に記載の装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続される記憶装置とを備えており、
前記記憶装置に、前記少なくとも１つのプロセッサにより実行可能な指令が格納され、前記指令は、前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～８のいずれか一項に記載の方法が実行される電子機器。
コンピュータ指令が格納される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項１～８のいずれか一項に記載の方法を実行させることに用いられる非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～８のいずれか一項に記載の方法が実行される、コンピュータプログラム。