JP7317791B2

JP7317791B2 - エンティティ・リンキング方法、装置、機器、及び記憶媒体

Info

Publication number: JP7317791B2
Application number: JP2020206160A
Authority: JP
Inventors: ヂージェリュウ; チーワン; ヂーファンフォン; チュングアンチャイ; ヨンヂュ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-09
Filing date: 2020-12-11
Publication date: 2023-07-31
Anticipated expiration: 2040-12-11
Also published as: EP3923178A1; US20210383069A1; CN111428507B; KR20210152924A; KR102448129B1; CN111428507A; US11727216B2; JP2021197138A

Description

本願は、コンピュータの技術分野に関し、具体的には、ナレッジグラフ、深層学習の技術分野、特にエンティティ・リンキング方法、装置、機器、及び記憶媒体に関する。

機械は、テキストをよりよく理解できるように、しばしばテキスト中のエンティティを認識し、テキスト中のエンティティを対応する知識ベースにおけるエンティティと１対１で対応させる必要がある。知識ベースには、一般的に名称の同じエンティティが多いので、エンティティ・リンキング（ＥｎｔｉｔｙＬｉｎｋｉｎｇ）作業が必要である。エンティティ・リンキングは、多数の自然言語処理及び情報検索タスクに対して有益な支援作用を果たす。

従来のエンティティ・リンキング技術案では、外部知識情報が十分かつ効果的に利用できず、その結果、エンティティ・リンキングの正確性が低下する。

エンティティ・リンキング方法、装置、機器、及び記憶媒体を提供する。
第１の態様によれば、
ターゲットテキストを取得するステップと、
上記ターゲットテキストに含まれる少なくとも１つのエンティティ・メンション及び各上記エンティティ・メンションに対応する候補エンティティを決定するステップと、
各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定するステップと、
上記ターゲットテキスト及び各上記埋め込みベクトルに基づいて、上記ターゲットテキストのコンテキストセマンティック情報を決定するステップと、
上記少なくとも１つのエンティティ・メンションのタイプ情報を決定するステップと、各上記埋め込みベクトル、上記コンテキストセマンティック情報及び各上記タイプ情報に基づいて、上記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定するステップと、を含むエンティティ・リンキング方法を提供する。

第２の態様によれば、ターゲットテキストを取得するように構成されているターゲットテキスト取得ユニットと、上記ターゲットテキストに含まれる少なくとも１つのエンティティ・メンション及び各上記エンティティ・メンションに対応する候補エンティティを決定するように構成されている候補エンティティ決定ユニットと、各上記候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各上記候補エンティティの埋め込みベクトルを決定するように構成されている埋め込みベクトル決定ユニットと、上記ターゲットテキスト及び各上記埋め込みベクトルに基づいて、上記ターゲットテキストのコンテキストセマンティック情報を決定するように構成されているコンテキスト決定ユニットと、上記少なくとも１つのエンティティ・メンションのタイプ情報を決定するように構成されているタイプ情報決定ユニットと、各上記埋め込みベクトル、上記コンテキストセマンティック情報及び各上記タイプ情報に基づいて、上記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されているエンティティ・リンキングユニットと、を備えるエンティティ・リンキング装置を提供する。

第３の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を備え、メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、少なくとも１つのプロセッサにより実行されて、少なくとも１つのプロセッサに第１の態様に記載の方法を実行させるエンティティ・リンキング電子機器を提供する。

第４の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、上記コンピュータ命令はコンピュータに第１の態様に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

第５の態様によれば、プロセッサにより実行されると、第１の態様に記載の方法を実現するコンピュータ実行可能なプログラムを提供する。

本願の技術によれば、外部知識を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。

なお、本部分に記載の内容は、本開示の実施例のキー特徴又は重要な特徴を特定することを意図せず、また、本開示の範囲を制限するものではない。本開示のほかの特徴は、以下の明細書から容易に理解できる。

図面は、本技術案をよりよく理解することに用いられ、本願を限定するものではない。
本願の一実施例が適用できる例示的なシステムアーキテクチャ図である。本願に係るエンティティ・リンキング方法の一実施例のフローチャートである。本願に係るエンティティ・リンキング方法の１つの応用シナリオの模式図である。本願に係るエンティティ・リンキング方法において候補エンティティの埋め込みベクトルを決定する一実施例のフローチャートである。本願に係るエンティティ・リンキング方法においてコンテキストセマンティック情報を決定する一実施例のフローチャートである。図５に示す実施例においてＡｔｔｅｎｔｉｏｎメカニズムを利用してワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習する模式図である。本願に係るエンティティ・リンキング方法においてエンティティ・メンションのタイプ情報を決定する一実施例のフローチャートである。本願に係るエンティティ・リンキング方法の別の実施例のフローチャートである。本願に係るエンティティ・リンキング装置の一実施例の構造模式図である。本願の実施例のエンティティ・リンキング方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本願の例示的な実施例を説明し、理解を容易にするために、この例示的な実施例には、本願の実施例の各種の詳細が含まれ、この例示的な実施例は例示的なものとして理解すべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで説明する実施例についてさまざまな変化及び修正を行うことができる。同様に、明瞭さ及び簡素さから、以下の説明において、公知の機能及び構造については説明しない。

なお、矛盾しない限り、本願の実施例及び実施例の特徴を互いに組み合わせることができる。以下、図面を参照しながら実施例にて本願を詳細に説明する。

図１は本願のエンティティ・リンキング方法又はエンティティ・リンキング装置の実施例を応用できる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、及びサーバ１０５を含み得る。ネットワーク１０４は、端末機器１０１、１０２、１０３及びサーバ１０５の間で通信リンクの媒体を提供することに用いられる。ネットワーク１０４は、たとえば、有線、無線通信リンクや光ファイバケーブルなど、各種の接続タイプなどを提供できる。

ユーザは、端末機器１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５とインタラクションし、メッセージなどを送受信することができる。端末機器１０１、１０２、１０３には、さまざまな通信クライアントアプリケーション、たとえば検索用アプリケーションなどがインストールされ得る。

端末機器１０１、１０２、１０３は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器１０１、１０２、１０３は、ハードウェアである場合、各種の電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子ブックリーダ、オンボードコンピュータ、ラップトップコンピュータやデスクトップコンピュータなどを含むが、これらに制限されない。端末機器１０１、１０２、１０３は、ソフトウェアである場合、上記で挙げられた電子機器にインストールすることができる。複数のソフトウェア又はソフトウェアモジュール（たとえば分散式サービスを提供するため）として実装してもよく、単一のソフトウェア又はソフトウェアモジュールとして実装してもよい。ここでそれについては特に限定しない。

サーバ１０５は、各種のサービスを提供するサーバ、たとえば端末機器１０１、１０２、１０３が送信する情報を処理するバックエンドサーバであり得る。バックエンドサーバは、端末が送信するテキスト中のエンティティを認識し、上記エンティティと知識ベースにおけるエンティティとを関連付ける。実行主体は、またエンティティ・リンキング結果を端末機器１０１、１０２、１０３にフィードバックしてもよい。

なお、サーバ１０５はハードウェアであってもいし、ソフトウェアであってもよい。サーバ１０５は、ハードウェアである場合、複数のサーバからなる分散式サーバクラスターとして実装してもよく、単一のサーバとして実装してもよい。サーバ１０５は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（たとえば分散式サービスを提供するため）として実装してもよく、単一のソフトウェア又はソフトウェアモジュールとして実装してもよい。ここでそれについては特に限定しない。

なお、本願の実施例によるエンティティ・リンキング方法は、一般には、サーバ１０５により実行される。これに対応して、エンティティ・リンキング装置は一般にサーバ１０５に設置される。

当然ながら、図１における端末機器、ネットワーク及びサーバの数が例示的なものに過ぎない。実際なニーズに応じて、任意の数の端末機器、ネットワーク、及びサーバを有してもよい。

また、図２には、本願に係るエンティティ・リンキング方法の一実施例の手順２００が示されている。エンティティ・リンキングは、一般的には、エンティティ認識とエンティティの曖昧性解消との２つの部分を含み、エンティティ認識とは、テキスト中のエンティティを認識することを意味し、エンティティの曖昧性解消とは、認識されたエンティティを知識ベースに既存のエンティティと結びつけることを意味する。エンティティ・リンキングによってテキストのセマンティクスを正確に理解できる。本実施例のエンティティ・リンキング方法は、ステップ２０１～ステップ２０６を含む。

ステップ２０３、各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定する。
本実施例では、実行主体は、各候補エンティティを事前訓練されたエンティティ埋め込みベクトル決定モデルに入力し、各候補エンティティの埋め込みベクトル（ｅｍｂｅｄｄｉｎｇ）を得る。上記エンティティ埋め込みベクトル決定モデルは、候補エンティティと埋め込みベクトルとの間の対応関係を表す。上記エンティティ埋め込みベクトル決定モデルは、従来の複数の言語モデル、たとえば、Ｂｅｒｔ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、双方向Ｔｒａｎｓｆｏｒｍｅｒのエンコーダ）、Ｅｒｎｉｅ（Ｅｒｎｉｅは百度による深層学習フレームワークＰａｄｄｌｅＰａｄｄｌｅに基づいて構築されたもの）などであってもよい。埋め込みベクトルは、候補エンティティのベクトル表現であり、エンティティ・メンションのセマンティック情報を含む。

ステップ２０４、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定する。
実行主体は、また、ターゲットテキスト及び各候補エンティティの埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定することができる。具体的には、実行主体は、注意力メカニズムを利用して、候補エンティティの埋め込みベクトルを学習し、それにより、エンティティ・メンションセマンティクスと相関の最も高いコンテキスト語彙又はエンティティ・メンションセマンティクスと相関の最も高いコンテキストエンティティをターゲットテキストから選択する。ここでのコンテキストセマンティック情報は、これらのコンテキスト語彙又はエンティティを含むか、これらのコンテキスト語彙又はエンティティのベクトルを含み得る。たとえば、実行主体は、従来のエンコーディングアルゴリズムを用いてコンテキスト語彙をエンコーディングし、コンテキスト語彙のベクトルを得る。

ステップ２０６、各埋め込みベクトル、コンテキストセマンティック情報及び各タイプ情報に基づいて、少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定する。
実行主体は、得た各項情報に基づいて、各エンティティ・メンションのエンティティ・リンキング結果を決定することができる。具体的には、実行主体は、各項情報を予め設定されたモデルに入力し、各エンティティ・メンションのベクトルを決定し、次に、上記ベクトルと該エンティティ・メンションの候補エンティティのベクトルとの間の類似性を算出する。類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果とする。

図３は、本願に係るエンティティ・リンキング方法の１つの応用シナリオの模式図を示す。図３に示す応用シナリオでは、ユーザは端末３０１の検索用アプリケーションを通じて文「劉XXが『氷Y』を歌う」を入力する。サーバ３０２は、上記入力文を受信すると、エンティティ・メンションが「劉XX」と「氷Y」であることを把握する。サーバ３０２は、ステップ２０２～２０６の処理をした後、これらのエンティティに対して曖昧性を解消し、「中国香港の男優、歌手、プロデューサー、作詞家の劉XX」が正確なエンティティであると決定する。

本願の上記実施例によるエンティティ・リンキング方法は、エンティティ・リンキング中、エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキスト情報及びエンティティ・メンションのタイプ情報を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。

第１のベクトル決定モデルによって第１の埋め込みベクトルを得ることができ、第１のベクトルモデルは、エンティティとその記述テキスト中のセマンティクス関連ワードとの間の関係を学習し、得たエンティティの第１の埋め込みベクトルとセマンティクス関連ワードのベクトルとの間の距離をより近くすることができる。このようにして、第１の埋め込みベクトルは、エンティティのセマンティック情報を含み、エンティティ・リンキングの正確率向上に適用できる。第２のベクトル決定モデルによってエンティティとエンティティとの間の関係を学習できる。第２のベクトル決定モデルによって得た第２の埋め込みベクトルは、エンティティ同士の関係情報を含む。

上記第１のベクトル決定モデルと第２のベクトル決定モデルは、対応する深層学習タスクデータを訓練して得ることができる。複数の従来のモデル、たとえば言語モデル（ＬＭ）、長期短期メモリネットワーク（ＬＳＴＭ）などが含まれ得る。

図４に示すように、本実施例のエンティティ・リンキング方法は、ステップ４０１～ステップ４０５によって候補エンティティの埋め込みベクトルを決定できる。

ステップ４０１、各候補エンティティの記述テキストを取得する。
実行主体は、それぞれのエンティティ・メンションに対応する各候補エンティティを得た後、各候補エンティティの記述テキストを決定することができる。具体的には、実行主体は、知識ベース又はほかの電子機器から候補エンティティの記述テキストを取得できる。

ステップ４０４、各候補エンティティ同士の関係情報及び第２のベクトル決定モデルに基づいて、各エンティティ・メンションの第２の埋め込みベクトルを決定する。
実行主体は、各候補エンティティ同士の関係情報を得た後、各候補エンティティ同士の関係情報を第２のベクトル決定モデルに入力し、各候補エンティティの第２の埋め込みベクトルを得ることができる。第２のベクトル決定モデルは、このような関係情報を学習し、得た第２の埋め込みベクトルに当該関係情報を含め、それによりエンティティ・リンキング効果を高める。

ステップ４０５、第１の埋め込みベクトル及び第２の埋め込みベクトルに基づいて、埋め込みベクトルを決定する。
実行主体は、第１の埋め込みベクトル及び第２の埋め込みベクトルを得た後、両方について融合又はスプライシング又はほかの処理をして、埋め込みベクトルを得ることができる。
本願の上記実施例によるエンティティ・リンキング方法は、記述テキスト中の候補エンティティ同士の関係情報を十分に学習し、また候補エンティティのセマンティクス関連ワードを学習することにより、外部知識を十分に利用することで、エンティティ・リンキングの正確率を向上させることができる。
また、図５には、本願に係るエンティティ・リンキング方法においてコンテキストセマンティック情報を決定する一実施例の手順５００が示されている。図５に示すように、本実施例のエンティティ・リンキング方法は、ステップ５０１、ステップ５０２によってコンテキストセマンティック情報を決定し得る。

ステップ５０１、ターゲットテキストのワードベクトルシーケンスを決定する。
実行主体は、ターゲットテキストをワードベクトル決定モデルに入力し、ワードベクトルシーケンスを決定することができる。若しくは、実行主体は、まず、ターゲットテキストに対して単語分割を行う。次に、各分割単語をワードベクトル決定モデルに入力し、各単語のベクトルを得る。各単語のベクトルを組み合わせて、ワードベクトルシーケンスを得ることができる。上記ワードベクトル決定モデルは、ｃｈａｒ２ｖｅｃであってもよい。

ステップ５０２、ワードベクトルシーケンス及び各埋め込みベクトルに基づいて、コンテキストセマンティック情報を決定する。
実行主体は、注意力（Ａｔｔｅｎｔｉｏｎ）メカニズムを利用して、ワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習し、コンテキスト情報を決定することができる。ここでのコンテキスト情報は、ターゲットテキストを示すベクトルであってもよいし、ターゲットテキストを示す語彙などであってもよい。Ａｔｔｅｎｔｉｏｎメカニズムは、人間の注意力を模倣した問題解決手法であり、簡単に言えば、大量の情報から高価値情報を素早くスクリーニングすることである。

図６は、本実施例では、Ａｔｔｅｎｔｉｏｎメカニズムを用いてワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習する模式図を示す。図６には、左側はターゲットテキストのワードベクトルシーケンスであり、１列が１つのワードベクトルを示す。右側は各候補エンティティの埋め込みベクトルである。Ａｔｔｅｎｔｉｏｎメカニズムは、パラメータマトリックスＡを利用して両方を学習し、１つのベクトルを得る。該ベクトルは、ターゲットテキスト全体と候補エンティティとの関連性の情報を含み、該ベクトル中の各値は１つの重みを示す。該ベクトルとターゲットテキストのワードベクトルシーケンスとを加重平均して、最終的なコンテキストセマンティック情報を得る。

本実施例のいくつかの好適な実施形態では、ステップ５０１は、図５に示されてない以下のステップによって実現できる。少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、エンティティ・リンキング結果に対応するエンティティの埋め込みベクトルを決定し、決定した埋め込みベクトルを利用して、ワードベクトルシーケンスを更新する。

本実施形態では、実行主体は、各エンティティ・メンションのエンティティ・リンキング結果を取得できる。ターゲットテキストには複数のエンティティ・メンションが含まれる可能性があり、候補エンティティに結びつけたエンティティ・メンションが存在すれば、実行主体は、該候補エンティティの埋め込みベクトルを該エンティティ・メンションのワードベクトルとする。このようにして、得たワードベクトルに含まれるエンティティ・メンションの情報が多くなる。

本願の上記実施例によるエンティティ・リンキング方法は、注意力メカニズムを利用してターゲットテキストのコンテキスト情報を得ることができ、それによって、外部知識の利用率を向上させ、エンティティ・リンキング結果の正確率の向上に有利である。

また、図７には、本願に係るエンティティ・リンキング方法においてエンティティ・メンションのタイプ情報を決定する一実施例の手順７００が示されている。図７に示すように、本実施例は、ステップ７０１、ステップ７０２によってエンティティ・メンションのタイプ情報を決定し得る。

ステップ７０２、隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定する。
実行主体は、隠されたターゲットテキストを事前訓練された言語モデルに入力し、該エンティティ・メンションのタイプ情報を得ることができる。事前訓練された言語モデルは、Ｂｅｒｔ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、二方向Ｔｒａｎｓｆｏｒｍｅｒのエンコーダ）、Ｅｒｎｉｅ（Ｅｒｎｉｅは百度の深層学習フレームワークＰａｄｄｌｅＰａｄｄｌｅに基づいて建築された）などであってもよい。実行主体は、隠されたターゲットテキストを利用して事前訓練された言語モデルを微細調整することができる。このようにして、事前訓練された言語モデルは、ターゲットテキストのコンテキスト情報を強化学習し、即ち、隠されたエンティティ・メンションの隣接語彙と隠されたエンティティ・メンションとの間の関係を学習できる。上記言語モデルの出力はタイプ情報を示すベクトルであり、実行主体は、上記ベクトルを解析して、エンティティ・メンションのタイプ情報を決定する。

本願の上記実施例によるエンティティ・リンキング方法は、エンティティ・メンションのタイプ情報をキャプチャすることができ、このようにして、エンティティ・リンキングのタイプが間違うという問題を解決できる。

また、図８には、本願に係るエンティティ・リンキング方法の別の実施例の手順８００が示されている。図８に示すように、本実施例のエンティティ・リンキング方法は、ステップ８０１～ステップ８０６を含み得る。

ステップ８０１、ターゲットテキストを取得する。

ステップ８０２、ターゲットテキストに含まれる少なくとも１つのエンティティ・メンション及び各エンティティ・メンションに対応する候補エンティティを決定する。

ステップ８０３、各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定する。

ステップ８０４、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定する。

ステップ８０５、少なくとも１つのエンティティ・メンションのタイプ情報を決定する。

実行主体は、各エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキストセマンティック情報及び各エンティティ・メンションのタイプ情報を得た後、ステップ８０６１によってエンティティ・リンキング結果を得るか、ステップ８０６２、８０７２によってエンティティ・リンキング結果を得るか、ステップ８０６３、８０７３によってエンティティ・リンキング結果を得ることができる。

ステップ８０６１、各埋め込みベクトル、コンテキストセマンティック情報、各タイプ情報及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを上記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果とする。
本実施例では、実行主体は、各エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキストセマンティック情報及び各エンティティ・メンションのタイプ情報を上記ランク学習（ＬｅａｒｎｉｎｇｔｏＲａｎｋ、ＬＴＲ）モデルに入力し、それぞれのエンティティ・メンションに対応する各候補エンティティへのランクを得ることができる。実行主体は、それぞれのエンティティ・メンションに対応するランクのうち一位にある候補エンティティを、該エンティティ・メンションのエンティティ・リンキング結果とすることができる。
上記ＬＴＲモデルは、Ｐａｉｒｗｉｓｅアルゴリズム、Ｌｉｓｔｗｉｓｅアルゴリズム、及びＰｏｉｎｔｗｉｓｅアルゴリズムを含み得る。その中でも、Ｐａｉｒｗｉｓｅアルゴリズムは、ターゲットテキストと２つの候補エンティティ（１つの正の例と１つの負の例）を入力し、３つを併せた後、パーセプトロンネットワークによって、ランキング損失関数を使用して２つの候補エンティティのそれぞれについてスコアリングする。Ｌｉｓｔｗｉｓｅアルゴリズムでは、ターゲットテキストとすべての候補エンティティを入力し、ターゲットテキスト表示とすべての候補エンティティ表示を合わせ、ランキング損失関数を使用してそれぞれの候補エンティティについてスコアリングする。Ｐｏｉｎｔｗｉｓｅアルゴリズムは、ランクの問題を分類の問題に変換するものであり、ターゲットテキストと１つの候補エンティティを入力する必要があり、二分類予測結果の信頼度を候補エンティティスコアとして、分類損失関数を使用する。

ステップ８０６２、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定する。

ステップ８０７２、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定する。
本実施例では、エンティティ・メンションごとに、実行主体は、また、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報をスプライシングし、該エンティティ・メンションの１つのベクトル表示を得る。次に、該ベクトル表示と各候補エンティティのベクトルとの間の距離を算出する。ここで、距離とは、該エンティティ・メンションと各候補エンティティとの類似性を示す。次に、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果とすることができる。

ステップ８０６３、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定する。

ステップ８０７３、該エンティティ・メンションのタイプ情報を利用して、エンティティ・リンキング結果をチェックする。

本実施例では、エンティティ・メンションごとに、実行主体は、また、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定する。次に、エンティティ・メンションのタイプ情報を利用してエンティティ・リンキング結果をチェックし、それによって、エンティティ・リンキングの正確性がさらに向上する。

本願の上記実施例に係るエンティティ・リンキング方法は、エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキスト情報及びエンティティ・メンションのタイプ情報を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。

また、図９に示すように、上記各図に示す方法の実装として、本願は、エンティティ・リンキング装置の一実施例を提供し、該装置の実施例は、図２に示す方法の実施例に対応し、該装置は、具体的には、各種の電子機器に適用できる。

図９に示すように、本実施例の出力情報装置９００は、ターゲットテキスト取得ユニット９０１、候補エンティティ決定ユニット９０２、埋め込みベクトル決定ユニット９０３、コンテキスト決定ユニット９０４、タイプ情報決定ユニット９０５、及びエンティティ・リンキングユニット９０６を備える。

ターゲットテキスト取得ユニット９０１は、ターゲットテキストを取得するように構成されている。

候補エンティティ決定ユニット９０２は、ターゲットテキストに含まれる少なくとも１つのエンティティ・メンション及び各エンティティ・メンションに対応する候補エンティティを決定するように構成されている。

埋め込みベクトル決定ユニット９０３は、各候補エンティティ、及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各エンティティ・メンションの埋め込みベクトルを決定するように構成されている。

コンテキスト決定ユニット９０４は、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定するように構成されている。

タイプ情報決定ユニット９０５は、少なくとも１つのエンティティ・メンションのタイプ情報を決定するように構成されている。

エンティティ・リンキングユニット９０６は、各埋め込みベクトル、コンテキストセマンティック情報及び各タイプ情報に基づいて、少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されている。

本実施例のいくつかの好適な実施形態では、エンティティ埋め込みベクトル決定モデルは、第１のベクトル決定モデルと第２のベクトル決定モデルを含み、第１のベクトル決定モデルは、記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第２のベクトル決定モデルは、関係情報と埋め込みベクトルとの対応関係を表す。

本実施例のいくつかの好適な実施形態では、埋め込みベクトル決定ユニット９０３は、図９に示す第１のベクトル決定モジュール、第２のベクトル決定モジュール、及び埋め込みベクトル決定モジュールをさらに含んでもよい。

第１のベクトル決定モジュールは、各候補エンティティの記述テキストを取得し、各記述テキスト及び前記第１のベクトル決定モデルに基づいて、各候補エンティティの第１の埋め込みベクトルを決定するように構成されている。

第２のベクトル決定モジュールは、各前記候補エンティティ同士の関係情報を決定し、各前記候補エンティティ同士の関係情報及び前記第２のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第２の埋め込みベクトルを決定するように構成されている。

埋め込みベクトル決定モジュールは、第１の埋め込みベクトル及び第２の埋め込みベクトルに基づいて、埋め込みベクトルを決定するように構成されている。

本実施例のいくつかの好適な実施形態では、コンテキスト決定ユニット９０４は、図９に示されていないワードベクトルシーケンス決定モジュール、及びコンテキスト決定モジュールをさらに含んでもよい。

ワードベクトルシーケンス決定モジュールは、ターゲットテキストのワードベクトルシーケンスを決定するように構成されている。

コンテキスト決定モジュールは、ワードベクトルシーケンス及び各埋め込みベクトルに基づいて、コンテキストセマンティック情報を決定するように構成されている。

本実施例のいくつかの好適な実施形態では、ワードベクトルシーケンス決定モジュールは、さらに、少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定し、決定した埋め込みベクトルを利用して、ワードベクトルシーケンスを更新するように構成されてもよい。

本実施例のいくつかの好適な実施形態では、タイプ情報決定ユニット９０５は、さらに、エンティティ・メンションごとに、ターゲットテキストにおいてこのエンティティ・メンションを隠し、隠したターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するように構成されてもよい。

本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット９０６は、さらに、各埋め込みベクトル、コンテキストセマンティック情報、各タイプ情報及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを上記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果とするように構成されてもよい。

本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット９０６は、さらに、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定し、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するように構成されてもよい。

本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット９０６は、さらに、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定し、該エンティティ・メンションのタイプ情報を利用して、エンティティ・リンキング結果をチェックするように構成されてもよい。

なお、エンティティ・リンキング装置９００に記載のユニット９０１～ユニット９０５は、それぞれ図２に記載の方法の各ステップに対応する。それによって、以上エンティティ・リンキング方法について記載の操作及び特徴は、装置９００及びそれに含まれるユニットに適用できるので、ここで詳しく説明しない。

本願に係る実施例では、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図１０に示すように、本願の実施例に係るエンティティ・リンキング方法を実行する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、テーブル、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器はまた、パーソナル・デジタル・プロセッシング、携帯電話、スマートフォン、ウェアラブル・デバイス、及び他の類似した計算装置などの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されたコンポーネント、それらの接続及び関係、ならびにそれらの機能は一例にすぎず、本明細書に記載及び／又は要求される本願の実装を制限することを意図していない。

図１０に示すように、該電子機器は、１つ又は複数のプロセッサ１００１と、メモリ１００２と、高速インタフェース及び低速インタフェースを含むコンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに実装するか、必要に応じて他の方式で装着することができる。プロセッサは、電子機器内で実行される命令を処理することができ、この命令は、外部入力／出力装置（たとえば、インタフェースに結合された表示機器）にＧＵＩのグラフィカル情報を表示するためにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器が接続されてもよく、各機器は必要な一部の動作を提供する（たとえば、サーバアレイ、１組のブレードサーバ、マルチプロセッサシステムとして機能する）。図１０には、１つのプロセッサ１００１が例示されている。

メモリ１００２は、本願による非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサに実行可能な命令を記憶しており、それにより、本願によるエンティティ・リンキングの実行方法を、少なくとも１つのプロセッサに実行させる。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願によるエンティティ・リンキングの実行方法をコンピュータに実行させるためのコンピュータ命令を記憶している。

メモリ１００２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、及びモジュール、たとえば本願の実施例におけるエンティティ・リンキングの実行方法に対応するプログラム命令／モジュール（たとえば、図９に示すターゲットテキスト取得ユニット９０１、候補エンティティ決定ユニット９０２、埋め込みベクトル決定ユニット９０３、コンテキスト決定ユニット９０４、タイプ情報決定ユニット９０５、及びエンティティ・リンキングユニット９０６）を記憶するために使用することができる。プロセッサ１００１は、メモリ１００２に記憶された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、つまり、上記方法の実施例におけるエンティティ・リンキングの実行方法を実現する。

メモリ１００２は、オペレーティングシステム、少なくとも１つの機能に必要とされるアプリケーションプログラムを記憶することができるプログラム記憶領域と、エンティティ・リンキングを実行する電子機器の使用に伴って作成されたデータなどを記憶することができるデータ記憶領域と、を含むことができる。さらに、メモリ１００２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスのような非一時的なメモリも含むことができる。いくつかの実施例では、メモリ１００２は、プロセッサ１００１に対して遠隔的に配置されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介してエンティティ・リンキングを実行する電子機器に接続することができる。上記ネットワークの例としては、インタネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されるものではない。

エンティティ・リンキング方法を実行する電子機器は、入力装置１００３及び出力装置１００４をさらに含むことができる。プロセッサ１００１、メモリ１００２、入力装置１００３、及び出力装置１００４は、バス又は他の方式で接続されてもよく、図１０ではバスを介して接続されていることが例示されている。

入力装置１００３は、入力された数字又は文字情報を受信すること、及びエンティティ・リンキングを実行する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１００４は、表示機器、補助照明装置（たとえば、ＬＥＤ）や触覚フィードバック装置（たとえば、振動モータ）などを含むことができる。この表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

ここで記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装され得る。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブル・プロセッサを含むプログラマブル・システム上で実行及び／又は解釈することができ、このプログラマブル・プロセッサは、専用又は汎用プログラマブル・プロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信したり、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を伝送したりすることができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブル・プロセッサの機械命令を含み、これらのコンピューティングプログラムは、高度なプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブラ／機械言語を利用して実装され得る。本明細書で使用される用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブル・プロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置（ＰＬＤ））を意味し、機械命令を機械読み取り可能な信号として受信する機械読み取り可能な媒体を含む。機械読み取り可能な信号という用語は、機械命令及び／又はデータをプログラマブル・プロセッサに提供するために使用される任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで記載のシステム及び技術はコンピュータ上で実施され得、このコンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティング装置（たとえば、マウス又はトラックボール）とを有し、ユーザはこのキーボード及びポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために使用されてもよく、たとえば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、ユーザからの入力は、任意の形態（音響入力、音声入力、又は触覚入力を含む）で受信することができる。

ここで記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ。ユーザがこのグラフィカルユーザインタフェース又はウェブブラウザを介してここで記載のシステム及び技術の実施形態とインタラクションすることができる。）、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステム内で実行される。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）を介して、相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインタネットを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般的には互いに離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、互いにクライアント－サーバ関係を有するコンピュータプログラムを対応するコンピュータ上で実行することによって生成される。
本願の実施例の技術案によれば、外部知識を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。

なお、上記した様々な形態の手順を使用して、ステップの順序変更、追加、削除をすることができる。たとえば、本願に記載された各ステップは、本願に開示された技術案によって期待される結果が達成される限り、並列して実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいし、本明細書ではそれについて制限しない。

上記の具体的な実施形態は、本願の特許範囲を制限するものではない。当業者が理解できるように、設計の要件及びほかの要因に応じて、様々な変更、組み合わせ、サブ組み合わせ及び代替が可能である。本願の精神及び原則の範囲内で行われた修正，均等な置換及び改良などは，すべて本願の特範囲に含まれるものとする。

Claims

エンティティ・リンキング装置により実行される方法であって、
ターゲットテキストを取得するターゲットテキスト取得ステップと、
前記ターゲットテキストに対して単語分割処理及び／または命名エンティティ認識処理を行って、前記ターゲットテキストに含まれる少なくとも１つのエンティティ・メンションを決定し、エンティティ・メンションと対応するエンティティとを関連して記憶した予め設定された知識ベースから、各前記エンティティ・メンションに対応する候補エンティティを決定する候補エンティティ決定ステップと、
各前記候補エンティティを予め設定されたエンティティ埋め込みベクトル決定モデルに入力して、各前記候補エンティティの埋め込みベクトルを決定する埋め込みベクトル決定ステップであって、前記エンティティ埋め込みベクトル決定モデルは、エンティティと埋め込みベクトルとの間の対応関係を表すためのモデルであり、前記埋め込みベクトルに、エンティティ・メンションのセマンティック情報が含まれる、ステップと、
前記候補エンティティの埋め込みベクトルを学習して、前記ターゲットテキストから、前記エンティティ・メンションのセマンティックに関連の最も高いコンテキスト語彙又はコンテキストエンティティを選び出し、前記ターゲットテキストのコンテキストセマンティック情報として決定するコンテキスト決定ステップと、
前記ターゲットテキストのコンテキストセマンティック情報に基づいて、前記少なくとも１つのエンティティ・メンションのタイプ情報を決定するタイプ情報決定ステップと、
各前記埋め込みベクトル、前記コンテキストセマンティック情報及び各前記タイプ情報に基づいて、前記少なくとも１つのエンティティ・メンションのベクトルを決定し、前記決定したベクトルと前記候補エンティティの埋め込みベクトルとの間の類似度を算出し、前記算出した類似度に基づいて、前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定するエンティティ・リンキングステップと、を含む方法。
前記エンティティ埋め込みベクトル決定モデルは、第１のベクトル決定モデルと第２のベクトル決定モデルを含み、前記第１のベクトル決定モデルは、エンティティの記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第２のベクトル決定モデルは、エンティティ同士の関係情報と埋め込みベクトルとの対応関係を表す、請求項１に記載の方法。
前記埋め込みベクトル決定ステップは、
各前記候補エンティティの記述テキストを取得するステップと、
各前記記述テキスト及び前記第１のベクトル決定モデルに基づいて、各前記候補エンティティの第１の埋め込みベクトルを決定するステップと、
各前記候補エンティティ同士の関係情報を決定するステップと、
各前記候補エンティティ同士の関係情報及び前記第２のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第２の埋め込みベクトルを決定するステップと、
前記第１の埋め込みベクトル及び前記第２の埋め込みベクトルに基づいて、各前記候補エンティティの埋め込みベクトルを決定するステップと、を含む、請求項２に記載の方法。
前記コンテキスト決定ステップは、
前記ターゲットテキストのワードベクトルシーケンスを決定するステップと、
前記ワードベクトルシーケンス及び各前記埋め込みベクトルに基づいて、前記コンテキストセマンティック情報を決定するステップと、を含む、請求項１に記載の方法。
前記ターゲットテキストのワードベクトルシーケンスを決定する前記ステップは、
前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、前記エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定するステップと、
決定された埋め込みベクトルを利用して、前記ワードベクトルシーケンスを更新するステップと、を含む、請求項４に記載の方法。
前記タイプ情報決定ステップは、
エンティティ・メンションごとに、前記ターゲットテキストにおいてこのエンティティ・メンションを隠すステップと、
隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するステップと、を含む、請求項１に記載の方法。
前記エンティティ・リンキングステップは、
各前記埋め込みベクトル、前記コンテキストセマンティック情報、各前記タイプ情報、及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果とするステップを含む、請求項１に記載の方法。
前記エンティティ・リンキングステップは、
エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報、及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定するステップと、
類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するステップと、を含む、請求項１に記載の方法。
前記エンティティ・リンキングステップは、
エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定するステップと、
該エンティティ・メンションのタイプ情報を利用して、前記エンティティ・リンキング結果をチェックするステップと、を含む、請求項１に記載の方法。
エンティティ・リンキング装置であって、
ターゲットテキストを取得するように構成されているターゲットテキスト取得ユニットと、
前記ターゲットテキストに対して単語分割処理及び／または命名エンティティ認識処理を行って、前記ターゲットテキストに含まれる少なくとも１つのエンティティ・メンションを決定し、エンティティ・メンションと対応するエンティティとを関連して記憶した予め設定された知識ベースから、各前記エンティティ・メンションに対応する候補エンティティを決定するように構成されている候補エンティティ決定ユニットと、
各前記候補エンティティを予め設定されたエンティティ埋め込みベクトル決定モデルに入力して、各前記候補エンティティの埋め込みベクトルを決定するように構成されている埋め込みベクトル決定ユニットであって、前記エンティティ埋め込みベクトル決定モデルは、エンティティと埋め込みベクトルとの間の対応関係を表すためのモデルであり、前記埋め込みベクトルに、エンティティ・メンションのセマンティック情報が含まれる、ユニットと、
前記候補エンティティの埋め込みベクトルを学習して、前記ターゲットテキストから、前記エンティティ・メンションのセマンティックに関連の最も高いコンテキスト語彙又はコンテキストエンティティを選び出し、前記ターゲットテキストのコンテキストセマンティック情報として決定するように構成されているコンテキスト決定ユニットと、
前記ターゲットテキストのコンテキストセマンティック情報に基づいて、前記少なくとも１つのエンティティ・メンションのタイプ情報を決定するように構成されているタイプ情報決定ユニットと、
各前記埋め込みベクトル、前記コンテキストセマンティック情報及び各前記タイプ情報に基づいて、前記少なくとも１つのエンティティ・メンションのベクトルを決定し、前記決定したベクトルと前記候補エンティティの埋め込みベクトルとの間の類似度を算出し、前記算出した類似度に基づいて、前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されているエンティティ・リンキングユニットと、を備える、エンティティ・リンキング装置。
前記エンティティ埋め込みベクトル決定モデルは、第１のベクトル決定モデルと第２のベクトル決定モデルを含み、前記第１のベクトル決定モデルは、記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第２のベクトル決定モデルは、関係情報と埋め込みベクトルとの対応関係を表す、請求項１０に記載の装置。
前記埋め込みベクトル決定ユニットは、第１のベクトル決定モジュール、第２のベクトル決定モジュール、及び埋め込みベクトル決定モジュールを備え、
前記第１のベクトル決定モジュールは、各前記候補エンティティの記述テキストを取得し、各前記記述テキスト及び前記第１のベクトル決定モデルに基づいて、各前記候補エンティティの第１の埋め込みベクトルを決定するように構成されており、
前記第２のベクトル決定モジュールは、各前記候補エンティティ同士の関係情報を決定し、各前記候補エンティティ同士の関係情報及び前記第２のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第２の埋め込みベクトルを決定するように構成されており、
前記埋め込みベクトル決定モジュールは、前記第１の埋め込みベクトル及び前記第２の埋め込みベクトルに基づいて、各前記候補エンティティの埋め込みベクトルを決定するように構成されている、請求項１１に記載の装置。
前記コンテキスト決定ユニットは、
前記ターゲットテキストのワードベクトルシーケンスを決定するように構成されているワードベクトルシーケンス決定モジュールと、
前記ワードベクトルシーケンス及び各前記埋め込みベクトルに基づいて、前記コンテキストセマンティック情報を決定するように構成されているコンテキスト決定モジュールと、を備える、請求項１０に記載の装置。
前記ワードベクトルシーケンス決定モジュールは、さらに、
前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、前記エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定し、
決定された埋め込みベクトルを利用して、前記ワードベクトルシーケンスを更新するように構成されている、請求項１３に記載の装置。
前記タイプ情報決定ユニットは、さらに、
エンティティ・メンションごとに、前記ターゲットテキストにおいてこのエンティティ・メンションを隠し、
隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するように構成されている、請求項１０に記載の装置。
前記エンティティ・リンキングユニットは、さらに、
各前記埋め込みベクトル、前記コンテキストセマンティック情報、各前記タイプ情報、及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを前記少なくとも１つのエンティティ・メンションのエンティティ・リンキング結果とするように構成されている、請求項１０に記載の装置。
前記エンティティ・リンキングユニットは、さらに、
エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報、及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定し、
類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するように構成されている、請求項１０に記載の装置。
前記エンティティ・リンキングユニットは、さらに、
エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定し、
該エンティティ・メンションのタイプ情報を利用して、前記エンティティ・リンキング結果をチェックするように構成されている、請求項１７に記載の装置。
エンティティ・リンキング電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサにより実行されて、前記少なくとも１つのプロセッサに請求項１～９のいずれか１項に記載の方法を実行させる、エンティティ・リンキング電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項１～９のいずれか１項に記載の方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサにより実行されると、請求項１～９のいずれか１項に記載の方法を実現するコンピュータ実行可能なプログラム。