JP7317791B2 - エンティティ・リンキング方法、装置、機器、及び記憶媒体 - Google Patents

エンティティ・リンキング方法、装置、機器、及び記憶媒体 Download PDF

Info

Publication number
JP7317791B2
JP7317791B2 JP2020206160A JP2020206160A JP7317791B2 JP 7317791 B2 JP7317791 B2 JP 7317791B2 JP 2020206160 A JP2020206160 A JP 2020206160A JP 2020206160 A JP2020206160 A JP 2020206160A JP 7317791 B2 JP7317791 B2 JP 7317791B2
Authority
JP
Japan
Prior art keywords
entity
vector
mention
candidate
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020206160A
Other languages
English (en)
Other versions
JP2021197138A (ja
Inventor
ヂージェ リュウ
チー ワン
ヂーファン フォン
チュングアン チャイ
ヨン ヂュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021197138A publication Critical patent/JP2021197138A/ja
Application granted granted Critical
Publication of JP7317791B2 publication Critical patent/JP7317791B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Description

本願は、コンピュータの技術分野に関し、具体的には、ナレッジグラフ、深層学習の技術分野、特にエンティティ・リンキング方法、装置、機器、及び記憶媒体に関する。
機械は、テキストをよりよく理解できるように、しばしばテキスト中のエンティティを認識し、テキスト中のエンティティを対応する知識ベースにおけるエンティティと1対1で対応させる必要がある。知識ベースには、一般的に名称の同じエンティティが多いので、エンティティ・リンキング(Entity Linking)作業が必要である。エンティティ・リンキングは、多数の自然言語処理及び情報検索タスクに対して有益な支援作用を果たす。
従来のエンティティ・リンキング技術案では、外部知識情報が十分かつ効果的に利用できず、その結果、エンティティ・リンキングの正確性が低下する。
エンティティ・リンキング方法、装置、機器、及び記憶媒体を提供する。
第1の態様によれば、
ターゲットテキストを取得するステップと、
上記ターゲットテキストに含まれる少なくとも1つのエンティティ・メンション及び各上記エンティティ・メンションに対応する候補エンティティを決定するステップと、
各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定するステップと、
上記ターゲットテキスト及び各上記埋め込みベクトルに基づいて、上記ターゲットテキストのコンテキストセマンティック情報を決定するステップと、
上記少なくとも1つのエンティティ・メンションのタイプ情報を決定するステップと、各上記埋め込みベクトル、上記コンテキストセマンティック情報及び各上記タイプ情報に基づいて、上記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定するステップと、を含むエンティティ・リンキング方法を提供する。
第2の態様によれば、ターゲットテキストを取得するように構成されているターゲットテキスト取得ユニットと、上記ターゲットテキストに含まれる少なくとも1つのエンティティ・メンション及び各上記エンティティ・メンションに対応する候補エンティティを決定するように構成されている候補エンティティ決定ユニットと、各上記候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各上記候補エンティティの埋め込みベクトルを決定するように構成されている埋め込みベクトル決定ユニットと、上記ターゲットテキスト及び各上記埋め込みベクトルに基づいて、上記ターゲットテキストのコンテキストセマンティック情報を決定するように構成されているコンテキスト決定ユニットと、上記少なくとも1つのエンティティ・メンションのタイプ情報を決定するように構成されているタイプ情報決定ユニットと、各上記埋め込みベクトル、上記コンテキストセマンティック情報及び各上記タイプ情報に基づいて、上記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されているエンティティ・リンキングユニットと、を備えるエンティティ・リンキング装置を提供する。
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を備え、メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、少なくとも1つのプロセッサにより実行されて、少なくとも1つのプロセッサに第1の態様に記載の方法を実行させるエンティティ・リンキング電子機器を提供する。
第4の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、上記コンピュータ命令はコンピュータに第1の態様に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
第5の態様によれば、プロセッサにより実行されると、第1の態様に記載の方法を実現するコンピュータ実行可能なプログラムを提供する。
本願の技術によれば、外部知識を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。
なお、本部分に記載の内容は、本開示の実施例のキー特徴又は重要な特徴を特定することを意図せず、また、本開示の範囲を制限するものではない。本開示のほかの特徴は、以下の明細書から容易に理解できる。
図面は、本技術案をよりよく理解することに用いられ、本願を限定するものではない。
本願の一実施例が適用できる例示的なシステムアーキテクチャ図である。 本願に係るエンティティ・リンキング方法の一実施例のフローチャートである。 本願に係るエンティティ・リンキング方法の1つの応用シナリオの模式図である。 本願に係るエンティティ・リンキング方法において候補エンティティの埋め込みベクトルを決定する一実施例のフローチャートである。 本願に係るエンティティ・リンキング方法においてコンテキストセマンティック情報を決定する一実施例のフローチャートである。 図5に示す実施例においてAttentionメカニズムを利用してワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習する模式図である。 本願に係るエンティティ・リンキング方法においてエンティティ・メンションのタイプ情報を決定する一実施例のフローチャートである。 本願に係るエンティティ・リンキング方法の別の実施例のフローチャートである。 本願に係るエンティティ・リンキング装置の一実施例の構造模式図である。 本願の実施例のエンティティ・リンキング方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本願の例示的な実施例を説明し、理解を容易にするために、この例示的な実施例には、本願の実施例の各種の詳細が含まれ、この例示的な実施例は例示的なものとして理解すべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで説明する実施例についてさまざまな変化及び修正を行うことができる。同様に、明瞭さ及び簡素さから、以下の説明において、公知の機能及び構造については説明しない。
なお、矛盾しない限り、本願の実施例及び実施例の特徴を互いに組み合わせることができる。以下、図面を参照しながら実施例にて本願を詳細に説明する。
図1は本願のエンティティ・リンキング方法又はエンティティ・リンキング装置の実施例を応用できる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104、及びサーバ105を含み得る。ネットワーク104は、端末機器101、102、103及びサーバ105の間で通信リンクの媒体を提供することに用いられる。ネットワーク104は、たとえば、有線、無線通信リンクや光ファイバケーブルなど、各種の接続タイプなどを提供できる。
ユーザは、端末機器101、102、103を使用して、ネットワーク104を介してサーバ105とインタラクションし、メッセージなどを送受信することができる。端末機器101、102、103には、さまざまな通信クライアントアプリケーション、たとえば検索用アプリケーションなどがインストールされ得る。
端末機器101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器101、102、103は、ハードウェアである場合、各種の電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子ブックリーダ、オンボードコンピュータ、ラップトップコンピュータやデスクトップコンピュータなどを含むが、これらに制限されない。端末機器101、102、103は、ソフトウェアである場合、上記で挙げられた電子機器にインストールすることができる。複数のソフトウェア又はソフトウェアモジュール(たとえば分散式サービスを提供するため)として実装してもよく、単一のソフトウェア又はソフトウェアモジュールとして実装してもよい。ここでそれについては特に限定しない。
サーバ105は、各種のサービスを提供するサーバ、たとえば端末機器101、102、103が送信する情報を処理するバックエンドサーバであり得る。バックエンドサーバは、端末が送信するテキスト中のエンティティを認識し、上記エンティティと知識ベースにおけるエンティティとを関連付ける。実行主体は、またエンティティ・リンキング結果を端末機器101、102、103にフィードバックしてもよい。
なお、サーバ105はハードウェアであってもいし、ソフトウェアであってもよい。サーバ105は、ハードウェアである場合、複数のサーバからなる分散式サーバクラスターとして実装してもよく、単一のサーバとして実装してもよい。サーバ105は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(たとえば分散式サービスを提供するため)として実装してもよく、単一のソフトウェア又はソフトウェアモジュールとして実装してもよい。ここでそれについては特に限定しない。
なお、本願の実施例によるエンティティ・リンキング方法は、一般には、サーバ105により実行される。これに対応して、エンティティ・リンキング装置は一般にサーバ105に設置される。
当然ながら、図1における端末機器、ネットワーク及びサーバの数が例示的なものに過ぎない。実際なニーズに応じて、任意の数の端末機器、ネットワーク、及びサーバを有してもよい。
また、図2には、本願に係るエンティティ・リンキング方法の一実施例の手順200が示されている。エンティティ・リンキングは、一般的には、エンティティ認識とエンティティの曖昧性解消との2つの部分を含み、エンティティ認識とは、テキスト中のエンティティを認識することを意味し、エンティティの曖昧性解消とは、認識されたエンティティを知識ベースに既存のエンティティと結びつけることを意味する。エンティティ・リンキングによってテキストのセマンティクスを正確に理解できる。本実施例のエンティティ・リンキング方法は、ステップ201~ステップ206を含む。

Figure 0007317791000001
Figure 0007317791000002
ステップ203、各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定する。
本実施例では、実行主体は、各候補エンティティを事前訓練されたエンティティ埋め込みベクトル決定モデルに入力し、各候補エンティティの埋め込みベクトル(embedding)を得る。上記エンティティ埋め込みベクトル決定モデルは、候補エンティティと埋め込みベクトルとの間の対応関係を表す。上記エンティティ埋め込みベクトル決定モデルは、従来の複数の言語モデル、たとえば、Bert(Bidirectional Encoder Representation from Transformers、双方向Transformerのエンコーダ)、Ernie(Ernieは百度による深層学習フレームワークPaddlePaddleに基づいて構築されたもの)などであってもよい。埋め込みベクトルは、候補エンティティのベクトル表現であり、エンティティ・メンションのセマンティック情報を含む。
ステップ204、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定する。
実行主体は、また、ターゲットテキスト及び各候補エンティティの埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定することができる。具体的には、実行主体は、注意力メカニズムを利用して、候補エンティティの埋め込みベクトルを学習し、それにより、エンティティ・メンションセマンティクスと相関の最も高いコンテキスト語彙又はエンティティ・メンションセマンティクスと相関の最も高いコンテキストエンティティをターゲットテキストから選択する。ここでのコンテキストセマンティック情報は、これらのコンテキスト語彙又はエンティティを含むか、これらのコンテキスト語彙又はエンティティのベクトルを含み得る。たとえば、実行主体は、従来のエンコーディングアルゴリズムを用いてコンテキスト語彙をエンコーディングし、コンテキスト語彙のベクトルを得る。

Figure 0007317791000003
ステップ206、各埋め込みベクトル、コンテキストセマンティック情報及び各タイプ情報に基づいて、少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定する。
実行主体は、得た各項情報に基づいて、各エンティティ・メンションのエンティティ・リンキング結果を決定することができる。具体的には、実行主体は、各項情報を予め設定されたモデルに入力し、各エンティティ・メンションのベクトルを決定し、次に、上記ベクトルと該エンティティ・メンションの候補エンティティのベクトルとの間の類似性を算出する。類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果とする。
図3は、本願に係るエンティティ・リンキング方法の1つの応用シナリオの模式図を示す。図3に示す応用シナリオでは、ユーザは端末301の検索用アプリケーションを通じて文「劉XXが『氷Y』を歌う」を入力する。サーバ302は、上記入力文を受信すると、エンティティ・メンションが「劉XX」と「氷Y」であることを把握する。サーバ302は、ステップ202~206の処理をした後、これらのエンティティに対して曖昧性を解消し、「中国香港の男優、歌手、プロデューサー、作詞家の劉XX」が正確なエンティティであると決定する。
本願の上記実施例によるエンティティ・リンキング方法は、エンティティ・リンキング中、エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキスト情報及びエンティティ・メンションのタイプ情報を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。
Figure 0007317791000004
第1のベクトル決定モデルによって第1の埋め込みベクトルを得ることができ、第1のベクトルモデルは、エンティティとその記述テキスト中のセマンティクス関連ワードとの間の関係を学習し、得たエンティティの第1の埋め込みベクトルとセマンティクス関連ワードのベクトルとの間の距離をより近くすることができる。このようにして、第1の埋め込みベクトルは、エンティティのセマンティック情報を含み、エンティティ・リンキングの正確率向上に適用できる。第2のベクトル決定モデルによってエンティティとエンティティとの間の関係を学習できる。第2のベクトル決定モデルによって得た第2の埋め込みベクトルは、エンティティ同士の関係情報を含む。
上記第1のベクトル決定モデルと第2のベクトル決定モデルは、対応する深層学習タスクデータを訓練して得ることができる。複数の従来のモデル、たとえば言語モデル(LM)、長期短期メモリネットワーク(LSTM)などが含まれ得る。
図4に示すように、本実施例のエンティティ・リンキング方法は、ステップ401~ステップ405によって候補エンティティの埋め込みベクトルを決定できる。
ステップ401、各候補エンティティの記述テキストを取得する。
実行主体は、それぞれのエンティティ・メンションに対応する各候補エンティティを得た後、各候補エンティティの記述テキストを決定することができる。具体的には、実行主体は、知識ベース又はほかの電子機器から候補エンティティの記述テキストを取得できる。
Figure 0007317791000005
Figure 0007317791000006
ステップ404、各候補エンティティ同士の関係情報及び第2のベクトル決定モデルに基づいて、各エンティティ・メンションの第2の埋め込みベクトルを決定する。
実行主体は、各候補エンティティ同士の関係情報を得た後、各候補エンティティ同士の関係情報を第2のベクトル決定モデルに入力し、各候補エンティティの第2の埋め込みベクトルを得ることができる。第2のベクトル決定モデルは、このような関係情報を学習し、得た第2の埋め込みベクトルに当該関係情報を含め、それによりエンティティ・リンキング効果を高める。
ステップ405、第1の埋め込みベクトル及び第2の埋め込みベクトルに基づいて、埋め込みベクトルを決定する。
実行主体は、第1の埋め込みベクトル及び第2の埋め込みベクトルを得た後、両方について融合又はスプライシング又はほかの処理をして、埋め込みベクトルを得ることができる。
本願の上記実施例によるエンティティ・リンキング方法は、記述テキスト中の候補エンティティ同士の関係情報を十分に学習し、また候補エンティティのセマンティクス関連ワードを学習することにより、外部知識を十分に利用することで、エンティティ・リンキングの正確率を向上させることができる。
また、図5には、本願に係るエンティティ・リンキング方法においてコンテキストセマンティック情報を決定する一実施例の手順500が示されている。図5に示すように、本実施例のエンティティ・リンキング方法は、ステップ501、ステップ502によってコンテキストセマンティック情報を決定し得る。
ステップ501、ターゲットテキストのワードベクトルシーケンスを決定する。
実行主体は、ターゲットテキストをワードベクトル決定モデルに入力し、ワードベクトルシーケンスを決定することができる。若しくは、実行主体は、まず、ターゲットテキストに対して単語分割を行う。次に、各分割単語をワードベクトル決定モデルに入力し、各単語のベクトルを得る。各単語のベクトルを組み合わせて、ワードベクトルシーケンスを得ることができる。上記ワードベクトル決定モデルは、char2vecであってもよい。
ステップ502、ワードベクトルシーケンス及び各埋め込みベクトルに基づいて、コンテキストセマンティック情報を決定する。
実行主体は、注意力(Attention)メカニズムを利用して、ワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習し、コンテキスト情報を決定することができる。ここでのコンテキスト情報は、ターゲットテキストを示すベクトルであってもよいし、ターゲットテキストを示す語彙などであってもよい。Attentionメカニズムは、人間の注意力を模倣した問題解決手法であり、簡単に言えば、大量の情報から高価値情報を素早くスクリーニングすることである。
図6は、本実施例では、Attentionメカニズムを用いてワードベクトルシーケンス及び各候補エンティティの埋め込みベクトルを学習する模式図を示す。図6には、左側はターゲットテキストのワードベクトルシーケンスであり、1列が1つのワードベクトルを示す。右側は各候補エンティティの埋め込みベクトルである。Attentionメカニズムは、パラメータマトリックスAを利用して両方を学習し、1つのベクトルを得る。該ベクトルは、ターゲットテキスト全体と候補エンティティとの関連性の情報を含み、該ベクトル中の各値は1つの重みを示す。該ベクトルとターゲットテキストのワードベクトルシーケンスとを加重平均して、最終的なコンテキストセマンティック情報を得る。
本実施例のいくつかの好適な実施形態では、ステップ501は、図5に示されてない以下のステップによって実現できる。少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、エンティティ・リンキング結果に対応するエンティティの埋め込みベクトルを決定し、決定した埋め込みベクトルを利用して、ワードベクトルシーケンスを更新する。
本実施形態では、実行主体は、各エンティティ・メンションのエンティティ・リンキング結果を取得できる。ターゲットテキストには複数のエンティティ・メンションが含まれる可能性があり、候補エンティティに結びつけたエンティティ・メンションが存在すれば、実行主体は、該候補エンティティの埋め込みベクトルを該エンティティ・メンションのワードベクトルとする。このようにして、得たワードベクトルに含まれるエンティティ・メンションの情報が多くなる。
本願の上記実施例によるエンティティ・リンキング方法は、注意力メカニズムを利用してターゲットテキストのコンテキスト情報を得ることができ、それによって、外部知識の利用率を向上させ、エンティティ・リンキング結果の正確率の向上に有利である。
また、図7には、本願に係るエンティティ・リンキング方法においてエンティティ・メンションのタイプ情報を決定する一実施例の手順700が示されている。図7に示すように、本実施例は、ステップ701、ステップ702によってエンティティ・メンションのタイプ情報を決定し得る。
Figure 0007317791000007
ステップ702、隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定する。
実行主体は、隠されたターゲットテキストを事前訓練された言語モデルに入力し、該エンティティ・メンションのタイプ情報を得ることができる。事前訓練された言語モデルは、Bert(Bidirectional Encoder Representation from Transformers、二方向Transformerのエンコーダ)、Ernie(Ernieは百度の深層学習フレームワークPaddlePaddleに基づいて建築された)などであってもよい。実行主体は、隠されたターゲットテキストを利用して事前訓練された言語モデルを微細調整することができる。このようにして、事前訓練された言語モデルは、ターゲットテキストのコンテキスト情報を強化学習し、即ち、隠されたエンティティ・メンションの隣接語彙と隠されたエンティティ・メンションとの間の関係を学習できる。上記言語モデルの出力はタイプ情報を示すベクトルであり、実行主体は、上記ベクトルを解析して、エンティティ・メンションのタイプ情報を決定する。
本願の上記実施例によるエンティティ・リンキング方法は、エンティティ・メンションのタイプ情報をキャプチャすることができ、このようにして、エンティティ・リンキングのタイプが間違うという問題を解決できる。
また、図8には、本願に係るエンティティ・リンキング方法の別の実施例の手順800が示されている。図8に示すように、本実施例のエンティティ・リンキング方法は、ステップ801~ステップ806を含み得る。
ステップ801、ターゲットテキストを取得する。
ステップ802、ターゲットテキストに含まれる少なくとも1つのエンティティ・メンション及び各エンティティ・メンションに対応する候補エンティティを決定する。
ステップ803、各候補エンティティ及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各候補エンティティの埋め込みベクトルを決定する。
ステップ804、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定する。
ステップ805、少なくとも1つのエンティティ・メンションのタイプ情報を決定する。
実行主体は、各エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキストセマンティック情報及び各エンティティ・メンションのタイプ情報を得た後、ステップ8061によってエンティティ・リンキング結果を得るか、ステップ8062、8072によってエンティティ・リンキング結果を得るか、ステップ8063、8073によってエンティティ・リンキング結果を得ることができる。
ステップ8061、各埋め込みベクトル、コンテキストセマンティック情報、各タイプ情報及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを上記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果とする。
本実施例では、実行主体は、各エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキストセマンティック情報及び各エンティティ・メンションのタイプ情報を上記ランク学習(Learning to Rank、LTR)モデルに入力し、それぞれのエンティティ・メンションに対応する各候補エンティティへのランクを得ることができる。実行主体は、それぞれのエンティティ・メンションに対応するランクのうち一位にある候補エンティティを、該エンティティ・メンションのエンティティ・リンキング結果とすることができる。
上記LTRモデルは、Pairwiseアルゴリズム、Listwiseアルゴリズム、及びPointwiseアルゴリズムを含み得る。その中でも、Pairwiseアルゴリズムは、ターゲットテキストと2つの候補エンティティ(1つの正の例と1つの負の例)を入力し、3つを併せた後、パーセプトロンネットワークによって、ランキング損失関数を使用して2つの候補エンティティのそれぞれについてスコアリングする。Listwiseアルゴリズムでは、ターゲットテキストとすべての候補エンティティを入力し、ターゲットテキスト表示とすべての候補エンティティ表示を合わせ、ランキング損失関数を使用してそれぞれの候補エンティティについてスコアリングする。Pointwiseアルゴリズムは、ランクの問題を分類の問題に変換するものであり、ターゲットテキストと1つの候補エンティティを入力する必要があり、二分類予測結果の信頼度を候補エンティティスコアとして、分類損失関数を使用する。
ステップ8062、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定する。
ステップ8072、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定する。
本実施例では、エンティティ・メンションごとに、実行主体は、また、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報をスプライシングし、該エンティティ・メンションの1つのベクトル表示を得る。次に、該ベクトル表示と各候補エンティティのベクトルとの間の距離を算出する。ここで、距離とは、該エンティティ・メンションと各候補エンティティとの類似性を示す。次に、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果とすることができる。
ステップ8063、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定する。
ステップ8073、該エンティティ・メンションのタイプ情報を利用して、エンティティ・リンキング結果をチェックする。
本実施例では、エンティティ・メンションごとに、実行主体は、また、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定する。次に、エンティティ・メンションのタイプ情報を利用してエンティティ・リンキング結果をチェックし、それによって、エンティティ・リンキングの正確性がさらに向上する。
本願の上記実施例に係るエンティティ・リンキング方法は、エンティティ・メンションの埋め込みベクトル、ターゲットテキストのコンテキスト情報及びエンティティ・メンションのタイプ情報を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。
また、図9に示すように、上記各図に示す方法の実装として、本願は、エンティティ・リンキング装置の一実施例を提供し、該装置の実施例は、図2に示す方法の実施例に対応し、該装置は、具体的には、各種の電子機器に適用できる。
図9に示すように、本実施例の出力情報装置900は、ターゲットテキスト取得ユニット901、候補エンティティ決定ユニット902、埋め込みベクトル決定ユニット903、コンテキスト決定ユニット904、タイプ情報決定ユニット905、及びエンティティ・リンキングユニット906を備える。
ターゲットテキスト取得ユニット901は、ターゲットテキストを取得するように構成されている。
候補エンティティ決定ユニット902は、ターゲットテキストに含まれる少なくとも1つのエンティティ・メンション及び各エンティティ・メンションに対応する候補エンティティを決定するように構成されている。
埋め込みベクトル決定ユニット903は、各候補エンティティ、及び予め設定されたエンティティ埋め込みベクトル決定モデルに基づいて、各エンティティ・メンションの埋め込みベクトルを決定するように構成されている。
コンテキスト決定ユニット904は、ターゲットテキスト及び各埋め込みベクトルに基づいて、ターゲットテキストのコンテキストセマンティック情報を決定するように構成されている。
タイプ情報決定ユニット905は、少なくとも1つのエンティティ・メンションのタイプ情報を決定するように構成されている。
エンティティ・リンキングユニット906は、各埋め込みベクトル、コンテキストセマンティック情報及び各タイプ情報に基づいて、少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されている。
本実施例のいくつかの好適な実施形態では、エンティティ埋め込みベクトル決定モデルは、第1のベクトル決定モデルと第2のベクトル決定モデルを含み、第1のベクトル決定モデルは、記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第2のベクトル決定モデルは、関係情報と埋め込みベクトルとの対応関係を表す。
本実施例のいくつかの好適な実施形態では、埋め込みベクトル決定ユニット903は、図9に示す第1のベクトル決定モジュール、第2のベクトル決定モジュール、及び埋め込みベクトル決定モジュールをさらに含んでもよい。
第1のベクトル決定モジュールは、各候補エンティティの記述テキストを取得し、各記述テキスト及び前記第1のベクトル決定モデルに基づいて、各候補エンティティの第1の埋め込みベクトルを決定するように構成されている。
第2のベクトル決定モジュールは、各前記候補エンティティ同士の関係情報を決定し、各前記候補エンティティ同士の関係情報及び前記第2のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第2の埋め込みベクトルを決定するように構成されている。
埋め込みベクトル決定モジュールは、第1の埋め込みベクトル及び第2の埋め込みベクトルに基づいて、埋め込みベクトルを決定するように構成されている。
本実施例のいくつかの好適な実施形態では、コンテキスト決定ユニット904は、図9に示されていないワードベクトルシーケンス決定モジュール、及びコンテキスト決定モジュールをさらに含んでもよい。
ワードベクトルシーケンス決定モジュールは、ターゲットテキストのワードベクトルシーケンスを決定するように構成されている。
コンテキスト決定モジュールは、ワードベクトルシーケンス及び各埋め込みベクトルに基づいて、コンテキストセマンティック情報を決定するように構成されている。
本実施例のいくつかの好適な実施形態では、ワードベクトルシーケンス決定モジュールは、さらに、少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定し、決定した埋め込みベクトルを利用して、ワードベクトルシーケンスを更新するように構成されてもよい。
本実施例のいくつかの好適な実施形態では、タイプ情報決定ユニット905は、さらに、エンティティ・メンションごとに、ターゲットテキストにおいてこのエンティティ・メンションを隠し、隠したターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するように構成されてもよい。
本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット906は、さらに、各埋め込みベクトル、コンテキストセマンティック情報、各タイプ情報及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを上記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果とするように構成されてもよい。
本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット906は、さらに、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定し、類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するように構成されてもよい。
本実施例のいくつかの好適な実施形態では、エンティティ・リンキングユニット906は、さらに、エンティティ・メンションごとに、コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定し、該エンティティ・メンションのタイプ情報を利用して、エンティティ・リンキング結果をチェックするように構成されてもよい。
なお、エンティティ・リンキング装置900に記載のユニット901~ユニット905は、それぞれ図2に記載の方法の各ステップに対応する。それによって、以上エンティティ・リンキング方法について記載の操作及び特徴は、装置900及びそれに含まれるユニットに適用できるので、ここで詳しく説明しない。
本願に係る実施例では、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図10に示すように、本願の実施例に係るエンティティ・リンキング方法を実行する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、テーブル、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器はまた、パーソナル・デジタル・プロセッシング、携帯電話、スマートフォン、ウェアラブル・デバイス、及び他の類似した計算装置などの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されたコンポーネント、それらの接続及び関係、ならびにそれらの機能は一例にすぎず、本明細書に記載及び/又は要求される本願の実装を制限することを意図していない。
図10に示すように、該電子機器は、1つ又は複数のプロセッサ1001と、メモリ1002と、高速インタフェース及び低速インタフェースを含むコンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに実装するか、必要に応じて他の方式で装着することができる。プロセッサは、電子機器内で実行される命令を処理することができ、この命令は、外部入力/出力装置(たとえば、インタフェースに結合された表示機器)にGUIのグラフィカル情報を表示するためにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器が接続されてもよく、各機器は必要な一部の動作を提供する(たとえば、サーバアレイ、1組のブレードサーバ、マルチプロセッサシステムとして機能する)。図10には、1つのプロセッサ1001が例示されている。
メモリ1002は、本願による非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサに実行可能な命令を記憶しており、それにより、本願によるエンティティ・リンキングの実行方法を、少なくとも1つのプロセッサに実行させる。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願によるエンティティ・リンキングの実行方法をコンピュータに実行させるためのコンピュータ命令を記憶している。
メモリ1002は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、及びモジュール、たとえば本願の実施例におけるエンティティ・リンキングの実行方法に対応するプログラム命令/モジュール(たとえば、図9に示すターゲットテキスト取得ユニット901、候補エンティティ決定ユニット902、埋め込みベクトル決定ユニット903、コンテキスト決定ユニット904、タイプ情報決定ユニット905、及びエンティティ・リンキングユニット906)を記憶するために使用することができる。プロセッサ1001は、メモリ1002に記憶された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、つまり、上記方法の実施例におけるエンティティ・リンキングの実行方法を実現する。
メモリ1002は、オペレーティングシステム、少なくとも1つの機能に必要とされるアプリケーションプログラムを記憶することができるプログラム記憶領域と、エンティティ・リンキングを実行する電子機器の使用に伴って作成されたデータなどを記憶することができるデータ記憶領域と、を含むことができる。さらに、メモリ1002は、高速ランダムアクセスメモリを含むことができ、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスのような非一時的なメモリも含むことができる。いくつかの実施例では、メモリ1002は、プロセッサ1001に対して遠隔的に配置されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介してエンティティ・リンキングを実行する電子機器に接続することができる。上記ネットワークの例としては、インタネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されるものではない。
エンティティ・リンキング方法を実行する電子機器は、入力装置1003及び出力装置1004をさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式で接続されてもよく、図10ではバスを介して接続されていることが例示されている。
入力装置1003は、入力された数字又は文字情報を受信すること、及びエンティティ・リンキングを実行する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1004は、表示機器、補助照明装置(たとえば、LED)や触覚フィードバック装置(たとえば、振動モータ)などを含むことができる。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
ここで記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装され得る。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブル・プロセッサを含むプログラマブル・システム上で実行及び/又は解釈することができ、このプログラマブル・プロセッサは、専用又は汎用プログラマブル・プロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信したり、この記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置にデータ及び命令を伝送したりすることができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブル・プロセッサの機械命令を含み、これらのコンピューティングプログラムは、高度なプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブラ/機械言語を利用して実装され得る。本明細書で使用される用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブル・プロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置(PLD))を意味し、機械命令を機械読み取り可能な信号として受信する機械読み取り可能な媒体を含む。機械読み取り可能な信号という用語は、機械命令及び/又はデータをプログラマブル・プロセッサに提供するために使用される任意の信号を意味する。
ユーザとのインタラクションを提供するために、ここで記載のシステム及び技術はコンピュータ上で実施され得、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(たとえば、マウス又はトラックボール)とを有し、ユーザはこのキーボード及びポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために使用されてもよく、たとえば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、ユーザからの入力は、任意の形態(音響入力、音声入力、又は触覚入力を含む)で受信することができる。
ここで記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ。ユーザがこのグラフィカルユーザインタフェース又はウェブブラウザを介してここで記載のシステム及び技術の実施形態とインタラクションすることができる。)、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステム内で実行される。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して、相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインタネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、一般的には互いに離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、互いにクライアント-サーバ関係を有するコンピュータプログラムを対応するコンピュータ上で実行することによって生成される。
本願の実施例の技術案によれば、外部知識を十分に利用することで、エンティティ・リンキングの正確性を向上させることができる。
なお、上記した様々な形態の手順を使用して、ステップの順序変更、追加、削除をすることができる。たとえば、本願に記載された各ステップは、本願に開示された技術案によって期待される結果が達成される限り、並列して実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいし、本明細書ではそれについて制限しない。
上記の具体的な実施形態は、本願の特許範囲を制限するものではない。当業者が理解できるように、設計の要件及びほかの要因に応じて、様々な変更、組み合わせ、サブ組み合わせ及び代替が可能である。本願の精神及び原則の範囲内で行われた修正,均等な置換及び改良などは,すべて本願の特範囲に含まれるものとする。

Claims (21)

  1. エンティティ・リンキング装置により実行される方法であって、
    ターゲットテキストを取得するターゲットテキスト取得ステップと、
    前記ターゲットテキストに対して単語分割処理及び/または命名エンティティ認識処理を行って、前記ターゲットテキストに含まれる少なくとも1つのエンティティ・メンションを決定し、エンティティ・メンションと対応するエンティティとを関連して記憶した予め設定された知識ベースから、各前記エンティティ・メンションに対応する候補エンティティを決定する候補エンティティ決定ステップと、
    各前記候補エンティティ予め設定されたエンティティ埋め込みベクトル決定モデルに入力して、各前記候補エンティティの埋め込みベクトルを決定する埋め込みベクトル決定ステップであって、前記エンティティ埋め込みベクトル決定モデルは、エンティティと埋め込みベクトルとの間の対応関係を表すためのモデルであり、前記埋め込みベクトルに、エンティティ・メンションのセマンティック情報が含まれる、ステップと、
    前記候補エンティティの埋め込みベクトルを学習して、前記ターゲットテキストから、前記エンティティ・メンションのセマンティックに関連の最も高いコンテキスト語彙又はコンテキストエンティティを選び出し、前記ターゲットテキストのコンテキストセマンティック情報として決定するコンテキスト決定ステップと、
    前記ターゲットテキストのコンテキストセマンティック情報に基づいて、前記少なくとも1つのエンティティ・メンションのタイプ情報を決定するタイプ情報決定ステップと、
    各前記埋め込みベクトル、前記コンテキストセマンティック情報及び各前記タイプ情報に基づいて、前記少なくとも1つのエンティティ・メンションのベクトルを決定し、前記決定したベクトルと前記候補エンティティの埋め込みベクトルとの間の類似度を算出し、前記算出した類似度に基づいて、前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定するエンティティ・リンキングステップと、を含む方法。
  2. 前記エンティティ埋め込みベクトル決定モデルは、第1のベクトル決定モデルと第2のベクトル決定モデルを含み、前記第1のベクトル決定モデルは、エンティティの記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第2のベクトル決定モデルは、エンティティ同士の関係情報と埋め込みベクトルとの対応関係を表す、請求項1に記載の方法。
  3. 前記埋め込みベクトル決定ステップは、
    各前記候補エンティティの記述テキストを取得するステップと、
    各前記記述テキスト及び前記第1のベクトル決定モデルに基づいて、各前記候補エンティティの第1の埋め込みベクトルを決定するステップと、
    各前記候補エンティティ同士の関係情報を決定するステップと、
    各前記候補エンティティ同士の関係情報及び前記第2のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第2の埋め込みベクトルを決定するステップと、
    前記第1の埋め込みベクトル及び前記第2の埋め込みベクトルに基づいて、各前記候補エンティティの埋め込みベクトルを決定するステップと、を含む、請求項2に記載の方法。
  4. 前記コンテキスト決定ステップは、
    前記ターゲットテキストのワードベクトルシーケンスを決定するステップと、
    前記ワードベクトルシーケンス及び各前記埋め込みベクトルに基づいて、前記コンテキストセマンティック情報を決定するステップと、を含む、請求項1に記載の方法。
  5. 前記ターゲットテキストのワードベクトルシーケンスを決定する前記ステップは、
    前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、前記エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定するステップと、
    決定された埋め込みベクトルを利用して、前記ワードベクトルシーケンスを更新するステップと、を含む、請求項4に記載の方法。
  6. 記タイプ情報決定ステップは、
    エンティティ・メンションごとに、前記ターゲットテキストにおいてこのエンティティ・メンションを隠すステップと、
    隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するステップと、を含む、請求項1に記載の方法。
  7. 前記エンティティ・リンキングステップは、
    各前記埋め込みベクトル、前記コンテキストセマンティック情報、各前記タイプ情報、及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果とするステップを含む、請求項1に記載の方法。
  8. 前記エンティティ・リンキングステップは、
    エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報、及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定するステップと、
    類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するステップと、を含む、請求項1に記載の方法。
  9. 前記エンティティ・リンキングステップは、
    エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定するステップと、
    該エンティティ・メンションのタイプ情報を利用して、前記エンティティ・リンキング結果をチェックするステップと、を含む、請求項1に記載の方法。
  10. エンティティ・リンキング装置であって、
    ターゲットテキストを取得するように構成されているターゲットテキスト取得ユニットと、
    前記ターゲットテキストに対して単語分割処理及び/または命名エンティティ認識処理を行って、前記ターゲットテキストに含まれる少なくとも1つのエンティティ・メンションを決定し、エンティティ・メンションと対応するエンティティとを関連して記憶した予め設定された知識ベースから、各前記エンティティ・メンションに対応する候補エンティティを決定するように構成されている候補エンティティ決定ユニットと、
    各前記候補エンティティ予め設定されたエンティティ埋め込みベクトル決定モデルに入力して、各前記候補エンティティの埋め込みベクトルを決定するように構成されている埋め込みベクトル決定ユニットであって、前記エンティティ埋め込みベクトル決定モデルは、エンティティと埋め込みベクトルとの間の対応関係を表すためのモデルであり、前記埋め込みベクトルに、エンティティ・メンションのセマンティック情報が含まれる、ユニットと、
    前記候補エンティティの埋め込みベクトルを学習して、前記ターゲットテキストから、前記エンティティ・メンションのセマンティックに関連の最も高いコンテキスト語彙又はコンテキストエンティティを選び出し、前記ターゲットテキストのコンテキストセマンティック情報として決定するように構成されているコンテキスト決定ユニットと、
    前記ターゲットテキストのコンテキストセマンティック情報に基づいて、前記少なくとも1つのエンティティ・メンションのタイプ情報を決定するように構成されているタイプ情報決定ユニットと、
    各前記埋め込みベクトル、前記コンテキストセマンティック情報及び各前記タイプ情報に基づいて、前記少なくとも1つのエンティティ・メンションのベクトルを決定し、前記決定したベクトルと前記候補エンティティの埋め込みベクトルとの間の類似度を算出し、前記算出した類似度に基づいて、前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を決定するように構成されているエンティティ・リンキングユニットと、を備える、エンティティ・リンキング装置。
  11. 前記エンティティ埋め込みベクトル決定モデルは、第1のベクトル決定モデルと第2のベクトル決定モデルを含み、前記第1のベクトル決定モデルは、記述テキストと埋め込みベクトルとの間の対応関係を表し、前記第2のベクトル決定モデルは、関係情報と埋め込みベクトルとの対応関係を表す、請求項10に記載の装置。
  12. 前記埋め込みベクトル決定ユニットは、第1のベクトル決定モジュール、第2のベクトル決定モジュール、及び埋め込みベクトル決定モジュールを備え、
    前記第1のベクトル決定モジュールは、各前記候補エンティティの記述テキストを取得し、各前記記述テキスト及び前記第1のベクトル決定モデルに基づいて、各前記候補エンティティの第1の埋め込みベクトルを決定するように構成されており、
    前記第2のベクトル決定モジュールは、各前記候補エンティティ同士の関係情報を決定し、各前記候補エンティティ同士の関係情報及び前記第2のベクトル決定モデルに基づいて、各前記エンティティ・メンションの第2の埋め込みベクトルを決定するように構成されており、
    前記埋め込みベクトル決定モジュールは、前記第1の埋め込みベクトル及び前記第2の埋め込みベクトルに基づいて、各前記候補エンティティの埋め込みベクトルを決定するように構成されている、請求項11に記載の装置。
  13. 前記コンテキスト決定ユニットは、
    前記ターゲットテキストのワードベクトルシーケンスを決定するように構成されているワードベクトルシーケンス決定モジュールと、
    前記ワードベクトルシーケンス及び各前記埋め込みベクトルに基づいて、前記コンテキストセマンティック情報を決定するように構成されているコンテキスト決定モジュールと、を備える、請求項10に記載の装置。
  14. 前記ワードベクトルシーケンス決定モジュールは、さらに、
    前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果を取得することに応答して、前記エンティティ・リンキング結果に対応する候補エンティティの埋め込みベクトルを決定し、
    決定された埋め込みベクトルを利用して、前記ワードベクトルシーケンスを更新するように構成されている、請求項13に記載の装置。
  15. 前記タイプ情報決定ユニットは、さらに、
    エンティティ・メンションごとに、前記ターゲットテキストにおいてこのエンティティ・メンションを隠し、
    隠されたターゲットテキスト及び事前訓練された言語モデルに基づいて、該エンティティ・メンションのタイプ情報を決定するように構成されている、請求項10に記載の装置。
  16. 前記エンティティ・リンキングユニットは、さらに、
    各前記埋め込みベクトル、前記コンテキストセマンティック情報、各前記タイプ情報、及び予め設定されたランク学習モデルに基づいて、それぞれのエンティティ・メンションに対応する候補エンティティを決定し、決定した候補エンティティを前記少なくとも1つのエンティティ・メンションのエンティティ・リンキング結果とするように構成されている、請求項10に記載の装置。
  17. 前記エンティティ・リンキングユニットは、さらに、
    エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトル、該エンティティ・メンションのタイプ情報、及び該エンティティ・メンションに対応する各候補エンティティのベクトルに基づいて、各エンティティ・メンションと各候補エンティティとの類似性を決定し、
    類似性の最も高い候補エンティティを該エンティティ・メンションのエンティティ・リンキング結果として決定するように構成されている、請求項10に記載の装置。
  18. 前記エンティティ・リンキングユニットは、さらに、
    エンティティ・メンションごとに、前記コンテキストセマンティック情報、該エンティティ・メンションの埋め込みベクトルに基づいて、該エンティティ・メンションのエンティティ・リンキング結果を決定し、
    該エンティティ・メンションのタイプ情報を利用して、前記エンティティ・リンキング結果をチェックするように構成されている、請求項17に記載の装置。
  19. エンティティ・リンキング電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサにより実行されて、前記少なくとも1つのプロセッサに請求項1~9のいずれか1項に記載の方法を実行させる、エンティティ・リンキング電子機器。
  20. コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、請求項1~9のいずれか1項に記載の方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体。
  21. プロセッサにより実行されると、請求項1~9のいずれか1項に記載の方法を実現するコンピュータ実行可能なプログラム。
JP2020206160A 2020-06-09 2020-12-11 エンティティ・リンキング方法、装置、機器、及び記憶媒体 Active JP7317791B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010519600.4A CN111428507B (zh) 2020-06-09 2020-06-09 实体链指方法、装置、设备以及存储介质
CN202010519600.4 2020-06-09

Publications (2)

Publication Number Publication Date
JP2021197138A JP2021197138A (ja) 2021-12-27
JP7317791B2 true JP7317791B2 (ja) 2023-07-31

Family

ID=71551300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020206160A Active JP7317791B2 (ja) 2020-06-09 2020-12-11 エンティティ・リンキング方法、装置、機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US11727216B2 (ja)
EP (1) EP3923178A1 (ja)
JP (1) JP7317791B2 (ja)
KR (1) KR102448129B1 (ja)
CN (1) CN111428507B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112307752A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112328710A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备和存储介质
CN112541346A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 摘要生成方法、装置、电子设备及可读存储介质
CN112966117A (zh) * 2020-12-28 2021-06-15 成都数之联科技有限公司 实体链接方法
CN112732917A (zh) * 2021-01-13 2021-04-30 上海明略人工智能(集团)有限公司 一种实体链指结果的确定方法和装置
CN112905917B (zh) * 2021-02-09 2023-07-25 北京百度网讯科技有限公司 内链生成方法、模型训练方法、相关装置及电子设备
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN112989235B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 基于知识库的内链构建方法、装置、设备和存储介质
CN113157946A (zh) * 2021-05-14 2021-07-23 咪咕文化科技有限公司 实体链接方法、装置、电子设备及存储介质
CN113657100B (zh) * 2021-07-20 2023-12-15 北京百度网讯科技有限公司 实体识别方法、装置、电子设备及存储介质
US20230123711A1 (en) * 2021-10-18 2023-04-20 Intuit Inc. Extracting key value pairs using positional coordinates
CN113971216B (zh) * 2021-10-22 2023-02-03 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114118049B (zh) * 2021-10-28 2023-09-22 北京百度网讯科技有限公司 信息获取方法、装置、电子设备及存储介质
KR20230089056A (ko) * 2021-12-13 2023-06-20 삼성전자주식회사 데이터 결합을 위한 전자 장치 및 이의 제어 방법
CN114239583B (zh) * 2021-12-15 2023-04-07 北京百度网讯科技有限公司 实体链指模型的训练及实体链指方法、装置、设备及介质
CN114385833B (zh) * 2022-03-23 2023-05-12 支付宝(杭州)信息技术有限公司 更新知识图谱的方法及装置
CN114970666B (zh) * 2022-03-29 2023-08-29 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN115129883B (zh) * 2022-05-27 2024-02-13 腾讯科技(深圳)有限公司 实体链接方法和装置、存储介质及电子设备
CN115329755B (zh) * 2022-08-18 2023-10-31 腾讯科技(深圳)有限公司 实体链接模型处理方法、装置和实体链接处理方法、装置
CN115496039B (zh) * 2022-11-17 2023-05-12 荣耀终端有限公司 一种词语提取方法及计算机设备
CN115982352B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 文本分类方法、装置以及设备
KR102649675B1 (ko) * 2023-12-20 2024-03-20 주식회사 인텔렉투스 그래프 자료 구조 및 벡터 데이터가 통합된 풀 텍스트 인덱스를 이용한 정보 제공 방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125209A1 (ja) 2014-02-18 2015-08-27 株式会社日立製作所 情報構造化システム及び情報構造化方法
JP2019049964A (ja) 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出
WO2019224891A1 (ja) 2018-05-21 2019-11-28 楽天株式会社 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
WO2020003928A1 (ja) 2018-06-28 2020-01-02 株式会社Nttドコモ エンティティ特定システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126B (zh) * 2013-09-22 2018-04-27 富士通株式会社 一种实体链接方法及装置
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
US10380259B2 (en) * 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies
US11238339B2 (en) * 2017-08-02 2022-02-01 International Business Machines Corporation Predictive neural network with sentiment data
CN107861939B (zh) * 2017-09-30 2021-05-14 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US11250331B2 (en) * 2017-10-31 2022-02-15 Microsoft Technology Licensing, Llc Distant supervision for entity linking with filtering of noise
US10963514B2 (en) * 2017-11-30 2021-03-30 Facebook, Inc. Using related mentions to enhance link probability on online social networks
US10593422B2 (en) * 2017-12-01 2020-03-17 International Business Machines Corporation Interaction network inference from vector representation of words
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US20200065422A1 (en) * 2018-08-24 2020-02-27 Facebook, Inc. Document Entity Linking on Online Social Networks
US11551042B1 (en) * 2018-08-27 2023-01-10 Snap Inc. Multimodal sentiment classification
CN110110324B (zh) * 2019-04-15 2022-12-02 大连理工大学 一种基于知识表示的生物医学实体链接方法
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125209A1 (ja) 2014-02-18 2015-08-27 株式会社日立製作所 情報構造化システム及び情報構造化方法
JP2019049964A (ja) 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出
WO2019224891A1 (ja) 2018-05-21 2019-11-28 楽天株式会社 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
WO2020003928A1 (ja) 2018-06-28 2020-01-02 株式会社Nttドコモ エンティティ特定システム

Also Published As

Publication number Publication date
EP3923178A1 (en) 2021-12-15
US20210383069A1 (en) 2021-12-09
CN111428507B (zh) 2020-09-11
KR20210152924A (ko) 2021-12-16
KR102448129B1 (ko) 2022-09-27
CN111428507A (zh) 2020-07-17
US11727216B2 (en) 2023-08-15
JP2021197138A (ja) 2021-12-27

Similar Documents

Publication Publication Date Title
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
EP3923160A1 (en) Method, apparatus, device and storage medium for training model
KR102532152B1 (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
US11704492B2 (en) Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US11847164B2 (en) Method, electronic device and storage medium for generating information
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
JP7196145B2 (ja) 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
US20210334669A1 (en) Method, apparatus, device and storage medium for constructing knowledge graph
EP3852000A1 (en) Method and apparatus for processing semantic description of text entity, device and storage medium
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
JP2021108098A (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
US11900918B2 (en) Method for training a linguistic model and electronic device
CN111859981B (zh) 语言模型获取及中文语义理解方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230719

R150 Certificate of patent or registration of utility model

Ref document number: 7317791

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150