JP7234483B2 - エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム - Google Patents

エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム Download PDF

Info

Publication number
JP7234483B2
JP7234483B2 JP2021134380A JP2021134380A JP7234483B2 JP 7234483 B2 JP7234483 B2 JP 7234483B2 JP 2021134380 A JP2021134380 A JP 2021134380A JP 2021134380 A JP2021134380 A JP 2021134380A JP 7234483 B2 JP7234483 B2 JP 7234483B2
Authority
JP
Japan
Prior art keywords
entity
representation
target
feature
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021134380A
Other languages
English (en)
Other versions
JP2022040026A (ja
Inventor
ツァン、シャオビン
フ、ツィーホン
フアン、ディンバン
ルオ、シイ
ヘ、ジンジョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022040026A publication Critical patent/JP2022040026A/ja
Application granted granted Critical
Publication of JP7234483B2 publication Critical patent/JP7234483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示はコンピュータ技術分野に関し、特に人工知能技術分野及び自然言語処理技術分野に関し、具体的にはエンティティリンキング方法、装置、電子デバイス及び記憶媒体に関する。
自然言語処理(Natural Language Processing;NLP)において、固有表現抽出(Named Entity Recognition;NER)は情報抽出のサブタスクの1つである。NERの目的は、非構造化テキストのセグメントが与えられた場合に、その中のエンティティの位置と所属するカテゴリを決定することである。
エンティティリンキング(Entity Linking;EL)はNERの重要な一環であり、テキスト内の対象エンティティ語を一意で具体的なエンティティにリンキングするタスクである。ELは、ある程度で曖昧性解消タスクを実現しており、曖昧性解消の主な根拠は文脈と異なるエンティティ間のマッチングの程度である。たとえば「アップル」という言葉を与えただけではエンティティの曖昧性を解消することはできないが、「アップルを食べる」や「アップルフォン」と言えば、前者は果物に対応するエンティティを指し、後者はブランドに対応するエンティティを指していると判断できる。既存のエンティティリンキング技術は、主に各エンティティカテゴリのエンティティに関する共起特徴をあらかじめ人工で抽出し、テキスト中のエンティティの文脈に基づいて各エンティティカテゴリのエンティティの共起特徴とマッチングして採点する。最後に、最もスコアの高いカテゴリのエンティティをエンティティリンキングの結果として選択する。
しかし、既存のエンティティリンキングの手法において、各カテゴリのエンティティに関する幾つかの共起特徴は文字通りの特徴情報しか抽出されておらず、効率的な汎化ができず、エンティティリンキングの精度が劣ることになる。
上述した技術的課題を解決するために、本開示は、エンティティリンキング方法、装置、電子デバイス、及び記憶媒体を提供する。
本開示の一態様によれば、クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得することと、予め訓練された文脈表現モデルを用いて前記クエリテキストの特徴表現を生成することと、前記クエリテキストの特徴表現と、予め取得された前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングすることと、を含むエンティティリンキング方法を提供する。
本開示の別の態様によれば、クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得する検出モジュールと、予め訓練された文脈表現モデルを用いて前記クエリテキストの特徴表現を生成する第1生成モジュールと、前記クエリテキストの特徴表現と、予め取得された前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングするリンキングモジュールとを備えるエンティティリンキング装置を提供する。
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。
本開示の別の態様によれば、コンピュータに上述の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本開示の技術によれば、文脈表現モデルに基づいて取得されたクエリテキストの特徴表現と、予め取得された各エンティティカテゴリの特徴表現とは、何れも関連情報を効果的に汎化することができ、クエリテキストの特徴表現と各エンティティカテゴリの特徴表現の正確度を保証し、さらにエンティティリンキングの正確度を効果的に向上させることができる。
理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の第1実施形態に係る概略図である。 本開示の第2実施形態に係る概略図である。 本実施形態が提供するノード異性体図である。 本開示の第3実施形態に係る概略図である。 本開示の第4実施形態に係る概略図である。 本開示の実施形態によるエンティティリンキング方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態は、以下のステップを含むエンティティリンキング方法を提供する。
S101において、クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得する。
S102において、予め訓練された文脈表現モデルを用いて、クエリテキストの特徴表現を生成する。
S103において、クエリテキストの特徴表現と、予め取得されたターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングする。
本実施形態のエンティティリンキング方法の実行主体はエンティティリンキングデバイスである。当該装置は、電子エンティティであっても良く、ソフトウェア統合を使用するアプリケーションであってもよく、クエリテキスト中のエンティティに対するリンキングを実現するためにコンピュータデバイス上で実行される。
本実施形態におけるクエリテキストはユーザが入力したqueryであって良い。当該queryは、1つ、2つ又は複数のターゲットエンティティを含むことができる。本実施形態の方法によれば、当該クエリテキストにおける各ターゲットエンティティを正しいエンティティカテゴリにリンキングすることができる。
具体的に、本実施形態では、まずクエリテキストに対してエンティティ検出を実行してクエリテキスト内の可能性のあるターゲットエンティティを全て検出する。また、本実施形態では、予め訓練された文脈表現モデルに基づいて、当該クエリテキストの特徴表現を生成することもでき、例えば、当該クエリテキストの特徴表現はベクトルの形式で表現することができる。
オプションとして、各エンティティに対応する各エンティティカテゴリが識別されたエンティティ辞書が予め採集されて良い。例えば、エンティティライブラリにアップルの対応するエンティティ分類が果物及び電子製品であることを記録して良い。また、たとえば、ある人物Aに対応するエンティティカテゴリは、スター、企業家などの異なるエンティティカテゴリである。同一のエンティティのエンティティカテゴリ毎の特徴表現は、本実施形態では予め取得しておくことができる。そして、クエリテキストの特徴表現とターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、当該ターゲットエンティティに対応する各エンティティカテゴリの中から最も一致度の高いエンティティカテゴリを検索することにより、当該ターゲットエンティティを当該最も一致度の高いエンティティカテゴリにリンキングすることにより、曖昧性の解消を実現する。
本実施形態のエンティティリンキング方法は、クエリテキストに対してエンティティ検出を行うことにより、ターゲットエンティティを取得し、予め訓練された文脈表現モデルを用いて、クエリテキストの特徴表現を生成し、クエリテキストの特徴表現と、予め取得されたターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングする。従来技術と比較すると、本実施形態では、文脈表現モデルに基づいて取得されたクエリテキストの特徴表現と、予め取得された各エンティティカテゴリの特徴表現は、いずれも関連情報を効果的に汎化し、検索テキストの特徴表現及び各エンティティカテゴリの特徴表現の正確度を保証することができ、さらにエンティティリンキングの正確度を効果的に高めることができる。
図2は、本開示の第2実施形態に係る概略図である。図2に示すように、本実施形態のエンティティリンキング方法は、上述した図1に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。図2に示すように、本実施形態のエンティティリンキング方法は、具体的に以下のステップを含むことができる。
S201において、予め訓練されたエンティティ識別モデル及び予め生成されたエンティティ辞書を用いてクエリテキストに対してエンティティ検出を行って少なくとも1つのターゲットエンティティを取得する。
本実施形態では、エンティティ認識モデルと予め生成されたエンティティ辞書の両方を同時に使用する方式により、クエリテキスト中のエンティティを検出する。実際の応用では、両者から一つを選択してクエリテキスト中のエンティティを検出することも可能である。
本実施形態のエンティティ識別モデルは、クエリテキスト中のすべてのターゲットエンティティを検出することができる。このエンティティ認識モデルは、訓練時に、予め複数の訓練テキストを採集し、各訓練テキスト中のターゲットエンティティを標記することができる。各訓練テキストをエンティティ識別モデルに入力し、当該エンティティ識別モデルにより当該訓練テキスト中のターゲットエンティティを予測し、予測されたものが標記されたものと一致しない場合に、エンティティ識別モデルのパラメータを調整する。そして、連続する複数回の訓練において、予測された結果と標記された結果が常に一致するまで、次の訓練テキストを用いて上記のように訓練を継続する。この時、エンティティ認識モデルのパラメータを決定し、さらにエンティティ認識モデルを決定し、訓練を終了することができる。
本実施形態では、訓練時に採集される複数の訓練テキストの数は百万オーダーに達することができ、訓練テキストの数が多いほど、訓練されたエンティティ認識モデルは正確になる。
エンティティ認識モデルを用いてクエリテキストに対してエンティティ検出を行う場合、当該クエリテキストをエンティティ認識モデルに入力することができ、当該エンティティ認識モデルは、当該クエリテキスト中の可能なすべてのターゲットエンティティを予測して出力することができる。説明すべきなのは、本実施形態のエンティティ識別モデルは、Bi‐LSTM‐CRFのようなシーケンスマーキングモデルを用いて実現することができる。
なお、本実施形態では、エンティティ辞書を予め生成しておく必要がある。具体的には、様々な方法で、各エンティティ及び各エンティティに対応するすべてのエンティティカテゴリを採集してエンティティ辞書に記録することができる。具体的な検出中に、まずクエリテキストをトークン化した後、エンティティ辞書を用いて各トークンがエンティティ辞書に存在するか否かを検出し、存在した場合にそのトークンをターゲットエンティティと決定することができる。この方法では、クエリテキスト中の可能なターゲットエンティティの各々も検出され得る。
実際の応用では、エンティティ認識モデルを用いてクエリテキストに対してエンティティ検出を行う場合と、エンティティ辞書を用いてクエリテキストに対してエンティティ検出を行う場合とでは、検出方法によって検出結果が異なる可能性があるが、本実施例では、クエリテキスト中のできるだけ包括的なターゲットエンティティを得るために、2つの方法で検出されたターゲットエンティティを得ることを例にする。実際の応用では、1つの方式のエンティティ検出のみを選択的に実行して対応するターゲットエンティティを得ることができる。
S202において、各ターゲットエンティティが少なくとも2つのエンティティカテゴリに対応するか否かを検出し、そうでない場合に、ターゲットエンティティを対応するエンティティカテゴリにリンキングし、さもなければ、ステップS203を実行する。
本実施形態のエンティティ辞書に記録されるエンティティは、人名、地名、物体名などであってよい。且つ、エンティティ辞書には、1つのエンティティカテゴリしか存在しないエンティティもあり、2つ以上のエンティティカテゴリが存在するエンティティもある。一方、1つのエンティティカテゴリしか存在しないエンティティについては、対応する曖昧性解消タスクは存在しないため、その場合に対応するターゲットエンティティを対応するエンティティカテゴリにリンキングすれば良い。一方、少なくとも2つのエンティティカテゴリが存在するターゲットエンティティについては、当該ターゲットエンティティを正しいエンティティカテゴリにリンキングするために、エンティティリンキング処理を行う必要がある。
S203において、クエリテキストをトークン化して複数のトークンを得る。
オプションとして、本実施形態におけるトークン化の粒度は、文字の粒度であってもよく、単語の粒度であってもよい。
S204において、複数のトークンのそれぞれに対して埋め込み表現を行う。
S205において、埋め込み表現が行われた複数のトークンを予め訓練された文脈表現モデルに入力し、文脈表現モデルが出力したクエリテキストの特徴表現を取得する。
本実施形態の特徴表現は、ベクトルの形で表現することができる。
本実施形態の文脈表現モデルも予め訓練されたものである。説明すべきなのは、本実施形態の文脈表現モデルは、訓練の際に、当該クエリテキスト中のターゲットエンティティ及び対応するエンティティカテゴリを参照して訓練する必要がある。
例えば、いくつかの訓練テキストを事前に採集し、訓練テキスト中のターゲットエンティティ及びターゲットエンティティが訓練テキストにおいて標識したエンティティカテゴリを標記し、さらに、当該ターゲットエンティティの当該エンティティカテゴリにおける特徴表現を取得することができる。訓練時には、各訓練テキストを上記のようにトークン化及び埋め込み表現を行って文脈表現モデルに入力し、文脈表現モデルによりその訓練テキストの特徴表現を予測して出力する。次に、訓練テキストの特徴表現と、訓練テキスト中の当該ターゲットエンティティの対応するエンティティカテゴリにおける特徴表現とに基づいて、文脈表現モデルのパラメータを調整する。例えば、訓練テキスト中の当該ターゲットエンティティは当該訓練テキスト中の部分に属しているため、当該訓練テキストにおいて当該ターゲットエンティティの対応するエンティティカテゴリにおける特徴表現は、理論的に当該訓練テキストの特徴表現と一定の類似度を有するべきであり、例えば2つのベクトルの類似度は一定の類似度閾値よりも大きくてもよい。訓練時に、この類似度閾値よりも小さい場合に、この訓練テキストの特徴表現と、訓練テキストにおいて当該ターゲットエンティティの対応エンティティカテゴリにおける特徴表現との類似度が、この類似度閾値よりも大きいほど十分に大きくなるように、この文脈表現モデルのパラメータを調整する必要がある。幾つかの訓練テキストと、取得された訓練テキスト中のターゲットエンティティの対応するエンティティカテゴリにおける特徴表現を用いて、上記の方法に従って、連続する所定回数の訓練において、訓練テキストの特徴表現と、訓練テキストにおいて当該ターゲットエンティティの対応するエンティティカテゴリにおける特徴表現との類似度が、常にこの類似度閾値よりも大きいほど十分に大きくなるまで継続的に文脈表現モデルを訓練する。この時点で訓練が終了し、文脈表現モデルのパラメータを決定し、更に文脈表現モデルを決定することができる。
同様に、訓練時に採集される複数の訓練テキストの数は百万オーダーに達することができ、訓練テキストの数が多いほど、訓練された文脈表現モデルは正確になる。
上述のステップS203~S205は、上述の図1に示された実施形態のステップS102の一実施形態である。
S206において、予め生成されたエンティティ特徴ライブラリから、そのターゲットエンティティに対応する各エンティティカテゴリの特徴表現を取得する。
説明すべきなのは、本実施形態では、このステップS206の前に、以下のステップを含んでも良い。
(a1)エンティティ表現モデルとターゲットエンティティの各エンティティカテゴリとに基づいて、ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を生成する。
(b1)ターゲットエンティティに対応する各エンティティカテゴリの特徴表現をエンティティ特徴ライブラリに格納する。
ここで、ステップ(a1)は、具体的に実施される場合に、以下のステップをさらに含むことができる。
(a2)ターゲットエンティティの各エンティティカテゴリに対応する、ポジティブサンプルとネガティブサンプルを含む複数の訓練サンプルペアを採集し、ポジティブサンプルは、エンティティと、エンティティと同一のエンティティカテゴリに属するポジティブサンプルエンティティとを含み、ネガティブサンプルは、エンティティと、ポジティブサンプル中のエンティティと同一のエンティティカテゴリに属さないネガティブサンプルエンティティとを含む。
(b2)複数の訓練サンプルペアを用いて、エンティティ表現モデルにより生成されるポジティブサンプルで標識されるエンティティカテゴリの特徴表現がポジティブサンプルエンティティの特徴表現と一致し、ネガティブサンプルエンティティの特徴表現と一致しないように、エンティティ表現モデルを訓練することにより、ターゲットエンティティの対応するエンティティカテゴリの特徴表現を得る。
例えば、図3は、本実施形態が提供するノード異性体図である。図3に示すように、異種体図は、同じエンティティの2つのエンティティカテゴリのノード、例えばエンティティ_アップル_果物及びエンティティ_アップル_ブランドを含む。エンティティ_アップル_果物を指すノードは、当該エンティティカテゴリに関連する文脈語に対応するノードであり、赤富士、梨、果物を含むことができる。エンティティ_アップル_ブランドを指すノードは、当該エンティティカテゴリに関連する文脈語に対応するノードであり、iphone(登録商標)、携帯電話、ジョブズを含むことができる。すなわち、エンティティに関する文脈語に対応するノードは、そのエンティティに対応するノードと対応するエッジで接続される。エンティティ表現モデルの目的は、1つのエンティティの特徴表現である語義ベクトル表現を学習し、エンティティに関する文脈語義をエンティティのベクトル表現に埋め込むことである。自然な考え方は、word2vecのBOWモデルを直接適用することであり、すなわち、各文脈の一般語を用いてエンティティベクトルを予測することである。しかし、このようなモデル構造は単純すぎる。一方、グラフ畳み込みニューラルネットワーク(Graph Convolutional Network;GCN)はこのタスクに非常に適しており、畳み込みカーネルのパラメータ共有を利用して、語義がより豊かなエンティティベクトル表現を学習することができる。したがって、本実施形態では、具体的にGCNを用いてこのエンティティ表現モデルを実現することができる。
具体的な訓練時に、ターゲットエンティティ毎に、当該ターゲットエンティティの各エンティティカテゴリに対応する、ポジティブサンプル及びネガティブサンプルを含む複数の訓練サンプルペアを採集することができ、例えば、ポジティブサンプルにエンティティと、エンティティと同じエンティティカテゴリに属するポジティブサンプルエンティティが含まれ、ネガティブサンプルにエンティティと、ポジティブサンプル中のエンティティと同一のエンティティカテゴリに属さないネガティブサンプルエンティティが含まれる。例えば、エンティティ_アップル_果物の特徴表現を生成する場合に、採集されたポジティブサンプルには、アップルと果物、又はアップルとバナナ、又はアップルと梨などの果物のようなポジティブサンプルエンティティが含まれて良い。一方、対応するネガティブサンプルには、アップル及び携帯電話、又はアップル及び服、又はアップル及び果物に関連するもの以外の他の任意のネガティブサンプルエンティティが含まれてよい。そして、ポジティブサンプル中のエンティティ、ポジティブサンプルエンティティ、ネガティブサンプルエンティティをそれぞれ、エンティティ、ポジティブサンプルエンティティ、ネガティブサンプルエンティティのそれぞれの特徴表現を予測して出力することが可能なエンティティ表現モデルに入力する。エンティティとポジティブサンプルエンティティは同じエンティティカテゴリに属し、ネガティブサンプルエンティティとは異なるエンティティカテゴリに属するため、本実施形態の訓練の目的は、エンティティ表現モデルにより生成されたポジティブサンプルで標識されるエンティティカテゴリの特徴表現がポジティブサンプルエンティティの特徴と一致し、ネガティブサンプルエンティティの特徴表現と一致しないようにすることである。本実施形態における一致は、類似度が予め設定された第1類似度閾値よりも大きいことであって良く、例えば80%、85%或いは50%よりも大きい他のパーセンテージであって良い。一方、不一致は、類似度が第2類似度閾値未満であって良く、例えば50%、45%、又は50%未満の他のパーセンテージであって良い。エンティティ表現モデルが出力したエンティティ、ポジティブサンプルエンティティ及びネガティブサンプルエンティティのそれぞれの特徴表現が上記の条件を満たさない場合に、エンティティ表現モデルのパラメータを上記の条件を満たすように調整することができる。そのエンティティカテゴリの対応する複数の訓練サンプルペアを用いて、連続する所定回数の訓練において上記の条件を常に満たすまで、上記の方式に従ってこのエンティティ表現モデルを訓練し続け、その時点でそのエンティティ表現モデルにより生成されたそのエンティティカテゴリの特徴表現を得ることができる。この方式により、各ターゲットエンティティの各エンティティカテゴリ特徴表現を得ることができる。次に、各ターゲットエンティティの各エンティティカテゴリ特徴表現をエンティティ特徴ライブラリに格納する。この方式で生成された各ターゲットエンティティの各エンティティカテゴリ特徴表現は、非常に汎化能力が高く、各エンティティカテゴリの情報を正確に表現することができる。
使用中に、そのエンティティ及びエンティティカテゴリに基づいて、対応するエンティティカテゴリの特徴表現を取得すればよいので、非常に便利である。
S207において、クエリテキストの特徴表現と、予め取得されたターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、クエリテキストの特徴表現とターゲットエンティティに対応する各エンティティカテゴリの特徴表現との一致度スコアを算出する。
S208において、ターゲットエンティティを一致度スコアの最も高いエンティティカテゴリにリンキングする。
具体的に、クエリテキストの特徴表現と、そのターゲットエンティティの各エンティティカテゴリの特徴表現との類似度をそれぞれ計算し、得られた類似度の値を、クエリテキストの特徴表現とターゲットエンティティに対応するエンティティカテゴリの特徴表現との一致度スコアとしてよい。類似度の値が高いほど、すなわち一致度スコアが高いほど、そのクエリテキストがターゲットエンティティのそのエンティティカテゴリとの一致度が高いことを示す。逆も同様である。これに基づいて、最終的な曖昧性解消及びリンキングの結果として、このターゲットエンティティの少なくとも2つのエンティティカテゴリの中から最も一致度スコアの高いエンティティカテゴリを取得することができる。そして、最終的にこのターゲットエンティティを得られた一致度スコアが最も高いエンティティカテゴリにリンキングする。
ステップS207~S208は、上述した図1に示された実施形態のステップS103の一実施形態である。
本実施形態のエンティティリンキング方法は、特徴表現を用いる方式で関連情報を表現することにより、より汎化効果を高めることができる。エンティティリンキングの過程において、ターゲットエンティティの特徴表現は文脈とマッチングし、従来技術の共起特徴を利用するやり方を排除し、より正確なマッチング効果を実現し、エンティティリンキングの正確度を効果的に高めることができる。また、従来技術と比較して、本実施形態では大量の特徴抽出フローをニューラルネットワークモデルで代替しているため、全体のフローに性能的な優位性があり、資源消費の面でも明らかに最適化されている。また、全過程は人工による特徴プロセスと規則に依存せず、大量の規則と人工設計による特徴プロセスを維持することを避け、エンティティリンキング技術の使用の知能性と実用性を効果的に高めることができる。
図4は、本開示の第3実施形態に係る概略図である。図4に示すように、本実施形態は、クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得する検出モジュール401と、予め訓練された文脈表現モデルを用いて、クエリテキストの特徴表現を生成する第1生成モジュール402と、クエリテキストの特徴表現と、予め取得されたターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、ターゲットエンティティを一致度が最も高いエンティティカテゴリにリンキングするリンキングモジュール403を備えるエンティティリンキング装置400を提供する。
本実施形態のエンティティリンキング装置400は、上述したモジュールを用いてエンティティリンキングを実現する実現原理及び技術的効果は、上述した関連する方法の実施形態の実現と同様であり、詳細は上述した関連する方法の実施形態の記載を参照でき、ここでは詳しく説明しない。
図5は、本開示の第4実施形態に係る概略図である。図5に示すように、本実施形態のエンティティリンキング装置400は、上述した図4に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。
図5に示すように、本実施形態のエンティティリンキング装置400は、さらに、予め生成されたエンティティ特徴ライブラリから、ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を取得する取得モジュール404を備える。
さらに、オプションとして、図5に示すように、本実施形態のエンティティリンキング装置400は、さらに、エンティティ表現モデルとターゲットエンティティの各エンティティカテゴリとに基づいて、ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を生成する第2生成モジュール405と、ターゲットエンティティに対応する各エンティティカテゴリの特徴表現をエンティティ特徴ライブラリに記憶する記憶モジュール406とを備える。
さらに、オプションとして、図5に示されるように、第2生成モジュール405は、ターゲットエンティティの各エンティティカテゴリに対応する、ポジティブサンプルとネガティブサンプルを含む複数の訓練サンプルペアを採集し、ポジティブサンプルにエンティティと、エンティティと同一のエンティティカテゴリに属するポジティブサンプルエンティティとを含み、ネガティブサンプルにエンティティと、ポジティブサンプル中のエンティティと同一のエンティティカテゴリに属さないネガティブサンプルエンティティとを含む取得ユニット4051と、複数の訓練サンプルペアを用いて、エンティティ表現モデルにより生成されたポジティブサンプルで標識されるエンティティカテゴリの特徴表現がポジティブサンプルエンティティの特徴表現と一致し、ネガティブサンプルエンティティの特徴表現とは一致しないように、エンティティ表現モデルを訓練し、ターゲットエンティティの対応するエンティティカテゴリの特徴表現を得る訓練ユニット4052とを備える。
さらに、オプションとして、図5に示されるように、第1生成モジュール402は、クエリテキストをトークン化して複数のトークンを得るトークン化ユニット4021と、複数のトークンのそれぞれに対して埋め込み表現を行う表現ユニット4022と、埋め込み表現が行われた複数のトークンを文脈表現モデルに入力し、文脈表現モデルが出力するクエリテキストの特徴表現を取得する取得ユニット4023とを備える。
さらに、オプションとして、検出モジュール401は、更に、ターゲットエンティティが少なくとも2つのエンティティカテゴリに対応することを検出して決定する。
さらに、オプションとして、検出モジュール401は、エンティティ識別モデルを用いてクエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得し、及び/又は、予め生成されたエンティティ辞書を用いてクエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得する。
本実施形態のエンティティリンキング装置400は、上述したモジュールを用いてエンティティリンキングを実現する実現原理及び技術的効果は、上述した関連する方法の実施形態の実現と同様であり、詳細は上述した関連する方法の実施形態の記載を参照でき、ここでは詳しく説明しない。
本開示の実施形態によれば、本開示は更に、電子デバイス及び可読記憶媒体を提供する。
図6は、本開示の実施形態のエンティティリンキング方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図6に示すように、この電子デバイスは、一つ又は複数のプロセッサ601、メモリ602、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図6において、一つのプロセッサ601を例とする。
メモリ602は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供されたエンティティリンキング方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供されたエンティティリンキング方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例におけるエンティティリンキング方法に対応するプログラムコマンド/モジュール(例えば図4、図5に示された関連モジュール)を記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるエンティティリンキング方法を実現する。
メモリ602は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はエンティティリンキング方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ602は、プロセッサ601に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してエンティティリンキング方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
エンティティリンキング方法を実現する電子デバイスは、更に、入力装置603と出力装置604とを備えても良い。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の手段により接続されても良く、図6においてバスによる接続を例とする。
入力装置603は、入力された数字又はキャラクタ情報を受信し、エンティティリンキング方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
本開示の実施形態の技術案によれば、クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得し、予め訓練された文脈表現モデルを用いて、クエリテキストの特徴表現を生成し、クエリテキストの特徴表現と、予め取得したターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングすることにより、従来技術と比較すると、本実施形態では、文脈表現モデルに基づいて取得されたクエリテキストの特徴表現と、予め取得された各エンティティカテゴリの特徴表現は、いずれも関連情報を効果的に汎化することができ、クエリテキストの特徴表現及び各エンティティカテゴリの特徴表現の正確度を確保し、さらにエンティティリンキングの正確度を効果的に高めることができる。
本開示の実施例の技術案によれば、特徴表現を用いる方式で関連情報を表現することにより、より良い汎化効果を実現することができる。エンティティリンキングの過程において、ターゲットエンティティの特徴表現は文脈とマッチングし、従来技術の共起特徴を利用するやり方を排除し、より正確なマッチング効果を実現し、エンティティリンキングの正確度を効果的に高めることができる。また、従来技術と比較して、本実施形態では大量の特徴抽出フローをニューラルネットワークモデルで代替しているため、全体のフローに性能的な優位性があり、資源消費の面でも明らかに最適化されている。 また、全過程は人工による特徴プロセスと規則に依存せず、大量の規則と人工設計による特徴プロセスを維持することを避け、エンティティリンキング技術の使用の知能性と実用性を効果的に高めることができる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (15)

  1. コンピュータにより実行される、エンティティリンキング方法であって、
    クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得することと、
    予め訓練された文脈表現モデルを用いて、前記クエリテキストの特徴表現を生成し、前記文脈表現モデルを予め訓練することは、ターゲットエンティティ及びターゲットエンティティに対応するエンティティカテゴリが標識された複数の訓練テキストに対して、前記文脈表現モデルにより各訓練テキストの特徴表現を予測し、前記訓練テキストにおけるターゲットエンティティの対応するエンティティカテゴリにおける特徴表現と前記文脈表現モデルにより予測された各訓練テキストにおける特徴表現との類似度が所定類似度閾値よりも大きいように、前記文脈表現モデルのパラメータを調整することと、
    前記クエリテキストの特徴表現と、予め取得された前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングすることと、を含む、
    方法。
  2. 予め訓練された文脈表現モデルを用いて、前記クエリテキストの特徴表現を生成することの後、前記クエリテキストの特徴表現と予め取得されたターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングすることの前に、更に、
    予め生成されたエンティティ特徴ライブラリから、前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を取得すること、を含む、
    請求項1に記載の方法。
  3. 予め生成されたエンティティ特徴ライブラリから前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を取得する前に、更に、
    エンティティ表現モデルと前記ターゲットエンティティの各エンティティカテゴリとに基づいて、前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を生成することと、
    前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を前記エンティティ特徴ライブラリに格納することと、を含
    エンティティ表現モデルと前記ターゲットエンティティの各エンティティカテゴリとに基づいて、前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を生成することは、
    前記ターゲットエンティティの各エンティティカテゴリに対応する複数の訓練サンプルペアを採集することであって、各訓練サンプルペアがポジティブサンプルとネガティブサンプルを含み、前記ポジティブサンプルにエンティティと、前記エンティティと同一のエンティティカテゴリに属するポジティブサンプルエンティティとが含まれ、前記ネガティブサンプルに前記エンティティと、前記ポジティブサンプルにおける前記エンティティと同一のエンティティカテゴリに属さないネガティブサンプルエンティティが含まれることと、
    前記複数の訓練サンプルペアを使用して、前記エンティティ表現モデルにより生成された前記ポジティブサンプルで標識されるエンティティカテゴリの特徴表現が前記ポジティブサンプルエンティティの特徴表現と一致し、前記ネガティブサンプルエンティティの特徴表現と一致しないように、前記エンティティ表現モデルを訓練することにより、前記ターゲットエンティティに対応するエンティティカテゴリの特徴表現を得ることと、を含む、
    請求項2に記載の方法。
  4. 予め訓練された文脈表現モデルを用いて、前記クエリテキストの特徴表現を生成することは、
    前記クエリテキストをトークン化して複数のトークンを得ることと、
    前記複数のトークンのそれぞれに対して埋め込み表現を行うことと、
    埋め込み表現が行われた前記複数のトークンを前記文脈表現モデルに入力し、前記文脈表現モデルが出力する前記クエリテキストの特徴表現を取得することと、を含む、
    請求項1に記載の方法。
  5. クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得することの後、前記クエリテキストの特徴表現と、予め取得された前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングすることの前に、更に、
    各エンティティに対応する各エンティティカテゴリが記録された、予め生成されたエンティティ辞書を用いて前記ターゲットエンティティが少なくとも2つのエンティティカテゴリに対応することを検出して決定すること、を含む、
    請求項1に記載の方法。
  6. クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得することは、
    エンティティ識別モデルを使用して前記クエリテキストに対してエンティティ検出を行って前記ターゲットエンティティを取得し、及び/又は、
    予め生成されたエンティティ辞書を用いて前記クエリテキストに対してエンティティ検出を行って前記ターゲットエンティティを取得すること、を含む、
    請求項1~のいずれか1項に記載の方法。
  7. エンティティリンキング装置であって、
    クエリテキストに対してエンティティ検出を行ってターゲットエンティティを取得する検出モジュールと、
    予め訓練された文脈表現モデルを用いて、前記クエリテキストの特徴表現を生成前記文脈表現モデルを予め訓練することは、ターゲットエンティティ及びターゲットエンティティに対応するエンティティカテゴリが標識された複数の訓練テキストに対して、前記文脈表現モデルにより各訓練テキストの特徴表現を予測し、前記訓練テキストにおけるターゲットエンティティの対応するエンティティカテゴリにおける特徴表現と前記文脈表現モデルにより予測された各訓練テキストにおける特徴表現との類似度が所定類似度閾値よりも大きいように、前記文脈表現モデルのパラメータを調整する第1生成モジュールと、
    前記クエリテキストの特徴表現と、予め取得された前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現とに基づいて、前記ターゲットエンティティを最も一致度の高いエンティティカテゴリにリンキングするリンキングモジュールと、を備える、
    装置。
  8. 予め生成されたエンティティ特徴ライブラリから、前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を取得する取得モジュールを更に備える請求項に記載の装置。
  9. エンティティ表現モデルと前記ターゲットエンティティの各エンティティカテゴリとに基づいて、前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を生成する第2生成モジュールと、
    前記ターゲットエンティティに対応する各エンティティカテゴリの特徴表現を前記エンティティ特徴ライブラリに格納する格納モジュールと、を更に備え、
    前記第2生成モジュールは、
    前記ターゲットエンティティの各エンティティカテゴリに対応する複数の訓練サンプルペアを採集する採集ユニットであって、各訓練サンプルペアがポジティブサンプルとネガティブサンプルを含み、前記ポジティブサンプルにエンティティと、前記エンティティと同一のエンティティカテゴリに属するポジティブサンプルエンティティとが含まれ、前記ネガティブサンプルに前記エンティティと、前記ポジティブサンプルにおける前記エンティティと同一のエンティティカテゴリに属さないネガティブサンプルエンティティとが含まれる採集ユニットと、
    前記複数の訓練サンプルペアを使用して、前記エンティティ表現モデルにより生成された前記ポジティブサンプルで標識されるエンティティカテゴリの特徴表現が前記ポジティブサンプルエンティティの特徴表現と一致し、前記ネガティブサンプルエンティティの特徴表現と一致しないように、前記エンティティ表現モデルを訓練することにより、前記ターゲットエンティティに対応するエンティティカテゴリの特徴表現を得る訓練ユニットと、を備える、
    請求項に記載の装置。
  10. 前記第1生成モジュールは、
    前記クエリテキストをトークン化して複数のトークンを得るトークン化ユニットと、
    前記複数のトークンのそれぞれに対して埋め込み表現を行う表現ユニットと、
    埋め込み表現が行われた前記複数のトークンを前記文脈表現モデルに入力し、前記文脈表現モデルが出力する前記クエリテキストの特徴表現を取得する取得ユニットと、を備える、
    請求項に記載の装置。
  11. 前記検出モジュールは、更に、各エンティティに対応する各エンティティカテゴリが記録された、予め生成されたエンティティ辞書を用いて前記ターゲットエンティティが少なくとも2つのエンティティカテゴリに対応することを検出して決定する、
    請求項に記載の装置。
  12. 前記検出モジュールは、
    エンティティ識別モデルを使用して前記クエリテキストに対してエンティティ検出を行って前記ターゲットエンティティを取得し、及び/又は、
    予め生成されたエンティティ辞書を用いて前記クエリテキストに対してエンティティ検出を行って前記ターゲットエンティティを取得する、
    請求項7~11のいずれか1項に記載の装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載の方法を実行させる電子デバイス。
  14. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  15. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのプログラム。
JP2021134380A 2020-08-28 2021-08-19 エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム Active JP7234483B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010886164.4A CN111931509A (zh) 2020-08-28 2020-08-28 实体链指方法、装置、电子设备及存储介质
CN202010886164.4 2020-08-28

Publications (2)

Publication Number Publication Date
JP2022040026A JP2022040026A (ja) 2022-03-10
JP7234483B2 true JP7234483B2 (ja) 2023-03-08

Family

ID=73309481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021134380A Active JP7234483B2 (ja) 2020-08-28 2021-08-19 エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US20220067439A1 (ja)
EP (1) EP3961476A1 (ja)
JP (1) JP7234483B2 (ja)
KR (1) KR102573637B1 (ja)
CN (1) CN111931509A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220114603A1 (en) * 2020-10-09 2022-04-14 Jpmorgan Chase Bank, N.A. Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
CN112597305B (zh) * 2020-12-22 2023-09-01 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN114647739B (zh) * 2022-02-25 2023-02-28 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN114970491B (zh) * 2022-08-02 2022-10-04 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质
CN115796280B (zh) * 2023-01-31 2023-06-09 南京万得资讯科技有限公司 一种适用于金融领域高效可控的实体识别实体链接系统
CN117271804B (zh) * 2023-11-21 2024-03-01 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117689963B (zh) * 2024-02-02 2024-04-09 南京邮电大学 一种基于多模态预训练模型的视觉实体链接方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224675A (ja) 2009-03-19 2010-10-07 Toshiba Corp 情報検索装置及び方法
JP2011059748A (ja) 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP2017509963A (ja) 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成
US20180173694A1 (en) 2016-12-21 2018-06-21 Industrial Technology Research Institute Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111869A (ja) * 1996-10-07 1998-04-28 Fujitsu Ltd 情報分類装置とその方法
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US9836453B2 (en) * 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
CN106407180B (zh) * 2016-08-30 2021-01-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN107861939B (zh) * 2017-09-30 2021-05-14 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN110209830B (zh) * 2018-02-12 2023-06-06 株式会社理光 实体链接方法、装置、设备、计算机可读存储介质
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN111523326B (zh) * 2020-04-23 2023-03-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111428507B (zh) * 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224675A (ja) 2009-03-19 2010-10-07 Toshiba Corp 情報検索装置及び方法
JP2011059748A (ja) 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP2017509963A (ja) 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成
US20180173694A1 (en) 2016-12-21 2018-06-21 Industrial Technology Research Institute Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion

Also Published As

Publication number Publication date
KR20220029384A (ko) 2022-03-08
KR102573637B1 (ko) 2023-08-31
CN111931509A (zh) 2020-11-13
EP3961476A1 (en) 2022-03-02
JP2022040026A (ja) 2022-03-10
US20220067439A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
US11669690B2 (en) Method and apparatus for processing sematic description of text entity, and storage medium
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN111144507B (zh) 情感分析模型预训练方法、装置及电子设备
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
JP7178441B2 (ja) 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN111859953B (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN111783468A (zh) 文本处理方法、装置、设备和介质
JP2021131858A (ja) エンティティワードの認識方法と装置
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
CN111274407A (zh) 知识图谱中三元组置信度计算方法和装置
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN111539209A (zh) 用于实体分类的方法和装置
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
CN114444462B (zh) 模型训练方法及人机交互方法、装置
Suresh Kumar et al. Sentiment lexicon for cross-domain adaptation with multi-domain dataset in Indian languages enhanced with BERT classification model
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
Mendes SmartTags: Continuously learning to suggest news articles according to user preferences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230201

R150 Certificate of patent or registration of utility model

Ref document number: 7234483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150