JP7082147B2 - エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体 - Google Patents

エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP7082147B2
JP7082147B2 JP2020018497A JP2020018497A JP7082147B2 JP 7082147 B2 JP7082147 B2 JP 7082147B2 JP 2020018497 A JP2020018497 A JP 2020018497A JP 2020018497 A JP2020018497 A JP 2020018497A JP 7082147 B2 JP7082147 B2 JP 7082147B2
Authority
JP
Japan
Prior art keywords
entity
vector
candidate
characteristic
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020018497A
Other languages
English (en)
Other versions
JP2020135876A (ja
Inventor
ジャジュン ルー,
ゼナン リン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020135876A publication Critical patent/JP2020135876A/ja
Application granted granted Critical
Publication of JP7082147B2 publication Critical patent/JP7082147B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示の実施例は、知識グラフ技術の分野に関し、特に、エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体に関する。
ユーザが検索したり、ウェブページを閲覧したりする際に、既存の情報に関連する内容をユーザに了解させるために、現在の検索、ウェブページなど(すなわち既存の情報)に関連するエンティティをユーザに推奨することができる。
しかしながら、エンティティを推奨する従来の方法は、ミディアムおよびロングテールエンティティ(すなわち関心の少ないエンティティ)に適しておらず、しかもエンティティを探す時に考慮する要素が単一であり、推奨の結果が正確ではない。
本開示の実施例は、エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体を提供する。
第1の態様において、本開示の実施例は、要求エンティティを決定し、前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップと、複数の候補エンティティを決定し、各前記候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するステップと、各前記第2のベクトルと前記第1のベクトルの類似度をそれぞれ決定するステップと、各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するステップと、前記ターゲットエンティティを推奨するステップと、を含むエンティティを推奨する方法を提供する。
いくつかの実施例では、前記要求エンティティは、少なくとも二つの定義項目を含み、前記要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではなく、前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップは、前記要求エンティティの前記少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択するステップと、前記要求エンティティの選定定義項目の少なくとも二つの特性を決定し、前記要求エンティティの選定定義項目の少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップと、を含む。
いくつかの実施例では、前記複数の候補エンティティを決定するステップは、予め設定された第1のデータベース内のすべてのエンティティから、前記要求エンティティと少なくとも一つの同一の特性を有するエンティティを前記候補エンティティとして選出するステップを含む。
いくつかの実施例では、前記要求エンティティ、前記要求エンティティの特性、前記候補エンティティ、及び前記候補エンティティの特性は、いずれも予め設定された第2のデータベースに含まれ、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップは、予め設定された第1のアルゴリズムに従って、前記要求エンティティの各前記特性をm次元の第1の特性ベクトルにそれぞれ変換するステップと、予め設定された第2のアルゴリズムに従って、すべての前記第1の特性ベクトルを重畳して、前記第1のベクトルを得るステップと、を含み、前記mは正の整数であり、それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するステップは、前記第1のアルゴリズムに従って、各前記候補エンティティの各前記特性をm次元の第2の特性ベクトルにそれぞれ変換するステップと、前記第2のアルゴリズムに従って、各前記候補エンティティに対応するすべての前記第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する前記第2のベクトルを得るステップと、を含む。
いくつかの実施例では、前記第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、前記第1の特性ベクトルは、embeddingベクトルであり、前記第2の特性ベクトルは、embeddingベクトルである。
いくつかの実施例では、前記予め設定された第2のデータベースは、予め設定された知識グラフを含む。
いくつかの実施例では、各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するステップは、前記複数の候補エンティティから、対応する第2のベクトルと前記第1のベクトルの類似度が予め設定された第1の閾値より大きい前記候補エンティティを前記ターゲットエンティティとして選択するステップ、又は、対応する第2のベクトルと前記第1のベクトルの類似度の降順に従って各前記候補エンティティをソートし、ソートされたシーケンス内の最初のn個の前記候補エンティティを前記ターゲットエンティティとして選択するステップ、を含み、前記nは予め設定された正の整数である。
第2の態様において、本開示の実施例は、要求エンティティを決定し、前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定モジュールと、複数の候補エンティティを決定し、各前記候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するように構成される第2のベクトル決定モジュールと、各前記第2のベクトルと前記第1のベクトルの類似度をそれぞれ決定するように構成される類似度決定モジュールと、各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するように構成されるターゲットエンティティ選択モジュールと、前記ターゲットエンティティを推奨するように構成される推奨モジュールと、を含むエンティティを推奨する装置を提供する。
いくつかの実施例では、前記要求エンティティは、少なくとも二つの定義項目を含み、前記要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではなく、前記第1のベクトル決定モジュールは、前記要求エンティティの前記少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択するように構成される定義項目選択ユニットと、前記要求エンティティの選定定義項目の少なくとも二つの特性を決定し、前記要求エンティティの選定定義項目の少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定ユニットと、を含む。
いくつかの実施例では、前記第2のベクトル決定モジュールは、予め設定された第1のデータベース内のすべてのエンティティから、前記要求エンティティと少なくとも一つの同一の特性を有するエンティティを前記候補エンティティとして選出するように構成される候補エンティティ選択ユニットを含む。
いくつかの実施例では、前記要求エンティティ、前記要求エンティティの特性、前記候補エンティティ、及び前記候補エンティティの特性は、いずれも予め設定された第2のデータベースに含まれ、前記第1のベクトル決定モジュールは、予め設定された第1のアルゴリズムに従って、前記要求エンティティの各前記特性をm次元の第1の特性ベクトルにそれぞれ変換するように構成される第1の特性ベクトル変換ユニットであって、前記mは正の整数である第1の特性ベクトル変換ユニットと、予め設定された第2のアルゴリズムに従って、すべての前記第1の特性ベクトルを重畳して、前記第1のベクトルを得るように構成される第1のベクトル重畳ユニットと、を含み、前記第2のベクトル決定モジュールは、前記第1のアルゴリズムに従って、各前記候補エンティティの各前記特性をm次元の第2の特性ベクトルにそれぞれ変換するように構成される第2の特性ベクトル変換ユニットと、前記第2のアルゴリズムに従って、各前記候補エンティティに対応するすべての前記第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する前記第2のベクトルを得るように構成される第2のベクトル重畳ユニットと、を含む。
いくつかの実施例では、前記第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、前記第1の特性ベクトルは、embeddingベクトルであり、前記第2の特性ベクトルは、embeddingベクトルである。
いくつかの実施例では、前記予め設定された第2のデータベースは、予め設定された知識グラフを含む。
いくつかの実施例では、前記ターゲットエンティティ選択モジュールは、前記複数の候補エンティティから、対応する第2のベクトルと前記第1のベクトルの類似度が予め設定された第1の閾値より大きい前記候補エンティティを前記ターゲットエンティティとして選択し、又は、前記ターゲットエンティティ選択モジュールは、対応する第2のベクトルと前記第1のベクトルの類似度の降順に従って各前記候補エンティティをソートし、ソートされたシーケンス内の最初のn個の前記候補エンティティを前記ターゲットエンティティとして選択し、前記nは予め設定された正の整数である。
第3の態様において、本開示の実施例は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を含む電子機器を提供し、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行される場合に、前記一つ又は複数のプロセッサが、上記のいずれかに記載のエンティティを推奨する方法を実現する。
第4の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体を提供し、前記プログラムがプロセッサにより実行される場合に、上記のいずれかに記載のエンティティを推奨する方法が実現される。
本開示の実施例のエンティティを推奨する方法では、要求エンティティに関連する複数の特性(知識)に基づいて第1のベクトルを生成するため、当該第1のベクトルは、要求エンティティの複数の側面の性質を表し、要求エンティティを完全且つ包括的に記述することができる(すなわち特徴付ける能力が強い)。また、第1のベクトルと候補エンティティの第2のベクトルの類似度を比較することによって、全体として要求エンティティに近いエンティティ、すなわち要求エンティティと関連性が高いエンティティを取得することができる。これにより、正確な推奨が実現され、ミディアムおよびロングテールエンティティにも適用することができる。
図面は、本開示の実施例のさらなる理解を提供し、明細書の一部を構成し、本開示の実施例とともに本開示を解釈することを意図しており、本開示を制限するものではない。図面を参照して詳細で例示的な実施例を説明することにより、上記及び他の特徴や利点は、当業者にとってさらに明らかになる。
本開示の実施例に係るエンティティを推奨する方法のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS100の一部のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS200の一部のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS100の一部のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS200の一部のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS400のフローチャートである。 本開示の実施例に係るエンティティを推奨する別の方法におけるステップS400のフローチャートである。 本開示の実施例に係るエンティティを推奨する装置の構成ブロック図である。 本開示の実施例に係るエンティティを推奨する別の装置内の第1のベクトル決定モジュールの構成ブロック図である。 本開示の実施例に係るエンティティを推奨する別の装置内の第2のベクトル決定モジュールの構成ブロック図である。
当業者に本発明の技術案をより良く理解させるために、本発明により提供されるエンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体について、図面を参照しながら以下に詳細に説明する。
以下、図面を参照して例示的な実施例を十分に説明するが、前記例示的な実施例は、異なる形態で表現することができ、本明細書で説明される実施例に限定されると解釈すべきではない。逆に、これらの実施例を提供する目的は、本開示を明白且つ完全に、当業者に本開示の範囲を十分に理解させることである。
本明細書で使用される「及び/又は」との用語は、列挙された1つ又は複数の関連アイテムのいずれか1つ及びすべての組み合わせを含む。
他の限定がない限り、本明細書で使用されるすべての用語(技術用語及び科学用語を含む)の意味は、当業者が通常に理解している意味と同じである。また、一般的な辞書に限定されている用語は、関連技術及び本開示の背景における意味と一致すると解釈されるべきであり、本明細書に明確に限定されない限り、理想化又は過度の形式上の意味を有すると解釈されないことを理解されたい。
本開示において、特に説明がない限り、以下の技術用語は、以下の解釈に従って理解されるべきである。
エンティティ(又は概念と呼ばれる)は、人物、物品、構造、製品、建築、場所、国家、組織、芸術作品、科学技術、科学定理など、現実世界に存在し、又はかつて存在した具体的な物質的エンティティ、又は抽象的な概念を指す。
知識グラフは、異なるエンティティ間の関係及びエンティティの属性を表すデータベースである。知識グラフでは、エンティティをノードとし、エンティティとエンティティ、及びエンティティとそれに対応する値は、エッジによって接続されることにより、構造化されたグラフ状のデータベースを構成する。そのうち、エンティティとエンティティとの接続(エッジ)は、エンティティ間の関係を表し、例えばエンティティ張三(人物)は、エンティティ李四(人物)の父親であり、エンティティと値との接続(エッジ)は、エンティティが当該値を有する属性を表し、例えば、エンティティ張三(人物)の電話番号の値がAである。
エンティティを推奨することとは、既存の情報に基づいて、既存の情報に関連するエンティティを見つけ、これらのエンティティをユーザに推奨することにより、ユーザが既存の情報をより良く理解したり、又は既存の情報に関連する内容を了解したりすることである。具体的には、エンティティの推奨は、ネットワーク検索環境において検索項目に関連するエンティティを推奨することができ、又は、エンティティを推奨することは、ユーザに現在のトピック(例えば、FEED類トピック)、ウェブページに関連するエンティティを推奨することもできる。したがって、上記の既存の情報は、検索要求、トピック、ウェブページなどを含むことができる。
いくつかのエンティティを推奨する方法では、各エンティティと要求エンティティ(ユーザが検索するエンティティなど)との共起回数を統計し、すなわち各エンティティと要求エンティティとが検索ログ、ウェブページなどに一緒に現れる回数を統計して、共起回数の大きいエンティティを推奨することができる(これらのエンティティは、要求エンティティとの関連性が高いためである)。又は、知識グラフにおける、要求エンティティに関連するエンティティを推奨することもできる。
ただし、上記の方法は、いずれも関心の多いエンティティ(すなわち高頻度エンティティ)、つまりpv(page view)の高いエンティティのみに適用される。関心の少ない低頻度エンティティ(ミディアムおよびロングテールエンティティとも呼ばれる)は、他のエンティティとの共起回数が低いため、共起回数の高いエンティティを選出することができない。同時に、知識グラフにおける低頻度エンティティの関連付けが不完全であることが多いため、関連付けによって高く関連するエンティティを見つけることが困難である。
エンティティを推奨する別の方法では、要求エンティティと類似する特徴(分類、ラベルなど)を有するエンティティを推奨することができる。
ただし、ラベル、分類の制約によって、このような方式は、エンティティの特徴を大まかに説明することが多く、エンティティ間の関連性を包括的に表現することができないため、その推奨するエンティティは、要求エンティティとの関連性が高くない(例えば、推奨するエンティティと要求エンティティの唯一の共通点は、「すべてイギリス人である」かもしれないが、明らかに、このような共通性はあまり意味がない)。
図1は、本開示の実施例に係るエンティティを推奨する方法のフローチャートである。
第1の態様において、図1を参照して、本開示の実施例は、以下のステップS100~ステップS500を含む、エンティティを推奨する方法を提供する。
ステップS100において、要求エンティティを決定し、要求エンティティの少なくとも二つの特性を決定し、要求エンティティの少なくとも二つの特性に基づいて要求エンティティに対応する第1のベクトルを決定する。
要求エンティティは、当該エンティティに基づいて、それに関連するエンティティを探し、最終的にこれらの見つかった関連エンティティを推奨する必要があることを指す。
要求エンティティを決定することとは、既存の情報から、要求エンティティをスクリーニングすることを指す。例えば、ユーザが一つのエンティティの名詞を直接入力して検索する場合、当該エンティティを要求エンティティとして直接取得することができる。又は、ユーザが質問を入力して検索する場合、意味解析技術によって質問から最も重要なエンティティを要求エンティティとしてスクリーニングすることができる。又は、トピック(FEED類トピックなど)又はウェブページに基づいてエンティティを推奨する場合、キーワード抽出技術により、トピック又はウェブページから最も重要なエンティティを要求エンティティとしてスクリーニングすることができる。
各エンティティは、必ず、いくつかの特徴、関係、属性などに適合し、これらの特徴、関係、属性は、エンティティの特性であり、又はエンティティの「知識」と呼ばれる。エンティティの特性は、タイプ別に、エンティティの上位概念、エンティティが属するカテゴリ、エンティティに関連するラベル、エンティティの説明テキスト(フレーズであってもよく、ウェブページにおけるエンティティの説明テキストのような大きな段落のテキストであってもよい)、エンティティが属するリスト、エンティティの属性などを含むことができる。例えば、エンティティ「ニュートン」については、その特性は、「イギリス人である」、「科学者である」、「ニュートンの三つの法則を発見した」、「ライプニッツと共に微分積分学を確立した」などを含むことができる。
このステップでは、要求エンティティに関連する少なくとも二つの特性を決定し(知識グラフ、ウェブページなどから決定する)、決定された特性に基づいて第1のベクトルを生成するため、第1のベクトルは、要求エンティティの複数の特性を反映する。
ステップS200において、複数の候補エンティティを決定し、各候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定する。
まず、エンティティとして推奨される可能性のある複数のエンティティを候補エンティティとして決定し、次に各候補エンティティの少なくとも一つの関連特性(知識)をそれぞれ決定し、次にそれぞれ各候補エンティティの関連特性に基づいて、各候補エンティティのそれぞれに一つの対応する第2のベクトルを生成する。第2のベクトルの総数は、候補エンティティの総数に等しく、各第2のベクトルは、その対応する候補エンティティの特性に関連する。
ステップS300において、各第2のベクトルと第1のベクトルの類似度をそれぞれ決定する。
各第2のベクトルと第1のベクトルの類似度をそれぞれ比較し、当該類似度は、各候補エンティティの特性(知識)と要求エンティティの特性(知識)の類似程度を表す。つまり、各候補エンティティと要求エンティティの関連性を表す。
ベクトルの類似度を比較する方法は様々である。例えば、第2のベクトルと第1のベクトルのコサイン類似度(cosine)、すなわち二つのベクトル間の夾角の値(0~1間)を計算する。値が1に近いほど、二つのベクトル間の夾角が小さく、二つのベクトルの類似度が高いことを表す。もちろん、ユークリッド距離、マンハッタン距離などを使用してベクトルの類似度を表すことも可能である。
ステップS400において、各第2のベクトルと第1のベクトルの類似度に基づいて、複数の候補エンティティから少なくとも一つのターゲットエンティティを選択する。
各第2のベクトルと第1のベクトルの類似度が決定された後、当該類似度に基づいて、候補エンティティから要求エンティティの関連性が高い候補エンティティ(すなわち対応する第2のベクトルと第1のベクトルの類似度が高い候補エンティティ)をターゲットエンティティとして選択する。
ステップS500において、ターゲットエンティティを推奨する。
ターゲットエンティティが決定された後、ユーザにターゲットエンティティを推奨する。
本開示の実施例のエンティティを推奨する方法では、要求エンティティに関連する複数の特性(知識)に基づいて第1のベクトルを生成するため、当該第1のベクトルは、要求エンティティの複数の側面の性質を表し、要求エンティティを完全且つ包括的に記述することができる(すなわち特徴付ける能力が強い)。第1のベクトルと候補エンティティの第2のベクトルの類似度を比較することによって、全体として要求エンティティに近いエンティティ、すなわち要求エンティティの関連性が高いエンティティを取得することができる。これによって、正確な推奨が実現され、ミディアムおよびロングテールエンティティにも適用することができる。
図2は、本開示の実施例に係るエンティティを推奨する別の方法におけるステップS100の一部のフローチャートである。
いくつかの実施例では、要求エンティティは、少なくとも二つの定義項目を含み、要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではない。
一つの決定された名詞(エンティティ)については、複数の異なる意味(定義項目)を有することができ、異なる定義項目の特性を異ならせることができる。例えば、エンティティニュートンの一つの定義項目は「イギリス科学者」であり、もう一つの定義項目は「力学単位」である。科学者の定義項目としては、ニュートンの特性は、「イギリス人である」、「科学者である」、「ニュートンの三つの法則を発見した」、「ライプニッツと共に微分積分学を確立した」などを含み、力学単位の定義項目としては、ニュートンの特性は、「力の大きさを表す国際単位である」、「記号はNである」、「科学者ニュートンの名前で命名された」などを含むことができる。
図2を参照すると、複数の定義項目を有する要求エンティティについて、上記のステップS100における「要求エンティティの少なくとも二つの特性を決定し、要求エンティティの少なくとも二つの特性に基づいて要求エンティティに対応する第1のベクトルを決定する」ステップは、以下のステップ101およびステップ102を含む。
ステップS101において、要求エンティティの少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択する。
まず、要求エンティティの複数の定義項目から一つの定義項目を選定定義項目として選定する。
定義項目を選定する方式は多様である。例えば、当該要求エンティティを含む検索ログ、ウェブページなどを分析することによって、そのうち最もよく使用される(すなわち、最もホットな)定義項目を選定定義項目とし、又は、要求エンティティが質問、ウェブページなどに含まれる場合、要求エンティティが所在する情報に対して命名エンティティ認識を行い、分析によってその中の、要求エンティティを実際に表す定義項目を得て、当該定義項目を選定定義項目とすることができる。
ステップS102において、要求エンティティの選定定義項目の少なくとも二つの特性を決定し、要求エンティティの選定定義項目の少なくとも二つの特性に基づいて要求エンティティに対応する第1のベクトルを決定する。
選定定義項目を取得した後、当該選定定義項目に対応する特性のみに基づいて要求エンティティに対応する第1のベクトルを生成する。
共起回数などに基づいてエンティティを推奨する方法では、毎回の共起における要求エンティティの定義項目を分析することが困難なため、その推奨の結果は、要求エンティティの複数の定義項目に基づいて生成される総合的な結果であり、所望の定義項目に関する結果ではないため、その推奨に曖昧さがあり、精度が低い。
本開示の実施例の方式によれば、第1のベクトルは、要求エンティティの一つの決定された定義項目のみに基づいて取得されるため、当該第1のベクトルに基づいて当該定義項目に正確に関連する推奨エンティティを取得することができ、曖昧さが回避され、推奨の精度が高い。
もちろん、以上の記載は、要求エンティティの一つの定義項目に対して第1のベクトルを決定する方式のみを説明したが、要求エンティティの各定義項目に対して第1のベクトル(すなわち、各定義項目を選定定義項目として順次に選定する)をそれぞれ決定し、各第1のベクトルに基づいて異なる関連エンティティをそれぞれ推奨することもできる。
図3は、本開示の実施例に係るエンティティを推奨する別の方法におけるステップS200の一部のフローチャートである。
図3を参照すると、上記のステップS200における「複数の候補エンティティを決定する」ステップは、予め設定された第1のデータベース内のすべてのエンティティから、要求エンティティと少なくとも一つの同一の特性を有するエンティティを候補エンティティとして選出するステップS201を含む。
現実に存在するエンティティの総数は非常に大きいが、その中のほとんどは、要求エンティティとほぼ無関係であるため、すべてのエンティティに対して第2のベクトルの計算処理を行う必要がない。したがって、まず、データベース(第1のデータベース)におけるすべてのエンティティを大まかにソートし、そのうちの、要求エンティティと少なくとも一つの同一の特性を有するエンティティ(すなわち要求エンティティと一定の関連性があるエンティティ)を探し、それを大まかなソートバケットに追加して候補エンティティとし、その後、当該大まかなソートバケットにおける候補エンティティのみを演算することによって、演算量を削減することができる。
図4および図5は、それぞれ、本開示の実施例に係るエンティティを推奨する別の方法におけるステップS100及びステップS200の一部のフローチャートである。
いくつかの実施例では、要求エンティティ、要求エンティティの特性、候補エンティティ、及び候補エンティティの特性は、いずれも予め設定された第2のデータベースに含まれる。
つまり、エンティティを推奨するこの方法は、一つの決定されたデータベース(第2のデータベース)に基づいて行うことができる。もちろん、当該第2のデータベースは、上記の第1のデータベースと同一のデータベースであってもよい。
図4を参照すると、ステップS100における「要求エンティティの少なくとも二つの特性に基づいて要求エンティティに対応する第1のベクトルを決定する」ステップは、以下のステップS103及びステップ104を含む。
ステップS103において、予め設定された第1のアルゴリズムに従って、要求エンティティの各特性をm次元の第1の特性ベクトルにそれぞれ変換する。mは正の整数である。
ステップS104において、予め設定された第2のアルゴリズムに従って、すべての第1の特性ベクトルを重畳して、第1のベクトルを得る。
図5を参照すると、ステップS200における「それぞれ各候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定する」ステップは、以下のステップ202及びステップ203を含む。
ステップS202において、第1のアルゴリズムに従って、各候補エンティティの各特性をm次元の第2の特性ベクトルにそれぞれ変換する。
ステップS203において、第2のアルゴリズムに従って、各候補エンティティに対応するすべての第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する第2のベクトルを得る。
つまり、同じアルゴリズムによって、第2のデータベース内の各エンティティ(要求エンティティ又は候補エンティティ)の各特性をm次元のベクトルに変換した後、同一のエンティティに対応するすべてのベクトルを重畳して、当該エンティティに対応するベクトル(第1のベクトル又は第2のベクトル)を構成する。
上記の方式によれば、エンティティの特性を再編成し、再編成された内容を一つのベクトル(第1のベクトル又は第2のベクトル)にフィッティングすることに相当するため、当該ベクトルは、エンティティに含まれるすべての特性を特徴付け、よりよくエンティティを記述することができる。従って、これらのベクトルを比較することによって、要求エンティティとの関連性が最も高い一つ又は複数のエンティティを正確に見つけることができる。
いくつかの実施例では、上記の第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、第1の特性ベクトルはembeddingベクトルであり、第2の特性ベクトルはembeddingベクトルである。
具体的には、Word2vecニューラルネットワークアルゴリズムを使用して各エンティティの各特性(知識)を一つのembedding(埋め込み)ベクトルに変換した後、一つのエンティティに対応する複数のembeddingベクトルを重畳してエンティティに対応するベクトルを得る。
ここで、Word2vecは、深層学習のニューラルネットワークアルゴリズムであり、学習によって一定のテキストにおける各単語を一つの特定の次元のベクトル(embeddingベクトル)にマッピングすることができる。当該ベクトルは、当該テキスト内において当該単語と他の単語との関係を表す。上記の実施例では、第2のデータベースをテキストとし、そのうちの各エンティティ(要求エンティティと候補エンティティ)に対応する各特性が、それぞれベクトルにマッピングされる。
いくつかの実施例では、予め設定された第2のデータベースは予め設定された知識グラフを含む。
第2のデータベースが知識グラフを含む場合、エンティティの特性は、他のエンティティ、属性、関係、値などを含むことができる。
もちろん、ウェブページ、テキストなどの、特定の予め設定されたデータであれば、第2のデータベース(又は上記の第1のデータベース)としてもよいことが理解される。
図6および図7は、本開示の実施例に係るエンティティを推奨する別の方法におけるステップS400のフローチャートである。
図6を参照すると、いくつかの実施例では、「各第2のベクトルと第1のベクトルの類似度に基づいて、複数の候補エンティティから少なくとも一つのターゲットエンティティを選択する」上記のステップS400は、複数の候補エンティティから、対応する第2のベクトルと第1のベクトルの類似度が予め設定された第1の閾値より大きい候補エンティティをターゲットエンティティとして選択するステップ401を含む。
つまり、各候補エンティティに対応する第2のベクトルと第1のベクトルの類似度を予め設定された値(第1の閾値)と比較して、対応する類似度が当該第1の閾値より大きい第2のベクトルに対応する候補エンティティをターゲットエンティティとすることができる。
又は、図7を参照すると、いくつかの実施例では、「各第2のベクトルと第1のベクトルの類似度に基づいて、複数の候補エンティティから少なくとも一つのターゲットエンティティを選択する」上記のステップS400は、対応する第2のベクトルと第1のベクトルの類似度の降順に従って各候補エンティティをソートし、ソートされたシーケンス内の最初のn個の候補エンティティをターゲットエンティティとして選択し、nは予め設定された正の整数であるステップS402を含む。
つまり、複数の候補エンティティを各自に対応する第2のベクトルと第1のベクトルの類似度の降順に従ってソートし、そのうちの対応する類似度が最大の特定の個数(n個)の候補エンティティをターゲットエンティティとして選択する。
もちろん、類似度に基づいて候補エンティティからターゲットエンティティを選択する方式は様々である。例えば、上記のステップS401とステップS402の条件を同時に満たすターゲットエンティティのみをターゲットエンティティとすることもできる。
図8は、本開示の実施例のエンティティを推奨する装置の構成ブロック図である。
第2の態様において、図8を参照すると、本開示の実施例のエンティティを推奨する装置は、
要求エンティティを決定し、要求エンティティの少なくとも二つの特性を決定し、要求エンティティの少なくとも二つの特性に基づいて、要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定モジュールと、複数の候補エンティティを決定し、各候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するように構成される第2のベクトル決定モジュールと、各第2のベクトルと第1のベクトルの類似度をそれぞれ決定するように構成される類似度決定モジュールと、各第2のベクトルと第1のベクトルの類似度に基づいて、複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するように構成されるターゲットエンティティ選択モジュールと、ターゲットエンティティを推奨するように構成される推奨モジュールと、を含む。
図9は、本開示の実施例のエンティティを推奨する別の装置内の第1のベクトル決定モジュールの構成ブロック図である。
いくつかの実施例では、要求エンティティは、少なくとも二つの定義項目を含み、要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではない。図9を参照すると、第1のベクトル決定モジュールは、要求エンティティの少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択するように構成される定義項目選択ユニットと、要求エンティティの選定定義項目の少なくとも二つの特性を決定し、要求エンティティの選定定義項目の少なくとも二つの特性に基づいて、要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定ユニットと、を含む。
図10は、本開示の実施例のエンティティを推奨する別の装置内の第2のベクトル決定モジュールの構成ブロック図である。
図10を参照すると、いくつかの実施例では、第2のベクトル決定モジュールは、
予め設定された第1のデータベース内のすべてのエンティティから、要求エンティティと少なくとも一つの同一の特性を有するエンティティを候補エンティティとして選出する候補エンティティ選択ユニットを含む。
いくつかの実施例では、要求エンティティ、要求エンティティの特性、候補エンティティ、及び候補エンティティの特性は、いずれも予め設定された第2のデータベースに含まれる。
図9を参照すると、第1のベクトル決定モジュールは、予め設定された第1のアルゴリズムに従って、要求エンティティの各特性をm次元の第1の特性ベクトルにそれぞれ変換するように構成される第1の特性ベクトル変換ユニットであって、mは正の整数である第1の特性ベクトル変換ユニットと、予め設定された第2のアルゴリズムに従って、すべての第1の特性ベクトルを重畳して、第1のベクトルを得るように構成される第1のベクトル重畳ユニットと、を含む。
上記の第1の特性ベクトル変換ユニット及び第1のベクトル重畳ユニットは、上記の第1のベクトル決定ユニットの構成部分であってもよい。
図10を参照すると、第2のベクトル決定モジュールは、第1のアルゴリズムに従って、各候補エンティティの各特性をm次元の第2の特性ベクトルにそれぞれ変換するように構成される第2の特性ベクトル変換ユニットと、第2のアルゴリズムに従って、各候補エンティティに対応するすべての第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する第2のベクトルを得るように構成される第2のベクトル重畳ユニットと、を含む。
上記の第2の特性ベクトル変換ユニット及び第2のベクトル重畳ユニットは、第2のベクトル決定ユニットを構成することができる。
いくつかの実施例では、第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、第1の特性ベクトルは、embeddingベクトルであり、第2の特性ベクトルは、embeddingベクトルである。
いくつかの実施例では、予め設定された第2のデータベースは、予め設定された知識グラフを含む。
いくつかの実施例では、第2のベクトル重畳ユニットは、第2のアルゴリズムに従って、各候補エンティティに対応するすべての第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する第2のベクトルを得る。
又は、ターゲットエンティティ選択モジュールは、対応する第2のベクトルと第1のベクトルの類似度の降順に従って各候補エンティティをソートし、ソートされたシーケンス内の最初のn個の候補エンティティをターゲットエンティティとして選択し、nは予め設定された正の整数である。
第3の態様において、本開示の実施例は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を含む電子機器を提供し、一つ又は複数のプログラムが一つ又は複数のプロセッサにより実行される場合に、一つ又は複数のプロセッサが、上記のいずれかのエンティティを推奨する方法を実現する。
第4の態様において、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体を提供し、プログラムがプロセッサにより実行される場合に、上記のいずれかのエンティティを推奨する方法が実現される。
当業者であれば、上記で開示された方法のすべて又はいくつかのステップ、システム、装置における機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェア、及び適切な組み合わせとして実施されてもよいことを理解されたい。ハードウェアの実施形態において、上記の説明で言及された機能モジュール/ユニットの分割は、必ずしも物理的コンポーネントの区分に対応するものではなく、例えば、1つの物理的コンポーネントは、複数の機能を有してもよく、または1つの機能又はステップは、複数の物理的コンポーネントによって連携して実行されてもよい。いくつかの物理的コンポーネント又はすべての物理的コンポーネントは、中央処理装置、デジタル信号プロセッサ、又はマイクロプロセッサなどのプロセッサによって実行されるソフトウェアとして実施されてもよく、又はハードウェアとして実施されてもよく、又は特定用途向け集積回路のような集積回路に実施されてもよい。このようなソフトウェアは、コンピュータ読み取り可能な媒体に配置されてもよく、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体(又は非一時的な媒体)と通信媒体(又は一時的な媒体)を含むことができる。当業者の周知のように、コンピュータ記憶媒体という用語は、情報(例えばコンピュータ読み取り可能な命令、データ構成、プログラムモジュール、又は他のデータ)を記憶するための任意の方法又は技術において実施される揮発性と非揮発性、リムーバブル媒体と非リムーバブル媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)又は他の光ディスク記憶装置、マグネットボックス、デープ、ディスクストレージ又は他の磁気記憶装置、又は所望の情報を記憶し、コンピュータによってアクセスされることができる他の任意の媒体を含むことができるが、これらに限定されない。また、当業者の周知のように、通信媒体は、通常、コンピュータ読み取り可能な媒体、データ構造、プログラムモジュール、又は例えば搬送波や他の伝送方式などの変調データ信号における他のデータを含み、且つ任意の情報配信媒体を含むことができる。
本明細書では、既に例示的な実施例が開示されており、具体的な用語が使用されているが、これらの用語は一般的な説明としてのみ使用されることを意図しており、制限するものとして解釈されるべきではない。従って、当業者は、添付された請求の範囲によって定義された本願の範囲を逸脱することなく、様々な形態および詳細を変更することができる。

Claims (12)

  1. コンピュータが実行するエンティティを推奨する方法であって、
    要求エンティティを決定し、前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップと、
    複数の候補エンティティを決定し、各前記候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するステップと、
    各前記第2のベクトルと前記第1のベクトルの類似度をそれぞれ決定するステップと、
    各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するステップと、
    前記ターゲットエンティティを推奨するステップと、
    を含み、
    前記要求エンティティ、前記要求エンティティの特性、前記候補エンティティ、及び前記候補エンティティの特性が、いずれも予め設定された第2のデータベースに含まれ、
    前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップが、
    予め設定された第1のアルゴリズムに従って、前記要求エンティティの各前記特性をm次元の第1の特性ベクトルにそれぞれ変換するステップと、
    予め設定された第2のアルゴリズムに従って、すべての前記第1の特性ベクトルを重畳して、前記第1のベクトルを得るステップと、を含み、前記mは正の整数であり、
    それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するステップが、
    前記第1のアルゴリズムに従って、各前記候補エンティティの各前記特性をm次元の第2の特性ベクトルにそれぞれ変換するステップと、
    前記第2のアルゴリズムに従って、各前記候補エンティティに対応するすべての前記第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する前記第2のベクトルを得るステップと、
    を含む、エンティティを推奨する方法。
  2. 前記要求エンティティは、少なくとも二つの定義項目を含み、前記要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではなく、
    前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップは、
    前記要求エンティティの前記少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択するステップと、
    前記要求エンティティの選定定義項目の少なくとも二つの特性を決定し、前記要求エンティティの選定定義項目の少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するステップと、を含む請求項1に記載の方法。
  3. 複数の候補エンティティを決定するステップは、
    予め設定された第1のデータベース内のすべてのエンティティから、前記要求エンティティと少なくとも一つの同一の特性を有するエンティティを前記候補エンティティとして選出するステップを含む請求項1に記載の方法。
  4. 前記第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、
    前記第1の特性ベクトルは、embeddingベクトルであり、
    前記第2の特性ベクトルは、embeddingベクトルである請求項1に記載の方法。
  5. 各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するステップは、
    前記複数の候補エンティティから、対応する第2のベクトルと前記第1のベクトルの類似度が予め設定された第1の閾値より大きい前記候補エンティティを前記ターゲットエンティティとして選択するステップ、又は、
    対応する第2のベクトルと前記第1のベクトルの類似度の降順に従って各前記候補エンティティをソートし、ソートされたシーケンス内の最初のn個の前記候補エンティティを前記ターゲットエンティティとして選択するステップ、を含み、前記nは予め設定された正の整数である請求項1に記載の方法。
  6. エンティティを推奨する装置であって、
    要求エンティティを決定し、前記要求エンティティの少なくとも二つの特性を決定し、前記要求エンティティの少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定モジュールと、
    複数の候補エンティティを決定し、各前記候補エンティティの少なくとも一つの特性をそれぞれ決定し、それぞれ各前記候補エンティティの特性に基づいて当該候補エンティティに対応する第2のベクトルを決定するように構成される第2のベクトル決定モジュールと、
    各前記第2のベクトルと前記第1のベクトルの類似度をそれぞれ決定するように構成される類似度決定モジュールと、
    各前記第2のベクトルと前記第1のベクトルの類似度に基づいて、前記複数の候補エンティティから少なくとも一つのターゲットエンティティを選択するように構成されるターゲットエンティティ選択モジュールと、
    前記ターゲットエンティティを推奨するように構成される推奨モジュールと、
    を備え、
    前記要求エンティティ、前記要求エンティティの特性、前記候補エンティティ、及び前記候補エンティティの特性が、いずれも予め設定された第2のデータベースに含まれ、
    前記第1のベクトル決定モジュールが、
    予め設定された第1のアルゴリズムに従って、前記要求エンティティの各前記特性をm次元の第1の特性ベクトルにそれぞれ変換するように構成される第1の特性ベクトル変換ユニットであって、前記mは正の整数である第1の特性ベクトル変換ユニットと、
    予め設定された第2のアルゴリズムに従って、すべての前記第1の特性ベクトルを重畳して、前記第1のベクトルを得るように構成される第1のベクトル重畳ユニットと、
    を備え、
    前記第2のベクトル決定モジュールが、
    前記第1のアルゴリズムに従って、各前記候補エンティティの各前記特性をm次元の第2の特性ベクトルにそれぞれ変換するように構成される第2の特性ベクトル変換ユニットと、
    前記第2のアルゴリズムに従って、各前記候補エンティティに対応するすべての前記第2の特性ベクトルをそれぞれ重畳して、当該候補エンティティに対応する前記第2のベクトルを得るように構成される第2のベクトル重畳ユニットと、
    を備えるエンティティを推奨する装置。
  7. 前記要求エンティティは、少なくとも二つの定義項目を含み、前記要求エンティティの任意の二つの異なる定義項目のすべての特性は、完全に同一ではなく、
    前記第1のベクトル決定モジュールは、
    前記要求エンティティの前記少なくとも二つの定義項目のうちの一つの定義項目を選定定義項目として選択するように構成される定義項目選択ユニットと、
    前記要求エンティティの選定定義項目の少なくとも二つの特性を決定し、前記要求エンティティの選定定義項目の少なくとも二つの特性に基づいて前記要求エンティティに対応する第1のベクトルを決定するように構成される第1のベクトル決定ユニットと、を備える請求項に記載の装置。
  8. 前記第2のベクトル決定モジュールは、
    予め設定された第1のデータベース内のすべてのエンティティから、前記要求エンティティと少なくとも一つの同一の特性を有するエンティティを前記候補エンティティとして選出するように構成される候補エンティティ選択ユニットを備える請求項に記載の装置。
  9. 前記第1のアルゴリズムは、Word2vecニューラルネットワークアルゴリズムであり、
    前記第1の特性ベクトルは、embeddingベクトルであり、
    前記第2の特性ベクトルは、embeddingベクトルである請求項に記載の装置。
  10. 前記ターゲットエンティティ選択モジュールは、前記複数の候補エンティティから、対応する第2のベクトルと前記第1のベクトルの類似度が予め設定された第1の閾値より大きい前記候補エンティティを前記ターゲットエンティティとして選択し、又は、
    前記ターゲットエンティティ選択モジュールは、対応する第2のベクトルと前記第1のベクトルの類似度の降順に従って各前記候補エンティティをソートし、ソートされたシーケンス内の最初のn個の前記候補エンティティを前記ターゲットエンティティとして選択し、前記nは予め設定された正の整数である請求項に記載の装置。
  11. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶されている記憶装置と、を備える電子機器であって、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行される場合に、前記一つ又は複数のプロセッサが、請求項1からのいずれかに記載の方法を実現する電子機器。
  12. コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体であって、
    前記プログラムがプロセッサにより実行される場合に、請求項1からのいずれかに記載の方法が実現されるコンピュータ読み取り可能な媒体。
JP2020018497A 2019-02-21 2020-02-06 エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体 Active JP7082147B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910130128.2 2019-02-21
CN201910130128.2A CN109857873A (zh) 2019-02-21 2019-02-21 推荐实体的方法和装置、电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
JP2020135876A JP2020135876A (ja) 2020-08-31
JP7082147B2 true JP7082147B2 (ja) 2022-06-07

Family

ID=66898484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018497A Active JP7082147B2 (ja) 2019-02-21 2020-02-06 エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体

Country Status (5)

Country Link
US (1) US20200272674A1 (ja)
EP (1) EP3699780A1 (ja)
JP (1) JP7082147B2 (ja)
KR (1) KR102371437B1 (ja)
CN (1) CN109857873A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128225B (zh) * 2019-12-31 2024-06-21 阿里巴巴集团控股有限公司 命名实体的识别方法、装置、电子设备及计算机存储介质
EP3905097A1 (de) * 2020-04-30 2021-11-03 Robert Bosch GmbH Vorrichtung und verfahren zum bestimmen eines knowledge graph
CN112466436B (zh) * 2020-11-25 2024-02-23 北京小白世纪网络科技有限公司 基于循环神经网络的智能中医开方模型训练方法及装置
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN113793191B (zh) * 2021-02-09 2024-05-24 京东科技控股股份有限公司 商品的匹配方法、装置及电子设备
CN114491055B (zh) * 2021-12-10 2022-11-08 浙江辰时科技集团有限公司 基于知识图谱的推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
US20180150551A1 (en) 2016-11-30 2018-05-31 Facebook, Inc. Embedding-based Parsing of Search Queries on Online Social Networks
CN108509479A (zh) 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
CN108596695B (zh) * 2018-05-15 2021-04-27 口口相传(北京)网络技术有限公司 实体推送方法及系统
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
US20180150551A1 (en) 2016-11-30 2018-05-31 Facebook, Inc. Embedding-based Parsing of Search Queries on Online Social Networks
CN108509479A (zh) 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质

Also Published As

Publication number Publication date
JP2020135876A (ja) 2020-08-31
CN109857873A (zh) 2019-06-07
US20200272674A1 (en) 2020-08-27
KR102371437B1 (ko) 2022-03-04
KR20200102335A (ko) 2020-08-31
EP3699780A1 (en) 2020-08-26

Similar Documents

Publication Publication Date Title
JP7082147B2 (ja) エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体
CA2783446C (en) Personalized tag ranking
CN108292310B (zh) 用于数字实体相关的技术
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
RU2439686C2 (ru) Аннотация посредством поиска
US8243988B1 (en) Clustering images using an image region graph
CN109299383B (zh) 生成推荐词的方法、装置、电子设备及存储介质
CN104239660B (zh) 云制造模式下基于动态本体的知识融合方法
US20150213125A1 (en) System and method for skyline queries
US8631002B2 (en) Web-relevance based query classification
CN106951527B (zh) 一种歌曲推荐方法及装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
JP6203304B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN111177719A (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
EP3644195A1 (en) System for storing and querying document collections
Choi et al. Multimodal location estimation of consumer media: Dealing with sparse training data
CN111144098B (zh) 扩展问句的召回方法和装置
Rupasingha et al. Domain-aware web service clustering based on ontology generation by text mining
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
Nguyen Mau et al. Audio fingerprint hierarchy searching strategies on GPGPU massively parallel computer
CN103473695B (zh) 一种基于语义网的Web服务发现方法及系统
WO2017167043A1 (zh) 一种基于用户的个性化数据搜索方法和装置
CN105279172A (zh) 视频匹配方法和装置
US11550834B1 (en) Automated assignment of data set value via semantic matching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220302

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220302

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220314

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220526

R150 Certificate of patent or registration of utility model

Ref document number: 7082147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150