JP2021111420A - テキストエンティティの語義記述処理方法、装置及び機器 - Google Patents

テキストエンティティの語義記述処理方法、装置及び機器 Download PDF

Info

Publication number
JP2021111420A
JP2021111420A JP2021005300A JP2021005300A JP2021111420A JP 2021111420 A JP2021111420 A JP 2021111420A JP 2021005300 A JP2021005300 A JP 2021005300A JP 2021005300 A JP2021005300 A JP 2021005300A JP 2021111420 A JP2021111420 A JP 2021111420A
Authority
JP
Japan
Prior art keywords
entity
main
text
target text
main entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021005300A
Other languages
English (en)
Other versions
JP7113097B2 (ja
Inventor
ソンタイ ダイ
Songtai Dai
ソンタイ ダイ
シンウェイ フォン
Xinwei Feng
シンウェイ フォン
ミャオ ユイ
Miao Yu
ミャオ ユイ
ホウェンユイ ジョウ
Huanyu Zhou
ホウェンユイ ジョウ
シュンチャオ ソン
Xunchao Song
シュンチャオ ソン
ポンチョン ユェン
Pengcheng Yuan
ポンチョン ユェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111420A publication Critical patent/JP2021111420A/ja
Application granted granted Critical
Publication of JP7113097B2 publication Critical patent/JP7113097B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】異なるテキストにおける同じエンティティの記述の類似度を正確に取得するテキストエンティティの語義記述処理方法、装置及び機器を提供する。【解決手段】テキストエンティティの語義技術処理方法は、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出し101、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得し102、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算しステップ103、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定する104。【選択図】図1

Description

本出願は、コンピュータ技術分野に関し、特に知識グラフ技術分野に関し、テキストエンティティの語義記述処理方法、装置及び機器を提供する。
テキストの類似度は、自然言語処理、知識グラフなどの分野で広く応用され、現在、テキストの類似度を決定するための方法は様々であり、例えば、テキストの類似度は、言語モデルによって計算されてもよい。しかしながら、異なるテキストにおける同じエンティティの記述が類似しているか否かを区別する必要があるというシーンが存在し、例えば、いずれも特定の人物の名前を含む2つのテキストについて、2つのテキストにおける当該人物の語義記述が類似しているか否かを区別するというニーズがある。
上記シーンについて、異なるテキストにおけるエンティティの語義記述が類似しているか否かを決定できる方法が必要となる。
本出願は、関連技術の技術的課題の1つを少なくともある程度解決することを目的としている。
このため、本出願の1番目の目的は、異なるテキストにおける同じエンティティの記述の類似度を正確に取得するために、テキストエンティティの語義技術処理方法を提供することにある。
本出願の2番目の目的は、テキストエンティティの語義記述処理装置を提供することにある。
本出願の3番目の目的は、電子機器を提供することにある。
本出願の4番目の目的は、コンピュータ読み取り可能な記憶媒体を提供することにある。
本出願の第1の態様の実施例によるテキストエンティティの語義記述処理方法は、
メインエンティティを含む複数のターゲットテキストを取得し、前記メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するステップと、
各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するステップと、
各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するステップと、
異なるターゲットテキスト間の前記メインエンティティの類似度距離に基づいて異なるターゲットテキストが前記メインエンティティに対して記述する語義類似度を決定するステップと、を含む。
本出願の第2の態様の実施例によるテキストエンティティの語義記述処理装置は、
メインエンティティを含む複数のターゲットテキストを取得し、前記メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するように構成される抽出モジュールと、
各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するように構成される取得モジュールと、
各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するように構成される生成モジュールと、
異なるターゲットテキスト間の前記メインエンティティの類似度距離に基づいて異なるターゲットテキストが前記メインエンティティに対して記述する語義類似度を決定するように構成される決定モジュールと、を含む。
本出願の第3の態様による電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが第1の態様の実施例に記載のテキストエンティティの語義記述処理方法を実行する。
本出願の第4の態様の実施例によるコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに第1の態様の実施例に記載のテキストエンティティの語義記述処理方法を実行させる。
本出願の第5の態様の実施例によるコンピュータプログラムは、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載のテキストエンティティの語義記述処理方法が実行される。
上記の出願における1つの実施例は、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算し、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定するという利点又は有益な効果を有している。これにより、異なるテキストにおけるメインエンティティの記述の語義類似度を決定することで、異なるテキストにおける特定のエンティティに関する記述情報を比較し、他の無関係なエンティティを無視して、異なるテキストにおける同じエンティティに対する記述が類似しているか否かを正確に取得することができ、インテリジェントな質問応答による複数の文章のチェック、百科事典のエントリ分類などのシーンに応用されてもよい。
上記の選択可能な方式が有している他の効果は、以下に具体的な実施例と併せて説明される。
図面は、本技術案をより良く理解するために使用され、本出願を限定するものではない。
本出願の実施例に係るテキストエンティティの語義記述処理方法の概略フローチャートである。 本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。 本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。 本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。 本出願の実施例に係るテキストエンティティの語義記述処理装置の概略構成図である。 本出願の実施例を実現することに適する例示的な電子機器を示すブロック図である。
以下に、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、その中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
図1は本出願の実施例に係るテキストエンティティの語義記述処理方法の概略フローチャートである。図1に示すように、当該方法は、次のステップを含む。
ステップ101において、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出する。
実際の応用において、2つのテキストにおけるあるエンティティの記述が同一又は類似であるか否かを決定する必要があるシーンが存在する。例えば、いずれもエンティティである人物XXXを含む2つのテキストについて、2つのテキストが同じ人物を説明しているか否かをさらに決定するために、2つのテキストにおける当該エンティティの記述の語義が同じであるか否かを決定する必要がある。
本実施例では、複数のテキストにおけるメインエンティティ間の語義関係を決定する場合、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出する。
一例として、メインエンティティを含む複数のターゲットテキストを取得することができ、さらには、関連する名前付きエンティティ認識方法により、メインエンティティ及びターゲットテキストにおける他のエンティティを含むエンティティセットを取得し、認識された他のエンティティを、メインエンティティを記述する他の関連エンティティとする。
別の例として、各ターゲットテキストについて名前付きエンティティの認識を実行して、エンティティ候補集合を取得する。さらに、ターゲットテキストにおける、エンティティ候補集合内の各エンティティ候補とメインエンティティとの間の距離を取得し、ターゲットテキストにおけるメインエンティティとの距離が予め設定された距離よりも小さいエンティティ候補を、メインエンティティを記述する他の関連エンティティとして決定する。
ステップ102において、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得する。
本実施例では、各ターゲットテキストについて、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得することができ、例えば、メインエンティティがAであり、関連エンティティがBとCであり、AとBとの間のサブ関係ベクトル、AとCとの間のサブ関係ベクトルを取得することができる。サブ関係ベクトルを取得する方式は様々である。
本出願の1つの実施例では、ターゲットテキストにおける各文字の第1のベクトル表現を取得し、さらに予めトレーニングされた変換モデルに基づいて第1のベクトル表現、前記メインエンティティ及び各関連エンティティに対して重み付け処理を実行して、ターゲットテキストにおけるメインエンティティ及び各関連エンティティに関連付けられたテキストコンテンツの第2のベクトル表現を取得する。第2のベクトル表現に対してプーリング処理を実行して、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成する。
本出願の1つの実施例では、予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、メインエンティティ及び各関連エンティティを処理して、メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得する。さらに、予めトレーニングされたマッピングモデルに基づいて確率分布をマッピングして、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得する。
ステップ103において、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算する。
本出願の1つの実施例では、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算し、さらに各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算する。
一例として、メインエンティティAと関連エンティティBとの間のサブ関係ベクトル1、及びメインエンティティAと関連エンティティCとの間のサブ関係ベクトル2を取得し、サブ関係ベクトル1とサブ関係ベクトル2を合計してメインエンティティに対応するメイン関係ベクトルを取得する。さらに、各ターゲットテキストについてメインエンティティに対応するメイン関係ベクトルをそれぞれ取得し、メイン関係ベクトルに基づいて類似度を計算し、それによって異なるターゲットテキスト間のメインエンティティの類似度距離を計算する。類似度計算の実現形態は、必要に応じて選択してもよく、ここでは制限されない。
ステップ104において、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて、異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定する。
本実施例では、類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定することができ、例えば、類似度が近いほど、2つのテキストにおけるメインエンティティの記述の語義が近くなる。
本出願の実施例に係るテキストエンティティの語義記述処理方法では、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算し、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定する。これにより、異なるテキストにおけるメインエンティティの記述の語義類似度を決定することで、異なるテキストにおける特定のエンティティに関する記述情報を比較し、他の無関係なエンティティを無視して、異なるテキストにおける同じエンティティに対する記述が一致しているか否かを正確に取得することができ、インテリジェントな質問応答による複数の文章のチェック、百科事典のエントリ分類などのシーンに応用されてもよい。
サブ関係ベクトルに基づいてメイン関係ベクトルを取得することについては、以下に上記実施例に基づいて説明する。
図2は本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。図2に示すように、当該方法は、次のステップを含む。
ステップ201において、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算する。
本出願の1つの実施例では、エンティティ記述モデルを予めトレーニングすることができ、エンティティ記述モデルは、サブ関係ベクトルが入力され、メイン関係ベクトルが出力される。予め設定されたエンティティを含むサンプルテキストセットを取得し、予め設定されたエンティティが類似しているか否かをサンプルテキストセットにタグ付けし、サンプルテキストセットに基づいて、予め設定されたエンティティと関連エンティティの間のサブ関係ベクトルを取得し、さらにサブ関係ベクトルを予め設定されたモデルに入力して処理し、メイン関係ベクトルを生成し、さらにメイン関係ベクトルに基づいて、予め設定されたエンティティの記述の類似度予測結果を取得し、予測結果とタグ付け結果に応じて、予め設定されたモデルの処理パラメータを逆伝播によってトレーニングして、エンティティ記述モデルを決定する。予め設定されたモデルは、グラフアテンションニューラルネットワークによって実現されてもよい。
本実施例では、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間の複数のサブ関係ベクトルを取得した後、複数のサブ関係ベクトルを予めトレーニングされたエンティティ記述モデルに入力して重み付け処理を実行して、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを取得する。
ステップ202において、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算する。
一例として、メインエンティティを含む第1のテキスト及び第2のテキストを取得する。さらに、第1のテキストにおけるメインエンティティに対応するN個の関連エンティティを決定し、N個のサブ関係ベクトルを取得し、さらに、N個のサブ関係ベクトルに基づいてメインエンティティに対応するメイン関係ベクトル1を計算する。第2のテキストに対してメインエンティティに対応するM個の関連エンティティを決定し、M個のサブ関係ベクトルを取得し、さらに、M個のサブ関係ベクトルに基づいてメインエンティティに対応するメイン関係ベクトル2を計算する。メイン関係ベクトル1及びメイン関係ベクトル2によって類似度を計算し、異なるターゲットテキスト間のメインエンティティの類似度距離を決定する。
本出願の実施例に係るテキストエンティティの語義記述処理方法では、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算する。さらに、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算する。これにより、メインエンティティを記述するメイン関係ベクトルを取得することを実現し、さらに異なるターゲットテキストがメインエンティティに対して記述する語義類似度の計算精度をさらに向上させる。
以下にメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するための1つの実現形態について説明する。
図3は本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。図3に示すように、当該方法は、次のステップを含む。
ステップ301において、ターゲットテキストにおける各文字の第1のベクトル表現を取得する。
1つの可能な実現形態として、ターゲットテキストを言語モデルで処理して、ターゲットテキストにおける各文字のベクトル表現を第1のベクトル表現として取得することができる。言語モデルは、BERTモデル(Bidirectional Encoder Representations from Transformers)、ERNIE(知識強化語義表現モデル:Enhanced Representation from kNowledge IntEgration)などを含むがこれらに限定されない。
ステップ302において、予めトレーニングされた変換モデルに基づいて第1のベクトル表現、メインエンティティ及び各関連エンティティに対して重み付け処理を実行して、ターゲットテキストにおけるメインエンティティ及び各関連エンティティに関連付けられたテキストコンテンツの第2のベクトル表現を取得する。
本出願の1つの実施例では、予め設定されたエンティティペア間の関係が類似しているか否かをタグ付けするサンプルテキストセットを取得することができる。さらに、サンプルテキストセットを予め設定されたモデルに入力して処理し、予め設定されたエンティティペア間の関係の類似度予測結果を取得し、類似度予測結果とタグ付け結果に応じて、予め設定されたモデルの処理パラメータをトレーニングして、変換モデルを決定する。
一例として、予め設定されたモデルは、トランスフォーマー(transformer)構造、プーリングレイヤー及び類似度計算部を含むことができ、サンプルテキストセットの第1のテキストと第2のテキストについて、サンプルテキストには、予め設定されたエンティティAとエンティティBとが含まれ、予め設定されたエンティティAとエンティティBとの間の関係が当該2つのテキストで類似しているか否かがタグ付けされる。第1のテキストを言語モデルに入力して、第1のテキストにおける各文字のベクトル表現を取得する。予め設定されたエンティティペアと各文字のベクトル表現に基づいてトランスフォーマー(transformer)構造に入力して重み付け処理を行い、さらに重み付け処理後のベクトル表現に基づいてプーリングレイヤーに入力してプーリング処理を実行して、第1のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルを取得する。また、第1のテキストを参照することにより、第2のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルを取得する。さらに、第1のテキストと第2のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルに基づいて類似度を計算して、予め設定されたエンティティペア間の語義関係の類似度予測結果を決定する。予測結果とタグ付け結果に応じて、トランスフォーマー(transformer)構造の処理パラメータを、予測結果とマーク結果が一致しているまで逆伝播によって調整し、トレーニングによって変換モデルを決定する。
本実施例では、ターゲットテキストにおけるメインエンティティと各関連エンティティに基づいてエンティティペアを構成し、さらに予めトレーニングされた変換モデルに基づいて第1のベクトル表現とエンティティペアを処理し、メインエンティティと各関連エンティティに対してターゲットテキストにおけるそれらに関連付けられたテキストコンテンツの第2のベクトル表現を取得する。
ステップ303において、第2のベクトル表現に対してプーリング処理を実行して、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成する。
一例として、N×M行列の第2のベクトル表現(N個の文字、M個の次元)に対して、各文字のm番目の次元に基づいて平均値を求める。各次元の平均値を求めることにより、1×Mの形態のサブ関係ベクトルを生成する。
上記のプーリング処理方式は1つの例だけであり、例えば各次元の最大値/最小値を求める方式で実現することもでき、ここでは制限されないことが説明されるべきである。
本出願の実施例に係るテキストエンティティの語義記述処理方法では、予めトレーニングされた変換モデルとプーリングレイヤーによってターゲットテキスト、メインエンティティと各関連エンティティを処理し、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成して、エンティティペア間の関係のベクトル表現を取得することを実現する。
以下にメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するための別の実現形態について説明する。
図4は本出願の実施例に係る別のテキストエンティティの語義記述処理方法の概略フローチャートである。図4に示すように、当該方法は、次のステップを含む。
ステップ401において、予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、メインエンティティ及び各関連エンティティを処理して、メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得する。
本実施例では、予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、メインエンティティ及び各関連エンティティを処理して、メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得する。例えば、メインエンティティがエンティティAを含み、関連エンティティがエンティティBとエンティティCとを含み、AとBの関係の確率分布[0.6、0.2、0.2]、AとCの関係の確率分布[0.2、0.7、0.1]を取得する。関係抽出モデルをトレーニングするための実現形態は、必要に応じて選択してもよく、ここでは説明を省略する。
ステップ402において、予めトレーニングされたマッピングモデルに基づいて確率分布をマッピングして、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得する。
本出願の1つの実施例では、予め設定されたエンティティペア間の関係が類似しているか否かをタグ付けするサンプルテキストセットを取得することができでる。さらに、サンプルテキストセットを予め設定されたモデルに入力して処理し、予め設定されたエンティティペア間の関係の類似度予測結果を取得し、予測結果とタグ付け結果に応じて、予め設定されたモデルの処理パラメータをトレーニングして、マッピングモデルを決定する。選択可能には、マッピングモデルは、完全接続層を介して実現されてもよい。
一例として、予め設定されたモデルは、関係抽出モデルと完全接続層とを含む。サンプルテキストセットの第1のテキストと第2のテキストについて、サンプルテキストには、予め設定されたエンティティAとエンティティBとが含まれ、予め設定されたエンティティAとエンティティBの間の関係が当該2つのテキストで類似しているか否かがタグ付けされ、第1のテキストと予め設定されたエンティティペアを関係抽出モデルに入力し、第1のテキストにおける予め設定されたエンティティペアとの間の関係確率分布を取得し、確率分布に応じて完全接続層に入力し、第1のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルを生成する。また、第1のテキストを参照することで第2のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルを取得する。さらに、第1のテキストと第2のテキストにおける予め設定されたエンティティペアのサブ関係ベクトルに基づいて類似度を計算して、予め設定されたエンティティペア間の関係の類似度予測結果を決定する。予測結果とタグ付け結果に応じて、完全接続層の処理パラメータを、予測結果とマーク結果が一致しているまで逆伝播によって調整し、トレーニングによってマッピングモデルを決定する。
本実施例では、予めトレーニングされたマッピングモデルに基づいて確率分布を処理して、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得する。例えば、AとBとの関係の確率分布[0.6、0.2、0.2]、AとCとの関係の確率分布[0.2、0.7、0.1]に対して、サブ関係ベクトル1及びサブ関係ベクトル2をそれぞれ取得する。
本出願の実施例に係るテキストエンティティの語義記述処理方法では、関係抽出モデルとマッピングモデルによってターゲットテキスト、メインエンティティと各関連エンティティペアを処理し、メインエンティティと各関連エンティティペアのサブ関係ベクトルを取得して、エンティティペア間の関係のベクトル表現を取得することを実現する。
上記の実施例を実現するために、本出願は、テキストエンティティの語義記述処理装置をさらに提供する。
図5は本出願の実施例に係るテキストエンティティの語義記述処理装置の概略構成図である。図5に示すように、当該装置は、抽出モジュール10と、取得モジュール20と、生成モジュール30と、決定モジュール40とを含む。
抽出モジュール10は、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するように構成される。
取得モジュール20は、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するように構成される。
生成モジュール30は、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算するように構成される。
決定モジュール40は、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定するように構成される。
本出願の1つの実施例では、抽出モジュール10は、具体的には、各ターゲットテキストについて名前付きエンティティの認識を実行して、エンティティ候補集合を取得し、エンティティ候補集合のうち、ターゲットテキストにおけるメインエンティティとの距離が予め設定された距離よりも小さいエンティティ候補を、メインエンティティを記述する他の関連エンティティとして取得するように構成される。
本出願の1つの実施例では、取得モジュール20は、具体的には、ターゲットテキストにおける各文字の第1のベクトル表現を取得し、予めトレーニングされた変換モデルに基づいて第1のベクトル表現、メインエンティティ及び各関連エンティティに対して重み付け処理を実行して、ターゲットテキストにおけるメインエンティティ及び各関連エンティティに関連付けられたテキストコンテンツの第2のベクトル表現を取得し、第2のベクトル表現に対してプーリング処理を実行して、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成するように構成される。
本出願の1つの実施例では、取得モジュール20は、具体的には、予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、メインエンティティ及び各関連エンティティを処理して、メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得し、予めトレーニングされたマッピングモデルに基づいて確率分布をマッピングして、メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するように構成される。
本出願の1つの実施例では、生成モジュール30は、具体的には、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算するように構成される。
上記の実施例におけるテキストエンティティの語義記述処理方法の説明が同様に本実施例のテキストエンティティの語義記述処理装置に適用可能であり、ここでは説明を省略することを説明すべきである。
本出願の実施例に係るテキストエンティティの語義記述処理装置は、メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得し、各ターゲットテキストにおけるメインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間のメインエンティティの類似度距離を計算し、異なるターゲットテキスト間のメインエンティティの類似度距離に基づいて異なるターゲットテキストがメインエンティティに対して記述する語義類似度を決定する。これにより、異なるテキストにおけるメインエンティティの記述の語義類似度を決定することで、異なるテキストにおける特定のエンティティに関する記述情報を比較し、他の無関係なエンティティを無視して、異なるテキストにおける同じエンティティに対する記述が一致しているか否かを正確に取得することができ、インテリジェントな質問応答による複数の文章のチェック、百科事典のエントリ分類などのシーンに応用されてもよい。
上記の実施例を実現するために、本出願は、命令がプロセッサによって実行されると上記のいずれかの実施例に記載のテキストエンティティの語義記述処理方法を実現するコンピュータプログラム製品をさらに提供する。
本出願の実施例によれば、本出願は、電子機器と読み取り可能な記憶媒体とをさらに提供する。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記テキストエンティティの語義記述処理方法が実行される。
図6は本出願の実施例に係るテキストエンティティの語義記述処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを図る。電子機器は、さらに携帯情報端末、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似するコンピューティングデバイスなどの様々な形態の移動装置を表すこともできる。本明細書に示されているコンポーネント、それらの接続及び関係、並びにそれらの機能は、例だけであり、かつ本明細書での説明及び/又は要求される本出願の実現を制限することを意図するものではない。
図6に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェース及び低速インターフェースを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスで相互に接続され、かつ共通のマザーボードに取り付けられてもよいか、又は必要に応じて他の方式で取り付けられてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合された表示装置など)にGUIのグラフィック情報を表示するためにメモリ内又はメモリ上に記憶される命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要の場合、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各装置は、部分の必要な操作(例えば、サーバーアレイ、1つのブレードサーバーグループ、又はマルチプロセッサシステムとする)を提供することができる。図6では、一つのプロセッサ701が例として挙げられる。
メモリ702は、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも1つのプロセッサが本出願によるテキストエンティティの語義記述処理方法を実行できるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願によるテキストエンティティの語義記述処理方法を実行させるためのコンピュータ命令が記憶されている。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的ソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、及び本出願の実施例におけるテキストエンティティの意味記述処理方法に対応するプログラム命令/モジュール(例えば、図5に示す抽出モジュール10、取得モジュール20、生成モジュール30、決定モジュール40)などのモジュールを記憶するように構成されてもよい。プロセッサ701は、メモリ702に記憶されている非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例によるテキストエンティティの語義記述処理方法を実現する。
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用に応じて作成されたデータを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリ、例えば少なくとも一つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートストレージデバイスをさらに含むことができる。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設けられたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してコンピュータ装置に接続されてもよい。上記ネットワークの実施例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
テキストエンティティの語義記述処理方法を実現するための電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703と出力装置704は、バス又は他の方式で接続されてもよく、図6ではバスで接続されることが例として挙げられる。
入力装置703は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイとプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも一つの入力装置及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高度レベルのプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実現されてもよい。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、本明細書で説明されるシステム及び技術をコンピュータで実施することができ、当該コンピュータは、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバーとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによって本明細書で説明されるシステム及び技術の実施形態とのインタラクションを行うことができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施されてもよい。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバーとを含むことができる。クライアントとサーバーは、一般的には、互いに離れており、通常、通信ネットワークを介してインタラクションを行う。クライアントとサーバーとの関係は、対応するコンピュータ上で実行されかつ相互にクライアント−サーバー関係を有するコンピュータプログラムによって生成される。
本出願の実施例の技術案により、取得された候補フレームの位置がより正確になり、密集したシーンにおけるテキストエンティティの語義記述処理による候補フレームの取得の精度を向上させる必要があるという問題が解決され、それによってテキストエンティティの語義記述処理の精度が向上する。
上記の様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本出願に記載されている各ステップは、本出願で開示されている技術案の所望の結果さえ達成すれば、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するためのものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本出願の精神及び原則の範囲内で行われたいかなる修正、同等の置換と改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. テキストエンティティの語義記述処理方法であって、
    メインエンティティを含む複数のターゲットテキストを取得し、前記メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するステップと、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するステップと、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するステップと、
    異なるターゲットテキスト間の前記メインエンティティの類似度距離に基づいて異なるターゲットテキストが前記メインエンティティに対して記述する語義類似度を決定するステップと、を含む、
    ことを特徴とするテキストエンティティの語義記述処理方法。
  2. 前記メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するステップは、
    各ターゲットテキストについて名前付きエンティティの認識を実行して、エンティティ候補集合を取得するステップと、
    前記エンティティ候補集合のうち、前記ターゲットテキストにおける前記メインエンティティとの距離が予め設定された距離よりも小さいエンティティ候補を、前記メインエンティティを記述する他の関連エンティティとして取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するステップは、
    前記ターゲットテキストにおける各文字の第1のベクトル表現を取得するステップと、
    予めトレーニングされた変換モデルに基づいて前記第1のベクトル表現、前記メインエンティティ及び各関連エンティティに対して重み付け処理を実行して、ターゲットテキストにおける前記メインエンティティ及び各関連エンティティに関連付けられたテキストコンテンツの第2のベクトル表現を取得するステップと、
    前記第2のベクトル表現に対してプーリング処理を実行して、前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するステップは、
    予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、前記メインエンティティ及び各関連エンティティを処理して、前記メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得するステップと、
    予めトレーニングされたマッピングモデルに基づいて前記確率分布をマッピングして、前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するステップは、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算するステップと、
    各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. テキストエンティティの語義記述処理装置であって、
    メインエンティティを含む複数のターゲットテキストを取得し、メインエンティティを記述する他の関連エンティティを各ターゲットテキストから抽出するように構成される抽出モジュールと、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するように構成される取得モジュールと、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するように構成される生成モジュールと、
    異なるターゲットテキスト間の前記メインエンティティの類似度距離に基づいて異なるターゲットテキストが前記メインエンティティに対して記述する語義類似度を決定するように構成される決定モジュールと、を含む、
    ことを特徴とするテキストエンティティの語義記述処理装置。
  7. 前記抽出モジュールは、具体的には、
    各ターゲットテキストについて名前付きエンティティの認識を実行して、エンティティ候補集合を取得し、
    前記エンティティ候補集合のうち、前記ターゲットテキストにおける前記メインエンティティとの距離が予め設定された距離よりも小さいエンティティ候補を、前記メインエンティティを記述する他の関連エンティティとして取得するように構成される、
    ことを特徴とする請求項6に記載の装置。
  8. 前記取得モジュールは、具体的には、
    前記ターゲットテキストにおける各文字の第1のベクトル表現を取得し、
    予めトレーニングされた変換モデルに基づいて前記第1のベクトル表現、前記メインエンティティ及び各関連エンティティに対して重み付け処理を実行して、ターゲットテキストにおける前記メインエンティティ及び各関連エンティティに関連付けられたテキストコンテンツの第2のベクトル表現を取得し、
    前記第2のベクトル表現に対してプーリング処理を実行して、前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを生成するように構成される、
    ことを特徴とする請求項6に記載の装置。
  9. 前記取得モジュールは、具体的には、
    予めトレーニングされた関係抽出モデルに基づいてターゲットテキスト、前記メインエンティティ及び各関連エンティティを処理して、前記メインエンティティと各関連エンティティペアとの間の関係の確率分布を取得し、
    予めトレーニングされたマッピングモデルに基づいて前記確率分布をマッピングして、前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを取得するように構成される、
    ことを特徴とする請求項6に記載の装置。
  10. 前記生成モジュールは、具体的には、
    各ターゲットテキストにおける前記メインエンティティと各関連エンティティペアとの間のサブ関係ベクトルを合計し、各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルを計算し、
    各ターゲットテキストにおけるメインエンティティに対応するメイン関係ベクトルに基づいて、異なるターゲットテキスト間の前記メインエンティティの類似度距離を計算するように構成される、
    ことを特徴とする請求項6に記載の装置。
  11. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1〜5のいずれかに記載のテキストエンティティの語義記述処理方法を実行する、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜5のいずれかに記載のテキストエンティティの語義記述処理方法を実行させる、
    ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合に、請求項1〜5のいずれかに記載のテキストエンティティの語義記述処理方法が実行される、
    ことを特徴とするコンピュータプログラム。
JP2021005300A 2020-01-15 2021-01-15 テキストエンティティの語義記述処理方法、装置及び機器 Active JP7113097B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010041592.7 2020-01-15
CN202010041592.7A CN111259671B (zh) 2020-01-15 2020-01-15 文本实体的语义描述处理方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2021111420A true JP2021111420A (ja) 2021-08-02
JP7113097B2 JP7113097B2 (ja) 2022-08-04

Family

ID=70945163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021005300A Active JP7113097B2 (ja) 2020-01-15 2021-01-15 テキストエンティティの語義記述処理方法、装置及び機器

Country Status (5)

Country Link
US (1) US11669690B2 (ja)
EP (1) EP3852000A1 (ja)
JP (1) JP7113097B2 (ja)
KR (1) KR20210092151A (ja)
CN (1) CN111259671B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113609291A (zh) * 2021-07-27 2021-11-05 科大讯飞(苏州)科技有限公司 实体分类方法、装置、电子设备和存储介质
CN113642336B (zh) * 2021-08-27 2024-03-08 青岛全掌柜科技有限公司 一种基于SaaS的保险自动问答方法及系统
KR20230043609A (ko) * 2021-09-24 2023-03-31 삼성전자주식회사 음성 인식 장치 및 그 동작 방법
CN114925210B (zh) * 2022-03-21 2023-12-08 中国电信股份有限公司 知识图谱的构建方法、装置、介质及设备
US20230306203A1 (en) * 2022-03-24 2023-09-28 International Business Machines Corporation Generating semantic vector representation of natural language data
CN114970666B (zh) * 2022-03-29 2023-08-29 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN117010010B (zh) * 2023-06-01 2024-02-13 湖南信安数字科技有限公司 一种基于区块链的多服务器协作高安全度存储方法
CN116894489B (zh) * 2023-09-08 2023-11-17 北京睿企信息科技有限公司 一种文本生成方法、电子设备及存储介质
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
CN108829669A (zh) * 2018-06-01 2018-11-16 北京玄科技有限公司 支持极性区分和多义的词向量生成方法及装置
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110245342A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 文本匹配的方法、装置和存储介质
CN110287312A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US10289957B2 (en) * 2014-12-30 2019-05-14 Excalibur Ip, Llc Method and system for entity linking
US10643120B2 (en) * 2016-11-15 2020-05-05 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110188168B (zh) * 2019-05-24 2021-09-03 北京邮电大学 语义关系识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
CN110245342A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 文本匹配的方法、装置和存储介质
CN108829669A (zh) * 2018-06-01 2018-11-16 北京玄科技有限公司 支持极性区分和多义的词向量生成方法及装置
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110287312A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石川 雅弘: "ブログテキストの分析に基づく語の意味の経時変化可視化の試み", インタラクティブ情報アクセスと可視化マイニング 第18回研究会研究発表予稿集, JPN6022012147, 4 March 2018 (2018-03-04), JP, pages 27 - 33, ISSN: 0004737792 *

Also Published As

Publication number Publication date
US11669690B2 (en) 2023-06-06
CN111259671B (zh) 2023-10-31
CN111259671A (zh) 2020-06-09
JP7113097B2 (ja) 2022-08-04
EP3852000A1 (en) 2021-07-21
US20210216722A1 (en) 2021-07-15
KR20210092151A (ko) 2021-07-23

Similar Documents

Publication Publication Date Title
JP2021111420A (ja) テキストエンティティの語義記述処理方法、装置及び機器
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11928435B2 (en) Event extraction method, event extraction device, and electronic device
CN111737954B (zh) 文本相似度确定方法、装置、设备和介质
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
EP3848819A1 (en) Method and apparatus for retrieving video, device and medium
CN111414482A (zh) 一种事件论元抽取方法、装置以及电子设备
US20220067439A1 (en) Entity linking method, electronic device and storage medium
CN111079945B (zh) 端到端模型的训练方法及装置
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP7133002B2 (ja) 句読点予測方法および装置
CN111507355A (zh) 一种字符识别方法、装置、设备和存储介质
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN112507101A (zh) 一种建立预训练语言模型的方法和装置
CN113220835B (zh) 文本信息处理方法、装置、电子设备以及存储介质
KR20210122204A (ko) 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN112395873B (zh) 对白角色标注模型的生成方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7113097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150