JP7096919B2 - エンティティワードの認識方法と装置 - Google Patents

エンティティワードの認識方法と装置 Download PDF

Info

Publication number
JP7096919B2
JP7096919B2 JP2021022635A JP2021022635A JP7096919B2 JP 7096919 B2 JP7096919 B2 JP 7096919B2 JP 2021022635 A JP2021022635 A JP 2021022635A JP 2021022635 A JP2021022635 A JP 2021022635A JP 7096919 B2 JP7096919 B2 JP 7096919B2
Authority
JP
Japan
Prior art keywords
entity word
sample
question
entity
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021022635A
Other languages
English (en)
Other versions
JP2021131858A (ja
Inventor
シ,ヤビン
リ,シャンジ
ジャン,イェ
チャン,ヤン
ジュ,ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021131858A publication Critical patent/JP2021131858A/ja
Application granted granted Critical
Publication of JP7096919B2 publication Critical patent/JP7096919B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

本出願は、人工知能技術における情報処理技術の分野に関し、特に、エンティティワードの認識方法と装置に関する。
現在、知識グラフの構築は、あらゆる業界でますます重要視され、例えば、法律制度の知識グラフに法務業界での法的推論などを提供することができ、ここで、知識グラフの構築は、エンティティワードのマイニングに依存する。
関連技術において、業界内で蓄積された専門ドキュメントに基づいてエンティティワードをマイニングして、業界内の専門用語集を取得し、キーワードマッチング技術に基づいて専門ドキュメントから対応するエンティティワードをマイニングする。
しかし、このようなエンティティワードの取得方法は、用語集の包括性の度合いに依存する。多くの場合、業界内で蓄積された用語集は非常に限られているため、エンティティワードのリコール率が低い。
本出願の第1の目的は、エンティティワードの認識方法を提供することである。
本出願の第2の目的は、エンティティワード認識装置を提供することである。
本出願の第3の目的は、電子機器を提供することである。
本出願の第4の目的は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。
本出願の第5の目的は、コンピュータプログラムを提供することである。
上記目的を達成するために、本出願の第1態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含むエンティティワード認識方法を提供する。
上記目的を達成するために、本出願の第2態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の取得モジュールと、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の生成モジュールと、前記認識対象のドキュメントを分割して、複数の候補文を生成するための第2の生成モジュールと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第2の取得モジュールと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第3の取得モジュールと、を含むエンティティワード認識装置を提供する。
上記目的を達成するために、本出願の第3態様の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含む電子機器を提供し、ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の実施例に記載のエンティティワードの認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
上記目的を達成するために、本出願の第4の態様の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。
上記目的を達成するために、本出願の第5の態様の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。
上記出願の一実施例は、次のような利点と有益な効果を有する。
エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。
上記の選択可能な方法が有する他の効果を、以下で具体的な実施例を参照しながら説明する。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第1実施例に係るエンティティワードを認識するシーンの模式図である。 本出願の第2実施例に係るエンティティワードの認識方法のフローチャートである。 本出願の第3実施例による問答モデルの構造模式図である。 本出願の第5実施例に係るエンティティワード認識装置の構造模式図である。 本出願の第6実施例に係るエンティティワード認識装置の構造模式図である。 本出願の第7実施例に係るエンティティワード認識装置の構造模式図である。 本出願の第8実施例に係るエンティティワード認識装置の構造模式図である。 本出願の実施例に係るエンティティワードの認識方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照しながら、本出願の実施例のエンティティワードの認識方法と装置について説明する。ここで、本実施例に言及されるエンティティワードは、法律業界の「申し込み」などのような各業界の専門用語である。
関連技術で言及されたエンティティワードのリコール率が高くないという問題を解決するために、本出願は、自動化に基づく業界エンティティを認識する方法を提供した。問答技術を利用して、高拡張性、低コストの業界エンティティワードの認識方法を実現し、それにより、知識グラフの大規模構築、インテリジェントな問答、エンティティ検索などの上位アプリケーションをサポートし、例えば、図1に示すように、ユーザが入力した検索文が「信用カードタイプ」である場合、対応するエンティティワードをユーザに提供できる。
具体的に言えば、図2は、本出願の一実施例に係るエンティティワードの認識方法のフローチャートであり、図2に示すように、当該方法は、ステップ101~ステップ105を含む。
ステップ101、エンティティワードのカテゴリ及び認識対象のドキュメントを取得する。
ここで、エンティティワードのカテゴリとは、取得対象のエンティティワードが属する技術分野などを言い、例えば、当該エンティティワードのカテゴリは、法律、経済、医療などであり得る。また、認識対象のドキュメントは、通常、対応する分野でリコール対象のエンティティワードの専門ドキュメントである。
なお、異なる分野で、エンティティワードのカテゴリの取得方法も異なり、実現可能な一方法として、ユーザにエンティティワードのカテゴリの選択インターフェースを提供し、ユーザがインターフェース上で選択したタグに基づいて、所属のエンティティワードのカテゴリを決定する。
実現可能な別の方法として、認識対象のドキュメントに含まれている内容に基づいて、認識対象のドキュメントのテーマを決定し、テーマ内容に基づいてエンティティワードのカテゴリを決定することができる。
ステップ102、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する。
本出願の実施例では、エンティティワードのカテゴリの一般化特徴をマイニングするため、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、例えば、エンティティワードのカテゴリが「人物」である場合、それを「文中で言及された人は誰ですか」というエンティティワード質問などに処理することができる。
当然ながら、異なるシーンにおいて、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する方法も異なり、実現可能な一方法として、学習モデルを予め訓練し、当該モデルは、入力がエンティティワードのカテゴリで、出力がエンティティワード質問である。実現可能な別の方法として、対応するエンティティワードのカテゴリが属する分野で、エンティティワードのカテゴリと最も一般的に使用される問題との対応関係を予め構築し、当該対応関係に基づいて、対応するエンティティワード質問を決定する。
ステップ103、認識対象のドキュメントを分割して、複数の候補文を生成する。
エンティティワード質問とのマッチングを容易にするため、本実施例では、認識対象のドキュメントを分割し、例えば、改行記号などの句読点及び意味分析などにしたがって、各々の文を生成して、複数の候補文を取得し、候補文の長さは、後続の処理とマッチング操作を容易にする長さである。
ステップ104、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得する。
問答モデルを予め訓練し、当該問答モデルは、入力されたエンティティワード質問及び複数の候補文に基づいて、対応するエンティティワード質問にマッチングする回答候補文を認識することができ、当該回答文に、対応するエンティティワードをタグ付けすることを理解するであろう。
具体的には、初期問答モデルを予め構築し、ここで、図3に示すように、構築した問答モデルは4層を含む。第1層は入力層で、エンティティワード質問及び対応する候補文のシーケンスを入力するために用いられ、ここで、入力する際に、モデルの認識を容易にするため、開始にCLSを使用し、候補文間はSEPによって接続され、これにより、エンティティワード質問及び対応する全ての候補文を入力することができ、当然ながら、エンティティワード質問及び対応する1つ又はいくつかの候補問題を入力することもでき、認識効率を向上させるため、エンティティワード質問と明らかに関連のない候補文を予め排除することもでき(意味認識などの技術に基づいて排除でき)、続いて図1に示す例を用い、認識対象のドキュメントが銀行業界のドキュメントであり、エンティティワード質問は「信用カード」である場合、入力層に入力されたのは、「CLS信用カードSEP広発携程提携カード事業紹介」であり得る。
問答モデルの第2層は埋め込み層であり、当該層は図中のembedding layersに対応し、主に入力されたシーケンスの特徴を抽出するために用いられ、例えば、以下の3種類の方法を使用して抽出することができる。第1種類は、単語埋め込みであり、予め構築された単語集によって、入力された単語シーケンス内の単語を、単語のID情報などのような対応する単語識別情報に転換し、さらに、埋め込み技術によって、転換されたIDを低次元ベクトル圧縮する。第2種類、位置埋め込みであり、各単語の入力シーケンスにおける位置情報を、埋め込み技術によって低次元ベクトルに圧縮する。第3種類、段落フラグメント埋め込みであり、この特徴を使用して候補文がドキュメントのどの段落にあるかを特徴付け、ここで、図中のEAは第1段落に出現したことを表し、EBは第2段落に出現したことを表し、埋め込み層はこの3種類のベクトル特徴を組み合わせてから、第3層のモデル層に入力してもよい。
問答モデルの第3層モデル層は図中のmodeling layersに対応し、当該層は、主にtransformerユニットで構成される。モデル層には複数層のtransformerユニットがあってもよく、各層の各transformerユニットは、1つの入力中のユニットに対応し、つまり、入力層、埋め込み層、モデル層のシーケンスの長さは全部一致すべきである。同じ層内のtransformerユニットは互いに接続されておらず、異なる層間のtransformerユニットは、2つずつ接続する(美観要因を考量して、図に2つの層を展示し、また、第1層のT0と上層tranformerとの接続状況のみを展示した)。
問答モデルの4層は出力層であり、出力層は、2つのポインター(開始ポインターSTART及び終了ポインターENDで入力候補文のエンティティワードの境界を識別する)によるポインターネットワークである。
問答モデルの訓練中に、各分野における大量のサンプルエンティティワード質問及びサンプル認識ドキュメントを取得し、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得し、さらに、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力する。
初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第1の特徴及び複数のサンプル文の第2の特徴を抽出し、ここで、第1の特徴は、上記識別IDなどとして理解でき、第2の特徴は、上記ID及び位置情報が転換された特徴ベクトルなどとして理解できる。
さらに、第1の特徴と第2の特徴とを結合してサンプル特徴を生成し、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層によって出力されたサンプルエンティティワードを取得する。
サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断し、一致すれば、モデル訓練が完了したことが示され、一致しなければ、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。
ここで、上記実施例に記載のように、モデル層は、複数層の復号ユニットを含み、各層の復号ユニットの復号サブユニットの数はサンプル特徴に対応する長さと一致し、各層の復号ユニットの復号サブユニットは互いに接続されておらず、複数層の復号ユニットにおいて、各層の各々の復号サブユニットは前の層の全ての復号サブユニットに接続され、それにより、実際の訓練中に、サンプル特徴における各々のサブ特徴を対応する位置の第1層の復号ユニットのサブユニットに入力し、即ち、対応する位置でのサブユニットに、対応する位置のサブ特徴を順番に入力して、モデル層の最後の層の復号ユニットに対応する位置から出力されたエンティティワード復号結果を取得する。
ステップ105、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。
具体的には、エンティティワードの認識結果を取得した後、エンティティワード質問に対応するエンティティワード集合を取得する。
実現可能な一方法として、エンティティワードの認識結果は、候補文内のエンティティワード及び対応する確率を含み、本実施例では、確率値の大きさに基づいて、確率値が所定の閾値より大きいエンティティワードを、エンティティワード集合内のエンティティワードとして決定できる。
実現可能な別の方法として、上記に言及したように、エンティティワードの認識結果は、タグ付けされた候補文を含み、問答モデルによって出力された、複数の後続の文に対応するタグ付けされた文を認識し、さらに、タグ付けされた文内の開始識別子及び終了識別子を認識し、開始識別と、隣接する終了識別との間のエンティティワードを抽出して、エンティティワード集合を生成する。
エンティティワードを取得した後、正確ではないエンティティワードがある可能性もあるため、エンティティワードの取得精度を確保するために、取得したエンティティワードに対して後処理検証を行ってもよい。
実現可能な一方法として、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、各エンティティワードの意味のスムーズさ、例えば、依存などの構文情報検証を提供して、意味の依存関係が乱れていれば、意味のスムーズさが低いと決定し、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。
実現可能な別の方法として、エンティティワード集合内の各々のエンティティワードの長さを取得し、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。ここで、所定の長さ範囲は、長すぎるまたは短すぎるエンティティワードをフィルタリングするために用いられ、当該範囲は、エンティティワードのカテゴリに基づいて決定できる。
なお、上記の2種類の例示の検証処理方法を、単独で実行してもよいし、組み合わせて実行してもよく、ここでは限定しない。
これにより、本出願の実施例のエンティティワードの認識方法は、一方で、汎用性が強く、予め訓練されたモデルによって予備訓練段階で幅広いテキスト特徴を学習できることを保証し、それにより強い汎用性を有する。他方で、リコール率が高い場合、深層学習による問答モデルは、訓練サンプルと転移学習の追加などの方法により、良好な精度とリコール率を取得できる。また一方で、単語集などを手動で作成する必要がなく、訓練サンプルを追加するだけで、モデル効果を最適化することができる。
要約すると、本出願の実施例のエンティティワードの認識方法では、エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。
本出願は、上記実施例を実現するために、エンティティワード認識装置をさらいに提供し、図5は、本出願の一実施例に係るエンティティワード認識装置の構造模式図であり、図5に示すように、当該エンティティワード認識装置は、第1の取得モジュール10、第1の生成モジュール20、第2の生成モジュール30、第2の取得モジュール40及び第3の取得モジュール50を含む。
第1の取得モジュール10は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。
第1の生成モジュール20は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。
第2の生成モジュール30は、認識対象のドキュメントを分割して、複数の候補文を生成するために用いられる。
第2の取得モジュール40は、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するために用いられる
第3の取得モジュール50は、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得するために用いられる。
本出願の一実施例では、図6に示すように、当該装置は、第4の取得モジュール60、第5の取得モジュール70、入力モジュール80、抽出モジュール90、結合モジュール100、第6の取得モジュール110、判断モジュール120及び訓練モジュール130をさらに含む。
第4の取得モジュール60は、サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するために用いられる。
第5の取得モジュール70は、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するために用いられる。
入力モジュール80は、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力するために用いられる。
抽出モジュール90は、初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第1の特徴及び複数のサンプル文の第2の特徴を抽出するために用いられる。
結合モジュール100は、第1の特徴と第2の特徴とを結合してサンプル特徴を生成するために用いられる。
第6の取得モジュール110は、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層から出力されたサンプルエンティティワードを取得するために用いられる。
判断モジュール120は、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するために用いられる。
訓練モジュール130は、一致しない場合、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。
本出願の一実施例において、図7に示すように、図5に示すものに加えて、当該装置は、第7の取得モジュール140、第1のフィルタリングモジュール150及び第1の提供モジュール160をさらに含む。
第7の取得モジュール140は、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、エンティティワード毎の意味のスムーズさを取得するために用いられる。
第1のフィルタリングモジュール150は、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするために用いられる。
第1の提供モジュール160は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。
本出願の一実施例において、図8に示すように、図5に示すものに加えて、当該装置は、第8の取得モジュール170、第2のフィルタリングモジュール180及び第2の提供モジュール190をさらに含む。
第8の取得モジュール170は、エンティティワード集合内の各々のエンティティワードの長さを取得するために用いられる。
第2のフィルタリングモジュール180は、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするために用いられる。
第2の提供モジュール190は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。
なお、前述のエンティティワードの認識方法に対する解釈と説明は、本発明の実施例のエンティティワード認識装置にも適用でき、その実現原理は類似するため、ここでは詳細な説明を省略する。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図9に示すように、本出願の実施例のエンティティワードの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図9に示すように、当該電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図9では、1つのプロセッサ501を例とする。
メモリ502は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが本出願により提供されるエンティティワードの認識方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるエンティティワードの認識方法を実行させるためのコンピュータ命令が記憶されている。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるエンティティワードの認識方法に対応するプログラム命令/モジュール(例如、図5に示す第1の取得モジュール10、第1の生成モジュール20、第2の生成モジュール30、第2の取得モジュール40及び第3の取得モジュール50)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるエンティティワードの認識方法を実現する。
メモリ502は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
エンティティワード認識方法を実行する電子機器電子機器は、入力装置503と出力装置504とをさらに含んでもよい。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、図9では、バスを介して接続することを例とする。
入力装置503は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (12)

  1. エンティティワードの認識装置によって実行されるエンティティワードの認識方法であって、
    エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、
    前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、
    前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、
    前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、
    前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含む、
    ことを特徴とするエンティティワードの認識方法。
  2. 前記エンティティワード質問及び前記複数の候補文を予め構築された問答モデルに入力するステップの前に、
    サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するステップと、
    前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するステップと、
    前記サンプルエンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するステップと、
    前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第1の特徴及び前記複数の候補サンプル文の第2の特徴を抽出するステップと、
    前記第1の特徴と前記第2の特徴とを結合してサンプル特徴を生成するステップと、
    前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するステップと、
    前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するステップと、
    一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するステップと、
    前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするステップと、
    フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記エンティティワード集合内の各々のエンティティワードの長さを取得するステップと、
    前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするステップと、
    フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップは、
    前記問答モデルから出力された、前記複数の候補文に対応するタグ付けされた文を認識するステップと、
    前記タグ付けされた文内の開始識別子及び終了識別子を認識するステップと、
    前記開始識別と、隣接する終了識別との間のエンティティワードを抽出して、前記エンティティワード集合を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. エンティティワード認識装置であって、
    エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の取得モジュールと、
    前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するための第1の生成モジュールと、
    前記認識対象のドキュメントを分割して、複数の候補文を生成するための第2の生成モジュールと、
    前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第2の取得モジュールと、
    前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第3の取得モジュールと、を含む、
    ことを特徴とするエンティティワード認識装置。
  7. サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するための第4の取得モジュールと、
    前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するための第5の取得モジュールと、
    前記サンプルエンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するための入力モジュールと、
    前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第1の特徴及び前記複数の候補サンプル文の第2の特徴を抽出するための抽出モジュールと、
    前記第1の特徴と前記第2の特徴とを結合してサンプル特徴を生成するための結合モジュールと、
    前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するための第6の取得モジュールと、
    前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するための判断モジュールと、
    一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるための訓練モジュールと、をさらに含む、
    ことを特徴とする請求項に記載の装置。
  8. 前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するための第7の取得モジュールと、
    前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするための第1のフィルタリングモジュールと、
    フィルタリング後の前記エンティティワード集合をユーザに提供するための第1の提供モジュールと、をさらに含む、
    ことを特徴とする請求項に記載の装置。
  9. 前記エンティティワード集合内の各々のエンティティワードの長さを取得するための第8の取得モジュールと、
    前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするための第2のフィルタリングモジュールと、
    フィルタリング後の前記エンティティワード集合をユーザに提供するための第2の提供モジュールと、をさらに含む、
    ことを特徴とする請求項に記載の装置。
  10. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~のいずれか1項に記載の方法を実行できる、
    ことを特徴とする電子機器。
  11. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~のいずれか1項に記載の方法を実行させるために用いられる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  12. コンピュータ上で動作しているときに、請求項1~のいずれか1項に記載の方法を前記コンピュータに実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021022635A 2020-02-19 2021-02-16 エンティティワードの認識方法と装置 Active JP7096919B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010103350.6A CN111339268B (zh) 2020-02-19 2020-02-19 实体词识别方法和装置
CN202010103350.6 2020-02-19

Publications (2)

Publication Number Publication Date
JP2021131858A JP2021131858A (ja) 2021-09-09
JP7096919B2 true JP7096919B2 (ja) 2022-07-06

Family

ID=71185366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021022635A Active JP7096919B2 (ja) 2020-02-19 2021-02-16 エンティティワードの認識方法と装置

Country Status (5)

Country Link
US (1) US11361002B2 (ja)
EP (1) EP3869358A1 (ja)
JP (1) JP7096919B2 (ja)
KR (1) KR102431568B1 (ja)
CN (1) CN111339268B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914535B (zh) * 2020-07-31 2023-03-24 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112560459B (zh) * 2020-12-04 2023-10-20 北京百度网讯科技有限公司 用于模型训练的样本筛选方法、装置、设备及存储介质
CN112528002B (zh) * 2020-12-23 2023-07-18 北京百度网讯科技有限公司 对话识别方法、装置、电子设备和存储介质
CN112925889B (zh) * 2021-02-26 2024-04-30 北京声智科技有限公司 自然语言处理方法、装置、电子设备和存储介质
CN113642324B (zh) * 2021-08-20 2024-02-09 北京百度网讯科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN113609275B (zh) * 2021-08-24 2024-03-26 腾讯科技(深圳)有限公司 信息处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2017211785A (ja) 2016-05-24 2017-11-30 日本電信電話株式会社 質問応答生成装置、方法、及びプログラム
US20180260382A1 (en) 2017-03-09 2018-09-13 International Business Machines Corporation Domain-specific method for distinguishing type-denoting domain terms from entity-denoting domain terms

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
US9002773B2 (en) * 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
CN102708100B (zh) * 2011-03-28 2014-11-12 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US10275454B2 (en) * 2014-10-13 2019-04-30 International Business Machines Corporation Identifying salient terms for passage justification in a question answering system
CN106294341A (zh) * 2015-05-12 2017-01-04 阿里巴巴集团控股有限公司 一种智能问答系统及其主题判别方法和装置
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置
US9996533B2 (en) * 2015-09-30 2018-06-12 International Business Machines Corporation Question answering system using multilingual information sources
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN107480197B (zh) * 2017-07-17 2020-12-18 云润大数据服务有限公司 实体词识别方法及装置
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN108804512B (zh) * 2018-04-20 2020-11-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109582949B (zh) * 2018-09-14 2022-11-22 创新先进技术有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109829042B (zh) * 2018-12-28 2021-04-20 北京科技大学 一种基于生物医学文献的知识问答系统及方法
CN109726400B (zh) * 2018-12-29 2023-10-20 新华网股份有限公司 实体词识别结果评价方法、装置、设备及实体词提取系统
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2017211785A (ja) 2016-05-24 2017-11-30 日本電信電話株式会社 質問応答生成装置、方法、及びプログラム
US20180260382A1 (en) 2017-03-09 2018-09-13 International Business Machines Corporation Domain-specific method for distinguishing type-denoting domain terms from entity-denoting domain terms

Also Published As

Publication number Publication date
EP3869358A1 (en) 2021-08-25
CN111339268B (zh) 2023-08-15
KR102431568B1 (ko) 2022-08-11
US11361002B2 (en) 2022-06-14
KR20210105830A (ko) 2021-08-27
US20210256038A1 (en) 2021-08-19
JP2021131858A (ja) 2021-09-09
CN111339268A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN111709247B (zh) 数据集处理方法、装置、电子设备和存储介质
EP3896597A2 (en) Method, apparatus for text generation, device and storage medium
CN111241282B (zh) 文本主题生成方法、装置及电子设备
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
JP2021096812A (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
Xu et al. Exploiting shared information for multi-intent natural language sentence classification.
CN113553414B (zh) 智能对话方法、装置、电子设备和存储介质
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111611468B (zh) 页面交互方法、装置和电子设备
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
CN111797216B (zh) 检索项改写方法、装置、设备以及存储介质
JP2021190073A (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
CN112507702A (zh) 文本信息的抽取方法、装置、电子设备及存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN111930916B (zh) 对话生成方法、装置、电子设备和存储介质
Bu et al. Discovering Reliable Information Extraction Patterns with Pre-Trained Model for Text with Writing Style
CN112541354A (zh) 用于医学知识图谱的处理方法和装置
CN113051390A (zh) 知识库构建方法、装置、电子设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220624

R150 Certificate of patent or registration of utility model

Ref document number: 7096919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150