JP7096919B2

JP7096919B2 - エンティティワードの認識方法と装置

Info

Publication number: JP7096919B2
Application number: JP2021022635A
Authority: JP
Inventors: シ，ヤビン; リ，シャンジ; ジャン，イェ; チャン，ヤン; ジュ，ヨン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-19
Filing date: 2021-02-16
Publication date: 2022-07-06
Anticipated expiration: 2041-02-16
Also published as: EP3869358A1; CN111339268B; KR102431568B1; US11361002B2; KR20210105830A; US20210256038A1; JP2021131858A; CN111339268A

Description

本出願は、人工知能技術における情報処理技術の分野に関し、特に、エンティティワードの認識方法と装置に関する。

現在、知識グラフの構築は、あらゆる業界でますます重要視され、例えば、法律制度の知識グラフに法務業界での法的推論などを提供することができ、ここで、知識グラフの構築は、エンティティワードのマイニングに依存する。

関連技術において、業界内で蓄積された専門ドキュメントに基づいてエンティティワードをマイニングして、業界内の専門用語集を取得し、キーワードマッチング技術に基づいて専門ドキュメントから対応するエンティティワードをマイニングする。

しかし、このようなエンティティワードの取得方法は、用語集の包括性の度合いに依存する。多くの場合、業界内で蓄積された用語集は非常に限られているため、エンティティワードのリコール率が低い。

本出願の第１の目的は、エンティティワードの認識方法を提供することである。

本出願の第２の目的は、エンティティワード認識装置を提供することである。

本出願の第３の目的は、電子機器を提供することである。

本出願の第４の目的は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。

本出願の第５の目的は、コンピュータプログラムを提供することである。

上記目的を達成するために、本出願の第１態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含むエンティティワード認識方法を提供する。

上記目的を達成するために、本出願の第２態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第１の取得モジュールと、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第１の生成モジュールと、前記認識対象のドキュメントを分割して、複数の候補文を生成するための第２の生成モジュールと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第２の取得モジュールと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第３の取得モジュールと、を含むエンティティワード認識装置を提供する。

上記目的を達成するために、本出願の第３態様の実施例は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含む電子機器を提供し、ここで、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが上記の実施例に記載のエンティティワードの認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

上記目的を達成するために、本出願の第４の態様の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。

上記目的を達成するために、本出願の第５の態様の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。

上記出願の一実施例は、次のような利点と有益な効果を有する。

エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

上記の選択可能な方法が有する他の効果を、以下で具体的な実施例を参照しながら説明する。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第１実施例に係るエンティティワードを認識するシーンの模式図である。本出願の第２実施例に係るエンティティワードの認識方法のフローチャートである。本出願の第３実施例による問答モデルの構造模式図である。本出願の第５実施例に係るエンティティワード認識装置の構造模式図である。本出願の第６実施例に係るエンティティワード認識装置の構造模式図である。本出願の第７実施例に係るエンティティワード認識装置の構造模式図である。本出願の第８実施例に係るエンティティワード認識装置の構造模式図である。本出願の実施例に係るエンティティワードの認識方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照しながら、本出願の実施例のエンティティワードの認識方法と装置について説明する。ここで、本実施例に言及されるエンティティワードは、法律業界の「申し込み」などのような各業界の専門用語である。

関連技術で言及されたエンティティワードのリコール率が高くないという問題を解決するために、本出願は、自動化に基づく業界エンティティを認識する方法を提供した。問答技術を利用して、高拡張性、低コストの業界エンティティワードの認識方法を実現し、それにより、知識グラフの大規模構築、インテリジェントな問答、エンティティ検索などの上位アプリケーションをサポートし、例えば、図１に示すように、ユーザが入力した検索文が「信用カードタイプ」である場合、対応するエンティティワードをユーザに提供できる。

具体的に言えば、図２は、本出願の一実施例に係るエンティティワードの認識方法のフローチャートであり、図２に示すように、当該方法は、ステップ１０１～ステップ１０５を含む。

ステップ１０１、エンティティワードのカテゴリ及び認識対象のドキュメントを取得する。

ここで、エンティティワードのカテゴリとは、取得対象のエンティティワードが属する技術分野などを言い、例えば、当該エンティティワードのカテゴリは、法律、経済、医療などであり得る。また、認識対象のドキュメントは、通常、対応する分野でリコール対象のエンティティワードの専門ドキュメントである。

なお、異なる分野で、エンティティワードのカテゴリの取得方法も異なり、実現可能な一方法として、ユーザにエンティティワードのカテゴリの選択インターフェースを提供し、ユーザがインターフェース上で選択したタグに基づいて、所属のエンティティワードのカテゴリを決定する。

実現可能な別の方法として、認識対象のドキュメントに含まれている内容に基づいて、認識対象のドキュメントのテーマを決定し、テーマ内容に基づいてエンティティワードのカテゴリを決定することができる。

ステップ１０２、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する。

本出願の実施例では、エンティティワードのカテゴリの一般化特徴をマイニングするため、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、例えば、エンティティワードのカテゴリが「人物」である場合、それを「文中で言及された人は誰ですか」というエンティティワード質問などに処理することができる。

当然ながら、異なるシーンにおいて、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する方法も異なり、実現可能な一方法として、学習モデルを予め訓練し、当該モデルは、入力がエンティティワードのカテゴリで、出力がエンティティワード質問である。実現可能な別の方法として、対応するエンティティワードのカテゴリが属する分野で、エンティティワードのカテゴリと最も一般的に使用される問題との対応関係を予め構築し、当該対応関係に基づいて、対応するエンティティワード質問を決定する。

ステップ１０３、認識対象のドキュメントを分割して、複数の候補文を生成する。

エンティティワード質問とのマッチングを容易にするため、本実施例では、認識対象のドキュメントを分割し、例えば、改行記号などの句読点及び意味分析などにしたがって、各々の文を生成して、複数の候補文を取得し、候補文の長さは、後続の処理とマッチング操作を容易にする長さである。

ステップ１０４、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得する。

問答モデルを予め訓練し、当該問答モデルは、入力されたエンティティワード質問及び複数の候補文に基づいて、対応するエンティティワード質問にマッチングする回答候補文を認識することができ、当該回答文に、対応するエンティティワードをタグ付けすることを理解するであろう。

具体的には、初期問答モデルを予め構築し、ここで、図３に示すように、構築した問答モデルは４層を含む。第１層は入力層で、エンティティワード質問及び対応する候補文のシーケンスを入力するために用いられ、ここで、入力する際に、モデルの認識を容易にするため、開始にＣＬＳを使用し、候補文間はＳＥＰによって接続され、これにより、エンティティワード質問及び対応する全ての候補文を入力することができ、当然ながら、エンティティワード質問及び対応する１つ又はいくつかの候補問題を入力することもでき、認識効率を向上させるため、エンティティワード質問と明らかに関連のない候補文を予め排除することもでき（意味認識などの技術に基づいて排除でき）、続いて図１に示す例を用い、認識対象のドキュメントが銀行業界のドキュメントであり、エンティティワード質問は「信用カード」である場合、入力層に入力されたのは、「ＣＬＳ信用カードＳＥＰ広発携程提携カード事業紹介」であり得る。

問答モデルの第２層は埋め込み層であり、当該層は図中のｅｍｂｅｄｄｉｎｇｌａｙｅｒｓに対応し、主に入力されたシーケンスの特徴を抽出するために用いられ、例えば、以下の３種類の方法を使用して抽出することができる。第１種類は、単語埋め込みであり、予め構築された単語集によって、入力された単語シーケンス内の単語を、単語のＩＤ情報などのような対応する単語識別情報に転換し、さらに、埋め込み技術によって、転換されたＩＤを低次元ベクトル圧縮する。第２種類、位置埋め込みであり、各単語の入力シーケンスにおける位置情報を、埋め込み技術によって低次元ベクトルに圧縮する。第３種類、段落フラグメント埋め込みであり、この特徴を使用して候補文がドキュメントのどの段落にあるかを特徴付け、ここで、図中のＥＡは第１段落に出現したことを表し、ＥＢは第２段落に出現したことを表し、埋め込み層はこの３種類のベクトル特徴を組み合わせてから、第３層のモデル層に入力してもよい。

問答モデルの第３層モデル層は図中のｍｏｄｅｌｉｎｇｌａｙｅｒｓに対応し、当該層は、主にｔｒａｎｓｆｏｒｍｅｒユニットで構成される。モデル層には複数層のｔｒａｎｓｆｏｒｍｅｒユニットがあってもよく、各層の各ｔｒａｎｓｆｏｒｍｅｒユニットは、１つの入力中のユニットに対応し、つまり、入力層、埋め込み層、モデル層のシーケンスの長さは全部一致すべきである。同じ層内のｔｒａｎｓｆｏｒｍｅｒユニットは互いに接続されておらず、異なる層間のｔｒａｎｓｆｏｒｍｅｒユニットは、２つずつ接続する（美観要因を考量して、図に２つの層を展示し、また、第１層のＴ０と上層ｔｒａｎｆｏｒｍｅｒとの接続状況のみを展示した）。

問答モデルの４層は出力層であり、出力層は、２つのポインター（開始ポインターＳＴＡＲＴ及び終了ポインターＥＮＤで入力候補文のエンティティワードの境界を識別する）によるポインターネットワークである。

問答モデルの訓練中に、各分野における大量のサンプルエンティティワード質問及びサンプル認識ドキュメントを取得し、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得し、さらに、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力する。

初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第１の特徴及び複数のサンプル文の第２の特徴を抽出し、ここで、第１の特徴は、上記識別ＩＤなどとして理解でき、第２の特徴は、上記ＩＤ及び位置情報が転換された特徴ベクトルなどとして理解できる。

さらに、第１の特徴と第２の特徴とを結合してサンプル特徴を生成し、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層によって出力されたサンプルエンティティワードを取得する。

サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断し、一致すれば、モデル訓練が完了したことが示され、一致しなければ、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。

ここで、上記実施例に記載のように、モデル層は、複数層の復号ユニットを含み、各層の復号ユニットの復号サブユニットの数はサンプル特徴に対応する長さと一致し、各層の復号ユニットの復号サブユニットは互いに接続されておらず、複数層の復号ユニットにおいて、各層の各々の復号サブユニットは前の層の全ての復号サブユニットに接続され、それにより、実際の訓練中に、サンプル特徴における各々のサブ特徴を対応する位置の第１層の復号ユニットのサブユニットに入力し、即ち、対応する位置でのサブユニットに、対応する位置のサブ特徴を順番に入力して、モデル層の最後の層の復号ユニットに対応する位置から出力されたエンティティワード復号結果を取得する。

ステップ１０５、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。

具体的には、エンティティワードの認識結果を取得した後、エンティティワード質問に対応するエンティティワード集合を取得する。

実現可能な一方法として、エンティティワードの認識結果は、候補文内のエンティティワード及び対応する確率を含み、本実施例では、確率値の大きさに基づいて、確率値が所定の閾値より大きいエンティティワードを、エンティティワード集合内のエンティティワードとして決定できる。

実現可能な別の方法として、上記に言及したように、エンティティワードの認識結果は、タグ付けされた候補文を含み、問答モデルによって出力された、複数の後続の文に対応するタグ付けされた文を認識し、さらに、タグ付けされた文内の開始識別子及び終了識別子を認識し、開始識別と、隣接する終了識別との間のエンティティワードを抽出して、エンティティワード集合を生成する。

エンティティワードを取得した後、正確ではないエンティティワードがある可能性もあるため、エンティティワードの取得精度を確保するために、取得したエンティティワードに対して後処理検証を行ってもよい。

実現可能な一方法として、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、各エンティティワードの意味のスムーズさ、例えば、依存などの構文情報検証を提供して、意味の依存関係が乱れていれば、意味のスムーズさが低いと決定し、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。

実現可能な別の方法として、エンティティワード集合内の各々のエンティティワードの長さを取得し、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。ここで、所定の長さ範囲は、長すぎるまたは短すぎるエンティティワードをフィルタリングするために用いられ、当該範囲は、エンティティワードのカテゴリに基づいて決定できる。

なお、上記の２種類の例示の検証処理方法を、単独で実行してもよいし、組み合わせて実行してもよく、ここでは限定しない。

これにより、本出願の実施例のエンティティワードの認識方法は、一方で、汎用性が強く、予め訓練されたモデルによって予備訓練段階で幅広いテキスト特徴を学習できることを保証し、それにより強い汎用性を有する。他方で、リコール率が高い場合、深層学習による問答モデルは、訓練サンプルと転移学習の追加などの方法により、良好な精度とリコール率を取得できる。また一方で、単語集などを手動で作成する必要がなく、訓練サンプルを追加するだけで、モデル効果を最適化することができる。

要約すると、本出願の実施例のエンティティワードの認識方法では、エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

本出願は、上記実施例を実現するために、エンティティワード認識装置をさらいに提供し、図５は、本出願の一実施例に係るエンティティワード認識装置の構造模式図であり、図５に示すように、当該エンティティワード認識装置は、第１の取得モジュール１０、第１の生成モジュール２０、第２の生成モジュール３０、第２の取得モジュール４０及び第３の取得モジュール５０を含む。

第１の取得モジュール１０は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。

第１の生成モジュール２０は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。

第２の生成モジュール３０は、認識対象のドキュメントを分割して、複数の候補文を生成するために用いられる。

第２の取得モジュール４０は、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するために用いられる

第３の取得モジュール５０は、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得するために用いられる。

本出願の一実施例では、図６に示すように、当該装置は、第４の取得モジュール６０、第５の取得モジュール７０、入力モジュール８０、抽出モジュール９０、結合モジュール１００、第６の取得モジュール１１０、判断モジュール１２０及び訓練モジュール１３０をさらに含む。

第４の取得モジュール６０は、サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するために用いられる。

第５の取得モジュール７０は、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するために用いられる。

入力モジュール８０は、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力するために用いられる。

抽出モジュール９０は、初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第１の特徴及び複数のサンプル文の第２の特徴を抽出するために用いられる。

結合モジュール１００は、第１の特徴と第２の特徴とを結合してサンプル特徴を生成するために用いられる。

第６の取得モジュール１１０は、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層から出力されたサンプルエンティティワードを取得するために用いられる。

判断モジュール１２０は、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するために用いられる。

訓練モジュール１３０は、一致しない場合、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。

本出願の一実施例において、図７に示すように、図５に示すものに加えて、当該装置は、第７の取得モジュール１４０、第１のフィルタリングモジュール１５０及び第１の提供モジュール１６０をさらに含む。

第７の取得モジュール１４０は、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、エンティティワード毎の意味のスムーズさを取得するために用いられる。

第１のフィルタリングモジュール１５０は、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするために用いられる。

第１の提供モジュール１６０は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。

本出願の一実施例において、図８に示すように、図５に示すものに加えて、当該装置は、第８の取得モジュール１７０、第２のフィルタリングモジュール１８０及び第２の提供モジュール１９０をさらに含む。

第８の取得モジュール１７０は、エンティティワード集合内の各々のエンティティワードの長さを取得するために用いられる。

第２のフィルタリングモジュール１８０は、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするために用いられる。

第２の提供モジュール１９０は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。

なお、前述のエンティティワードの認識方法に対する解釈と説明は、本発明の実施例のエンティティワード認識装置にも適用でき、その実現原理は類似するため、ここでは詳細な説明を省略する。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図９に示すように、本出願の実施例のエンティティワードの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図９に示すように、当該電子機器は、１つ又は複数のプロセッサ５０１と、メモリ５０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力／出力装置（例えば、インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図９では、１つのプロセッサ５０１を例とする。

メモリ５０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが本出願により提供されるエンティティワードの認識方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるエンティティワードの認識方法を実行させるためのコンピュータ命令が記憶されている。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるエンティティワードの認識方法に対応するプログラム命令／モジュール（例如、図５に示す第１の取得モジュール１０、第１の生成モジュール２０、第２の生成モジュール３０、第２の取得モジュール４０及び第３の取得モジュール５０）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ５０１は、メモリ５０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるエンティティワードの認識方法を実現する。

メモリ５０２は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

エンティティワード認識方法を実行する電子機器電子機器は、入力装置５０３と出力装置５０４とをさらに含んでもよい。プロセッサ５０１、メモリ５０２、入力装置５０３、及び出力装置５０４は、バス又は他の方式を介して接続することができ、図９では、バスを介して接続することを例とする。

入力装置５０３は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置５０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

エンティティワードの認識装置によって実行されるエンティティワードの認識方法であって、
エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、
前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、
前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、
前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、
前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含む、
ことを特徴とするエンティティワードの認識方法。
前記エンティティワード質問及び前記複数の候補文を予め構築された問答モデルに入力するステップの前に、
サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するステップと、
前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するステップと、
前記サンプルエンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するステップと、
前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第１の特徴及び前記複数の候補サンプル文の第２の特徴を抽出するステップと、
前記第１の特徴と前記第２の特徴とを結合してサンプル特徴を生成するステップと、
前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するステップと、
前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するステップと、
一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するステップと、
前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするステップと、
フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記エンティティワード集合内の各々のエンティティワードの長さを取得するステップと、
前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするステップと、
フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップは、
前記問答モデルから出力された、前記複数の候補文に対応するタグ付けされた文を認識するステップと、
前記タグ付けされた文内の開始識別子及び終了識別子を認識するステップと、
前記開始識別子と、隣接する終了識別子との間のエンティティワードを抽出して、前記エンティティワード集合を生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
エンティティワード認識装置であって、
エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第１の取得モジュールと、
前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するための第１の生成モジュールと、
前記認識対象のドキュメントを分割して、複数の候補文を生成するための第２の生成モジュールと、
前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第２の取得モジュールと、
前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第３の取得モジュールと、を含む、
ことを特徴とするエンティティワード認識装置。
サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するための第４の取得モジュールと、
前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するための第５の取得モジュールと、
前記サンプルエンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するための入力モジュールと、
前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第１の特徴及び前記複数の候補サンプル文の第２の特徴を抽出するための抽出モジュールと、
前記第１の特徴と前記第２の特徴とを結合してサンプル特徴を生成するための結合モジュールと、
前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するための第６の取得モジュールと、
前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するための判断モジュールと、
一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるための訓練モジュールと、をさらに含む、
ことを特徴とする請求項６に記載の装置。
前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するための第７の取得モジュールと、
前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするための第１のフィルタリングモジュールと、
フィルタリング後の前記エンティティワード集合をユーザに提供するための第１の提供モジュールと、をさらに含む、
ことを特徴とする請求項６に記載の装置。
前記エンティティワード集合内の各々のエンティティワードの長さを取得するための第８の取得モジュールと、
前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするための第２のフィルタリングモジュールと、
フィルタリング後の前記エンティティワード集合をユーザに提供するための第２の提供モジュールと、をさらに含む、
ことを特徴とする請求項６に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
ここで、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１～５のいずれか１項に記載の方法を実行できる、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１～５のいずれか１項に記載の方法を実行させるために用いられる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１～５のいずれか１項に記載の方法を前記コンピュータに実行させる、
ことを特徴とするコンピュータプログラム。