JP2021111416A

JP2021111416A - コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021111416A
Application number: JP2021004630A
Authority: JP
Inventors: シューワン，; Shu Wang; ケシンレン，; Kexin Ren; シャオハンヂャン，; Xiaohan Zhang; ジーファンフェン，; Zhifan Feng; ヤンヂャン，; Yang Zhang; ヨンヂュ，; Yong Zhu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2021-01-15
Publication date: 2021-08-02
Anticipated expiration: 2041-01-15
Also published as: KR102466399B1; CN111241832B; EP3862907A1; KR20210092152A; CN111241832A; US20210216712A1; JP7110416B2

Abstract

【課題】コアエンティティをタグ付け可能な方法及び装置を提供する。【解決手段】方法は、目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストに対する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップと、目標テキストに対する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対する目標ベクトルシーケンスを生成するステップと、予め設定されたネットワークモデルを用いて目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するステップと、開始文字と終了文字としての確率に基づいて目標テキストのコアエンティティを決定するステップと、を含む。【選択図】図１

Description

本出願は、コンピュータ技術分野に関し、特にスマート検索の技術分野に関し、コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

情報技術の発展に伴って、テキストデータが爆発的に増加し、大量のテキスト内容に直面して、手動処理だけで、その中からコア内容を抽出することができず、従って、テキスト内容のインテリジェントな理解を実現し、テキスト内容の作成、処理及び配信の推奨を自動的かつインテリジェントに実現するように、コンピュータ技術が急務となっている。その中では、エンティティ理解は、テキスト理解の重要な部分であり、コアエンティティのタグ付けによって、対応するエンティティの側面、話題などの他の細粒度のテキスト理解結果を拡張でき、それにより、ユーザがウェブページテキストリソースをよりよく理解し、またはユーザ意図に基づいてユーザニーズに一致するテキストリソースを推薦することに寄与する。

関連技術では、通常、短いテキストのコア内容を説明可能なキーワードを抽出することによって、短いテキストのコア内容を特徴付ける。しかし、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難である。

本出願に係るコアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラムは、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式においては、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという関連技術における課題を解決するために用いられる。

本出願の１つの態様の実施例に係るコアエンティティのタグ付け方法は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第１の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含むステップと、前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップと、予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するステップと、を含む。

本出願の別の態様の実施例に係るコアエンティティのタグ付け装置は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第１の取得モジュールであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第１の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含む第１の取得モジュールと、前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュールと、予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するための第１の決定モジュール、各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するための第２の決定モジュールと、を備える。

本出願のまた別の態様の実施例に係る電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが上記に記載のコアエンティティのタグ付け方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本出願のまた別の態様の実施例に係る、コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体は、前記コンピュータ命令が、前記コンピュータに上記に記載のコアエンティティのタグ付け方法を実行させるために用いられることを特徴とする。

上記出願のいずれかの実施例は、以下の利点または有益な効果を有する。目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定するという技術手段を用いるため、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式において、抽出されるコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという課題を解消し、さらにテキスト中のコアエンティティを正確に抽出し、テキストのコア内容の意味情報を豊かにし、汎用性が高いという技術的効果を実現する。

上記選択可能な形態が持っている他の効果について、具体的な実施例を参照しながら以下に説明する。

図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係るコアエンティティのタグ付け方法の概略フローチャートである。本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。本出願の実施例に係るコアエンティティのタグ付け装置の概略構成図である。本出願の実施例に係る電子機器の概略構成図である。

以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更や修正を行うことができることを理解すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。

本出願の実施例は、関連技術では、短いテキストのキーワードを抽出することで、短いテキストのコア内容を特徴付ける方式において、キーワードが必ずしもエンティティワードではないため、決定された短いテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことが困難であるという課題に対して、コアエンティティのタグ付け方法を提供する。

図面を参照して、本出願に係るコアエンティティのタグ付け方法、装置、電子機器及び記憶媒体について以下に詳細に説明する。

図１を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法について以下に詳細に説明する。

図１は、本出願の実施例に係るコアエンティティのタグ付け方法の概略フローチャートである。

図１に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。

ステップ１０１：それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。文字ベクトルシーケンスは目標テキスト中の各文字に対応する文字ベクトルを含み、第１の単語ベクトルシーケンスは目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスは目標テキスト中の各エンティティに対応するエンティティベクトルを含む。

なお、コンピュータ技術によりテキスト内容のインテリジェントな理解を実現し、自動的かつインテリジェントなテキスト内容の作成、処理及び配信の推奨を実現するとき、テキストのキーワードを抽出することで、テキストのコア内容を説明することができるが、キーワードは必ずしもエンティティ単語ではないため、決定されたテキストのコア内容に意味情報がなく、様々な応用の要件を満たすことは困難である。構築された知識ベース（例えば、ナレッジグラフ）中のエンティティを利用してテキストのコア内容を表現するときに、知識ベースに大量のエンティティが含まれるだけでなく、各エンティティの概念情報、各エンティティの関係などの情報も含まれるため、テキストのコア内容の意味情報を豊かにすることができる。

目標テキストは、現在、その含まれるコアエンティティをタグ付けする必要があるテキスト情報であり、ニュースタイトル、ビデオタイトル、ウェブページ文章などの任意のテキストデータであってもよい。

文字ベクトルマッピングは、目標テキスト中の各文字に対応する文字ベクトルを決定するプロセスであり、単語ベクトルマッピングは、目標テキスト中の各単語に対応する単語ベクトルを決定するプロセスであり、エンティティベクトルマッピングは、知識ベース情報を利用して目標テキスト中のエンティティ及び各エンティティに対応するエンティティベクトルを決定するプロセスである。

本出願の実施例では、目標テキスト中の各文字を単位として、目標テキストに対して単語分割処理を行い、各文字を事前にトレーニングされた文字ベクトルマッピングモデルに入力して、目標テキスト中の各文字に対応する文字ベクトルを決定し、さらに各文字に対応する文字ベクトルに基づいて目標テキストに対応する文字ベクトルシーケンスを生成することができる。すなわち、目標テキストに対応する文字ベクトルシーケンス中の各要素（ベクトル）は、１つの文字に対応する文字ベクトルである。

１つの可能な実現形態としては、採用される文字ベクトルマッピングモデルは、トランスフォーマーからの双方向エンコーダ表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴと略称）モデルであってもよく、ＢＥＲＴモデルはテキストの意味情報を良好に表現することができる。ただし、実際の使用では、事前にトレーニングされた文字ベクトルマッピングモデルは、文字ベクトルを生成可能な任意の自然言語処理モデルであってもよく、本出願の実施例はこれを限定しない。

本出願の実施例では、先ず意味のある単語を単位として、目標テキストに対して単語分割処理を行い、単語分割処理後に取得された複数の分割された単語を事前にトレーニングされた単語ベクトルマッピングモデルに入力し、目標テキスト中の各分割された単語のそれぞれに対応する単語ベクトルを決定し、さらに目標テキスト中の各分割された単語のそれぞれに対応する単語ベクトルを利用して目標テキストに対応する単語ベクトルシーケンスを生成することができる。すなわち、目標テキストに対応する単語ベクトルシーケンス中の各要素（ベクトル）は、１つの分割された単語に対応する単語ベクトルである。

１つの可能な実現形態としては、採用される単語ベクトルマッピングモデルはＷｏｒｄ２Ｖｅｃモデルであってもよい。ただし、実際の使用では、事前にトレーニングされた単語ベクトルマッピングモデルは、分割された単語ベクトルを生成可能な任意の自然言語処理モデルであってもよく、本出願の実施例はこれを限定しない。

本出願の実施例では、予め構築された知識ベースを利用して、目標テキスト中の各分割された単語の知識ベースでのそれぞれ対応するエンティティを決定して、目標テキスト中の各エンティティを決定することができ、さらに知識ベースに含まれる各エンティティに対応するエンティティベクトルに基づいて、目標テキスト中の各エンティティに対応するエンティティベクトルを決定し、各エンティティのそれぞれに対応するエンティティベクトルを利用して目標テキストに対応するエンティティベクトルシーケンスを生成する。

具体的には、目標テキスト中の各分割された単語の知識ベースでの対応するエンティティを決定するときに、各分割された単語に対応する単語ベクトルと知識ベース中の各エンティティに対応するエンティティベクトルとの類似度（例えば、コサイン類似度など）に基づいて、各分割された単語に対応するエンティティを決定することができる。例えば、類似度閾値を予め設定し、各分割された単語に対応する単語ベクトルの類似度が類似度閾値よりも大きいエンティティベクトルに対応するエンティティを、該分割された単語に対応するエンティティとして決定することができる。

１つの可能な実現形態としては、予め構築された知識ベースは、一般的なナレッジグラフで構築され得る。具体的には、予め構築された知識ベースは、一般的なナレッジグラフ、及びナレッジグラフ中の各エンティティに対応するエンティティベクトルを含み得る。ナレッジグラフ中の各エンティティが通常単語または短い句であるため、各エンティティに対応するエンティティベクトルは、Ｗｏｒｄ２Ｖｅｃモデルなどの事前にトレーニングされた単語ベクトルマッピングモデルを利用して取得され得る。

例として、目標テキストが「血糖不正常的標準是多少」の場合、先ず文字を単位として、目標テキストに対して単語分割処理を行い、目標テキスト中の各文字「血」、「糖」、「不」、「正」、「常」、「的」「標」、「準」、「是」、「多」、「少」を取得し、各文字をＢＥＲＴモデルに入力して、各文字のそれぞれに対応する文字ベクトルを決定し、さらに各文字ベクトルを利用して目標テキストに対応する文字ベクトルシーケンスを生成することができる。その後、意味を有する単語を単位として、目標テキストに対して単語分割処理を行い、目標テキスト中の各分割された単語「血糖」、「不」、「正常」、「的」、「標準」、「是」、「多少」を取得し、各分割された単語をＷｏｒｄ２Ｖｅｃモデルに入力して、各分割された単語のそれぞれに対応する単語ベクトルを決定し、さらに各単語ベクトルを利用して目標テキストに対応する単語ベクトルシーケンスを生成し、最後に、目標テキスト中の各分割された単語に対応する単語ベクトルのそれぞれと予め構築された知識ベース中の各エンティティのエンティティベクトルとの類似度を決定し、さらに目標テキスト中の各エンティティ「血糖」、「不」、「正常」、「的」、「標準」、「是」、「多少」のそれぞれに対応するエンティティベクトルを決定し、各エンティティベクトルを利用して目標テキストに対応するエンティティベクトルシーケンスを生成する。

ステップ１０２：目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。

本出願の実施例では、目標テキストに対して単語分割を行うときに、境界分割のエラーを最大限に回避するために、文字を基本単位として選択し、目標テキストに対応する文字ベクトルシーケンスを取得することができる。ただし、単純な文字は効果的な意味情報を格納することが困難であるため、取得された文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを融合して、目標テキストの意味情報をより効果的に融合することができる。

１つの可能な実現形態としては、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライスし、目標テキストに対応する目標ベクトルシーケンスを生成することができる。具体的には、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスは、すべてマトリクスと見なすことができる。文字ベクトルシーケンスの行数は目標テキスト中の文字の数であり、列数は文字ベクトルの要素の数である。第１の単語ベクトルシーケンスの行数は目標テキスト中の分割された単語の数であり、列数は単語ベクトルの要素の数である。エンティティベクトルシーケンスの行数は目標テキスト中のエンティティの数であり、列数はエンティティベクトルの要素の数である。文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスの次元数が異なる可能性があるため、先ず第１の単語ベクトルシーケンスとエンティティベクトルシーケンスをマトリクス変換し、変換後の第１の単語ベクトルシーケンスとエンティティベクトルシーケンスの次元数を文字ベクトルシーケンスと同じにし、さらに文字ベクトルシーケンス中の各行の要素と、変換後の第１の単語ベクトルシーケンス中の対応する行の要素と、変換後のエンティティベクトルシーケンス中の対応する行の要素とをスプライス処理し、目標テキストに対応する目標ベクトルシーケンスを生成することができる。すなわち、目標ベクトルシーケンス中の各目標ベクトルは、文字ベクトルシーケンス、変換後の第１の単語ベクトルシーケンス、及びエンティティベクトルシーケンス中の対応する行の要素をスプライスすることによって形成される。

１つの可能な実現形態としては、さらに、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスの平均値を、目標テキストに対応する目標ベクトルシーケンスとして決定することができる。すなわち、第１の単語ベクトルシーケンスとエンティティベクトルシーケンスをマトリクス変換した後、文字ベクトルシーケンス中の各行の文字ベクトルと、変換後の第１の単語ベクトルシーケンス中の対応する行の単語ベクトルと、変換後のエンティティベクトルシーケンス中の対応する行のエンティティベクトルとの平均値を決定し、該平均値を目標ベクトルシーケンス中の各目標ベクトルとして決定する。

さらに、目標テキスト中の各分割された単語が複数の文字を含む可能性があるため、取得された第１の単語ベクトルシーケンスの次元数は通常文字ベクトルシーケンスの次元数より小さく、それにより、第１の単語ベクトルシーケンス中の単語ベクトルを繰り返し、第１の単語ベクトルを文字ベクトルと揃えることができる。すなわち、本出願の実施例の可能な実現形態では、上記ステップ１０２は、第１の単語ベクトルシーケンス中の第１の単語ベクトルに対応する第１の分割された単語に含まれる文字の数がＮである場合、第１の単語ベクトルをＮ回繰り返して、第２の単語ベクトルシーケンスを生成するステップと、第２の単語ベクトルシーケンスをマトリクス変換し、次元数が目標テキストに対応する文字ベクトルシーケンスの次元数と同じである第３の単語ベクトルシーケンスを生成するステップと、第３の単語ベクトルシーケンスを目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成するステップと、目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成するステップと、変換ベクトルシーケンスを前処理ベクトルシーケンスと合成し、目標ベクトルシーケンスを生成するステップと、を含むことができる。

１つの可能な実現形態としては、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを混合し、目標テキストに対応する目標ベクトルシーケンスを生成するときに、先ず第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを文字ベクトルシーケンスと揃えてからマトリクス変換することができる。それにより、文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを混合するときに、各文字ベクトルと対応する第１の単語ベクトル、エンティティベクトルとの関連性をより強くし、コアエンティティのタグ付けの精度を向上させる。

具体的には、第１のベクトル中の各第１の単語ベクトルに対して、第１の単語ベクトルに対応する第１の分割された単語に含まれる文字の数に基づいて、各第１の単語ベクトルを繰り返し、すなわち、対応する第１の分割された単語に含まれる文字の数がＮの第１の単語ベクトルをＮ回繰り返して、文字ベクトルシーケンスと揃えられる第２の単語ベクトルシーケンスを生成することができる。すなわち、第２の単語ベクトルに含まれる単語ベクトルの数は文字ベクトルに含まれる文字ベクトルの数と同じである。

また、目標テキストの文字ベクトルシーケンスを取得するために使用される自然言語処理モデルは、第１の単語ベクトルシーケンスを取得するために使用される自然言語処理モデルと異なる可能性があるため、文字ベクトルシーケンス中の文字ベクトルと第２の単語ベクトルシーケンス中の単語ベクトルの次元数は異なる可能性があり、すなわち、文字ベクトルシーケンスと第２の単語ベクトルシーケンスの列数は異なり、それにより、第２の単語ベクトルシーケンスをさらにマトリクス変換し、文字ベクトルシーケンスの次元数と同じである第３の単語ベクトルシーケンスを生成することができる。その後、文字ベクトルシーケンスを第３の単語ベクトルシーケンスと合成して、目標ベクトルシーケンスを生成することができる。

なお、文字ベクトルシーケンスを第３の単語ベクトルシーケンスと合成するときに、ベクトルシーケンスを第３の単語ベクトルシーケンスとスプライス処理し、目標ベクトルシーケンスを生成してもよく、または、文字ベクトルシーケンス中の各文字ベクトルと第３の単語ベクトル中の対応する行の単語ベクトルとの平均値を、前処理ベクトルシーケンス中の各前処理ベクトルとして決定し、前処理ベクトルシーケンスを生成してもよい。

例として、目標テキストが「去吃飯バ」である場合、目標テキストに含まれる各文字は、「去」、「吃」、「飯」、「バ」であり、含まれる各分割された単語は、「去」、「吃飯」、「バ」であり、それにより、取得可能な文字ベクトルシーケンスはＡ＝［ａ_１ａ_２ａ_３ａ_４］である。ａ_１、ａ_２、ａ_３、ａ_４はそれぞれ、文字の「去」、「吃」、「飯」、「バ」のそれぞれに対応する文字ベクトルである。取得された第１の単語ベクトルシーケンスはＢ＝［ｂ_１ｂ_２ｂ_３］であり、ｂ_１ｂ_２ｂ_３はそれぞれ、分割された単語の「去」、「吃飯」、「バ」のそれぞれに対応する単語ベクトルである。第２の単語ベクトルシーケンスはＢ＝［ｂ_１ｂ_２ｂ_２ｂ_３］である。前処理ベクトルシーケンスが文字ベクトルシーケンス及び第２の単語ベクトルシーケンスのスプライスである場合、前処理ベクトルシーケンスがＣ＝［ａ_１ｂ_１ａ_２ｂ_２ａ_３ｂ_２ａ_４ｂ_３］であることを決定することができる。前処理ベクトルシーケンスが文字ベクトルシーケンスと第２の単語ベクトルシーケンスとの平均値である場合、前処理ベクトルシーケンスがＣ＝［（ａ_１＋ｂ_１）／２（ａ_２＋ｂ_２）／２（ａ_３＋ｂ_２）／２（ａ_４＋ｂ_３）／２］であることを決定することができる。なお、「去吃飯バ」の「バ」は、くちへんに「馬」である。

対応して、第１の単語ベクトルシーケンスと同じ処理方式を採用して、エンティティベクトルシーケンスを揃えてマトリクス変換することによって、次元数が前処理ベクトルシーケンスと同じである（すなわち、文字ベクトルシーケンスの次元数と同じである）変換ベクトルを生成し、さらに変換ベクトルシーケンスを前処理ベクトルシーケンスと合成して、目標ベクトルシーケンスを生成することができる。

なお、前処理ベクトルシーケンスが文字ベクトルシーケンスと第２の単語ベクトルシーケンスをスプライスすることによって生成される場合、変換ベクトルシーケンスを前処理ベクトルシーケンスとスプライス処理し、目標ベクトルシーケンスを生成することができる。前処理ベクトルシーケンスの各前処理ベクトルが、文字ベクトルシーケンス中の各文字ベクトルと第２の単語ベクトルシーケンス中の対応する行の単語ベクトルとの平均値である場合、変換ベクトルシーケンス中の各変換ベクトルと前処理ベクトルシーケンス中の対応する行の前処理ベクトルとの平均値を、目標ベクトルシーケンス中の各目標ベクトルとして決定し、目標ベクトルシーケンスを生成することができる。

ステップ１０３：予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。

予め設定されたネットワークモデルは、拡張ゲート畳み込みニューラルネットワークモデルなどの事前にトレーニングされたニューラルネットワークモデルであってもよい。

本出願の実施例では、ダブルポインタのタグ付けの方法で目標テキスト中のコアエンティティの開始位置と終了位置をタグ付けすることができる。すなわち、目標テキストに対応する目標ベクトルシーケンスを予め設定されたネットワークモデルに入力し、予め設定されたネットワークモデルに目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を出力させることができる。それにより、目標テキスト中のコアエンティティのダブルポインタのタグ付けを実現して、コアエンティティのタグ付けの精度を向上させる。

ステップ１０４：各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。

本出願の実施例では、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することができる。

任意的には、確率閾値を予め設定して、コアエンティティの開始文字としての確率が確率閾値以上の目標テキスト中の第１の文字、及びコアエンティティの終了文字としての確率が確率閾値以上の第２の文字を決定し、さらに第１の文字を目標テキスト中のコアエンティティの開始文字とし、第１の文字の後に位置する第２の文字を目標テキスト中のコアエンティティの終了文字とし、目標テキスト中の各コアエンティティを決定することができる。

例として、予め設定された確率閾値が０．８であり、目標テキストが「夏至未至：陸之昂和七七開始吃了起来，七七太能吃！」の場合、目標テキスト中の「陸」という文字のコアエンティティの開始文字としての確率が０．８より大きく、文字「昂」のコアエンティティの終了文字としての確率が０．８より大きく、文字「七」のコアエンティティの開始文字としての確率及びコアエンティティの終了文字としての確率がすべて０．８より大きいと決定すると、目標テキスト中のコアエンティティが「陸之昂」、「七七」、「陸之昂和七七」を含むことを確定することができる。

本出願の実施例の技術案によれば、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデルを利用して、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定することで、テキスト中のコアエンティティを正確に抽出することを実現し、テキストのコア内容の意味情報を豊かにし、汎用性が高い。

本出願の１つの可能な実現形態では、目標テキスト中の各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するときに、目標テキスト中の各エンティティのコアエンティティとしての事前確率を融合することができ、それにより、コアエンティティのタグ付けの精度をさらに向上させる。

以下、図２を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法をさらに説明する。

図２は、本出願の実施例に係る別のコアエンティティのタグ付け方法概略フローチャートである。

図２に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。

ステップ２０１：それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。文字ベクトルシーケンスは目標テキスト中の各文字に対応する文字ベクトルを含み、第１の単語ベクトルシーケンスは目標テキスト中の各分割された単語に対応する単語ベクトルを含み、エンティティベクトルシーケンスは目標テキスト中の各エンティティに対応するエンティティベクトルを含む。

ステップ２０２：目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。

上記ステップ２０１〜２０２の具体的な実現プロセス及び原理については、上記実施例の詳細な説明を参照することができ、ここで詳しく説明しない。

ステップ２０３：目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得する。

エンティティに対応するコアエンティティの事前確率は、前の予め設定されたネットワークモデルを利用して該エンティティをコアエンティティとしてタグ付けする履歴使用データに基づいて、該エンティティをコアエンティティとしてタグ付けする予測確率であってもよい。

１つの可能な実現形態としては、目標テキストに含まれる各エンティティに基づいて、毎回目標テキスト中の各エンティティをコアエンティティとして決定するときに、予め設定されたネットワークモデルにより決定された各エンティティに対応する開始文字のコアエンティティの開始文字としての確率、及び各エンティティに対応する終了文字のコアエンティティの終了文字としての確率を、予め設定されたネットワークモデルの履歴使用データから取得し、さらに各エンティティが毎回コアエンティティとして決定されるときに対応する開始文字確率と終了文字確率の平均値を、各エンティティに対応するコアエンティティの事前確率として決定する。

例として、目標テキスト中のエンティティＡに対して、予め設定されたネットワークモデルの履歴データから、エンティティＡがコアエンティティとして三回決定されると決定する。最初にコアエンティティとして決定されるときに、エンティティＡに対応する開始文字のコアエンティティの開始文字としての確率が０．８であり、エンティティＡに対応する終了文字のコアエンティティの終了文字としての確率が０．９である。２回目にコアエンティティとして決定されるときに、エンティティＡに対応する開始文字のコアエンティティの開始文字としての確率が０．９であり、エンティティＡに対応する終了文字のコアエンティティの終了文字としての確率が０．９である。３回目にコアエンティティとして決定されるときに、エンティティＡに対応する開始文字のコアエンティティの開始文字としての確率が０．９であり、エンティティＡに対応する終了文字のコアエンティティの終了文字としての確率が１である。それにより、エンティティＡに対応するコアエンティティの事前確率が（０．８＋０．９＋０．９＋０．９＋０．９＋１）／６＝０．９であることを決定することができる。

なお、目標テキスト中の各エンティティに対応するコアエンティティの事前確率の決定方式は、上記の言及したケースを含むがこれに限定されない。実際の使用では、実際の需要及び具体的な応用シーンに基づいてコアエンティティの事前確率の決定方式を選択することができ、本出願の実施例はこれを限定しない。

ステップ２０４：目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定する。

本出願の実施例では、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を決定した後、各エンティティに対応するコアエンティティの事前確率を全結合処理して、各エンティティに対応するコアエンティティの事前確率を組み合わせ、目標テキストに対応する事前シーケンスベクトルを生成することができる。すなわち、事前シーケンスベクトル中の各要素はそれぞれ、目標テキスト中の各エンティティのそれぞれに対応するコアエンティティの事前確率である。

ステップ２０５：予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定する。

目標ベクトルシーケンスに対応する目標シーケンスベクトルは、目標ベクトルシーケンス中の各ベクトルをスプライスすることによって生成されたベクトルであってもよく、または、目標ベクトルシーケンス中の各ベクトルを加重平均してマージすることによって生成されるベクトルであってもよい。

本出願の実施例では、予め設定されたネットワークモデル中の平均マージ層を利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定することができる。

ステップ２０６：予め設定されたネットワークモデルを利用して、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。

本出願の実施例では、予め設定されたネットワークモデルを利用して目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理することができ、それにより、目標シーケンスベクトルに基づいて各文字のコアエンティティの開始文字としての確率及び終了文字としての確率を決定するときに、事前シーケンスベクトルを参照して、予め設定されたネットワークモデルが出力した結果はより正確になる。

ステップ２０７：各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。

上記ステップ２０７の具体的な実現プロセス及び原理については、上記実施例の詳細な説明を参照することができ、ここで詳しく説明しない。

ステップ２０８：各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定する。

本出願の実施例では、さらに、決定された各コアエンティティを評点することができ、必要がある場合、各コアエンティティのスコアに基づいて、コアエンティティをスクリーニング処理することができ、それにより、本出願の実施例のコアエンティティのタグ付け方法の応用シーンを拡張し、汎用性をさらに改善することができる。

１つの可能な実現形態としては、各コアエンティティ中の開始文字確率及び終了文字確率の平均値を、各コアエンティティのスコアとして決定することができる。

例として、コアエンティティＡに対して、該コアエンティティの開始文字確率が０．９であり、終了文字確率が０．８である場合、コアエンティティＡのスコアは（０．９＋０．８）／２＝０．８５である。

さらに、本出願の実施例のコアエンティティのタグ付け方法は、ダブルポインタのタグ付けのメカニズムを採用するため、決定されたコアエンティティ結果においてカバレッジ及び交差部分が存在することを容易に引き起こす。従って、決定されたコアエンティティ結果における冗長確率を低減させるために、各コアエンティティのスコアに基づいて、各コアエンティティをスクリーニングし、冗長なコアエンティティを削除することができる。すなわち、本出願の実施例の１つの可能な実現形態では、目標テキストのコアエンティティが複数含まれると確定される場合、上記ステップ２０８の後、目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するステップと、第１のエンティティがそれぞれ第２のエンティティ及び第３のエンティティと交差する場合、第１のエンティティのスコアが、第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きいか否かを判断するステップと、第１のエンティティのスコアが、第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きい場合、第２のエンティティ及び第３のエンティティを目標テキストのコアエンティティから削除するステップと、第２のエンティティのスコアと第３のエンティティのスコアとの総和が、第１のエンティティのスコアより大きい場合、第１のエンティティを目標テキストのコアエンティティから削除するステップと、を含んでもよい。

第１のエンティティが第２のエンティティ及び第３のエンティティと交差することは、第１のエンティティが第２のエンティティ及び第３のエンティティを含むことを意味してもよい。例えば、第１のエンティティが「陸之昂和七七」であり、第２のエンティティが「陸之昂」であり、第３のエンティティが「七七」である。

１つの可能な実現形態としては、目標テキストに複数のコアエンティティが含まれると確定される場合、各コアエンティティに交差するコアエンティティが含まれるか否かを判断し、さらに、各コアエンティティのスコアに基づいて、スコアの低いコアエンティティを削除することができる。

具体的には、第１のエンティティのスコアが第２のエンティティと第３のエンティティのスコアとの総和より大きい場合、第１のエンティティのコアエンティティとしての信頼性が、第２のエンティティと第３のエンティティが共同してコアエンティティとしての信頼性より大きいことを確定することができ、それにより、第２のエンティティ及び第３のエンティティを目標テキストのコアエンティティから削除することができる。第２のエンティティと第３のエンティティとのスコアの総和が第１のエンティティのスコアより大きい場合、第２のエンティティと第３のエンティティが共同してコアエンティティとしての信頼性が、第１のエンティティのコアエンティティとしての信頼性より大きいことを確定することができ、それにより、第１のエンティティを目標テキストのコアエンティティから削除することができる。

例として、目標テキストが「夏至未至：陸之昂和七七開始吃了起来、七七太能吃！」の場合、決定された目標テキストのコアエンティティが「陸之昂」、「七七」、「陸之昂和七七」であり、エンティティ「陸之昂」のスコアが０．７であり、エンティティ「七七」のスコアが０．８であり、エンティティ「陸之昂和七七」のスコアが０．９であると、エンティティ「陸之昂」とエンティティ「七七」とのスコアの総和が、エンティティ「陸之昂和七七」のスコアより大きいことを確定することができ、それにより、エンティティ「陸之昂和七七」を目標テキストのコアエンティティから削除することができる。

本出願の実施例の技術案によれば、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデル及びコアエンティティの事前特徴を利用し、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定することで、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性をさらに向上させる。

本出願の１つの可能な実現形態では、並列している複数のエンティティが目標テキストに含まれる場合、さらに並列している複数のエンティティのうちの１つのみに対してエンティティベクトルマッピングを行ってもよく、該エンティティの認識結果に基づいて、それと並列している他のエンティティがコアエンティティである否かを決定し、コアエンティティタグ付けの演算複雑度を低減させる。

以下、図３を参照しながら、本出願の実施例に係るコアエンティティのタグ付け方法についてさらに説明する。

図３は、本出願の実施例に係る別のコアエンティティのタグ付け方法の概略フローチャートである。

図３に示すように、該コアエンティティのタグ付け方法は、以下のステップを含む。

ステップ３０１：目標テキストを認識し、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断する。

予め設定された記号は、読点など、並列関係を表し可能な記号であってもよい。実際の使用では、実際の需要に応じて予め設定された記号を設定してもよい。

本出願の実施例では、アルゴリズムの複雑度を低減させるために、目標テキストに並列している複数のエンティティが含まれる場合、そのうちの１つのエンティティを認識し、さらに該エンティティの認識結果に基づいて、それと並列している他のエンティティがコアエンティティであるか否かを決定することができる。

１つの可能な実現形態としては、目標テキストに対して認識処理を行って、目標テキストに予め設定された記号が含まれるか否かを決定し、目標テキストに予め設定された記号が含まれると決定すると、予め設定された記号の前後に位置するエンティティを並列している複数のエンティティとして決定することができる。

なお、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するとき、予め設定された記号に対応する文字ベクトルと目標テキスト中の各文字に対応する文字ベクトルとを比較してもよく、目標テキスト中の各文字に対応する文字ベクトルに、予め設定された記号に対応する文字ベクトルとマッチングする文字ベクトルが含まれると、目標テキストに予め設定された記号が含まれると決定し、目標テキスト中の、予め設定された記号の前後に位置するエンティティを、目標テキスト中の、予め設定された記号で分離された複数のエンティティとして決定することができる。

ステップ３０２：それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピングを行い、１番目の予め設定された記号の前の第４のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第５のエンティティに対してエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得する。

第４のエンティティは、目標テキスト中の、予め設定された記号で分離された複数のエンティティのうち、初めて出現するエンティティであり、第５のエンティティは、目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の他のエンティティである。例えば、予め設定された記号が「読点」であり、目標テキストにエンティティＡ、エンティティＢ、エンティティＣ、エンティティＤ、エンティティＥが含まれ、エンティティＡ、エンティティＢ、エンティティＣが順に目標テキストに出現して読点で分離されたと、第４のエンティティがエンティティＡであり、第５のエンティティがエンティティＤ及びエンティティＥである。

本出願の実施例では、目標テキストに予め設定された記号で分離された複数の並列しているエンティティが存在すると、目標テキストに対してエンティティベクトルマッピングを行うとき、並列しているエンティティのうち、初めて出現する第４のエンティティのみに対してエンティティベクトルマッピングを行い、第５のエンティティに対してエンティティベクトルマッピングを行い、目標テキストに対応するエンティティベクトルシーケンスを決定し、それにより、目標テキストのエンティティベクトルマッピングの演算量を簡略化し、コアエンティティタグ付けの効率を向上させる。

上記ステップ３０２の他の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。

ステップ３０３：目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。

ステップ３０４：予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定する。

ステップ３０５：各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定する。

上記ステップ３０３〜３０５の具体的な実現過程及び原理については、上記実施例の詳細な説明を参照でき、ここで繰り返し説明しない。

ステップ３０６：第４のエンティティがコアエンティティであるか否かを判断する。

ステップ３０７：第４のエンティティがコアエンティティである場合、第４のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定する。

本出願の実施例では、目標テキストのコアエンティティを決定した後、さらに目標テキストのコアエンティティに第４のエンティティが含まれるか否かを判断することができる。含まれる場合、第４のエンティティと予め設定された記号で分離された他の各エンティティも目標テキストのコアエンティティとして決定することができ、第４のエンティティがコアエンティティではない場合、第４のエンティティと予め設定された記号で分離された他のエンティティも目標テキストのコアエンティティではない。

本出願の実施例の技術案によれば、目標テキストに予め設定された記号で分離された複数のエンティティが含まれる場合、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピングを行い、１番目の予め設定された記号の前の第４のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第５のエンティティに対してエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得し、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成する。この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定し、さらに第４のエンティティがコアエンティティである場合、第４のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、並列している複数のエンティティのうちの１つに対してエンティティベクトルマッピングを行い、予め設定されたネットワークモデル及びそのうち１つの並列しているエンティティの認識結果を利用して、目標テキストのコアエンティティを決定し、それにより、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性を向上させ、コアエンティティタグ付けの効率を向上させる。

上記実施例を実現するために、本出願は、コアエンティティのタグ付け装置をさらに提供する。

図４は、本出願の実施例に係るコアエンティティのタグ付け装置の概略構成図である。

図４に示すように、該コアエンティティのタグ付け装置４０は、それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第１の取得モジュール４１であって、文字ベクトルシーケンスが目標テキスト中の各文字に対応する文字ベクトルを含み、第１の単語ベクトルシーケンスが目標テキスト中の各分割された単語に対応する単語ベクトルを含み、エンティティベクトルシーケンスが目標テキスト中の各エンティティに対応するエンティティベクトルを含む第１の取得モジュール４１と、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュール４２と、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化・復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定するための第１の決定モジュール４３と、各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティを決定するための第２の決定モジュール４４と、を備える。

実際の使用では、本出願の実施例に係るコアエンティティのタグ付け装置は、前述したコアエンティティのタグ付け方法を実行するために、任意の電子機器に配置されてもよい。

本出願の１つの可能な実現形態では、上記コアエンティティのタグ付け装置４０は、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するための第２の取得モジュールと、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定するための第３の決定モジュールと、をさらに備え、上記第１の決定モジュール４３は、具体的には、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、予め設定されたネットワークモデルを利用して、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定するために用いられる。

さらに、本出願の別の可能な実現形態では、上記生成モジュール４２は、具体的には、第１の単語ベクトルシーケンス中の第１の単語ベクトルに対応する第１の分割された単語に含まれる文字の数がＮである場合、第１の単語ベクトルをＮ回繰り返して、第２の単語ベクトルシーケンスを生成し；第２の単語ベクトルシーケンスをマトリクス変換し、次元数が目標テキストに対応する文字ベクトルシーケンスの次元数と同じである第３の単語ベクトルシーケンスを生成し；第３の単語ベクトルシーケンスを目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成し；目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成し；変換ベクトルシーケンスを前処理ベクトルシーケンスと合成し、目標ベクトルシーケンスを生成するために用いられる。

さらに、本出願の別の可能な実現形態では、上記生成モジュール４２は、さらに、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、目標テキストに対応する目標ベクトルシーケンスを生成するために用いられる。

さらに、本出願の別の可能な実現形態では、上記コアエンティティのタグ付け装置４０は、各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するための第４の決定モジュールをさらに備える。

さらに、本出願の他の可能な実現形態では、上記目標テキストのコアエンティティが複数含まれると決定する場合、上記コアエンティティのタグ付け装置４０は、目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するための第１の判断モジュールと、第１のエンティティがそれぞれ第２のエンティティ及び第３のエンティティと交差する場合、第１のエンティティのスコアが、第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きいか否かを判断するための第２の判断モジュールと、第１のエンティティのスコアが、第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きい場合、第２のエンティティ及び第３のエンティティを目標テキストのコアエンティティから削除するための第１の削除モジュールと、第１のエンティティのスコアが、第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きい場合、第２のエンティティ及び第３のエンティティを目標テキストのコアエンティティから削除するための第２の削除モジュールと、をさらに備える。

さらに、本出願の別の可能な実現形態では、上記コアエンティティのタグ付け装置４０は、目標テキストを認識し、目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断する第３の判断モジュールをさらに備える。これに対応して、上記第１の取得モジュール４１は、さらに、含まれる場合、１番目の予め設定された記号の前の第４のエンティティ、及び目標テキスト中の、予め設定された記号で分離された複数のエンティティ以外の第５のエンティティに対してエンティティベクトルマッピングを行うために用いられる。これに対応して、上記コアエンティティのタグ付け装置４０は、第４のエンティティがコアエンティティであるか否かを判断するための第４の判断モジュールと、第４のエンティティがコアエンティティである場合、第４のエンティティと予め設定された記号で分離された他の各エンティティを目標テキストのコアエンティティとして決定するための第５の決定モジュールと、をさらに備える。

なお、図１、図２、図３に示すコアエンティティのタグ付け方法の実施例についての前述した説明は、該実施例のコアエンティティのタグ付け装置４０に適用でき、ここで繰り返し説明しない。

本出願の実施例の技術案によれば、目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、目標テキストに対応する目標ベクトルシーケンスを生成し、目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、目標テキストに対応する事前シーケンスベクトルを決定し、この後、予め設定されたネットワークモデルを利用して目標ベクトルシーケンスを符号化処理し、目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、目標シーケンスベクトル及び事前シーケンスベクトルを復号化処理し、目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率を決定し、さらに各文字のコアエンティティの開始文字としての確率、及び終了文字としての確率に基づいて、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定する。これによって、目標テキストの文字ベクトル、単語ベクトル及びエンティティベクトルを融合することによって、予め設定されたネットワークモデル及びコアエンティティの事前特徴を利用して、目標テキストのコアエンティティ及び各コアエンティティのスコアを決定し、それにより、テキストのコア内容の意味情報を豊かにするとともに、コアエンティティタグ付けの精度及び汎用性をさらに向上させる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図５に示すように、本出願の実施例によるコアエンティティのタグ付け方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／または要求される本出願の実現を制限することを意図したものではない。

図５に示すように、該電子機器は、１つのまたは複数のプロセッサ５０１と、メモリ５０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、または必要に応じて他の方式で取り付けることができる。プロセッサは、メモリ内またはメモリ上において外部入力／出力装置（例えば、インターフェースにカップリングされた表示機器）にＧＵＩのグラフィック情報を表示する命令を含んだ、電子機器内に実行される命令を処理する。他の実施形態では、必要であれば、複数のプロセッサ及び／または複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーババンク、１群のブレードサーバ、またはマルチプロセッサシステムとして）を提供することができる。図５では、１つのプロセッサ５０１を例とする。

メモリ５０２は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本出願に係るコアエンティティのタグ付け方法を実行できるように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係るコアエンティティのタグ付け方法を実行させるためのコンピュータ命令が記憶されている。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るコアエンティティのタグ付け方法に対応するプログラム命令／モジュール（例えば、図４に示す第１の取得モジュール４１、生成モジュール４２、第１の決定モジュール４３及び第２の決定モジュール４４）などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成される。プロセッサ５０１は、メモリ５０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例のコアエンティティのタグ付け方法を実現する。

メモリ５０２は、プログラム記憶領域とデータ記憶領域と、を含むことができる。ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、コアエンティティのタグ付け方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリをさらに含んでもよく、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に設けられたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してコアエンティティのタグ付け方法の電子機器に接続されてもよい。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

コアエンティティのタグ付け方法の電子機器は、さらに、入力装置５０３及び出力装置５０４を備えてもよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バスまたは他の方式を介して接続することができ、図５では、バスを介して接続することを例とする。

入力装置５０３は、入力された数字またはキャラクタ情報を受信し、コアエンティティのタグ付け方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、１つのまたは複数のマウスキー、トラックボール、ジョイスティックなどの入力装置である。出力装置５０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、バイブラモータ）などを含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよいがこれらに限られない。いくつかの実施形態では、表示機器は、タッチスクリーンであり得る。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組合せで実現することができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムで実施されること、を含むことができ、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／または解釈でき、該プログラマブルプロセッサは、特定用途向けまたは汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、該ストレージシステム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも称される）は、プログラマブルプロセッサに対するマシン命令を含み、高度レベル手続き型及び／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語で実装することができる。本明細書で使用される際、「マシン読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、マシン命令及び／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））であり、マシン読み取り可能な信号であるマシン命令を受信する機器読み取り可能な媒体を含む。用語の「マシン読み取り可能な信号」とは、マシン命令及び／またはデータをプログラマブルプロセッサに提供するための任意の信号である。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、該コンピュータは、ユーザに情報を表示するための表示機器（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力と、を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、該グラフィカルユーザインタフェースまたは該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、及びフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアント側とサーバと、を含むことができる。クライアント側とサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本出願の要旨と原則内で行われる任意の修正、同等の置換や改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

コアエンティティのタグ付け方法であって、
それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第１の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含むステップと、
前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップと、
予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、
各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するステップと、を含む、コアエンティティのタグ付け方法。
前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップの前に、
前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するステップと、
前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、前記目標テキストに対応する事前シーケンスベクトルを決定するステップと、をさらに含み、
前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップは、
予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化処理し、前記目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定するステップと、
前記予め設定されたネットワークモデルを利用して、前記目標シーケンスベクトル及び前記事前シーケンスベクトルを復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するステップと、を含む、請求項１に記載の方法。
前記目標テキストに対応する目標ベクトルシーケンスを生成するステップは、
前記第１の単語ベクトルシーケンス中の第１の単語ベクトルに対応する第１の分割された単語に含まれる文字の数がＮである場合、前記第１の単語ベクトルをＮ回繰り返して、第２の単語ベクトルシーケンスを生成するステップと、
前記第２の単語ベクトルシーケンスをマトリクス変換し、次元数が前記目標テキストに対応する文字ベクトルシーケンス次元数と同じである第３の単語ベクトルシーケンスを生成するステップと、
前記第３の単語ベクトルシーケンスを前記目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成するステップと、
前記目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前記前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成するステップと、
前記変換ベクトルシーケンスを前記前処理ベクトルシーケンスと合成し、前記目標ベクトルシーケンスを生成するステップと、を含む、請求項１に記載の方法。
前記目標テキストに対応する目標ベクトルシーケンスを生成するステップは、
前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、前記目標テキストに対応する目標ベクトルシーケンスを生成するステップを含む、請求項１に記載の方法。
前記目標テキストのコアエンティティを決定するステップの後に、
各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するステップをさらに含む、請求項１から請求項４のいずれか１項に記載の方法。
前記目標テキストのコアエンティティが複数含まれると決定する場合、各コアエンティティのスコアを決定するステップの後、
前記目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するステップと、
第１のエンティティがそれぞれ第２のエンティティ及び第３のエンティティと交差する場合、前記第１のエンティティのスコアが第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きいか否かを判断するステップと、
前記第１のエンティティのスコアが第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きい場合、前記第２のエンティティ及び第３のエンティティを前記目標テキストのコアエンティティから削除するステップと、
第２のエンティティのスコアと第３のエンティティのスコアとの総和が前記第１のエンティティのスコアより大きい場合、前記第１のエンティティを前記目標テキストのコアエンティティから削除するステップと、をさらに含む、請求項５に記載の方法。
前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するステップの前、
前記目標テキストを認識し、前記目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するステップを含み、
目標テキストに対してエンティティベクトルマッピングを行うステップは、
含まれる場合、１番目の前記予め設定された記号の前の第４のエンティティ、及び前記目標テキスト中の、予め設定された記号で分離された前記複数のエンティティ以外の第５のエンティティに対してエンティティベクトルマッピングを行うステップを含み、
前記目標テキストのコアエンティティを決定するステップの後、
前記第４のエンティティがコアエンティティであるか否かを判断するステップと、
前記第４のエンティティがコアエンティティである場合、前記第４のエンティティと予め設定された記号で分離された他の各エンティティを前記目標テキストのコアエンティティとして決定するステップと、を含む、請求項１から請求項４のいずれか１項に記載の方法。
コアエンティティのタグ付け装置であって、
それぞれ目標テキストに対して文字ベクトルマッピング、単語ベクトルマッピング及びエンティティベクトルマッピングを行い、前記目標テキストのそれぞれに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスを取得するための第１の取得モジュールであって、前記文字ベクトルシーケンスが前記目標テキスト中の各文字に対応する文字ベクトルを含み、前記第１の単語ベクトルシーケンスが前記目標テキスト中の各分割された単語に対応する単語ベクトルを含み、前記エンティティベクトルシーケンスが前記目標テキスト中の各エンティティに対応するエンティティベクトルを含む第１の取得モジュールと、
前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスに基づいて、前記目標テキストに対応する目標ベクトルシーケンスを生成するための生成モジュールと、
予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化・復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するための第１の決定モジュールと、
各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率に基づいて、前記目標テキストのコアエンティティを決定するための第２の決定モジュールと、を備える、コアエンティティのタグ付け装置。
前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を取得するための第２の取得モジュールと、
前記目標テキスト中の各エンティティに対応するコアエンティティの事前確率を全結合処理し、前記目標テキストに対応する事前シーケンスベクトルを決定するための第３の決定モジュールと、をさらに備え、
前記第１の決定モジュールは、具体的には、
予め設定されたネットワークモデルを利用して、前記目標ベクトルシーケンスを符号化処理し、前記目標ベクトルシーケンスに対応する目標シーケンスベクトルを決定し、
前記予め設定されたネットワークモデルを利用して、前記目標シーケンスベクトル及び前記事前シーケンスベクトルを復号化処理し、前記目標テキスト中の各文字のコアエンティティの開始文字としての確率、及び終止文字としての確率を決定するために用いられる、請求項８に記載の装置。
前記生成モジュールは、具体的には、
前記第１の単語ベクトルシーケンス中の第１の単語ベクトルに対応する第１の分割された単語に含まれる文字の数がＮである場合、前記第１の単語ベクトルをＮ回繰り返して、第２の単語ベクトルシーケンスを生成し、
前記第２の単語ベクトルシーケンスをマトリクス変換し、次元数が前記目標テキストに対応する文字ベクトルシーケンス次元数と同じである第３の単語ベクトルシーケンスを生成し、
前記第３の単語ベクトルシーケンスを前記目標テキストに対応する文字ベクトルシーケンスと合成し、前処理ベクトルシーケンスを生成し、
前記目標テキストに対応するエンティティベクトルシーケンスを揃えてマトリクス変換し、次元数が前記前処理ベクトルシーケンスと同じである変換ベクトルシーケンスを生成し、
前記変換ベクトルシーケンスを前記前処理ベクトルシーケンスと合成し、前記目標ベクトルシーケンスを生成するために用いられる、請求項８に記載の装置。
前記生成モジュールは、さらに、
前記目標テキストに対応する文字ベクトルシーケンス、第１の単語ベクトルシーケンス及びエンティティベクトルシーケンスをスプライス処理し、前記目標テキストに対応する目標ベクトルシーケンスを生成するために用いられる、
請求項８に記載の装置。
各コアエンティティ中の開始文字確率及び終了文字確率に基づいて、各コアエンティティのスコアを決定するための第４の決定モジュールをさらに備える、請求項８から請求項１１のいずれか１項に記載の装置。
前記目標テキストのコアエンティティが複数含まれると決定する場合、
前記目標テキストの複数のコアエンティティに交差するエンティティが含まれるか否かを判断するための第１の判断モジュールと、
第１のエンティティがそれぞれ第２のエンティティ及び第３のエンティティと交差する場合、前記第１のエンティティのスコアが第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きいか否かを判断するための第２の判断モジュールと、
前記第１のエンティティのスコアが第２のエンティティのスコアと第３のエンティティのスコアとの総和より大きい場合、前記第２のエンティティ及び第３のエンティティを前記目標テキストのコアエンティティから削除するための第１の削除モジュールと、
第２のエンティティのスコアと第３のエンティティのスコアとの総和が前記第１のエンティティのスコアより大きい場合、前記第１のエンティティを前記目標テキストのコアエンティティから削除するための第２の削除モジュールと、をさらに備える、請求項１２に記載の装置。
前記目標テキストを認識し、前記目標テキストに予め設定された記号で分離された複数のエンティティが含まれるか否かを判断するための第３の判断モジュールと、
含まれる場合、１番目の前記予め設定された記号の前の第４のエンティティ、及び前記目標テキスト中の、予め設定された記号で分離された前記複数のエンティティ以外の第５のエンティティに対してエンティティベクトルマッピングを行うための前記第１の取得モジュールと、をさらに備え、
前記第４のエンティティがコアエンティティであるか否かを判断するための第４の判断モジュールと、
前記第４のエンティティがコアエンティティである場合、前記第４のエンティティと予め設定された記号で分離された他の各エンティティを前記目標テキストのコアエンティティとして決定するための第５の決定モジュールと、をさらに備える、請求項８から請求項１１のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１から請求項７のいずれか１項に記載の方法を実行できる、電子機器。
コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１から請求項７のいずれか１項に記載の方法を実行させるために用いられる、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１から請求項７のいずれか１項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。