JP2020008836A

JP2020008836A - 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2020008836A
Application number: JP2019090337A
Authority: JP
Inventors: トォンイシュアヌ; yi xuan Tong; ジャンヨンウエイ; yong wei Zhang; ドォンビヌ; Bin Dong; ジアンシャヌシャヌ; shan shan Jiang; ジャンジィアシ; jia shi Zhang
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-07-10
Filing date: 2019-05-13
Publication date: 2020-01-16
Anticipated expiration: 2039-05-13
Also published as: JP6743942B2; CN110705279A

Abstract

【課題】本発明は、語彙テーブルの選択方法、装置及びコンピュータ読み取り可能な記録媒体を提供する。【解決手段】本発明の実施例による語彙テーブルの選択方法は、第1語彙テーブルによって予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータ及び語彙重みを更新し、さらに、トレーニング終了後、得たターゲット語彙の語彙重みを利用して第1語彙テーブル中の語彙を選別してターゲットニューラルネットワークモデルをトレーニングするための第2語彙テーブルを得る。当該第2語彙テーブルにより高価値の語彙が含まれるので、第2語彙テーブルによってターゲットニューラルネットワークモデルをトレーニングする時、モデルのトレーニング効率を向上かつトレーニング時間を減少でき、かつトレーニングし得たモデルの正確性を上げる。【選択図】図１

Description

本発明は言語情報処理技術分野に係わり、特に語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体に関する。

自然言語処理において、ニューラルネットワークモデルにより自然言語処理問題を解決する際には、通常、語彙テーブルを指定し、かつニューラルネットワークモデルを訓練して特定の機能を持つモデルを得る必要がある。例えば、固有表現（Named Entity）を抽出するためのあるモデルに対して、人名エンティティや非人名エンティティの他の語彙を含む語彙テーブルによって、そのモデルを学習させて、最終的に得られたモデルは入力された自然言語における人名エンティティを発見することに用いられることができる。

従来技術の語彙テーブルによりモデルをトレーニングする際に、通常はオリジナルコーパスからサンプル語彙を抽出して、サンプル語彙からなる語彙テーブルを得てから、その語彙テーブルに基づいてモデルをトレーニングする。オリジナルコーパスに基づいて得られる語彙テーブルは通常大量の語彙を含み、かつ一部の価値の低い語彙が存在するため、その語彙テーブルによりモデルをトレーニングする場合、トレーニング効率が低く、必要な時間も長く、かつトレーニングによって得られるモデルも正確性が低いという問題がある。

本発明の実施例が解決しようとする技術課題は語彙テーブルの選択方法、装置及びコンピュータ読み取り可能な記録媒体を提供して、モデルトレーニングにより適合する語彙テーブルを選択かつ生成し、モデルのトレーニング効率を向上かつトレーニング時間を減少させることができ、かつトレーニングし得たモデルの正確性を上げることができる。

上記の技術課題を解決するために、本発明の実施例より提供された語彙テーブルの選択方法は、
語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力するステップと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得するステップと、
前記語彙重みによって前記第1語彙テーブルを選別して、第2語彙テーブルを得るステップと、を含む。

好ましいのは、前記第2語彙テーブルを得た後、さらに、
前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする。

好ましいのは、上記方法において、前記語彙重みによって第1語彙テーブル中のターゲット語彙を重み付ける前記ステップは、
前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙で、かつ前記第1語彙テーブルに存在しない語彙がすべて同一の未知単語ベクトルに対応すること、を含む。

好ましいのは、上記方法において、前記第1重みは前記ターゲット語彙の語彙重みの第1関数であることができ、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングするように用いられ、前記第2重みは前記第1重みの第2関数であり、且つ前記第1重みと負の相関がある。

好ましいのは、上記方法において、前記ターゲット単語ベクトルと前記未知単語ベクトルとは、確率的初期化（random initialization）または単語ベクトルの予備トレーニングアルゴリズムによって初期化する。

好ましいのは、上記方法において、前記語彙重みによって前記第1語彙テーブルを選別する前記ステップは、語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して、前記第2語彙テーブルを得ることができる。或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内の語彙を選択して、前記第2語彙テーブルを得ることができる。そこで、前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない。

好ましいのは、上記方法において、前記予備トレーニングモデルを構築する前に、前記方法はさらに、
オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。

好ましいのは、上記方法において、前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルはともに、同一のターゲットタスクに対して構築されたモデルである。

本発明の実施例はさらに語彙テーブルの選択装置を提供し、それは、
語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙ウェイトによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する予備トレーニングモデルのモデリングユニットと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する第1トレーニングユニットと、
前記語彙ウェイトによって前記第1語彙テーブルを選別して、第2語彙テーブルを得る語彙選択ユニットと、を含む。

好ましいのは、上記語彙テーブルの選択装置は、さらに、
前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする第2トレーニングユニットを含む。

好ましいのは、上記語彙テーブルの選択装置において、前記予備トレーニングモデルモデリングモジュールにより、前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙で、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する。

好ましいのは、上記語彙テーブルの選択装置において、前記第1重みは前記ターゲット語彙の語彙重みの第1関数であることができ、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングするように用いられ、前記第2重みは前記第1重みの第2関数であり、且つ前記第1重みと負の相関がある。

好ましいのは、上記語彙テーブルの選択装置において、前記ターゲット単語ベクトルと前記未知単語ベクトルとは、確率的初期化または単語ベクトルの予備トレーニングアルゴリズムによって初期化する。

好ましいのは、上記語彙テーブルの選択装置において、前記語彙選択ユニットにより、語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して、前記第2語彙テーブルを得ることができる。或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内の語彙を選択して、前記第2語彙テーブルを得ることができる。そこで、前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない。

好ましいのは、上記語彙テーブルの選択装置はさらに、
語彙テーブル生成ユニットにより、オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。

好ましいのは、上記語彙テーブルの選択装置において、前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルはともに、同一のターゲットタスクに対して構築されたモデルである。

本発明の実施例はさら語彙テーブルの選択装置を提供し、それは、メモリ、プロセッサ、およびメモリに格納されかつプロセッサで実行可能なコンピュータプログラムを含む。前記コンピュータプログラムは前記プロセッサに実行された場合、上記の語彙テーブルの選択方法を実現することができる。

さらに、本発明の実施例よりコンピュータ読み取り可能な記録媒体が提供され、前記コンピュータ読み取り可能な記録媒体にコンピュータプログラムが格納され、前記コンピュータプログラムはプロセッサに実行された場合、上記の語彙テーブルの選択方法を実現することができる。

従来技術と比べて、本発明の実施例による語彙テーブルの選択方法、装置及びコンピュータ読み取り可能な記憶媒体は、第1語彙テーブルによって予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータ及び語彙重みを更新して、さらに、トレーニング終了後、得たターゲット語彙の語彙重みを利用して第1語彙テーブル中の語彙を選別してターゲットニューラルネットワークモデルをトレーニングするための第2語彙テーブルを得る。当該第2語彙テーブルにより高価値の語彙が含まれるので、第2語彙テーブルによってターゲットニューラルネットワークモデルをトレーニングする時、モデルのトレーニング効率を向上かつトレーニング時間を減少でき、かつトレーニングし得たモデルの正確性を上げる。

本発明の実施例の技術方案をより明確に説明するために、以下、本発明の実施例の説明に必要とされる添付図を簡単に紹介するが、明らかに、下記の図は本発明のいくつかの実施例のみであり、当業者にとって、高度な技術を必要としない前提において、これらの添付図によって他の添付図を得ることができる。
本発明の実施例に係る語彙テーブルの選択方法の応用シーンである。本発明の実施例に係る語彙テーブルの選択方法のフローチャットである。本発明の実施例に係る語彙テーブルの選択方法の他のフローチャットである。本発明の実施例に係る語彙テーブルの選択方法のもう１つのフローチャットである。本発明の実施例に係る語彙テーブルの選択方法に応用された固有表現抽出モデルの構造図である。本発明の実施例に係る予備トレーニングモデルの構造図である。本発明の実施例の語彙テーブルの選択装置の構造図である。本発明の実施例の語彙テーブルの選択装置の他の構造図である。本発明の実施例の語彙テーブルの選択装置のもう１つの構造図である。

本発明が解決しようとする技術課題、技術方案および優れた点をより明確させるために、付図および具体的な実施例を組み合わせて詳細な説明を行う。以下、詳細な配置とユニットなどの特定な細部の記載は本発明の実施例を理解するために提供されたもののみである。このため、当業者にとって、本発明の趣旨の範囲内において、記載された実施例に対して種々の変更と補正が可能であることが自明である。また、明確および簡潔のために、公知の機能と構造に関する説明を省略した。

言うまでもなく、明細書に記載された「１つの実施例」或いは「一実施例」は、実施例と関係する特定な特徴、構造または特性が本発明のすくなくとも1つの実施例に含まれていることを意味する。このため、明細書に記載された「１つの実施例において」或いは「一実施例において」では、必ずしも同じ実施例を指すことではない。この他、これらの特定な特徴、構造または特性は任意の適宜な方式で１つまたは複数の実施例に組み合わせられることも可能である。

本発明の各実施例において、下記各過程の番号は実行する順序を意味するではなく、各過程の実行順はその機能と固有論理とに確定されるべきであり、本発明の実施例の実行過程に対していかなる限定をするべきではない。

前述したように、多義語には複数の異なる意味項があるため、違うコンテキストにおける多義語の語義を区別することは重要である。そこで、本発明の実施例に係る語彙テーブルの選択方法は、多義語に異なる意味項と対応する単語表現を生成することができ、かつ当該方法の計算量が相対的に小さく、かかる時間が短いので、単語表現の生成効率を高めることができる。

図1に本願の語彙テーブルの選択方法を適用できる実施例の例示的なシステムアーキテクチャ100を示す。図1に示すように、システムアーキテクチャ100は端末デバイス101、102、103と、ネットワーク104と、サーバ105とを含む。ネットワーク104は、端末デバイス101、102、103とサーバ105との間に通信リンクを提供するためのメディアである。ネットワーク104は、有線、無線通信リンク、または光ファイバーケーブルなど、さまざまな接続タイプを含むことができる。

ユーザは、端末デバイス101、102、103を用いて、ネットワーク104を介してサーバ105とインタラクションすることで、テキストデータなどを送信することが可能である。端末デバイス101、102、103には、ファイル編集アプリケーション、情報検索アプリケーション、情報伝送アプリケーションなど、さまざまな通信クライアントアプリケーションを実装することができる。端末デバイス101、102、103は、ディスプレイを有し、かつ情報、ファイル送信する各種の電子デバイスであって、スマートフォン、タブレットPC、ラップトップPC、デスクトップPCなどを含むが、それらに限られない。

サーバ105は、語彙テーブル選択を行うことが可能なサーバである。具体的に、サーバは、インターネット104からオリジナルコーパスデータを収集して語彙テーブルを生成することができ、例えばインターネットのサイトからコーパスデータを収集する。もちろん、端末デバイス101、102、103よりあらかじめ収集したコーパスデータをサーバ105に送信することも可能であるが、本願の実施例に係る語彙テーブルの選択方法は一般的にサーバ105で実行されるため、相応的に、語彙テーブルの選択装置をサーバ105に設置することができる。

言うまでもなく、図1中の端末デバイス、ネットワーク、サーバの数は図式的のみであることを理解すべきである。実現するニーズに応じて、任意数の端末デバイス、ネットワーク、サーバを有することができる。

図2Aに、本発明の実施例に係る語彙テーブルの選択方法のフローチャットが示され、当該方法は語彙テーブルを指定してトレーニングする必要のある各種のニューラルネットモデルに応用されることができ、当該方法は語彙テーブルを簡約化して、モデルトレーニング効率を向上してトレーニング時間を減少し、且つトレーニングで得たモデルの正確性を高めることができる。図2Aに示すように、当該語彙テーブルの選択方法は以下を含むことができる。

ステップ201では、語彙重み付け層をターゲットニューラルネットワークモデルに導入して、予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みに基づいて第1語彙テーブル中のターゲット語彙を重み付けするようにし、かつ重み付け処理によって得られたターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する。

ここで、ターゲットニューラルネットワークモデルはトレーニングするために語彙テーブルを指定する必要のあるニューラルネットワークモデルであり、前記第1語彙テーブルが本来においてターゲットニューラルネットワークモデルをトレーニングするために用いられるオリジナル語彙テーブルである。本発明の実施例に係る前記語彙テーブル選択方法は、当該第1語彙テーブル中の語彙を簡約化することができる。

ステップ201では、本発明の実施例により、ターゲットニューラルネットワークモデルを元に、新しい層構造、すなわち語彙重み付け層を追加して、本願では、予備トレーニングモデルと呼ぶ新しいモデルを構築する。当該予備トレーニングモデルにおいて、語彙重み付け層は語彙重みに基づいて第1語彙テーブル中のターゲット語彙に重みを付けするようにし、かつ重み付け処理によって得られたターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する。そこで、語彙重み付け層は、予備トレーニングモデルの入力インターフェースとターゲットニューラルネットワークモデルとの間に設けられ、予備トレーニングモデルに入力された語彙に上記重み付け処理を行った後、ターゲットニューラルネットワークモデルに入力する。ここで、語彙重み付け層のターゲット語彙の初期重みが予めに設定した初期値であることができる。

具体的には、語彙重み付け層より前記ターゲット語彙に対応するターゲット単語ベクトル及び未知語彙に対応する未知単語ベクトルに対して加重合計を行うことができて、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値である。例えば、前記所定値が1である。前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する。

ここで、前記ターゲット単語ベクトルと前記未知単語ベクトルとは、確率的初期化または単語ベクトルの予備トレーニングアルゴリズムによって初期化することができ、そこで、予備トレーニングアルゴリズムは、語義が近い語彙に対応の単語ベクトルのユークリッド距離を減少することができる。説明しておきたいのは、上記は本発明の実施例が採用できる単語ベクトル初期化の二つの方法のみであり、本発明の実施例は従来技術における他の方法を採用することもでき、本発明の実施例はこれに対して具体的に限定をしない。

一つの実現方式として、前記第1重みは前記ターゲット語彙の語彙重みの第1関数であることができ、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングするように用いられる。前記第2重みは前記第1重みの第2関数であることができ、且つ前記第1重みと負の相関がある。説明しておきたいのは、上記の関数は本発明の実施例の例示のみであり、本発明の実施例はこれに対して具体的に限定しない。

ステップ202では、前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する。

ここで、ステップ202では、第1語彙テーブルにより予備トレーニングモデルをトレーニングし、かつトレーニング過程においてモデルパラメータおよび語彙重み付け層のターゲット語彙の語彙重みを更新する。このように、トレーニングが予めに設定した終了条件に到達した時、例えば、反復ラウンドが所定回数に達し、或いは目標関数が所定条件を満たした場合に、トレーニングを終了して、トレーニングによる予備トレーニングモデルおよび語彙重み付け層のターゲット語彙の語彙重みを取得する。

ステップ203では、前記語彙重みによって前記第1語彙テーブルを選別して、第2語彙テーブルを得る。

ここで、ステップ202においてターゲット語彙の語彙重みを取得した後、モデルトレーニングに必要な語彙数を減らすように、語彙重みによって第1語彙テーブルを選別して、第2語彙テーブルを得ることができる。具体的に、本発明の実施例は語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して、前記第2語彙テーブルを得ることができる。或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内の語彙を選択して、前記第2語彙テーブルを得ることができる。そこで、前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない。例えば、一つの可能なフィルタリング方法は以下である。語彙重みがQより大きい、或いは-Qより小さい語彙のみを保留して第2語彙テーブルを構成する。ここで、前記Qはユーザより予めに指定されたパラメータであり、正の実数である。

以上のステップにより、本発明の実施例は第1語彙テーブルによって比較的に少ない語彙を有する第2語彙テーブルを生成することができ、かつ第2語彙テーブルに価値の高いターゲット語彙が含まれたので、ターゲットニューラルネットモデルのトレーニング効率を向上してトレーニング時間を減少でき、かつトレーニングによるモデルの正確性を向上する。例えば、自然言語における人名エンティティを発見するためのモデルにおいて、人名エンティティの発見の正確性を向上することが可能である。

さらに、図2Bに示すように、本発明の実施例は上記のステップ203の後に以下をさらに含むことができる。

ステップ204では、前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする。

ここで、前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルはともに、同一のターゲットタスクに対して構築されたモデルである。例えば、二つのモデルはともに同じタスクを解決するために用いられて、トレーニング時に、ともに同じ目標関数を最適化するターゲットとする。

第2語彙テーブル中の語彙数が簡約化され、かつ重みの高い語彙が含まれたため、本発明の実施例はターゲットニューラルネットワークモデルのトレーニング効率を向上してトレーニング時間を減少、及びトレーニングで得たモデルの正確性を高めることができる。

図3に本発明の実施例による語彙テーブルの選択方法のほかのプロセスであり、当該プロセスは固有表現抽出モデルをターゲットニューラルネットモデルの具体例として、本発明の実施例の語彙テーブルの選択方法をさらに詳しく説明する。図3に示すように、当該プロセスは以下を含む。

ステップ301では、オリジナルコーパスによって第1語彙テーブルを生成する。

ここで、あらかじめ収集されたオリジナルコーパスを取得でき、オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得る。その後、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。

本実施例では、当該語彙テーブルの選択方法を電子デバイス（例えば図1に示すサーバ105）で実行することができ、当該電子デバイスは有線接続方式や無線接続方式でネットワーク（例えばインターネット上のウェブサイト）からテキストデータを収集し、或いは端末デバイス101、102、103などによってテキストデータを収集してその電子デバイスに送信することができる。なお、上記無線接続方式は、3G／4G／5G接続、WiFi接続、Bluetooth（登録商標）接続、WiMAX接続、ZigBee接続、UWB（Ultra Wide Band）接続、およびその他既知または将来開発される無線接続方式を含むことができるが、これらに限定されものではない。

通常、ネットワークから収集されたテキストデータに複数のエンコード方式が用いられる可能性があるので、一つの実現方式として、本発明の実施例は上記のステップ301の前に、以下の手順をさらに含むことができる。

ステップ300では、テキストデータを収集し、かつテキストデータを前処理して、後続ステップ301に必要なオリジナルコーパスを生成する。具体的に、前処理は以下を含む。

a）コード統一：前記テキストデータを同一のコードフォーマットに変換する。例えば、すべての全角文字を半角文字に変換し、かつテキストデータを例えばutf-8フォーマットに同じコードに変換する。

b）データ洗浄：前記テキストデータに対してデータ洗浄を行う。データ洗浄はテキストデータからテキスト解析に不要なノイズを移動削除して、実際の語義情報を含む内容のみを保留する。ここでのノイズとは、通常、特殊記号、リンク、メール、絵文字、顔文字、HTMLタグ（例えば、＜html＞、＜title＞と＜body＞、＜br＞、＜span＞など）およびその他の記号、例えば、&lt、&gt、@、#、$、%、^、&、*、（）、＜＞、{}、[]などである。

c）データ分割：データ洗浄後の前記テキストデータを形態素に分割し、かつストップワードを除去して前記コーパスデータを得る。例えば、文で分割した後、異なるシステム応用シーンによってさらに単語に分割、かつそのうちのストップワードを除去して、コーパスデータを取得する。ここで、前記形態素は単語、連語、語列の内の少なくとも一つを含む。ストップワードは通常、助詞、介詞、副詞などの実際の語義を持たない語彙、および一部の高頻出語と低頻出語を含む。連語は通常2個またはより多い単語を含み、語列は2個またはより多い連語を含むことができる。具体的には、Pythonライブラリの自然言語処理ツールキット（NLTK：Natural Language Tool Kit）を用いてテキストを文に分割して、さらに文を単語分割器などのツールによって単語に分割することができる。本文の語と語彙は共に同じ意味を表している。

d）データID化：ステップcで分割された語に対して、語の出現頻度に応じて第1数（例えば30000個）の異なる語を選択して第1語彙テーブルを構成し、各語彙にそれぞれ独自のIDを割り当てる。例えば、第1語彙テーブルの30000語のうちの第一語に1をIDとして割り当て、第2語に2をIDとして割り当てて、類似的に割り当てて行く。第1語彙テーブルに含まれていない語彙、すなわち未知語彙に対しては、0をすべての未知語彙のIDとすることができることによって、各語を対応付けられるIDに置き換えることができる。

ステップ302では、固有表現抽出モデルに語彙重み付け層を導入して、予備トレーニングモデルを構築する。

ここで、図4に固有表現抽出モデルの構造図を例示し、図5は固有表現抽出モデルに破線枠で示した語彙重み付け層を導入して得た予備トレーニングモデルの構造図を示したものである。本発明の実施例において、各ターゲット語彙はともに唯一の語彙重みパラメータを有する。

以下、図5についで説明する。

a）演算子「+」はベクトル加算を表す。n次元ベクトルAとBに対して、ベクトルAとベクトルBとの加算の結果がベクトルCになると仮設すると、ベクトルCもn次元のベクトルであり、かつベクトルC中のi番目の要素C_iは次になる。

そこで、AiはベクトルA中のi番目の要素で、B_iはベクトルB中のi番目の要素である。

b）演算子「×」はベクトル乗算を表す。n次元ベクトルAと実数bに対して、Aとbとの乗算がベクトルDになると仮設すると、ベクトルDもn次元のベクトルであり、かつベクトルD中のi番目の要素D_iは次になる。

c）演算子「σ」は、活性化関数g（x）に対応する。活性化関数g（x）はターゲット単語ベクトルの第1重みを計算して、前記ターゲット語彙の語彙重みxの第一関数であり、語彙重みを0と1の間にマッピングすることに用いられる。活性化関数の一例を式4に示す。

d）演算子「1-」はマッピング関数f（z）に対応する。マッピング関数f（z）は未知単語ベクトルの第2重みを計算することに用いられて、前記ターゲット単語ベクトルの第1重みzの第二関数である。マッピング関数f（z）の値域が[0，1]で、かつターゲット単語ベクトルの第1重みzと負の相関であり、zの増大につれて減少するが、逆の場合は増大する。マッピング関数の一例は式3に示す。

よって、本例の前記第1重みと第2重みの合計値が1になる。

e）単語ベクトルはツール「word2vec」によってトレーニングすることができて、トレーニング過程では単語ベクトルの次元を256に設定することができる。トレーニングされた単語ベクトルに含まれていない語彙を確率的に256次元ベクトルに初期化することができる。

f）第1語彙テーブルの30000個の単語範囲にない語彙に関して、すべて未知語彙に定義する。未知語彙は同一の確率的初期化された256次元ベクトルを共用して単語ベクトル、すなわち前記の未知語ベクトルとする。

g）本発明の実施例は前記予備トレーニングモデルのトレーニング過程において、単語ベクトルパラメータを一括更新する。

h）各単語はともに単語の重要性を評価する用の語彙重みに対応する。語彙重みを正実数0.5に初期化でき、かつ予備トレーニングモデルのトレーニング過程に従って更新し続ける。

i）語彙重み付け層の出力は重み付け単語ベクトルである。よって、図5の語彙重み付け層において、g（x）の結果とターゲット語彙のターゲット単語ベクトルと乗算し、g（x）の結果もf（x）の入力とし、f（x）の出力と未知語彙の未知語ベクトルと乗算して、上記二つの乗算結果を加算し、かつ加算結果をターゲット語彙に対応する重み付け単語ベクトルとして固有表現抽出モデルに入力する。

したがって、図5の語彙重み付け層の出力は、g（x）・A+（1-g（x））・Uであり、ここで、Aはターゲット語彙のターゲット単語ベクトルを表し、Uは未知語ベクトルを表し、xはターゲット語彙の語彙重みを表す。上記重み付け単語ベクトルは図4の固有表現抽出モデルに入力されて、当該固有表現抽出モデルをトレーニングする用に用いられる。

ステップ303では、第1語彙テーブルに基づいて予備トレーニングモデルをトレーニングする。

予備トレーニングモデルは図5に示すように、第1語彙テーブル中の語彙を語彙重み付け層に入力して、語彙重み付け層の出力を図4に示す固有表現抽出モデルに入力する。図4に示す固有表現抽出モデルは標準的な双方向長短期記憶（LSTM、Long Short Term Memory）ネットワーク構造である。図4には入力が三つの単語である文の例示であり、より多い単語を含むより長い文を入力する場合は、図示の構造を複数回に繰り返すことができる。

以下、図4に示す構造について説明する。

a）モジュール「x0」、「x1」、「x2」はそれぞれ文中の語彙に対応するIDを入力とする。これらのIDは語彙重み付け層によって重み付け単語ベクトルに転換される。

b）モジュール「LSTM Cell」はLSTMモデルの基本ユニットである。フォワードとバックワードのLSTM Cellは、それぞれ異なるモデルパラメータ組を使用する。

c）モジュール「CONCAT」は、二つのベクトルをつなぎ合わせた演算子である。つなぎ合わせ操作の出力は入力されたベクトルの全要素を保留し、かつ出力するベクトルの次元は二つの入力されたベクトル次元の和である。

d）モジュール「SOFTMAX」は出力を生成するための標準Softmax層である。Softmax層のパラメータは現在のモデルで共有される。

e）モジュール「OUTPUT」は1次元の2値出力（0または1を出力）であり、現在の語彙が人名エンティティであるかを識別する。

f）確率的勾配降下法（SGD、Stochastic Gradient Descent）によりモデルを最適化して、最適化過程において、モデルパラメータおよび語彙重みが更新される。

ステップ304は語彙重みに基づき第1語彙テーブルをフィルタリングして、第2語彙テーブルを得る。

ここで、ステップ303で得られた語彙重みの高い順に語彙を並べ、そして順位が前寄りの第二数の第2語彙テーブルを選択することができて、例えば、上位の20000個の重みが大きい単語を選択して第2語彙テーブルを構成する。

ステップ305は第2語彙テーブルに基づいて、ターゲットニューラルネットワークモデルをトレーニングする。

ここで、第2語彙テーブルを指定し、かつ固有表現抽出モデルをトレーニングして、この時、当該固有表現抽出モデルに語彙重み付け層が含まれず、最終的なターゲットモデルを学習し得る。

具体的には、固有表現抽出モデルによってグリッドサーチを行い、モデルの超パラメータを調整することができる。超パラメータには、batch size、learning rate、dropout rate及びトレーニングの繰返し数が含まれる。及び、上記の超パラメータに基づいて、異なる乱数種でいくつかの（例えば9個の）モデルを初期化とトレーニングして、投票方法により異なるモデルの出力と結合することによって、最終的なターゲットモデルを得る。指摘すべきなのは、本発明の実施例は従来技術の各種既存の模型トレーニング実現方式を採用することができ、本発明の実施例は具体的に限定されない。

以上の方法に基づき、本発明の実施例はさらに上記の方法を実施する装置を提供し、図6によると、本発明の実施例が提供する語彙テーブルの選択装置600が以下を含む。

予備トレーニングモデルのモデリングユニット601により、語彙重み付け層をターゲットニューラルネットワークモデルに導入して、予備トレーニングモデルを構築し、前記語彙重み付け層は語彙ウェイトに基づいて第1語彙テーブル中のターゲット語彙を重み付けするようにし、かつ重み付け処理によって得られたターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する。

第1トレーニングユニット602により、前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙ウェイト付け層の語彙ウェイトを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙ウェイトを取得する。

語彙選択ユニット603により、前記語彙ウェイトによって前記第1語彙テーブルを選別して、第2語彙テーブルを得る。

以上のユニットにより、本発明の実施例の語彙テーブルの選択装置600は、第1語彙テーブルを簡約化して、よりモデルトレーニングに適した第2語彙テーブルを選択かつ生成することができる。

図7によると、本発明の実施例が提供するもう一つの語彙テーブルの選択装置700は、図6に示した類似的なユニットを含むほか、さらに以下を含む。

第2トレーニングユニット604により、前記第2語彙テーブルに基づいて、前記ターゲットニューラルネットモデルをトレーニングする。

ここで、第2トレーニングユニット604は第2語彙テーブルによってターゲットニューラルネットモデルをトレーニングするが、第2語彙テーブルにより少なくより品質の高い語彙が含まれているため、トレーニング効率を向上かつトレーニングに必要な時間を減少することができ、学習し得たモデルの精度を向上させることができる。

一つの実現方式として、上記実施例による語彙テーブルの選択装置600または語彙テーブルの選択装置700において、前記予備トレーニングモデルのモデリングモジュール601は具体的に、前記ターゲット語彙に対応するターゲット単語ベクトル及び未知語彙に対応する未知単語ベクトルに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値である。前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する。

一つの実現方式として、前記第1重みは前記ターゲット語彙の語彙重みの第1関数であり、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングするように用いられる。前記第2重みは前記第1重みの第二関数であり、且つ前記第1重みと負の相関である。

ここで、前記ターゲット単語ベクトルと前記未知単語ベクトルとは、確率的初期化または単語ベクトルの予備トレーニングアルゴリズムによって初期化することができる。

一つの実現方法として、前記語彙選択ユニット603は具体的に以下に用いられる。語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して、前記第2語彙テーブルを得ることができる。或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内の語彙を選択して、前記第2語彙テーブルを得ることができる。そこで、前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない。

さらに、上記語彙テーブルの選択装置600または語彙テーブルの選択装置700は以下を含むことができる。語彙テーブル生成ユニット（未図示）により、オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。

説明しておきたいのは、本発明の実施例では、前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルはともに、同一のターゲットタスクに対して構築されたモデルであって、例えば、トレーニング過程にいずれも同じ目標関数を最適化ターゲットとする。

図8によると、本発明の実施例はさらに語彙テーブルの選択装置のハードウェア構造を提供して、図8に示すように、当該語彙テーブルの選択装置800は、プロセッサー802と、コンピュータプログラムコマンドが格納されるメモリ804と、を含む。

ここで、前記コンピュータプログラムコマンドが前記プロセッサーにより実行された時に、前記プロセッサー802を下記のステップを行わせる。

語彙重み付け層をターゲットニューラルネットワークモデルに導入して、予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みに基づいて第1語彙テーブル中のターゲット語彙を重み付けするようにし、かつ重み付け処理によって得られたターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する。

前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングして、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する。

前記語彙重みによって前記第1語彙テーブルを選別して、第2語彙テーブルを得る。

さらに、図8に示すように、当該語彙テーブルの選択装置800はさらに、ネットワークインタフェース801、入力デバイス803、ハードディスク805および表示デバイス806が含まれる。

上記各インターフェースとデバイスとの間にはバスアーキテクチャーを介して連接し合う。バスアーキテクチャーは任意数のコンポーネントインターコネクトされるバスとブリッジとを含むことができる。具体的には、プロセッサー802が代表する一つまたは複数の中央プロセッサー（CPU）と、メモリ804が代表する一つまたは複数のメモリーの各種回路とが連接されている。バスアーキテクチャーは周辺デバイス、定電圧器と電源管理回路などの各種ほかの回路を一緒に連接させることができる。言うまでもなく、バスアーキテクチャーはこれらのユニットの間の連接通信を実現するために用いられる。バスアーキテクチャーはデータバスのほか、電源バスと、制御バスと、状態信号バスとを含むことは当分野において公知され、詳細な説明を省略する。

前記ネットワークインターフェース801はネットワーク（例えばインターネット、ローカルエリアネットワークなど）に接続されて、ネットワークから情報を受信し、受信した情報をハードディスク805に保存し、例えば受信したコーパスデータを生成するためのテキストデータをハードディスク805に保存する。

前記入力デバイス803は作業員より入力された各種のコマンドを受け取り、かつプロセッサー802に発送して実行される。前記入力デバイス803はキーボードまたはクリックデバイス（例えばマウス、軌跡球（トラックボール）、接触感知板またはタッチスクリーンなど）を含む。

前記表示デバイス806はプロセッサー802がコマンドを実行して得た結果を表示、例えば生成された第2語彙テーブルなどを表示することができる。

前記メモリ804は、システム稼動時に必須なプログラムとデータ、およびプロセッサー802の計算過程における中間結果などのデータを格納するように用いられ。

理解できるように、本発明の実施例におけるメモリ804は揮発性メモリーまたは不揮発性メモリでもよく、或いは揮発性メモリーと不揮発性メモリとの両者を含むことが可能である。そこで、不揮発性メモリは読み出し専用メモリ（ROM）で、プログラマブル読み出し専用メモリ（PROM）で、消去可能なプログラマブル読み出し専用メモリ（EPROM）で、電気的に消去可能なプログラマブル読み出し専用メモリ（EEPROM）でもよい。揮発性メモリーはランダムアクセスメモリ（RAM）でもよく、外部キャッシュとして用いられる。本明細書に記載の装置と方法のメモリ804はこれらおよび任意のほかの適合類型のメモリを含むが、限られることではない。

いくつかの実施形態において、メモリ804は以下の要素を格納しており、実行可能なモジュールまたはデータ構造、或いはそれらのサブ集合または拡張集合、即ち、オペレーティングシステム8041とアプリケーションプログラム8042である。

ここで、オペレーティングシステム8041は各種の基礎業務およびハードウェアに基づくタスクを実現するように、例えば枠組層、コアー層、駆動層など各種のシステムプログラムを含む。アプリケーションプログラム8042は各種のアプリケーション業務を実現するように、例えばブラウザー（Browser）などの各種アプリケーションプログラムを含む。本発明の実施例の方法を実現するプログラムはアプリケーションプログラム8042に含まれることが可能である。

本発明の上記実施例による方法はプロセッサー802に応用でき、或いはプロセッサー802によって実現できる。プロセッサー802は信号の処理能力を持つ集積回路チップであってもよい。実現過程では、上記方法の各ステップはプロセッサー802内のハードウェアの集積ロジック回路またはソフトウェア形式のコマンドによって完成できる。上記プロセッサー802は汎用プロセッサーで、デジタル信号処理器（DSP）で、特定用途向け集積回路（ASIC）で、現場で構成可能な回路アレイ（FPGA）で、個別ゲートまたはトランジスタロジックデバイスで、個別ハードウェアユニットであってもよく、本発明の実施例に公開された各方法、ステップおよびロジックブロック図を実現または実行できる。汎用プロセッサーはマイクロプロセッサーまたはいかなる常用的なプロセッサーであっても良い。本発明の実施例より公開された方法のステップと結合して直接にできるのは、ハードウェアデコーダプロセッサーより実行して完成、またはデコーダプロセッサー内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完成することである。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリまたは電気的に消去可能なプログラマブルメモリ、レジスタなどの当分野において成熟された記録媒体に位置することが可能である。当該記録媒体はメモリ804にあり、プロセッサー802はメモリ804内の情報を読み取って、そのハードウェアと結合して上記方法のステップを完成する。

理解できるのは、本明細書に記載されたこれらの実施例に、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコードまたはその組み合わせによって実現できる。ハードウェアの実現について、プロセスユニットは１つまたは複数の特定用途向け集積回路（ASIC）、デジタル信号処理器（DSP）、デジタル信号処理デバイス（DSPD）、プログラマブルロジックデバイス（PLD）、フィールドプログラマブル・ゲート・アレイ（FPGA）、汎用プロセッサー、コントローラ、マイクロコントローラ、マイクロプロセッサー、本願の前記機能を実現するためのほかの電子モジュールまたは組み合わせに実現可能である。

ソフトウェアの実現について、本明細書に記載された前記機能を実行するモジュール（例えばプロセス、関数など）によって本明細書の前記技術を実現できる。ソフトウェアコードはメモリに格納、かつプロセッサーによって実行することが可能である。メモリはプロセッサー内またはプロセッサー外部において実現できる。

具体的には、前記コンピュータプログラムはプロセッサ802に実行された時に以下のステップを実現できる。

前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする。

前記ターゲット語彙に対応するターゲット単語ベクトル及び未知語彙に対応する未知単語ベクトルに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数で、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値である。例えば、前記所定値が1である。前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する。

前記第1重みは前記ターゲット語彙の語彙重みの第1関数であることができ、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングするように用いられ、前記第2重みは前記第1重みの第2関数であり、且つ前記第1重みと負の相関がある。前記ターゲット単語ベクトルと前記未知単語ベクトルとは、確率的初期化または単語ベクトルの予備トレーニングアルゴリズムによって初期化することができる。

語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して、前記第2語彙テーブルを得ることができる。或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内の語彙を選択して、前記第2語彙テーブルを得ることができる。そこで、前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない。

オリジナルコーパスデータをデータクリーニングすることで、データクリーニング後のオリジナルコーパスデータを文に分割し、かつ文を分割して複数の語彙を得て、語彙のオリジナルコーパスにおける出現頻度の高い順に従って、第1数の語彙を選択して、前記第1語彙テーブルを得る。

前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルはともに、同一のターゲットタスクに対して構築されたモデルであることが好ましい。

当業者にとって、本明細書により公開された実施例の各例示したユニットおよびアルゴリズムステップと結合して、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの結合によって実現させることができる。これらの機能はハードウェアまたはソフトウェアによって実行させることは、技術方案の特定応用や設計制約条件に決められる。当業者は特定された各応用に応じて異なる方法を用いて前記機能を実現できるが、この実現は本発明の範囲を超えるものと見なすべきではない。

当業者にとって、説明を便利と簡潔にするために、上記のシステム、装置とユニットの具体的な作業過程に関して、前記方法実施例における対応過程を参考でき、ここで贅言をしない。

本願より提供した実施例において、記載された方法と装置をほかの方法でも実現できることは言うまでも無い。例えば、上記記述された装置実施例は例示的のみであり、例えば、前記モジュールの区画はロジック機能区画のみであり、実際ではほかの区画方法で実現することも可能である。例えば、複数のモジュールまたはユニットで結合またはほかのシステムに集成して、或いはある特徴が無視でき、または実行されなくてもよい。もう1つ、示しまたは議論された相互間の結合または直接結合または通信連接はインターフェース、装置またはモジュールを介した間接結合または通信連接であってもよし、電気的、機械またはほかの形式であってもよい。

前記分離部品として説明したユニットは物理的に分離されてもよいが、されなくてもよく、ユニットとして表示された部品は物理ユニットであってもよいが、でなくてもよく、すなわち1カ所に位置してもよく、複数のネットワークユニットに配布されてもよい。実際のニーズに応じてその一部またはすべてのユニットを選択して本発明の実施例方案の目的を実現することができる。

また、本発明の各実施例における各機能的なユニットを１つのプロセスユニットに集成することも可能が、各ユニットが物理的に単独で存在することも可能で、または二つ或いは二つ以上のユニットが1つのユニットに集成することも可能である。

前記機能がソフトウェア機能ユニットの形式で実現し、かつ独立した製品で販売または使用する場合に、コンピュータ読み取り可能記憶媒体に格納することができる。上記により、本発明の技術方案の本質、或いは従来技術に対して貢献する部分、または当該技術方案の一部をソフトウェアプロダクトの形式で実現することができ、当該コンピュータソフトウェアプロダクトは記録媒体に記憶されて、若干のコマンドを含んでコンピュータ装置（パーソナルコンピュータ、サーバ或いはネットワーク設備などでも可能）に本願の各実施例に記載した前記方法の全部または一部のステップを実行させる。前記の記録媒体は、USB、移動ハードディスク、ROM、RAM、磁気ディスクまたは光ディスクなど各種のプログラムコードを記憶できる媒体を含む。

上記は本発明の具体的な実施方式であり、本発明の保護範囲はこれに限らず、当業者にとって、本発明に公開された技術範囲において、変化また入れ替えを容易に想起でき、いずれも本発明の保護する範囲に含まれる。そのため、本発明の保護範囲はクレームの保護範囲を元にすべきである。

Claims

語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力するステップと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングし、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得するステップと、
前記語彙重みによって前記第1語彙テーブルを選別し、第2語彙テーブルを得るステップと、
を含むことを特徴とする語彙テーブルの選択方法。
前記第2語彙テーブルを得た後、前記選択方法は、さらに、前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングするステップを含む、
ことを特徴とする請求項１に記載の選択方法。
前記語彙重みによって第1語彙テーブル中のターゲット語彙を重み付けるステップは、
前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数であり、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙がすべて同一の未知単語ベクトルに対応すること
を含むことを特徴とする請求項１または２に記載の選択方法。
前記第1重みは前記ターゲット語彙の語彙重みの第1関数であり、前記第1関数は前記ターゲット語彙の語彙重みを0から1までにマッピングし、
前記第2重みは前記第1重みの第2関数であり、且つ前記第1重みと負の相関がある、
ことを特徴とする請求項3に記載の選択方法。
前記語彙重みによって前記第1語彙テーブルを選別する前記ステップは、
語彙重みの高い順によって、前記第1語彙テーブルから第2数の語彙を選択して前記第2語彙テーブルを得ること、或いは、前記第1語彙テーブルから語彙重みが予めに設定した数値範囲内にある語彙を選択して前記第2語彙テーブルを得ることを含み、
前記第2語彙テーブル中の語彙数は第1語彙テーブル中の語彙数より少ない、
ことを特徴とする請求項１または２に記載の選択方法。
前記ターゲットニューラルネットワークモデルと前記予備トレーニングモデルとともに、同一のターゲットタスクに対して構築されたモデルである、
ことを特徴とする請求項１または２に記載の選択方法。
語彙重み付け層をターゲットニューラルネットワークモデルに導入して予備トレーニングモデルを構築し、前記語彙重み付け層は語彙ウェイトによって第1語彙テーブル中のターゲット語彙を重み付けるようにし、かつ重み付け処理により得たターゲット語彙を前記ターゲットニューラルネットワークモデルに入力する予備トレーニングモデルのモデリングユニットと、
前記第1語彙テーブルに基づき、前記予備トレーニングモデルをトレーニングし、前記予備トレーニングモデルのモデルパラメータおよび語彙重み付け層の語彙重みを更新し、かつトレーニング終了後に、前記第1語彙テーブルにおけるターゲット語彙の語彙重みを取得する第1トレーニングユニットと、
前記語彙ウェイトによって前記第1語彙テーブルを選別し、第2語彙テーブルを得る語彙選択ユニットと、
を含むことを特徴とする語彙テーブルの選択装置。
前記第2語彙テーブルによって、前記ターゲットニューラルネットモデルをトレーニングする第2トレーニングユニット
をさらに含むことを特徴とする請求項7に記載の選択装置。
前記ターゲット語彙に対応するターゲット単語ベクトルと未知語彙に対応する未知単語ベクトルとに対して加重合計を行い、そのうち、前記ターゲット単語ベクトルの第1重みは前記ターゲット語彙の語彙重みの正相関関数であり、前記未知単語ベクトルの第2重みは前記ターゲット語彙の語彙重みの負相関関数であり、かつ前記第1重みと第2重みの和が所定値であり、前記未知語彙が前記第1語彙テーブルに存在しない語彙であり、かつ前記第1語彙テーブルに存在しない語彙はすべて同一の未知単語ベクトルに対応する、
ことを特徴とする請求項７または８に記載の選択装置。
コンピュータに、請求項１ないし６のいずれか１項に記載の語彙テーブルの選択方法を実行させるためのプログラム。
請求項１０に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。