JP2023550086A

JP2023550086A - 対照拡張を用いた教師なし文書表現学習

Info

Publication number: JP2023550086A
Application number: JP2023529085A
Authority: JP
Inventors: ウェイチェン、; ハイフォンチェン、; ジンチャオニ、; ドンシェンルオ、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-11-20
Filing date: 2021-11-18
Publication date: 2023-11-30
Also published as: US20220164600A1; WO2022109134A1

Abstract

データセットを拡張するためのシステム及び方法が提供される。本システム及び方法は、オリジナルの文書（１２０）をデータ拡張生成器（２１０）に供給して１つまたは複数の拡張文書（２２０）を生成し、オリジナルの文書（１２０）と１つまたは複数の拡張文書（２２０）との間の対照損失（２３０）を計算し、オリジナルの文書（１２０）及び１つまたは複数の拡張文書（２２０）を用いてニューラルネットワークを訓練する（１０３０）ことを含む。【選択図】図２

Description

この出願は、２０２０年１１月２９日に出願された米国仮特許出願第６３／１１６，２１５号及び２０２１年１１月２７日に出願された米国特許出願第１７／５２８，３９４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、ニューラルネットワークの訓練に関し、より具体的には、データ拡張技術を用いた対照学習アプローチを使用する教師なし訓練に関する。

深層学習は機械学習の分野であり、コンピュータは深層ニューラルネットワークを利用して徐々に物事を表現及び認識することを学習する。ニューラルネットワークが複数の隠れレイヤを有する場合、それは深層と呼ばれることがある。

単語埋め込みは、数値ベクトル空間への単語のマッピングである。ｗｏｒｄ２ｖｅｃ等のアルゴリズムで生成された単語ベクトルは、高次なオリジナルの単語表現をより低次のオリジナルのベクトル空間にマッピングする。単語埋め込みは、機械学習モデルが入力としてベクトル表現に依存する自然言語処理（ＮＬＰ：natural language processing）タスクで使用される。表現は、ニューラルネットワークのパフォーマンスを向上させることができる単語の意味的及び構文的な情報を提供する場合がある。

バッグオブワードアプローチ（bag-of-words approach）は、テキストを、文法または順序情報を持たない単語のセット（語彙）として表現する。バッグオブワードアプローチは、セット内の単語の数に等しい長さを持つ１次元ベクトルにできる。ここで、ベクトル内の位置のゼロ以外の値は、セット内にその単語が存在することを示す。ベクトル内の位置の値は、単語が出現する回数を示してもよい。一部の語順情報を保持するために、個々の単語だけでなく、短い単語シーケンスをベクトルで表すことができるバッグオブｎグラム（bag-of-n-grams）アプローチを使用してもよい。

語義の曖昧性解消（ＷＳＤ：word sense disambiguation）は、特定の文脈で単語を使用することで、該単語のどの「語義」（意味）が活性化されるかを決定する問題である。辞書で定義されているように、単語とその考えられる語義が与えられると、システムは文脈における該単語の出現をその語義クラスの１つまたは複数に分類できる。情報抽出とテキストマイニングにおいて、ＷＳＤは多くのアプリケーションでテキストの正確な分析に含むことができる。

本発明の一態様によれば、データセットを拡張するための方法が提供される。本方法は、オリジナルの文書をデータ拡張生成器に供給して１つまたは複数の拡張文書を生成し、オリジナルの文書と１つまたは複数の拡張文書との間の対照損失を計算し、オリジナルの文書及び１つまたは複数の拡張文書を用いてニューラルネットワークを訓練することを含む。

本発明の別の態様によれば、データセットを拡張するためのシステムが提供される。本システムは、１つまたは複数のプロセッサと、１つまたは複数のプロセッサに動作可能に接続されたメモリと、メモリに保存され、オリジナルの文書から１つまたは複数の拡張文書を生成するように構成されたデータ拡張生成器と、オリジナルの文書と１つまたは複数の拡張文書との間の対照損失を計算するように構成された損失計算器とを含む。

本発明の別の態様によれば、データセットを拡張するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータで読み取り可能であり、コンピュータに、オリジナルの文書をデータ拡張生成器に受信させて１つまたは複数の拡張文書を生成させ、オリジナルの文書と１つまたは複数の拡張文書との間の対照損失を計算させ、オリジナルの文書及び１つまたは複数の拡張文書を用いてニューラルネットワークを訓練させる。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、本発明の一実施形態による、表現学習のために拡張文書を利用するための高レベルなシステム／方法を示すブロック／フロー図である。

図２は、本発明の一実施形態による、対照拡張を用いた文書埋め込み（ＤＥＣＡ）システム／方法を示すブロック／フロー図である。

図３は、本発明の一実施形態による、表現学習のために拡張文書を利用するためのニューラルネットワークを示すブロック／フロー図である。

図４は、本発明の一実施形態による、表現学習のために拡張文書を利用する深層ニューラルネットワークを示すブロック／フロー図である。

図５は、本発明の一実施形態による、本方法及びシステムが適用される例示的な処理システムである。

本発明の実施形態によれば、教師なし法において文書表現を学習するためのデータ拡張技術を用いた対照学習アプローチが提供される。データ拡張は、オリジナルのデータよりも品質が比較的低い追加のサンプルを生成する手法である。追加のサンプルの量及び多様性は、コンピュータ映像及び音声分野の様々な学習アルゴリズムで有効性を示している。データ拡張は、画像を回転させる及び／またはぼかす、あるいはテキスト内の単語の類義語置き換え等の変換を適用することで、オリジナルのデータポイントよりも品質が比較的低い、新しくて現実的な訓練データを生成する手法である。例えば、動物や乗り物の画像を別の角度から、遠くから、または部分的に遮って見えるように調整する、あるいは１つまたは複数の拡張文書において、オリジナルの文書の「大きい（large）」という単語を、ビッグ（big）、巨大（huge）、相当な（substantial）及び／または小さくない（not small）の単語に置き換えることができる。このようにして、文書の文脈及び意味を実質的に変更することなく、ニューラルネットワークを訓練するための、特定の主題に関するセットの少数の文書を増やすことができる。

様々な実施形態において、教師なしの文書埋め込みタスクのためのシステム及び方法が提供され、これを用いて文書をコンパクトなベクトルに効率的にエンコードし、様々なダウンストリームタスクに使用できるエンコーダを訓練できる。文書の基本的な意味は、そこに現れる単語によって部分的に表現される。文書のいくつかの単語は、文書の意味やラベル付け情報を変更することなく、置き換え、削除または挿入できる。

文書の意味を捕えて機械が理解できる表現を取得することは、様々な自然言語処理（ＮＬＰ：natural language processing）タスクに大きな影響を与える。一実施形態において、対照拡張を用いる文書埋め込みが提供される。次善のベースラインと比べて、分類エラー率が最大で６．４％減少し、分類のパフォーマンスが最大で７．６％向上する。驚くべきことに、分類タスクにおいて、ＤＥＣＡ法は、完全教師あり法に匹敵するか、それを超えることがある。高品質な文書埋め込みは、オリジナルの文書の意味を維持する様々な言い換えに対して不変である必要がある。

様々な実施形態において、データ不足の問題に対処するため、文書表現学習のための異なる拡張を伴う対照学習を用いることができる。データ拡張技術を用いた対照学習アプローチで、教師なし法において文書表現を学習する。同じまたは類似の意味を維持する新しい文書を生成することで、より多くの情報を含めるために、データ拡張を採用することができる。

Ｄｏｃ２ｖｅｃＣは、文書内の全ての単語の埋め込みを単に平均することで文書埋め込みを計算する。Ｄｏｖ２ｖｅｃは、文脈の単語予測を用いた文書埋め込みを学習できる。文書埋め込み行列は、メモリで保持することが可能であり、単語埋め込みと共に最適化される。

文書Ｄｉを、意味が維持されたコンパクトな表現にマッピングする関数。文書埋め込みは、オリジナルの文書の意味を維持する様々な言い換えに対して不変にできる。

対照学習は、類似度及び対照損失関数に基づいて、データから類似／非類似の表現を学習するフレームワークである。

対照損失は、正則化器として対照損失を含み、これは、エンコーダ損失ｌ_dと共に最適化される。Ｎ個の文書のバッチが与えられる。

拡張戦略は、多様に表現された文書を得るために２つの拡張法を使用することが可能であり、１つはシソーラスベースの置き換えであり、もう１つは逆翻訳である。様々な実施形態において、語彙内の単語のみが置き換え候補と見なされる。シソーラスには、文書内の各単語の類義語と反意語のリストを含んでいてもよい。

Ｄｏｃ２ｖｅｃＣは、文書内の全ての単語の埋め込みを単に平均することで文書埋め込みを計算する。類義語の置換等、現実的で確率的な拡張例を生成するための単語レベルの操作は、文章レベルや文書レベルのもの等、他の粒度における拡張よりもはるかにうまく機能する。文書表現の学習は、文書の意味論的意味を維持する低次なオリジナルの埋め込みを取得できる。

ＢＥＲＴは、セルフアテンション（self-attention）サブレイヤ及びフィードフォワード（feed-forward）サブレイヤを含むトランスフォーマ（Transformer）レイヤを積み重ね、入力シーケンスにおけるトークンをエンコードする。

ここで、同じ数字が同一または同様の要素を表す図面、図１を詳細に参照すると、図１には、本発明の一実施形態による、表現学習のために拡張文書を利用するための高レベルなシステム／方法が例示的に示されている。

深層学習ベースの方法は、ロングテキストＮＬＰタスクのために利用できる。しかしながら、既存の方法で得られる表現の品質は、データ不足の問題、すなわちリソースが少ない場合の情報の欠如によって大きく影響を受ける。より多くの情報を含めることは、リソース不足の問題を解決できる。データ拡張は、比較的品質が低くてよい、オリジナルのデータポイントから追加のサンプルを生成できる。これらの生成された追加の訓練サンプルは、１つまたは複数の拡張された文書が別のニューラルネットワークに提供（例えば、供給）され、訓練のために使用されることで、深層学習法の精度のパフォーマンスを向上させることができる。しかしながら、任意のラベル情報の知識がない教師なしの設定下で適切な拡張技術を選択することは簡単ではない。

１つまたは複数の実施形態において、対照文書拡張システム１００は、ネガティブ文書１１０、オリジナルの文書１２０及び入力された文書１１０、１２０、１３０のそれぞれについて文書埋め込み１５０を生成する文書エンコーダ１４０に供給される、拡張文書１３０を有していてもよい。例えば、犬の画像のオリジナルの文書のネガティブ文書１１０には、犬以外の画像が含まれるが、拡張文書１３０のポジティブインスタンスには、例えば回転した、またはぼけた犬の画像が含まれる。同じまたは類似する意味を維持する新しい文書を生成することで、より多くの情報を含む、データ拡張を採用できる。

対照学習損失は、異なって拡張されたビューの下で一貫性を最大化することを目的としており、データ固有の選択により所望の不変性を与えることを可能にする。

様々な実施形態において、文書エンコーダ１４０は、文書

の低次元埋め込みをそのＢｏＷプレゼンテーションｘ_iから計算する、

で表される関数を実行できる。

対照法においてデータ拡張を含めることは、教師なし文書表現学習における埋め込み品質を大幅に改善できる。単純な単語レベルの操作で生成される確率論的な拡張は、文章レベル及び文書レベルの拡張よりもはるかにうまく機能する。

様々な実施形態において、文書

を意味が維持されたコンパクトな表現にマッピングする関数

が学習される。

は単語列

からなるｉ番目の文書である。ここでＴ_iは

の長さである。

は、

文書のテキストコーパスである。

は、サイズ

を有するコーパス

における語彙である。

は、文書

のＢｏＷ表現ベクトルであり、ワンホットコーディングと同様に、単語ｊが文書

に現れる時かつその時に限り、

である。

は、次元としてｄを用いた、文書

のコンパクトな表現である。

は、

に拡張を適用することで生成された文書である。

は、拡張文書

のＢｏＷ表現及びコンパクトな表現である。

図２は、本発明の一実施形態による、対照拡張（ＤＥＣＡ）を用いた文書埋め込みシステム／方法を示すブロック／フロー図である。

様々な実施形態において、確率的データ拡張生成器２１０は、入力されたオリジナルの文書１２０

から新しい拡張文書２２０

を作成する。拡張文書２２０は、例えば、類義語、バックプロパゲーション及び／または否定的な置き換えによる単語の置き換えで生成できる。様々な実施形態において、文書

毎に、拡張文書

が、確率的データ拡張モジュール２１０によって生成される。

様々な実施形態において、文書エンコーダ１４０は、関数

を用いてオリジナルの文書１２０及び新しい拡張文書２２０の低次元埋め込みを計算できる。Ｄｏｃ２ｖｅｃＣは、単語埋め込みの平均として文書埋め込み

を計算するために使用できる。これは、Ｗｏｒｄ２Ｖｅｃで計算された単語埋め込みに対する線形操作の意味論的意味によって動機付けられる。

ここで、Ｕは単語埋め込み行列として機能する。

ここで、Ｕは単語埋め込み行列として機能し、ｃ^tは文書Ｄにおけるターゲット単語ｗ^tのローカル文脈であり、Ｖは学習可能な射影行列である。Ｕを最適化するため、Ｄｏｃ２ｖｅｃＣは、文書を文脈に対する特別なトークンとして扱うことで、ＣＢＯＷ（Continuous Bag of Words Model）モデルを拡張し、ターゲット単語ｗ^tの以下の確率を最大化する。

Ｄｏｃ２ｖｅｃＣの要素毎の損失関数は、

である。

ここで、損失の合計は

である。

対照損失は正則化器として導入され、エンコーダ損失

と共に最適化され、拡張されたデータを活用して埋め込み品質を向上させる。対照損失は、オリジナルの文書の意味を維持する様々な言い換えに対して不変となるように、埋め込みモデルを単純に正則化する。拡張された事例の一貫性を促進することで、サンプル効率を大幅に向上させることができる。

各文書

について、Ｎ個の文書のバッチに関する確率的データ拡張モジュール２１０によって拡張文書

が生成される。

はポジティブペアとして扱われ、他のＮ－１ペア

はネガティブペアと見なされる。対照損失は、入力文書

のバッチ内の拡張文書から

を識別することを目的とする。

サンプルワイズの対照損失は、以下のとおりである。

ここで、

は、埋め込み関数によって計算された文書埋め込みである。ｃｏｓ（）はベクトル間の余弦類似度を表し、τは温度パラメータである。図２において、

は、それぞれｘ^* _i及びｈ^* _iで表されている。

損失の合計は、

である。

正則化項として対照損失

を用いると、目的関数は以下の損失関数を最小化する。

損失計算器２３０は、対照損失

の一貫性の損失を計算できる。対照損失は、ポジティブペアが類似し、ネガティブペアが類似していないことを意味する。これは、１つのサンプルと拡張されたサンプルとの間の一貫性す。

ＳｉｍＳａｉｍフレームワーク内で、バッチ正規化による予測ＭＬＰが最初に適用されて、出力ベクトル

が得られる。

との間のネガティブコサイン類似度を最小化できる。解の破綻を回避するため、停止勾配を使用できる。

関数Ｄ（・；）は、ネガティブ余弦類似度である。

ここで、λは、２つの損失成分間のトレードオフを設定するためのハイパーパラメータである。

ＢＥＲＴがバックボーンとして採用される場合、対照損失

を用いてＢＥＲＴを直接微調整する。

オリジナルの文書の意味を効率的な方法で保存する現実的な拡張例を生成することは簡単ではない。入力文書は、類義語、否定接頭辞を含む反意語またはそれらの頻度に基づいて単語を置き換えることで言い換えが可能であり、同時にその意味を維持できる。類義語置き換えでは、単語毎に、まずＷｏｒｄＮｅｔＳｙｎｓｅｔｓを用いて置き換え候補のセットを抽出し、語彙外の候補や頻度の低い候補を除去する。効率的な計算のために、オリジナルの単語も類義語セットに含める。拡張文書を生成するため、単語毎に、置き換え候補のセットから単語をランダムに選択する。

否定反意語置き換えの場合、形容詞または動詞は、「非」等の否定接頭辞を備える反意語に置き換えることができる。

情報価値のない単語置き換えの場合、頻度の低い単語を頻度の高い類義語に置き換えることができる。

文書の基本的な意味は、文書自体によって部分的にしか表現されない場合がある。

逆翻訳は、最初に文書Ｄをオリジナルの言語（この研究では英語）からドイツ語やフランス語等の別の言語に翻訳してＤ'を得る。続いて、文書Ｄ'は、拡張文書Ｄ^*としてオリジナルの言語に翻訳される。文書レベルの逆翻訳は、意味を維持しながら、多様性の高い言い換えを生成できる。

感情分析（ＭＲ、ＩＭＤＢ）、ニュース分類（Ｒ８、Ｒ５２、２０ｎｅｗｓ）、医学文献（Ｏｈｓｕｍｅｄ）等を含む、幅広い文書コーパスが採用される。

出力次元が７６８であるトランスフォーマーベースのモデルを除いて、埋め込み次元は１００に設定される。各データセットについて、まず全ての文書を用いてそれぞれの埋め込みを学習する。次に、これらの文書の埋め込みは、線形分類とクラスタリングの２つのダウンストリームタスクで評価される。

ロジスティック回帰が分類器として採用され、テストエラー率が評価基準として使用される。

ＤＥＣＡで使用されるデータ拡張は、比較的低品質の新しい文書を生成し、テキストデータセットの多様性を豊かにし、リソース不足の問題に対処する。また、ＤＥＣＡは、拡張されたテキストに導入されたノイズに対してよりロバストである。これにより、ＤＥＣＡは様々な拡張方法をより柔軟に選択できるようになり、より高品質な埋め込みが可能になる。新しく生成された文書とオリジナルの文書を用いてニューラルネットワークを訓練できる。

ニューラルネットワークは、追加の実験によるデータへさらすことを通じてその機能及び精度を改善する一般化されたシステムである。ニューラルネットワークは、実験によるデータにさらされることで訓練される。訓練中、ニューラルネットワークは、入力される実験によるデータに適用される複数の重みを格納して調整する。調整された重みをデータに適用することで、データはクラスのセットから特定の予め定義されたクラスに属するものとして識別できる、または入力データが各クラスに属する確率を出力できる。

事例のセットからの訓練データとしても知られる実験によるデータは、値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給される。各事例は、既知の結果または出力に関連付けることができる。各事例は、（ｘ、ｙ）のペアとして表すことができる。ここで、ｘは入力データを表し、ｙは既知の出力を表す。入力データは、様々な異なるデータタイプを含んでいてもよく、複数の異なる値を含んでいてもよい。ネットワークは、事例の入力データを構成する各値に対して１つの入力ノードを備えることが可能であり、各入力値に個別の重みを適用できる。入力データは、構築及び訓練されるニューラルネットワークのアーキテクチャに応じて、例えば、ベクトル、アレイまたは文字列としてフォーマットできる。

ニューラルネットワークは、入力データから生成されたニューラルネットワークの出力を事例の既知の値と比較し、格納された重みを調整して出力の値と既知の値との差を最小化することで「学習」する。調整は、誤差逆伝播法を通して格納された重みに対して行うことができる。この場合、出力の値に対する重みの効力は、数学的な勾配を計算し、出力を最小の差にシフトするように重みを調整することで決定できる。勾配降下アプローチと呼ばれるこの最適化は、訓練を実行する方法の非限定的な一例である。訓練に使用されなかった既知の値を備える事例のサブセットを用いて、ニューラルネットワークの精度をテスト及び検証できる。

動作中、訓練されたニューラルネットワークは、一般化によって訓練または検証で先に使用されなかった新しいデータに対して用いることができる。ニューラルネットワークの調整された重みは、新しいデータに適用できる。重みは、訓練事例から策定された関数を推定する。重みによって取得される、推定された関数のパラメータは、統計的推論に基づいている。

例えば、ニューラルネットワークが先に入力されたデータから次の入力の性質を予測することを意図している場合、ニューラルネットワークは、入力データの時間変化を取得するように構成できる。これは、後続の各データ値を入力する際に時間遅延を設けることで達成できる。これは、データ自体が固有の時間シーケンスを有するシーケンスでノードを入力データにさらすことで、入力データの短期記憶を提供できる。

ニューラルネットワークのメモリは、ノードで生成された出力を、入力として時間遅延を伴って戻すことで増加させることができる。これにより、先に入力されたデータが、その後に入力されたデータの出力に影響を与える。但し、先のデータの影響は直ぐに低下する可能性がある。

階層型のニューラルネットワークでは、複数のノードが層状に配置される。例示的なシンプルなニューラルネットワークは、ソースノード１０２２の入力レイヤ１０２０と、出力ノードとしても機能する１つまたは複数の計算ノード１０３２を備える単一の計算レイヤ１０３０とを有する。ここで、入力事例が分類されると考えられるカテゴリ毎に単一の計算ノード１０３２が存在する。入力レイヤ１０２０は、入力データ１０１０におけるデータ値１０１２の数に等しい数のソースノード１０２２を有していてもよい。入力データ１０１０のデータ値１０１２は、列ベクトルとして表すことができる。計算レイヤ１０３０の各計算ノード１０３２は、入力ノード１０２０に供給された入力データ１０１０から重みの値の線形結合を生成し、合計に微分可能な非線形活性化関数を適用する。例示的なシンプルなニューラルネットワークは、線形に分離可能な事例（例えば、パターン）に対して分類を実行できる。

図４は、本発明の一実施形態による、表現学習のために拡張文書を利用するための深層ニューラルネットワークを示すブロック／フロー図である。

多層パーセプトロン等の深層ニューラルネットワークは、ソースノード１０２２の入力レイヤ１０２０と、１つまたは複数の計算ノード１０３２を備える１つまたは複数の計算レイヤ１０３０と、入力事例を分類できると考えられるカテゴリ毎に単一の出力ノード１０４２がある、出力レイヤ１０４０とを有する。入力レイヤ１０２０は、入力データ１０１０におけるデータ値１０１２の数に等しい数のソースノード１０２２を有していてもよい。計算レイヤ１０３０における計算ノード１０３２は、ソースノード１０２２と出力ノード１０４２との間にあり、直接観察されないため、隠れレイヤとも呼ばれる。計算レイヤの各ノード１０３２、１０４２は、先のレイヤのノードから出力された値から重みの値の線形結合を生成し、線形結合の範囲にわたって微分可能な非線形活性化関数を適用する。先の各ノードからの値に適用される重みは、例えば、ｗ₁、ｗ₂、...、ｗ_n-1、ｗ_nで表すことができる。出力レイヤは、入力データに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは全結合にしてもよい。この場合、計算レイヤの各ノードは先のレイヤの全ての他のノードに接続される、またはレイヤ間を接続する他の構成を有する場合がある。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると見なされる。

深層ニューラルネットワークの訓練は、２つの段階、すなわち各ノードの重みが固定されて、入力がネットワークを介して伝播するフォーワード段階と、エラー値がネットワークを通して逆方向に伝搬されて、重みの値が更新されるバックワード段階とを含む。パラメータＵ、Ｖは、誤差逆伝播法によって更新できる。

１つまたは複数の計算（隠れ）レイヤ１０３０における計算ノード１０３２は、特徴空間を生成する入力データ１０１２に対して非線形変換を実行する。クラスまたはカテゴリは、オリジナルのデータ空間よりも特徴空間でより簡単に分離できる。

図５は、本発明の一実施形態による、本方法及びシステムが適用され得る例示的な処理システムである。

処理システム５００は、少なくとも１つのプロセッサ（ＣＰＵ）５０４を含んでいてもよく、システムバス５０２を介して他のコンポーネントに動作可能に接続されたベクトル計算／操作を実行できるグラフィック処理（ＧＰＵ）５０５を有していてもよい。システムバス５０２には、キャッシュ５０６、読み取り専用メモリ（ＲＯＭ）５０８、ランダムアクセスメモリ（ＲＡＭ）５１０、入出力（Ｉ／Ｏ）アダプタ５２０、サウンドアダプタ５３０、ネットワークアダプタ５４０、ユーザインタフェースアダプタ５５０及び／またはディスプレイアダプタ５６０もまたシステムバス５０２に動作可能に接続される。

第１の記憶装置５２２及び第２の記憶装置５２４は、Ｉ／Ｏアダプタ５２０によってシステムバス５０２に動作可能に接続され、拡張文書を生成するためのリカレントニューラルネットワークが、本明細書で説明する機能を実現するために保存される。記憶装置５２２及び５２４は、ディスク記憶装置（例えば、磁気または光ディスク記憶装置）、ソリッドステート記憶装置、磁気記憶装置等のいずれであってもよい。記憶装置５２２及び５２４は、同じタイプの記憶装置であってもよく、異なるタイプの記憶装置であってもよい。対照文書拡張システム１００は、記憶装置５２４に記憶され、少なくとも１つのプロセッサ（ＣＰＵ）５０４及び／またはグラフィックス処理（ＧＰＵ）５０５によって実現される。

スピーカ５３２は、サウンドアダプタ５３０によってシステムバス５０２に動作可能に接続されている。トランシーバ５４２は、ネットワークアダプタ５４０によってシステムバス５０２に動作可能に接続されている。ディスプレイ装置５６２は、ディスプレイアダプタ５６０によってシステムバス５０２に動作可能に接続されている。

第１のユーザ入力装置５５２、第２のユーザ入力装置５５４及び第３のユーザ入力装置５５６は、ユーザインタフェースアダプタ５５０によってシステムバス５０２に動作可能に接続されている。ユーザ入力装置５５２、５５４及び５５６は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーション感知装置、マイクロフォン、あるいはこれらの装置のうちの少なくとも２つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置５５２、５５４及び５５６は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置５５２、５５４及び５５６は、処理システム５００に情報を入力し、処理システム５００から情報を出力するために使用される。

様々な実施形態において、処理システム５００は、当業者であれば容易に思いつくような他の要素（図示せず）を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システム５００には、その詳細な実装に応じて他の様々なタイプの入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による様々な入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システム５００の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

さらに、処理システム５００は、本方法／システムのそれぞれの実施形態を実施するためのシステムであることを理解されたい。処理システム５００の一部または全部は、図１及び２の要素のうちの１つまたは複数で実現されてもよい。さらに、処理システム１０００は、例えば、図１及び図２の方法の少なくとも一部を含む、本明細書に記載の方法の少なくとも一部を実行できることを理解されたい。

本明細書に記載する実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。

実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもいてよい。コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでいてもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体または半導体システム（または機器もしくは装置）、あるいは伝搬媒体であってもよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでいてもよい。

各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置（例えば、プログラムメモリまたは磁気ディスク）に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法をコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。

プログラムコードを格納及び／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも１つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルクメモリ装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルクメモリ装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはＩ／Ｏ装置（限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む）は、直接またはＩ／Ｏコントローラを介してシステムに接続されてもよい。

ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたはリモートプリンタもしくはメモリ装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット（登録商標）カードは、現在利用可能なタイプのネットワークアダプタのほんの一例である。

本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行装置等）を含むことができる。１つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び／または個別のプロセッサまたはコンピューティング要素ベースのコントローラ（例えば、論理ゲート等）を含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等）を含むことができる。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとすることができる、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）等）で用いるための専用の１つ以上のメモリを含むことができる。

いくつかの実施形態において、ハードウェアプロセッササブシステムは、１つまたは複数のソフトウェア要素を含み、実行することができる。１つまたは複数のソフトウェア要素は、オペレーティングシステム及び／または１つまたは複数のアプリケーション及び／または特定の結果を達成するための特定のコードを含むことができる。

他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用回路を含むことができる。そのような回路は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれら及び他の変形例もまた、本発明の実施形態によって考えられる。

本明細書では本発明の「一実施形態」または「一実施形態」、並びにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示が与えられると、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

例えば、「Ａ／Ｂ」、「Ａ及び／またはＢ」、並びに「Ａ及びＢのうちの少なくとも１つ」の場合における「／」、「及び／または」、並びに「うちの少なくとも１つ」のうちのいずれかの使用は、第１に挙げた選択肢（Ａ）のみの選択、第２に挙げた選択肢（Ｂ）のみの選択、または両方の選択肢（Ａ及びＢ）の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「Ａ、Ｂ及び／またはＣ」、並びに「Ａ、Ｂ及びＣのうちの少なくとも１つ」の場合、このような表現法は、第１に挙げた選択肢（Ａ）のみの選択、第２に挙げた選択肢（Ｂ）のみの選択、第３に挙げた選択肢（Ｃ）のみの選択、第１及び第２に挙げた選択肢（Ａ及びＢ）のみの選択、第１及び第３に挙げた選択肢（Ａ及びＣ）のみの選択、第２及び第３に挙げた選択肢（Ｂ及びＣ）のみの選択、または３つの選択肢全て（Ａ及びＢ及びＣ）の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

データセットを拡張するための方法であって、
オリジナルの文書（１２０）をデータ拡張生成器（２１０）に供給して１つまたは複数の拡張文書（２２０）を生成し、
前記オリジナルの文書（１２０）と前記１つまたは複数の拡張文書（２２０）との間の対照損失（２３０）を計算し、
前記オリジナルの文書（１２０）及び前記１つまたは複数の拡張文書（２２０）を用いてニューラルネットワークを訓練する（１０３０）、方法。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、前記オリジナルの文書における単語を類義語に置き換えることで生成される、請求項１に記載の方法。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで生成される、請求項１に記載の方法。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、デジタル画像を回転させる及び／またはぼかすことで生成される、請求項１に記載の方法。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、Ｄｏｃ２ｖｅｃＣを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで生成される、請求項１に記載の方法。
前記対照損失は、

で計算される、請求項５に記載の方法。
前記対照損失の合計が、

を用いて計算される、請求項６に記載の方法。
データセットを拡張するためのシステムであって、
１つまたは複数のプロセッサ（５０４、５０５）と、
前記１つまたは複数のプロセッサ（５０４、５０５）に動作可能に接続されたメモリ（５１０、５２２）と、
前記メモリに保存され、オリジナルの文書（１２０）から１つまたは複数の拡張文書（２２０）を生成するように構成されたデータ拡張生成器（２１０）と、
前記オリジナルの文書（１２０）と前記１つまたは複数の拡張文書（２２０）との間の対照損失を計算するように構成された損失計算器（２３０）と、
を有する、システム。
前記データ拡張生成器は、前記オリジナルの文書における単語を類義語に置き換えることで前記１つまたは複数の拡張文書のうちの少なくとも１つを生成するようにさらに構成された、請求項８に記載のシステム。
前記データ拡張生成器は、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで、前記１つまたは複数の拡張文書のうちの少なくとも１つを生成するようにさらに構成された、請求項８に記載のシステム。
前記データ拡張生成器は、前記１つまたは複数の拡張文書のうちの少なくとも１つは、デジタル画像を回転させる及び／またはぼかすことで、前記１つまたは複数の増補文書のうちの少なくとも１つを生成するようにさらに構成された、請求項８に記載のシステム。
前記データ拡張生成器は、Ｄｏｃ２ｖｅｃＣを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで、前記１つまたは複数の拡張文書のうちの少なくとも１つを生成するようにさらに構成された、請求項８に記載のシステム。
前記対照損失が、

を用いて計算される、請求項１２に記載のシステム。
前記対照損失の合計が、

を用いて計算される、請求項１３に記載のシステム。
データセットを拡張するためのコンピュータプログラム製品であって、
プログラム命令が包含される、コンピュータで読み取り可能な記録媒体を有し、前記コンピュータによって読み取り可能なプログラム命令は、前記コンピュータに、
オリジナルの文書（１２０）をデータ拡張生成器（２１０）に受信させて１つまたは複数の拡張文書（２２０）を生成させ、
前記オリジナルの文書（１２０）と前記１つまたは複数の拡張文書（２２０）との間の対照損失（２３０）を計算させ、
前記オリジナルの文書（１２０）及び前記１つまたは複数の拡張文書（２２０）を用いてニューラルネットワークを訓練させる（１０３０）、コンピュータプログラム製品。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、前記オリジナルの文書における単語を類義語に置き換えることで生成される、請求項１５に記載のコンピュータプログラム製品。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで生成される、請求項１５に記載のコンピュータプログラム製品。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、デジタル画像を回転させる及び／またはぼかすことで生成される、請求項１５に記載のコンピュータプログラム製品。
前記１つまたは複数の拡張文書のうちの少なくとも１つは、Ｄｏｃ２ｖｅｃＣを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで生成される、請求項１５に記載のコンピュータプログラム製品。
前記対照損失が、

を用いて計算され、
前記対照損失の合計が、

を用いて計算される、請求項１９に記載のコンピュータプログラム製品。