JP2020532012A

JP2020532012A - ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習

Info

Publication number: JP2020532012A
Application number: JP2020511764A
Authority: JP
Inventors: ウー、リンフェイ; ウィットブロック、マイケル、ジョン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-08-29
Filing date: 2018-08-24
Publication date: 2020-11-05
Anticipated expiration: 2038-08-24
Also published as: US11823013B2; WO2019043540A1; GB202003834D0; CN111066021B; CN111066021A; US20190065986A1; GB2578711A; JP7002638B2

Abstract

【課題】テキスト・データに対する教師なし特徴表現学習を行うための、コンピュータに実現される方法を提供する。【解決手段】方法は、ランダム・テキスト配列のセットを有する参照テキスト・データを生成し、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされる。セット内の各テキスト配列のランダムな単語は、分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を１つ以上の機械学習モデルへの入力として提供する。【選択図】図６

Description

本発明は一般的に機械学習システムに関し、より具体的にはテキスト・データのランダム・ドキュメント埋め込みを用いることによって機械学習プロセスを行うことに関する。

「機械学習」という語句は、データから学習する電子システムの機能を広く説明するものである。機械学習システム、エンジン、またはモジュールは、入力と出力との機能的関係を学習するために、たとえば外部クラウド環境などにおいてトレーニングされ得るトレーニング可能な機械学習アルゴリズムを含むことができ、この機能的関係は現在未知であるものとする。

「テキスト・データ」という語句は、１つ以上のテキスト配列を含む電子システムのデータ構造を広く説明するものであり、ここで各テキスト配列は１つ以上の単語のグループ化を保持する。テキスト配列の例はセンテンス、パラグラフ、およびドキュメントなどを含む。テキスト・データの例は複数のセンテンス、複数のパラグラフ、および複数のドキュメントなどを含む。「テキスト配列」という語句および「ドキュメント」という用語は、本明細書においてしばしば区別なく使用される。

有効なテキスト表現の学習は、たとえばドキュメントの分類およびクラスタリング、ドキュメント検索、機械翻訳、ならびに多言語ドキュメント・マッチングなどの、多数の機械学習および自然言語に基づく処理（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｂａｓｅｄｐｒｏｃｅｓｓｉｎｇ）のタスクにおける重要な基礎である。テキストには明確な特徴がないため、たとえばｂａｇｏｆｗｏｒｄｓ（ＢＯＷ）技術の使用などによる単純なアプローチを用いてテキストに対する有効な表現を開発することが試みられてきた。しかし、ＢＯＷアプローチはテキストの単語の順序および単語の意味を考慮しない。さらに、いくつかの単語ベクトル技術は単語表現を意味的に生成することが公知であるが、センテンスまたはドキュメント表現を単語表現の上に構築すべきか、何もないところから構築すべきかがあまり明瞭でない。１つの公知の技術は、ＷｏｒｄＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ（ＷＭＤ）と呼ばれるドキュメント間の距離尺度を用いて、意味が似ている単語を並べるものである。しかし、ＷＭＤの計算は非常に高価であり、単純なＫ近傍（ＫＮＮ：Ｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓ）機械学習アプローチを超えた特徴埋め込みに対して用いることが困難である。

したがって当該技術分野においては、前述の問題に対処することが必要とされている。

第１の態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのコンピュータに実現される方法を提供し、この方法は、プロセッサ・システムによってランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる、生成することと、プロセッサ・システムによって、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成することと、プロセッサ・システムによって、特徴行列を１つ以上の機械学習モデルへの入力として提供することとを含む。

さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムは方法を行うように構成された１つ以上のプロセッサを含み、この方法は、システムによってランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる、生成することと、システムによって、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成することと、システムによって、特徴行列を１つ以上の機械学習モデルへの入力として提供することとを含む。

さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムはプロセッサと、メモリと、生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成された参照テキスト・データ生成コンポーネントであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる、参照テキスト・データ生成コンポーネントと、機械学習コンポーネントとを含み、この機械学習コンポーネントは、生テキスト・データに対する特徴行列を受信するように構成され、この特徴行列は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成され、この機械学習コンポーネントはさらに、特徴行列を１つ以上の機械学習モデルへの入力として提供するように構成される。

さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムはプロセッサと、メモリと、生テキスト・データの確率分布を生成するように構成された分布生成コンポーネントであって、この生テキスト・データの確率分布は、事前学習済みまたは学習されたｗｏｒｄ２ｖｅｃ埋め込み空間に少なくとも部分的に基づいて生成される、分布生成コンポーネントと、特徴行列生成コンポーネントとを含み、この特徴行列生成コンポーネントは、ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成され、このランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られ、この特徴行列生成コンポーネントはさらに、ドキュメント距離測定技術を用いたランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成するように構成される。

さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路によって読取り可能であり、かつ本発明のステップを行うための方法を行うための処理回路による実行のための命令を保存するコンピュータ可読ストレージ媒体を含む。

さらなる態様から見ると、本発明は、コンピュータ可読媒体に保存され、かつデジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムを提供し、このコンピュータ・プログラムは、前記プログラムがコンピュータにおいて実行されるときに本発明のステップを行うためのソフトウェア・コード部分を含む。

本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習のための、コンピュータに実現される方法を提供する。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を１つ以上の機械学習モデルへの入力として提供する。

本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、自身によって具現化されるプログラム命令を有するコンピュータ可読ストレージ媒体を含む。このプログラム命令は、システムに方法を行わせるための１つ以上のプロセッサに動作的に結合されたシステムによって実行される。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を１つ以上の機械学習モデルへの入力として提供する。

本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供する。このシステムは、方法を行うように構成された１つ以上のプロセッサを含む。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を１つ以上の機械学習モデルへの入力として提供する。

本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供する。このシステムはプロセッサと、メモリと、参照テキスト・データ生成コンポーネントと、機械学習コンポーネントとを含む。参照テキスト・データ生成コンポーネントは、生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成される。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる。機械学習コンポーネントは生テキスト・データに対する特徴行列を受信するように構成され、この特徴行列は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成される。機械学習コンポーネントはさらに、特徴行列を１つ以上の機械学習モデルへの入力として提供するように構成される。

本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うための製品を実行するためのシステムを提供する。このシステムはプロセッサと、メモリと、分布生成コンポーネントと、特徴行列生成コンポーネントとを含む。分布生成コンポーネントは、生テキスト・データの確率分布を生成するように構成され、この生テキスト・データの確率分布は、事前学習済みまたは学習されたｗｏｒｄ２ｖｅｃ埋め込み空間に少なくとも部分的に基づいて生成される。特徴行列生成コンポーネントは、ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成される。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされたものであり、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる。特徴行列生成コンポーネントはさらに、ドキュメント距離測定技術を用いたランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成するように構成される。

本発明の技術を通じて、付加的な技術的特徴および利益が実現される。本発明の実施形態および態様は、本明細書において詳細に説明されており、請求される主題の一部とみなされる。より良好な理解のために、詳細な説明および図面を参照されたい。

本明細書の末尾の請求項において、本明細書に記載される独占権の明細を特定的に指摘し、明確に請求している。本発明の実施形態の前述およびその他の特徴および利点は、添付の図面とともに得られる以下の詳細な説明から明らかである。

本発明の１つ以上の実施形態によるクラウド・コンピューティング環境を示す図である。本発明の１つ以上の実施形態による抽象化モデル・レイヤを示す図である。本発明の１つ以上の実施形態を実現できる例示的コンピュータ・システムを示す図である。本発明の１つ以上の実施形態によるテキスト・データを用いた機械学習を促進する例示的システムを示す図である。本発明の１つ以上の実施形態によるテキスト・データを用いた機械学習を促進する別の例示的システムを示す図である。本発明の１つ以上の実施形態による方法を示す流れ図である。

本明細書において示される図面は例示的なものである。本発明の範囲から逸脱することなく、そこに説明されている図面または動作に対する多くの変形が存在し得る。たとえば、動作が異なる順序で行われてもよいし、動作が追加、削除、または修正されてもよい。加えて、「結合された」という用語およびその変形は、２つのエレメント間の通信経路を有することを説明するものであり、それらの間に介在するエレメント／接続を伴わないエレメント間の直接接続を意味するものではない。これらの変形はすべて、本明細書の一部とみなされる。

添付の図面および開示される実施形態の以下の詳細な説明において、図面に示されるさまざまなエレメントには、２桁または３桁の参照番号が与えられている。わずかな例外はあるが、各参照番号の一番左側の桁（単数または複数）は、そのエレメントが最初に示された図面に対応する。

本明細書において、関連する図面を参照して本発明のさまざまな実施形態を説明する。本発明の範囲から逸脱することなく、本発明の代替的実施形態が考案され得る。以下の説明および図面において、エレメント間のさまざまな接続および位置関係（例、上、下、隣など）が示されている。これらの接続もしくは位置関係またはその両方は、別様に指定されない限り直接的または間接的であってもよく、本発明はこれに関して限定することは意図されていない。したがって、エンティティの結合は直接的または間接的な結合を示すことができ、エンティティ間の位置関係は直接的または間接的な位置関係であり得る。さらに、本明細書に記載されるさまざまなタスクおよびプロセス・ステップは、本明細書に詳細に記載されていない付加的なステップまたは機能を有するより包括的な手順またはプロセスに組み込まれ得る。

以下の定義および略語は、請求項および明細書の解釈に用いられるべきものである。本明細書において用いられる「含む（ｃｏｍｐｒｉｓｅｓ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｓ）」、もしくは「含有する（ｃｏｎｔａｉｎｉｎｇ）」という用語、またはその任意のその他の変形は、非排他的包含をカバーすることが意図される。たとえば、エレメントのリストを含む組成物、混合物、プロセス、方法、物品、または装置は、それらのエレメントのみに限定される必要はなく、明確にリストに挙げられていないその他のエレメント、あるいはこうした組成物、混合物、プロセス、方法、物品、または装置に固有のその他のエレメントを含み得る。

加えて、本明細書において「例示的」という用語は、「一例、実例、または例示の役割をする」ことを意味するために用いられる。本明細書において「例示的」なものとして記載される任意の実施形態または設計は、他の実施形態または設計よりも好ましいか、または有利であると解釈される必要はない。「少なくとも１つ」および「１つ以上」という用語は、１以上の任意の整数、すなわち１、２、３、４などを含むものと理解されてもよい。「複数」という用語は、２以上の任意の整数、すなわち２、３、４、５などを含むものと理解されてもよい。「接続」という用語は、間接的「接続」および直接的「接続」の両方を含んでもよい。

「約（ａｂｏｕｔ）」、「実質的に（ｓｕｂｓｔａｎｔｉａｌｌｙ）」、「約（ａｐｐｒｏｘｉｍａｔｅｌｙ）」という用語およびそれらの変形は、本出願の提出の時点で利用可能な機器に基づく特定量の測定に関連する誤差の程度を含むことが意図される。たとえば、「約」は所与の値の±８％もしくは５％、または２％の範囲を含み得る。

簡略化の目的のために、本発明の態様の作成および使用に関する従来の技術は、本明細書において詳細に説明するときとしないときとがある。特に、本明細書に記載されるさまざまな技術的特徴を実現するためのコンピュータ・システムおよび特定のコンピュータ・プログラムのさまざまな態様は、周知のものである。したがって簡略化するために、多くの従来の実施の詳細は、本明細書においては周知のシステムもしくはプロセスまたはその両方の詳細を提供せずに簡潔にのみ言及されるか、または完全に省略される。

この開示はクラウド・コンピューティングに対する詳細な説明を含むが、本明細書に述べられている教示の実現はクラウド・コンピューティング環境に限定されないことが理解されるべきである。本発明の実施形態は、現在公知であるか、または後に開発される任意のその他のタイプのコンピューティング環境とともに実現され得る。

クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース（例、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス）の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは少なくとも５つの特性と、少なくとも３つのサービス・モデルと、少なくとも４つの配置モデルとを含んでもよい。

特性は次のとおりである。
オンデマンド・セルフサービス。クラウド消費者は、たとえばサーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを、必要に応じて自動的に、サービス・プロバイダとの人的対話を必要とせずに一方的にプロビジョニングできる。
広範なネットワーク・アクセス。ケイパビリティはネットワークを通じて利用可能であり、異種シンまたはシック・クライアント・プラットフォーム（例、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール。マルチテナント・モデルを用いて複数の消費者にサービスするために、プロバイダのコンピューティング・リソースはプールされ、要求に従って異なる物理および仮想リソースが動的に割り当ておよび再割り当てされる。消費者は一般的に、提供されるリソースの正確な場所に対する制御も知識も有さないが、より高レベルの抽象化での場所（例、国、州、またはデータセンタ）を特定できてもよいという点で、場所独立性の意味が存在する。
迅速な順応性。ケイパビリティは、素早くスケール・アウトするために場合によっては自動的に、迅速かつ順応的にプロビジョニングされ、かつ素早くスケール・インするために迅速にリリースされ得る。消費者にとって、プロビジョニングのために利用可能なケイパビリティはしばしば無制限にみえ、任意のときに任意の量を購入できる。
サービスの測定。クラウド・システムは、サービスのタイプ（例、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に対して適切な何らかの抽象化レベルにおいて計測ケイパビリティを利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用をモニタ、制御、および報告して、使用されるサービスのプロバイダおよび消費者の両方に対する透明性を提供できる。

サービス・モデルは次のとおりである。
サービスとしてのソフトウェア（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）。消費者に提供されるケイパビリティは、クラウド・インフラストラクチャにおいて実行されるプロバイダのアプリケーションの使用である。アプリケーションは、さまざまなクライアント・デバイスからたとえばウェブ・ブラウザ（例、ウェブに基づくｅメール）などのシン・クライアント・インタフェースを通じてアクセス可能である。消費者はネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケーパビリティさえも含む基礎的なクラウド・インフラストラクチャを管理または制御することはなく、例外として考えられるのは限られたユーザ特有のアプリケーション構成設定である。
サービスとしてのプラットフォーム（ＰａａＳ：ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）。消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、消費者が作成または取得したアプリケーションのクラウド・インフラストラクチャへの配置である。消費者はネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラストラクチャを管理または制御することはないが、配置されたアプリケーションおよびおそらくはアプリケーション・ホスティング環境構成に対する制御を有する。
サービスとしてのインフラストラクチャ（ＩａａＳ：ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）。消費者に提供されるケイパビリティは、オペレーティング・システムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを配置および実行することが可能な処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースのプロビジョニングである。消費者は基礎的なクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、配置されたアプリケーションに対する制御、およびおそらくはネットワーク形成コンポーネント（例、ホスト・ファイアウォール）の選択に対する限られた制御を有する。

配置モデルは次のとおりである。
プライベート・クラウド。このクラウド・インフラストラクチャは、ある組織に対してのみ動作される。これはその組織または第３者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
コミュニティ・クラウド。このクラウド・インフラストラクチャは複数の組織に共有され、共通する関心事項（例、任務、セキュリティ要件、ポリシー、およびコンプライアンスの検討）を有する特定のコミュニティをサポートする。これはそれらの組織または第３者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
パブリック・クラウド。このクラウド・インフラストラクチャは、一般人または大規模な産業グループに対して利用可能にされ、クラウド・サービスを販売する組織が所有している。
ハイブリッド・クラウド。このクラウド・インフラストラクチャは２つまたはそれ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合体であり、それらのクラウドは一意のエンティティを留めるが、データおよびアプリケーション・ポータビリティを可能にする標準または独自の技術（例、クラウド間のロード・バランシングのためのクラウド・バースティング）によってともに結合される。

クラウド・コンピューティング環境はサービス指向型であり、ステートレス性、低結合性、モジュラリティ、および意味的な相互運用性に焦点を合わせている。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

ここで図１を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。示されるとおり、クラウド・コンピューティング環境５０は１つ以上のクラウド・コンピューティング・ノード１０を含み、たとえばパーソナル・デジタル・アシスタント（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、もしくは自動車のコンピュータ・システム５４Ｎ、またはその組み合わせなどの、クラウド消費者によって用いられるローカル・コンピューティング・デバイスが、このクラウド・コンピューティング・ノード１０によって通信してもよい。ノード１０は互いに通信してもよい。これらのノードは、たとえば上述したプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組み合わせなどの１つ以上のネットワークにおいて、物理的または仮想的にグループ化（図示せず）されてもよい。このことは、クラウド・コンピューティング環境５０がインフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを、クラウド消費者がそれに対するリソースをローカル・コンピューティング・デバイスにおいて維持する必要のないサービスとして提供することを可能にする。図１に示されるコンピューティング・デバイス５４Ａ〜Ｎのタイプは単なる例示であることが意図されており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークもしくはネットワーク・アドレス可能接続（例、ウェブ・ブラウザを使用するもの）またはその両方を通じて、任意のタイプのコンピュータ・デバイスと通信できることが理解される。

ここで図２を参照すると、クラウド・コンピューティング環境５０（図１）によって提供される機能的抽象化レイヤのセットが示されている。図２に示されるコンポーネント、レイヤ、および機能は単なる例示であることが意図されており、本発明の実施形態はそれらに限定されないことが予め理解されるべきである。示されるとおり、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ））アーキテクチャに基づくサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーク形成コンポーネント６６を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化レイヤ７０は抽象化レイヤを提供し、この抽象化レイヤから仮想エンティティの以下の例が提供されてもよい。仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５。

一例において、管理レイヤ８０は以下に記載される機能を提供してもよい。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを行うために用いられるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格決定８２は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する請求書またはインボイスの送付とを提供する。一例において、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクに対するアイデンティティ確認、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル８３は、消費者およびシステム管理者に対するクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ：ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ）計画および実現８５は、ＳＬＡによって将来の要求が予測されるクラウド・コンピューティング・リソースに対する事前の取り決めおよびその調達を提供する。

作業負荷レイヤ９０は、クラウド・コンピューティング環境が使用され得る機能の例を提供する。このレイヤから提供され得る作業負荷および機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室の教育配信９３、データ分析処理９４、トランザクション処理９５、およびテキスト・データ処理９６を含む。

ここで本発明の態様により具体的に関係する技術の概観をみると、有効なテキスト表現の学習は、たとえばドキュメントの分類およびクラスタリング、ドキュメント検索、機械翻訳、ならびに多言語ドキュメント・マッチングなどの、多数の機械学習および自然言語に基づく処理（ＮＬＰ）のタスクにおける重要な基礎である。テキストには明確な特徴がないため、たとえばｂａｇｏｆｗｏｒｄｓ（ＢＯＷ）技術の使用などによる単純なアプローチを用いてテキストに対する有効な表現を開発することが試みられてきた。しかし、ＢＯＷアプローチはテキストの単語の順序および単語の意味を考慮しない。さらに、いくつかの単語ベクトル技術は単語表現を意味的に生成することが公知であるが、センテンスまたはドキュメント表現を単語表現の上に構築すべきか、何もないところから構築すべきかがあまり明瞭でない。１つの公知の技術は、ＷｏｒｄＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ（ＷＭＤ）と呼ばれるドキュメント間の距離尺度を用いて、意味が似ている単語を並べるものである。しかし、ＷＭＤの計算は非常に高価であり、単純なＫ近傍（ＫＮＮ）機械学習アプローチを超えた特徴埋め込みに用いることが困難である。

本明細書において前に示したとおり、「機械学習」という語句は、データから学習する電子システムの機能を広く説明するものである。機械学習システム、エンジン、またはモジュールは、入力と出力との機能的関係を学習するために、たとえば外部クラウド環境などにおいてトレーニングされ得るトレーニング可能な機械学習アルゴリズムを含むことができ、この機能的関係は現在未知であるものとする。機械学習機能は、現在未知の機能を行うようにトレーニングされる能力を有する人工ニューラル・ネットワーク（ＡＮＮ：ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いて実現され得る。機械学習および認知科学において、ＡＮＮは、動物の生物学的神経ネットワーク、特に脳から着想された統計的学習モデルのファミリーである。ＡＮＮは、多数の入力に依存するシステムおよび機能の推定または近似に用いられ得る。ＡＮＮは、シミュレートされた「ニューロン」として活動して「メッセージ」を電子信号の形で互いに交換する相互接続されたプロセッサ・エレメントのいわゆる「神経形態学的」システムとして具現化され得る。生物学的ニューロン間でメッセージを運ぶシナプス神経伝達物質接続のいわゆる「可塑性」と同様に、シミュレートされたニューロン間で電子メッセージを運ぶＡＮＮの接続には、所与の接続の強さまたは弱さに対応する数値的重みが与えられる。この重みは経験に少なくとも部分的に基づいて調節および調整が可能であり、これによってＡＮＮは入力に適応でき、学習が可能になる。たとえば、手書き文字認識のためのＡＮＮは、入力画像の画素によって活性化され得る入力ニューロンのセットによって定められる。重み付けされ、ネットワークの設計者によって定められた関数によって変換された後、これらの入力ニューロンの活性化は、しばしば「隠れ」ニューロンと呼ばれる他の下流ニューロンに渡される。出力ニューロンが活性化されるまで、このプロセスが繰り返される。活性化された出力ニューロンは、どの文字が読取られたかを定める。

機械学習は、デジタル・データ間の推論もしくは関係またはその両方を定めるために、しばしば多数の技術によって使用される。たとえば、機械学習技術、信号処理技術、画像処理技術、データ分析技術、もしくはその他の技術、またはその組み合わせなどは、デジタル・データの分析、デジタル・データの処理、デジタル・データからの推論の決定、もしくはデジタル・データ間の関係の決定、またはその組み合わせのために、機械学習モデルを使用する。

しばしば、デジタル・データはテキスト・データとしてフォーマットされる。テキスト・データは１つ以上のテキスト配列を含むことができ、各テキスト配列は１つ以上の単語のグループ化を保持する。テキスト配列の例はセンテンス、パラグラフ、およびドキュメントなどを含む。しかし、テキスト・データは一般的に、公知の機械学習モデルによる直接的処理もしくは直接的分析またはその両方を受けることができない。なぜなら上記のとおり、テキスト・データには明確な特徴がないからである。代わりに、機械学習モデルによるテキスト・データの分析を促進するために、テキスト・データの特徴表現が学習される。数学的には、ドキュメントの集合（例、テキスト配列のセット）は下記式のとおりに表されてもよく、

ここでＮは、ドキュメントの集合におけるドキュメントの数である。各ドキュメントｘは次の単語ベクトルの集合体として表すことができ、

ここでＬ＝｜ｘ_ｉ｜は、集合におけるドキュメントの最大の長さであり、

はドキュメントの空間を示す。各ドキュメントは１つ以上の単語を含み得る。

ここで本発明の態様の概観をみると、本発明の１つ以上の実施形態は、ランダムな長さＤのランダム・ドキュメントの数Ｒを用いて、テキスト・データ中の単語間の距離測定値を低次元ユークリッド内積空間に変換することによって、たとえばセンテンス、パラグラフ、およびドキュメントなどの可変長のテキストに対するベクトル表現を学習する教師なしフレームワークを提供することによって、先行技術の上述の欠点に対処する。いくつかの実施形態において、このプロセスは、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することによって行われ、ここで各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各ランダム・テキスト配列のランダムな単語は分布から抜き取られる。結果として得られる特徴行列は、次いで機械学習出力を生成するために１つ以上の機械学習モデルへの入力として提供される。本発明の１つ以上の実施形態によって対処され得る問題の例は、公知のＫＮＮ−ＷＭＤに基づく技術を用いて正定値カーネルを評価するために必要とされる高い計算複雑性（例、Ｏ（Ｎ^２Ｌ^３ｌｏｇ（Ｌ））と、生テキスト・データおよび結果として得られるカーネル行列を保存するために必要とされる高いメモリ消費（例、Ｏ（ＮＬ））との低減を含む。

上述の問題に対処するために本発明の１つ以上の態様によって提供される技術的改善点の例は、Ｒ＜＜ＮおよびＤ＜＜Ｌに対するＯ（Ｎ^２Ｌ^３ｌｏｇ（Ｌ））からＯ（ＮＲＬＤ^２Ｌｌｏｇ（Ｌ））の既存のＫＮＮ−ＷＭＤに基づく技術の計算複雑性と、Ｒ＜＜Ｌに対するＯ（ＮＬ＋Ｎ）からＯ（ＮＲ）のメモリ消費との低減を含む。この計算およびメモリ・ストレージの両方の低減によって、たとえばＳＶＭなどの経験損失最小化（ＥＲＭ：ｅｍｐｉｒｉｃａｌｒｉｓｋｍｉｎｉｍｉｚａｔｉｏｎ）分類器と組み合わせるときのより効率的なトレーニングおよびテストが可能になる。

以下により詳細に説明されることとなるとおり、機械学習モデルによるテキスト・データの分析を促進するために、テキスト・データの特徴表現が学習され得る。テキスト・データ特徴表現は、さまざまな機械学習プロセスに用いられ得る。たとえば、ヘルス・インフォマティクスにおけるＥＣＧを用いた患者の疾患分類、およびたとえばウェアラブル医療デバイスからセンサを介して生成されたデータなどのモバイル健康アプリケーションに対するリアルタイム・データ分析において、テキスト・データ特徴表現が用いられ得る。一旦学習されたテキスト・データ表現は、ドキュメントの分類、クラスタリングおよび検索、ならびにたとえば感情分析などのテキスト分析に用いられ得る。さらに、一旦学習されたテキスト・データ表現は、テキスト・ドキュメントの機械読取りおよび翻訳を改善するために用いられ得る。

ここで本発明の態様のより詳細な説明をみると、図３は、本発明の１つ以上の実施形態を実現するために有用なコンピュータ・ベースのシステム３００の例を示す高レベルのブロック図を示している。１つの例示的なコンピュータ・システム３００が示されるが、コンピュータ・システム３００は通信経路３２６を含み、この通信経路３２６はコンピュータ・システム３００を付加的なシステムに接続し、かつ１つ以上の広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋｓ）もしくはローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋｓ）またはその両方、たとえばインターネット、イントラネット（単数または複数）、もしくは無線通信ネットワーク（単数または複数）、またはその組み合わせなどを含んでもよい。コンピュータ・システム３００および付加的なシステムは、（例、それらの間でデータを通信するために）通信経路３２６を介して通信している。

コンピュータ・システム３００は、たとえばプロセッサ３０２などの１つ以上のプロセッサを含む。プロセッサ３０２は、通信インフラストラクチャ３０４（例、通信バス、クロスオーバー・バー、またはネットワーク）に接続される。コンピュータ・システム３００は、グラフィックス、テキスト、およびその他のデータを通信インフラストラクチャ３０４（または図示されないフレーム・バッファ）からディスプレイ・ユニット３０８におけるディスプレイのために転送するディスプレイ・インタフェース３０６を含み得る。加えてコンピュータ・システム３００はメイン・メモリ３１０、好ましくはランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）を含み、かつ二次メモリ３１２も含んでもよい。二次メモリ３１２は、たとえばハード・ディスク・ドライブ３１４もしくはリムーバブル・ストレージ・ドライブ３１６またはその両方などを含んでもよく、リムーバブル・ストレージ・ドライブ３１６はたとえばフロッピー（登録商標）ディスク・ドライブ、磁気テープ・ドライブ、または光ディスク・ドライブなどを表す。リムーバブル・ストレージ・ドライブ３１６は、当業者に周知の方式でリムーバブル・ストレージ・ユニット３１８からの読取りもしくはそこへの書込みまたはその両方を行う。リムーバブル・ストレージ・ユニット３１８は、たとえばリムーバブル・ストレージ・ドライブ３１６によって読取りおよび書込みが行われるフロッピー（登録商標）ディスク、コンパクト・ディスク、磁気テープ、または光ディスクなどを表す。認識されるであろうとおり、リムーバブル・ストレージ・ユニット３１８は、コンピュータ・ソフトウェアもしくはデータまたはその両方が保存されたコンピュータ可読媒体を含む。

本発明のいくつかの代替的実施形態において、二次メモリ３１２は、コンピュータ・プログラムまたはその他の命令がコンピュータ・システムにロードされることを可能にするための、他の類似の手段を含んでもよい。こうした手段は、たとえばリムーバブル・ストレージ・ユニット３２０およびインタフェース３２２などを含んでもよい。こうした手段の例は、プログラム・パッケージおよびパッケージ・インタフェース（たとえばビデオ・ゲーム・デバイスに見出されるものなど）、リムーバブル・メモリ・チップ（たとえばＥＰＲＯＭまたはＰＲＯＭなど）および関連するソケット、ならびにその他のリムーバブル・ストレージ・ユニット３２０およびそのリムーバブル・ストレージ・ユニット３２０からコンピュータ・システム３００にソフトウェアおよびデータを移送することを可能にするインタフェース３２２を含んでもよい。

加えて、コンピュータ・システム３００は通信インタフェース３２４を含んでもよい。通信インタフェース３２４は、ソフトウェアおよびデータがコンピュータ・システムと外部デバイスとの間で移送されることを可能にする。通信インタフェース３２４の例はモデム、ネットワーク・インタフェース（たとえばイーサネット（Ｅｔｈｅｒｎｅｔ）（登録商標）カードなど）、通信ポート、またはＰＣＭ−ＣＩＡスロットおよびカードなどを含んでもよい。通信インタフェース３２４を介して移送されるソフトウェアおよびデータは信号の形であり、それはたとえば通信インタフェース３２４によって受信されることが可能な電子、電磁、光、またはその他の信号などであってもよい。これらの信号は、通信経路（すなわちチャネル）３２６を介して通信インタフェース３２４に提供される。通信経路３２６は信号を運ぶものであり、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、ＲＦリンク、もしくはその他の通信チャネル、またはその組み合わせを用いて実現されてもよい。

本開示における「コンピュータ・プログラム媒体」、「コンピュータ使用可能媒体」、および「コンピュータ可読媒体」という用語は、たとえばメイン・メモリ３１０および二次メモリ３１２、リムーバブル・ストレージ・ドライブ３１６、およびハード・ディスク・ドライブ３１４に挿入されたハード・ディスクなどの媒体を一般的に示すために用いられる。コンピュータ・プログラム（コンピュータ制御ロジックとも呼ばれる）は、メイン・メモリ３１０もしくは二次メモリ３１２またはその両方に保存される。加えて、コンピュータ・プログラムは通信インタフェース３２４を介して受信されてもよい。こうしたコンピュータ・プログラムは、実行されるときに、コンピュータ・システムが本明細書において考察される本開示の特徴を実行することを可能にする。特にコンピュータ・プログラムは、実行されるときに、プロセッサ３０２がコンピュータ・システムの特徴を実行することを可能にする。したがってこうしたコンピュータ・プログラムは、コンピュータ・システムのコントローラを表す。図４は、本発明の１つ以上の実施形態によるテキスト・データに対する教師なし特徴表現学習を促進する、非限定的なシステム４００の例のブロック図を示している。システム４００は、ランダム・ドキュメント埋め込みを介して正定値カーネルを近似することによって、生テキスト・データに対する特徴表現を学習するように構成されており、これは特に、テキスト・データ中の単語間の距離測定値をランダム・ドキュメント埋め込みを用いてランダム化された低次元特徴空間に変換することによって行われ、ここでは多様なタスクを行うためのさまざまな機械学習法と組み合わされ得る特徴表現を生成するために、ランダムな長さＤのランダム・テキスト配列の数Ｒが用いられる。

システム４００は、たとえば機械学習技術、テキスト・データ処理技術、データ分析技術、データ分類技術、データ・クラスタリング技術、軌道／行程分析技術、医療デバイス技術、協調フィルタリング技術、推薦システム技術、信号処理技術、単語埋め込み技術、トピック・モデル技術、画像処理技術、ビデオ処理技術、オーディオ処理技術、もしくはその他のデジタル技術、またはその組み合わせなどであるがそれに限定されない技術に関連するさまざまな技術的問題点（例、予め知られていない機能的関係の学習）を解決するために使用され得る機械学習システムである。システム４００は、技術性の高い性質であり、抽象的でなく、かつ人間による精神的活動のセットとして行われ得ない問題を解決するために、ハードウェアもしくはソフトウェアまたはその両方を使用する。本発明の特定の実施形態において、システム４００によって行われるプロセスのいくつかまたはすべては、機械学習に関係する定められたタスクを行うための１つ以上の専門化したコンピュータ（例、１つ以上の専門化した処理ユニット、テキスト・データ・コンポーネントを有する専門化したコンピュータなど）によって行われる。本発明のいくつかの実施形態において、上述の技術、テキスト・データの使用、機械学習プロセス、もしくはコンピュータ・アーキテクチャ、またはその組み合わせなどにおける進歩によって起こる新たな問題を解決するために、システム４００もしくはそのシステムのコンポーネントまたはその両方が使用される。本発明の１つ以上の実施形態において、システム４００は上述の技術的改善を、テキスト・データ・システム、機械学習システム、人工知能システム、データ分析システム、データ分類システム、データ・クラスタリング・システム、軌道／行程分析システム、医療デバイス・システム、協調フィルタリング・システム、推薦システム、信号処理システム、単語埋め込みシステム、トピック・モデル・システム、画像処理システム、ビデオ処理システム、もしくはその他のデジタル・システム、またはその組み合わせに提供する。本発明の１つ以上の実施形態において、システム４００は、中央処理ユニットの処理性能の改善、中央処理ユニットの計算ボトルネックの低減、中央処理ユニットの処理効率の改善、もしくは中央処理ユニットが機械学習プロセスを行うための時間の長さの低減、またはその組み合わせによって、機械学習プロセスに関連する中央処理ユニットにも技術的改善を提供する。

図４において、システム４００はテキスト・データ・コンポーネント４０２を含み、このテキスト・データ・コンポーネント４０２は分布生成コンポーネント４０４と、参照テキスト・データ生成コンポーネント４０６と、特徴行列生成コンポーネント４０８と、機械学習コンポーネント４１０とを含む。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント４０２は、機械（単数または複数）において具現化される（例、１つ以上の機械に関連する１つ以上のコンピュータ可読媒体（または複数の媒体）において具現化される）、機械で実行可能なコンポーネント（単数または複数）を構成する。こうしたコンポーネント（単数または複数）は、１つ以上の機械（例、コンピュータ（単数または複数）、コンピューティング・デバイス（単数または複数）、仮想機械（単数または複数）など）によって実行されるときに、その機械（単数または複数）に記載される動作を行わせる。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント４０２は、コンピュータが実行可能なコンポーネントおよび命令を保存するメモリ４１２を含む。さらに、本発明のいくつかの実施形態におけるテキスト・コンポーネント４０２は、テキスト・データ・コンポーネント４０２による命令（例、コンピュータが実行可能なコンポーネントおよび対応する命令）の実行を促進するためのプロセッサ４１４を含む。示されるとおり、本発明の１つ以上の実施形態において、分布生成コンポーネント４０４、参照テキスト・データ生成コンポーネント４０６、特徴行列生成コンポーネント４０８、機械学習コンポーネント４１０、メモリ４１２、もしくはプロセッサ４１４、またはその組み合わせは、互いに電気的もしくは通信的に、またはその両方で結合される。

一般的に、テキスト・データ・コンポーネント４０２はテキスト・データ４１６を受信して、機械学習出力４１８を出力するように構成される。テキスト・データ４１６は、テキスト・データのストリームまたは配列を含む。本発明のいくつかの実施形態において、テキスト・データ４１６はテキスト・データの２つまたはそれ以上の配列、たとえば２つのドキュメント、１つのドキュメントおよびパラグラフ、２つのパラグラフ、１つのパラグラフおよびセンテンスなどを含む。本発明のいくつかの実施形態において、テキスト・データ４１６は生テキスト（例、未処理のテキスト・データ）である。

分布生成コンポーネント４０４は、システム４００による使用のための１つ以上の確率分布を生成するように構成される。本発明のいくつかの実施形態において、分布生成コンポーネント４０４は、生テキスト・データ４１６に属するメタデータを生成する。たとえば本発明のいくつかの実施形態において、分布生成コンポーネント４０４は、生テキスト・データ４１６の確率分布を生成する。本発明のいくつかの実施形態においては、生テキスト・データ４１６から確率分布を生成するのではなく、分布生成コンポーネントはランダムな分布を生成または選択する。本発明のいくつかの実施形態において、分布は、たとえばＷｏｒｄ２Ｖｅｃ空間などの事前学習済み単語ベクトル空間の使用を通じて生成される。本発明のいくつかの実施形態において、分布は、たとえばＷｏｒｄ２Ｖｅｃライブラリなどの単語ベクトル・ライブラリを用いて、ドメイン・テキスト・コーパスをトレーニング（学習）することによって生成される。分布生成コンポーネント４０４は、結果として得られる分布をさらなる処理のために参照テキスト・データ生成コンポーネント４０６に送信するように構成される。

参照テキスト・データ生成コンポーネント４０６および特徴行列生成コンポーネント４０８はともに、ランダムな特徴に基づく近似プロセスを行う。特に、参照テキスト・データ生成コンポーネント４０６は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成され、このランダム・テキスト配列内のテキスト配列はランダムな長さであり、かついくつかのランダムな単語を含む。テキスト・データ４１６の最適なアライメントを獲得するために、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされる。セット内の各ランダム・テキスト配列に対応する単語は、分布生成コンポーネント４０４によって提供される分布から抜き取られる。本発明のいくつかの実施形態において、最小の長さおよび最大の長さは、システム４００によって選択、提供、予め決定、または自動的に学習されたパラメータである。本発明のいくつかの実施形態において、最小の長さは１であり、最大の長さは５である。ランダム・テキスト配列のセットを含む参照テキスト・データを生成した後、生成コンポーネント４０６はその参照テキスト・データを特徴行列生成コンポーネント４０８に送信する。特徴行列生成コンポーネント４０８は、生成されたランダム・テキスト配列のセットとテキスト・データ４１６との間の計算された距離のセットに少なくとも部分的に基づいて、テキスト・データ４１６に対する特徴行列を生成するように構成される。本発明のいくつかの実施形態において、テキスト・データ４１６とランダム・テキスト配列のセットとの間の特徴ベクトルのセットが計算される。本発明のいくつかの実施形態において、特徴ベクトルのセットは、たとえばＷｏｒｄＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ（ＷＭＤ）の使用などのドキュメント距離測定技術の使用を通じて生成される。他の好適なドキュメント距離測定技術が使用されてもよい。次いで特徴ベクトルが連結されて、特徴行列を形成する。本発明のいくつかの実施形態において、特徴ベクトルもしくは特徴行列またはその両方は、当業者に公知のとおりに単語ベクトル空間を測定するために用いられ得る他の好適な距離関数を介して生成される。

参照テキスト・データ生成コンポーネント４０６および特徴行列生成コンポーネント４０８によって行われる機能のいくつかは、１つ以上のアルゴリズムを介して数学的に表され得る。たとえば、カーネル近似を計算するために、たとえば以下に説明されるものなどのモンテ・カルロ（ＭＣ：ＭｏｎｔｅＣａｒｌｏ）に基づく分析方法が実現され、ここではカーネル空間においてランダム特徴が評価される。本発明のいくつかの実施形態において、正定値カーネルを計算するために、ランダム・ドキュメントの集合（例、ランダム・テキスト配列のセット）を用いて、テキスト・データ中の単語間の距離測定値を低次元ユークリッド内積空間に変換し、これは単語ベクトル埋め込み空間において表される単語のセットと、テキストおよびランダム・ドキュメントとの間のアライメントを見出すためにたとえばＷＭＤなどの距離測定を利用することによって行われる。よって、ＷＭＤカーネルのカーネル評価は、下記式の変換された特徴表現の内積によって近似され得る。

ここで

は、分布ｐ（ω）から抜き取られた独立かつ同一の分布（ｉ．ｉ．ｄ．：ｉｎｄｅｐｅｎｄｅｎｔｌｙａｎｄｉｄｅｎｔｉｃａｌｌｙｄｉｓｔｒｉｂｕｔｅｄ）のランダム・ドキュメントを表し、ここでｐ（ω）は次のとおりに示されるすべての可能なドキュメントの空間にわたる分布を表す。

分布ｐ（ω）は、意味のあるランダムな単語を生成するために、たとえばＷｏｒｄ２Ｖｅｃ埋め込み空間などの単語ベクトル埋め込み空間の特徴を十分に獲得した分布である。すべての可能なドキュメントの空間

は、ドキュメントｘとすべての可能なランダム・ドキュメントω∈Ωとの間の距離測定から導出される無限次元特徴マップを表す。たとえばドキュメントｘが与えられるとき、特徴ベクトル

がこの与えられたドキュメントｘに対して生成され、ここでφ_ω（ｘ）：＝ｅｘｐ（−γＷＭＤ（ｘ，ω））である。

テキスト・ドキュメント（例、テキスト配列）間の距離を測定するために、たとえばＷＭＤなどの距離測定が用いられ得る。たとえば、第１のテキスト・ドキュメントｘおよび第２のドキュメントｙがｘ，ｙ∈Ｘとして与えられるとき、単語ｘとｙとのアライメントを考慮してＷＭＤ測定が算出される。よって、各ドキュメントの長さ｜ｘ｜、｜ｙ｜が、ｘおよびｙにおける別個の単語ｗ１．．．，ｗＬの数（Ｌ＝｜｜ｘ｜｜または｜｜ｙ｜｜）であり、かつ

がｘおよびｙのそれぞれにおける各単語の正規化周波数ベクトルであるとき（すなわち下記式であるとき）、

ＷＭＤは次のとおりに定められ得る。

Ｆは輸送の流れの行列を表し、ここでＦ_ｉｊはｘにおける単語ｉからｙにおける単語ｊまで移動する流れの量を示し、Ｃは輸送コスト（例、地上距離）を表し、ここでＣ_ｉｊ：＝ｄｉｓｔ（ｖ_ｉ，ｖ_ｊ）であり、これはたとえばＷｏｒｄ２Ｖｅｃ埋め込み空間などの単語ベクトル埋め込み空間において測定された２つの単語の間の距離である。
＜ｚ（ｘ），ｚ（ｙ）＞の分散を低くするために、ＭＣ法を適用して以下を計算できる。

行列生成コンポーネント４０８は、ＷＭＤ測定に少なくとも部分的に基づいて次の特徴ベクトルを生成し、

ここでｗ_ｊは長さＤのランダム・テキスト配列であり、テキスト配列の各単語は分布ｐ（ω）から抜き取られている。この計算は、数Ｄ_ｊのランダムな単語からなるランダム・ドキュメントｗ_ｊを生成することによって行うことができ、ランダムな単語の各々はｐ（ω）から抜き取られた単語ベクトルｖ_ｊに関連付けられ、各Ｄ_ｊは［ＤＭｉｎ，ＤＭａｘ］からサンプリングされる。実現の一例において、ランダムな単語の最小数ＤＭｉｎは１であり、ランダムな単語の最大数ＤＭａｘは５である。

特徴ベクトルが生成された後、各ドキュメントの特徴ベクトルを連結することによって、特徴行列Ｚ_ＮｘＲが作成される。以下に示されるアルゴリズムは、生テキスト・データに対する特徴行列および特徴ベクトルを生成するための手順の一例である。

本発明のいくつかの実施形態において、分布ｐ（ω）はエンドユーザによって、たとえばＷｏｒｄ２Ｖｅｃ空間などの事前学習済みの単語ベクトル空間を用いるか、またはたとえばＷｏｒｄ２Ｖｅｃライブラリなどの単語ベクトル・ライブラリを用いてエンドユーザのドメイン・テキスト・コーパスをトレーニングすることによって、生成もしくは取得されるか、またはその両方である。本発明のいくつかの実施形態において、最適なアライメントに対する事前情報がシステムに提供されていないとき、システムはランダム・ドキュメントの長さをサンプリングしてＤの不偏推定値を与える。これはたとえば、予め確立されたＷｏｒｄ２Ｖｅｃ空間の分布などのランダムな分布を選択することなどによって達成されてもよい。本発明の特定の実施形態において、予め確立されたＷｏｒｄ２Ｖｅｃ空間は、第３者によって提供されてもよい。本発明のいくつかの実施形態において、たとえば単語ベクトルのＤＭｉｎおよびＤＭａｘなどの付加的なメタデータは、エンドユーザによって生成されるか、またはシステムに提供される。
入力：下記式のテキスト・ドキュメント、１＜｜ｘｉ｜＜Ｌ、ＤＭｉｎ、ＤＭａｘ、Ｒ、ランダム・ドキュメントの分布ｐ（ω）。

出力：任意の長さのテキストに対する特徴行列Ｚ_Ｎ×Ｒ
１：ｊ＝１，．．．，Ｒに対して
２：Ｄ_ｊを［ＤＭｉｎ，ＤＭａｘ］から均一に抜き取る。数Ｄ_ｊのランダムな単語からなるランダム・ドキュメントω_ｊを生成し、各関連単語ベクトルｖ_ｊは分布ｐ（ω）から抜き取られる。
３：ＷＭＤを用いて下記式の特徴ベクトルを計算する。

４：以下に対して終了する
５：下記式の特徴行列を戻す

本発明のいくつかの実施形態において、分布ｐ（ω）はエンドユーザによって、たとえばＷｏｒｄ２Ｖｅｃ空間などの事前学習済みの単語ベクトル空間を用いるか、またはたとえばＷｏｒｄ２Ｖｅｃライブラリなどの単語ベクトル・ライブラリを用いてエンドユーザのドメイン・テキスト・コーパスをトレーニングすることによって、生成もしくは取得されるか、またはその両方である。本発明のいくつかの実施形態において、最適なアライメントに対する事前情報がシステムに提供されていないとき、システムはランダム・ドキュメントの長さをサンプリングしてＤの不偏推定値を与える。これはたとえば、予め確立されたＷｏｒｄ２Ｖｅｃ空間の分布などのランダムな分布を選択することなどによって達成されてもよい。本発明の特定の実施形態において、予め確立されたＷｏｒｄ２Ｖｅｃ空間は、第３者によって提供されてもよい。本発明のいくつかの実施形態において、たとえば単語ベクトルのＤＭｉｎおよびＤＭａｘなどの付加的なメタデータは、エンドユーザによって生成されるか、またはシステムに提供される。

上に示したとおり、ＫＮＮに基づくＷＭＤ法と比べて、上記において特定された近似法は、Ｄが定数として扱われるときにはＯ（ＮＲＬｌｏｇ（Ｌ））計算の超線形の複雑性のみを必要とする。この計算の劇的な低減によって、たとえばＳＶＭなどの経験損失最小化（ＥＲＭ）分類器と組み合わせるときのより効率的なトレーニングおよびテストが可能になる。

図４に戻って参照すると、機械学習コンポーネント４１０は、テキスト・データ４１６に対して生成された特徴行列に少なくとも部分的に基づいて機械学習モデルを処理する。本発明のいくつかの実施形態において、特徴行列生成コンポーネント４０８によって生成された特徴行列は、機械学習コンポーネント４１０によって実行される機械学習モデルに対する入力として提供される。本発明の特定の実施形態において、機械学習コンポーネント４１０は、時系列データ４１６の一部によって特徴行列の一部を処理するために、並列計算を使用する。たとえば本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、テキスト・データ４１６の１つ以上の部分を並列して処理する２つまたはそれ以上のプロセッサに関連する並列計算を行う。一例において、機械学習コンポーネント４１０は、生成された特徴行列を用いて分類機械学習モデルを実行する。本発明のいくつかの実施形態において、分類機械学習モデルとは、テキスト・データ４１６を１つ以上のカテゴリにマップする機械学習モデルである。別の例において、機械学習コンポーネント４１０は、生成された特徴行列を用いて回帰機械学習モデルを実行する。回帰機械学習モデルとは、たとえばテキスト・データ４１６のテキスト配列間の関係を定める機械学習モデルであり得る。さらに別の例において、機械学習コンポーネント４１０は、生成された特徴行列を用いてクラスタリング機械学習モデルを実行する。本発明のいくつかの実施形態において、クラスタリング機械学習モデルとは、テキスト・データ４１６からの関連データをグループ化して対応するグループにする機械学習モデル、たとえば近傍アルゴリズムなどである。機械学習コンポーネント４１０は、機械学習出力４１８を生成する。本発明のいくつかの実施形態において、機械学習出力４１８は、生成された特徴行列に少なくとも部分的に基づいて機械学習コンポーネント４１０によって処理された機械学習モデルによって生成される。本発明のいくつかの実施形態において、機械学習出力４１８は１つ以上の推論の提供、１つ以上の予測の提供、および／またはテキスト・データ４１６（例えば１つ以上のテキスト配列）の間の１つ以上の関係の決定を行う。このようにして、本発明の特定の実施形態において、テキスト・データ４１６の直接分析もしくは直接処理またはその両方が提供される。さらに、機械学習モデルが入力として行列を使用すること、もしくは生テキスト・データを直接分析すること、またはその両方を可能にすることによって、機械学習プロセス（例、機械学習を行うための速度、もしくは機械学習のために使用されるメモリの量、またはその両方）に関するプロセッサ（例、プロセッサ４１４）の性能が改善され得る。さらに、機械学習モデルが入力として行列を使用すること、もしくは生テキスト・データを直接分析すること、またはその両方を可能にすることによって、機械学習プロセスに関連するプロセッサ（例、プロセッサ４１４）の処理能力が改善され得る。本発明のいくつかの実施形態においては、システム４００によって間接的な分析が行われ、このためテキスト・データ４１６はシステム４００によって直接分析されない。テキスト・データ・コンポーネント４０２（例、分布生成コンポーネント４０４、参照テキスト・データ生成コンポーネント４０６、特徴行列生成コンポーネント４０８、もしくは機械学習コンポーネント４１０、またはその組み合わせ）は、時系列データ（例、テキスト・データ４１６）に関連する分布生成プロセス、参照テキスト・データ生成プロセス、特徴行列生成プロセス、および／または機械学習プロセスを行い、これは人間が行うことのできない（例、単独の人間の能力より大きい）プロセスである。たとえば、特定の期間にわたってテキスト・データ・コンポーネント４０２（例、分布生成コンポーネント４０４、参照テキスト・データ生成コンポーネント４０６、特徴行列生成コンポーネント４０８、もしくは機械学習コンポーネント４１０、またはその組み合わせ）によって処理される、処理されるテキスト・データの量、テキスト・データの処理速度、および／またはテキスト・データのデータ・タイプは、同じ期間にわたって単独の人間が処理できる量、速度、およびデータ・タイプよりも大きく、速く、異なるものであり得る。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント４０２（例、分布生成コンポーネント４０４、参照テキスト・データ生成コンポーネント４０６、特徴行列生成コンポーネント４０８、もしくは機械学習コンポーネント４１０、またはその組み合わせ）は、１つ以上の他の機能を行うために完全に動作可能である（例、完全にパワー・オンされる、完全に実行されるなど）一方で、上記において参照した分布生成プロセス、参照テキスト・データ生成プロセス、特徴行列生成プロセス、および／または機械学習プロセスも行っている。さらに、本発明のいくつかの実施形態において、テキスト・データ・コンポーネント４０２（例、分布生成コンポーネント４０４、参照テキスト・データ生成コンポーネント４０６、特徴行列生成コンポーネント４０８、もしくは機械学習コンポーネント４１０、またはその組み合わせ）によって生成される機械学習出力（例、機械学習出力４１８）は、ユーザが手動で得ることが不可能な情報を含む。たとえば、本発明のいくつかの実施形態において、機械学習出力（例、機械学習出力４１８）に含まれる情報の量、もしくは機械学習出力（例、機械学習出力４１８）に含まれる情報の多様性、またはその両方は、ユーザが手動で得る情報よりも複雑である。

本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、生成された特徴行列に少なくとも部分的に基づいて少なくとも１つの機械学習モデルを実行するために、１つ以上の人工知能技術を使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、人工知能の原理に少なくとも部分的に基づいて、生成された特徴行列から相関、推論、および／または表現を示す情報を抽出する。本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、生成された特徴行列を用いた少なくとも１つの機械学習モデルの実行に少なくとも部分的に基づいて、機械学習出力４１８を生成する。本発明のいくつかの実施形態において、機械学習出力４１８は、たとえば生成された特徴行列に関連する学習、相関、推論、および／または表現などを含む。

本発明のいくつかの実施形態において、機械学習コンポーネント４１０は明示的または暗示的に、生成された特徴行列に関する学習を行う。本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、生成された特徴行列の分析を促進するために、自動分類システムもしくは自動分類プロセスまたはその両方を使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、生成された特徴行列に関する推論の学習もしくは生成またはその両方を行うために、確率的分析もしくは統計に基づく分析またはその両方（例、分析ユーティリティおよびコストへのファクタリング）を使用する。機械学習コンポーネント４１０はたとえば、生成された特徴行列に対する推論の学習もしくは生成またはその両方を行うために、サポート・ベクトル・マシン（ＳＶＭ：ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）分類器などを使用する。付加的または代替的に、本発明のいくつかの実施形態において、機械学習コンポーネント４１０はベイジアン・ネットワーク、決定木、および／または確率的分類モデルに関連する他の分類技術を使用する。機械学習コンポーネント４１０によって使用される分類器は、（例、一般的なトレーニング・データを介して）明示的にトレーニングされることも、（例、外部の情報を受信することを介して）暗示的にトレーニングされることもできる。たとえばＳＶＭに関して、ＳＶＭは、分類器コンストラクタおよび特徴選択モジュール内の学習またはトレーニング段階を介して構成され得る。分類器とは、たとえば入力属性ベクトルｘ＝（ｘ_１、ｘ_２、ｘ_３、ｘ_４、ｘ_ｎ）を、その入力があるクラスに属するという信頼性に対してマップする関数であり得る。すなわち、ｆ（ｘ）＝信頼性（クラス）。

本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、学習を促進するために推論に基づくスキームを部分的に使用すること、もしくは生成された特徴行列に対する推論を生成すること、またはその両方を行う機械学習コンポーネント４１０の自動化態様をさらに促進する推論コンポーネント（図示せず）を含む。本発明のいくつかの実施形態において、機械学習コンポーネント４１０は任意の好適な機械学習に基づく技術、統計に基づく技術、もしくは確率に基づく技術、またはその組み合わせを使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント４１０はエキスパート・システム、ファジィ論理、ＳＶＭ、隠れマルコフ・モデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）、欲張り探索アルゴリズム、ルールに基づくシステム、ベイジアン・モデル（例、ベイジアン・ネットワーク）、ニューラル・ネットワーク、および／またはその他の非線形トレーニング技術、データ融合、ユーティリティに基づく分析システム、ベイジアン・モデルを使用するシステムなどを使用する。本発明のいくつかの実施形態において、機械学習コンポーネント４１０は、生成された特徴行列の分析に関連する機械学習計算のセットを行う。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント４１０はクラスタリング機械学習計算のセット、ロジスティック回帰機械学習計算のセット、決定木機械学習計算のセット、ランダム・フォレスト機械学習計算のセット、回帰木機械学習計算のセット、最小二乗機械学習計算のセット、インスタンスに基づく機械学習計算のセット、回帰機械学習計算のセット、サポート・ベクトル回帰機械学習計算のセット、ｋ平均機械学習計算のセット、スペクトル・クラスタリング機械学習計算のセット、ガウス混合モデル機械学習計算、正則化機械学習計算のセット、ルール学習機械学習計算のセット、ベイジアン機械学習計算のセット、ディープ・ボルツマン・マシン計算のセット、ディープ・ビリーフ・ネットワーク計算のセット、畳み込みニューラル・ネットワーク計算のセット、積層オートエンコーダ計算のセット、もしくは異なる機械学習計算のセット、またはその組み合わせを行う。

図５に示される実施形態において、システム５００は第１者コンポーネント５０２と、第２者コンポーネント５０４とを含む２者間プロトコル・システムである。この環境は、テキスト・データ（例、テキスト・データ４１６）のプライバシーが問題となる状況に対して特に有用である。たとえば、顧客が分析プロバイダによるテキスト・データに対する機械学習が行われることを希望するが、そのテキスト・データを分析プロバイダに移送することを望まないか、または移送できないとき、本発明のいくつかの実施形態においては、以下に特定される方式において、第１者コンポーネント５０２が顧客によって使用され、第２者コンポーネント５０４が分析プロバイダによって使用される。

図５に示されるとおり、第１者コンポーネント５０２は分布生成コンポーネント４０４と、特徴行列生成コンポーネント４０８とを含む。第２者コンポーネント５０４は参照テキスト・データ生成コンポーネント４０６と、機械学習コンポーネント４１０とを含む。本発明のいくつかの実施形態において、第１者コンポーネント５０２もしくは第２者コンポーネント５０４またはその両方が、プロセッサ４１０およびメモリ４１２を含む。

本発明のいくつかの実施形態において、第１者コンポーネントの分布生成コンポーネント４０４は、たとえばテキスト・データ４１６から確率分布５０６を生成することなどによって、テキスト・データ４１６に属するメタデータ情報を生成するように構成される。本発明のいくつかの実施形態において、分布生成コンポーネント４０４は、生成されたテキスト・データ４１６の確率分布５０６を第２者コンポーネント５０４に送信する。本発明のいくつかの実施形態において、第１者コンポーネント５０２は、テキスト・データ４１６に属するメタデータ情報を生成することも、第２者コンポーネント５０４に提供することもしない。

第１者コンポーネント５０２の特徴行列生成コンポーネント４０８は、第２者コンポーネント５０４から生成された参照テキスト・データ５０８を受信して、生成されたテキスト・データ５０８のランダム・テキスト配列のセットに少なくとも部分的に基づいて特徴行列５１０を生成するように構成される。特徴行列生成コンポーネント４０８はさらに、生成された特徴行列５１０を第２者コンポーネント５０４に送信するように構成される。

本発明のいくつかの実施形態において、第２者コンポーネント５０４の参照テキスト・データ生成コンポーネント４０６は、第１者コンポーネント５０２から生成されたメタデータ情報（例、確率分布５０６）を受信して、ランダム配列のセットを含む参照テキスト・データ５０８を生成するように構成される。本発明のいくつかの実施形態において、第２者コンポーネント５０４は、時系列データ４１６に属するメタデータ情報を受信しない。それらの場合のいくつかにおいて、第２者コンポーネント５０４は、たとえばガウス分布などのランダムな分布を選択または生成することとなる。さらに本発明のいくつかの実施形態において、参照テキスト・データ生成コンポーネント４０６は、参照テキスト・データ５０８を第１者コンポーネント５０２に送信するように構成される。

第２者コンポーネント５０４の機械学習コンポーネント４１０は、第１者コンポーネント５０２から生成された特徴行列５１０を受信して、その生成された特徴行列５１０を１つ以上の機械学習モデルへの入力として提供するように構成される。第２者コンポーネント５０４の機械学習コンポーネント４１０はさらに、機械学習モデルからの機械学習出力４１８を第１者コンポーネント５０２に送信するように構成される。

ここでシステム４００およびシステム５００の動作の付加的な詳細を、図６を参照しながら説明することとする。図６は、本発明の１つ以上の実施形態による方法６００を示す流れ図である。６０２において、ランダム配列のセットを含む参照テキスト・データが生成され、各配列はランダムな長さであり、各テキスト配列はある数のランダムな単語を含む。この実施形態においては、プロセッサに動作的に結合されたシステム（例、参照テキスト・データ生成コンポーネント４０６）によって、参照テキスト・データが生成される。６０４において、システム（例、特徴行列生成コンポーネント４０８）によって、生テキスト・データに対する特徴行列が生成され、この特徴行列は、ランダム・テキスト配列のセットの生成されたセットと、生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成される。６０８において、生成された特徴行列に少なくとも部分的に基づいて、システム（例、機械学習コンポーネント４１０）によって１つ以上の機械学習モデルが実行される。

本発明は、統合の任意の可能な技術的詳細レベルにおけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体（または複数の媒体）を含んでもよい。

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および保存できる有形デバイスであり得る。コンピュータ可読ストレージ媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的リストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ：ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラマブル・リード・オンリ・メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ−ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリ・スティック、フロッピー（登録商標）ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読ストレージ媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波（例、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号など、それ自体が一時的信号のものであると解釈されるべきではない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされ得るか、またはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎ−ｓｅｔ−ａｒｃｈｉｔｅｃｔｕｒｅ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または１つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばＳｍａｌｌｔａｌｋ、またはＣ＋＋など、および手続き型プログラミング言語、たとえば「Ｃ」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、（たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータへの接続が行われてもよい。本発明のいくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙｓ）などを含む電子回路は、本発明の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。

本明細書においては、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実現され得ることが理解されるだろう。

これらのコンピュータ可読プログラム命令は、汎用目的コンピュータ、特定目的コンピュータ、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実現するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイスまたはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読ストレージ媒体にも保存されることによって、命令が保存されたコンピュータ可読ストレージ媒体が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作の態様を実現する命令を含む製造物を含んでもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実現されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実現してもよい。

図面における流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を示すものである。これに関して、流れ図またはブロック図の各ブロックは、指定される論理機能（単数または複数）を実現するための１つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。いくつかの代替的実施において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される２つのブロックは、実際には実質的に同時に実行されてもよいし、関与する機能によってはこれらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方のブロックの組み合わせは、指定された機能を行うか、特定目的のハードウェアおよびコンピュータ命令の組み合わせを実施または実行する特定目的のハードウェア・ベースのシステムによって実現され得ることが注目されるだろう。

本発明のさまざまな実施形態の説明を例示の目的のために提供したが、包括的になったり、開示される実施形態に限定されたりすることは意図されていない。記載される実施形態の範囲から逸脱することなく、当業者には多くの修正および変更が明らかになるだろう。本明細書において用いられる用語は、実施形態の原理、実際の適用、もしくは市場に見出される技術に対する技術的改善点を最もよく説明するため、または他の当業者が本明細書に記載される実施形態を理解できるようにするために選択されたものである。

Claims

テキスト・データに対する教師なし特徴表現学習を行うための、コンピュータに実現される方法であって、
プロセッサ・システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
前記プロセッサ・システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
前記プロセッサ・システムによって、前記特徴行列を１つ以上の機械学習モデルへの入力として提供することとを含む、コンピュータに実現される方法。
前記特徴行列を生成することは、
前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項１に記載のコンピュータに実現される方法。
前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項１または２に記載のコンピュータに実現される方法。
前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項１または２に記載のコンピュータに実現される方法。
前記単語ベクトル空間は、事前学習済みのｗｏｒｄ２ｖｅｃ埋め込み空間を含む、請求項４に記載のコンピュータに実現される方法。
前記単語ベクトル空間は、学習済みのｗｏｒｄ２ｖｅｃ埋め込み空間を含む、請求項４に記載のコンピュータに実現される方法。
前記プロセッサ・システムは、第１者コンポーネントおよび第２者コンポーネントを含む２者間プロトコル・システムを含み、前記第１者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第２者コンポーネントに送信し、前記第２者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第２者コンポーネントに送信するように構成される、請求項４〜６のいずれか一項に記載のコンピュータに実現される方法。
前記第２者コンポーネントは、前記第１者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第１者コンポーネントに送信し、前記第１者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記１つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第１者コンポーネントに送信するように構成される、請求項７に記載のコンピュータに実現される方法。
テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは方法を行うように構成された１つ以上のプロセッサを含み、前記方法は、
前記システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
前記システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
前記システムによって、前記特徴行列を１つ以上の機械学習モデルへの入力として提供することとを含む、システム。
前記特徴行列を生成することは、
前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項９に記載のシステム。
前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項９または１０のいずれかに記載のシステム。
前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項９または１０のいずれかに記載のシステム。
前記単語ベクトル空間は、事前学習済みのｗｏｒｄ２ｖｅｃ埋め込み空間を含む、請求項１２に記載のシステム。
前記単語ベクトル空間は、学習済みのｗｏｒｄ２ｖｅｃ埋め込み空間を含む、請求項１２に記載のシステム。
前記システムは、第１者コンポーネントおよび第２者コンポーネントを含む２者間プロトコル・システムを含み、前記第１者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第２者コンポーネントに送信し、前記第２者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第２者コンポーネントに送信するように構成される、請求項１２〜１４のいずれか一項に記載のシステム。
前記第２者コンポーネントは、前記第１者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第１者コンポーネントに送信し、前記第１者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記１つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第１者コンポーネントに送信するように構成される、請求項１５に記載のシステム。
テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
プロセッサと、
メモリと、
生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成された参照テキスト・データ生成コンポーネントであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られる、参照テキスト・データ生成コンポーネントと、
機械学習コンポーネントとを含み、前記機械学習コンポーネントは、
前記生テキスト・データに対する特徴行列を受信するように構成され、前記特徴行列は、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成され、前記機械学習コンポーネントはさらに、
前記特徴行列を１つ以上の機械学習モデルへの入力として提供するように構成される、システム。
テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
プロセッサと、
メモリと、
生テキスト・データの確率分布を生成するように構成された分布生成コンポーネントであって、前記生テキスト・データの確率分布は、事前学習済みまたは学習されたｗｏｒｄ２ｖｅｃ埋め込み空間に少なくとも部分的に基づいて生成される、分布生成コンポーネントと、
特徴行列生成コンポーネントとを含み、前記特徴行列生成コンポーネントは、
ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成され、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られ、前記特徴行列生成コンポーネントはさらに、
ドキュメント距離測定技術を用いて計算された、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成するように構成される、システム。
テキスト・データに対する教師なし特徴表現学習を行うためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
処理回路によって可読であり、かつ請求項１〜８のいずれか一項に記載の方法を行うための前記処理回路による実行のための命令を保存するコンピュータ可読ストレージ媒体を含む、コンピュータ・プログラム製品。
コンピュータ可読媒体に保存され、かつデジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータにおいて実行されるときに、請求項１〜８のいずれか一項に記載の方法を行うためのソフトウェア・コード部分を含む、コンピュータ・プログラム。