JP2020532012A - ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 - Google Patents

ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 Download PDF

Info

Publication number
JP2020532012A
JP2020532012A JP2020511764A JP2020511764A JP2020532012A JP 2020532012 A JP2020532012 A JP 2020532012A JP 2020511764 A JP2020511764 A JP 2020511764A JP 2020511764 A JP2020511764 A JP 2020511764A JP 2020532012 A JP2020532012 A JP 2020532012A
Authority
JP
Japan
Prior art keywords
random
text data
text
component
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020511764A
Other languages
English (en)
Other versions
JP2020532012A5 (ja
JP7002638B2 (ja
Inventor
ウー、リンフェイ
ウィットブロック、マイケル、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020532012A publication Critical patent/JP2020532012A/ja
Publication of JP2020532012A5 publication Critical patent/JP2020532012A5/ja
Application granted granted Critical
Publication of JP7002638B2 publication Critical patent/JP7002638B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

【課題】テキスト・データに対する教師なし特徴表現学習を行うための、コンピュータに実現される方法を提供する。【解決手段】方法は、ランダム・テキスト配列のセットを有する参照テキスト・データを生成し、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされる。セット内の各テキスト配列のランダムな単語は、分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を1つ以上の機械学習モデルへの入力として提供する。【選択図】図6

Description

本発明は一般的に機械学習システムに関し、より具体的にはテキスト・データのランダム・ドキュメント埋め込みを用いることによって機械学習プロセスを行うことに関する。
「機械学習」という語句は、データから学習する電子システムの機能を広く説明するものである。機械学習システム、エンジン、またはモジュールは、入力と出力との機能的関係を学習するために、たとえば外部クラウド環境などにおいてトレーニングされ得るトレーニング可能な機械学習アルゴリズムを含むことができ、この機能的関係は現在未知であるものとする。
「テキスト・データ」という語句は、1つ以上のテキスト配列を含む電子システムのデータ構造を広く説明するものであり、ここで各テキスト配列は1つ以上の単語のグループ化を保持する。テキスト配列の例はセンテンス、パラグラフ、およびドキュメントなどを含む。テキスト・データの例は複数のセンテンス、複数のパラグラフ、および複数のドキュメントなどを含む。「テキスト配列」という語句および「ドキュメント」という用語は、本明細書においてしばしば区別なく使用される。
有効なテキスト表現の学習は、たとえばドキュメントの分類およびクラスタリング、ドキュメント検索、機械翻訳、ならびに多言語ドキュメント・マッチングなどの、多数の機械学習および自然言語に基づく処理(NLP:natural language based processing)のタスクにおける重要な基礎である。テキストには明確な特徴がないため、たとえばbag of words(BOW)技術の使用などによる単純なアプローチを用いてテキストに対する有効な表現を開発することが試みられてきた。しかし、BOWアプローチはテキストの単語の順序および単語の意味を考慮しない。さらに、いくつかの単語ベクトル技術は単語表現を意味的に生成することが公知であるが、センテンスまたはドキュメント表現を単語表現の上に構築すべきか、何もないところから構築すべきかがあまり明瞭でない。1つの公知の技術は、Word Mover’s Distance(WMD)と呼ばれるドキュメント間の距離尺度を用いて、意味が似ている単語を並べるものである。しかし、WMDの計算は非常に高価であり、単純なK近傍(KNN:K nearest neighbors)機械学習アプローチを超えた特徴埋め込みに対して用いることが困難である。
したがって当該技術分野においては、前述の問題に対処することが必要とされている。
第1の態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのコンピュータに実現される方法を提供し、この方法は、プロセッサ・システムによってランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる、生成することと、プロセッサ・システムによって、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成することと、プロセッサ・システムによって、特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む。
さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムは方法を行うように構成された1つ以上のプロセッサを含み、この方法は、システムによってランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる、生成することと、システムによって、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成することと、システムによって、特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む。
さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムはプロセッサと、メモリと、生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成された参照テキスト・データ生成コンポーネントであって、ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる、参照テキスト・データ生成コンポーネントと、機械学習コンポーネントとを含み、この機械学習コンポーネントは、生テキスト・データに対する特徴行列を受信するように構成され、この特徴行列は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成され、この機械学習コンポーネントはさらに、特徴行列を1つ以上の機械学習モデルへの入力として提供するように構成される。
さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供し、このシステムはプロセッサと、メモリと、生テキスト・データの確率分布を生成するように構成された分布生成コンポーネントであって、この生テキスト・データの確率分布は、事前学習済みまたは学習されたword2vec埋め込み空間に少なくとも部分的に基づいて生成される、分布生成コンポーネントと、特徴行列生成コンポーネントとを含み、この特徴行列生成コンポーネントは、ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成され、このランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られ、この特徴行列生成コンポーネントはさらに、ドキュメント距離測定技術を用いたランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成するように構成される。
さらなる態様から見ると、本発明はテキスト・データに対する教師なし特徴表現学習を行うコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路によって読取り可能であり、かつ本発明のステップを行うための方法を行うための処理回路による実行のための命令を保存するコンピュータ可読ストレージ媒体を含む。
さらなる態様から見ると、本発明は、コンピュータ可読媒体に保存され、かつデジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムを提供し、このコンピュータ・プログラムは、前記プログラムがコンピュータにおいて実行されるときに本発明のステップを行うためのソフトウェア・コード部分を含む。
本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習のための、コンピュータに実現される方法を提供する。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を1つ以上の機械学習モデルへの入力として提供する。
本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、自身によって具現化されるプログラム命令を有するコンピュータ可読ストレージ媒体を含む。このプログラム命令は、システムに方法を行わせるための1つ以上のプロセッサに動作的に結合されたシステムによって実行される。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を1つ以上の機械学習モデルへの入力として提供する。
本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供する。このシステムは、方法を行うように構成された1つ以上のプロセッサを含む。この方法は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成する。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は分布から抜き取られる。この方法は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成する。この方法は、特徴行列を1つ以上の機械学習モデルへの入力として提供する。
本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うためのシステムを提供する。このシステムはプロセッサと、メモリと、参照テキスト・データ生成コンポーネントと、機械学習コンポーネントとを含む。参照テキスト・データ生成コンポーネントは、生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成される。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる。機械学習コンポーネントは生テキスト・データに対する特徴行列を受信するように構成され、この特徴行列は、ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成される。機械学習コンポーネントはさらに、特徴行列を1つ以上の機械学習モデルへの入力として提供するように構成される。
本発明の実施形態は、テキスト・データに対する教師なし特徴表現学習を行うための製品を実行するためのシステムを提供する。このシステムはプロセッサと、メモリと、分布生成コンポーネントと、特徴行列生成コンポーネントとを含む。分布生成コンポーネントは、生テキスト・データの確率分布を生成するように構成され、この生テキスト・データの確率分布は、事前学習済みまたは学習されたword2vec埋め込み空間に少なくとも部分的に基づいて生成される。特徴行列生成コンポーネントは、ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成される。ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされたものであり、セット内の各テキスト配列のランダムな単語は確率分布から抜き取られる。特徴行列生成コンポーネントはさらに、ドキュメント距離測定技術を用いたランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、生テキスト・データに対する特徴行列を生成するように構成される。
本発明の技術を通じて、付加的な技術的特徴および利益が実現される。本発明の実施形態および態様は、本明細書において詳細に説明されており、請求される主題の一部とみなされる。より良好な理解のために、詳細な説明および図面を参照されたい。
本明細書の末尾の請求項において、本明細書に記載される独占権の明細を特定的に指摘し、明確に請求している。本発明の実施形態の前述およびその他の特徴および利点は、添付の図面とともに得られる以下の詳細な説明から明らかである。
本発明の1つ以上の実施形態によるクラウド・コンピューティング環境を示す図である。 本発明の1つ以上の実施形態による抽象化モデル・レイヤを示す図である。 本発明の1つ以上の実施形態を実現できる例示的コンピュータ・システムを示す図である。 本発明の1つ以上の実施形態によるテキスト・データを用いた機械学習を促進する例示的システムを示す図である。 本発明の1つ以上の実施形態によるテキスト・データを用いた機械学習を促進する別の例示的システムを示す図である。 本発明の1つ以上の実施形態による方法を示す流れ図である。
本明細書において示される図面は例示的なものである。本発明の範囲から逸脱することなく、そこに説明されている図面または動作に対する多くの変形が存在し得る。たとえば、動作が異なる順序で行われてもよいし、動作が追加、削除、または修正されてもよい。加えて、「結合された」という用語およびその変形は、2つのエレメント間の通信経路を有することを説明するものであり、それらの間に介在するエレメント/接続を伴わないエレメント間の直接接続を意味するものではない。これらの変形はすべて、本明細書の一部とみなされる。
添付の図面および開示される実施形態の以下の詳細な説明において、図面に示されるさまざまなエレメントには、2桁または3桁の参照番号が与えられている。わずかな例外はあるが、各参照番号の一番左側の桁(単数または複数)は、そのエレメントが最初に示された図面に対応する。
本明細書において、関連する図面を参照して本発明のさまざまな実施形態を説明する。本発明の範囲から逸脱することなく、本発明の代替的実施形態が考案され得る。以下の説明および図面において、エレメント間のさまざまな接続および位置関係(例、上、下、隣など)が示されている。これらの接続もしくは位置関係またはその両方は、別様に指定されない限り直接的または間接的であってもよく、本発明はこれに関して限定することは意図されていない。したがって、エンティティの結合は直接的または間接的な結合を示すことができ、エンティティ間の位置関係は直接的または間接的な位置関係であり得る。さらに、本明細書に記載されるさまざまなタスクおよびプロセス・ステップは、本明細書に詳細に記載されていない付加的なステップまたは機能を有するより包括的な手順またはプロセスに組み込まれ得る。
以下の定義および略語は、請求項および明細書の解釈に用いられるべきものである。本明細書において用いられる「含む(comprises)」、「含む(comprising)」、「含む(includes)」、「含む(including)」、「有する(has)」、「有する(having)」、「含有する(contains)」、もしくは「含有する(containing)」という用語、またはその任意のその他の変形は、非排他的包含をカバーすることが意図される。たとえば、エレメントのリストを含む組成物、混合物、プロセス、方法、物品、または装置は、それらのエレメントのみに限定される必要はなく、明確にリストに挙げられていないその他のエレメント、あるいはこうした組成物、混合物、プロセス、方法、物品、または装置に固有のその他のエレメントを含み得る。
加えて、本明細書において「例示的」という用語は、「一例、実例、または例示の役割をする」ことを意味するために用いられる。本明細書において「例示的」なものとして記載される任意の実施形態または設計は、他の実施形態または設計よりも好ましいか、または有利であると解釈される必要はない。「少なくとも1つ」および「1つ以上」という用語は、1以上の任意の整数、すなわち1、2、3、4などを含むものと理解されてもよい。「複数」という用語は、2以上の任意の整数、すなわち2、3、4、5などを含むものと理解されてもよい。「接続」という用語は、間接的「接続」および直接的「接続」の両方を含んでもよい。
「約(about)」、「実質的に(substantially)」、「約(approximately)」という用語およびそれらの変形は、本出願の提出の時点で利用可能な機器に基づく特定量の測定に関連する誤差の程度を含むことが意図される。たとえば、「約」は所与の値の±8%もしくは5%、または2%の範囲を含み得る。
簡略化の目的のために、本発明の態様の作成および使用に関する従来の技術は、本明細書において詳細に説明するときとしないときとがある。特に、本明細書に記載されるさまざまな技術的特徴を実現するためのコンピュータ・システムおよび特定のコンピュータ・プログラムのさまざまな態様は、周知のものである。したがって簡略化するために、多くの従来の実施の詳細は、本明細書においては周知のシステムもしくはプロセスまたはその両方の詳細を提供せずに簡潔にのみ言及されるか、または完全に省略される。
この開示はクラウド・コンピューティングに対する詳細な説明を含むが、本明細書に述べられている教示の実現はクラウド・コンピューティング環境に限定されないことが理解されるべきである。本発明の実施形態は、現在公知であるか、または後に開発される任意のその他のタイプのコンピューティング環境とともに実現され得る。
クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース(例、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは少なくとも5つの特性と、少なくとも3つのサービス・モデルと、少なくとも4つの配置モデルとを含んでもよい。
特性は次のとおりである。
オンデマンド・セルフサービス。クラウド消費者は、たとえばサーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを、必要に応じて自動的に、サービス・プロバイダとの人的対話を必要とせずに一方的にプロビジョニングできる。
広範なネットワーク・アクセス。ケイパビリティはネットワークを通じて利用可能であり、異種シンまたはシック・クライアント・プラットフォーム(例、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール。マルチテナント・モデルを用いて複数の消費者にサービスするために、プロバイダのコンピューティング・リソースはプールされ、要求に従って異なる物理および仮想リソースが動的に割り当ておよび再割り当てされる。消費者は一般的に、提供されるリソースの正確な場所に対する制御も知識も有さないが、より高レベルの抽象化での場所(例、国、州、またはデータセンタ)を特定できてもよいという点で、場所独立性の意味が存在する。
迅速な順応性。ケイパビリティは、素早くスケール・アウトするために場合によっては自動的に、迅速かつ順応的にプロビジョニングされ、かつ素早くスケール・インするために迅速にリリースされ得る。消費者にとって、プロビジョニングのために利用可能なケイパビリティはしばしば無制限にみえ、任意のときに任意の量を購入できる。
サービスの測定。クラウド・システムは、サービスのタイプ(例、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に対して適切な何らかの抽象化レベルにおいて計測ケイパビリティを利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用をモニタ、制御、および報告して、使用されるサービスのプロバイダおよび消費者の両方に対する透明性を提供できる。
サービス・モデルは次のとおりである。
サービスとしてのソフトウェア(SaaS:Software as a Service)。消費者に提供されるケイパビリティは、クラウド・インフラストラクチャにおいて実行されるプロバイダのアプリケーションの使用である。アプリケーションは、さまざまなクライアント・デバイスからたとえばウェブ・ブラウザ(例、ウェブに基づくeメール)などのシン・クライアント・インタフェースを通じてアクセス可能である。消費者はネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケーパビリティさえも含む基礎的なクラウド・インフラストラクチャを管理または制御することはなく、例外として考えられるのは限られたユーザ特有のアプリケーション構成設定である。
サービスとしてのプラットフォーム(PaaS:Platform as a Service)。消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、消費者が作成または取得したアプリケーションのクラウド・インフラストラクチャへの配置である。消費者はネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラストラクチャを管理または制御することはないが、配置されたアプリケーションおよびおそらくはアプリケーション・ホスティング環境構成に対する制御を有する。
サービスとしてのインフラストラクチャ(IaaS:Infrastructure as a Service)。消費者に提供されるケイパビリティは、オペレーティング・システムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを配置および実行することが可能な処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースのプロビジョニングである。消費者は基礎的なクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、配置されたアプリケーションに対する制御、およびおそらくはネットワーク形成コンポーネント(例、ホスト・ファイアウォール)の選択に対する限られた制御を有する。
配置モデルは次のとおりである。
プライベート・クラウド。このクラウド・インフラストラクチャは、ある組織に対してのみ動作される。これはその組織または第3者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
コミュニティ・クラウド。このクラウド・インフラストラクチャは複数の組織に共有され、共通する関心事項(例、任務、セキュリティ要件、ポリシー、およびコンプライアンスの検討)を有する特定のコミュニティをサポートする。これはそれらの組織または第3者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
パブリック・クラウド。このクラウド・インフラストラクチャは、一般人または大規模な産業グループに対して利用可能にされ、クラウド・サービスを販売する組織が所有している。
ハイブリッド・クラウド。このクラウド・インフラストラクチャは2つまたはそれ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合体であり、それらのクラウドは一意のエンティティを留めるが、データおよびアプリケーション・ポータビリティを可能にする標準または独自の技術(例、クラウド間のロード・バランシングのためのクラウド・バースティング)によってともに結合される。
クラウド・コンピューティング環境はサービス指向型であり、ステートレス性、低結合性、モジュラリティ、および意味的な相互運用性に焦点を合わせている。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
ここで図1を参照すると、例示的なクラウド・コンピューティング環境50が示されている。示されるとおり、クラウド・コンピューティング環境50は1つ以上のクラウド・コンピューティング・ノード10を含み、たとえばパーソナル・デジタル・アシスタント(PDA:personal digital assistant)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、もしくは自動車のコンピュータ・システム54N、またはその組み合わせなどの、クラウド消費者によって用いられるローカル・コンピューティング・デバイスが、このクラウド・コンピューティング・ノード10によって通信してもよい。ノード10は互いに通信してもよい。これらのノードは、たとえば上述したプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組み合わせなどの1つ以上のネットワークにおいて、物理的または仮想的にグループ化(図示せず)されてもよい。このことは、クラウド・コンピューティング環境50がインフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを、クラウド消費者がそれに対するリソースをローカル・コンピューティング・デバイスにおいて維持する必要のないサービスとして提供することを可能にする。図1に示されるコンピューティング・デバイス54A〜Nのタイプは単なる例示であることが意図されており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークもしくはネットワーク・アドレス可能接続(例、ウェブ・ブラウザを使用するもの)またはその両方を通じて、任意のタイプのコンピュータ・デバイスと通信できることが理解される。
ここで図2を参照すると、クラウド・コンピューティング環境50(図1)によって提供される機能的抽象化レイヤのセットが示されている。図2に示されるコンポーネント、レイヤ、および機能は単なる例示であることが意図されており、本発明の実施形態はそれらに限定されないことが予め理解されるべきである。示されるとおり、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(縮小命令セット・コンピュータ(Reduced Instruction Set Computer))アーキテクチャに基づくサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーク形成コンポーネント66を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は抽象化レイヤを提供し、この抽象化レイヤから仮想エンティティの以下の例が提供されてもよい。仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75。
一例において、管理レイヤ80は以下に記載される機能を提供してもよい。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを行うために用いられるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格決定82は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する請求書またはインボイスの送付とを提供する。一例において、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクに対するアイデンティティ確認、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル83は、消費者およびシステム管理者に対するクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル・アグリーメント(SLA:Service Level Agreement)計画および実現85は、SLAによって将来の要求が予測されるクラウド・コンピューティング・リソースに対する事前の取り決めおよびその調達を提供する。
作業負荷レイヤ90は、クラウド・コンピューティング環境が使用され得る機能の例を提供する。このレイヤから提供され得る作業負荷および機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室の教育配信93、データ分析処理94、トランザクション処理95、およびテキスト・データ処理96を含む。
ここで本発明の態様により具体的に関係する技術の概観をみると、有効なテキスト表現の学習は、たとえばドキュメントの分類およびクラスタリング、ドキュメント検索、機械翻訳、ならびに多言語ドキュメント・マッチングなどの、多数の機械学習および自然言語に基づく処理(NLP)のタスクにおける重要な基礎である。テキストには明確な特徴がないため、たとえばbag of words(BOW)技術の使用などによる単純なアプローチを用いてテキストに対する有効な表現を開発することが試みられてきた。しかし、BOWアプローチはテキストの単語の順序および単語の意味を考慮しない。さらに、いくつかの単語ベクトル技術は単語表現を意味的に生成することが公知であるが、センテンスまたはドキュメント表現を単語表現の上に構築すべきか、何もないところから構築すべきかがあまり明瞭でない。1つの公知の技術は、Word Mover’s Distance(WMD)と呼ばれるドキュメント間の距離尺度を用いて、意味が似ている単語を並べるものである。しかし、WMDの計算は非常に高価であり、単純なK近傍(KNN)機械学習アプローチを超えた特徴埋め込みに用いることが困難である。
本明細書において前に示したとおり、「機械学習」という語句は、データから学習する電子システムの機能を広く説明するものである。機械学習システム、エンジン、またはモジュールは、入力と出力との機能的関係を学習するために、たとえば外部クラウド環境などにおいてトレーニングされ得るトレーニング可能な機械学習アルゴリズムを含むことができ、この機能的関係は現在未知であるものとする。機械学習機能は、現在未知の機能を行うようにトレーニングされる能力を有する人工ニューラル・ネットワーク(ANN:artificial neural network)を用いて実現され得る。機械学習および認知科学において、ANNは、動物の生物学的神経ネットワーク、特に脳から着想された統計的学習モデルのファミリーである。ANNは、多数の入力に依存するシステムおよび機能の推定または近似に用いられ得る。ANNは、シミュレートされた「ニューロン」として活動して「メッセージ」を電子信号の形で互いに交換する相互接続されたプロセッサ・エレメントのいわゆる「神経形態学的」システムとして具現化され得る。生物学的ニューロン間でメッセージを運ぶシナプス神経伝達物質接続のいわゆる「可塑性」と同様に、シミュレートされたニューロン間で電子メッセージを運ぶANNの接続には、所与の接続の強さまたは弱さに対応する数値的重みが与えられる。この重みは経験に少なくとも部分的に基づいて調節および調整が可能であり、これによってANNは入力に適応でき、学習が可能になる。たとえば、手書き文字認識のためのANNは、入力画像の画素によって活性化され得る入力ニューロンのセットによって定められる。重み付けされ、ネットワークの設計者によって定められた関数によって変換された後、これらの入力ニューロンの活性化は、しばしば「隠れ」ニューロンと呼ばれる他の下流ニューロンに渡される。出力ニューロンが活性化されるまで、このプロセスが繰り返される。活性化された出力ニューロンは、どの文字が読取られたかを定める。
機械学習は、デジタル・データ間の推論もしくは関係またはその両方を定めるために、しばしば多数の技術によって使用される。たとえば、機械学習技術、信号処理技術、画像処理技術、データ分析技術、もしくはその他の技術、またはその組み合わせなどは、デジタル・データの分析、デジタル・データの処理、デジタル・データからの推論の決定、もしくはデジタル・データ間の関係の決定、またはその組み合わせのために、機械学習モデルを使用する。
しばしば、デジタル・データはテキスト・データとしてフォーマットされる。テキスト・データは1つ以上のテキスト配列を含むことができ、各テキスト配列は1つ以上の単語のグループ化を保持する。テキスト配列の例はセンテンス、パラグラフ、およびドキュメントなどを含む。しかし、テキスト・データは一般的に、公知の機械学習モデルによる直接的処理もしくは直接的分析またはその両方を受けることができない。なぜなら上記のとおり、テキスト・データには明確な特徴がないからである。代わりに、機械学習モデルによるテキスト・データの分析を促進するために、テキスト・データの特徴表現が学習される。数学的には、ドキュメントの集合(例、テキスト配列のセット)は下記式のとおりに表されてもよく、
Figure 2020532012

ここでNは、ドキュメントの集合におけるドキュメントの数である。各ドキュメントxは次の単語ベクトルの集合体として表すことができ、
Figure 2020532012

ここでL=|x|は、集合におけるドキュメントの最大の長さであり、
Figure 2020532012

はドキュメントの空間を示す。各ドキュメントは1つ以上の単語を含み得る。
ここで本発明の態様の概観をみると、本発明の1つ以上の実施形態は、ランダムな長さDのランダム・ドキュメントの数Rを用いて、テキスト・データ中の単語間の距離測定値を低次元ユークリッド内積空間に変換することによって、たとえばセンテンス、パラグラフ、およびドキュメントなどの可変長のテキストに対するベクトル表現を学習する教師なしフレームワークを提供することによって、先行技術の上述の欠点に対処する。いくつかの実施形態において、このプロセスは、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することによって行われ、ここで各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含む。ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、セット内の各ランダム・テキスト配列のランダムな単語は分布から抜き取られる。結果として得られる特徴行列は、次いで機械学習出力を生成するために1つ以上の機械学習モデルへの入力として提供される。本発明の1つ以上の実施形態によって対処され得る問題の例は、公知のKNN−WMDに基づく技術を用いて正定値カーネルを評価するために必要とされる高い計算複雑性(例、O(Nlog(L))と、生テキスト・データおよび結果として得られるカーネル行列を保存するために必要とされる高いメモリ消費(例、O(NL))との低減を含む。
上述の問題に対処するために本発明の1つ以上の態様によって提供される技術的改善点の例は、R<<NおよびD<<Lに対するO(Nlog(L))からO(NRLDLlog(L))の既存のKNN−WMDに基づく技術の計算複雑性と、R<<Lに対するO(NL+N)からO(NR)のメモリ消費との低減を含む。この計算およびメモリ・ストレージの両方の低減によって、たとえばSVMなどの経験損失最小化(ERM:empirical risk minimization)分類器と組み合わせるときのより効率的なトレーニングおよびテストが可能になる。
以下により詳細に説明されることとなるとおり、機械学習モデルによるテキスト・データの分析を促進するために、テキスト・データの特徴表現が学習され得る。テキスト・データ特徴表現は、さまざまな機械学習プロセスに用いられ得る。たとえば、ヘルス・インフォマティクスにおけるECGを用いた患者の疾患分類、およびたとえばウェアラブル医療デバイスからセンサを介して生成されたデータなどのモバイル健康アプリケーションに対するリアルタイム・データ分析において、テキスト・データ特徴表現が用いられ得る。一旦学習されたテキスト・データ表現は、ドキュメントの分類、クラスタリングおよび検索、ならびにたとえば感情分析などのテキスト分析に用いられ得る。さらに、一旦学習されたテキスト・データ表現は、テキスト・ドキュメントの機械読取りおよび翻訳を改善するために用いられ得る。
ここで本発明の態様のより詳細な説明をみると、図3は、本発明の1つ以上の実施形態を実現するために有用なコンピュータ・ベースのシステム300の例を示す高レベルのブロック図を示している。1つの例示的なコンピュータ・システム300が示されるが、コンピュータ・システム300は通信経路326を含み、この通信経路326はコンピュータ・システム300を付加的なシステムに接続し、かつ1つ以上の広域ネットワーク(WAN:wide area networks)もしくはローカル・エリア・ネットワーク(LAN:local area networks)またはその両方、たとえばインターネット、イントラネット(単数または複数)、もしくは無線通信ネットワーク(単数または複数)、またはその組み合わせなどを含んでもよい。コンピュータ・システム300および付加的なシステムは、(例、それらの間でデータを通信するために)通信経路326を介して通信している。
コンピュータ・システム300は、たとえばプロセッサ302などの1つ以上のプロセッサを含む。プロセッサ302は、通信インフラストラクチャ304(例、通信バス、クロスオーバー・バー、またはネットワーク)に接続される。コンピュータ・システム300は、グラフィックス、テキスト、およびその他のデータを通信インフラストラクチャ304(または図示されないフレーム・バッファ)からディスプレイ・ユニット308におけるディスプレイのために転送するディスプレイ・インタフェース306を含み得る。加えてコンピュータ・システム300はメイン・メモリ310、好ましくはランダム・アクセス・メモリ(RAM:random access memory)を含み、かつ二次メモリ312も含んでもよい。二次メモリ312は、たとえばハード・ディスク・ドライブ314もしくはリムーバブル・ストレージ・ドライブ316またはその両方などを含んでもよく、リムーバブル・ストレージ・ドライブ316はたとえばフロッピー(登録商標)ディスク・ドライブ、磁気テープ・ドライブ、または光ディスク・ドライブなどを表す。リムーバブル・ストレージ・ドライブ316は、当業者に周知の方式でリムーバブル・ストレージ・ユニット318からの読取りもしくはそこへの書込みまたはその両方を行う。リムーバブル・ストレージ・ユニット318は、たとえばリムーバブル・ストレージ・ドライブ316によって読取りおよび書込みが行われるフロッピー(登録商標)ディスク、コンパクト・ディスク、磁気テープ、または光ディスクなどを表す。認識されるであろうとおり、リムーバブル・ストレージ・ユニット318は、コンピュータ・ソフトウェアもしくはデータまたはその両方が保存されたコンピュータ可読媒体を含む。
本発明のいくつかの代替的実施形態において、二次メモリ312は、コンピュータ・プログラムまたはその他の命令がコンピュータ・システムにロードされることを可能にするための、他の類似の手段を含んでもよい。こうした手段は、たとえばリムーバブル・ストレージ・ユニット320およびインタフェース322などを含んでもよい。こうした手段の例は、プログラム・パッケージおよびパッケージ・インタフェース(たとえばビデオ・ゲーム・デバイスに見出されるものなど)、リムーバブル・メモリ・チップ(たとえばEPROMまたはPROMなど)および関連するソケット、ならびにその他のリムーバブル・ストレージ・ユニット320およびそのリムーバブル・ストレージ・ユニット320からコンピュータ・システム300にソフトウェアおよびデータを移送することを可能にするインタフェース322を含んでもよい。
加えて、コンピュータ・システム300は通信インタフェース324を含んでもよい。通信インタフェース324は、ソフトウェアおよびデータがコンピュータ・システムと外部デバイスとの間で移送されることを可能にする。通信インタフェース324の例はモデム、ネットワーク・インタフェース(たとえばイーサネット(Ethernet)(登録商標)カードなど)、通信ポート、またはPCM−CIAスロットおよびカードなどを含んでもよい。通信インタフェース324を介して移送されるソフトウェアおよびデータは信号の形であり、それはたとえば通信インタフェース324によって受信されることが可能な電子、電磁、光、またはその他の信号などであってもよい。これらの信号は、通信経路(すなわちチャネル)326を介して通信インタフェース324に提供される。通信経路326は信号を運ぶものであり、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、RFリンク、もしくはその他の通信チャネル、またはその組み合わせを用いて実現されてもよい。
本開示における「コンピュータ・プログラム媒体」、「コンピュータ使用可能媒体」、および「コンピュータ可読媒体」という用語は、たとえばメイン・メモリ310および二次メモリ312、リムーバブル・ストレージ・ドライブ316、およびハード・ディスク・ドライブ314に挿入されたハード・ディスクなどの媒体を一般的に示すために用いられる。コンピュータ・プログラム(コンピュータ制御ロジックとも呼ばれる)は、メイン・メモリ310もしくは二次メモリ312またはその両方に保存される。加えて、コンピュータ・プログラムは通信インタフェース324を介して受信されてもよい。こうしたコンピュータ・プログラムは、実行されるときに、コンピュータ・システムが本明細書において考察される本開示の特徴を実行することを可能にする。特にコンピュータ・プログラムは、実行されるときに、プロセッサ302がコンピュータ・システムの特徴を実行することを可能にする。したがってこうしたコンピュータ・プログラムは、コンピュータ・システムのコントローラを表す。図4は、本発明の1つ以上の実施形態によるテキスト・データに対する教師なし特徴表現学習を促進する、非限定的なシステム400の例のブロック図を示している。システム400は、ランダム・ドキュメント埋め込みを介して正定値カーネルを近似することによって、生テキスト・データに対する特徴表現を学習するように構成されており、これは特に、テキスト・データ中の単語間の距離測定値をランダム・ドキュメント埋め込みを用いてランダム化された低次元特徴空間に変換することによって行われ、ここでは多様なタスクを行うためのさまざまな機械学習法と組み合わされ得る特徴表現を生成するために、ランダムな長さDのランダム・テキスト配列の数Rが用いられる。
システム400は、たとえば機械学習技術、テキスト・データ処理技術、データ分析技術、データ分類技術、データ・クラスタリング技術、軌道/行程分析技術、医療デバイス技術、協調フィルタリング技術、推薦システム技術、信号処理技術、単語埋め込み技術、トピック・モデル技術、画像処理技術、ビデオ処理技術、オーディオ処理技術、もしくはその他のデジタル技術、またはその組み合わせなどであるがそれに限定されない技術に関連するさまざまな技術的問題点(例、予め知られていない機能的関係の学習)を解決するために使用され得る機械学習システムである。システム400は、技術性の高い性質であり、抽象的でなく、かつ人間による精神的活動のセットとして行われ得ない問題を解決するために、ハードウェアもしくはソフトウェアまたはその両方を使用する。本発明の特定の実施形態において、システム400によって行われるプロセスのいくつかまたはすべては、機械学習に関係する定められたタスクを行うための1つ以上の専門化したコンピュータ(例、1つ以上の専門化した処理ユニット、テキスト・データ・コンポーネントを有する専門化したコンピュータなど)によって行われる。本発明のいくつかの実施形態において、上述の技術、テキスト・データの使用、機械学習プロセス、もしくはコンピュータ・アーキテクチャ、またはその組み合わせなどにおける進歩によって起こる新たな問題を解決するために、システム400もしくはそのシステムのコンポーネントまたはその両方が使用される。本発明の1つ以上の実施形態において、システム400は上述の技術的改善を、テキスト・データ・システム、機械学習システム、人工知能システム、データ分析システム、データ分類システム、データ・クラスタリング・システム、軌道/行程分析システム、医療デバイス・システム、協調フィルタリング・システム、推薦システム、信号処理システム、単語埋め込みシステム、トピック・モデル・システム、画像処理システム、ビデオ処理システム、もしくはその他のデジタル・システム、またはその組み合わせに提供する。本発明の1つ以上の実施形態において、システム400は、中央処理ユニットの処理性能の改善、中央処理ユニットの計算ボトルネックの低減、中央処理ユニットの処理効率の改善、もしくは中央処理ユニットが機械学習プロセスを行うための時間の長さの低減、またはその組み合わせによって、機械学習プロセスに関連する中央処理ユニットにも技術的改善を提供する。
図4において、システム400はテキスト・データ・コンポーネント402を含み、このテキスト・データ・コンポーネント402は分布生成コンポーネント404と、参照テキスト・データ生成コンポーネント406と、特徴行列生成コンポーネント408と、機械学習コンポーネント410とを含む。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント402は、機械(単数または複数)において具現化される(例、1つ以上の機械に関連する1つ以上のコンピュータ可読媒体(または複数の媒体)において具現化される)、機械で実行可能なコンポーネント(単数または複数)を構成する。こうしたコンポーネント(単数または複数)は、1つ以上の機械(例、コンピュータ(単数または複数)、コンピューティング・デバイス(単数または複数)、仮想機械(単数または複数)など)によって実行されるときに、その機械(単数または複数)に記載される動作を行わせる。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント402は、コンピュータが実行可能なコンポーネントおよび命令を保存するメモリ412を含む。さらに、本発明のいくつかの実施形態におけるテキスト・コンポーネント402は、テキスト・データ・コンポーネント402による命令(例、コンピュータが実行可能なコンポーネントおよび対応する命令)の実行を促進するためのプロセッサ414を含む。示されるとおり、本発明の1つ以上の実施形態において、分布生成コンポーネント404、参照テキスト・データ生成コンポーネント406、特徴行列生成コンポーネント408、機械学習コンポーネント410、メモリ412、もしくはプロセッサ414、またはその組み合わせは、互いに電気的もしくは通信的に、またはその両方で結合される。
一般的に、テキスト・データ・コンポーネント402はテキスト・データ416を受信して、機械学習出力418を出力するように構成される。テキスト・データ416は、テキスト・データのストリームまたは配列を含む。本発明のいくつかの実施形態において、テキスト・データ416はテキスト・データの2つまたはそれ以上の配列、たとえば2つのドキュメント、1つのドキュメントおよびパラグラフ、2つのパラグラフ、1つのパラグラフおよびセンテンスなどを含む。本発明のいくつかの実施形態において、テキスト・データ416は生テキスト(例、未処理のテキスト・データ)である。
分布生成コンポーネント404は、システム400による使用のための1つ以上の確率分布を生成するように構成される。本発明のいくつかの実施形態において、分布生成コンポーネント404は、生テキスト・データ416に属するメタデータを生成する。たとえば本発明のいくつかの実施形態において、分布生成コンポーネント404は、生テキスト・データ416の確率分布を生成する。本発明のいくつかの実施形態においては、生テキスト・データ416から確率分布を生成するのではなく、分布生成コンポーネントはランダムな分布を生成または選択する。本発明のいくつかの実施形態において、分布は、たとえばWord2Vec空間などの事前学習済み単語ベクトル空間の使用を通じて生成される。本発明のいくつかの実施形態において、分布は、たとえばWord2Vecライブラリなどの単語ベクトル・ライブラリを用いて、ドメイン・テキスト・コーパスをトレーニング(学習)することによって生成される。分布生成コンポーネント404は、結果として得られる分布をさらなる処理のために参照テキスト・データ生成コンポーネント406に送信するように構成される。
参照テキスト・データ生成コンポーネント406および特徴行列生成コンポーネント408はともに、ランダムな特徴に基づく近似プロセスを行う。特に、参照テキスト・データ生成コンポーネント406は、ランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成され、このランダム・テキスト配列内のテキスト配列はランダムな長さであり、かついくつかのランダムな単語を含む。テキスト・データ416の最適なアライメントを獲得するために、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされる。セット内の各ランダム・テキスト配列に対応する単語は、分布生成コンポーネント404によって提供される分布から抜き取られる。本発明のいくつかの実施形態において、最小の長さおよび最大の長さは、システム400によって選択、提供、予め決定、または自動的に学習されたパラメータである。本発明のいくつかの実施形態において、最小の長さは1であり、最大の長さは5である。ランダム・テキスト配列のセットを含む参照テキスト・データを生成した後、生成コンポーネント406はその参照テキスト・データを特徴行列生成コンポーネント408に送信する。特徴行列生成コンポーネント408は、生成されたランダム・テキスト配列のセットとテキスト・データ416との間の計算された距離のセットに少なくとも部分的に基づいて、テキスト・データ416に対する特徴行列を生成するように構成される。本発明のいくつかの実施形態において、テキスト・データ416とランダム・テキスト配列のセットとの間の特徴ベクトルのセットが計算される。本発明のいくつかの実施形態において、特徴ベクトルのセットは、たとえばWord Mover’s Distance(WMD)の使用などのドキュメント距離測定技術の使用を通じて生成される。他の好適なドキュメント距離測定技術が使用されてもよい。次いで特徴ベクトルが連結されて、特徴行列を形成する。本発明のいくつかの実施形態において、特徴ベクトルもしくは特徴行列またはその両方は、当業者に公知のとおりに単語ベクトル空間を測定するために用いられ得る他の好適な距離関数を介して生成される。
参照テキスト・データ生成コンポーネント406および特徴行列生成コンポーネント408によって行われる機能のいくつかは、1つ以上のアルゴリズムを介して数学的に表され得る。たとえば、カーネル近似を計算するために、たとえば以下に説明されるものなどのモンテ・カルロ(MC:Monte Carlo)に基づく分析方法が実現され、ここではカーネル空間においてランダム特徴が評価される。本発明のいくつかの実施形態において、正定値カーネルを計算するために、ランダム・ドキュメントの集合(例、ランダム・テキスト配列のセット)を用いて、テキスト・データ中の単語間の距離測定値を低次元ユークリッド内積空間に変換し、これは単語ベクトル埋め込み空間において表される単語のセットと、テキストおよびランダム・ドキュメントとの間のアライメントを見出すためにたとえばWMDなどの距離測定を利用することによって行われる。よって、WMDカーネルのカーネル評価は、下記式の変換された特徴表現の内積によって近似され得る。
Figure 2020532012

ここで
Figure 2020532012

は、分布p(ω)から抜き取られた独立かつ同一の分布(i.i.d.:independently and identically distributed)のランダム・ドキュメントを表し、ここでp(ω)は次のとおりに示されるすべての可能なドキュメントの空間にわたる分布を表す。
Figure 2020532012

分布p(ω)は、意味のあるランダムな単語を生成するために、たとえばWord2Vec埋め込み空間などの単語ベクトル埋め込み空間の特徴を十分に獲得した分布である。すべての可能なドキュメントの空間
Figure 2020532012

は、ドキュメントxとすべての可能なランダム・ドキュメントω∈Ωとの間の距離測定から導出される無限次元特徴マップを表す。たとえばドキュメントxが与えられるとき、特徴ベクトル
Figure 2020532012

がこの与えられたドキュメントxに対して生成され、ここでφω(x):=exp(−γWMD(x,ω))である。
テキスト・ドキュメント(例、テキスト配列)間の距離を測定するために、たとえばWMDなどの距離測定が用いられ得る。たとえば、第1のテキスト・ドキュメントxおよび第2のドキュメントyがx,y∈Xとして与えられるとき、単語xとyとのアライメントを考慮してWMD測定が算出される。よって、各ドキュメントの長さ|x|、|y|が、xおよびyにおける別個の単語w1...,wLの数(L=||x||または||y||)であり、かつ
Figure 2020532012

がxおよびyのそれぞれにおける各単語の正規化周波数ベクトルであるとき(すなわち下記式であるとき)、
Figure 2020532012

WMDは次のとおりに定められ得る。
Figure 2020532012

Fは輸送の流れの行列を表し、ここでFijはxにおける単語iからyにおける単語jまで移動する流れの量を示し、Cは輸送コスト(例、地上距離)を表し、ここでCij:=dist(v,v)であり、これはたとえばWord2Vec埋め込み空間などの単語ベクトル埋め込み空間において測定された2つの単語の間の距離である。
<z(x),z(y)>の分散を低くするために、MC法を適用して以下を計算できる。
Figure 2020532012
行列生成コンポーネント408は、WMD測定に少なくとも部分的に基づいて次の特徴ベクトルを生成し、
Figure 2020532012

ここでwは長さDのランダム・テキスト配列であり、テキスト配列の各単語は分布p(ω)から抜き取られている。この計算は、数Dのランダムな単語からなるランダム・ドキュメントwを生成することによって行うことができ、ランダムな単語の各々はp(ω)から抜き取られた単語ベクトルvに関連付けられ、各Dは[DMin,DMax]からサンプリングされる。実現の一例において、ランダムな単語の最小数DMinは1であり、ランダムな単語の最大数DMaxは5である。
特徴ベクトルが生成された後、各ドキュメントの特徴ベクトルを連結することによって、特徴行列ZNxRが作成される。以下に示されるアルゴリズムは、生テキスト・データに対する特徴行列および特徴ベクトルを生成するための手順の一例である。
本発明のいくつかの実施形態において、分布p(ω)はエンドユーザによって、たとえばWord2Vec空間などの事前学習済みの単語ベクトル空間を用いるか、またはたとえばWord2Vecライブラリなどの単語ベクトル・ライブラリを用いてエンドユーザのドメイン・テキスト・コーパスをトレーニングすることによって、生成もしくは取得されるか、またはその両方である。本発明のいくつかの実施形態において、最適なアライメントに対する事前情報がシステムに提供されていないとき、システムはランダム・ドキュメントの長さをサンプリングしてDの不偏推定値を与える。これはたとえば、予め確立されたWord2Vec空間の分布などのランダムな分布を選択することなどによって達成されてもよい。本発明の特定の実施形態において、予め確立されたWord2Vec空間は、第3者によって提供されてもよい。本発明のいくつかの実施形態において、たとえば単語ベクトルのDMinおよびDMaxなどの付加的なメタデータは、エンドユーザによって生成されるか、またはシステムに提供される。
入力:下記式のテキスト・ドキュメント、1<|xi|<L、DMin、DMax、R、ランダム・ドキュメントの分布p(ω)。
Figure 2020532012

出力:任意の長さのテキストに対する特徴行列ZN×R
1:j=1,...,Rに対して
2: Dを[DMin,DMax]から均一に抜き取る。数Dのランダムな単語からなるランダム・ドキュメントωを生成し、各関連単語ベクトルvは分布p(ω)から抜き取られる。
3: WMDを用いて下記式の特徴ベクトルを計算する。
Figure 2020532012

4:以下に対して終了する
5:下記式の特徴行列を戻す
Figure 2020532012
本発明のいくつかの実施形態において、分布p(ω)はエンドユーザによって、たとえばWord2Vec空間などの事前学習済みの単語ベクトル空間を用いるか、またはたとえばWord2Vecライブラリなどの単語ベクトル・ライブラリを用いてエンドユーザのドメイン・テキスト・コーパスをトレーニングすることによって、生成もしくは取得されるか、またはその両方である。本発明のいくつかの実施形態において、最適なアライメントに対する事前情報がシステムに提供されていないとき、システムはランダム・ドキュメントの長さをサンプリングしてDの不偏推定値を与える。これはたとえば、予め確立されたWord2Vec空間の分布などのランダムな分布を選択することなどによって達成されてもよい。本発明の特定の実施形態において、予め確立されたWord2Vec空間は、第3者によって提供されてもよい。本発明のいくつかの実施形態において、たとえば単語ベクトルのDMinおよびDMaxなどの付加的なメタデータは、エンドユーザによって生成されるか、またはシステムに提供される。
上に示したとおり、KNNに基づくWMD法と比べて、上記において特定された近似法は、Dが定数として扱われるときにはO(NRLlog(L))計算の超線形の複雑性のみを必要とする。この計算の劇的な低減によって、たとえばSVMなどの経験損失最小化(ERM)分類器と組み合わせるときのより効率的なトレーニングおよびテストが可能になる。
図4に戻って参照すると、機械学習コンポーネント410は、テキスト・データ416に対して生成された特徴行列に少なくとも部分的に基づいて機械学習モデルを処理する。本発明のいくつかの実施形態において、特徴行列生成コンポーネント408によって生成された特徴行列は、機械学習コンポーネント410によって実行される機械学習モデルに対する入力として提供される。本発明の特定の実施形態において、機械学習コンポーネント410は、時系列データ416の一部によって特徴行列の一部を処理するために、並列計算を使用する。たとえば本発明のいくつかの実施形態において、機械学習コンポーネント410は、テキスト・データ416の1つ以上の部分を並列して処理する2つまたはそれ以上のプロセッサに関連する並列計算を行う。一例において、機械学習コンポーネント410は、生成された特徴行列を用いて分類機械学習モデルを実行する。本発明のいくつかの実施形態において、分類機械学習モデルとは、テキスト・データ416を1つ以上のカテゴリにマップする機械学習モデルである。別の例において、機械学習コンポーネント410は、生成された特徴行列を用いて回帰機械学習モデルを実行する。回帰機械学習モデルとは、たとえばテキスト・データ416のテキスト配列間の関係を定める機械学習モデルであり得る。さらに別の例において、機械学習コンポーネント410は、生成された特徴行列を用いてクラスタリング機械学習モデルを実行する。本発明のいくつかの実施形態において、クラスタリング機械学習モデルとは、テキスト・データ416からの関連データをグループ化して対応するグループにする機械学習モデル、たとえば近傍アルゴリズムなどである。機械学習コンポーネント410は、機械学習出力418を生成する。本発明のいくつかの実施形態において、機械学習出力418は、生成された特徴行列に少なくとも部分的に基づいて機械学習コンポーネント410によって処理された機械学習モデルによって生成される。本発明のいくつかの実施形態において、機械学習出力418は1つ以上の推論の提供、1つ以上の予測の提供、および/またはテキスト・データ416(例えば1つ以上のテキスト配列)の間の1つ以上の関係の決定を行う。このようにして、本発明の特定の実施形態において、テキスト・データ416の直接分析もしくは直接処理またはその両方が提供される。さらに、機械学習モデルが入力として行列を使用すること、もしくは生テキスト・データを直接分析すること、またはその両方を可能にすることによって、機械学習プロセス(例、機械学習を行うための速度、もしくは機械学習のために使用されるメモリの量、またはその両方)に関するプロセッサ(例、プロセッサ414)の性能が改善され得る。さらに、機械学習モデルが入力として行列を使用すること、もしくは生テキスト・データを直接分析すること、またはその両方を可能にすることによって、機械学習プロセスに関連するプロセッサ(例、プロセッサ414)の処理能力が改善され得る。本発明のいくつかの実施形態においては、システム400によって間接的な分析が行われ、このためテキスト・データ416はシステム400によって直接分析されない。テキスト・データ・コンポーネント402(例、分布生成コンポーネント404、参照テキスト・データ生成コンポーネント406、特徴行列生成コンポーネント408、もしくは機械学習コンポーネント410、またはその組み合わせ)は、時系列データ(例、テキスト・データ416)に関連する分布生成プロセス、参照テキスト・データ生成プロセス、特徴行列生成プロセス、および/または機械学習プロセスを行い、これは人間が行うことのできない(例、単独の人間の能力より大きい)プロセスである。たとえば、特定の期間にわたってテキスト・データ・コンポーネント402(例、分布生成コンポーネント404、参照テキスト・データ生成コンポーネント406、特徴行列生成コンポーネント408、もしくは機械学習コンポーネント410、またはその組み合わせ)によって処理される、処理されるテキスト・データの量、テキスト・データの処理速度、および/またはテキスト・データのデータ・タイプは、同じ期間にわたって単独の人間が処理できる量、速度、およびデータ・タイプよりも大きく、速く、異なるものであり得る。本発明のいくつかの実施形態において、テキスト・データ・コンポーネント402(例、分布生成コンポーネント404、参照テキスト・データ生成コンポーネント406、特徴行列生成コンポーネント408、もしくは機械学習コンポーネント410、またはその組み合わせ)は、1つ以上の他の機能を行うために完全に動作可能である(例、完全にパワー・オンされる、完全に実行されるなど)一方で、上記において参照した分布生成プロセス、参照テキスト・データ生成プロセス、特徴行列生成プロセス、および/または機械学習プロセスも行っている。さらに、本発明のいくつかの実施形態において、テキスト・データ・コンポーネント402(例、分布生成コンポーネント404、参照テキスト・データ生成コンポーネント406、特徴行列生成コンポーネント408、もしくは機械学習コンポーネント410、またはその組み合わせ)によって生成される機械学習出力(例、機械学習出力418)は、ユーザが手動で得ることが不可能な情報を含む。たとえば、本発明のいくつかの実施形態において、機械学習出力(例、機械学習出力418)に含まれる情報の量、もしくは機械学習出力(例、機械学習出力418)に含まれる情報の多様性、またはその両方は、ユーザが手動で得る情報よりも複雑である。
本発明のいくつかの実施形態において、機械学習コンポーネント410は、生成された特徴行列に少なくとも部分的に基づいて少なくとも1つの機械学習モデルを実行するために、1つ以上の人工知能技術を使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント410は、人工知能の原理に少なくとも部分的に基づいて、生成された特徴行列から相関、推論、および/または表現を示す情報を抽出する。本発明のいくつかの実施形態において、機械学習コンポーネント410は、生成された特徴行列を用いた少なくとも1つの機械学習モデルの実行に少なくとも部分的に基づいて、機械学習出力418を生成する。本発明のいくつかの実施形態において、機械学習出力418は、たとえば生成された特徴行列に関連する学習、相関、推論、および/または表現などを含む。
本発明のいくつかの実施形態において、機械学習コンポーネント410は明示的または暗示的に、生成された特徴行列に関する学習を行う。本発明のいくつかの実施形態において、機械学習コンポーネント410は、生成された特徴行列の分析を促進するために、自動分類システムもしくは自動分類プロセスまたはその両方を使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント410は、生成された特徴行列に関する推論の学習もしくは生成またはその両方を行うために、確率的分析もしくは統計に基づく分析またはその両方(例、分析ユーティリティおよびコストへのファクタリング)を使用する。機械学習コンポーネント410はたとえば、生成された特徴行列に対する推論の学習もしくは生成またはその両方を行うために、サポート・ベクトル・マシン(SVM:support vector machine)分類器などを使用する。付加的または代替的に、本発明のいくつかの実施形態において、機械学習コンポーネント410はベイジアン・ネットワーク、決定木、および/または確率的分類モデルに関連する他の分類技術を使用する。機械学習コンポーネント410によって使用される分類器は、(例、一般的なトレーニング・データを介して)明示的にトレーニングされることも、(例、外部の情報を受信することを介して)暗示的にトレーニングされることもできる。たとえばSVMに関して、SVMは、分類器コンストラクタおよび特徴選択モジュール内の学習またはトレーニング段階を介して構成され得る。分類器とは、たとえば入力属性ベクトルx=(x、x、x、x、x)を、その入力があるクラスに属するという信頼性に対してマップする関数であり得る。すなわち、f(x)=信頼性(クラス)。
本発明のいくつかの実施形態において、機械学習コンポーネント410は、学習を促進するために推論に基づくスキームを部分的に使用すること、もしくは生成された特徴行列に対する推論を生成すること、またはその両方を行う機械学習コンポーネント410の自動化態様をさらに促進する推論コンポーネント(図示せず)を含む。本発明のいくつかの実施形態において、機械学習コンポーネント410は任意の好適な機械学習に基づく技術、統計に基づく技術、もしくは確率に基づく技術、またはその組み合わせを使用する。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント410はエキスパート・システム、ファジィ論理、SVM、隠れマルコフ・モデル(HMM:Hidden Markov Models)、欲張り探索アルゴリズム、ルールに基づくシステム、ベイジアン・モデル(例、ベイジアン・ネットワーク)、ニューラル・ネットワーク、および/またはその他の非線形トレーニング技術、データ融合、ユーティリティに基づく分析システム、ベイジアン・モデルを使用するシステムなどを使用する。本発明のいくつかの実施形態において、機械学習コンポーネント410は、生成された特徴行列の分析に関連する機械学習計算のセットを行う。たとえば、本発明のいくつかの実施形態において、機械学習コンポーネント410はクラスタリング機械学習計算のセット、ロジスティック回帰機械学習計算のセット、決定木機械学習計算のセット、ランダム・フォレスト機械学習計算のセット、回帰木機械学習計算のセット、最小二乗機械学習計算のセット、インスタンスに基づく機械学習計算のセット、回帰機械学習計算のセット、サポート・ベクトル回帰機械学習計算のセット、k平均機械学習計算のセット、スペクトル・クラスタリング機械学習計算のセット、ガウス混合モデル機械学習計算、正則化機械学習計算のセット、ルール学習機械学習計算のセット、ベイジアン機械学習計算のセット、ディープ・ボルツマン・マシン計算のセット、ディープ・ビリーフ・ネットワーク計算のセット、畳み込みニューラル・ネットワーク計算のセット、積層オートエンコーダ計算のセット、もしくは異なる機械学習計算のセット、またはその組み合わせを行う。
図5に示される実施形態において、システム500は第1者コンポーネント502と、第2者コンポーネント504とを含む2者間プロトコル・システムである。この環境は、テキスト・データ(例、テキスト・データ416)のプライバシーが問題となる状況に対して特に有用である。たとえば、顧客が分析プロバイダによるテキスト・データに対する機械学習が行われることを希望するが、そのテキスト・データを分析プロバイダに移送することを望まないか、または移送できないとき、本発明のいくつかの実施形態においては、以下に特定される方式において、第1者コンポーネント502が顧客によって使用され、第2者コンポーネント504が分析プロバイダによって使用される。
図5に示されるとおり、第1者コンポーネント502は分布生成コンポーネント404と、特徴行列生成コンポーネント408とを含む。第2者コンポーネント504は参照テキスト・データ生成コンポーネント406と、機械学習コンポーネント410とを含む。本発明のいくつかの実施形態において、第1者コンポーネント502もしくは第2者コンポーネント504またはその両方が、プロセッサ410およびメモリ412を含む。
本発明のいくつかの実施形態において、第1者コンポーネントの分布生成コンポーネント404は、たとえばテキスト・データ416から確率分布506を生成することなどによって、テキスト・データ416に属するメタデータ情報を生成するように構成される。本発明のいくつかの実施形態において、分布生成コンポーネント404は、生成されたテキスト・データ416の確率分布506を第2者コンポーネント504に送信する。本発明のいくつかの実施形態において、第1者コンポーネント502は、テキスト・データ416に属するメタデータ情報を生成することも、第2者コンポーネント504に提供することもしない。
第1者コンポーネント502の特徴行列生成コンポーネント408は、第2者コンポーネント504から生成された参照テキスト・データ508を受信して、生成されたテキスト・データ508のランダム・テキスト配列のセットに少なくとも部分的に基づいて特徴行列510を生成するように構成される。特徴行列生成コンポーネント408はさらに、生成された特徴行列510を第2者コンポーネント504に送信するように構成される。
本発明のいくつかの実施形態において、第2者コンポーネント504の参照テキスト・データ生成コンポーネント406は、第1者コンポーネント502から生成されたメタデータ情報(例、確率分布506)を受信して、ランダム配列のセットを含む参照テキスト・データ508を生成するように構成される。本発明のいくつかの実施形態において、第2者コンポーネント504は、時系列データ416に属するメタデータ情報を受信しない。それらの場合のいくつかにおいて、第2者コンポーネント504は、たとえばガウス分布などのランダムな分布を選択または生成することとなる。さらに本発明のいくつかの実施形態において、参照テキスト・データ生成コンポーネント406は、参照テキスト・データ508を第1者コンポーネント502に送信するように構成される。
第2者コンポーネント504の機械学習コンポーネント410は、第1者コンポーネント502から生成された特徴行列510を受信して、その生成された特徴行列510を1つ以上の機械学習モデルへの入力として提供するように構成される。第2者コンポーネント504の機械学習コンポーネント410はさらに、機械学習モデルからの機械学習出力418を第1者コンポーネント502に送信するように構成される。
ここでシステム400およびシステム500の動作の付加的な詳細を、図6を参照しながら説明することとする。図6は、本発明の1つ以上の実施形態による方法600を示す流れ図である。602において、ランダム配列のセットを含む参照テキスト・データが生成され、各配列はランダムな長さであり、各テキスト配列はある数のランダムな単語を含む。この実施形態においては、プロセッサに動作的に結合されたシステム(例、参照テキスト・データ生成コンポーネント406)によって、参照テキスト・データが生成される。604において、システム(例、特徴行列生成コンポーネント408)によって、生テキスト・データに対する特徴行列が生成され、この特徴行列は、ランダム・テキスト配列のセットの生成されたセットと、生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成される。608において、生成された特徴行列に少なくとも部分的に基づいて、システム(例、機械学習コンポーネント410)によって1つ以上の機械学習モデルが実行される。
本発明は、統合の任意の可能な技術的詳細レベルにおけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および保存できる有形デバイスであり得る。コンピュータ可読ストレージ媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的リストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM:read−only memory)、消去可能プログラマブル・リード・オンリ・メモリ(erasable programmable read−only memory)(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD−ROM:compact disc read−only memory)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリ・スティック、フロッピー(登録商標)ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読ストレージ媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波(例、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、それ自体が一時的信号のものであると解釈されるべきではない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされ得るか、またはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ(ISA:instruction−set−architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または1つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばSmalltalk、またはC++など、および手続き型プログラミング言語、たとえば「C」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、(たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータへの接続が行われてもよい。本発明のいくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA:field−programmable gate arrays)、またはプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)などを含む電子回路は、本発明の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。
本明細書においては、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実現され得ることが理解されるだろう。
これらのコンピュータ可読プログラム命令は、汎用目的コンピュータ、特定目的コンピュータ、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実現するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイスまたはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読ストレージ媒体にも保存されることによって、命令が保存されたコンピュータ可読ストレージ媒体が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作の態様を実現する命令を含む製造物を含んでもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実現されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実現してもよい。
図面における流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を示すものである。これに関して、流れ図またはブロック図の各ブロックは、指定される論理機能(単数または複数)を実現するための1つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。いくつかの代替的実施において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよいし、関与する機能によってはこれらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方のブロックの組み合わせは、指定された機能を行うか、特定目的のハードウェアおよびコンピュータ命令の組み合わせを実施または実行する特定目的のハードウェア・ベースのシステムによって実現され得ることが注目されるだろう。
本発明のさまざまな実施形態の説明を例示の目的のために提供したが、包括的になったり、開示される実施形態に限定されたりすることは意図されていない。記載される実施形態の範囲から逸脱することなく、当業者には多くの修正および変更が明らかになるだろう。本明細書において用いられる用語は、実施形態の原理、実際の適用、もしくは市場に見出される技術に対する技術的改善点を最もよく説明するため、または他の当業者が本明細書に記載される実施形態を理解できるようにするために選択されたものである。

Claims (20)

  1. テキスト・データに対する教師なし特徴表現学習を行うための、コンピュータに実現される方法であって、
    プロセッサ・システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
    前記プロセッサ・システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
    前記プロセッサ・システムによって、前記特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む、コンピュータに実現される方法。
  2. 前記特徴行列を生成することは、
    前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
    前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項1に記載のコンピュータに実現される方法。
  3. 前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項1または2に記載のコンピュータに実現される方法。
  4. 前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項1または2に記載のコンピュータに実現される方法。
  5. 前記単語ベクトル空間は、事前学習済みのword2vec埋め込み空間を含む、請求項4に記載のコンピュータに実現される方法。
  6. 前記単語ベクトル空間は、学習済みのword2vec埋め込み空間を含む、請求項4に記載のコンピュータに実現される方法。
  7. 前記プロセッサ・システムは、第1者コンポーネントおよび第2者コンポーネントを含む2者間プロトコル・システムを含み、前記第1者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第2者コンポーネントに送信し、前記第2者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第2者コンポーネントに送信するように構成される、請求項4〜6のいずれか一項に記載のコンピュータに実現される方法。
  8. 前記第2者コンポーネントは、前記第1者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第1者コンポーネントに送信し、前記第1者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記1つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第1者コンポーネントに送信するように構成される、請求項7に記載のコンピュータに実現される方法。
  9. テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは方法を行うように構成された1つ以上のプロセッサを含み、前記方法は、
    前記システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
    前記システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
    前記システムによって、前記特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む、システム。
  10. 前記特徴行列を生成することは、
    前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
    前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項9に記載のシステム。
  11. 前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項9または10のいずれかに記載のシステム。
  12. 前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項9または10のいずれかに記載のシステム。
  13. 前記単語ベクトル空間は、事前学習済みのword2vec埋め込み空間を含む、請求項12に記載のシステム。
  14. 前記単語ベクトル空間は、学習済みのword2vec埋め込み空間を含む、請求項12に記載のシステム。
  15. 前記システムは、第1者コンポーネントおよび第2者コンポーネントを含む2者間プロトコル・システムを含み、前記第1者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第2者コンポーネントに送信し、前記第2者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第2者コンポーネントに送信するように構成される、請求項12〜14のいずれか一項に記載のシステム。
  16. 前記第2者コンポーネントは、前記第1者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第1者コンポーネントに送信し、前記第1者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記1つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第1者コンポーネントに送信するように構成される、請求項15に記載のシステム。
  17. テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
    プロセッサと、
    メモリと、
    生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成された参照テキスト・データ生成コンポーネントであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られる、参照テキスト・データ生成コンポーネントと、
    機械学習コンポーネントとを含み、前記機械学習コンポーネントは、
    前記生テキスト・データに対する特徴行列を受信するように構成され、前記特徴行列は、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成され、前記機械学習コンポーネントはさらに、
    前記特徴行列を1つ以上の機械学習モデルへの入力として提供するように構成される、システム。
  18. テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
    プロセッサと、
    メモリと、
    生テキスト・データの確率分布を生成するように構成された分布生成コンポーネントであって、前記生テキスト・データの確率分布は、事前学習済みまたは学習されたword2vec埋め込み空間に少なくとも部分的に基づいて生成される、分布生成コンポーネントと、
    特徴行列生成コンポーネントとを含み、前記特徴行列生成コンポーネントは、
    ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成され、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られ、前記特徴行列生成コンポーネントはさらに、
    ドキュメント距離測定技術を用いて計算された、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成するように構成される、システム。
  19. テキスト・データに対する教師なし特徴表現学習を行うためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
    処理回路によって可読であり、かつ請求項1〜8のいずれか一項に記載の方法を行うための前記処理回路による実行のための命令を保存するコンピュータ可読ストレージ媒体を含む、コンピュータ・プログラム製品。
  20. コンピュータ可読媒体に保存され、かつデジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータにおいて実行されるときに、請求項1〜8のいずれか一項に記載の方法を行うためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
JP2020511764A 2017-08-29 2018-08-24 ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 Active JP7002638B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/689,799 2017-08-29
US15/689,799 US11823013B2 (en) 2017-08-29 2017-08-29 Text data representation learning using random document embedding
PCT/IB2018/056441 WO2019043540A1 (en) 2017-08-29 2018-08-24 LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS

Publications (3)

Publication Number Publication Date
JP2020532012A true JP2020532012A (ja) 2020-11-05
JP2020532012A5 JP2020532012A5 (ja) 2021-02-18
JP7002638B2 JP7002638B2 (ja) 2022-01-20

Family

ID=65435304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020511764A Active JP7002638B2 (ja) 2017-08-29 2018-08-24 ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習

Country Status (5)

Country Link
US (1) US11823013B2 (ja)
JP (1) JP7002638B2 (ja)
CN (1) CN111066021B (ja)
GB (1) GB2578711A (ja)
WO (1) WO2019043540A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
US11227231B2 (en) * 2018-05-04 2022-01-18 International Business Machines Corporation Computational efficiency in symbolic sequence analytics using random sequence embeddings
US10956790B1 (en) * 2018-05-29 2021-03-23 Indico Graphical user interface tool for dataset analysis
US11227120B2 (en) * 2019-05-02 2022-01-18 King Fahd University Of Petroleum And Minerals Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes
US11514361B2 (en) * 2019-08-30 2022-11-29 International Business Machines Corporation Automated artificial intelligence radial visualization
CN110688474B (zh) * 2019-09-03 2023-03-14 西北工业大学 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN111309901A (zh) * 2020-01-19 2020-06-19 北京海鑫科金高科技股份有限公司 一种短文本分类方法及装置
US11501302B2 (en) * 2020-04-15 2022-11-15 Paypal, Inc. Systems and methods for generating a machine learning model for risk determination
US11756049B1 (en) * 2020-09-02 2023-09-12 Amazon Technologies, Inc. Detection of evasive item listings
CN112149415A (zh) * 2020-10-12 2020-12-29 清华大学 文本生成模型的训练方法、装置及可读存储介质
CN112966808A (zh) * 2021-01-25 2021-06-15 咪咕音乐有限公司 数据分析方法、装置、服务器和可读存储介质
CN112800750A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 一种无监督的非自回归古诗生成方法、装置及存储介质
CN113303807B (zh) * 2021-05-18 2022-06-14 浙江大学 一种心电数据生成方法
CN113312450B (zh) * 2021-05-28 2022-05-31 北京航空航天大学 一种防范文本流次序变换攻击的方法
US11941357B2 (en) 2021-06-23 2024-03-26 Optum Technology, Inc. Machine learning techniques for word-based text similarity determinations
CN113705204A (zh) * 2021-08-03 2021-11-26 西安交通大学 结合qq学习群的混合式教学图表数据分析方法、系统、设备及存储介质
CN113761231B (zh) * 2021-09-07 2022-07-12 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法
US11450124B1 (en) * 2022-04-21 2022-09-20 Morgan Stanley Services Group Inc. Scoring sentiment in documents using machine learning and fuzzy matching
CN116860706B (zh) * 2023-09-04 2023-11-24 南昌协达科技发展有限公司 一种实验数据文本存储方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
US20140229408A1 (en) * 2013-02-14 2014-08-14 24/7 Customer, Inc. Categorization of user interactions into predefined hierarchical categories
JP2017509963A (ja) * 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073024A (ja) * 2005-08-11 2007-03-22 Nec Corp マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US9092425B2 (en) * 2010-12-08 2015-07-28 At&T Intellectual Property I, L.P. System and method for feature-rich continuous space language models
US11055334B2 (en) * 2011-09-23 2021-07-06 Avaya Inc. System and method for aligning messages to an event based on semantic similarity
US9430563B2 (en) 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US20160098645A1 (en) 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
US10176253B2 (en) 2015-01-28 2019-01-08 International Business Machines Corporation Fusion of cluster labeling algorithms by analyzing sub-clusters
US11562286B2 (en) 2015-02-06 2023-01-24 Box, Inc. Method and system for implementing machine learning analysis of documents for classifying documents by associating label values to the documents
CN104778158B (zh) 2015-03-04 2018-07-17 新浪网技术(中国)有限公司 一种文本表示方法及装置
US10423874B2 (en) * 2015-10-02 2019-09-24 Baidu Usa Llc Intelligent image captioning
WO2017180475A1 (en) * 2016-04-15 2017-10-19 3M Innovative Properties Company Query optimizer for combined structured and unstructured data records
CN105955955B (zh) 2016-05-05 2018-08-28 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치
CN106407406B (zh) 2016-09-22 2019-12-10 国信优易数据有限公司 一种文本处理方法和系统
CN106446264B (zh) 2016-10-18 2019-08-27 哈尔滨工业大学深圳研究生院 文本表示方法及系统
US10963782B2 (en) * 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10860685B2 (en) * 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
CN106844346B (zh) 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
US11573989B2 (en) * 2017-02-24 2023-02-07 Microsoft Technology Licensing, Llc Corpus specific generative query completion assistant
US10552501B2 (en) * 2017-03-28 2020-02-04 Oath Inc. Multilabel learning via supervised joint embedding of documents and labels
US10755174B2 (en) * 2017-04-11 2020-08-25 Sap Se Unsupervised neural attention model for aspect extraction
US10268646B2 (en) * 2017-06-06 2019-04-23 Facebook, Inc. Tensor-based deep relevance model for search on online social networks
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
US20140229408A1 (en) * 2013-02-14 2014-08-14 24/7 Customer, Inc. Categorization of user interactions into predefined hierarchical categories
JP2017509963A (ja) * 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding

Also Published As

Publication number Publication date
US11823013B2 (en) 2023-11-21
WO2019043540A1 (en) 2019-03-07
GB202003834D0 (en) 2020-04-29
CN111066021B (zh) 2023-09-19
CN111066021A (zh) 2020-04-24
US20190065986A1 (en) 2019-02-28
GB2578711A (en) 2020-05-20
JP7002638B2 (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
JP7002638B2 (ja) ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
US11455473B2 (en) Vector representation based on context
AU2020385264B2 (en) Fusing multimodal data using recurrent neural networks
US11875253B2 (en) Low-resource entity resolution with transfer learning
US11366990B2 (en) Time-series representation learning via random time warping
JP2021503668A (ja) マルチ・タスク学習を用いた特徴抽出方法、コンピュータ・システム、およびコンピュータ・プログラム製品(マルチ・タスク学習を用いた特徴抽出)
US10216834B2 (en) Accurate relationship extraction with word embeddings using minimal training data
JP2020533692A (ja) 訓練データを更新するための方法、システム、およびコンピュータ・プログラム
US11901047B2 (en) Medical visual question answering
US11030402B2 (en) Dictionary expansion using neural language models
US20220405524A1 (en) Optical character recognition training with semantic constraints
US20210098074A1 (en) Designing and folding structural proteins from the primary amino acid sequence
US11361031B2 (en) Dynamic linguistic assessment and measurement
US11514318B2 (en) Multi-source transfer learning from pre-trained networks
US20210149990A1 (en) Iteratively expanding concepts
US11556558B2 (en) Insight expansion in smart data retention systems
US20230021563A1 (en) Federated data standardization using data privacy techniques
US20220083876A1 (en) Shiftleft topology construction and information augmentation using machine learning
JP2022079430A (ja) 方法、システムおよびコンピュータ・プログラム
US11809454B2 (en) Label-based document classification using artificial intelligence
US11645464B2 (en) Transforming a lexicon that describes an information asset
US20230306203A1 (en) Generating semantic vector representation of natural language data
US20210117812A1 (en) Cognitive model modification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227

R150 Certificate of patent or registration of utility model

Ref document number: 7002638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150