JP2020532012A - ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 - Google Patents
ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 Download PDFInfo
- Publication number
- JP2020532012A JP2020532012A JP2020511764A JP2020511764A JP2020532012A JP 2020532012 A JP2020532012 A JP 2020532012A JP 2020511764 A JP2020511764 A JP 2020511764A JP 2020511764 A JP2020511764 A JP 2020511764A JP 2020532012 A JP2020532012 A JP 2020532012A
- Authority
- JP
- Japan
- Prior art keywords
- random
- text data
- text
- component
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Abstract
Description
オンデマンド・セルフサービス。クラウド消費者は、たとえばサーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを、必要に応じて自動的に、サービス・プロバイダとの人的対話を必要とせずに一方的にプロビジョニングできる。
広範なネットワーク・アクセス。ケイパビリティはネットワークを通じて利用可能であり、異種シンまたはシック・クライアント・プラットフォーム(例、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール。マルチテナント・モデルを用いて複数の消費者にサービスするために、プロバイダのコンピューティング・リソースはプールされ、要求に従って異なる物理および仮想リソースが動的に割り当ておよび再割り当てされる。消費者は一般的に、提供されるリソースの正確な場所に対する制御も知識も有さないが、より高レベルの抽象化での場所(例、国、州、またはデータセンタ)を特定できてもよいという点で、場所独立性の意味が存在する。
迅速な順応性。ケイパビリティは、素早くスケール・アウトするために場合によっては自動的に、迅速かつ順応的にプロビジョニングされ、かつ素早くスケール・インするために迅速にリリースされ得る。消費者にとって、プロビジョニングのために利用可能なケイパビリティはしばしば無制限にみえ、任意のときに任意の量を購入できる。
サービスの測定。クラウド・システムは、サービスのタイプ(例、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に対して適切な何らかの抽象化レベルにおいて計測ケイパビリティを利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用をモニタ、制御、および報告して、使用されるサービスのプロバイダおよび消費者の両方に対する透明性を提供できる。
サービスとしてのソフトウェア(SaaS:Software as a Service)。消費者に提供されるケイパビリティは、クラウド・インフラストラクチャにおいて実行されるプロバイダのアプリケーションの使用である。アプリケーションは、さまざまなクライアント・デバイスからたとえばウェブ・ブラウザ(例、ウェブに基づくeメール)などのシン・クライアント・インタフェースを通じてアクセス可能である。消費者はネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケーパビリティさえも含む基礎的なクラウド・インフラストラクチャを管理または制御することはなく、例外として考えられるのは限られたユーザ特有のアプリケーション構成設定である。
サービスとしてのプラットフォーム(PaaS:Platform as a Service)。消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、消費者が作成または取得したアプリケーションのクラウド・インフラストラクチャへの配置である。消費者はネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラストラクチャを管理または制御することはないが、配置されたアプリケーションおよびおそらくはアプリケーション・ホスティング環境構成に対する制御を有する。
サービスとしてのインフラストラクチャ(IaaS:Infrastructure as a Service)。消費者に提供されるケイパビリティは、オペレーティング・システムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを配置および実行することが可能な処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースのプロビジョニングである。消費者は基礎的なクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、配置されたアプリケーションに対する制御、およびおそらくはネットワーク形成コンポーネント(例、ホスト・ファイアウォール)の選択に対する限られた制御を有する。
プライベート・クラウド。このクラウド・インフラストラクチャは、ある組織に対してのみ動作される。これはその組織または第3者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
コミュニティ・クラウド。このクラウド・インフラストラクチャは複数の組織に共有され、共通する関心事項(例、任務、セキュリティ要件、ポリシー、およびコンプライアンスの検討)を有する特定のコミュニティをサポートする。これはそれらの組織または第3者によって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。
パブリック・クラウド。このクラウド・インフラストラクチャは、一般人または大規模な産業グループに対して利用可能にされ、クラウド・サービスを販売する組織が所有している。
ハイブリッド・クラウド。このクラウド・インフラストラクチャは2つまたはそれ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合体であり、それらのクラウドは一意のエンティティを留めるが、データおよびアプリケーション・ポータビリティを可能にする標準または独自の技術(例、クラウド間のロード・バランシングのためのクラウド・バースティング)によってともに結合される。
ここでNは、ドキュメントの集合におけるドキュメントの数である。各ドキュメントxは次の単語ベクトルの集合体として表すことができ、
ここでL=|xi|は、集合におけるドキュメントの最大の長さであり、
はドキュメントの空間を示す。各ドキュメントは1つ以上の単語を含み得る。
ここで
は、分布p(ω)から抜き取られた独立かつ同一の分布(i.i.d.:independently and identically distributed)のランダム・ドキュメントを表し、ここでp(ω)は次のとおりに示されるすべての可能なドキュメントの空間にわたる分布を表す。
分布p(ω)は、意味のあるランダムな単語を生成するために、たとえばWord2Vec埋め込み空間などの単語ベクトル埋め込み空間の特徴を十分に獲得した分布である。すべての可能なドキュメントの空間
は、ドキュメントxとすべての可能なランダム・ドキュメントω∈Ωとの間の距離測定から導出される無限次元特徴マップを表す。たとえばドキュメントxが与えられるとき、特徴ベクトル
がこの与えられたドキュメントxに対して生成され、ここでφω(x):=exp(−γWMD(x,ω))である。
がxおよびyのそれぞれにおける各単語の正規化周波数ベクトルであるとき(すなわち下記式であるとき)、
WMDは次のとおりに定められ得る。
Fは輸送の流れの行列を表し、ここでFijはxにおける単語iからyにおける単語jまで移動する流れの量を示し、Cは輸送コスト(例、地上距離)を表し、ここでCij:=dist(vi,vj)であり、これはたとえばWord2Vec埋め込み空間などの単語ベクトル埋め込み空間において測定された2つの単語の間の距離である。
<z(x),z(y)>の分散を低くするために、MC法を適用して以下を計算できる。
ここでwjは長さDのランダム・テキスト配列であり、テキスト配列の各単語は分布p(ω)から抜き取られている。この計算は、数Djのランダムな単語からなるランダム・ドキュメントwjを生成することによって行うことができ、ランダムな単語の各々はp(ω)から抜き取られた単語ベクトルvjに関連付けられ、各Djは[DMin,DMax]からサンプリングされる。実現の一例において、ランダムな単語の最小数DMinは1であり、ランダムな単語の最大数DMaxは5である。
入力:下記式のテキスト・ドキュメント、1<|xi|<L、DMin、DMax、R、ランダム・ドキュメントの分布p(ω)。
出力:任意の長さのテキストに対する特徴行列ZN×R
1:j=1,...,Rに対して
2: Djを[DMin,DMax]から均一に抜き取る。数Djのランダムな単語からなるランダム・ドキュメントωjを生成し、各関連単語ベクトルvjは分布p(ω)から抜き取られる。
3: WMDを用いて下記式の特徴ベクトルを計算する。
4:以下に対して終了する
5:下記式の特徴行列を戻す
Claims (20)
- テキスト・データに対する教師なし特徴表現学習を行うための、コンピュータに実現される方法であって、
プロセッサ・システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
前記プロセッサ・システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
前記プロセッサ・システムによって、前記特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む、コンピュータに実現される方法。 - 前記特徴行列を生成することは、
前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項1に記載のコンピュータに実現される方法。 - 前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項1または2に記載のコンピュータに実現される方法。
- 前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項1または2に記載のコンピュータに実現される方法。
- 前記単語ベクトル空間は、事前学習済みのword2vec埋め込み空間を含む、請求項4に記載のコンピュータに実現される方法。
- 前記単語ベクトル空間は、学習済みのword2vec埋め込み空間を含む、請求項4に記載のコンピュータに実現される方法。
- 前記プロセッサ・システムは、第1者コンポーネントおよび第2者コンポーネントを含む2者間プロトコル・システムを含み、前記第1者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第2者コンポーネントに送信し、前記第2者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第2者コンポーネントに送信するように構成される、請求項4〜6のいずれか一項に記載のコンピュータに実現される方法。
- 前記第2者コンポーネントは、前記第1者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第1者コンポーネントに送信し、前記第1者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記1つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第1者コンポーネントに送信するように構成される、請求項7に記載のコンピュータに実現される方法。
- テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは方法を行うように構成された1つ以上のプロセッサを含み、前記方法は、
前記システムによって、ランダム・テキスト配列のセットを含む参照テキスト・データを生成することであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は分布から抜き取られる、生成することと、
前記システムによって、前記ランダム・テキスト配列のセットと生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成することと、
前記システムによって、前記特徴行列を1つ以上の機械学習モデルへの入力として提供することとを含む、システム。 - 前記特徴行列を生成することは、
前記プロセッサ・システムによって、ドキュメント距離測定技術を用いて、前記生テキスト・データと前記ランダム・テキスト配列のセットとの間の特徴ベクトルのセットを計算することと、
前記システムによって、前記特徴ベクトルを連結して前記特徴行列を生成することとを含む、請求項9に記載のシステム。 - 前記分布は、単語ベクトル空間のランダム確率分布を含む、請求項9または10のいずれかに記載のシステム。
- 前記分布は、前記生テキスト・データから生成された単語ベクトル空間の確率分布を含む、請求項9または10のいずれかに記載のシステム。
- 前記単語ベクトル空間は、事前学習済みのword2vec埋め込み空間を含む、請求項12に記載のシステム。
- 前記単語ベクトル空間は、学習済みのword2vec埋め込み空間を含む、請求項12に記載のシステム。
- 前記システムは、第1者コンポーネントおよび第2者コンポーネントを含む2者間プロトコル・システムを含み、前記第1者コンポーネントは、前記生テキスト・データから前記確率分布を生成し、前記生テキスト・データの前記確率分布を前記第2者コンポーネントに送信し、前記第2者コンポーネントから前記参照テキスト・データを受信し、前記ランダム・テキスト配列のセットに少なくとも部分的に基づいて前記特徴行列を生成し、前記生成された特徴行列を前記第2者コンポーネントに送信するように構成される、請求項12〜14のいずれか一項に記載のシステム。
- 前記第2者コンポーネントは、前記第1者コンポーネントから前記確率分布を受信し、前記参照テキスト・データを生成し、前記参照テキスト・データを前記第1者コンポーネントに送信し、前記第1者コンポーネントから前記生成された特徴行列を受信し、前記特徴行列を前記1つ以上の機械学習モデルへの前記入力として提供し、前記機械学習モデルからの結果を前記第1者コンポーネントに送信するように構成される、請求項15に記載のシステム。
- テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
プロセッサと、
メモリと、
生テキスト・データの確率分布を受信し、かつランダム・テキスト配列のセットを含む参照テキスト・データを生成するように構成された参照テキスト・データ生成コンポーネントであって、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られる、参照テキスト・データ生成コンポーネントと、
機械学習コンポーネントとを含み、前記機械学習コンポーネントは、
前記生テキスト・データに対する特徴行列を受信するように構成され、前記特徴行列は、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の計算された距離のセットに少なくとも部分的に基づいて生成され、前記機械学習コンポーネントはさらに、
前記特徴行列を1つ以上の機械学習モデルへの入力として提供するように構成される、システム。 - テキスト・データに対する教師なし特徴表現学習を行うためのシステムであって、前記システムは
プロセッサと、
メモリと、
生テキスト・データの確率分布を生成するように構成された分布生成コンポーネントであって、前記生テキスト・データの確率分布は、事前学習済みまたは学習されたword2vec埋め込み空間に少なくとも部分的に基づいて生成される、分布生成コンポーネントと、
特徴行列生成コンポーネントとを含み、前記特徴行列生成コンポーネントは、
ランダム・テキスト配列のセットを含む参照テキスト・データを受信するように構成され、前記ランダム・テキスト配列のセットの各テキスト配列はランダムな長さであり、かつある数のランダムな単語を含み、ランダムな長さの各々は最小の長さから最大の長さまでサンプリングされ、前記セット内の各テキスト配列の前記ランダムな単語は前記確率分布から抜き取られ、前記特徴行列生成コンポーネントはさらに、
ドキュメント距離測定技術を用いて計算された、前記ランダム・テキスト配列のセットと前記生テキスト・データとの間の距離のセットに少なくとも部分的に基づいて、前記生テキスト・データに対する特徴行列を生成するように構成される、システム。 - テキスト・データに対する教師なし特徴表現学習を行うためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
処理回路によって可読であり、かつ請求項1〜8のいずれか一項に記載の方法を行うための前記処理回路による実行のための命令を保存するコンピュータ可読ストレージ媒体を含む、コンピュータ・プログラム製品。 - コンピュータ可読媒体に保存され、かつデジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータにおいて実行されるときに、請求項1〜8のいずれか一項に記載の方法を行うためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/689,799 | 2017-08-29 | ||
US15/689,799 US11823013B2 (en) | 2017-08-29 | 2017-08-29 | Text data representation learning using random document embedding |
PCT/IB2018/056441 WO2019043540A1 (en) | 2017-08-29 | 2018-08-24 | LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020532012A true JP2020532012A (ja) | 2020-11-05 |
JP2020532012A5 JP2020532012A5 (ja) | 2021-02-18 |
JP7002638B2 JP7002638B2 (ja) | 2022-01-20 |
Family
ID=65435304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020511764A Active JP7002638B2 (ja) | 2017-08-29 | 2018-08-24 | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11823013B2 (ja) |
JP (1) | JP7002638B2 (ja) |
CN (1) | CN111066021B (ja) |
GB (1) | GB2578711A (ja) |
WO (1) | WO2019043540A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346107B (zh) * | 2017-12-28 | 2020-11-10 | 创新先进技术有限公司 | 一种社交内容风险识别方法、装置以及设备 |
US11227231B2 (en) * | 2018-05-04 | 2022-01-18 | International Business Machines Corporation | Computational efficiency in symbolic sequence analytics using random sequence embeddings |
US10956790B1 (en) * | 2018-05-29 | 2021-03-23 | Indico | Graphical user interface tool for dataset analysis |
US11227120B2 (en) * | 2019-05-02 | 2022-01-18 | King Fahd University Of Petroleum And Minerals | Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes |
US11514361B2 (en) * | 2019-08-30 | 2022-11-29 | International Business Machines Corporation | Automated artificial intelligence radial visualization |
CN110688474B (zh) * | 2019-09-03 | 2023-03-14 | 西北工业大学 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
CN111309901A (zh) * | 2020-01-19 | 2020-06-19 | 北京海鑫科金高科技股份有限公司 | 一种短文本分类方法及装置 |
US11501302B2 (en) * | 2020-04-15 | 2022-11-15 | Paypal, Inc. | Systems and methods for generating a machine learning model for risk determination |
US11756049B1 (en) * | 2020-09-02 | 2023-09-12 | Amazon Technologies, Inc. | Detection of evasive item listings |
CN112149415A (zh) * | 2020-10-12 | 2020-12-29 | 清华大学 | 文本生成模型的训练方法、装置及可读存储介质 |
CN112966808A (zh) * | 2021-01-25 | 2021-06-15 | 咪咕音乐有限公司 | 数据分析方法、装置、服务器和可读存储介质 |
CN112800750A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种无监督的非自回归古诗生成方法、装置及存储介质 |
CN113303807B (zh) * | 2021-05-18 | 2022-06-14 | 浙江大学 | 一种心电数据生成方法 |
CN113312450B (zh) * | 2021-05-28 | 2022-05-31 | 北京航空航天大学 | 一种防范文本流次序变换攻击的方法 |
US11941357B2 (en) | 2021-06-23 | 2024-03-26 | Optum Technology, Inc. | Machine learning techniques for word-based text similarity determinations |
CN113705204A (zh) * | 2021-08-03 | 2021-11-26 | 西安交通大学 | 结合qq学习群的混合式教学图表数据分析方法、系统、设备及存储介质 |
CN113761231B (zh) * | 2021-09-07 | 2022-07-12 | 浙江传媒学院 | 一种基于文本字符特征的文本数据归属描述及生成方法 |
US11450124B1 (en) * | 2022-04-21 | 2022-09-20 | Morgan Stanley Services Group Inc. | Scoring sentiment in documents using machine learning and fuzzy matching |
CN116860706B (zh) * | 2023-09-04 | 2023-11-24 | 南昌协达科技发展有限公司 | 一种实验数据文本存储方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
JP2013097722A (ja) * | 2011-11-04 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、方法及びプログラム |
US20140229408A1 (en) * | 2013-02-14 | 2014-08-14 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
JP2017509963A (ja) * | 2014-01-31 | 2017-04-06 | グーグル インコーポレイテッド | 文書のベクトル表現の生成 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007073024A (ja) * | 2005-08-11 | 2007-03-22 | Nec Corp | マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム |
US9235563B2 (en) | 2009-07-02 | 2016-01-12 | Battelle Memorial Institute | Systems and processes for identifying features and determining feature associations in groups of documents |
US9092425B2 (en) * | 2010-12-08 | 2015-07-28 | At&T Intellectual Property I, L.P. | System and method for feature-rich continuous space language models |
US11055334B2 (en) * | 2011-09-23 | 2021-07-06 | Avaya Inc. | System and method for aligning messages to an event based on semantic similarity |
US9430563B2 (en) | 2012-02-02 | 2016-08-30 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
US20160098645A1 (en) | 2014-10-02 | 2016-04-07 | Microsoft Corporation | High-precision limited supervision relationship extractor |
US10176253B2 (en) | 2015-01-28 | 2019-01-08 | International Business Machines Corporation | Fusion of cluster labeling algorithms by analyzing sub-clusters |
US11562286B2 (en) | 2015-02-06 | 2023-01-24 | Box, Inc. | Method and system for implementing machine learning analysis of documents for classifying documents by associating label values to the documents |
CN104778158B (zh) | 2015-03-04 | 2018-07-17 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
US10423874B2 (en) * | 2015-10-02 | 2019-09-24 | Baidu Usa Llc | Intelligent image captioning |
WO2017180475A1 (en) * | 2016-04-15 | 2017-10-19 | 3M Innovative Properties Company | Query optimizer for combined structured and unstructured data records |
CN105955955B (zh) | 2016-05-05 | 2018-08-28 | 东南大学 | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 |
KR20180001889A (ko) * | 2016-06-28 | 2018-01-05 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
CN106407406B (zh) | 2016-09-22 | 2019-12-10 | 国信优易数据有限公司 | 一种文本处理方法和系统 |
CN106446264B (zh) | 2016-10-18 | 2019-08-27 | 哈尔滨工业大学深圳研究生院 | 文本表示方法及系统 |
US10963782B2 (en) * | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
US10860685B2 (en) * | 2016-11-28 | 2020-12-08 | Google Llc | Generating structured text content using speech recognition models |
CN106844346B (zh) | 2017-02-09 | 2020-08-25 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
US11573989B2 (en) * | 2017-02-24 | 2023-02-07 | Microsoft Technology Licensing, Llc | Corpus specific generative query completion assistant |
US10552501B2 (en) * | 2017-03-28 | 2020-02-04 | Oath Inc. | Multilabel learning via supervised joint embedding of documents and labels |
US10755174B2 (en) * | 2017-04-11 | 2020-08-25 | Sap Se | Unsupervised neural attention model for aspect extraction |
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
-
2017
- 2017-08-29 US US15/689,799 patent/US11823013B2/en active Active
-
2018
- 2018-08-24 CN CN201880056129.0A patent/CN111066021B/zh active Active
- 2018-08-24 GB GB2003834.5A patent/GB2578711A/en not_active Withdrawn
- 2018-08-24 JP JP2020511764A patent/JP7002638B2/ja active Active
- 2018-08-24 WO PCT/IB2018/056441 patent/WO2019043540A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
JP2013097722A (ja) * | 2011-11-04 | 2013-05-20 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、方法及びプログラム |
US20140229408A1 (en) * | 2013-02-14 | 2014-08-14 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
JP2017509963A (ja) * | 2014-01-31 | 2017-04-06 | グーグル インコーポレイテッド | 文書のベクトル表現の生成 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
Also Published As
Publication number | Publication date |
---|---|
US11823013B2 (en) | 2023-11-21 |
WO2019043540A1 (en) | 2019-03-07 |
GB202003834D0 (en) | 2020-04-29 |
CN111066021B (zh) | 2023-09-19 |
CN111066021A (zh) | 2020-04-24 |
US20190065986A1 (en) | 2019-02-28 |
GB2578711A (en) | 2020-05-20 |
JP7002638B2 (ja) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7002638B2 (ja) | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 | |
US11455473B2 (en) | Vector representation based on context | |
AU2020385264B2 (en) | Fusing multimodal data using recurrent neural networks | |
US11875253B2 (en) | Low-resource entity resolution with transfer learning | |
US11366990B2 (en) | Time-series representation learning via random time warping | |
JP2021503668A (ja) | マルチ・タスク学習を用いた特徴抽出方法、コンピュータ・システム、およびコンピュータ・プログラム製品(マルチ・タスク学習を用いた特徴抽出) | |
US10216834B2 (en) | Accurate relationship extraction with word embeddings using minimal training data | |
JP2020533692A (ja) | 訓練データを更新するための方法、システム、およびコンピュータ・プログラム | |
US11901047B2 (en) | Medical visual question answering | |
US11030402B2 (en) | Dictionary expansion using neural language models | |
US20220405524A1 (en) | Optical character recognition training with semantic constraints | |
US20210098074A1 (en) | Designing and folding structural proteins from the primary amino acid sequence | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
US11514318B2 (en) | Multi-source transfer learning from pre-trained networks | |
US20210149990A1 (en) | Iteratively expanding concepts | |
US11556558B2 (en) | Insight expansion in smart data retention systems | |
US20230021563A1 (en) | Federated data standardization using data privacy techniques | |
US20220083876A1 (en) | Shiftleft topology construction and information augmentation using machine learning | |
JP2022079430A (ja) | 方法、システムおよびコンピュータ・プログラム | |
US11809454B2 (en) | Label-based document classification using artificial intelligence | |
US11645464B2 (en) | Transforming a lexicon that describes an information asset | |
US20230306203A1 (en) | Generating semantic vector representation of natural language data | |
US20210117812A1 (en) | Cognitive model modification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210106 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7002638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |