JP2022548215A - リアルタイム会話のための累進的なコロケーション - Google Patents

リアルタイム会話のための累進的なコロケーション Download PDF

Info

Publication number
JP2022548215A
JP2022548215A JP2022514982A JP2022514982A JP2022548215A JP 2022548215 A JP2022548215 A JP 2022548215A JP 2022514982 A JP2022514982 A JP 2022514982A JP 2022514982 A JP2022514982 A JP 2022514982A JP 2022548215 A JP2022548215 A JP 2022548215A
Authority
JP
Japan
Prior art keywords
collocated
words
corpus
computer
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022514982A
Other languages
English (en)
Inventor
フォックス、ジェリー
アンドレス、ケリー
ダニー、ジョナサン
ハルプール、リアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022548215A publication Critical patent/JP2022548215A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/38Indexing scheme relating to groups G06F7/38 - G06F7/575
    • G06F2207/48Indexing scheme relating to groups G06F7/48 - G06F7/575
    • G06F2207/4802Special implementations
    • G06F2207/4818Threshold devices
    • G06F2207/4824Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 リアルタイム会話のための累進的なコロケーションを提供する。【解決手段】 コーパス・リンク・モデルをトレーニングし、かつチャネル内及びチャネル間の活動についてのコロケート語を生成するためのアプローチにおいて、1つ又はそれ以上のコンピュータ・プロセッサは、言語的コーパスの分析及び1つ又はそれ以上の作者基準に基づいて、コーパス・リンク・モデルをトレーニングする。1つ又はそれ以上のコンピュータ・プロセッサは、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成する。1つ又はそれ以上のコンピュータ・プロセッサは、1つ又はそれ以上の生成されたコロケート語のそれぞれについて共起レーティングを生成する。1つ又はそれ以上のコンピュータ・プロセッサは、それぞれのコロケート語の生成された共起レーティングにしたがって、1つ又はそれ以上のコロケート語を表示する。【選択図】 図1

Description

本発明は、概ね通信分野に関し、より具体的には、リアルタイム通信アプリケーションに関する。
組織、グループ及び企業内での今日のコラボレーティブな通信アプリケーション及びスイートの増加する発展及び普及は、正確で、信頼でき、かつ検索語生成及び適用のための必要性に、劇的に影響してきた。最近のコラボレーティブな通信スイート及びアプリケーションは、それぞれ、典型的にはトピック、モチーフ、規律、主題、又は目的に対して専用的な複数のチャット・ルーム、及びチャネルを有している。確率的検索、アダプティブ・ラーニング検索及びコーパス言語分析法といった、関連語を決定するためのソリューションは存在するが、これらのソリューションは、不完全なセンテンス、フレージング、曖昧で関連性のない検索結果に導く漠然とした語を使用する、一般化された確率モデルに依存しているため、まったく有効ではない。さらに、上記のソリューションは、コラボレーティブな通信アプリケーション内の複数のチャネル又はサブチャネルに含まれる特定のユーザの言語的傾向及び性質について特定の許容性又は仮定を生成しない。
コラボレーティブ・ソフトウェア又はグループウェアは、共通するタスクに関与する複数の個人が1つ又はそれ以上のゴールを達成することを支援するように設計された、アプリケーション・ソフトウェアである。相互作用のレベルの観点から、コラボレーティブ・ソフトウェアは、次のとおり分けることができる:単一のファイルのライブ的、同時的及び可逆的な編集に多数のユーザを参加させることを可能とする、リアルタイムのコラボレーティブ編集(RTCE)プラットホーム、及び保存済みのそれぞれの編集を複数のファイルとして保持しながら、別々のユーザが1つのファイルを並列的に編集することを可能とする、バージョン制御(例えば、リビジョン制御及びソース制御)プラットホームである。コラボレーティブ・ソフトウェアは、コンピュータにより支援される共同作業(computer-supported cooperative work;CSCW)と、相当にオーバーラップする広い概念である。共同作業システムは、CSCWの広範な概念に関連する行動的及び組織的な変数を理解するための有用な分析ツールとなっている。
リカレント・ニューラル・ネットワーク(RNN)は、人工的なニューラル・ネットワークのクラスであり、そこでは、ノード間の接続が、シーケンスに沿った有向グラフを形成して、時間的シーケンスについて時間的に動的な挙動をネットワークに許容する。フィード・フォワード・ニューラル・ネットワークとは異なり、複数のRNNは、内部状態(メモリ)を使用して、入力シーケンスを処理することが可能であり、RNNが節目無く、関連した手書き入力又は会話認識といったタスクに適用されることを可能とする。長短期記憶(LSTM)ユニットは、リカレント・ニューラル・ネットワーク(RNN)の代替的なレイヤ・ユニットである。LSTMユニットから構成されるRNNは、LSTMネットワークと参照される。共通のLSTMユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートを構成する。セル・メンバーは、任意の時間間隔にわたって評価を行い、ゲートは、セルを出入りする情報の流れを規制する。ゲート付きリカレント・ユニット(GRUs)は、リカレント・ニューラル・ネットワークにおけるゲート機構である。対位法の音楽モデリング及び会話信号モデリングについてのGRU性能は、LSTMと同様のものであることが見出されている。しかしながら、GRUsは、より少ないデータ・セットについて、より良い性能を示す。
コラボレーティブ・サービスは、最近の組織ではユビキタスであり、複数の個人及びグループが多数の同時的議論をリアルタイムで保有することを可能とする。コラボレーティブ・サービス及びアプリケーションに関し、リアルタイム・チャットは、多くの組織についての通信の主要な方法である。コラボレーティブ・チャット・アプリケーションは、問題及び事態を識別し、診断し、かつ修正するために、チーム、組織、又は企業又はこれらの組み合わせのメンバーにより使用される。例えば、ソフトウェア開発チーム又はサポート・スタッフは、問題コードのセクションを識別して、可能性のある解決法を議論するために、コラボレーション・チャット・アプリケーションを使用する(例えば、代替的なコード構造など)。この実施例において、異なるソフトウェア又はサポート・グループは、特定の事態又は問題に専用的な、区別されたチャネル又はサブチャネルを有することができる。
汎用的な検索語の生成及び算出がリアルタイム・コラボレーション・アプリケーション内で専用チャネル又はチャット・ルームに適用される場合、誤適用され、関連性がなく、かつ曖昧な、有効ではないコロケート語を許容することとなり、他の者がチャネル又はチャット・ルームに関連する適切な情報を発見することを妨害し、かつ他の者同士がコミュニケーションを取り、有意義な会話に効果的に参加することを妨害する。伝統的には、語生成システムは、ユーザがコラボレーティブなチャット検索の構造内でリンクされた語の最適セットを提供するための能力を可能とすることにおいては有効ではない。さらに、有効ではない伝統的なシステムは、単語、位置、及び文法を、固定された階層構造に配置する手法を使用して、分析された通信の意味を曖昧でなくしようと試み、かつ固定された階層構造を使用して検索結果をフィルタする。共通して、階層構造は、最初の通信範囲の外のもの(例えば、人々、トピック、又はチャネルの異なるグループ)に一般化される場合に、十分に機能しないことが知られている。
本発明の第1の特徴は、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングする、1つ又はそれ以上のコンピュータ・プロセッサを含むコンピュータ実装方法を開示する。1つ又は複数のコンピュータ・プロセッサは、1つ又はそれ以上のコロケート語を、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて生成する。1つ又はそれ以上のコンピュータ・プロセッサは、1つ又はそれ以上のコロケート語それぞれについて共起レーティングを生成する。1つ又はそれ以上のコンピュータ・プロセッサは、それぞれのコロケート語の生成された共起レーティングにしたがって、1つ又はそれ以上の生成されたコロケート語を表示する。本発明の実施形態は、特定のコーパスに基づいてトレーニングされたモデルを使用して、一般化されたコロケート語を生成し、コラボレーティブなチャット検索の構造内で、リンクされた語の最適セットの表示を可能とする。
本発明の第2の特徴は、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングする、1つ又はそれ以上のコンピュータ・プロセッサを含むコンピュータ実装方法を開示する。1つ又は複数のコンピュータ・プロセッサは、1つ又はそれ以上のコロケート語を、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて生成する。1つ又はそれ以上のコンピュータ・プロセッサは、1つ又はそれ以上のコロケート語それぞれについて共起レーティングを生成する。1つ又はそれ以上のコンピュータ・プロセッサは、それぞれのコロケート語の生成された共起レーティングにしたがって、1つ又はそれ以上のウェブ・ページをタグ付けする。本発明の実施形態は、特定のコーパスに基づいてトレーニングされたモデルを使用して、一般化されたコロケート語を生成し、コラボレーティブなチャット検索の構造内で、リンクされた語の最適セットの表示を可能とする。
本発明の第3の特徴は、1つ又はそれ以上のコンピュータ可読なストレージ・デバイス及び1つ又はそれ以上のコンピュータ可読なストレージ・デバイス上に格納された、プログラム命令を含むコンピュータ・プログラム製品を開示する。格納されたプログラム命令は、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングするためのプログラム命令を含む。格納されたプログラム命令は、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成するためのプログラム命令を含む。格納されたプログラム命令は、1つ又はそれ以上の生成されたコロケート語それぞれについて共起レーティングを生成するためのプログラム命令を含む。格納されたプログラム命令は、生成されたそれぞれのコロケート語の共起レーティングにしたがって1つ又はそれ以上のコロケート語を表示するためのプログラム命令を含む。本発明の実施形態は、特定のコーパスに基づいてトレーニングされたモデルを使用して、一般化されたコロケート語を生成し、コラボレーティブなチャット検索の構造内で、リンクされた語の最適セットの表示を可能とする。
本発明の第4の特徴は、1つ又はそれ以上のコンピュータ・プロセッサ及び1つ又はそれ以上のコンピュータ可読なストレージ・デバイスを含むコンピュータ・システムを開示し、ここで、プログラム命令は、1つ又はそれ以上のコンピュータ・プロセッサによる実行のため、1つ又はそれ以上のコンピュータ可読なストレージ・デバイス上に格納される。格納されたプログラム命令は、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングするためのプログラム命令を含む。格納されたプログラム命令は、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成するためのプログラム命令を含む。格納されたプログラム命令は、1つ又はそれ以上の生成されたコロケート語それぞれについて共起レーティングを生成するためのプログラム命令を含む。格納されたプログラム命令は、生成されたそれぞれのコロケート語の共起レーティングにしたがって1つ又はそれ以上のコロケート語を表示するためのプログラム命令を含む。本発明の実施形態は、特定のコーパスに基づいてトレーニングされたモデルを使用して、一般化されたコロケート語を生成し、コラボレーティブなチャット検索の構成内でリンクされた語の最適セットの表示を可能とする。
本発明の以下の実施形態を、実施例の目的において図面を参照しながら、より詳細に説明する。
本発明の実施形態による、計算機環境を示す機能ブロック図である、 本発明の実施形態による、コーパス・リンク・モデルをトレーニングし、チャネル内及びチャネル間のためのコロケート語を生成するための図1の計算機環境内のサーバ・コンピュータ上でのプログラムの操作ステップを示すフローチャートである。 図3Aは、本発明の実施形態による、コレボレーティブなリアルタイム通信セッションを例示する実施例300を示す。 図3Bは、本発明の実施形態による、コレボレーティブなリアルタイム通信セッションを例示する実施例350を示す。 図4は、本発明の実施形態による、プログラムを実行するサーバ・コンピュータのコンポーネントのブロック図である。
本発明の実施形態は、コラボレーティブ環境が、乱雑さや閲覧性といった問題を引き起こし得るとの認識による。本発明のいくつかの実施形態は、コロケート語及びコリゲート語が乱雑さの軽減、及び閲覧性の向上を提供することを認識する。本発明の実施形態は、特定の言語と、チャネル、サブチャネル、チャット・ルーム、グループ又はアプリケーション内での会話に基づいて、1つ又はそれ以上のモデルをトレーニングし、トレーニングされたモデルを使用してコロケート語及びコリゲート語を生成することにより、コラボレーティブ・システムを改善する。本発明の実施形態は、トレーニング・モデル及びコロケート語及びコリゲート語を効果的に認識し、かつ生成する能力を改善することにより、コラボレーティブ・システムを改善する。本発明の実施形態は、生成されたコロケート語及びコリゲート語が検索、特に検索語の推奨において使用されることを可能とする。本発明の実施形態は、生成されたコロケート語及びコリゲート語が、コンテント、トピック、及びファイルのタギングに使用されることを可能とする。本発明の実施形態は、生成されたコロケート語及びコリゲート語を効率的な検索エンジン最適化タグ及びメタデータを生成するために使用するものである。
本発明の実施形態は、生成されたコロケート語及びコリゲート語(例えばチャットの会話の検索用コロケーションを作るのに使用する)を、コンテンツ管理システム内で使用して、どの語が最も尤らしい検索であるかを理解することを支援する。本発明の実施形態は、生成されたコロケート語及びコリゲート語を、検索能力を改善し、かつ乱雑さを軽減するであろう、コンテンツへのタグ付け又はタイトル出しのために使用する。本発明の実施形態は、1つのロケーションからもう1つへのロケーションのトレンドをモデル化し、かつ、上記のモデルをある時点での相互作用に対して重みを追加するために使用する。本発明の実施形態は、トピック事項について類似するグループの以前の保存に基づいて、予測累進的コロケーション・グループ・モデルを生成する。本発明の実施形態は、グループ・レベルでのプロファイル化を行い、本発明により、類似する語についての言語的パターン及び内容に基づいて語を生成することを可能にする。本発明の実施形態は、累進的コロケーション・グループ・モデルを、グループの活動(例えばソフトウェアのサポート・チーム)に基づいて、パターンの漸進的変化及び検索語の進化を予測するために使用する。本発明の実施形態は、システム効率(例えば、メモリ及び中央処理ユニットの利用といったシステム処理要求の軽減)が、ありがちでなく又は本当らしくないコロケート語の生成を排除することにより、改善できることを認識する。本発明が問題空間について提供するソリューションの忠実性を生成するために、コーパス言語分析と、作者頻度分析とを組み合わせる技術は存在しない。本発明の実施形態の実装は、種々の形態を取ることができ、かつ例示的な実装の詳細は、引き続き、図面を参照して議論される。
ここで、本発明を、図面を参照して詳細に説明する。
図1は、本発明の1実施形態による、概ね100で示された計算機環境を例示する機能的ブロック図である。本明細書で使用される用語、“計算機的”とは、単一のコンピュータ・システムとして互いに動作する、多数の物理的に別々のデバイスを含むコンピュータ・システムを記述する。図1は、1つの実装の例示を提供するに過ぎず、異なる実施例を実装することができる環境を考慮し、如何なる限定を関連するものではない。当業者により、請求項により列挙される本発明の範囲から逸脱すること無しに、図示した環境に対する多くの変更を為しえる。
計算機環境100は、ネットワーク102越しに相互接続されたクライアント・コンピューティング・デバイス110と、サーバ・コンピュータ120とを含む。ネットワーク102は、例えば、電話通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、インターネットといったワイド・エリア・ネットワーク(WAN)、又はこれら3つの組み合わせとすることができ、かつ、有線、ワイヤレス、又はファイバ光学接続を含むことができる。ネットワーク102は、データ、音声、又は音声、データ及びビデオ情報を含むマルチメディア信号を含むビデオ信号又はこれらの組み合わせを受信及び送信可能な、1つ又はそれ以上の有線又はワイヤレス・ネットワーク又はそれら両方を含むことができる。一般的にネットワーク102は、計算機環境100内の、クライアント・コンピューティング・デバイス110と、サーバ・コンピュータ120と、他のコンピューティング・デバイス(不図示)との間の通信をサポートする、接続及びプロトコルの如何なる組み合わせとすることができる。種々の実施形態においては、ネットワーク102は、有線、ワイヤレス又は光学的接続を介してローカルに操作し、かつ接続及びプロトコルの如何なる組み合わせとすることができる(例えばパーソナル・エリア・ネットワーク(PAN)、近距離無線通信(NFC)、レーザ、赤外、超音波など)。
クライアント・コンピューティング・デバイス110は、プログラム命令を処理することができ、かつデータを送受信できる如何なる電子的デバイス又はコンピューティング・システムとでもすることができる。いくつかの実施形態では、クライアント・コンピューティング・デバイス110は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマートホン、又はネットワーク102と通信可能な如何なるプログラム可能な電子デバイスとすることができる。他の実施形態では、クラアント・コンピューティング・デバイス110は、クラウド・コンピューティング環境内といった、サーバ・システムとして多数のコンピュータを使用するサーバ・コンピューティング・システムを表すことができる。一般には、本発明の実施形態により、クライアント・コンピューティング・デバイス110は、図4を考慮してより詳細に説明されるように、機械可読なプログラム命令を実行することができる、如何なる電子的デバイス又は電子的デバイスの組み合わせをも代表する。クライアント・コンピューティング・デバイス110は、ユーザ・インタフェース112及びアプリケーション114を含む。
ユーザ・インタフェース112は、クライアント・コンピューティング・デバイス110のユーザと、クライアント・コンピューティング・デバイス110に滞在するか又はネットワーク102越しにアクセスすることができるか又はこれら両方の複数のアプリケーション(例えば、アプリケーション114)の間のインタフェースを提供するプログラムである。ユーザ・インタフェース112といったユーザ・インタフェースは、プログラムがユーザに対して提示する情報(例えば、グラフィック、テキスト、音響)、及びプログラムを制御するためにユーザが用いる制御シーケンスを指す。ユーザ・インタフェースは、種々のタイプが存在する。1つの実施形態では、ユーザ・インタフェース112は、グラフィカル・ユーザ・インタフェースである。グラフィカル・ユーザ・インタフェース(GUI)は、テキスト・ベースのインタフェース、タイプされたコマンド・ラベル、又はテキスト・ナビゲーションとは対照的に、グラフィカル・アイコン及び視覚的なインジケータを通して、ユーザが周辺デバイス(すなわち、キーボード及びマウスといった、コンピューティング・デバイスのために入力及び出力を提供する、外部のコンピュータ・ハードウェア)と相互作用することを可能とする、インタフェースのタイプである。GUIの動作は、しばしばグラフィカル要素の直接の操作を通じて実装される。実施形態においては、ユーザ・インタフェース112は、アプリケーション114を通してユーザ・プログラム150と情報を送受信する。
アプリケーション114は、ユーザが活動を遂行することを支援するための特定のアプリケーションについての操作を遂行するように設計された、1つ又はそれ以上のプログラムのセットである(例えば、ワード・プロセッシング・プログラム、スプレッド・シート・プログラム、メディア・プレイヤー、ウェブ・ブラウザ)。図示した実施形態においては、アプリケーション114は、グループ通信、コラボレーティブな問題解決及び共同活動を容易にするように設計された、1つ又はそれ以上のプログラムのセットである。本実施形態においては、アプリケーション114は、複数のチャネル、チャット・ルーム、又は区分された通信グループを含み、ここで、それぞれのチャネルは、特定のトピック又はディスカッションのカテゴリに専用化される。図示する実施形態においては、アプリケーション114は、クライアント・コンピューティング・デバイス110上に滞在する。もう1つの実施形態では、アプリケーション114は、サーバ・コンピュータ120上、又はネットワーク102越しに接続されたもう1つのデバイス(不図示)上に滞在する。
サーバ・コンピュータ120は、スタンドアローンのコンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、又はデータを送受信でき、処理できる如何なる他の電子デバイス又はコンピューティング・システムとすることができる。他の実施形態では、サーバ・コンピュータ120は、クラウド・コンピューティング環境といったサーバ・システムのように、多数のコンピュータを使用するサーバ・コンピューティング・システムを表す。もう1つの実施形態においては、サーバ・コンピュータ120は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマートホン、又はクライアント・コンピューティング・デバイス110及びネットワーク102を介して計算機環境100内の他のコンピューティング・デバイス(不図示)と通信可能な、如何なるプログラム可能な電子デバイスとすることができる。もう1つの実施形態においては、サーバ・コンピュータ120は、計算機環境100にアクセスされた場合にシームレスな、リソースの単一のプールとして動作する、クラスタ化されたコンピュータ及びコンポーネントを使用するコンピューティング・システムを表す(例えば、データベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)。図示する実施形態においては、サーバ・コンピュータ120は、データベース122及びプログラム150を含む。他の実施形態では、サーバ・コンピュータ120は、計算機環境100内には図示されていない他のアプリケーション、データベースなどを含むことができる。サーバ・コンピュータ120は、図4に関連してさらに詳細に図示し、説明するように内部及び外部ハードウェア・コンピーネントを含むことができる。
データベース122は、プログラム150により使用されるデータのリポジトリである。説明する実施形態においては、データベース122は、サーバ・コンピュータ120上に滞在する。もう1つの実施形態においては、データベース122は、クライアント・コンピューティング・デバイス110又は提供されたプログラム150がデータベース122にアクセスを有する計算機環境100内の何処かに滞在する。データベース122は、データの組織化された集積である。データベース122は、データベース・サーバ、ハードディスク、又はフラッシュ・メモリといった、プログラム150によりアクセス及び利用可能なデータ及び構成ファイルを格納することができる、如何なるタイプのストレージ・デバイスにでも実装することができる。実施形態においては、データベース122は、以下で詳細に説明する、言語的コーパス124といった、プログラム150により使用されるデータを格納する。図示する実施形態においては、データベース122は、言語的コーパス124及びコーパス・リンク・モデル(CLM)126を含む。
言語的コーパス124は、複数のテキスト・ベースのコーパスのためのレポジトリである(すなわち、聴覚的会話、会話の言葉、テキスト・シーケンス、コンピュータがエンコードしたシーケンスの自然言語表現など)。実施形態においては、言語的コーパス124は、1つ又はそれ以上の履歴的な、クエリー、通信、陳述、議論、コメント、1人又はそれ以上の作者、個人又はグループ又はこれらの組み合わせの言葉を含む。もう1つの実施形態においては、言語的コーパス124は、履歴的なコロケート語及びコリゲート語、それに関連するトピックス、及びそれに関連する作者基準(例えば作者-トピックのマッピング、チャネル頻度、時間的境界及び検討(例えば、最先/最後の投稿、投稿の際の1日の内の平均時間)、作者の投稿頻度、平均投稿長さ、平均投稿閲覧レベル、語/フレーズが使用される頻度など)を含む。実施形態においては、上記の履歴的な通信は、特定の作者、個人、チャネル、サブチャネル、チャット・ルーム、又はグループとの関連性において、分類、組織化、又は構造化、又はこれらの組み合わせが行われる。例えば、特定のチャネル内に含まれるすべての履歴的な通信は、構造化され、互いに区分される。種々の実施形態においては、言語的コーパス124に含まれる情報は、時間的に構造化される。例えば、上記の情報は、時間的期間(例えば、最近1カ月内の議論)を考慮して規制又は制限することができる。もう1つの実施形態においては、上記の情報は、特定のグループ、作者、又はトピック(例えば、特定のクエリー、トピック、ジャンル、問題、事態、解決に関する議論など)に限定される。
実施形態においては、言語的コーパス124は、未処理の通信、議論、及び言葉を含む。もう1つの実施形態においては、言語的コーパス124は、複数の決定された特徴に対応するベクトルのセットを含むことができ、限定するわけではないが、作者、グループ、トピック、識別された問題、それに関連する解決、関連するトピック/照会のセット、技術的分野(例えば、コンピュータ・サイエンス、機械、生物学、化学など)、プログラム的な約束事(例えば、プログラム言語、プログラム言語のカテゴリ(例えば、ストロング・タイプ、オブジェクト指向、手続き的など)、及び時間的な事象(例えば、事前決定された間隔により規制されるサブセット(例えば、特定のトピック又はチャネルに関連する去年の全部の通信)、ソフトウェア・ライフサイクル(例えばソフトウェアの衰退など)などを含む。
種々の実施形態において、言語的コーパス124は、クエリー(例えば、関連するトピック)及びコロケート語とコリゲート語のペア(例えば追加の検索クエリー語)の集積を含む。それぞれのペアは、クエリーと、対応するコロケーション及びコリゲーションの語又はシーケンスとを含む。クエリーの語又はシーケンスは、自然言語又はコンピュータ生成された表現におけるテキスト的な語又はシーケンスとすることができる。例えば、クエリー(例えば、トピック)“アレルギー”は、コロケート語及びコリゲート語“急性”及び“懸念”とペアとされて、完全なクエリー・シーケンス/フレーズ“急性アレルギーの懸念”を形成する。もう1つの実施形態においては、履歴的なトピックス、作者、関連するコロケート語、関連するコリゲート語及び関連する検索語といった、チャネルに特定の統計が特徴として含まれる。もう1つの実施形態においては、作者基準が特徴としてトピック語に添付される。さらなる実施形態においては、チャネル又は通信媒体(例えばチャット・アプリケーション、チャネル、サブチャネル、チャット・ルーム又は環境)に特有の作者基準が、特徴としてトピック語に添付される。種々の実施形態においては、クエリー/コロケート語のセットは、それに関連する通信、議論、トピックス、コメント、又は陳述又はそれらの組み合わせを、構造化又は非構造化された形態の何れかにおいて含む。もう1つの実施形態においては、コロケート語及びコリゲート語は、ラベルに変換され、かつ1つ又はそれ以上のそれに関連するクエリー又はトピック語に添付される。さらにもう1つの実施形態においては、事前決定された、履歴的な又は生成された、又はそれらの組み合わせのコロケート語の有効性についてのレーティングが、1つ又はそれ以上のトピックのセットに対する特徴として、ラベルとして、又は期待される出力として添付される。実施形態においては、言語的コーパス124は、グラフ・データベースとして表現することができ、ここでは、通信、開示、又は議論又はそれらの組み合わせは、作者、クエリー、又はトピックスに対する関係で格納されて、類似するクエリー/トピック/通信及びチャネル/作者の組み合わせ(例えば、コラボレーティブな作者のグラフ)のシーケンスを形成する。
コーパス・リンク・モデル(CLM)126、以下CLM126は、1つ又はそれ以上のモデル、コンテナ、ドキュメント、サブドキュメント、マトリックス、ベクトル、及びそれに関連するデータを含み、言語的分析からの結果と言った、1つ又はそれ以上の特徴のセットをモデル化する。実施例においては、言語的分析は、クエリーの特徴付け及び表現、コロケート語の結合、作者基準、及び投稿頻度の内部到着時間を計算する。実施形態においては、CLM126は、使用される1つ又はそれ以上の生成的(例えば、潜在的ディリクレ配分法(LDA)など)、又は分別的(例えばサポート・ベクトル・マシン(SVM)など)といった統計モデルを含み、観測可能なX、所与のターゲットy、の条件付き確率を計算し、記号的にはP(X|Y=y)となる。種々の実施形態においては、CLM126は、1つ又はそれ以上の分別的モデルをトレーニングし、かつ使用して、ターゲットYの条件付き確率、所与の観測xを計算し、記号的にはP(Y|X=x)となる。
CLM126は、構造化又は非構造化されたデータとして利用できる異なる特徴、及び相対的な数値重みの適用により、クエリー(例えばトピック)又はクエリー・シーケンスを評価する。プログラム150は、ベクトル化、エンコード化、又はコンピュータにより示された特徴データのトレーニング・セットを、CLM126に供給する。種々の実施形態においては、データ(トピック又はトピック語)が、CLM126をして、どの特徴(例えば、トピック、トピック語、作者基準、グループ基準など)が特定のコロケート語又はフレーズに相関しているかを“学習”できるようにするため、コロケート語又はコリゲート語又はそれら両方でラベル付けされる。種々の実施形態においては、特徴は、トピックに加えて、メタデータ(例えば、ターゲットされたチャネル(例えば、チャンネル・メンバー、トピックス、目的など))、類似のトピックス、それに関連した作者、及び環境的な考慮(例えば、プラットホーム、バージョン、デバイス特有の変数など)を含む。さらなる実施形態では、トレーニング・セットは、トークン化されたトピック/検索語のセグメント、コメント、陳述、議論、変数、オブジェクト、データ構造などといった、複数の特徴の例を含むことができる。CLM126は、データのトレーニング・セットから“学習”して、1つ又はそれ以上の特定のトピックス又は語(例えば、作者、アプリケーション、又はチャネル/チャット・ルームなどで限定される)に適用された場合に、らしいか、及びらしくないか(例えば、所定の有効性閾値に対して適用される)の間を区別する。一旦トレーニングされると、CLM126は、プログラム150によってアグリゲートされ、供給されたデータに基づいて、1つ又はそれ以上のコロケート語及びコリゲートされた語、それに関連する確率、及び共起レーティングを生成することができる。実施形態においては、CLM126は、以下のコーパス言語的分析[語A、コレーション_左、log尤度、コレーション_右、log尤度]、及び作者分析[ユーザA、距離、投稿_頻度]を、クエリーを評価する場合の入力として使用する。この実施形態において、CLM126は、コーパス言語的分析及び作者分析を使用してトレーニングされたモデルを表す、下記構造[文字列A、文字列L、float、文字列R、float]+[ユーザA、距離、投稿_頻度]を使用して、クエリーを評価する。
実施形態においては、CLM126は、ディープ・ラーニング技術を使用して、クエリー及びそれに関連するトピックスを、可能性のあるコロケート語とペアにする。種々の実施形態においては、CLM126は、教師あり又は教師無し方法でトレーニングすることができる、伝搬可能なニューラル・ネットワークアルゴリズム及びモデルを使用する(例えば、長短期記憶(LSTM)、ディープ・スタッキング・ネットワーク(DSN)、ディープ・ブリーフ・ネットワーク(DBN)、畳み込みニューラル・ネットワーク(CNN)、コンパウンド・ハイアラーキカル・ディープ・モデル(compound hierarchical deep models)など)。種々の実施形態においては、CLM126は、単純なニューラル・ネットワークである。さらなる実施形態では、CLM126は、アフィン変換の後にエレメント・ワイズな非線形処理、y=f(Wx+b)を含むシングルレイヤのフィード・ニューラル・ネットワークであり、ここで、fは、シグモイド又はハイパボリック・タンジェントといったエレメント・ワイズの非線形性であり、bは、バイアス・ベクトルである。上記の単純なニューラル・ネットワークは、多数の隠れレイヤで拡張することができ、ここで、それぞれのレイヤは、前の隠れレイヤの出力を変換して、次のレイヤに対する出力を生成する、マルチ・レイヤ認識(MLP)である。
図示する実施形態においては、CLM126は、1つ又はそれ以上のリカレント・ニューラル・ネットワーク(RNNs)を含む。この実施形態においては、RNNsは、シーケンシャル・データ(x1, x2 …, xt)を処理して、モデルのパラメータを同一に維持しながら連続する隠れ状態を計算する。RNNsは、“展開された”前の隠れ状態を取得し、その時間的ステップで次の時間的ステップのシリーズのための入力を生成することで、ネットワークを通して情報が流れることを可能とするので、最後のセルは、すべての以前のセルから得られた情報を含む。実施形態においては、CLM126は、ゲート付リカレント・ユニット(GRU)を使用する。GRUsは、必要な計算機資源の量を削減しながら、トレーニング処理を簡略化する。もう1つの実施形態においては、CLM126は、LSTMを使用する。LSTMは、より堅牢な処理を必要とし、より計算機資源を要求するが、LSTMは、大規模なデータ・セットからトレーニングを行う場合により効果的である。種々の実施形態においては、CLM126の隠れレイヤは、一方向的又は双方向的である。もう1つの実施形態では、CLM126は、1つ又はそれ以上のアプリケーション又は通信媒体内に含まれる、それぞれのチャネル又はチャット・ルームについて、1つ又はそれ以上の、スタック可能なRNNsを保持する。この実施形態においては、アプリケーション内のそれぞれのチャネルは、1つ又はそれ以上の専用のRNNSを有しており、上記のチャネルについて最適なドメインの言語的な語のマッチングを可能とする。CLM126のトレーニング及び利用は、図2に関連してより詳細に図示し、かつ説明する。
実施形態において、プログラム150は、上述したモデルを使用して、ユーザのフィードバック、バックテスト、又は確率的モデリング又はそれら両方との組み合わせにおいて、生成された語の共起レベル(例えば、コロケーション/コリゲーションのレーティング(例えば、関連性の基準、共起信頼レベル)など)を生成する。もう1つの実施形態では、CLM126は、それぞれ生成されたコロケート/コリゲート語及びそれに関連するクエリー(例えば含まれるトピック)について、構文的関係(syntactic relation)、字句的関係(lexical relation)、又は言語的に規定される関係無しといった関係のタイプを判断する。
プログラム150は、コーパス・リンク・モデルをトレーニングし、かつチャネル内及びチャネル間の活動について、コロケートされた検索語を生成する。図示した実施形態では、プログラム150は、スタンドアローンのソフトウェア・プログラムである。種々の実施形態では、プログラム150は、以下のステップを実装することができる。プログラム150は、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングする。プログラム150は、トレーニングされたコーパス・リンク・モデルによる1つ又はそれ以上の計算に基づき、1つ又はそれ以上のコロケート語を生成する。プログラム150は、1つ又はそれ以上の生成された、コロケート語のそれぞれについて共起レーティングを生成する。プログラム150は、それぞれのコロケート語の生成された共起レーティングにしたがって、1つ又はそれ以上の生成されたコロケート語を表示する。もう1つの実施形態では、プログラム150又はそれの如何なるプログラムとの組み合わせの機能は、単一のソフトウェア・プログラムへと一体化させることができる。いくつかの実施形態では、プログラム150は、別々であるが依然としてネットワーク102越しに通信することができるコンピューティング・デバイス(不図示)上に配置することができる。種々の実施形態においては、プログラム150のクライアント・バージョンは、計算機環境100内のクライアント・コンピューティング・デバイス110上、又は如何なる他のコンピューティング・デバイス(不図示)上又はこれら両方上に滞在することができる。プログラム150は、図2に関連してより詳細に図示し、説明する。
本発明は、パーソナル・ストレージ・データ、データ、コンテンツ、又はユーザが処理してほしくない情報を含む可能性があるデータベース122といった、種々のアクセス可能なデータ・ソースを含むことができる。ここでいう処理は、自動的又は非自動的な、収集、記録、組織化、構造化、格納、適応化、代替化、抽出、参照、使用、通信による開示、頒布、又はそれ以外の可用化、組み合わせ、制限、削除、又はパーソナル・データに対して実行される破壊などの如何なるものも指している。プログラム150は、パーソナル・データの収集についての注意と共にインフォームド・コンセントを提供し、ユーザがパーソナル・データを処理することについて同意又は拒否することを可能とする。コンセントは、いくつかの形態を取ることができる。同意のコンセントは、パーソナル・データが処理される前に、ユーザが肯定的な動作を取ることを課する。代替的に、拒否のコンセントは、データが処理される前に、ユーザがパーソナル・データの処理を阻止することについての肯定的な動作を取ることを課する。プログラム150は、個人を識別する情報又は機微な個人情報といったパーソナル・データに加えて、許可され、かつ安全化された、情報追跡といったユーザ情報の処理を可能とする。プログラム150は、パーソナル・データ及び処理の性質(例えば、タイプ、範囲、目的、期間など)に関連して情報を提供する。プログラム150は、格納されたパーソナル・データの複製をユーザに提供する。プログラム150は、不正確又は不完全な個人情報の訂正又は完全化を可能とする。プログラム150は、パーソナル・データの即時的な削除を可能とする。
図2は、本発明の実施形態による、コーパス・リンク・モデルをトレーニングし、かつチャネル内及びチャネル間の活動のためのコロケート語を生成するためのプログラム150の操作ステップを示すフローチャートである。
プログラム150は、履歴的通信を検索する(ステップ202)。実施形態においては、プログラム150は、これらに限定されないが、クエリー、メッセージ、会話、議論、言葉、特定のチャネル(例えばチャット・ルーム、サブチャネル、モデレートされたグループなど)に関連する陳述、アプリケーション(例えば、アプリケーション114)、作者(例えばユーザ)、作者のセット、トピックス、及びそれに関連する検索語(例えば、コロケーション及びコリゲーション)を含む、すべての履歴的通信を検索する。もう1つの実施形態においては、プログラム150は、検索された履歴的通信(例えば、クエリー及びメッセージ)を複数のセット(例えば作者、チャネル、アプリケーション、トピックなどによる)へと処理することができる。さらにもう1つの実施形態においては、プログラム150は、履歴的通信を同一の議論の異なる処理バージョンを含む分離されたセットへと区分する。種々の実施形態においては、プログラム150は、事前決定された応答間隔を使用して、境界を規定する。例えば、ユーザが1週間以上もメッセージ、トピックに応答しない、又は議論に寄与しない場合、プログラム150は、時間的閾値の後に送付された如何なる通信も新しい別の会話であり、議論のトピックが変化した可能性があるものと決定する。この実施形態においては、プログラム150は、履歴的通信を、上述のような時間的制限により規定される1つ又はそれ以上のセットへと区分する。もう1つの実施形態においては、検索された履歴的通信は、頻繁に使用される検索語及びそれに関連するトピックといったユーザの挙動に関連する情報又はメタデータを含む。
プログラム150は、その後、自然言語処理(NLP)及びコーパス言語的分析(例えば文法分析など)を使用して、品詞及び通信の種々の部分(すなわち、クエリー)の間の文法的関係を識別する。プログラム150は、会話部分のタギングといったコーパス言語的分析、統計的評価、規則に基づく最適化、及びナレッジ発見法を使用して、会話の部分をパースし、識別し、かつ評価する。実施形態において、プログラム150は、会話部分のタギングを使用して、隣接し、かつ関連する単語の関係に基づいて、1つ又はそれ以上の単語の会話の特定の部分を識別する。例えば、プログラム150は、上述した技術を使用して、「ヘンリー、私は、このリンクがあなたの問題を解決するように信じる。」という実施例のセンテンス内の名詞、形容詞、副詞、及び動詞を識別する。この実施例においては、プログラム150は、“ヘンリー”、“リンク”及び“問題”を名詞として識別し、“解決”及び“信じる”を動詞として識別する。もう1つの実施形態においては、プログラム150は、term-frequency inverse document frequency(tf-idf)技術を使用して、通信、センテンス、会話、ドキュメント、又は履歴的チャット・コーパスについて、どの程度に単語が重要であるかを計算する。もう1つの実施形態においては、プログラム150は、tf-idfを使用して、履歴的通信から抽出された複数の単語について、数値的重みのシリーズを計算する。さらなる実施形態においては、プログラム150は、上記の計算を使用して頻繁に使用される単語を識別し、重み付けする。例えば、プログラム150は、ドキュメントの頻度によりオフセットされる会話(例えば通信、議論など)における単語の出現頻度に比例するように、単語を含む言語的コーパス124内の単語の重みを増加する。実施形態においては、プログラム150は、tf-idfを使用してCLM126の1つ又はそれ以上を初期化する。
プログラム150は、バイターム・トピック・モデリング及びLDAといった1つ又はそれ以上のモデル(例えば、CLM126のインスタンス又はCLM126に含まれる複数のモデル)を使用して、会話、メッセージ、議論、クエリーなどの内の、トピックス及びテーマを識別する。実施形態においては、プログラム150は、バイターム・トピック・モデリングを使用して、ドキュメント内での共起パターン(例えばバイターム)の生成をモデル化する。プログラム150は、バイターム・トピック・モデリングを使用して、単語の共起(例えば、コロケーション及びコリゲーション)パターンをモデル化し、これによりトピックスの識別性を向上させる。種々の実施形態においては、プログラム150は、コーパス内のアグリゲートされたパターンを使用して、チャネル・レベルで共起パターン(例えば、最適検索語)に基づきトピックスを識別し、そしてプログラム150は、アプリケーション・レベル(組織、語、企業など)に対する共起パターンを計算することができる。もう1つの実施形態では、プログラム150は、バイターム・トピック・モデリングを使用して、複数の単語のシリーズが特定のトピックを代表する確率を計算する。もう1つの実施形態では、プログラム150は、潜在的意味分析を使用して、ドキュメント及び語(例えば、多数のコメント、会話など)のマトリックスを、例えばチャネル・トピック・マトリックス、作者-トピック、又はトピック-検索語マトリックスといった多数のサブマトリックスに分解する。実施形態においては、プログラム150は、確率的な潜在的意味分析を使用して、上述したサブマトリックスといった1つ又はそれ以上の確率的マトリックスを生成するために使用される可能性がある確率モデルを計算する。
種々の実施形態においては、プログラム150は、潜在的ディリクレ配分法(LDA)を使用して、通信又はクエリー内に含まれる可能性のある1つ又はそれ以上のトピックスを識別する。LDAは、何故にいくつかのデータ部分が類似であるのかを説明する未解決のグループにより説明されるべき、観測値のセットを許容する。例えば、観測値がドキュメントに収集された複数の単語(例えば、語)である場合、LDAは、それぞれのドキュメントが少数のトピックスの混合されたものであり、それぞれの単語の存在がドキュメントのトピックスの1つを説明することを仮定する。プログラム150は、LDAを使用してドキュメント(例えば、通信、クエリー、議論、コメントの集積など)を、種々のトピックスの混合されたものとして分解する。例えば、LDAモデルは、アレルギー関連及び医療関連として分類されることができるトピックスを有することができる。LDAモデルは、くしゃみ、花粉、及びアンチヒスタミンといった種々の複数の単語に関連するトピックの確率を含み、これらはアレルギー関連として分類され、かつ解釈される。医療関連のトピックは、同様に、語:病院、血小板、及び骨を関連する確率を有する。特定の関連性のない、“the”といった単語は、クラス間とは分離された確率を有することができるか、又は類似性閾値に応じて、新規なトピックと考えられる。
実施例では、トピックスは、語の共起の尤度の自動的検出に基づいて識別される。1つの辞書的な語が、異なる確率でいくつかのトピックに、しかしながら、それぞれのトピック内において近隣の単語に異なる典型的なセットで発生する可能性がある。実施形態においては、プログラム150は、上記に識別した履歴的議論のトピックス及び言語的な傾向を、作者と関連付けて、作者-トピック・マッピングを生成する。プログラム150は、上述したNLP技術を使用して、複数の作者ベースの基準(例えば、作者-トピック・マッピング、チャネル又はチャット・ルーム頻度、時間的境界及び考察(例えば、一番早い/最後の投稿、投稿する場合の1日における平均時間など)、作者投稿頻度、平均投稿長さ、平均投稿閲覧レベル、使用される語/フレーズの頻度など)を生成し、モニタする。実施形態においては、作者基準は、特定の作者、個人、チャネル、チャット・ルーム又はグループに関連して分類され、組織化され、又は構造化又はそれらの組み合わせが行われる。
プログラム150は、その後、1つ又はそれ以上の特徴セットに基づいてそれぞれの区分されたセットを処理する。例えば、システム環境パラメータといった特定のトピックスのみを含む特徴セット(例えば、プラットホーム、バージョン、デバイス固有変数など)である。もう1つの実施例では、特徴セットは、特定のチャネル内の特定の作者に関する情報を含む。プログラム150は、その後、それぞれの語を対応するステム/ルート等価性へと変換し、冗長的な句読点、分詞、文法的堅苦しさなどを排除する。さらにもう1つの実施形態では、プログラム150は、非決定論的に処理されたセットを、トレーニング・セット及びテスト・セットへと分離する。さらなる実施形態においては、プログラム150は、対応する意図的にコロケート語を、ラベルとしてそれぞれのトピックに付する。
プログラム150は、区分されたトピック/コロケート語のセットを、それが関連する議論及び作者データと共にベクトル化する。実施形態においては、プログラム150は、ワンホット・エンコーディング技術を使用して、分類又はストリング-ベースの特徴セットをベクトル化する。例えば、複数の個別的な単語の特徴セットをベクトル化する場合、プログラム150は、1×Nマトリックスを含む、ワンホット・ベクトルを生成し、ここで、Nは、判別可能な複数の単語の数をシンボル化したものである。もう1つの実施形態では、プログラム150は、ワン-オブ-cコーディングを使用して、分類データをベクトル化形式に再コード化する。例えば、[アレルギー、くしゃみ、咳]からなる実施例の分類特徴セットをベクトル化する場合、プログラム150は、対応する特徴セットを、[[1,0,0],[0,1,0],[0,0,1]]へとエンコードする。もう1つの実施形態においては、プログラム150は、特徴スケーリング技術(例えば、リスケーリング、平均規格化など)を使用して、数値的な特徴セットをベクトル化し、かつ規格化する。変更例においては、プログラム150は、Ida2vec(例えば、単語埋め込み)を使用して上述したLDA及びバイターム・トピックの結果、ドキュメント、及びマトリックスをベクトル表現に変換する。
プログラム150は、コーパス・リンク・モデルをトレーニングする(ステップ204)。プログラム150は、CLM126内に含まれる1つ又はそれ以上のモデルをトレーニングする。実施形態においては、プログラム150は、CLM126を、ランダムに生成された重みで初期化する。代替的な実施形態においては、プログラム150は、上述した(例えばtf-idf)分析から計算された重みでCLM126を初期化する。代替的な実施形態においては、プログラム150は、CLM126を履歴的モデルから受け継いだ重みから計算された重みで初期化する。さらにもう1つの実施形態ではプログラム150は、ステップ202で説明したように、ラベル付けされたベクトル化モデルを用いて、教師ありトレーニングを実行する。例えば、プログラム150は、CLM126にクエリー/コロケート語ペアを供給して、プログラム150をしてクエリー語のデータと、コロケート語のデータ(すなわち、ラベル)との間で推定させる。実施形態においては、プログラム150は、上述したように、関連するクエリー、トピックス、通信、又は作者特有の議論又は言語的コーパスに配置されたクエリーから抽出されたデータに由来する複数の特徴ベクトルでCLM126をトレーニングする。実施形態においては、プログラム150は、特定のクエリー、トピック、環境、チャネル、チャット・ルーム、アプリケーション、受信者、グループ、作者、又はユーザ又はこれらの組み合わせに関連するすべての履歴的なメッセージ、会話、議論、及びクエリーを検索する。もう1つの実施形態では、プログラム150は、チャネル、グループ、又はチャット・アプリケーション又はこれらの組み合わせのメンバーの間の、すべての履歴的な通信、クエリー、メッセージ、会話、及び議論のサブセットを検索する。
種々の実施形態においては、プログラム150は、教師ありトレーニングを使用して、予測と、ターゲット(すなわち誤り)との間の誤差を決定し、この誤差を、レイヤを通して誤差逆伝搬させ、CLM126を“学習”させる。実施形態においては、プログラム150は、確率論的勾配アルゴリズムを使用して、誤差逆伝搬法を実装する。もう1つの実施形態においては、プログラム150は、損失関数としてコサイン類似度を使用する。プログラム150は、学習速度を調整して、交差エントロピー・コストを調整することができ、プログラム150が関連するセル及びレイヤの適応性を増加又は減少することができる。実施形態においては、プログラム150は、テスト又はヘルドアウト・セットを使用することによって十分な精度が得られるか否かを判断する。計算した精度が不充分な場合、その後、プログラム150は、CLM126の教師ありトレーニングを継続する。計算した精度が十分な場合、その後プログラム150は、トレーニングプロセスを終了させ、ステップ206に続く。
したがって、本実施形態において、プログラム150は、1つ又はそれ以上のチャネル、グループ、及びコラボレーティブ・アプリケーション(例えば、コーパス)に含まれる固有で別々の履歴的通信に基づいて1つ又はそれ以上のモデルをトレーニングする。いくつかの実施形態では、プログラム150は、個別的なグループ又は特定のトピックにしたがってモデルをトレーニングする。したがって、本実施形態は、トレーニングされ、かつ特定のチャネル又はグループのコーパスに特有のコロケート語の生成を容易にするように設計された、複数のモデルを生成するために使用される。
プログラム150は、通信をモニタする(ステップ206)。種々の実施形態においては、通信は、これらに限定されることはないが、検出、エントリ、又は1つ又はそれ以上のユーザの言葉、コメント、センテンス、検索クエリー、又は検索語又はそれらの組み合わせを含む通信を含む。実施形態においては、プログラム150は、クエリー(例えば検索クエリー)に含まれる1つ又はそれ以上の検索語の通信を、コロケーション・レーティングが計算されるか、若しくは1つ又はそれ以上のコロケート語が生成されるまで、又はそれら両方について阻止する。種々の実施形態においては、プログラム150は、ユーザ・インタフェース内のグラフィカルな通信アイコン(例えば、ユーザ・インタフェース112)を交換するか又は置き換える。例えば、チャット・アプリケーション(例えば、アプリケーション114)は、検索の通信が活性化された場合のグラフィカル・アイコンを有する。本実施例では、プログラム150は、1つ又はそれ以上のアイコンを、それぞれのトリガと共に置き換えて、通信前に検索をインタセプトし、かつ保留させる。さらにもう1つの実施形態では、プログラム150は、クライアント・コンピューティング・デバイス110のアウトバウンド・トラフィックを分析して、検索(例えばクエリー)の通信を検出する。本実施形態においては、プログラム150は、検索(例えばクエリー、検索語など)を、検索が分析され、コロケート語が生成され、かつユーザにより承認されるまで、保留することができる。さらにもう1つの実施形態においては、プログラム150は、検索バー又はテキスト入力エリアといった、アプリケーション(例えばアプリケーション114)の要素において複数の単語を入力するユーザを検出することによって、メッセージを検出する。さらなる実施形態においては、プログラム150は、ユーザが入力する単語又はセンテンス毎に応じて、分析をトリガすることができる。例えば、ユーザが検索クエリーをタイプするにつれて、プログラム150は、同時的にクエリーを検出し、それに関連するトピック情報を抽出して、通信媒体(例えばチャネル又はチャット・ルーム)に特有の1つ又はそれ以上のコロケート語を生成する。代替的な実施形態においては、プログラム150は、ユーザがテキスト/文字の入力、又はタイピング、又は特定の期間ユーザ・インタフェース112の操作を停止するか又は終了させた後に、クエリーの分析をトリガすることができる。例えば、ユーザがクエリーの入力を開始し、入力無しで5分後、プログラム150は、メッセージが通信準備でき、したがって、メッセージを分析する、と判断する。
プログラム150は、履歴的クエリー及び含まれるトピックス、関連する語、フレーズ、及びデータに基づいて、CLM126に含まれる1つ又はそれ以上のモデルを使用して、1つ又はそれ以上のクエリー及び含まれたトピックス(例えば分類、ターゲットされたチャネルなど)又は議論のセット(例えば、アプリケーション(例えばチャット、特定のチャネルなど)内に含まれるメッセージ又は議論)のトピック語(例えば、語に関連するか又はトピックを記述する語)を識別するか、又はコロケート語(例えば隣接する検索語)とのマッチ又はそれらの両方を行う。もう1つの実施形態においては、CLM126は、所与のクエリー及び複数のトピック語がもう1つのトピック、語、又はフレーズに関連する尤度を記述する、1つ又はそれ以上の確率(例えば、確率分布)を生成する。
プログラム150は、コロケート語を生成する(ステップ208)。プログラム150が1つ又はそれ以上のチャット・アプリケーション内での通信(例えば、検索クエリー、ファインド・コマンド、タギング要求など)をモニタ及び処理することに応答して、プログラム150は、ステップ202で議論したように、上記の通信内に含まれる情報を、抽出し、分析し、かつ分解する。プログラム150は、チャネル、チャット・ルーム、及びアプリケーションに特有の履歴的通信、クエリー、メッセージ、コメント、複数のトピック語、共通のコロケート語、言語的傾向、およびそれらに関連する作者基準を使用して、CLM126から計算した重み及び確率を処理して、1つ又はそれ以上のコロケート語のセットを生成し、かつそれぞれの語の尤度(例えば、パーセンテイジ)を決定する。実施形態においては、チャット・アプリケーション、チャネル、サブチャネル、チャット・ルーム、又は環境の1つ又はそれ以上において、プログラム150は、バイターム・トピック・モデリング、LDA、及びトレーニングされた認知モデル(例えば、RNN)の如何なる組み合わせでも使用して、ステップ202で詳述したように、クエリー、会話、メッセージ、議論内のトピックス及び関連するコロケート語のセットを識別する。種々の実施形態においては、プログラム150は、学習及びトランスファー・レイヤを転移して、事前トレーニングされ、関連するモデルを支援し、スピードアップ化し、又は他の関連する如何なるモデルでも補足するように利用する。例えば、プログラム150は、大規模なコラボレーティブ・アプリケーションのテック・サポート・チャネルに含まれる通信を使用してモデルをトレーニングする。この実施例では、プログラム150は、転移学習を使用して、このテック・サポート・チャネルを、他の関連するチャネルに一般化することができる。
実施形態においては、プログラム150は、識別された通信及び含まれるクエリー、トピック語を検出し、処理し、ベクトル化して、CLM126内の複数のトレーニングされたモデルへと供給する。この実施形態において、CLM126は、1つ又はそれ以上の供給されたトピック語に基づいて、コロケート語及びコリゲート語の1つ又はそれ以上のセット及びそれに関連する確率を出力する。実施形態においては、CLM126内のすべてのモデルは、チャネル、多数のチャネル、ユーザ、ユーザ・グループ、又はアプリケーション又はそれらの組み合わせに特有のトレーニング・セットで事前トレーニングされる。コロケーション語及びコリゲーション語は、チャネル、グループ、チャット・ルーム、アプリケーション、トピック、又は作者特有のスキームといった、複数の組織化されたスキーマにしたがって一般化することができる。追加的な実施形態においては、CLM126は、関連する作者又は作者のグループ(チャネル、サブチャネルのメンバーなど)の作者基準でトレーニングされ、かつ供給される。もう1つの実施形態では、プログラム150は、CLM126から生成された出力を使用して、コロケート語と、モニタされた通信と、言語的コーパス124に含まれる、履歴的通信との間の共起の程度(例えば、生成された語が、コロケーションされた又はコリゲーションされたか又はこれらの両方である尤度)を表す共起スコア(例えば、レーティング)を生成する。本実施形態においては、プログラム150は、クエリー語のシーケンスを含むベクトルを、CLM126に含まれる1つ又はそれ以上のモデルに入力し、CLM126は、1つ又はそれ以上の共起スコアを出力する。もう1つの実施形態においては、プログラム150は、バイターム・モデリング又はLDA出力といった1つ又はそれ以上のモデルから生成された、1つ又はそれ以上の確率を使用して、それぞれのモデルの共起信頼性の程度に比例して、上述した結果のそれぞれの重みを調節する。
実施形態においては、CLM126の出力を使用して、プログラム150は、生成されたコロケート語に関連する確率が、クエリー内の識別されたトピックに十分であるか否かを判断する。種々の実施形態においては、プログラム150は、事前定義された共起閾値を使用する。もう1つの実施形態では、プログラム150が、出力(例えば生成されたコロケート語)が共起閾値(例えば確率)を下回ると判断した場合、その後プログラム150は、生成された語を削除して、生成された語に関連するCLM126内の1つ又はそれ以上の重みを削減する。実施例のシナリオにおいては、開発者のグループがバッファ・オーバフロー・バグのトラブルシューティングをし、リアルタイム・チャット・アプリケーションにおいて可能性のある解決策を議論しつつ、プログラム150が議論をモニタし、かつ分析し、それに関連するモデルを再トレーニングして、クエリー又はトピックに対応するコロケーション語を生成している。
したがって、本実施形態においては、プログラム150は、ステップ204で詳述したように、トレーニングされたモデルを使用して、識別されたクエリーに基づいて1つ又はそれ以上のコロケート語を生成する。いくつかの実施形態ではプログラム150は、生成された語がクエリー語の近くに見出すことができる確率を表す共起スコアを計算する。このようにして、本実施形態は、トレーニングされたモデルに関連するコーパスに基づいて有効なコロケート語を生成するために使用される。実施例では、プログラム150は、異なるチャネルに基づくコーパスを使用するが、関連するトピックが上記のモデルを他の問題セットに一般化している(例えば、他のコラボレーティブ・アプリケーション、チャネル、グループ、トピックなど)。
プログラム150は、コロケーション語を提示する(ステップ210)。ステップ208で説明したように、1つ又はそれ以上の生成されたコロケーション語に基づいて、プログラム150は、それに関連するアプリケーション(例えば、チャット・アプリケーション)の能力に依存して生成されたコロケーション語を生成し、調整し、提示することができる。それに関連する共起レーティングに応じて、プログラム150は、元のクエリーから1つ又はそれ以上の生成されたコロケーション語のコメントを別々に(例えば区別してなど)生成し、表示し、修正し、又は提示する。例えば、プログラム150は、実施例の生成されたコロケーション語“治療”を提示することができ、トピック“放射線”を含むクエリーが提示された場合、修正されたクエリー“放射線治療”を形成する。種々の実施形態においては、プログラム150は、コロケーション語に関連する共起レーティングを、数値スコア、順位、又は確率として表示することができる。本実施形態においては、プログラム150は、対応する語に対する近接度レーティングを表示する。実施形態においては、プログラム150は、透過性のレベル及びテキスト色のプリファレンスといった好みによる提示設定を詳細付けるユーザ・プリファレンス又はセッティングを検索、問い合わせるか又は決定する。もう1つの実施形態では、プログラム150は、これらに限定されることはないが、ディスプレイ又は1つ又はそれ以上の表示される語のフォント、フォント・サイズ、文字スタイル、フォント色、背景色、大文字化、全般的透過度、及び相対的透過度を含む1つ又はそれ以上のスタイル要素を修正、変換又は調整する。
実施形態においては、共起レーティングが、事前決定された共起レーティング閾値に適合しない又は超える、例えば、より低い境界を示す場合、その後プログラム150は、それに関連するコロケート語又は関連するコロケート語、又はそれらの両方を削除、消去、隠す、又はそれでなければ目につかないようにすることができる。実施形態においては、プログラム150が多数の可能なコロケート語(例えば、閾値に適合する又は超える共起スコアに関連する語)を有する場合、プログラム150は、語を、それに関連して生成した共起レーティングに基づいてランク付けする。例えば、プログラム150が、可能性のある複数のコロケート語のランク付けされたリストを表示すると、プログラム150は、上記の語の共起レーティングが小さくなるにつれて、表示される語のフォント・サイズを縮小することができる。本実施形態においては、プログラム150は、可能性のある複数のコロケーション語のすべてを表示して、ユーザが語、若しくは1つ又はそれ以上の語の順位を選択すること、若しくは語へのフィードバックを提供すること、又はそれらの組み合わせを可能とすることができる。
実施形態においては、プログラム150は、コンテンツ管理システム(CMS)に対して生成されたコロケーション語を提供する。本実施形態においては、CMSは、コロケーション語を、サーチエンジン・オプティマイゼーション(SEO)において共通に使用される、メタデータ及びメタタグとして使用することができる。SEOは、どの語が最も検索されやすいかを理解することを支援し、その後、コンテントをタグ付け又はタグを調整するために使用する。プログラム150は、類似のドメインに一般化されるか、又はコンテンツを編集によってウェブサイトを最適化することといったトピック分類に関連する場合、生成されたコロケーション語を使用して、特定のキーワード(例えばトピック語)についての関連性を高め、かつ検索エンジンによる効果的なインデックス付けの両方を可能とするため、HTML及びそれに関連するコードを修正する。プログラム150は、SEOを使用してウェブ・トラフィックの品質及び量を増加させることができ、生成されたコロケーション語は、かくしてウェブ・ページの閲覧性を検索エンジンのユーザに対して増加させる。実施形態においては、プログラム150は、生成されたコロケーション語を、複数のウェブ・スパイダ、ウェブ・クローラ、及びそれに関連する検索エンジンのためのキーワード及びメタデータを提供することによって、1つ又はそれ以上のウェブ・ページをタグ付けするために使用する。本実施形態においては、プログラム150は、計算された共起レーティングを、タグ付けされた1つ又はそれ以上のコロケート語のランクを修正すること又は削除のために使用する。
プログラム150は、現在進行しているトピック事項の関連する又は類似の履歴的な保存に基づいて、1つ又はそれ以上の予測的な累進的コロケーション・グループ・モデルを生成することができる。予測された累進的なコロケーション・グループ・モデルは、類似の、又は関連する語及び主題についての言語的パターンに基づいて、頻繁に通信するグループについてグループ・レベルでプロファイル付けすることを可能とする。実施形態において、プログラム150は、生成されたコロケーション語を複数のサポート・チームに提供するための、ソフトウェア・サポートシステム内に実装される。本実施形態においては、プログラム150は、履歴的なソフトウェアのサポート活動に基づいて、パターンの累進及びトピック語の進化及びこれに関連するコロケート語(例えばクエリー)を予測するためのグループ・コーパスのプロファイリングを使用することにより、効果的なクエリーを可能とする。プログラム150は、CLM126を使用して、時間的期間にわたるコロケーション語のトレンドを計算し、識別することができる。実施形態においては、プログラム150は、同一のチャット・アプリケーション、グループ又は組織内の複数のチャネルの間のコロケーションのトレンドをモデル化する。種々の実施形態においては、プログラム150は、説明したモデルを使用して、時間的相互作用におけるポイントを含ませた複数の重み及びグループの言語的パターンを調整する。
したがって、本実施形態においては、プログラム150は、1人又はそれ以上のユーザに対して、生成した語を提示する。実施例においては、プログラム150は、それに関連する共起スコアに基づいて提示した語の1つ又はそれ以上のスタイル要素を修正する。この実施例では、プログラム150は、SEOにおいて共通して使用されるメタデータ又はタグとして生成された語を使用して、プログラム150が1つ又はそれ以上のグループの言語的パターンを、プロファイル付けすることを可能とする。したがって、本実施形態は、ユーザに対してコラボレーティブなチャット検索を構築すること又はコンテント・マネージメント・システムにおいてリンクされた語のセットを最適化することを提供する。
プログラム150は、関連する通信を記録し、コーパス・リンク・モデルを再モデル化する(ステップ212)。1つの実施形態においては、プログラム150は、関連する保存、コメント、議論、及びそれに関連するデータを言語的コーパス124内に記録する。もう1つの実施形態においては、プログラム150は、グラフィカル・ユーザ・インタフェース(例えば、ユーザ・インタフェース112)を通してユーザのフィードバックを受領することができる。例えば、プログラム150がクエリー及びそれに関連するコロケート語を分析した後、ユーザは、クエリー及びレーティングされた語について、クライアント・コンピューティング・デバイス110のグラフィカル・ユーザ・インタフェース上でフィートバックを提供することができる(例えばユーザ・インタフェース112)。実施形態においては、フィードバックは、単純な肯定的又は否定的な応答を含むことができる。もう1つの実施形態では、フィードバックは、提供されたコロケート語のユーザ承認を含むことができる。例えば、プログラム150が低い共起値のコロケート語を生成するか、若しくはトピック語との関係で悪い位置に語を置いた場合、ユーザは、否定的なフィードバックを提供し、訂正されたコロケート語、相対的な位置、及び関連する通信を正確に識別させることができる。実施形態においては、プログラム150は、ユーザのフィードバック及び訂正された語をCLM126に供給して、プログラム150がモデルをこれにしたがって調整することを可能とする。もう1つの実施形態においては、プログラム150は、1つ又はそれ以上のNLP技術を使用して、ユーザの応答が肯定的か、否定的かを記録することができる。プログラム150は、関連する保存、コメント、議論、及びそれに関連するデータを言語的コーパス124にログとして記録し、CLM126に保持させて、調整されたコーパス、及びそれに関連するトレーニング及びテスティング・セットを使用させる。
図3Aは、コラボレーティブなリアルタイム通信セッション、複数のユーザの間での問題解決のセッションの議論の実施例を例示する実施例300を示す。実施例300は、チャット・アプリケーション302、リアルタイム通信アプリケーション、クエリー304、入力された検索クエリー、検索バー308、テキスト入力領域、フォーカスされたチャネル310、活性で視聴できるチャネル312、利用できるチャネルのリストを含む。実施例300は、コーパスの言語的分析及び作者分析を、クエリー304にアクセスする場合に入力として使用する。
図3Bは、コラボレーティブなリアルタイム通信セッション、複数のユーザの間での問題解決のセッションの議論の実施例を例示する実施例350を示す。実施例350は、チャット・アプリケーション302、リアルタイム通信アプリケーション、クエリー304、入力された検索クエリー、生成されたコロケーション語306、生成された検索語、検索バー308、テキスト入力領域、フォーカスされたチャネル310、活性で視聴できるチャネル、及びチャネル312、利用できるチャネルのリストを含む。
図4は、本発明の例示的な実施形態による、クライアント・コンピューティング・デバイス110及びサーバ・コンピュータ120のブロック図を示す。図4は、1つの実装の実施例を提供するものであり、異なる実施形態が実装可能な環境に関して如何なる限定を意味するものではないことについて、認識されるべきである。図示した環境に対して多くの変更を行うことができる。
サーバ・コンピュータ120は、通信機能404を含んでおり、これはキャッシュ403、メモリ402、持続性ストレージ405、通信ユニット407、及び入力/出力(I/O)インタフェース(複数)406の間の通信を提供する。通信機能404は、プロセッサ(マイクロプロセッサ、通信、及びネットワーク・プロセッサなど)と、システム・メモリ、周辺デバイス、及びシステム内の如何なる他のハードウェア・コンポーネントとの間でのデータ又は制御情報の受け渡しのために結成された如何なるアーキテクチャで実装することができる。例えば、通信機能404は、1つ又はそれ以上のバス又はクロスバー・スイッチで実装することができる。
メモリ402及び持続性ストレージ405は、コンピュータ可読な記録媒体である。本実施形態においては、メモリ402は、ランダム・アクセス・メモリ(RAM)を含む。一般に、メモリ402は、如何なる好適な揮発性又は不揮発性のコンピュータ可読な記録媒体を含むことができる。キャッシュ403は、コンピュータ・プロセッサ(複数でもよい)401の性能を、最近にアクセスされたデータ、及びアクセスされたデータに近いデータをメモリ402から取得することによって、向上させる高速メモリである。
プログラム150は、1つ又はそれ以上の、それぞれのコンピュータ・プロセッサ(複数でもよい)401による、キャッシュ403を介した実行のため、持続性ストレージ405及びメモリ402に格納することができる。実施形態においては、持続性ストレージ405は、磁気ハードディスク・ドライブを含む。磁気ハードディスク・ドライブと代替的に、又は追加的に、持続性ストレージ405は、ソリッドーステート・ハードドライブ、半導体ストレージ・デバイス、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM)、フラッシュ・メモリ、又は如プログラム命令又はデジタル情報を格納することが可能な、如何なる他のコンピュータ可読な記録媒体でも含むことができる。
持続性ストレージ405により使用される媒体は、また、取り外し可能とすることができる。例えば、取り外し可能なドライブは、持続性ストレージ405として使用することができる。他の実施例は、光学的及び磁気的ディスク、サムドライブ(商標)、及び持続性ストレージ405のまた部分であるもう1つのコンピュータ可読な記録媒体上に転送するために、ドライブ内に挿入されるスマート・カードを含む。ソフトウェア及びデータ412は、キャッシュ403を介した1つ又はそれ以上のそれぞれのプロセッサ401によるアクセス又は実行又はそれら両方のために、持続性ストレージ405に格納することができる。
通信ユニット407は、これらの実施例ではデータ処理システム又はデバイスと通信を提供する。これらに実施例では、通信ユニット407は、1つ又はそれ以上のネットワーク・インタフェース・カードを含む。通信ユニット407は、物理的及びワイヤレス通信リンクの何れか又は両方を通して、通信を提供する。プログラム150は、通信ユニット407を通して、持続性ストレージ405にダウンロードすることができる。
I/Oインタフェース(複数でもよい)406は、クライアント・コンピューティング・デバイス110に接続することができる他のデバイスと、データの入力及び出力を可能とする。例えば、I/Oインタフェース(複数でもよい)406は、キーボード、キーパッド、タッチ・スクリーン、又は他のいくつかの好適な入力デバイスといった外部デバイス(複数でもよい)408に対する接続を提供する。外部デバイス408は、また、例えば、サムドライブ(商標)、可搬性のある光学的又は磁気ディスク、及びメモリ・カードといった可搬性のコンピュータ可読な記録媒体を含むことができる。本発明の実施形態を実施するために使用されるソフトウェア及びデータ、例えば、プログラム150は、そのような可搬性のコンピュータ可読な記録媒体に格納することができ、かつI/Oインタフェース(複数でもよい)406を介して持続性ストレージ405にロードすることができる。I/Oインタフェース(複数でもよい)は、また、ディスプレイ409に接続される。
ディスプレイ409は、ユーザに対してデータを表示するための機構を提供し、例えばコンピュータ・モニタとすることができる。
本明細書で説明したプログラムは、本発明の特定の実施形態において実装されるアプリケーションに基づいて識別される。しかしながら、本明細書におけるプログラムの如何なる特定の命名法であっても、単に利便性のために使用されたものであることについて認識されるべきであり、したがって、本発明は、そのような命名法により識別され、又は暗示される如何なる特定の用途のみの使用に限定されるべきではないことが認識されるべきである。
本発明は、システム、方法、又はコンピュータ・プログラム製品又はこれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに対して本発明の特徴を遂行させるためのコンピュータ可読なプログラム命令をそれ上に有するコンピュータ可読な記録媒体(又は複数の媒体)を含むことができる。
コンピュータ可読な記録媒体は、命令実行デバイスが使用するための複数の命令を保持し格納することができる有形のデバイスとすることができる、コンピュータ可読な媒体は、例えば、これらに限定されないが、電気的記録デバイス、磁気的記録デバイス、光学的記録デバイス、電気磁気的記録デバイス、半導体記録デバイス又はこれらのいかなる好ましい組み合わせとすることができる。コンピュータ可読な記録媒体のより具体的な実施例は、次のポータブル・コンピュータ・ディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM又はフラッシュ・メモリ(登録商標))、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・イオンリー・メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリ・スティック、フロッピー・ディスク(登録商標)、パンチ・カード又は命令を記録した溝内に突出する構造を有する機械的にエンコードされたデバイス、及びこれらの好ましい如何なる組合せを含む。本明細書で使用するように、コンピュータ可読な記録媒体は、ラジオ波又は他の自由に伝搬する電磁波、導波路又は他の通信媒体(例えば、光ファイバ・ケーブルを通過する光パルス)といった電磁波、又はワイヤを通して通信される電気信号といったそれ自体が一時的な信号として解釈されることはない。
本明細書において説明されるコンピュータ・プログラム命令は、コンピュータ可読な記録媒体からそれぞれのコンピューティング/プロセッシング・デバイスにダウンロードでき、又は例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク又はワイヤレス・ネットワーク及びそれからの組み合わせといったネットワークを介して外部コンピュータ又は外部記録デバイスにダウンロードすることができる。ネットワークは、銅通信ケーブル、光通信ファイバ、ワイヤレス通信ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ及びエッジ・サーバ又はこれらの組み合わせを含むことができる。それぞれのコンピューティング/プロセッシング・デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インタフェースは、ネットワークからコンピュータ可読なプログラム命令を受領し、このコンピュータ可読なプログラム命令を格納するためにそれぞれのコンピューティング/プロセッシング・デバイス内のコンピュータ可読な記録媒体内に転送する。
本発明の操作を遂行するためのコンピュータ可読なプログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械語命令、マシン依存命令、マイクロ・コード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は1つ又はそれ以上の、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、“C”といった従来の手続型プログラミング言語又は類似のプログラム言語、“Q”プログラミング言語といった量子プログラミング言語、Q#、量子コンピューティング言語(QCL)又は類似のプログラミング言語、アセンブラ言語又は類似のプログラミング言語といった低レベルプログラミング言語を含むプログラミング言語のいかなる組合せにおいて記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読なプログラム命令は、全体がユーザ・コンピュータ上で、部分的にユーザ・コンピュータ上でスタンドアローン・ソフトウェア・パッケージとして、部分的にユーザ・コンピュータ上で、かつ部分的にリモート・コンピュータ上で、又は全体がリモート・コンピュータ又はサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)を含むいかなるタイプのネットワークを通してユーザ・コンピュータに接続することができ、又は接続は、外部コンピュータ(例えばインターネット・サービス・プロバイダを通じて)へと行うことができる。いくつかの実施形態では、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電気回路がコンピュータ可読なプログラム命令を、コンピュータ可読なプログラム命令の状態情報を使用して、本発明の特徴を実行するために電気回路をパーソナライズして実行することができる。
本明細書で説明した本発明の特徴を、本発明の実施形態にしたがい、フローチャート命令及び方法のブロック図、又はそれらの両方、装置(システム)、及びコンピュータ可読な記録媒体及びコンピュータ・プログラムを参照して説明した。フローチャートの図示及びブロック図又はそれら両方及びフローチャートの図示におけるブロック及びブロック図、又はそれらの両方のいかなる組合せでもコンピュータ可読なプログラム命令により実装することができることを理解されたい。
これらのコンピュータ可読なプログラム命令は、コンピュータのプロセッサ又は機械を生成するための他のプログラマブル・データ・プロセッシング装置に提供することができ、命令がコンピュータのプロセッサ又は他のプログラマブル・データ・プロセッシング装置により実行されて、フローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装するための手段を生成する。これらのコンピュータ可読なプログラム命令は、またコンピュータ、プログラマブル・データ・プロセッシング装置及び他の装置又はこれらの組み合わせが特定の仕方で機能するように指令するコンピュータ可読な記録媒体に格納することができ、その内に命令を格納したコンピュータ可読な記録媒体は、フローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作の特徴を実装する命令を含む製造品を構成する。
コンピュータ可読なプログラム命令は、またコンピュータ、他のプログラマブル・データ・プロセッシング装置、又は他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で操作ステップのシリーズに対してコンピュータ実装プロセスを生じさせることで、コンピュータ、他のプログラマブル装置又は他のデバイス上でフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装させる。
図のフローチャート及びブロック図は、本発明の種々の実施形態にしたがったシステム、方法及びコンピュータ・プログラムのアーキテクチャ、機能、及び可能な実装操作を示す。この観点において、フローチャート又はブロック図は、モジュール、セグメント又は命令の部分を表すことかでき、これらは、特定の論理的機能(又は複数の機能)を実装するための1つ又はそれ以上の実行可能な命令を含む。いくつかの代替的な実装においては、ブロックにおいて記述された機能は、図示した以外で実行することができる。例えば、連続して示された2つのブロックは、含まれる機能に応じて、実際上1つのステップとして遂行され、同時的、実質的に同時的に、部分的又は完全に一時的に重ね合わされた仕方で実行することができ、又は複数のブロックは、時として逆の順番で実行することができる。またブロック図及びフローチャートの図示、又はこれらの両方及びブロック図中のブロック及びフローチャートの図示又はこれらの組み合わせは、特定の機能又は動作を実行するか又は特定の目的のハードウェア及びコンピュータ命令の組み合わせを遂行する特定目的のハードウェアに基づくシステムにより実装することができる。
本開示の種々の実施形態の説明は、例示の目的のために提示されたが、開示された実施形態への排他又は限定を意図するものではない。多くの変更例又は変形例は、本開示の範囲及び精神から逸脱することなく、当業者において自明である。本明細書で使用する用語は、本実施形態の原理、実用的用途、又は市場において見出される技術を超える技術的改善を最良に説明するため、又は本明細書において開示された実施形態を当業者の他の者が理解できるようにするために選択したものである。

Claims (25)

  1. コンピュータ実装方法であって、
    1つ又はそれ以上のコンピュータ・プロセッサによって、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングすること、
    1つ又はそれ以上のコンピュータ・プロセッサによって、トレーニングされた前記コーパス・リンク・モデルによる1つ又はそれ以上の計算に基づき、1つ又はそれ以上のコロケート語を生成すること、
    1つ又はそれ以上のコンピュータ・プロセッサによって、生成された1つ又はそれ以上の前記コロケート語のそれぞれについて共起レーティングを生成すること、及び
    1つ又はそれ以上のコンピュータ・プロセッサによって、それぞれのコロケート語の生成された前記共起レーティングにしたがって、生成された1つ又はそれ以上の前記コロケート語を表示すること
    を含む、コンピュータ実装方法。
  2. さらに、
    1つ又はそれ以上のコンピュータ・プロセッサによって、1つ又はそれ以上のクエリーをモニタすること
    を含む請求項1に記載の方法。
  3. クエリーは、リアルタイム・チャットの会話、ユーザの言葉、ユーザのコメント、ユーザのセンテンス、ユーザの検索クエリー、又はユーザの検索語からなる群から選択される、請求項2に記載の方法。
  4. 1つ又はそれ以上のクエリーをモニタすることは、
    1つ又はそれ以上のコンピュータ・プロセッサによって、ユーザがクエリーを入力することを検出すること、及び
    1つ又はそれ以上のコンピュータ・プロセッサによって、検出された前記クエリーに含まれる通信媒体に特有のトピック情報を抽出すること
    を含む、請求項2に記載の方法。
  5. 前記言語的コーパスは、履歴的なコロケート語、コリゲート語、関連するトピックス、及び作者基準を含み、前記作者基準は、作者とトピックのマッピング、前記作者によるチャネルの頻度、作者の投稿頻度、作者の平均投稿長さ、作者の平均投稿閲覧レベル、及び前記作者により頻繁に使用される語を含む、請求項1に記載の方法。
  6. 前記言語的コーパスに基づきコーパス・リンク・モデルをトレーニングすることは、
    1つ又はそれ以上のコンピュータ・プロセッサにより、前記言語的コーパスから1つ又はそれ以上の履歴的通信を検索すること、
    1つ又はそれ以上のコンピュータ・プロセッサにより、検索された1つ又はそれ以上の履歴的通信に関連する1つ又はそれ以上のクエリーを識別すること、
    1つ又はそれ以上のコンピュータ・プロセッサにより、識別された1つ又はそれ以上の前記クエリーに関連する1つ又はそれ以上のコロケート語を決定すること、及び
    1つ又はそれ以上のコンピュータ・プロセッサにより、識別された前記クエリー及び決定された1つ又はそれ以上の前記コロケート語を使用する教師ありトレーニングに少なくとも部分的に基づいて前記コーパス・リンク・モデルをトレーニングすること
    を含む、請求項5に記載の方法。
  7. トレーニングされた前記コーパス・リンク・モデルによる1つ又はそれ以上の計算に基づき1つ又はそれ以上のコリゲート語を生成することは、
    1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上の前記モニタされた前記クエリーと、1つ又はそれ以上の生成された前記コロケート語との間の構文的又は字句的関係を決定すること、及び
    1つ又はそれ以上のコンピュータ・プロセッサにより、前記クエリーに対する近接度を決定すること
    を含む、請求項2に記載の方法。
  8. さらに、
    1つ又はそれ以上のコンピュータ・プロセッサにより、現在進行しているトピック事項の、関連するか又は類似するグループの通信に基づいて、1つ又はそれ以上の予測的な累進的コロケーション・グループ・モデルを生成することを含み、予測的な前記累進的コロケーション・グループ・モデルが、頻度の高い通信グループについてグループの言語的パターンを使用するプロファイリングを可能とする、請求項1に記載の方法。
  9. さらに、
    1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上の生成された予測的な前記累進的コロケーション・グループ・モデルを使用して、チャット・アプリケーション内の複数のチャネルの間の時間間隔にわたる1つ又はそれ以上のトレンドを計算することを含む、請求項8に記載の方法。
  10. 1つ又はそれ以上の生成されたコロケート語について前記共起レーティングを生成することは、確率モデルを使用することを含む、請求項1に記載の方法。
  11. 前記コーパス・リンク・モデルは、1つ又はそれ以上のスタック可能なリカレント・ニューラル・ネットワークを含む、請求項1に記載の方法。
  12. トレーニングされた前記コーパス・リンク・モデルによる1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成することは、
    1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上のスタック可能なリカレント・ニューラル・ネットワークに基づいてアプリケーション・レベルで1つ又はそれ以上のコロケート語を生成することを含み、1つ又はそれ以上の記スタック可能なリカレント・ニューラル・ネットワークのそれぞれのリカレント・ニューラル・ネットワークが通信媒体内に含まれる異なるチャネルに基づいてトレーニングされる、請求項11に記載の方法。
  13. 前記共起レーティングが、クエリーが1つ又はそれ以上のコロケート語及び1つ又はそれ以上のコリゲート語に関連することの尤度を記述する、1つ又はそれ以上の確率を含む、請求項1に記載の方法。
  14. さらに、
    1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上の表示された前記コロケート語の、生成された前記共起レーティングを表示すること
    を含む、請求項13に記載の方法。
  15. それぞれのコロケーション語の生成された前記共起レーティングにしたがって、1つ又はそれ以上の前記コロケーション語を表示することは、
    共起レーティングの閾値を超えることに応答して、1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上のモニタされたクエリーに近接する1つ又はそれ以上の生成された前記コロケート語を表示することを含む、請求項1に記載の方法。
  16. それぞれのコロケート語の生成された前記共起レーティングにより、1つ又はそれ以上の前記コロケーション語を表示することは、
    1つ又はそれ以上のコンピュータ・プロセッサにより、生成された前記共起レーティングに基づいて、表示された前記コロケート語の1つ又はそれ以上のスタイル要素を変換することであって、前記スタイル要素は、フォント、フォント・サイズ、文字スタイル、フォント色、背景色、大文字化、全般的透過度、及び相対的透過度からなる群から選択される、変換することと、
    1つ又はそれ以上のコンピュータ・プロセッサにより、変換された前記1つ又はそれ以上のスタイル要素を表示することと、
    を含む、請求項1に記載の方法。
  17. さらに、
    1つ又はそれ以上のコンピュータ・プロセッサにより、リアルタイムの通信、それに関連する作者基準、それに関連するユーザの投稿頻度、生成されたコロケート語、及び生成されたコリゲート語を、言語的コーパスに記録すること、及び
    1つ又はそれ以上のコンピュータ・プロセッサにより、前記言語的コーパスを使用して前記コーパス・リンク・モデルを再トレーニングすること
    を含む、請求項1に記載の方法。
  18. コンピュータ実装方法であって、
    1つ又はそれ以上のコンピュータ・プロセッサにより、言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングすること、
    1つ又はそれ以上のコンピュータ・プロセッサにより、トレーニングされた前記コーパス・リンク・モデルによる計算に基づいて1つ又はそれ以上のコロケート語を生成すること、
    1つ又はそれ以上のコンピュータ・プロセッサにより、1つ又はそれ以上の生成された前記コロケート語のそれぞれについて共起レーティングを生成すること、
    1つ又はそれ以上のコンピュータ・プロセッサにより、それぞれのコロケート語の前記共起レーティングに従い1つ又はそれ以上の生成されたコロケート語で1つ又はそれ以上のウェブ・ページをタグ付けすること
    を含む、コンピュータ実装方法。
  19. コンピュータ・プログラム製品であって、
    1つ又はそれ以上のコンピュータ可読な媒体及び1つ又はそれ以上のコンピュータ可読な記録媒体上に格納されたプログラム命令を含み、格納された前記プログラム命令が、
    言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングするプログラム命令と、
    トレーニングされた前記コーパス・リンク・モデルの1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成するプログラム命令と、
    1つ又はそれ以上の生成された前記コロケート語のそれぞれについて、共起レーティングを生成するプログラム命令と、
    それぞれのコロケーション語の生成された前記共起レーティングにより1つ又はそれ以上の生成されたコロケート語を表示するプログラム命令と
    を含むコンピュータ・プログラム製品。
  20. トレーニングされた前記コーパス・リンク・モデルの1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケーション語を生成するプログラム命令が、
    1つ又はそれ以上のスタック可能なリカレント・ニューラル・ネットワークに基づいてアプリケーション・レベルで1つ又はそれ以上のコロケーション語を生成するプログラム命令を含み、1つ又はそれ以上の前記スタック可能なリカレント・ニューラル・ネットワークのそれぞれのリカレント・ニューラル・ネットワークが通信媒体内に含まれる異なるチャネルに基づいてトレーニングされる、請求項19に記載のコンピュータ・プログラム製品。
  21. 前記共起レーティングが、クエリーが1つ又はそれ以上のコロケート語及び1つ又はそれ以上のコリゲート語に関連することの尤度を記述する1つ又はそれ以上の確率を含む、請求項19に記載のコンピュータ・プログラム製品。
  22. コンピュータ・システムであって、
    1つ又はそれ以上のコンピュータ・プロセッサと、
    1つ又はそれ以上のコンピュータ可読な記録媒体と、
    1つ又はそれ以上の前記プロセッサによる実行のため、前記コンピュータ可読な記録媒体上に格納されたプログラム命令と、を含み、前記プログラム命令が、
    言語的コーパスの分析及び1つ又はそれ以上の作者基準の分析に基づいてコーパス・リンク・モデルをトレーニングするプログラム命令と、
    トレーニングされた前記コーパス・リンク・モデルの1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成するプログラム命令と、
    1つ又はそれ以上の生成された前記コロケート語のそれぞれについて、共起レーティングを生成するプログラム命令と、
    それぞれのコロケート語の生成された前記共起レーティングにより1つ又はそれ以上の生成されたコロケート語を表示するプログラム命令と
    を含むコンピュータ・システム。
  23. トレーニングされた前記コーパス・リンク・モデルの1つ又はそれ以上の計算に基づいて1つ又はそれ以上のコロケート語を生成するプログラム命令が、
    1つ又はそれ以上のスタック可能なリカレント・ニューラル・ネットワークに基づいてアプリケーション・レベルで1つ又はそれ以上のコロケート語を生成するプログラム命令を含み、1つ又はそれ以上の前記スタック可能なリカレント・ニューラル・ネットワークのそれぞれのリカレント・ニューラル・ネットワークが通信媒体内に含まれる異なるチャネルに基づいてトレーニングされる、請求項22に記載のコンピュータ・システム。
  24. 前記共起レーティングが、クエリーが1つ又はそれ以上のコロケート語及び1つ又はそれ以上のコリゲート語に関連することの尤度を記述する1つ又はそれ以上の確率を含む、請求項22に記載のコンピュータ・システム。
  25. それぞれのコロケート語の生成された前記共起レーティングにより、1つ又はそれ以上の前記コロケート語を表示する前記プログラム命令は、
    生成された前記共起レーティングに基づいて、表示された前記コロケート語の1つ又はそれ以上の、フォント、フォント・サイズ、文字スタイル、フォント色、背景色、大文字化、全般的透過度、及び相対的透過度からなる群から選択されるスタイル要素を変換するプログラム命令、及び
    変換された1つ又はそれ以上の前記スタイル要素を表示するプログラム命令
    を含む、請求項22に記載のコンピュータ・システム。
JP2022514982A 2019-09-11 2020-09-01 リアルタイム会話のための累進的なコロケーション Pending JP2022548215A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/567,129 2019-09-11
US16/567,129 US11397859B2 (en) 2019-09-11 2019-09-11 Progressive collocation for real-time discourse
PCT/IB2020/058136 WO2021048691A1 (en) 2019-09-11 2020-09-01 Progressive collocation for real-time discourse

Publications (1)

Publication Number Publication Date
JP2022548215A true JP2022548215A (ja) 2022-11-17

Family

ID=74850487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022514982A Pending JP2022548215A (ja) 2019-09-11 2020-09-01 リアルタイム会話のための累進的なコロケーション

Country Status (4)

Country Link
US (1) US11397859B2 (ja)
JP (1) JP2022548215A (ja)
CN (1) CN114341865B (ja)
WO (1) WO2021048691A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7319478B1 (ja) * 2023-03-20 2023-08-01 トランス・コスモス株式会社 情報処理方法、情報処理システムおよびプログラム
JP7571337B1 (ja) 2024-05-29 2024-10-22 楽天グループ株式会社 Seo情報取得システム、seo情報取得方法、及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
US11818091B2 (en) 2020-05-10 2023-11-14 Salesforce, Inc. Embeddings-based discovery and exposure of communication platform features
US12013850B2 (en) * 2020-06-10 2024-06-18 Alation, Inc. Method and system for advanced data conversations
US11934392B2 (en) 2020-06-10 2024-03-19 Alation, Inc. Method and system for data conversations
US11444896B1 (en) * 2021-04-09 2022-09-13 Slack Technologies, Llc Real-time feedback for message composition in a communication platform

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953219B2 (en) 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US20070016397A1 (en) 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
WO2007101263A2 (en) 2006-02-28 2007-09-07 Buzzlogic, Inc. Social analytics system and method for analyzing conversations in social media
US20090198488A1 (en) 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
US9129012B2 (en) 2010-02-03 2015-09-08 Google Inc. Information search system with real-time feedback
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US20130325757A1 (en) * 2012-06-05 2013-12-05 Sap Ag Cascading learning system as semantic search
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US20160012115A1 (en) * 2013-02-28 2016-01-14 Celal Korkut Vata Combinational data mining
US10742577B2 (en) 2013-03-15 2020-08-11 Disney Enterprises, Inc. Real-time search and validation of phrases using linguistic phrase components
US9536522B1 (en) * 2013-12-30 2017-01-03 Google Inc. Training a natural language processing model with information retrieval model annotations
US9037967B1 (en) 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US10152532B2 (en) * 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
WO2017213709A1 (en) * 2016-06-08 2017-12-14 Google Llc Scalable dynamic class language modeling
US10650305B2 (en) * 2016-07-08 2020-05-12 Baidu Usa Llc Systems and methods for relation inference
US10877730B2 (en) 2016-09-21 2020-12-29 International Business Machines Corporation Preserving temporal relevance of content within a corpus
US10162816B1 (en) * 2017-06-15 2018-12-25 Oath Inc. Computerized system and method for automatically transforming and providing domain specific chatbot responses
CN107562717B (zh) 2017-07-24 2021-08-03 南京邮电大学 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
US10540446B2 (en) * 2018-01-31 2020-01-21 Jungle Disk, L.L.C. Natural language generation using pinned text and multiple discriminators
CN109033084B (zh) 2018-07-26 2022-10-28 国信优易数据股份有限公司 一种语义层次树构建方法以及装置
CN109614476A (zh) 2018-12-11 2019-04-12 平安科技(深圳)有限公司 客服系统问答方法、装置、计算机设备及存储介质
CN109684483B (zh) 2018-12-11 2024-07-02 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7319478B1 (ja) * 2023-03-20 2023-08-01 トランス・コスモス株式会社 情報処理方法、情報処理システムおよびプログラム
WO2024195274A1 (ja) * 2023-03-20 2024-09-26 トランス・コスモス株式会社 情報処理方法、情報処理システムおよびプログラム
JP7571337B1 (ja) 2024-05-29 2024-10-22 楽天グループ株式会社 Seo情報取得システム、seo情報取得方法、及びプログラム

Also Published As

Publication number Publication date
US11397859B2 (en) 2022-07-26
CN114341865B (zh) 2023-01-24
CN114341865A (zh) 2022-04-12
US20210073336A1 (en) 2021-03-11
WO2021048691A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
Khurana et al. Natural language processing: state of the art, current trends and challenges
Sohangir et al. Big Data: Deep Learning for financial sentiment analysis
Singh Natural language processing for information extraction
US10832001B2 (en) Machine learning to identify opinions in documents
US10049103B2 (en) Author personality trait recognition from short texts with a deep compositional learning approach
US11397859B2 (en) Progressive collocation for real-time discourse
Subhashini et al. Mining and classifying customer reviews: a survey
US11573995B2 (en) Analyzing the tone of textual data
Pais et al. NLP-based platform as a service: a brief review
US11556781B2 (en) Collaborative real-time solution efficacy
US11436267B2 (en) Contextually sensitive document summarization based on long short-term memory networks
US20220318522A1 (en) User-centric and event sensitive predictive text summary
Kumar et al. ATE-SPD: simultaneous extraction of aspect-term and aspect sentiment polarity using Bi-LSTM-CRF neural network
Bhamare et al. A supervised scheme for aspect extraction in sentiment analysis using the hybrid feature set of word dependency relations and lemmas
Rafail et al. Natural language processing
Sharma et al. Natural language processing and big data: a strapping combination
Gnanavel et al. Rapid Text Retrieval and Analysis Supporting Latent Dirichlet Allocation Based on Probabilistic Models
Klochikhin et al. Text analysis
Wadawadagi et al. Sentiment analysis on social media: recent trends in machine learning
Chen et al. A history and theory of textual event detection and recognition
Moers et al. SEMTec: social emotion mining techniques for analysis and prediction of facebook post reactions
Du et al. Multiple userids identification with deep learning
US11868313B1 (en) Apparatus and method for generating an article
Li et al. RSCOEWR: Radical-Based Sentiment Classification of Online Education Website Reviews
Shinde et al. Pattern discovery techniques for the text mining and its applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220314

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240430

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240927