JP7481074B2

JP7481074B2 - コンテキスト・アウェア・データ・マイニング

Info

Publication number: JP7481074B2
Application number: JP2021561867A
Authority: JP
Inventors: ドメニコーニ、ジャコモ; キュンリー、エウン; モラーリ、アレッサンドロ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-11
Filing date: 2020-05-27
Publication date: 2024-05-10
Anticipated expiration: 2040-05-27
Also published as: JP2022536241A; US20200394186A1; GB2599300A; GB202117769D0; DE112020002886T5; WO2020250064A1; CN113906445A; US11409754B2

Description

本発明は、一般に、知識の抽出、表現、取得、および推論に関し、より詳細には、テキスト文書のコンテキスト・アウェア・データ・マイニングに関する。

単語埋込みは、個々の単語が事前定義されたベクトル空間内で実数値ベクトルとして表される技術の一種である。各単語は、ベクトル空間内の点に関連付けられる。各単語は、数十または数百の次元を有する実数値特徴ベクトルで表され、各次元は単語のアスペクトを表す特徴に関連付けられる。これは、語彙のサイズに対応するサイズのベクトル内の単一のコンポーネントによって単語が表される、ワンホット・エンコーディングなどのスパース単語表現、すなわち「ｂａｇｏｆｗｏｒｄｓ」として知られる表現に必要な数千または数百万の次元とは対照的である。一方、特徴の数は語彙のサイズよりもはるかに小さい。分散表現は、類似した文脈を有する単語は類似した意味を有するという考えに基づき、単語の使用法に基づいて学習される。これにより、類似した方法で使用される単語は類似した表現を有し、自然にその意味を捉えることができる。これは、類似した意味を持つ異なる単語が非常に異なる表現を有することがあるｂａｇｏｆｗｏｒｄｓモデルとは対照的であり得る。ニューラル・ネットワーク・ツールキットの大多数が非常に高次元のスパース・ベクトルではうまく機能しないという点で、高密度かつ低次元のベクトルを使用することには計算上の利点がある。高密度な表現の別の利点は一般化能力であり、一部の特徴が類似した手がかりを提供し得ると考えられる場合、これらの類似性を捉えることができる表現を提供することに価値がある。単語埋込み自然言語処理（ＮＬＰ）では、自然言語の単語または句が実数のベクトルで表される。表現は、単語がどのように使用されているか、すなわちその文脈のみに基づくことができる。

コンピューティング・システムからのログ・データは、システムの問題を理解および診断するために不可欠である。ログ・データは、量、多様性、速度などに関して膨大であり、システム診断およびトラブルシューティングのためにログ・データを使用することはシステム管理者にとって課題である。特定の表現は指定されていないが、コンピューティング・システムのログ・データを、単語埋込みＮＬＰフォーマットで表すことができる。例えば、ログ内の各単語をトークンとして使用することができるが、ログの行全体をトークンとみなすこともできる。

本発明の一態様によれば、テキスト文書のコンテキスト・アウェア・データ・マイニングの方法であって、入力クエリから構文解析および前処理された単語のリストを受信することと、クエリされているテキスト文書の単語埋込みモデルを使用して、単語のリスト内の単語ごとの関連する分散埋込み表現を計算することと、単一の埋込みで入力クエリを表すために単語のリスト内のすべての単語の関連する分散埋込み表現を集約することと、クエリの集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得することと、取得したセグメントのリストをユーザに返信することとを含む方法が提供される。

実施形態によれば、関連する分散埋込み表現を集約することは、すべての関連する分散埋込み表現の平均またはすべての関連する分散埋込み表現の最大値のうちの一方を使用して実行される。

さらなる実施形態によれば、Ｎはユーザによって提供される正の整数である。

さらなる実施形態によれば、方法は、テキスト文書を構文解析および前処理し、トークン化された単語リストを生成することと、トークン化された単語リストから単語辞書を定義することであって、単語辞書がトークン化された単語リスト内のトークンの少なくとも一部を含む、定義することと、単語埋込みモデルをトレーニングすることであって、単語埋込みモデルが、単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、トレーニングすることとによって、テキスト文書の単語埋込みモデルをトレーニングすることを含む。

さらなる実施形態によれば、テキスト文書を構文解析および前処理することは、テキスト文書内の各行からすべての句読点およびプリアンブルを削除することと、数値データを解析することと、トークン化された単語リストを形成するためにテキスト文書を単語でトークン化することであって、トークンが文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、トークン化することと、トークン化された単語リストを返信することとを含む。

さらなる実施形態によれば、テキスト文書はコンピュータ・システム・ログであり、数値データは１０進数および１６進アドレスを含む。

さらなる実施形態によれば、方法は、入力クエリからすべての句読点を削除することと、数値データを解析することと、トークン化された単語リストを生成するために入力クエリを単語でトークン化することであって、トークンが入力クエリの単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、トークン化することと、トークン化された単語リストを返信することとによって、入力クエリを構文解析および前処理することを含む。

さらなる実施形態によれば、クエリの集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得することは、類似性メトリックを使用して、クエリの集約された単語埋込み表現をテキスト文書の単語埋込みモデルと比較することと、クエリの集約された単語埋込み表現との類似性が所定の閾値よりも大きいテキスト文書の単語埋込みモデルのセグメントを返信することと、取得した文書セグメントを類似性に従ってランク付けすることとを含む。

本発明の別の態様によれば、テキスト文書のコンテキスト・アウェア・データ・マイニングの方法であって、テキスト文書を構文解析および前処理し、トークン化された単語リストを生成することと、トークン化された単語リストから単語辞書を定義することであって、単語辞書がトークン化された単語リスト内のトークンの少なくとも一部を含む、定義することと、単語埋込みモデルをトレーニングすることであって、単語埋込みモデルが、単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、トレーニングすることとを含む方法が提供される。テキスト文書を構文解析および前処理することは、テキスト文書内の各行からすべての句読点およびプリアンブルを削除することと、数値データを解析することと、トークン化された単語リストを形成するためにテキスト文書を単語でトークン化することであって、トークンが文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、トークン化することと、トークン化された単語リストを返信することとを含む。

実施形態によれば、方法は、入力クエリから構文解析および前処理された単語のリストを受信することと、クエリされているテキスト文書の単語埋込みモデルを使用して、単語ごとの関連する分散埋込み表現を計算することと、単一の埋込みでクエリを表すために単語のリスト内のすべての単語の関連する分散埋込み表現を集約することと、クエリの集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得することと、取得したセグメントのリストをユーザに返信することとを含む。

さらなる実施形態によれば、関連する分散埋込み表現を集約することは、すべての関連する分散埋込み表現の平均またはすべての関連する分散埋込み表現の最大値のうちの一方を使用して実行される。

本発明の別の態様によれば、テキスト文書のコンテキスト・アウェア・データ・マイニングのための方法のステップを実行するためにコンピュータによって実行可能な命令のプログラムを有形に具体化するコンピュータによって読取り可能なプログラム記憶装置が提供される。

以下で説明する例示的な実施形態は、ユーザが単語、行、段落などの任意の種類のテキストとしてクエリを表現することができ、特殊なＮＬＰベースのアルゴリズムが、クエリに類似した単語コンテキストを有するコンピュータ・システム・ログ・データのセグメントを返信する、新規のインターフェースを対象とする。本開示の実施形態によるアプローチは、単純な文字列照合ではなく、クエリ内の単語のコンテキストに基づく。これにより、ユーザがログ内で意味のあるイベントを見つける能力が向上する。実施形態によるアプローチは、教師なし学習に基づく。このアプローチは、ログにすでに存在するテキスト情報に依存し、イベント、キーワード、またはログ・テキストの構造に関する既存の知識なしで適用することができる。

本発明の実施形態による、ユーザ・クエリを処理するための方法のブロック図である。本発明の実施形態による、モデルを作成するための方法のブロック図である。本発明の別の実施形態による方法のブロック図である。本発明の実施形態を実装する例示的なクラウド・コンピューティング・ノードの概略図である。本発明の実施形態で採用された例示的なクラウド・コンピューティング環境を示す図である。

本明細書に記載の例示的な実施形態は、一般に、ＮＬＰベースのコンテキスト・アウェア・ログ・マイニングのための方法を提供する。実施形態は様々な修正および代替形態が可能であるが、その特定の実施形態が、例として図面に示され、本明細書において詳細に説明される。しかしながら、本開示を開示される特定の形態に限定する意図はなく、逆に、本開示は、本開示の思想および範囲内にあるすべての修正、等価物、および代替案を網羅するものであることを理解されたい。

図１は、本開示の実施形態による、ユーザ・クエリを処理する方法のブロック図である。図１は、ユーザがクエリ１１０を提供するユース・ケースを示し、クエリ１１０は、個々の単語１１１、行１１２、または段落１１３、行数を含む取得したセグメントのサイズ１１４、および返信されるべきセグメント数を定義する類似性の閾値であり得る。クエリ１１０および行数１１４は、コンピュータ・システム・ログから類似したログ・セグメントを取得する１１５ための実施形態による方法に対する入力である。実施形態による方法は、クエリ・テキストとの類似性によって順序付けされたセグメント１２０．１、１２０．２、…、１２０．ｍのセットを出力１２０として返信する。

図２は、本開示の実施形態による、モデルを作成するための方法のブロック図である。図２は、実施形態によりモデルを作成するために必要なステップを示す。左側は、単語埋込みモデルをトレーニングする方法２１０のフローチャートである。右上は、トークン化された単語リストを取得するためにシステム・ログ・ファイルを処理するための方法２２０のフローチャートであり、右下は、一般的な単語埋込み構造のブロック図２３０である。

フローチャート２１０を参照すると、モデルのトレーニングの方法は、コンピュータ・システム・ログの生データからのログ出力を構文解析および前処理すること２１１と、単語辞書を定義すること２１２と、単語埋込みモデルをトレーニングすること２１３とを含む。

方法２２０は、生データからのログ出力を構文解析および前処理すること２１１に含まれるステップであり、各行のすべての句読点およびプリアンブルを削除すること２２２と、数値および１６進アドレスを解析すること２２３と、ログを単語でトークン化すること２２４と、トークン化された単語リストを返信すること２２５とを含む。数値および１６進アドレスは、特定のトークンを使用して解析される。実施形態によれば、１０進数は１つのトークンで表され、１６進アドレスは別のトークンで表され、数値またはアドレスの情報は、トークンと共にプレースホルダとして残すことができるが、コンテキストは特定の値に限定されない。テキスト処理技術は単語には使用されないが、任意のＮＬＰ技術を使用することができる。ログをトークン化することは、ログをトークンに分割することを意味し、トークンは、ログの単一の単語またはＮ個の連続した単語のＮグラムとして、または行全体としても定義され得る。ログがトークン化されると、辞書はすべてのトークンのセット、または最も頻繁なトークンなどの選択されたトークンのサブセットになる。

実施形態によれば、辞書は、単語埋込みモデルで考慮される単語（または行）を定義および表現するために使用される。図２のステップ２３１を参照すると、入力単語ｗ［ｔ］は、要素の数を辞書のサイズとして有し、要素内のすべての０および１が単語（または行）に対応するワンホット・ベクトルとして表される。この目的で、これらのベクトルを作成するために、定義された辞書が必要である。例えば、Ｖ次元ベクトル空間における「ローマ」、「パリ」、「イタリア」、「フランス」のワンホット・ベクトル表現は以下の通りである。
ローマ＝［１，０，０，０，０，…，０］、
パリ＝［０，１，０，０，０，…，０］、
イタリア＝［０，０，１，０，０，…，０］、
フランス＝［０，０，０，１，０，…，０］。

単語埋込みモデル２３０は、Ｎ行のログ・セグメント間の距離メトリックを使用し、ここでＮはユーザ定義パラメータである。距離メトリックは、２つのログ・セグメントのコンテキストがどの程度類似しているか定義するために使用される。具体的には、メトリックは、ユーザ・クエリとの類似性が最も高い上位Ｎ個のセグメントを取得するために使用される。単語埋込みモデルは、単語（または行）を埋込みで、すなわちベクトルで表すニューラル・ネットワーク・モデルである。次に、単語［ｔ］２３１は、ウィンドウ・サイズ５の場合、単語［ｔ－２］、単語［ｔ－１］、単語［ｔ＋１］、および単語［ｔ＋２］を含む単語埋込み２３３に投影される２３２。ウィンドウ・サイズは、ユーザが提供するモデルのパラメータのうちの１つである。単語埋込みモデルがトレーニングされると、距離メトリックをログのＮ行のセグメント間で使用することができ、ここでＮはユーザ定義パラメータである。単語埋込み、すなわちベクトル間の典型的な距離メトリックは、コサイン類似度である。加えて、教師あり学習アプローチを使用することができる。これは、文書間の類似性を予測するために、長期短期記憶（ＬＳＴＭ）などの教師ありモデルをトレーニングすることを伴う。

図３は、ユース・ケース中の検索のブロック図であり、クエリ・ユース・ケース３１０からの抽出とクエリ予測３２０とを示すフローチャートを含む。クエリ・ユース・ケース３１０を参照すると、ユーザ３００は、対象の非構造化テキストの一部、および対象のセグメントごとの行数などのクエリを提供する。クエリ・ユース・ケース３１０はまた、モデルがシステム・ログ入力３１１からステップ３１２でトレーニングされてモデル３１３を作成することを示す。ステップ３１２でモデルをトレーニングするステップは、図２のモデルをトレーニングする実施形態による方法２１０に対応する。

クエリは、各行のすべての句読点およびプリアンブルを削除するステップと、数値および１６進アドレスを解析するステップと、クエリを単語ｑ＝［ｗ_１，ｗ_２，…，ｗ_Ｎ］でトークン化するステップとを含む、図２のシステム・ログ・ファイルを処理するための方法２２０に基づいて、ステップ３１４で解析される。

次に、出力ｑは、図１のステップ１１５に対応し、ログ・セグメント３１６を出力する、類似したログ・セグメントを取得するステップ３１５への入力として提供される。モデルは、クエリに類似したセグメントの順序付けされたリストを取得し、ユーザに出力する。

ブロック３２０は、クエリ予測に関与するステップのフローチャートであり、ステップ３２１で、入力から構文解析および前処理された単語のリストを受信することによって始まる。次に、ステップ３２２で、図２の単語埋込みモデル２３０を使用して、関連する分散埋込み表現ｗｅ_ｉが単語ｗ_ｉごとに計算される。「分散埋込み表現」は、単語埋込みモデルによって与えられる単語（または行）の表現である。ステップ３２３で、関連する分散埋込み表現ｗｅ_ｉが、単一の埋込みｑｅでクエリを表現するために、すべての分散単語埋込みｗｅ_ｉの平均（または最大値）で集約される。ログ・データ内のＮ行の各セグメントは、同じ方法で表される。単語の埋込みは、単語または行ごとにベクトルによる表現を生成する。クエリは複数の単語または行を含むため、すべての表現を単一のベクトルに集約して、クエリ全体をベクトルとして表す必要があり、その後、コサイン類似度などの類似性メトリックを使用することができる。

ステップ３２４で、クエリ表現に関して、集約された単語埋込みの類似性がより高いＮ行のログ・セグメントのランク付けされたリストが取得される。ログ・セグメントのランク付けされたリストは、類似性メトリックを使用して、クエリの集約された単語埋込み表現をログ・データの単語埋込みモデルと比較し、類似性が所定の閾値よりも大きいログ・データの単語埋込みモデルのセグメントを返信し、取得したセグメントを類似性の値に従ってランク付けすることによって取得される。取得したセグメントのリストはステップ３２５で返信され、ステップ３１６で出力される。

本開示の実施形態によるユーザ・クエリを処理する方法の実例は以下の通りである。方法は、単語ｗ_ｑのユーザ入力クエリを受信することによって始まる。単語ｗ_ｑがｗ_１、ｗ_２、ｗ_ｑ、ｗ_３、ｗ_４のようなパターンで非常に頻繁に出現すると仮定する。完全マッチングでは、このパターンは、ｗ_ｑを検索することによって取得できる可能性がある。次に、ｗ_１、ｗ_５、ｗ_６、ｗ_３、ｗ_４のような単語の別のパターンが存在すると仮定する。字句マッチングでは、このパターンはクエリｗ_ｑを含まないため取得されない。しかしながら、本開示の実施形態による提案されたＮＬＰ法では、これら２つのログ・セグメントのコンテキストは非常に類似しており、クエリ・パターンを取得し、ユーザに表示することができる。

本開示の実施形態は、コンピュータ・システム・ログをクエリするコンテキストで説明されているが、本開示の実施形態による方法を、１人の人が検索または理解するには大きすぎる任意のテキスト文書をクエリするために適用できることが、当業者には明らかであろう。

システムの実装
本開示の実施形態は、様々な形態のハードウェア、ソフトウェア、ファームウェア、専用プロセス、またはそれらの組合せで実装できることを理解されたい。一実施形態において、本開示の実施形態は、コンピュータ可読プログラム記憶装置上に有形に具体化されたアプリケーション・プログラムとしてソフトウェアに実装することができる。アプリケーション・プログラムは、任意の適切なアーキテクチャを含むマシンにアップロードして実行することができる。さらに、本開示は、クラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実装形態はクラウド・コンピューティング環境に限定されるものではないことを予め理解されたい。むしろ、本開示の実施形態は、現在既知であるか、または今後開発される任意の他の種類のコンピューティング環境と共に実装することができる。本開示の実施形態による自動トラブルシューティング・システムは、クラウド実装にも適している。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共用プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つの配備モデルとを含むことができる。

特徴は以下の通りである。
オンデマンド・セルフサービス：クラウド消費者は、サービスのプロバイダとの人的対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス：機能はネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準機構を通じてアクセスされる。
リソース・プール：マルチテナント・モデルを使用して複数の消費者に対応するために、プロバイダのコンピューティング・リソースがプールされ、需要に応じて異なる物理リソースおよび仮想リソースが動的に割当てられ、再割当てされる。消費者は一般に、提供されるリソースの正確な場所について制御することができないかまたは知らないが、より高い抽象化レベルの場所（例えば、国、州、またはデータセンタ）を指定できるという点で、場所独立感がある。
迅速な順応性：機能は、迅速かつ順応的に、場合によっては自動的にプロビジョニングされて、迅速にスケール・アウトすることができ、かつ迅速にリリースされて、迅速にスケール・インすることができる。消費者にとって、プロビジョニングのために利用可能な機能は多くの場合、無制限であるように見え、いつでも任意の量を購入することができる。
従量制サービス：クラウド・システムが、サービスの種類（例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適切な何らかの抽象化レベルの計量機能を活用することによって、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、制御、および報告して、利用サービスのプロバイダおよび消費者の両方に透明性を提供することができる。

サービス・モデルは以下の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ固有アプリケーション構成設定の考えられる例外を除いて、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能も含む、基礎となるクラウド・インフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される機能は、クラウド・インフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成アプリケーションまたは消費者取得アプリケーションを配備することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラストラクチャを管理または制御しないが、配備されたアプリケーションと、場合によってはアプリケーション・ホスティング環境構成とを制御することができる。
サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される機能は、処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースをプロビジョニングすることであり、消費者は、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを配備および実行することができる。消費者は、基礎となるクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、配備されたアプリケーションを制御することができ、場合によっては選択されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限定的な制御を行うことができる。

配備モデルは以下の通りである。
プライベート・クラウド：このクラウド・インフラストラクチャは、組織のためにのみ運用される。これは、組織または第３者によって管理されてよく、オンプレミスまたはオフプレミスに存在してよい。
コミュニティ・クラウド：このクラウド・インフラストラクチャは、いくつかの組織によって共用され、共通の関心事（例えば、任務、セキュリティ要件、ポリシ、およびコンプライアンス事項）を有する特定のコミュニティをサポートする。これは、組織または第３者によって管理されてよく、オンプレミスまたはオフプレミスに存在してよい。
パブリック・クラウド：このクラウド・インフラストラクチャは、一般人または大規模業界団体が利用することができ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：このクラウド・インフラストラクチャは、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合体であり、それらのクラウドは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または専有技術（例えば、クラウド間のロード・バランシングのためのクラウド・バースティング）によって共に結合される。

クラウド・コンピューティング環境は、ステートレス性、疎結合性、モジュール性、および意味的相互運用性に焦点を合わせたサービス指向型である。クラウド・コンピューティングの核心にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

次に、図４を参照して、クラウド・コンピューティング・ノードの例の概略を示す。クラウド・コンピューティング・ノード４１０は、適切なクラウド・コンピューティング・ノードの一例に過ぎず、本明細書に記載の本開示の実施形態の使用範囲または機能に関していかなる限定も示唆することを意図していない。それにもかかわらず、クラウド・コンピューティング・ノード４１０は、前述した機能のいずれかを実装するまたは実行するあるいはその両方を行うことができる。

クラウド・コンピューティング・ノード４１０において、多数の他の汎用もしくは専用コンピューティング・システム環境または構成と共に動作するコンピュータ・システム／サーバ４１２がある。コンピュータ・システム／サーバ４１２と共に使用するのに適切であり得る周知のコンピューティング・システム、環境、または構成、あるいはその組合せの例として、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち型デバイスまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家庭用電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのうちのいずれかを含む分散クラウド・コンピューティング環境などが挙げられるが、これらに限定されない。

コンピュータ・システム／サーバ４１２について、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータ・システム／サーバ４１２は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境で実施され得る。分散クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含む、ローカルおよびリモート両方のコンピュータ・システム記憶媒体内に配置され得る。

図４に示すように、クラウド・コンピューティング・ノード４１０におけるコンピュータ・システム／サーバ４１２は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム／サーバ４１２のコンポーネントは、１つまたは複数のプロセッサまたは処理ユニット４１６、システム・メモリ４２８、およびシステム・メモリ４２８を含む様々なシステム・コンポーネントをプロセッサ４１６に結合するバス４１８を含むことができるが、これらに限定されない。

バス４１８は、様々なバス・アーキテクチャのうちのいずれかを使用する、メモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサまたはローカル・バスを含む、いくつかの種類のバス構造のうちのいずれかの１つまたは複数を表す。限定ではなく例として、このようなアーキテクチャとしては、業界標準アーキテクチャ（ＩＳＡ）・バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）・バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）・ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）・バスが挙げられる。

コンピュータ・システム／サーバ４１２は、通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ４１２によってアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体および不揮発性媒体と、取外し可能媒体および取外し不能媒体との両方を含む。

システム・メモリ４２８は、ランダム・アクセス・メモリ（ＲＡＭ）４３０またはキャッシュ・メモリ４３２あるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム／サーバ４１２は、他の取外し可能／取外し不能、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含むことができる。単に例として、取外し不能の不揮発性磁気媒体（図示せず、通常「ハード・ドライブ」と呼ばれる）に対する読取りおよび書込みを行うために、ストレージ・システム４３４を設けることができる。図示しないが、取外し可能な不揮発性磁気ディスク（例えば、「フロッピ・ディスク」）に対する読取りおよび書込みを行うための磁気ディスク・ドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光媒体などの、取外し可能な不揮発性光ディスクに対する読取りおよび書込みを行うための光ディスク・ドライブとを設けることができる。このような場合、それぞれを１つまたは複数のデータ媒体インターフェースによってバス４１８に接続することができる。以下でさらに図示し説明するように、メモリ４２８は、本開示の実施形態の機能を実行するように構成された１組の（例えば、少なくとも１つの）プログラム・モジュールを有する少なくとも１つのプログラム製品を含むことができる。

限定ではなく例として、１組の（少なくとも１つの）プログラム・モジュール４４２を有するプログラム／ユーティリティ４４０、ならびにオペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データを、メモリ４２８に格納することができる。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはこれらのいくつかの組合せの各々が、ネットワーキング環境の実装形態を含むことができる。プログラム・モジュール４４２は、一般に、本明細書に記載の本開示の実施形態の機能または方法あるいはその両方を実行する。

コンピュータ・システム／サーバ４１２は、キーボード、ポインティング・デバイス、ディスプレイ４２４などの１つまたは複数の外部デバイス４１４、ユーザがコンピュータ・システム／サーバ４１２と対話できるようにする１つまたは複数のデバイス、またはコンピュータ・システム／サーバ４１２が１つまたは複数の他のコンピューティング・デバイスと通信できるようにする任意のデバイス（例えば、ネットワーク・カード、モデムなど）、あるいはその組合せと通信することもできる。そのような通信は、入出力（Ｉ／Ｏ）インターフェース４２２を介して行うことができる。さらに、コンピュータ・システム／サーバ４１２は、ネットワーク・アダプタ４２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用ワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）、あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ４２０は、バス４１８を介してコンピュータ・システム／サーバ４１２の他のコンポーネントと通信する。図示しないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントあるいはその両方を、コンピュータ・システム／サーバ４１２と共に使用してもよいことを理解されたい。例として、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどが挙げられるが、これらに限定されない。

次に図５を参照して、例示的なクラウド・コンピューティング環境５０を示す。図示のように、クラウド・コンピューティング環境５０は、１つまたは複数のクラウド・コンピューティング・ノード４００を含み、この１つまたは複数のクラウド・コンピューティング・ノード４００と、例えば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスとが、通信することができる。ノード４００は相互に通信することができる。ノード４００は、前述したプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはその組合せなどの１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化（図示せず）され得る。これにより、クラウド・コンピューティング環境５０は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド消費者がそのためにローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提供することができる。図５に示すコンピューティング・デバイス５４Ａ～５４Ｎの種類は、例示に過ぎないことを意図したものであり、コンピューティング・ノード４００およびクラウド・コンピューティング環境５０が、（例えば、ウェブ・ブラウザを使用して）任意の種類のネットワークまたはネットワーク・アドレス可能接続あるいはその両方を介して任意の種類のコンピュータ化デバイスと通信することができるものと理解される。

本発明の実施形態について、例示的な実施形態を参照して詳細に説明したが、添付の特許請求の範囲に記載されている本発明の範囲から逸脱することなく、様々な修正および置換を行うことができることが、当業者には理解されよう。

Claims

テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
入力クエリから構文解析および前処理された単語のリストを受信するステップと、
クエリされている前記テキスト文書の単語埋込みモデルを使用して、前記単語のリスト内の単語ごとの関連する分散埋込み表現を計算するステップと、
単一の埋込みで前記入力クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップと、
前記取得したセグメントのリストをユーザに返信するステップと
を含み、Ｎが前記ユーザによって提供される正の整数である、前記方法。
前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項１に記載の方法。
前記テキスト文書の前記単語埋込みモデルをトレーニングするステップをさらに含み、前記ステップが、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップと
を含む、請求項１に記載の方法。
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記テキスト文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、請求項３に記載の方法。
前記テキスト文書がコンピュータ・システム・ログである、請求項４に記載の方法。
前記入力クエリからすべての句読点を削除することと、
トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化することと、
前記トークン化された単語リストを返信することと
によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項１に記載の方法。
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップが、
類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
を含む、請求項１に記載の方法。
コンピュータ・プログラムであって、コンピュータに、請求項１ないし７のいずれか一項に記載の方法を実行させる、前記コンピュータ・プログラム。
請求項８に記載のコンピュータ・プログラムを記憶した装置。