JP2011048821A

JP2011048821A - 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置

Info

Publication number: JP2011048821A
Application number: JP2010178449A
Authority: JP
Inventors: Tal Eden; エデンタル
Original assignee: Buzzmetrics Ltd
Current assignee: Buzzmetrics Ltd
Priority date: 2009-08-07
Filing date: 2010-08-09
Publication date: 2011-03-10
Anticipated expiration: 2030-08-09
Also published as: AU2010210014B2; US20110035211A1; JP5160601B2; AU2010210014A1; EP2282271A1

Abstract

【課題】電子文書内のフレーズを特定する。
【解決手段】例示的なシステム、方法、プロセス、及び装置が、電子文書内のフレーズを特定する。一以上のフレーズ辞書が、一以上の電子文書のコンテンツから生成される。相対頻度値が、一以上のフレーズ辞書の各々における各フレーズに対して生成される。あるフレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。一以上のフレーズが、閾値と各フレーズに対して生成された相対頻度値とに少なくとも部分的に基づいて選択される。選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値が、ユーザに対するグラフィック表示のために出力される。
【選択図】図１

Description

本開示は、一般的には電子文書におけるデータマイニングに関しており、より具体的には、電子文書におけるフレーズの相対頻度を決定する方法及び装置に関する。

様々なパブリックネットワーク（例えばワールドワイドウエブ及びインターネット）並びにプライベートネットワーク（例えば企業のイントラネット）が、様々な電子的にアクセス可能且つ検索可能なコンテンツを参照者に提供する。消費者及びビジネスユーザの両方が、製品及びサービスについての情報を見つけるためにこのコンテンツにアクセスすることができる。

小売り組織、サービス提供者、及び製品製造者はしばしば、購買者のショッピング行動、振舞い、意見、及び／又は、習慣に関心がある。調査、講評、ブログなどを含む、オンラインで入手可能な情報は、このような購買者の特徴についての洞察を提供する。

米国特許６６４０２１８号明細書米国特許５９８３２１６号明細書

いくつかの例では、電子文書内のフレーズを特定する、コンピュータで実装された方法が提供される。このコンピュータで実装された方法は、少なくとも一つの話題に関する複数のワード及びフレーズを含む電子文書を受領するステップを含む。一以上のフレーズ辞書が、その電子文書のコンテンツから生成される。相対頻度値が、一以上のフレーズ辞書の各々における各フレーズに対して生成される。あるフレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。一以上のフレーズが、少なくとも部分的には閾値と各フレーズに対して生成された相対頻度値とに基づいて選択される。選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値が、ユーザに対するグラフィック表示のために出力される。

いくつかの例では、電子文書フレーズマイニング装置が提供される。この装置は、電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器を含む。スピーチ部分は、一以上のフレーズを含む。構文解析器は、電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する。フレーズ値計算器が、各フレーズ辞書における各フレーズに対する相対頻度値を生成する。フレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。ソーターが、少なくとも部分的には、閾値と各フレーズに対して生成された相対頻度値とに基づいて、一以上のフレーズを選択する。出力部は、選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値を、ユーザに対するグラフィック表示のために出力する。

いくつかの例では、有形のコンピュータ読み取り可能記憶媒体が提供され、この記憶媒体は、処理機械によって実行されると電子メッセージフレーズマイニングシステムを実装する命令を含む。実装されるシステムは、一以上の電子メッセージのコレクションのコンテンツを複数のスピーチ部分に分離する構文解析器を含む。スピーチ部分は、一以上のフレーズを含む。構文解析器は、電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する。フレーズ値計算器が、各フレーズ辞書における各フレーズに対する相対頻度値を生成する。フレーズに対する相対頻度値は、少なくとも部分的に、電子文書におけるフレーズの頻度とフレーズ内の個別のワードそれぞれの頻度との間の比較に基づく。ソーターが、少なくとも部分的には、閾値と各フレーズに対して生成された相対頻度値とに基づいて、一以上のフレーズを選択する。出力部は、選択された一以上のフレーズ、及び選択された一以上のフレーズの各々に関連した相対頻度値を、ユーザに対するグラフィック表示のために出力する。

ウエブサイトのような一以上の電子データソースから電子文書データを収集する例示的な装置のブロック図である。電子文書におけるワードの頻度及びワード間の関係の視覚的表現を提供する例示的なタグ又は話題クラウドを描く図である。電子文書における情報をダウンロードして処理する例示的なシステムである。例示的な電子文書処理システムのブロック図である。電子メッセージ及び／又は他の電子文書におけるフレーズを特定し、あるフレーズに関連する頻度を決定する例示的なフレーズマイニングシステムのブロック図である。一以上の電子メッセージ及び／又は文書において相対頻度に基づくフレーズマイニングを行うために実行され得る例示的な機械読み取り可能な命令の流れ図表現である。ここに記述された図１、図３、図４、及び／又は図５の例示的な装置及び／又はシステムのいくつか又は全てを実装するために図６の例示的な命令を実行し得る例示的なプロセッサシステムのブロック図である。

本願は、参照により全体的にここに援用される２００９年８月７日付けで出願された「相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置」という名称の米国予備特許出願第６１／２３２，１０２号の優先権の享受を主張する。

以下では、例示的な方法、システム、製造品、及び他の構成要素の中でもハードウエア上で実行されるソフトウエアを含む装置を開示するが、そのような方法、システム、製造品、及び装置が単に例示的なものであり、制約的とみなされるべきではないことに留意されたい。例えば、これらのハードウエア及びソフトウエア要素のいくつか又は全てが、排他的にハードウエアに、排他的にソフトウエアに、排他的にファームウエアに、又はハードウエア、ソフトウエア、及びファームウエアの任意の組み合わせで実装されることが企図される。したがって、以下では例示的な方法、システム、製造品、及び装置が記述されるが、提供される例は、そのような方法、システム、製造品、及び装置を実装するための唯一の方法ではない。

電子文書のコレクションを処理するために、例示的な方法、プロセス、装置、システム、製造品、及び機械読み取り可能な媒体が使用されることができる。例えば、電子文書のコレクション（例えば記憶された及び／又はワールドワイドウエブを介して利用可能な）は、ある電子メッセージを求めて検索されることができる。電子メッセージ文書のような文書は、ユーザの意見、姿勢、レビューなどを表すウエブ上で見出される情報から収集されることができる。オンラインニュースグループ、議論グループ、フォーラム、チャットサイト、インターネットブログ、レビュー又は意見ページなどが、処理されてレビューされるべき電子メッセージのために、マイニングされることができる。アイデア、製品、及び／又はメッセージに関する人々の意見、姿勢、及び／又は他のフィードバックは、情報のみを提供するため、及び／又はキーワード又はフレーズ検索結果と共に情報を提供するために、収集されて分析されることができる。

例は、ニールセン・バズメトリックス・インターナショナル（ＮｉｅｌｓｅｎＢｕｚｚＭｅｔｒｉｃｓＩｎｔｅｒｎａｔｉｏｎａｌ）によって提供されるバズ・インサイト・ツール（ＢｕｚｚＩｎｓｉｇｈｔＴｏｏｌｓ）及び／又はマイ・バズメトリックス（ＭｙＢｕｚｚＭｅｔｒｉｃｓ）・ツールとともに実装されることができる。例えば、相対頻度フレーズマイニングは、ユーザが、例えばソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真などを含む広範囲の消費者生成媒体（ｃｏｎｓｕｍｅｒ−ｇｅｎｅｒａｔｅｄｍｅｄｉａ，ＣＧＭ）から、あるブランド又は組織について語られていることをモニタし分析することを可能にするカスタム化可能なブランドモニタリング及び分析ダッシュボードの一部として、提供されてよい。

図１は、例えばソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真などを含む消費者生成媒体（ＣＧＭ）及び／又は消費者増強媒体（ｃｏｎｓｕｍｅｒ−ｆｏｒｔｉｆｉｅｄｍｅｄｉａ，ＣＦＭ）ソースのような一以上の電子データソースから電子文書データを収集するための例示的な装置１００のブロック図である。この装置１００は、コレクタ１１０、プロセッサ１２０、及び出力部１３０を含む。コレクタ１１０は、データをプロセッサ１２０及び／又はデータストレージ１４０に提供する。データストレージ１４０は、データをプロセッサ１２０に提供する。いくつかの例では、データストレージ１４０はまた、データをプロセッサ１２０から受領することもできる。プロセッサ１２０は、処理されたデータを、ユーザ及び／又は他のシステムへの出力のために出力部１３０に提供する。コレクタ１１０、プロセッサ１２０、及び出力部１３０は、一以上の記憶された規則及び／又は優先度１５０（例えば、ユーザに特有の、ユーザグループに特有の、主題に特有の、及び／又はシステムに特有の優先度）に従って動作する。コレクタ１１０、プロセッサ１２０、出力部１３０、データストレージ１４０、及び規則／優先度１５０は、別個の装置、ソフトウエア、及び／又はファームウエアとして実装されることができ、あるいは、組み合わされることができる。

コレクタ１１０はデータを収集するように構成される。収集されるデータは、電子コンテンツ１６０の一以上のソースを介して利用可能な電子文書に見出されるデータを含むが、これに限定されるものではない。収集されたデータは、一以上の話題に関連した複数のワード及びフレーズを含む。電子コンテンツは、例えば、人々がニュースを報告し且つ／又は彼らの視点や感情を表現するウエブサイトのようなソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真、非オンライン電子コンテンツなどのようなＣＧＭ及び／又はＣＦＭを含むことができる。例えば、インターネットユーザは、新製品、サービス、プログラムなどに関する彼らの視点を表現し得る。ある例では、コレクタ１１０は、スパイダーネットワーク（ｓｐｉｄｅｒｎｅｔｗｏｒｋ）におけるクローラ（ｃｒａｗｌｅｒ）としてプログラムされ、ＣＧＭ／ＣＦＭのあるグループにおける新しいデータを検出するように構成される。

ある例では、コレクタ１１０は、一以上のプログラム（例えばスクリプト）、ならびに規則／優先度１５０からの規則及び／又は優先度を利用して、ウエブサイトのようなＣＧＭ／ＣＦＭから情報を特定して収集する。例えば、スクリプトならびに関連する規則及び／又は優先度は、前もって選択されたウエブサイトの特定のページのどの部分が、サイトを運営する会社のロゴのような特定のコンテンツを有しているか、及びどの部分が動的コンテンツを含んでいるか、ウエブサイトのチャットルームにおけるユーザのメッセージの連続した流れのような話題の又は姿勢のデータを含んでいるかを、規定することができる。他の例では、スクリプトは、コレクタ１１０によって行われる、ウエブページまたはページの一部の現在のコンテンツと、同じページ又はページの部分から以前にダウンロードしたデータと、の間の比較を規定し得る。

コレクタ１１０は、連続的に、定期的に、イベントに反応して、ユーザによる手作業の開始に反応して、などのような任意の仕方で、電子コンテンツを収集するように構成されることができる。いくつかの例では、特定のウエブサイト、ウエブサイトのグループ又はタイプ、主題などに対して、収集のスケジュール又は頻度が構成されることができる。

プロセッサ１２０は、収集された電子データを処理する。プロセッサ１２０は、コレクタ１１０によって収集された電子データを、コレクタ１１０から直接に、及び／又はデータストレージ１４０から、受け取ることができる。プロセッサ１２０は、電子データを構文解析し、解析された電子データのコンテンツ分析を実行し、電子データをマイニングし、結果として得られたデータ分析及び／又は例えば他の出力を提供する。これらの技法は一以上のアルゴリズムを実装し得る。一以上のアルゴリズムは、ニューラルネットワーク、規則低減、決定ツリー、パターン分析、テキスト及び言語学的分析技法、又は任意の他の関連するアルゴリズムを含むが、これらに限定されるものではない。

出力部１３０は、プロセッサ１２０から情報を受け取って、処理された電子データに基づいて、その情報を出力する。出力された情報は、ウエブブラウザに基づくアプリケーション、スプレッドシート、テキスト文書、スライドプレゼンテーション、マルチメディアファイルなどを介して、ユーザにグラフィック的に提示されることができる。

装置１００の構成要素のいくらか又は全ては、ソフトウエア、ハードウエア、及び／又はファームウエアに別個に、及び／又は任意の数の組み合わせによって、実装できる。例えば、一以上の集積回路、ディスクリート半導体部品、及び／又は受動電子部品を使用することができる。これより、例えば、コレクタ１１０、プロセッサ１２０、出力部１３０、データストレージ１４０、及び規則／優先度１５０、又はそれらの一部を含む装置１００の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ（ｐｒｏｇｒａｍｍａｂｌｅｐｒｏｃｅｓｓｏｒｅ）、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ（ｓ），ＡＳＩＣ(s)）、プログラマブル論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ（ｓ），ＰＬＤ(s)）、フィールドプログラマブル論理デバイス（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ（ｓ），ＦＰＬＤ(s)）などを使用して、実装できる。コレクタ１１０、プロセッサ１２０、出力部１３０、データストレージ１４０、及び規則／優先度１５０、又はそれらの一部を含む装置１００の構成要素のいくらかは、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム（例えば図７の例示的なプロセッサシステム７１０）によって実行可能な命令、コード、及び／又は他のソフトウエア及び／又はファームウエアなどを使用して、実装してもよい。添付の特許請求項のいずれかが純粋にソフトウエア及び／又はファームウエア実装をカバーすると読まれるとき、コレクタ１１０、プロセッサ１２０、出力部１３０、データストレージ１４０、及び規則／優先度１５０の少なくとも一つは、ソフトウエア及び／又はファームウエアを記憶するメモリ、ＤＶＤ、ＣＤなどのような有形の媒体を含むと、ここに明示的に規定される。

いくらかの例では、プロセッサ１２０は、文書のコーパスから、意味のあるフレーズを比較的短時間でマイニングする。現存しているツールは意味のあるフレーズをそれらの出現頻度に従って導出するが、この方法には欠点がある。なぜなら、フレーズの高い出現頻度は、そのフレーズが意味のあるものであることを必ずしも示さないからである。頻度分析では、頻度分析器を使用して、最も高頻度のワード、フレーズ、著者の数、独特の著者、及び／又は時間フレームに対する分布のようなパラメータに関する統計値を提供する。頻度分析器は、ワード、フレーズなどをカウントするためにカウンタを利用することができる。カウンタは生データを提供し、これがそれから頻度分析器によって処理されて、統計データを生成する。頻度分析は、例えば、絶対頻度及び／又は相対頻度に関するものであることができる。絶対頻度は、フレーズの全出現回数である。相対頻度は、絶対頻度をワードの全出現回数で正規化したもの（割り算したもの）である。あるいは、又は加えて、相対頻度は、フレーズの出現数を、フレーズ内の各ワードの出現回数の倍数で割り算し、その結果のｎ乗根を取ることによって決定される。このとき、ｎは、測定されているフレーズ内のワードの数である。あるいは、又は加えて、シャノンの情報理論を適用して、以下の式、
にしたがった同時出現確率の分析に基づいて、合成項の増分値を計算することができる。

概念分析では、電子文書データ内のある概念に関連しているフレーズを見出すために、概念分析器（例えばプロセッサ１２０内に実装される）が使用され得る。概念分析は、単一ワードフレーズ及び関連する複数ワードフレーズに適応する。概念分析器は、コレクション内の全てのワード又はフレーズをスキャンし、関連スコアをそれらの各々に割り当てて、調査されている概念に対するそのワード又はフレーズの関連性を示すことができる。

いくつかの例では、意味がある（例えば、ある閾値を超える関連スコアを有している）と特定された関連フレーズは、ワード及び／又はフレーズ間の距離が頻度及び／又は関係の度合いを示すマトリックスに配置されることができる。このマトリックスは、図２に描かれているように、描かれた表現の中央に分析された概念／フレーズがあり、関連フレーズがそれを取り囲んでいる視覚的インターフェース（例えばマイニングされた電子文書に関連するタグ又は記述を視覚的に描いているタグクラウド）の中に配置されることができる。

図２は、電子文書内のワードの頻度及びワード間の関係の視覚的な描写を与える例示的なワード又は話題クラウド２００を描いている。ある例では、フレーズが同様に表現されることができる。図２のグラフィック描写は、異なるサイズ、色、及び／又は向きのワードを含み、例えばワードの頻度及び関係を示す。いくつかの例では、ワード間の距離が、一つの電子文書又は電子文書のセットにおけるそれらの関係及び／又は密接さを示すことができる。

図２の例示的なクラウド２００に示されるように、一以上のデータエントリーフィールド、プルダウンメニューなど２１０は、ユーザが、重要なワード及び／又はフレーズを特定するために文書コレクションが検索されるべき一以上の日付及び／又はデータの範囲を特定することを可能にする。ユーザはまた、生成されるべきレポート２２０のタイプも特定することができる。例えば、図２に示されるように、ワードクラウド２３０が、特定の日付範囲（例えば最近の９０日間）に渡ってマイニングされたワード及び／又はフレーズデータから生成される。一以上の報告フォーマット（例えば表、スプレッドシード、など）が、追加として又は代替として特定されることができる。凡例２４０及び／又は他の表示が図２の例では与えられて、見ている人に、例えばワード／フレーズクラウド２３０の色がどのように顕著さ又は相対頻度に対応しているか（例えば高い対低い）を表す。

いくつかの例では、検索入力には、ワードクラウド２３０の出力とともに一以上の検索用語の入力用に、インターフェース２００が設けられる。いくつかの例では、ユーザは、クラウド２３０内のワード又はフレーズをクリックするか、又は他の方法で選択して、選択されたワード又はフレーズを求めて文書コレクションを検索することができる。いくつかの例では、ユーザは、クラウド２３０内のワード又はフレーズをクリックするか、又は他の方法で選択して、文書コレクション内の選択されたワード又はフレーズに関する付加的な情報（例えば、絶対頻度値、相対頻度値、一以上の文書におけるそのワード又はフレーズの出現のサンプリング、ワード又はフレーズが見出された文書の特定、など）を見ることができる。

図３は、電子文書の情報をダウンロードして処理する例示的なシステム３００である。このシステム３００は、上述した装置１００の実装の例である。この例示的なシステム３００では、例えば、ソーシャルメディアウエブサイト、ソーシャルニュースウエブサイト、インターネットフォーラム、ブログ、ウィキ、議論リスト、ビデオ、写真、非オンライン電子コンテンツ、ネットワークがアクセス可能なファイル転送及び／または記憶場所などを含むＣＧＭ及び／又はＣＦＭのような電子文書の一以上のソース３１０が、処理され報告されるべきコンテンツを含む電子メッセージを求めてマイニングされる。このシステム３００は、ダウンローダ３２２、カテゴライザ３２６、データマイナー３２８、フレーズプロセッサ３３０、及び規則／優先度３３２を含むプロセッサ３２０を含み、電子コンテンツを獲得して分析する。例えば、ウエブページは、ハイパーテキスト転送プロトコル（ｈｔｍｌ）及び／又はファイル転送プロトコル（ｆｔｐ）を使用してダウンローダ３２２によってダウンロードされ、それから構文解析器３２４によって構文解析されて、電子文書内の情報を抽出することができる。

電子文書は構文解析されて、文書内のテキスト（及びメタデータ）が抽出されて特定される。構文解析器３２４は、ダウンロードされたウエブページをeXtensible Markup Language（ＸＭＬ）ツリーとして表し、電子文書から関連する情報を抽出するためにスクリプト（例えば、特定のウエブサイト、ウエブサイトのグループ、ウエブサイトのタイプ、などのためにカスタム化されたスクリプト）を適用することができる。例えば、Extensible Style sheet Language Transformation（ＸＳＬＴ）言語を使用して、ＸＭＬ文書を他のＸＭＬ文書に変換することができる。ＸＳＬＴスクリプトは、ユーザのカスタム化に基づいて、関連しないデータを無視することができる。

いくつかの例では、各電子文書及び／又は電子文書の一部は、カテゴライザ３２６によってカテゴリに分類されることができる。カテゴライザ３２６は構文解析器３２４のコンテンツにアクセスして、解析されたテキストを、例えば電子テキストのコンテンツに従って分類する。コンテンツに基づくカテゴリ分類は、解析された英数字テキスト及び／又はマルチメディアコンテンツを、話題、著者、題目、スタイル、日付、年齢、性別、グループ、心情(例えば、ポジティブな取扱、ネガティブな取扱、中立など)などのような一以上のカテゴリに基づいて分類することを含む。カテゴリ分類は、ユーザの優先度、システムの優先度、グループの優先度などのような記憶された規則／優先度３２２に（全体的に又は部分的に）基づくことができる。いくつかの例では、収集され、解析され、カテゴリ分類された電子情報に関連した統計が生成される。

図示する例では、統計はデータマイナー３２８によって生成される。データマイナー３２８は、一以上のパラメータ、優先度、及び／又はその他の基準に従ってカテゴリ分類されたデータをマイニングして、ユーザに例えば、分析、傾向の検出、及び／又は組織化された出力を提供する。データマイナー３２８は、電子データにおける概念分析を提供して、例えば、ワード及び／又はフレーズと概念との間の関係を特定する。描かれている例のデータマイナー３２８はまた、例えば概念に対する関係を有するワード及び／又はフレーズの間の相関を測定する。

電子文書情報に関連する電子文書情報及び／又は分析は、データストレージ３４０に記憶される。データストレージ３４０は、少なくとも一時的に電子メッセージ情報及び／又は関連する分析を記憶するために、ランダムアクセスメモリ、リードオンリーメモリ（例えばＲＯＭ、ＥＰＲＯＭ、又はＥＥＰＲＯＭ）、フラッシュメモリ、ＣＤ、ＤＶＤ、ハードディスクドライブなどを使用して、実装されることができる。

解析された電子文書情報は、データマイナー３２８からフレーズプロセッサ３３０に渡されることができ、及び／又は、データストレージ３４０からフレーズプロセッサ３３０に取り出されることができる。以下にさらに記述されるように、フレーズプロセッサ３３０は、受け取った電子データにおける一以上のフレーズに対して、絶対的及び／又は相対的な頻度を決定する。

出力データは、出力部３５０に渡されるか、及び／又は出力部３５０によって取り出される。出力３５０は、例えば、ウエブに基づくアプリケーション及び／又はグラフィカルユーザインターフェースとして実装されることができて、情報を表示し、情報に対するユーザの相互作用を容易化する。いくつかの例では、出力部３５０は一以上のグラフィックツールを含み、例えば、電子コンテンツ情報を探求して且つ／又は分析する。図示する例では、グラフィックツールはウエブアプリケーションとして設けられて、ワールドワードウエブ及び／又はプライベートネットワークを介したユーザの試験及び探索をリモートに容易化する。

電子文書処理システム３００の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び／又はファームウエアに別個に、及び／又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び／又は受動電子部品が使用されることができる。これより、例えば、プロセッサ３２０、ダウンローダ３２２、カテゴライザ３２６、データマイナー３２８、フレーズプロセッサ３３０、及び／又は規則／優先度３３２、データストレージ３４０、及び／又は出力３５０、あるいはそれらの一部を含むシステム３００の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路（ＡＳＩＣ(s)）、プログラマブル論理デバイス（ＰＬＤ(s)）、フィールドプログラマブル論理デバイス（ＦＰＬＤ(s)）などを使用して、実装されることができる。プロセッサ３２０、ダウンローダ３２２、カテゴライザ３２６、データマイナー３２８、フレーズプロセッサ３３０、規則／優先度３３２、データストレージ３４０、及び／又は出力３５０、又はそれらの一部を含むシステム３００のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム（例えば図７の例示的なプロセッサシステム７１０）によって実行可能な命令、コード、及び／又は他のソフトウエア及び／又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び／又はファームウエア実装をカバーすると読まれるとき、プロセッサ３２０、ダウンローダ３２２、カテゴライザ３２６、データマイナー３２８、フレーズプロセッサ３３０、データストレージ３４０、及び出力３５０の少なくとも一つは、ソフトウエア及び／又はファームウエアを記憶するメモリ、ＤＶＤ、ＣＤなどのような有形の媒体を含むと、ここに明示的に規定される。

図４は、例示的な電子文書処理システム４００のブロック図である。処理システム４００は、検索アプリケーション４１０及び検索エンジン４２０を含む。検索アプリケーション４１０は、検索エンジンＧＵＩ（グラフィカルユーザインターフェース）４１４及び分析出力部４１６を含む。検索アプリケーション４１０は、一以上の用語を含むユーザ質問（ｑｕｅｒｙ）４１２を受け取る。ユーザ質問４１２は、例えば、人間のユーザによって生成されることができ、且つ／又は、ソフトウエアプログラム及び／又はコンピュータシステムによって生成されることができる。処理システム４００は、上述した図１の装置１００及び／又は図３のシステム３００の一部として、及び／又はそれに関連した製品として、実装されることができる。例えば、検索アプリケーション４１０はＧＵＩ３５０の一部として実装されることができ、検索エンジン４２０はプロセッサ３２０の一部として実装されることができる。ＣＧＭ／ＣＦＭからの電子コンテンツ３１０のような電子コンテンツは、例えば処理のために、検索エンジン４２０に与えられることができる。

質問４１２内の一以上の用語が、例えば、人間のユーザによってＧＵＩ４１４を介して提供され、且つ／又は、外部システム及び／又はアプリケーションから入力される。いくつかの例では、検索用語は、検索エンジン４２０からＧＵＩ４１４を介して転送される。検索アプリケーション４１０は、ネットワーク通信及びディスプレーを有するパーソナルコンピュータ、モバイル装置、マルチメディアプレーヤー、携帯個人端末などによって実装されることができる。ＧＵＩ４１４は、例えば、ブラウジングプログラム（例えば、マイクロソフト（登録商標）のインターネット・エクスプローラー（商標）ブラウザ、ネットスケープ・ナビゲータ（商標）ブラウザ、モジラ・ファイアフォックス（商標）ブラウザ、オペラ・ブラウザ、携帯装置ブラウザ、など）、マルチメディアアプリケーション、及び／又はカスタムビューワーを介して、実装されることができる。

検索エンジン４２０は、文書抽出器４２２、文書サンプラー４２４、及び／又はフレーズマイナー４２６を含む。検索エンジン４２０は、プロセッサ、ならびにプロセッサと通信するランダムアクセスメモリ、リードオンリーメモリ（例えばＲＯＭ、ＥＰＲＯＭ、又はＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスクドライブ、及び／又はそのほかの電子ストレージのようなコンピュータ読み出し可能な媒体を介して、実装されることができる。プロセッサは、インテル社又はＡＭＤ社から入手可能なプロセッサのような、数多くのプロセッサ及び／又は特定用途向け集積回路のいずれかであることができる。

文書抽出器４２２は、広範囲の利用可能な電子文書から、関連する文書を抽出する。電子文書は、話題、心情、キーワード、及び／又はフレーズ、著者、題目、ソースなどのような一以上の基準に従って、抽出される。文書メタデータは、例えば文書検索及び抽出に関連して、調べられ、生成され、及び／又は記憶される。文書抽出器４２２は、例えば、ワールドワードウエブ、プライベートネットワーク、及び／又は記憶された電子文書のコレクション（例えば文書の私企業データベース）を検索することができる。いくつかの例では、ウエブサービスを使用して、電子文書のウエブに基づく検索を実行することができる。

文書サンプラー４２４は、抽出された文書のサンプルを収集する。例えば、文書サンプラー４２４は、文書抽出器４２２から、抽出された文書のランダムな、擬似ランダムな、及び／又は特定のサンプルを収集する。文書サンプラー４２４は、例えば１０００個の文書というような閾値又は定量的パラメータに従って、抽出された文書をサンプルとして収集できる。

サンプルとして収集された、抽出された文書は、フレーズを文書サンプルからマイニングするために、文書サンプラー４２４からフレーズマイナー４２６に渡される。フレーズマイナー４２６は、サンプルとして収集された文書内に一以上のフレーズを特定する。フレーズは、一以上の規則及び／又は基準に基づいて特定されることができる。例えば、フレーズマイナー４２６は、語彙分析規則に基づいて電子文書内のフレーズを特定し、文書からワードの並びを特定する。いくつかの例では、文書は、フレーズマイナー４２６によって、最初に文に構文解析されて、それから各文内の一以上のフレーズに解析される。フレーズマイナー４２６は、例えば、フレーズを特定するために文の間の及び／又は文の中の句読点を利用する。フレーズは、例えば、一以上のキーワードに基づいて特定されることができる。ある例では、一以上のキーワードがフレーズマイナー４２６に提供されて、フレーズ内のキーワードの一以上を特定するように、フレーズマイナー４２６に指示及び／又は訓練する。代名詞、冠詞、前置句などは廃棄されることができ、及び／又は、例えばフレーズの間の境界を特定するために使用されることができる。ある例では、特定されたフレーズは可変長を有することができる（例えば２ワードフレーズ、３ワードフレーズ、４ワードフレーズ、５ワードフレーズ、など）。

以下にさらに論じるように、フレーズマイナー４２６は、電子文書内の特定されたフレーズを処理して、文書内でのフレーズの頻度（例えば、絶対頻度及び／又は相対頻度）を決定する。フレーズマイナー４２６はまた、例えばサンプリングされた文書間でのフレーズの頻度を決定することもできる。

結果は、検索エンジン４２０から検索アプリケーション４１０に提供される。例えば、検索エンジン４２０は、フレーズマイニング出力及び／又はその他の電子文書分析を、文書検索結果とともに分析出力部４１６に提供する。分析出力部４１６は、供給された検索結果及び関連する分析を、ＧＵＩ４１４を介してユーザに提供する。例えば、電子文書検索結果、及び文書からマイニングされたフレーズは、フレーズ及びそれらの頻度を示す検索結果に関連したグラフを介して、提示されることができる。フレーズ頻度及び／又はその他の分析はまた、例えば検索結果を深く掘り下げることによって、アクセスされることもできる。これより、ユーザは、例えば、文書検索結果にアクセスし、ならびに文書からマイニングされたフレーズを見て、且つそれらの相対及び／又は絶対頻度の指標を見ることができる。

電子文書処理システム４００の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び／又はファームウエアに別個に、及び／又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び／又は受動電子部品が使用されることができる。これより、例えば、システム４００の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路（ＡＳＩＣ(s)）、プログラマブル論理デバイス（ＰＬＤ(s)）、フィールドプログラマブル論理デバイス（ＦＰＬＤ(s)）などを使用して、実装されることができる。システム４００のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム（例えば図７の例示的なプロセッサシステム７１０）によって実行可能な命令、コード、及び／又は他のソフトウエア及び／又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び／又はファームウエア実装をカバーすると読まれるとき、検索アプリケーション４１０、検索エンジンインターフェース４１４、分析出力４１６、検索エンジン４２０、文書抽出器４２２、文書サンプラー４２４、及びフレーズマイナー４２６の少なくとも一つは、ソフトウエア及び／又はファームウエアを記憶するメモリ、ＤＶＤ、ＣＤなどのような有形の媒体を含むと、ここに明示的に規定される。

図５は、電子メッセージ及び／又はその他の電子文書内のフレーズを特定し、フレーズに関連する頻度を決定する例示的なフレーズマイニングシステム５００のブロック図である。このフレーズマイニングシステム５００は、フレーズ構文解析器５１０、辞書５２０、フレーズ値計算器５３０、ソーター５４０、フレーズリスト結合器５５０、及び出力部５６０を含む。

フレーズマイニングシステム５００は、フレーズ処理のために一以上の電子文書の入力５０５を受け取る。フレーズマイニングシステム５００は、例えば検索エンジン４０２のような文書検索エンジンから、入力５０５を受け取ることができる。入力５０５文書は構文解析器５１０に渡されて、それが、各文書を一以上の語彙規則、優先度、キーワードなどに従って分析し、各文書５０５内の興味のある一以上のフレーズを特定する。

例えば、フレーズのリストが、ダウンロードされた文書サンプルから生成されることができる（文書コーパスが１０００個の文書よりも大きいと、５００〜１０００個のメッセージ）。各メッセージは、以下の文字、すなわち、．！，？；＼ｒ＼ｎ＼ｔを使用して、文又はスピーチ部分に分割される。以下の文字、すなわち、．!?＠＃＄％＾＆*´：；（）＼ｎ−，＋[]＿＜＞〜＝／”＼ｒ＼ｔは、各スピーチ部分から除去される。

特定されたフレーズは、一以上のフレーズ辞書５２０を構築するために使用される。フレーズ辞書５２０は、（例えば、５ワードのフレーズを１ワード辞書、２ワード辞書、３ワード辞書、４ワード辞書、及び５ワード辞書に分割することによって）一つまたはそれ以上のサブフレーズも含むことができる。

例えば、４ワードを有するフレーズ「Ｉｌｏｖｅｔｈｉｓｃａｓｅ（私はこのケースを愛する）」について、４つの辞書（例えばハッシュテーブル）が、収集された全てのスピーチ部分から生成される。辞書５２０は、スピーチ部分からのフレーズと、収集されたスピーチ部分にフレーズが何回現れるかを示すカウンタとを含む。例えば、スピーチ部分が「Ｉｌｏｖｅｔｈｉｓｃａｔ（私はこの猫を愛する）」であれば、以下の用語「Ｉｌｏｖｅ（私は愛する）」「ｌｏｖｅｔｈｉｓ（これを愛する）」「ｔｈｉｓｃａｔ（この猫）」が２ワード辞書に追加される。完了時には、各辞書５２０は、あるフレーズを項目として含み、且つ各フレーズが電子メッセージ内に現れる回数を値として含む。

辞書５２０内のフレーズは、それからフレーズ値計算器５３０によって調べられて、各フレーズに対する値を決定する。フレーズに対する値は、相対頻度、絶対頻度、キーワードなどのような様々な基準に基づくことができる。フレーズ値計算器５３０は、文書内及び／又は複数の文書に亘る各フレーズに対して一以上のアルゴリズム及び／又は計量値を与えて、そのフレーズに関連する値を決定する。

例えば、フレーズ値計算器５３０は、その絶対頻度よりも、むしろフレーズの相対頻度を決定するために使用されることができる。フレーズ値計算器５３０は、フレーズに含まれるワードの頻度に対するフレーズの頻度を考慮に入れる計量値に従って、フレーズを処理する。この計量値に従って各フレーズに対する値が計算された後に、最高の値を有するフレーズが決定されて、文書及び／又は文書のコレクションにおいて最も意味のあるものであると決定される。

フレーズ値計算器５３０は、各フレーズに対する値を、以下のように計算する。例えば、フレーズがワードとしてword1、waord2、word3、……、word(n)を含むならば、そのときには、２、３、４、５ワード辞書におけるフレーズの各々から決定されるその値は、
となる。ここで、ｎは、フレーズ内のワード数に対応する。フレーズ全体の頻度は、フレーズ内の各々の個別のワードの頻度と比較される。freq(phrase)は、対応するワード辞書から取られる（例えば、１ワード辞書、２ワード辞書、……、ｎワード辞書）一方で、個別のワードの頻度は１ワード辞書から取られる。

例えば、フレーズ値計算器５３０は、２つの以下のフレーズ、「ＥｌｔｏｎＪｏｈｎ（エルトン・ジョン）」及び「Ｊｏｈｎｉｓ（ジョンは…である）」の値を計算することができる。「Ｊｏｈｎｉｓ」というフレーズは、より普通のフレーズであるかもしれないが、このフレーズは、より低い値に関連されるであろう。なぜなら、「ｉｓ（である）」は非常に一般的なワードであり、「Ｅｌｔｏｎ（エルトン）」はそれほど一般的なワードではないからである。これより、「Ｊｏｈｎｉｓ」というフレーズに対して計算される値の水準は高く、このフレーズに対する値全体は低い。値全体のｎ乗根は、ｎワード長（例えば２ワード、３ワード、４ワード、５ワードなど）であるフレーズに対して計算される。（式１）によって決定されるこの計量値の使用は、フレーズソーター５４０が任意の長さのフレーズの値を比較することを許容する。（式１）を使用して、フレーズ値計算器５３０は、フレーズに含まれるワードの頻度に対するフレーズの頻度を考慮に入れることができる。加えて、フレーズ値計算器５３０は、（式１）を使用して、異なる長さのフレーズを比較することができる。式１を使用して、フレーズ値計算器５３０は、例えば探索エンジンを補う高性能を提供することができる。

例えば、「ＥｌｔｏｎＪｏｈｎｉｓｇｏｏｄ（エルトン・ジョンは良い）」が２５回現れ、「Ｅｌｔｏｎ」が文書に５０回現れ、「Ｊｏｈｎ（ジョン）」が文書に１００回現れ、「ｉｓ」が文書に４００回現れ、「ｇｏｏｄ（良い）」が文書に２００回現れる場合、「ＥｌｔｏｎＪｏｈｎｉｓｇｏｏｄ」に対する値を計算すると、以下の式
をもたらす結果となる。

フレーズ値が計算された後、フレーズ値計算器５３０は、フレーズ及び値をソーター５４０に提供する。ソーター５４０は、各辞書５２０から、ある数のフレーズ及び値をセーブする。例えば、フレーズ値計算器５３０は、２ワード辞書から上位６００個のフレーズ及び値をセーブし、３ワード辞書から上位３００個のフレーズ及び値をセーブし、４ワード辞書から上位２００個のフレーズ及び値をセーブし、５ワード辞書から上位１００個のフレーズ及び値をセーブする。

フレーズソーター５４０は、ワード数の昇順にフレーズリストをレビューして、より大きなフレーズに組み込まれたサブフレーズを除去する。例えば、ソーター５４０は、２ワードフレーズリストを処理する。あるフレーズが３ワードリストのフレーズの一つに含まれると、その２ワードフレーズはリストから除去される（例えば、「Ｉｌｏｖｅｃａｔｓ（私は猫を愛する）」が３ワードリストに現れると、「Ｉｌｏｖｅ」が２ワードリストから除去される）。ソーター５４０は３ワードフレーズリストをレビューして、４ワードフレーズの一部であるあらゆるフレーズを除去する。ソーター５４０は４ワードフレーズリストをレビューして、それが５ワードリストの一部であるならばフレーズを除去する、などである。

ソーター５４０は、結果として得られたフレーズリスト及び値を、フレーズ結合器５５０に提供する。結合器５５０は、結果のリストを結合して新しいリストにする。結合器５５０は、新しいリストを、フレーズ値計算器５３０からの対応するフレーズ値に従ってソートする。結合器５５０は、最初のＮ個のフレーズをリストから選択し、選択されたフレーズを、検索された電子文書における最も意味のあるフレーズとして特定する。選択されたＮ個のフレーズは、検索エンジン出力ＧＵＩ及び／又はその他の分析アプリケーションに対する出力部５６０として提供される。例えば、フレーズ（及び関連する値）は、ＧＵＩのみを介して、及び／又は電子メッセージ検索結果とともに、表示のためにユーザに出力されることができる。あるいは、又は加えて、結果は記憶されることができ、及び／又は、さらなる処理のために他のアプリケーション／システムに転送されることができる。

フレーズマイニングシステム５００の構成要素の任意のもの又は全てが、ソフトウエア、ハードウエア、及び／又はファームウエアに別個に、及び／又は任意の数の組み合わせとして、実装されることができる。例えば、一以上の集積回路、ディスクリート半導体部品、及び／又は受動電子部品が使用されることができる。これより、例えば、システム５００の構成要素の任意のものは、一以上の回路、プログラマブルプロセッサ、特定用途向け集積回路（ＡＳＩＣ(s)）、プログラマブル論理デバイス（ＰＬＤ(s)）、フィールドプログラマブル論理デバイス（ＦＰＬＤ(s)）などを使用して、実装されることができる。システム５００のいくらか又は全ては、機械アクセス可能な又は読み取り可能な媒体上に記憶されて、例えばプロセッサシステム（例えば図７の例示的なプロセッサシステム７１０）によって実行可能な命令、コード、及び／又は他のソフトウエア及び／又はファームウエアなどを使用して、実装されることができる。添付の特許請求項のいずれかが純粋にソフトウエア及び／又はファームウエア実装をカバーすると読まれるとき、フレーズ構文解析器５１０、辞書５２０、フレーズ値計算器５３０、ソーター５４０、フレーズリスト結合器５５０、及び出力部５６０の少なくとも一つは、ソフトウエア及び／又はファームウエアを記憶するメモリ、ＤＶＤ、ＣＤなどのような有形の媒体を含むと、ここに明示的に規定される。

図６は、一以上の電子メッセージ及び／又は文書における相対頻度に基づくフレーズマイニング６００を行うために実行され得る例示的な機械読み取り可能な命令の流れ図表示である。６１０で、電子文書のサンプルが取り出される。例えば、５００〜１０００個のメッセージのサンプルがレビューのためにダウンロードされる。文書コーパスが１０００個の文書よりも小さいと、コーパス全体がレビューされることができる。

６２０で、各メッセージは文又はスピーチ部分に分割される。例えば、各メッセージは、以下の文字、すなわち、．！，？；＼ｒ＼ｎ＼ｔを使用して、文又はスピーチ部分に分割される。加えて、例えば、以下の文字、すなわち、．!?＠＃＄％＾＆*´：；（）＼ｎ−，＋[]＿＜＞〜＝／”＼ｒ＼ｔは、各スピーチ部分から除去される。

６３０で、一以上の辞書が、収集されたスピーチ部分から構築される。各辞書は、ある数のワードを有するフレーズのリストと、収集されたスピーチ部分におけるそのフレーズの出現回数とを有する。例えば、５つの辞書（例えばハッシュテーブル）が、収集されたスピーチ部分から生成されることができて、これは、１ワード辞書、２ワード辞書、３ワード辞書、４ワード辞書、及び５ワード辞書を含む。例えば、スピーチ部分が「Ｉｌｏｖｅｔｈｉｓｃａｔ」であれば、以下の用語「Ｉｌｏｖｅ」「ｌｏｖｅｔｈｉｓ」「ｔｈｉｓｃａｔ」が２ワード辞書に追加される。フレーズ辞書が生成された後に、各辞書は、フレーズを項目として、且つ各フレーズが現れる数を対応する値として含む。

６４０で、相対頻度値が、フレーズ辞書の各々における各フレーズに対して計算される。例えば、２、３、４、５ワード辞書におけるフレーズの各々に対して、以下の値、
が計算される。ここで、phrase＝word1 word2 … word nである。例えば、freq(phrase)は、２、３、４、又は５ワード辞書から取られ、freq(word i)は１ワード辞書から取られる。

６５０で、数多くのフレーズ及び値が各辞書に対して保持される。例えば、２ワード辞書から上位６００個のフレーズ及び値がセーブされ、３ワード辞書から上位３００個のフレーズ及び値がセーブされ、４ワード辞書から上位２００個のフレーズ及び値がセーブされ、５ワード辞書から上位１００個のフレーズ及び値がセーブされる。

６６０で、各リストがレビューされて、リスト内の他のフレーズに組み込まれたフレーズが除去される。例えば、２ワードフレーズリストがレビューされて、３ワードリストのフレーズの一つに含まれるフレーズを除去する。例えば、「Ｉｌｏｖｅｃａｔｓ」が３ワードリストに現れると、「Ｉｌｏｖｅ」が２ワードリストから除去される。３ワードフレーズリストがレビューされて、それが４ワードリストの一部であるならば、フレーズを除去する。同様に、４ワードリストが除去されて、それが５ワードフレーズの一部であるならばフレーズが除去される。

６７０で、ワードリストが結合されて、全ての残りのフレーズを含む新しいリストとされる。６８０で、このリストが、上記で決定されたフレーズ相対頻度値に従ってソートされる。６９０で、リストからの最初のＮ個のフレーズが、調べられているスピーチ部分からの最も意味のあるフレーズとして使用される。これらのＮ個のフレーズは、グラフィックインターフェースを介してユーザに表示され、メモリにセーブされ、さらなる使用のために他のシステム及び／又はアプリケーションにルートされることができる。Ｎ個のフレーズは、単独で、及び／又は、文書コーパスからの一以上の用語に従って検索結果とともに、出力されることができる。

図６は、それぞれ図４及び図５の例示的な文書プロセッサ４００及び／又はフレーズマイナー５００を使用するような電子文書検索及びデータマイニングを提供するために実行されることができる機械読み取り可能且つ実行可能な命令またはプロセスの流れ図表示である。図６の例示的なプロセスは、プロセッサ、コントローラ、及び／又は任意の他の適切な処理装置を使用して、実行されることができる。例えば、図６の例示的なプロセスは、プロセッサ（例えば図７のプロセッサ７１２）に関連したフラッシュメモリ、リードオンリーメモリ（ＲＯＭ）、及び／又はランダムアクセスメモリ（ＲＡＭ）のような有形の媒体に記憶されたコード化された命令に実装されることができる。あるいは、図６の例示的なプロセスのあるもの又は全てが、特定用途向け集積回路（ＡＳＩＣ(s)）、プログラマブル論理デバイス（ＰＬＤ(s)）、フィールドプログラマブル論理デバイス（ＦＰＬＤ(s)）、ディスクリートロジック、ハードウエア、ファームウエアなどの任意の組み合わせを使用して、実装されることができる。また、図６の例示的なプロセスのあるもの又は全てが、マニュアルで、あるいは、前述の技法の任意のものの組み合わせ、例えば、ファームウエア、ソフトウエア、ディスクリートロジック、及び／又はハードウエアの任意の組み合わせとして、実装されることができる。さらに、図６の例示的なプロセスは図６の流れ図を参照して記述されているが、図６の方法を実装する他の方法が使用されることができる。例えば、ブロックの実行順序は変更され得て、及び／又は、記述されたブロックのいくつかは、変更、除去、細分、又は組み合わせられ得る。あるいは、図６の例示的なプロセスの任意のもの又は全ては、順番に、及び／又は、たとえば個別の処理スレッドによって並列に、実行されることができる。

図７は、ここに記述された図１、図３、図４、及び／図５の例示的な装置及び／又はシステムのいくらか又は全てを実装するために、図６の例示的な命令を実行し得る例示的なプロセッサシステムの流れ図である。図７に示されるように、プロセッサシステム７１０は、配線バス７１４に結合されたプロセッサ７１２を含む。プロセッサ７１２はレジスタセット又はレジスタ空間７１６を含み、これは、図７では全体的にオンチップに描かれているが、あるいは、全体的に又は部分的にオフチップに配置され、且つ専用電気接続を介して及び／又は配線バス７１４を介してプロセッサ７１２に直接的に結合されることができる。プロセッサ７１２は、任意の適切なプロセッサ、処理ユニット、又はマイクロプロセッサであり得る。図７には示されていないが、システム７１０は、マルチプロセッサシステムであり得て、これより、プロセッサ７１２に同一又は類似であり且つ配線バス７１４に通信的に結合される一以上の付加的なプロセッサを含み得る。

図７のプロセッサ７１２はチップセット７１８に結合され、これはメモリコントローラ７２０及び入力／出力（Ｉ／Ｏ）コントローラ７２２を含む。良く知られているように、チップセットは典型的に、Ｉ／Ｏ及びメモリ管理機能、ならびにチップセット７１８に結合された一以上のプロセッサによってアクセス可能または使用される複数の汎用及び／又は専用レジスタ、タイマなどを提供する。メモリコントローラ７２０は、プロセッサ７１２（又は、複数のプロセッサがあるならば複数のプロセッサ）がシステムメモリ７２４及びマスストレージメモリ（ｍａｓｓｓｔｏｒａｇｅｍｅｍｏｒｙ）７２５にアクセスすることを可能にする機能を実行する。

システムメモリ７２４は、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、フラッシュメモリ、リードオンリーメモリ（ＲＯＭ）などのような任意の所望のタイプの揮発性及び／又は不揮発性メモリを含み得る。マスストレージメモリ７２５は、ハードディスクドライブ、光学ドライブ、テープストレージ装置などを含む任意の所望のタイプのマスストレージ装置を含み得る。

Ｉ／Ｏコントローラ７２２は、プロセッサ７１２がＩ／Ｏバス７２２を介して周辺入力／出力（Ｉ／Ｏ）装置７２６及び７２８ならびにネットワークインターフェース７３０と通信することを可能にする機能を実行する。Ｉ／Ｏ装置７２６及び７２８は、例えばキーボード、ビデオディスプレー又はモニタ、マウスなどのような任意の所望のタイプのＩ／Ｏ装置であり得る。ネットワークインターフェース７３０は、例えば、プロセッサシステム７１０が他のプロセッサシステムと通信することを可能にするイーサネット（登録商標）装置、非同期転送モード（ＡＴＭ）装置、802.11装置、ＤＳＬモデム、ケーブルモデム、セルラーモデムなどであり得る。

メモリコントローラ７２０及びＩ／Ｏコントローラ７２２は、図７にはチップセット７１８内の別個の機能性ブロックとして描かれているが、これらのブロックによって実行される機能は、単一の半導体回路内に一体化され得て、又は、２つ又はそれ以上の別個の集積回路を使用して実装され得る。

ある方法、装置、及び製造品がここに記述されてきたが、本特許のカバー範囲は、それらに限定されない。反対に、本特許は、文字通り又は均等の指針の下で添付の特許請求項の範囲内に公正に含まれる全ての方法、装置、及び製造品をカバーする。

Claims

電子文書内のフレーズを特定するコンピュータ実装された方法であって、
少なくとも一つの話題に関する複数のワード及びフレーズを含む電子文書を受領するステップと、
前記電子文書のコンテンツから一以上のフレーズ辞書を生成するステップと、
前記一以上のフレーズ辞書の各々の各フレーズに対して、相対頻度値を生成するステップであって、前記フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、ステップと、
閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するステップと、
前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力するステップと、
を包含する、方法。
獲得ステップがさらに、複数の電子文書を獲得するステップと、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングするステップと、をさらに備える、請求項１に記載のコンピュータ実装された方法。
前記相対頻度の生成ステップがさらに、各フレーズに対する前記相対頻度値を、少なくとも部分的に、
に基づいて生成するステップを含み、phrase＝word1 word2 … word nであり、フレーズの頻度は、ｎワード辞書から決定され、前記フレーズにおける個別のword１からword nのそれぞれの頻度は、１ワード辞書から決定される、請求項１に記載のコンピュータ実装された方法。
前記一以上のフレーズと前記相対頻度値との出力ステップがさらに、前記電子文書の自動分析を駆動する、請求項１に記載のコンピュータ実装された方法。
前記電子文書のコンテンツをスピーチ部分に分割するステップと、前記スピーチ部分から前記一以上のフレーズ辞書を生成するステップと、をさらに包含する、請求項１に記載のコンピュータ実装された方法。
前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するステップをさらに包含する、請求項１に記載のコンピュータ実装された方法。
残る一以上のフレーズ及び相対頻度値を結合して単一のリストにするステップと、前記リストを相対頻度値に基づいてソートするステップと、をさらに包含する、請求項６に記載のコンピュータ実装された方法。
電子文書フレーズマイニング装置であって、
電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器であって、前記スピーチ部分が一以上のフレーズを含み、前記構文解析器が、前記電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する、構文解析器と、
各フレーズ辞書における相対頻度値を生成するフレーズ値計算器であって、フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、フレーズ値計算器と、
閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するソーターと、
前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力する出力部と、
を包含する、装置。
前記構文解析器が、１ワードフレーズ辞書とｎワードフレーズ辞書とを含む複数のフレーズ辞書を生成し、ｎは特定の辞書におけるワード数に対応し、最大のｎは、前記電子文書における前記構文解析器によって特定された最長のフレーズにおけるワード数に対応する、請求項８に記載の装置。
前記複数のフレーズ辞書が、１ワードフレーズ辞書と２ワードフレーズ辞書と３ワードフレーズ辞書と４ワードフレーズ辞書と５ワードフレーズ辞書とを含む、請求項９に記載の装置。
複数の電子文書を獲得し、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングする文書サンプラーをさらに備える、請求項８に記載の装置。
前記フレーズ値計算器が、各フレーズに対する前記相対頻度値を、少なくとも部分的に
に基づいて生成し、phrase＝word1 word2 … word nであり、フレーズの頻度は、ｎワード辞書から決定され、前記フレーズにおける個別のword１からword nのそれぞれの頻度は、１ワード辞書から決定される、請求項８に記載の装置。
前記出力部が、前記選択された一以上のフレーズと前記相対頻度値とを出力して、前記電子文書の自動分析を駆動する、請求項８に記載の装置。
前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するソーターをさらに備える、請求項８に記載の装置。
前記ソーターからの残る一以上のフレーズ及び相対頻度値を結合して単一のリストにし、前記リストを相対頻度値に基づいてソートする結合器をさらに備える、請求項１４に記載の装置。
処理機械によって実行された場合に、
電子文書のコンテンツを複数のスピーチ部分に分離する構文解析器であって、前記スピーチ部分が一以上のフレーズを含み、前記構文解析器が、前記電子文書におけるフレーズの各長さを組織化するためにフレーズ辞書を生成する、構文解析器と、
各フレーズ辞書における相対頻度値を生成するフレーズ値計算器であって、フレーズに対する前記相対頻度値が、少なくとも部分的に、前記電子文書における前記フレーズの頻度と前記フレーズ内の個別のワードそれぞれの頻度との間の比較に基づく、フレーズ値計算器と、
閾値と各フレーズに対して生成された前記相対頻度値とに少なくとも部分的に基づいて、一以上のフレーズを選択するソーターと、
前記選択された一以上のフレーズ、及び前記選択された一以上のフレーズの各々に関連した前記相対頻度値を、ユーザに対するグラフィック表示のために出力する出力部と、
を備える電子メッセージフレームマイニングシステムを実装する命令を含む、コンピュータ読み取り可能記憶媒体。
前記構文解析器が、１ワードフレーズ辞書とｎワードフレーズ辞書とを含む複数のフレーズ辞書を生成し、ｎは特定の辞書におけるワード数に対応し、最大のｎは、前記電子文書における前記構文解析器によって特定された最長のフレーズにおけるワード数に対応する、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
前記複数のフレーズ辞書が、１ワードフレーズ辞書と２ワードフレーズ辞書と３ワードフレーズ辞書と４ワードフレーズ辞書と５ワードフレーズ辞書とを含む、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
複数の電子文書を獲得し、フレーズマイニングのために前記複数の電子文書のサブセットをサンプリングする文書サンプラーをさらに備える、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
前記フレーズ値計算器が、各フレーズに対する前記相対頻度値を、少なくとも部分的に、
に基づいて生成し、phrase＝word1 word2 … word nであり、フレーズの頻度は、ｎワード辞書から決定され、前記フレーズにおける個別のword１からword nのそれぞれの頻度は、１ワード辞書から決定される、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
前記出力部が、前記選択された一以上のフレーズと前記相対頻度値とを出力して、前記電子文書の自動分析を駆動する、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
前記一以上のフレーズならびに前記対応する前記相対頻度値をレビューして、相対頻度値を有する他のより大きなフレーズ内に組み込まれたフレーズを除去するソーターをさらに備える、請求項１６に記載のコンピュータ読み取り可能記憶媒体。
前記ソーターからの残る一以上のフレーズ及び相対頻度値を結合して単一のリストにし、前記リストを相対頻度値に基づいてソートする結合器をさらに備える、請求項２２に記載のコンピュータ読み取り可能記憶媒体。