JP5879260B2

JP5879260B2 - マイクロブログメッセージの内容を分析する方法及び装置

Info

Publication number: JP5879260B2
Application number: JP2012515114A
Authority: JP
Inventors: ベイリー，エドワード，ジェイ．; ヘンデル，サミュエル，エル．; キンゼイ，ジェフリー，ディー．; シラー，リチャード，ジェイ．
Original assignee: イービーエイチエンタープライズィーズインコーポレイテッド
Priority date: 2009-06-09
Filing date: 2010-06-09
Publication date: 2016-03-08
Anticipated expiration: 2030-06-09
Also published as: WO2010144618A1; EP2441010A4; TW201118589A; EP2441010A1; JP2012529717A; US8719302B2; US20100312769A1; US9323826B2; US20140358929A1

Description

本出願はマイクロブログに関し、具体的にはマイクロブログの内容を分析する方法に関するものである。

インターネットの歴史において、今まで短文形式の通信のオープンで検索可能な手段はなかった。マイクロブロギングの先駆けとなるものには、インスタントメッセージング、チャットルームおよび掲示板が含まれる。しかし、これらの状況における短文形式の通信は常に双方向であった（つまり、何か他のことに応答して何かを言ったり、または予め決められたトピックについて何かを言ったりしていた）。対するマイクロブロギングはしばしば、二者間でやり取りする会話またはトピック中心にスレッド化された議論から離れた、ソーシャル通信の１対多の短文形式である。マイクロブロギングで人は「ライフストリーミング」を介して通信できる。これは人々の実生活の経験に相関し、オンライン環境で伝達される考えや意見、および考察の共有に関わる。

さらに、マイクロブロギングは誰でもそれを発見できる完全にオープンな環境に存在する。データセットの開放性は社会的に重要な分野に関する会話の急激な増大の可能性を促す。マイクロブロギングのこの「バイラル(viral)」性は、ほとんどのマイクロブロギングプラットフォームに統合されるソーシャルネットワーキングおよびソーシャルシェアリング機能によってさらに促進される。これらのツールでユーザは受信したい他のユーザの内容を指定することが可能になる（ツイッターの場合、このプロセスは「フォローする」と呼ばれる）。マイクロブロギングプラットフォームの他の機能は、ユーザに対して、望ましい内容を共有し、それをさらに補足し、それを広範囲に広めさせる方法でメッセージを再配信することを促す。

マイクロブロギングで生成される情報の異常がオンライン情報環境でこのように多大な影響を及ぼすことができる主要な理由が、データセットのバイラル性である。マイクロブロギング内容のいずれの１つも「バイラル的に広まる」ようになる可能性を持っており、その結果、まるで主流のニュース記事のように社会に影響を与える。また、マイクロブロギングは調査またはインタビューの状況から外れて存在する本人による、信憑性のある自己表現の手段である。これが個人らに投稿を行わせ、彼らが共有するものは、継続的な消費者調査と同種のものとなる。さらに、マイクロブロギングはすべてのユーザに「市民ジャーナリスト」となる可能性を持たせるので、スマートフォンまたはインターネットに繋がれた他の機器を介して自分の周りで起こっている出来事をまっさきに報告できるようになる。

要するに、マイクロブロギングは消費者調査と新たなニュースサイクルとを兼ねる前例のないものであり、そのため、金融サービスおよび他の専門的なエンドユーザにとって固有の価値あるデータセットである。
オンラインソーシャルメディア界はクリティカルマスを達成し、大勢の支持を得ている。ウェブアナリストのコムスコアによると、２００９年２月には１億９千２百万人の米国ユニークインターネットユーザのうちの６４パーセント、つまり１億２千２百万人が投稿を読み、発表し、または返事をする過程で、１以上のソーシャルネットワーキングサイトを訪問した。わずか１２ヶ月間で、手軽なマイクロブロギングサイトのツイッターのユーザの数は１０８５％増加した。大学生の一時的な流行として始まったソーシャルウェブは今ではどの年代にも利用が広がってユビキタスとなっている。このことを実証しているのが、フェイスブックのユーザの３８％が３５歳以上であり、ブロガの平均年齢は３７歳であり、ツイッターのユーザの年齢の中央値は３１歳という事実である。

このソーシャルメディア環境のなかで、マイクロブロギングはもっとも突出して成長の著しいユーザ挙動の一つである。ツイッターは国際的に優位を占めているが、世界中のさまざまな言語のマイクロブロギングサイトは１１１を超えている。これらのサービスには、グーグル・バズ、タンブラーおよびプラークが含まれる。これらのニッチなソーシャルメディアプラットフォームに加えて、フェイスブック、マイスペースおよびリンクトインなどの大規模なソーシャルネットワーキングウェブサイトはしばしば「ステータスアップデート」と呼ばれる独自のマイクロブロギング機能を持っている。自分の生活に関する考えおよび最新情報を投稿することは、より大規模なこれらのソーシャルネットワーキングプラットフォームのカルチャーの中心になってきている。

主流で広範囲に広がることに加えて、ツイッターおよびマイクロブロギングサービスは社会に対して劇的な効果を持つように影響力を持ちつつもある。例えば、ツイッターはイラン選挙の暴動の主な誘因であったと言われている。この場合、このサービスは市民がリアルタイムで互いの考えを共有し、中心的な主張に結集させることを可能にした。このことはツイッターおよび他のマイクロブロギングサイトが非常に大きな重要性と社会的な力とを持つツールであるというさらなる証拠を提示している。

ソーシャルメディアサイトは、この情報が発表される最初の公の場であることが多い。フェイスブック、マイスペースおよびツイッターなど、無数のオンラインユーザが生成する目的地で起こるバーチャルな「うわさ」話の爆発的に増えるレキシコンは、一般市民のリアルタイムの感情や活動のトレンドを含むまったく新しい関連性のあるユーザのフィードバックループを作っている。これらの顕著なトレンドは、従来のオフラインおよびオンラインのニュースソースで関連の記事または出来事が扱われて、報道されるかなり前にオンライン発表共同体で起こる。以下にこの現象の最近の事例をいくつか挙げる。

・アップル社のＣＥＯで創業者のスティーブ・ジョブズの死亡記事が誤ってオンラインで発表されたとき、オンライン上でアップル社の株価に悪影響を及ぼすうわさが流れた。
・２００８年５月１２日に中国の四川省で大地震が起こったときに、中国のツイッターのユーザはリアルタイムで経験しているときに地震を伝えた。アメリカ地質調査所はそのウェブサイト上でツイッターからまる３分後に地震を報道し、ＢＢＣおよび中国政府は地震発生から約５分から７分後にツイッターのモニタリングを通して地震を知った。

・ＵＳエアウェイズの航空機がハドソン川に不時着したとき、ツイッターのユーザが最初にその事故についてつぶやき、ニューヨークタイムズによる事故のオンライン報道より２０分早かったと言われている。
リアルタイムでオンラインで広がるこの膨大でますます増大するユーザ発信の情報を取捨選択し、編成し、配信し、提示できるシステムがあれば、多くの分野できわめて有利であろう。たとえば、投資家はとてつもない便益を受けることができるだろう。市場はリアルタイムで常時動いている。デジタル時代においては、速報性があってすぐに利用できる投資情報へのアクセスは成否を分ける境となることがある。金融市場に大きな影響を与えるのは、出来事そのものよりも、ニュース記事および出来事に対する人々の反応であることの方が多い。

本発明は、複数のニッチ市場および垂直市場向けにカスタマ関連性の高いＢ２ＢおよびＢ２Ｃアプリケーションを作成するオンライン消費者感情および活動レベルアルゴリズムをレバレッジする方法を提供するものである。

本発明によれば、受信したマイクロブログに特定の(abnormal)活動がないかを調べて、当該活動を検出したときにユーザに報知することによって、ユーザにマイクロブログ活動を報知する方法が提供される。
他の実施形態は、マイクロブログメッセージを構文解析して語および／または句のベクトルを形成し、複数の期間にわたって語および／または句を連続的に集計して集計ベクトルを形成し、集計ベクトルを分類して異なる期間に関連する予測を形成し、予測が所定レベルを超えたらユーザに報知するための方法をさらに含む。

本発明によれば、マイクロブログメッセージを受信するサーバと、受信したメッセージをクラスタ化するクラスタ生成器と、分類ルール内の名詞および／または名詞句で索引付けした分類ルールのセットを格納するデータベースと、スコア付けされたメッセージのセットを生成するために分類ルールのセットにしたがってクラスタ化されたメッセージを分類する分類器と、スコア付けされたメッセージを検索要求に照合させる照合器(matcher)とを備えるマイクロブログメッセージを分析する装置が提供される。

他の実施形態では、オントロジー(ontology)を格納するナレッジベースと、ナレッジベースからデータベースに格納する分類ルールのセットを生成する分類ルール生成器とをさらに含む。
本発明の以上のおよび他の目的と利点とは、以下の詳細な説明に鑑みると当業者には明らかになるであろう。

本発明を実施する環境を示す図である。本発明の第１の実施形態を示すブロック図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である（図１３Ａと連続している）。図２の実施形態の全体的な操作を図示する図である。図２の実施形態の全体的な操作を図示する図である（図１４Ａと連続している）。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。図２の実施形態の全体的な操作を図示する図である。本発明を理解する上で役立つ一定の関係を図示する略図である。本発明を理解する上で役立つ一定の関係を図示する略図である（図１７Ａと連続している）。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。分類ルールを示すプログラム。分類ルールを示すプログラム（図１９の続き）。分類ルールを示すプログラム（図２０の続き）。分類ルールを示すプログラム（図２１の続き）。分類ルールを示すプログラム（図２２の続き）。

図１は、本発明を実施する環境を図示している。前述したように、オンラインソーシャルメディアはクリティカルマスを達成している。ツイッターは、そのユーザが今では日に約５千５百万回のツイートを流すと報告している。わずか４年間でこれらのメッセージは累計して約１００億ある。保護が指定されているアカウント内の少数のメッセージを例外として、これらのメッセージはほぼすべてが公に入手できる。実際、ツイッターは現在そのアーカイブを米国議会図書館に寄贈して、継続的な最新情報を供給する計画を発表した。ツイッターのユーザおよび他のマイクロブロガを図１では、アイフォーン＆ブラックベリーアプリ１０で表している。インターネット上で公に入手できる情報の他のソースはウェブインターフェース２０で表している。

本発明は、セキュアなウェブアプリケーションサーバ４０とデータ記憶装置６０とを利用して、マイクロブロガ１０および他のソース２０からインターネット上で入手できるメッセージを処理する。ユーザは、データ記憶装置６０に格納されている情報にアクセスするのに多様なデスクトップアプリケーション８０を使用してもよい。
図２は本発明の実施において、図１のウェブアプリケーションサーバ４０およびデータ記憶装置６０の機能を提供するために使用した例示的なコンピュータシステム２００のブロック図である。

コンピュータシステム２００はサーバ２２０の第１アレイ２１０と、サーバ２４０の第２アレイ２３０と、分散型キャッシュ＆メモリ２５０と、第１データベース２６０と、第２データベース２７０とを備える。外部情報プロバイダ２０５と第１アレイ２１０との間にファイアウォール２８０を配置している。サーバの第１アレイ２１０と第２アレイ２３０との間にファイアウォール２８２を配置している。サーバの第２アレイと、ラップトップブラウザ２９０、ブラウザ２９２およびワークステーションブラウザ２９４などのさまざまなユーザデバイスとの間にファイアウォール２８４を配置している。以下説明するように、外部情報プロバイダ２０５には２種類あり、マイクロブログメッセージのソースと、特定のサブジェクトに関する情報データベースの他の入力およびソースとがある。

サーバの第１アレイおよび第２アレイは、アマゾンのＥＣ２システムで実行するバーチャルサーバのアレイである。サーバの第１アレイはマイクロブログデータサーバ２２１と、第三者データサーバ２２２と、並列処理サーバ２２３と、クラスタリング・分類・アラートサーバ２２４とをさらに備える。サーバの第２アレイ２３０は、開発スポークサーバ２４１とカスタマスポークサーバ２４２，２４３および２４４とをさらに備える。

図２ではカスタマスポークサーバは３セットしか図示していないが、これより多くのセットの、またはこれよりすくないセットのカスタマスポークサーバを使用してもよいことは理解されるであろう。各サーバ２２０，２４０が、サーバを制御するコンピュータプログラムを格納している半導体および／またはディスクメモリなどのさまざまなメモリ資源にアクセスできることは認識されるであろう。これらのプログラムの一定の操作を以下に説明する。キャッシュ＆メモリ２５０は主に並列処理サーバ２２３の操作で使用する。

データベース２６０は、マイクロブログデータベース２６１と、ナレッジベース２６２と、分類器ルールデータベース２６３との３つの主要なコンポーネントを有している。マイクロブログデータベース２６１は、例えばマイクロブロガおよび他のインターネットソースから取得した生のテキストメッセージのテーブルを格納して、これらのメッセージで使用される語句の辞書を維持し、これらの語句がメッセージのどこで使用されているかを示す索引を維持し、語句の用法に関するデータテーブルを維持し、処理したテキストメッセージを格納し、テキストメッセージのそれぞれを表す情報のベクトルを格納するリレーショナルデータベースである。データベース２６１に関する詳細な情報は、図３から図１４Ａおよび図１４Ｂ、図１６ならびに図１７Ａおよび図１７Ｂに関連して以下説明する。

ナレッジベース２６２は特定のサブジェクトに関するオントロジーおよびタクソノミー(taxonomy)を格納するリレーショナルデータベースである。ナレッジベース２６２に関する詳細な情報は図１７Ａおよび図１７Ｂに関連して以下説明する。分類器ルールデータベース２６３はナレッジベース２６２から導出または推論される分類ルールのセットを格納するリレーショナルデータベースである。分類器ルールデータベース２６３に関する詳細な情報は図１０に関連して以下説明する。

例示目的で、本発明は有価証券を発行する公開企業および非公開企業に関する情報のマイクロブログを分析する方法、システムおよびソフトウェアの状況において説明する。またナレッジベースおよび分類器ルールはその状況において説明する。しかし、本発明は多数の他の状況においても同様に適用してもよいことは理解されるであろう。
データベース２７０はカスタマスポークサーバ２４２〜２４４のそれぞれのリレーショナルデータベースを提供する。これらのデータベースに関する詳細な情報は図１３Ａおよび図１３Ｂならびに図１４Ａおよび図１４Ｂに関連して以下説明する。

さらに、コンピュータシステム２００に関する詳細な情報は、以下に説明するその操作の考察から明らかになるであろう。
図３は本発明の第１の実施形態における情報の一般的な流れを図示するフローチャートである。
テキストメッセージおよび他の入力は入力ステップ３１０の間にサーバのアレイ２１０で受信される。これらのメッセージはクラスタリングステップ３２０で関連メッセージのグループに分類される。ステップ３２５でメッセージの感情値を判定する。分類器ステップ３３０で、データベース２６３に格納されている分類器ルールのセットを使用して、メッセージをトピック別に分類する。ステップ３４０でナレッジベース２６２から分類器ルールが生成される。分類されたメッセージはアラータステップ３５０にて、アラートサーバ２２４によって、１以上のユーザがスポークサーバのアレイ２３０を通じてブラウザ２９０，２９２，２９４を介して提出した検索またはアラートトピックと照合される。ユーザが利用できる検索またはアラートトピックは、ナレッジベースから導出する。照合の結果はスポークサーバ２４０からユーザブラウザ２９０，２９２，２９４に提供される。ステップ３８０で、情報の流れはナレッジベースに１または複数のオントロジーおよびタクソノミーをロードするナレッジベース入力も含む。

入力ステップ３１０は、例としてマイクロブログ用のアプリケーションプログラミングインターフェース（ＡＰＩ）にアクセスして公に利用できるメッセージを検索することによって、ツイッターなどの１以上のマイクロブログプラットフォームからメッセージを受信する。現在では、平均で毎分４０，０００近くのツイートが生成されている。これらのメッセージを処理するために、メッセージは以下に説明する操作を行ういくつかのサーバ２２０に分散されている。ツイートの場合、各メッセージは８ビットで１４０文字長以下のテキストメッセージである。メッセージのテキストに加えて、検索される各メッセージは、メッセージを作成した時刻を明記するタイムスタンプ、メッセージの言語の表示、作者の表示、メッセージを検索したプラットフォームの表示、注釈タグなどのメタデータ（つまり、メッセージに関する情報）を含む。ある場合には、緯度および経度または他の地理的指標で作者の物理的な位置も入手でき、検索される。他のマイクロブログは異なるフォーマットを有している。さらに、入力ステップ３１０は１以上のウェブクローラまたは他の第三者からの入力を受信してもよい。より詳細に以下説明するように、入力ステップ３１０はさまざまなＡＰＩから受信したテキストメッセージの語を、検索に使用できるより一貫性のある単語およびフォーマットのセットに処理する。

クラスタリングステップ３２０は、冗長なメッセージおよび／またはほとんどもしくはまったく関心のないメッセージを特定して、高度な言語的類似性を持つメッセージをまとめる。クラスタ化されたメッセージは分類器ステップ３３０に送られて、分類ルールのセットでメッセージを分析して、所定のトピックのセットに関連すると思われるメッセージを特定する。前述したように、分類器ルールはナレッジベースから生成される。分類されたメッセージはアラータステップ３５０に送られる。こうしてアラータステップが受信したメッセージは、ナレッジベースで既知の同じトピックのセットからユーザが選択することによって提供されるトピックと照合される。そしてユーザ指定のトピックに関係するメッセージがそのユーザに送られる。

図４は、図３の入力ステップ３１０の実施形態を図示するフローチャートである。ステップ４１０で、各入力テキストメッセージに固有特定番号（例として、ＩＧ＿ＭＳＧ＿ＩＤ）が割り当てられる。そしてメッセージのテキストをデータベース２６１の適切なテーブルに格納して、固有特定番号で索引付けする。同様に、生メッセージを伴うメタデータの各アイテムを適切なメタデータのテーブルに格納して、前記メタデータの部分に割り当てられた固有特定番号とともに、そのメッセージに割り当てられた固有特定番号でも索引付けされる。ステップ４２０で生の入力テキストメッセージをトークン化し、得られたトークンをステップ４４０で正規化する。正規化プロセス中、ステップ４３０で組／句トークン辞書を更新する。ステップ４５０でトークン辞書を更新する。ステップ４６０で大域的文書頻度の逆数（大域的ＩＤＦ（ＧＬＯＢＡＬＩＤＦ））テーブルを更新する。これらのテーブルのすべてをマイクロブログデータベース２６１に格納する。

メタデータも処理する。ステップ４７０で、メッセージレベル感情を以下詳細に説明するように計算する。ステップ４８０で、文書特徴ベクトル（ＤＦＶ）を形成する。ステップ４７０およびステップ４８０の結果もデータベース２６１に格納する。そのためデータベース２６１に格納されている情報は、より詳細に図７で説明するクラスタリングステップ３２０に利用できる。

受信したメッセージの文字は、適用できる通信プロトコルを使用して送受信できるあらゆる記号とすることができる。好ましくは、受信したメッセージの文字はＵＴＦ−８（８ビットＵＣＳ／ユニコード変換フォーマット）を使用して符号化される。ＵＴＦ−８は１２８ＵＳ−ＡＳＣＩＩ文字と後方互換性のある可変長文字エンコーディングである。したがって、１２８ＵＳ＿ＡＳＣＩＩ文字の識別に１バイトを使用し、他の文字の識別に追加バイトを使用する。

ステップ４２０で、メッセージを一連の要素単位に分解して、例えば英語の場合、連続した非空白文字の集合を空白または他の非単語構成文字で分離して、メッセージテキストをトークン化する。各要素単位をトークンと呼んでもよい。トークン化プロセスでは、テキストを簡素化して標準化し、各トークンの始めと終わりとを明確に示すことを一般目標に、多様なルールを使用する。例として、トークン化は次の３つの主要操作を備える。特定の一次単位の識別（例、ＵＲＬ、ツイッター形式の「ハッシュタグ」（１単位の語の前に「＃」記号を付けて主題（サブジェクトマター）を識別する規約）、メッセージの空白境界への分割、他の推定される語境界でのメッセージの分割（例、一定の句読点の組合せは最初の操作によって除外しない）。各トークンには固有特定番号が割り当てられて、データベース２６１に格納されている辞書に登録される。

ステップ４３０で、トークンのセット内のトークン組（つまり、複数の連続トークン）および句（つまり、意味のまとまりで区切った文法単位）を組／句辞書の内容と比較して、一定の「高値」の新しい組および／または句に固有特定番号（例として、ＰＨＲＡＳＥ＿ＩＤ）を割り当てて、データベース２６１に格納されている組／句辞書に登録する。句はヒューリスティックな品詞タグ付けを適用した後、文脈自由文法を使用して特定し、トークンのストリーム内の高確率の名詞（および他の）句を検出する。文脈自由文法は、入力ストリームを構文解析するために隣接するトークンのセット間の局所的な関係のみを使用する構文還元ルールの単純なセットである。特定される名詞句および他の句をさらに組／句辞書の内容と比較して、一定の「高値」の新しい組および句を辞書に追加する。

トークン化の後、ステップ４４０で各トークンの正規化バージョンを形成する。スペリングを標準化する。一定の先頭または末尾の句読記号を除去する。意味的に似ているトークンをまず共通の最頻度同義語に還元してから、格、時制、態および複数語尾についてステミング（または合成）する。これらの機能を行うための多様なステマは当分野で周知である。いくつかの実施形態では、正規化ステップ４４０はヒューリスティックなステマを使用するが、他の実施形態では、正規化ステップ４４０はテーブルベースの確率論的ステマを使用する。さまざまなステミングプロセスに関する追加情報は、例えば、クロフト他著「検索エンジン実務面における情報検索」の９１〜９６ページ（アディソン・ウェズリー、２０１０年）に記載されており、参照によりこれに組み込む。

正規化トークンが形成されると、ステップ４５０でそれをデータベース２６１に維持されているトークン辞書の内容と比較し、新たなトークンがあればそれに固有特定番号（例として、ＮＯＲＭ＿ＴＯＫＥＮ＿ＩＤ）を割り当てて、辞書に登録する。
ステップ４６０で、大域的文書頻度の逆数（大域的ＩＤＦ）テーブルを更新する。ＩＤＦテーブルはメッセージのグループ内のトークンまたは組／句の希少度を特定する。例として、トークンのＩＤＦ値は、メッセージの総数をトークンが出現するメッセージ数で除した値の対数をとって判定する。したがって以下のようになる（以下の式［１］を参照）：
式［１］ＩＤＦ（トークンｉ）＝（ｌｏｇ（（メッセージ数）／（トークンｉのあるメッセージ数））
組または句のＩＤＦ値を同様に判定し、高値の組および句を特定するために使用する。好ましくは、ＩＤＦ値は各メッセージが受信されるたびに更新される。したがって、各メッセージが受信されるたびに、メッセージ数は増分される。またメッセージ内の各トークンｉについて、トークンｉのあるメッセージ数は増分される。メッセージ内のトークンのＩＤＦ値が計算されると、各値はデータベースに格納されて、対応する正規化トークンと関連付けられる。その名前が示唆するように、ＧＬＯＢＡＬＩＤＦテーブルはシステム２００が処理する全メッセージ内のトークンについての文書頻度の逆数を格納する。システムの代替例示的な実施形態では、ＩＤＦの作成に寄与するメッセージのサブセットを制限することを許してもよい。

その後の処理をやりやすくするために、トークン化ステップ４２０中に生成されるオリジナルトークンのそれぞれおよび正規化ステップ４４０中に生成される正規化トークンのそれぞれによって、各メッセージをトークン化プロセス中に逆引き索引付けする。逆引き索引は、各トークンについてそのトークンが出現するすべてのメッセージをリスト表示する用語索引であり、有利なことに、所定の時間間隔中にメッセージに出現する回数を示す。逆引き索引は、前記トークンを使用する所定の時間間隔のメッセージのリストと、その間隔中にメッセージに出現する前記トークンの回数のカウントとの両方にアクセスを提供するデータベースビューとともに、このトークン対メッセージの用語索引を表すテーブルとして格納されている。逆引き索引はデータベース２６１に格納されている。

テキストメッセージの分析において、メッセージで表現される意見および／または気持ちを評価できると便利であることが多い。これを「感情」と称し、ステップ４７０の感情の判定はメッセージの感情表現を特定する。例として、これは、感情値または感情価をテーブルの語のセットに割り当てるルックアップテーブルを使用して行う。またメッセージ内の正規化トークンをテーブルエントリと比較して、その感情値を判定する。例えば、肯定から否定の感情は＋１０から−１０の尺度で採点してもよい。「幸福感」などのトークンは＋１０に、「怒り」は−８と評価できるだろう。中立的なトークンはほぼ０の値となるだろう。感情値テーブルにないトークンは無視する。メッセージのレベル感情を計算するために、メッセージ内のトークンに関連付けられている感情値をテーブルから検索する。そしてメッセージ内のトークンの平均感情値を判定する。この平均値を、テキストメッセージに関連付けられているメタデータに加算する。他の例示的な実施形態では、感情クラスの確率測度を使用する（例、感情分類された訓練セットで訓練されるサポートベクターマシン）。

平均感情値の判定を図示するフローチャートを図５に示す。ステップ５１０で正規化トークンを受信する。ステップ５２０で、トークンを使用してトークン−感情価テーブルの感情値または感情価値を探す。次にステップ５３０でテーブルから検索した値を使用してメッセージの平均感情値を計算する。次にステップ５４０で計算した感情値を戻して、データベース２６１に格納する。

ステップ４８０はデータベースから各メッセージの文書特徴ベクトル（ＤＦＶ）をアセンブルする。ＤＦＶは以下の項目を含む：
メッセージ（またはメッセージセット）内の頻度、ＴＦにトークンのＩＤＦ値を掛けた値を含むメッセージ（またはメッセージセット）内の各独自のトークンの次元；
頻度およびＩＤＦ値を含むメッセージ（またはメッセージセット）内に出現するトークンの各正規化バージョンの次元；
一定の高ＩＤＦ名詞組／句の次元；
ホスティングプラットフォームから受信するメタデータの各ポイントの次元（例、作者、プラットフォーム、地理的タグ（ジオタグ）、言語、タイムスタンプ、追加の注釈タグなど）；
生メッセージに出現する参照ＵＲＬ；
肯定の感情値；および
否定の感情値。

メッセージのＤＦＶをアセンブルした後、クラスタリングステップ３２０は、別のメッセージのＭＳＧ＿ＩＤを提供することによって、その別のメッセージを処理する準備ができていることを知らされる。
クラスタリングステップ３２０は連続操作して、だんだんと長い期間にわたって受信する共通のトークンを有するメッセージをまとめる。このクラスタリングプロセスは異なる期間にわたって並列操作する。その操作を図６に模式的に示している。例として、１分の期間内に特徴セット生成器４８０から受信するすべてのメッセージをまずまとめる。このプロセスをその後の１分の時間間隔ごとに特徴セット生成器４８０から受信したメッセージに連続して繰り返す。参照しやすくするために、このクラスタリングは図６ではレベルＡクラスタリングとして示している。さらに、レベルＡクラスタリングと並列で、５回連続の１分の各期間からクラスタ化されたメッセージをまとめて５分クラスタにする。このクラスタリングは図６ではレベルＢクラスタリングとして示している。またレベルＡおよびレベルＢのクラスタリングと並列で、２回連続の５分の各クラスタからのクラスタ化されたメッセージもまとめて１０分クラスタ（レベルＣクラスタリング）にする。３回連続の１０分の各クラスタからのクラスタ化されたメッセージはまとめて３０分クラスタ（レベルＤクラスタリング）にする。２回連続の３０分の各クラスタからのクラスタ化されたメッセージをまとめて１時間クラスタ（レベルＥクラスタリング）にする。

このように、レベルＡクラスタリングはそれぞれ１分（または１時間の１／６０）の時間間隔で行い、レベルＢクラスタリングはそれぞれ５分（または１時間の１／１２）の時間間隔で行い、レベルＣクラスタリングはそれぞれ１０分（または１時間の１／６）の時間間隔で行い、レベルＤクラスタリングはそれぞれ３０分（または１／２時間）の時間間隔で行い、レベルＥクラスタリングは１時間の時間間隔で行う。レベルＢクラスタリングはテキストメッセージの最初の１分間隔のクラスタリングが完了するとすぐに始まり、クラスタ化されたメッセージがステップ７１０に提示される。レベルＣクラスタリングは１分間隔の最初の５分間隔のクラスタリングが完了するとすぐに始まり、クラスタ化されたメッセージがステップ７１０に提示され、以下同様である。

このプロセスはこれ以上長い期間中も同様に継続する。例として、４回連続の１時間のクラスタは４時間のクラスタにまとめられる。さらに連続４時間のクラスタを使用して、８時間、１２時間および／または２４時間のクラスタを形成する。連続２４時間のクラスタを使用して５日および／または７日のクラスタを形成する。連続１週間のクラスタを使用して１ヶ月のクラスタを形成する。連続１ヶ月のクラスタを使用して四半期、半年および１年のクラスタを形成する。ここでも、これらのクラスタリング操作はより高い頻度（レベルＡ〜レベルＥ）のクラスタリング操作と並列で行う。

クラスタリングプロセスにおける異なるレベルを通して、クラスタ生成器が行うステップは本質的に同じである。主な違いはクラスタリングを行う期間（またはバケット）である。
図７に図示するように、クラスタ生成器３２０は入力ステップ７１０でクラスタ化するべきメッセージを受信し、ステップ７１５でこれらのメッセージをこのレベルのクラスタリングに関連付けられている期間中蓄積する。ステップ７２０で、シードトークンを使用してソフトクラスタを形成する。シードトークンは大域的ＩＤＦテーブルの所定の範囲内にあるトークンもしくは現在の時間間隔でより頻繁に使用されているトークンのいずれか、またはその両方である。ソフトクラスタはシードトークンのそれぞれに、そのトークンを包含する期間（またはバケット）のメッセージのすべてを関連付けることによって形成される。あるトークンを包含するメッセージの選択は、メッセージの特定のためにテキストトークン化プロセス中に形成したメッセージトークンテーブルの逆引き索引を使用して行う。

本発明のこの実施形態においてトークンを選択するために使用する大域的ＩＤＦ値の範囲は、すくなくとも数千のトークンを網羅するよう十分に大きくするべきである。範囲の境界は、この段階のクラスタリングプロセスに使用されるトークンが、ある程度興味を持ちそうで平凡ではないメッセージを特定できるように、比較的特徴的になるように選択するべきである。同時に、使用されるトークンは、あまりに珍しくて監視されているメッセージ内での出現がめったに起こらないようなものにならないようにするべきである。

所定の時間間隔内で予想よりも頻繁に出現するトークンは、その時間間隔内のテキストメッセージのすべてのトークンの局所的ＩＤＦ（ＬＯＣＡＬＩＤＦ）テーブルを構成することによって特定する。したがって以下のようになる（以下の式［２］を参照）：
式［２］局所的ＩＤＦ（トークンｉ）＝ｌｏｇ（（時間間隔内のメッセージ数）／（トークンｉを持つメッセージ数））
予想よりも頻繁に出現するトークンは、局所的ＩＤＦ値に対するトークンの大域的ＩＤＦ値の比を形成し、閾値を超える大域的／局所的ＩＤＦ比を有するトークンをシードトークンのリストに含めることによって特定する。好ましくは、時間間隔内で異常成長を経験していないトークンを排除できるように、閾値は１．０をゆうに超える値に設定する。

各ソフトクラスタに固有特定番号（例として、ＭＳＧ＿ＳＥＴ＿ＩＤ）を割り当てて、キャッシュメモリ２６０に格納する。クラスタリング操作のこの段階では、複数のソフトクラスタにメッセージが出現してもよい。さらに、いくつかのメッセージは所定のＩＤＦ値の範囲内のＩＤＦ値または現在の時間間隔内でより頻繁に使用されるＩＤＦ値を有するトークンを包含しなかったため、おそらくソフトクラスタにはないだろう。

ステップ７３０で、メッセージのもっとも高い全体密度を表す各ソフトクラスタ内のメッセージのコアサブセットを選択して、ソフトクラスタから密度のもっとも高い中心領域に存在しないメッセージを除去することによって、ソフトクラスタの最良適合を作成する。これは各ソフトクラスタについて、そのソフトクラスタ内の各テキストメッセージの相対位置を記述する分布曲線を構成して行う。そして最大の密度集中を表すメッセージのサブセットをソフトクラスタのコアとして選択する。コアサブセット内のメッセージのＤＦＶの加重平均である新たな文書特徴ベクトル（ＤＦＶ）を作成する。

好適な実施形態では、ソフトクラスタの密度は、各構成要素のメッセージに、前記メッセージとソフトクラスタ内の他のメッセージとの間のペアワイズ平均コサイン類似度を関連付けることによって表す。２つのベクトルＶ１およびＶ２のコサイン類似度は、以下のように求められる（以下の式［３］を参照）：
式［３］コサイン類似度＝（Ｖ１・Ｖ２）／（‖Ｖ１‖‖Ｖ２‖）、ここで、ノルムは単純なユークリッドノルムを表す。

コサイン類似度は、各ベクトルで同じであるトークンのＩＤＦ値の二乗を合計し、同じであるメタデータの次元の加重値を加算し、その結果をＶ１およびＶ２のノルムの積で正規化して計算する。このため、密度が最大の領域は、このペアワイズ平均コサイン類似度がもっとも高いソフトクラスタのサブセットを選んで選択してもよい。
ステップ７４０で、複数のクラスタに存在する各メッセージを「もっとも近い」ＤＦＶを有する１つのクラスタに割り当てることによって、残りのソフトクラスタの重複を排除する。近さは、メッセージに関連付けられているＤＦＶとそれが存在するソフトクラスタに関連付けられているＤＦＶとのコサイン類似度を計算して判定する。いくつかの実施形態では、近さは、メッセージに関連付けられているＤＦＶとクラスタ内のメッセージに関連付けられている各ＤＦＶとの平均コサイン類似度を計算して判定する。それからコサイン類似度（または平均コサイン類似度）がもっとも高かったクラスタにメッセージを割り当てる。その結果、このステップは、メッセージをそのもっとも類似しているクラスタに割り当て、そのクラスタだけに割り当てる。

ステップ７５０で、残りのクラスタおよびソフトクラスタリングステップ７２０でクラスタ化されなかったメッセージは、選択されたＩＤＦ値の範囲内のＩＤＦ値を有するトークンを包含しなかったため、これらに凝集型クラスタリングを行う。そのＤＦＶのコサイン類似度として計算された２つのクラスタ間の距離が閾値距離未満の場合、および得られるクラスタの分布が疎性閾値未満の場合には、２つのクラスタを併合する。個々のメッセージはもっとも近い中心を持つクラスタ（つまり、前記メッセージがもっとも高い平均コサイン類似度を持つクラスタ）に併合される。この結果は高い平均コサイン類似度を持つメッセージのセットである。このメッセージのセットに固有特定番号ＭＳＧ＿ＳＥＴ＿ＩＤを割り当てて、キャッシュメモリ２５０に格納する。

ステップ７６０で、メッセージセットに関連付けられている高ＩＤＦトークンおよび句について、近傍感情値(sentiment values)を計算する。このプロセスの詳細は図８に示している。ステップ８１０で、クラスタ生成器のステップ７５０から正規化されたＩＤＦタグ付きメッセージセットを受信する。ステップ８２０で、各トークンおよび句の近傍で感情価語(valence words)を特定し、その語の値を確認する。ステップ８３０で、近傍の感情値の加重平均を判定する。ステップ８４０で、加重平均を戻す。このプロセスの結果、リスト内の各語句の関連近傍感情値に加えて、メッセージセット内でもっとも記述的な語句を示す高ＩＤＦ値を有する語句のリストが生成される。

ステップ７７０で、頻度（ＴＦ＝メッセージ内の「単語頻度」）とＩＤＦ値との積がもっとも大きい語句を、生成されるタクソノミーの候補としてナレッジベースに提示する。ＴＦ×ＩＤＦ値がそれより低い語句は、この新たな候補トピックの候補プロパティとしてナレッジベースに提示される。
ステップ７８０で、ステップ７５０で生成されてＭＳＧ＿ＳＥＴ＿ＩＤで特定されるクラスタをデータベース２６１のメッセージセットテーブルＭＳＧ＿ＳＥＴ＿ＴＢＬに格納する。メッセージセットはメッセージセット内のテキストメッセージのトークン、メッセージセット内のテキストメッセージに関連付けられている名詞および名詞句、各テキストメッセージのソースの識別子、およびテキストメッセージを伴う他のメタデータを含む。分類器にメッセージセット用のＭＳＧ＿ＳＥＴ＿ＩＤを提供することによって、分類器にメッセージセットが利用できることが知らされる。

ステップ７９０で、ステップ７５０で生成されたクラスタは、次のクラスタリングレベルのクラスタ生成器への入力にも提供される。例えば、ステップ７５０の出力が１分の時間間隔（レベルＡ）で生成されたクラスタである場合、そのクラスタは、５回連続の１分の出力を蓄積してクラスタ化するレベルＢのクラスタ生成器の入力に提供される。
レベルＢおよび他のすべてのレベルのクラスタリングプロセスは、レベルＡのクラスタリングプロセスと同じステップに従う。ステップ７１５でクラスタ生成器３２０はクラスタリングのそのレベルに関連付けられている期間（またはバケット）中メッセージセットを蓄積する。そのため、レベルＢでは、クラスタ生成器は５分間隔でメッセージセットを蓄積する。ステップ７２０で、ＩＤＦテーブルの所定の範囲内の値であるトークンもしくは５分の時間間隔内に通常よりも高い頻度で使用されているトークン、またはその両方のトークンをシードトークンとして選択してから、シードトークンのそれぞれに、そのトークンを包含する５分の期間（またはバケット）のメッセージのすべてを関連付けることによって、ソフトクラスタを形成する。ここでも、局所的ＩＤＦ値に対する大域的ＩＤＦ値の比を閾値と比較して、高い頻度で使用されるトークンを判定するが、局所的ＩＤＦ値は新たな５分間隔内のメッセージのすべてを使用して計算する。好ましくは、トークンＩＤＦ値の所定の範囲は、処理の各レベルで同じである。しかし、いくつかの実施形態では、時間間隔の規模が大きくなるにつれて範囲を変化させることが望ましくてもよい。

ここでも、あるトークンを包含するメッセージの選択は、テキストトークン化プロセス中に形成されたメッセージトークンの逆引き索引を使用して行う。ここでも、複数のソフトクラスタにメッセージが出現してもよい。また、いくつかのメッセージはどのソフトクラスタにもないだろう。次に、より長い時間間隔に基づいて新しいメッセージセットを生成するようにクラスタリングプロセスの残りのステップを行う。新しいメッセージセットに固有特定番号ＭＳＧ＿ＳＥＴ＿ＩＤを与えて、この新しいメッセージセットも、メッセージセットテーブルＭＳＧ＿ＳＥＴ＿ＴＢＬに格納する。

そしてだんだんと継続時間を延ばした時間間隔でプロセスを繰り返す。
分類器はクラスタ生成器から受信した入りメッセージセットを、さまざまなテキストメッセージが関係するトピックを判定するように分類ルールのセットをそれに適用して分類する。ルールは本質的に次のフォーマットである。「Ａがメッセージセット内で見つかれば、メッセージセットはＺ％の尤度（または関連性）でトピックＢに関係する」。

まずナレッジベース２６２に格納されているオントロジーおよびタクソノミーからのルールの作成を説明する。
ナレッジベース２６２はサブジェクトに関する体系的な知識の集合体である。この集合体は、クラスおよびクラス同士を互いに関係付けるクロスリンクテーブルに関するデータの「クラス」および「インスタンス」の形態で体系付けられている。この体系はオントロジーの構造であるため、ナレッジベース２６２はオントロジーとも呼ばれる。ナレッジベースは、クロスリンクとして表されるノード間の関係のセットを持つナレッジベースのノードとして各トピックグループを表す情報トピック（またはトピックグループの集合体と考えてもよい。ナレッジノードに関する特定の情報（例、会社名）はトピックグループ・プロパティバッグに格納される。クロスリンクに関する特定の情報（例、２つのノード間の親子関係）はクロスリンク・プロパティバッグに格納される。

ナレッジベースの操作を制御するために多様なソフトウェアが利用できる。例として、ナレッジベース２６２はウェブオントロジー言語（ＯＷＬ）、特にＯＷＬ２として知られるバージョン２を使用している。ＯＷＬ２に関する詳細情報はwww.w3.org/TR/2009/REC-owl2-primer-20091027で入手できるＯＷＬ２ウェブオントロジー言語入門に記載されており、参照によりここに組み込む。

タクソノミーとはナレッジベースまたはオントロジーの２以上のノード間の階層関係の仕様である。タクソノミーは例として本システムではオントロジーから知識のノードに非循環有向グラフとして表されている。関係はリンクに沿っているため、タクソノミーはオントロジーのファセットを記述するものと考えてもよい。エンドユーザはこれらの階層関係をナビゲートすることによってナレッジベースを視覚化できる。タクソノミーも、エンドユーザがシステム２００で処理するための特定の検索またはアラート基準を作成するときにありうる選択肢の範囲をすばやく減らすために選択してもよい情報のファセットの視覚化を可能にする。

タクソノミーとオントロジーとの関係を図１７Ａおよび図１７Ｂに図示している。有価証券およびその発行者に関するタクソノミー１８１０およびオントロジー１８４０の小部分を示している。タクソノミー１８１０の図示される部分は次の６つのノードを有する。アメリカン・インダストリアル・グループ・インク（ＡｍｅｒｉｃａｎＩｎｄｕｓｔｒｉａｌＧｒｏｕｐＩｎｃ．）１８２０、ファラオニック・インシュランス・カンパニーＳＡＥ（ＰｈａｒａｏｎｉｃＩｎｓｕｒａｎｃｅＣｏ．ＳＡＥ）１８２２、ＡＩＧライフ・ホールディングスＵＳインク（ＡＩＧＬｉｆｅｈｏｌｄｉｎｇｓＵＳ．Ｉｎｃ．）１８２４、ＡＧＣライフ・インシュランス・カンパニー（ＡＧＣＬｉｆｅＩｎｓｕｒａｎｃｅＣｏ．）１８２６、アメリカン・ジェネラル・キャピタルＬＬＣ（ＡｍｅｒｉｃａｎＧｅｎｅｒａｌＣａｐｉｔａｌＬＬＣ）１８２８、ＡＧＣライフ・インシュランス・カンパニー（ＡＧＣＬｉｆｅＩｎｓｕｒａｎｃｅＣｏ．）１８３０。

タクソノミーはノード間の階層関係、とくに子会社と親会社との関係を規定する。この関係はさまざまなノード間のリンク１８３２で描かれている。たとえば、ノード１８２４とノード１８２０との間のリンク１８３２は、ＡＩＧライフ・ホールディングスＵＳインク１８２４がアメリカン・インターナショナル・グループ・インク１８２０の子会社であることを示している。

オントロジー１８４０の図示する部分は次の４つの主なトピックグループを有する。会社トピックグループ（ＣｏｍｐａｎｙＴｏｐｉｃＧｒｏｕｐｓ）１８５０、銘柄トピックグループ（ＴｉｃｋｅｒＴｏｐｉｃＧｒｏｕｐｓ）１８６０、地理トピックグループ（ＧｅｏｇｒａｐｈｙＴｏｐｉｃＧｒｏｕｐｓ）１８７０、人物トピックグループ（ＰｅｏｐｌｅＴｏｐｉｃＧｒｏｕｐｓ）１８８０。会社トピックグループ１８５０の中にアメリカン・インダストリアル・グループ・インクのトピックグループ１８５２およびＡＩＧライフ・ホールディングスＵＳインクのトピックグループ１８５４がある。銘柄トピックグループ１８６０の中にＡＩＧ米国株式（ＡＩＧＵＳＥｑｕｉｔｙ）のトピックグループ１８６２がある。地理トピックグループ１８７０の中に米国のトピックグループ１８７２、ニューヨークのトピックグループ１８７４およびテキサスのトピックグループ１８７６がある。トピックグループ１８８０の中にニコラス・Ｒ・ラスムソン（ＮｉｃｈｏｌａｓＲ．Ｒａｓｍｕｓｓａｎ）氏のトピックグループ１８８２およびジョン・Ａ・グラフ（ＪｏｈｎＡＧｒａｆ）氏のトピックグループ１８８４がある。

グループのほとんどにさまざまなプロパティが関連付けられており、グループ間にさまざまなクロスリンクがある。図１７Ａおよび図１７Ｂに図示するさまざまなグループに関連付けられているプロパティは括弧で囲まれており、図１７Ａおよび図１７Ｂでは関連付けられているグループに連結されている。例えば、会社トピックグループに関連付けられているプロパティは子会社の名称、会社の場所およびその所在州および設立州を特定する。銘柄トピックグループに関連付けられているプロパティは会社の株式銘柄および代替銘柄を特定する。人物トピックグループに関連付けられているプロパティは、他の特徴のなかでもとくに、非排他的に、役割、職業、専門分野およびさまざまな発信プラットフォームでのアカウント名など、その肩書きを特定する。

トピックグループ１８５４は会社間クロスリンク１８５６でトピックグループ１８５２にリンクされている。トピックグループ１８７６は地理間クロスリンク１８７７でトピックグループ１８７２にリンクされている。銘柄トピックグループ１８６０は銘柄対会社クロスリンク１８６４で会社トピックグループ１８５０にリンクされている。地理トピックグループ１８７４は会社対地理クロスリンク１８７８で会社トピックグループ１８５２にリンクされている。地理トピックグループ１８７６は会社対地理クロスリンク１８７９で会社トピックグループ１８５４にリンクされている。そして、人物トピックグループ１８８２は人物対会社クロスリンク１８８６で会社トピックグループ１８５４にリンクされている。さらに、図１７Ａおよび図１７Ｂには完全には図示していないが、ある会社、地理、銘柄および人物に関連付けられているトピックグループと、他の会社、地理、銘柄および人物に関連付けられているトピックグループとの間にもクロスリンクがある。

タクソノミーは、タクソノミーにおける最終的な親会社であるアメリカン・インターナショナル・グループ・インク１８２０と、オントロジーにおけるアメリカン・インターナショナル・グループ・インク・トピックグループ１８５２との間の第１リンク１８９０、およびタクソノミーにおける第１子会社であるＡＩＧライフ・ホールディングスＵＳインク１８２４とオントロジーにおけるＡＩＧライフ・ホールディングスＵＳインク・トピックグループ１８５４との間の第２リンク１８９２でオントロジーに関係付けられる。図１１に関連して以下説明するように、タクソノミーとオントロジーとの関係を、本システムでは分類ルールの生成時に使用する。タクソノミーはさまざまなインターフェースアプリケーションおよびＡＰＩを通してエンドユーザに露出して、ユーザにナレッジベースおよび分類器が使用するトピックの語彙でアラートおよび検索要求を指定させるようにする。

図９および図１０の装置を使用して情報をナレッジベースにロードする。この装置はＯＷＬ２オントロジーローダ１０１０と、生データオントロジーローダ１０２０と、オントロジー／タクソノミーストア１０４０と、オントロジー／タクソノミーリレーショナルデータベース管理システム（ＲＤＢＭＳ）１０５０と、高度推論分類器ルール抽出器１０７０と、分類器ルール抽出器１０８０とを備える。ローダ１０１０，１０２０は政府機関、民間のビジネス情報プロバイダおよび同様な他の機関などのさまざまな情報源からデータを取得するためのゲートウェイとして機能する一連のロードアプリケーション１０１２Ａ〜Ｎおよび１０２２Ａ〜Ｎを備える。ロードアプリケーションはソースのインターフェース仕様に適合し、プロバイダが利用可能にしている情報の編成を理解する。次に、ゲートウェイで受信した情報をプロセッサ１０１５および１０２５Ａ〜Ｎで正規化した形態に編成し、ナレッジベースに組み入れることができるようにする。

ユーザが提出したオントロジーおよびタクソノミー情報は、ＯＷＬ２オントロジーローダ１０１０への入力として提供される。多様なソースが、入力を生データオントロジーローダ１０２０に提供する。例として、金融情報処理専用のコンピュータシステムの場合、これらのソースには、フーバーズ（Ｈｏｏｖｅｒ’ｓ）、トムソン・ロイター（Ｔｈｏｍｓｏｎ−Ｒｅｕｔｅｒｓ）、ブルームバーグ（Ｂｒｏｏｍｂｅｒｇ）、レクシスネクシス（ＬｅｘｉｓＮｅｘｉｓ）、ダンアンドブラッドストリート（Ｄｕｎｎ＆Ｂｒａｄｓｔｒｅｅｔ）、Ｓ＆Ｐなどが含まれるであろう。ソースには、ＥＤＧＡＲシステムから入手できる四半期報告書および年次報告書などの政府規制の結果提供される情報、または商務省から入手できる一般ビジネス情報も含まれるであろう。

ローダの一般的な操作は、到着するデータセットを処理して、現在システム内にあるデータへの影響を判定し、データがまだそのようなフォーマットに編成されていない場合はデータを追加（ＡＤＤ）／削除（ＤＥＬＥＴＥ）／変更（ＣＨＡＮＧＥ）操作に変換することである。（変更操作は、削除後に行う追加である）。入りデータセットは当該フォーマットに頻繁に編成されるが、すべてのデータセットがそのように編成されるわけではない。そして更新を正規化する必要がでてくる。この更新ストリームの正規化により、ロードテーブル（例として、ＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬ）への一連の制御操作を連続的に適用することが可能となる。ある日から翌日までに変化したものを判定するためには、前日のナレッジベースのスナップショットを当日のスナップショットと比較しなければならない。こうする必要があるのは、システムはナレッジベースに変化のみを適用し、再分類の影響を最小限にしておくためにはどのベンダの変化も把握する必要があるためである。

好ましくは、各ローダプロセスはフィールド関連テーブルとして１つのＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルにデータを提示し、テーブルの各行はデータプロバイダの記録におけるデータの列である。これらのフィールドはＩＤ、タイプ、範囲／列挙および明細を有しているので、プロバイダの記録の各フィールドは将来の使用中ずっと監査可能である。システム全体のデータの監査能力により、データプロバイダの入力に調整が必要なときには補正を行うことができる。

ローダ１０１０および１０２０の詳細を図９に示している。ローダは入力９０５，９１０と、同じ構造を有する２つのロードテーブルＬＤ＿ＬＯＡＤ＿ＩＮＧＥＳＴ＿ＴＢＬおよびＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬとを備える。入力９０５は生データの週間送信などのベンダのアプリケーションプログラムインターフェース（ＡＰＩ）をサポートする。入力９１０はＦＴＰ取得生データ日次ファイルなどのベンダのフラットファイルフォーマットをサポートする。本発明の実施において他の入力も使用してもよい。例として毎日行うローディング操作の始めでは、ＬＤ＿ＬＯＡＤ＿ＩＮＧＥＳＴ＿ＴＢＬテーブルは空で、ＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルはナレッジベースの内容を表すフラットファイルを包含している。

データをＬＤ＿ＬＯＡＤ＿ＩＮＧＥＳＴ＿ＴＢＬテーブルにロードする前に、監査証跡（オーディット・トレイル）を作成する。ＬＯＡＤ＿ＩＤを作成する。データを供給するデータベンダの名称およびタイムスタンプは監査テーブルのＬＯＡＤ＿ＩＤに関連付けられる。そして監査テーブルを格納する。次にベンダからのデータを構文解析して既知の全データフィールドを突き止め、この情報をＬＤ＿ＬＯＡＤ＿ＩＮＧＥＳＴ＿ＴＢＬテーブル９１５にロードする。次にステップ９２０でベンダのデータの当日の画像を作成する。ステップ９２５でこの画像をＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルにあるものと比較する。違いがなければ、ステップ９３０でＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルを変更しないまま残し、このデータに関するローディング操作は終了する。

違いがあれば、ステップ９４０で、明示的な変更があるかどうかのテストを行う。前述したように、変更は、削除後に行われる追加から成る。変更があれば、ステップ９４５でフィールドごとの変更記録を作成し、ステップ９５０で明示的な削除記録を作成し、ステップ９５５でＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルに新たな変更記録を作成する。明示的な変更がなければ、ステップ９６０で、暗黙的な変更があるかどうかのテストも行う。暗黙的な変更とは、前日のデータからデータが除去されているが、その除去について通知されていないものである。あれば、ステップ９８０でＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルに明示的な変更記録を作成する。

変更があれば、ステップ９６５で、明示的な削除があるかどうかのテストを行う。明示的な削除がなければ、ステップ９７０で追加があるかどうかのテストを行う。あれば、ステップ９７５でＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルに新たな追加記録を作成する。最後に、明示的な削除があれば、ステップ９８０でＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルに明示的な削除記録を作成する。

ステップ９９０で、ＬＤ＿ＬＯＡＤ＿ＩＮＰＵＴ＿ＴＢＬテーブルで未処理の記録をナレッジベースに結合する。図１０に図示するように、ナレッジベースはオントロジー／タクソノミーＪｅｎａ２オブジェクトストア１０４０またはオントロジー／タクソノミーＲＤＢＭＳ１０５０のいずれかに格納されている。
高度推論分類器ルール抽出器１０７０およびルール抽出器１０８０は、タクソノミーが規定するルートに従ってオントロジーのノードを進むことによってオントロジーからルールを作成する。タクソノミーを通るノードごとに作業して、オントロジーの対応するノードにアクセスし、ノード近傍のやや小さいリンクにそのノードに関連付けられているすべてのプロパティをルールに入れることによってルールを作成する。プロセスが完了すると、ルールをそのキーワード（本質的に、すべて名詞）で索引付けして、ナレッジベースルールキーワード索引（ＫＢＲＫＩ）を作成し、索引およびルールを分類器ルールデータベース２６２に格納する。

分類器ルールは、以下の実施例で示されるようにセクションにグループ分けされるルールラインアイテムのルールセットと考えられる。分類器ルールは、ナレッジベースルール生成器の構成で特定される特定タクソノミーの各特定ノードをトラバースすることによって生成される。各ナレッジベースのタクソノミーノードはオントロジーのトピックにリンクされており、トピックは他のオントロジーノードにリンクされているため、そのトピックのプロパティおよびクロスリンクで特定される１の距離を持つすべてのオントロジーノードを調べることによって、ルールを所定のトピックのプロパティから抽出してもよい。各近くのオントロジーノードのプロパティは、各セクションのスコアがメッセージのクラスタ化したセットの分類に割り当てられる総合スコアに貢献するようにセクションに一括されるルールラインアイテムになる。好適な実施形態ではルールのどのセクションのＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴも調整可能であり、所定のトピックのルールに含むために選択される各セクションに割り当てられなければならない。そのため、ルールが生成されるときには、以下のようになる。

・そのタクソノミーの文脈でルールが生成される。
・分類ルールの構成セクションは同じかまたは異なるタクソノミーにリンクされているトピックから取り出していることが分かっており、ＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴと呼ばれるシステム構成重みを有するファセットインターセクションを形成し、これはそのままＡＣＣＲＵＥ（）演算子で表されるルールのセクションに追加される。

・トピックが、ルール生成器が実行されている複数のタクソノミーに関連付けられている場合、既存のルールに結合される。ただし、そのインターセクションのＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴはすでにルールに追加されている以前の重みとは異なっていてもよいため、そのトピックプロパティは追加されるセクション／ルールラインアイテムの重みが異なることを除いてルールセットで重複することになる。

図１１にルール生成プロセスをより詳細に示す。図１１ではナレッジベースはエレメント１１１０で表されている。ルールを作成するために、タクソノミーに従ってトラバースされる。ステップ１１２０でルール生成プロセスが始まる。このプロセスでは、Ｗ１またはＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴとＷ２またはＩＮＤＥＰＥＮＤＥＮＴ＿ＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴとの２つの重みを使用する。ステップ１１２５で、ルールのセクションのＷ１をテーブル（例として、ＨＢ＿ＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＴＢＬテーブル）から検索する。次にステップ１１３０で、Ｗ１がルールのすべてのセクションについて検索されたかどうかのテストを行う。されていなければ、プロセスはステップ１１２５に戻り、ルールの次のセクションのＷ１を検索する。ルールのすべてのセクションＳについてＷ１を検索したら、次にプロセスは各セクションｉのＷ２を計算する（以下の式［４］を参照）：
式［４］Ｗ２ｉ＝（Ｗ１ｉ／（ＳＵＭ（ＳのすべてのｊのＷ１ｊ）））＊（１−ＭＡＸ（ＳのすべてのｋのＷ１ｋ））
ルールが真である関連性または尤度は、どのセクションの条件が満たされているかに依存し、さらに以下の公式を使用して計算する（以下の式［５］を参照）：
式［５］関連性％＝ＭＡＸ（スコアｉ×ＳのすべてのｉのＷ１ｉ）＋ＳＵＭ（スコアｊ×ＳのすべてのｊのＷ２ｊ））
したがって、ＩＮＤＥＰＥＮＤＥＮＴ＿ＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴは、各セクションが他のセクションが与えるサポートとは独立したルール全体のサポートに貢献する可能性のある部分を表し、ＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴは１以上のセクションが非累積的に貢献する可能性のあるルールのサポートの部分を表す。

ステップ１１４５で、タクソノミーが完了しているかどうかのテストを行う。完了していなければ、ステップ１１５０でプロセスはタクソノミーにリンクされているオントロジーの次のノードに移動し、ステップ１１２０に戻って次のルールを作成する。
タクソノミーが完全にトラバースされていれば、ステップ１１６０で分類器の演算用キャッシュがロードされる。ナレッジベースルールキーワード索引（ＫＢＲＫＩ）が生成されて、ステップ１１６５でナレッジベース２６２に格納される。その名前が示唆するように、ＫＢＲＫＩは生成されるすべてのルールに適用されるキーワード索引である。例として、キーワードはルールで使用されるすべての名詞および名詞句である。さらにＫＢＲＫＩは各名詞が所定のルールで出現する回数のカウント、および全体としてルールセットに出現する回数も包含する。ステップ１１７０で分類器ルールベースが生成されて、分類器ルールデータベース２６３に格納される。ステップ１１７５で、編集可能な分類器ルールベースが生成されて格納される。ステップ１１８０で、このルールベースを適切なデータアナリストツールを使用して手動で編集してもよい。

分類ルールの以下の実施例は、重みが例示的であるルール生成プロセスを示す。
ＡＩＧ（会社）の会社トピックノードを、ＣＯＭＰＡＮＹ−ＣＯＭＰＡＮＹタクソノミーファセットをトラバースして取得する。会社トピックノードのすべてのプロパティをデータベースから問い合わせて、会社名、会社の別名および会社の概要などの代替アイテムについてルールセクションを作成する。このセクションは７０のＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴを持つことから、ＩＮＤＥＰＥＮＤＥＮＴ＿ＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴは２１となる。

ＡＩＧ（会社）トピックノードからの距離が１であるため、ＮＹおよびＤＣそれぞれの地理トピックノードを取得し、ＣＯＭＰＡＮＹ−ＧＥＯＧＲＡＰＨＹタクソノミーファセットのメンバーとして特定する。これらは同じタイプで、会社に関連するため、１つにまとめる。
同様に、ＡＩＧ（会社）のプロパティの親会社トピックノードを取得して、ＣＯＭＰＡＮＹ−ＣＯＭＰＡＮＹタクソノミーファセットのメンバーとして特定する。これを使用して、ルールの抽出アルゴリズムを子会社ノードの場合と同じように親会社に適用する。

ＡＩＧ（会社）からの距離が１であるため、ＡＩＧ（ＡＩＧ米国株式）の銘柄トピックノードを取得して、ＴＩＣＫＥＲ−ＣＯＭＰＡＮＹタクソノミーファセットのメンバーとして特定し、これは２０のＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴを持つことから、ＩＮＤＥＰＥＮＤＥＮＴ＿ＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴは６となる。
ＡＩＧ（会社）からの距離が１の人物トピックノードを次に取得して、ＰＥＯＰＬＥ−ＣＯＭＰＡＮＹタクソノミーファセットのメンバーとして特定されるため、１つにまとめる。これらは１０のＦＡＣＥＴ＿ＩＮＴＥＲＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴを持つことから、ＩＮＤＥＰＥＮＤＥＮＴ＿ＳＥＣＴＩＯＮ＿ＷＥＩＧＨＴは３となる。

分類ルールは具体的には図１９〜図２３に掲載するとおりである（注：重みは例示にすぎない）：
図１２に図示するように、分類器３３０は以下の操作を行う。ステップ１２１０でクラスタ生成器から入りメッセージセットを受信して、ステップ１２２０で各メッセージセットに適用するべき分類ルールのセットを選択し、ステップ１２３０で各メッセージセットを分類する。ステップ１２３０は典型的には、大量の分類スレッド１２４０ａ〜ｎにわたって並列で行う。ステップ１２５０ｉで、各スレッド１２４０ｉにおいて、適用するべき１または複数の分類ルールを判定する。ステップ１２６０ｉでルールの適用を開始する。ステップ１２７０ｉで、その特定の１または複数のルールについて、メッセージセットが特定のトピックに関係する確率（または関連性）を求める。ステップ１２８０で、スレッド１２４０ｉの分類ルールの結果が他のスレッドで計算された結果と組合せる準備ができているかどうかのテストを行う。準備ができていれば、さまざまな分類スレッドの結果を関連性の降順でランク付けする。ステップ１２９０でメッセージセットのランク付けをアラータステップ３４０に発行する。準備ができていなければ、ステップ１２９５でメッセージセットの分類を絞り込むかまたは拒否する。

前述したように、ステップ１２１０で受信したメッセージセットは、メッセージセット内で特定されて、高いＩＤＦ値を有する名詞および名詞句を包含するメッセージセットおよびメタデータ内のテキストメッセージのトークンを含む。ステップ１２５０ｉで、メッセージセットの分類で使用することになる特定の分類ルールを、メッセージセットの各トークンを使用して、そのトークンを参照する１または複数のルールの識別子をＫＢＲＫＩから検索することによって選択する。ステップ１２５０ｉでそのように特定された１または複数のルールを次にステップ１２６０ｉで適用開始して、ステップ１２７０ｉでメッセージセットがさまざまな特定のトピックに関係する関連性を判定する。メッセージセットのすべての名詞がルールを持つわけではないが、その名詞は関連分類になることがなかったため、そのことは、実施されるシステムにとって重要ではないことに留意されたい。

図１３Ａおよび図１３Ｂは、本発明の実施において採用されるユーザインターフェースの例示的な実施形態を図示するブロック図である。
ユーザインターフェースは、グラフィカルユーザインターフェース（ＧＵＩ）１３１０と、アプリケーションサーバ１３２０と、ブラウザグラフィカルユーザインターフェース（ＧＵＩ）１３４０と、ＡＰＩインターフェース１３５０と、データベース１３８０と、ハブアプリケーションサーバ１３７０とを備える。

グラフィカルユーザインターフェース１３１０は、Ｊａｖａ（登録商標）ＡＰＩインターフェース１３１２と、リッチクライアントプラットフォーム１３１４とを備える。アプリケーションサーバ１３２０はアプリケーションサーバコア１３２２と、メモリデータベース１３２４と、リレーショナルデータベース１３８０へのＳｔｏｍｐ接続インターフェース１３２６とを備える。

ブラウザＧＵＩ１３４０は、さまざまな通信プロトコルを使用する複数のユーザにＧＵＩ１３１０へのブラウザアクセスを提供する。ＡＰＩインターフェース１３５０はＪａｖａ（登録商標）ＡＰＩインターフェース１３５２と、Ｃ／Ｃ＋＋ＡＰＩインターフェース１３５４とを備える。
スポークデータベース１３８０は、名前と値のペアデータアラートデータマップ１３８２と、ＭｙＳＱＬデータベース１３８６と、ＭｙＳＱＬデータベース１３８６で実行するＳｔｏｍｐユーザ定義機能１３８４とを備える。アラートデータマップ１３８２は、任意のソーシャルメディアデータをエンドユーザに提供できるようにする。到着するデータはＭｙＳＱＬデータベースに置かれて、そこからデータベースで実行するユーザ定義機能に供給できる。

ハブアプリケーションサーバ１３７０はアプリケーションサーバコア１３７２と、データベース１３７４と、アラータ１３７６とを備える。
アラートおよび検索基準のフォーマットは同じである。各要求は、関心のあるトピックグループのブール組合せ、トピックグループの関連性クラス、間隔持続時間、要求される期間、ボリュームおよび感情閾値、およびベースラインタイプを含む。基準はフリーテキストも含んでもよい。これらの要求を作成するための例示的なＧＵＩの画面を図１５Ｄから図１５Ｌに図示する。

関心のあるトピックグループは、利用できるトピックのブール組合せとして示される検索またはアラートサブジェクトの明細である。このブール組合せは論理和標準形（ＤＮＦ）でアラート要求プロセッサ１４７２（図１４Ａおよび図１４Ｂ）によって受信される。つまり、ブール式は論理積節の論理和として記載される。ＤＮＦでは、ブール演算子はＡＮＤ，ＯＲおよびＮＯＴに制限される。利用できるトピックは、図９、図１０ならびに図１７Ａおよび図１７Ｂに関連して上記説明したシステムのナレッジベース（またはオントロジー）に格納されているものである。

トピックグループの関連性クラスは、メッセージセットについて、規定されたトピックグループ要求に対する応答を提供する最低受入れ可能な関連性クラスを規定する。前述したように、関連性クラスとは、関心のあるトピックグループによって規定されるトピックが、メッセージセットを備えるテキストメッセージで議論される確率の範囲である。例として、以下の４つのクラスを規定してもよい：
Ｖ（超高のトピックグループ関連性（確率９５〜１００％））；
Ｈ（高（９０〜９５％））；
Ｍ（中（８０〜９０％））；および
Ｌ（低（６０〜８０％））。

間隔持続時間は、トピックグループ要求に対する応答を提供するメッセージセットについて、メッセージをクラスタ化した期間（または細分性）を規定する。前述したシステムの場合、この期間は例として１分から１年の範囲である。
要求される期間は、トピックグループ要求に応答してメッセージセットを調べる期間を規定する。この期間はトピックグループ要求が検索であるかまたはアラートであるかを判定する。現在までの期間の場合はいずれも、要求は検索である。現在または将来の要求はアラートである。

ボリューム閾値は、要求の対象であるトピックグループに関する予想／ベースライン活動レベルからの偏差を規定する。同様に、感情閾値は、トピックグループ要求に対する応答を提供することになるメッセージセットの予想／ベースライン感情レベルからの偏差を規定する。ベースラインタイプはこれらの閾値の参照ベースラインをどのように計算するかを規定する。例えば、単純移動平均でもよい。例として、予想ベースラインからの偏差は以下の式で求められる：
式［６］偏差＝（（Ａ２−Ｅ２）−（Ａ１−Ｅ１））／ｔ
上記式において、
Ａ２は現在の時間間隔における活動量（または感情値）；
Ａ１は直前の時間間隔における活動量（または感情値）；
Ｅ２は現在の時間間隔における予想活動量（または感情値）；
Ｅ１は直前の時間間隔における予想活動量（または感情値）；および
ｔは分単位の時間間隔。

例として、予想値とは、測定された最後の時点からの移動平均の予測である。例として、ボリュームの場合、１０〜−１０の範囲の偏差をトピックに関する関心の会話レベルと考え、＋１０〜＋２５の範囲の偏差を関心が高まっているレベルと考え、＋２５超の偏差を関心のバイラルレベルと考える。−１０〜−２５の範囲の偏差は薄れていると考える。−２５未満の偏差は弱いと考える。

フリーテキストアラート要求はハブアプリケーションサーバ１４７０（図１４Ａおよび図１４Ｂ）で受信して、図９、図１０ならびに図１７Ａおよび図１７Ｂに関連して上記説明したオントロジー１８４０（図１７Ａおよび図１７Ｂ）への将来のトピックグループの追加として、ハブデータベース２６０に管理要求として格納する。
トピックグループ要求に対する応答は、応答がなされた要求にリンクさせるアラートＩＤと、応答が属する間隔持続時間と、トピックグループ要求に対する応答を構成するメッセージセットのボリューム値および感情値と、ボリュームベースラインおよび感情ベースラインと、トピックグループ要求に反応的なメッセージセットに関連付けられている他のトピックグループＩＤのリストと、これらのメッセージセットからのサンプルメッセージとを含む。ボリュームの大きさのため、トピックグループ要求に応答して完全なメッセージセットそのものが供給されずに、望まれるなら検査用に利用できるようにする。他のトピックグループＩＤのリストはトピックグループの関連性別に最高値から最低値までランク付けする。またリストはある時点、例として６０％で打ち切る。アラート要求に対する例示的な電子メールの応答を図１５Ｍに示し、以下に説明する。

ユーザインターフェースの重要な特徴は、ユーザがナレッジベースで既知の知識の「ファセット」をナビゲートし、「アラート／要求基準」を作成または編集したいときに開始されるプロセスの一部が作り上げられていく基準を、加法標準形（ＤＮＦ）ブール式に追加することによって、必要なものにまで掘り下げられることである。
以下のセクションでは、検索クエリを導出するときにユーザにいかに役立つかを説明する。ユーザは必ず図１８Ａの第１レベルのドロップダウンからアイテムを選んで開始する。ドロップダウンアイテムは、「ｓｔａｒｔＴａｘｏｎｏｍｙＮｏｄｅ」にヌル値を渡しながら、ＡＰＩ：ｄｍＴａｘｏｎｏｍｙＧｅｔＲｅｑｕｅｓｔを使って検索できる。

ユーザがアイテムを選択したら、例えば、ユーザが「ＧＩＣＳ」を選択したら、ＡＰＩ：ｄｍＴａｘｏｎｏｍｙＧｅｔＲｅｑｕｅｓｔを使って値をスポークに送り返す。ＡＰＩコールバック（ｄｍＴａｘｏｎｏｍｙＧｅｔＲｅｑｕｅｓｔＣａｌｌＢａｃｋ）はユーザに関連タクソノミーのリストと、選択されたタクソノミーのファセットＩＤ、つまり「ＧＩＣＳ」とを提供する。コールバック機能は、同じユーザが複数のブラウザまたはタブを使って並列で行っている異なるファセット還元同士を区別するためにファセットグループＩＤ（ｆａｃｅｔＧｒｏｕｐＩＤ）も提供する。ユーザは返されたリストから選択するか、または自分の検索をタイプ入力し始めることができる。ユーザが文字列にタイプ入力するとき、すでに選択された「タクソノミー」に関連してそれまでにタイプ入力された「不完全な文字列」を使用して自動完全リストを生成するべきである。

図１８Ｂは何もタイプ入力せずにユーザに利用できる初期リストを示す。しかし、図１８Ｃはユーザが提示されるリストを無視して、「石油」とタイプ入力し始めている状態を示している。これにより「石油＊」で始まるすべてのタクソノミーがプルダウンされ、すでに選択されている単語「ＧＩＣＳ」に関係付けられる。このために使用するＡＰＩはｄｍＴａｘｏｎｏｍｙＮｏｄｅＳｅａｒｃｈＲｅｑｕｅｓｔである。このＡＰＩへの入力の１つが、「ＧＩＣＳ」のものと同じ、前のファセットＩＤ（ｐｒｉｏｒＦａｃｅｔＩＤ）である。ユーザは、図に明記されるトグルボタン（ボックスのもっとも右の部分）を使用して、このためのブール演算子および否定要求も提出できるべきである。たとえば、ユーザが「＾」と「空の否定」とを選択した場合、＜「ＯＩＬ＊」かつ「ＧＩＣＳ」＞の照合結果を要求していることを意味する。このＡＰＩコールバック（ｄｍＴａｘｏｎｏｍｙＮｏｄｅＳｅａｒｃｈＲｅｑｕｅｓｔＣａｌｌＢａｃｋ）機能は照合するタクソノミーのリストを返す。

直前の２つの段落のステップを新たなセットに繰り返して適用して、継続してもよい。
ユーザは前のファセットＩＤを選択するオプションも有しており、それとともに文字列にタイプ入力された新たな文字がブール演算子を使用して関連付けられて、新たな結果セットを出す。たとえば、図１８Ｄを参照すると、ユーザはすでに階層の３レベルを選択済みである。現在、ユーザは第４レベルを選択しているところである。しかし、第４レベルでは、ユーザはブール演算子を使って結合されるタイプ入力した文字列に関係するすべてのタクソノミーと「レベル１のファセットＩＤ」とを選択したいと思っている。それができる方法は、ボックスの現在のタイプの左（または右矢印）をクリックして、それを、現在のテキストを結合したいレベルに合わせることである。ＡＰＩｄｍＴａｘｏｎｏｍｙＮｏｄｅＳｅａｒｃｈＲｅｑｕｅｓｔは、レベル３ではなくレベル１のものと同じ、前のファセットＩＤ（ｐｒｉｏｒＦａｃｅｔＩＤ）とともに呼び出されるはずである。図１８Ｅはユーザが前のステップの後で行動した後のボックスの位置を示している。ユーザはまた、ステップ２と同様に、ボックスを左に完全に引いて新たに検索を開始できるはずである。

ユーザが選択したタクソノミーを削除したい場合、入力ボックスの削除ボタン（×印のボタン）をクリックすればそうできるはずである。これは、選択済みの削除したいタクソノミーを含むそのボックスからサブツリーを消すはずである。図１８Ｆおよび図１８Ｇはこの前のステップとこの後のステップとを示している。上記ステップはＡＰＩ：ｄｍＴａｘｏｎｏｍｙＦａｃｅｔＣｌｅａｒを使用して行う。

以下のポイントは、ファセット還元をどのように追跡してスポークバックエンドで使用するかを述べている。以下のエレメントからなるノードを持つツリーが作成される：
ファセットＩＤ、タクソノミーノードＩＤ、親ファセット、左兄弟ファセット、右兄弟ファセット、ブール演算子、否定；
ファセット還元ＡＰＩはツリーのノードの追加、除去および編集を制御する；
ユーザがファセット還元の後にアラート検索基準を定めたら、テーブル「ＳＰ＿ＵＳＲ＿ＡＬＲＴ＿ＴＲＡＣＫ＿ＴＢＬ」の「ＦＡＣＥＴ＿ＧＲＯＵＰ＿ＥＸＰＲＥＳＳＩＯＮ」に直列化可能オブジェクトとしてツリー全体が書き込まれる；
ツリーの葉ノードは、ユーザの検索クエリに参加する実際の単語を表す；
ブール演算子を使用してグループ化する方法は、最小共通先祖のサブツリーブール演算グルーピングに依存する；
図１８Ｈは当該グルーピングに関して図示している；
求められるサブツリーブール式はＤＮＦに還元されて、ＳＰ＿ＵＳＲ＿ＡＬＲＴ＿ＴＲＡＣＫ＿ＴＢＬテーブルのＡＬＥＲＴ＿ＥＸＰＲＥＳＳＩＯＮとして格納される。

図１４Ａおよび図１４Ｂはトピックグループ要求の処理を図示している。図３から図１２に関連してその操作を説明したテキストメッセージ処理システムは、エレメント１４１０として模式的に表されている。その出力はエキスパンダ１４２０、アラートキャッシュ１４３０、アラート照合器１４４０およびアラート応答プロセッサ１４５０に提供される。ユーザインターフェースは複数のサーバ１４６０ａ〜ｎをさらに備えており、そのそれぞれがすくなくとも１つのディスプレイと、キーボード、マウスなどの多様な入出力デバイスとを含む。

サーバ１４６０の詳細を図１３Ａおよび図１３Ｂに示している。サーバは、サーバ１４６０ａ〜ｎから検索またはアラート基準としてユーザからの入力を受信するアプリケーションサーバ１４７０に接続されている。サーバ１４６０ａ〜ｎはアラート応答プロセッサ１４５０に接続されている。アプリケーションサーバ１４７０はアラート照合器１４４０に接続されている。これらのエレメントに関する詳細は、以下その操作の考察で説明する。

アラート要求を分類器の出力に照合する試みをする前に、分類器の出力をまず展開する。エキスパンダ１４２０の組合せ生成器１４２２で、まだ展開していない分類器からの各メッセージセットについて、分類されたメッセージセットに関連付けられているトピックグループＩＤの適切な論理積組合せの計算を行う。一般に、トピックグループＩＤの組合せは、トピックグループの関連性の積がすくなくとも６０％である場合に適切である。次に分類器からのトピックグループＩＤおよびトピックグループＩＤの適切な組合せを、メッセージセットの候補記述子としてデータベースに格納する。エキスパンダ１４２０のアラートアグリゲータ１４２４で、前の組合せ生成ステップで格納されているトピックグループＩＤの各組合せについて、同じ時間バケットの１以上のメッセージセットに関し、エキスパンダ１４２０によって所定のトピックグループ組合せのラベルの付けられている構成要素のメッセージセットのボリューム／関連性および感情のそれぞれの値から総ボリューム、ボリューム加重平均感情、およびボリューム加重平均関連性値も計算する。

次に、アラート照合器１４４０は、１以上のアプリケーションサーバ１４６０ａ〜ｎで１以上のユーザから発信されるトピックグループ要求をアプリケーションサーバ１４７０から受信する。ステップ１４５０で、照合器１４４０は、キャッシュ１４３０から要求を満たすことができるか、またはデータベースに問い合わせる必要があるかどうかを判定する。データベースに問い合わせる必要がある場合、ステップ１４６０でその結果をキャッシュにロードする。ステップ１４７０で、トピックグループ要求をキャッシュの内容と照合する。さらに、各間隔持続時間中、一致した結果のボリュームおよび感情の値を計算する。ステップ１４８０で、応答プロセッサ１４５０は次に照合結果を、トピックグループ要求を発信したサーバに報告する。

図１５Ａから図１５Ｌは、システム２００のグラフィカルユーザインターフェースで使用される一連の例示画面を図示している。具体的には、画面は端末２９０，２９２および／または２９４に表示される。画面は、キャリアのほとんどで利用できるヘッダ１５１０、アラートスペース１５３０およびワークスペース１５５０を備える実質的に同じフォーマットを有する。ヘッダ１５１０は以下に説明する検索（図１５Ｇ）、アラート（図１５Ｅ）、履歴（図１５Ｈ）およびアカウント（図１５Ａ）の画面にアクセスするためのソフトキー１５１２，１５１４，１５１６および１５１８と、設定画面（図１５Ｄ）にアクセスするためのソフトキー１５２２と、ログアウトするためのソフトキー１５２４と、画面を表示する端末でサインオンする個人を特定するウェルカムライン１５２８とを含む。

アラートスペース１５３０は、ユーザがシステムから要求したかもしれないアラートを要約する、継続的に更新されるテーブル１５３２を提供する。図１５Ａから図１５Ｌの例示画面では、これらのアラートは、「石油ポートフォリオ」、「製薬ポートフォリオ」および「建設ポートフォリオ」および「石油ポートフォリオ」としてテーブルの最初の列１５３３の４行に特定されている。残りの列１５３４〜１５３９は各行に、列１５３３の対応する行に特定されているアラートに関連付けられているテキストメッセージの感情値（上向きまたは下向きの矢印）およびトピック１５３４と、アラートの主題（サブジェクトマター）１５３５と、関連するテキストメッセージのバイラル度１５３６と、アラートに関する注記１５３７と、テキストメッセージの関連度１５３８と、アラートの最後の更新日時１５３９とを規定する。ユーザはレポートに特定されているアラートをクリックしてもよい。そうすると、図１５Ｊに図示する画面の形式で追加情報が提供される。

ヘッダ１５１０およびアラートスペース１５３０はそれが使用されている場合にはどの画面でも同じである。ワークスペース１５５０の内容は以下説明するように画面によって異なる。有利なことに、ユーザはアラートスペースを表示する画面を選択できる。
図１５Ａおよび図１５Ｂは、ＭａｉｎＡｃｃｏｕｎｔｓおよびＭａｉｎＡｃｃｏｕｎｔｓＥｎｔｉｔｌｅｍｅｎｔｓの画面を図示している。ＭａｉｎＡｃｃｏｕｎｔｓ画面はユーザ名、アドレス、連絡先情報およびパスワードを入力および表示することができる。これはまた、ユーザをある特定のアカウントならびにそのアカウントの企業名およびグループ名に関連付ける。ソフトキー１５５２はＭａｉｎＡｃｃｏｕｎｔｓＥｎｔｉｔｌｅｍｅｎｔ画面へのアクセスを提供する。ソフトキー１５５３は選択したフィールドの情報の削除のために設けられている。

ＭａｉｎＡｃｃｏｕｎｔｓＥｎｔｉｔｌｅｍｅｎｔ画面はユーザのデータ権限の管理のために設けられている。ワークスペース１５５０は名前とアカウント番号とによるユーザの特定のために設けられている。５つの列１５５５から１５５９と複数の行とのテーブル１５５４は、その行に記載されているいくつかのデータソースに関するユーザのデータ権限をまとめたものである。列１５５５の複数の行は「Ｓ＆ＰＧＩＣＳ」などの特定のデータソースを特定する。列１５５６の行はユーザが列１５５５の同じ行で特定されているデータソースからのデータにアクセスできるかどうかを示す。列１５５７の行はユーザがその権限を行使してもよい場所を示す。列１５５８の行はユーザがそのデータに関して取ってもよい行動（要求、削除、編集）を示す。そして列１５５９の行はユーザが列１５５５の同じ行で特定されているデータソースに関して支援を要求できるようにする。

図１５ＣはＭａｉｎＬｏｇｉｎ画面を図示している。この画面のワークスペース１５５０はユーザのアカウント番号およびパスワードを求める。ＬｏｇＩｎソフトキー１５６１は、ユーザがログインプロセスを完了できるようにする。ＭｙＡｃｃｏｕｎｔソフトキー１５６２は、ユーザが図１５ＡのＭａｉｎＡｃｃｏｕｎｔｓ画面にアクセスできるようにする。ＣｏｎｔａｃｔＵｓソフトキー１５６３は、ユーザが、連絡が欲しいという要求を入力できるようにする。ＬｏｓｔＰａｓｓｗｏｒｄソフトキー１５６４は、ユーザがパスワード復旧プロセス（図示せず）にアクセスできるようにする。標準レポートスペース１５３０は、この画面が、ログインしたユーザ以外の人にも表示されてもよいものであるため、ＭａｉｎＬｏｇｉｎ画面では使用されない。

図１５ＤはＭａｉｎＳｅｔｔｉｎｇｓ画面を図示している。この画面のワークスペース１５５０は、ユーザにアラート基準、関連性および閾値を指定させるアラート基準選択ボックス１５７１と関連性＆閾値選択ボックス１５７５とを含む。例として、サンプル間隔はアラート基準選択ボックス１５７１で日中、日間、１週間、四半期、半年または１年の期間から選択してもよい。ペンディング中のアラートのリスト１５７３をスクロールして、選択したサンプル間隔を適用したいアラートをクリックすることによって、異なるサンプリング間隔を別のポートフォリオに適用してもよい。選択ボックス１５７５で、低（６０％〜８０％）、中（８０％〜９０％）、高（９０％〜９５％）および超高（９５％〜１００％）を含む選択肢のセット１５７６から最低関連性を選択してもよい。感情閾値は、「非常に肯定」から「非常に否定」までの７つのカテゴリ１５７７から選択してもよい。また、うわさ（またはボリューム）レベルは低、中または高程度のノルムからの差の項１５７８で選択してもよい。

図１５Ｅ、図１５Ｆおよび図１５ＧはＭａｉｎＡｌｅｒｔ、ＭａｉｎＡｌｅｒｔＥｎｔｒｙＥｄｉｔおよびＭａｉｎＥｎｔｒｙ画面を図示している。図１５Ｅでは、ワークスペース１５５０は画面のユーザのために以前に発した、すべてのアラートのテーブルを示している。テーブルの６つの列１５８１〜１５８６はアラート名１５８１、アラートを最後に修正した日時１５８２、アラートの所有者１５８３、アラートに関する注記１５８４、アラートを共有する人のアイデンティティ１５８５およびアラートのステータス１５８６を特定する。

図１５Ｆのワークスペース１５５０で、ユーザはデータベース２７０に格納されているナレッジベースに格納されている金融タクソノミーをナビゲートすることによってアラート基準を入力できる。具体的には、ワークスペース１５５０の左側の列はエネルギートピックに関するＧＩＣＳタクソノミーの一部を示している。真中の列はナレッジベース全体の高レベルのタクソノミーの例示的な実施例を示している。そして右側は第１タイプ入力ウィンドウおよび提出キーを使用してコメントの入力と、第２タイプ入力ウィンドウにその名前をタイプ入力することによって特定されるスプレッドシートの検索とのために設けられている。第２タイプ入力ウィンドウを介してアップロードのために設けられているスプレッドシートは、スプレッドシートのフォーマットが銘柄のリストの所定の仕様に対応していれば、一連のアラートを発生させる。

図１５Ｇのワークスペース１５５０は検索基準のクイック入力のために設けられている。Ａｄｖａｎｃｅｄ、ＲｅｓｅａｒｃｈおよびＨｅｌｐと名づけられているソフトキー１５９１，１５９２および１５９３は追加リソースへのアクセスを提供する。第１スクロールキー１５９４はユーザにＢｌｏｏｍｂｅｒｇＴｉｃｋｅｒｓ（ブルームバーグ銘柄）（図示するとおり）、ＲｅｕｔｅｒＴｉｃｋｅｒｓ（ロイター銘柄）などのさまざまなタクソノミーソースをスクロールさせる。スクロールバー１５９６はユーザにＳｅａｒｃｈボックスに入力された部分的なテキストのさまざまな後続語候補の中から選択させる。

図１５Ｈ、図１５Ｉおよび図１５Ｊは結果の表示のために設けられている。図１５Ｈのワークスペース１５５０はペンディング中のすべてのアラートの結果を説明するテーブル１６１０を表示する。このテーブルの内容はレポートスペース１５３０の内容と同じであるが、テーブル１６１０に表示される結果はＧＵＩが新たなアラート応答を受信するとリアルタイムで更新される。一方で、レポートスペース１５３０の内容はそのときのスナップショットを表す。

図１５Ｈのワークスペース１５５０に提示されているテーブル１６１０のある特定のアラートをユーザがクリックすると、選択したアラートに関する追加情報を表示する図１５Ｉのような画面が提示される。例として、この情報はアラートトピックに加えて、アラートトピックに関するメッセージの変化量を示すグラフ１６２０、トピックに関するいくつかのメッセージのテキスト１６２２とそのテキストを受信した日時１６２４、およびもっとも関連性の高いトピックカテゴリ１６２６とを含む。感情レベル１６２８およびバイラル度１６３０は表示され続ける。

図１５Ｉのグラフは、グラフの右上角の拡大鏡１６２１をクリックすると拡大でき、図１５Ｊに図示するような画面になる。この画面はグラフ表示を調整するためのユーザとのインタラクションのために設けられている。例示のために、グラフ表示は５分間隔に分割している。ワークスペースの一番下にあるＩｎｔｅｒｖａｌキー１６４０をクリックすると、モニタが図１５Ｋの画面を表示し、それによってユーザは間隔を変更できる。図１５Ｋは間隔選択ボックス１６５０を表示している。間隔持続時間はボックス１６５０の別の間隔をクリックした後、ワークスペースの一番下にあるＲｅｄｒａｗソフトキー１６５２をクリックすると変更できる。これでディスプレイは図１５Ｊに戻るが、新たに選択した時間間隔となる。同様に、拡大した領域の底辺にあるドラッグ可能なスクロールバーとインタラクトすることにより、目盛および間隔を変更できる。

例示のために、図１５Ｊは縦軸に１０００単位でメッセージのボリュームをプロット化している。ワークスペースの一番下にあるＳｃａｌｅキーをクリックするとモニタが図１５Ｌの画面を表示し、それによってこの目盛を変更できる。図１５Ｌは目盛選択ボックス１６６０を表示している。ボックス１６６０の別の目盛をクリックしてから、ワークスペースの一番下にあるＲｅｄｒａｗソフトキー１６６２をクリックすると、目盛を変更できる。これでディスプレイは図１５Ｊに戻るが、新たに選択した目盛になる。

図１５Ｊの表示画面の２本の垂直バー１６３２，１６３４は、図１５Ｉのワークスペースに表示されているテキストメッセージ１６２２を引き出し、ボリューム調整された関連度の計算を行う１５分の期間を画成している。これらのバーは、それらをクリックしてドラッグすると横方向に移動できるので、２本のバーで囲む期間を変更できる。
図１５Ｍはアラート要求に対する例示的な電子メール応答を図示している。ヘッダ１６５０は件名、宛先、日付および送信者を特定する。行１６５１および１６５２はアラート要求の日時および件名を特定する。行１６５３および１６５４は、この要求に応答してテキストメッセージが検出され、そのテキストメッセージの感情が非常に否定的で加速度がバイラルであることを述べている。前述したように、感情および加速度の変化の評価は、現在の感情レベルおよび現在の活動レベルと以前の感情レベルおよび以前の活動レベルとを比較する同様の式を使用して行う。行１６５５は、使用の相対頻度に基づいたメッセージのセットの最高単語頻度ＩＤＦ値を表す語の収集に基づいてテキストメッセージから抽出される概略の語の抜粋を提供する。１６５６でテキストメッセージのサンプリングが提供される。最後に、行１６５７で追加のテキストメッセージなどの詳細な情報にすばやくアクセスするためのリンクが提供される。

本発明は特定の実施形態を参照して説明してきたが、本発明はそれに多数の変形を加えて実施してもよい。たとえば、特定の実施形態は入手できるすべてのマイクロブログメッセージを処理するシステムおよび方法を説明しているが、サンプリング技術を使用することにより、入手できるマイクロブログメッセージの一部のみを処理してもよい。サンプリング技術を適用して、システムの入口で受信されるメッセージをサンプリングしてもよく、またはマイクロブログメッセージの処理のさまざまな段階でサンプリング技術を使用してもよい。サンプリング技術はマイクロブログメッセージのトラフィックのボリュームの変化または処理帯域幅の可用性の変化に対応するように一時的に使用してもよい。

入力ステップ３１０において多数の変形を実施してもよい。たとえば、異なるトークン化ルールおよび操作を使用してもよい。「ｔｈｅ」、「ａ」、「ａｎ」、「ｔｈａｔ」およびさまざまな前置詞などの頻出語を、停止手順を使用して排除してもよい。大域的ＩＤＦテーブルの作成とは異なる手順を使用して、個々の語および／または句の重要性を判定してもよい。大域的ＩＤＦテーブルの更新には他の構成を使用することができるだろう。静的テーブルは、処理されているテキストメッセージで実際に使用される語に基づいているものほどはうまく機能しそうにないが、関連言語の標準的な単語の用法に基づいた静的な大域的ＩＤＦテーブルでも使用できるだろう。前述したように、正規化ステップで使用するための多様なステマが利用できる。

図７のクラスタリングプロセスが好ましく、ツイートなどの短いテキストメッセージを処理するときに有利であると思われるが、他のクラスタリング手順も周知であり、本発明の実施において有用であることがわかるであろう。ソフトクラスタリングで使用するためのシードトークンの選択には多数の変形例を実施してもよい。たとえば、ＩＤＦ値の範囲内からシードトークンを選択する代わりに、トークンは規定の閾値を超えるＩＤＦ値を有するすべてのトークンとしてもよい。ある状況においては、図７に関連して説明したクラスタリングステップのうちの１つ以上を抜かすことも実行可能であろう。本発明の他の実施形態では、文書特徴ベクトル（ＤＦＶ）を以下のいずれかの要素を備えるメタデータの追加次元を含むように展開してもよい：
ソースマイクロブログプラットフォームから入手できるメタフィールドへの追加（例、作者のデモグラフィック情報、ソーシャルネットワークグラフのつながり、作者または発行元アプリケーションが追加する注釈）；
ソーステキストメッセージに基づいた他の暗黙的メタデータの追加（例、メッセージの本文内の地理的地域の名前に基づいた地理的メタフィールドの緯度・経度ペアの抽出、人物と場所と会社と製品とを含むメッセージのテキストで言及される企業を特定するための、クラスタリング前の企業抽出法の適用）；または
テキストメッセージの本文で構文的に特定される情報の追加（例、ユーザアカウントへの返信を示す構文参照、再投稿されたメッセージの構文標識、埋め込みＵＲＬの構文標識）。

ここでも、ナレッジベースにロードして、そこから分類ルールを生成するプロセスが好ましいが、他のローディング技術を使用してもよく、また分類ルールの生成に他の手順を使用してもよい。同様に、メッセージセットを分類するために他の手順を使用してもよい。
同様に、図１３Ａおよび図１３Ｂ、図１４Ａおよび図１４Ｂならびに図１５Ａから図１５Ｍに関連して特定のユーザインターフェースを説明したが、多数の代替例も利用できる。

本出願は、「カスタマ関連データの配信および分析のためのシステムおよび方法」のために２００９年６月９日に出願された仮出願番号第６１／１８５，５７７号の出願日の利益を主張し、その内容全体を参照によりここに組み込む。

以下に、１時間間隔の間にメッセージの到着から形成されるソフトクラスタを示す。局所的ＩＤＦ３．１４４５７で、クラスタ密度（全体のペアワイズ平均コサイン類似度）が０．２９０５１６６０のシードトークン「ａｉｇ」に関するソフトクラスタの第１グルーピングは以下のとおりである（与えられるコサイン類似度は処理するメッセージのトークン化したテキストのみを包含する単語頻度ＩＤＦベクトルに基づいており、平均コサイン類似度は所定のメッセージとソフトクラスタの他の各メッセージとの間のペアワイズ平均コサイン類似度であることに留意されたい）：

重複排除プロセスのこの２回目の繰り返しにおいて、クラスタ密度は０．５２８８１７８０に増える：

以下は、２回目の繰り返しクラスタの単語頻度（ＴＦ）×文書頻度の逆数（ＩＤＦ）からの例示的な抜粋である：

以下は、１時間間隔でのトークン辞書からの例示的な抜粋であって、この特定のソフトクラスタに属するトークン辞書のサブセットである：

〈システムアーキテクチャ〉
一般に、本明細書で説明するシステムおよび方法は、例えば、セキュアなインターネット（例、セキュアなリッチオンラインインターネット）インターフェースまたはモバイル／セルラまたは接続／機器（例、アイフォーン、ブラックベリー）インターフェースを介して実装されてもよい。データは、第三者ベンダまたは他のデータソースからデータをライセンスしてリアルタイムで収集してもよい。さらに、システムおよび方法の実施形態は、単独でまたは組合せて、あらゆる数の所有権のあるウェブクローリングおよびウェブサービスＡＰＩを利用してもよい。追加の所有権のあるアルゴリズムを取得して、可能な数の消費者向け製品を増やしてもよい。

〈追加のＢ２Ｂアプリケーション〉
本発明は、金融業界に対する、関心のある特定のアプリケーションの状況で説明してきたが、本発明は多様な状況で実施してもよく、そのいくつかを以下に説明する。他の例示的なＢ２Ｂ（企業間取引）垂直市場は以下のものを含んでもよいが、それだけに限定されない。
・金融市場（例、機関トレーダー、先物トレーダーおよび他のすべての金融分野）
・ステップ１６１２でシステムＪａｖａ（登録商標）ＡＰＩを利用している図１６のステップ１６６０に図示するような、クォンツファンドがカスタマイズされた投資モデルを作成できるＡＰＩ
・企業向けの製品開発ツール（例、新製品の計画時に消費者行動のトレンドに投資するために、人々がもっとも魅力を感じる製品の種類を特定する）
・投資家向け広報（例、市場の動向および株式取引の行動心理を予測する手段として、関心のある会社に関するすべての活動を監視する）
・危機災害管理（例、石油漏れなど、会社関連の災害に対する市民感情を監視する）
・ステップ１６１４でシステムＣ／Ｃ＋＋ＡＰＩを利用している図１６のステップ１６５０に図示するような、ヘルスケア

・ＩＴ顧問サービス（例、デューデリジェンスの受入れおよび公衆からの推奨が発信される技術分野に関する意見、流行の製品戦略アプローチや関心のある分野に関する市民感情の程度をＩＴ研究者に報知する）
・エンターテインメント業界（例、映画、テレビ、音楽およびコンサート鑑賞に関する感情および活動を監視する）
・ステップ１６１４でシステムＣ／Ｃ＋＋ＡＰＩを利用している図１６のステップ１６２０に図示するような、ブランド管理ツール（例、リアルタイムでブランド認知度の変化を管理する）
・有名人／タレント事務所（例、演者および運動選手のリアルタイムのうわさを管理する）
・宣伝および広報活動（例、ＰＲおよび広告製品の効果を測定する）
・不動産（例、特定の地域から発表されるマイクロコンテンツおよびその地域に関して発表される情報と結合させて、その地域および近隣の感情および活動を監視する）
・旅行業界（例、消費者または旅行会社が利用する可能性のあるさまざまな旅行の目的地および都市に関する感情および活動の移り変わりを監視する）
・ステップ１６１４でシステムＣ／Ｃ＋＋ＡＰＩを利用している図１６のステップ１６４０に図示されるような、新聞／ブログ／ニュースの着想を得るツール（例、作成する内容の種類に関して着想を得るために、人々がトピックにしたいニュースの種類のリアルタイムの感覚を得る）

・運輸業界（例、リソースの割り当てをよりよく計画するための短期的な感情および活動の監視）
・調査会社（例、さまざまなデモグラフィックの集団およびさまざまな地理的地域のリアルタイムの感情および活動のトレンドの監視）
・政治選挙ツール（例、選挙の候補者をめぐるリアルタイムの感情および活動の移り変わりの監視）
・電子商取引／商取引ツール（例、製品および新製品の発売に関する活動の監視、製品の「購入の表明」の監視）
・健康ツール（例、オンラインで表明される病気の流行の監視）
・顧客サービス／オンラインＰＲツール（例、自社ブランドに関する否定的感情（「管理すべき「火種」」）、または肯定的感情（「煽るべき「炎」」）を特定する、感情の変化についてすべての顧客のフィードバックを吟味する）

〈追加のＢ２Ｃアプリケーション〉
例示的なＢ２Ｃ（企業と一般消費者との間の取引）垂直市場には以下のものが含まれるが、それだけに限定されない。
・次のような機能を持つアイフォーン／モバイルアプリケーション（例、「プッシュアラート」の使用）：競技イベントが異常に高いレベルの感情および活動を発しているときにユーザに通知する機能、ファンに「目下いい試合展開となっている」ことを知らせる方法を提供する機能、「周りの人々が今日楽しいのか悲しいのか？」を推測する面白ツールとして「リアルタイムの周りの気分」を解読する機能、ユーザがいる物理的な場所の平均的気分を表現する機能（この場所からのツイート／テキストメッセージからのジオタグ付きユーザ発信情報は当業界で周知の感情アルゴリズムを使用して検索してもよい））
・世界中の幸福の「ヒートマップ」を含めた、リアルタイムの「幸福度」ウェブサイト
・リアルタイムの感情および／またはリアルタイムの関連オンライン活動でもっとも肯定的な検索単語に関連するアイテムを追跡するリアルタイムのサーチエンジン

・株価に影響する１０大ニュースソースを示すプラットフォーム
・リアルタイム、ユーザが引き起こす感情および／または活動の変化の観点から、人気商品を示すお勧め製品の消費者プラットフォーム
・リアルタイムでさまざまな製品に関する否定的な感情および活動の急増を示す「消費者ウォッチ」プラットフォーム
・リアルタイムの感情および活動量に基づいてリアルタイムで最新の流行の服および衣料ブランドが何であるかを示すファッションプラットフォーム
・エンターテインメント評価プラットフォーム（リアルタイム・ロッテン・トマト／メタクリティック）
・ウェブ上の、「本日の１０大よかったこと」および「本日の１０大悪かったこと」に関するオンライン新聞／ブログ

〈追加のマクロ実施形態〉
本開示のさまざまな実施形態を参照して、前述したアルゴリズムのすくなくとも一部を採用すると、いくつかの実施形態は、たとえば、ユーザの国のユーザが発表したすべての情報の感情を考慮する「デイリー幸福度」および／または、同様に、世界幸福度を含めてもよい。いくつかの実施形態は異常に高いオンライン活動および異常に低いオンライン活動の日を示す「デイリー活動度」を含めてもよい。この「デイリー活動度」は、単なる例として、（ｉ）米国のダウ工業平均およびナスダックを含むが、それだけに限定されない、株式市場の参照点に視覚的に重ねた（国の）マクロ感情の移り変わり、（ｉｉ）リアルタイムに反応する「好感」および「嫌気」株上位１０のデイリーリスト、（ｉｉｉ）リアルタイムに反応する「口コミ数上位」会社のリスト、（ｉｖ）世界中でもっとも「幸福」および「不幸」な国のリアルタイムのランキングリスト、または（ｖ）リアルタイムに反応する「１０大アクティブセクター」のリストの状況で利用してもよい。さらに、いくつかの実施形態は、利用できるすべての検索フィールドを使用して、「自分で作るマクロトレンド」機能を提供してもよい。これによりトレーダーは自分のニーズにもっとも合ったマクロツールを設定できる。

〈追加ツール〉
いくつかの実施形態によると、各「シート」（つまり、システム）は、ユーザがシステムの操作および性能の故障対策および／または改善に関してフィードバックまたは提案を提供してもよい組み込み型ツイッター様マイクロブロギングプラットフォームを有してもよい。この機能により、ユーザのニーズを満たすためのユーザインターフェースの継続的な改良が可能である。この機能は、ユーザとシステム管理者との間の直接的なインタラクティブダイアログも作成してもよい。

〈追加の実施形態のジャンル〉
いくつかの実施形態は、マイクロ発信される情報内で表現される「購買意欲」または「購買行動」を示すために作成されるアルゴリズムを包含してもよい。「本当に欲しい」および「ちょうど買った」など、一般に購買に関連する語句をリアルタイムで、会社名および／または会社の製品の近くで検索できる。

追加の潜在的な技術的垂直市場は、家庭外映写、スタジアム映写および家庭内の「ポスター様」映写を含むが、それだけに限定されない、インターネット対応テレビプラットフォームおよびインタラクティブテレビ、公共の場所向けの大規模インフォスケープを生み出しながらリアルタイムで展開して動くデジタルサイネージ製品、および現実世界でリアルタイムに反応する映写製品を含む。

すくなくともいくつかの実施形態に関して述べているように、発表された情報のデータマイニングのために周知のアルゴリズムを、開示した実施形態のうちの１つ以上とともに使用してもよい。本開示のいくつかの実施形態に他の所有権のあるアルゴリズムを含めて使用してもよく、また本開示は開示のすくなくともいくつかの実施形態を構成してもよいアルゴリズム、または開示した実施形態のうちの１つ以上とともに使用してもよいアルゴリズムも明示的もしくは内在的に開示していることも当業者は認識するであろう。

したがって、本開示は消費者、団体および／または会社および同様な他のものの活動および／または感情を判定するデバイス、システムおよび方法の例示的な実施形態を提示している。別の箇所で述べたように、これらの実施形態は例示目的でのみ説明されたものであり、制限するものではない。本明細書で開示する発明により他の実施形態も可能であり、カバーされる。当該実施形態は開示を通して記載される教唆に基づいて関連分野の当業者にとって明らかとなるであろう。そのため、本開示の幅および範囲は前述した実施形態のいずれによっても制限されるべきではない。

本発明の精神および範囲は、添付する特許請求の範囲の中に存在するが、本願の出願時に特許請求の範囲として存在し、その一部は補正により削除された、以下の［予備的な特許請求の範囲］の中にも潜在する。この［予備的な特許請求の範囲］の記載事項は、本願明細書の開示に含まれるものとする。
［予備的な特許請求の範囲］
［予備請求項１］受信したマイクロブログメッセージを特定の活動について調べるステップと、
前記特定の活動が検出されたときにユーザに報知するステップと、
を含む、特定のマイクロブログ活動をユーザに報知するための方法。
［予備請求項２］
マイクロブログメッセージを構文解析して、語および／または句のベクトルを形成するステップと、
前記語および／または句を複数の語および／または句のベクトルに集計して、語および／または句の集計ベクトルを形成するステップとをさらに含み、
前記受信したメッセージを調べるステップは、ルールに従って前記語および／または句の集計ベクトルを分類して予測を形成するステップを含み、
前記特定活動が検出されたときにユーザに報知するステップは、前記予測が所定のレベルを超えるときにユーザに報知するステップを含むことを特徴とする、予備請求項１に記載の方法。
［予備請求項３］
マイクロブログから受信したテキストメッセージを構文解析して、語および／または句の第１ベクトルを形成するステップと、
前記語および／または句の第１ベクトルの前記語および／または句を正規化して、正規化した語および／または句の第２ベクトルを形成するステップと、
前記第２ベクトルの語および／または句の感情を評価して、前記受信したテキストメッセージの感情値を形成するステップと、
前記第２ベクトルで特定された語および／または句の使用頻度を判定して、前記第２ベクトルの前記語および／または句の頻度値の第３ベクトルを形成するステップと、
前記第１、第２および第３のベクトルと前記感情値とを組合せて、語および／または句の第４ベクトルを形成するステップと、
をさらに含む、予備請求項１に記載の方法。
［予備請求項４］
前記第４ベクトルはｎ＋ｍ次元のベクトルであり、
前記テキストメッセージのトークンおよびその使用頻度を表すｎ次元と、
前記テキストメッセージに関するメタデータを表すｍ次元とを含み、前記ｍ次元は、
前記メッセージのソースを表す第１次元と、
前記メッセージの言語を表す第２次元と、
前記メッセージのタイムスタンプを表す第３次元と、
前記メッセージの地理的発信地を表す第４次元と、
前記メッセージの作者を表す第５次元と、
を含む、予備請求項３に記載の方法。
［予備請求項５］
前記テキストメッセージの前記トークンの使用頻度は、文書頻度の逆数によって表すことを特徴とする、予備請求項４に記載のベクトル。
［予備請求項６］
複数のトークン化されたマイクロブログメッセージを第１時間間隔内で収集するステップと、
複数のシードトークンを選択するステップと、
１つのソフトクラスタ内のすべてのメッセージが同じシードトークンを有するマイクロブログメッセージの複数のソフトクラスタを形成するステップで、前記ソフトクラスタはそれぞれ異なるシードトークンを有しており、前記メッセージのいくつかは２以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが１つのソフトクラスタの中でのみ見られるようにメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第１出力を生成するステップと、
をさらに含む、予備請求項１に記載の方法。
［予備請求項７］
多数の第１時間間隔を含む第２時間間隔内で複数の第１出力を収集するステップと、
複数のシードトークンを選択するステップと、
１つのソフトクラスタ内のすべてのテキストメッセージが同じシードトークンを有するテキストメッセージの複数のソフトクラスタを形成するステップで、前記ソフトクラスタはそれぞれ異なるシードトークンを有しており、前記テキストメッセージのいくつかは２以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタよりも密度が低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが１つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第２出力を生成するステップと、
をさらに含む、予備請求項６に記載の方法。
［予備請求項８］
第１期間中にマイクロブログメッセージのストリームを受信するステップと、
各第１クラスタリング時間間隔は第１期間よりも短い持続時間を有する、複数の第１クラスタリング時間間隔中に前記メッセージをクラスタリングして、第１複数の第１クラスタ化テキストメッセージを生成するステップと、
複数の第１クラスタリング時間間隔中に前記メッセージをクラスタリングするステップと並列して、各第２クラスタリング時間間隔は前記第１期間よりも短くかつ前記第１クラスタリング時間間隔よりも長い持続時間を有する、複数の第２クラスタリング時間間隔中に前記第１クラスタ化テキストメッセージをクラスタリングして、第２複数の第２クラスタ化テキストメッセージを生成するステップと、
を含む、予備請求項１に記載の方法。
［予備請求項９］
前記受信したマイクロブログメッセージを特定の活動について調べるステップは、
前記受信したマイクロブログメッセージを処理して、名詞および／または名詞句を有するメッセージのクラスタ化したセットを形成するステップと、
ナレッジベースから、前記名詞および／または名詞句が前記ナレッジベースのトピックに関係する確率を規定する分類ルールのセットを生成するステップと、
索引のソースとして、前記ナレッジベース内のトピックに関係する名詞および／または名詞句ならびにその関連ルールを使用して前記分類ルールの索引を生成するステップと、
前記分類ルールの前記索引を使用して、前記マイクロブログメッセージ内の前記名詞および／または名詞句に関係するルールを特定するステップと、
前記特定されたルールを検索するステップと、
前記マイクロブログメッセージのセットに前記特定されたルールを適用するステップと、
前記ルールの前記適用の採点結果をトピックのリストとして収集するステップと、
前記分類ルールの適用により求められるように、前記トピックのリストをランク付けして確率順にするステップと、
を含むことを特徴とする、予備請求項１に記載の方法。
［予備請求項１０］
前記特定されたルールは前記マイクロブログメッセージのセットに並列して適用されることを特徴とする、予備請求項９に記載の方法。
［予備請求項１１］
現在の時間間隔における第１トピックに関係するマイクロブログメッセージのトラフィックのボリュームを、少なくとも１つの以前の時間間隔における前記第１トピックに関係するマイクロブログメッセージのトラフィックのボリュームと比較することによって、特定の活動を検出することを特徴とする、予備請求項１に記載の方法。
［予備請求項１２］
現在の時間間隔における第１トピックに関係するマイクロブログメッセージのトラフィックの感情レベルを、少なくとも１つの以前の時間間隔における前記第１トピックに関係するマイクロブログメッセージのトラフィックの感情レベルと比較することによって、特定の活動を検出することを特徴とする、予備請求項１に記載の方法。
本特許文書の開示の一部は著作権保護の対象となる資料からなる。著作権者は、特許商標庁の特許ファイルまたは記録に掲載されることから特許文書または特許開示をいかなる人が複製することにも異議はないが、それ以外は一切の著作権を留保する。

Claims

特定のマイクロブログ活動をユーザに報知するための方法であって、
受信したマイクロブログメッセージを特定の活動について調べるステップ（ａ）と、前記特定の活動が検出されたときにユーザに報知するステップ（ｂ）と、を含み、
前記ステップ（ａ）は、マイクロブログメッセージを構文解析して、語および／または句のベクトルを形成するステップ（ａ１）と、
前記語および／または句を、複数の語および／または句のベクトルに集計して、語および／または句の集計ベクトルを形成するステップ（ａ２）と、
所定のルールに従って前記語および／または句の集計ベクトルを分類して予測を形成するステップ（ａ３）とを含み、
前記ステップ（ｂ）は、前記予測が所定のレベルを超えるときにユーザに報知するステップ（ｂ１）を含み、
前記ステップ（ａ１）は、
マイクロブログから受信したテキストメッセージを構文解析して、語および／または句の第１ベクトルを形成するステップと、
前記第１ベクトルの前記語および／または句を正規化して、正規化した語および／または句の第２ベクトルを形成するステップと、
前記語および／または句の感情を評価して、前記受信したテキストメッセージの感情値を形成するステップと、
前記第２ベクトルで特定された語および／または句の使用頻度を判定して、前記語および／または句の頻度値の第３ベクトルを形成するステップと、
前記第１、第２および第３のベクトルと前記感情値とを組合せて、語および／または句の第４ベクトルを形成するステップと、を含み、
前記第４ベクトルは、前記テキストメッセージのトークンおよびその使用頻度を表すデータと、前記テキストメッセージに関するメタデータとを含む、方法。
前記メタデータは、前記メッセージのソースを表すデータと、前記メッセージの言語を表すデータと、前記メッセージのタイムスタンプを表すデータとを含む、請求項１に記載の方法。
複数のトークン化されたマイクロブログメッセージを第１時間間隔内で収集するステップと、
複数のトークンの中から通常よりも高い頻度で使用される複数のシードトークンを選択するステップと、
マイクロブログメッセージの複数のソフトクラスタを形成するステップであって、前記ソフトクラスタは同じシードトークンを有するマイクロブログメッセージの集合であって、異なるソフトクラスタは異なるシードトークンを有しており、前記メッセージのいくつかは２以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが１つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第１出力を生成するステップと、
をさらに含む、請求項１に記載の方法。
前記第１出力をトークン化し、複数のトークン化されたテキストメッセージを複数の第１時間間隔を含む第２時間間隔内で収集するステップと、
前記複数のトークンの中から通常よりも高い頻度で使用される複数のシードトークンを選択するステップと、
テキストメッセージの複数のソフトクラスタを形成するステップであって、前記ソフトクラスタは同じシードトークンを有するテキストメッセージの集合であって、異なるソフトクラスタは異なるシードトークンを有しており、前記メッセージのいくつかは２以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが１つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第２出力を生成するステップと、
をさらに含む、請求項３に記載の方法。
第１期間中にマイクロブログメッセージのストリームを受信するステップと、
各第１クラスタリング時間間隔は第１期間よりも短い持続時間を有する、複数の第１クラスタリング時間間隔中に前記メッセージをクラスタリングして、第１複数の第１クラスタ化テキストメッセージを生成するステップと、
複数の第１クラスタリング時間間隔中に前記メッセージをクラスタリングするステップと並列して、各第２クラスタリング時間間隔は前記第１期間よりも短くかつ前記第１クラスタリング時間間隔よりも長い持続時間を有する、複数の第２クラスタリング時間間隔中に前記第１クラスタ化テキストメッセージをクラスタリングして、第２複数の第２クラスタ化テキストメッセージを生成するステップと、を含む、請求項１に記載の方法。
前記受信したマイクロブログメッセージを特定の活動について調べるステップ（ａ）は、
前記受信したマイクロブログメッセージを処理して、名詞および／または名詞句を有するメッセージのクラスタ化したセットを形成するステップと、
ナレッジベースから、前記名詞および／または名詞句が前記ナレッジベースのトピックに関係する確率を規定する分類ルールのセットを生成するステップと、
索引のソースとして、前記ナレッジベース内のトピックに関係する名詞および／または名詞句を使用して前記分類ルールの索引を生成するステップと、
前記分類ルールの前記索引を使用して、前記マイクロブログメッセージ内の前記名詞および／または名詞句に関係するルールを特定するステップと、
前記特定されたルールを検索するステップと、
前記マイクロブログメッセージのセットに前記特定されたルールを適用するステップと、
前記特定されたルールの適用の結果としてトピックのリストを生成するステップと、
前記分類ルールの適用により、前記トピックのリストの中のトピックをランク付けして確率順にするステップと、を含むことを特徴とする、請求項１に記載の方法。
前記特定されたルールは前記マイクロブログメッセージのセットに並列して適用されることを特徴とする、請求項６に記載の方法。
現在の時間間隔における第１トピックに関係するマイクロブログメッセージのトラフィックのボリュームを、少なくとも１つの以前の時間間隔における前記第１トピックに関係するマイクロブログメッセージのトラフィックのボリュームと比較することによって、又は現在の時間間隔における第１トピックに関係するマイクロブログメッセージのトラフィックの感情レベルを、少なくとも１つの以前の時間間隔における前記第１トピックに関係するマイクロブログメッセージのトラフィックの感情レベルと比較することによって、特定の活動を検出することを特徴とする、請求項１に記載の方法。
メッセージ間又はメッセージとソフトクラスタの中心とのコサイン類似度を用いて、ソフトクラスタの密度又はメッセージの類似度を決定する、請求項３に記載の方法。
ユーザからのマイクロブログ活動の調査若しくは報知リクエストとの関係に基づいて、マイクロブログメッセージをランク付けするステップをさらに含み、前記ステップ（ｂ）が、
前記調査若しくは報知リクエストに最も一致した少なくとも１つのマイクロブログメッセージの内容をユーザに知らせるステップと、
前記調査若しくは報知リクエストにより少なく一致したマイクロブログメッセージの題名をユーザに追加して知らせるステップと、を含む請求項１に記載の方法。
各ソフトクラスタの中の同じテキストメッセージの重複を排除するステップは、同じメッセージの中の１つのインスタンスであって、それがメンバーとなっているソフトクラスタの中心へのコサイン類似度による類似度が最も大きいインスタンスを求めることによって実行される、請求項４に記載の方法。
前記ソフトクラスタは、コサイン類似度を用いて決定された類似度のベースに基づいて、凝集的に併合される、請求項４に記載の方法。
前記分類ルールは、複数のトピックグループとトピックグループ間の複数のリンクとを含むナレッジベースから生成され、
前記ナレッジベース内のトピックグループにリンクされたノード間の階層的関係を規定するタクソノミーをトラバースし、
タクソノミー内の各ノードにおいて、前記ナレッジベースから、トピックグループの記述とそのプロパティを抽出し、
前記特定されたルールごとに、重み因子を、分類ルールを格納するデータベースから抽出し、
重み因子に基づき、分類ルールの関連を評価演算することを特徴とする、請求項６に記載の方法。
用語の発生頻度に基づいて、テキスト文書の中に発見された新規なトピックとリンクを、動的に前記ナレッジベースに取り入れ、
これらの新規なトピックが参照するテキスト文書、およびメッセージの内容に基づいて、これらの新規なトピックのプロパティと定義を生成し、
前記新規なトピックを前記ナレッジベースに取り込み、複合トピックグループを作成する、請求項１３に記載の方法。
マイクロブログメッセージをユーザからの調査又はアラート要求との関連に基づいてランク付けするステップをさらに含み、
前記特定の活動が検出されたときにユーザに報知するステップ（ｂ）が、
前記調査又はアラート要求との関連性をクラス分けし、関連性の最も高いクラスの少なくとも１つのマイクロブログメッセージの内容をユーザに報知するステップと、
前記調査又はアラート要求との関連性がより少ないクラスのマイクロブログメッセージのサブジェクトをユーザに報知するステップと、を含む、請求項１に記載の方法。
前記受信したマイクロブログメッセージを特定の活動について調べるステップ（ａ）は、コンピュータシステム上において遂行される、請求項１に記載の方法。
前記第４ベクトルは、前記テキストメッセージの感情値を含む、請求項１に記載の方法。