JP5879260B2 - マイクロブログメッセージの内容を分析する方法及び装置 - Google Patents

マイクロブログメッセージの内容を分析する方法及び装置 Download PDF

Info

Publication number
JP5879260B2
JP5879260B2 JP2012515114A JP2012515114A JP5879260B2 JP 5879260 B2 JP5879260 B2 JP 5879260B2 JP 2012515114 A JP2012515114 A JP 2012515114A JP 2012515114 A JP2012515114 A JP 2012515114A JP 5879260 B2 JP5879260 B2 JP 5879260B2
Authority
JP
Japan
Prior art keywords
message
messages
microblog
soft
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012515114A
Other languages
English (en)
Other versions
JP2012529717A (ja
JP2012529717A5 (ja
Inventor
ベイリー,エドワード,ジェイ.
ヘンデル,サミュエル,エル.
キンゼイ,ジェフリー,ディー.
シラー,リチャード,ジェイ.
Original Assignee
イービーエイチ エンタープライズィーズ インコーポレイテッド
イービーエイチ エンタープライズィーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イービーエイチ エンタープライズィーズ インコーポレイテッド, イービーエイチ エンタープライズィーズ インコーポレイテッド filed Critical イービーエイチ エンタープライズィーズ インコーポレイテッド
Publication of JP2012529717A publication Critical patent/JP2012529717A/ja
Publication of JP2012529717A5 publication Critical patent/JP2012529717A5/ja
Application granted granted Critical
Publication of JP5879260B2 publication Critical patent/JP5879260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本出願はマイクロブログに関し、具体的にはマイクロブログの内容を分析する方法に関するものである。
インターネットの歴史において、今まで短文形式の通信のオープンで検索可能な手段はなかった。マイクロブロギングの先駆けとなるものには、インスタントメッセージング、チャットルームおよび掲示板が含まれる。しかし、これらの状況における短文形式の通信は常に双方向であった(つまり、何か他のことに応答して何かを言ったり、または予め決められたトピックについて何かを言ったりしていた)。対するマイクロブロギングはしばしば、二者間でやり取りする会話またはトピック中心にスレッド化された議論から離れた、ソーシャル通信の1対多の短文形式である。マイクロブロギングで人は「ライフストリーミング」を介して通信できる。これは人々の実生活の経験に相関し、オンライン環境で伝達される考えや意見、および考察の共有に関わる。
さらに、マイクロブロギングは誰でもそれを発見できる完全にオープンな環境に存在する。データセットの開放性は社会的に重要な分野に関する会話の急激な増大の可能性を促す。マイクロブロギングのこの「バイラル(viral)」性は、ほとんどのマイクロブロギングプラットフォームに統合されるソーシャルネットワーキングおよびソーシャルシェアリング機能によってさらに促進される。これらのツールでユーザは受信したい他のユーザの内容を指定することが可能になる(ツイッターの場合、このプロセスは「フォローする」と呼ばれる)。マイクロブロギングプラットフォームの他の機能は、ユーザに対して、望ましい内容を共有し、それをさらに補足し、それを広範囲に広めさせる方法でメッセージを再配信することを促す。
マイクロブロギングで生成される情報の異常がオンライン情報環境でこのように多大な影響を及ぼすことができる主要な理由が、データセットのバイラル性である。マイクロブロギング内容のいずれの1つも「バイラル的に広まる」ようになる可能性を持っており、その結果、まるで主流のニュース記事のように社会に影響を与える。また、マイクロブロギングは調査またはインタビューの状況から外れて存在する本人による、信憑性のある自己表現の手段である。これが個人らに投稿を行わせ、彼らが共有するものは、継続的な消費者調査と同種のものとなる。さらに、マイクロブロギングはすべてのユーザに「市民ジャーナリスト」となる可能性を持たせるので、スマートフォンまたはインターネットに繋がれた他の機器を介して自分の周りで起こっている出来事をまっさきに報告できるようになる。
要するに、マイクロブロギングは消費者調査と新たなニュースサイクルとを兼ねる前例のないものであり、そのため、金融サービスおよび他の専門的なエンドユーザにとって固有の価値あるデータセットである。
オンラインソーシャルメディア界はクリティカルマスを達成し、大勢の支持を得ている。ウェブアナリストのコムスコアによると、2009年2月には1億9千2百万人の米国ユニークインターネットユーザのうちの64パーセント、つまり1億2千2百万人が投稿を読み、発表し、または返事をする過程で、1以上のソーシャルネットワーキングサイトを訪問した。わずか12ヶ月間で、手軽なマイクロブロギングサイトのツイッターのユーザの数は1085%増加した。大学生の一時的な流行として始まったソーシャルウェブは今ではどの年代にも利用が広がってユビキタスとなっている。このことを実証しているのが、フェイスブックのユーザの38%が35歳以上であり、ブロガの平均年齢は37歳であり、ツイッターのユーザの年齢の中央値は31歳という事実である。
このソーシャルメディア環境のなかで、マイクロブロギングはもっとも突出して成長の著しいユーザ挙動の一つである。ツイッターは国際的に優位を占めているが、世界中のさまざまな言語のマイクロブロギングサイトは111を超えている。これらのサービスには、グーグル・バズ、タンブラーおよびプラークが含まれる。これらのニッチなソーシャルメディアプラットフォームに加えて、フェイスブック、マイスペースおよびリンクトインなどの大規模なソーシャルネットワーキングウェブサイトはしばしば「ステータスアップデート」と呼ばれる独自のマイクロブロギング機能を持っている。自分の生活に関する考えおよび最新情報を投稿することは、より大規模なこれらのソーシャルネットワーキングプラットフォームのカルチャーの中心になってきている。
主流で広範囲に広がることに加えて、ツイッターおよびマイクロブロギングサービスは社会に対して劇的な効果を持つように影響力を持ちつつもある。例えば、ツイッターはイラン選挙の暴動の主な誘因であったと言われている。この場合、このサービスは市民がリアルタイムで互いの考えを共有し、中心的な主張に結集させることを可能にした。このことはツイッターおよび他のマイクロブロギングサイトが非常に大きな重要性と社会的な力とを持つツールであるというさらなる証拠を提示している。
ソーシャルメディアサイトは、この情報が発表される最初の公の場であることが多い。フェイスブック、マイスペースおよびツイッターなど、無数のオンラインユーザが生成する目的地で起こるバーチャルな「うわさ」話の爆発的に増えるレキシコンは、一般市民のリアルタイムの感情や活動のトレンドを含むまったく新しい関連性のあるユーザのフィードバックループを作っている。これらの顕著なトレンドは、従来のオフラインおよびオンラインのニュースソースで関連の記事または出来事が扱われて、報道されるかなり前にオンライン発表共同体で起こる。以下にこの現象の最近の事例をいくつか挙げる。
・アップル社のCEOで創業者のスティーブ・ジョブズの死亡記事が誤ってオンラインで発表されたとき、オンライン上でアップル社の株価に悪影響を及ぼすうわさが流れた。
・2008年5月12日に中国の四川省で大地震が起こったときに、中国のツイッターのユーザはリアルタイムで経験しているときに地震を伝えた。アメリカ地質調査所はそのウェブサイト上でツイッターからまる3分後に地震を報道し、BBCおよび中国政府は地震発生から約5分から7分後にツイッターのモニタリングを通して地震を知った。
・USエアウェイズの航空機がハドソン川に不時着したとき、ツイッターのユーザが最初にその事故についてつぶやき、ニューヨークタイムズによる事故のオンライン報道より20分早かったと言われている。
リアルタイムでオンラインで広がるこの膨大でますます増大するユーザ発信の情報を取捨選択し、編成し、配信し、提示できるシステムがあれば、多くの分野できわめて有利であろう。たとえば、投資家はとてつもない便益を受けることができるだろう。市場はリアルタイムで常時動いている。デジタル時代においては、速報性があってすぐに利用できる投資情報へのアクセスは成否を分ける境となることがある。金融市場に大きな影響を与えるのは、出来事そのものよりも、ニュース記事および出来事に対する人々の反応であることの方が多い。
本発明は、複数のニッチ市場および垂直市場向けにカスタマ関連性の高いB2BおよびB2Cアプリケーションを作成するオンライン消費者感情および活動レベルアルゴリズムをレバレッジする方法を提供するものである。
本発明によれば、受信したマイクロブログに特定の(abnormal)活動がないかを調べて、当該活動を検出したときにユーザに報知することによって、ユーザにマイクロブログ活動を報知する方法が提供される。
他の実施形態は、マイクロブログメッセージを構文解析して語および/または句のベクトルを形成し、複数の期間にわたって語および/または句を連続的に集計して集計ベクトルを形成し、集計ベクトルを分類して異なる期間に関連する予測を形成し、予測が所定レベルを超えたらユーザに報知するための方法をさらに含む。
本発明によれば、マイクロブログメッセージを受信するサーバと、受信したメッセージをクラスタ化するクラスタ生成器と、分類ルール内の名詞および/または名詞句で索引付けした分類ルールのセットを格納するデータベースと、スコア付けされたメッセージのセットを生成するために分類ルールのセットにしたがってクラスタ化されたメッセージを分類する分類器と、スコア付けされたメッセージを検索要求に照合させる照合器(matcher)とを備えるマイクロブログメッセージを分析する装置が提供される。
他の実施形態では、オントロジー(ontology)を格納するナレッジベースと、ナレッジベースからデータベースに格納する分類ルールのセットを生成する分類ルール生成器とをさらに含む。
本発明の以上のおよび他の目的と利点とは、以下の詳細な説明に鑑みると当業者には明らかになるであろう。
本発明を実施する環境を示す図である。 本発明の第1の実施形態を示すブロック図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である(図13Aと連続している)。 図2の実施形態の全体的な操作を図示する図である。 図2の実施形態の全体的な操作を図示する図である(図14Aと連続している)。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態用のグラフィカルユーザインターフェース上の表示画面図である。 図2の実施形態の全体的な操作を図示する図である。 本発明を理解する上で役立つ一定の関係を図示する略図である。 本発明を理解する上で役立つ一定の関係を図示する略図である(図17Aと連続している)。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 グラフィカルユーザインターフェースの特定のアプリケーションを示す図である。 分類ルールを示すプログラム。 分類ルールを示すプログラム(図19の続き)。 分類ルールを示すプログラム(図20の続き)。 分類ルールを示すプログラム(図21の続き)。 分類ルールを示すプログラム(図22の続き)。
図1は、本発明を実施する環境を図示している。前述したように、オンラインソーシャルメディアはクリティカルマスを達成している。ツイッターは、そのユーザが今では日に約5千5百万回のツイートを流すと報告している。わずか4年間でこれらのメッセージは累計して約100億ある。保護が指定されているアカウント内の少数のメッセージを例外として、これらのメッセージはほぼすべてが公に入手できる。実際、ツイッターは現在そのアーカイブを米国議会図書館に寄贈して、継続的な最新情報を供給する計画を発表した。ツイッターのユーザおよび他のマイクロブロガを図1では、アイフォーン&ブラックベリーアプリ10で表している。インターネット上で公に入手できる情報の他のソースはウェブインターフェース20で表している。
本発明は、セキュアなウェブアプリケーションサーバ40とデータ記憶装置60とを利用して、マイクロブロガ10および他のソース20からインターネット上で入手できるメッセージを処理する。ユーザは、データ記憶装置60に格納されている情報にアクセスするのに多様なデスクトップアプリケーション80を使用してもよい。
図2は本発明の実施において、図1のウェブアプリケーションサーバ40およびデータ記憶装置60の機能を提供するために使用した例示的なコンピュータシステム200のブロック図である。
コンピュータシステム200はサーバ220の第1アレイ210と、サーバ240の第2アレイ230と、分散型キャッシュ&メモリ250と、第1データベース260と、第2データベース270とを備える。外部情報プロバイダ205と第1アレイ210との間にファイアウォール280を配置している。サーバの第1アレイ210と第2アレイ230との間にファイアウォール282を配置している。サーバの第2アレイと、ラップトップブラウザ290、ブラウザ292およびワークステーションブラウザ294などのさまざまなユーザデバイスとの間にファイアウォール284を配置している。以下説明するように、外部情報プロバイダ205には2種類あり、マイクロブログメッセージのソースと、特定のサブジェクトに関する情報データベースの他の入力およびソースとがある。
サーバの第1アレイおよび第2アレイは、アマゾンのEC2システムで実行するバーチャルサーバのアレイである。サーバの第1アレイはマイクロブログデータサーバ221と、第三者データサーバ222と、並列処理サーバ223と、クラスタリング・分類・アラートサーバ224とをさらに備える。サーバの第2アレイ230は、開発スポークサーバ241とカスタマスポークサーバ242,243および244とをさらに備える。
図2ではカスタマスポークサーバは3セットしか図示していないが、これより多くのセットの、またはこれよりすくないセットのカスタマスポークサーバを使用してもよいことは理解されるであろう。各サーバ220,240が、サーバを制御するコンピュータプログラムを格納している半導体および/またはディスクメモリなどのさまざまなメモリ資源にアクセスできることは認識されるであろう。これらのプログラムの一定の操作を以下に説明する。キャッシュ&メモリ250は主に並列処理サーバ223の操作で使用する。
データベース260は、マイクロブログデータベース261と、ナレッジベース262と、分類器ルールデータベース263との3つの主要なコンポーネントを有している。マイクロブログデータベース261は、例えばマイクロブロガおよび他のインターネットソースから取得した生のテキストメッセージのテーブルを格納して、これらのメッセージで使用される語句の辞書を維持し、これらの語句がメッセージのどこで使用されているかを示す索引を維持し、語句の用法に関するデータテーブルを維持し、処理したテキストメッセージを格納し、テキストメッセージのそれぞれを表す情報のベクトルを格納するリレーショナルデータベースである。データベース261に関する詳細な情報は、図3から図14Aおよび図14B、図16ならびに図17Aおよび図17Bに関連して以下説明する。
ナレッジベース262は特定のサブジェクトに関するオントロジーおよびタクソノミー(taxonomy)を格納するリレーショナルデータベースである。ナレッジベース262に関する詳細な情報は図17Aおよび図17Bに関連して以下説明する。分類器ルールデータベース263はナレッジベース262から導出または推論される分類ルールのセットを格納するリレーショナルデータベースである。分類器ルールデータベース263に関する詳細な情報は図10に関連して以下説明する。
例示目的で、本発明は有価証券を発行する公開企業および非公開企業に関する情報のマイクロブログを分析する方法、システムおよびソフトウェアの状況において説明する。またナレッジベースおよび分類器ルールはその状況において説明する。しかし、本発明は多数の他の状況においても同様に適用してもよいことは理解されるであろう。
データベース270はカスタマスポークサーバ242〜244のそれぞれのリレーショナルデータベースを提供する。これらのデータベースに関する詳細な情報は図13Aおよび図13Bならびに図14Aおよび図14Bに関連して以下説明する。
さらに、コンピュータシステム200に関する詳細な情報は、以下に説明するその操作の考察から明らかになるであろう。
図3は本発明の第1の実施形態における情報の一般的な流れを図示するフローチャートである。
テキストメッセージおよび他の入力は入力ステップ310の間にサーバのアレイ210で受信される。これらのメッセージはクラスタリングステップ320で関連メッセージのグループに分類される。ステップ325でメッセージの感情値を判定する。分類器ステップ330で、データベース263に格納されている分類器ルールのセットを使用して、メッセージをトピック別に分類する。ステップ340でナレッジベース262から分類器ルールが生成される。分類されたメッセージはアラータステップ350にて、アラートサーバ224によって、1以上のユーザがスポークサーバのアレイ230を通じてブラウザ290,292,294を介して提出した検索またはアラートトピックと照合される。ユーザが利用できる検索またはアラートトピックは、ナレッジベースから導出する。照合の結果はスポークサーバ240からユーザブラウザ290,292,294に提供される。ステップ380で、情報の流れはナレッジベースに1または複数のオントロジーおよびタクソノミーをロードするナレッジベース入力も含む。
入力ステップ310は、例としてマイクロブログ用のアプリケーションプログラミングインターフェース(API)にアクセスして公に利用できるメッセージを検索することによって、ツイッターなどの1以上のマイクロブログプラットフォームからメッセージを受信する。現在では、平均で毎分40,000近くのツイートが生成されている。これらのメッセージを処理するために、メッセージは以下に説明する操作を行ういくつかのサーバ220に分散されている。ツイートの場合、各メッセージは8ビットで140文字長以下のテキストメッセージである。メッセージのテキストに加えて、検索される各メッセージは、メッセージを作成した時刻を明記するタイムスタンプ、メッセージの言語の表示、作者の表示、メッセージを検索したプラットフォームの表示、注釈タグなどのメタデータ(つまり、メッセージに関する情報)を含む。ある場合には、緯度および経度または他の地理的指標で作者の物理的な位置も入手でき、検索される。他のマイクロブログは異なるフォーマットを有している。さらに、入力ステップ310は1以上のウェブクローラまたは他の第三者からの入力を受信してもよい。より詳細に以下説明するように、入力ステップ310はさまざまなAPIから受信したテキストメッセージの語を、検索に使用できるより一貫性のある単語およびフォーマットのセットに処理する。
クラスタリングステップ320は、冗長なメッセージおよび/またはほとんどもしくはまったく関心のないメッセージを特定して、高度な言語的類似性を持つメッセージをまとめる。クラスタ化されたメッセージは分類器ステップ330に送られて、分類ルールのセットでメッセージを分析して、所定のトピックのセットに関連すると思われるメッセージを特定する。前述したように、分類器ルールはナレッジベースから生成される。分類されたメッセージはアラータステップ350に送られる。こうしてアラータステップが受信したメッセージは、ナレッジベースで既知の同じトピックのセットからユーザが選択することによって提供されるトピックと照合される。そしてユーザ指定のトピックに関係するメッセージがそのユーザに送られる。
図4は、図3の入力ステップ310の実施形態を図示するフローチャートである。ステップ410で、各入力テキストメッセージに固有特定番号(例として、IG_MSG_ID)が割り当てられる。そしてメッセージのテキストをデータベース261の適切なテーブルに格納して、固有特定番号で索引付けする。同様に、生メッセージを伴うメタデータの各アイテムを適切なメタデータのテーブルに格納して、前記メタデータの部分に割り当てられた固有特定番号とともに、そのメッセージに割り当てられた固有特定番号でも索引付けされる。ステップ420で生の入力テキストメッセージをトークン化し、得られたトークンをステップ440で正規化する。正規化プロセス中、ステップ430で組/句トークン辞書を更新する。ステップ450でトークン辞書を更新する。ステップ460で大域的文書頻度の逆数(大域的IDF(GLOBAL IDF))テーブルを更新する。これらのテーブルのすべてをマイクロブログデータベース261に格納する。
メタデータも処理する。ステップ470で、メッセージレベル感情を以下詳細に説明するように計算する。ステップ480で、文書特徴ベクトル(DFV)を形成する。ステップ470およびステップ480の結果もデータベース261に格納する。そのためデータベース261に格納されている情報は、より詳細に図7で説明するクラスタリングステップ320に利用できる。
受信したメッセージの文字は、適用できる通信プロトコルを使用して送受信できるあらゆる記号とすることができる。好ましくは、受信したメッセージの文字はUTF−8(8ビットUCS/ユニコード変換フォーマット)を使用して符号化される。UTF−8は128 US−ASCII文字と後方互換性のある可変長文字エンコーディングである。したがって、128 US_ASCII文字の識別に1バイトを使用し、他の文字の識別に追加バイトを使用する。
ステップ420で、メッセージを一連の要素単位に分解して、例えば英語の場合、連続した非空白文字の集合を空白または他の非単語構成文字で分離して、メッセージテキストをトークン化する。各要素単位をトークンと呼んでもよい。トークン化プロセスでは、テキストを簡素化して標準化し、各トークンの始めと終わりとを明確に示すことを一般目標に、多様なルールを使用する。例として、トークン化は次の3つの主要操作を備える。特定の一次単位の識別(例、URL、ツイッター形式の「ハッシュタグ」(1単位の語の前に「#」記号を付けて主題(サブジェクトマター)を識別する規約)、メッセージの空白境界への分割、他の推定される語境界でのメッセージの分割(例、一定の句読点の組合せは最初の操作によって除外しない)。各トークンには固有特定番号が割り当てられて、データベース261に格納されている辞書に登録される。
ステップ430で、トークンのセット内のトークン組(つまり、複数の連続トークン)および句(つまり、意味のまとまりで区切った文法単位)を組/句辞書の内容と比較して、一定の「高値」の新しい組および/または句に固有特定番号(例として、PHRASE_ID)を割り当てて、データベース261に格納されている組/句辞書に登録する。句はヒューリスティックな品詞タグ付けを適用した後、文脈自由文法を使用して特定し、トークンのストリーム内の高確率の名詞(および他の)句を検出する。文脈自由文法は、入力ストリームを構文解析するために隣接するトークンのセット間の局所的な関係のみを使用する構文還元ルールの単純なセットである。特定される名詞句および他の句をさらに組/句辞書の内容と比較して、一定の「高値」の新しい組および句を辞書に追加する。
トークン化の後、ステップ440で各トークンの正規化バージョンを形成する。スペリングを標準化する。一定の先頭または末尾の句読記号を除去する。意味的に似ているトークンをまず共通の最頻度同義語に還元してから、格、時制、態および複数語尾についてステミング(または合成)する。これらの機能を行うための多様なステマは当分野で周知である。いくつかの実施形態では、正規化ステップ440はヒューリスティックなステマを使用するが、他の実施形態では、正規化ステップ440はテーブルベースの確率論的ステマを使用する。さまざまなステミングプロセスに関する追加情報は、例えば、クロフト他著「検索エンジン 実務面における情報検索」の91〜96ページ(アディソン・ウェズリー、2010年)に記載されており、参照によりこれに組み込む。
正規化トークンが形成されると、ステップ450でそれをデータベース261に維持されているトークン辞書の内容と比較し、新たなトークンがあればそれに固有特定番号(例として、NORM_TOKEN_ID)を割り当てて、辞書に登録する。
ステップ460で、大域的文書頻度の逆数(大域的IDF)テーブルを更新する。IDFテーブルはメッセージのグループ内のトークンまたは組/句の希少度を特定する。例として、トークンのIDF値は、メッセージの総数をトークンが出現するメッセージ数で除した値の対数をとって判定する。したがって以下のようになる(以下の式[1]を参照):
式[1] IDF(トークンi)=(log((メッセージ数)/(トークンiのあるメッセージ数))
組または句のIDF値を同様に判定し、高値の組および句を特定するために使用する。好ましくは、IDF値は各メッセージが受信されるたびに更新される。したがって、各メッセージが受信されるたびに、メッセージ数は増分される。またメッセージ内の各トークンiについて、トークンiのあるメッセージ数は増分される。メッセージ内のトークンのIDF値が計算されると、各値はデータベースに格納されて、対応する正規化トークンと関連付けられる。その名前が示唆するように、GLOBAL IDFテーブルはシステム200が処理する全メッセージ内のトークンについての文書頻度の逆数を格納する。システムの代替例示的な実施形態では、IDFの作成に寄与するメッセージのサブセットを制限することを許してもよい。
その後の処理をやりやすくするために、トークン化ステップ420中に生成されるオリジナルトークンのそれぞれおよび正規化ステップ440中に生成される正規化トークンのそれぞれによって、各メッセージをトークン化プロセス中に逆引き索引付けする。逆引き索引は、各トークンについてそのトークンが出現するすべてのメッセージをリスト表示する用語索引であり、有利なことに、所定の時間間隔中にメッセージに出現する回数を示す。逆引き索引は、前記トークンを使用する所定の時間間隔のメッセージのリストと、その間隔中にメッセージに出現する前記トークンの回数のカウントとの両方にアクセスを提供するデータベースビューとともに、このトークン対メッセージの用語索引を表すテーブルとして格納されている。逆引き索引はデータベース261に格納されている。
テキストメッセージの分析において、メッセージで表現される意見および/または気持ちを評価できると便利であることが多い。これを「感情」と称し、ステップ470の感情の判定はメッセージの感情表現を特定する。例として、これは、感情値または感情価をテーブルの語のセットに割り当てるルックアップテーブルを使用して行う。またメッセージ内の正規化トークンをテーブルエントリと比較して、その感情値を判定する。例えば、肯定から否定の感情は+10から−10の尺度で採点してもよい。「幸福感」などのトークンは+10に、「怒り」は−8と評価できるだろう。中立的なトークンはほぼ0の値となるだろう。感情値テーブルにないトークンは無視する。メッセージのレベル感情を計算するために、メッセージ内のトークンに関連付けられている感情値をテーブルから検索する。そしてメッセージ内のトークンの平均感情値を判定する。この平均値を、テキストメッセージに関連付けられているメタデータに加算する。他の例示的な実施形態では、感情クラスの確率測度を使用する(例、感情分類された訓練セットで訓練されるサポートベクターマシン)。
平均感情値の判定を図示するフローチャートを図5に示す。ステップ510で正規化トークンを受信する。ステップ520で、トークンを使用してトークン−感情価テーブルの感情値または感情価値を探す。次にステップ530でテーブルから検索した値を使用してメッセージの平均感情値を計算する。次にステップ540で計算した感情値を戻して、データベース261に格納する。
ステップ480はデータベースから各メッセージの文書特徴ベクトル(DFV)をアセンブルする。DFVは以下の項目を含む:
メッセージ(またはメッセージセット)内の頻度、TFにトークンのIDF値を掛けた値を含むメッセージ(またはメッセージセット)内の各独自のトークンの次元;
頻度およびIDF値を含むメッセージ(またはメッセージセット)内に出現するトークンの各正規化バージョンの次元;
一定の高IDF名詞組/句の次元;
ホスティングプラットフォームから受信するメタデータの各ポイントの次元(例、作者、プラットフォーム、地理的タグ(ジオタグ)、言語、タイムスタンプ、追加の注釈タグなど);
生メッセージに出現する参照URL;
肯定の感情値;および
否定の感情値。
メッセージのDFVをアセンブルした後、クラスタリングステップ320は、別のメッセージのMSG_IDを提供することによって、その別のメッセージを処理する準備ができていることを知らされる。
クラスタリングステップ320は連続操作して、だんだんと長い期間にわたって受信する共通のトークンを有するメッセージをまとめる。このクラスタリングプロセスは異なる期間にわたって並列操作する。その操作を図6に模式的に示している。例として、1分の期間内に特徴セット生成器480から受信するすべてのメッセージをまずまとめる。このプロセスをその後の1分の時間間隔ごとに特徴セット生成器480から受信したメッセージに連続して繰り返す。参照しやすくするために、このクラスタリングは図6ではレベルAクラスタリングとして示している。さらに、レベルAクラスタリングと並列で、5回連続の1分の各期間からクラスタ化されたメッセージをまとめて5分クラスタにする。このクラスタリングは図6ではレベルBクラスタリングとして示している。またレベルAおよびレベルBのクラスタリングと並列で、2回連続の5分の各クラスタからのクラスタ化されたメッセージもまとめて10分クラスタ(レベルCクラスタリング)にする。3回連続の10分の各クラスタからのクラスタ化されたメッセージはまとめて30分クラスタ(レベルDクラスタリング)にする。2回連続の30分の各クラスタからのクラスタ化されたメッセージをまとめて1時間クラスタ(レベルEクラスタリング)にする。
このように、レベルAクラスタリングはそれぞれ1分(または1時間の1/60)の時間間隔で行い、レベルBクラスタリングはそれぞれ5分(または1時間の1/12)の時間間隔で行い、レベルCクラスタリングはそれぞれ10分(または1時間の1/6)の時間間隔で行い、レベルDクラスタリングはそれぞれ30分(または1/2時間)の時間間隔で行い、レベルEクラスタリングは1時間の時間間隔で行う。レベルBクラスタリングはテキストメッセージの最初の1分間隔のクラスタリングが完了するとすぐに始まり、クラスタ化されたメッセージがステップ710に提示される。レベルCクラスタリングは1分間隔の最初の5分間隔のクラスタリングが完了するとすぐに始まり、クラスタ化されたメッセージがステップ710に提示され、以下同様である。
このプロセスはこれ以上長い期間中も同様に継続する。例として、4回連続の1時間のクラスタは4時間のクラスタにまとめられる。さらに連続4時間のクラスタを使用して、8時間、12時間および/または24時間のクラスタを形成する。連続24時間のクラスタを使用して5日および/または7日のクラスタを形成する。連続1週間のクラスタを使用して1ヶ月のクラスタを形成する。連続1ヶ月のクラスタを使用して四半期、半年および1年のクラスタを形成する。ここでも、これらのクラスタリング操作はより高い頻度(レベルA〜レベルE)のクラスタリング操作と並列で行う。
クラスタリングプロセスにおける異なるレベルを通して、クラスタ生成器が行うステップは本質的に同じである。主な違いはクラスタリングを行う期間(またはバケット)である。
図7に図示するように、クラスタ生成器320は入力ステップ710でクラスタ化するべきメッセージを受信し、ステップ715でこれらのメッセージをこのレベルのクラスタリングに関連付けられている期間中蓄積する。ステップ720で、シードトークンを使用してソフトクラスタを形成する。シードトークンは大域的IDFテーブルの所定の範囲内にあるトークンもしくは現在の時間間隔でより頻繁に使用されているトークンのいずれか、またはその両方である。ソフトクラスタはシードトークンのそれぞれに、そのトークンを包含する期間(またはバケット)のメッセージのすべてを関連付けることによって形成される。あるトークンを包含するメッセージの選択は、メッセージの特定のためにテキストトークン化プロセス中に形成したメッセージトークンテーブルの逆引き索引を使用して行う。
本発明のこの実施形態においてトークンを選択するために使用する大域的IDF値の範囲は、すくなくとも数千のトークンを網羅するよう十分に大きくするべきである。範囲の境界は、この段階のクラスタリングプロセスに使用されるトークンが、ある程度興味を持ちそうで平凡ではないメッセージを特定できるように、比較的特徴的になるように選択するべきである。同時に、使用されるトークンは、あまりに珍しくて監視されているメッセージ内での出現がめったに起こらないようなものにならないようにするべきである。
所定の時間間隔内で予想よりも頻繁に出現するトークンは、その時間間隔内のテキストメッセージのすべてのトークンの局所的IDF(LOCAL IDF)テーブルを構成することによって特定する。したがって以下のようになる(以下の式[2]を参照):
式[2] 局所的IDF(トークンi)=log((時間間隔内のメッセージ数)/(トークンiを持つメッセージ数))
予想よりも頻繁に出現するトークンは、局所的IDF値に対するトークンの大域的IDF値の比を形成し、閾値を超える大域的/局所的IDF比を有するトークンをシードトークンのリストに含めることによって特定する。好ましくは、時間間隔内で異常成長を経験していないトークンを排除できるように、閾値は1.0をゆうに超える値に設定する。
各ソフトクラスタに固有特定番号(例として、MSG_SET_ID)を割り当てて、キャッシュメモリ260に格納する。クラスタリング操作のこの段階では、複数のソフトクラスタにメッセージが出現してもよい。さらに、いくつかのメッセージは所定のIDF値の範囲内のIDF値または現在の時間間隔内でより頻繁に使用されるIDF値を有するトークンを包含しなかったため、おそらくソフトクラスタにはないだろう。
ステップ730で、メッセージのもっとも高い全体密度を表す各ソフトクラスタ内のメッセージのコアサブセットを選択して、ソフトクラスタから密度のもっとも高い中心領域に存在しないメッセージを除去することによって、ソフトクラスタの最良適合を作成する。これは各ソフトクラスタについて、そのソフトクラスタ内の各テキストメッセージの相対位置を記述する分布曲線を構成して行う。そして最大の密度集中を表すメッセージのサブセットをソフトクラスタのコアとして選択する。コアサブセット内のメッセージのDFVの加重平均である新たな文書特徴ベクトル(DFV)を作成する。
好適な実施形態では、ソフトクラスタの密度は、各構成要素のメッセージに、前記メッセージとソフトクラスタ内の他のメッセージとの間のペアワイズ平均コサイン類似度を関連付けることによって表す。2つのベクトルV1およびV2のコサイン類似度は、以下のように求められる(以下の式[3]を参照):
式[3] コサイン類似度=(V1・V2)/(‖V1‖‖V2‖)、ここで、ノルムは単純なユークリッドノルムを表す。
コサイン類似度は、各ベクトルで同じであるトークンのIDF値の二乗を合計し、同じであるメタデータの次元の加重値を加算し、その結果をV1およびV2のノルムの積で正規化して計算する。このため、密度が最大の領域は、このペアワイズ平均コサイン類似度がもっとも高いソフトクラスタのサブセットを選んで選択してもよい。
ステップ740で、複数のクラスタに存在する各メッセージを「もっとも近い」DFVを有する1つのクラスタに割り当てることによって、残りのソフトクラスタの重複を排除する。近さは、メッセージに関連付けられているDFVとそれが存在するソフトクラスタに関連付けられているDFVとのコサイン類似度を計算して判定する。いくつかの実施形態では、近さは、メッセージに関連付けられているDFVとクラスタ内のメッセージに関連付けられている各DFVとの平均コサイン類似度を計算して判定する。それからコサイン類似度(または平均コサイン類似度)がもっとも高かったクラスタにメッセージを割り当てる。その結果、このステップは、メッセージをそのもっとも類似しているクラスタに割り当て、そのクラスタだけに割り当てる。
ステップ750で、残りのクラスタおよびソフトクラスタリングステップ720でクラスタ化されなかったメッセージは、選択されたIDF値の範囲内のIDF値を有するトークンを包含しなかったため、これらに凝集型クラスタリングを行う。そのDFVのコサイン類似度として計算された2つのクラスタ間の距離が閾値距離未満の場合、および得られるクラスタの分布が疎性閾値未満の場合には、2つのクラスタを併合する。個々のメッセージはもっとも近い中心を持つクラスタ(つまり、前記メッセージがもっとも高い平均コサイン類似度を持つクラスタ)に併合される。この結果は高い平均コサイン類似度を持つメッセージのセットである。このメッセージのセットに固有特定番号MSG_SET_IDを割り当てて、キャッシュメモリ250に格納する。
ステップ760で、メッセージセットに関連付けられている高IDFトークンおよび句について、近傍感情値(sentiment values)を計算する。このプロセスの詳細は図8に示している。ステップ810で、クラスタ生成器のステップ750から正規化されたIDFタグ付きメッセージセットを受信する。ステップ820で、各トークンおよび句の近傍で感情価語(valence words)を特定し、その語の値を確認する。ステップ830で、近傍の感情値の加重平均を判定する。ステップ840で、加重平均を戻す。このプロセスの結果、リスト内の各語句の関連近傍感情値に加えて、メッセージセット内でもっとも記述的な語句を示す高IDF値を有する語句のリストが生成される。
ステップ770で、頻度(TF=メッセージ内の「単語頻度」)とIDF値との積がもっとも大きい語句を、生成されるタクソノミーの候補としてナレッジベースに提示する。TF×IDF値がそれより低い語句は、この新たな候補トピックの候補プロパティとしてナレッジベースに提示される。
ステップ780で、ステップ750で生成されてMSG_SET_IDで特定されるクラスタをデータベース261のメッセージセットテーブルMSG_SET_TBLに格納する。メッセージセットはメッセージセット内のテキストメッセージのトークン、メッセージセット内のテキストメッセージに関連付けられている名詞および名詞句、各テキストメッセージのソースの識別子、およびテキストメッセージを伴う他のメタデータを含む。分類器にメッセージセット用のMSG_SET_IDを提供することによって、分類器にメッセージセットが利用できることが知らされる。
ステップ790で、ステップ750で生成されたクラスタは、次のクラスタリングレベルのクラスタ生成器への入力にも提供される。例えば、ステップ750の出力が1分の時間間隔(レベルA)で生成されたクラスタである場合、そのクラスタは、5回連続の1分の出力を蓄積してクラスタ化するレベルBのクラスタ生成器の入力に提供される。
レベルBおよび他のすべてのレベルのクラスタリングプロセスは、レベルAのクラスタリングプロセスと同じステップに従う。ステップ715でクラスタ生成器320はクラスタリングのそのレベルに関連付けられている期間(またはバケット)中メッセージセットを蓄積する。そのため、レベルBでは、クラスタ生成器は5分間隔でメッセージセットを蓄積する。ステップ720で、IDFテーブルの所定の範囲内の値であるトークンもしくは5分の時間間隔内に通常よりも高い頻度で使用されているトークン、またはその両方のトークンをシードトークンとして選択してから、シードトークンのそれぞれに、そのトークンを包含する5分の期間(またはバケット)のメッセージのすべてを関連付けることによって、ソフトクラスタを形成する。ここでも、局所的IDF値に対する大域的IDF値の比を閾値と比較して、高い頻度で使用されるトークンを判定するが、局所的IDF値は新たな5分間隔内のメッセージのすべてを使用して計算する。好ましくは、トークンIDF値の所定の範囲は、処理の各レベルで同じである。しかし、いくつかの実施形態では、時間間隔の規模が大きくなるにつれて範囲を変化させることが望ましくてもよい。
ここでも、あるトークンを包含するメッセージの選択は、テキストトークン化プロセス中に形成されたメッセージトークンの逆引き索引を使用して行う。ここでも、複数のソフトクラスタにメッセージが出現してもよい。また、いくつかのメッセージはどのソフトクラスタにもないだろう。次に、より長い時間間隔に基づいて新しいメッセージセットを生成するようにクラスタリングプロセスの残りのステップを行う。新しいメッセージセットに固有特定番号MSG_SET_IDを与えて、この新しいメッセージセットも、メッセージセットテーブルMSG_SET_TBLに格納する。
そしてだんだんと継続時間を延ばした時間間隔でプロセスを繰り返す。
分類器はクラスタ生成器から受信した入りメッセージセットを、さまざまなテキストメッセージが関係するトピックを判定するように分類ルールのセットをそれに適用して分類する。ルールは本質的に次のフォーマットである。「Aがメッセージセット内で見つかれば、メッセージセットはZ%の尤度(または関連性)でトピックBに関係する」。
まずナレッジベース262に格納されているオントロジーおよびタクソノミーからのルールの作成を説明する。
ナレッジベース262はサブジェクトに関する体系的な知識の集合体である。この集合体は、クラスおよびクラス同士を互いに関係付けるクロスリンクテーブルに関するデータの「クラス」および「インスタンス」の形態で体系付けられている。この体系はオントロジーの構造であるため、ナレッジベース262はオントロジーとも呼ばれる。ナレッジベースは、クロスリンクとして表されるノード間の関係のセットを持つナレッジベースのノードとして各トピックグループを表す情報トピック(またはトピックグループの集合体と考えてもよい。ナレッジノードに関する特定の情報(例、会社名)はトピックグループ・プロパティバッグに格納される。クロスリンクに関する特定の情報(例、2つのノード間の親子関係)はクロスリンク・プロパティバッグに格納される。
ナレッジベースの操作を制御するために多様なソフトウェアが利用できる。例として、ナレッジベース262はウェブオントロジー言語(OWL)、特にOWL2として知られるバージョン2を使用している。OWL2に関する詳細情報はwww.w3.org/TR/2009/REC-owl2-primer-20091027で入手できるOWL2ウェブオントロジー言語入門に記載されており、参照によりここに組み込む。
タクソノミーとはナレッジベースまたはオントロジーの2以上のノード間の階層関係の仕様である。タクソノミーは例として本システムではオントロジーから知識のノードに非循環有向グラフとして表されている。関係はリンクに沿っているため、タクソノミーはオントロジーのファセットを記述するものと考えてもよい。エンドユーザはこれらの階層関係をナビゲートすることによってナレッジベースを視覚化できる。タクソノミーも、エンドユーザがシステム200で処理するための特定の検索またはアラート基準を作成するときにありうる選択肢の範囲をすばやく減らすために選択してもよい情報のファセットの視覚化を可能にする。
タクソノミーとオントロジーとの関係を図17Aおよび図17Bに図示している。有価証券およびその発行者に関するタクソノミー1810およびオントロジー1840の小部分を示している。タクソノミー1810の図示される部分は次の6つのノードを有する。アメリカン・インダストリアル・グループ・インク(American Industrial Group Inc.)1820、ファラオニック・インシュランス・カンパニーSAE(Pharaonic Insurance Co. SAE)1822、AIGライフ・ホールディングスUSインク(AIG Life holdings US. Inc.)1824、AGCライフ・インシュランス・カンパニー(AGC Life Insurance Co.)1826、アメリカン・ジェネラル・キャピタルLLC(American General Capital LLC)1828、AGCライフ・インシュランス・カンパニー(AGC Life Insurance Co.)1830。
タクソノミーはノード間の階層関係、とくに子会社と親会社との関係を規定する。この関係はさまざまなノード間のリンク1832で描かれている。たとえば、ノード1824とノード1820との間のリンク1832は、AIGライフ・ホールディングスUSインク1824がアメリカン・インターナショナル・グループ・インク1820の子会社であることを示している。
オントロジー1840の図示する部分は次の4つの主なトピックグループを有する。会社トピックグループ(Company Topic Groups)1850、銘柄トピックグループ(Ticker Topic Groups)1860、地理トピックグループ(Geography Topic Groups)1870、人物トピックグループ(People Topic Groups)1880。会社トピックグループ1850の中にアメリカン・インダストリアル・グループ・インクのトピックグループ1852およびAIGライフ・ホールディングスUSインクのトピックグループ1854がある。銘柄トピックグループ1860の中にAIG米国株式(AIG US Equity)のトピックグループ1862がある。地理トピックグループ1870の中に米国のトピックグループ1872、ニューヨークのトピックグループ1874およびテキサスのトピックグループ1876がある。トピックグループ1880の中にニコラス・R・ラスムソン(Nicholas R. Rasmussan)氏のトピックグループ1882およびジョン・A・グラフ(John A Graf)氏のトピックグループ1884がある。
グループのほとんどにさまざまなプロパティが関連付けられており、グループ間にさまざまなクロスリンクがある。図17Aおよび図17Bに図示するさまざまなグループに関連付けられているプロパティは括弧で囲まれており、図17Aおよび図17Bでは関連付けられているグループに連結されている。例えば、会社トピックグループに関連付けられているプロパティは子会社の名称、会社の場所およびその所在州および設立州を特定する。銘柄トピックグループに関連付けられているプロパティは会社の株式銘柄および代替銘柄を特定する。人物トピックグループに関連付けられているプロパティは、他の特徴のなかでもとくに、非排他的に、役割、職業、専門分野およびさまざまな発信プラットフォームでのアカウント名など、その肩書きを特定する。
トピックグループ1854は会社間クロスリンク1856でトピックグループ1852にリンクされている。トピックグループ1876は地理間クロスリンク1877でトピックグループ1872にリンクされている。銘柄トピックグループ1860は銘柄対会社クロスリンク1864で会社トピックグループ1850にリンクされている。地理トピックグループ1874は会社対地理クロスリンク1878で会社トピックグループ1852にリンクされている。地理トピックグループ1876は会社対地理クロスリンク1879で会社トピックグループ1854にリンクされている。そして、人物トピックグループ1882は人物対会社クロスリンク1886で会社トピックグループ1854にリンクされている。さらに、図17Aおよび図17Bには完全には図示していないが、ある会社、地理、銘柄および人物に関連付けられているトピックグループと、他の会社、地理、銘柄および人物に関連付けられているトピックグループとの間にもクロスリンクがある。
タクソノミーは、タクソノミーにおける最終的な親会社であるアメリカン・インターナショナル・グループ・インク1820と、オントロジーにおけるアメリカン・インターナショナル・グループ・インク・トピックグループ1852との間の第1リンク1890、およびタクソノミーにおける第1子会社であるAIGライフ・ホールディングスUSインク1824とオントロジーにおけるAIGライフ・ホールディングスUSインク・トピックグループ1854との間の第2リンク1892でオントロジーに関係付けられる。図11に関連して以下説明するように、タクソノミーとオントロジーとの関係を、本システムでは分類ルールの生成時に使用する。タクソノミーはさまざまなインターフェースアプリケーションおよびAPIを通してエンドユーザに露出して、ユーザにナレッジベースおよび分類器が使用するトピックの語彙でアラートおよび検索要求を指定させるようにする。
図9および図10の装置を使用して情報をナレッジベースにロードする。この装置はOWL2オントロジーローダ1010と、生データオントロジーローダ1020と、オントロジー/タクソノミーストア1040と、オントロジー/タクソノミーリレーショナルデータベース管理システム(RDBMS)1050と、高度推論分類器ルール抽出器1070と、分類器ルール抽出器1080とを備える。ローダ1010,1020は政府機関、民間のビジネス情報プロバイダおよび同様な他の機関などのさまざまな情報源からデータを取得するためのゲートウェイとして機能する一連のロードアプリケーション1012A〜Nおよび1022A〜Nを備える。ロードアプリケーションはソースのインターフェース仕様に適合し、プロバイダが利用可能にしている情報の編成を理解する。次に、ゲートウェイで受信した情報をプロセッサ1015および1025A〜Nで正規化した形態に編成し、ナレッジベースに組み入れることができるようにする。
ユーザが提出したオントロジーおよびタクソノミー情報は、OWL2オントロジーローダ1010への入力として提供される。多様なソースが、入力を生データオントロジーローダ1020に提供する。例として、金融情報処理専用のコンピュータシステムの場合、これらのソースには、フーバーズ(Hoover’s)、トムソン・ロイター(Thomson−Reuters)、ブルームバーグ(Broomberg)、レクシスネクシス(LexisNexis)、ダンアンドブラッドストリート(Dunn & Bradstreet)、S&Pなどが含まれるであろう。ソースには、EDGARシステムから入手できる四半期報告書および年次報告書などの政府規制の結果提供される情報、または商務省から入手できる一般ビジネス情報も含まれるであろう。
ローダの一般的な操作は、到着するデータセットを処理して、現在システム内にあるデータへの影響を判定し、データがまだそのようなフォーマットに編成されていない場合はデータを追加(ADD)/削除(DELETE)/変更(CHANGE)操作に変換することである。(変更操作は、削除後に行う追加である)。入りデータセットは当該フォーマットに頻繁に編成されるが、すべてのデータセットがそのように編成されるわけではない。そして更新を正規化する必要がでてくる。この更新ストリームの正規化により、ロードテーブル(例として、LD_LOAD_INPUT_TBL)への一連の制御操作を連続的に適用することが可能となる。ある日から翌日までに変化したものを判定するためには、前日のナレッジベースのスナップショットを当日のスナップショットと比較しなければならない。こうする必要があるのは、システムはナレッジベースに変化のみを適用し、再分類の影響を最小限にしておくためにはどのベンダの変化も把握する必要があるためである。
好ましくは、各ローダプロセスはフィールド関連テーブルとして1つのLD_LOAD_INPUT_TBLテーブルにデータを提示し、テーブルの各行はデータプロバイダの記録におけるデータの列である。これらのフィールドはID、タイプ、範囲/列挙および明細を有しているので、プロバイダの記録の各フィールドは将来の使用中ずっと監査可能である。システム全体のデータの監査能力により、データプロバイダの入力に調整が必要なときには補正を行うことができる。
ローダ1010および1020の詳細を図9に示している。ローダは入力905,910と、同じ構造を有する2つのロードテーブルLD_LOAD_INGEST_TBLおよびLD_LOAD_INPUT_TBLとを備える。入力905は生データの週間送信などのベンダのアプリケーションプログラムインターフェース(API)をサポートする。入力910はFTP取得生データ日次ファイルなどのベンダのフラットファイルフォーマットをサポートする。本発明の実施において他の入力も使用してもよい。例として毎日行うローディング操作の始めでは、LD_LOAD_INGEST_TBLテーブルは空で、LD_LOAD_INPUT_TBLテーブルはナレッジベースの内容を表すフラットファイルを包含している。
データをLD_LOAD_INGEST_TBLテーブルにロードする前に、監査証跡(オーディット・トレイル)を作成する。LOAD_IDを作成する。データを供給するデータベンダの名称およびタイムスタンプは監査テーブルのLOAD_IDに関連付けられる。そして監査テーブルを格納する。次にベンダからのデータを構文解析して既知の全データフィールドを突き止め、この情報をLD_LOAD_INGEST_TBLテーブル915にロードする。次にステップ920でベンダのデータの当日の画像を作成する。ステップ925でこの画像をLD_LOAD_INPUT_TBLテーブルにあるものと比較する。違いがなければ、ステップ930でLD_LOAD_INPUT_TBLテーブルを変更しないまま残し、このデータに関するローディング操作は終了する。
違いがあれば、ステップ940で、明示的な変更があるかどうかのテストを行う。前述したように、変更は、削除後に行われる追加から成る。変更があれば、ステップ945でフィールドごとの変更記録を作成し、ステップ950で明示的な削除記録を作成し、ステップ955でLD_LOAD_INPUT_TBLテーブルに新たな変更記録を作成する。明示的な変更がなければ、ステップ960で、暗黙的な変更があるかどうかのテストも行う。暗黙的な変更とは、前日のデータからデータが除去されているが、その除去について通知されていないものである。あれば、ステップ980でLD_LOAD_INPUT_TBLテーブルに明示的な変更記録を作成する。
変更があれば、ステップ965で、明示的な削除があるかどうかのテストを行う。明示的な削除がなければ、ステップ970で追加があるかどうかのテストを行う。あれば、ステップ975でLD_LOAD_INPUT_TBLテーブルに新たな追加記録を作成する。最後に、明示的な削除があれば、ステップ980でLD_LOAD_INPUT_TBLテーブルに明示的な削除記録を作成する。
ステップ990で、LD_LOAD_INPUT_TBLテーブルで未処理の記録をナレッジベースに結合する。図10に図示するように、ナレッジベースはオントロジー/タクソノミーJena2オブジェクトストア1040またはオントロジー/タクソノミーRDBMS1050のいずれかに格納されている。
高度推論分類器ルール抽出器1070およびルール抽出器1080は、タクソノミーが規定するルートに従ってオントロジーのノードを進むことによってオントロジーからルールを作成する。タクソノミーを通るノードごとに作業して、オントロジーの対応するノードにアクセスし、ノード近傍のやや小さいリンクにそのノードに関連付けられているすべてのプロパティをルールに入れることによってルールを作成する。プロセスが完了すると、ルールをそのキーワード(本質的に、すべて名詞)で索引付けして、ナレッジベースルールキーワード索引(KBRKI)を作成し、索引およびルールを分類器ルールデータベース262に格納する。
分類器ルールは、以下の実施例で示されるようにセクションにグループ分けされるルールラインアイテムのルールセットと考えられる。分類器ルールは、ナレッジベースルール生成器の構成で特定される特定タクソノミーの各特定ノードをトラバースすることによって生成される。各ナレッジベースのタクソノミーノードはオントロジーのトピックにリンクされており、トピックは他のオントロジーノードにリンクされているため、そのトピックのプロパティおよびクロスリンクで特定される1の距離を持つすべてのオントロジーノードを調べることによって、ルールを所定のトピックのプロパティから抽出してもよい。各近くのオントロジーノードのプロパティは、各セクションのスコアがメッセージのクラスタ化したセットの分類に割り当てられる総合スコアに貢献するようにセクションに一括されるルールラインアイテムになる。好適な実施形態ではルールのどのセクションのFACET_INTERSECTION_WEIGHTも調整可能であり、所定のトピックのルールに含むために選択される各セクションに割り当てられなければならない。そのため、ルールが生成されるときには、以下のようになる。
・そのタクソノミーの文脈でルールが生成される。
・分類ルールの構成セクションは同じかまたは異なるタクソノミーにリンクされているトピックから取り出していることが分かっており、FACET_INTERSECTION_WEIGHTと呼ばれるシステム構成重みを有するファセットインターセクションを形成し、これはそのままACCRUE()演算子で表されるルールのセクションに追加される。
・トピックが、ルール生成器が実行されている複数のタクソノミーに関連付けられている場合、既存のルールに結合される。ただし、そのインターセクションのFACET_INTERSECTION_WEIGHTはすでにルールに追加されている以前の重みとは異なっていてもよいため、そのトピックプロパティは追加されるセクション/ルールラインアイテムの重みが異なることを除いてルールセットで重複することになる。
図11にルール生成プロセスをより詳細に示す。図11ではナレッジベースはエレメント1110で表されている。ルールを作成するために、タクソノミーに従ってトラバースされる。ステップ1120でルール生成プロセスが始まる。このプロセスでは、W1またはFACET_INTERSECTION_WEIGHTとW2またはINDEPENDENT_SECTION_WEIGHTとの2つの重みを使用する。ステップ1125で、ルールのセクションのW1をテーブル(例として、HB_FACET_INTERSECTION_TBLテーブル)から検索する。次にステップ1130で、W1がルールのすべてのセクションについて検索されたかどうかのテストを行う。されていなければ、プロセスはステップ1125に戻り、ルールの次のセクションのW1を検索する。ルールのすべてのセクションSについてW1を検索したら、次にプロセスは各セクションiのW2を計算する(以下の式[4]を参照):
式[4] W2i=(W1i/(SUM(SのすべてのjのW1j)))*(1−MAX(SのすべてのkのW1k))
ルールが真である関連性または尤度は、どのセクションの条件が満たされているかに依存し、さらに以下の公式を使用して計算する(以下の式[5]を参照):
式[5] 関連性%=MAX(スコアi×SのすべてのiのW1i)+SUM(スコアj×SのすべてのjのW2j))
したがって、INDEPENDENT_SECTION_WEIGHTは、各セクションが他のセクションが与えるサポートとは独立したルール全体のサポートに貢献する可能性のある部分を表し、FACET_INTERSECTION_WEIGHTは1以上のセクションが非累積的に貢献する可能性のあるルールのサポートの部分を表す。
ステップ1145で、タクソノミーが完了しているかどうかのテストを行う。完了していなければ、ステップ1150でプロセスはタクソノミーにリンクされているオントロジーの次のノードに移動し、ステップ1120に戻って次のルールを作成する。
タクソノミーが完全にトラバースされていれば、ステップ1160で分類器の演算用キャッシュがロードされる。ナレッジベースルールキーワード索引(KBRKI)が生成されて、ステップ1165でナレッジベース262に格納される。その名前が示唆するように、KBRKIは生成されるすべてのルールに適用されるキーワード索引である。例として、キーワードはルールで使用されるすべての名詞および名詞句である。さらにKBRKIは各名詞が所定のルールで出現する回数のカウント、および全体としてルールセットに出現する回数も包含する。ステップ1170で分類器ルールベースが生成されて、分類器ルールデータベース263に格納される。ステップ1175で、編集可能な分類器ルールベースが生成されて格納される。ステップ1180で、このルールベースを適切なデータアナリストツールを使用して手動で編集してもよい。
分類ルールの以下の実施例は、重みが例示的であるルール生成プロセスを示す。
AIG(会社)の会社トピックノードを、COMPANY−COMPANYタクソノミーファセットをトラバースして取得する。会社トピックノードのすべてのプロパティをデータベースから問い合わせて、会社名、会社の別名および会社の概要などの代替アイテムについてルールセクションを作成する。このセクションは70のFACET_INTERSECTION_WEIGHTを持つことから、INDEPENDENT_SECTION_WEIGHTは21となる。
AIG(会社)トピックノードからの距離が1であるため、NYおよびDCそれぞれの地理トピックノードを取得し、COMPANY−GEOGRAPHYタクソノミーファセットのメンバーとして特定する。これらは同じタイプで、会社に関連するため、1つにまとめる。
同様に、AIG(会社)のプロパティの親会社トピックノードを取得して、COMPANY−COMPANYタクソノミーファセットのメンバーとして特定する。これを使用して、ルールの抽出アルゴリズムを子会社ノードの場合と同じように親会社に適用する。
AIG(会社)からの距離が1であるため、AIG(AIG米国株式)の銘柄トピックノードを取得して、TICKER−COMPANYタクソノミーファセットのメンバーとして特定し、これは20のFACET_INTERSECTION_WEIGHTを持つことから、INDEPENDENT_SECTION_WEIGHTは6となる。
AIG(会社)からの距離が1の人物トピックノードを次に取得して、PEOPLE−COMPANYタクソノミーファセットのメンバーとして特定されるため、1つにまとめる。これらは10のFACET_INTERSECTION_WEIGHTを持つことから、INDEPENDENT_SECTION_WEIGHTは3となる。
分類ルールは具体的には図19〜図23に掲載するとおりである(注:重みは例示にすぎない):
図12に図示するように、分類器330は以下の操作を行う。ステップ1210でクラスタ生成器から入りメッセージセットを受信して、ステップ1220で各メッセージセットに適用するべき分類ルールのセットを選択し、ステップ1230で各メッセージセットを分類する。ステップ1230は典型的には、大量の分類スレッド1240a〜nにわたって並列で行う。ステップ1250iで、各スレッド1240iにおいて、適用するべき1または複数の分類ルールを判定する。ステップ1260iでルールの適用を開始する。ステップ1270iで、その特定の1または複数のルールについて、メッセージセットが特定のトピックに関係する確率(または関連性)を求める。ステップ1280で、スレッド1240iの分類ルールの結果が他のスレッドで計算された結果と組合せる準備ができているかどうかのテストを行う。準備ができていれば、さまざまな分類スレッドの結果を関連性の降順でランク付けする。ステップ1290でメッセージセットのランク付けをアラータステップ340に発行する。準備ができていなければ、ステップ1295でメッセージセットの分類を絞り込むかまたは拒否する。
前述したように、ステップ1210で受信したメッセージセットは、メッセージセット内で特定されて、高いIDF値を有する名詞および名詞句を包含するメッセージセットおよびメタデータ内のテキストメッセージのトークンを含む。ステップ1250iで、メッセージセットの分類で使用することになる特定の分類ルールを、メッセージセットの各トークンを使用して、そのトークンを参照する1または複数のルールの識別子をKBRKIから検索することによって選択する。ステップ1250iでそのように特定された1または複数のルールを次にステップ1260iで適用開始して、ステップ1270iでメッセージセットがさまざまな特定のトピックに関係する関連性を判定する。メッセージセットのすべての名詞がルールを持つわけではないが、その名詞は関連分類になることがなかったため、そのことは、実施されるシステムにとって重要ではないことに留意されたい。
図13Aおよび図13Bは、本発明の実施において採用されるユーザインターフェースの例示的な実施形態を図示するブロック図である。
ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)1310と、アプリケーションサーバ1320と、ブラウザグラフィカルユーザインターフェース(GUI)1340と、APIインターフェース1350と、データベース1380と、ハブアプリケーションサーバ1370とを備える。
グラフィカルユーザインターフェース1310は、Java(登録商標) APIインターフェース1312と、リッチクライアントプラットフォーム1314とを備える。アプリケーションサーバ1320はアプリケーションサーバコア1322と、メモリデータベース1324と、リレーショナルデータベース1380へのStomp接続インターフェース1326とを備える。
ブラウザGUI1340は、さまざまな通信プロトコルを使用する複数のユーザにGUI1310へのブラウザアクセスを提供する。APIインターフェース1350はJava(登録商標) APIインターフェース1352と、C/C++APIインターフェース1354とを備える。
スポークデータベース1380は、名前と値のペアデータアラートデータマップ1382と、MySQLデータベース1386と、MySQLデータベース1386で実行するStompユーザ定義機能1384とを備える。アラートデータマップ1382は、任意のソーシャルメディアデータをエンドユーザに提供できるようにする。到着するデータはMySQLデータベースに置かれて、そこからデータベースで実行するユーザ定義機能に供給できる。
ハブアプリケーションサーバ1370はアプリケーションサーバコア1372と、データベース1374と、アラータ1376とを備える。
アラートおよび検索基準のフォーマットは同じである。各要求は、関心のあるトピックグループのブール組合せ、トピックグループの関連性クラス、間隔持続時間、要求される期間、ボリュームおよび感情閾値、およびベースラインタイプを含む。基準はフリーテキストも含んでもよい。これらの要求を作成するための例示的なGUIの画面を図15Dから図15Lに図示する。
関心のあるトピックグループは、利用できるトピックのブール組合せとして示される検索またはアラートサブジェクトの明細である。このブール組合せは論理和標準形(DNF)でアラート要求プロセッサ1472(図14Aおよび図14B)によって受信される。つまり、ブール式は論理積節の論理和として記載される。DNFでは、ブール演算子はAND,ORおよびNOTに制限される。利用できるトピックは、図9、図10ならびに図17Aおよび図17Bに関連して上記説明したシステムのナレッジベース(またはオントロジー)に格納されているものである。
トピックグループの関連性クラスは、メッセージセットについて、規定されたトピックグループ要求に対する応答を提供する最低受入れ可能な関連性クラスを規定する。前述したように、関連性クラスとは、関心のあるトピックグループによって規定されるトピックが、メッセージセットを備えるテキストメッセージで議論される確率の範囲である。例として、以下の4つのクラスを規定してもよい:
V(超高のトピックグループ関連性(確率95〜100%));
H(高(90〜95%));
M(中(80〜90%));および
L(低(60〜80%))。
間隔持続時間は、トピックグループ要求に対する応答を提供するメッセージセットについて、メッセージをクラスタ化した期間(または細分性)を規定する。前述したシステムの場合、この期間は例として1分から1年の範囲である。
要求される期間は、トピックグループ要求に応答してメッセージセットを調べる期間を規定する。この期間はトピックグループ要求が検索であるかまたはアラートであるかを判定する。現在までの期間の場合はいずれも、要求は検索である。現在または将来の要求はアラートである。
ボリューム閾値は、要求の対象であるトピックグループに関する予想/ベースライン活動レベルからの偏差を規定する。同様に、感情閾値は、トピックグループ要求に対する応答を提供することになるメッセージセットの予想/ベースライン感情レベルからの偏差を規定する。ベースラインタイプはこれらの閾値の参照ベースラインをどのように計算するかを規定する。例えば、単純移動平均でもよい。例として、予想ベースラインからの偏差は以下の式で求められる:
式[6] 偏差=((A2−E2)−(A1−E1))/t
上記式において、
A2は現在の時間間隔における活動量(または感情値);
A1は直前の時間間隔における活動量(または感情値);
E2は現在の時間間隔における予想活動量(または感情値);
E1は直前の時間間隔における予想活動量(または感情値);および
tは分単位の時間間隔。
例として、予想値とは、測定された最後の時点からの移動平均の予測である。例として、ボリュームの場合、10〜−10の範囲の偏差をトピックに関する関心の会話レベルと考え、+10〜+25の範囲の偏差を関心が高まっているレベルと考え、+25超の偏差を関心のバイラルレベルと考える。−10〜−25の範囲の偏差は薄れていると考える。−25未満の偏差は弱いと考える。
フリーテキストアラート要求はハブアプリケーションサーバ1470(図14Aおよび図14B)で受信して、図9、図10ならびに図17Aおよび図17Bに関連して上記説明したオントロジー1840(図17Aおよび図17B)への将来のトピックグループの追加として、ハブデータベース260に管理要求として格納する。
トピックグループ要求に対する応答は、応答がなされた要求にリンクさせるアラートIDと、応答が属する間隔持続時間と、トピックグループ要求に対する応答を構成するメッセージセットのボリューム値および感情値と、ボリュームベースラインおよび感情ベースラインと、トピックグループ要求に反応的なメッセージセットに関連付けられている他のトピックグループIDのリストと、これらのメッセージセットからのサンプルメッセージとを含む。ボリュームの大きさのため、トピックグループ要求に応答して完全なメッセージセットそのものが供給されずに、望まれるなら検査用に利用できるようにする。他のトピックグループIDのリストはトピックグループの関連性別に最高値から最低値までランク付けする。またリストはある時点、例として60%で打ち切る。アラート要求に対する例示的な電子メールの応答を図15Mに示し、以下に説明する。
ユーザインターフェースの重要な特徴は、ユーザがナレッジベースで既知の知識の「ファセット」をナビゲートし、「アラート/要求基準」を作成または編集したいときに開始されるプロセスの一部が作り上げられていく基準を、加法標準形(DNF)ブール式に追加することによって、必要なものにまで掘り下げられることである。
以下のセクションでは、検索クエリを導出するときにユーザにいかに役立つかを説明する。ユーザは必ず図18Aの第1レベルのドロップダウンからアイテムを選んで開始する。ドロップダウンアイテムは、「startTaxonomyNode」にヌル値を渡しながら、API:dmTaxonomyGetRequestを使って検索できる。
ユーザがアイテムを選択したら、例えば、ユーザが「GICS」を選択したら、API:dmTaxonomyGetRequestを使って値をスポークに送り返す。APIコールバック(dmTaxonomyGetRequestCallBack)はユーザに関連タクソノミーのリストと、選択されたタクソノミーのファセットID、つまり「GICS」とを提供する。コールバック機能は、同じユーザが複数のブラウザまたはタブを使って並列で行っている異なるファセット還元同士を区別するためにファセットグループID(facetGroupID)も提供する。ユーザは返されたリストから選択するか、または自分の検索をタイプ入力し始めることができる。ユーザが文字列にタイプ入力するとき、すでに選択された「タクソノミー」に関連してそれまでにタイプ入力された「不完全な文字列」を使用して自動完全リストを生成するべきである。
図18Bは何もタイプ入力せずにユーザに利用できる初期リストを示す。しかし、図18Cはユーザが提示されるリストを無視して、「石油」とタイプ入力し始めている状態を示している。これにより「石油*」で始まるすべてのタクソノミーがプルダウンされ、すでに選択されている単語「GICS」に関係付けられる。このために使用するAPIはdmTaxonomyNodeSearchRequestである。このAPIへの入力の1つが、「GICS」のものと同じ、前のファセットID(priorFacetID)である。ユーザは、図に明記されるトグルボタン(ボックスのもっとも右の部分)を使用して、このためのブール演算子および否定要求も提出できるべきである。たとえば、ユーザが「^」と「空の否定」とを選択した場合、<「OIL*」かつ「GICS」>の照合結果を要求していることを意味する。このAPIコールバック(dmTaxonomyNodeSearchRequestCallBack)機能は照合するタクソノミーのリストを返す。
直前の2つの段落のステップを新たなセットに繰り返して適用して、継続してもよい。
ユーザは前のファセットIDを選択するオプションも有しており、それとともに文字列にタイプ入力された新たな文字がブール演算子を使用して関連付けられて、新たな結果セットを出す。たとえば、図18Dを参照すると、ユーザはすでに階層の3レベルを選択済みである。現在、ユーザは第4レベルを選択しているところである。しかし、第4レベルでは、ユーザはブール演算子を使って結合されるタイプ入力した文字列に関係するすべてのタクソノミーと「レベル1のファセットID」とを選択したいと思っている。それができる方法は、ボックスの現在のタイプの左(または右矢印)をクリックして、それを、現在のテキストを結合したいレベルに合わせることである。API dmTaxonomyNodeSearchRequestは、レベル3ではなくレベル1のものと同じ、前のファセットID(priorFacetID)とともに呼び出されるはずである。図18Eはユーザが前のステップの後で行動した後のボックスの位置を示している。ユーザはまた、ステップ2と同様に、ボックスを左に完全に引いて新たに検索を開始できるはずである。
ユーザが選択したタクソノミーを削除したい場合、入力ボックスの削除ボタン(×印のボタン)をクリックすればそうできるはずである。これは、選択済みの削除したいタクソノミーを含むそのボックスからサブツリーを消すはずである。図18Fおよび図18Gはこの前のステップとこの後のステップとを示している。上記ステップはAPI:dmTaxonomyFacetClearを使用して行う。
以下のポイントは、ファセット還元をどのように追跡してスポークバックエンドで使用するかを述べている。以下のエレメントからなるノードを持つツリーが作成される:
ファセットID、タクソノミーノードID、親ファセット、左兄弟ファセット、右兄弟ファセット、ブール演算子、否定;
ファセット還元APIはツリーのノードの追加、除去および編集を制御する;
ユーザがファセット還元の後にアラート検索基準を定めたら、テーブル「SP_USR_ALRT_TRACK_TBL」の「FACET_GROUP_EXPRESSION」に直列化可能オブジェクトとしてツリー全体が書き込まれる;
ツリーの葉ノードは、ユーザの検索クエリに参加する実際の単語を表す;
ブール演算子を使用してグループ化する方法は、最小共通先祖のサブツリーブール演算グルーピングに依存する;
図18Hは当該グルーピングに関して図示している;
求められるサブツリーブール式はDNFに還元されて、SP_USR_ALRT_TRACK_TBLテーブルのALERT_EXPRESSIONとして格納される。
図14Aおよび図14Bはトピックグループ要求の処理を図示している。図3から図12に関連してその操作を説明したテキストメッセージ処理システムは、エレメント1410として模式的に表されている。その出力はエキスパンダ1420、アラートキャッシュ1430、アラート照合器1440およびアラート応答プロセッサ1450に提供される。ユーザインターフェースは複数のサーバ1460a〜nをさらに備えており、そのそれぞれがすくなくとも1つのディスプレイと、キーボード、マウスなどの多様な入出力デバイスとを含む。
サーバ1460の詳細を図13Aおよび図13Bに示している。サーバは、サーバ1460a〜nから検索またはアラート基準としてユーザからの入力を受信するアプリケーションサーバ1470に接続されている。サーバ1460a〜nはアラート応答プロセッサ1450に接続されている。アプリケーションサーバ1470はアラート照合器1440に接続されている。これらのエレメントに関する詳細は、以下その操作の考察で説明する。
アラート要求を分類器の出力に照合する試みをする前に、分類器の出力をまず展開する。エキスパンダ1420の組合せ生成器1422で、まだ展開していない分類器からの各メッセージセットについて、分類されたメッセージセットに関連付けられているトピックグループIDの適切な論理積組合せの計算を行う。一般に、トピックグループIDの組合せは、トピックグループの関連性の積がすくなくとも60%である場合に適切である。次に分類器からのトピックグループIDおよびトピックグループIDの適切な組合せを、メッセージセットの候補記述子としてデータベースに格納する。エキスパンダ1420のアラートアグリゲータ1424で、前の組合せ生成ステップで格納されているトピックグループIDの各組合せについて、同じ時間バケットの1以上のメッセージセットに関し、エキスパンダ1420によって所定のトピックグループ組合せのラベルの付けられている構成要素のメッセージセットのボリューム/関連性および感情のそれぞれの値から総ボリューム、ボリューム加重平均感情、およびボリューム加重平均関連性値も計算する。
次に、アラート照合器1440は、1以上のアプリケーションサーバ1460a〜nで1以上のユーザから発信されるトピックグループ要求をアプリケーションサーバ1470から受信する。ステップ1450で、照合器1440は、キャッシュ1430から要求を満たすことができるか、またはデータベースに問い合わせる必要があるかどうかを判定する。データベースに問い合わせる必要がある場合、ステップ1460でその結果をキャッシュにロードする。ステップ1470で、トピックグループ要求をキャッシュの内容と照合する。さらに、各間隔持続時間中、一致した結果のボリュームおよび感情の値を計算する。ステップ1480で、応答プロセッサ1450は次に照合結果を、トピックグループ要求を発信したサーバに報告する。
図15Aから図15Lは、システム200のグラフィカルユーザインターフェースで使用される一連の例示画面を図示している。具体的には、画面は端末290,292および/または294に表示される。画面は、キャリアのほとんどで利用できるヘッダ1510、アラートスペース1530およびワークスペース1550を備える実質的に同じフォーマットを有する。ヘッダ1510は以下に説明する検索(図15G)、アラート(図15E)、履歴(図15H)およびアカウント(図15A)の画面にアクセスするためのソフトキー1512,1514,1516および1518と、設定画面(図15D)にアクセスするためのソフトキー1522と、ログアウトするためのソフトキー1524と、画面を表示する端末でサインオンする個人を特定するウェルカムライン1528とを含む。
アラートスペース1530は、ユーザがシステムから要求したかもしれないアラートを要約する、継続的に更新されるテーブル1532を提供する。図15Aから図15Lの例示画面では、これらのアラートは、「石油ポートフォリオ」、「製薬ポートフォリオ」および「建設ポートフォリオ」および「石油ポートフォリオ」としてテーブルの最初の列1533の4行に特定されている。残りの列1534〜1539は各行に、列1533の対応する行に特定されているアラートに関連付けられているテキストメッセージの感情値(上向きまたは下向きの矢印)およびトピック1534と、アラートの主題(サブジェクトマター)1535と、関連するテキストメッセージのバイラル度1536と、アラートに関する注記1537と、テキストメッセージの関連度1538と、アラートの最後の更新日時1539とを規定する。ユーザはレポートに特定されているアラートをクリックしてもよい。そうすると、図15Jに図示する画面の形式で追加情報が提供される。
ヘッダ1510およびアラートスペース1530はそれが使用されている場合にはどの画面でも同じである。ワークスペース1550の内容は以下説明するように画面によって異なる。有利なことに、ユーザはアラートスペースを表示する画面を選択できる。
図15Aおよび図15Bは、MainAccountsおよびMainAccountsEntitlementsの画面を図示している。MainAccounts画面はユーザ名、アドレス、連絡先情報およびパスワードを入力および表示することができる。これはまた、ユーザをある特定のアカウントならびにそのアカウントの企業名およびグループ名に関連付ける。ソフトキー1552はMainAccountsEntitlement画面へのアクセスを提供する。ソフトキー1553は選択したフィールドの情報の削除のために設けられている。
MainAccountsEntitlement画面はユーザのデータ権限の管理のために設けられている。ワークスペース1550は名前とアカウント番号とによるユーザの特定のために設けられている。5つの列1555から1559と複数の行とのテーブル1554は、その行に記載されているいくつかのデータソースに関するユーザのデータ権限をまとめたものである。列1555の複数の行は「S&P GICS」などの特定のデータソースを特定する。列1556の行はユーザが列1555の同じ行で特定されているデータソースからのデータにアクセスできるかどうかを示す。列1557の行はユーザがその権限を行使してもよい場所を示す。列1558の行はユーザがそのデータに関して取ってもよい行動(要求、削除、編集)を示す。そして列1559の行はユーザが列1555の同じ行で特定されているデータソースに関して支援を要求できるようにする。
図15CはMainLogin画面を図示している。この画面のワークスペース1550はユーザのアカウント番号およびパスワードを求める。Log Inソフトキー1561は、ユーザがログインプロセスを完了できるようにする。My Accountソフトキー1562は、ユーザが図15AのMainAccounts画面にアクセスできるようにする。Contact Usソフトキー1563は、ユーザが、連絡が欲しいという要求を入力できるようにする。Lost Passwordソフトキー1564は、ユーザがパスワード復旧プロセス(図示せず)にアクセスできるようにする。標準レポートスペース1530は、この画面が、ログインしたユーザ以外の人にも表示されてもよいものであるため、MainLogin画面では使用されない。
図15DはMainSettings画面を図示している。この画面のワークスペース1550は、ユーザにアラート基準、関連性および閾値を指定させるアラート基準選択ボックス1571と関連性&閾値選択ボックス1575とを含む。例として、サンプル間隔はアラート基準選択ボックス1571で日中、日間、1週間、四半期、半年または1年の期間から選択してもよい。ペンディング中のアラートのリスト1573をスクロールして、選択したサンプル間隔を適用したいアラートをクリックすることによって、異なるサンプリング間隔を別のポートフォリオに適用してもよい。選択ボックス1575で、低(60%〜80%)、中(80%〜90%)、高(90%〜95%)および超高(95%〜100%)を含む選択肢のセット1576から最低関連性を選択してもよい。感情閾値は、「非常に肯定」から「非常に否定」までの7つのカテゴリ1577から選択してもよい。また、うわさ(またはボリューム)レベルは低、中または高程度のノルムからの差の項1578で選択してもよい。
図15E、図15Fおよび図15GはMainAlert、MainAlertEntryEditおよびMainEntry画面を図示している。図15Eでは、ワークスペース1550は画面のユーザのために以前に発した、すべてのアラートのテーブルを示している。テーブルの6つの列1581〜1586はアラート名1581、アラートを最後に修正した日時1582、アラートの所有者1583、アラートに関する注記1584、アラートを共有する人のアイデンティティ1585およびアラートのステータス1586を特定する。
図15Fのワークスペース1550で、ユーザはデータベース270に格納されているナレッジベースに格納されている金融タクソノミーをナビゲートすることによってアラート基準を入力できる。具体的には、ワークスペース1550の左側の列はエネルギートピックに関するGICSタクソノミーの一部を示している。真中の列はナレッジベース全体の高レベルのタクソノミーの例示的な実施例を示している。そして右側は第1タイプ入力ウィンドウおよび提出キーを使用してコメントの入力と、第2タイプ入力ウィンドウにその名前をタイプ入力することによって特定されるスプレッドシートの検索とのために設けられている。第2タイプ入力ウィンドウを介してアップロードのために設けられているスプレッドシートは、スプレッドシートのフォーマットが銘柄のリストの所定の仕様に対応していれば、一連のアラートを発生させる。
図15Gのワークスペース1550は検索基準のクイック入力のために設けられている。Advanced、ResearchおよびHelpと名づけられているソフトキー1591,1592および1593は追加リソースへのアクセスを提供する。第1スクロールキー1594はユーザにBloomberg Tickers(ブルームバーグ銘柄)(図示するとおり)、Reuter Tickers(ロイター銘柄)などのさまざまなタクソノミーソースをスクロールさせる。スクロールバー1596はユーザにSearchボックスに入力された部分的なテキストのさまざまな後続語候補の中から選択させる。
図15H、図15Iおよび図15Jは結果の表示のために設けられている。図15Hのワークスペース1550はペンディング中のすべてのアラートの結果を説明するテーブル1610を表示する。このテーブルの内容はレポートスペース1530の内容と同じであるが、テーブル1610に表示される結果はGUIが新たなアラート応答を受信するとリアルタイムで更新される。一方で、レポートスペース1530の内容はそのときのスナップショットを表す。
図15Hのワークスペース1550に提示されているテーブル1610のある特定のアラートをユーザがクリックすると、選択したアラートに関する追加情報を表示する図15Iのような画面が提示される。例として、この情報はアラートトピックに加えて、アラートトピックに関するメッセージの変化量を示すグラフ1620、トピックに関するいくつかのメッセージのテキスト1622とそのテキストを受信した日時1624、およびもっとも関連性の高いトピックカテゴリ1626とを含む。感情レベル1628およびバイラル度1630は表示され続ける。
図15Iのグラフは、グラフの右上角の拡大鏡1621をクリックすると拡大でき、図15Jに図示するような画面になる。この画面はグラフ表示を調整するためのユーザとのインタラクションのために設けられている。例示のために、グラフ表示は5分間隔に分割している。ワークスペースの一番下にあるIntervalキー1640をクリックすると、モニタが図15Kの画面を表示し、それによってユーザは間隔を変更できる。図15Kは間隔選択ボックス1650を表示している。間隔持続時間はボックス1650の別の間隔をクリックした後、ワークスペースの一番下にあるRedrawソフトキー1652をクリックすると変更できる。これでディスプレイは図15Jに戻るが、新たに選択した時間間隔となる。同様に、拡大した領域の底辺にあるドラッグ可能なスクロールバーとインタラクトすることにより、目盛および間隔を変更できる。
例示のために、図15Jは縦軸に1000単位でメッセージのボリュームをプロット化している。ワークスペースの一番下にあるScaleキーをクリックするとモニタが図15Lの画面を表示し、それによってこの目盛を変更できる。図15Lは目盛選択ボックス1660を表示している。ボックス1660の別の目盛をクリックしてから、ワークスペースの一番下にあるRedrawソフトキー1662をクリックすると、目盛を変更できる。これでディスプレイは図15Jに戻るが、新たに選択した目盛になる。
図15Jの表示画面の2本の垂直バー1632,1634は、図15Iのワークスペースに表示されているテキストメッセージ1622を引き出し、ボリューム調整された関連度の計算を行う15分の期間を画成している。これらのバーは、それらをクリックしてドラッグすると横方向に移動できるので、2本のバーで囲む期間を変更できる。
図15Mはアラート要求に対する例示的な電子メール応答を図示している。ヘッダ1650は件名、宛先、日付および送信者を特定する。行1651および1652はアラート要求の日時および件名を特定する。行1653および1654は、この要求に応答してテキストメッセージが検出され、そのテキストメッセージの感情が非常に否定的で加速度がバイラルであることを述べている。前述したように、感情および加速度の変化の評価は、現在の感情レベルおよび現在の活動レベルと以前の感情レベルおよび以前の活動レベルとを比較する同様の式を使用して行う。行1655は、使用の相対頻度に基づいたメッセージのセットの最高単語頻度IDF値を表す語の収集に基づいてテキストメッセージから抽出される概略の語の抜粋を提供する。1656でテキストメッセージのサンプリングが提供される。最後に、行1657で追加のテキストメッセージなどの詳細な情報にすばやくアクセスするためのリンクが提供される。
本発明は特定の実施形態を参照して説明してきたが、本発明はそれに多数の変形を加えて実施してもよい。たとえば、特定の実施形態は入手できるすべてのマイクロブログメッセージを処理するシステムおよび方法を説明しているが、サンプリング技術を使用することにより、入手できるマイクロブログメッセージの一部のみを処理してもよい。サンプリング技術を適用して、システムの入口で受信されるメッセージをサンプリングしてもよく、またはマイクロブログメッセージの処理のさまざまな段階でサンプリング技術を使用してもよい。サンプリング技術はマイクロブログメッセージのトラフィックのボリュームの変化または処理帯域幅の可用性の変化に対応するように一時的に使用してもよい。
入力ステップ310において多数の変形を実施してもよい。たとえば、異なるトークン化ルールおよび操作を使用してもよい。「the」、「a」、「an」、「that」およびさまざまな前置詞などの頻出語を、停止手順を使用して排除してもよい。大域的IDFテーブルの作成とは異なる手順を使用して、個々の語および/または句の重要性を判定してもよい。大域的IDFテーブルの更新には他の構成を使用することができるだろう。静的テーブルは、処理されているテキストメッセージで実際に使用される語に基づいているものほどはうまく機能しそうにないが、関連言語の標準的な単語の用法に基づいた静的な大域的IDFテーブルでも使用できるだろう。前述したように、正規化ステップで使用するための多様なステマが利用できる。
図7のクラスタリングプロセスが好ましく、ツイートなどの短いテキストメッセージを処理するときに有利であると思われるが、他のクラスタリング手順も周知であり、本発明の実施において有用であることがわかるであろう。ソフトクラスタリングで使用するためのシードトークンの選択には多数の変形例を実施してもよい。たとえば、IDF値の範囲内からシードトークンを選択する代わりに、トークンは規定の閾値を超えるIDF値を有するすべてのトークンとしてもよい。ある状況においては、図7に関連して説明したクラスタリングステップのうちの1つ以上を抜かすことも実行可能であろう。本発明の他の実施形態では、文書特徴ベクトル(DFV)を以下のいずれかの要素を備えるメタデータの追加次元を含むように展開してもよい:
ソースマイクロブログプラットフォームから入手できるメタフィールドへの追加(例、作者のデモグラフィック情報、ソーシャルネットワークグラフのつながり、作者または発行元アプリケーションが追加する注釈);
ソーステキストメッセージに基づいた他の暗黙的メタデータの追加(例、メッセージの本文内の地理的地域の名前に基づいた地理的メタフィールドの緯度・経度ペアの抽出、人物と場所と会社と製品とを含むメッセージのテキストで言及される企業を特定するための、クラスタリング前の企業抽出法の適用);または
テキストメッセージの本文で構文的に特定される情報の追加(例、ユーザアカウントへの返信を示す構文参照、再投稿されたメッセージの構文標識、埋め込みURLの構文標識)。
ここでも、ナレッジベースにロードして、そこから分類ルールを生成するプロセスが好ましいが、他のローディング技術を使用してもよく、また分類ルールの生成に他の手順を使用してもよい。同様に、メッセージセットを分類するために他の手順を使用してもよい。
同様に、図13Aおよび図13B、図14Aおよび図14Bならびに図15Aから図15Mに関連して特定のユーザインターフェースを説明したが、多数の代替例も利用できる。
本出願は、「カスタマ関連データの配信および分析のためのシステムおよび方法」のために2009年6月9日に出願された仮出願番号第61/185,577号の出願日の利益を主張し、その内容全体を参照によりここに組み込む。
以下に、1時間間隔の間にメッセージの到着から形成されるソフトクラスタを示す。局所的IDF3.14457で、クラスタ密度(全体のペアワイズ平均コサイン類似度)が0.29051660のシードトークン「aig」に関するソフトクラスタの第1グルーピングは以下のとおりである(与えられるコサイン類似度は処理するメッセージのトークン化したテキストのみを包含する単語頻度IDFベクトルに基づいており、平均コサイン類似度は所定のメッセージとソフトクラスタの他の各メッセージとの間のペアワイズ平均コサイン類似度であることに留意されたい):
Figure 0005879260
重複排除プロセスのこの2回目の繰り返しにおいて、クラスタ密度は0.52881780に増える:
Figure 0005879260
以下は、2回目の繰り返しクラスタの単語頻度(TF)×文書頻度の逆数(IDF)からの例示的な抜粋である:
Figure 0005879260
以下は、1時間間隔でのトークン辞書からの例示的な抜粋であって、この特定のソフトクラスタに属するトークン辞書のサブセットである:
Figure 0005879260
〈システムアーキテクチャ〉
一般に、本明細書で説明するシステムおよび方法は、例えば、セキュアなインターネット(例、セキュアなリッチオンラインインターネット)インターフェースまたはモバイル/セルラまたは接続/機器(例、アイフォーン、ブラックベリー)インターフェースを介して実装されてもよい。データは、第三者ベンダまたは他のデータソースからデータをライセンスしてリアルタイムで収集してもよい。さらに、システムおよび方法の実施形態は、単独でまたは組合せて、あらゆる数の所有権のあるウェブクローリングおよびウェブサービスAPIを利用してもよい。追加の所有権のあるアルゴリズムを取得して、可能な数の消費者向け製品を増やしてもよい。
〈追加のB2Bアプリケーション〉
本発明は、金融業界に対する、関心のある特定のアプリケーションの状況で説明してきたが、本発明は多様な状況で実施してもよく、そのいくつかを以下に説明する。他の例示的なB2B(企業間取引)垂直市場は以下のものを含んでもよいが、それだけに限定されない。
・金融市場(例、機関トレーダー、先物トレーダーおよび他のすべての金融分野)
・ステップ1612でシステムJava(登録商標)APIを利用している図16のステップ1660に図示するような、クォンツファンドがカスタマイズされた投資モデルを作成できるAPI
・企業向けの製品開発ツール(例、新製品の計画時に消費者行動のトレンドに投資するために、人々がもっとも魅力を感じる製品の種類を特定する)
・投資家向け広報(例、市場の動向および株式取引の行動心理を予測する手段として、関心のある会社に関するすべての活動を監視する)
・危機災害管理(例、石油漏れなど、会社関連の災害に対する市民感情を監視する)
・ステップ1614でシステムC/C++APIを利用している図16のステップ1650に図示するような、ヘルスケア
・IT顧問サービス(例、デューデリジェンスの受入れおよび公衆からの推奨が発信される技術分野に関する意見、流行の製品戦略アプローチや関心のある分野に関する市民感情の程度をIT研究者に報知する)
・エンターテインメント業界(例、映画、テレビ、音楽およびコンサート鑑賞に関する感情および活動を監視する)
・ステップ1614でシステムC/C++APIを利用している図16のステップ1620に図示するような、ブランド管理ツール(例、リアルタイムでブランド認知度の変化を管理する)
・有名人/タレント事務所(例、演者および運動選手のリアルタイムのうわさを管理する)
・宣伝および広報活動(例、PRおよび広告製品の効果を測定する)
・不動産(例、特定の地域から発表されるマイクロコンテンツおよびその地域に関して発表される情報と結合させて、その地域および近隣の感情および活動を監視する)
・旅行業界(例、消費者または旅行会社が利用する可能性のあるさまざまな旅行の目的地および都市に関する感情および活動の移り変わりを監視する)
・ステップ1614でシステムC/C++APIを利用している図16のステップ1640に図示されるような、新聞/ブログ/ニュースの着想を得るツール(例、作成する内容の種類に関して着想を得るために、人々がトピックにしたいニュースの種類のリアルタイムの感覚を得る)
・運輸業界(例、リソースの割り当てをよりよく計画するための短期的な感情および活動の監視)
・調査会社(例、さまざまなデモグラフィックの集団およびさまざまな地理的地域のリアルタイムの感情および活動のトレンドの監視)
・政治選挙ツール(例、選挙の候補者をめぐるリアルタイムの感情および活動の移り変わりの監視)
・電子商取引/商取引ツール(例、製品および新製品の発売に関する活動の監視、製品の「購入の表明」の監視)
・健康ツール(例、オンラインで表明される病気の流行の監視)
・顧客サービス/オンラインPRツール(例、自社ブランドに関する否定的感情(「管理すべき「火種」」)、または肯定的感情(「煽るべき「炎」」)を特定する、感情の変化についてすべての顧客のフィードバックを吟味する)
〈追加のB2Cアプリケーション〉
例示的なB2C(企業と一般消費者との間の取引)垂直市場には以下のものが含まれるが、それだけに限定されない。
・次のような機能を持つアイフォーン/モバイルアプリケーション(例、「プッシュアラート」の使用):競技イベントが異常に高いレベルの感情および活動を発しているときにユーザに通知する機能、ファンに「目下いい試合展開となっている」ことを知らせる方法を提供する機能、「周りの人々が今日楽しいのか悲しいのか?」を推測する面白ツールとして「リアルタイムの周りの気分」を解読する機能、ユーザがいる物理的な場所の平均的気分を表現する機能(この場所からのツイート/テキストメッセージからのジオタグ付きユーザ発信情報は当業界で周知の感情アルゴリズムを使用して検索してもよい))
・世界中の幸福の「ヒートマップ」を含めた、リアルタイムの「幸福度」ウェブサイト
・リアルタイムの感情および/またはリアルタイムの関連オンライン活動でもっとも肯定的な検索単語に関連するアイテムを追跡するリアルタイムのサーチエンジン
・株価に影響する10大ニュースソースを示すプラットフォーム
・リアルタイム、ユーザが引き起こす感情および/または活動の変化の観点から、人気商品を示すお勧め製品の消費者プラットフォーム
・リアルタイムでさまざまな製品に関する否定的な感情および活動の急増を示す「消費者ウォッチ」プラットフォーム
・リアルタイムの感情および活動量に基づいてリアルタイムで最新の流行の服および衣料ブランドが何であるかを示すファッションプラットフォーム
・エンターテインメント評価プラットフォーム(リアルタイム・ロッテン・トマト/メタクリティック)
・ウェブ上の、「本日の10大よかったこと」および「本日の10大悪かったこと」に関するオンライン新聞/ブログ
〈追加のマクロ実施形態〉
本開示のさまざまな実施形態を参照して、前述したアルゴリズムのすくなくとも一部を採用すると、いくつかの実施形態は、たとえば、ユーザの国のユーザが発表したすべての情報の感情を考慮する「デイリー幸福度」および/または、同様に、世界幸福度を含めてもよい。いくつかの実施形態は異常に高いオンライン活動および異常に低いオンライン活動の日を示す「デイリー活動度」を含めてもよい。この「デイリー活動度」は、単なる例として、(i)米国のダウ工業平均およびナスダックを含むが、それだけに限定されない、株式市場の参照点に視覚的に重ねた(国の)マクロ感情の移り変わり、(ii)リアルタイムに反応する「好感」および「嫌気」株上位10のデイリーリスト、(iii)リアルタイムに反応する「口コミ数上位」会社のリスト、(iv)世界中でもっとも「幸福」および「不幸」な国のリアルタイムのランキングリスト、または(v)リアルタイムに反応する「10大アクティブセクター」のリストの状況で利用してもよい。さらに、いくつかの実施形態は、利用できるすべての検索フィールドを使用して、「自分で作るマクロトレンド」機能を提供してもよい。これによりトレーダーは自分のニーズにもっとも合ったマクロツールを設定できる。
〈追加ツール〉
いくつかの実施形態によると、各「シート」(つまり、システム)は、ユーザがシステムの操作および性能の故障対策および/または改善に関してフィードバックまたは提案を提供してもよい組み込み型ツイッター様マイクロブロギングプラットフォームを有してもよい。この機能により、ユーザのニーズを満たすためのユーザインターフェースの継続的な改良が可能である。この機能は、ユーザとシステム管理者との間の直接的なインタラクティブダイアログも作成してもよい。
〈追加の実施形態のジャンル〉
いくつかの実施形態は、マイクロ発信される情報内で表現される「購買意欲」または「購買行動」を示すために作成されるアルゴリズムを包含してもよい。「本当に欲しい」および「ちょうど買った」など、一般に購買に関連する語句をリアルタイムで、会社名および/または会社の製品の近くで検索できる。
追加の潜在的な技術的垂直市場は、家庭外映写、スタジアム映写および家庭内の「ポスター様」映写を含むが、それだけに限定されない、インターネット対応テレビプラットフォームおよびインタラクティブテレビ、公共の場所向けの大規模インフォスケープを生み出しながらリアルタイムで展開して動くデジタルサイネージ製品、および現実世界でリアルタイムに反応する映写製品を含む。
すくなくともいくつかの実施形態に関して述べているように、発表された情報のデータマイニングのために周知のアルゴリズムを、開示した実施形態のうちの1つ以上とともに使用してもよい。本開示のいくつかの実施形態に他の所有権のあるアルゴリズムを含めて使用してもよく、また本開示は開示のすくなくともいくつかの実施形態を構成してもよいアルゴリズム、または開示した実施形態のうちの1つ以上とともに使用してもよいアルゴリズムも明示的もしくは内在的に開示していることも当業者は認識するであろう。
したがって、本開示は消費者、団体および/または会社および同様な他のものの活動および/または感情を判定するデバイス、システムおよび方法の例示的な実施形態を提示している。別の箇所で述べたように、これらの実施形態は例示目的でのみ説明されたものであり、制限するものではない。本明細書で開示する発明により他の実施形態も可能であり、カバーされる。当該実施形態は開示を通して記載される教唆に基づいて関連分野の当業者にとって明らかとなるであろう。そのため、本開示の幅および範囲は前述した実施形態のいずれによっても制限されるべきではない。
本発明の精神および範囲は、添付する特許請求の範囲の中に存在するが、本願の出願時に特許請求の範囲として存在し、その一部は補正により削除された、以下の[予備的な特許請求の範囲]の中にも潜在する。この[予備的な特許請求の範囲]の記載事項は、本願明細書の開示に含まれるものとする。
[予備的な特許請求の範囲]
[予備請求項1]受信したマイクロブログメッセージを特定の活動について調べるステップと、
前記特定の活動が検出されたときにユーザに報知するステップと、
を含む、特定のマイクロブログ活動をユーザに報知するための方法。
[予備請求項2]
マイクロブログメッセージを構文解析して、語および/または句のベクトルを形成するステップと、
前記語および/または句を複数の語および/または句のベクトルに集計して、語および/または句の集計ベクトルを形成するステップとをさらに含み、
前記受信したメッセージを調べるステップは、ルールに従って前記語および/または句の集計ベクトルを分類して予測を形成するステップを含み、
前記特定活動が検出されたときにユーザに報知するステップは、前記予測が所定のレベルを超えるときにユーザに報知するステップを含むことを特徴とする、予備請求項1に記載の方法。
[予備請求項3]
マイクロブログから受信したテキストメッセージを構文解析して、語および/または句の第1ベクトルを形成するステップと、
前記語および/または句の第1ベクトルの前記語および/または句を正規化して、正規化した語および/または句の第2ベクトルを形成するステップと、
前記第2ベクトルの語および/または句の感情を評価して、前記受信したテキストメッセージの感情値を形成するステップと、
前記第2ベクトルで特定された語および/または句の使用頻度を判定して、前記第2ベクトルの前記語および/または句の頻度値の第3ベクトルを形成するステップと、
前記第1、第2および第3のベクトルと前記感情値とを組合せて、語および/または句の第4ベクトルを形成するステップと、
をさらに含む、予備請求項1に記載の方法。
[予備請求項4]
前記第4ベクトルはn+m次元のベクトルであり、
前記テキストメッセージのトークンおよびその使用頻度を表すn次元と、
前記テキストメッセージに関するメタデータを表すm次元とを含み、前記m次元は、
前記メッセージのソースを表す第1次元と、
前記メッセージの言語を表す第2次元と、
前記メッセージのタイムスタンプを表す第3次元と、
前記メッセージの地理的発信地を表す第4次元と、
前記メッセージの作者を表す第5次元と、
を含む、予備請求項3に記載の方法。
[予備請求項5]
前記テキストメッセージの前記トークンの使用頻度は、文書頻度の逆数によって表すことを特徴とする、予備請求項4に記載のベクトル。
[予備請求項6]
複数のトークン化されたマイクロブログメッセージを第1時間間隔内で収集するステップと、
複数のシードトークンを選択するステップと、
1つのソフトクラスタ内のすべてのメッセージが同じシードトークンを有するマイクロブログメッセージの複数のソフトクラスタを形成するステップで、前記ソフトクラスタはそれぞれ異なるシードトークンを有しており、前記メッセージのいくつかは2以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが1つのソフトクラスタの中でのみ見られるようにメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第1出力を生成するステップと、
をさらに含む、予備請求項1に記載の方法。
[予備請求項7]
多数の第1時間間隔を含む第2時間間隔内で複数の第1出力を収集するステップと、
複数のシードトークンを選択するステップと、
1つのソフトクラスタ内のすべてのテキストメッセージが同じシードトークンを有するテキストメッセージの複数のソフトクラスタを形成するステップで、前記ソフトクラスタはそれぞれ異なるシードトークンを有しており、前記テキストメッセージのいくつかは2以上のソフトクラスタに存在する、前記形成するステップと、
他のソフトクラスタよりも密度が低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
各テキストメッセージが1つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第2出力を生成するステップと、
をさらに含む、予備請求項6に記載の方法。
[予備請求項8]
第1期間中にマイクロブログメッセージのストリームを受信するステップと、
各第1クラスタリング時間間隔は第1期間よりも短い持続時間を有する、複数の第1クラスタリング時間間隔中に前記メッセージをクラスタリングして、第1複数の第1クラスタ化テキストメッセージを生成するステップと、
複数の第1クラスタリング時間間隔中に前記メッセージをクラスタリングするステップと並列して、各第2クラスタリング時間間隔は前記第1期間よりも短くかつ前記第1クラスタリング時間間隔よりも長い持続時間を有する、複数の第2クラスタリング時間間隔中に前記第1クラスタ化テキストメッセージをクラスタリングして、第2複数の第2クラスタ化テキストメッセージを生成するステップと、
を含む、予備請求項1に記載の方法。
[予備請求項9]
前記受信したマイクロブログメッセージを特定の活動について調べるステップは、
前記受信したマイクロブログメッセージを処理して、名詞および/または名詞句を有するメッセージのクラスタ化したセットを形成するステップと、
ナレッジベースから、前記名詞および/または名詞句が前記ナレッジベースのトピックに関係する確率を規定する分類ルールのセットを生成するステップと、
索引のソースとして、前記ナレッジベース内のトピックに関係する名詞および/または名詞句ならびにその関連ルールを使用して前記分類ルールの索引を生成するステップと、
前記分類ルールの前記索引を使用して、前記マイクロブログメッセージ内の前記名詞および/または名詞句に関係するルールを特定するステップと、
前記特定されたルールを検索するステップと、
前記マイクロブログメッセージのセットに前記特定されたルールを適用するステップと、
前記ルールの前記適用の採点結果をトピックのリストとして収集するステップと、
前記分類ルールの適用により求められるように、前記トピックのリストをランク付けして確率順にするステップと、
を含むことを特徴とする、予備請求項1に記載の方法。
[予備請求項10]
前記特定されたルールは前記マイクロブログメッセージのセットに並列して適用されることを特徴とする、予備請求項9に記載の方法。
[予備請求項11]
現在の時間間隔における第1トピックに関係するマイクロブログメッセージのトラフィックのボリュームを、少なくとも1つの以前の時間間隔における前記第1トピックに関係するマイクロブログメッセージのトラフィックのボリュームと比較することによって、特定の活動を検出することを特徴とする、予備請求項1に記載の方法。
[予備請求項12]
現在の時間間隔における第1トピックに関係するマイクロブログメッセージのトラフィックの感情レベルを、少なくとも1つの以前の時間間隔における前記第1トピックに関係するマイクロブログメッセージのトラフィックの感情レベルと比較することによって、特定の活動を検出することを特徴とする、予備請求項1に記載の方法。
本特許文書の開示の一部は著作権保護の対象となる資料からなる。著作権者は、特許商標庁の特許ファイルまたは記録に掲載されることから特許文書または特許開示をいかなる人が複製することにも異議はないが、それ以外は一切の著作権を留保する。

Claims (17)

  1. 特定のマイクロブログ活動をユーザに報知するための方法であって、
    受信したマイクロブログメッセージを特定の活動について調べるステップ(a)と、前記特定の活動が検出されたときにユーザに報知するステップ(b)と、を含み、
    前記ステップ(a)は、マイクロブログメッセージを構文解析して、語および/または句のベクトルを形成するステップ(a1)と、
    前記語および/または句を、複数の語および/または句のベクトルに集計して、語および/または句の集計ベクトルを形成するステップ(a2)と、
    所定のルールに従って前記語および/または句の集計ベクトルを分類して予測を形成するステップ(a3)とを含み、
    前記ステップ(b)は、前記予測が所定のレベルを超えるときにユーザに報知するステップ(b1)を含み、
    前記ステップ(a1)は、
    マイクロブログから受信したテキストメッセージを構文解析して、語および/または句の第1ベクトルを形成するステップと、
    前記第1ベクトルの前記語および/または句を正規化して、正規化した語および/または句の第2ベクトルを形成するステップと、
    前記語および/または句の感情を評価して、前記受信したテキストメッセージの感情値を形成するステップと、
    前記第2ベクトルで特定された語および/または句の使用頻度を判定して、前記語および/または句の頻度値の第3ベクトルを形成するステップと、
    前記第1、第2および第3のベクトルと前記感情値とを組合せて、語および/または句の第4ベクトルを形成するステップと、を含み、
    前記第4ベクトルは、前記テキストメッセージのトークンおよびその使用頻度を表すデータと、前記テキストメッセージに関するメタデータとを含む、方法。
  2. 前記メタデータは、前記メッセージのソースを表すデータと、前記メッセージの言語を表すデータと、前記メッセージのタイムスタンプを表すデータとを含む、請求項1に記載の方法。
  3. 複数のトークン化されたマイクロブログメッセージを第1時間間隔内で収集するステップと、
    複数のトークンの中から通常よりも高い頻度で使用される複数のシードトークンを選択するステップと、
    マイクロブログメッセージの複数のソフトクラスタを形成するステップであって、前記ソフトクラスタは同じシードトークンを有するマイクロブログメッセージの集合であって、異なるソフトクラスタは異なるシードトークンを有しており、前記メッセージのいくつかは2以上のソフトクラスタに存在する、前記形成するステップと、
    他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
    各テキストメッセージが1つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
    前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第1出力を生成するステップと、
    をさらに含む、請求項1に記載の方法。
  4. 前記第1出力をトークン化し、複数のトークン化されたテキストメッセージを複数の第1時間間隔を含む第2時間間隔内で収集するステップと、
    前記複数のトークンの中から通常よりも高い頻度で使用される複数のシードトークンを選択するステップと、
    テキストメッセージの複数のソフトクラスタを形成するステップであって、前記ソフトクラスタは同じシードトークンを有するテキストメッセージの集合であって、異なるソフトクラスタは異なるシードトークンを有しており、前記メッセージのいくつかは2以上のソフトクラスタに存在する、前記形成するステップと、
    他のソフトクラスタより密度の低いいくつかのソフトクラスタを排除することによって、ソフトクラスタの数を減少させるステップと、
    各テキストメッセージが1つのソフトクラスタの中でのみ見られるようにテキストメッセージの重複を排除するステップと、
    前記ソフトクラスタを凝集的に併合して、クラスタ化したテキストメッセージの第2出力を生成するステップと、
    をさらに含む、請求項3に記載の方法。
  5. 第1期間中にマイクロブログメッセージのストリームを受信するステップと、
    各第1クラスタリング時間間隔は第1期間よりも短い持続時間を有する、複数の第1クラスタリング時間間隔中に前記メッセージをクラスタリングして、第1複数の第1クラスタ化テキストメッセージを生成するステップと、
    複数の第1クラスタリング時間間隔中に前記メッセージをクラスタリングするステップと並列して、各第2クラスタリング時間間隔は前記第1期間よりも短くかつ前記第1クラスタリング時間間隔よりも長い持続時間を有する、複数の第2クラスタリング時間間隔中に前記第1クラスタ化テキストメッセージをクラスタリングして、第2複数の第2クラスタ化テキストメッセージを生成するステップと、を含む、請求項1に記載の方法。
  6. 前記受信したマイクロブログメッセージを特定の活動について調べるステップ(a)は、
    前記受信したマイクロブログメッセージを処理して、名詞および/または名詞句を有するメッセージのクラスタ化したセットを形成するステップと、
    ナレッジベースから、前記名詞および/または名詞句が前記ナレッジベースのトピックに関係する確率を規定する分類ルールのセットを生成するステップと、
    索引のソースとして、前記ナレッジベース内のトピックに関係する名詞および/または名詞句を使用して前記分類ルールの索引を生成するステップと、
    前記分類ルールの前記索引を使用して、前記マイクロブログメッセージ内の前記名詞および/または名詞句に関係するルールを特定するステップと、
    前記特定されたルールを検索するステップと、
    前記マイクロブログメッセージのセットに前記特定されたルールを適用するステップと、
    前記特定されたルールの適用の結果としてトピックのリストを生成するステップと、
    前記分類ルールの適用により、前記トピックのリストの中のトピックをランク付けして確率順にするステップと、を含むことを特徴とする、請求項1に記載の方法。
  7. 前記特定されたルールは前記マイクロブログメッセージのセットに並列して適用されることを特徴とする、請求項6に記載の方法。
  8. 現在の時間間隔における第1トピックに関係するマイクロブログメッセージのトラフィックのボリュームを、少なくとも1つの以前の時間間隔における前記第1トピックに関係するマイクロブログメッセージのトラフィックのボリュームと比較することによって、又は現在の時間間隔における第1トピックに関係するマイクロブログメッセージのトラフィックの感情レベルを、少なくとも1つの以前の時間間隔における前記第1トピックに関係するマイクロブログメッセージのトラフィックの感情レベルと比較することによって、特定の活動を検出することを特徴とする、請求項1に記載の方法。
  9. メッセージ間又はメッセージとソフトクラスタの中心とのコサイン類似度を用いて、ソフトクラスタの密度又はメッセージの類似度を決定する、請求項3に記載の方法。
  10. ユーザからのマイクロブログ活動の調査若しくは報知リクエストとの関係に基づいて、マイクロブログメッセージをランク付けするステップをさらに含み、前記ステップ(b)が、
    前記調査若しくは報知リクエストに最も一致した少なくとも1つのマイクロブログメッセージの内容をユーザに知らせるステップと、
    前記調査若しくは報知リクエストにより少なく一致したマイクロブログメッセージの題名をユーザに追加して知らせるステップと、を含む請求項1に記載の方法。
  11. 各ソフトクラスタの中の同じテキストメッセージの重複を排除するステップは、同じメッセージの中の1つのインスタンスであって、それがメンバーとなっているソフトクラスタの中心へのコサイン類似度による類似度が最も大きいインスタンスを求めることによって実行される、請求項4に記載の方法。
  12. 前記ソフトクラスタは、コサイン類似度を用いて決定された類似度のベースに基づいて、凝集的に併合される、請求項4に記載の方法。
  13. 前記分類ルールは、複数のトピックグループとトピックグループ間の複数のリンクとを含むナレッジベースから生成され、
    前記ナレッジベース内のトピックグループにリンクされたノード間の階層的関係を規定するタクソノミーをトラバースし、
    タクソノミー内の各ノードにおいて、前記ナレッジベースから、トピックグループの記述とそのプロパティを抽出し、
    前記特定されたルールごとに、重み因子を、分類ルールを格納するデータベースから抽出し、
    重み因子に基づき、分類ルールの関連を評価演算することを特徴とする、請求項6に記載の方法。
  14. 用語の発生頻度に基づいて、テキスト文書の中に発見された新規なトピックとリンクを、動的に前記ナレッジベースに取り入れ、
    これらの新規なトピックが参照するテキスト文書、およびメッセージの内容に基づいて、これらの新規なトピックのプロパティと定義を生成し、
    前記新規なトピックを前記ナレッジベースに取り込み、複合トピックグループを作成する、請求項13に記載の方法。
  15. マイクロブログメッセージをユーザからの調査又はアラート要求との関連に基づいてランク付けするステップをさらに含み、
    前記特定の活動が検出されたときにユーザに報知するステップ(b)が、
    前記調査又はアラート要求との関連性をクラス分けし、関連性の最も高いクラスの少なくとも1つのマイクロブログメッセージの内容をユーザに報知するステップと、
    前記調査又はアラート要求との関連性がより少ないクラスのマイクロブログメッセージのサブジェクトをユーザに報知するステップと、を含む、請求項1に記載の方法。
  16. 前記受信したマイクロブログメッセージを特定の活動について調べるステップ(a)は、コンピュータシステム上において遂行される、請求項1に記載の方法。
  17. 前記第4ベクトルは、前記テキストメッセージの感情値を含む、請求項1に記載の方法。
JP2012515114A 2009-06-09 2010-06-09 マイクロブログメッセージの内容を分析する方法及び装置 Active JP5879260B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US18557709P 2009-06-09 2009-06-09
US61/185,577 2009-06-09
PCT/US2010/038034 WO2010144618A1 (en) 2009-06-09 2010-06-09 Methods, apparatus and software for analyzing the content of micro-blog messages

Publications (3)

Publication Number Publication Date
JP2012529717A JP2012529717A (ja) 2012-11-22
JP2012529717A5 JP2012529717A5 (ja) 2013-07-25
JP5879260B2 true JP5879260B2 (ja) 2016-03-08

Family

ID=43301477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012515114A Active JP5879260B2 (ja) 2009-06-09 2010-06-09 マイクロブログメッセージの内容を分析する方法及び装置

Country Status (5)

Country Link
US (2) US8719302B2 (ja)
EP (1) EP2441010A4 (ja)
JP (1) JP5879260B2 (ja)
TW (1) TW201118589A (ja)
WO (1) WO2010144618A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406049A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Facilitating message composition based on absent context

Families Citing this family (272)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036979B1 (en) 2006-10-05 2011-10-11 Experian Information Solutions, Inc. System and method for generating a finance attribute from tradeline data
US8606626B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. Systems and methods for providing a direct marketing campaign planning environment
US8606666B1 (en) 2007-01-31 2013-12-10 Experian Information Solutions, Inc. System and method for providing an aggregation tool
US9430566B2 (en) * 2009-07-11 2016-08-30 International Business Machines Corporation Control of web content tagging
US20110010224A1 (en) * 2009-07-13 2011-01-13 Naveen Gupta System and method for user-targeted listings
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
US10339541B2 (en) 2009-08-19 2019-07-02 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US20120011432A1 (en) 2009-08-19 2012-01-12 Vitrue, Inc. Systems and methods for associating social media systems and web pages
US11620660B2 (en) 2009-08-19 2023-04-04 Oracle International Corporation Systems and methods for creating and inserting application media content into social media system displays
US9117058B1 (en) * 2010-12-23 2015-08-25 Oracle International Corporation Monitoring services and platform for multiple outlets
US9268815B2 (en) * 2009-08-20 2016-02-23 Hewlett Packard Enterprise Development Lp Map-reduce and parallel processing in databases
US20110106836A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Semantic Link Discovery
KR101664430B1 (ko) 2009-11-13 2016-10-10 삼성전자주식회사 리모트 ui 서비스 제공 방법 및 장치
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US11122009B2 (en) * 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
GB0922608D0 (en) 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
US8396874B2 (en) * 2010-02-17 2013-03-12 Yahoo! Inc. System and method for using topic messages to understand media relating to an event
US8620849B2 (en) 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
NO20100464A1 (no) * 2010-03-29 2011-09-30 Companybook Metode og arrangement for matching av virksomheter og deteksjon av endringer for en virksomhet ved bruk av matematiske modeller
US8666979B2 (en) * 2010-04-09 2014-03-04 Palo Alto Research Center Incorporated Recommending interesting content using messages containing URLs
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
US8458584B1 (en) * 2010-06-28 2013-06-04 Google Inc. Extraction and analysis of user-generated content
US20120016948A1 (en) * 2010-07-15 2012-01-19 Avaya Inc. Social network activity monitoring and automated reaction
WO2012011496A1 (ja) * 2010-07-21 2012-01-26 楽天株式会社 サーバ装置、投稿情報処理方法、投稿情報処理プログラム及び記録媒体
CN102348171B (zh) * 2010-07-29 2014-10-15 国际商业机器公司 消息处理方法及其系统
US9633113B2 (en) * 2010-08-06 2017-04-25 Yahoo! Inc. Socializing via search
CN102387126A (zh) * 2010-09-01 2012-03-21 腾讯科技(深圳)有限公司 聚合微博单条消息的方法,服务器,客户端和系统
CN102387125B (zh) * 2010-09-02 2015-01-07 腾讯科技(深圳)有限公司 访问微博的方法和系统及微博网站图片发送方法和系统
US9076146B2 (en) * 2010-10-15 2015-07-07 At&T Intellectual Property I, L.P. Personal customer care agent
US8645298B2 (en) * 2010-10-26 2014-02-04 Microsoft Corporation Topic models
KR20120047632A (ko) * 2010-11-04 2012-05-14 한국전자통신연구원 상황 인지 장치 및 방법
US20130014136A1 (en) * 2011-07-06 2013-01-10 Manish Bhatia Audience Atmospherics Monitoring Platform Methods
US20120150908A1 (en) * 2010-12-09 2012-06-14 Microsoft Corporation Microblog-based customer support
US9292602B2 (en) * 2010-12-14 2016-03-22 Microsoft Technology Licensing, Llc Interactive search results page
US20120158841A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Proxy communications of non-person entities
US9053119B2 (en) * 2010-12-22 2015-06-09 International Business Machines Corporation Navigation of faceted data
US9990114B1 (en) 2010-12-23 2018-06-05 Oracle International Corporation Customizable publication via multiple outlets
JP5460887B2 (ja) * 2011-01-13 2014-04-02 三菱電機株式会社 分類ルール生成装置及び分類ルール生成プログラム
US9208252B1 (en) * 2011-01-31 2015-12-08 Symantec Corporation Reducing multi-source feed reader content redundancy
JP5884740B2 (ja) * 2011-02-15 2016-03-15 日本電気株式会社 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
US8825679B2 (en) * 2011-02-15 2014-09-02 Microsoft Corporation Aggregated view of content with presentation according to content type
US9588669B2 (en) * 2011-02-17 2017-03-07 T-Mobile Usa, Inc. Sticky messages
EP2747013A1 (en) 2011-02-23 2014-06-25 Bottlenose, Inc. System and Method for Analyzing Messages in a Network or Across Networks
US8700629B2 (en) * 2011-02-28 2014-04-15 Battelle Memorial Institute Automatic identification of abstract online groups
US8666984B2 (en) * 2011-03-18 2014-03-04 Microsoft Corporation Unsupervised message clustering
US20130073480A1 (en) * 2011-03-22 2013-03-21 Lionel Alberti Real time cross correlation of intensity and sentiment from social media messages
US8682895B1 (en) * 2011-03-31 2014-03-25 Twitter, Inc. Content resonance
US20150046371A1 (en) * 2011-04-29 2015-02-12 Cbs Interactive Inc. System and method for determining sentiment from text content
US9100669B2 (en) 2011-05-12 2015-08-04 At&T Intellectual Property I, Lp Method and apparatus for associating micro-blogs with media programs
CN102790726B (zh) * 2011-05-18 2015-10-28 腾讯科技(深圳)有限公司 一种基于即时通讯推送信息的方法、装置及系统
US9251021B2 (en) 2011-05-23 2016-02-02 Bradley Gene Calder Asynchronous replication in a distributed storage environment
US9116879B2 (en) * 2011-05-25 2015-08-25 Microsoft Technology Licensing, Llc Dynamic rule reordering for message classification
US10127522B2 (en) * 2011-07-14 2018-11-13 Excalibur Ip, Llc Automatic profiling of social media users
US8447852B1 (en) * 2011-07-20 2013-05-21 Social Yantra, Inc. System and method for brand management using social networks
US9747609B2 (en) * 2011-07-20 2017-08-29 ReadyPulse, Inc. System and method for brand management using social networks
US20130035982A1 (en) * 2011-08-04 2013-02-07 Pitney Bowes Inc. Method and system for creating targeted advertising utilizing social media activity
US8650198B2 (en) 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
US20130054711A1 (en) * 2011-08-23 2013-02-28 Martin Kessner Method and apparatus for classifying the communication of an investigated user with at least one other user
US8312056B1 (en) * 2011-09-13 2012-11-13 Xerox Corporation Method and system for identifying a key influencer in social media utilizing topic modeling and social diffusion analysis
WO2013037256A1 (zh) * 2011-09-13 2013-03-21 腾讯科技(深圳)有限公司 数据匹配方法和装置
US8756500B2 (en) 2011-09-20 2014-06-17 Microsoft Corporation Dynamic content feed filtering
US20130086072A1 (en) * 2011-10-03 2013-04-04 Xerox Corporation Method and system for extracting and classifying geolocation information utilizing electronic social media
US8930393B1 (en) * 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US9305108B2 (en) 2011-10-05 2016-04-05 Google Inc. Semantic selection and purpose facilitation
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
US8606869B2 (en) * 2011-10-12 2013-12-10 Credibility Corp. Method and system for directly targeting and blasting messages to automatically identified entities on social media
US8825515B1 (en) * 2011-10-27 2014-09-02 PulsePopuli, LLC Sentiment collection and association system
KR20140084316A (ko) 2011-10-31 2014-07-04 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 이메일 태그
US9131018B2 (en) * 2011-11-02 2015-09-08 Dedo Interactive, Inc. Social media data playback system
US11064257B2 (en) 2011-11-07 2021-07-13 Monet Networks, Inc. System and method for segment relevance detection for digital content
US20160241533A1 (en) * 2011-11-07 2016-08-18 Anurag Bist System and Method for Granular Tagging and Searching Multimedia Content Based on User's Reaction
US10638197B2 (en) 2011-11-07 2020-04-28 Monet Networks, Inc. System and method for segment relevance detection for digital content using multimodal correlations
US9152625B2 (en) * 2011-11-14 2015-10-06 Microsoft Technology Licensing, Llc Microblog summarization
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
US9268769B1 (en) * 2011-12-20 2016-02-23 Persado Intellectual Property Limited System, method, and computer program for identifying message content to send to users based on user language characteristics
CN103176969A (zh) * 2011-12-20 2013-06-26 腾讯科技(深圳)有限公司 一种分享微博消息的方法及装置
US9110984B1 (en) 2011-12-27 2015-08-18 Google Inc. Methods and systems for constructing a taxonomy based on hierarchical clustering
US9218083B2 (en) 2012-01-20 2015-12-22 Htc Corporation Methods for parsing content of document, handheld electronic apparatus and computer-readable medium thereof
US20130298084A1 (en) * 2012-01-27 2013-11-07 Bottlenose, Inc. Targeted advertising based on trending of aggregated personalized information streams
US8782051B2 (en) * 2012-02-07 2014-07-15 South Eastern Publishers Inc. System and method for text categorization based on ontologies
US9104734B2 (en) * 2012-02-07 2015-08-11 Social Market Analytics, Inc. Systems and methods of detecting, measuring, and extracting signatures of signals embedded in social media data streams
CN103246670B (zh) * 2012-02-09 2016-02-17 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统
US8832092B2 (en) * 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
US9064245B2 (en) 2012-02-22 2015-06-23 Hewlett-Packard Development Company, L.P. Generating a calendar graphical visualization including pixels representing data records containing user feedback
US9477749B2 (en) * 2012-03-02 2016-10-25 Clarabridge, Inc. Apparatus for identifying root cause using unstructured data
US11416325B2 (en) 2012-03-13 2022-08-16 Servicenow, Inc. Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US10600002B2 (en) 2016-08-04 2020-03-24 Loom Systems LTD. Machine learning techniques for providing enriched root causes based on machine-generated data
US10740692B2 (en) 2017-10-17 2020-08-11 Servicenow, Inc. Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US9082154B2 (en) * 2012-03-15 2015-07-14 Sap Se Aggregation and semantic modeling of tagged content
US9135311B2 (en) * 2012-03-20 2015-09-15 Tagboard, Inc. Gathering and contributing content across diverse sources
US20130282417A1 (en) * 2012-04-20 2013-10-24 Lithium Technologies, Inc. System and method for providing a social customer care system
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
JP6030865B2 (ja) * 2012-06-13 2016-11-24 ユニ・チャーム株式会社 推奨製品提示システム
US9678948B2 (en) * 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
GB201211853D0 (en) * 2012-07-04 2012-08-15 Qatar Foundation A system and method for event or entity analysis and exploration in microblogs
US9141600B2 (en) * 2012-07-12 2015-09-22 Insite Innovations And Properties B.V. Computer arrangement for and computer implemented method of detecting polarity in a message
US9009126B2 (en) * 2012-07-31 2015-04-14 Bottlenose, Inc. Discovering and ranking trending links about topics
US9286144B1 (en) 2012-08-23 2016-03-15 Google Inc. Handling context data for tagged messages
US9135255B2 (en) * 2012-09-26 2015-09-15 Wal-Mart Stores, Inc. System and method for making gift recommendations using social media data
US20130035983A1 (en) * 2012-10-02 2013-02-07 Toyota Motor Sales, U.S.A., Inc. Validating customer complaints based on social media postings
US9342908B2 (en) * 2012-10-08 2016-05-17 Auckland Uniservices Limited Information retrieval and presentation methods and systems
US20140129544A1 (en) * 2012-11-02 2014-05-08 Google Inc. Using Metadata to Summarize Social Media Content
WO2014074643A2 (en) * 2012-11-06 2014-05-15 Bottlenose, Inc. System and method for dynamically placing and scheduling of promotional items or content based on momentum of activities of a targeted audience in a network environment
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US9223831B2 (en) * 2013-01-02 2015-12-29 Codeq Llc System, method and computer program product for searching summaries of mobile apps reviews
US10002371B1 (en) 2013-01-02 2018-06-19 Codeq, Llc System, method, and computer program product for searching summaries of online reviews of products
GB2509773A (en) 2013-01-15 2014-07-16 Ibm Automatic genre determination of web content
CN103095499B (zh) * 2013-01-17 2016-05-04 上海交通大学 一种在微博平台中捕获水军的方法
US8762302B1 (en) 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
US9081797B2 (en) * 2013-03-06 2015-07-14 Google Inc. Systems and methods for associating microposts with geographic locations
CN103150374B (zh) * 2013-03-11 2017-02-08 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
US9058376B2 (en) * 2013-03-15 2015-06-16 Alcmeon Scoring of interrelated message elements
IN2013CH01201A (ja) * 2013-03-20 2015-08-14 Infosys Ltd
US10430894B2 (en) 2013-03-21 2019-10-01 Khoros, Llc Gamification for online social communities
US9432325B2 (en) * 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
US9183598B2 (en) 2013-05-29 2015-11-10 International Business Machines Corporation Identifying event-specific social discussion threads
US9563847B2 (en) 2013-06-05 2017-02-07 MultiModel Research, LLC Apparatus and method for building and using inference engines based on representations of data that preserve relationships between objects
US20140365208A1 (en) * 2013-06-05 2014-12-11 Microsoft Corporation Classification of affective states in social media
CN104252424B (zh) * 2013-06-26 2018-04-17 腾讯科技(深圳)有限公司 一种用户原创内容消息的缓存处理方法及装置
US11086905B1 (en) * 2013-07-15 2021-08-10 Twitter, Inc. Method and system for presenting stories
US10162884B2 (en) * 2013-07-23 2018-12-25 Conduent Business Services, Llc System and method for auto-suggesting responses based on social conversational contents in customer care services
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
US9262438B2 (en) * 2013-08-06 2016-02-16 International Business Machines Corporation Geotagging unstructured text
CN103458042B (zh) * 2013-09-10 2016-06-01 上海交通大学 一种微博广告用户检测方法
US9715492B2 (en) 2013-09-11 2017-07-25 Avaya Inc. Unspoken sentiment
US20150073958A1 (en) * 2013-09-12 2015-03-12 Bank Of America Corporation RESEARCH REPORT RECOMMENDATION ENGINE ("R+hu 3 +lE")
US20150120788A1 (en) * 2013-10-28 2015-04-30 Xerox Corporation Classification of hashtags in micro-blogs
US9830376B2 (en) * 2013-11-20 2017-11-28 International Business Machines Corporation Language tag management on international data storage
US10453079B2 (en) * 2013-11-20 2019-10-22 At&T Intellectual Property I, L.P. Method, computer-readable storage device, and apparatus for analyzing text messages
US10002187B2 (en) 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US9996529B2 (en) 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10249008B2 (en) 2013-12-12 2019-04-02 At&T Intellectual Property I, L.P. Method, computer-readable storage device, and apparatus for addressing a problem in a network using social media
WO2015095190A1 (en) * 2013-12-16 2015-06-25 Co Everywhere, Inc. Systems and methods for providing geographically delineated content
US20150169677A1 (en) * 2013-12-18 2015-06-18 Avraham Noiman System for following governmental rules and rulemaking processes
US20150172145A1 (en) * 2013-12-18 2015-06-18 Avaya, Inc. Impact prediction of social media interaction
US20150199609A1 (en) * 2013-12-20 2015-07-16 Xurmo Technologies Pvt. Ltd Self-learning system for determining the sentiment conveyed by an input text
GB2521637A (en) * 2013-12-24 2015-07-01 Ibm Messaging digest
US10262362B1 (en) 2014-02-14 2019-04-16 Experian Information Solutions, Inc. Automatic generation of code for attributes
US9858260B2 (en) * 2014-04-01 2018-01-02 Drumright Group LLP System and method for analyzing items using lexicon analysis and filtering process
US10949753B2 (en) * 2014-04-03 2021-03-16 Adobe Inc. Causal modeling and attribution
US12001498B2 (en) 2014-06-05 2024-06-04 Snap Inc. Automatic article enrichment by social media trends
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US10205627B2 (en) 2014-06-24 2019-02-12 Vmware, Inc. Method and system for clustering event messages
US10120928B2 (en) * 2014-06-24 2018-11-06 Vmware, Inc. Method and system for clustering event messages and managing event-message clusters
US9256664B2 (en) * 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
CN104077407B (zh) * 2014-07-10 2017-06-16 中国工商银行股份有限公司 一种智能数据搜索系统及方法
US10592539B1 (en) 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
US10601749B1 (en) * 2014-07-11 2020-03-24 Twitter, Inc. Trends in a messaging platform
US11263401B2 (en) 2014-07-31 2022-03-01 Oracle International Corporation Method and system for securely storing private data in a semantic analysis system
US9985919B2 (en) * 2014-09-18 2018-05-29 International Business Machines Corporation Event notification
US9378200B1 (en) 2014-09-30 2016-06-28 Emc Corporation Automated content inference system for unstructured text data
US9672279B1 (en) 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9852132B2 (en) * 2014-11-25 2017-12-26 Chegg, Inc. Building a topical learning model in a content management system
US10587541B2 (en) * 2014-12-02 2020-03-10 Facebook, Inc. Device, method, and graphical user interface for lightweight messaging
US10924444B2 (en) * 2014-12-02 2021-02-16 Facebook, Inc. Device, method, and graphical user interface for managing customer relationships using a lightweight messaging platform
US11216529B2 (en) * 2014-12-08 2022-01-04 Verizon Patent And Licensing Inc. Systems and methods for categorizing, evaluating, and displaying user input with publishing content
US9965458B2 (en) * 2014-12-09 2018-05-08 Sansa AI Inc. Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US11140115B1 (en) * 2014-12-09 2021-10-05 Google Llc Systems and methods of applying semantic features for machine learning of message categories
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10445152B1 (en) 2014-12-19 2019-10-15 Experian Information Solutions, Inc. Systems and methods for dynamic report generation based on automatic modeling of complex data structures
US20160189057A1 (en) * 2014-12-24 2016-06-30 Xurmo Technologies Pvt. Ltd. Computer implemented system and method for categorizing data
CN104518930B (zh) * 2015-01-09 2017-11-21 哈尔滨工程大学 一种面向微博的异常用户和消息同时检测方法
US9805128B2 (en) 2015-02-18 2017-10-31 Xerox Corporation Methods and systems for predicting psychological types
US9985916B2 (en) * 2015-03-03 2018-05-29 International Business Machines Corporation Moderating online discussion using graphical text analysis
US10127304B1 (en) 2015-03-27 2018-11-13 EMC IP Holding Company LLC Analysis and visualization tool with combined processing of structured and unstructured service event data
US10061977B1 (en) 2015-04-20 2018-08-28 Snap Inc. Determining a mood for a group
US10078651B2 (en) 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
TWI650655B (zh) * 2015-05-07 2019-02-11 浚鴻數據開發股份有限公司 網路事件自動蒐集分析方法及系統
US10803399B1 (en) 2015-09-10 2020-10-13 EMC IP Holding Company LLC Topic model based clustering of text data with machine learning utilizing interface feedback
TWI569165B (zh) * 2015-09-14 2017-02-01 Chunghwa Telecom Co Ltd The method of grouping external sites through proxy logs
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US10394803B2 (en) * 2015-11-13 2019-08-27 International Business Machines Corporation Method and system for semantic-based queries using word vector representation
US10824660B2 (en) * 2015-11-24 2020-11-03 Adobe Inc. Segmenting topical discussion themes from user-generated posts
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
US10540667B2 (en) * 2016-01-29 2020-01-21 Conduent Business Services, Llc Method and system for generating a search query
US10291570B2 (en) * 2016-02-15 2019-05-14 Interactive Intelligence Group, Inc. System and method for detecting relevant messages
US10061845B2 (en) 2016-02-18 2018-08-28 Fmr Llc Analysis of unstructured computer text to generate themes and determine sentiment
WO2017177455A1 (zh) * 2016-04-15 2017-10-19 华为技术有限公司 一种消息呈现的方法、设备及系统
US10504039B2 (en) * 2016-05-05 2019-12-10 Hulu, Llc. Short message classification for video delivery service and normalization
US10685292B1 (en) 2016-05-31 2020-06-16 EMC IP Holding Company LLC Similarity-based retrieval of software investigation log sets for accelerated software deployment
CN105956184B (zh) * 2016-06-01 2017-05-31 西安交通大学 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
US10372744B2 (en) * 2016-06-03 2019-08-06 International Business Machines Corporation DITA relationship table based on contextual taxonomy density
CN106096022B (zh) * 2016-06-22 2020-02-11 杭州迪普科技股份有限公司 多域网包分类规则的划分方法及装置
US10963634B2 (en) * 2016-08-04 2021-03-30 Servicenow, Inc. Cross-platform classification of machine-generated textual data
CN106897346A (zh) 2016-08-04 2017-06-27 阿里巴巴集团控股有限公司 数据处理的方法及装置
US10789119B2 (en) 2016-08-04 2020-09-29 Servicenow, Inc. Determining root-cause of failures based on machine-generated textual data
JP6763433B2 (ja) 2016-09-26 2020-09-30 日本電気株式会社 情報収集システム、情報収集方法、及び、プログラム
US10248626B1 (en) * 2016-09-29 2019-04-02 EMC IP Holding Company LLC Method and system for document similarity analysis based on common denominator similarity
US11361003B2 (en) * 2016-10-26 2022-06-14 salesforcecom, inc. Data clustering and visualization with determined group number
US10652190B2 (en) 2016-11-09 2020-05-12 Thomson Reuters Enterprise Centre Gmbh System and method for detecting geo-locations in social media
FR3059192A1 (fr) * 2016-11-18 2018-05-25 Orange Procede d'organisation d'une pluralite de messages echanges avec un agent conversationnel
US11093494B2 (en) * 2016-12-06 2021-08-17 Microsoft Technology Licensing, Llc Joining tables by leveraging transformations
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US11334836B2 (en) 2017-01-04 2022-05-17 MSM Holdings Pte Ltd System and method for analyzing media for talent discovery
US10496949B2 (en) 2017-01-04 2019-12-03 Christopher Zoumalan Compositions and methods for treating cutaneous conditions
US10397326B2 (en) 2017-01-11 2019-08-27 Sprinklr, Inc. IRC-Infoid data standardization for use in a plurality of mobile applications
CN106874943A (zh) * 2017-01-23 2017-06-20 腾讯科技(深圳)有限公司 业务对象分类方法和系统
US10565311B2 (en) * 2017-02-15 2020-02-18 International Business Machines Corporation Method for updating a knowledge base of a sentiment analysis system
US10614164B2 (en) * 2017-02-27 2020-04-07 International Business Machines Corporation Message sentiment based alert
US10679002B2 (en) * 2017-04-13 2020-06-09 International Business Machines Corporation Text analysis of narrative documents
WO2018191471A1 (en) * 2017-04-13 2018-10-18 Flatiron Health, Inc. Systems and methods for model-assisted cohort selection
US11176464B1 (en) 2017-04-25 2021-11-16 EMC IP Holding Company LLC Machine learning-based recommendation system for root cause analysis of service issues
US10902462B2 (en) 2017-04-28 2021-01-26 Khoros, Llc System and method of providing a platform for managing data content campaign on social networks
US10942948B2 (en) * 2017-05-02 2021-03-09 Sap Se Cloud-based pluggable classification system
US11238544B2 (en) 2017-07-07 2022-02-01 Msm Holdings Pte System and method for evaluating the true reach of social media influencers
EP3432155A1 (en) * 2017-07-17 2019-01-23 Siemens Aktiengesellschaft Method and system for automatic discovery of topics and trends over time
WO2019027259A1 (en) 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
US10999278B2 (en) 2018-10-11 2021-05-04 Spredfast, Inc. Proxied multi-factor authentication using credential and authentication management in scalable data networks
US11050704B2 (en) 2017-10-12 2021-06-29 Spredfast, Inc. Computerized tools to enhance speed and propagation of content in electronic messages among a system of networked computing devices
US10346449B2 (en) 2017-10-12 2019-07-09 Spredfast, Inc. Predicting performance of content and electronic messages among a system of networked computing devices
US11470161B2 (en) 2018-10-11 2022-10-11 Spredfast, Inc. Native activity tracking using credential and authentication management in scalable data networks
US11570128B2 (en) 2017-10-12 2023-01-31 Spredfast, Inc. Optimizing effectiveness of content in electronic messages among a system of networked computing device
US10785222B2 (en) 2018-10-11 2020-09-22 Spredfast, Inc. Credential and authentication management in scalable data networks
US11734096B2 (en) * 2017-10-23 2023-08-22 Vmware, Inc. Disaster prediction recovery: statistical content based filter for software as a service
CN107943835A (zh) * 2017-10-26 2018-04-20 中国南方电网有限责任公司 一种用于电力系统的报送数据自动分析与归类系统
US11182394B2 (en) 2017-10-30 2021-11-23 Bank Of America Corporation Performing database file management using statistics maintenance and column similarity
CN107844553B (zh) * 2017-10-31 2021-07-27 浪潮通用软件有限公司 一种文本分类方法及装置
US10601937B2 (en) * 2017-11-22 2020-03-24 Spredfast, Inc. Responsive action prediction based on electronic messages among a system of networked computing devices
TWI657687B (zh) * 2018-01-02 2019-04-21 凌群電腦股份有限公司 高效能資料長度可變之訊息組成方法及其系統
US11061900B2 (en) 2018-01-22 2021-07-13 Spredfast, Inc. Temporal optimization of data operations using distributed search and server management
US10594773B2 (en) 2018-01-22 2020-03-17 Spredfast, Inc. Temporal optimization of data operations using distributed search and server management
US10977670B2 (en) 2018-01-23 2021-04-13 Mass Minority Inc. Method and system for determining and monitoring brand performance based on paid expenditures
US20190244175A1 (en) * 2018-02-06 2019-08-08 Bank Of America Corporation System for Inspecting Messages Using an Interaction Engine
US11023496B1 (en) * 2018-04-04 2021-06-01 Snap Inc. Generating clusters based on messaging system activity
CN110377373A (zh) * 2018-04-13 2019-10-25 深圳富桂精密工业有限公司 网页界面管理系统、方法及计算机可读存储介质
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
US11500904B2 (en) 2018-06-05 2022-11-15 Amazon Technologies, Inc. Local data classification based on a remote service interface
US11443058B2 (en) * 2018-06-05 2022-09-13 Amazon Technologies, Inc. Processing requests at a remote service to implement local data classification
CN109213929A (zh) * 2018-07-26 2019-01-15 阿里巴巴集团控股有限公司 网络舆情信息处理方法、装置及服务器
CN110795474A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于内容生成的数据处理方法及装置
CN109408804A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 舆情分析方法、系统、设备和存储介质
US10565403B1 (en) 2018-09-12 2020-02-18 Atlassian Pty Ltd Indicating sentiment of text within a graphical user interface
US11049604B2 (en) * 2018-09-26 2021-06-29 International Business Machines Corporation Cognitive monitoring of online user profiles to detect changes in online behavior
US10855657B2 (en) 2018-10-11 2020-12-01 Spredfast, Inc. Multiplexed data exchange portal interface in scalable data networks
CN113272799B (zh) 2018-12-25 2024-06-14 微软技术许可有限责任公司 编码信息提取器
US10977289B2 (en) * 2019-02-11 2021-04-13 Verizon Media Inc. Automatic electronic message content extraction method and apparatus
US11170064B2 (en) 2019-03-05 2021-11-09 Corinne David Method and system to filter out unwanted content from incoming social media data
US10931540B2 (en) 2019-05-15 2021-02-23 Khoros, Llc Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously
US11120229B2 (en) 2019-09-04 2021-09-14 Optum Technology, Inc. Natural language processing using joint topic-sentiment detection
US11163963B2 (en) 2019-09-10 2021-11-02 Optum Technology, Inc. Natural language processing using hybrid document embedding
US11301630B1 (en) 2019-09-19 2022-04-12 Express Scripts Strategic Development, Inc. Computer-implemented automated authorization system using natural language processing
US11238243B2 (en) 2019-09-27 2022-02-01 Optum Technology, Inc. Extracting joint topic-sentiment models from text inputs
US11068666B2 (en) 2019-10-11 2021-07-20 Optum Technology, Inc. Natural language processing using joint sentiment-topic modeling
US11734360B2 (en) * 2019-12-18 2023-08-22 Catachi Co. Methods and systems for facilitating classification of documents
US11055119B1 (en) * 2020-02-26 2021-07-06 International Business Machines Corporation Feedback responsive interface
US11397755B2 (en) * 2020-04-21 2022-07-26 Freshworks, Inc. Incremental clustering
CN113630799B (zh) * 2020-05-08 2023-08-15 中国移动通信集团浙江有限公司 流量调度方法、装置及计算设备
RU2738335C1 (ru) 2020-05-12 2020-12-11 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система классификации и фильтрации запрещенного контента в сети
US11487936B2 (en) * 2020-05-27 2022-11-01 Capital One Services, Llc System and method for electronic text analysis and contextual feedback
US11494565B2 (en) 2020-08-03 2022-11-08 Optum Technology, Inc. Natural language processing techniques using joint sentiment-topic modeling
US11128589B1 (en) 2020-09-18 2021-09-21 Khoros, Llc Gesture-based community moderation
US11438289B2 (en) 2020-09-18 2022-09-06 Khoros, Llc Gesture-based community moderation
CN112309076A (zh) * 2020-10-26 2021-02-02 北京分音塔科技有限公司 低功耗的异常活动监控与预警方法、装置和系统
US11784961B2 (en) * 2020-10-30 2023-10-10 Honda Research Institute Europe Gmbh Social interaction opportunity detection method and system
US11627100B1 (en) 2021-10-27 2023-04-11 Khoros, Llc Automated response engine implementing a universal data space based on communication interactions via an omnichannel electronic data channel
US11438282B2 (en) 2020-11-06 2022-09-06 Khoros, Llc Synchronicity of electronic messages via a transferred secure messaging channel among a system of various networked computing devices
US11924375B2 (en) 2021-10-27 2024-03-05 Khoros, Llc Automated response engine and flow configured to exchange responsive communication data via an omnichannel electronic communication channel independent of data source
US11714629B2 (en) 2020-11-19 2023-08-01 Khoros, Llc Software dependency management
US12008321B2 (en) * 2020-11-23 2024-06-11 Optum Technology, Inc. Natural language processing techniques for sequential topic modeling
US12022371B2 (en) 2020-12-18 2024-06-25 Social Asset Management Inc. Method and system for managing electronic data representing emergency alerts
JP2022137569A (ja) * 2021-03-09 2022-09-22 本田技研工業株式会社 情報管理システム
JP2022137568A (ja) 2021-03-09 2022-09-22 本田技研工業株式会社 情報管理システム
US20220383411A1 (en) * 2021-06-01 2022-12-01 Jpmorgan Chase Bank, N.A. Method and system for assessing social media effects on market trends
CN115688024B (zh) * 2022-09-27 2023-05-30 哈尔滨工程大学 基于用户内容特征和行为特征的网络异常用户预测方法
CN116739656B (zh) * 2023-08-14 2023-10-20 北京数字一百信息技术有限公司 一种客户体验管理方法和系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6121885A (en) * 1998-04-10 2000-09-19 Masone; Reagan Combination smoke detector and severe weather warning device
JP2005339368A (ja) * 2004-05-28 2005-12-08 Ntt Docomo Inc 感情把握システムおよび感情把握方法
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US7899769B2 (en) 2004-11-24 2011-03-01 Overtone, Inc. Method for identifying emerging issues from textual customer feedback
JP4303708B2 (ja) 2005-07-05 2009-07-29 ヤンマー株式会社 旋回作業車
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
JP5067556B2 (ja) 2005-09-30 2012-11-07 日本電気株式会社 トレンド評価装置と、その方法及びプログラム
US7877409B2 (en) * 2005-12-29 2011-01-25 Nextlabs, Inc. Preventing conflicts of interests between two or more groups using applications
US8731994B2 (en) * 2006-10-06 2014-05-20 Accenture Global Services Limited Technology event detection, analysis, and reporting system
US20090138415A1 (en) * 2007-11-02 2009-05-28 James Justin Lancaster Automated research systems and methods for researching systems
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5283208B2 (ja) * 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
US8046455B2 (en) * 2008-11-21 2011-10-25 The Invention Science Fund I, Llc Correlating subjective user states with objective occurrences associated with a user

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406049A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Facilitating message composition based on absent context

Also Published As

Publication number Publication date
WO2010144618A1 (en) 2010-12-16
EP2441010A4 (en) 2016-12-28
TW201118589A (en) 2011-06-01
EP2441010A1 (en) 2012-04-18
JP2012529717A (ja) 2012-11-22
US8719302B2 (en) 2014-05-06
US20100312769A1 (en) 2010-12-09
US9323826B2 (en) 2016-04-26
US20140358929A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
US11663254B2 (en) System and engine for seeded clustering of news events
EP3764246A1 (en) Systems and methods for content management
Goswami et al. A survey of event detection techniques in online social networks
US10146878B2 (en) Method and system for creating filters for social data topic creation
US9256667B2 (en) Method and system for information discovery and text analysis
US8060513B2 (en) Information processing with integrated semantic contexts
US7519589B2 (en) Method and apparatus for sociological data analysis
US20100005087A1 (en) Facilitating collaborative searching using semantic contexts associated with information
US20150261773A1 (en) System and Method for Automatic Generation of Information-Rich Content from Multiple Microblogs, Each Microblog Containing Only Sparse Information
CA2617060A1 (en) An improved method and apparatus for sociological data analysis
JP2005316999A (ja) エンハンストドキュメント取り出しのためのコンテンツ伝播
CA2956627A1 (en) System and engine for seeded clustering of news events
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
US20230010680A1 (en) Business Lines
Haris et al. Mining graphs from travel blogs: a review in the context of tour planning
Chung et al. A computational framework for social-media-based business analytics and knowledge creation: empirical studies of CyTraSS
CN110334112B (zh) 一种简历信息检索方法及装置
Aziz et al. Identifying influential bloggers using blogs semantics
Zhao et al. A system to manage and mine microblogging data
Burstein et al. Decision support via text mining
Wang et al. Microblog oriented interest extraction with both content and network structure
Chaudhary et al. The case analysis on sentiment based ranking of nodes in social media space
Velasco et al. Social media platforms: Alternative source of fire data in Cebu city using SVM and correlation analysis
Balusamy et al. Social Network Web Mining: Web Mining Techniques for Online Social Network Analysis

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20130610

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140801

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140808

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140903

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140929

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150803

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150904

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160201

R150 Certificate of patent or registration of utility model

Ref document number: 5879260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250