JP2015524962A - 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法 - Google Patents

各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法 Download PDF

Info

Publication number
JP2015524962A
JP2015524962A JP2015518870A JP2015518870A JP2015524962A JP 2015524962 A JP2015524962 A JP 2015524962A JP 2015518870 A JP2015518870 A JP 2015518870A JP 2015518870 A JP2015518870 A JP 2015518870A JP 2015524962 A JP2015524962 A JP 2015524962A
Authority
JP
Japan
Prior art keywords
microblog
search
data
microblogs
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015518870A
Other languages
English (en)
Inventor
マグダイ・ワリード
カリーム・ダルヴィッシュ
アーメド・アリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qatar Foundation
Original Assignee
Qatar Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qatar Foundation filed Critical Qatar Foundation
Publication of JP2015524962A publication Critical patent/JP2015524962A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成するシステム及び方法であって、その方法が、各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合を収集し;検索クエリーの入力を許容するユーザーインターフェースを提供し;ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データにおけるデータにマッチングし、マッチング・プロセスの結果をマイクロブログ・データのサブセットとして提供し;マイクロブログ・データのサブセットに処理技術を適用し;及びマイクロブログ・データの処理されたサブセットの要約レポートを生成する。

Description

本発明は、マイクロブログから得られる情報のトピック基準の分析のためのシステム及び方法に関する。より端的には、本発明は、各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法に関する。
トピックは、政治選挙といったイベント;観光地といった地理的な場所;若しくは個人又は法人といった実在である又はそれに関する。より広範囲には:トピックが、特定のユーザーの情報の要求を表すクエリーにより識別される(トピックが特定のイベント:例えば、選挙、スポーツイベント若しくは自然災害;又は実在;例えば、人物、場所、組織、コンセプト(例えば、宗教、哲学、又は言語);又は製品であり得る)。
マイクロブログは、公衆(又はプライベートな集団)への拡散、閲覧、及び応答のためにユーザーがオンラインでニュース、情報、又はクエリーを投稿する人気のあるツールである。ツイッター(Twitter)は、毎日300,000,000を超えるマイクロブログが交換される人気のあるマイクロブログ・サイトである。ツイッターマイクロブログ又はツイートが、140文字のメッセージを包含する。
本発明により解決される課題とその実施は、ユーザー入力に基づくマイクロブログの有意な分析及び調査の遂行を提供することである。
一般にはソーシャルネットワーク・サイトにおける、詳細にはマイクロブログを通じた検索機能は、基本的であり、制限されている。大半のトピックが有するように、多数の相や、側面を有する特定のイベント又は実在を検索している時、この制限が特に公表される。マイクロブログ・サイト及びツールを通じて現在において実施されている検索機能は、与えられたクエリーからごく最近の投稿を引き出す簡単な単語一致検索である。更に、ユーザーは、与えられたクエリーに応答して個別のマイクロブログ/ポストを包含する数百又はおそらく数千のヒットを取得し得る。これは、即時の情報のオーバーロード(過負荷)及び使用不能な検索結果に結びつく。
多くのマイクロブログ及びソーシャル・ウェブサイトが、ユーザーに検索機能を提供し、ユーザーのクエリーに応答して単語一致検索を用いて関連のポストをユーザーが見つけることを許容する。マイクロブログ検索における現在の最先端が、検索結果として検索単語(群)を含む任意の最近のポストを返答する。このようにしてユーザーは、ごく最近の検索語−与えられたイベント又は特定の実在−に言及する最近のポストにより更新される。マイクロブログ検索が、次において検討されている:
N. Naveed, T. Gottron, J. Kunegis A. Alhadi (2011年)、マイクロブログの検索: スパースさ(sparsity)と文章品質との対処 CIKM-2011年; 及び
M. R. Teevan, J., & Panovich, K. (2010年)、ソーシャルネットワークに何を、またなぜ人々が問うのか?:ステータスメッセージQ&A挙動の調査研究、WSDM 2011年。
マイクロブログ環境における検索シナリオが制限されており、また任意の一つのマイクロブログ(おそらく140文字)にて提供の情報がスパース(希薄)である。ソーシャルネットワーク・サイト上のコメント又はポストが等しく情報スパースである。しかしながら、マイクロブログから得られる有用な情報−ソーシャルデータのリッチな継ぎ目(rich seam)−を提供するための試みが為されている。これらの試みが、次のものを含む:
- Johan Bollen, Huina Mao, Xiao-Jun Zeng、ツイッタームードが株式市場を予測する arXiv 2010年;
- M. D. Conover, J. Ratkiewicz, M. Franscisco, B. Goncalves, A. Flammini, F. Menczer、ツイッター上の政治的な対立、AAAI-2011年;
- O. Phelan, K. McCarthy, M. Bennett, 及び B. Smyth (2011年)、同類の用語:ツイッターを用いたコンテンツ基準のニュースの推薦及び発見 ECIR 2011年;
- Daniel Gayo-Avello, Panagiotis T. Metaxas 及び Eni Mustafaraj, pmetaxas, (2011年)、ツイッターを用いた選挙予測の限界 AAAI-2011年;
- Bermingham, Adam及びSmeaton, Alan F(2011年)、ツイッターを用いた選挙見解のモニター及び選挙結果の予測;
- Andranik Tumasjan, Timm O. Sprenger, Philipp G. Sandner, Isabell M. Welpe、ツイッターで選挙を予想する:140文字が選挙見解の何を明らかにするのか AAAI-2010年; 及び
- Andranik Tumasjan, Timm O. Sprenger, Philipp G. Sandner, Isabell M. Welpe、ツイッターで選挙を予想する:140文字が選挙見解の何を明らかにするのか AAAI-2010年。
近年においてはマイクロブログ検索における関心が顕著に高まっている。幾つかの研究が、他の検索タスクと比較したマイクロブログ検索の性質を調査した[N. Naveed, T. Gottron, J. Kunegis, A. Alhadi (2011年)、マイクロブログの検索:スパースさと文章品質との対処、CIKM-2011年]及び[J. Teevan, D. Ramage, M. Morris (2011年)、#ツイッター検索:マイクロブログ検索とウェブ検索の比較、WSDM 2011年]。[N. Naveed, T. Gottron, J. Kunegis, A. Alhadi (2011年)、マイクロブログの検索:スパースさと文章品質との対処、CIKM-2011年]が、マイクロブログ検索の挑戦を説明し、その中では、文章が非常に短く、典型的には単一のトピックに注目する。[J. Teevan, D. Ramage, M. Morris (2011年)、#ツイッター検索:マイクロブログ検索とウェブ検索の比較、WSDM 2011年]が、ウェブクエリーとマイクロブログクエリーの間の相違を強調し、その中では、ウェブ検索における与えられたトピックの関連のページを見つけることに対して、マイクロブログクエリーが、通常、与えられたイベント又は人物に関する更新を見つけるためのユーザーの関心を表す。
マイクロブログ検索におけるこの高い関心のため、TRECが、2011年にマイクロブログ検索に注目した新しいトラックを導入した[I. Ounis, C. Macdonald, J. Lin, I. Soboroff (2011年)、TREC-2011年マイクロブログ・トラックの概要、TREC-2011年]。その目的は、マイクロブログ検索のための高精度な検索を達成するための最適な方法を見出すことであった。ツイッターからの1400万のツィートの収集と、50のトピックのテストセットが、調査のために提供された[I. Ounis, C. Macdonald, J. Lin, I. Soboroff (2011年)、TREC-2011年マイクロブログ・トラックの概要、TREC-2011年]。トラックが様々な効果的な検索アプローチをもたらすが、次善であり得る、標準のアドホック(ad-hoc)検索タスクのようにTRECトラックセットアップがモデル検索をモデル化するため、検索シナリオのモデル化の問題が重要なままである[J. Teevan, D. Ramage, M. Morris (2011年)、#ツイッター検索:マイクロブログ検索とウェブ検索の比較、WSDM 2011年]。
マイクロブログ検索シナリオのための実用の定義の欠如により、幾つかの研究者が、直接的な検索以外の異なる利用可能なタスクを創作するになった。例えば、[I. Subasic, B. Berendt (2011年)、無価値又は創作?ニュース報告におけるツイッターの役目の調査、ECIR-2011年]が、ニュース源としてツィートを用い、ツイッターからの自動的なニュース検出のための特徴を検知するため、他のオンラインニュースメディアとそれらを比較した。[7]において、ツィートが、ユーザーに自身の好みに基づいたニュースを推薦するために用いられた。[J. Bollen, H. Mao, X-J. Zeng (2010年)、ツイッタームードが株式市場を予測する、ジャーナル・オブ・コンピューテーショナル・サイエンス 2(1)]においては、ツイッター上のユーザーのムード(mood)が、株式市場の変化を予測するために用いられた。ツイッターからのソーシャルデータに基づくユーザーへの情報ゲインを達成するために多くの他のタスクが言及されている。
他の著名な文献は、F. W. Lancaster, E. G. Fayen (1973年)、オンラインの情報検索、Melville Publishing Co., ロサンゼルス, カリフォルニア;O. Phelan, K. McCarthy, M. Bennett, 及び B. Smyth (2011年)、同類の用語:ツイッターを用いたコンテンツ基準のニュースの推薦及び発見、ECIR 2011年;I. Subasic, B. Berendt (2011年)、無価値又は創作?ニュース報告におけるツイッターの役目の調査、ECIR-2011年;B. Han, T. Baldwin (2011年)、ショートテキストメッセージの辞書的な正規化:Makn Sens a #ツイッター、ACL-HLT 2011年;及び W. X. Zhao, J. Jiang, Ji. Weng, J. He, E-P. Lim, Ho. Yan, X. Li (2011年)、トピックモデルを用いたツイッター及び伝統的なメディアとの比較、ECIR 2011年。
ツイッターマイクロブログは、「ハッシュタグ」−ツィートにおけるキーワード又はトピックを示すために用いられるハッシュタグと呼ばれるシンボル#を用いる。これは、メッセージを分類するための方法としてツイッターユーザーにより組織的に創作された(出所:www.twitter.com)。換言すれば、ユーザーが、シンボル#を単語の前に付けることによりハッシュタグを創作し、そのマイクロブログの意図されたトピックとして前付けされた単語を識別する。ハッシュタグは、「件名」又はトピック識別子として考えられ、他のユーザーがその特定のハッシュタグを検索し、同一のハッシュタグを参照する更なるマイクロブログを識別することができる。1以上のハッシュタグが、単一のマイクロブログに存在し得る。
ツイッターといった、多くのマイクロブログ及びソーシャル・ウェブサイトが、検索機能を提供し、ユーザーがその必要な情報に一致する関連のポストを見つけることが許容される。ツイッター上で現在実施されているマイクロブログ検索が、検索語に一致する最近のツィートを提供する。ユーザーは、ハッシュタグ「#タグ」又は名前言及「@user」の使用を介して、特定の実在、人物、又はイベントのために検索(若しくはフォロー)を選択し、連続的な更新を得る[J. Teevan, D. Ramage, M. Morris (2011年)、#ツイッター検索:マイクロブログ検索とウェブ検索の比較、WSDM 2011年]。この種類の検索の不利益の一つは、クエリーが多数のツイートを生成し、ユーザーを圧倒することである。このシナリオにおいては、ユーザーには、一致したツィートのフラットなリストが提示され(ツィート及びマイクロブログが本紙において交換可能に用いられる)、時間スパン、ツィート見解(tweet sentiment)、及びトピックモデリングといった多くの不足点を残す。
幾つかのサイトが、ハッシュタグによる検索を許容し、この場合において、ハッシュタグがキーワードとして用いられる:http://truthy.indiana.edu/。このウェブサイトは、ハッシュタグについてマイクロブログの集合を分析するためのツールを提供し、ユーザークエリーを形成するハッシュタグと各マイクロブログ内で一緒に発生する他のハッシュタグの間のリンクグラフをプロットする。ウェブサイトは、ハッシュタグを検索し、次に、与えられたハッシュタグを包含する最近のツィート、同様に、検索されたハッシュタグが時間とともに何度に亘り言及されたかの分布の指標を表示することもユーザーに許容する。
現在の技術の主要な欠点は、マイクロブログを通じた検索が、与えられたユーザー検索クエリーに基づいてごく最近のヒット(関連のポスト)だけを提供することである。概してソーシャル・コンテンツ及びソーシャルネットワークサイト・コンテンツまた特にはマイクロブログ(ツィートとしても知られている)の検索が、特に時間に敏感なトピックについて、基本的であり、制限されている。ツイッターといった現在において実施されているサイト上のマイクロブログ検索は、単純な単語一致に基づくものであり、与えられたクエリーに一致する大半の最近のマイクロブログを引き出す。
更には、ユーザーが、与えられたクエリーに応じて数百又はおそらく数千のマイクロブログを取得し、情報オーバーロードに繋がる。このシナリオに関する問題は、典型的には任意の一つの検索語にとって多数の関連のポストがあり、ユーザーがリターン量により窮地に陥れられることである−所謂「情報オーバーロード」。関連の検索結果の圧倒的な量を提供することなく、関連の検索結果を提示することは技術的な問題である。
多数のヒットに直面したユーザーの典型的な反応は、より具体的な検索用語法、つまり、長い若しくは複数のハッシュタグを用いることにより検索範囲を狭めることである。これは、ハッシュタグとして提示される非常に詳細に規定されたトピックに関する更新をユーザーが受信することを意味する。現システムは、有用には多すぎる関連のヒットと、やや少ない情報コンテンツを提供する。状況は、木を見て森を見ずに類似し、木が関連のヒットであり、森が求められている情報である。
従って、先行技術に関連する1以上の課題を解決し、例えば、マイクロブログから得られる情報に基づくトピック分析のためのシステム及び方法を創作する要望がある。
技術的な解決手段は、本発明を具体化するマイクロブログの検索システム及び方法を提示する。解決手段は、実行される検索を提供し、ユーザーに圧倒的な数の関連のヒットを返すが有用な情報には乏しい現システムと比較してより有用な情報をユーザーが取得する。
本発明の実施形態が、先行技術に関する1以上の課題を改善することを求める。
本発明の一側面が、各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成する方法を提供し、該方法が、各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合を収集し;検索クエリーの入力を許容するユーザーインターフェースを提供し;ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データにおけるデータにマッチングし、マッチング・プロセスの結果をマイクロブログ・データのサブセットとして提供し;マイクロブログ・データのサブセットに処理技術を適用し;及びマイクロブログ・データの処理されたサブセットの要約レポートを生成する。
本発明の実施形態においては、方法が、更に、マイクロブログ・データのサブセットをマイクロブログの異なるカテゴリーに分割し;及び、異なるカテゴリーの各々の結果を要約レポートに組み込む。
好ましくは、テキスト標準化;固有表現認識;キーワード/キーフレーズ抽出;又は見解分析といった自然言語処理が用いられる。
本発明の更なる側面が、各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成するシステムを提供し、該システムが、プロセッサー及びメモリーを有する計算装置:及び記憶装置を含み、計算装置が、各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成する方法を実行するように構成され、該方法が、各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合を収集し;検索クエリーの入力を許容するユーザーインターフェースを提供し;ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データにおけるデータにマッチングし、マッチング・プロセスの結果をマイクロブログ・データのサブセットとして提供し;マイクロブログ・データのサブセットに処理技術を適用し;及びマイクロブログ・データの処理されたサブセットの要約レポートを生成する。
実施形態においては、システムが、ユーザーから検索クエリーを受け取るインターフェースをユーザーに表示するための視覚ディスプレイを更に含み、ユーザーによる検索クエリーの入力により、計算装置が、検索クエリーに対応するマイクロブログ・データの処理されたサブセットの要約レポートをインターフェースに出力する。
本発明の別の側面が、プロセッサー上で稼働するように実行される時、各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成する方法に係るステップをプロセッサーに実行させる指令を記憶するコンピューター読み取り可能媒体を提供し、前記方法が、各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合を収集し;検索クエリーの入力を許容するユーザーインターフェースを提供し;ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データにおけるデータにマッチングし、マッチング・プロセスの結果をマイクロブログ・データのサブセットとして提供し;マイクロブログ・データのサブセットに処理技術を適用し;及びマイクロブログ・データの処理されたサブセットの要約レポートを生成する。
本発明の別の側面が、各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成するように動作可能な検索ツールを提供し、該検索ツールが、各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合;検索クエリーの入力を許容するユーザーインターフェース;ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データのデータにマッチングするマッチング・プロセッサー;マイクロブログ・データの一致したサブセットを含む結果セット;及び結果セットに対して処理技術を適用し、マイクロブログ・データの処理されたサブセットの要約レポートを生成するレポート生成器を備える。
本発明の別の側面が、トピック基準のマイクロブログ分析ツールを提供する。
本発明の実施形態が、ほんの例のため、添付図面を参照して記述される:
図1は、本発明の実施形態での使用のためのユーザーインターフェースの概略的な概要である; 図2は、本発明を具体化するシステムの概略的な概要である; 図3は、発明の実施形態に係る方法の概要を表すフローチャートである; 図4は、本発明の実施形態に係る好適なサンプルの出力レポートの例である; 図5は、本発明の別の実施形態に係る好適なサンプルの出力レポートの例である; 図6は、本発明の更なる実施形態に係る好適なサンプルの出力レポートの例である。
本発明の実施形態が、与えられたクエリーについての最近/関連のマイクロブログのフラットなリストではなく、マイクロブログから包括的なレポートを生成する新しい多次元のマイクロブログ検索ツールを提供する。レポートは、タグ・クラウド、トピック時系列、及び最も人気及び面白いマイクロブログ、及びこれらの表示の見解の分析を含み得る。ツールは、事前規定のクエリーのセットを用いて時間に敏感なトピックを監視するために構成できる。本発明の実施形態が、ツイッターから利用できるツィート検索とは異なるユーザー体験を提供する。
本発明を具体化する検索シナリオが、現シナリオ、例えば、ごく最近のマイクロブログを通じた単語検索と比較し、ユーザーへの顕著な情報ゲインに帰結する。この開示が、(単純なハッシュタグ又はユーザー言及検索(user mention search)よりも多くを要求する)より一般的なクエリー及び情報ニーズを包含するシナリオに対処する;そして、結果は、概してマイクロブログ・ドメイン又はソーシャル・メディアにおける検索クエリーについてのヒットのより分かり易い要約であり、単なる簡単な結果のリストよりも情報に豊富である。
図1を参照すると、本発明の実施形態が、与えられた情報ニーズ、ユーザー検索クエリーに基づいてマイクロブログ・データからオンデマンドで要約を提供する。ユーザーの情報ニーズを表すユーザークエリーは、選挙、スポーツイベント、周知の大惨事等といった特定のイベント、若しくは、人物、場所、組織、又は製品等といった実在であり得る。与えられるクエリーが、(開始及び終了時間で)時間スパンを指定する。地理的場所、言語、ソーシャル・コミュニティー/グループ、広いカテゴリー(政治、スポーツなど)、年齢分類等の追加の情報も含み得る。情報ニーズに一致するソーシャル・コンテンツからの要約が、限定するわけではないが、次のものを含む:
・最多のポスト(最も投稿されたマイクロブログ/メッセージ)
・クラスごとの最多のポスト。クラスは、肯定、 否定、 面白い、悲しい等といった見解、サブトピック、地理等。
・ポストにおいて上位の広まったビデオ及びイメージ
・上位の広まった通例のリンク
・クエリー検索された、最も言及された用語及びフレーズ
・時間に亘る実在/イベントに関する統計。
本発明の更なる詳細な実施形態においては次のものを提供する:
・マイクロブログ、例えば、ツイッターからのソーシャル−カルチャー・イベントについてのオンデマンドの調査
・時間とともに結果をナビゲートし、ムードの変化を見て、進行中の大規模イベントに関連付ける
・ツイッターからイベントに関する最も人気のある情報を抽出する:
i. 最上位ツィート
ii. 面白いツィート
iii. 最上位ビデオ
iv. 最上位リンク
本発明の実施形態が次のように実施可能である:
・公共のウェブサイト;ユーザーが、任意のイベントのための特定のクエリーを作成し、レポートに提示される関連の情報を得ることができる、図4参照
・企業の問題解決;顧客のためにアプリケーションが構築され、それをある製品の側面に関するマーケット調査及び顧客コメント及び見解、あるトピックに関心のあるニュースウェブサイト等といったトピックに関連したビジネスのために用いることができる
しかしながら、本発明の実施形態が、また、アプレット、アプリ、カスタムデスクトップ解決手段といった他の手段により実施可能である。
本発明の実施形態が次のものを提供できる:
・システムへの固定及び事前規定の検索クエリーを用いた公共イベントのモニタリング
・情報ニーズがユーザークエリーとして表現可能であり、それが、特定のイベント又は実在であり、若しくはニュース記事;ユーザーの履歴、設定、又は暗黙又は明示の入力に基づくユーザーの好み;マイクロブログ;写真;又はビデオでもあり得る
・より大きいサイズのブログへの拡張
図1を参照すると、本発明の実施形態の使用の結果は、関連の結果の単なるリストではなく、情報に富んだコンテンツ及びマイクロブログ・ドメイン(又はソーシャル・メディア・ドメイン)の検索に用いられる検索クエリーのより包括的な要約である。この開示が、マイクロブログからレポートを生成するための新しいシステム及び方法を提供し、クエリーに一致した最近のポストのリストに代えて、検索結果を表すか、要約する。マイクロブログが「ツイッター」上に現れる「ツィート」を参照して記述されるが、マイクロブログは、この環境に限定されるべきではなく、ソーシャルネットワーク・サイト上のポスト;ニュース記事上のコメント;フォーラム上のコメント又はポスト;及び/又はソーシャルネットワーク・サイト上のコメントといった他の形態のユーザー生成コンテンツ(UGC(user generated content))も含むことができる。
本発明の実施形態が、索引されたマイクロブログ・データに基づいて付与の検索クエリーに応答して包括的なレポートを生成する索引作成のマイクロブログ検索ツール、システム及び方法を提供する。
図2は、ユーザー検索クエリーに応答して包括的なレポートを自動生成するための本発明を具体化するシステム100のための基本的なシステムのアーキテクチャーを提示する。システム100は、1以上の計算装置101を備え、各々が記憶部103に関連した処理部102を含み、少なくとも一つの計算装置101が1以上の入力装置を含む。
図2に図示の実施形態においては、入力装置が2つの入力を備える:マイクロブログ供給部110及びユーザーインターフェース111。
マイクロブログ供給部110が、幾つかの実施形態においては、マイクロブログのライブ供給(a live feed)であり、若しくは、他の実施形態においては、マイクロブログのライブ供給のミラー若しくは収集のマイクロブログの保存されたデータベースであり得る。
マイクロブログ供給部110が、システム100に利用可能なそれらの関連のメタデータと一緒にマイクロブログの集合を作成する。例えば、マイクロブログ供給部110が、ツイッター・ウェブサイト(「ツィート」)からのマイクロブログ群であり、これらは、ある言語について収集され、また供給部110のデータベース110aに保存される。ツィートは、ツイッターに対して「lang:xx」(例えば、アラビア語について「lang:ar」)といった包括的なクエリーを発行することにより収集され、それが、与えられた言語におけるツィートを引き出す。収集されたツィートが、著者ID、ツィートID、タイムスタンプ等を含む。
標準化プロセッサー102aが、マイクロブログ供給部110の下流に設けられる。標準化プロセッサー102aが、ツィート及びソーシャル・メディアで一般的に使用される非公式又はスラング言語を処理する高度テキスト標準化技術を用いて、データベース110aからのマイクロブログ(「ツィート・テキスト」)のテキストを標準化する。例えば、英語標準化が、[B. Han, T. Baldwin (2011年)、ショートテキストメッセージの辞書的な正規化:Makn Sens a #ツイッター、ACL-HLT 2011年]に記述のように用いることができ、アラビア語については[K. Darwish, W. Magdy, A. Mourad (2012年)、−アラビア語のマイクロブログの検索のための言語処理、CIKM 2012年]に記述のとおりである。
標準化プロセスが、また、顔文字も処理できる。顔文字は、ブロガーの見解を反映し、マイクロブログにおいて汎用されている。マイクロブログが標準化でき、マイクロブログに表示の見解が、顔文字及び言語の使用から検出される。
Figure 2015524962
インデクサー102bが、次に、著者ID、タイムスタンプ、及びツィートIDといったそれらのメタデータと一緒に標準化されたツィートを索引付けする。実施形態においては、標準化ツィートが、それらのメタデータと共に索引付けされる。システムが、トップランキング選択とは対照的に所定の時間ウィンドウ(time window)においてクエリーに一致する「全」ツィートを処理及び分析すべきであるため、検索システムは、ランキングモデルではなく、簡単なブール検索モデル[F. W. Lancaster, E. G. Fayen (1973年)、オンライン情報検索、Melville Publishing Co.,ロサンゼルス,カルフォニア州]を使用するように構成される。
データ記憶装置103は、標準化及び索引付けされたマイクロブログが供給されて保持する。
理解されるように、ユーザーインターフェース111が、検索クエリーのエントリー112を提供し、ユーザーが検索クエリーを入力し、若しくは事前選択又は事前生成された検索クエリーのドロップダウン・リストから検索クエリーを選択することができる。ユーザーが検索クエリーを提供し、それが、好適には実在又はイベントであり、若しくは、ハッシュタグ(#タグ)、名前言及(@some_user)、若しくは自由形式のクエリーであり得る。
システムのために用いられるクエリーがリッチ・ブールであり得る。ブールクエリーは、手動で構築することに時間を要求するものの、トレーニングを要求せず、多数のトピックにおいて言及される実在又はイベントの曖昧さを解消するのに役立つことができる。例えば、フランス大統領「Hollande」の検索が、同一名の異なる人物に言及する多数のツィートを引き出し得る。ブールクエリーは、実在の曖昧さを解消するため、次のように公式化できる:「Hollande AND (Francois OR France OR president)」。
検索クエリーのエントリー112に加え、ユーザーインターフェース111が、オプションの時間ウィンド・フィルター113を組み込み、ユーザーにより、検索結果を特定の時間ウィンドウまで狭めて限定するように作動可能である。マイクロブログについてのメタデータがタイムスタンプを組み込み、マイクロブログがポストの作成又は投稿日により分類されることに留意されたい。時間ウィンド・フィルター113に何もユーザー入力がなければ、好適にはデフォルトの時間ウィンドウがフィルター113により設定される。実施形態においては、デフォルトの時間ウィンドウが、現在の日付の現時刻から前日の午前0時までのように設定される。他のデフォルトの時間ウィンドウが、単に「直近の2、4、6、12時間」のように事前設定又は規定され得る。
組み合わせにおいては、検索クエリーのエントリー112及び時間ウィンド・フィルター113が、複合検索クエリー114を生成し、インデックスデータベース103への呼び掛けのためにユーザーインターフェース111から送信される。
任意の指定の時間ウィンドウにおける複合検索クエリー114を満足する全ての結果のマイクロブログが、インデックスデータベース103から引き出され、索引付けされたマイクロブログの新鮮な集合115を提示する。エクストラクター・モジュール116が、引き出された集合115を分析し、引き出された集合から少なくとも幾つかの次の情報を抽出するように機能する:
1.201−最上位の投稿メッセージ(ツィート/マイクロブログ)、ツィートの言葉遣いにおける限られた本文の変動が許容される
2.202−面白い顔文字といった見解素材を含む最上位の投稿メッセージ
1及び2について、付与の検索クエリーについての全ての引き出されたツィートが、全ての類似のツィートを同一グループに集めるためにグループ化される。ツィート間における迅速及び堅調な一致のため、追加の標準化ステップが適用され、大文字変換及び全てのハッシュタグ、名前言及、URL、句読法、シンボル、顔文字、及び再ツィート・シンボルの除去を包含する。標準化後に正確に一致するツィートが一緒にグループ化される。グループは、クラスターでのツィート数と共にグループの代表として最も一般的なツィート形式でそれらのサイズによりランク順(降順)において提示される。最上位の面白いツィート(見解ツィート)が同一態様で抽出され、クラスタリングがニコニコの顔文字だけを持つこれらのツィートに適用される。
3.203−ツィートにおいて最も広まった(ビデオといった)リンク
上位100のクラスターのツィートにおけるURLが抽出される。ツィートにおけるURLが典型的には短縮化され、幾つかのURLが多数の短縮化された形式を有し得るため、全URLが拡張されて元のURLを明らかにする。ユー・チューブといったビデオ・ホスティング・サイトを指定するURLが、最高の人気のビデオのランク付けされたリストを取得するために用いられ、次に、例えば、出力レポートに組み込まれ得る。他のURLが抽出され、それらのタイトルが、それらのリンク及び出現数と共に提示され、またツィートでの出現数により順序づけされる。非ビデオ素材を指定する異カテゴリーのリンクも可能であり、ニュース・ストーリー、オーディオ・クリップ、地理的場所へのリンクもランク付けされてレポートに組み込まれ得る。例えば、最も頻繁に発生する地名又は地理的座標がレポートにおいて地図上に示されることができる。
4.204−ツィートに最も頻出する用語/フレーズ
アラビア語については、名詞句を抽出するためにAMIRAと同種の基底句チャンカー(a base-phrase chunker)が用いられる[M. Diab (2009)、第2世代ツール (AMIRA 2.0):高速及びロバストなトークン化、POSタギング、及び基底句チャンキング、MEDAR 2009]。英語については、キーワード/キーフレーズを抽出するのにオープン・カレー(Open Calais)が用いられる。抽出された名詞句及び/又はキーワード/キーフレーズが、それらの頻度により分類され、タグ・クラウドにおいて表示される(異なるフォーマットのタグ・クラウドについて図4及び5参照)。ハッシュタグ及び名前言及が含められるが、URLがこのレポート分類から除かれる。
5.205−時間に亘る検索トピックの人気
時間に亘りツィート数がプロットされ、インタラクティブ・グラフにてユーザーに提示される、図4、5、及び6の参照。我々のシステムにおいて用いられる時間単位が日であったが、システムが、他の時間単位のために構成可能である。また、ユーザーが、ビューの粒度を変えるオプションを有し、日毎の結果のレポートを探索し、特定の期間に亘ってナビゲートして個別に日毎の要約を見る。
レポート生成器117が提供され、これが、引き出されたツィートからの抽出された情報201〜205を取り込み、要約されたレポート120を作成し、好ましくはユーザーフレンドリーの標準化又はカスタマイズされたフォーマットで提示される:上位ツィート、上位面白いツィート、及び最も広まったビデオ及びリンクが、出現頻度により分類される。頻出用語及びフレーズがタグ・クラウドの形態において提示される。時系列グラフが、図4、5、及び6のように時間に亘るツイッター上のトピックの人気を示す。
マイクロブログ情報から引き出される生成されたレポートが、単語一致検索結果の標準リストと比較して、高レベルの情報コンテンツを提供する。さもなければスパースなマイクロブログ・データのオーバーロードになるものから得られた要約されたレポートの提供が、ユーザーにより選択された検索クエリー用語に仕立てられたユーザーに有用な情報を提供する。
実施形態においては、レポート生成及びマイクロブログ検索が特別のイベントのために事前構成される。システム及び方法が、ツイッター上の付与のトピックについての検索を超えるタスクのために使用可能である。実施形態が、時間に亘る特定の実在又はイベントの人気をモニターしてそれを報告するように構成可能である。そのような実施形態においては、システムが、一定のクエリーのセットの供給を受け、要約されたレポートが一定の時間間隔で連続して更新されてユーザーに更新されたレポートを提供する。所定のイベント内で多数の実在がモニターされ、これらの実在間の関係が抽出され、グラフにおいてプロットされ、異なる実在間の繋がりを示す。
図3は、システムにおける主要なワークフローのステップを提示する:
・クエリー、関連のポストについての検索ソーシャル・コンテンツ・データといった情報ニーズが付与
・全ての関連のポストがマイクロブログから抽出される
・ポストに対して完全な分析が付与される:
i. 情報ニーズに一致するマイクロブログ・データ及びポストの収集及び集合化する。
ii. 高度自然言語処理(NLP)技術をポストに適用し、関連のイベントを抽出する。幾つかの関連のNLP技術が、限定するわけではないが、次のものを含む:
1. テキスト標準化
2. 固有表現認識
3. キーワード/キーフレーズ抽出
4. 見解分析
iii. 情報ニーズ及び抽出されたアイテムの間のプロット関係
iv. 所定の期間にわたり結果をナビゲートする
v. あるトピックについて公共のムードをモニターし、時間に亘る変化を観察する。
vi. そのようなイベント/実在に関連した上位ビデオ及びリンクを抽出する。
vii. 要求されたイベントについて上位の皮肉なポスト及びジョーク風のツィートを抽出する。
viii. 上位の肯定/否定、及び分類された見解ポストの他の種類を抽出する。
要約すれば、図3を参照すると、ユーザーが、選挙、スポーツイベント、自然現象、又は実在(例えば、人物、場所、組織、又は製品)といった特定の時間に敏感なトピックを検索する[300]。ユーザーが時間スパンを選ぶ[301]。複合検索クエリーが集められ[302]、標準化及び索引付けされたマイクロブログ・データベース[103]に問い合わせ[303]、検索クエリーを満足する全ての関連のポストを引き出す。レポート生成器が、引き出されたポストを分析し、公共のマイクロブログ群[103]からカスタマイズされた包括的なレポートにマイクロブログを要約する[304]。レポートがユーザーに提示される[305]。
指定の時間スパンにおける結果のツィートについて、本発明の実施形態が、上位ツィート(「上位」が最も(再)ツィートされたことを意味する)、上位の面白いツィート、最も広まったビデオ及びリンク、最も人気のある用語及びフレーズ、及び時間に亘る実在/イベントについての統計を示すレポートを生成する。ユーザーは、時間に亘り結果のレポートをナビゲートし、どのように付与の実在/イベントの人気が変化しているのかを見ることもできる。加えて、システムは、付与のトピックに関連したツィートを自動的に収集し、所定の期間について特別のイベントをモニターするようにも構成される。
カスタマイズ及び更新されたレポートの例:
本発明を具現化するシステムの構成が、2012年エジプト大統領選挙をモニターし、本発明を具現化するシステム及び方法を用いて日々のレポートを用意した。レポートが概して選挙のため、詳細には各候補者のために用意される。
本発明のこの実施形態においては、システムは、エジプト選挙に関するアラビア語のツィートを自動的にモニターするように構成される。選挙に関するアラビア語のツィートにおける情報に関する要約のレポートが用意可能である。例えば、もっぱらツィートに基づいて全ての選挙候補者に関する日刊レポートが生成され、これが先述の全特徴を含む。レポートが、また、候補者間の相対的なパフォーマンスの指標を提供し、時間に亘るそれらの人気をプロットするようにも構成される。
データ収集
アラビア語のツィートが、2012年2月26日からエジプト選挙前の3ヶ月の期間に収集された−凡そ、日毎に260万のアラビア語のツィート。日刊レポートにおいて用いられるツィート数が3ヶ月の期間に亘り劇的に変動した。レポートで用いられるツィート数が、2月末の6000ツィートと、第1及び第2選挙ラウンドの選挙日で、各々、377,000及び158,000ツィートまでの範囲で変動した。図6は、ツイッター上での全候補者に関する出現の時系列を示す。グラフが、5月25日、13候補者間の第1ラウンド;及び6月17日、ラウンド1での2人の最有力候補者の間での選挙日に2つのピークを有する。日刊レポートが、10分ごとに新しく見つけられたツィートを用いて定期的に更新され、またアグリゲーションが毎日実行され、ここで、一日が深夜12時から始まる。
システムを構成−リッチクエリーの生成
リッチブールクエリーのセットが、ツィートを収集するために用意され、大統領に立候補する13人の候補者及び選挙に関連した幾つかの他の実在(例えば、選挙に立候補することが予定されていたがしなかった人々、最大(大多数)政党、及び選挙に関連した政府機関)のためのクエリーを含む。用意された幾つかのクエリーが、候補者又は実在の氏名だけであり、他のものが、これらの曖昧さを解消するためにリッチブールクエリーを要求した。例えば、候補者「
Figure 2015524962
(Sabahi)」が複合クエリーを要求した。なぜなら、彼の名前が、アラビア語で「my morning(私の朝)」も意味するためであり、多くの無関係のツィートを生成するためである。
候補者の人気及び関係の計算
各候補者の人気が、その氏名を含むツィートをカウントすることにより測定された。最も人気のある候補者が常に否定及び皮肉のツィートの対象になるが、他方、次人気の候補者が、通常は、肯定/協力的なコメントを受ける強い候補者の一人であることに我々は気がついた。候補者間の言及の相対的な頻度が、ツィートにおける候補者の共起により測定された。ついでながら、我々は、選挙日前の多くの週、ツィートにおける候補者の言及の共起が、イデオロギー的に類似の候補者間でより頻繁にあること;次に、選挙日により近づくと、共起が、政治ディベート、マスメディアへの登場などといったサブイベントに基づくことを観察した。
このあつらえの例が、本発明を具体化するシステム及び方法がどのように適合され、各々がスパースな情報のみを含む大多数のマイクロブログから得られる情報に富んだコンテンツを提供するのかを実演する。
実施形態においては、翻訳モジュールが提供され、これは、単一言語のマイクロブログ・データの集合を生成するように複数言語のマイクロブログを使用可能であるように構成される。翻訳を、標準化ステップとして見ることもできる。
この明細書及び請求項において用いられる時、用語「備える(含む)」及び「備えている(含んでいる)」及びこの活用が、特定の特徴、ステップ又は必須要素が含まれることを意味する。用語は、他の特徴、ステップ、又は必須要素の存在を排除するように解釈されるべきではない。
それらの特定の形式において又は開示の機能を実行するための手段として表現された上述の記述、又は次の請求項、又は添付図面に開示の特徴又は開示の結果を達成するための方法又はプロセスが、適切なように、別々、若しくはそのような特徴の任意の組み合わせにおいて、これらの多様な形態にて本発明を実現するために用いられ得る。

Claims (15)

  1. 各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成する方法であって、
    各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合を収集し;
    検索クエリーの入力を許容するユーザーインターフェースを提供し;
    ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データにおけるデータにマッチングし、
    マッチング・プロセスの結果をマイクロブログ・データのサブセットとして提供し;
    マイクロブログ・データのサブセットに処理技術を適用し;及び
    マイクロブログ・データの処理されたサブセットの要約レポートを生成する、方法。
  2. マイクロブログ・データのサブセットをマイクロブログの異なるカテゴリーに分割し;及び
    異なるカテゴリーの各々の結果を要約レポートに組み込む、請求項1に記載の方法。
  3. マイクロブログのカテゴリーが、次の少なくとも一つから選択される:
    一致した検索クエリーを含むマイクロブログ;
    見解を含むマイクロブログ;
    肯定/否定見解を含むマイクロブログ;
    他の形の見解を含むマイクロブログ;
    検索クエリーに関連した皮肉のポスト及び/又はジョーク風のポストを含むマイクロブログ;
    検索クエリーに関連したリンクを含むマイクロブログ;
    検索クエリーに関連したビデオリンクを含むマイクロブログ、請求項2に記載の方法。
  4. マイクロブログ・データのサブセットに適用される処理技術が自然言語処理技術である、請求項1乃至3のいずれか一項に記載の方法。
  5. 自然言語処理が、次の少なくとも一つから選択される:
    テキスト標準化、
    固有表現認識、
    キーワード/キーフレーズ抽出、
    見解分析、請求項4に記載の方法。
  6. 必要であれば、処理が、URLを識別し、URLを拡張する、請求項1乃至5のいずれか一項に記載の方法。
  7. 要約レポートが、少なくとも一つの次のものを提供する:
    情報ニーズ及び抽出されたアイテム間の関係プロット;
    ユーザーが選択した時間ウィンドウ上の結果のナビゲーション;
    検索クエリーについてのマイクロブログの投稿者のムード(気持ち)のモニタリング及び時間に亘る変化の観察;
    そのようなイベント/実在に関連した抽出された上位ビデオ及びリンク;
    要求されたイベントについての抽出された上位の皮肉なポスト及びジョーク風のツィート;及び
    抽出された上位の肯定/否定及び分類された他の種類の見解ポスト、請求項1乃至6のいずれか一項に記載の方法。
  8. マイクロブログが、ソーシャル・ネットワーキング・サイト上のポスト;ニュース記事のコメント;フォーラム上のコメント又はポスト;ソーシャル・ネットワーキング・サイト上のコメント;及び他のユーザー生成コンテンツ(UGC(user generated content))、を含むグループから選択される請求項1乃至7のいずれか一項に記載の方法。
  9. マイクロブログが、所定フォーマットを有するマイクロブログ・データに標準化される、請求項1乃至8のいずれか一項に記載の方法。
  10. 標準化されたマイクロブログ・データが、マイクロブログの索引に記憶され、マイクロブログの集合を構成する、請求項9に記載の方法。
  11. 所定フォーマットが、少なくとも次のものを含む、
    マイクロブログテキスト;
    マイクロブログ識別子;及び
    マイクロブログ・タイムスタンプ、請求項9又は10に記載の方法。
  12. 各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成するシステムであって、
    プロセッサー及びメモリーを有する計算装置:及び
    記憶装置を含み、
    計算装置が、請求項1乃至11のいずれか一項に記載の方法を実行するように構成される、システム。
  13. ユーザーから検索クエリーを受け取るインターフェースをユーザーに表示するための視覚ディスプレイを更に含み、ユーザーによる検索クエリーの入力により、計算装置が、検索クエリーに対応するマイクロブログ・データの処理されたサブセットの要約レポートをインターフェースに出力する、請求項12に記載のシステム。
  14. プロセッサー上で稼働するように実行される時、請求項1乃至11のいずれか一項に記載の方法に係るステップをプロセッサーに実行させる指令を記憶するコンピューター読み取り可能媒体。
  15. 各マイクロブログがスパースな情報のみを含む、多数のマイクロブログから情報に富んだ内容を自動的に生成するように動作可能な検索ツールであって、
    各マイクロブログが限られた数の文字を含む、マイクロブログ・データを含むマイクロブログの集合;
    検索クエリーの入力を許容するユーザーインターフェース;
    ユーザーインターフェースに入力された検索クエリーをマイクロブログ・データのデータにマッチングするマッチング・プロセッサー;
    マイクロブログ・データの一致したサブセットを含む結果セット;及び
    結果セットに対して処理技術を適用し、マイクロブログ・データの処理されたサブセットの要約レポートを生成するレポート生成器を備える、検索ツール。
JP2015518870A 2012-07-04 2012-08-06 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法 Pending JP2015524962A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1211853.5 2012-07-04
GBGB1211853.5A GB201211853D0 (en) 2012-07-04 2012-07-04 A system and method for event or entity analysis and exploration in microblogs
PCT/EP2012/065367 WO2014005657A1 (en) 2012-07-04 2012-08-06 A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information

Publications (1)

Publication Number Publication Date
JP2015524962A true JP2015524962A (ja) 2015-08-27

Family

ID=46604350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015518870A Pending JP2015524962A (ja) 2012-07-04 2012-08-06 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法

Country Status (6)

Country Link
US (1) US9990368B2 (ja)
EP (1) EP2859472A1 (ja)
JP (1) JP2015524962A (ja)
CN (2) CN112486917A (ja)
GB (1) GB201211853D0 (ja)
WO (1) WO2014005657A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
US20150134639A1 (en) * 2013-11-13 2015-05-14 Microsoft Corporation Inline Commenting on Social Threads
CN103955505B (zh) * 2014-04-24 2017-09-26 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
WO2015187176A1 (en) 2014-06-06 2015-12-10 Hewlett-Packard Development Company, L.P. Topic recommendation
US9699040B2 (en) * 2014-09-30 2017-07-04 Vivint, Inc. Systems and methods for monitoring globally distributed remote storage devices
US10127322B2 (en) 2015-02-25 2018-11-13 Microsoft Technology Licensing, Llc Efficient retrieval of fresh internet content
US9251276B1 (en) 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
US20160314397A1 (en) * 2015-04-22 2016-10-27 International Business Machines Corporation Attitude Detection
EP3414679A1 (en) * 2016-02-11 2018-12-19 Carrier Corporation Video searching using multiple query terms
US10467318B2 (en) * 2016-02-25 2019-11-05 Futurewei Technologies, Inc. Dynamic information retrieval and publishing
US10498550B2 (en) 2016-07-29 2019-12-03 International Business Machines Corporation Event notification
US10636038B2 (en) 2016-10-31 2020-04-28 International Business Machines Corporation Generating solution keyword tag clouds based on support forum post analytics
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
US20180189399A1 (en) * 2016-12-29 2018-07-05 Google Inc. Systems and methods for identifying and characterizing signals contained in a data stream
US10534847B2 (en) 2017-03-27 2020-01-14 Microsoft Technology Licensing, Llc Automatically generating documents
US10318594B2 (en) 2017-05-19 2019-06-11 Microsoft Technology Licensing, Llc System and method for enabling related searches for live events in data streams
US10558695B2 (en) * 2017-05-30 2020-02-11 International Business Machines Corporation Weather-based natural language text processing
CN107346336B (zh) * 2017-06-29 2021-06-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
US10482159B2 (en) 2017-11-02 2019-11-19 International Business Machines Corporation Animated presentation creator
US11934437B2 (en) * 2018-07-02 2024-03-19 Primer Technologies, Inc. Stance detection and summarization for data sources
US20200028885A1 (en) * 2018-07-23 2020-01-23 International Business Machines Corporation Artificial intelligence for providing enhanced microblog message insertion
US11468139B2 (en) * 2018-08-31 2022-10-11 Data Skrive, Inc. Content opportunity scoring and automation
CN110489665B (zh) * 2019-08-16 2023-11-14 北京信息科技大学 一种基于情景建模和卷积神经网络的微博个性化推荐方法
US11514464B2 (en) * 2021-01-15 2022-11-29 Batterii, LLC Survey system with mixed response medium
CN113553812A (zh) * 2021-06-22 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的新闻处理方法及装置
CN114168832B (zh) * 2021-11-17 2022-05-27 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
WO2011087623A1 (en) * 2010-01-13 2011-07-21 Rockmelt, Inc. Preview functionality for increased browsing speed
JP2012079121A (ja) * 2010-10-01 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> マイクロブログテキスト分類装置及び方法及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463725A (en) 1992-12-31 1995-10-31 International Business Machines Corp. Data processing system graphical user interface which emulates printed material
IL125432A (en) * 1998-01-30 2010-11-30 Easynet Access Inc Personalized internet interaction
GB0202370D0 (en) * 2002-02-01 2002-03-20 Symbian Ltd Pinging
US8656299B2 (en) 2004-07-28 2014-02-18 Panasonic Corporation Electronic display device, electronic display method, electronic display program, and recording medium
US20090276500A1 (en) * 2005-09-21 2009-11-05 Amit Vishram Karmarkar Microblog search engine system and method
US7860852B2 (en) * 2007-03-27 2010-12-28 Brunner Josie C Systems and apparatuses for seamless integration of user, contextual, and socially aware search utilizing layered approach
US8554618B1 (en) * 2007-08-02 2013-10-08 Google Inc. Automatic advertising campaign structure suggestion
US20110087693A1 (en) * 2008-02-29 2011-04-14 John Boyce Methods and Systems for Social Networking Based on Nucleic Acid Sequences
US9235646B2 (en) * 2009-05-28 2016-01-12 Tip Top Technologies, Inc. Method and system for a search engine for user generated content (UGC)
US20110178995A1 (en) * 2010-01-21 2011-07-21 Microsoft Corporation Microblog search interface
KR101208814B1 (ko) 2010-07-09 2012-12-06 엔에이치엔(주) 검색 서비스 시스템 및 방법
CA2770022A1 (en) * 2011-03-03 2012-09-03 The Governors Of The University Of Alberta Systems and methods for efficient top-k approximate subtree matching
JP5970934B2 (ja) * 2011-04-21 2016-08-17 ヤマハ株式会社 楽音発生パターンを示すクエリーを用いて演奏データの検索を行う装置、方法および記録媒体
JP5982980B2 (ja) * 2011-04-21 2016-08-31 ヤマハ株式会社 楽音発生パターンを示すクエリーを用いて演奏データの検索を行う装置、方法および記憶媒体
CN102316409B (zh) * 2011-08-04 2015-09-02 深圳市凯立德科技股份有限公司 一种位置服务与微博互动的方法及位置服务终端
US20130173526A1 (en) * 2011-12-29 2013-07-04 United Video Properties, Inc. Methods, systems, and means for automatically identifying content to be presented
US9959273B2 (en) * 2012-04-26 2018-05-01 International Business Machines Corporation Enterprise-level data protection with variable data granularity and data disclosure control with hierarchical summarization, topical structuring, and traversal audit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
WO2011087623A1 (en) * 2010-01-13 2011-07-21 Rockmelt, Inc. Preview functionality for increased browsing speed
JP2012079121A (ja) * 2010-10-01 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> マイクロブログテキスト分類装置及び方法及びプログラム

Also Published As

Publication number Publication date
US20150261773A1 (en) 2015-09-17
WO2014005657A4 (en) 2014-05-22
US9990368B2 (en) 2018-06-05
GB201211853D0 (en) 2012-08-15
EP2859472A1 (en) 2015-04-15
CN112486917A (zh) 2021-03-12
WO2014005657A1 (en) 2014-01-09
CN104685495A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
US10558712B2 (en) Enhanced online user-interaction tracking and document rendition
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
Magnani et al. Conversation retrieval for microblogging sites
Hou et al. Newsminer: Multifaceted news analysis for event search
US20150356102A1 (en) Automatic article enrichment by social media trends
Alves et al. A spatial and temporal sentiment analysis approach applied to Twitter microtexts
JP6392042B2 (ja) 情報提供装置、情報を提供する方法およびプログラム
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
WO2021111400A1 (en) System and method for enabling a search platform to users
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
Kim et al. Investigation of topic trends in computer and information science by text mining techniques: From the perspective of conferences in DBLP
Tatli et al. A tag-based hybrid music recommendation system using semantic relations and multi-domain information
Zhao et al. Towards events detection from microblog messages
Mehmood et al. A study of sentiment and trend analysis techniques for social media content
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
Carvalho et al. Towards intelligent mining of public social networks' influence in society
Zhao et al. A system to manage and mine microblogging data
Thakkar Twitter sentiment analysis using hybrid naive Bayes
Cherichi et al. Big data analysis for event detection in microblogs
Quezada et al. Understanding real-world events via multimedia summaries based on social indicators
Gerguis et al. WikiTrends: Unstructured Wikipedia-Based Text Analytics Framework
Pais et al. OSINT for B2B platforms
Sirisha et al. Unstructured Data: Various approaches for Storage, Extraction and Analysis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161011

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170410

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170704