JP4772378B2 - Webページから時系列データを生成する方法及び装置 - Google Patents

Webページから時系列データを生成する方法及び装置 Download PDF

Info

Publication number
JP4772378B2
JP4772378B2 JP2005153975A JP2005153975A JP4772378B2 JP 4772378 B2 JP4772378 B2 JP 4772378B2 JP 2005153975 A JP2005153975 A JP 2005153975A JP 2005153975 A JP2005153975 A JP 2005153975A JP 4772378 B2 JP4772378 B2 JP 4772378B2
Authority
JP
Japan
Prior art keywords
time
cluster
date
web page
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005153975A
Other languages
English (en)
Other versions
JP2006331089A (ja
Inventor
茂明 櫻井
倫彦 澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005153975A priority Critical patent/JP4772378B2/ja
Priority to US11/376,876 priority patent/US7526462B2/en
Publication of JP2006331089A publication Critical patent/JP2006331089A/ja
Application granted granted Critical
Publication of JP4772378B2 publication Critical patent/JP4772378B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、利用者の指定した検索条件に適合するWebページを収集して当該Webページからクラスタ分けされた時系列データを生成するのに好適なWebページから時系列データを生成する方法及び装置に関する。
パーソナルコンピュータのような情報処理装置は、Webブラウザを有しているのが一般的である。Webブラウザは、Webサーバによってインターネット上に公開されているWebページを閲覧するのに用いられる。また近年の情報処理装置は、利用者の操作によりWebブラウザから検索エンジンを起動することができる。検索エンジンは、利用者が指定したキーワード(検索条件)を受け取ると、当該キーワードに関連(適合)するWebページの集合を収集する。ここでは、検索エンジンは利用者により指定されたキーワードとの関連度に基づいてWebページを収集しているだけである。つまり検索エンジンは、Webページ間の時間的な関連性を考慮してページを収集し、関連するWebページを整理することはできない。
一方、特許文献1には、ネットワークを介して業務の関係者間で取り交わされる業務に関する会話ストリームを蓄積する知識情報管理装置が記載されている。この知識情報管理装置は、課題の発生から結論に至るまでの過程で業務の遂行上必要なオブジェクトも蓄積する。この知識情報管理装置は、蓄積された会話ストリーム中の任意のストリームと任意のオブジェクトとの関連付けを行う。この関連付けにより、知識情報管理装置は、関連付けられた会話ストリームとオブジェクトとに関する情報を出力することができる。しかしながら、特許文献1に記載された知識情報管理装置は特定の会話ストリームを収集している。この特定の会話ストリームを知識情報管理装置が収集するには、当該会話ストリームが発信される場所を予め特定しておく必要がある。このため、特許文献1に記載された知識情報管理装置では、会話ストリームが明示的に与えられていない場合には、当該会話ストリームを収集することはできない。
特許文献2には、口コミサイトを監視することにより、当該口コミサイトにおいて特定の単語(口コミ)が利用される頻度を解析する技術が記載されている。ここでは、注目するイベントの特定期間における増減が解析される。しかし特許文献2に記載された技術では、複数の注目するイベントの時間的な推移を考慮した関連性を把握することはできない。
特許文献3には、収集された文章からユーザ情報、時間情報及び文章情報を記事毎に抽出する口コミ情報解析装置が記載されている。この口コミ情報解析装置は、単語単位に分割された文書情報とユーザ情報及び時間情報とを組み合わせたデータを生成することができる。しかし、この口コミ情報解析装置では、時間情報は記事を特徴付ける1つの値として利用されるだけである。このため、特許文献3に記載された技術では、各記事の時間的な推移を考慮した関連性を把握することはできない。
特許文献4には、通信サービス分野等における顧客データの時系列的な推移を考慮して、顧客特性の有効な時系列パターンを取得する潜在ターゲット抽出装置が記載されている。この抽出装置は、複数の定量的な属性からなる時系列データ(顧客データ)について、当該複数の属性を予め幾つかの属性集合に分割する。抽出装置は、この属性集合(つまり時系列データを構成する各要素の値である属性値)に対してクラスタリングを実施する。これにより、定量的な時系列データがクラスタによって特徴付けられる定性的な時系列データに変換される。抽出装置は、定性的な時系列データを特定サービスへの加入者のデータ(加入者データ)と非加入者のデータ(非加入者データ)とに分類する。抽出装置は、加入者データから、特定の属性集合について時系列的な特徴推移のパターンを抽出する。抽出装置は、この抽出されたパターンに類似する非加入者の時系列データを非加入者データから抽出して、その非加入者(顧客)を潜在顧客として抽出する。
特開2002−297883号公報 特開2004−139376号公報 特開2004−185572号公報 特開2003−242165号公報
インターネット環境の普及に伴って、例えばWeb上の掲示板サイトでは多数の議論が日々展開されている。これらの議論の大多数は、取りとめも無い議論である。このため、掲示板サイトでの議論の存在に気づかなかったとしても特定の個人や組織にとって大きな問題になることはない。しかしながら、数は多くないとしても、個人や組織に不利益をもたらしたり、利益を逸したりする議論が展開されることもある。このような議論の発生は、必ずしも関連する個人や組織に通知される訳ではなく、その発生場所が特定の掲示板上に固定されている訳でもない。また、特定の個人や組織の利益に影響を与える議論は、特定の個人や組織ごとに異なっている。一方、非常に多くの議論が多数の掲示板サイトで展開されているため、すべての議論をチェックし、当該議論が特定の個人や組織に利益を与えるかどうかを判定することは極めて困難である。
そこで、Web上に散らばる複数のサイトから利用者が注目する議論を含むデータを収集し、関連するデータをその時間的な推移を考慮して整理することが要求される。
ところが上述した従来技術、例えば特許文献1乃至3に記載された技術においては、複数の注目する議論(イベント)の時間的な推移を考慮した関連性を把握することはできない。
一方、特許文献4には、通信サービス分野等における顧客データ、つまり複数の定量的な属性からなる時系列データに対するクラスタリング結果から、特定の属性集合について時系列的な特徴推移のパターンを抽出する技術が記載されている。この特許文献4に記載の技術では、時系列データを構成する属性値に対してクラスタリングを実施することで、クラスタが生成される。
しかし、Web上に散らばる複数のサイト(Webサイト)から収集されるWebデータでは、顧客データと異なって、属性の種類及び数並びに属性の位置は一定していない。このため、Webデータに含まれている属性値に対して、特許文献4に記載の技術のようにクラスタリングを実施することは困難である。また、特許文献4に記載の技術では、1つの定量的な時系列データから1つの定性的な時系列データが生成される。しかしこのような時系列データの生成では、複数のWebサイトから収集される利用者が注目する議論(トピック)を含むデータについて、関連するデータ(議論)をその時間的な推移を考慮して整理することは困難である。
本発明は上記事情を考慮してなされたものでその目的は、利用者が注目する議論を含むWebページをWeb上から自動的に収集するだけでなく、収集されたWebページに含まれている議論を関連付けて整理した時系列データを生成することができる、Webページから時系列データを生成する方法及び装置を提供することにある。
本発明の1つの観点によれば、Webページから時系列データを生成する方法が提供される。この方法は、利用者によって指定された収集条件に適合するWebページを複数のWebサイトから収集してストレージ装置に格納するステップと、前記ストレージ装置に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するステップと、前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出するステップと、前記抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定するステップと、前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するステップと、前記分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成するステップとを具備する。
本発明によれば、利用者が注目する議論を含むWebページをWeb上から自動的に収集して、当該収集されたWebページに含まれている議論を関連付けて整理した時系列データを生成することができる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る時系列データ生成装置の構成を示すブロック図である。この時系列データ生成装置は、主として、時系列データ生成処理部1と、入力装置2と、表示装置3と、ストレージ装置4と、メモリ装置5とから構成される。
時系列データ生成処理部1は、ユーザインタフェース11、データ収集部12、データ分割部13、日時表現決定部14、アイテム分割部15及び時系列データ生成部16を含む。
ユーザインタフェース11は、収集条件設定インタフェース111及び表示インタフェース112を含む。収集条件設定インタフェース111は、利用者によって指定された当該利用者にとって興味のあるトピックを表す例えばキーワードを収集条件としてメモリ装置5の所定領域に設定する。利用者によって指定されるトピックは、利用者が入力デバイス2を操作することにより当該入力装置2からユーザインタフェース11に入力される。表示インタフェース112は、収集条件としてのトピックの入力を利用者に促すための収集条件設定画面、時系列データ生成部16によって生成された時系列データ等を表示装置3に表示する
データ収集部12は、収集条件設定インタフェース111によってメモリ装置5内に設定された収集条件に適合するWebページを例えば複数のWebサイトから収集する。収集されたWebページはストレージ装置4内の後述するデータ格納部41に格納される。
データ分割部13は、データ格納部41に格納されているWebページの集合について、当該WebページのURL(Uniform Resource Locator)情報(つまりWebページの所在を表す情報)及び当該Webページに記述されている表現に関する情報に基づいて、当該Webページの集合を複数のクラスタに分割する。
日時表現決定部14は、データ分割部13による分割によって生成されたクラスタごとに、そのクラスタに含まれているWebページの各々から、予め定められた複数の形式の日時表現(日時表現形式)のいずれかに合致する日時表現を抽出する。この複数の日時表現形式を表す情報(日時表現形式情報)は、ストレージ装置4内の後述する日時表現格納部42に予め格納されている。時表現決定部14は、クラスタごとの日時表現の抽出結果に基づいて当該クラスタごとに最も妥当な日時表現形式を判別し、その判別された日時表現形式を当該クラスタにおける代表日時表現形式として決定する。本実施形態における「日時表現」とは、「日付」だけでなく「年」も含む表現であるものとする。
アイテム分割部15は、日時表現決定部14によってクラスタごとに決定された代表日時表現形式に基づき、当該クラスタに含まれているWebページの各々を複数のアイテムに分割する。
時系列データ生成部16は、アイテム分割部15によって分割されたアイテムを、クラスタごとに時間の順序に従って並べ替えることにより時系列データを生成する。
入力装置2は、利用者の操作により各種データ、指示等を入力するのに用いられる。入力装置2は、例えばキーボード及びマウスを含む。表示装置3は、収集条件設定画面及び時系列データ等を表示するのに用いられる、例えば液晶ディスプレイである。
ストレージ装置4は、Webページ及び日時表現形式情報等を格納するのに用いられる、例えば磁気ディスクドライブである。ストレージ装置4の記憶領域内には、データ格納部41及び日時表現格納部42が確保される。データ格納部41は、データ収集部12によって収集されたWebページを格納するのに用いられる。日時表現格納部42は、日時表現形式情報を予め格納するのに用いられる。メモリ装置5は例えばRAMによって構成される。メモリ装置5は、時系列データ生成処理部1の処理のためのワーク領域として用いられる。
本実施形態において、図1の時系列データ生成装置はパーソナルコンピュータのような情報処理装置を用いて実現されるものとする。ここでは、時系列データ生成処理部1を構成するユーザインタフェース11、データ収集部12、データ分割部13、日時表現決定部14及びアイテム分割部15は、ストレージ装置4に格納されている、Webページから時系列データを生成するための特別のプログラムを、図示せぬCPUが実行することにより実現される。
次に、図1に示す時系列データ生成装置の動作について、図2乃至図4のフローチャートを参照して説明する。
今、利用者が、自身にとって興味のあるトピックに関連するWebページから生成される時系列データを必要とするものとする。この場合、利用者は、時系列データ生成装置の入力装置2を操作して、ユーザインタフェース11の表示インタフェース112により表示装置3に収集条件設定画面を表示させる。この収集条件設定画面は、Webページの収集条件としてのキーワードが入力可能な入力フィールドを含む。そこで利用者は、自身にとって興味のあるトピック(話題、議論)を表す例えば複数のキーワードを、収集条件設定画面上の入力フィールドに入力装置2を用いて入力するための操作を行う。
ユーザインタフェース11の収集条件設定インタフェース111は、入力装置2によって入力された利用者指定のキーワードをWebページの収集条件としてメモリ装置5の所定領域に設定する(ステップS1)。収集条件設定インタフェース111はまた、収集条件が設定されたことをデータ収集部12に通知する。
するとデータ収集部12は、メモリ装置5の所定領域に設定された収集条件(ここでは複数のキーワード)をネットワーク上の検索エンジン(検索サーバ)に通知する。これを受けて検索エンジンは、データ収集部12によって通知されたキーワードに関連するWebページを例えば複数のWebサイトの掲示板から収集して、データ収集部12に返す。つまりデータ収集部12は、設定されたキーワードに関連するWebページを、検索エンジンを利用して収集する(ステップS2)。このステップS2において、データ収集部12は収集されたすべてのWebページをデータ格納部41に格納する。このデータ格納部41に格納されるWebページには、データ収集部12によって識別情報(ID情報)が付されるものとする。
なお、設定されたキーワードに関連するWebページの収集に複数の検索エンジンを利用することも可能である。そのためには、収集条件設定インタフェース111が検索エンジンごとに収集条件設定画面を入力装置2に表示して、利用者に対して当該検索エンジンごとにキーワードの設定を促せばよい。この場合、データ収集部12は、検索エンジンごとに設定されたキーワードを当該検索エンジンに通知することにより、検索エンジンごとにWebページを収集することができる。ここでデータ収集部12は、収集されたWebページのURL情報を参照することによりURL情報が同一の重複するWebページを検出して、当該重複するWebページを削除するとよい。
データ分割部13は、データ収集部12によって複数のWebサイトから収集されたWebページがデータ格納部41に格納されると、当該データ格納部41から未処理のWebページを1つメモリ装置5に読み込む(ステップS3a,S3b)。データ分割部13は、データ格納部41からメモリ装置5に読み込まれたWebページに付随するURL情報を参照し、当該URL情報に基づいて当該Webページへの特徴付け(以下、URL特徴付けと称する)を行う(ステップS4)。
以下、ステップS4の処理(URL特徴付け)の詳細について、図2のフローチャートを参照して説明する。図5は、ステップS3bでデータ格納部41から読み込まれたWebページt1の一例を示す。この図5に示すWebページt1には、以下に示すURL情報
http://www.xxx.xx.com/forums/message?start=860&cid=24&tid=317264
が割り当てられているとする。
データ分割部13は、図5に示すWebページt1を読み込むと、当該Webページt1に割り当てられている上記URL情報を、予め定められた区切り記号(第1の区切り記号)「/」、「?」、「&」に基づいて分割(分解)する(ステップS41)。これによりデータ分割部13は、上記URL情報から区切り記号で区切られた文字列(分割文字列)を抽出する。図6は、この抽出(分割)された文字列を示す。
またデータ分割部13は、分割された文字列の中に「=」(等記号)を含む文字列が有る場合には(ステップS42)、当該「=」を区切り記号(第2の区切り記号)として、当該文字列を「=」に基づいて再度分割する(ステップS43)。ここでは、文字列「start=860」から「start」及び「860」の2つの文字列が抽出される。同様に、文字列「cid=24」からは「cid」及び「24」が、文字列「tid=317264」からは「tid」及び「317264」が、それぞれ抽出される。
次にデータ分割部13は、最初(1段階目)の分割で抽出された文字列(但し、「=」を含まない文字列)に関しては、当該文字列をそのまま属性とし、当該文字列が存在するかどうか(「有り」、「無し」)を属性値とする(ステップS44)。一方、2度目(2段階目)の分割で抽出された文字列に関しては、データ分割部13は、「=」に先行する部分(文字列)を属性とし、後続する部分(文字列)を属性値とする(ステップS45)。これにより、図6に示す文字列から、属性と属性値との集合から構成される図7に示すURL特徴が抽出される。このURL情報から抽出されたURL特徴は、当該URL情報が割り当てられているWebページt1の特徴を反映しているといえる。このため、Webページに割り当てられているURL情報からURL特徴を抽出することは、この抽出されたURL特徴を当該Webページに付与することと等価である。このWebページに付与されるURL特徴を、WebページのURL特徴と呼ぶ。
データ分割部13は、上述のURL特徴付け(ステップS4)を、データ格納部41内に未処理のWebページがなくなるまで実行する(ステップS3a)。即ちデータ分割部13は、URL特徴付けを、データ格納部41に格納されているすべてのWebページについて実行する。
さて、データ格納部41に格納されているすべてのWebページの各々に対するURL特徴付けの結果であるURL特徴に含まれる属性は、各URL特徴の間で必ずしも一致しない。そこで本実施形態では、WebページごとのURL特徴を、各Webページに共通の属性を用いて表現するために、各Webページに共通の属性を要素とするURL特徴ベクトルと呼ぶ特徴ベクトルを適用する。各Webページに共通の属性とは、その属性の有効な属性値を当該WebページのURL情報が有していることを必ずしも意味しない。
データ分割部13はデータ格納部41に格納されているすべてのWebページについてURL特徴付け(ステップS4)を実行すると(ステップS3a)、ステップS5の処理に進む。このステップS5において、データ分割部13は、データ格納部41に格納されているすべてのWebページの各々に対するURL特徴付けの結果(URL特徴)から、WebページごとのURL特徴ベクトルの要素とすべき各Webページに共通の属性を抽出する。このデータ分割部13による、URL特徴ベクトルを構成する属性の抽出は次のように行われる。まずデータ分割部13は、データ格納部41に格納されている各Webページに対するURL特徴付けの結果(URL特徴)に含まれている属性及び属性値を統合(マージ)する。データ分割部13は、この統合の結果から、すべての属性を重複なく取り出す。この取り出された属性は、各WebページのURL特徴ベクトルの要素を構成する。
データ分割部13は、URL特徴ベクトルを構成する属性をすべて抽出すると(ステップS5)、上記各WebページのURL特徴ベクトルを生成する(ステップS6)。この各WebページのURL特徴ベクトルの生成は、上記抽出されたすべての属性と、当該Webページに対するURL特徴付けの結果(URL特徴)に含まれている属性及び属性値とに基づき次のように行われる。
まず、対象となるWebページのURL特徴がURL特徴ベクトルを構成する属性を持っている場合、データ分割部13は、当該属性の属性値をそのままURL特徴ベクトルを構成する属性の属性値とする。一方、対象となるWebページのURL特徴がURL特徴ベクトルを構成する属性を持っていない場合には、データ分割部13は、当該属性の種類に従って当該属性の属性値を決定する。即ちデータ分割部13は、他のWebページに対応して抽出された属性(特徴)に関しては、「有り」といった1つの属性値だけが与えられている場合に、当該属性を持っていないWebページのURL特徴ベクトルの当該属性の属性値を「無し」とする。またデータ分割部13は、他のWebページに対応して抽出された属性に関して複数の属性値が与えられている場合、当該属性を持っていないWebページのURL特徴ベクトルの当該属性の属性値を「-」とする。ここで、「-」はデータが無いことを示す特殊な文字列を表す。
これにより、例えば図7、図8及び図9に示すURL特徴がWebページt1、t2及びt3に与えられている場合、図10のt1、t2及びt3の行に示す特徴ベクトル81、82及び83が、それぞれ当該Webページt1、t2及びt3に与えられることになる。
データ分割部13は、収集されたWebページの各々に対して与えられるURL特徴ベクトルを生成するとステップS7の処理に進む。このステップS7において、データ分割部13は、Webページに与えられるURL特徴ベクトルを利用することにより、当該Webページの集合を例えば指定の個数(K個)のクラスタに分割するデータ分割(クラスタリング)を実行する(ステップS7)。ここでは、類似のURL特徴ベクトルが付与されているWebページが同一クラスタに分類される。本実施形態では、ステップS7のデータ分割(クラスタリング)に、例えば文献「ファジィとソフトコンピューティングハンドブック(日本ファジィ学会編集、2000年、共立出版)」pp.161-162 に記載のK−平均法が利用される。但し本実施形態では、属性値が文字列の場合、あるいは属性が無いことを示す特殊な属性値「-」の場合を考慮して、各属性値間に予め距離を定義しておくことにする。例えば、属性値「有り」と「無し」の属性の場合、2つのデータ(URL特徴ベクトル)の当該属性が共に「有り」であるか「無し」であるならば、当該属性におけるデータ間の距離を0と定義する。また、一方が「有り」で他方が「無し」であるならば、その距離を1と定義する。また、属性が無いことを示す特殊な属性値「-」と他の属性値との間の距離を∞、2つの「-」間の距離を0と定義する。ステップS6でのデータ分割結果(つまりK個のクラスタ)は、メモリ装置5に格納される。
データ分割部13は、ステップS7を実行すると、メモリ装置5に格納されているデータ分割結果(K個のクラスタ)から、未処理のクラスタを1つ取り出す(ステップS8a,S8b)。データ分割部13によって取り出されたクラスタは、メモリ装置5を介して日時表現決定部14及びアイテム分割部15に渡される。日時表現決定部14は、データ分割部13から渡されたクラスタに含まれているWebページのテキスト情報を解析することにより、日時表現格納部42に格納されている日時表現形式情報の示す複数の日時表現形式のいずれかに一致する表現を抽出する(ステップS9)。以降は、説明の簡略化のために、日時表現格納部42に複数の日時表現形式が格納されていると表現する。
例えば、日時表現格納部42には、図11に示す3通りの日時表現形式d1乃至d3を表す日時表現形式情報が格納されているとする。図11において、日時表現形式d1は、年を4桁の数字を用いた西暦で、月を2桁の数字で、そして日を2桁の数字で、年(西暦)/月/日の順に表現することを表す。日時表現形式d2は、月を3桁の英語略字で、日を2桁の数字で、そして年を4桁の数字を用いた西暦で、月/日/年(西暦)の順に表現することを表す。日時表現形式d3は、月を2桁の数字で、日を2桁の数字で、そして年を4桁の数字を用いた西暦で、月/日/年(西暦)の順に表現することを表す。
ここで、日時表現決定部14による日時表現抽出の対象となるクラスタに図5のWebページt1が含まれているものとする。この場合、日時表現決定部14は、Webページt1から「Jun/02/2004」、「Jun/03/2004」、「Jun/03/2004」、「Jun/03/2004」、「Jun/03/2004」といった日時表現形式d2に対応する5つの表現を抽出する。一方、日時表現形式d1及びd3に対応する表現は抽出されない。
日時表現決定部14は、上述したような、日時表現格納部42に格納されている複数の日時表現形式のいずれかに一致する表現をWebページから抽出する処理(ステップS9)を、データ分割部13から渡されたクラスタに含まれているすべてのWebページに対して実施する。このステップS9において、日時表現決定部14は、上記日時表現形式ごとの抽出された表現の個数を計算する。即ち日時表現決定部14は、1つのクラスタについて、当該クラスタに含まれているすべてのWebページから抽出された日時表現形式ごとの表現の個数を取得する。
日時表現決定部14は、ステップS9で1つのクラスタから取得した日時表現形式ごとの個数を比較することにより、最大の個数を与える日時表現形式を当該クラスタを代表する日時表現形式として決定する(ステップS10)。これにより、Webページの記事中に含まれている日時表現の形式が日時表現形式として決定されるのを防止できる。ここで、図5のWebページt1を含むクラスタから取得した日時表現形式ごとの個数の中で、日時表現形式d2の個数が最も多いものとする。この場合、日時表現決定部14はWebページt1を含むクラスタを代表する日時表現形式として、日時表現形式d2を決定する。
日時表現決定部14による日時表現形式の決定結果はアイテム分割部15に通知される。アイテム分割部15は、日時表現決定部14によって決定された日時表現形式の表現が出現する箇所を基準として、データ分割部13から渡されたクラスタに含まれているWebページを複数のアイテム(記事)に分割する(ステップS11)。このとき、分割された各アイテムには、日時表現決定部14によって決定された日時表現形式の表現に対応する日時が割り当てられる。図5のWebページt1の場合、日時表現形式d2によって5つの表現「Jun/02/2004」、「Jun/03/2004」、「Jun/03/2004」、「Jun/03/2004」及び「Jun/03/2004」が抽出される。よって、図5のWebページt1は、この5つの表現を基準として図12に示すように5つのアイテムi1乃至i5に分割される。アイテム分割部15によるアイテム分割結果はメモリ装置5に格納される。
以上のステップS9,S10及びS11が、すべてのデータ分割結果であるK個のクラスタについて実行されると、即ち未処理のクラスタが無くなると(ステップS8a)、データ分割部13はステップS12の処理に進む。このステップS12において、データ分割部13は、メモリ装置5に格納されている、アイテム分割部15によるアイテム分割結果に基づき、クラスタごとに、当該クラスタに含まれるWebページのテキスト情報の特徴を表すテキスト特徴ベクトルを生成する。
以下、ステップS12のテキスト特徴ベクトル生成処理の詳細について、図4のフローチャートを参照して説明する。まずデータ分割部13は、アイテム分割部15によって分割された各アイテムに含まれる単語の頻度(出現率)を取得する処理を、クラスタごとに実行する(ステップS121)。各アイテムに含まれる単語の頻度は、当該アイテムに含まれるテキストを解析することにより取得される。次にデータ分割部13は、取得された単語の頻度と、各アイテムに含まれる単語の個数とを利用することにより、文献Shigeaki Sakurai and Yoshimi Saito: “Text Classification Method using a Named Entity Extractor”, Proceedings of the SCIS&ISIS 2004, TUE-3-4 (2004) に記載のtf-idf値を、各クラスタについて単語ごとに算出する(ステップS122)。tf-idf値は、着目する単語が着目するクラスタ(上記文献ではドキュメント)に現れる程度を表す評価値である。このtf-idf値は、着目するクラスタ(ドキュメント)のみに現れる頻度が低い単語ほど小さな値となる。このためf-idf値は、全クラスタにわたってまんべんなくtf値(単語の頻度)が高い、例えば英文における“the”のような重要でない単語の評価値が高くなるのを防止できる。
次にデータ分割部13は、各クラスタについて単語ごとに算出されたtf-idf値に基づき、当該tf-idf値が予め定められたしきい値以上の単語(表現)を、当該クラスタを特徴付ける属性として抽出する(ステップS123)。データ分割部13は、クラスタごとに抽出された単語の頻度(出現率)を属性値とする、クラスタごとのテキスト特徴ベクトルを生成する(ステップS124)。例えば、図13に示すような単語のtf-idf値が算出されているとし、tf -idf値のしきい値を0.1とする。また、クラスタc1に含まれるアイテムから図14に示す出現率(頻度)で各単語が抽出されているとする。このとき、データ分割部13は、クラスタc1に関し、各アイテムから抽出された各単語のtf-idf値をしきい値と比較することにより、「glad」より上位にある単語を当該クラスタc1を特徴付ける単語として抽出する。その結果、クラスタc1に対して、図15のc1の行に示すテキスト特徴ベクトルが生成される。
データ分割部13は、各クラスタのテキスト特徴ベクトルを生成すると、当該テキスト特徴ベクトルを利用して、各クラスタ(データ分割部13によりステップS7で分割されたデータ)を統合する処理(分割データ統合処理)を実行する(ステップS13)。
以下、ステップS13の分割データ統合処理の詳細について説明する。まずデータ分割部13は、各クラスタのテキスト特徴ベクトルに基づいて、クラスタ間の類似度を計算する(ステップS13a)。ここで、クラスタ間の類似度が予め定められたしきい値よりも大きい場合(ステップS13b)、データ分割部13は該当するクラスタは類似しており、統合可能であると判断する。データ分割部13は、この類似している統合可能なクラスタ(分割データ)を統合して、メモリ装置5内に新たなクラスタ(分割データ)を生成する(ステップS13c)。
データ分割部13は、統合された新たなクラスタを生成すると(ステップS13)、その新たなクラスタに関しテキスト特徴ベクトル生成処理を実行する(ステップS12)。即ちデータ分割部13は、新たなクラスタに関し当該クラスタの特徴として利用する各単語の出現率(頻度)を再計算して、その出現率に基づいて当該クラスタのテキスト特徴ベクトルを生成する。データ分割部13は、ステップS12及びS13の処理(クラスタの統合処理)を、クラスタ間の類似度の中に予め定められたしきい値以上の類似度がなくなるまで、つまり統合可能なクラスタが無くなるまで繰り返す(ステップS13b)。これにより、メモリ装置5内には、クラスタ間の類似性の少ない最終的なクラスタが生成される。
例えば、図15のc1乃至c3の行に示すテキスト特徴ベクトルを、それぞれクラスタc1乃至c3が持つものとする。また、クラスタ間の類似度が(1−テキスト特徴ベクトル間の距離)によって定義され、クラスタc1及びc3の間の類似度がしきい値よりも高いとする。このとき、データ分割部13は、クラスタc1及びc3を統合した新たなクラスタc4を生成し、当該クラスタc4のテキスト特徴ベクトルを生成する。これにより、図16のc4の行に示すテキスト特徴ベクトルがクラスタc4に対して与えられる。このクラスタc4のテキスト特徴ベクトルとクラスタc2のテキスト特徴ベクトルの類似度がしきい値よりも小さいとするならば、これ以上の統合は行われず、クラスタの統合は終了する。
データ分割部13は、クラスタの統合(分割データの統合)を終了すると、時系列データ生成部16に対して時系列データの生成を要求する。すると時系列データ生成部16は、メモリ装置5内に生成されている最終的なクラスタに基づき、当該クラスタごとにアイテムを時間順に並べ替えることにより、当該クラスタに対応した時系列データを生成する(ステップS14)。
上述のようにして生成された、クラスタごとの時系列データは、それぞれ利用者の興味のある類似性の高いトピックを含む。つまり本実施形態においては、検索エンジンを利用して複数のWebサイトから収集された利用者の興味のあるトピック(議論)に関連するWebページを、そのトピックの時間的な流れ及び内容の関連性に基づいて時系列データに集約することで、当該Webページを時間的な推移を考慮して整理することができる。このため、Web上に存在する例えば不特定多数の掲示板に記載されているページの中から利用者にとって興味のある議論を取り出して、その議論の流れを追ったり、関連する議論をまとめたりすることができる。つまり、利用者が議論の重要性を確認することを支援できる。また、このようにして生成された時系列データを文献Shigeaki Sakurai and Ken Ueno: “Analysis of Daily Business Reports Based on Sequential Text Mining Method”, Proceedings of the SMC2004 , 3279-3284 (2004) に記載の特徴的な時系列パターンを発見する手法の入力として利用することにより、特徴的な時系列パターンを発見することもできる。さらには、新たに収集されたWebページから生成された時系列データを発見された時系列パターンに適用することにより、議論の進む方向を予測したり、議論が望まない方向に進まないようにするための対策の立案を支援することもできる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。例えば上記実施形態では、データ分割部13は、予め定められた区切り記号として、「/」、「?」、「&」及び「=」を利用している。しかしURLの分割に、他の区切り記号、例えば「.」及び「,」などを利用してもよい。また、2段階の区切り記号の利用方法についても、例えば「/」及び「&」を1段階目(第1の区切り記号)として、「?」及び「=」を2段階目(第2の区切り記号)として利用してもよい。また、日時表現決定部14は、日時表現として、年、月、日の表現に加えて、時、分、秒を加えた表現を利用してWebページから日時(時間)に関する表現を抽出してもよい。また上記実施形態では、データ分割部13は、テキストによるクラスタの特徴付けをすべてのアイテムを利用して行っている。しかし、サンプリングを行ってクラスタの中からアイテムを抽出することにより、テキスト特徴ベクトルを計算することもできる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る時系列データ生成装置の構成を示すブロック図。 同実施形態における時系列データ生成処理の手順を示すフローチャート。 図2のフローチャートにおけるステップS4の処理(URL特徴付け)の手順を示すフローチャート。 図2のフローチャートにおけるステップS12の処理(テキスト特徴ベクトル生成処理)の手順を示すフローチャート。 同実施形態において収集されるWebページの一例を示す図。 分割されたURL情報の一例を示す図。 URL特徴の一例を示す図。 URL特徴の他の一例を示す図。 URL特徴の更に他の一例を示す図。 図7乃至図9に示すURL特徴から生成されるURL特徴ベクトルの一例を示す図。 日時表現格納部42に予め格納されている日時表現形式の一例を示す図。 図5のWebページをアイテムに分割した様子を示す図。 tf-idf値の分布の一例を示す図。 クラスタに含まれる単語の出現率の一例を示す図。 クラスタに対して生成されるテキスト特徴ベクトルの一例を示す図。 図15の特徴ベクトルを持つクラスタc1及びc3を統合した後のクラスタのテキスト特徴ベクトルの一例を示す図。
符号の説明
1…時系列データ生成処理部、2…入力装置、3…表示装置、4…ストレージ装置、5…メモリ装置、11…ユーザインタフェース、12…データ収集部、13…データ分割部、14…日時表現決定部、15…アイテム分割部、16…時系列データ生成部、41…データ格納部、42…日時表現格納部、111…収集条件設定インタフェース、112…表示インタフェース。

Claims (13)

  1. Webページから時系列データを生成する、時系列データ生成装置が実行する方法において、
    利用者によって指定された収集条件に適合するWebページを複数のWebサイトから収集してストレージ装置に格納するステップと、
    前記ストレージ装置に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するステップと、
    前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出するステップと、
    前記抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定するステップと、
    前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するステップと、
    前記分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成するステップと
    を具備することを特徴とするWebページから時系列データを生成する方法。
  2. 前記複数のアイテムに分割されたクラスタの各々の間の類似度を当該複数のアイテムに分割されたクラスタに含まれるWebページのテキスト情報に基づいて計算するステップと、
    前記計算された類似度が予め定められたしきい値以上のクラスタ同士を新たなクラスタに統合するステップと、
    前記計算するステップと前記統合するステップとを、前記しきい値以上の類似度のクラスタが存在しなくなるまで繰り返させるステップとをさらに具備し、
    前記時系列データを生成するステップでは、前記クラスタごとの時系列データの生成が前記統合されたクラスタを対象に行われる
    ことを特徴とする請求項1記載のWebページから時系列データを生成する方法。
  3. 前記複数のアイテムに分割されたクラスタの各々に含まれるWebページのテキスト情報から当該複数のアイテムに分割されたクラスタを特徴付ける表現を抽出するステップと、
    前記複数のアイテムに分割されたクラスタを特徴付ける前記抽出された表現に基づいて、当該複数のアイテムに分割されたクラスタの各々の特徴を表すテキスト特徴ベクトルを生成するステップとをさらに具備し、
    前記計算するステップでは、前記複数のアイテムに分割されたクラスタの各々のテキスト特徴ベクトルに基づいて、前記複数のアイテムに分割されたクラスタの各々の間の前記類似度が計算される
    ことを特徴とする請求項2記載のWebページから時系列データを生成する方法。
  4. 前記複数のアイテムに分割されたクラスタごとに前記複数のアイテムに含まれる表現の頻度を取得するステップをさらに具備し、
    前記テキスト特徴ベクトルを生成するステップでは、前記複数のアイテムに分割されたクラスタごとに、前記複数のアイテムに分割されたクラスタを特徴付ける前記抽出された表現を属性とし、当該表現の前記取得された頻度を属性値とするテキスト特徴ベクトルが生成される
    ことを特徴とする請求項3記載のWebページから時系列データを生成する方法。
  5. 前記ストレージ装置に格納されているWebページの各々のURL情報を分解することにより当該URL情報の特徴を表すURL特徴を抽出して、当該抽出されたURL特徴を当該Webページの特徴として当該Webページに付与する特徴付けを行うステップと、
    前記Webページの各々に付与される前記URL特徴に基づき、当該URL特徴を表す特徴ベクトルを、当該Webページの特徴ベクトルであるURL特徴ベクトルとして生成するステップとをさらに具備し、
    前記クラスタに分割するステップでは、前記Webページの各々の前記URL特徴ベクトルに基づいて、当該URL特徴ベクトルに対応する前記Webページの集合が複数のクラスタに分割される
    ことを特徴とする請求項1記載のWebページから時系列データを生成する方法。
  6. 前記Webページの各々に付与される前記URL特徴は、当該URL情報が抽出されたURL情報から分解された一部の情報を属性として含み、
    前記Webページの各々の前記URL特徴ベクトルは、前記Webページの各々に付与される前記URL特徴のすべての属性を重複なく共通に含む
    ことを特徴とする請求項5記載のWebページから時系列データを生成する方法。
  7. 前記特徴付けを行うステップは、
    前記URL情報を予め定められた複数の区切り記号により複数の分割文字列に分解するステップと、
    前記URL情報から分解された前記複数の分割文字列の各々を、当該URL情報の特徴を表すURL特徴の属性または属性値として設定するステップであって、文字列の有無を属性値とする属性、区切り記号を挟んで後続する分割文字列を属性値とする属性、及び区切り記号を挟んで先行する分割文字列を属性とする属性値のいずれかに、当該分割文字列への分解に用いられた区切り記号の種類に応じて設定するステップと
    を含むことを特徴とする請求項6記載のWebページから時系列データを生成する方法。
  8. 前記複数の区切り記号は第1の区切り記号と第2の区切り記号との2種に分類され、
    前記分解するステップは、前記URL情報を前記第1の区切り記号により複数の分割文字列に分解するステップと、前記複数の分割文字列のうち前記第2の区切り記号を含む分割文字列を、当該分割文字列によって1対の分割文字列に分解するステップとを含み、
    前記設定するステップは、前記第1の区切り記号によって分解された分割文字列であって、前記第2の区切り記号を含まない分割文字列を属性とし、当該文字列の有無を当該属性の属性値とするステップと、前記第2の区切り記号によって分解された1対の分割文字列のうち、当該第2の区切り記号に先行する分割文字列を属性とし、当該第2の区切り記号に後続する分割文字列を属性値とするステップとを含む
    ことを特徴とする請求項7記載のWebページから時系列データを生成する方法。
  9. 前記日時表現を抽出するステップでは、前記クラスタごとに、当該クラスタに含まれているWebページから、予め定められた複数の日時表現形式のいずれかに合致する日時表現が抽出されることを特徴とする請求項1記載のWebページから時系列データを生成する方法。
  10. Webページから時系列データを生成するためのプログラムであって、
    コンピュータに、
    利用者によって指定された収集条件に適合するWebページを複数のWebサイトから収集してストレージ装置に格納するステップと、
    前記ストレージ装置に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するステップと、
    前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出するステップと、
    前記抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定するステップと、
    前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するステップと、
    前記分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成するステップと
    を実行させるためのプログラム。
  11. Webページから時系列データを生成する時系列データ生成装置において、
    利用者からの収集条件の入力を受け付けるユーザインタフェースと、
    前記ユーザインタフェースによって受け付けられた収集条件に適合するWebページを複数のWebサイトから収集するデータ収集手段と、
    前記データ収集手段によって収集されたWebページの集合を格納するデータ格納手段と、
    前記データ格納手段に格納されているWebページの集合を当該WebページのURL情報に基づいて複数のクラスタに分割するデータ分割手段と、
    前記クラスタごとに、当該クラスタに含まれているWebページから日時表現を抽出し、抽出された日時表現に基づいて、前記クラスタごとに、当該クラスタを代表する日時表現形式を決定する日時表現決定手段と、
    前記日時表現決定手段によって前記クラスタごとに決定された日時表現形式に基づいて、当該クラスタに含まれているWebページを当該日時表現形式の日時表現が出現する箇所を基準として複数のアイテムに分割するアイテム分割手段と、
    前記アイテム分割手段によって分割されたアイテムを、当該アイテムに対応する日時表現に基づいて時間の順序に従って前記クラスタごとに並べ替えることにより、前記クラスタごとに時系列データを生成する時系列データ生成手段と
    を具備することを特徴とする時系列データ生成装置。
  12. 前記データ分割手段は、前記複数のアイテムに分割されたクラスタの各々の間の類似度を当該複数のアイテムに分割されたクラスタに含まれるWebページのテキスト情報に基づいて計算し、計算された類似度が予め定められたしきい値以上のクラスタ同士を新たなクラスタに統合する処理を、前記しきい値以上の類似度のクラスタが存在しなくなるまで繰り返す統合手段を含み、
    前記時系列データ生成手段は、前記クラスタごとの時系列データの生成を前記統合されたクラスタを対象に行う
    ことを特徴とする請求項11記載の時系列データ生成装置。
  13. 複数の日時表現形式を表す日時表現形式情報を予め格納する日時表現格納手段を更に具備し、
    前記日時表現決定手段は、前記クラスタごとに、当該クラスタに含まれているWebページから、前記日時表現格納手段に格納されている前記日時表現形式情報によって表される前記複数の日時表現形式のいずれかに合致する日時表現を抽出する
    ことを特徴とする請求項11記載の時系列データ生成装置。
JP2005153975A 2005-05-26 2005-05-26 Webページから時系列データを生成する方法及び装置 Expired - Fee Related JP4772378B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005153975A JP4772378B2 (ja) 2005-05-26 2005-05-26 Webページから時系列データを生成する方法及び装置
US11/376,876 US7526462B2 (en) 2005-05-26 2006-03-16 Method and apparatus for generating time-series data from web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005153975A JP4772378B2 (ja) 2005-05-26 2005-05-26 Webページから時系列データを生成する方法及び装置

Publications (2)

Publication Number Publication Date
JP2006331089A JP2006331089A (ja) 2006-12-07
JP4772378B2 true JP4772378B2 (ja) 2011-09-14

Family

ID=37464682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005153975A Expired - Fee Related JP4772378B2 (ja) 2005-05-26 2005-05-26 Webページから時系列データを生成する方法及び装置

Country Status (2)

Country Link
US (1) US7526462B2 (ja)
JP (1) JP4772378B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255408B1 (en) * 2005-08-26 2012-08-28 At&T Intellectual Property Ii, L.P. System and method for categorizing long documents
JP4381361B2 (ja) * 2005-08-31 2009-12-09 株式会社東芝 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
JP4322887B2 (ja) * 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法
JP4247266B2 (ja) * 2006-10-18 2009-04-02 株式会社東芝 スレッド順位付け装置及びスレッド順位付け方法
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
US9159034B2 (en) 2007-11-02 2015-10-13 Ebay Inc. Geographically localized recommendations in a computing advice facility
US11263543B2 (en) 2007-11-02 2022-03-01 Ebay Inc. Node bootstrapping in a social graph
US8494978B2 (en) 2007-11-02 2013-07-23 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US8666909B2 (en) 2007-11-02 2014-03-04 Ebay, Inc. Interestingness recommendations in a computing advice facility
US8239387B2 (en) * 2008-02-22 2012-08-07 Yahoo! Inc. Structural clustering and template identification for electronic documents
JP5588981B2 (ja) * 2008-08-01 2014-09-10 グーグル・インコーポレーテッド 検索クエリーに応答したディスカッションスレッドへの投稿の提供
US9547710B2 (en) * 2008-08-05 2017-01-17 Vmware, Inc. Methods for the cyclical pattern determination of time-series data using a clustering approach
US9245000B2 (en) * 2008-08-05 2016-01-26 Vmware, Inc. Methods for the cyclical pattern determination of time-series data using a clustering approach
JP5387578B2 (ja) * 2008-09-24 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2010123000A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Webページグループ抽出方法及び装置及びプログラム
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统
JP5402667B2 (ja) * 2010-01-21 2014-01-29 富士通株式会社 構成情報管理装置、分散情報管理システム、分散情報管理方法および分散情報管理プログラム
JP5625435B2 (ja) * 2010-03-30 2014-11-19 富士通株式会社 アクセス制御方法およびアクセス制御装置
US8560520B2 (en) * 2010-08-26 2013-10-15 Microsoft Corporation Information retrieval using time
EP2431889A1 (en) * 2010-09-01 2012-03-21 Axel Springer Digital TV Guide GmbH Content transformation for lean-back entertainment
CN102253998B (zh) * 2011-07-12 2013-08-14 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
US9026519B2 (en) * 2011-08-09 2015-05-05 Microsoft Technology Licensing, Llc Clustering web pages on a search engine results page
US9984125B1 (en) * 2012-05-31 2018-05-29 Leading Market Technologies, Inc. Apparatus and method for acquiring, managing, sharing, monitoring, analyzing and publishing web-based time series data
US10176246B2 (en) * 2013-06-14 2019-01-08 Microsoft Technology Licensing, Llc Fast grouping of time series
CN104424236B (zh) 2013-08-26 2018-12-07 腾讯科技(深圳)有限公司 数据采集中的存储方法及装置
WO2016067334A1 (ja) * 2014-10-27 2016-05-06 株式会社日立製作所 文書検索システム、ディベートシステム、文書検索方法
US10157219B2 (en) * 2014-11-10 2018-12-18 Dalian University Of Technology Geographical map-based visualization of big data
CN110442417A (zh) * 2016-01-08 2019-11-12 第四范式(北京)技术有限公司 特征抽取方法、机器学习方法及其装置
US10922334B2 (en) 2017-08-11 2021-02-16 Conduent Business Services, Llc Mixture model based time-series clustering of crime data across spatial entities
US11443005B2 (en) * 2019-05-31 2022-09-13 Microsoft Technology Licensing, Llc Unsupervised clustering of browser history using web navigational activities
JP7165165B2 (ja) * 2019-08-21 2022-11-02 ネイバー コーポレーション 長期間の連関性が高い文書クラスタリングのための方法およびシステム
WO2023162273A1 (ja) * 2022-02-28 2023-08-31 富士通株式会社 生成方法、生成プログラムおよび情報処理装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5963965A (en) * 1997-02-18 1999-10-05 Semio Corporation Text processing and retrieval system and method
ES2175813T3 (es) * 1997-11-24 2002-11-16 British Telecomm Gestion de informacion y recuperacion de terminos clave.
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
JP3347088B2 (ja) * 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US7225181B2 (en) * 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
JP4390402B2 (ja) 2001-03-29 2009-12-24 富士通株式会社 知識情報管理方法、知識情報利用方法および知識情報管理装置
JP2003242165A (ja) 2002-02-18 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 潜在ターゲット導出装置、潜在ターゲット導出方法、そのプログラム及び記録媒体
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
JP3845046B2 (ja) 2002-08-16 2006-11-15 株式会社ジャストシステム 文書管理方法および文書管理装置
US20040064442A1 (en) * 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
JP2004139376A (ja) 2002-10-18 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> インターネット上の口コミ伝播測定方法
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
JP2004185572A (ja) 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置
JP2004302809A (ja) 2003-03-31 2004-10-28 Railway Technical Res Inst 情報自動収集集約システム、及び情報自動収集集約方法
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP4191559B2 (ja) * 2003-08-15 2008-12-03 日本電信電話株式会社 インターネット上の情報伝播測定システムおよび方法
US20050114317A1 (en) * 2003-11-26 2005-05-26 Bhide Manish A. Ordering of web search results

Also Published As

Publication number Publication date
US7526462B2 (en) 2009-04-28
US20060271533A1 (en) 2006-11-30
JP2006331089A (ja) 2006-12-07

Similar Documents

Publication Publication Date Title
JP4772378B2 (ja) Webページから時系列データを生成する方法及び装置
KR101242369B1 (ko) 사용자 액티비티, 주의, 관심 측정을 활용하는 데이터감지, 저장, 인덱싱, 및 탐색
US9135306B2 (en) System for forensic analysis of search terms
US9811234B2 (en) Parallel display of multiple graphical indicators representing differing search criteria evaluated across a plurality of events
CN100468394C (zh) 带关联的计算机搜索
US20090043646A1 (en) System and Method for the Automated Capture and Clustering of User Activities
US10366154B2 (en) Information processing device, information processing method, and computer program product
US20150261773A1 (en) System and Method for Automatic Generation of Information-Rich Content from Multiple Microblogs, Each Microblog Containing Only Sparse Information
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
Ishikawa et al. T-scroll: Visualizing trends in a time-series of documents for interactive user exploration
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP2005165754A (ja) テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム
CN112740159A (zh) 帮助信息显示系统、帮助信息显示方法及帮助信息显示程序
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
JP2009289094A (ja) キーワード比較システム、キーワード比較方法およびキーワード比較プログラム
JP2006285499A (ja) データマイニング装置、データマイニング方法およびそのプログラム
JPH09245046A (ja) 情報検索装置
JP4451305B2 (ja) 経験スコア管理システムおよび方法、プログラム
JP2019160134A (ja) 文章処理装置および文章処理方法
JP5046634B2 (ja) 情報検索システム
JP2005190404A (ja) 学習講座提案システム、学習講座提案方法、および学習講座提案プログラム
JP4238813B2 (ja) 話題情報提示方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110622

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees