JP2007188330A - 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム - Google Patents

構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム Download PDF

Info

Publication number
JP2007188330A
JP2007188330A JP2006006443A JP2006006443A JP2007188330A JP 2007188330 A JP2007188330 A JP 2007188330A JP 2006006443 A JP2006006443 A JP 2006006443A JP 2006006443 A JP2006006443 A JP 2006006443A JP 2007188330 A JP2007188330 A JP 2007188330A
Authority
JP
Japan
Prior art keywords
document
author
metadata
structured
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006006443A
Other languages
English (en)
Other versions
JP4542993B2 (ja
Inventor
Takahiro Kawamura
隆浩 川村
Masumi Inaba
真純 稲葉
Shinichi Nagano
伸一 長野
Tetsuo Hasegawa
哲夫 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006006443A priority Critical patent/JP4542993B2/ja
Priority to US11/622,216 priority patent/US8037403B2/en
Publication of JP2007188330A publication Critical patent/JP2007188330A/ja
Application granted granted Critical
Publication of JP4542993B2 publication Critical patent/JP4542993B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】様々な情報を利用することにより、より適切な文書を抽出することのできる構造化文書抽出装置を提供する。
【解決手段】ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段110と、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段106と、
ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段104と、本文情報とメタデータとに基づいて、複数の前記対象文書それぞれの重要度を算出する重要度算出手段120とを備えた。
【選択図】 図2

Description

本発明は、ネットワークを介してアクセス可能な構造化文書を抽出する構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラムに関するものである。
従来から、Web上に存在する文書へのp/n判定やホットトピック抽出の技術が知られている。例えば、非特許文献1には、インターネット上のブログ、電子メール、ニュースなどから大規模な文書ストリームを得る技術が開示されている。また、例えば特許文献1には、文書中から所定の情報を抽出することにより情報ダイジェストを生成する技術が開示されている。
特開2005−182803号公報 斉藤和己、他3名、"ブログ空間の主要トピック抽出"人工知能学会研究会資料SIG−KBS−A501−02、pp.5−10、2005
従来の文書抽出においては、対象文が予め用意されたコーパスである場合が多く、ユーザがWebをブラウズしながらさまざまな意見に出会う状況は想定されていない。しかし、実際には、例えばブログにおける意見において、多くのトラックバックによって賛意が付けられているものと、1つもトラックバックが付けられていないものとではユーザの心理に与える影響は異なると考えられる。
さらに、多くのリンクが付けられているとしてもリンクが付けられたのが1年前なのか今日なのかによっても、ユーザの心理に与える影響は異なると考えられ、このような情報を考慮した文書抽出技術の提供が望まれている。
本発明は、上記に鑑みてなされたものであって、様々な情報を利用することにより、より適切な文書を抽出することのできる構造化文書抽出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、構造化文書抽出装置であって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段と、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段と、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段と、前記本文情報特定手段が特定した前記本文情報と、前記メタデータ抽出手段が抽出した前記メタデータとに基づいて、前記対象文書特定手段により特定された複数の前記対象文書それぞれの重要度を算出する重要度算出手段とを備えたことを特徴とする。
また、本発明の他の形態は、構造化文書抽出方法であって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップとを有することを特徴とする。
また、本発明の他の形態は、構造化文書抽出処理をコンピュータに実行させる構造化文書抽出プログラムであって、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップとを有することを特徴とする。
本発明にかかる構造化文書抽出装置は、本文情報特定手段が、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出手段が、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定手段が、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出手段が、本文情報特定手段が特定した本文情報と、メタデータ抽出手段が抽出したメタデータとに基づいて、対象文書特定手段により特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。
また、本発明の他の形態にかかる構造化文書抽出方法は、本文情報特定ステップにおいて、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出ステップにおいて、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定ステップにおいて、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出ステップにおいて、本文情報特定ステップにおいて特定した本文情報と、メタデータ抽出ステップにおいて抽出したメタデータとに基づいて、対象文書特定ステップにおいて特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。
また、本発明の他の形態にかかる構造化文書抽出プログラムは、本文情報特定ステップにおいて、ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定し、メタデータ抽出ステップにおいて、構造化文書に付与されたデータであって、当該構造化文書の本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出し、対象文書特定ステップにおいて、ネットワークを介してアクセス可能な、複数の構造化文書から検索対象となる複数の対象文書を特定し、重要度算出ステップにおいて、本文情報特定ステップにおいて特定した本文情報と、メタデータ抽出ステップにおいて抽出したメタデータとに基づいて、対象文書特定ステップにおいて特定された複数の対象文書それぞれの重要度を算出するので、様々な情報を利用し、より適切な文書を抽出することができるという効果を奏する。
以下に、本発明にかかる構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
図1は、実施の形態にかかる構造化文書抽出装置10を含む構造化文書抽出システム1の全体構成を示す図である。構造化文書抽出装置10は、インターネットなどのネットワーク上の構造化文書の中からユーザにより指定された検索条件に合致する構造化文書、すなわち対象文書を抽出し、重要度の高い順にソートし、ユーザに提供する。構造化文書の一例として、XMLにより記述されたブログを対象とする場合について説明する。
図2は、構造化文書抽出装置10の機能構成を示すブロック図である。構造化文書抽出装置10は、検索条件取得部100と、構造化文書抽出部102と、対象文書抽出部104と、メタデータ抽出部106と、メタデータ解析部108と、本文情報抽出部110と、本文情報解析部112と、重要度算出部120と、抽出結果作成部122と、オントロジーデータベース(DB)130と、履歴DB132とを備えている。
検索条件取得部100は、入出力装置を介してユーザから検索条件を取得する。構造化文書抽出部102は、インターネットを介して構造化文書を取得する。対象文書抽出部104は、検索条件取得部100が取得した検索条件に合致する対象文書を、構造化文書抽出部102が取得した構造化文書の中から抽出する。
オントロジーDB130は、構造化文書抽出装置10が利用する情報を保持している。図3は、オントロジーDB130が保持する情報の一例を示す図である。オントロジーDB130は、複数の概念を格納している。また、各概念のリンク関係を保持している。図3に示す例においては、HDD、IDEおよびSCSIの3つの概念が格納されている。IDEおよびSCSIはいずれもHDDに含まれる概念である。このリンク関係に基づいて、各概念の包含関係などの相互の関係を特定することができる。
さらに、各概念には、インスタンス(具体名)が対応付けられている。例えば、HDDには、AB社製、CD社製というインスタンスが対応付けられている。なお、このリンク関係を利用することにより、例えば、JK社製は、HDDには対応づけられていないが、JK社製が対応付けられているSCSIのリンク関係から、JK社製は、HDDのインスタンスでもあることが特定できる。
メタデータ抽出部106は、構造化文書抽出部102が取得した構造化文書からメタデータを抽出する。すなわち、対象文書およびこれ以外の構造化文書それぞれからメタデータを抽出する。
ここで、メタデータとは、構造化文書に付与された情報であり、構造化文書に本文として含まれる情報を説明するための情報である。具体的には、サイトまたは記事の内容を説明するための情報である。メタデータについては後述する。
メタデータ解析部108は、メタデータを解析する。具体的には、メタデータから所定のデータを特定する。なお、このとき、オントロジーDB130に格納されている情報を適宜利用する。
本文情報抽出部110は、構造化文書抽出部102が取得した構造化文書から本文情報を抽出する。すなわち、対象文書およびこれ以外の構造化文書それぞれから本文情報を抽出する。本文情報については後述する。
本文情報解析部112は、本文情報を解析する。具体的には、本文情報から所定の内容を特定する。なお、このとき、オントロジーDB130に格納されている情報を適宜利用する。
履歴DB132は、メタデータ解析部108および本文情報解析部112による解析結果を保持している。すなわち、所定の検索条件に対して利用された解析結果を、解析日時に対応付けて保持している。さらに、この解析結果から得られた情報を保持している。
図4は、履歴DB132が保持する情報の一例を示す図である。履歴DB132は、例えば、属性と著者情報とを対応付けて保持している。例えば、所定の属性に対応する複数の構造化文書の著者がBであり、この構造化文書に多数の構造化文書がリンクされている場合には、著者Bの著者情報とこの属性とを対応付けて保持する。
リンクの多い構造化文書は、ユーザからの支持の多い文書である場合が多い。履歴DB132がこのような文書の著者情報を保持するので、著者情報から、ユーザから支持の多い文書を特定することができる。
重要度算出部120は、対象文書抽出部104が抽出した各対象文書の重要度を算出する。さらに、重要度算出部120は、対象文書に付与された各コメントの重要度を算出する。このとき、メタデータ解析部108による解析結果、本文情報解析部112による解析結果を利用する。
図5は、構造化文書のデータ構成を説明するための図である。図5に示すように構造化文書は、本文と、本文に対して付与されるメタデータとを含んでいる。また、メタデータは複数の情報を含んでいる。本文およびメタデータの各情報は、タグにより識別される。本文情報とは、例えば、ニュース記事や、ブログの本文など、構造化文書の著者により作成された内容である。
メタデータには、本文のタイトル、著者および作成日および要約などが含まれている。さらに、本文に対して寄せられた他の著者の意見などのコメント、コメントの著者およびコメントの記入日も含まれている。なお、メタデータに含まれるこのような情報は具体的には、RSS(RDF Site Summary)に含まれている。
また、メタデータには、当該構造化文書と他の構造化文書とのリンク関係を示す情報も含まれている。例えば、構造化文書が他の構造化文書からリンクされている場合には、その旨を示す情報および他の構造化文書をアクセスするための情報が含まれている。このような情報は具体的には、トラックバック・ピングの情報として含まれている。
図6は、構造化文書の表示例を示す図である。「ミネラルウォーター」というタイトルで、「ミネラルウォーターは、…」という本文が含まれている。さらに、この本文に対するトラックバックとコメントが付与されている。
図7は、図6に示す構造化文書の記述例を示す図である。本文として、図6に示す本文の内容が記載されている。さらに、メタデータには、タイトルが記載されている。メタデータには、さらに、この本文の著者と、本文の作成日とが記載されている。なお、メタデータに含まれるこれらの情報は、具体的には、RSSに記載されている。さらに、コメントおよびトラックバックがメタデータとして付与されている。
図8は、構造化文書抽出装置10による構造化文書抽出処理を示すフローチャートである。まず、構造化文書抽出装置10の検索条件取得部100は、検索条件を取得する(ステップS100)。次に、対象文書抽出部104は、対象文書を抽出する(ステップS102)。次に、メタデータ抽出部106は、構造化文書抽出部102が取得した各構造化文書のメタデータを抽出する(ステップS104)。次に、メタデータ解析部108は、メタデータ抽出部106が抽出したメタデータを解析する(ステップS106)。
さらに、本文情報抽出部110は、構造化文書抽出部102が取得した各構造化文書の本文情報を抽出する(ステップS108)。次に、本文情報解析部112は、本文情報抽出部110が抽出したメタデータを解析する(ステップS110)。
次に、重要度算出部120は、メタデータ解析部108による解析結果、本文情報解析部112による解析結果および履歴DB132が保持する情報に基づいて、各対象文書の重要度を算出する(ステップS112)。次に、抽出結果作成部122は、重要度算出部120により算出された重要度に基づいて、抽出結果を作成する(ステップS114)。
次に、メタデータ解析部108による解析結果および本文情報解析部112による解析結果に基づいて、履歴DB132が保持する情報を更新する(ステップS116)。以上で、構造化文書抽出装置10による構造化文書抽出処理が完了する。
なお、ステップS104およびステップS106と、ステップS108およびステップS110の順番は本例に限定されるものではなく、例えば、ステップS108およびステップS110をステップS104およびステップS106よりも先に行ってもよい。
ここで、図9から図14を参照しつつ、重要度算出処理について詳述する。メタデータ解析部108は、トラックバック・ピングにより対象文書にリンクしている関連文書に関連文書の著者情報がリンク情報として付与されているか否かをRSSに基づいて特定する。そして、重要度算出部120は、関連文書の著者情報の有無に基づいて対象文書の重要度を算出する。
図9に示す例においては、対象文書1および対象文書2には、それぞれ関連文書1および関連文書2がリンクされている。しかし、関連文書2には、リンク情報として著者情報が付与されていない。この場合には、対象文書1に対し、対象文書2に比べて高い重要度を算出する。このように、著者が公開されている関連文書がリンクしている対象文書の重要度を高くすることにより、より適切な対象文書の重要度を高くすることができる。
また、メタデータ解析部108は、トラックバック・ピングにより対象文書にリンクしている関連文書の作成日をRSSから特定する。そして、重要度算出部120は、関連文書の作成日が新しいほど、より高い重要度を算出する。
ただし、図10に示す例のように、対象文書の作成日が古い場合であっても、リンクしている関連文書の作成日が比較的新しい場合には、長い期間参照されている文書であるので、対象文書の重要度を高くする。
例えば、図10に示す例においては、対象文書1と対象文書2の作成日は同一である。しかし、対象文書2の関連文書2は、いずれも2004年10月に記載されたものであり、以降に作成された関連文書は、対象文書2にリンクしていない。これに対し、対象文書1の関連文書1は、2004年10月から2006年1月まで定期的にリンクされている。この場合には、対象文書1に対し、対象文書2に比べて高い重要度が算出される。
また他の例としては、メタデータ解析部108はさらにRSSから対象文書の作成日を特定する。そして、重要度算出部120は、対象文書の作成日と関連文書の作成日の間の期間が長いほど、より高い重要度を算出してもよい。
また、対象文書の作成日から例えば1日、1時間など所定の期間内に作成された関連情報が多数存在する場合には、対象文書の内容は議論が深まった内容であり、ホットな内容である可能性が高い。そこで、所定期間内に作成された関連文書の数が予め定められた規定数以上存在する場合には、存在しない場合に比べてより高い重要度を算出する。これにより、ホットな内容に対して、より高い重要度を算出することができる。なお、規定数は絶対値であってもよく、また全関連文書の数に対する相対的な値であってもよい。
また、メタデータ解析部108は、RSSから、本文情報に対するコメントを特定する。そして、重要度算出部120は、異なる著者からのコメントの数に基づいて、対象文書の重要度を算出する。
具体的には、まず対象文書に付与されたRSSに基づいて、本文に対するコメントおよびその著者を特定する。そして、異なる著者からのコメントの数をカウントする。この数が多い対象文書は、ユーザからの反響が大きい文書であるので、これ以外の対象文書に比べて高い重要度を算出する。
例えば、図11に示す例においては、対象文書1には、コメント1からコメント4までの4つのコメントが付与されている。ただし、コメント1とコメント2の著者は同一である。したがって、対象文書1に対する著者の異なるコメントの数は、3となる。
また、メタデータ解析部108は、対象文書に付与されたRSSに基づいて、対象文書の作成日を特定する。さらに、対象文書の本文に対するコメントの記入日を特定する。そして、重要度算出部120は、対象文書の作成日およびコメントの記入日に基づいて、対象文書の重要度を特定する。
具体的には、対象文書の作成日が古いにもかかわらず、定期的にコメントが付与されている対象文書は、長い期間興味を持たれ続けている文書であると判断し、最近のコメントがついていない対象文書に比べて高い重要度を算出する。
例えば、対象文書に付与されたコメントの数を、最も古いコメントの記入日から最も新しいコメントの記入日までの期間で割った値を算出する。この結果得られた値が大きいほど、対象文書に対し高い重要度を算出する。これにより、より適切な重要度を算出することができる。
また、重要度算出部120は、他の構造化文書とのリンク関係を示す情報が含まれるか否かに基づいて重要度を算出する。具体的には、他の構造化文書とのリンク関係を示すトラックバック・ピングが付与されていない対象文書に対し、他の構造化文書とのリンク関係を示す情報が含まれている対象文書に比べて低い重要度を算出する。
また、図12に示す例のように、第1対象文書のメタデータにおいて第2対象文書を含む複数の構造化文書が第1対象文書に関連付けられており第2対象文書の前記メタデータにおいて複数の構造化文書が第2対象文書に関連付けられているとする。そして、第2対象文書に関連付けられている構造化文書の数が第1対象文書に関連付けられている構造化文書の数に比べて多い場合には、第2対象文書に対し第1対象文書に比べて高い重要度を算出する。このような場合には、第1対象文書ではなく、第2対象文書が話題の軸になっていると考えられるためである。
また、メタデータ解析部108は、対象文書に付与されているRSSから対象文書の著者を特定する。そして、重要度算出部120は、対象文書の著者に基づいて、重要度を算出する。
例えば、図13に示すように、著者Aにより作成された対象文書1が複数の対応文書2に関連付けられているとする。さらに、複数の対象文書2の著者はいずれもBであるとする。また、対象文書2が複数の対応文書1に関連付けられているとする。
このように、2人の著者の構造化文書が互いにリンクしあっている場合には、2人の議論が深まっていることが予想される。すなわち、このような著者により作成された構造化文書の重要度は高いと予想される。
そこで、この場合には、対象文書1の著者Aおよび対象文書2の著者Bを示す著者情報を履歴DB132に登録しておく。そして、対象文書の著者が著者Aまたは著者Bである場合には、他の著者の対象文書に比べて高い重要度を算出する。これにより、互いにリンクしあっている構造化文書の著者により作成された対象文書に対し、これ以外の対象文書に比べて高い重要度を算出することができる。
また他の例としては、1つの対象文書に対し、複数の著者からのコメントが付与されているとする。この場合にも、前述のように履歴DB132に登録されている著者のコメントに対し、他の著者のコメントに比べてより高い重要度を算出してもよい。
また、メタデータ解析部108は、メタデータにおいて関連付けられている関連文書の数が予め設定された規定値以上となる構造化文書であって、かつ著者が同一の構造化文書の数を特定する。そして、特定した構造化文書の数が予め定めた規定数以上である場合に、この構造化文書の著者情報を履歴DB132に登録する。
履歴DB132に登録された著者の構造化文書は、参照されることが多く重要であると考えられる。そこで、重要度算出部120は、履歴DB132に登録された著者情報に示される著者の対象文書に対し、著者情報に示される著者以外の著者の対象文書に比べて高い重要度を算出する。これにより、所定の内容に関して多く意見を述べている著者の対象文書に対してより高い重要度を算出することができる。
また、メタデータ解析部108は、本文情報に記載された内容が、オントロジーDB130において同一の属性に対応付けられている構造化文書であって著者が同一の構造化文書を検索する。そして、同一属性の内容であって、かつ著者が同一の構造化文書の数が予め定められた規定数以上である場合には、この構造化文書の著者情報を属性に対応付けて履歴DB132に登録する。
履歴DB132に登録された著者は、所定の属性に関する内容の知識が多い人物であると考えられる。そこで、重要度算出部120は、履歴DB132において所定の属性に対応付けられている著者情報に示される著者による、対応する属性の対象文書に対し、この著者以外の著者の対象文書に比べて高い重要度を算出する。これにより、所定の属性に対する内容について多く意見を述べている著者の対象文書に対してより高い重要度を算出することができる。
また、メタデータ解析部108は、コテンツに付与されたメタデータに基づいて、メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ著者が同一の構造化文書を特定する。そして、特定した構造化文書の数が予め定めた規定数以上である場合に、この構造化文書の著者情報を履歴DB132に登録する。
重要度算出部120は、履歴DB132に登録された著者情報に示される著者の対象文書に対し、著者情報に示される著者以外の著者の対象文書に比べて低い重要度を算出する。これにより、スパムを排除することができる。
また、他の例としては、履歴DB132に登録された著者情報に示される著者によるコメントに対し、他の著者のコメントに比べて低い重要度を算出してもよい。
また、本文情報抽出部110は、対象文書に関連付けられている関連文書の本文情報にこの対象文書を支持する記載が含まれるか否かを特定する。支持する記載か否かは、本文情報における肯定的表現および否定的表現を抽出することにより特定する。そして、重要度算出部120は、対象文書を支持する記載を含む関連文書に対応する対象文書に対し、支持する記載を含まない関連文書に対応する対象文書に比べて高い重要度を算出する。
さらに、対象文書に複数の前記関連文書が関連付けられている場合には、複数の関連文書それぞれの本文情報に当該対象文書を支持する記載が含まれるか否かに基づいて、重要度を算出する。具体的には、対象文書を支持する記載が含まれる関連文書の数が予め定められた規定数以上である対象文書に対し、規定数未満である対象文書に比べて高い重要度を算出する。
他の例としては、対象文書を支持する記載が含まれる関連情報の数が多いほど高い重要度を算出してもよい。
また、重要度算出部120は、構造化文書の本文情報に対する複数のコメントに基づいて、重要度を算出する。具体的には、メタデータに基づいて特定された、本文情報に対するコメントにおいて、同一の意見が所定の割合以上存在する場合には、この意見と逆の意見に対し、同一の意見に比べて高い重要度を算出する。このような意見は、他の意見に比べて注目すべき内容だからである。
図14に示す例においては、対象文書に対する複数のコメントのうちコメント3のみ対象文書に反対する意見を記載している。したがって、この場合には、コメント3に対し、他のコメントに比べて高い重要度を算出する。
図15は、構造化文書抽出装置10のハードウェア構成を示す図である。構造化文書抽出装置10は、ハードウェア構成として、構造化文書抽出装置10における構造化文書抽出処理を実行する構造化文書抽出プログラムなどが格納されているROM52と、ROM52内のプログラムに従って構造化文書抽出装置10の各部を制御するCPU51と、構造化文書抽出装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた構造化文書抽出装置10における構造化文書抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、構造化文書抽出プログラムは、構造化文書抽出装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の構造化文書抽出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
構造化文書抽出装置10を含む構造化文書抽出システム1の全体構成を示す図である。 構造化文書抽出装置10の機能構成を示すブロック図である。 オントロジーDB130が保持する情報の一例を示す図である。 履歴DB132が保持する情報の一例を示す図である。 構造化文書のデータ構成を説明するための図である。 構造化文書の表示例を示す図である。 図6に示す構造化文書の記述例を示す図である。 構造化文書抽出装置10による構造化文書抽出処理を示すフローチャートである。 重要度算出処理について説明するための図である。 重要度算出処理について説明するための図である。 重要度算出処理について説明するための図である。 重要度算出処理について説明するための図である。 重要度算出処理について説明するための図である。 重要度算出処理について説明するための図である。 構造化文書抽出装置10のハードウェア構成を示す図である。
符号の説明
10 構造化文書抽出装置
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 検索条件取得部
102 構造化文書抽出部
104 対象文書抽出部
106 メタデータ抽出部
108 メタデータ解析部
110 本文情報抽出部
112 本文情報解析部
120 重要度算出部
122 抽出結果作成部
130 オントロジーDB
132 履歴DB

Claims (22)

  1. ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定手段と、
    前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出手段と、
    前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定手段と、
    前記本文情報特定手段が特定した前記本文情報と、前記メタデータ抽出手段が抽出した前記メタデータとに基づいて、前記対象文書特定手段により特定された複数の前記対象文書それぞれの重要度を算出する重要度算出手段と
    を備えたことを特徴とする構造化文書抽出装置。
  2. 前記メタデータは、前記リンク関係を示すデータとして、トラックバックを含むことを特徴とする請求項1に記載の構造化文書抽出装置。
  3. 前記メタデータは、前記本文情報に関する情報として、サイトまたは記事の内容を説明する付加情報を含むことを特徴とする請求項1に記載の構造化文書抽出装置。
  4. 前記対象文書に付与された前記メタデータから、前記対象文書に関連付けられている関連文書に付与されたメタデータに当該関連文書の著者情報が含まれるか否かを特定するメタデータ解析手段をさらに備え、
    前記文書重要度算出手段は、前記関連文書の前記メタデータに前記著者情報が含まれている前記対象文書に対し、前記著者情報が含まれていない前記対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  5. 前記対象文書に付与された前記メタデータから、当該対象文書の作成日を特定し、さらに前記対象文書に関連付けられている関連文書に付与された前記メタデータから、当該関連文書の作成日を特定するメタデータ解析手段をさらに備え、
    前記文書重要度算出手段は、前記対象文書の作成日と前記関連文書の作成日の間の長さに基づいて、前記対象文書の重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  6. 前記メタデータ解析手段は、前記対象文書の前記メタデータにおいて前記対象文書に複数の前記関連文書が関連付けられている場合に、複数の前記関連文書それぞれの作成日を特定し、
    前記文書重要度算出手段は、前記対象文書の作成日から所定期間内の作成日に作成された前記関連文書の数が予め定められた規定数以上である前記対象文書に対し、前記規定数未満である前記対象文書に比べて高い重要度を算出することを特徴とする請求項5に記載の構造化文書抽出装置。
  7. 前記対象文書に付与された前記メタデータに基づいて、当該対象文書の前記本文情報に対する意見であって、著者の異なる意見の数をカウントするメタデータ解析手段をさらに備え、
    前記文書重要度算出手段は、前記本文情報に含まれる異なる著者による意見の数に基づいて、前記対象文書の重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  8. 前記メタデータから、前記対象文書の作成日を特定し、さらに前記対象文書の前記本文情報に対する意見の記入日を特定するメタデータ解析手段をさらに備え、
    前記文書重要度算出手段は、前記メタデータ解析手段により特定された記入日に基づいて、前記対象文書の重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  9. 前記メタデータ解析手段は、さらに前記対象文書に対する意見の数を、当該意見のうち最も古い意見の記入日から最も新しい意見の記入日までの期間で割った値を算出し、
    前記文書重要度算出手段は、前記文書解析手段により得られた値が大きいほど、前記対象文書に対し、高い重要度を算出することを特徴とする請求項8に記載の構造化文書抽出装置。
  10. 前記文書重要度算出手段は、前記メタデータに他の構造化文書とのリンク関係を示す情報が含まれていない前記対象文書に対し、前記メタデータに他の構造化文書とのリンク関係を示す情報が含まれている前記対象文書に比べて低い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  11. 前記文書重要度算出手段は、第1対象文書の前記メタデータにおいて第2対象文書を含む複数の構造化文書が前記第1対象文書に関連付けられており、前記第2対象文書の前記メタデータにおいて複数の構造化文書が前記第2対象文書に関連付けられており、かつ前記第2対象文書に関連付けられている前記構造化文書の数が前記第1対象文書に関連付けられている前記構造化文書の数に比べて多い場合には、前記第2対象文書に対し前記第1対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  12. 前記構造化文書に付与された前記メタデータから、当該構造化文書の著者を示す著者情報を特定するメタデータ解析手段をさらに備え、
    前記文書重要度算出手段は、第1の著者の第1対象文書の前記メタデータにおいて前記第1対象文書が第2著者の複数の第2対象文書に関連付けられており、かつ前記第2構造化文書の前記メタデータにおいて前記第2対象文書が複数の前記第1対象文書に関連付けられている場合に、前記第1の著者および前記第2の著者の著者情報を保持する著者情報保持手段と
    をさらに備え、
    前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  13. 前記メタデータに基づいて、前記メタデータにおいて関連付けられている関連文書の数が予め設定された規定値以上となる構造化文書であって、著者が同一の構造化文書の数を特定するメタデータ解析手段と、
    前記メタデータ解析手段により特定された前記構造化文書の数が予め定めた規定数以上である場合に、当該構造化文書の前記著者情報を保持する著者情報保持手段と
    をさらに備え、
    前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  14. 互いに関連する複数の内容を各属性に対応付けて保持する関連内容保持手段と、
    前記本文情報に記載された内容を特定する本文情報解析手段と、
    前記メタデータに基づいて、著者が同一の構造化文書を検索するメタデータ解析手段と、
    前記構造化文書の前記本文情報に記載された内容が前記関連内容保持手段において同一の属性に対応付けられている構造化文書であって、かつ著者が同一の構造化文書の数が予め定められた規定数以上である場合に、当該構造化文書の前記著者情報を前記属性に対応付けて保持する著者情報保持手段と
    をさらに備え、
    前記文書重要度算出手段は、前記著者情報保持手段おいて検索対象の属性に対応付けられている前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  15. 前記構造化文書に付与された前記メタデータに基づいて、前記メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ著者が同一の構造化文書を特定するメタデータ解析手段と、
    前記メタデータ解析手段により特定された前記構造化文書の数が予め定めた規定数以上である場合に、当該構造化文書の著者情報を保持する著者情報保持手段と
    をさらに備え、
    前記文書重要度算出手段は、前記著者情報保持手段によって保持される前記著者情報に示される著者の前記対象文書に対し、前記著者情報に示される著者以外の著者の前記対象文書に比べて低い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  16. 前記対象文書に関連付けられている関連文書の前記本文情報に当該対象文書を支持する記載が含まれるか否かを特定する本文情報解析手段をさらに備え、
    前記文書重要度算出手段は、前記対象文書を支持する記載を含む前記関連文書に対応する前記対象文書に対し、支持する記載を含まない前記関連文書に対応する前記対象文書に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  17. 前記本文情報解析手段は、前記メタデータにおいて前記対象文書に複数の前記関連文書が関連付けられている場合に、複数の前記関連文書それぞれの前記本文情報に当該対象文書を支持する記載が含まれるか否かを特定し、
    前記文書重要度算出手段は、前記対象文書を支持する記載が含まれる前記関連文書の数が予め定められた規定数以上である前記対象文書に対し、規定数未満である前記対象文書に比べて高い重要度を算出することを特徴とする請求項16に記載の構造化文書抽出装置。
  18. 前記メタデータから、前記構造化文書の前記本文情報に対する複数の意見を特定し、特定した意見の中から同一の内容の意見と、前記同一の内容と逆の内容の意見とを特定するメタデータ解析手段と、
    前記対象文書の前記本文情報に対する複数の意見のうち所定の割合以上が所定の内容を含む場合に、当該所定の内容と逆の意見に対し、前記所定の内容に比べて高い重要度を算出する意見重要度算出手段と
    をさらに備えたことを特徴とする請求項1に記載の構造化文書抽出装置。
  19. 前記メタデータから、前記構造化文書の著者を示す著者情報を特定するメタデータ解析手段と、
    第1の著者の第1対象文書の前記メタデータおいて前記第1対象文書が第2著者の複数の第2対象文書に関連付けられており、かつ前記第2構造化文書の前記メタデータにおいて前記第2の対象文書が複数の前記第1対象文書に関連付けられている場合に、前記第1の著者および前記第2の著者の前記著者情報を保持する著者情報保持手段と、
    前記メタデータから、前記対象文書の前記本文情報に対する複数の意見を特定し、特定した各意見の著者を特定するメタデータ解析手段と
    をさらに備え、
    前記意見重要度算出手段は、前記対象文書の前記本文情報に含まれる複数の意見のうち前記著者情報保持手段により保持される前記著者情報に対応する著者の意見に対し、前記著者情報に対応する著者以外の著者の意見に比べて高い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  20. 前記メタデータから、前記構造化文書の著者を示す著者情報を特定するメタデータ解析手段と、
    前記メタデータに他の構造化文書とのリンク関係を示すデータが含まれず、かつ前記著者情報が同一の構造化文書の数が予め定めた規定数以上である場合に、当該著者情報を保持する著者情報保持手段と
    をさらに備え、
    前記メタデータ解析手段は、さらに前記対象文書の前記メタデータから前記本文情報に対する複数の意見それぞれを記入した著者を示す著者情報を特定し、
    前記意見重要度算出手段は、前記本文情報に対する複数の意見のうち前記著者情報保持手段により保持されている前記著者情報に示される著者の意見に対し、前記著者情報に示される著者以外の著者の意見に比べて低い重要度を算出することを特徴とする請求項1に記載の構造化文書抽出装置。
  21. ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、
    前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、
    前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、
    前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップと
    を有することを特徴とする構造化文書抽出方法。
  22. 構造化文書抽出処理をコンピュータに実行させる構造化文書抽出プログラムであって、
    ネットワークを介してアクセス可能な構造化文書に本文として含まれる本文情報を特定する本文情報特定ステップと、
    前記構造化文書に付与されたデータであって、当該構造化文書の前記本文情報に関するデータおよび当該構造化文書と他の構造化文書との間のリンク関係を示すデータを含むメタデータを抽出するメタデータ抽出ステップと、
    前記ネットワークを介してアクセス可能な、複数の前記構造化文書から検索対象となる複数の対象文書を特定する対象文書特定ステップと、
    前記本文情報特定ステップにおいて特定した前記本文情報と、前記メタデータ抽出ステップにおいて抽出した前記メタデータとに基づいて、前記対象文書特定ステップにおいて特定された複数の前記対象文書それぞれの重要度を算出する重要度算出ステップと
    を有することを特徴とする構造化文書抽出プログラム。
JP2006006443A 2006-01-13 2006-01-13 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム Active JP4542993B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006006443A JP4542993B2 (ja) 2006-01-13 2006-01-13 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
US11/622,216 US8037403B2 (en) 2006-01-13 2007-01-11 Apparatus, method, and computer program product for extracting structured document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006006443A JP4542993B2 (ja) 2006-01-13 2006-01-13 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム

Publications (2)

Publication Number Publication Date
JP2007188330A true JP2007188330A (ja) 2007-07-26
JP4542993B2 JP4542993B2 (ja) 2010-09-15

Family

ID=38323312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006006443A Active JP4542993B2 (ja) 2006-01-13 2006-01-13 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム

Country Status (2)

Country Link
US (1) US8037403B2 (ja)
JP (1) JP4542993B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141729B2 (en) 2008-02-21 2015-09-22 Kabushiki Kaisha Toshiba Display-data generating apparatus and display-data generating method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084193A (ja) * 2006-09-28 2008-04-10 Toshiba Corp インスタンス選択装置、インスタンス選択方法及びインスタンス選択プログラム
JP2009080624A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 情報表示装置、方法及びプログラム
US8510312B1 (en) * 2007-09-28 2013-08-13 Google Inc. Automatic metadata identification
US20100293182A1 (en) * 2009-05-18 2010-11-18 Nokia Corporation Method and apparatus for viewing documents in a database
US20110302103A1 (en) * 2010-06-08 2011-12-08 International Business Machines Corporation Popularity prediction of user-generated content
JP5610524B2 (ja) * 2010-09-22 2014-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書の優先度を決定する方法、プログラム及び装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08288960A (ja) * 1995-04-14 1996-11-01 Toshiba Corp ネットワーク情報処理装置
WO2003046764A1 (fr) * 2001-11-26 2003-06-05 Fujitsu Limited Procede et appareil d'analyse d'informations
JP2005309964A (ja) * 2004-04-23 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
JP2005352861A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 電子データ処理方法、電子データ処理装置、および、電子データ処理プログラム
JP2008508575A (ja) * 2004-06-30 2008-03-21 テクノラティ,インコーポレーテッド エコシステムを使用した集約および検索の方法、並びに、それらの関連技術

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3849318B2 (ja) * 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP4283466B2 (ja) * 2001-10-12 2009-06-24 富士通株式会社 リンク関係に基づく文書整理方法
JP3773447B2 (ja) * 2001-12-21 2006-05-10 株式会社日立製作所 サブスタンス間の二項関係表示方法
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
US20050138067A1 (en) 2003-12-19 2005-06-23 Fuji Xerox Co., Ltd. Indexing for contexual revisitation and digest generation
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US7529735B2 (en) * 2005-02-11 2009-05-05 Microsoft Corporation Method and system for mining information based on relationships
JP4721740B2 (ja) * 2005-03-23 2011-07-13 富士通株式会社 記事又は話題を管理するためのプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08288960A (ja) * 1995-04-14 1996-11-01 Toshiba Corp ネットワーク情報処理装置
WO2003046764A1 (fr) * 2001-11-26 2003-06-05 Fujitsu Limited Procede et appareil d'analyse d'informations
JP2005309964A (ja) * 2004-04-23 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
JP2005352861A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 電子データ処理方法、電子データ処理装置、および、電子データ処理プログラム
JP2008508575A (ja) * 2004-06-30 2008-03-21 テクノラティ,インコーポレーテッド エコシステムを使用した集約および検索の方法、並びに、それらの関連技術

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141729B2 (en) 2008-02-21 2015-09-22 Kabushiki Kaisha Toshiba Display-data generating apparatus and display-data generating method

Also Published As

Publication number Publication date
US20070179937A1 (en) 2007-08-02
JP4542993B2 (ja) 2010-09-15
US8037403B2 (en) 2011-10-11

Similar Documents

Publication Publication Date Title
Resnik et al. The web as a parallel corpus
US11275774B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
EP2478431B1 (en) Automatically finding contextually related items of a task
US9817908B2 (en) Systems and methods for news event organization
Trampuš et al. Internals of an aggregated web news feed
US10585927B1 (en) Determining a set of steps responsive to a how-to query
US20140114942A1 (en) Dynamic Pruning of a Search Index Based on Search Results
Macdonald et al. Blog track research at TREC
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP6394388B2 (ja) 同義関係判定装置、同義関係判定方法、及びそのプログラム
JP4542993B2 (ja) 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
Chang et al. Improving recency ranking using twitter data
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Kumar Apache Solr search patterns
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
Aliakbary et al. Web page classification using social tags
Zou et al. Assessing software quality through web comment search and analysis
Fletcher Implementing a BNC-compare-able web corpus
Duan et al. Research on Enterprise Track of TREC 2007 at SJTU APEX Lab.
US20080033953A1 (en) Method to search transactional web pages
JP2011086152A (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP2018206189A (ja) 情報収集装置、および、情報収集方法
JP2011150538A (ja) 重要キーワード抽出装置及び方法及びプログラム
Mohamad et al. Automatic event detection on Reuters news
Lee et al. Learning to predict the need of summarization on news articles

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100416

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100628

R151 Written notification of patent or utility model registration

Ref document number: 4542993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350