JP2009093564A - 文書抽出装置および文書抽出プログラム - Google Patents

文書抽出装置および文書抽出プログラム Download PDF

Info

Publication number
JP2009093564A
JP2009093564A JP2007265843A JP2007265843A JP2009093564A JP 2009093564 A JP2009093564 A JP 2009093564A JP 2007265843 A JP2007265843 A JP 2007265843A JP 2007265843 A JP2007265843 A JP 2007265843A JP 2009093564 A JP2009093564 A JP 2009093564A
Authority
JP
Japan
Prior art keywords
document
documents
extracted
group
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007265843A
Other languages
English (en)
Inventor
Takanobu Otsubo
隆信 大坪
Hiroshi Okamoto
洋 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007265843A priority Critical patent/JP2009093564A/ja
Publication of JP2009093564A publication Critical patent/JP2009093564A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】参照情報が明示されていない特許や論文等の文書についても、適切な関連性を有する文書については抽出文書群の要素に組み込んで抽出する。
【解決手段】文書抽出装置10は、少なくとも一部の文書が他の文書と参照関係を有する複数の文書を格納し、格納された複数の文書から所与の検索条件に基づいて検索された文書と参照関係を有する1次文書を抽出し、さらに1次文書と参照関係を有する2次文書を抽出するという処理を順次繰り返してn次文書まで抽出し、1乃至n次文書を要素とする抽出文書群の少なくとも一部の文書と関連する情報を有する文書を、抽出文書群以外の文書から検索し、検索された文書の少なくとも一部を抽出文書群の要素に追加する。
【選択図】図1

Description

本発明は、文書抽出装置および文書抽出プログラムに関する。
発明の先行技術を調査する場合には、調査対象の発明と共通する技術分野に属する特許の引用文献および被引用文献に基づいて、先行技術を検索し分析するという手法が用いられることがある。例えば、下記の特許文献1には、キーワード、技術分野等から検索された特許情報に関する一次引用文献を検索し、検索された一次引用文献の引用文献である二次引用文献をさらに検索するという作業を複数回繰り返して、芋蔓式にn次引用文献まで検索する手法が開示されている。なお、学術文献データベースであるWeb Of Scienceにおいても、上記の芋蔓式検索による検索結果を表示する検索サービスを提供している。
特開2000−148789号公報
しかしながら、従来の技術では、参照情報(引用情報)が明示されていない特許、論文等の文献については、分析の対象から除外されてしまうため、参照情報が明示されていない文献は、実際には十分な関連性があったとしても調査の対象から漏れてしまっていた。そのため、従来の技術では、不十分な調査結果しか得られないことがあった。
本発明の目的は、参照情報が明示されていない特許や論文等の文書についても、適切な関連性を有する文書については抽出文書群の要素に組み込んで抽出できる文書抽出装置、及び文書抽出プログラムを提供することにある。
上記目的を達成するために、請求項1に記載の文書抽出装置の発明は、少なくとも一部の文書が他の文書と参照関係を有する複数の文書を格納する手段と、前記格納された複数の文書から所与の検索条件に基づいて検索された文書と参照関係を有する1次文書を抽出し、さらに当該1次文書と参照関係を有する2次文書を抽出するという処理を順次繰り返してn次文書まで抽出する手段と、前記1乃至n次文書を要素とする抽出文書群の少なくとも一部の文書と関連する情報を有する文書を、当該抽出文書群以外の文書から検索する関連文書検索手段と、前記関連文書検索手段により検索された文書の少なくとも一部を前記抽出文書群の要素に追加する追加手段と、を含むことを特徴とする。
請求項2の発明は、請求項1に記載の文書抽出装置において、前記複数の文書は、それぞれ属性情報を有し、前記関連文書検索手段は、前記抽出文書群の少なくとも一部の文書と共通の属性情報を有する文書を、当該抽出文書群以外の文書から検索する、ことを特徴とする。
請求項3の発明は、請求項1に記載の文書抽出装置において、前記関連文書検索手段は、前記抽出文書群の少なくとも一部の文書と類似の文字列を含む文書を、当該抽出文書群以外の文書から検索する、ことを特徴とする。
請求項4の発明は、請求項1乃至3のいずれかに記載の文書抽出装置において、前記抽出文書群の各文書の重要度を算出する手段と、前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の文書に関連して検索された文書を、前記抽出文書群の要素に追加する、ことを特徴とする。
請求項5の発明は、請求項1乃至3のいずれかに記載の文書抽出装置において、前記抽出文書群の各文書の重要度を算出する手段と、前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の文書を、前記抽出文書群の要素に追加する、ことを特徴とする。
請求項6の発明は、請求項2に記載の文書抽出装置において、前記文書の属性情報は、人物の情報である、ことを特徴とする。
請求項7の発明は、請求項6に記載の文書抽出装置において、前記人物情報毎の重要度を算出する手段と、前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の人物情報が属性情報である文書を、前記抽出文書群の要素に追加する、ことを特徴とする。
請求項8の発明は、請求項1乃至7のいずれかに記載の文書抽出装置において、前記追加手段により追加された抽出文書群の各要素から構成されるネットワークを表示する手段をさらに含む、ことを特徴とする。
請求項9に記載の文書抽出プログラムの発明は、少なくとも一部の文書が他の文書と参照関係を有する複数の文書を格納する手段、前記格納された複数の文書から所与の検索条件に基づいて検索された文書と参照関係を有する1次引用文書を抽出し、さらに当該1次引用文書と参照関係を有する2次引用文書を抽出するという処理を順次繰り返してn次引用文書まで抽出する手段、前記1乃至n次引用文書を要素とする抽出文書群の少なくとも一部の文書と関連する情報を有する文書を、当該抽出文書群以外の文書から検索する関連文書検索手段、及び、前記関連文書検索手段により検索された文書の少なくとも一部を前記抽出文書群の要素に追加する追加手段、としてコンピュータを機能させることを特徴とする。
請求項1に記載の発明によれば、参照情報が明示されていない特許や論文等の文書についても、適切な関連性を有する文書については抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出することができる。
請求項2に記載の発明によれば、共通する属性情報を有する文書を抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出することができる。
請求項3に記載の発明によれば、抽出文書群の文書と記述された文字列が類似する文書を抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出することができる。
請求項4に記載の発明によれば、抽出文書群に追加する文書を、その文書が関連する文書の重要度に応じて絞り込むことで、より適切な文書を抽出文書群に追加することができる。
請求項5に記載の発明によれば、抽出文書群に追加する文書を、その文書の重要度に応じて絞り込むことで、より適切な文書を抽出文書群に追加することができる。
請求項6に記載の発明によれば、文書の属性情報である人物情報が共通する文書を抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出することができる。
請求項7に記載の発明によれば、抽出文書群に追加する文書を、その文書に関する人物の重要度に応じて絞り込むことで、より適切な文書を抽出文書群に追加することができる。
請求項8に記載の発明によれば、抽出文書群の各要素からなる文書ネットワークを表示することで、関連する文書の分析に有用な情報を提示できる。
請求項9に記載の発明によれば、参照情報が明示されていない特許や論文等の文書についても、適切な関連性を有する文書については抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出するようにコンピュータを機能させることができる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る文書抽出装置10の機能ブロック図を示す。図1に示されるように、文書抽出装置10は、文書取得部20、文書格納部22、初期文書検索部24、参照文書抽出部26、関連文書検索部28、重要度算出部30、文書ネットワーク生成部32、及び文書ネットワーク表示部36を有する。上記の各機能は、コンピュータシステムたる文書抽出装置10がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、CD−ROM、DVD−ROM、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、文書抽出装置10に接続された図示しない媒体読み取り装置により文書抽出装置10に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して文書抽出装置10にダウンロードされることとしても構わない。
文書取得部20は、複数の電子文書を取得する。取得される複数の電子文書は、その少なくとも一部の文書が他の電子文書への参照関係を有する、特許文献(特許公報等)や学術論文等のような他の文献への参照(引用)が明示されている文書である。例えば特許公報において、特許公報が有する他の特許公報への参照関係とは、特許公報に参考文献として記載された特許公報のことである。また、参照関係には被参照関係を含むこととしてもよい。文書取得部20は、通信ネットワークを介して電子文書をダウンロードして取得することとしてもよいし、文書抽出装置10に図示しないスキャナを接続して、スキャナにより得られたスキャン画像にOCR処理を施して電子文書を取得することとしてもよい。
文書格納部22は、ハードディスク等の記憶装置を含み構成され、文書取得部20により取得された電子文書(特許文献等)を格納する文書データベースである。
初期文書検索部24は、文書格納部22に格納された電子文書から所与の検索条件に従って電子文書を検索する。以下、初期文書検索部24により検索された文書を初期文書とする。初期文書検索部24は、例えば、利用者により入力されたテキストデータ、文書の発行時期や著者名(発明者名)等を検索キーとして初期文書を検索することとしてよい。また、初期文書検索部24により検索される初期文書は1つに限られず、複数あっても構わない。
参照文書抽出部26は、初期文書検索部24により検索された初期文書と直接の参照関係にある1次文書を文書格納部22に格納された文書から抽出し、さらに1次文書と参照関係にある2次文書を抽出するという処理を順次繰り返してn次文書(nは自然数)まで抽出する。参照文書抽出部26は、初期文書に関して予め定められた次数の文書まで抽出することとしてもよいし、抽出された1乃至n次文書の総数が所定の閾値に達するまで抽出することとしてもよい。以下、参照文書抽出部26により文書間の参照関係に基づいて抽出された1乃至n次文書を要素とする文書群を抽出文書群とする。
関連文書検索部28は、参照文書抽出部26により抽出された抽出文書群の要素の少なくとも一部の文書について、その文書と関連する情報を有する文書(以下、関連文書)を抽出文書群の要素以外の文書の中から検索する。本実施形態では、例えば文書を特許公報とすると、抽出文書群の要素の特許公報と属性情報(例えば、発明者情報、出願人情報、技術分野情報等)が共通の特許公報を関連文書として検索してもよいし、内容(特許請求の範囲、要約等)が類似する特許公報を関連文書として検索してもよい。また、関連文書検索部28は、抽出文書群の全ての要素について関連文書を検索することとしてもよいし、1〜n次文書のうち次数が閾値よりも小さい文書についてのみ関連文書を検索するようにしてもよい。
重要度算出部30は、文書格納部22に格納された文書や文書に関連する人物(特許文献であれば発明者、学術論文であれば著作者等)についての重要度を算出する。例えば文書が特許公報である場合には、その特許公報を参照する特許公報の数に基づいて各特許公報を数値化して、その数値に基づいて各特許公報の重要度を算出することとしてよい。また、各特許公報の重要度は、重要な特許公報からの参照については重みを増すようにして算出することとしてもよい。そして、各特許公報の発明者の重要度は、その発明者による発明が引用された数に基づいて数値化してもよいし、その発明者により権利化された発明のうち被引用数の多い発明の数に基づいて数値化してもよい。
文書ネットワーク生成部32は、文書選択部34を含み、抽出文書群の要素に文書選択部34により選択された文書を追加してなる抽出文書群の各要素から構成される文書ネットワークを生成する。文書ネットワークは、要素の各文書をノードとして、参照関係にある文書間、および関連する文書間にリンクを設定したグラフとして表される。
文書選択部34は、関連文書検索部28により検索された文書のうち、所定の選択条件を満足する文書を選択し、抽出文書群に追加する。例えば、文書選択部34は、関連文書検索部28により検索された文書のうち、重要度算出部30により算出された重要度が予め定められた閾値以上の文書に関連して検索された文書を選択することとしてもよいし、関連文書検索部28により検索された文書のうち、その文書自体の重要度が予め定められた閾値以上の文書を選択することとしてもよい。また、文書の選択は、文書の重要度を用いる場合以外にも、文書の属性情報を用いて行っても構わない。具体的には、文書が特許公報であるとすると、特許公報に記載された技術分野の情報等を選択条件属性として、関連文書の中から初期文書の技術分野と共通する技術分野の特許公報を選択することとしてもよい。
文書ネットワーク表示部36は、液晶ディスプレイ等の表示装置を含み構成され、文書ネットワーク生成部32により生成された抽出文書群の各要素と各要素間のリンク情報に基づいて生成された文書ネットワークのグラフ構造を表示する。また、文書ネットワークにおいて、参照関係を示すリンクと、関連文書であることを示すリンクとはそれぞれ異なる態様で可視化するようにして、両者を区別できるようにしてもよい。
図2には、文書抽出装置10により生成された文書ネットワークの一例を示す。文書Aが初期文書であり、文書Bが文書Aに参照関係を有する1次文書である。また、文書C,Dが、文書Bに参照関係を有する2次文書である。そして、文書Eは、文書Bと発明者(発明者50B)を共通にする文書Bの関連文書であり、文書F,Gは、文書Dと発明者(発明者50D)を共通にする文書Dの関連文書である。
図2に示されているのは、関連文書の絞り込み選択を行わない場合の文書ネットワークである。これに対して、図3(A)及び図3(B)には、関連文書の絞り込み選択を行った場合の文書ネットワークが示されている。
図3(A)では、文書(特許公報)の技術分野に基づいて、関連文書のうち文書ネットワークに追加する文書を選択する。図3(A)に示されるように、文書F,Gについては文書A(初期文書)と技術分野が異なるために選択されず、文書ネットワーク(抽出文書群)には組み込まれない。
図3(B)では、文書毎の重要度をノードのサイズとして表現している。ここでは、重要度の低い文書Gについては選択されず、文書ネットワーク(抽出文書群)には組み込まれない。
次に、図4を参照しつつ、文書抽出装置10による文書抽出処理の一連の流れを説明する。
文書抽出装置10は、文書格納部22に格納された文書群から、所与の検索条件に従って初期文書を検索する(S101)。所与の検索条件とは、文書が特許公報である場合には、発明の名称、技術分野、出願人名、発明者名、特許請求の範囲及び発明の詳細な説明におけるキーワード等に関する検索条件式である。
文書抽出装置10は、検索された初期文書が参照する1次文書、そして1次文書が参照する2次文書を順次抽出して、n次文書まで抽出する(S102)。
文書抽出装置10は、抽出した1乃至n次文書と属性情報が共通する文書(関連文書)を、文書格納部22に格納された文書群のうち抽出文書群を除いた文書の中から検索する(S103)。関連文書の検索は、例えば文書を特許公報とする場合には、発明者が共通する文書を関連文書として検索する。なお、発明者が複数ある場合には、完全一致としても部分一致としてもよい。
文書抽出装置10は、検索された関連文書のうち、文書を予め定められた絞り込み選択条件に従って選択する(S104)。例えば、関連文書が発明者の一致で検索された場合には、その関連文書を技術分野が初期文書と一致するものに絞り込むこととしてもよいし、関連文書毎の重要度や、関連文書が関連する元の文書の重要度、文書の属性情報等により絞り込みしてもよい。
文書抽出装置10は、1乃至n次文書及び、絞り込まれた関連文書からなる文書ネットワークを生成する(S105)。参照関係にある文書間および関連する文書間にはリンクを設定する。そして、文書抽出装置10は、生成した文書ネットワークをディスプレイに表示し(S106)、文書抽出処理を終了する。
以上説明した文書抽出装置10では、参照情報が明示されていない文書についても、適切な関連性を有する文書については抽出文書群の要素に組み込むことで、関連する文書群を適切に抽出することができる。
なお、本発明は上記の実施形態に限定されるものではなく、例えば、特許文献と学術論文等の各種の文献が混合してなる文書データベースについても適用可能であるのはもちろんのことである。
本実施形態に係る文書抽出装置の機能ブロック図である。 文書抽出装置により生成された文書ネットワークの一例を示す図である。 関連文書の絞り込み選択を行った場合の文書ネットワークの一例を示す図である。 文書抽出処理のフロー図である。
符号の説明
10 文書抽出装置、20 文書取得部、22 文書格納部、24 初期文書検索部、26 参照文書抽出部、28 関連文書検索部、30 重要度算出部、32 文書ネットワーク生成部、34 文書選択部、36 文書ネットワーク表示部、50A,B,C,D 発明者、A,B,C,D,E,F,G 文書。

Claims (9)

  1. 少なくとも一部の文書が他の文書と参照関係を有する複数の文書を格納する手段と、
    前記格納された複数の文書から所与の検索条件に基づいて検索された文書と参照関係を有する1次文書を抽出し、さらに当該1次文書と参照関係を有する2次文書を抽出するという処理を順次繰り返してn次文書まで抽出する手段と、
    前記1乃至n次文書を要素とする抽出文書群の少なくとも一部の文書と関連する情報を有する文書を、当該抽出文書群以外の文書から検索する関連文書検索手段と、
    前記関連文書検索手段により検索された文書の少なくとも一部を前記抽出文書群の要素に追加する追加手段と、
    を含むことを特徴とする文書抽出装置。
  2. 前記複数の文書は、それぞれ属性情報を有し、
    前記関連文書検索手段は、前記抽出文書群の少なくとも一部の文書と共通の属性情報を有する文書を、当該抽出文書群以外の文書から検索する、
    ことを特徴とする請求項1に記載の文書抽出装置。
  3. 前記関連文書検索手段は、前記抽出文書群の少なくとも一部の文書と類似の文字列を含む文書を、当該抽出文書群以外の文書から検索する、
    ことを特徴とする請求項1に記載の文書抽出装置。
  4. 前記抽出文書群の各文書の重要度を算出する手段と、
    前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の文書に関連して検索された文書を、前記抽出文書群の要素に追加する、
    ことを特徴とする請求項1乃至3のいずれかに記載の文書抽出装置。
  5. 前記抽出文書群の各文書の重要度を算出する手段と、
    前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の文書を、前記抽出文書群の要素に追加する、
    ことを特徴とする請求項1乃至3のいずれかに記載の文書抽出装置。
  6. 前記文書の属性情報は、人物の情報である、
    ことを特徴とする請求項2に記載の文書抽出装置。
  7. 前記人物毎の重要度を算出する手段と、
    前記追加手段は、前記関連文書検索手段により検索された文書のうち、前記算出された重要度が閾値以上の人物情報が属性情報である文書を、前記抽出文書群の要素に追加する、
    ことを特徴とする請求項6に記載の文書抽出装置。
  8. 前記追加手段により追加された抽出文書群の各要素から構成されるネットワークを表示する手段をさらに含む、
    ことを特徴とする請求項1乃至7のいずれかに記載の文書抽出装置。
  9. 少なくとも一部の文書が他の文書と参照関係を有する複数の文書を格納する手段、
    前記格納された複数の文書から所与の検索条件に基づいて検索された文書と参照関係を有する1次引用文書を抽出し、さらに当該1次引用文書と参照関係を有する2次引用文書を抽出するという処理を順次繰り返してn次引用文書まで抽出する手段、
    前記1乃至n次引用文書を要素とする抽出文書群の少なくとも一部の文書と関連する情報を有する文書を、当該抽出文書群以外の文書から検索する関連文書検索手段、及び、
    前記関連文書検索手段により検索された文書の少なくとも一部を前記抽出文書群の要素に追加する追加手段、
    としてコンピュータを機能させることを特徴とする文書抽出プログラム。
JP2007265843A 2007-10-11 2007-10-11 文書抽出装置および文書抽出プログラム Pending JP2009093564A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007265843A JP2009093564A (ja) 2007-10-11 2007-10-11 文書抽出装置および文書抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007265843A JP2009093564A (ja) 2007-10-11 2007-10-11 文書抽出装置および文書抽出プログラム

Publications (1)

Publication Number Publication Date
JP2009093564A true JP2009093564A (ja) 2009-04-30

Family

ID=40665464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007265843A Pending JP2009093564A (ja) 2007-10-11 2007-10-11 文書抽出装置および文書抽出プログラム

Country Status (1)

Country Link
JP (1) JP2009093564A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028454A (ja) * 2009-07-23 2011-02-10 Nec Corp グラフ解析装置、グラフ解析方法及びグラフ解析プログラム
WO2015068254A1 (ja) * 2013-11-08 2015-05-14 株式会社日立製作所 文書解析システム及び文書解析方法
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028454A (ja) * 2009-07-23 2011-02-10 Nec Corp グラフ解析装置、グラフ解析方法及びグラフ解析プログラム
WO2015068254A1 (ja) * 2013-11-08 2015-05-14 株式会社日立製作所 文書解析システム及び文書解析方法
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP6852941B1 (ja) * 2019-05-17 2021-03-31 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
TWI733453B (zh) * 2019-05-17 2021-07-11 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
US11636144B2 (en) 2019-05-17 2023-04-25 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
TWI806069B (zh) * 2019-05-17 2023-06-21 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
JP7490241B2 (ja) 2019-05-17 2024-05-27 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Similar Documents

Publication Publication Date Title
US8180785B2 (en) Method and system for searching numerical terms
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
WO2000075809A1 (fr) Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre
US20140229476A1 (en) System for Information Discovery & Organization
JPWO2007091587A1 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
JP2008003721A (ja) 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体
JP4819628B2 (ja) ドキュメントデータを検索する方法、サーバ、およびプログラム
WO2007011129A1 (en) Information search method and information search apparatus on which information value is reflected
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2010061587A (ja) 類似文書判定装置、類似判定方法およびそのプログラム
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
JP2011203776A (ja) 類似画像検索装置、方法及びプログラム
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2009093564A (ja) 文書抽出装置および文書抽出プログラム
JP2009145953A (ja) データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体
JP2009086944A (ja) 情報処理装置および情報処理プログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
Jones et al. The off-topic memento toolkit
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
Schmidt et al. A concept for plagiarism detection based on compressed bitmaps