JP2012123647A - 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム - Google Patents

文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム Download PDF

Info

Publication number
JP2012123647A
JP2012123647A JP2010274267A JP2010274267A JP2012123647A JP 2012123647 A JP2012123647 A JP 2012123647A JP 2010274267 A JP2010274267 A JP 2010274267A JP 2010274267 A JP2010274267 A JP 2010274267A JP 2012123647 A JP2012123647 A JP 2012123647A
Authority
JP
Japan
Prior art keywords
document
feature amount
information
amount calculation
document feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010274267A
Other languages
English (en)
Other versions
JP5673051B2 (ja
Inventor
Yasuyuki Tomonaga
康之 友永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010274267A priority Critical patent/JP5673051B2/ja
Publication of JP2012123647A publication Critical patent/JP2012123647A/ja
Application granted granted Critical
Publication of JP5673051B2 publication Critical patent/JP5673051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することが可能な文書特徴量算出装置を提供すること。
【解決手段】文書特徴量算出装置100は、文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出部101を備える。これによれば、文書特徴量算出装置100は、情報流動度を文書特徴量として算出する。これにより、文書特徴量算出装置100は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。
【選択図】図7

Description

本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置に関する。
文書の特徴を表す文書特徴量を算出する文書特徴量算出装置が知られている。この種の文書特徴量算出装置の一つとして、特許文献1に記載の文書特徴量算出装置は、文書の更新量を文書特徴量として算出する。文書の更新量は、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差(例えば、ファイルサイズの変化量等)に基づいて算出される。
更に、この文書特徴量算出装置は、算出された更新量の大きさの順に並べて、文書のリストを出力する。これによれば、前回、取得された時点から大きく更新された文書をユーザに認識させることができる。
特開2004−264927号公報
ところで、ユーザにとって更新量が少なくても重要な情報が存在する。例えば、物又は通貨等の取引価格を表す情報を含む文書は、更新量は少ないが、更新される頻度が比較的高い文書である。このような文書も、ユーザにとって重要な情報を含んでいることが多い。
また、前々回、取得された文書が含む情報と、前回、取得された文書が含む情報と、の差が比較的大きい場合において、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差が比較的小さくなることもある。このような文書も、ユーザにとって重要な情報を含んでいる場合がある。
逆に、手順書又はマニュアル等の文書は、過去の更新量が少なくなるほど、その文書に含まれる情報の信頼性が高くなる。従って、過去の更新量が少ない文書ほど、ユーザにとってより重要な情報を含む場合もある。
このように、文書の過去の更新量、及び、文書の更新の間隔は、当該文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。
しかしながら、上記文書特徴量算出装置においては、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差に基づいて、当該文書に対する文書特徴量が算出される。即ち、上記文書特徴量算出装置により算出される文書特徴量は、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない虞があった。
このため、本発明の目的は、上述した課題である「算出される文書特徴量が、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない場合が生じること」を解決することが可能な文書特徴量算出装置を提供することにある。
かかる目的を達成するため本発明の一形態である文書特徴量算出装置は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える。
また、本発明の他の形態である文書特徴量算出方法は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する方法である。
また、本発明の他の形態である文書特徴量算出プログラムは、
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるためのプログラムである。
本発明は、以上のように構成されることにより、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。
本発明の第1実施形態に係る文書検索システムの機能の概略を表すブロック図である。 本発明の第1実施形態に係る文書検索装置が記憶する検索インデックス情報を表すテーブルである。 本発明の第1実施形態に係る文書検索装置が記憶する情報流動度基礎パラメータを表すテーブルである。 本発明の第1実施形態に係る文書検索装置が実行する文書特徴量算出プログラムを示したフローチャートである。 本発明の第1実施形態に係る文書検索装置が実行する検索処理プログラムを示したフローチャートである。 本発明の第2実施形態に係る文書検索装置が実行する並替処理プログラムを示したフローチャートである。 本発明の第3実施形態に係る文書特徴量算出装置の機能の概略を表すブロック図である。
以下、本発明に係る、文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム、の各実施形態について図1〜図7を参照しながら説明する。
<第1実施形態>
(構成)
図1に示したように、第1実施形態に係る文書検索システム1は、端末装置10と、文書検索装置(文書特徴量算出装置)20と、文書レポジトリ30と、を含む。端末装置10、文書検索装置20、及び、文書レポジトリ30は、通信回線(本例では、インターネット)NWを介して、互いに通信可能に接続されている。
端末装置10は、情報処理装置(本例では、クライアント装置)である。本例では、端末装置10は、パーソナル・コンピュータである。なお、端末装置10は、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。
端末装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置(本例では、キーボード及びマウス)、及び、出力装置(本例では、ディスプレイ)を備える。
端末装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
文書検索装置20、及び、文書レポジトリ30のそれぞれは、情報処理装置(本例では、サーバ装置)である。文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、図示しないCPU及び記憶装置を備える。文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
なお、文書レポジトリ30は、複数のサーバ装置(例えば、ファイルサーバ、ウェブサーバ、データベースサーバ、及び、コンテンツ配信サーバ等)により構成されていてもよい。
(機能)
図1は、上記のように構成された文書検索システム1の機能を表すブロック図である。
端末装置10の機能は、ユーザインタフェース部11を含む。
文書検索装置20の機能は、文書取得部21と、今回検索インデックス記憶部22と、前回検索インデックス記憶部23と、情報流動度基礎パラメータ算出部24と、情報流動度基礎パラメータ記憶部25と、検索処理実行部(抽出条件情報受付手段、文書抽出手段、文書リスト出力手段)26と、を含む。
また、文書レポジトリ30は、複数の文書を記憶している。文書は、文字及び図形の少なくとも一方を含む。
文書レポジトリ30は、文書送信要求を受信する。文書送信要求は、文書を識別するための文書識別情報を含むとともに、当該文書の送信を要求する旨を表す情報である。文書レポジトリ30は、文書送信要求を受信すると、文書送信要求に含まれる文書識別情報により識別される文書を、当該文書送信要求を送信してきた装置(本例では、端末装置10)へ送信する。
文書検索装置20の文書取得部21は、予め設定された取得周期が経過する毎に、文書送信要求を文書レポジトリ30へ送信する。本例では、文書取得部21は、文書レポジトリ30が記憶している、すべての文書のそれぞれに対して文書送信要求を送信する。文書取得部21は、送信した文書送信要求に応じて、文書レポジトリ30により送信された文書を受信する。
文書取得部21は、文書を受信すると、受信された文書に基づいて検索インデックス情報を生成する。文書取得部21は、検索インデックス情報を生成した場合、今回検索インデックス記憶部22に記憶されている検索インデックス情報のうちの、当該生成された検索インデックス情報を生成する基となった文書と同一の文書に対する検索インデックス情報を、前回検索インデックス記憶部23に移動させる。
即ち、文書取得部21は、当該検索インデックス情報を前回検索インデックス記憶部23に記憶させるとともに、当該検索インデックス情報を今回検索インデックス記憶部22から消去する。
その後、文書取得部21は、新たに生成された検索インデックス情報を今回検索インデックス記憶部22に記憶させる。
今回検索インデックス記憶部22は、図2に示したように、検索インデックス情報を記憶する。検索インデックス情報は、文書URIと、文書本文と、更新日時と、取得日時と、を含む。文書URIは、文書取得部21により取得される文書のURI(Uniform Resource Identifier)である。本例では、文書URIは、文書を識別するための文書識別情報を構成している。
文書本文は、文書取得部21により取得された文書が含む文字列(本文、テキスト)である。更新日時は、文書取得部21により文書が最後に更新された(即ち、当該文書が更新された最新(最終)の)日時である。取得日時は、文書取得部21により文書が取得された日時である。
文書検索装置20の情報流動度基礎パラメータ算出部24は、上記取得周期が経過する毎に、今回検索インデックス記憶部22に記憶されているすべての検索インデックス情報のそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度基礎パラメータを算出する処理を実行する。情報流動度基礎パラメータ算出部24は、算出された情報流動度基礎パラメータを、文書識別情報としての文書URIと対応付けて情報流動度基礎パラメータ記憶部25に記憶させる。
情報流動度基礎パラメータは、文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する基となるパラメータである。情報流動度は、文書の特徴を表す文書特徴量である。情報流動度基礎パラメータは、第1の情報流動度基礎パラメータ、及び、第2の情報流動度基礎パラメータからなる。
具体的には、情報流動度基礎パラメータ算出部24は、処理対象となる文書(処理対象文書)の更新量を、当該文書と対応付けて前回検索インデックス記憶部23及び今回検索インデックス記憶部22のそれぞれに記憶されている検索インデックス情報に含まれる文書本文に基づいて算出する。
本例では、情報流動度基礎パラメータ算出部24は、文書の更新量としてレーベンシュタイン距離(編集距離)を用いる。なお、情報流動度基礎パラメータ算出部24は、文書の更新量として、文書が更新される程度が大きくなるほど大きくなる値を有する、他の量を用いてもよい。
そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第1の情報流動度基礎パラメータに、上記算出された更新量を加算した値を更新値として算出する。情報流動度基礎パラメータ算出部24は、当該記憶されている第1の情報流動度基礎パラメータを、当該算出された更新値により更新する。
更に、情報流動度基礎パラメータ算出部24は、処理対象文書に対する更新間隔パラメータを、当該文書と対応付けて今回検索インデックス記憶部22に記憶されている検索インデックス情報に含まれる、更新日時及び取得日時に基づいて算出する。
本例では、情報流動度基礎パラメータ算出部24は、更新間隔パラメータとして、基準日時(例えば、協定世界時における、1970年1月1日0時0分0秒)から、取得日時まで経過した秒数を表す第1の整数値から、当該基準日時から、更新日時まで経過した秒数を表す第2の整数値を減じた値を用いる。
即ち、更新間隔パラメータは、処理対象文書に対して、当該更新間隔パラメータを実質的に取得する時点(即ち、処理対象文書に対する取得日時)と、当該時点において当該文書が最後に更新された時点(即ち、処理対象文書に対する更新日時)と、の間の時間に比例した値である、と言うことができる。また、更新間隔パラメータは、文書の更新の間隔が長くなるほど大きくなる値を有する、と言うこともできる。
そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第2の情報流動度基礎パラメータに、上記算出された更新間隔パラメータを加算した値を更新値として算出する。情報流動度基礎パラメータ算出部24は、当該記憶されている第2の情報流動度基礎パラメータを、当該算出された更新値により更新する。
文書検索装置20の情報流動度基礎パラメータ記憶部25は、図3に示したように、文書URIと、第1の情報流動度基礎パラメータと、第2の情報流動度基礎パラメータと、を対応付けて記憶している。
文書検索装置20の検索処理実行部26は、上記取得周期が経過する毎に、情報流動度基礎パラメータ記憶部25に記憶されているすべての情報流動度基礎パラメータのそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度を算出する処理を実行する。
本例では、検索処理実行部26は、第1の情報流動度基礎パラメータα(T)と、第2の情報流動度基礎パラメータβ(T)と、数式1と、に基づいて、情報流動度F(T)を算出する。ここで、ωは、予め設定された、0以上であり且つ1以下である係数である。また、Tは、当該文書が取得された回数を表す。
Figure 2012123647
即ち、検索処理実行部26は、文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出している、と言うことができる。更に、検索処理実行部26は、文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出している、と言うことができる。
また、検索処理実行部26は、端末装置10により送信された抽出条件情報を受信する(受け付ける)。抽出条件情報は、情報流動度に対する第1の抽出条件と、文書本文に対する第2の抽出条件と、を含む抽出条件を表す情報である。
第1の抽出条件は、例えば、情報流動度の範囲を定める条件である。第2の抽出条件は、文書本文に含まれる文字列を定める条件である。
検索処理実行部26は、算出された情報流動度、及び、今回検索インデックス記憶部22に記憶されている文書本文が、受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する。更に、検索処理実行部26は、抽出された文書のリストを端末装置10へ送信(出力)する。
端末装置10のユーザインタフェース部11は、ユーザにより入力された抽出条件情報を受け付ける。ユーザインタフェース部11は、受け付けられた抽出条件情報を文書検索装置20へ送信する。更に、ユーザインタフェース部11は、送信した抽出条件情報に応じて文書検索装置20により送信された、文書のリストを受信する。ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する(ディスプレイに表示させる)。
(作動)
次に、上述した文書検索システム1の作動について説明する。
文書検索装置20は、図4にフローチャートにより示した文書特徴量算出プログラムを実行するようになっている。
具体的に述べると、文書検索装置20は、文書特徴量算出プログラムの処理を開始すると、先ず、変数Nを、今回検索インデックス記憶部22に記憶されている検索インデックス情報の総数に設定する。更に、変数iを「0」に設定する(ステップS101)。
次いで、文書検索装置20は、変数iに「1」を加算する(ステップS102)。そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS103)。
この時点では、変数Nは、変数i以上の値である。従って、文書検索装置20は、「No」と判定してステップS104へ進む。そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、第1の情報流動度基礎パラメータα、及び、第2の情報流動度基礎パラメータβを取得する。
なお、文書検索装置20は、i番目の検索インデックス情報に対する情報流動度基礎パラメータが、情報流動度基礎パラメータ記憶部25に記憶されていない場合、i番目の検索インデックス情報に含まれる文書URIと対応付けて、第1の情報流動度基礎パラメータαとしての「0」と、第2の情報流動度基礎パラメータβとしての「0」と、を情報流動度基礎パラメータ記憶部25に記憶させる。
次いで、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報に基づいて更新間隔パラメータdtを算出する(ステップS105)。そして、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報と、当該検索インデックス情報に含まれる文書URIを含む、前回検索インデックス記憶部23に記憶されている検索インデックス情報と、に基づいて、文書の更新量dsを算出する(ステップS106)。
次いで、文書検索装置20は、ステップS104にて取得された第1の情報流動度基礎パラメータαに、ステップS106にて算出された更新量dsを加算することにより、第1の情報流動度基礎パラメータαを更新する。更に、文書検索装置20は、ステップS104にて取得された第2の情報流動度基礎パラメータβに、ステップS105にて算出された更新間隔パラメータdtを加算することにより、第2の情報流動度基礎パラメータβを更新する(ステップS107)。
そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第1の情報流動度基礎パラメータαを、ステップS107にて更新された第1の情報流動度基礎パラメータαに更新(置換)する。
同様に、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第2の情報流動度基礎パラメータβを、ステップS107にて更新された第2の情報流動度基礎パラメータβに更新(置換)する(ステップS108)。
そして、文書検索装置20は、ステップS102へ戻り、ステップS102〜ステップS108の処理を、ステップS103における変数iが変数Nよりも大きくなるまで繰り返し実行する。
また、文書検索装置20は、図5にフローチャートにより示した検索処理プログラムを実行するようになっている。
具体的に述べると、文書検索装置20は、検索処理プログラムの処理を開始すると、抽出条件情報を受信するまで待機する(ステップS201)。
一方、端末装置10は、ユーザにより入力された抽出条件情報を受け付ける。そして、端末装置10は、受け付けられた抽出条件情報を文書検索装置20へ送信する。
これにより、抽出条件情報を受信すると、文書検索装置20は、ステップS202へ進み、今回検索インデックス記憶部22に記憶されている検索インデックス情報のそれぞれに対して情報流動度を算出する。本例では、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータに基づいて情報流動度を算出する。
そして、文書検索装置20は、受信された抽出条件情報が表す抽出条件と、算出された情報流動度と、今回検索インデックス記憶部22に記憶されている検索インデックス情報と、に基づいて、抽出条件を満足する文書を抽出する(ステップS203)。そして、文書検索装置20は、抽出された文書のリストを端末装置10へ送信する(ステップS204)。
その後、文書検索装置20は、ステップS201へ戻り、ステップS201〜ステップS204の処理を繰り返し実行する。
一方、端末装置10は、文書検索装置20から文書のリストを受信する。そして、端末装置10は、受信された文書のリストを出力装置を介して出力する。
以上、説明したように、第1実施形態に係る文書検索装置20によれば、文書検索装置20は、情報流動度を文書特徴量として算出する。これにより、文書検索装置20は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。
更に、第1実施形態に係る文書検索装置20は、文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出する。
複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。
加えて、第1実施形態に係る文書検索装置20は、文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出する。
複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。
更に、第1実施形態に係る文書検索装置20は、情報流動度に対する抽出条件を表す抽出条件情報を受け付け、算出された情報流動度が、当該抽出条件を満足する文書を抽出する。
これによれば、文書検索装置20は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。
<第2実施形態>
次に、本発明の第2実施形態に係る文書検索システムについて説明する。第2実施形態に係る文書検索システムは、上記第1実施形態に係る文書検索システムに対して、文書検索装置20が、情報流動度の大きさの順に並べて、文書のリストを出力する点において相違している。従って、以下、かかる相違点を中心として説明する。
(機能)
第2実施形態に係る抽出条件情報は、文書本文に対する抽出条件を表す情報である。抽出条件は、文書本文に含まれる文字列を定める条件である。
第2実施形態に係るユーザインタフェース部11は、ユーザにより入力された並替指示情報を受け付ける。並替指示情報は、降順、及び、昇順のいずれか一方を表す情報である。ユーザインタフェース部11は、受け付けられた並替指示情報を文書検索装置20へ送信する。更に、ユーザインタフェース部11は、送信した並替指示情報に応じて文書検索装置20により送信された、文書のリストを受信する。ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する。
検索処理実行部26は、端末装置10から並替指示情報を受信する。検索処理実行部26は、並替指示情報を受信すると、上記抽出された文書のそれぞれに対して算出された情報流動度の大きさの、当該並替指示情報が表す順(降順、又は、昇順)に並べて、上記抽出された文書のリストを端末装置10へ送信する。
(作動)
次に、上述した文書検索システム1の作動について説明する。
第2実施形態に係る文書検索装置20は、図4に示した文書特徴量算出プログラムと同一の処理を実行する。
また、第2実施形態に係る文書検索装置20は、図5に示した検索処理プログラムから、ステップS202の処理を除いた処理を実行する。
更に、第2実施形態に係る文書検索装置20は、図6にフローチャートにより示した並替処理プログラムを実行するようになっている。
具体的に述べると、文書検索装置20は、並替処理プログラムの処理を開始すると、並替指示情報を受信するまで待機する(ステップS301)。そして、並替指示情報を受信すると、文書検索装置20は、ステップS302へ進み、変数Nを、図5のステップS203にて抽出された文書の総数に設定する。更に、変数iを「0」に設定する。
次いで、文書検索装置20は、変数iに「1」を加算する(ステップS303)。そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS304)。
この時点では、変数Nは、変数i以上の値である。従って、文書検索装置20は、「No」と判定してステップS305へ進む。そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、情報流動度基礎パラメータに基づいて情報流動度を算出する。
そして、文書検索装置20は、ステップS303へ戻り、ステップS303〜ステップS305の処理を、ステップS304における変数iが変数Nよりも大きくなるまで繰り返し実行する。
その後、文書検索装置20は、ステップS306へ進み、ステップS305にて算出された情報流動度の大きさが、受信された並替指示情報が表す順(降順、又は、昇順)に並ぶように、図5のステップS203にて抽出された文書を並び替える(ステップS306)。そして、文書検索装置20は、並び替えられた文書のリストを端末装置10へ送信する(ステップS307)。
その後、文書検索装置20は、ステップS301へ戻り、ステップS301〜ステップS307の処理を繰り返し実行する。
以上、説明したように、本発明の第2実施形態に係る文書検索システム1によれば、第1実施形態に係る文書検索システム1と同様の作用及び効果を奏することができる。
更に、第2実施形態に係る文書検索装置20は、算出された情報流動度の大きさの順に並べて、文書のリストを出力する。
これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。
<第3実施形態>
次に、本発明の第3実施形態に係る文書特徴量算出装置について図7を参照しながら説明する。
第3実施形態に係る文書特徴量算出装置100は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出部(情報流動度算出手段)101を備える。
これによれば、文書特徴量算出装置100は、情報流動度を文書特徴量として算出する。これにより、文書特徴量算出装置100は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
なお、上記各実施形態において文書特徴量算出装置の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
(付記1)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える文書特徴量算出装置。
これによれば、文書特徴量算出装置は、情報流動度を文書特徴量として算出する。これにより、文書特徴量算出装置は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。
(付記2)
付記1に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。
(付記3)
付記1又は付記2に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。
(付記4)
付記3に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。
(付記5)
付記1乃至付記4のいずれか一項に記載の文書特徴量算出装置であって、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を備える文書特徴量算出装置。
これによれば、文書特徴量算出装置は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。
(付記6)
付記1乃至付記5のいずれか一項に記載の文書特徴量算出装置であって、
前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。
これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。
(付記7)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する、文書特徴量算出方法。
(付記8)
付記7に記載の文書特徴量算出方法であって、
前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する、文書特徴量算出方法。
(付記9)
付記7又は付記8に記載の文書特徴量算出方法であって、
前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する、文書特徴量算出方法。
(付記10)
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるための文書特徴量算出プログラム。
(付記11)
付記10に記載の文書特徴量算出プログラムであって、
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。
(付記12)
付記10又は付記11に記載の文書特徴量算出プログラムであって、
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。
本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置、及び、文書の検索を行う文書検索装置等に適用可能である。
1 文書検索システム
10 端末装置
11 ユーザインタフェース部
20 文書検索装置(文書特徴量算出装置)
21 文書取得部
22 今回検索インデックス記憶部
23 前回検索インデックス記憶部
24 情報流動度基礎パラメータ算出部
25 情報流動度基礎パラメータ記憶部
26 検索処理実行部
30 文書レポジトリ
100 文書特徴量算出装置
101 情報流動度算出部

Claims (10)

  1. 文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える文書特徴量算出装置。
  2. 請求項1に記載の文書特徴量算出装置であって、
    前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
  3. 請求項1又は請求項2に記載の文書特徴量算出装置であって、
    前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
  4. 請求項3に記載の文書特徴量算出装置であって、
    前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。
  5. 請求項1乃至請求項4のいずれか一項に記載の文書特徴量算出装置であって、
    前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
    前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
    を備える文書特徴量算出装置。
  6. 請求項1乃至請求項5のいずれか一項に記載の文書特徴量算出装置であって、
    前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。
  7. 文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する、文書特徴量算出方法。
  8. 請求項7に記載の文書特徴量算出方法であって、
    前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する、文書特徴量算出方法。
  9. 請求項7又は請求項8に記載の文書特徴量算出方法であって、
    前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する、文書特徴量算出方法。
  10. 情報処理装置に、
    文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるための文書特徴量算出プログラム。
JP2010274267A 2010-12-09 2010-12-09 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム Active JP5673051B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (ja) 2010-12-09 2010-12-09 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (ja) 2010-12-09 2010-12-09 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム

Publications (2)

Publication Number Publication Date
JP2012123647A true JP2012123647A (ja) 2012-06-28
JP5673051B2 JP5673051B2 (ja) 2015-02-18

Family

ID=46505012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010274267A Active JP5673051B2 (ja) 2010-12-09 2010-12-09 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム

Country Status (1)

Country Link
JP (1) JP5673051B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264927A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Webサイト検索方法と装置、Webサイト検索プログラムおよびこのプログラムを記録した記録媒体
US20050071741A1 (en) * 2003-09-30 2005-03-31 Anurag Acharya Information retrieval based on historical data
JP2006215998A (ja) * 2005-02-07 2006-08-17 Keyence Corp データ収集システム
JP2008129645A (ja) * 2006-11-16 2008-06-05 Canon Inc 文書管理システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264927A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Webサイト検索方法と装置、Webサイト検索プログラムおよびこのプログラムを記録した記録媒体
US20050071741A1 (en) * 2003-09-30 2005-03-31 Anurag Acharya Information retrieval based on historical data
WO2005033978A1 (en) * 2003-09-30 2005-04-14 Google Inc. Information retrieval based on historical data
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2007128547A (ja) * 2003-09-30 2007-05-24 Google Inc ドキュメントをスコア付けする方法
JP2006215998A (ja) * 2005-02-07 2006-08-17 Keyence Corp データ収集システム
JP2008129645A (ja) * 2006-11-16 2008-06-05 Canon Inc 文書管理システム

Also Published As

Publication number Publication date
JP5673051B2 (ja) 2015-02-18

Similar Documents

Publication Publication Date Title
KR101283019B1 (ko) SaaS 어플리케이션 생성 방법 및 이를 실행하는 어플리케이션 생성 서버
JP2013008255A (ja) 文書類似度算出装置
CN109710571B (zh) 一种文件解析方法、设备及存储介质
CN110245298A (zh) 用于推送信息的方法和装置
US20220027404A1 (en) Determining and utilizing actual purpose of user-assembled collection of electronic content items
JP2012178128A (ja) 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体
JP2011192103A (ja) 評価装置、方法及びプログラム
JP5673051B2 (ja) 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム
JP2012123675A (ja) システム部品の抽出方法およびシステム
JP5537453B2 (ja) サーバ、及び情報処理方法
CN109271224B (zh) 用于确定位置的方法和设备
WO2011148408A1 (ja) 操作支援コンピュータプログラム、操作支援コンピュータシステム
JP2011044086A (ja) 検索装置、検索方法、及びプログラム
JP6868062B2 (ja) 情報を更新するための方法と装置
JP5644558B2 (ja) 文書関連度算出装置
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP5636700B2 (ja) 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2013054424A (ja) 表示画面変換装置、表示画面変換システム、表示画面変換方法、およびプログラム
JP6075051B2 (ja) サーバ装置、電子会議システム及びプログラム
JP2013210834A (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP5752630B2 (ja) レコメンド情報生成装置およびレコメンド情報生成方法
US20180088970A1 (en) Mapping of user interfaces within applications
JP2018156328A (ja) 検索支援プログラム、検索支援装置および検索支援方法
JP2012141905A (ja) 文書検索装置
JP6160427B2 (ja) 差分抽出システム及びプログラム

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150