JP5673051B2 - Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program - Google Patents

Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program Download PDF

Info

Publication number
JP5673051B2
JP5673051B2 JP2010274267A JP2010274267A JP5673051B2 JP 5673051 B2 JP5673051 B2 JP 5673051B2 JP 2010274267 A JP2010274267 A JP 2010274267A JP 2010274267 A JP2010274267 A JP 2010274267A JP 5673051 B2 JP5673051 B2 JP 5673051B2
Authority
JP
Japan
Prior art keywords
document
information
document feature
apparatus
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010274267A
Other languages
Japanese (ja)
Other versions
JP2012123647A (en
Inventor
康之 友永
康之 友永
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010274267A priority Critical patent/JP5673051B2/en
Publication of JP2012123647A publication Critical patent/JP2012123647A/en
Application granted granted Critical
Publication of JP5673051B2 publication Critical patent/JP5673051B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置に関する。 The present invention relates to a document feature quantity calculation device for calculating a document feature quantity representing the feature of the document.

文書の特徴を表す文書特徴量を算出する文書特徴量算出装置が知られている。 Document feature quantity calculation device for calculating a document feature quantity representing the feature of the document is known. この種の文書特徴量算出装置の一つとして、特許文献1に記載の文書特徴量算出装置は、文書の更新量を文書特徴量として算出する。 As one of this type of document feature quantity apparatus, document feature quantity calculating apparatus according to Patent Document 1 calculates the update amount of the document as a document feature quantity. 文書の更新量は、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差(例えば、ファイルサイズの変化量等)に基づいて算出される。 Update amount of documents, previous, and information included in the acquired document, this time, the information included in the acquired document, the difference (e.g., the file size of the change amount, etc.) is calculated based on.

更に、この文書特徴量算出装置は、算出された更新量の大きさの順に並べて、文書のリストを出力する。 Furthermore, the document feature quantity calculation device is arranged in order of the calculated update amount of size, and outputs a list of documents. これによれば、前回、取得された時点から大きく更新された文書をユーザに認識させることができる。 According to this, it is possible to recognize the last, the greater updated document from the obtained time to the user.

特開2004−264927号公報 JP 2004-264927 JP

ところで、ユーザにとって更新量が少なくても重要な情報が存在する。 By the way, the update amount is less important information exists for the user. 例えば、物又は通貨等の取引価格を表す情報を含む文書は、更新量は少ないが、更新される頻度が比較的高い文書である。 For example, a document containing information representative of the trading price of such goods or currencies is updating amount is small, frequently being updated is relatively high document. このような文書も、ユーザにとって重要な情報を含んでいることが多い。 Such documents may often contain important information for the user.

また、前々回、取得された文書が含む情報と、前回、取得された文書が含む情報と、の差が比較的大きい場合において、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差が比較的小さくなることもある。 Also, before last, and the information included in the acquired document, last, the information included in the acquired document, when the difference is relatively large, the information preceding and acquired document containing this time, acquired documents and information including the difference of sometimes becomes relatively small. このような文書も、ユーザにとって重要な情報を含んでいる場合がある。 Such documents may, and may contain important information for the user.

逆に、手順書又はマニュアル等の文書は、過去の更新量が少なくなるほど、その文書に含まれる情報の信頼性が高くなる。 Conversely, the document such procedures or manual, as past update amount is reduced, the reliability of the information contained in the document increases. 従って、過去の更新量が少ない文書ほど、ユーザにとってより重要な情報を含む場合もある。 Therefore, as the last document update amount is small, and which may include more important information for the user.

このように、文書の過去の更新量、及び、文書の更新の間隔は、当該文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。 Thus, past update amount of the document, and the spacing of the update of the document, the document has a possibility of including important information for the user, a relatively strong correlation.

しかしながら、上記文書特徴量算出装置においては、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差に基づいて、当該文書に対する文書特徴量が算出される。 However, in the above document feature amount calculation unit, the last time, the information included in the acquired document, this time, the information included in the acquired document, based on the difference, a document feature amount for the document is calculated. 即ち、上記文書特徴量算出装置により算出される文書特徴量は、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない虞があった。 That is, document feature amount calculated by the document feature amount calculation apparatus, information document contains there is a possibility that not represent the degree is important with high accuracy for the user.

このため、本発明の目的は、上述した課題である「算出される文書特徴量が、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない場合が生じること」を解決することが可能な文書特徴量算出装置を提供することにある。 Therefore, an object of the present invention, it is a problem that the above-described solution to "document feature quantity calculated is the information document includes that may not represent occurs in high precision degree is important for the user" It is to provide a document feature quantity apparatus capable.

かかる目的を達成するため本発明の一形態である文書特徴量算出装置は、 The document feature quantity apparatus which is an embodiment of the present invention for achieving the above object,
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える。 As a document feature amount representing the feature of the document comprises information flow calculation means for calculating information fluidity representing the degree of change easiness of information contained in the document.

また、本発明の他の形態である文書特徴量算出方法は、 The document feature amount calculating method according to another aspect of the present invention,
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する方法である。 As a document feature amount representing the feature of the document is a method of calculating the information flow of which represents the degree of change easiness of information contained in the document.

また、本発明の他の形態である文書特徴量算出プログラムは、 The document feature quantity calculation program of another embodiment of the present invention,
情報処理装置に、 To the information processing apparatus,
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるためのプログラムである。 As a document feature amount representing the feature of the document, a program for realizing the information flow calculation means for calculating information fluidity representing the degree of change easiness of information contained in the document.

本発明は、以上のように構成されることにより、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。 The present invention, by being structured as described above, information document contains it is possible to calculate the document feature quantity representing the degree is important with high accuracy for the user.

本発明の第1実施形態に係る文書検索システムの機能の概略を表すブロック図である。 Is a block diagram showing an outline of a function of the document retrieval system according to a first embodiment of the present invention. 本発明の第1実施形態に係る文書検索装置が記憶する検索インデックス情報を表すテーブルである。 Document search apparatus according to a first embodiment of the present invention is a table representing the search index information stored. 本発明の第1実施形態に係る文書検索装置が記憶する情報流動度基礎パラメータを表すテーブルである。 Document search apparatus according to a first embodiment of the present invention is a table representing the information flow of basic parameter for storing. 本発明の第1実施形態に係る文書検索装置が実行する文書特徴量算出プログラムを示したフローチャートである。 Is a flowchart illustrating a document feature quantity calculation program document search apparatus performs according to the first embodiment of the present invention. 本発明の第1実施形態に係る文書検索装置が実行する検索処理プログラムを示したフローチャートである。 Is a flowchart showing a search processing program document search apparatus performs according to the first embodiment of the present invention. 本発明の第2実施形態に係る文書検索装置が実行する並替処理プログラムを示したフローチャートである。 Is a flowchart showing a rearrangement processing program document search apparatus performs according to the second embodiment of the present invention. 本発明の第3実施形態に係る文書特徴量算出装置の機能の概略を表すブロック図である。 Is a block diagram showing an outline of functions of the document feature quantity calculating apparatus according to a third embodiment of the present invention.

以下、本発明に係る、文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム、の各実施形態について図1〜図7を参照しながら説明する。 Hereinafter, according to the present invention, document feature quantity calculation device, a document feature calculation methods, and will be described with reference to FIGS document feature quantity calculation program, for each of the embodiments.

<第1実施形態> <First Embodiment>
(構成) (Constitution)
図1に示したように、第1実施形態に係る文書検索システム1は、端末装置10と、文書検索装置(文書特徴量算出装置)20と、文書レポジトリ30と、を含む。 As shown in FIG. 1, the document retrieval system 1 according to the first embodiment includes a terminal device 10, the document search apparatus (document feature quantity calculation device) 20, a document repository 30, a. 端末装置10、文書検索装置20、及び、文書レポジトリ30は、通信回線(本例では、インターネット)NWを介して、互いに通信可能に接続されている。 Terminal device 10, the document retrieval unit 20, and the document repository 30, a communication line (in this example, the Internet) via the NW, are communicatively connected to each other.

端末装置10は、情報処理装置(本例では、クライアント装置)である。 The terminal apparatus 10 (in this example, the client device) The information processing apparatus is. 本例では、端末装置10は、パーソナル・コンピュータである。 In this example, the terminal device 10 is a personal computer. なお、端末装置10は、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。 In addition, the terminal device 10, a mobile phone terminal, PHS (Personal Handyphone System), PDA (Personal Data Assistance, Personal Digital Assistant), car navigation terminal, or, may be a game terminal and the like.

端末装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置(本例では、キーボード及びマウス)、及び、出力装置(本例では、ディスプレイ)を備える。 Terminal device 10 includes a central processing unit, not shown (CPU; Central Processing Unit), a storage device (memory and hard disk drive (HDD; Hard Disk Drive)), an input device (in this example, a keyboard and a mouse), and output device (in this example, display) a.

端末装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。 Terminal device 10, the program stored in the storage unit by the CPU executing, are configured to implement the functions described below.

文書検索装置20、及び、文書レポジトリ30のそれぞれは、情報処理装置(本例では、サーバ装置)である。 Document retrieval apparatus 20 and, each document repository 30, the information processing apparatus (in this example, the server device) is. 文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、図示しないCPU及び記憶装置を備える。 Document retrieval apparatus 20 and, each document repository 30, similarly to the terminal apparatus 10 includes a CPU and a storage device (not shown). 文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。 Document retrieval apparatus 20 and, each document repository 30, similarly to the terminal apparatus 10, a program stored in the storage unit by the CPU executing, are configured to implement the functions described below.

なお、文書レポジトリ30は、複数のサーバ装置(例えば、ファイルサーバ、ウェブサーバ、データベースサーバ、及び、コンテンツ配信サーバ等)により構成されていてもよい。 The document repository 30, a plurality of server devices (e.g., file server, web server, database server, and the content distribution server, etc.) may be configured by.

(機能) (function)
図1は、上記のように構成された文書検索システム1の機能を表すブロック図である。 Figure 1 is a block diagram showing the configuration and working of the document retrieval system 1 as described above.
端末装置10の機能は、ユーザインタフェース部11を含む。 Function of the terminal device 10 includes a user interface unit 11.

文書検索装置20の機能は、文書取得部21と、今回検索インデックス記憶部22と、前回検索インデックス記憶部23と、情報流動度基礎パラメータ算出部24と、情報流動度基礎パラメータ記憶部25と、検索処理実行部(抽出条件情報受付手段、文書抽出手段、文書リスト出力手段)26と、を含む。 The function of the document search apparatus 20, a document acquisition unit 21, a time search index storage unit 22, the previous search index storage unit 23, an information flowability basic parameter calculating section 24, an information flowability basic parameter storage unit 25, search processing execution section (extraction condition information receiving means, the document extraction means, the document list output means) includes a 26.

また、文書レポジトリ30は、複数の文書を記憶している。 The document repository 30 stores a plurality of documents. 文書は、文字及び図形の少なくとも一方を含む。 Document contains at least one of characters and graphics.

文書レポジトリ30は、文書送信要求を受信する。 Article repository 30 receives a document transmission request. 文書送信要求は、文書を識別するための文書識別情報を含むとともに、当該文書の送信を要求する旨を表す情報である。 Document transmission request together comprise a document identification information for identifying a document, which is information indicating that a request for transmission of the document. 文書レポジトリ30は、文書送信要求を受信すると、文書送信要求に含まれる文書識別情報により識別される文書を、当該文書送信要求を送信してきた装置(本例では、端末装置10)へ送信する。 Article repository 30 receives a document transmission request, the document identified by the document identification information included in the document transmission request (in this example, the terminal device 10) the document device which has transmitted the transmission request transmitted to.

文書検索装置20の文書取得部21は、予め設定された取得周期が経過する毎に、文書送信要求を文書レポジトリ30へ送信する。 Document acquisition unit 21 of the document search apparatus 20, each time elapses preset acquisition period, and transmits the document transmission request to the document repository 30. 本例では、文書取得部21は、文書レポジトリ30が記憶している、すべての文書のそれぞれに対して文書送信要求を送信する。 In this example, document acquisition section 21, a document repository 30 is stored, it transmits the document transmission request to each of all the documents. 文書取得部21は、送信した文書送信要求に応じて、文書レポジトリ30により送信された文書を受信する。 Document acquisition unit 21, in response to the transmitted document transmission request, receives the document transmitted by the document repository 30.

文書取得部21は、文書を受信すると、受信された文書に基づいて検索インデックス情報を生成する。 Document acquisition unit 21 receives the document, generates the search index information based on the received document. 文書取得部21は、検索インデックス情報を生成した場合、今回検索インデックス記憶部22に記憶されている検索インデックス情報のうちの、当該生成された検索インデックス情報を生成する基となった文書と同一の文書に対する検索インデックス情報を、前回検索インデックス記憶部23に移動させる。 Document acquisition unit 21, the search when generating the index information, from among the search index information stored in the current search index storage unit 22, the generated search index information document the same that was generated for based on the search index information for the document is moved to the last search index storage unit 23.

即ち、文書取得部21は、当該検索インデックス情報を前回検索インデックス記憶部23に記憶させるとともに、当該検索インデックス情報を今回検索インデックス記憶部22から消去する。 That is, the document acquisition section 21, together with and stores the search index information in the previous search index storage unit 23, erases the search index information from the current search index storage unit 22.
その後、文書取得部21は、新たに生成された検索インデックス情報を今回検索インデックス記憶部22に記憶させる。 Thereafter, the document acquisition unit 21 stores the retrieval index information that is newly generated in this search index storage unit 22.

今回検索インデックス記憶部22は、図2に示したように、検索インデックス情報を記憶する。 This search index storage unit 22, as shown in FIG. 2, and stores the search index information. 検索インデックス情報は、文書URIと、文書本文と、更新日時と、取得日時と、を含む。 Search index information includes a document URI, and the document body, and the update date and time, and the acquisition date and time, the. 文書URIは、文書取得部21により取得される文書のURI(Uniform Resource Identifier)である。 Document URI is a URI, a document acquired by the document acquisition unit 21 (Uniform Resource Identifier). 本例では、文書URIは、文書を識別するための文書識別情報を構成している。 In this example, the document URI constitute the document identification information for identifying the document.

文書本文は、文書取得部21により取得された文書が含む文字列(本文、テキスト)である。 Document body is a string that contains the document obtained by the document obtaining unit 21 (body text). 更新日時は、文書取得部21により文書が最後に更新された(即ち、当該文書が更新された最新(最終)の)日時である。 Update date and time the document was last updated by the document obtaining unit 21 (i.e., latest the document has been updated in the (final)) is date and time. 取得日時は、文書取得部21により文書が取得された日時である。 Acquisition date and time is a date and time when the document was acquired by the document acquisition unit 21.

文書検索装置20の情報流動度基礎パラメータ算出部24は、上記取得周期が経過する毎に、今回検索インデックス記憶部22に記憶されているすべての検索インデックス情報のそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度基礎パラメータを算出する処理を実行する。 Information fluidity basic parameter calculating section 24 of the document search apparatus 20, each time the acquisition period has elapsed, each of all the search index information stored in the current search index storage unit 22 (i.e., the document repository 30 in the storage being, a process for calculating information fluidity basic parameter for each) of all documents. 情報流動度基礎パラメータ算出部24は、算出された情報流動度基礎パラメータを、文書識別情報としての文書URIと対応付けて情報流動度基礎パラメータ記憶部25に記憶させる。 Information fluidity basic parameter calculation unit 24, the calculated information fluidity basic parameter, in association with the document URI as document identification information is stored in the information flow of basic parameter storage unit 25.

情報流動度基礎パラメータは、文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する基となるパラメータである。 Information fluidity basic parameter is a parameter which is a base for calculating the information flow of which represents the degree of change easiness of the information contained in the document. 情報流動度は、文書の特徴を表す文書特徴量である。 Information fluidity is document feature amount representing the feature of the document. 情報流動度基礎パラメータは、第1の情報流動度基礎パラメータ、及び、第2の情報流動度基礎パラメータからなる。 Information fluidity basic parameters, the first information fluidity basic parameter, and, and a second information flowability basic parameter.

具体的には、情報流動度基礎パラメータ算出部24は、処理対象となる文書(処理対象文書)の更新量を、当該文書と対応付けて前回検索インデックス記憶部23及び今回検索インデックス記憶部22のそれぞれに記憶されている検索インデックス情報に含まれる文書本文に基づいて算出する。 Specifically, information fluidity basic parameter calculation unit 24, the update amount of documents to be processed (processing target document), the previous association with the document retrieval index storage unit 23 and the current search index storage unit 22 calculated on the basis of the document body included in the search index information stored in each.

本例では、情報流動度基礎パラメータ算出部24は、文書の更新量としてレーベンシュタイン距離(編集距離)を用いる。 In this example, the information flow of basic parameter calculation unit 24, using the Levenshtein distance (edit distance) as the update amount of the document. なお、情報流動度基礎パラメータ算出部24は、文書の更新量として、文書が更新される程度が大きくなるほど大きくなる値を有する、他の量を用いてもよい。 The information fluidity basic parameter calculation unit 24, as the update amount of the document, the document has a higher larger value extent to be updated is large, it may use other quantities.

そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第1の情報流動度基礎パラメータに、上記算出された更新量を加算した値を更新値として算出する。 The information fluidity basic parameter calculation unit 24, the first information fluidity basic parameters stored in association with the target document information fluidity basic parameter storage unit 25, adds the update amount of the calculated to calculate the value as the updated value. 情報流動度基礎パラメータ算出部24は、当該記憶されている第1の情報流動度基礎パラメータを、当該算出された更新値により更新する。 Information fluidity basic parameter calculation unit 24, a first information flow of basic parameters which are the storage is updated by the calculated update value.

更に、情報流動度基礎パラメータ算出部24は、処理対象文書に対する更新間隔パラメータを、当該文書と対応付けて今回検索インデックス記憶部22に記憶されている検索インデックス情報に含まれる、更新日時及び取得日時に基づいて算出する。 Moreover, the information flow of basic parameter calculation unit 24, the update interval parameters for the target document, is included in the search index information stored in the current search index storage unit 22 in association with the document, update date and acquisition date and time It is calculated on the basis of the.

本例では、情報流動度基礎パラメータ算出部24は、更新間隔パラメータとして、基準日時(例えば、協定世界時における、1970年1月1日0時0分0秒)から、取得日時まで経過した秒数を表す第1の整数値から、当該基準日時から、更新日時まで経過した秒数を表す第2の整数値を減じた値を用いる。 In this example, the information flow of basic parameter calculation unit 24, as the update interval parameter, the reference date and time (e.g., in UTC, January 1, 00:00:00 1970) by the elapsed until acquisition date and time in seconds from a first integer value representing the number, from the reference date, using a value obtained by subtracting the second integer value representing the number of seconds that have passed to Modified.

即ち、更新間隔パラメータは、処理対象文書に対して、当該更新間隔パラメータを実質的に取得する時点(即ち、処理対象文書に対する取得日時)と、当該時点において当該文書が最後に更新された時点(即ち、処理対象文書に対する更新日時)と、の間の時間に比例した値である、と言うことができる。 That is, the update interval parameters, the processing target document, when the substantially acquires the update interval parameters (i.e., acquisition date and time for the processing target document) and, when the said document in the time was last updated ( that is, it can be said that the update date and time) for the target document, a value proportional to the time between, the. また、更新間隔パラメータは、文書の更新の間隔が長くなるほど大きくなる値を有する、と言うこともできる。 The update interval parameter has a higher larger value between updates of the document is long, and can be said.

そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第2の情報流動度基礎パラメータに、上記算出された更新間隔パラメータを加算した値を更新値として算出する。 The information fluidity basic parameter calculation unit 24, the second information fluidity basic parameters stored in association with the target document information fluidity basic parameter storage unit 25, the update interval parameters the calculated to calculate the added value as an update value. 情報流動度基礎パラメータ算出部24は、当該記憶されている第2の情報流動度基礎パラメータを、当該算出された更新値により更新する。 Information fluidity basic parameter calculation unit 24, a second information fluidity basic parameters which are the storage is updated by the calculated update value.

文書検索装置20の情報流動度基礎パラメータ記憶部25は、図3に示したように、文書URIと、第1の情報流動度基礎パラメータと、第2の情報流動度基礎パラメータと、を対応付けて記憶している。 Information fluidity basic parameter storage unit 25 of the document search apparatus 20, as shown in FIG. 3, associates the document URI, the first information fluidity basic parameter, a second information fluidity basic parameter, the stores Te.

文書検索装置20の検索処理実行部26は、上記取得周期が経過する毎に、情報流動度基礎パラメータ記憶部25に記憶されているすべての情報流動度基礎パラメータのそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度を算出する処理を実行する。 Search processing execution unit 26 of the document search apparatus 20, each time the acquisition period has elapsed, each of all information fluidity basic parameters stored in the information flow of basic parameter storage unit 25 (i.e., the document repository 30 stored, a process for calculating information fluidity for each) of all documents.

本例では、検索処理実行部26は、第1の情報流動度基礎パラメータα(T)と、第2の情報流動度基礎パラメータβ(T)と、数式1と、に基づいて、情報流動度F(T)を算出する。 In this example, the search processing execution unit 26 includes a first information fluidity basic parameter alpha (T), and second information fluidity basic parameter beta (T), based on the equation 1, the information fluidity to calculate the F (T). ここで、ωは、予め設定された、0以上であり且つ1以下である係数である。 Here, omega is set in advance, the coefficient is and and 1 or less than zero. また、Tは、当該文書が取得された回数を表す。 Also, T is, it represents the number of times the document was acquired.

即ち、検索処理実行部26は、文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出している、と言うことができる。 That is, the search process execution unit 26, calculates the extent larger value sum of the obtained update amount relative to the document increases as the information fluidity, it can be said that. 更に、検索処理実行部26は、文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出している、と言うことができる。 Furthermore, the search processing execution unit 26, the sum of the update interval parameters acquired the document is calculated smaller value as large as the information fluidity, it can be said that.

また、検索処理実行部26は、端末装置10により送信された抽出条件情報を受信する(受け付ける)。 The search processing execution unit 26 receives extraction condition information transmitted by the terminal device 10 (accepted). 抽出条件情報は、情報流動度に対する第1の抽出条件と、文書本文に対する第2の抽出条件と、を含む抽出条件を表す情報である。 Extracting condition information is information indicating a first extraction condition for the information flow of a second extraction condition for the document text, the extraction conditions including.

第1の抽出条件は、例えば、情報流動度の範囲を定める条件である。 First extraction conditions, for example, is a condition for determining the range of information fluidity. 第2の抽出条件は、文書本文に含まれる文字列を定める条件である。 Second extraction condition is a condition for determining a character string included in the document body.

検索処理実行部26は、算出された情報流動度、及び、今回検索インデックス記憶部22に記憶されている文書本文が、受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する。 Search processing execution section 26, information flowability is calculated, and the document text stored in the current search index storage unit 22, extracts the document which satisfies the extraction condition accepted extracting condition information represents. 更に、検索処理実行部26は、抽出された文書のリストを端末装置10へ送信(出力)する。 Furthermore, the search processing execution unit 26 sends a list of retrieved document to the terminal device 10 (outputs).

端末装置10のユーザインタフェース部11は、ユーザにより入力された抽出条件情報を受け付ける。 The user interface portion of the terminal apparatus 1011 receives the extraction condition information input by the user. ユーザインタフェース部11は、受け付けられた抽出条件情報を文書検索装置20へ送信する。 The user interface unit 11 transmits the extraction condition information received to the document search apparatus 20. 更に、ユーザインタフェース部11は、送信した抽出条件情報に応じて文書検索装置20により送信された、文書のリストを受信する。 Furthermore, the user interface unit 11, sent by the document search apparatus 20 according to the transmitted extraction condition information, receiving a list of documents. ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する(ディスプレイに表示させる)。 The user interface unit 11, via the output device a list of received documents (to be displayed on the display).

(作動) (Working)
次に、上述した文書検索システム1の作動について説明する。 The following describes the operation of the document retrieval system 1 described above.
文書検索装置20は、図4にフローチャートにより示した文書特徴量算出プログラムを実行するようになっている。 Document search apparatus 20 is adapted to perform a document feature calculation program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、文書特徴量算出プログラムの処理を開始すると、先ず、変数Nを、今回検索インデックス記憶部22に記憶されている検索インデックス情報の総数に設定する。 To be specific, the document search apparatus 20 starts a process of document feature quantity calculation program, first, a variable N, sets the total number of search index information stored in the current search index storage unit 22. 更に、変数iを「0」に設定する(ステップS101)。 Further, a variable i is set to "0" (step S101).

次いで、文書検索装置20は、変数iに「1」を加算する(ステップS102)。 Then, the document search apparatus 20 adds "1" to the variable i (step S102). そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS103)。 The document search apparatus 20, the variable N is equal to or less than or variable i (step S103).

この時点では、変数Nは、変数i以上の値である。 At this point, variable N is greater than or equal variable i. 従って、文書検索装置20は、「No」と判定してステップS104へ進む。 Accordingly, the document search apparatus 20 proceeds to step S104 and a "No" determination. そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、第1の情報流動度基礎パラメータα、及び、第2の情報流動度基礎パラメータβを取得する。 The document search apparatus 20, of the information flow of basic parameters stored in the information flow of basic parameter storage unit 25, for the i th search index information (i.e., a document included in the i th search index information associated with URI), the first information fluidity basic parameter alpha, and acquires the second information fluidity basic parameter beta.

なお、文書検索装置20は、i番目の検索インデックス情報に対する情報流動度基礎パラメータが、情報流動度基礎パラメータ記憶部25に記憶されていない場合、i番目の検索インデックス情報に含まれる文書URIと対応付けて、第1の情報流動度基礎パラメータαとしての「0」と、第2の情報流動度基礎パラメータβとしての「0」と、を情報流動度基礎パラメータ記憶部25に記憶させる。 The document search apparatus 20, the information flow of basic parameter for the i th search index information, if not stored in the information flow of basic parameter storage unit 25, a document URI included in the i th search index information corresponding attached to a "0" as the first information fluidity basic parameter alpha, the "0" as the second information fluidity basic parameter beta, and stores the information fluidity basic parameter storage unit 25 a.

次いで、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報に基づいて更新間隔パラメータdtを算出する(ステップS105)。 Then, the document search apparatus 20 calculates the update interval parameters dt based on the i-th search index information stored in the current search index storage unit 22 (step S105). そして、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報と、当該検索インデックス情報に含まれる文書URIを含む、前回検索インデックス記憶部23に記憶されている検索インデックス情報と、に基づいて、文書の更新量dsを算出する(ステップS106)。 The document search apparatus 20 includes a i th search index information stored in the current search index storage unit 22, the document URI included in the search index information, stored in the previous search index storage unit 23 a search index information, based on, calculates the update amount ds of the document (step S106).

次いで、文書検索装置20は、ステップS104にて取得された第1の情報流動度基礎パラメータαに、ステップS106にて算出された更新量dsを加算することにより、第1の情報流動度基礎パラメータαを更新する。 Then, the document search apparatus 20, the first information fluidity basic parameter α obtained in step S104, by adding the update amount ds calculated at step S106, the first information fluidity basic parameter to update the α. 更に、文書検索装置20は、ステップS104にて取得された第2の情報流動度基礎パラメータβに、ステップS105にて算出された更新間隔パラメータdtを加算することにより、第2の情報流動度基礎パラメータβを更新する(ステップS107)。 Moreover, the document search apparatus 20, the second information fluidity basic parameter beta, by adding the update interval parameters dt calculated in step S105, the second information fluidity basis acquired in step S104 updates parameters beta (step S107).

そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第1の情報流動度基礎パラメータαを、ステップS107にて更新された第1の情報流動度基礎パラメータαに更新(置換)する。 The document search apparatus 20, of the information flow of basic parameters stored in the information flow of basic parameter storage unit 25, a first information flow of basic parameter for the i th search index information alpha, step S107 first information update fluidity basic parameter α which is updated (replaced) is at.

同様に、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第2の情報流動度基礎パラメータβを、ステップS107にて更新された第2の情報流動度基礎パラメータβに更新(置換)する(ステップS108)。 Similarly, the document search apparatus 20, of the information flow of basic parameters stored in the information flow of basic parameter storage unit 25, a second information fluidity basic parameter β for the i-th search index information, step second information update fluidity basic parameter β which is updated in S107 (substituted) (step S108).

そして、文書検索装置20は、ステップS102へ戻り、ステップS102〜ステップS108の処理を、ステップS103における変数iが変数Nよりも大きくなるまで繰り返し実行する。 The document search apparatus 20 returns to step S102, the processing of step S102~ step S108, repeatedly executed until the variable i is greater than the variable N in step S103.

また、文書検索装置20は、図5にフローチャートにより示した検索処理プログラムを実行するようになっている。 The document search apparatus 20 is adapted to perform a search processing program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、検索処理プログラムの処理を開始すると、抽出条件情報を受信するまで待機する(ステップS201)。 To be specific, the document search apparatus 20 starts a process of search processing program, and waits for reception of extraction condition data (step S201).

一方、端末装置10は、ユーザにより入力された抽出条件情報を受け付ける。 On the other hand, the terminal device 10 receives the extraction condition information input by the user. そして、端末装置10は、受け付けられた抽出条件情報を文書検索装置20へ送信する。 The terminal device 10 transmits the extraction condition information received to the document search apparatus 20.

これにより、抽出条件情報を受信すると、文書検索装置20は、ステップS202へ進み、今回検索インデックス記憶部22に記憶されている検索インデックス情報のそれぞれに対して情報流動度を算出する。 Thus, upon receiving the extraction condition data, the document search apparatus 20 proceeds to step S202, and calculates the information fluidity for each search index information stored in the current search index storage unit 22. 本例では、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータに基づいて情報流動度を算出する。 In this example, the document search apparatus 20 calculates the information fluidity based on information fluidity basic parameters stored in the information flow of basic parameter storage unit 25.

そして、文書検索装置20は、受信された抽出条件情報が表す抽出条件と、算出された情報流動度と、今回検索インデックス記憶部22に記憶されている検索インデックス情報と、に基づいて、抽出条件を満足する文書を抽出する(ステップS203)。 The document search apparatus 20 includes an extraction condition received extracting condition information is represented, the information flow level calculated, a search index information stored in the current search index storage unit 22, on the basis of the extraction conditions extracting a document which satisfies (step S203). そして、文書検索装置20は、抽出された文書のリストを端末装置10へ送信する(ステップS204)。 The document search apparatus 20, a list of the extracted documents to transmit to the terminal apparatus 10 (step S204).
その後、文書検索装置20は、ステップS201へ戻り、ステップS201〜ステップS204の処理を繰り返し実行する。 Thereafter, the document search apparatus 20 returns to step S201, repeats the processing of steps S201~ step S204.

一方、端末装置10は、文書検索装置20から文書のリストを受信する。 On the other hand, the terminal device 10 receives the list of documents from the document search apparatus 20. そして、端末装置10は、受信された文書のリストを出力装置を介して出力する。 Then, the terminal apparatus 10, via the output device a list of received documents.

以上、説明したように、第1実施形態に係る文書検索装置20によれば、文書検索装置20は、情報流動度を文書特徴量として算出する。 As described above, according to the document search apparatus 20 according to the first embodiment, the document search apparatus 20 calculates the information fluidity as document feature amount. これにより、文書検索装置20は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。 Thus, the document retrieval unit 20, information document contains it is possible to calculate the document feature quantity representing the degree is important with high accuracy for the user.

更に、第1実施形態に係る文書検索装置20は、文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出する。 Moreover, the document search apparatus according to the first embodiment 20 acquires the update amount of the document at each of a plurality of time points, information flows larger value as the sum of the the update amount obtained for the document increases It is calculated as the degree.

複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。 Total amount of update of the acquired document in each of a plurality of time points, the document has a possibility of including important information for the user, a relatively strong correlation. 従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。 Therefore, according to the above configuration, information document contains it is possible to calculate the document feature amount representing at even higher accuracy degree is important for the user.

加えて、第1実施形態に係る文書検索装置20は、文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出する。 In addition, the document search apparatus 20 according to the first embodiment, obtains the update interval parameters having higher larger value between updates of the document is long at each of a plurality of time points, was obtained for the document total update interval parameter to calculate a smaller value as the information flow of the more increased.

複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。 The sum of the update interval parameters corresponding to the update interval of a document acquired by each of the plurality of time points, the document has a possibility of including important information for the user, a relatively strong correlation. 従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。 Therefore, according to the above configuration, information document contains it is possible to calculate the document feature amount representing at even higher accuracy degree is important for the user.

更に、第1実施形態に係る文書検索装置20は、情報流動度に対する抽出条件を表す抽出条件情報を受け付け、算出された情報流動度が、当該抽出条件を満足する文書を抽出する。 Moreover, the document search apparatus 20 according to the first embodiment, accepts the extraction condition information indicating an extraction condition for the information flow of the information flow level calculated extracts the document which satisfies the extraction condition.

これによれば、文書検索装置20は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。 According to this, the document search apparatus 20, input by the user, performs a search process for extracting the document based on the extraction condition for the information fluidity. これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。 Thus, the user can find easily a document containing the desired information.

<第2実施形態> <Second Embodiment>
次に、本発明の第2実施形態に係る文書検索システムについて説明する。 Next, a description will be given document retrieval system according to a second embodiment of the present invention. 第2実施形態に係る文書検索システムは、上記第1実施形態に係る文書検索システムに対して、文書検索装置20が、情報流動度の大きさの順に並べて、文書のリストを出力する点において相違している。 Document retrieval system according to a second embodiment, differs from the document retrieval system according to the first embodiment, the document search apparatus 20, and arranged in the order of the information flow of the size, in that it outputs a list of documents doing. 従って、以下、かかる相違点を中心として説明する。 Accordingly, the following description will focus on this difference.

(機能) (function)
第2実施形態に係る抽出条件情報は、文書本文に対する抽出条件を表す情報である。 Extracting condition information according to the second embodiment is information indicating an extraction condition for the document text. 抽出条件は、文書本文に含まれる文字列を定める条件である。 Extraction condition is a condition for determining a character string included in the document body.

第2実施形態に係るユーザインタフェース部11は、ユーザにより入力された並替指示情報を受け付ける。 User interface unit 11 according to the second embodiment receives a rearrangement instruction information input by the user. 並替指示情報は、降順、及び、昇順のいずれか一方を表す情報である。 Rearrangement instruction information, descending, and is information indicating either the ascending order. ユーザインタフェース部11は、受け付けられた並替指示情報を文書検索装置20へ送信する。 The user interface unit 11 transmits the sorting instruction information received to the document search apparatus 20. 更に、ユーザインタフェース部11は、送信した並替指示情報に応じて文書検索装置20により送信された、文書のリストを受信する。 Furthermore, the user interface unit 11, sent by the document search apparatus 20 according to the transmitted rearrangement instruction information, to receive a list of documents. ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する。 The user interface unit 11, via the output device a list of received documents.

検索処理実行部26は、端末装置10から並替指示情報を受信する。 Search processing execution unit 26 receives the sorting instruction information from the terminal device 10. 検索処理実行部26は、並替指示情報を受信すると、上記抽出された文書のそれぞれに対して算出された情報流動度の大きさの、当該並替指示情報が表す順(降順、又は、昇順)に並べて、上記抽出された文書のリストを端末装置10へ送信する。 Search processing execution unit 26 receives the rearrangement instruction information, the size information flow degrees calculated for each of the documents of the extracted order represented by the rearrangement instruction information (descending or ascending Tile), it sends the list of documents of the extracted to the terminal device 10.

(作動) (Working)
次に、上述した文書検索システム1の作動について説明する。 The following describes the operation of the document retrieval system 1 described above.
第2実施形態に係る文書検索装置20は、図4に示した文書特徴量算出プログラムと同一の処理を実行する。 Document search apparatus according to the second embodiment 20 performs the same processing as the document feature calculation program shown in FIG.
また、第2実施形態に係る文書検索装置20は、図5に示した検索処理プログラムから、ステップS202の処理を除いた処理を実行する。 The document search apparatus 20 according to the second embodiment, the search processing program shown in FIG. 5, executes processing excluding the processing of step S202.

更に、第2実施形態に係る文書検索装置20は、図6にフローチャートにより示した並替処理プログラムを実行するようになっている。 Moreover, the document search apparatus 20 according to the second embodiment is adapted to perform the rearrangement processing program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、並替処理プログラムの処理を開始すると、並替指示情報を受信するまで待機する(ステップS301)。 To be specific, the document search apparatus 20 starts a process of rearrangement processing program, and waits for reception of sorting instruction information (step S301). そして、並替指示情報を受信すると、文書検索装置20は、ステップS302へ進み、変数Nを、図5のステップS203にて抽出された文書の総数に設定する。 When receiving a rearrangement instruction information, the document search apparatus 20 proceeds to step S302, a variable N, sets the total number of documents extracted in step S203 in FIG. 更に、変数iを「0」に設定する。 In addition, a variable i is set to "0".

次いで、文書検索装置20は、変数iに「1」を加算する(ステップS303)。 Then, the document search apparatus 20 adds "1" to the variable i (step S303). そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS304)。 The document search apparatus 20, the variable N is equal to or less than or variable i (step S304).

この時点では、変数Nは、変数i以上の値である。 At this point, variable N is greater than or equal variable i. 従って、文書検索装置20は、「No」と判定してステップS305へ進む。 Accordingly, the document search apparatus 20 proceeds to step S305 and a "No" determination. そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、情報流動度基礎パラメータに基づいて情報流動度を算出する。 The document search apparatus 20, of the information flow of basic parameters stored in the information flow of basic parameter storage unit 25, for the i th search index information (i.e., a document included in the i th search index information associated with URI), and calculates the information fluidity based on information flowability basic parameter.

そして、文書検索装置20は、ステップS303へ戻り、ステップS303〜ステップS305の処理を、ステップS304における変数iが変数Nよりも大きくなるまで繰り返し実行する。 The document search apparatus 20 returns to step S303, the processing of step S303~ step S305, repeatedly executed until the variable i is greater than the variable N in step S304.

その後、文書検索装置20は、ステップS306へ進み、ステップS305にて算出された情報流動度の大きさが、受信された並替指示情報が表す順(降順、又は、昇順)に並ぶように、図5のステップS203にて抽出された文書を並び替える(ステップS306)。 Thereafter, the document search apparatus 20 proceeds to step S306, as the size of the information flow of which is calculated in step S305 is arranged in the received rearrangement instruction information indicating the order (descending order, or, in ascending order), rearranging the documents extracted in step S203 in FIG. 5 (step S306). そして、文書検索装置20は、並び替えられた文書のリストを端末装置10へ送信する(ステップS307)。 The document search apparatus 20 transmits the list of documents sorted to the terminal device 10 (step S307).

その後、文書検索装置20は、ステップS301へ戻り、ステップS301〜ステップS307の処理を繰り返し実行する。 Thereafter, the document search apparatus 20 returns to step S301, repeats the processing of steps S301~ step S307.

以上、説明したように、本発明の第2実施形態に係る文書検索システム1によれば、第1実施形態に係る文書検索システム1と同様の作用及び効果を奏することができる。 As described above, according to the document retrieval system 1 according to a second embodiment of the present invention can achieve the same effect with the document retrieval system 1 according to the first embodiment.
更に、第2実施形態に係る文書検索装置20は、算出された情報流動度の大きさの順に並べて、文書のリストを出力する。 Moreover, the document search apparatus 20 according to the second embodiment is arranged in the order of the information flow of the magnitude calculated, and outputs a list of documents.

これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。 Thus, the user, the document containing the desired information, it is possible to find more easily.

<第3実施形態> <Third Embodiment>
次に、本発明の第3実施形態に係る文書特徴量算出装置について図7を参照しながら説明する。 Next, the document feature quantity apparatus will be described with reference to FIG. 7 according to the third embodiment of the present invention.
第3実施形態に係る文書特徴量算出装置100は、 Document feature amount calculation apparatus 100 according to the third embodiment,
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出部(情報流動度算出手段)101を備える。 As a document feature amount representing the feature of the document comprises information flow calculation unit (information flow calculation means) 101 for calculating the information flow of which represents the degree of change easiness of information contained in the document.

これによれば、文書特徴量算出装置100は、情報流動度を文書特徴量として算出する。 According to this, the document feature amount calculation unit 100 calculates the information fluidity as document feature amount. これにより、文書特徴量算出装置100は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。 Thus, document feature quantity calculation device 100, information document contains it is possible to calculate the document feature quantity representing the degree is important with high accuracy for the user.

以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。 Although the present invention has been described with reference to the above embodiments, the present invention is not limited to the embodiments described above. 本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。 Construction and details of the present invention, it is possible to make various modifications that those skilled in the art can understand within the scope of the present invention.

なお、上記各実施形態において文書特徴量算出装置の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。 Each function of the document feature quantity apparatus in the above embodiment, although the CPU has been implemented by executing a program (software), it may be implemented by hardware circuits.

また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。 The program in the above embodiments have been stored in the storage device, the computer may be stored in a recording medium readable. 例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。 For example, the recording medium is a flexible disk, an optical disk, a magneto-optical disk, and a medium having portability such as a semiconductor memory.

また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。 Further, as another variation of the above embodiment, any combination of the embodiments and modifications described above may be employed.

<付記> <Note>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。 Some or all of the above embodiments, but can be described as following notes, not limited to the following.

(付記1) (Note 1)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える文書特徴量算出装置。 As a document feature amount representing the feature of the document, the document feature amount calculating device comprising information flow calculation means for calculating information fluidity representing the degree of change easiness of information contained in the document.

これによれば、文書特徴量算出装置は、情報流動度を文書特徴量として算出する。 According to this, the document feature amount calculation unit calculates the information fluidity as document feature amount. これにより、文書特徴量算出装置は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。 Thus, document feature amount calculation apparatus, information document contains it is possible to calculate the document feature quantity representing the degree is important with high accuracy for the user.

(付記2) (Note 2)
付記1に記載の文書特徴量算出装置であって、 A document feature quantity calculating apparatus according to Supplementary Note 1,
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。 The information flow calculating means, the update amount of the document obtained at each of a plurality of time points, calculates a higher larger value sum of been updated weight obtained for the document increases as the information fluidity constructed document feature quantity apparatus as.

複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。 Total amount of update of the acquired document in each of a plurality of time points, the document has a possibility of including important information for the user, a relatively strong correlation. 従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。 Therefore, according to the above configuration, information document contains it is possible to calculate the document feature amount representing at even higher accuracy degree is important for the user.

(付記3) (Note 3)
付記1又は付記2に記載の文書特徴量算出装置であって、 Supplementary Note 1 or a document feature quantity calculating apparatus according to note 2,
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。 The information flow calculating means, the update interval parameters having higher larger value between updates of the document is longer obtained at each of a plurality of time points, the sum of the update interval parameters obtained for the document constructed document feature quantity apparatus to calculate a larger extent smaller value as the information fluidity.

複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。 The sum of the update interval parameters corresponding to the update interval of a document acquired by each of the plurality of time points, the document has a possibility of including important information for the user, a relatively strong correlation. 従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。 Therefore, according to the above configuration, information document contains it is possible to calculate the document feature amount representing at even higher accuracy degree is important for the user.

(付記4) (Note 4)
付記3に記載の文書特徴量算出装置であって、 A document feature quantity calculating apparatus according to note 3,
前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。 The information flow calculation means, with respect to the document, the time for acquiring the update interval parameter, a time when the document at that time was last updated, a value proportional to the time between, the update It constructed document feature amount calculation device to obtain a spacing parameter.

(付記5) (Note 5)
付記1乃至付記4のいずれか一項に記載の文書特徴量算出装置であって、 Supplementary Notes 1 to a document feature quantity calculating apparatus according to any one of Supplementary notes 4,
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、 An extracting condition information accepting means for accepting an extraction condition information indicating an extraction condition for the information fluidity,
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、 Information fluidity the calculated is a document extracting means for extracting a document which satisfies the extraction condition in which the accepted extracting condition information is represented,
を備える文書特徴量算出装置。 Document feature amount calculation device comprising a.

これによれば、文書特徴量算出装置は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。 According to this, the document feature amount calculating device, input by the user, performs a search process for extracting the document based on the extraction condition for the information fluidity. これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。 Thus, the user can find easily a document containing the desired information.

(付記6) (Note 6)
付記1乃至付記5のいずれか一項に記載の文書特徴量算出装置であって、 Supplementary Notes 1 to a document feature quantity calculating apparatus according to any one of Supplementary notes 5,
前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。 Side by side in order of the information flow of the magnitude the calculated, document feature quantity calculation device comprising a document list output means for outputting a list of documents.

これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。 Thus, the user, the document containing the desired information, it is possible to find more easily.

(付記7) (Note 7)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する、文書特徴量算出方法。 As a document feature amount representing the feature of the document, calculates the information flow of which represents the degree of change easiness of information contained in the document, the document feature calculation methods.

(付記8) (Note 8)
付記7に記載の文書特徴量算出方法であって、 A document feature amount calculating method according to Appendix 7,
前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する、文書特徴量算出方法。 The update amount of the document obtained at each of a plurality of time points, calculates a higher larger value sum of been updated weight obtained for the document increases as the information fluidity, document feature amount calculating method.

(付記9) (Note 9)
付記7又は付記8に記載の文書特徴量算出方法であって、 A document feature amount calculating method according to note 7 or Supplementary Note 8,
前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する、文書特徴量算出方法。 The update interval parameters having higher larger value between updates of the document increases obtained in each of the plurality of time points, the information smaller value as the sum of the update interval parameters obtained for the document increases calculated as fluidity, document feature amount calculating method.

(付記10) (Note 10)
情報処理装置に、 To the information processing apparatus,
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるための文書特徴量算出プログラム。 As a document feature amount representing the feature of the document, the document feature calculation program for realizing the information flow calculation means for calculating information fluidity representing the degree of change easiness of information contained in the document.

(付記11) (Note 11)
付記10に記載の文書特徴量算出プログラムであって、 A document feature quantity calculation program of statement 10,
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。 The information flow calculating means, the update amount of the document obtained at each of a plurality of time points, calculates a higher larger value sum of been updated weight obtained for the document increases as the information fluidity constructed document feature quantity calculation program was as.

(付記12) (Note 12)
付記10又は付記11に記載の文書特徴量算出プログラムであって、 Supplementary Note 10 or a document feature quantity calculation program according to Note 11,
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。 The information flow calculating means, the update interval parameters having higher larger value between updates of the document is longer obtained at each of a plurality of time points, the sum of the update interval parameters obtained for the document constructed document feature quantity calculation program was to calculate a smaller value as the information flow of the more increases.

本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置、及び、文書の検索を行う文書検索装置等に適用可能である。 The present invention, document feature quantity calculation device for calculating a document feature quantity representing the feature of the document, and is applicable to a document retrieval apparatus for performing the retrieval of documents.

1 文書検索システム10 端末装置11 ユーザインタフェース部20 文書検索装置(文書特徴量算出装置) 1 document retrieval system 10 terminal device 11 the user interface unit 20 document search apparatus (document feature quantity apparatus)
21 文書取得部22 今回検索インデックス記憶部23 前回検索インデックス記憶部24 情報流動度基礎パラメータ算出部25 情報流動度基礎パラメータ記憶部26 検索処理実行部30 文書レポジトリ100 文書特徴量算出装置101 情報流動度算出部 21 document acquisition unit 22 now search index storage unit 23 last time the search index storage unit 24 information fluidity basic parameter calculating unit 25 information fluidity basic parameter storage unit 26 searches the processing execution section 30 the document repository 100 document feature quantity apparatus 101 information fluidity calculation unit

Claims (8)

  1. 文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する情報流動度算出手段と、 As a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, and acquires the update amount of the document at each of the plurality of time points, the information flow calculating means the sum of the obtained update amount is calculated larger value as large as the information flow of the document,
    前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、 An extracting condition information accepting means for accepting an extraction condition information indicating an extraction condition for the information fluidity,
    前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、 Information fluidity the calculated is a document extracting means for extracting a document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    を備える文書特徴量算出装置。 Document feature amount calculation device comprising a.
  2. 文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する情報流動度算出手段と、 As a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, update interval parameter having a higher larger value between updates of the document is long It was obtained at each of a plurality of time points, and the information flow calculation means for calculating a smaller value as the sum of the update interval parameters obtained for the document increases as the information fluidity,
    前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、 An extracting condition information accepting means for accepting an extraction condition information indicating an extraction condition for the information fluidity,
    前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、 Information fluidity the calculated is a document extracting means for extracting a document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    を備える文書特徴量算出装置。 Document feature amount calculation device comprising a.
  3. 請求項2に記載の文書特徴量算出装置であって、 A document feature quantity calculating apparatus according to claim 2,
    前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。 The information flow calculation means, with respect to the document, the time for acquiring the update interval parameter, a time when the document at that time was last updated, a value proportional to the time between, the update It constructed document feature amount calculation device to obtain a spacing parameter.
  4. 請求項1乃至請求項のいずれか一項に記載の文書特徴量算出装置であって、 A document feature quantity calculating apparatus according to any one of claims 1 to 3,
    前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。 Side by side in order of the information flow of the magnitude the calculated, document feature quantity calculation device comprising a document list output means for outputting a list of documents.
  5. 情報処理装置が備えるCPUが、文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出し、 CPU provided to the information processing apparatus is, as a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, a plurality of time points to update the amount of the document of acquired at each calculates a higher larger value sum of been updated weight obtained for the document increases as the information fluidity,
    前記CPUが、前記情報流動度に対する抽出条件を表す抽出条件情報を受け付け、 Wherein the CPU receives extraction condition information indicating an extraction condition for the information fluidity,
    前記CPUが、前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する、 The CPU is, the calculated information flowability is, extracts the document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    文書特徴量算出方法。 Document feature amount calculating method.
  6. 情報処理装置が備えるCPUが、文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出し、 CPU provided to the information processing apparatus is, as a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, as the interval of updating of the document is long get the update interval parameter having a larger value at each of a plurality of time points, calculates a smaller value as the sum of the update interval parameters obtained for the document increases as the information fluidity,
    前記CPUが、前記情報流動度に対する抽出条件を表す抽出条件情報を受け付け、 Wherein the CPU receives extraction condition information indicating an extraction condition for the information fluidity,
    前記CPUが、前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する、 The CPU is, the calculated information flowability is, extracts the document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    文書特徴量算出方法。 Document feature amount calculating method.
  7. 情報処理装置に、 To the information processing apparatus,
    文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する情報流動度算出手段と、 As a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, and acquires the update amount of the document at each of the plurality of time points, the information flow calculating means the sum of the obtained update amount is calculated larger value as large as the information flow of the document,
    前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、 An extracting condition information accepting means for accepting an extraction condition information indicating an extraction condition for the information fluidity,
    前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、 Information fluidity the calculated is a document extracting means for extracting a document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    を実現させるための文書特徴量算出プログラム。 Document feature quantity calculation program for realizing.
  8. 情報処理装置に、 To the information processing apparatus,
    文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する情報流動度算出手段と、 As a document feature amount representing the feature of the document, to calculate the information flow of which represents the degree of change easiness of information contained in the document, update interval parameter having a higher larger value between updates of the document is long It was obtained at each of a plurality of time points, and the information flow calculation means for calculating a smaller value as the sum of the update interval parameters obtained for the document increases as the information fluidity,
    前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、 An extracting condition information accepting means for accepting an extraction condition information indicating an extraction condition for the information fluidity,
    前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、 Information fluidity the calculated is a document extracting means for extracting a document which satisfies the extraction condition in which the accepted extracting condition information is represented,
    を実現させるための文書特徴量算出プログラム。 Document feature quantity calculation program for realizing.
JP2010274267A 2010-12-09 2010-12-09 Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program Active JP5673051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program

Publications (2)

Publication Number Publication Date
JP2012123647A JP2012123647A (en) 2012-06-28
JP5673051B2 true JP5673051B2 (en) 2015-02-18

Family

ID=46505012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010274267A Active JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature quantity apparatus, document feature amount calculating method, and the document feature quantity calculation program

Country Status (1)

Country Link
JP (1) JP5673051B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264927A (en) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Web site retrieval method and device, web site retrieval program, and storage medium recording the program
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
JP2006215998A (en) * 2005-02-07 2006-08-17 Keyence Corp Data collection system
JP2008129645A (en) * 2006-11-16 2008-06-05 Canon Inc Document management system

Also Published As

Publication number Publication date
JP2012123647A (en) 2012-06-28

Similar Documents

Publication Publication Date Title
Martin et al. Using information theory to search for co-evolving residues in proteins
Siebert et al. MARNA: multiple alignment and consensus structure prediction of RNAs based on sequence structure comparisons
Jossinet et al. Sequence to Structure (S2S): display, manipulate and interconnect RNA data from sequence to structure
US10331631B2 (en) Apparatus, systems, and methods for analyzing characteristics of entities of interest
US9294576B2 (en) Social media impact assessment
US9533229B2 (en) Custom reward for viral help in game
JP4255239B2 (en) Document search method
KR101807755B1 (en) Multiple attribution models with return on ad spend
US8001135B2 (en) Search support apparatus, computer program product, and search support system
JP2017123187A (en) Augmented conversational understanding architecture
CN102016787A (en) Determining relevant information for domains of interest
JP2011165182A (en) Method and apparatus for selecting hyperlink
US20070219994A1 (en) Methods and systems for displaying media utilizing user-generated data
JP5294581B2 (en) Method of correcting the position data
KR101689314B1 (en) Methods, systems, and computer-readable recording media for cross-language image search options
CN105159962B (en) Method and apparatus for job recommendations, resumes recommended method and apparatus recruitment platform
EP2407897A1 (en) Device for determining internet activity
JP2008276784A (en) Advertisement evaluating method using keyword comparison, advertisement evaluating system, recording medium
US20150142767A1 (en) Scoring authors of social network content
US20100287134A1 (en) System, method and computer readable medium for placing advertisements into web pages
JP2005107688A (en) Information display method and system and information display program
Minh et al. Phylogenetic diversity within seconds
JP2009099124A (en) Method and system for data construction
EP2801917A1 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
US20130054647A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5673051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150