JP5673051B2 - Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program - Google Patents

Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program Download PDF

Info

Publication number
JP5673051B2
JP5673051B2 JP2010274267A JP2010274267A JP5673051B2 JP 5673051 B2 JP5673051 B2 JP 5673051B2 JP 2010274267 A JP2010274267 A JP 2010274267A JP 2010274267 A JP2010274267 A JP 2010274267A JP 5673051 B2 JP5673051 B2 JP 5673051B2
Authority
JP
Japan
Prior art keywords
document
information
flow rate
extraction condition
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010274267A
Other languages
Japanese (ja)
Other versions
JP2012123647A (en
Inventor
康之 友永
康之 友永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010274267A priority Critical patent/JP5673051B2/en
Publication of JP2012123647A publication Critical patent/JP2012123647A/en
Application granted granted Critical
Publication of JP5673051B2 publication Critical patent/JP5673051B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置に関する。   The present invention relates to a document feature amount calculation apparatus that calculates a document feature amount representing a feature of a document.

文書の特徴を表す文書特徴量を算出する文書特徴量算出装置が知られている。この種の文書特徴量算出装置の一つとして、特許文献1に記載の文書特徴量算出装置は、文書の更新量を文書特徴量として算出する。文書の更新量は、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差(例えば、ファイルサイズの変化量等)に基づいて算出される。   2. Description of the Related Art A document feature amount calculation device that calculates a document feature amount that represents a document feature is known. As one example of this type of document feature amount calculation device, a document feature amount calculation device described in Patent Document 1 calculates a document update amount as a document feature amount. The update amount of the document is calculated based on the difference (for example, the change amount of the file size) between the information included in the previously acquired document and the information included in the currently acquired document.

更に、この文書特徴量算出装置は、算出された更新量の大きさの順に並べて、文書のリストを出力する。これによれば、前回、取得された時点から大きく更新された文書をユーザに認識させることができる。   Further, this document feature amount calculation apparatus arranges the calculated update amounts in order of magnitude and outputs a list of documents. According to this, it is possible to make the user recognize a document that has been greatly updated since the last time it was acquired.

特開2004−264927号公報JP 2004-264927 A

ところで、ユーザにとって更新量が少なくても重要な情報が存在する。例えば、物又は通貨等の取引価格を表す情報を含む文書は、更新量は少ないが、更新される頻度が比較的高い文書である。このような文書も、ユーザにとって重要な情報を含んでいることが多い。   By the way, there is important information for the user even if the update amount is small. For example, a document including information representing a transaction price such as a thing or a currency is a document that has a small update amount but is relatively frequently updated. Such documents often contain information important to the user.

また、前々回、取得された文書が含む情報と、前回、取得された文書が含む情報と、の差が比較的大きい場合において、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差が比較的小さくなることもある。このような文書も、ユーザにとって重要な情報を含んでいる場合がある。   Also, when the difference between the information included in the previously acquired document and the information included in the previously acquired document is relatively large, the information included in the previously acquired document and the currently acquired document In some cases, the difference between the information and the information included in the is relatively small. Such a document may also contain information important to the user.

逆に、手順書又はマニュアル等の文書は、過去の更新量が少なくなるほど、その文書に含まれる情報の信頼性が高くなる。従って、過去の更新量が少ない文書ほど、ユーザにとってより重要な情報を含む場合もある。   On the other hand, the reliability of information included in a document such as a procedure manual or a manual increases as the past update amount decreases. Therefore, a document with a smaller past update amount may include more important information for the user.

このように、文書の過去の更新量、及び、文書の更新の間隔は、当該文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。   Thus, the past update amount of the document and the update interval of the document have a relatively strong correlation with the possibility that the document includes information important to the user.

しかしながら、上記文書特徴量算出装置においては、前回、取得された文書が含む情報と、今回、取得された文書が含む情報と、の差に基づいて、当該文書に対する文書特徴量が算出される。即ち、上記文書特徴量算出装置により算出される文書特徴量は、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない虞があった。   However, in the document feature amount calculation apparatus, the document feature amount for the document is calculated based on the difference between the information included in the previously acquired document and the information included in the currently acquired document. In other words, the document feature amount calculated by the document feature amount calculation device may not represent the information included in the document to a certain degree that is important for the user with high accuracy.

このため、本発明の目的は、上述した課題である「算出される文書特徴量が、文書が含む情報がユーザにとって重要である程度を高い精度にて表さない場合が生じること」を解決することが可能な文書特徴量算出装置を提供することにある。   For this reason, the object of the present invention is to solve the above-mentioned problem that “the calculated document feature amount may not be expressed with high accuracy to some extent that the information included in the document is important for the user”. An object of the present invention is to provide a document feature amount calculation apparatus capable of

かかる目的を達成するため本発明の一形態である文書特徴量算出装置は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える。
In order to achieve such an object, a document feature amount calculation apparatus according to an aspect of the present invention includes:
An information fluidity calculating unit that calculates an information fluidity representing a degree of changeability of information included in the document as a document feature amount representing a document feature is provided.

また、本発明の他の形態である文書特徴量算出方法は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する方法である。
In addition, a document feature amount calculation method according to another aspect of the present invention includes:
This is a method of calculating an information flow rate representing the degree of changeability of information included in the document as a document feature amount representing the feature of the document.

また、本発明の他の形態である文書特徴量算出プログラムは、
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるためのプログラムである。
In addition, a document feature amount calculation program according to another embodiment of the present invention includes:
In the information processing device,
This is a program for realizing an information fluidity calculating means for calculating an information fluidity representing the degree of changeability of information included in a document as a document feature amount representing the feature of the document.

本発明は、以上のように構成されることにより、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。   According to the present invention configured as described above, it is possible to calculate a document feature amount that expresses to some extent the information contained in the document is important to the user with high accuracy.

本発明の第1実施形態に係る文書検索システムの機能の概略を表すブロック図である。It is a block diagram showing the outline of the function of the document search system which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る文書検索装置が記憶する検索インデックス情報を表すテーブルである。It is a table showing search index information which a document search device concerning a 1st embodiment of the present invention memorizes. 本発明の第1実施形態に係る文書検索装置が記憶する情報流動度基礎パラメータを表すテーブルである。It is a table showing the information flow degree basic parameter stored in the document search device according to the first embodiment of the present invention. 本発明の第1実施形態に係る文書検索装置が実行する文書特徴量算出プログラムを示したフローチャートである。It is the flowchart which showed the document feature-value calculation program which the document search apparatus concerning 1st Embodiment of this invention performs. 本発明の第1実施形態に係る文書検索装置が実行する検索処理プログラムを示したフローチャートである。It is the flowchart which showed the search processing program which the document search device concerning 1st Embodiment of this invention performs. 本発明の第2実施形態に係る文書検索装置が実行する並替処理プログラムを示したフローチャートである。It is the flowchart which showed the rearrangement process program which the document search apparatus concerning 2nd Embodiment of this invention performs. 本発明の第3実施形態に係る文書特徴量算出装置の機能の概略を表すブロック図である。It is a block diagram showing the outline of the function of the document feature-value calculation apparatus which concerns on 3rd Embodiment of this invention.

以下、本発明に係る、文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム、の各実施形態について図1〜図7を参照しながら説明する。   Hereinafter, embodiments of a document feature value calculation apparatus, a document feature value calculation method, and a document feature value calculation program according to the present invention will be described with reference to FIGS.

<第1実施形態>
(構成)
図1に示したように、第1実施形態に係る文書検索システム1は、端末装置10と、文書検索装置(文書特徴量算出装置)20と、文書レポジトリ30と、を含む。端末装置10、文書検索装置20、及び、文書レポジトリ30は、通信回線(本例では、インターネット)NWを介して、互いに通信可能に接続されている。
<First Embodiment>
(Constitution)
As shown in FIG. 1, the document search system 1 according to the first embodiment includes a terminal device 10, a document search device (document feature amount calculation device) 20, and a document repository 30. The terminal device 10, the document search device 20, and the document repository 30 are connected to be communicable with each other via a communication line (in this example, the Internet) NW.

端末装置10は、情報処理装置(本例では、クライアント装置)である。本例では、端末装置10は、パーソナル・コンピュータである。なお、端末装置10は、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。   The terminal device 10 is an information processing device (in this example, a client device). In this example, the terminal device 10 is a personal computer. The terminal device 10 may be a mobile phone terminal, a PHS (Personal Handyphone System), a PDA (Personal Data Assistance, Personal Digital Assistant), a car navigation terminal, or a game terminal.

端末装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置(本例では、キーボード及びマウス)、及び、出力装置(本例では、ディスプレイ)を備える。   The terminal device 10 includes a central processing unit (CPU; Central Processing Unit) (not shown), a storage device (memory and a hard disk drive (HDD)), an input device (a keyboard and a mouse in this example), and an output. A device (in this example, a display) is provided.

端末装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。   The terminal device 10 is configured to realize functions to be described later when the CPU executes a program stored in the storage device.

文書検索装置20、及び、文書レポジトリ30のそれぞれは、情報処理装置(本例では、サーバ装置)である。文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、図示しないCPU及び記憶装置を備える。文書検索装置20、及び、文書レポジトリ30のそれぞれは、端末装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。   Each of the document search device 20 and the document repository 30 is an information processing device (a server device in this example). Each of the document search device 20 and the document repository 30 includes a CPU and a storage device (not shown) as with the terminal device 10. Each of the document search device 20 and the document repository 30 is configured to implement the functions described later when the CPU executes a program stored in the storage device, like the terminal device 10.

なお、文書レポジトリ30は、複数のサーバ装置(例えば、ファイルサーバ、ウェブサーバ、データベースサーバ、及び、コンテンツ配信サーバ等)により構成されていてもよい。   The document repository 30 may be configured by a plurality of server devices (for example, a file server, a web server, a database server, and a content distribution server).

(機能)
図1は、上記のように構成された文書検索システム1の機能を表すブロック図である。
端末装置10の機能は、ユーザインタフェース部11を含む。
(function)
FIG. 1 is a block diagram showing functions of the document search system 1 configured as described above.
The function of the terminal device 10 includes a user interface unit 11.

文書検索装置20の機能は、文書取得部21と、今回検索インデックス記憶部22と、前回検索インデックス記憶部23と、情報流動度基礎パラメータ算出部24と、情報流動度基礎パラメータ記憶部25と、検索処理実行部(抽出条件情報受付手段、文書抽出手段、文書リスト出力手段)26と、を含む。   The function of the document search device 20 includes a document acquisition unit 21, a current search index storage unit 22, a previous search index storage unit 23, an information flow rate basic parameter calculation unit 24, an information flow rate basic parameter storage unit 25, A search processing execution unit (extraction condition information receiving means, document extraction means, document list output means) 26.

また、文書レポジトリ30は、複数の文書を記憶している。文書は、文字及び図形の少なくとも一方を含む。   The document repository 30 stores a plurality of documents. The document includes at least one of characters and graphics.

文書レポジトリ30は、文書送信要求を受信する。文書送信要求は、文書を識別するための文書識別情報を含むとともに、当該文書の送信を要求する旨を表す情報である。文書レポジトリ30は、文書送信要求を受信すると、文書送信要求に含まれる文書識別情報により識別される文書を、当該文書送信要求を送信してきた装置(本例では、端末装置10)へ送信する。   The document repository 30 receives a document transmission request. The document transmission request is information that includes document identification information for identifying a document and indicates that transmission of the document is requested. When receiving the document transmission request, the document repository 30 transmits the document identified by the document identification information included in the document transmission request to the device (in this example, the terminal device 10) that has transmitted the document transmission request.

文書検索装置20の文書取得部21は、予め設定された取得周期が経過する毎に、文書送信要求を文書レポジトリ30へ送信する。本例では、文書取得部21は、文書レポジトリ30が記憶している、すべての文書のそれぞれに対して文書送信要求を送信する。文書取得部21は、送信した文書送信要求に応じて、文書レポジトリ30により送信された文書を受信する。   The document acquisition unit 21 of the document search device 20 transmits a document transmission request to the document repository 30 every time a predetermined acquisition period elapses. In this example, the document acquisition unit 21 transmits a document transmission request to each of all documents stored in the document repository 30. The document acquisition unit 21 receives the document transmitted by the document repository 30 in response to the transmitted document transmission request.

文書取得部21は、文書を受信すると、受信された文書に基づいて検索インデックス情報を生成する。文書取得部21は、検索インデックス情報を生成した場合、今回検索インデックス記憶部22に記憶されている検索インデックス情報のうちの、当該生成された検索インデックス情報を生成する基となった文書と同一の文書に対する検索インデックス情報を、前回検索インデックス記憶部23に移動させる。   Upon receiving the document, the document acquisition unit 21 generates search index information based on the received document. When the search index information is generated, the document acquisition unit 21 is the same as the document that is the basis for generating the generated search index information among the search index information stored in the search index storage unit 22 this time. The search index information for the document is moved to the previous search index storage unit 23.

即ち、文書取得部21は、当該検索インデックス情報を前回検索インデックス記憶部23に記憶させるとともに、当該検索インデックス情報を今回検索インデックス記憶部22から消去する。
その後、文書取得部21は、新たに生成された検索インデックス情報を今回検索インデックス記憶部22に記憶させる。
That is, the document acquisition unit 21 stores the search index information in the previous search index storage unit 23 and deletes the search index information from the current search index storage unit 22.
Thereafter, the document acquisition unit 21 stores the newly generated search index information in the current search index storage unit 22.

今回検索インデックス記憶部22は、図2に示したように、検索インデックス情報を記憶する。検索インデックス情報は、文書URIと、文書本文と、更新日時と、取得日時と、を含む。文書URIは、文書取得部21により取得される文書のURI(Uniform Resource Identifier)である。本例では、文書URIは、文書を識別するための文書識別情報を構成している。   The search index storage unit 22 stores the search index information as shown in FIG. The search index information includes a document URI, a document body, an update date / time, and an acquisition date / time. The document URI is a URI (Uniform Resource Identifier) of the document acquired by the document acquisition unit 21. In this example, the document URI constitutes document identification information for identifying the document.

文書本文は、文書取得部21により取得された文書が含む文字列(本文、テキスト)である。更新日時は、文書取得部21により文書が最後に更新された(即ち、当該文書が更新された最新(最終)の)日時である。取得日時は、文書取得部21により文書が取得された日時である。   The document body is a character string (body, text) included in the document acquired by the document acquisition unit 21. The update date and time is the date and time when the document was last updated by the document acquisition unit 21 (that is, the latest (last) date when the document was updated). The acquisition date and time is the date and time when the document is acquired by the document acquisition unit 21.

文書検索装置20の情報流動度基礎パラメータ算出部24は、上記取得周期が経過する毎に、今回検索インデックス記憶部22に記憶されているすべての検索インデックス情報のそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度基礎パラメータを算出する処理を実行する。情報流動度基礎パラメータ算出部24は、算出された情報流動度基礎パラメータを、文書識別情報としての文書URIと対応付けて情報流動度基礎パラメータ記憶部25に記憶させる。   The information fluidity basic parameter calculation unit 24 of the document search device 20 stores each of all the search index information stored in the current search index storage unit 22 (that is, stores it in the document repository 30) every time the acquisition cycle elapses. For each document), a process for calculating information flow basic parameters is executed. The information flow rate basic parameter calculation unit 24 stores the calculated information flow rate basic parameter in the information flow rate basic parameter storage unit 25 in association with the document URI as the document identification information.

情報流動度基礎パラメータは、文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する基となるパラメータである。情報流動度は、文書の特徴を表す文書特徴量である。情報流動度基礎パラメータは、第1の情報流動度基礎パラメータ、及び、第2の情報流動度基礎パラメータからなる。   The information flow degree basic parameter is a parameter that is a basis for calculating the information flow degree indicating the degree of changeability of information included in the document. The information fluidity is a document feature amount that represents a document feature. The information flow rate basic parameter includes a first information flow rate basic parameter and a second information flow rate basic parameter.

具体的には、情報流動度基礎パラメータ算出部24は、処理対象となる文書(処理対象文書)の更新量を、当該文書と対応付けて前回検索インデックス記憶部23及び今回検索インデックス記憶部22のそれぞれに記憶されている検索インデックス情報に含まれる文書本文に基づいて算出する。   Specifically, the information fluidity basic parameter calculation unit 24 associates the update amount of the processing target document (processing target document) with the document in the previous search index storage unit 23 and the current search index storage unit 22. Calculation is made based on the document text included in the search index information stored in each.

本例では、情報流動度基礎パラメータ算出部24は、文書の更新量としてレーベンシュタイン距離(編集距離)を用いる。なお、情報流動度基礎パラメータ算出部24は、文書の更新量として、文書が更新される程度が大きくなるほど大きくなる値を有する、他の量を用いてもよい。   In this example, the information fluidity basic parameter calculation unit 24 uses the Levenshtein distance (edit distance) as the update amount of the document. The information fluidity basic parameter calculation unit 24 may use another amount as the document update amount, which has a value that increases as the document is updated.

そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第1の情報流動度基礎パラメータに、上記算出された更新量を加算した値を更新値として算出する。情報流動度基礎パラメータ算出部24は、当該記憶されている第1の情報流動度基礎パラメータを、当該算出された更新値により更新する。   Then, the information flow rate basic parameter calculation unit 24 adds the calculated update amount to the first information flow rate basic parameter stored in the information flow rate basic parameter storage unit 25 in association with the processing target document. The calculated value is calculated as an update value. The information flow rate basic parameter calculation unit 24 updates the stored first information flow rate basic parameter with the calculated update value.

更に、情報流動度基礎パラメータ算出部24は、処理対象文書に対する更新間隔パラメータを、当該文書と対応付けて今回検索インデックス記憶部22に記憶されている検索インデックス情報に含まれる、更新日時及び取得日時に基づいて算出する。   Further, the information fluidity basic parameter calculation unit 24 updates the update date and the acquisition date and time included in the search index information stored in the current search index storage unit 22 by associating the update interval parameter for the processing target document with the document. Calculate based on

本例では、情報流動度基礎パラメータ算出部24は、更新間隔パラメータとして、基準日時(例えば、協定世界時における、1970年1月1日0時0分0秒)から、取得日時まで経過した秒数を表す第1の整数値から、当該基準日時から、更新日時まで経過した秒数を表す第2の整数値を減じた値を用いる。   In this example, the information fluidity basic parameter calculation unit 24 uses the reference date and time (for example, midnight on January 1, 1970, 00:00:00) as the update interval parameter, and the seconds elapsed from the acquisition date and time. A value obtained by subtracting a second integer value representing the number of seconds elapsed from the reference date and time to the update date and time from the first integer value representing the number is used.

即ち、更新間隔パラメータは、処理対象文書に対して、当該更新間隔パラメータを実質的に取得する時点(即ち、処理対象文書に対する取得日時)と、当該時点において当該文書が最後に更新された時点(即ち、処理対象文書に対する更新日時)と、の間の時間に比例した値である、と言うことができる。また、更新間隔パラメータは、文書の更新の間隔が長くなるほど大きくなる値を有する、と言うこともできる。   In other words, the update interval parameter includes the time when the update interval parameter is substantially acquired for the processing target document (that is, the acquisition date and time for the processing target document) and the time when the document is last updated at the time ( That is, it can be said that the value is proportional to the time between the update date and time for the processing target document. It can also be said that the update interval parameter has a value that increases as the document update interval increases.

そして、情報流動度基礎パラメータ算出部24は、処理対象文書と対応付けて情報流動度基礎パラメータ記憶部25に記憶されている第2の情報流動度基礎パラメータに、上記算出された更新間隔パラメータを加算した値を更新値として算出する。情報流動度基礎パラメータ算出部24は、当該記憶されている第2の情報流動度基礎パラメータを、当該算出された更新値により更新する。   Then, the information flow rate basic parameter calculation unit 24 associates the calculated update interval parameter with the second information flow rate basic parameter stored in the information flow rate basic parameter storage unit 25 in association with the processing target document. The added value is calculated as an update value. The information flow rate basic parameter calculation unit 24 updates the stored second information flow rate basic parameter with the calculated update value.

文書検索装置20の情報流動度基礎パラメータ記憶部25は、図3に示したように、文書URIと、第1の情報流動度基礎パラメータと、第2の情報流動度基礎パラメータと、を対応付けて記憶している。   As shown in FIG. 3, the information flow rate basic parameter storage unit 25 of the document search device 20 associates the document URI, the first information flow rate basic parameter, and the second information flow rate basic parameter. I remember.

文書検索装置20の検索処理実行部26は、上記取得周期が経過する毎に、情報流動度基礎パラメータ記憶部25に記憶されているすべての情報流動度基礎パラメータのそれぞれ(即ち、文書レポジトリ30に記憶されている、すべての文書のそれぞれ)に対して情報流動度を算出する処理を実行する。   Each time the acquisition cycle elapses, the search processing execution unit 26 of the document search device 20 sets each of all information flow rate basic parameters stored in the information flow rate basic parameter storage unit 25 (that is, in the document repository 30). The process of calculating the information flow rate is executed for each of the stored documents).

本例では、検索処理実行部26は、第1の情報流動度基礎パラメータα(T)と、第2の情報流動度基礎パラメータβ(T)と、数式1と、に基づいて、情報流動度F(T)を算出する。ここで、ωは、予め設定された、0以上であり且つ1以下である係数である。また、Tは、当該文書が取得された回数を表す。

Figure 0005673051
In this example, the search processing execution unit 26 determines the information flow rate based on the first information flow rate basic parameter α (T), the second information flow rate basic parameter β (T), and Equation 1. F (T) is calculated. Here, ω is a preset coefficient that is not less than 0 and not more than 1. T represents the number of times the document has been acquired.
Figure 0005673051

即ち、検索処理実行部26は、文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出している、と言うことができる。更に、検索処理実行部26は、文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出している、と言うことができる。   That is, it can be said that the search processing execution unit 26 calculates a value that increases as the sum of the update amounts acquired for the document increases as the information flow rate. Furthermore, it can be said that the search processing execution unit 26 calculates a value that decreases as the total sum of update interval parameters acquired for a document increases as the information flow rate.

また、検索処理実行部26は、端末装置10により送信された抽出条件情報を受信する(受け付ける)。抽出条件情報は、情報流動度に対する第1の抽出条件と、文書本文に対する第2の抽出条件と、を含む抽出条件を表す情報である。   In addition, the search processing execution unit 26 receives (accepts) the extraction condition information transmitted by the terminal device 10. The extraction condition information is information representing an extraction condition including a first extraction condition for the information fluidity and a second extraction condition for the document text.

第1の抽出条件は、例えば、情報流動度の範囲を定める条件である。第2の抽出条件は、文書本文に含まれる文字列を定める条件である。   The first extraction condition is, for example, a condition that defines a range of information flow rate. The second extraction condition is a condition for determining a character string included in the document body.

検索処理実行部26は、算出された情報流動度、及び、今回検索インデックス記憶部22に記憶されている文書本文が、受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する。更に、検索処理実行部26は、抽出された文書のリストを端末装置10へ送信(出力)する。   The search processing execution unit 26 extracts a document in which the calculated information flow rate and the document text stored in the current search index storage unit 22 satisfy the extraction condition represented by the received extraction condition information. Further, the search processing execution unit 26 transmits (outputs) the extracted document list to the terminal device 10.

端末装置10のユーザインタフェース部11は、ユーザにより入力された抽出条件情報を受け付ける。ユーザインタフェース部11は、受け付けられた抽出条件情報を文書検索装置20へ送信する。更に、ユーザインタフェース部11は、送信した抽出条件情報に応じて文書検索装置20により送信された、文書のリストを受信する。ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する(ディスプレイに表示させる)。   The user interface unit 11 of the terminal device 10 receives the extraction condition information input by the user. The user interface unit 11 transmits the accepted extraction condition information to the document search device 20. Furthermore, the user interface unit 11 receives a list of documents transmitted by the document search device 20 in accordance with the transmitted extraction condition information. The user interface unit 11 outputs the received document list via the output device (displays it on the display).

(作動)
次に、上述した文書検索システム1の作動について説明する。
文書検索装置20は、図4にフローチャートにより示した文書特徴量算出プログラムを実行するようになっている。
(Operation)
Next, the operation of the document search system 1 described above will be described.
The document search device 20 executes the document feature amount calculation program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、文書特徴量算出プログラムの処理を開始すると、先ず、変数Nを、今回検索インデックス記憶部22に記憶されている検索インデックス情報の総数に設定する。更に、変数iを「0」に設定する(ステップS101)。   More specifically, when starting the processing of the document feature amount calculation program, the document search device 20 first sets the variable N to the total number of search index information stored in the current search index storage unit 22. Further, the variable i is set to “0” (step S101).

次いで、文書検索装置20は、変数iに「1」を加算する(ステップS102)。そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS103)。   Next, the document search device 20 adds “1” to the variable i (step S102). Then, the document search device 20 determines whether or not the variable N is smaller than the variable i (step S103).

この時点では、変数Nは、変数i以上の値である。従って、文書検索装置20は、「No」と判定してステップS104へ進む。そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、第1の情報流動度基礎パラメータα、及び、第2の情報流動度基礎パラメータβを取得する。   At this time, the variable N is a value greater than or equal to the variable i. Accordingly, the document search device 20 determines “No” and proceeds to step S104. Then, the document search device 20 corresponds to the i-th search index information (that is, the document included in the i-th search index information) among the information fluidity basic parameters stored in the information flow basic parameter storage unit 25. The first information flow rate basic parameter α and the second information flow rate basic parameter β are associated with the URI).

なお、文書検索装置20は、i番目の検索インデックス情報に対する情報流動度基礎パラメータが、情報流動度基礎パラメータ記憶部25に記憶されていない場合、i番目の検索インデックス情報に含まれる文書URIと対応付けて、第1の情報流動度基礎パラメータαとしての「0」と、第2の情報流動度基礎パラメータβとしての「0」と、を情報流動度基礎パラメータ記憶部25に記憶させる。   Note that the document search device 20 corresponds to the document URI included in the i th search index information when the information flow rate basic parameter for the i th search index information is not stored in the information flow rate basic parameter storage unit 25. In addition, “0” as the first information flow rate basic parameter α and “0” as the second information flow rate basic parameter β are stored in the information flow rate basic parameter storage unit 25.

次いで、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報に基づいて更新間隔パラメータdtを算出する(ステップS105)。そして、文書検索装置20は、今回検索インデックス記憶部22に記憶されているi番目の検索インデックス情報と、当該検索インデックス情報に含まれる文書URIを含む、前回検索インデックス記憶部23に記憶されている検索インデックス情報と、に基づいて、文書の更新量dsを算出する(ステップS106)。   Next, the document search device 20 calculates an update interval parameter dt based on the i-th search index information stored in the current search index storage unit 22 (step S105). The document search device 20 is stored in the previous search index storage unit 23 including the i-th search index information stored in the current search index storage unit 22 and the document URI included in the search index information. Based on the search index information, a document update amount ds is calculated (step S106).

次いで、文書検索装置20は、ステップS104にて取得された第1の情報流動度基礎パラメータαに、ステップS106にて算出された更新量dsを加算することにより、第1の情報流動度基礎パラメータαを更新する。更に、文書検索装置20は、ステップS104にて取得された第2の情報流動度基礎パラメータβに、ステップS105にて算出された更新間隔パラメータdtを加算することにより、第2の情報流動度基礎パラメータβを更新する(ステップS107)。   Next, the document search device 20 adds the update amount ds calculated in step S106 to the first information flow rate basic parameter α acquired in step S104, thereby obtaining the first information flow rate basic parameter. Update α. Furthermore, the document search device 20 adds the update interval parameter dt calculated in step S105 to the second information flow rate basic parameter β acquired in step S104, thereby obtaining the second information flow rate basis. The parameter β is updated (step S107).

そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第1の情報流動度基礎パラメータαを、ステップS107にて更新された第1の情報流動度基礎パラメータαに更新(置換)する。   Then, the document search device 20 sets the first information flow rate basic parameter α for the i-th search index information among the information flow rate basic parameters stored in the information flow rate basic parameter storage unit 25 in step S107. Is updated (replaced) with the first information flow rate basic parameter α updated in (1).

同様に、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する第2の情報流動度基礎パラメータβを、ステップS107にて更新された第2の情報流動度基礎パラメータβに更新(置換)する(ステップS108)。   Similarly, the document search device 20 performs the step of setting the second information flow rate basic parameter β for the i-th search index information among the information flow rate basic parameters stored in the information flow rate basic parameter storage unit 25. Update (replace) the second information flow rate basic parameter β updated in S107 (step S108).

そして、文書検索装置20は、ステップS102へ戻り、ステップS102〜ステップS108の処理を、ステップS103における変数iが変数Nよりも大きくなるまで繰り返し実行する。   Then, the document search device 20 returns to step S102, and repeatedly executes the processing of step S102 to step S108 until the variable i in step S103 becomes larger than the variable N.

また、文書検索装置20は、図5にフローチャートにより示した検索処理プログラムを実行するようになっている。   Further, the document search device 20 executes the search processing program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、検索処理プログラムの処理を開始すると、抽出条件情報を受信するまで待機する(ステップS201)。   Specifically, when the processing of the search processing program is started, the document search device 20 waits until receiving the extraction condition information (step S201).

一方、端末装置10は、ユーザにより入力された抽出条件情報を受け付ける。そして、端末装置10は、受け付けられた抽出条件情報を文書検索装置20へ送信する。   On the other hand, the terminal device 10 receives the extraction condition information input by the user. Then, the terminal device 10 transmits the accepted extraction condition information to the document search device 20.

これにより、抽出条件情報を受信すると、文書検索装置20は、ステップS202へ進み、今回検索インデックス記憶部22に記憶されている検索インデックス情報のそれぞれに対して情報流動度を算出する。本例では、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータに基づいて情報流動度を算出する。   Accordingly, when the extraction condition information is received, the document search device 20 proceeds to step S202, and calculates the information flow rate for each of the search index information stored in the search index storage unit 22 this time. In this example, the document search device 20 calculates the information flow rate based on the information flow rate basic parameter stored in the information flow rate basic parameter storage unit 25.

そして、文書検索装置20は、受信された抽出条件情報が表す抽出条件と、算出された情報流動度と、今回検索インデックス記憶部22に記憶されている検索インデックス情報と、に基づいて、抽出条件を満足する文書を抽出する(ステップS203)。そして、文書検索装置20は、抽出された文書のリストを端末装置10へ送信する(ステップS204)。
その後、文書検索装置20は、ステップS201へ戻り、ステップS201〜ステップS204の処理を繰り返し実行する。
Then, the document search device 20 extracts the extraction condition based on the extraction condition represented by the received extraction condition information, the calculated information flow rate, and the search index information stored in the current search index storage unit 22. Are extracted (step S203). Then, the document search device 20 transmits the extracted document list to the terminal device 10 (step S204).
Thereafter, the document search device 20 returns to step S201, and repeatedly executes the processing of steps S201 to S204.

一方、端末装置10は、文書検索装置20から文書のリストを受信する。そして、端末装置10は、受信された文書のリストを出力装置を介して出力する。   On the other hand, the terminal device 10 receives a list of documents from the document search device 20. Then, the terminal device 10 outputs the received document list via the output device.

以上、説明したように、第1実施形態に係る文書検索装置20によれば、文書検索装置20は、情報流動度を文書特徴量として算出する。これにより、文書検索装置20は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。   As described above, according to the document search device 20 according to the first embodiment, the document search device 20 calculates the information flow rate as the document feature amount. Thereby, the document search device 20 can calculate a document feature amount that expresses to some extent the information contained in the document is important to the user with high accuracy.

更に、第1実施形態に係る文書検索装置20は、文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を情報流動度として算出する。   Furthermore, the document search apparatus 20 according to the first embodiment acquires the update amount of the document at each of a plurality of time points, and sets the value that increases as the sum of the update amounts acquired for the document increases as the information flow Calculate as degrees.

複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。   The sum of the update amounts of the documents acquired at each of the plurality of time points has a relatively strong correlation with the possibility that the documents include information important to the user. Therefore, according to the above configuration, it is possible to calculate a document feature amount that represents a certain degree of importance of information contained in a document for a user with higher accuracy.

加えて、第1実施形態に係る文書検索装置20は、文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を情報流動度として算出する。   In addition, the document search apparatus 20 according to the first embodiment acquires the update interval parameter having a value that increases as the update interval of the document increases at each of a plurality of time points, and is acquired for the document. A value that decreases as the sum of the update interval parameters increases is calculated as the information flow rate.

複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。   The sum of the update interval parameters corresponding to the update interval of the document acquired at each of the plurality of time points has a relatively strong correlation with the possibility that the document includes information important to the user. Therefore, according to the above configuration, it is possible to calculate a document feature amount that represents a certain degree of importance of information contained in a document for a user with higher accuracy.

更に、第1実施形態に係る文書検索装置20は、情報流動度に対する抽出条件を表す抽出条件情報を受け付け、算出された情報流動度が、当該抽出条件を満足する文書を抽出する。   Furthermore, the document search apparatus 20 according to the first embodiment receives extraction condition information representing an extraction condition for the information flow rate, and extracts a document whose calculated information flow rate satisfies the extraction condition.

これによれば、文書検索装置20は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。   According to this, the document search device 20 executes a search process for extracting a document based on the extraction condition for the information flow rate input by the user. Thereby, the user can easily find a document including desired information.

<第2実施形態>
次に、本発明の第2実施形態に係る文書検索システムについて説明する。第2実施形態に係る文書検索システムは、上記第1実施形態に係る文書検索システムに対して、文書検索装置20が、情報流動度の大きさの順に並べて、文書のリストを出力する点において相違している。従って、以下、かかる相違点を中心として説明する。
Second Embodiment
Next, a document search system according to the second embodiment of the present invention will be described. The document search system according to the second embodiment is different from the document search system according to the first embodiment in that the document search device 20 outputs a list of documents arranged in the order of the information flow rate. doing. Accordingly, the following description will focus on such differences.

(機能)
第2実施形態に係る抽出条件情報は、文書本文に対する抽出条件を表す情報である。抽出条件は、文書本文に含まれる文字列を定める条件である。
(function)
The extraction condition information according to the second embodiment is information representing the extraction condition for the document text. The extraction condition is a condition for determining a character string included in the document text.

第2実施形態に係るユーザインタフェース部11は、ユーザにより入力された並替指示情報を受け付ける。並替指示情報は、降順、及び、昇順のいずれか一方を表す情報である。ユーザインタフェース部11は、受け付けられた並替指示情報を文書検索装置20へ送信する。更に、ユーザインタフェース部11は、送信した並替指示情報に応じて文書検索装置20により送信された、文書のリストを受信する。ユーザインタフェース部11は、受信された文書のリストを出力装置を介して出力する。   The user interface unit 11 according to the second embodiment receives rearrangement instruction information input by the user. The rearrangement instruction information is information representing one of descending order and ascending order. The user interface unit 11 transmits the accepted sorting instruction information to the document search device 20. Further, the user interface unit 11 receives a list of documents transmitted by the document search device 20 according to the transmitted rearrangement instruction information. The user interface unit 11 outputs the received document list via the output device.

検索処理実行部26は、端末装置10から並替指示情報を受信する。検索処理実行部26は、並替指示情報を受信すると、上記抽出された文書のそれぞれに対して算出された情報流動度の大きさの、当該並替指示情報が表す順(降順、又は、昇順)に並べて、上記抽出された文書のリストを端末装置10へ送信する。   The search processing execution unit 26 receives the rearrangement instruction information from the terminal device 10. When the search processing execution unit 26 receives the sort instruction information, the order of the information flow degree calculated for each of the extracted documents in the order indicated by the sort instruction information (descending order or ascending order). ) And the extracted list of documents is transmitted to the terminal device 10.

(作動)
次に、上述した文書検索システム1の作動について説明する。
第2実施形態に係る文書検索装置20は、図4に示した文書特徴量算出プログラムと同一の処理を実行する。
また、第2実施形態に係る文書検索装置20は、図5に示した検索処理プログラムから、ステップS202の処理を除いた処理を実行する。
(Operation)
Next, the operation of the document search system 1 described above will be described.
The document search device 20 according to the second embodiment executes the same processing as the document feature amount calculation program shown in FIG.
Further, the document search device 20 according to the second embodiment executes a process excluding the process of step S202 from the search processing program shown in FIG.

更に、第2実施形態に係る文書検索装置20は、図6にフローチャートにより示した並替処理プログラムを実行するようになっている。   Furthermore, the document search apparatus 20 according to the second embodiment is configured to execute the rearrangement processing program shown by the flowchart in FIG.

具体的に述べると、文書検索装置20は、並替処理プログラムの処理を開始すると、並替指示情報を受信するまで待機する(ステップS301)。そして、並替指示情報を受信すると、文書検索装置20は、ステップS302へ進み、変数Nを、図5のステップS203にて抽出された文書の総数に設定する。更に、変数iを「0」に設定する。   More specifically, when the processing of the reordering process program is started, the document search device 20 waits until reordering instruction information is received (step S301). When receiving the reordering instruction information, the document search device 20 proceeds to step S302, and sets the variable N to the total number of documents extracted in step S203 of FIG. Further, the variable i is set to “0”.

次いで、文書検索装置20は、変数iに「1」を加算する(ステップS303)。そして、文書検索装置20は、変数Nが変数iよりも小さいか否かを判定する(ステップS304)。   Next, the document search device 20 adds “1” to the variable i (step S303). Then, the document search device 20 determines whether or not the variable N is smaller than the variable i (step S304).

この時点では、変数Nは、変数i以上の値である。従って、文書検索装置20は、「No」と判定してステップS305へ進む。そして、文書検索装置20は、情報流動度基礎パラメータ記憶部25に記憶されている情報流動度基礎パラメータのうちの、i番目の検索インデックス情報に対する(即ち、i番目の検索インデックス情報に含まれる文書URIと対応付けられた)、情報流動度基礎パラメータに基づいて情報流動度を算出する。   At this time, the variable N is a value greater than or equal to the variable i. Accordingly, the document search device 20 determines “No” and proceeds to step S305. Then, the document search device 20 corresponds to the i-th search index information (that is, the document included in the i-th search index information) among the information fluidity basic parameters stored in the information flow basic parameter storage unit 25. The information flow rate is calculated based on the information flow rate basic parameter (corresponding to the URI).

そして、文書検索装置20は、ステップS303へ戻り、ステップS303〜ステップS305の処理を、ステップS304における変数iが変数Nよりも大きくなるまで繰り返し実行する。   Then, the document search device 20 returns to step S303, and repeats the processing of steps S303 to S305 until the variable i in step S304 becomes larger than the variable N.

その後、文書検索装置20は、ステップS306へ進み、ステップS305にて算出された情報流動度の大きさが、受信された並替指示情報が表す順(降順、又は、昇順)に並ぶように、図5のステップS203にて抽出された文書を並び替える(ステップS306)。そして、文書検索装置20は、並び替えられた文書のリストを端末装置10へ送信する(ステップS307)。   Thereafter, the document search device 20 proceeds to step S306, and the magnitude of the information fluidity calculated in step S305 is arranged in the order (descending order or ascending order) represented by the received rearrangement instruction information. The documents extracted in step S203 in FIG. 5 are rearranged (step S306). Then, the document search device 20 transmits the rearranged document list to the terminal device 10 (step S307).

その後、文書検索装置20は、ステップS301へ戻り、ステップS301〜ステップS307の処理を繰り返し実行する。   Thereafter, the document search device 20 returns to step S301, and repeatedly executes the processes of steps S301 to S307.

以上、説明したように、本発明の第2実施形態に係る文書検索システム1によれば、第1実施形態に係る文書検索システム1と同様の作用及び効果を奏することができる。
更に、第2実施形態に係る文書検索装置20は、算出された情報流動度の大きさの順に並べて、文書のリストを出力する。
As described above, according to the document search system 1 according to the second embodiment of the present invention, the same operation and effect as the document search system 1 according to the first embodiment can be achieved.
Furthermore, the document search device 20 according to the second embodiment arranges the calculated information flow rates in order of magnitude and outputs a document list.

これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。   According to this, the user can more easily find a document including desired information.

<第3実施形態>
次に、本発明の第3実施形態に係る文書特徴量算出装置について図7を参照しながら説明する。
第3実施形態に係る文書特徴量算出装置100は、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出部(情報流動度算出手段)101を備える。
<Third Embodiment>
Next, a document feature amount calculation apparatus according to a third embodiment of the present invention will be described with reference to FIG.
The document feature amount calculation apparatus 100 according to the third embodiment
An information fluidity calculating unit (information fluidity calculating means) 101 is provided that calculates an information fluidity representing the degree of changeability of information included in the document as a document feature amount representing a document feature.

これによれば、文書特徴量算出装置100は、情報流動度を文書特徴量として算出する。これにより、文書特徴量算出装置100は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。   According to this, the document feature value calculation apparatus 100 calculates the information flow rate as the document feature value. As a result, the document feature amount calculation apparatus 100 can calculate a document feature amount that expresses to some extent the information included in the document is important to the user with high accuracy.

以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。   Although the present invention has been described with reference to the above embodiment, the present invention is not limited to the above-described embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

なお、上記各実施形態において文書特徴量算出装置の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。   In each of the above embodiments, each function of the document feature amount calculation device is realized by the CPU executing a program (software), but may be realized by hardware such as a circuit.

また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。   In each of the above embodiments, the program is stored in the storage device, but may be stored in a computer-readable recording medium. For example, the recording medium is a portable medium such as a flexible disk, an optical disk, a magneto-optical disk, and a semiconductor memory.

また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。   Further, any other combination of the above-described embodiment and modification examples may be adopted as another modification example of the above-described embodiment.

<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
<Appendix>
A part or all of the above embodiment can be described as the following supplementary notes, but is not limited thereto.

(付記1)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を備える文書特徴量算出装置。
(Appendix 1)
A document feature amount calculation apparatus comprising information fluidity calculation means for calculating an information fluidity representing a degree of changeability of information included in a document as a document feature amount representing a document feature.

これによれば、文書特徴量算出装置は、情報流動度を文書特徴量として算出する。これにより、文書特徴量算出装置は、文書が含む情報がユーザにとって重要である程度を高い精度にて表す文書特徴量を算出することができる。   According to this, the document feature amount calculation device calculates the information fluidity as the document feature amount. As a result, the document feature amount calculation apparatus can calculate a document feature amount that expresses to some extent the information contained in the document is important to the user with high accuracy.

(付記2)
付記1に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
(Appendix 2)
The document feature amount calculation apparatus according to attachment 1, wherein
The information fluidity calculation means acquires the update amount of the document at each of a plurality of time points, and calculates a value that increases as the sum of the update amounts acquired for the document increases as the information fluidity. Document feature amount calculation apparatus configured as described above.

複数の時点のそれぞれにて取得された文書の更新量の総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。   The sum of the update amounts of the documents acquired at each of the plurality of time points has a relatively strong correlation with the possibility that the documents include information important to the user. Therefore, according to the above configuration, it is possible to calculate a document feature amount that represents a certain degree of importance of information contained in a document for a user with higher accuracy.

(付記3)
付記1又は付記2に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出装置。
(Appendix 3)
The document feature amount calculation apparatus according to Appendix 1 or 2, wherein:
The information fluidity calculation means acquires an update interval parameter having a value that increases as the update interval of the document becomes longer at each of a plurality of time points, and the sum of the update interval parameters acquired for the document is A document feature amount calculation device configured to calculate a value that decreases as the value increases as the information flow rate.

複数の時点のそれぞれにて取得された文書の更新の間隔に対応する更新間隔パラメータの総和は、文書がユーザにとって重要な情報を含む可能性と、比較的強い相関を有する。従って、上記構成によれば、文書が含む情報がユーザにとって重要である程度をより一層高い精度にて表す文書特徴量を算出することができる。   The sum of the update interval parameters corresponding to the update interval of the document acquired at each of the plurality of time points has a relatively strong correlation with the possibility that the document includes information important to the user. Therefore, according to the above configuration, it is possible to calculate a document feature amount that represents a certain degree of importance of information contained in a document for a user with higher accuracy.

(付記4)
付記3に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。
(Appendix 4)
A document feature amount calculation apparatus according to attachment 3, wherein
The information flow rate calculation means calculates a value proportional to the time between the time when the update interval parameter is acquired for the document and the time when the document was last updated at the time. A document feature amount calculation device configured to be acquired as an interval parameter.

(付記5)
付記1乃至付記4のいずれか一項に記載の文書特徴量算出装置であって、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を備える文書特徴量算出装置。
(Appendix 5)
The document feature amount calculation apparatus according to any one of Appendix 1 to Appendix 4,
Extraction condition information receiving means for receiving extraction condition information indicating an extraction condition for the information flow rate;
A document extracting means for extracting a document in which the calculated information flow rate satisfies the extraction condition represented by the accepted extraction condition information;
A document feature amount calculation apparatus.

これによれば、文書特徴量算出装置は、ユーザにより入力された、情報流動度に対する抽出条件に基づいて文書を抽出する検索処理を実行する。これにより、ユーザは、所望する情報を含む文書を容易に探し出すことができる。   According to this, the document feature amount calculation apparatus executes a search process for extracting a document based on the extraction condition for the information flow rate input by the user. Thereby, the user can easily find a document including desired information.

(付記6)
付記1乃至付記5のいずれか一項に記載の文書特徴量算出装置であって、
前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。
(Appendix 6)
The document feature amount calculation apparatus according to any one of attachments 1 to 5,
A document feature amount calculation apparatus comprising document list output means for outputting a list of documents arranged in order of the calculated information flow rate.

これによれば、ユーザは、所望する情報を含む文書を、より一層容易に探し出すことができる。   According to this, the user can more easily find a document including desired information.

(付記7)
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する、文書特徴量算出方法。
(Appendix 7)
A document feature amount calculation method for calculating an information fluidity representing a degree of changeability of information included in a document as a document feature amount representing a document feature.

(付記8)
付記7に記載の文書特徴量算出方法であって、
前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する、文書特徴量算出方法。
(Appendix 8)
The document feature amount calculation method according to attachment 7, wherein
A document feature amount calculation method of obtaining an update amount of the document at each of a plurality of time points, and calculating a value that increases as the sum of the update amounts acquired for the document increases as the information flow rate.

(付記9)
付記7又は付記8に記載の文書特徴量算出方法であって、
前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する、文書特徴量算出方法。
(Appendix 9)
The document feature value calculation method according to Appendix 7 or Appendix 8,
An update interval parameter having a value that increases as the update interval of the document becomes longer is acquired at each of a plurality of time points, and a value that becomes smaller as the sum of the update interval parameters acquired for the document increases. A document feature amount calculation method for calculating fluidity.

(付記10)
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出する情報流動度算出手段を実現させるための文書特徴量算出プログラム。
(Appendix 10)
In the information processing device,
A document feature amount calculation program for realizing an information fluidity calculating unit that calculates an information fluidity representing a degree of changeability of information included in a document as a document feature amount representing a document feature.

(付記11)
付記10に記載の文書特徴量算出プログラムであって、
前記情報流動度算出手段は、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。
(Appendix 11)
A document feature amount calculation program according to attachment 10, wherein
The information fluidity calculation means acquires the update amount of the document at each of a plurality of time points, and calculates a value that increases as the sum of the update amounts acquired for the document increases as the information fluidity. A document feature amount calculation program configured as described above.

(付記12)
付記10又は付記11に記載の文書特徴量算出プログラムであって、
前記情報流動度算出手段は、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出するように構成された文書特徴量算出プログラム。
(Appendix 12)
A document feature amount calculation program according to attachment 10 or attachment 11,
The information fluidity calculation means acquires an update interval parameter having a value that increases as the update interval of the document becomes longer at each of a plurality of time points, and the sum of the update interval parameters acquired for the document is A document feature amount calculation program configured to calculate a value that decreases as the value increases as the information flow rate.

本発明は、文書の特徴を表す文書特徴量を算出する文書特徴量算出装置、及び、文書の検索を行う文書検索装置等に適用可能である。   The present invention is applicable to a document feature amount calculation device that calculates a document feature amount that represents a document feature, a document search device that searches a document, and the like.

1 文書検索システム
10 端末装置
11 ユーザインタフェース部
20 文書検索装置(文書特徴量算出装置)
21 文書取得部
22 今回検索インデックス記憶部
23 前回検索インデックス記憶部
24 情報流動度基礎パラメータ算出部
25 情報流動度基礎パラメータ記憶部
26 検索処理実行部
30 文書レポジトリ
100 文書特徴量算出装置
101 情報流動度算出部
DESCRIPTION OF SYMBOLS 1 Document search system 10 Terminal apparatus 11 User interface part 20 Document search apparatus (document feature-value calculation apparatus)
21 Document acquisition unit 22 Current search index storage unit 23 Previous search index storage unit 24 Information flow rate basic parameter calculation unit 25 Information flow rate basic parameter storage unit 26 Search processing execution unit 30 Document repository 100 Document feature amount calculation device 101 Information flow rate Calculation unit

Claims (8)

文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する情報流動度算出手段と、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を備える文書特徴量算出装置。
As the document feature amount representing the feature of the document, an information fluidity representing the degree of changeability of information included in the document is calculated , and the update amount of the document is acquired at each of a plurality of points in time, Information fluidity calculating means for calculating, as the information fluidity, a value that increases as the total amount of updates acquired for the document increases ;
Extraction condition information receiving means for receiving extraction condition information indicating an extraction condition for the information flow rate;
A document extracting means for extracting a document in which the calculated information flow rate satisfies the extraction condition represented by the accepted extraction condition information;
A document feature amount calculation apparatus.
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する情報流動度算出手段と、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を備える文書特徴量算出装置。
An update interval parameter having a value that increases as the document update amount increases as the document update amount indicates the degree of changeability of information included in the document, and the update interval of the document increases. Information flow rate calculating means for calculating a value that decreases as the total sum of update interval parameters acquired for the document increases as the information flow rate ;
Extraction condition information receiving means for receiving extraction condition information indicating an extraction condition for the information flow rate;
A document extracting means for extracting a document in which the calculated information flow rate satisfies the extraction condition represented by the accepted extraction condition information;
A document feature amount calculation apparatus.
請求項2に記載の文書特徴量算出装置であって、
前記情報流動度算出手段は、前記文書に対して、前記更新間隔パラメータを取得する時点と、当該時点において当該文書が最後に更新された時点と、の間の時間に比例した値を、当該更新間隔パラメータとして取得するように構成された文書特徴量算出装置。
The document feature amount calculation apparatus according to claim 2 ,
The information flow rate calculation means calculates a value proportional to the time between the time when the update interval parameter is acquired for the document and the time when the document was last updated at the time. A document feature amount calculation device configured to be acquired as an interval parameter.
請求項1乃至請求項のいずれか一項に記載の文書特徴量算出装置であって、
前記算出された情報流動度の大きさの順に並べて、文書のリストを出力する文書リスト出力手段を備える文書特徴量算出装置。
The document feature amount calculation apparatus according to any one of claims 1 to 3 ,
A document feature amount calculation apparatus comprising document list output means for outputting a list of documents arranged in order of the calculated information flow rate.
情報処理装置が備えるCPUが、文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出し、
前記CPUが、前記情報流動度に対する抽出条件を表す抽出条件情報を受け付け、
前記CPUが、前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する、
文書特徴量算出方法。
The CPU included in the information processing apparatus calculates an information flow degree indicating the degree of changeability of information included in the document as a document feature amount indicating the feature of the document, and sets the update amount of the document at a plurality of time points. And the value that increases as the sum of the update amounts acquired for the document increases as the information flow rate,
The CPU accepts extraction condition information indicating an extraction condition for the information flow rate,
The CPU extracts a document in which the calculated information flow rate satisfies an extraction condition represented by the accepted extraction condition information;
Document feature amount calculation method.
情報処理装置が備えるCPUが、文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出し、
前記CPUが、前記情報流動度に対する抽出条件を表す抽出条件情報を受け付け、
前記CPUが、前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する、
文書特徴量算出方法。
The CPU included in the information processing apparatus calculates an information fluidity representing the degree of changeability of information included in the document as a document feature amount representing the document feature, and as the document update interval becomes longer An update interval parameter having a large value is acquired at each of a plurality of time points, and a value that decreases as the sum of the update interval parameters acquired for the document increases is calculated as the information flow rate.
The CPU accepts extraction condition information indicating an extraction condition for the information flow rate,
The CPU extracts a document in which the calculated information flow rate satisfies an extraction condition represented by the accepted extraction condition information;
Document feature amount calculation method.
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新量を複数の時点のそれぞれにて取得し、当該文書に対して取得された更新量の総和が大きくなるほど大きくなる値を前記情報流動度として算出する情報流動度算出手段と、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を実現させるための文書特徴量算出プログラム。
In the information processing device,
As the document feature amount representing the feature of the document, an information fluidity representing the degree of changeability of information included in the document is calculated , and the update amount of the document is acquired at each of a plurality of points in time, Information fluidity calculating means for calculating, as the information fluidity, a value that increases as the total amount of updates acquired for the document increases ;
Extraction condition information receiving means for receiving extraction condition information indicating an extraction condition for the information flow rate;
A document extracting means for extracting a document in which the calculated information flow rate satisfies the extraction condition represented by the accepted extraction condition information;
Document feature amount calculation program for realizing the above.
情報処理装置に、
文書の特徴を表す文書特徴量として、当該文書に含まれる情報の変化しやすさの程度を表す情報流動度を算出すると共に、前記文書の更新の間隔が長くなるほど大きくなる値を有する更新間隔パラメータを複数の時点のそれぞれにて取得し、当該文書に対して取得された更新間隔パラメータの総和が大きくなるほど小さくなる値を前記情報流動度として算出する情報流動度算出手段と、
前記情報流動度に対する抽出条件を表す抽出条件情報を受け付ける抽出条件情報受付手段と、
前記算出された情報流動度が、前記受け付けられた抽出条件情報が表す抽出条件を満足する文書を抽出する文書抽出手段と、
を実現させるための文書特徴量算出プログラム。
In the information processing device,
An update interval parameter having a value that increases as the document update amount increases as the document update amount indicates the degree of changeability of information included in the document, and the update interval of the document increases. Information flow rate calculating means for calculating a value that decreases as the total sum of update interval parameters acquired for the document increases as the information flow rate ;
Extraction condition information receiving means for receiving extraction condition information indicating an extraction condition for the information flow rate;
A document extracting means for extracting a document in which the calculated information flow rate satisfies the extraction condition represented by the accepted extraction condition information;
Document feature amount calculation program for realizing the above.
JP2010274267A 2010-12-09 2010-12-09 Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program Active JP5673051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010274267A JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program

Publications (2)

Publication Number Publication Date
JP2012123647A JP2012123647A (en) 2012-06-28
JP5673051B2 true JP5673051B2 (en) 2015-02-18

Family

ID=46505012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010274267A Active JP5673051B2 (en) 2010-12-09 2010-12-09 Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program

Country Status (1)

Country Link
JP (1) JP5673051B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264927A (en) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Web site retrieval method and device, web site retrieval program, and storage medium recording the program
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
JP2006215998A (en) * 2005-02-07 2006-08-17 Keyence Corp Data collection system
JP2008129645A (en) * 2006-11-16 2008-06-05 Canon Inc Document management system

Also Published As

Publication number Publication date
JP2012123647A (en) 2012-06-28

Similar Documents

Publication Publication Date Title
TWI787803B (en) Methods, systems, and computer storage media for implementing neural networks in fixed point arithmetic computing systems
KR101283019B1 (en) Method of generating saas appication and server performing the same
JP2006202159A (en) Information provision system, information provision method and program therefor
JP2013008255A (en) Document similarity calculation device
JP5264813B2 (en) Evaluation apparatus, evaluation method, and evaluation program
US20220027404A1 (en) Determining and utilizing actual purpose of user-assembled collection of electronic content items
JP2014215685A (en) Recommendation server and recommendation content determination method
JP2016122241A (en) Advertisement selection device, advertisement selection method, and program
JP5673051B2 (en) Document feature amount calculation apparatus, document feature amount calculation method, and document feature amount calculation program
JP5537453B2 (en) Server and information processing method
JP5928446B2 (en) Information search system, information search method, and information search program
JP5644558B2 (en) Document relevance calculation device
JP2010015394A (en) Link destination presentation device and computer program
JP5636700B2 (en) Related word dictionary creation device, related word dictionary creation method, program, and document search system
JP5084760B2 (en) Scenario development support apparatus and scenario development support method
JP2013054424A (en) Display screen conversion device, display screen conversion system, display screen conversion method, and program
JP5752630B2 (en) RECOMMENDATION INFORMATION GENERATION DEVICE AND RECOMMENDATION INFORMATION GENERATION METHOD
US20180088970A1 (en) Mapping of user interfaces within applications
JP2012141905A (en) Document search device
JP5575075B2 (en) Representative document selection apparatus and method, program, and computer-readable recording medium
JP6160427B2 (en) Difference extraction system and program
JP6075051B2 (en) Server apparatus, electronic conference system, and program
JP6201417B2 (en) Data extraction program, data extraction method, and data extraction apparatus
JP7031387B2 (en) Information processing equipment, information processing methods, and information processing programs
JP5202598B2 (en) Workflow management device and workflow management program

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150