JP4525224B2 - Document management program, document management method, and document management apparatus - Google Patents

Document management program, document management method, and document management apparatus Download PDF

Info

Publication number
JP4525224B2
JP4525224B2 JP2004216982A JP2004216982A JP4525224B2 JP 4525224 B2 JP4525224 B2 JP 4525224B2 JP 2004216982 A JP2004216982 A JP 2004216982A JP 2004216982 A JP2004216982 A JP 2004216982A JP 4525224 B2 JP4525224 B2 JP 4525224B2
Authority
JP
Japan
Prior art keywords
word
document
documents
group
search keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004216982A
Other languages
Japanese (ja)
Other versions
JP2006039811A (en
JP2006039811A5 (en
Inventor
雅夫 額賀
惠久 川邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004216982A priority Critical patent/JP4525224B2/en
Publication of JP2006039811A publication Critical patent/JP2006039811A/en
Publication of JP2006039811A5 publication Critical patent/JP2006039811A5/ja
Application granted granted Critical
Publication of JP4525224B2 publication Critical patent/JP4525224B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数のドキュメント群から、ドキュメントを検索するドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置に関する。   The present invention relates to a document management program, a document management method, and a document management apparatus for searching for a document from a plurality of document groups.

従来から、文書などのドキュメントをデータベースに登録しておき、当該文書中に含まれる単語をキーワードとしてドキュメントを全文検索する装置が用いられている。   2. Description of the Related Art Conventionally, an apparatus that registers documents such as documents in a database and performs a full text search using a word included in the document as a keyword is used.

例えば特許文献1に開示されている技術によると、かかる検索における場合に、利用者が適切な検索結果を得るまでに繰り返し検索をやり直す手間を削減するため、所定の文書をデータベースに予め登録し、所定の検索条件に関連する文書をこのデータベースから取り出す場合、所定の検索条件を用いた検索によって得られた文書中に存在する単語をピックアップし、次回の検索時に追加すべき新たな検索語の候補として、上記ピックアップされた単語を提示する。
特開平9−218881号公報
For example, according to the technique disclosed in Patent Document 1, in the case of such a search, a predetermined document is registered in the database in advance in order to reduce the trouble of a user repeatedly performing a search before obtaining an appropriate search result, When a document related to a predetermined search condition is extracted from this database, a word existing in the document obtained by the search using the predetermined search condition is picked up, and a new search word candidate to be added at the next search As above, the picked-up word is presented.
Japanese Patent Laid-Open No. 9-218881

しかしながら、上記従来の検索技術によると、例えば各検索条件に応じて得られる検索の結果に配慮されていないので、検索語の候補としてピックアップされた単語を選択して検索しても、検索結果のドキュメント数が「0」であるという事態も想定されるなど、利便性が低い。   However, according to the above conventional search technology, for example, the search results obtained according to each search condition are not considered, so even if a search is made by selecting a word picked up as a search word candidate, Convenience is low, such as a situation where the number of documents is “0”.

本発明は上記実情に鑑みて為されたもので、利便性を向上できるドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置を提供することを、その目的の一つとする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a document management program, a document management method, and a document management apparatus that can improve convenience.

請求項1記載の発明は、ドキュメント管理プログラムであって、複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたコンピュータを、当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、各単語が含まれているドキュメントの数に基づいて、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、として機能させ、当該選択した検索用キーワード候補を所定の検索処理に供することとしたものである。The invention according to claim 1 is a document management program, and selects a computer connected to a document holding means for holding a plurality of documents as at least a part of the held documents as a target document group. Target selection means, word extraction means for extracting a predetermined word group from individual documents included in the target document group, and words included in the word group based on the number of documents including each word And selecting means for selecting as search keyword candidates. The selected search keyword candidates are used for a predetermined search process.

請求項2記載の発明は、請求項1に記載のドキュメント管理プログラムであって、前記選択手段においては、前記各単語が含まれているドキュメント数が、所定の値の範囲にある場合に、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択するようコンピュータを機能させることとしたものである。Invention of Claim 2 is the document management program of Claim 1, Comprising: In the said selection means, when the number of documents in which each said word is contained exists in the range of a predetermined value, The computer is caused to function so as to select at least a part of words included in the word group as search keyword candidates.

請求項3記載の発明は、請求項1または2に記載のドキュメント管理プログラムにおいて、前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値に基づいて階層的にグループ化するクラスタリング手段として、さらにコンピュータを機能させ、当該階層的な単語グループの各階層ごとに、当該階層以下に含まれる単語が、検索条件の単位として利用者に提示されることとしたものである。A third aspect of the present invention is the document management program according to the first or second aspect, wherein the selected search keyword candidates are hierarchically grouped based on a correlation value between words included in a word group. As a means, the computer is further caused to function so that words included in the hierarchy or lower are presented to the user as a search condition unit for each hierarchy of the hierarchical word group.

請求項4記載の発明は、請求項3に記載のドキュメント管理プログラムであって、前記クラスタリング手段においては、前記検索用キーワード候補の組み合わせのうち、当該組み合わせに係る検索用キーワード候補に関係するドキュメントの検索の結果として得られるドキュメントの数が、予め定めたドキュメント数条件を満足する場合に、当該組み合わせに係る検索用キーワード候補に関係するドキュメントを検索するための単語グループを表す情報を生成させるようコンピュータを機能させることとしたものである。The invention according to claim 4 is the document management program according to claim 3, wherein, in the clustering means, of the search keyword candidates related to the search keyword candidate among the search keyword candidate combinations. When the number of documents obtained as a result of the search satisfies a predetermined document number condition, the computer generates information representing a word group for searching for documents related to the search keyword candidates related to the combination. Is supposed to function.

請求項5記載の発明は、請求項4に記載のドキュメント管理プログラムであって、前記ドキュメント数条件は、前記対象ドキュメントの数に対する、前記検索の結果として得られるドキュメントの数の割合が、予め定めた値の範囲にあるとの条件であることとしたものである。A fifth aspect of the present invention is the document management program according to the fourth aspect, wherein the ratio of the number of documents obtained as a result of the search to the number of the target documents is determined in advance as the document number condition. It is assumed that the condition is within the range of the values.

請求項6記載の発明は、請求項5に記載のドキュメント管理プログラムであって、前記値の範囲は、単語グループの階層位置に応じて異なることとしたものである。A sixth aspect of the present invention is the document management program according to the fifth aspect, wherein the range of the values differs depending on the hierarchical position of the word group.

請求項7記載の発明は、請求項3から6のいずれか一項に記載のドキュメント管理プログラムであって、前記単語グループの提示時には、各単語グループに含まれる単語のいずれかを含むとの検索条件とする検索の結果得られるドキュメントの数に関する情報を併せて提示させることとしたものである。The invention according to claim 7 is the document management program according to any one of claims 3 to 6, wherein when the word group is presented, a search for including any of the words included in each word group Information regarding the number of documents obtained as a result of the search as a condition is also presented.

請求項8記載の発明は、請求項1から7のいずれか一項に記載のドキュメント管理プログラムであって、前記ドキュメント保持手段は、ドキュメントを分類して保持しており、前記対象選出手段は、前記分類の少なくとも一部を特定する情報の入力を受けて、当該特定された分類に含まれるドキュメントを対象ドキュメントとして選出することとしたものである。Invention of Claim 8 is the document management program as described in any one of Claim 1-7, Comprising: The said document holding means classify | categorizes and hold | maintains a document, The said object selection means is, In response to input of information specifying at least a part of the classification, a document included in the specified classification is selected as a target document.

請求項9記載の発明は、複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたドキュメント管理装置であって、当該保持されている個々のドキュメントから、単語群を抽出する手段と、各単語が含まれているドキュメントの数に基づいて、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する手段と、を含み、当該選択した検索用キーワード候補が所定の検索処理に供されることとしたものである。The invention described in claim 9 is a document management apparatus connected to a document holding means for holding a plurality of documents, wherein the word management means extracts each word group from the held documents, Means for selecting at least a part of the words included in the word group as search keyword candidates based on the number of documents including the words, and the selected search keyword candidates are subjected to a predetermined search process. It is intended to be used.

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係るドキュメント管理装置1は、図1に示すように、ネットワークを介して、ドキュメント保持手段としてのドキュメントデータベース2と、通信可能に接続されている。またこのドキュメント管理装置1は、図1に示すように制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含んで構成されている。   Embodiments of the present invention will be described with reference to the drawings. As shown in FIG. 1, a document management apparatus 1 according to an embodiment of the present invention is communicably connected to a document database 2 as document holding means via a network. As shown in FIG. 1, the document management apparatus 1 includes a control unit 11, a storage unit 12, an operation unit 13, a display unit 14, and a communication unit 15.

制御部11は、CPUなどを用いて実現でき、記憶部12に格納されているプログラムに従って動作している。本実施の形態では、制御部11は、ドキュメントデータベース2に格納されているドキュメントの一部を対象ドキュメント群として選出しておき、この対象ドキュメント群に含まれる各ドキュメントから所定の単語群を抽出する。そして当該単語群に含まれる単語同士の相関値を例えば係り受け解析の結果から演算する。また、各単語の出現頻度(対象ドキュメント群に含まれるドキュメントのうち、各単語の現れるドキュメントの数)を演算し、この出現頻度に基づいて単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する処理を行う。また、出現頻度と相関値に基づいて単語群を再帰的にグループ化し、各レベルの単語グループを検索用キーワード候補とする。制御部11は、さらに当該選択した検索用キーワード候補を所定の検索処理に供する。これらの制御部11の処理の具体的な内容については、後に詳しく述べる。記憶部12は、RAM(Random Access Memory)や、ROM(Read Only Memory)等のメモリ素子、並びにハードディスク等によって実現できる。この記憶部12は、制御部11によって実行されるプログラムが保持されている。また、この記憶部12は、制御部11の処理の過程で利用される種々のデータを保持するワークメモリとしても動作する。   The control unit 11 can be realized using a CPU or the like, and operates according to a program stored in the storage unit 12. In the present embodiment, the control unit 11 selects a part of documents stored in the document database 2 as a target document group, and extracts a predetermined word group from each document included in the target document group. . And the correlation value of the words contained in the said word group is calculated from the result of a dependency analysis, for example. Further, the appearance frequency of each word (the number of documents in which each word appears among the documents included in the target document group) is calculated, and at least a part of the words contained in the word group is searched for based on the appearance frequency. Processing to select as a candidate is performed. Further, word groups are recursively grouped based on the appearance frequency and the correlation value, and word groups at each level are set as search keyword candidates. The control unit 11 further provides the selected search keyword candidate to a predetermined search process. Specific contents of the processing of these control units 11 will be described in detail later. The storage unit 12 can be realized by a memory element such as a random access memory (RAM) or a read only memory (ROM), a hard disk, or the like. The storage unit 12 holds a program executed by the control unit 11. The storage unit 12 also operates as a work memory that holds various data used in the process of the control unit 11.

操作部13は、マウスやキーボード等によって実現できる。この操作部13は、利用者の操作を受け入れて、当該操作の内容を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示出力する。通信部15は、ネットワークに接続されており、制御部11から入力される指示に従って、ネットワークを介してデータを送信出力する。またこの通信部15は、ネットワークを介して到来するデータを受信して制御部11に出力する。   The operation unit 13 can be realized by a mouse, a keyboard, or the like. The operation unit 13 accepts a user operation and outputs the content of the operation to the control unit 11. The display unit 14 is a display or the like, and displays and outputs information according to an instruction input from the control unit 11. The communication unit 15 is connected to a network, and transmits and outputs data via the network in accordance with an instruction input from the control unit 11. The communication unit 15 receives data that arrives via the network and outputs the data to the control unit 11.

ドキュメントデータベース2は、ドキュメントの実体データを保持している。本実施の形態のドキュメントデータベース2は、各ドキュメントを階層ディレクトリ構造を用いて分類して格納している。例えば利用者は、新たにドキュメントを格納する際には、予め定められた階層ディレクトリ構造に含まれる、いずれかのディレクトリに関連づけて(つまりそのディレクトリに分類して)、当該ドキュメントを格納する。   The document database 2 holds document substance data. The document database 2 of the present embodiment classifies and stores each document using a hierarchical directory structure. For example, when a user newly stores a document, the user stores the document in association with any directory (that is, classified into the directory) included in a predetermined hierarchical directory structure.

ここで制御部11の処理の内容について説明する。本実施の形態の制御部11は、対象ドキュメント群を選出する選出処理と、単語群を抽出する単語群抽出処理と、単語間の相関値を演算する相関値演算処理と、単語の組み合わせの出現頻度を演算する出現頻度演算処理と、単語の組み合わせから検索用キーワード候補を選択するキーワード選択処理と、選択した検索用キーワード候補を階層的にグループ化するクラスタリング処理と、この階層的にグループ化された検索用キーワード候補を利用者に提示する提示処理とを実行している。また、提示した検索用キーワードの選択操作を受け入れて、当該選択された検索用キーワードに基づく検索処理を実行する。   Here, the content of the process of the control part 11 is demonstrated. The control unit 11 according to the present embodiment includes a selection process for selecting a target document group, a word group extraction process for extracting a word group, a correlation value calculation process for calculating a correlation value between words, and the appearance of a combination of words. Appearance frequency calculation processing for calculating the frequency, keyword selection processing for selecting search keyword candidates from word combinations, clustering processing for hierarchically grouping the selected search keyword candidates, and this hierarchical grouping And a presentation process for presenting the search keyword candidates to the user. In addition, the search keyword selection operation presented is accepted, and a search process based on the selected search keyword is executed.

以下、これら各処理の内容について説明する。制御部11は、操作部13を介して利用者から検索の対象とするディレクトリの指定操作を受けて、当該ディレクトリ以下(当該ディレクトリより下位の階層にあるディレクトリ以下をも含む)のドキュメントを対象ドキュメント群として選出する(選出処理)。   Hereinafter, the contents of these processes will be described. Upon receiving an operation for specifying a directory to be searched from the user via the operation unit 13, the control unit 11 selects a document below the directory (including a directory below the directory below the directory) as a target document. Select as a group (selection process).

制御部11は、対象ドキュメント群に含まれる各ドキュメントについて、それぞれに含まれる文章から単語を抽出する。具体的には、各ドキュメントを順次、処理対象として選択しながら、選択対象となったドキュメントに含まれる文章に対して、形態素解析処理を行って単語のリストを生成し、さらにこのリストから重複する単語を除去する処理を行う。さらに制御部11は、この抽出した単語のうち、予め定められた一般単語群(いわゆるストップワードの群)に含まれる単語を取り除く。   The control unit 11 extracts words from sentences included in each document included in the target document group. Specifically, while sequentially selecting each document as a processing target, a morphological analysis process is performed on sentences included in the selected document to generate a list of words, and the list is further duplicated from this list. Process to remove the word. Further, the control unit 11 removes words included in a predetermined general word group (so-called stop word group) from the extracted words.

一例として、「ナレッジマネジメントのツールは、EIPやSFA、CRMツールなどとともに、発展を続けているところである。」との文章については、「ナレッジマネジメント/の/ツール/は/EIP/や/SFA/CRM/ツール/など/と/とも/に/発展/を/続けて/いる/ところ/である/。」のように分割されて、単語のリストが生成される。ここから重複する単語を除去すると、「ナレッジマネジメント/の/ツール/は/EIP/や/SFA/CRM/など/と/とも/に/発展/を/続けて/いる/ところ/である/。」のように重複する「ツール」という単語が除去される。次に、一般単語群に含まれる、助詞(「の」や「は」の類い)や、どの文章にも現れ得ると想定される単語(例えば「発展」、「続けて」の類い)を除去して、「ナレッジマネジメント/ツール/EIP/SFA/CRM」が単語群抽出処理の抽出結果として得られることになる。   As an example, for the sentence “Knowledge management tools are continuing to develop along with EIP, SFA, CRM tools, etc.”, “Knowledge management /// tool / has / EIP /// SFA / CRM / tools / etc. / to / to / to / to / development / to / continue / to / where / is /. ”To generate a list of words. When the duplicate word is removed from this, “Knowledge management /// Tool / has / EIP / or / SFA / CRM / etc. / and / to / to / development / to / continue / to / to /. The word “tool” that overlaps is removed. Next, particles included in the general word group (a kind of “no” or “ha”) and words that are supposed to appear in any sentence (for example, a kind of “development”, “continue”) And “knowledge management / tool / EIP / SFA / CRM” is obtained as an extraction result of the word group extraction process.

さらに制御部11は、得られた単語群のリストに含まれる各単語について、当該単語を含む対象ドキュメントの数(DF(Document Frequency)、いわば出現頻度)を調べ、単語出現頻度情報として記憶部12に格納する。そして制御部11は、このドキュメントの数(DF)が全対象ドキュメントの数に占める割合が所定の値を超えているときには、当該単語をリストから除去してもよい。例えば、上記の例の場合に、単語「ツール」を含む対象ドキュメントの数DFが、対象ドキュメントの総数Nに占める割合DF/Nが例えば0.5(50%)を超えている場合は、当該単語「ツール」を各ドキュメントの単語リストから除去することとしてもよい。   Further, for each word included in the obtained word group list, the control unit 11 checks the number of target documents including the word (DF (Document Frequency), so-called appearance frequency), and stores the word appearance frequency information as the storage unit 12. To store. Then, the control unit 11 may remove the word from the list when the ratio of the number of documents (DF) to the number of all target documents exceeds a predetermined value. For example, in the case of the above example, when the number DF / N of the target documents including the word “tool” in the total number N of target documents exceeds 0.5 (50%), for example, The word “tool” may be removed from the word list of each document.

制御部11は、こうして得られる単語群のリストを、それぞれ抽出元のドキュメントを特定する情報に関連づけて、記憶部12に格納する。   The control unit 11 stores the list of word groups obtained in this way in the storage unit 12 in association with the information specifying the extraction source document.

制御部11は、次に、ドキュメントごとに得られた単語群のリストに含まれる各単語について、単語同士の相関値を演算する。ここで相関値は、例えば係り受けの分析処理によって演算できる。具体的には、骨格構造解析などの方法(例えば兵藤安昭,池田尚志:表層的情報とN近傍ブロック化手法による 日本語長文の骨格構造解析,情報処理学会論文誌,Vol.36,No.9,pp2091−2101(1995))が知られており、相関値の演算方法は当該知られている方法を用いることができるので、ここでの詳細な説明を省略する。この処理により、図2に示すように、単語群に含まれる任意の単語ペアに関する相関値が演算される。   Next, the control unit 11 calculates a correlation value between words for each word included in the list of word groups obtained for each document. Here, the correlation value can be calculated by, for example, dependency analysis processing. Specifically, methods such as skeletal structure analysis (for example, Yasuaki Hyodo, Naoshi Ikeda: Analysis of skeletal structure of Japanese long sentences using surface information and N-neighbor blocking method, Information Processing Society of Japan, Vol. 36, No. 9 , pp2091-2101 (1995)), and since the known method can be used as the correlation value calculation method, detailed description thereof is omitted here. By this processing, as shown in FIG. 2, a correlation value related to an arbitrary word pair included in the word group is calculated.

制御部11は、ここで、相関値を参照しながら単語の組み合わせを生成する。具体的には、まず、相関の大きい順に単語をグループ化する。ただし、グループ化した単語のDF/Nが所定値を超える場合はそのグループ化を行わない。また、グループに含まれる単語の数が所定値、例えば10語を超える場合はそのグループ化を行わない。DF/Nあるいはグループに含まれる単語の数の制約によりグループ化できなくなるまでグループ化が続く。あるいは、予めしきい値を定め、グループ内の単語の組み合わせの内、相関値が最も低いものが、しきい値を超えるもののみをグループ化してもよい。   Here, the control unit 11 generates word combinations while referring to the correlation values. Specifically, first, words are grouped in descending order of correlation. However, when the DF / N of the grouped words exceeds a predetermined value, the grouping is not performed. Further, when the number of words included in the group exceeds a predetermined value, for example, 10 words, the grouping is not performed. Grouping continues until DF / N or the number of words contained in the group cannot be grouped. Alternatively, a threshold value may be set in advance, and among the combinations of words in the group, only those having the lowest correlation value exceeding the threshold value may be grouped.

同様の処理を語のグループに対して再帰的に行い、リストに含まれる最上位のグループが所定値、例えば10グループ以下になるようにする。グループを上位のグループにまとめる場合は、DF/Nの上限値を上げるようにする。同様に、相関の下限値を設定している場合は、相関の下限値を下げるようにする。 The same processing is recursively performed on the word group so that the highest group included in the list becomes a predetermined value, for example, 10 groups or less. When grouping groups into higher groups, the upper limit of DF / N is increased. Similarly, when the lower limit value of the correlation is set, the lower limit value of the correlation is lowered.

具体的に、図3(a)に例示するように単語AからDについての相関値が演算されているとすると、ここから例えばしきい値「0.5」以上の相関値となっている単語の組み合わせを相関値の大きい順に取り出してグループ化する。まず、最も相関値の大きい単語Bと単語Dがグループになる。次に単語Aと単語Bのグループ化を考えるが、単語Aと単語Dの相関値がしきい値より小さいのでグループ化しない。次に単語Cと単語Dのグループ化を考えるが、単語Bと単語Cの相関値はしきい値以上なので、単語B・単語C・単語Dがグループ化される。   Specifically, if the correlation values for the words A to D are calculated as illustrated in FIG. 3A, for example, the word having a correlation value equal to or greater than the threshold value “0.5” from here. Are extracted and grouped in descending order of correlation value. First, the word B and the word D having the largest correlation value are grouped. Next, the grouping of the word A and the word B will be considered, but the group A is not grouped because the correlation value between the word A and the word D is smaller than the threshold value. Next, the grouping of the word C and the word D is considered. Since the correlation value between the word B and the word C is equal to or greater than a threshold value, the word B, the word C, and the word D are grouped.

制御部11は、こうして得られた単語の組み合わせをキーワード候補として記憶部12に格納する。   The control unit 11 stores the combinations of words thus obtained in the storage unit 12 as keyword candidates.

そして、制御部11は、全てのレベルの全ての単語グループについて、そのグループに含まれる単語のいずれかを含む旨の検索条件による検索を行い、その結果として得られるドキュメントの数(ヒット数)を調べ、当該ドキュメントの数が予め定めたドキュメント数条件を満足しない単語グループは作成しない。   Then, the control unit 11 performs a search for all word groups at all levels according to a search condition indicating that any word included in the group is included, and calculates the number of documents (hits) obtained as a result. Check and do not create a word group in which the number of documents does not satisfy a predetermined document number condition.

具体的にドキュメント数条件は、対象ドキュメントの数(N)に対する、ヒット数(DF)の割合が、予め定めた値の範囲にある、つまり
MIN<DF/N<MAX
との条件である。
Specifically, the document number condition is that the ratio of the hit number (DF) to the number of target documents (N) is within a predetermined value range, that is, MIN <DF / N <MAX.
It is a condition.

ここでMINを設けたのは、検索の結果として得られるドキュメントの数が「0」になることを防止するためのものであるが、検索の結果がない場合があっても構わないときには、MINを「0」に設定しておけばよい。   Here, the MIN is provided to prevent the number of documents obtained as a result of the search from becoming “0”. However, if there is a case where there is no result of the search, the MIN is provided. Should be set to “0”.

制御部11は、上記ドキュメント数条件を満足する単語あるいは単語グループのリストを、キーワード候補として記憶部12に格納する。   The control unit 11 stores a list of words or word groups satisfying the document number condition in the storage unit 12 as keyword candidates.

キーワード候補が単語グループである場合は、ドキュメント数条件はグループのレベルに応じて異なることとしてもよい。例えば、単一の単語であれば、MAXを「0.5」とし、グループのレベル(階層位置)が上がるたびにMAXを逓増させて、単語を直接含むグループ(第1階層)の場合「0.75」、単語を直接含むグループを更にグループ化したもの(第2階層)の場合「0.875」、さらにそのグループをグループ化したもの(第3階層)の場合「0.9375」…としてもよい。   When the keyword candidate is a word group, the document number condition may be different depending on the level of the group. For example, in the case of a single word, MAX is set to “0.5”, and MAX is increased every time the group level (hierarchy position) is increased. .75 ”,“ 0.875 ”in the case of further grouping the group including the word directly (second level),“ 0.9375 ”in the case of further grouping the group (third level). Also good.

制御部11は、このようにして対象ドキュメントに現実に含まれる単語をグループ化し、利用者に提示するのである。すなわち制御部11は、上記処理によって得られた単語リストを表示部14に表示する。具体的には、制御部11は、図4(a)に示すように単語リストの一覧と、検索ボタンとを表示部14に表示する。利用者が、この単語リストの一覧から単語あるいは単語グループをマウスクリック操作などで選択し、さらに検索ボタンをクリックすると、制御部11は、当該操作を受け入れて、選択した単語あるいは単語グループに係る検索条件に基づく検索結果(検索の結果となるドキュメントの一覧など)を表示部14に提示する。   In this way, the control unit 11 groups words actually included in the target document and presents them to the user. That is, the control unit 11 displays the word list obtained by the above process on the display unit 14. Specifically, the control unit 11 displays a list of word lists and a search button on the display unit 14 as shown in FIG. When the user selects a word or word group from the list of the word list by a mouse click operation or the like and further clicks the search button, the control unit 11 accepts the operation and searches for the selected word or word group. Search results based on the conditions (such as a list of documents resulting from the search) are presented on the display unit 14.

また、キーワード候補が選択されたときに、当該キーワード候補が、単語グループである場合は、当該単語グループを構成する単語あるいは単語サブグループの一覧をさらに提示してもよい(図4(b))。図4(b)では、A,B,Cからなる単語グループが、A,Bと、A,Cとの各単語グループのグループ化によって得られたものである場合を示している。この場合「A,B,C」の検索条件が選択されると、「A,B」の検索条件と、「A,C」の検索条件とが個別に提示される。利用者がここで提示された「A,B」の検索条件を選択して、検索ボタンをクリックすると、制御部11は、選択した「A,B」の検索条件に基づく検索結果(検索の結果となるドキュメントの一覧など)を表示部14に提示する。   In addition, when a keyword candidate is selected, if the keyword candidate is a word group, a list of words or word subgroups constituting the word group may be further presented (FIG. 4B). . FIG. 4B shows a case where the word group composed of A, B, and C is obtained by grouping the word groups of A, B, and A, C. In this case, when the search condition “A, B, C” is selected, the search condition “A, B” and the search condition “A, C” are presented individually. When the user selects the search condition “A, B” presented here and clicks the search button, the control unit 11 searches the search result (search result based on the selected search condition “A, B”). A list of documents to be displayed) is presented on the display unit 14.

さらに制御部11は、提示する検索条件ごとに、各検索条件による検索の結果得られるドキュメントの数に関する情報を併せて提示してもよい。例えば、検索条件の一覧に、当該情報を関連づけて提示する例を図5に示す。また、図5の例では、選択した単語等を検索条件の単位としてさらに任意の単語を利用者が追加する(選択した検索条件に対して論理和(OR)、論理積(AND)などの条件で組み合わせる)ことができるようにしている。   Further, the control unit 11 may also present information regarding the number of documents obtained as a result of the search according to each search condition for each search condition to be presented. For example, FIG. 5 shows an example in which the information is presented in association with a list of search conditions. In the example of FIG. 5, the user adds an arbitrary word using the selected word or the like as a search condition unit (conditions such as logical sum (OR) and logical product (AND) for the selected search condition). Can be combined).

さらに図5の例において、「AND検索」ボタンがクリックされると、制御部11は、検索条件の一覧を複数提示して、複数の検索条件の論理積により新たな検索条件を生成して検索指示ができるようにしている。なお、図5の例において複数の検索条件を論理和によって合成して新たな検索条件を生成する場合は、検索条件の一覧から当該論理和によって結合する複数の検索条件をそれぞれ選択すればよい。このように検索条件同士の論理和、論理積を指定した場合も、当該指定された条件での検索結果のドキュメント数に関する情報を提示してもよい。   Further, in the example of FIG. 5, when the “AND search” button is clicked, the control unit 11 presents a plurality of search condition lists and generates a new search condition by a logical product of the plurality of search conditions. I can give instructions. In the example of FIG. 5, when a plurality of search conditions are combined by logical sum to generate a new search condition, a plurality of search conditions combined by the logical sum may be selected from a list of search conditions. As described above, even when the logical sum and logical product of the search conditions are specified, information regarding the number of documents in the search result under the specified conditions may be presented.

さらに図5の例においては、検索の対象となるディレクトリを選択するためのインタフェースを併せて提示している(X)。このインタフェースにて検索の対象となるディレクトリが指定されるたびに、当該指定されたディレクトリに含まれるドキュメントを対象ドキュメントとして検索条件を生成するための上記処理が行われ、生成された検索条件が提示されることになる。   Further, in the example of FIG. 5, an interface for selecting a directory to be searched is also presented (X). Each time a directory to be searched is specified in this interface, the above processing for generating a search condition is performed using the documents included in the specified directory as the target document, and the generated search condition is presented. Will be.

さらに、図5に示した例のように、利用者が任意の単語を入力できるようにしている場合には、利用者が単語を入力したときに、対象ドキュメントのうち、当該入力した単語を含むドキュメントの数に関する情報を提示してもよい。例えば入力された単語に関する出現頻度情報が記憶部12に格納されているときには、当該情報を参照して、当該単語の出現頻度(DF)が予め定めた頻度しきい値未満であるときには、「この語はヒット数が少ないか、またはヒットしません」のような案内を表示する。   Furthermore, when the user can input an arbitrary word as in the example shown in FIG. 5, when the user inputs a word, the input word includes the input word. Information about the number of documents may be presented. For example, when the appearance frequency information related to the input word is stored in the storage unit 12, with reference to the information, when the appearance frequency (DF) of the word is less than a predetermined frequency threshold, A word such as “The word has few hits or does not hit” is displayed.

また、上記頻度しきい値未満でないときには、当該出現頻度の値(DFの値)を表示してもよい(図6)。さらに、利用者が単語を入力したときに、提示した検索条件に当該単語が含まれているときには、入力された単語の代わりに、検索条件に含まれる単語を選択した状態としてもよい(図7)。なお、図7の例では入力欄に入力された単語が表示されたままとなっているが、検索条件に含まれる単語を選択した状態とした後、この入力欄の内容を削除して、入力欄を空としてもよい。   Further, when it is not less than the frequency threshold, the appearance frequency value (DF value) may be displayed (FIG. 6). Furthermore, when the user inputs a word and the word is included in the presented search condition, the word included in the search condition may be selected instead of the input word (FIG. 7). ). In the example of FIG. 7, the word input in the input field remains displayed. However, after selecting the word included in the search condition, the contents of the input field are deleted and input The column may be empty.

また、検索の結果を提示する方法として、制御部11は、検索の対象として選択されたディレクトリ以下にあるディレクトリ(当該選択されたディレクトリのすぐ下位にあるディレクトリ)または、ドキュメントの一覧を提示し、検索条件を満足するドキュメントや、検索条件を満足するドキュメントを含む(さらに下位のディレクトリに内包されている場合を含む)ディレクトリと、それ以外のドキュメントやディレクトリとは区別して、強調表示してもよい(図8)。図8では、検索条件を満足するドキュメントや、検索条件を満足するドキュメントを内包するディレクトリを網掛けして強調する例を示しているが、このほか、文字色や背景色を変更したり、点滅させるなど、表示態様を異ならせて強調表示してもよい。   In addition, as a method for presenting the search result, the control unit 11 presents a directory below the directory selected as a search target (a directory immediately below the selected directory) or a list of documents. A document that satisfies the search condition or a directory that includes a document that satisfies the search condition (including the case where it is contained in a lower directory) may be distinguished from other documents or directories and highlighted. (FIG. 8). FIG. 8 shows an example in which a document satisfying the search condition and a directory containing a document satisfying the search condition are shaded and emphasized. In addition to this, the character color or the background color is changed or blinking is performed. For example, the display mode may be differently highlighted.

本実施の形態によると、検索の対象となるドキュメント群に実際に含まれる単語に基づいて検索用キーワード候補が提示され、また、当該提示される検索用キーワード候補に応じて得られる検索の結果に配慮されている。このため、有為な検索操作を容易に行うことができるよう支援され、利便性が向上できる。   According to the present embodiment, search keyword candidates are presented based on the words actually included in the document group to be searched, and the search results obtained according to the presented search keyword candidates are displayed. Considered. For this reason, it is supported that a significant search operation can be easily performed, and convenience can be improved.

本発明の実施の形態に係るドキュメント管理装置の構成例、およびそのドキュメントデータベースへの接続例を表すブロック図である。It is a block diagram showing the example of a structure of the document management apparatus concerning embodiment of this invention, and the example of a connection to the document database. 相関値の演算結果の格納例を表す説明図である。It is explanatory drawing showing the example of storage of the calculation result of a correlation value. 相関値から単語の組み合わせを生成する例を表す説明図である。It is explanatory drawing showing the example which produces | generates the combination of a word from a correlation value. 検索条件の提示例を表す説明図である。It is explanatory drawing showing the example of presentation of search conditions. 検索条件の提示の別の例を表す説明図である。It is explanatory drawing showing another example of presentation of search conditions. 検索のための語を任意に入力したときの画面例を表す説明図である。It is explanatory drawing showing the example of a screen when the word for a search is input arbitrarily. 検索のための語を任意に入力したときの別の画面例を表す説明図である。It is explanatory drawing showing another example of a screen when the word for a search is input arbitrarily. 検索結果の提示の例を表す説明図である。It is explanatory drawing showing the example of presentation of a search result.

符号の説明Explanation of symbols

1 ドキュメント管理装置、2 ドキュメントデータベース、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部。
DESCRIPTION OF SYMBOLS 1 Document management apparatus, 2 Document database, 11 Control part, 12 Storage part, 13 Operation part, 14 Display part, 15 Communication part.

Claims (5)

複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたコンピュータを、
当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、
当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、
前記単語群に含まれる各単語について、当該単語が含まれているドキュメントの数を調べる手段と、
前記調べたドキュメントの数に基づいて、前記ドキュメントごとに得た単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、
前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値を演算する手段と、
前記演算した相関値が予め定めたしきい値を超える前記選択された検索用キーワード候補を、前記演算した相関値の大きい順にグループ化する手段と、
前記グループ化の処理を、前記グループ化によって得られたグループに対して再帰的に行う手段と、
当該グループ化された検索用キーワード候補の一覧を利用者に提示する手段と、
として機能させることを特徴とするドキュメント管理プログラム。
A computer connected to a document holding means for holding a plurality of documents,
A target selecting means for selecting at least a part of the held document as a target document group;
Word extraction means for extracting a predetermined word group from individual documents included in the target document group;
Means for examining the number of documents containing the word for each word contained in the word group;
Selection means for selecting at least a part of words included in the word group obtained for each document as a search keyword candidate based on the number of documents examined ;
Means for calculating a correlation value between words included in the word group for the selected search keyword candidates ;
Means for grouping the selected search keyword candidates whose calculated correlation values exceed a predetermined threshold in descending order of the calculated correlation values ;
Means for recursively performing the grouping process on the group obtained by the grouping;
Means for presenting a list of search keyword candidates grouped to the user;
Document management program characterized by functioning as
請求項1に記載のドキュメント管理プログラムにおいて、
前記選択手段においては、前記各単語が含まれているドキュメント数が、所定の値の範囲にある場合に、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択するようコンピュータを機能させることを特徴とするドキュメント管理プログラム。
The document management program according to claim 1,
In the selection means, when the number of documents including each word is within a predetermined value range, a computer is selected so that at least a part of the words included in the word group is selected as a search keyword candidate. A document management program characterized by functioning.
請求項1または2に記載のドキュメント管理プログラムにおいて、
前記検索用キーワード候補をグループ化する手段においては、前記検索用キーワード候補の組み合わせのうち、当該組み合わせに係る検索用キーワード候補に関係するドキュメントの検索の結果として得られるドキュメントの数が、予め定めたドキュメント数条件を満足する場合に、当該組み合わせに係る検索用キーワード候補に関係するドキュメントを検索するための単語グループを表す情報を生成させるようコンピュータを機能させることを特徴とするドキュメント管理プログラム。
The document management program according to claim 1 or 2,
In the means for grouping the search keyword candidates, the number of documents obtained as a result of searching for documents related to the search keyword candidates related to the combination of the search keyword candidates is determined in advance. A document management program that causes a computer to function to generate information representing a word group for searching for a document related to a search keyword candidate related to the combination when the document number condition is satisfied.
請求項3に記載のドキュメント管理プログラムにおいて、
前記ドキュメント数条件は、前記対象ドキュメントの数に対する、前記検索の結果として得られるドキュメントの数の割合が、予め定めた値の範囲にあるとの条件であることを特徴とするドキュメント管理プログラム。
The document management program according to claim 3,
The document number condition is a condition that a ratio of the number of documents obtained as a result of the search to the number of the target documents is in a predetermined value range.
複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたドキュメント管理装置であって、
当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、
当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、
前記単語群に含まれる各単語について、当該単語が含まれているドキュメントの数を調べる手段と、
前記調べたドキュメントの数に基づいて、前記ドキュメントごとに得た単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、
前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値を演算する手段と、
前記演算した相関値が予め定めたしきい値を超える前記選択された検索用キーワード候補を、前記演算した相関値の大きい順にグループ化する手段と、
前記グループ化の処理を、前記グループ化によって得られたグループに対して再帰的に行う手段と、
当該グループ化された検索用キーワード候補の一覧を利用者に提示する手段と、
を含むことを特徴とするドキュメント管理装置。
A document management apparatus connected so as to be accessible to a document holding means for holding a plurality of documents,
A target selecting means for selecting at least a part of the held document as a target document group;
Word extraction means for extracting a predetermined word group from individual documents included in the target document group;
Means for examining the number of documents containing the word for each word contained in the word group;
Selection means for selecting at least a part of words included in a word group obtained for each document as a search keyword candidate based on the number of documents examined ;
Means for calculating a correlation value between words included in the word group for the selected search keyword candidates ;
Means for grouping the selected search keyword candidates whose calculated correlation values exceed a predetermined threshold in descending order of the calculated correlation values ;
Means for recursively performing the grouping process on the group obtained by the grouping;
Means for presenting a list of search keyword candidates grouped to the user;
A document management apparatus comprising:
JP2004216982A 2004-07-26 2004-07-26 Document management program, document management method, and document management apparatus Expired - Fee Related JP4525224B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004216982A JP4525224B2 (en) 2004-07-26 2004-07-26 Document management program, document management method, and document management apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004216982A JP4525224B2 (en) 2004-07-26 2004-07-26 Document management program, document management method, and document management apparatus

Publications (3)

Publication Number Publication Date
JP2006039811A JP2006039811A (en) 2006-02-09
JP2006039811A5 JP2006039811A5 (en) 2007-08-09
JP4525224B2 true JP4525224B2 (en) 2010-08-18

Family

ID=35904765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004216982A Expired - Fee Related JP4525224B2 (en) 2004-07-26 2004-07-26 Document management program, document management method, and document management apparatus

Country Status (1)

Country Link
JP (1) JP4525224B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5106155B2 (en) * 2008-01-29 2012-12-26 株式会社東芝 Document processing apparatus, method and program
US8612202B2 (en) 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information
WO2015011774A1 (en) * 2013-07-22 2015-01-29 株式会社野村総合研究所 Search system, search program, and method for entering search criteria
JP6638480B2 (en) * 2016-03-09 2020-01-29 富士通株式会社 Similar document search program, similar document search device, and similar document search method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334106A (en) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd Relative word display device and medium where program for relative word display is recorded
JPH1125108A (en) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices
JP2000227917A (en) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol Thesaurus browsing system and method therefor and recording medium recording its processing program
JP2001101199A (en) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd Document processor
JP2002123544A (en) * 2000-10-13 2002-04-26 Tokyo Electric Power Co Inc:The Retrieval preprocessing apparatus, document retrieving apparatus, and retrieval preprocessing method and document retrieving method
JP2003271621A (en) * 2002-03-19 2003-09-26 Fuji Xerox Co Ltd Classification result display device, classification result display method, and classification result display program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334106A (en) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd Relative word display device and medium where program for relative word display is recorded
JPH1125108A (en) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices
JP2000227917A (en) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol Thesaurus browsing system and method therefor and recording medium recording its processing program
JP2001101199A (en) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd Document processor
JP2002123544A (en) * 2000-10-13 2002-04-26 Tokyo Electric Power Co Inc:The Retrieval preprocessing apparatus, document retrieving apparatus, and retrieval preprocessing method and document retrieving method
JP2003271621A (en) * 2002-03-19 2003-09-26 Fuji Xerox Co Ltd Classification result display device, classification result display method, and classification result display program

Also Published As

Publication number Publication date
JP2006039811A (en) 2006-02-09

Similar Documents

Publication Publication Date Title
US20190250778A1 (en) Generating visualizations of facet values for facets defined over a collection of objects
US7499913B2 (en) Method for handling anchor text
US7788261B2 (en) Interactive web information retrieval using graphical word indicators
JP4962967B2 (en) Web page search server and query recommendation method
JP2003167914A (en) Multimedia information retrieving method, program, recording medium and system therefor
WO2009154153A1 (en) Document search system
JP2004139304A (en) Hyper text inspection device, its method, and program
US20140317001A1 (en) Methods for evaluating term support in patent-related documents
JP2009093653A (en) Refining search space responding to user input
JP2004178605A (en) Information retrieval device and its method
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
US20100257177A1 (en) Document rating calculation system, document rating calculation method and program
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
JP2004178604A (en) Information retrieval system and its method
US7725487B2 (en) Content synchronization system and method of similar web pages
JP6533876B2 (en) Product information display system, product information display method, and program
JPH11102377A (en) Method and device for retrieving document from data base
US20200012722A1 (en) System for real-time expression of semantic mind map, and operation method therefor
JP5324677B2 (en) Similar document search support device and similar document search support program
JP4525224B2 (en) Document management program, document management method, and document management apparatus
JP2014102625A (en) Information retrieval system, program, and method
JP4569179B2 (en) Document search device
JP2000020538A (en) Method and device for retrieving information, and storage medium for information retrieving program
JP2005122509A (en) Program, system and method for analyzing hierarchical structure data
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4525224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 4

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees