JP5802924B2 - Document search system and document search program - Google Patents
Document search system and document search program Download PDFInfo
- Publication number
- JP5802924B2 JP5802924B2 JP2011167158A JP2011167158A JP5802924B2 JP 5802924 B2 JP5802924 B2 JP 5802924B2 JP 2011167158 A JP2011167158 A JP 2011167158A JP 2011167158 A JP2011167158 A JP 2011167158A JP 5802924 B2 JP5802924 B2 JP 5802924B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- unit
- word
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、文書データベースを検索して検索結果を表示する文書検索システムおよび文書検索プログラムに関する。 The present invention relates to a document search system and a document search program that search a document database and display search results.
従来から、膨大な情報の中から必要な情報を抽出するために検索システムが利用されている。一般的な検索システムでは、入力された検索語を多く含む文書が上位に表示され、更には他の要素も考慮した表示がなされる(特許文献1段落0029等参照)。 Conventionally, a search system has been used to extract necessary information from a vast amount of information. In a general search system, a document containing a lot of input search terms is displayed at the top, and further, other factors are taken into consideration (see paragraph 0029 of Patent Document 1).
しかし、上記の表示方法では、入力された検索語に、汎用語と非汎用語とが含まれている場合には、汎用語を多く含む文書が上位に表示され、ユーザが真に必要とする文書が下位に表示されてしまう。また、上記の表示方法では、複数の検索語を用いた場合に、単に網羅的な記載がなされているだけで、検索語同士が関連し合った文章を含まない文書が上位にランキングされることがある。その結果、ユーザは、真に必要とする文書を探し出すために、検索結果の文書を順次表示させて閲覧しなければならず、多大な時間と労力をかけなければならないという問題があった。 However, in the above display method, when the input search word includes general-purpose words and non-general-purpose words, a document containing a large number of general-purpose words is displayed at the top, and the user really needs it. The document is displayed at the bottom. In addition, in the above display method, when a plurality of search terms are used, documents that do not include sentences in which the search terms are associated with each other are simply ranked in a high rank. There is. As a result, in order to search for a document that is really necessary, the user has to display and browse the search result document sequentially, which requires a great deal of time and effort.
もっとも、検索の上手なユーザは、汎用語を避けて検索することができるかもしれない。しかし、いくら検索の上手なユーザであっても、検索対象のデータベースにおいて、どの用語が汎用語であるか否かを検索前に把握することは難しい。以上のことから、ユーザが汎用語を含む複数の検索語を使った場合であっても、ユーザが真に必要とする文書を上位に表示する検索システムの登場が待たれている。 However, a user who is good at searching may be able to search while avoiding general-purpose words. However, no matter how good the user is, it is difficult to know which term is a general term in the database to be searched before searching. From the above, even if the user uses a plurality of search words including general-purpose words, the advent of a search system that displays a document that the user really needs at the top is awaited.
本発明はかかる問題点に鑑みてなされたものであり、その目的は、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することの可能な文書検索システムおよび文書検索プログラムを提供することにある。 The present invention has been made in view of such a problem, and an object of the present invention is to reduce the influence of general-purpose words and to display a document including a sentence in which search terms are related to each other at a higher level. To provide a search system and a document search program.
本発明による文書検索システムは、検索対象の文書群における各文書がn文字単位(n≧1)で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用したシステムである。このシステムは、以下の3つの構成要素を備えている。
(A1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する分割部
(A2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する抽出部
(A3)抽出部で抽出された単語ごとの出現頻度を利用するとともに、各検索語の文書内に構成される形式区切り内での位置情報を利用しないで、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部
In the document search system according to the present invention, the appearance frequency for each word obtained by dividing each document in the search target document group in units of n characters (n ≧ 1) is registered for each format division of each document. This is a system that uses an index. This system includes the following three components.
(A1) A dividing unit that analyzes a given search condition and divides each search word included in the search condition in units of n characters. (A2) Obtained by dividing each search word using the above index. An extraction unit that extracts the appearance frequency for each word for each format break registered in the above index (A3) The frequency of occurrence for each word extracted by the extraction unit is used, and is configured in the document of each search word. Without using location information within the format break, calculate the appearance frequency of each search term for each format break and the generality of each search word, and use the appearance frequency and versatility obtained by this calculation. A weighting unit that calculates the weight of each document
本発明による文書検索プログラムは、検索対象の文書群における各文書がn文字単位(n≧1)で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用したプログラムである。このプログラムは、以下の3つのステップをコンピュータに実行させるものである。
(B1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する第1ステップ
(B2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する第2ステップ
(B3)抽出部で抽出された単語ごとの出現頻度を利用するとともに、各検索語の文書内に構成される形式区切り内での位置情報を利用しないで、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップ
In the document search program according to the present invention, the appearance frequency for each word obtained by dividing each document in the search target document group in units of n characters (n ≧ 1) is registered for each format division of each document. This program uses an index. This program causes a computer to execute the following three steps.
(B1) First step of analyzing a given search condition and dividing each search word included in the search condition in units of n characters. (B2) Obtained by dividing each search word using the above index. and the frequency of occurrence of each word, as well as utilize the frequency of appearance of each word extracted in the second step (B3) extraction unit for extracting each form separator which is indexed above, in the document for each search term Without using the location information within the configured format break, calculate the appearance frequency of each search term for each format break and the generality of each search term, and calculate the appearance frequency and generality obtained by this calculation. Third step to calculate the weight of each document using
本発明による文書検索システムおよび文書検索プログラムでは、上記のインデックスを利用して、各検索語の汎用度が計算される。このように、本発明では、各検索語の汎用度が検索時に導出されるので、汎用度を考慮したランキング表示が可能になる。また、各検索語の汎用度が計算により導出されるので、ユーザが、検索条件として入力する言葉が汎用語であるか否かを気にする必要がなくなる。また、本発明では、上記のインデックスを利用して、文書よりも小さな形式区切りごとに各検索語の出現頻度が計算される。これにより、単に網羅的な記載がなされているだけで、検索語同士が関連し合っていない文書が上位にランキングされるのを防ぐことができる。 In the document search system and the document search program according to the present invention, the versatility of each search term is calculated using the above-described index. As described above, in the present invention, since the versatility of each search term is derived at the time of search, ranking display in consideration of the versatility can be performed. In addition, since the general degree of each search word is derived by calculation, the user does not need to worry about whether or not the word input as the search condition is a general word. Further, in the present invention, the appearance frequency of each search word is calculated for each format break smaller than the document using the above-described index. As a result, it is possible to prevent a document in which search terms are not related to each other from being ranked high by simply making an exhaustive description.
本発明による文書検索システムおよび文書検索プログラムにおいて、形式区切りは、例えば、ページ、段落、章、または節である。本発明による文書検索システムは、重み付け部で得られた重みを利用して、各文書のランキングを決定するマージ部をさらに備えていてもよい。本発明による文書検索システムは、マージ部だけでなく、さらに、マージ部で決定されたランキングに従って各文書を表示させる検索結果表示部をさらに備えていてもよい。ここで、検索結果表示部は、各文書において出現頻度が最大となる形式区切りを含む連続した複数の形式区切りのレイアウトを表示させるようになっていてもよい。また、検索結果表示部は、各文書において出現頻度が最大となる形式区切りのレイアウトを表示させるようになっていてもよい。 In the document search system and the document search program according to the present invention, the format separator is, for example, a page, a paragraph, a chapter, or a section. The document search system according to the present invention may further include a merging unit that determines the ranking of each document using the weight obtained by the weighting unit. The document search system according to the present invention may further include not only the merge unit but also a search result display unit that displays each document according to the ranking determined by the merge unit. Here, the search result display unit may display a plurality of continuous format partition layouts including the format partition having the highest appearance frequency in each document. In addition, the search result display unit may display a format-delimited layout that maximizes the appearance frequency in each document.
本発明による文書検索システムおよび文書検索プログラムにおいて、n文字単位が複数の文字単位を含み、インデックスがn文字単位に含まれる文字単位ごとのインデックスを含んでいてもよい。この場合に、分割部は、各検索語を各文字単位で分割するようになっていてもよい。さらに、抽出部は、インデックスを利用して、分割部での分割により得られた単語ごとの出現頻度を、インデックスに登録された形式区切りごと、および文字単位ごとに抽出するようになっていてもよい。さらに、重み付け部は、抽出部での抽出により得られた単語ごとの出現頻度を利用して、各検索語の形式区切りごとおよび文字単位ごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する要になっていてもよい。 In the document search system and the document search program according to the present invention, the n character unit may include a plurality of character units, and the index may include an index for each character unit included in the n character unit. In this case, the dividing unit may divide each search word in units of characters. Further, the extraction unit may extract an appearance frequency for each word obtained by division in the division unit by using an index for each format break registered in the index and for each character unit. Good. Furthermore, the weighting unit uses the appearance frequency for each word obtained by the extraction in the extraction unit to calculate the appearance frequency for each format term and each character unit, and the generality of each search word. However, the weight of each document may be calculated using the appearance frequency and the versatility obtained by this calculation.
本発明による文書検索システムおよび文書検索プログラムによれば、検索対象の文書群から得られたn文字単位の単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の汎用度と、文書よりも小さな形式区切りごとに各検索語の出現頻度とを計算するようにしたので、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することができる。 According to the document search system and the document search program of the present invention, the appearance frequency for each word in units of n characters obtained from the document group to be searched is registered using each index registered for each format delimiter. Calculation of the generality of the search terms and the frequency of occurrence of each search term for each format break smaller than the document reduces the influence of the general terms and includes sentences in which the search terms are related to each other Documents can be displayed at the top.
以下、発明を実施するための形態について、図面を参照して詳細に説明する。なお、説明は以下の順序で行う。
1.実施の形態
単一のインデックスが用いられた例
2.変形例
複数のインデックスが用いられた例
3.応用例
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the invention will be described in detail with reference to the drawings. The description will be given in the following order.
1. 1. Example in which a single index is used 2. Modified example An example in which a plurality of indexes are used. Application examples
<1.実施の形態>
[構成]
図1は、本発明による一実施の形態に係る文書検索システム100の機能ブロックの一例を表したものである。文書検索システム100は、例えば、図1に示したように、文書格納部110、インデックス登録部120、インデックス130、検索条件入力部140、検索部150、マージ部160および検索結果表示部170を備えている。
<1. Embodiment>
[Constitution]
FIG. 1 shows an example of functional blocks of a
文書格納部110は、検索対象の文書群を格納するものである。文書格納部110は、例えば、NAS(Network Attached Storage)等の、ネットワーク経由でアクセスする記憶装置や、バス経由でアクセスするハードディスクなどで構成されている。上述の「検索対象の文書群」とは、インデックス130に登録された(つまり、アドレスが既知の)文書群を指している。文書群は、各種エディタで作成された文書の集合である。文書は、例えば、オフィス文書や、学術論文、定期刊行物などである。
The
図2は、インデックス登録部120の機能ブロックの一例を表したものである。インデックス登録部120は、文書格納部110内の文書群のインデックスを作成し、登録するものである。インデックス登録部120は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。
FIG. 2 shows an example of functional blocks of the
インデックス登録部120は、まず、文書の一覧を取得し、作成する(ステップS101、S102)。具体的には、インデックス登録部120は、文書格納部110内の各文書について、例えば、ファイル名、アドレス、日付およびファイルサイズの情報を取得し、それらを一覧にする。このとき、インデックス登録部120は、取得した文書ごとに、1つずつ識別子を付与してもよい。このときの識別子は、文書ごとに固有のものであれば何でもよく、例えば、何らかの数字や記号であってもよい。
First, the
次に、インデックス登録部120は、作成した一覧からアドレスを取り出し、文書格納部110から、そのアドレスに対応する文書を取得する(ステップS103)。このとき、インデックス登録部120は、過去に作成した一覧を保有している場合には、過去の一覧と、現在の一覧との差分を取り、新しい文書や、更新した文書を検出したときだけ、その文書を文書格納部110から取得する。なお、文書の更新は、例えば、日付やファイルサイズなどから判別可能である。さらに、インデックス登録部120は、過去の一覧と、現在の一覧との差分を取ったときに、既知の文書が存在しないことを検出したときには、その文書を現在の一覧から削除する。
Next, the
次に、インデックス登録部120は、取得した各文書に対してページ分割を実施する(ステップS104)。具体的には、インデックス登録部120は、取得した各文書のページごとに、1つずつ識別子を付与する。このときの識別子は、各文書においてページごとに固有のものであれば何でもよく、単なるページ番号でもよいし、何らかの数字や記号であってもよい。
Next, the
ここで、ページ分割を行う意義について説明する。一般に、ファイル単位で検索を行うと、ファイルサイズの大きな文書や、幅広い情報が記載された文書が優位となる。しかし、そのような文書が常に、ユーザが真に必要とする文書であるとは限らない。特に、複数の検索語を用いた場合には、上記のような文書は、検索語同士が関連し合っていない文書である可能性が高い。検索語同士が関連し合っていない文書は、ユーザが真に必要とする文書ではなく、上位に表示すべき文書ではない。一方、ページ単位で検索を行うと、ファイルサイズや記載幅の広さが文書の優位に影響を与えることがなくなる。さらに、複数の検索語を用いた場合に、1ページ内に全ての検索語が分布しているときには、検索語の文書内での位置を把握していなくても、そのページでは、検索語同士が関連し合っている可能性が極めて高いと考えられる。従って、ページ単位で検索を行うことにより、検索語の文書内での位置を考慮した検索と同等の結果を得ることが可能となる。 Here, the significance of performing page division will be described. In general, when a search is performed on a file basis, a document having a large file size or a document in which a wide range of information is described is superior. However, such a document is not always a document that a user really needs. In particular, when a plurality of search terms are used, there is a high possibility that the documents as described above are documents in which the search terms are not related to each other. A document in which the search terms are not related to each other is not a document that the user really needs and is not a document to be displayed at the top. On the other hand, when a search is performed in units of pages, the file size and the width of the description width do not affect the superiority of the document. Furthermore, when a plurality of search terms are used and all the search terms are distributed within one page, the search terms can be compared with each other even if the position of the search terms in the document is not grasped. Are likely to be related. Accordingly, by performing a search in units of pages, it is possible to obtain a result equivalent to a search that takes into account the position of the search term in the document.
なお、検索語の文書内での位置を考慮するためには、各検索語について、文書格納部110内の検索対象となる各文書をgrep型(テキスト総ナメ型)で検索することが必要となる。grep型の検索では処理に非常に大きな負荷がかかるため、高速検索を行うことが難しい。一方、ページ単位で検索を行う場合には、そもそも、検索語の文書内での位置情報は必要なく、それゆえ、検索時にgrep型の検索を実行する必要もないので、高速検索を行うことが可能である。
In order to consider the position of the search word in the document, it is necessary to search each document to be searched in the
次に、インデックス登録部120は、取得した各文書のページごとに、n文字分割(n≧1)を実施する(ステップS105)。具体的には、インデックス登録部120は、取得した各文書のページごとに、文章をn文字で切り出す。このとき、文章の文字数がmの場合には、文章は、(m−(n−1))個の単語に分割される。例えば、「キーワードが入力される。」という12文字からなる文章を例にとると、この文章は、「キー」,[ーワ],「ワー」,[ード],「ドが」,[が入],「入力」,[力さ],「され」,[れる],「る。」という11個の単語に分割される。
Next, the
ここで、n文字分割を実施する意義について説明する。一般に、インデックスを作成する方法としては、事前に用意した検索語に対してインデックスを作成する方法と、n文字単位で文章を分割することにより得られた単語に対してインデックスを作成する方法(n−gram)とがある。本実施の形態で用いている方法は、後者のn−gramである。前者の方法では、検索語を事前に用意することが必要となるので、事前に検索語を用意する手間がかかる。一方、n−gramの場合には、検索対象となる文書群があれば単語が自動的に抽出されるので、単語を事前に用意する必要がない。このように、n−gramを適用することで、検索に要する手間を大幅に低減することができる。 Here, the significance of performing n character division will be described. In general, as a method of creating an index, a method of creating an index for a search term prepared in advance, and a method of creating an index for a word obtained by dividing a sentence by n characters (n -Gram). The method used in the present embodiment is the latter n-gram. In the former method, it is necessary to prepare a search word in advance, so it takes time to prepare a search word in advance. On the other hand, in the case of n-gram, since a word is automatically extracted if there is a document group to be searched, it is not necessary to prepare a word in advance. Thus, by applying n-gram, the labor required for the search can be greatly reduced.
次に、インデックス登録部120は、分割インデックスを作成する(ステップS106)。具体的には、インデックス登録部120は、文章の分割により得られた単語を、各文書のページごとに分割インデックスに登録し、重複する単語が得られた場合には、その単語の出現数をインクリメントして登録する。従って、分割インデックスには、各文書のページごとに、単語と出現数が対となって登録される。
Next, the
次に、インデックス登録部120は、インデックスをマージし、登録する(ステップS107、S108)。具体的には、インデックス登録部120は、例えば、図3に示したように、分割インデックスを最終的に検索で利用する構造(インデックス構造121)に変更する。インデックス構造121は、文章の分割により得られた単語ごとの出現頻度が各文書のページごとに関連付けられたものである。インデックス構造121は、例えば、文章の分割により得られた単語(単語121A)、その単語を含む文書の識別子(ファイルナンバー121B)、その単語を含むページの識別子(ページナンバー121C)、および、その単語の、1ページ内での出現数(出現頻度121D)を対とした構造である。インデックス登録部120は、例えば、図4に示したように、文章の分割により得られた単語ごと、および各文書のページごとにインデックス構造121を作成し、インデックス130に登録する。
Next, the
検索条件入力部140は、ユーザが入力した検索条件を受け付けるものである。検索条件入力部140は、例えば、キーボード、マウス、タッチパネル、マイクなどのデータ入力装置であってもよいし、例えば、ユーザが入力した検索条件をネットワーク経由で受信する通信装置であってもよい。
The search
図5は、検索部150の機能ブロックの一例を表したものである。検索部150は、検索条件入力部140から入力された検索条件に合う文書を、インデックス130に基づいて、文書格納部110内の検索対象の文書群から抽出するものである。検索部150は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。
FIG. 5 illustrates an example of functional blocks of the
検索部150は、まず、検索条件入力部140から与えられた検索条件を解析し、この検索条件に含まれる検索語(キーワード)を抽出する(ステップS201)。このとき、検索条件には、1つの検索語しか含まれていない場合もあるが、複数の検索語が含まれていることが一般的である。以下の説明では、検索条件に、複数の検索語が含まれているものとする。例えば、入力された検索条件が「キーワード ケンサク」となっていた場合には、検索部150は、図6に示したように、「キーワード」、「ケンサク」の2語を検索語として抽出する。
First, the
次に、検索部150は、取得した各検索語に対して、n文字分割を実施する(ステップS202)。具体的には、検索部150は、取得した各検索語をn文字単位で切り出す。このとき、切り出す文字数(n)は、インデックス130作成時に実施したn文字分割の切り出し文字数(n)と同じである。例えば、図6に示したように、「キーワード」は、文字数mが5、切り出す文字数(n)が2、切り出す回数Nがm−(n−1)=5−(2−1)=4であることから、検索部150は、「キーワード」を「キー」,[ーワ],「ワー」,[ード]という4個の単語に分割する。また、例えば、図6に示したように、「ケンサク」は、文字数mが4、切り出す文字数(n)が2、切り出す回数Nがm−(n−1)=4−(2−1)=3であることから、検索部150は、「ケンサク」を「ケン」,[ンサ],「サク]という3個の単語に分割する。
Next, the
次に、検索部150は、インデックス130を利用して、各検索語の出現頻度を、インデックス130に登録された文書ごとに計算する(ステップS203)。具体的には、検索部150は、まず、インデックス130を利用して、各検索語の分割により得られた単語ごとの出現頻度を、インデックス130に登録された各文書のページごとに抽出する。例えば、図6に示したように、検索部150は、「キー」の出現頻度として、ファイルナンバー5のページ1において10を取得し、ファイルナンバー8のページ6において4を取得する。
Next, the
次に、検索部150は、各文書のページごとの抽出により得られた単語ごとの出現頻度を利用して、各検索語の出現頻度を計算する(見積もる)。例えば、図6に示したように、ファイルナンバー5のページ1において、「キー」の出現頻度が10、「ーワ」の出現頻度が5、「ワー」の出現頻度が8、「ード」の出現頻度が2となっていることから、検索部150は、これらの最小値である2をファイルナンバー5(またはファイルナンバー5のページ1)における「キーワード」の出現頻度(f5(キーワード))とする。同様の方法を用いることで、検索部150は、1をファイルナンバー8における「キーワード」の出現頻度(f8(キーワード))とする。同様に、検索部150は、13をファイルナンバー5における「ケンサク」の出現頻度(f5(ケンサク))とし、16をファイルナンバー8における「ケンサク」の出現頻度(f8(ケンサク))とする。
Next, the
次に、検索部150は、インデックス130を利用して、各検索語の汎用度を計算する(ステップS204)。ここで、汎用度とは、文書格納部110内の検索対象の文書群における分布の度合いを意味している。汎用度は、文書格納部110内の検索対象の文書群のうち、検索語が含まれる文書の数(いわゆるヒット数)または割合に相当する概念である。汎用度の大きな語は、文書格納部110内の検索対象の文書群に広く分布している語であり、検索時の絞込みに十分な効果の無い語である。
Next, the
ここで、各検索語の汎用度を計算する意義について説明する。一般的な検索システムでは、入力された検索語を多く含む文書が上位に表示される「キーワード順」が適用されている。しかし、そのような検索システムでは、入力された検索語に、汎用語と非汎用語とが含まれている場合には、汎用語を多く含む文書が上位に表示され、非汎用語を含む文書が下位に表示される。このとき、ユーザが真に必要とする文書は、非汎用語を多く含む文書であると思われるが、上記の検索システムでは、そのような文書は汎用語に邪魔されて下位に埋没してしまう。このことから、検索結果の表示に際して、検索語の汎用度を考慮することが、ユーザが真に欲する文書を上位に表示する上で特に重要であることがわかる。 Here, the significance of calculating the versatility of each search term will be described. In a general search system, “keyword order” is applied in which documents including many input search terms are displayed at the top. However, in such a search system, if the input search word includes general-purpose words and non-generic words, a document containing many general-purpose words is displayed at the top, and a document containing non-generic words is displayed. Is displayed at the bottom. At this time, the document that the user really needs seems to be a document containing many non-generic words, but in the above search system, such a document is obstructed by the generic words and buried in the lower level. . From this, it can be seen that it is particularly important to consider the versatility of the search term when displaying the search result, in order to display the document that the user really wants at the top.
汎用度は、例えば、文書格納部110内の検索対象の文書群において、検索語が含まれる文書を検索することよって得られたヒット数であってもよいし、検索語の出現頻度が1以上となる文書の数であってもよい。汎用度として、検索語の出現頻度が1以上となる文書の数を適用する場合には、検索部150は、各検索語の出現頻度を計算する際に、出現頻度が1以上となる文書の数をカウントしておき、その結果得られたカウント数を汎用度として用いることが可能である。つまり、汎用度として、検索語の出現頻度が1以上となる文書の数を適用した場合には、検索部150は、各検索語の汎用度を計算するために、文書格納部110内の検索対象の文書群全体をわざわざ検索する必要がない。
The versatility may be, for example, the number of hits obtained by searching a document including a search word in a document group to be searched in the
次に、検索部150は、文書の重み付けを行う(ステップS205)。具体的には、検索部150は、まず、各検索語を含む文書をリストアップする。例えば、検索部150は、検索語の出現頻度が1以上となる文書(もしくはその文書の識別子)、または、出現頻度が1以上となる文書(もしくはその文書の識別子)をリストアップする。次に、検索部150は、各検索語の出現頻度および汎用度を利用して、リストアップされた各文書の、検索語ごとの重みを計算する。
Next, the
各検索語の出現頻度をfd(key)とし、各検索語の汎用度をV(key)とし、文書格納部110内の検索対象の文書群の文書数をMとすると、検索部150は、リストアップされた各文書の、検索語ごとの重みを、例えば、図6に示したように、fd(key)×M/V(key)を用いて求める。さらに、検索部150は、リストアップされた各文書の重みCost(d)を、例えば、図6に示したように、Σ(fd(key)×M/V(key))を用いて求める。なお、式中のdは、ファイルナンバーである。例えば、図6に示したように、検索部150は、上記の式を用いることにより、ファイルナンバー5の重みCost(5)として27.6を取得し、ファイルナンバー8の重みCost(8)として25.2を取得する。つまり、図6の例では、「キーワード」「ケンサク」において、ファイルナンバー5の重みCost(5)は、ファイルナンバー8の重みCost(8)よりも大きくなっている。
When the appearance frequency of each search word is fd (key), the general-purpose degree of each search word is V (key), and the number of documents in the document group to be searched in the
ここで、図6に示したように、「ケンサク」の出現頻度は「キーワード」の出現頻度よりも一桁も大きくなっている。そのため、一般的な「ランキング順」とした場合には、ファイルナンバー8の評価値は、ファイルナンバー5の評価値よりも大きくなるはずである。従って、この場合には、「ケンサク」の出現頻度の大きな文書(ファイルナンバー8の文書)が上位に表示され、「キーワード」の出現頻度の大きな文書(ファイルナンバー5の文書)が下位に表示される。一方、図6の例では、ファイルナンバー5の重みCost(5)が、ファイルナンバー8の重みCost(8)よりも大きくなっている。そのため、図6の例では、「キーワード」の出現頻度の大きな文書(ファイルナンバー5の文書)が上位に表示され、「ケンサク」の出現頻度の大きな文書(ファイルナンバー8の文書)が下位に表示される。このように、汎用度を用いることにより、汎用語に邪魔されて下位に埋没してしまうような文書を、上位に表示することが可能となる。
Here, as shown in FIG. 6, the appearance frequency of “kensaku” is an order of magnitude higher than the appearance frequency of “keyword”. Therefore, when the general “ranking order” is used, the evaluation value of the
マージ部160は、検索部150で得られたCost(d)を利用して、各文書のランキングを決定するものである。マージ部160は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。マージ部160は、Cost(d)の大きな文書から順にソートするようになっている。このとき、マージ部160は、ソートされた各文書についての所定の情報や、ヒット件数などを収集する。マージ部160は、例えば、ソートされた各文書のファイル名、作成日、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)、トップページ(1ページ目)のレイアウト情報(例えば画像データ)、ヒット件数を取得する。このとき、マージ部160は、検索語の出現頻度が最大となるページを含む複数ページのレイアウト情報(例えば画像データ)を取得することが好ましい。
The merging
マージ部160は、必要に応じて、ソート情報(文書の並び順についての情報)と、収集した情報(ファイル名等)とを所定の記憶領域に格納する。ここで、所定の記憶領域とは、検索結果表示部170が検索結果をディスプレイに表示させる際にアクセスする領域を指している。なお、マージ部160は、必要に応じて、ソート情報と、収集した情報とを直接、検索結果表示部170に渡してもよい。
The
検索結果表示部170は、マージ部160で決定されたランキングに従って、各文書を画面に表示させるものである。検索結果表示部170は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。検索結果表示部170は、まず、例えば、所定の記憶領域に格納された情報(ソート情報等)を取得する。なお、検索結果表示部170は、所定の記憶領域に格納された情報(ソート情報等)を収集する代わりに、マージ部160から直接、ソート情報等を取得してもよい。検索結果表示部170は、例えば、ウェブブラウザからなる。次に、検索結果表示部170は、取得した情報に基づいて、各文書を画面に表示させる。
The search
図7、図8、図9は、検索結果表示部170が画面に表示させた検索結果のレイアウトの一例を表したものである。例えば、画面の上部に、検索窓171および検索ボタン172が配置されており、画面の左脇に、表示形態を選択するボタン(ファイル173、ページ174、サムネイル175)が配置されている。さらに、画面の中央に、ソート情報に基づいて、ファイル名、作成日、および1または複数ページのレイアウト情報(例えば画像データ)が配置されている。
7, 8, and 9 show examples of the layout of the search results displayed on the screen by the search
検索結果表示部170は、例えば、図7に示したように、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)を文書ごとに、横一列に配列させる。このように、検索結果を表示する際に、ファイル名や作成日だけでなく、ページのレイアウトを表示することにより、ユーザは、ページのレイアウトを見ながら文書を探すことができる。さらに、複数ページのレイアウトを画面内に一挙に表示することにより、ユーザは、複数ページのレイアウトを一度に見渡すことができるので、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことも可能となる。例えば、「3ページ目あたりに図が入っている文章を探したい」といった場合に、ユーザは、図の周辺に書かれていると予測される単語を検索語として入力することで、所望の文書を探し出すことも可能となる。
For example, as illustrated in FIG. 7, the search
また、検索結果表示部170は、例えば、図8に示したように、検索語が含まれるページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させる。このとき、検索結果表示部170は、検索語の出現頻度が最大となるページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させていることが好ましい。ページのレイアウトを文書ごとに1ページずつ表示するようにした場合にも、ユーザは、ページのレイアウトを見ながら文書を探すことができる。従って、上記の場合よりは一度に見ることのできるページ数が少ないものの、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことが可能となる。
In addition, for example, as illustrated in FIG. 8, the search
また、検索結果表示部170は、例えば、図9に示したように、検索語が含まれる文書のトップページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させる。この場合には、ユーザは、非常に多くの文書のトップページのレイアウトを一度に見渡すことができるので、たくさんのトップページを見ながら文書を探すことができる。
Further, for example, as shown in FIG. 9, the search
ところで、検索結果表示部170は、検索語が含まれるページと、検索語が含まれないページのレイアウトを同時に画面に表示する際には、検索語が含まれるページと、検索語が含まれないページとを視覚的に区別できるようにしてもよい。例えば、図7に示したように、検索結果表示部170は、検索語が含まれるページの縁176をハイライト表示してもよい。また、検索結果表示部170は、検索結果として表示させた文書を選択的に取り出し、それを別個に保存するようにしてもよい。例えば、図7、図8、図9に示したように、検索結果として表示させた各文書の脇に、取り出し用のアイコン177を表示させ、そのアイコン177がユーザによって選択されたときに、そのアイコン177に対応する文書を別個に保存するようにしてもよい。
By the way, the search
[効果]
次に、本実施の形態の文書検索システム100の効果について説明する。
[effect]
Next, the effect of the
本実施の形態では、検索対象の文書群から得られたn文字単位の単語ごとの出現頻度がページごとに登録されたインデックス130を利用して、各検索語の汎用度が計算される。このように、本実施の形態では、各検索語の汎用度が導出されるので、汎用度を考慮したランキング表示が可能になる。また、各検索語の汎用度が計算により導出されるので、ユーザが、検索条件として入力する言葉が汎用語であるか否かを気にする必要がなくなる。また、本実施の形態では、インデックス130を利用して、文書よりも小さな形式区切りであるページごとに各検索語の出現頻度が計算される。これにより、単に網羅的な記載がなされているだけで、検索語同士が関連し合っていない文書が上位にランキングされるのを防ぐことができる。従って、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することができる。
In the present embodiment, the versatility of each search word is calculated using the
また、本実施の形態では、ページ単位で検索が行われているので、ファイルサイズや記載幅の広さが文書の優位に影響を与えることがなくなる。さらに、複数の検索語を用いた場合に、1ページ内に全ての検索語が分布しているときには、検索語の文書内での位置を把握していなくても、そのページでは、検索語同士が関連し合っている可能性が極めて高いと考えられる。従って、ページ単位で検索を行うことにより、検索語の文書内での位置を考慮した検索と同等の結果を得ることができる。さらに、ページ単位で検索を行う場合には、そもそも、検索語の文書内での位置情報は必要く、それゆえ、検索時にgrep型の検索を実行する必要もない。従って、高速検索を行うことが可能である。 In the present embodiment, since the search is performed in units of pages, the file size and the width of the description width do not affect the superiority of the document. Furthermore, when a plurality of search terms are used and all the search terms are distributed within one page, the search terms can be compared with each other even if the position of the search terms in the document is not grasped. Are likely to be related. Therefore, by performing a search in units of pages, it is possible to obtain a result equivalent to a search that considers the position of the search term in the document. Further, when searching in page units, position information in the document of the search word is not necessary in the first place, and therefore it is not necessary to execute a grep type search at the time of searching. Therefore, high-speed search can be performed.
また、本実施の形態において、図7の例では、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)が文書ごとに、横一列に配列されている。これにより、ユーザは、ページのレイアウトを見ながら文書を探すことができる。さらに、複数ページのレイアウトを一挙に表示することにより、ユーザは、複数ページのレイアウトを一度に見渡すことができるので、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことも可能となる。 Further, in the present embodiment, in the example of FIG. 7, layout information (for example, image data) of a plurality of pages including a page including a search word is arranged in a horizontal row for each document. Thereby, the user can search for a document while looking at the layout of the page. Furthermore, by displaying the layout of a plurality of pages at a time, the user can look over the layout of the plurality of pages at once, so that non-character information (for example, a diagram, table, formula, It is also possible to search for a desired document using a photograph or the like as a clue.
<2.変形例>
[第1変形例]
上記実施の形態では、n文字分割における分割の単位(n文字単位)が、2文字であったが、1文字であってもよいし、3文字以上であってもよい。ただし、n文字単位があまり大きくなると、n文字単位が検索語の文字数と同一となったり、検索語の文字数よりも大きくなってしまったりすることもあるので、n文字単位は検索語の文字数の統計的な平均値と同等か、それよりも小さいことが好ましい。例えば、日本語の文字数の統計的な平均値は2.3文字であるので、検索語として日本語が用いられる場合には、n文字単位は2文字または3文字であることが好ましい。さらに、例えば、日本語の検索精度をより高めたい場合には、n文字単位が、日本語の文字数の統計的な平均値に近い2文字および3文字だけでなく、1文字も含んでいることが好ましい。また、例えば、英語の文字数の統計的な平均値は5文字であるので、検索語として英語が用いられる場合には、n文字単位は5文字であることが好ましい。
<2. Modification>
[First Modification]
In the above embodiment, the division unit (n character unit) in n character division is two characters, but it may be one character or three or more characters. However, if the n character unit becomes too large, the n character unit may be the same as the number of characters in the search word or may be larger than the number of characters in the search word. It is preferably equal to or smaller than the statistical average value. For example, since the statistical average value of the number of characters in Japanese is 2.3 characters, when Japanese is used as a search word, the n character unit is preferably 2 characters or 3 characters. Furthermore, for example, in order to further improve the Japanese search accuracy, the n character unit should include not only two and three characters close to the statistical average value of the number of Japanese characters but also one character. Is preferred. Further, for example, since the statistical average value of the number of English characters is 5 characters, when English is used as a search word, the n character unit is preferably 5 characters.
[第2変形例]
また、上記実施の形態および第1変形例では、n文字分割における分割の単位(n文字単位)が1種類となっていたが、複数種類であってもよい。図10は、n文字単位が複数種類となっているときの文書検索システム100の一例を表したものである。例えば、図10に示したように、n文字単位が、k1文字単位(k1≧1)、k2文字単位(k2>k1)、およびk3文字単位(k3>k2)の3種類となっていてもよい。
[Second Modification]
Moreover, in the said embodiment and the 1st modification, although the unit (n character unit) of the division | segmentation in n character division | segmentation became one type, multiple types may be sufficient. FIG. 10 shows an example of the
このとき、インデックス登録部120は、ページ分割S104からインデックスのマージS107までの手順を文字単位の種類ごとに行うことが必要となる。例えば、図11の例では、インデックス登録部120は、ページ分割S104からインデックスのマージS107までの手順を、k1字単位、k2文字単位およびk3文字単位ごとに行う。さらに、インデックス登録部120は、文字単位の種類ごとにインデックスを登録することが必要となる。例えば、図11の例では、インデックス登録部120は、k1字単位、k2文字単位およびk3文字単位ごとに、インデックスを登録する。従って、インデックス130は、文字単位ごとに存在することなる。例えば、図11の例では、インデックス130は、k1字単位、k2文字単位およびk3文字単位ごとに存在する。
At this time, the
さらに、検索部150は、n文字分割S202から文書の重み付けS205までの手順を文字単位の種類ごとに行うことが必要となる。例えば、図12の例では、検索部150は、n文字分割S202から文書の重み付けS205までの手順をk1字単位、k2文字単位およびk3文字単位ごとに行う。マージ部160は、各文字単位での文書の重み付けの中から、最も適切な重み付けを選択する。
Further, the
なお、n文字単位は、入力され得る検索語の言語の文字数の統計的な平均値に近い文字単位を含んでいることが好ましい。例えば、検索語として日本語と英語が用いられる場合、n文字単位が、日本語の文字数の統計的な平均値に近い2文字および3文字と、英語の文字数の統計的な平均値に近い5文字とを含んでいることが好ましい。さらに、例えば、日本語の検索精度をより高めたい場合には、n文字単位が、1文字、2文字、3文字および5文字を含んでいることが好ましい。 The n character unit preferably includes a character unit close to a statistical average value of the number of characters in the language of the search term that can be input. For example, when Japanese and English are used as search terms, the n character unit is 2 and 3 characters close to the statistical average value of the number of Japanese characters, and 5 close to the statistical average value of the number of English characters. It is preferable that it contains a character. Furthermore, for example, when it is desired to further improve the Japanese search accuracy, the n character unit preferably includes one character, two characters, three characters, and five characters.
[第3変形例]
上記実施の形態およびその変形例では、文書やインデックスなどを管理する際の形式区切りの単位をページとしていたが、本発明はそれに限定されるものではなく、例えば、段落、章、または節であってもよい。ページ、段落、章、および節は、特定の内容がまとまった領域となっており、形式的な文書構造マーカとしての役割を有している。従って、文書を、ページ、段落、章、または節で区切ることにより、文書を意味内容ごとに区切ることが可能となる。
[Third Modification]
In the above embodiment and its modifications, the unit of format separation when managing documents and indexes is a page. However, the present invention is not limited to this, and is, for example, a paragraph, chapter, or section. May be. Pages, paragraphs, chapters, and sections are groups of specific contents and serve as formal document structure markers. Therefore, by separating the document by pages, paragraphs, chapters, or sections, the document can be separated by semantic content.
文書の形式区切りとして、段落、章、または節を用いる場合には、上記実施の形態およびその変形例において「ページ」を「段落、章、または節」に読み替えればよい。例えば、上記実施の形態およびその変形例において、インデックス登録部120は、取得した各文書に対して、段落、章、または節の単位で分割を実施し、取得した各文書の段落、章、または節ごとに、n文字分割を実施してもよい(ステップS104、S105)。また、例えば、上記実施の形態およびその変形例において、インデックス登録部120は、文章の分割により得られた単語を、各文書の段落、章、または節ごとに分割インデックスに登録するようにしてもよい。このようにした場合には、分割インデックスには、各文書の段落、章、または節ごとに、単語と出現数が対となって登録される。
When paragraphs, chapters, or sections are used as document format separators, “page” may be read as “paragraphs, chapters, or sections” in the above-described embodiment and its modifications. For example, in the above-described embodiment and its modifications, the
[第4変形例]
上記実施の形態およびその変形例では、インデックス登録部120や検索部150がプログラムのロードされた演算装置で構成されている場合が例示されていたが、この場合には、文書検索システム100は、演算装置にプログラムをロードするための仕組みを備えている。例えば、文書検索システム100は、インデックス登録部120および検索部150が実行する内容が記述されたプログラムの記録された読み出し可能な記録媒体から、プログラムを読み出すリーダを備えていてもよい。また、例えば、文書検索システム100は、上記のプログラムをネットワーク経由で取得する通信システムを備えていてもよい。
[Fourth Modification]
In the above-described embodiment and its modification, the case where the
<3.応用例>
以下、上記実施の形態およびその変形例で説明した文書検索システム100の応用例について説明する。文書検索システム100は、図13に示したような単独の文書検索装置200に適用することが可能である。また、文書検索システム100は、図14に示したように、外部ネットワーク400を介して端末装置300から検索条件を文書検索装置200に入力するシステムに対して応用することが可能である。また、図15に示したように、外部ネットワーク400に接続された文書記憶装置500内の文書群の検索を、外部ネットワーク400に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。また、図16に示したように、LAN600に接続された文書記憶装置500内の文書群の検索を、LAN600に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。
<3. Application example>
Hereinafter, application examples of the
図13に記載の文書検索装置200は、上記の文書検索システム100の機能を1つの端末装置で実現したものに相当する。文書検索装置200は、例えば、図13に示したように、文書検索装置200全体を制御する制御部210と、制御部210によって利用されるデータを格納可能な記憶部220と、検索条件の入力を受け付ける入力部230と、検索結果を表示する表示部240とを備えている。制御部210、記憶部220、入力部230および表示部240は、例えば、共通のバス250に接続されている。記憶部220は、例えば、図13に示したように、文書検索プログラム221、文書格納部222およびインデックス223を格納している。
A
文書検索プログラム221は、インデックス登録部120、検索部150、マージ部160および検索結果表示部170で実行される一連の手順をコンピュータに実行させるものである。文書格納部222は、文書格納部110の一態様に相当する。インデックス223は、インデックス130の一態様に相当する。文書検索プログラム221のロードされた制御部210が、インデックス登録部120、検索部150、マージ部160および検索結果表示部170の一態様に相当する。
The
図14に記載の検索システムは、外部ネットワーク400を介して、端末装置300と文書検索装置200が接続されたものである。図14の文書検索装置200は、図13の文書検索装置200において、表示部240が省略され、さらに、入力部230の代わりに通信部260が設けられたものに相当する。通信部260は、文書検索装置200が外部ネットワーク400を介して端末装置300と通信することを可能にする装置である。
In the search system illustrated in FIG. 14, a
端末装置300は、検索条件の入力を受け付け、受け付けた検索条件を外部ネットワーク400を介して文書検索装置200に渡し、検索結果をユーザに提示する装置である。端末装置300は、例えば、図14に示したように、端末装置300全体を制御する制御部310と、制御部310によって利用されるデータを格納可能な記憶部320と、検索条件の入力を受け付ける入力部330と、検索結果を表示する表示部340と、外部ネットワーク400を介して文書検索装置200と通信する通信部350とを備えている。制御部310、記憶部320、入力部330、表示部340および通信部350は、例えば、共通のバス360に接続されている。記憶部220は、例えば、図示しないが、検索結果表示部170で実行される一連の手順をコンピュータに実行させるソフトウェア(例えばウェブブラウザ)を格納している。図14の文書検索プログラム221は、上述のインデックス登録部120、検索部150およびマージ部160で実行される一連の手順をコンピュータに実行させるものである。文書格納部222は、文書格納部110の一態様に相当する。インデックス223は、インデックス130の一態様に相当する。文書検索プログラム221のロードされた制御部210が、上述のインデックス登録部120、検索部150およびマージ部160の一態様に相当する。検索結果表示部170で実行される一連の手順をコンピュータに実行させるソフトウェアのロードされた制御部310が、検索結果表示部170の一態様に相当する。
The
図15に記載の検索システムは、外部ネットワーク400を介して、文書検索装置200と文書記憶装置500が接続されたものである。図15の文書検索装置200は、図13の文書検索装置200において、文書格納部222が省略され、さらに、通信部260が設けられたものに相当する。通信部260は、文書検索装置200が外部ネットワーク400を介して文書記憶装置500と通信することを可能にする装置である。
The search system illustrated in FIG. 15 is a system in which a
文書記憶装置500は、ネットワーク経由でアクセスする記憶装置である。文書記憶装置500は、例えば、図15に示したように、文書記憶装置500全体を制御する制御部510と、制御部510によって利用されるデータを格納可能な記憶部520と、外部ネットワーク400を介して文書検索装置200と通信する通信部350とを備えている。
The
図16に記載の検索システムは、LAN600を介して、文書検索装置200と文書記憶装置500が接続されたものである。図16の文書検索装置200は、図15の文書検索装置200において、通信部260の代わりに通信部270が設けられたものに相当する。通信部270は、文書検索装置200がLAN600を介して文書記憶装置500と通信することを可能にする装置である。
The search system illustrated in FIG. 16 is a system in which a
図16の文書記憶装置500は、図15の文書記憶装置500において、通信部530の代わりに通信部550が設けられたものに相当する。通信部550は、文書記憶装置500がLAN600を介して文書検索装置200と通信することを可能にする装置である。
The
以上のように、文書検索システム100は、様々な態様の検索システムに応用可能である。
As described above, the
100…文書検索システム、110…文書格納部、120…インデックス登録部、121…インデックス構造、121A…単語、121B…ファイルナンバー、121C…ページナンバー、121D…出現頻度、130…インデックス、140…検索条件入力部、150…検索部、160…マージ部、170…検索結果表示部、171…検索窓、172…検索ボタン、173…ファイル、174…ページ、175…サムネイル、176…縁、177…アイコン、200…文書検索装置、210,310,510…制御部、220,320,520…記憶部、221…文書検索プログラム、222…文書格納部、223…インデックス、230,330…入力部、240,340…表示部、250,360,540…バス、260,270,350,530,550…通信部、300…端末装置、500…文書記憶装置、600…LAN。
DESCRIPTION OF
Claims (8)
検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する抽出部と、
前記抽出部で抽出された単語ごとの出現頻度を利用するとともに、各検索語の文書内に構成される形式区切り内での位置情報を利用しないで、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部と
を備えた文書検索システム。 A dividing unit that analyzes a given search condition and divides each search word included in the search condition in units of n characters (n ≧ 1);
The frequency of appearance for each word obtained by dividing each document in the search target document group by n characters is obtained by dividing each search word by using an index registered for each document format break. An extraction unit that extracts the appearance frequency for each word that is registered for each format break registered in the index;
While using the appearance frequency for each word extracted by the extraction unit, and not using the position information within the format break configured in the document of each search word, A document search system comprising: a weighting unit that calculates a generality of each search word and calculates a weight of each document using the appearance frequency and the generality obtained by the calculation.
請求項1に記載の文書検索システム。 The document search system according to claim 1, wherein the format break is a page, a paragraph, a chapter, or a section.
請求項1または請求項2に記載の文書検索システム。 The document search system according to claim 1, further comprising a merge unit that determines a ranking of each document using the weight obtained by the weighting unit.
請求項3に記載の文書検索システム。 The document search system according to claim 3, further comprising a search result display unit that displays each document according to the ranking determined by the merge unit.
請求項4に記載の文書検索システム。 5. The document search system according to claim 4, wherein the search result display unit displays a continuous layout of a plurality of format delimiters including a format delimiter having the highest appearance frequency in each document.
請求項4に記載の文書検索システム。 The document search system according to claim 4, wherein the search result display unit displays a format-separated layout that maximizes the appearance frequency in each document.
前記インデックスは、前記n文字単位に含まれる文字単位ごとのインデックスを含み、
前記分割部は、各検索語を各文字単位で分割し、
前記抽出部は、前記インデックスを利用して、前記分割部での分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごと、および前記文字単位ごとに抽出し、
前記重み付け部は、前記抽出部での抽出により得られた単語ごとの出現頻度を利用して、各検索語の形式区切りごとおよび前記文字単位ごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する
請求項1ないし請求項6のいずれか一項に記載の文書検索システム。 The n character unit includes a plurality of character units,
The index includes an index for each character unit included in the n character unit,
The dividing unit divides each search term in units of characters,
The extraction unit uses the index to extract the appearance frequency for each word obtained by the division in the division unit for each format break registered in the index and for each character unit,
The weighting unit uses the appearance frequency for each word obtained by the extraction in the extraction unit to determine the appearance frequency for each format term and each character unit, and the generality of each search word. The document search system according to any one of claims 1 to 6, wherein the weight of each document is calculated using the appearance frequency and the versatility obtained by the calculation.
検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する第2ステップと、
前記抽出部で抽出された単語ごとの出現頻度を利用するとともに、各検索語の文書内に構成される形式区切り内での位置情報を利用しないで、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップと
をコンピュータに実行させる文書検索プログラム。 Analyzing a given search condition and dividing each search word included in the search condition in units of n characters (n ≧ 1);
The frequency of appearance for each word obtained by dividing each document in the search target document group by n characters is obtained by dividing each search word by using an index registered for each document format break. A second step of extracting the appearance frequency for each word obtained for each format break registered in the index;
While using the appearance frequency for each word extracted by the extraction unit, and not using the position information within the format break configured in the document of each search word, And a third step of calculating a general degree of each search word and calculating a weight of each document using the appearance frequency and the general degree obtained by the calculation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011167158A JP5802924B2 (en) | 2011-07-29 | 2011-07-29 | Document search system and document search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011167158A JP5802924B2 (en) | 2011-07-29 | 2011-07-29 | Document search system and document search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013030089A JP2013030089A (en) | 2013-02-07 |
JP5802924B2 true JP5802924B2 (en) | 2015-11-04 |
Family
ID=47787056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011167158A Active JP5802924B2 (en) | 2011-07-29 | 2011-07-29 | Document search system and document search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5802924B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
CN104461348B (en) * | 2014-10-31 | 2018-09-04 | 小米科技有限责任公司 | Information choosing method and device |
CN105786790A (en) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | Device and method for generation of paper text |
JP7021544B2 (en) * | 2018-01-31 | 2022-02-17 | ブラザー工業株式会社 | Image processing equipment and computer programs |
JP7049608B2 (en) * | 2018-05-01 | 2022-04-07 | 株式会社教育同人社 | Report card creation support system and report card creation support program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3017A (en) * | 1843-03-21 | Plate turn-button for fastening cupboard and other doors | ||
US10016A (en) * | 1853-09-13 | Bootjack | ||
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
JP2003323457A (en) * | 2002-02-28 | 2003-11-14 | Ricoh Co Ltd | Document retrieval device, document retrieval method, program and recording medium |
JP4238616B2 (en) * | 2003-03-28 | 2009-03-18 | 株式会社日立製作所 | Similar document search method and similar document search device |
JP2006331117A (en) * | 2005-05-26 | 2006-12-07 | Ricoh Co Ltd | Document retrieval system, document retrieval apparatus, document retrieval method and document retrieval program |
JP5159277B2 (en) * | 2007-11-30 | 2013-03-06 | 三菱電機株式会社 | N character index generation device, document search device, N character index generation method, document search method, N character index generation program, and document search program |
-
2011
- 2011-07-29 JP JP2011167158A patent/JP5802924B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013030089A (en) | 2013-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
CN102760172B (en) | Network searching method and network searching system | |
JP5241828B2 (en) | Dictionary word and idiom determination | |
US20040230570A1 (en) | Search processing method and apparatus | |
US20080177731A1 (en) | Data processing apparatus, data processing method and search apparatus | |
JP5550669B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US20120221553A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
JP5161658B2 (en) | Keyword input support device, keyword input support method, and program | |
EP2506208A1 (en) | Forensic system and forensic method, and forensic program | |
JP2019514124A (en) | System and method for providing visualizable result lists | |
WO2015047920A1 (en) | Title and body extraction from web page | |
JP5802924B2 (en) | Document search system and document search program | |
JP2010009577A (en) | Information processing apparatus, full text retrieval method, full text retrieval program, and recording medium | |
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
JP2009251934A (en) | Retrieving apparatus, retrieving method, and retrieving program | |
JP5827206B2 (en) | Document management system, document management method, and document management program | |
JP5346991B2 (en) | Content output method, content output device, and content output program | |
KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
JP4640861B2 (en) | Search processing method and program | |
Bainbridge et al. | Interactive context-aware user-driven metadata correction in digital libraries | |
JP2007026116A (en) | Concept search system and concept search method | |
TWI451277B (en) | Search tags visualization system and method therefore | |
JP2021026471A (en) | Information managing device and file management method | |
JP5768561B2 (en) | Input support program, input support apparatus, and input support method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5802924 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |