JP2010277568A - Retrieval device - Google Patents

Retrieval device Download PDF

Info

Publication number
JP2010277568A
JP2010277568A JP2009240343A JP2009240343A JP2010277568A JP 2010277568 A JP2010277568 A JP 2010277568A JP 2009240343 A JP2009240343 A JP 2009240343A JP 2009240343 A JP2009240343 A JP 2009240343A JP 2010277568 A JP2010277568 A JP 2010277568A
Authority
JP
Japan
Prior art keywords
search
document
documents
character string
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009240343A
Other languages
Japanese (ja)
Inventor
Makoto Tokita
誠 時田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2009240343A priority Critical patent/JP2010277568A/en
Publication of JP2010277568A publication Critical patent/JP2010277568A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a retrieval device which obtains the retrieval result that an operator narrows down a plurality of documents to the appropriate number of documents. <P>SOLUTION: A document retrieval repetition means 14 of the retrieval device 10 sequentially retrieves documents for retrieval from the lowest ratio to the highest ratio of retrieval word hit ratio set by a retrieval word hit ratio setting means 13 or the opposite direction of ratio. When the number of documents for retrieval becomes equal to or less than the matching number specified by a matching number specification means 11 in the case of the direction from the lowest ratio to the highest ratio, or when the number of documents for retrieval exceeds the matching number in the case of the opposite direction of ratio, retrieval processing stops, and a document retrieval result output means 15 outputs a retrieval result. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、学術文献、雑誌記事、新聞記事、特許文献、ホームページの各種のコンテンツ等の各種の文書の中から所望の文書の検索を行う検索装置に関する。   The present invention relates to a search device that searches for a desired document from various documents such as academic documents, magazine articles, newspaper articles, patent documents, and various contents of a homepage.

文書の検索は、各所で日常的に行われている。このための検索装置は、専門の計算機から簡単なアプリケーションソフトウェアをパーソナルコンピュータ等のCPU(Central Processing Unit)で実行するものまで多岐に亘っている。このような検索装置は検索エンジン、検索方式、検索対象によって大別することができる。   Document retrieval is routinely performed in various places. Search devices for this purpose range from specialized computers to those that execute simple application software on a CPU (Central Processing Unit) such as a personal computer. Such search devices can be broadly classified according to search engines, search methods, and search targets.

検索エンジンとしては、インデックス型エンジン、RDB(relational database)型エンジン、全文検索エンジン、概念検索エンジン等の各種のエンジンが提案されている。検索方式としては、AND、OR、NOT、NEAR等の論理演算を行うブール演算方式、語彙空間におけるベクトルである相関係数順や、指定した複数の検索ワードのうちヒットしたワード数の100分率順で表示するランキング型の手法が知られている。検索対象としては、文献全体を対象とするもの、あるいは、ページを対象とするもの、または、文献やページの構成単位であるセンテンス等の所定範囲の文字列を対象とするものが知られている。   As search engines, various engines such as an index type engine, an RDB (relational database) type engine, a full-text search engine, and a concept search engine have been proposed. As a search method, a Boolean operation method that performs logical operations such as AND, OR, NOT, and NEAR, a correlation coefficient order that is a vector in a vocabulary space, and a percentage of the number of hit words among a plurality of specified search words A ranking type method of displaying in order is known. As a search target, there is known a target for the entire document, a target for a page, or a target for a character string in a predetermined range such as a document or a sentence that is a constituent unit of a page. .

ところで、検索装置で多数の文書を機械的に検索すると、検索のキーワードとしての検索語を選択した段階では想定しないような異なった内容の文書が検索結果として示される場合が多い。これは、検索語の選定の仕方によることも多いが、1つの文書が必ずしも1つのテーマに沿った内容となっていない場合があることも原因となっている。たとえば、インターネットに存在する日記風の文書では、一日に起こった社会の事件や生活についての雑多な内容が、かなりの長さの文章で記述され、ようやく本題に至る場合が多い。このような文書は、検索作業者の意図する内容が存在しなかったり、存在しても希薄な内容に関わらず、検索結果として比較的上位を占めることになるという現象が発生する。そこで、従来では検索語に対応して抽出された比較的多量な文書の内容のチェックを膨大な時間を掛けて逐一行う必要があった。   By the way, when a large number of documents are mechanically searched by a search device, documents having different contents that are not assumed at the stage of selecting a search word as a search keyword are often shown as search results. This often depends on the method of selecting a search word, but it is also caused by the fact that one document may not necessarily have the contents according to one theme. For example, in a diary-like document existing on the Internet, miscellaneous contents about social events and life that happened in one day are described in a considerable length of text, and finally it finally reaches the main subject. Such a document has a phenomenon in which the content intended by the search operator does not exist, or even if it exists, the content is relatively high as a search result regardless of the sparse content. Therefore, conventionally, it has been necessary to check the contents of a relatively large amount of documents extracted corresponding to a search word one by one over a huge amount of time.

このような問題を解消するために、本発明の第1の関連技術として、検索者が指定した検索文から検索語を抽出して、関連文書から適合文書をランキング型の手法で検索する検索装置が提案されている(たとえば特許文献1参照)。この第1の関連技術では、検索結果の内容を吟味して、検索者が求める文書を適合文書として選択する。すると、図示しない適合文書指定部は、その選択に応じて検索結果から複数の適合文書を指定する。同じく図示しない関連語抽出部は、検索者が指定した適合文書から関連語を抽出し、図示しない関連文書検索部に入力する。関連文書検索部は、文書群から関連語を含む文書を関連文書としてランキング型で検索し、その検索結果を表示する。これにより、検索者が指定した
適合文書が検索上位に現われるようになる。
In order to solve such a problem, as a first related technique of the present invention, a search device that extracts a search word from a search sentence specified by a searcher and searches for a matching document from the related document by a ranking type technique. Has been proposed (see, for example, Patent Document 1). In the first related technique, the contents of the search result are examined, and the document requested by the searcher is selected as the relevant document. Then, a conforming document designating unit (not shown) designates a plurality of conforming documents from the search result according to the selection. Similarly, a related word extraction unit (not shown) extracts a related word from the relevant document designated by the searcher and inputs it to the related document search unit (not shown). The related document search unit searches for documents including related words from the document group as related documents in a ranking type, and displays the search results. As a result, the matching document designated by the searcher appears in the upper search.

一方、文書に雑多な内容が記載されていることを一因として検索結果にノイズが発生するという問題に関して、検索対象を文書の全体ではなく、文単位にすることで解決しようとする第2の関連技術が提案されている(たとえば特許文献2参照)。この第2の関連技術では、データベース内に格納された文書ファイルを検索時に文単位に分割する。そしてすべての文書の文を対象に複数の検索語でAND検索する。   On the other hand, regarding the problem that noise is generated in the search result due to miscellaneous contents being described in the document, the second problem is that the search target is not a whole document but a sentence unit. Related techniques have been proposed (see, for example, Patent Document 2). In the second related technique, a document file stored in a database is divided into sentence units at the time of retrieval. Then, an AND search is performed with a plurality of search terms on all document sentences.

特開2006−251935号公報(第0039段落、第0040段落、図2)JP 2006-251935 A (paragraph 0039, paragraph 0040, FIG. 2) 特開2001−195416号公報(第0017段落、第0018段落、図1、図2)JP 2001-195416 A (paragraphs 0017 and 0018, FIG. 1 and FIG. 2)

このうち第1の関連技術では、検索者は検索結果として得られた適合文書の数が膨大であると、この中から必要数の文書を十分吟味して選択する必要があり、手間と時間を必要とするという問題が残る。しかも検索作業者は、適合文書を所望の数に絞り込む過程で検索用語を幾度も指定したり、関連文書の検索を複数回実行する必要がある。   Of these, in the first related technique, when the number of conforming documents obtained as a search result is enormous, the searcher needs to carefully examine and select the required number of documents from among them. The problem of need remains. In addition, the search operator needs to specify the search term several times in the process of narrowing down the number of conforming documents to a desired number, or to execute a search for related documents a plurality of times.

一方、第2の関連技術では、検索装置の処理時間がかなり掛かるという問題がある。すなわち、第2の関連技術で検索装置はすべての文書のすべての文を1つずつ検索していく。一例として検索対象として特許出願に関する公報を想定してみる。文書としての公報の収容件数が10万件のデータベースがあるとする。1つの特許公報あたりの文の数を100と仮定すると、データベース全体では1000万文が検索の対象となる。このような膨大な文の検索を行うと検索時間が長く掛かるので、一般的なパーソナルコンピュータやサーバ等の情報処理装置では検索の実現が困難となる。また、このような検索の実用化を行おうとすると、多額のコストが必要となる。   On the other hand, the second related technique has a problem that the processing time of the search device is considerably long. That is, in the second related technique, the search device searches all sentences in all documents one by one. As an example, let's assume a gazette concerning a patent application as a search target. Suppose that there is a database that contains 100,000 documents as documents. Assuming that the number of sentences per patent gazette is 100, 10 million sentences are searched for in the entire database. When searching for such an enormous amount of text, it takes a long time to search, and it is difficult to realize the search by an information processing apparatus such as a general personal computer or server. In addition, if such a search is put to practical use, a large amount of cost is required.

そこで本発明の目的は、複数の文書の中から検索作業者が適正とする数の文書に絞った検索結果を得ることのできる検索装置を提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to provide a search device that can obtain a search result narrowed down to the number of documents that the search operator makes appropriate from among a plurality of documents.

本発明の他の目的は、検索作業者の意図する検索結果をより確実に得ることのできる検索装置を提供することにある。   Another object of the present invention is to provide a search device that can more reliably obtain a search result intended by a search operator.

本発明では、(イ)検索対象となる複数の文書の中で最終的な検索対象とする文書の数としての適合件数を指定する適合件数指定手段と、(ロ)前記した最終的な検索対象とする文書に含まれるべき用語としての検索語を予め所定数指定する検索語指定手段と、(ハ)この検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も低い割合から最も高い割合の方向へ、あるいは最も高い割合から最も低い割合の方向へと前記した検索対象となる文書を順次検索し、得られた文書の数が、前記した最も低い割合から最も高い割合の方向のときに前記した適合件数指定手段で指定した前記した適合件数以下となったとき、あるいは前記した最も高い割合から最も低い割合の方向のときに前記した適合件数を超えることになったとき、検索処理を停止する文書検索繰り返し手段と、(ニ)前記した最も低い割合から最も高い割合の方向のときにこの文書検索繰り返し手段によって検索処理を停止した段階の文書、あるいは最も高い割合から最も低い割合の方向のときに前記した適合件数を超えることになる1つ手前の段階の文書を検索結果として出力する文書検索結果出力手段とを検索装置が具備する。   In the present invention, (b) a matching number designating unit for designating a matching number as a number of documents to be finally searched among a plurality of documents to be searched, and (b) the final searching object described above. A search word designating means for designating a predetermined number of search words as terms to be included in the document, and (c) the highest from the lowest ratio among the search word hit ratios set by the search word hit ratio setting means When the documents to be searched are sequentially searched in the direction of percentage or from the highest percentage to the lowest percentage, and the number of obtained documents is in the direction from the lowest percentage to the highest percentage. When the number of conforming cases specified by the above-mentioned conforming number specifying means is less than or equal to the number of conforming cases specified above, or when the number of conforming cases is exceeded in the direction from the highest ratio to the lowest ratio, Document search repeating means for stopping the processing, and (d) the document at the stage where the search processing is stopped by the document search repeating means in the direction from the lowest ratio to the highest ratio, or the highest ratio to the lowest ratio The search apparatus includes a document search result output unit that outputs a document at the immediately preceding stage that exceeds the number of matching cases in the direction of.

以上説明したように本発明によれば、検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も低い割合から最も高い割合へ、あるいはその逆の割合の方向へと検索対象となる文書を順次検索する。そして、最も低い割合から最も高い割合の方向のときに得られた文書の数が適合件数指定手段で指定した前記した適合件数以下となったとき、あるいはその逆の割合の方向のときに適合件数を超えることになったとき、検索処理を停止する。したがって、検索対象となる文書の数の多少に関わらず、検索目的に応じた適正な数の文書を人手を特に要することなく選び出すことができる。このため、検索作業者による目視による確認作業としてのスクリーニング作業が不要になる。この結果、検索作業者は、更に必要な場合、選び出された文書の精査に注力することができる。   As described above, according to the present invention, a document to be searched in the direction from the lowest ratio to the highest ratio among the search word hit ratios set by the search word hit ratio setting means or vice versa. Search sequentially. The number of documents obtained when the number of documents obtained in the direction from the lowest percentage to the highest percentage is less than or equal to the number of documents specified by the number-of-conforms specifying means, or vice versa. The search process is stopped when it exceeds. Therefore, regardless of the number of documents to be searched, it is possible to select an appropriate number of documents according to the search purpose without requiring human intervention. This eliminates the need for a screening operation as a visual confirmation operation by the search operator. As a result, the search operator can concentrate on examining the selected document if necessary.

本発明の検索装置のクレーム対応図である。It is a claim corresponding | compatible figure of the search device of this invention. 本発明の実施の形態による検索装置の構成の概要を表わしたブロック図である。It is a block diagram showing the outline | summary of the structure of the search device by embodiment of this invention. 本実施の形態の検索装置による検索処理の流れを表わした流れ図である。It is a flowchart showing the flow of the search process by the search device of this Embodiment. 本実施の形態で検索語・適合件数指定部を構成するディスプレイに表示されるウィンドウの要部を表わした平面図である。It is a top view showing the principal part of the window displayed on the display which comprises a search word and the number-of-conformity designation | designated part in this Embodiment. 本実施の形態によるセンテンス内ヒット率処理部を具体化したブロック図である。It is the block diagram which actualized the sentence hit rate process part by this Embodiment. 本実施の形態におけるセンテンス内ヒット率処理部の処理の流れを示した流れ図である。It is the flowchart which showed the flow of the process of the hit ratio process part in a sentence in this Embodiment. 本実施の形態で検索結果の出力の一形態としてのディスプレイに表示されるウィンドウの要部を表わした平面図である。It is a top view showing the principal part of the window displayed on the display as one form of the output of a search result in this Embodiment. 本実施の形態で検索作業者がヒットしたセンテンスを確認する際にディスプレイに表示したウィンドウの一例を示した平面図である。It is the top view which showed an example of the window displayed on the display, when confirming the sentence which the search operator hit in this Embodiment.

図1は、本発明の検索装置のクレーム対応図を示したものである。本発明の検索装置10は、適合件数指定手段11と、検索語指定手段12と、検索語ヒット割合設定手段13と、文書検索繰り返し手段14と、文書検索結果出力手段15とを備えている。ここで、適合件数指定手段11は、検索対象となる複数の文書の中で最終的な検索対象とする文書の数としての適合件数を指定する。検索語指定手段12は、最終的な検索対象とする文書に含まれるべき用語としての検索語を予め所定数指定する。検索語ヒット割合設定手段13は、検索語指定手段12によって指定した検索語が検索対象となるそれぞれの文書に含まれる数の割合としての検索語ヒット割合を複数段階設定する。文書検索繰り返し手段14は、検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も低い割合から最も高い割合の方向へ、あるいは最も高い割合から最も低い割合の方向へと前記した検索対象となる文書を順次検索する。そして、得られた文書の数が、前記した最も低い割合から最も高い割合の方向のときに適合件数指定手段11で指定した前記した適合件数以下となったとき、あるいは前記した最も高い割合から最も低い割合の方向のときに前記した適合件数を超えることになったとき、検索処理を停止する。文書検索結果出力手段15は、前記した最も低い割合から最も高い割合の方向のときにこの文書検索繰り返し手段14によって検索処理を停止した段階の文書、あるいは最も高い割合から最も低い割合の方向のときに前記した適合件数を超えることになる1つ手前の段階の文書を検索結果として出力する。   FIG. 1 is a diagram corresponding to claims of the search device of the present invention. The search device 10 of the present invention includes a matching number specifying means 11, a search word specifying means 12, a search word hit ratio setting means 13, a document search repetition means 14, and a document search result output means 15. Here, the matching number designation means 11 designates the matching number as the number of documents to be finally searched among a plurality of documents to be searched. The search term designating unit 12 designates a predetermined number of search terms as terms to be included in the final document to be searched. The search word hit ratio setting means 13 sets a plurality of search word hit ratios as a ratio of the number of search words specified by the search word specifying means 12 included in each document to be searched. The document search repetition unit 14 is configured to search from the search rate hit ratio set by the search word hit rate setting unit from the lowest rate to the highest rate, or from the highest rate to the lowest rate. The documents that become are sequentially searched. Then, when the number of obtained documents is equal to or less than the above-mentioned number of matching specified by the matching number specifying means 11 when the direction is from the lowest ratio to the highest ratio, or from the highest ratio described above, When the number of matching cases is exceeded when the direction is low, the search process is stopped. The document search result output means 15 is a document at a stage where the search processing is stopped by the document search repeat means 14 when the direction is from the lowest ratio to the highest ratio, or when the direction is from the highest ratio to the lowest ratio. The document at the previous stage that exceeds the number of matching cases is output as a search result.

<発明の実施の形態>   <Embodiment of the Invention>

次に本発明の実施の形態を説明する。   Next, an embodiment of the present invention will be described.

図2は、本発明の実施の形態による検索装置の構成の概要を表わしたものである。本実施の形態の検索装置100は、装置全体の制御を行う主制御部101を備えている。主制御部101は、CPU(Central Processing Unit)102と、装置の制御を行う制御プログラムを格納したメモリ103を有している。メモリ103は、ROM(Read Only Memory)のような半導体メモリであってもよいし、磁気ディスクや光ディスクあるいはDVD(Digital Versatile Disk)等の記憶媒体であってもよい。主制御部101は、次の各部と接続されており、これらの制御を行う。ただし、次に説明する各部の少なくとも一部は、CPU102がメモリ103に格納された制御プログラムを実行することでソフトウェア的に実現されるものであってもよい。   FIG. 2 shows an outline of the configuration of the search device according to the embodiment of the present invention. The search device 100 according to the present embodiment includes a main control unit 101 that controls the entire device. The main control unit 101 includes a CPU (Central Processing Unit) 102 and a memory 103 that stores a control program for controlling the apparatus. The memory 103 may be a semiconductor memory such as a ROM (Read Only Memory), or may be a storage medium such as a magnetic disk, an optical disk, or a DVD (Digital Versatile Disk). The main control unit 101 is connected to the following units and performs these controls. However, at least a part of each unit described below may be realized by software by the CPU 102 executing a control program stored in the memory 103.

文書格納部104は、検索対象の文書を格納する。ただし、検索対象の文書は文書格納部104に格納されている必要はない。検索対象の文書は、CD(Compact Disc)あるいはDVD等の記録メディアに格納されていてもよいし、図示しない通信手段を介して接続されたネットワーク上のサーバに格納されていてもよい。   The document storage unit 104 stores a search target document. However, the search target document does not need to be stored in the document storage unit 104. The search target document may be stored in a recording medium such as a CD (Compact Disc) or a DVD, or may be stored in a server on a network connected via a communication unit (not shown).

検索語・適合件数指定部105は、文書格納部104に格納された文書を検索する検索語を指定あるいは入力すると共に適合件数を指定するデバイスである。たとえば図示しないキーボードや液晶ディスプレイ等のディスプレイを用いて検索語・適合件数指定部105を構成することができる。検索語・適合件数指定部105は、検索のための用語として検索語だけでなく、その均等語も入力することができる。均等語とは、検索語と均等の意味を有する用語であり、類似の意味を有する類似語であってもよい。   The search term / applicable number designation unit 105 is a device that designates or inputs a search term for searching a document stored in the document storage unit 104 and designates the number of matches. For example, the search word / matching number designation unit 105 can be configured using a display such as a keyboard or a liquid crystal display (not shown). The search term / matching number designation unit 105 can input not only the search terms but also the equivalent terms as terms for the search. An equivalent word is a term having a meaning equivalent to that of a search word, and may be a similar word having a similar meaning.

適合件数とは、検索対象となる複数の文書の中で最終的な検索対象とする文書の数の最大値をいう。本実施の形態の検索装置100は、検索対象の文書の中から詳細な検索の対象とする文書を選び出す第1段階目の検索処理と、この処理で選ばれた文書を構成する文字列ごとに検索語のヒット率を調べる第2段階目の検索処理を行う。適合件数とは、第1段階目の検索処理で得られる文書の最大数であり、デフォルト値を採用するか、検索作業者がこれを具体的に指定する。   The number of matching cases refers to the maximum number of documents to be finally searched among a plurality of documents to be searched. The search apparatus 100 according to the present embodiment performs a first-stage search process for selecting a document to be searched in detail from documents to be searched, and for each character string constituting the document selected in this process. A second-stage search process for checking the hit rate of the search term is performed. The number of matching cases is the maximum number of documents obtained by the first-stage search process, and a default value is adopted or the search operator specifically specifies it.

検索エンジン106は、検索処理を行う。検索エンジン106は、インデックス型エンジン、RDB(relational database)型エンジン、全文検索エンジン、概念検索エンジン等任意の検索エンジンで構わない。   The search engine 106 performs a search process. The search engine 106 may be an arbitrary search engine such as an index type engine, an RDB (relational database) type engine, a full-text search engine, or a concept search engine.

検索繰り返し部107は、検索エンジン106を用いて検索処理を所定の条件が成立するまで繰り返すようになっている。この検索繰り返し部107は、文献内ヒット率加算部108と、検索目的適合件数判定部109および適合件数比較部110を備えている。   The search repeater 107 repeats the search process using the search engine 106 until a predetermined condition is satisfied. The search repetition unit 107 includes an intra-document hit rate addition unit 108, a search purpose relevant number determination unit 109, and a relevant number comparison unit 110.

センテンス内ヒット率処理部111は、文書格納部104に格納された文書に対して検索を行って、適合件数に納まった文書内でセンテンスごとのヒット率を算出する処理を行う。ここでセンテンスとは、文書の一端から他端にかけて所定の規則で区分けしたときのそれぞれの文字列をいう。代表的には、句点によって区切られたそれぞれの文をセンテンスとしてもよいし、これらの文が集まった段落を1つのセンテンスとしてもよい。また、隣接した複数の文を任意数まとめて、これらを構成する文字列を1つのセンテンスとしてもよい。どの範囲の文字列を1つのセンテンスとするかは、言語の種類、言語の用途、文書の作成者といった文書作成環境によって異なる。本実施の形態では、一例として句点によって区切られたそれぞれの文をセンテンスとした場合を説明する。   The in-sentence hit rate processing unit 111 searches the document stored in the document storage unit 104, and performs a process of calculating the hit rate for each sentence in the document that falls within the number of matching cases. Here, the sentence means each character string when the document is divided according to a predetermined rule from one end to the other end of the document. Typically, each sentence separated by punctuation points may be a sentence, or a paragraph in which these sentences are gathered may be a single sentence. Further, an arbitrary number of adjacent sentences may be collected and a character string constituting them may be used as one sentence. Which range of character strings is used as one sentence differs depending on the document creation environment such as language type, language usage, and document creator. In this embodiment, as an example, a case will be described in which each sentence separated by punctuation is a sentence.

回答出力部112は、最終的な検索結果や前記した第1段階目の検索処理の結果を出力するデバイスである。回答出力部112は、液晶ディスプレイのようなディスプレイであってもよいし、プリンタのような紙にプリントアウトするようなものであってもよい。もちろん、検索結果を音声で出力したり、図示しない通信手段を用いて外部に出力したり、
記憶媒体に格納するものであってもよい。本実施の形態では回答出力部112がディスプレイで構成される場合を説明する。この場合には、検索語・適合件数指定部105を構成するディスプレイと装置の構成部品を兼用することができる。
The answer output unit 112 is a device that outputs a final search result and the result of the first-stage search process. The answer output unit 112 may be a display such as a liquid crystal display, or may be one that prints out on paper such as a printer. Of course, the search results can be output by voice, or output to the outside using a communication means (not shown)
It may be stored in a storage medium. In the present embodiment, a case where the answer output unit 112 is configured with a display will be described. In this case, the display constituting the search word / applicable number designation unit 105 and the component parts of the apparatus can be used together.

図3は、検索装置による検索処理の流れを表わしたものである。ここでは、特許の公開公報の検索を例にとり、図2と共に説明する。   FIG. 3 shows the flow of search processing by the search device. Here, a search for a patent publication will be taken as an example and described with reference to FIG.

検索装置100は、まず、検索を実行するための準備段階として検索語・適合件数指定部105から検索作業者が検索条件を設定できる状態となる(ステップS201)。検索条件が設定可能なこの状態で、検索作業者はたとえば文書格納部104に格納された文書における検索対象の範囲の指定、適合件数の設定、検索語の指定を行うことができる。主制御部101は検索実行を指示する操作が行われると(ステップS202:Y)、ステップS201で設定された検索条件に基づいて、文献内ヒット率の初期値を設定して(ステップS203)、検索エンジン106による検索を実行する(ステップS204)。   First, the search device 100 enters a state in which a search operator can set search conditions from the search word / matching number designation unit 105 as a preparation stage for executing a search (step S201). In this state in which the search condition can be set, the search operator can specify, for example, the search target range in the document stored in the document storage unit 104, the number of matching cases, and the search term. When the operation for instructing the search execution is performed (step S202: Y), the main control unit 101 sets an initial value of the hit rate in the document based on the search condition set in step S201 (step S203). A search by the search engine 106 is executed (step S204).

図4は、検索語・適合件数指定部を構成するディスプレイに表示されるウィンドウの要部を表わしたものである。図示しないディスプレイに開設されたウィンドウ121には、テキスト入力欄122が設けられており、その下には検索語指定欄123と類似語指定欄124が設けられている。   FIG. 4 shows a main part of a window displayed on the display constituting the search word / applicable number designation unit. A window 121 opened on a display (not shown) is provided with a text input field 122, and below it, a search word designation field 123 and a similar word designation field 124 are provided.

図3のステップS201で検索語を設定する場合には、検索語指定欄123の入力領域125を指定する。図4では、指定した入力領域125を網目で示している。図示しないキーボード等の入力手段を使用してテキスト入力欄122に検索語を入力して、矢印ボタン126を押すと、その検索語が入力領域125に移動する。図4では入力領域125に検索語の一例として「用紙」という用語を入力した状態を示している。   When the search term is set in step S201 in FIG. 3, the input area 125 of the search term designation field 123 is designated. In FIG. 4, the designated input area 125 is indicated by a mesh. When a search word is input to the text input field 122 using an input means such as a keyboard (not shown) and the arrow button 126 is pressed, the search word moves to the input area 125. FIG. 4 shows a state where the term “paper” is input to the input area 125 as an example of a search term.

たとえば、検索作業者が「用紙」という用語を検索語として検索語指定欄123に入力し、これに対する類似語としての「普通紙」という用語を類似語指定欄124に入力するものとする。この場合には、検索語指定欄123の第1行目に「用紙」という用語を入力した後で、類似語指定欄124における「類似語1」を入力領域125として指定して、テキスト入力欄122に「普通紙」という用語を入力する。そして、矢印ボタン126を押せばよい。同様にして、類似語指定欄124における「類似語2」といった類似語を指定する箇所に、「シート」や「カット紙」といった「用紙」の類似語を入力することができる。   For example, it is assumed that the search operator inputs the term “paper” as a search term into the search term designation column 123 and inputs the term “plain paper” as a similar term to the similar term designation column 124. In this case, after inputting the term “paper” in the first line of the search word designation field 123, the “similar word 1” in the similar word designation field 124 is designated as the input area 125, and the text input field The term “plain paper” is entered in 122. Then, the arrow button 126 may be pressed. Similarly, similar words of “paper” such as “sheet” and “cut paper” can be input at a location where a similar word such as “similar word 2” is designated in the similar word designation field 124.

以上、「用紙」という検索語とその類似語を入力する場合を説明したが、検索語は通常の場合、複数設定する。それぞれの検索語に対して類似語を必ずしも入力する必要はない。   Although the case where the search term “paper” and its similar words are input has been described above, a plurality of search terms are usually set. It is not always necessary to input similar terms for each search term.

ウィンドウ121における矢印ボタン126の右側には、公報内(文献内)ヒット率の設定欄127が設けられている。文献内ヒット率(以下、ヒット率と略称する。)は、自動設定にしてもよいし、段階的なヒット率を検索作業者がマニュアルで設定することもできる。図4に示した例では自動設定が選択されている。   On the right side of the arrow button 126 in the window 121, a hit rate setting column 127 in the publication (in the literature) is provided. The in-document hit rate (hereinafter abbreviated as hit rate) may be set automatically, or the stepwise hit rate can be set manually by the search operator. In the example shown in FIG. 4, automatic setting is selected.

たとえば検索語をA、B、Cの3つの用語として入力した状態で、ヒット率を自動設定したとする。この場合、A、B、Cの3つの検索語のいずれも該当する文書に存在しない場合、ヒット率は0パーセントとなる。A、B、Cの3つの検索語のいずれか1つがその文書内に存在(ヒット)した場合、ヒット率は33パーセントとなる。A、B、Cの3つの検索語のうちの2つがその文書内に存在した場合、ヒット率は66パーセントとなる。A、B、Cの3つの用語がすべてその文書内に存在した場合、ヒット率は100パーセントとなる。ただし、この例でヒット率は小数点以下を切り捨てている。   For example, it is assumed that the hit rate is automatically set in a state where search terms are input as three terms A, B, and C. In this case, if none of the three search terms A, B, and C exists in the corresponding document, the hit rate is 0%. If any one of the three search terms A, B, and C exists (hits) in the document, the hit rate is 33%. If two of the three search terms A, B, and C are present in the document, the hit rate is 66%. If all three terms A, B, and C are present in the document, the hit rate is 100 percent. However, in this example, the hit rate is rounded down.

同様にしてA、B、C、Dの4つの用語が検索語として設定され、ヒット率が自動設定されたとする。この場合のヒット率は0パーセント、25パーセント、50パーセント、75パーセントおよび100パーセントの4種類となる。検索語に類似語が設定されている場合、検索語がヒットしなくても、これに対応する類似語のいずれかがヒットすれば検索語がヒットしたものとしてヒット率が算出される。もちろん、「用紙」という検索語に「シート」と「カット紙」が類似語として設定されていた場合、これらが1つの文書中ですべてヒットしたとしても、「用紙」という検索語のヒット率が割り増されるものではない。   Similarly, assume that four terms A, B, C, and D are set as search terms and the hit rate is automatically set. In this case, there are four hit rates: 0%, 25%, 50%, 75%, and 100%. When a similar word is set as a search word, even if the search word does not hit, if any of the corresponding similar words hits, the hit rate is calculated as a search word hit. Of course, when “sheet” and “cut paper” are set as similar words in the search term “paper”, even if all of these hit in one document, the hit rate of the search term “paper” is high. It is not a premium.

ヒット率を検索作業者がマニュアルで設定する場合には、自動設定の場合と同様に「0、33、66、100」というような数値あるいは任意に増加する複数の数値をヒット率の設定欄127に入力する。このとき、最大の数値を「100」にしておけば、検索語指定欄123に指定した検索語のすべてを含んだ(論理積をとった)検索結果まで得ることができる。ヒット率の中で0パーセントは検索上意味を持たない。したがって、最も低いヒット率としての低レベルヒット率は検索目的に合わせて、たとえば1パーセントといった値に設定する。検索装置100によっては、マニュアル操作時の低レベルヒット率を1パーセント等の数値の小さな固定値に設定しておくようにしてもよい。また、ヒット率に関しては、検索語句の数に関わらず、たとえば5パーセント刻みで100パーセントに至るまで小刻みに引き上げるような設定を行ってもよい。   When the search operator manually sets the hit rate, as in the case of automatic setting, a numerical value such as “0, 33, 66, 100” or a plurality of arbitrarily increasing numerical values is set in the hit rate setting field 127. To enter. At this time, if the maximum numerical value is set to “100”, it is possible to obtain a search result including all of the search terms specified in the search term specification column 123 (logical product). Of the hit rate, 0 percent has no meaning in search. Accordingly, the low level hit rate as the lowest hit rate is set to a value such as 1% in accordance with the search purpose. Depending on the search device 100, the low level hit rate during manual operation may be set to a small fixed value such as 1%. In addition, the hit rate may be set to be increased in small increments up to 100% in increments of 5%, for example, regardless of the number of search terms.

図3に戻って説明を続ける。ステップS203におけるヒット率の初期値の設定では、設定されたヒット率の中で値「0」以外の最も低い値が初期値として設定される。そして、まず、設定した検索語および類似語で全文書を1文書ずつ順に検索してヒット率の初期値以上となる文書の数が、適合件数以下となっているかを判別する(ステップS205)。この判別処理は、適合件数比較部110で行われる。たとえば検索対象となる文書が全部で1万件あるとして、検索作業者が適合件数を10件以下と設定したとする。A、B、Cの3つの用語が検索語として設定された場合で、これらA、B、Cの3つの用語のいずれか1つ以上を含む文書が全部で500件であったとする。この例の場合、初期値としてのヒット率が33パーセントの段階では対象文書数(ヒットした文書数)が適合件数以下ではないと判別する(ステップS205:N)。   Returning to FIG. 3, the description will be continued. In the initial setting of the hit rate in step S203, the lowest value other than the value “0” among the set hit rates is set as the initial value. First, all documents are sequentially searched one by one with the set search word and similar word, and it is determined whether the number of documents that are equal to or higher than the initial value of the hit rate is equal to or less than the number of matching cases (step S205). This determination process is performed by the matching number comparison unit 110. For example, assuming that there are 10,000 documents to be searched in total, the search operator sets the number of matching cases to 10 or less. Assume that three terms A, B, and C are set as search terms, and there are a total of 500 documents including any one or more of these three terms A, B, and C. In this example, when the hit rate as an initial value is 33%, it is determined that the number of target documents (the number of hit documents) is not less than the number of matching cases (step S205: N).

もちろん、ステップS205の判別を行うには、検索対象となる全文書をA、B、Cの3つの検索語(類似語を含む。)について検索する必要はない。検索対象となる文書を検索するとき、この例では適合件数である10件を超えた段階でその文書についての検索処理を中止し、ステップS205の判別を行えばよい。   Of course, in order to perform the determination in step S205, it is not necessary to search all documents to be searched for the three search words A, B, and C (including similar words). When searching for a document to be searched, in this example, when the number of matching cases exceeds 10, the search processing for the document is stopped, and the determination in step S205 may be performed.

今説明している例の場合には、ヒット率が33パーセントについて適合件数以下でないことが分かった(ステップS205:N)。そこで、この場合にはヒット率が更に加算可能であるかどうかを判別する(ステップS206)。この例の場合、ヒット率は66パーセントと100パーセントに加算可能である(Y)。そこでヒット率を1段階引き上げて66パーセントとする(ステップS207)。この後、ステップS204に戻って、再度、検索エンジン106による検索を実行する。   In the case of the example just described, it has been found that the hit rate is not less than the number of matching cases for 33% (step S205: N). Therefore, in this case, it is determined whether or not the hit rate can be further added (step S206). In this example, the hit rate can be added to 66% and 100% (Y). Therefore, the hit rate is increased by one step to 66% (step S207). Thereafter, the process returns to step S204, and the search by the search engine 106 is executed again.

この例では、今度はA、B、Cの3つの検索語のうちの2以上を含む文書が検索される。そして、その結果得られた対象文書数が適合件数以下になったかの判別が行われる(ステップS205)。   In this example, a document including two or more of the three search terms A, B, and C is searched this time. Then, it is determined whether or not the number of target documents obtained as a result is equal to or less than the number of matching documents (step S205).

この例の場合、ヒット率が66パーセントの段階でも、該当する文書の数が適合件数である10件を超えたとする(ステップS205:N)。すると、ステップS206の判別が行われ、ステップS207でヒット率が100パーセントに引き上げられる。この結果、検索対象となる全文書の中でA、B、Cの3つの検索語をすべて含むものが3文書であったとする。この場合、該当する文書の数が適合件数である10件以下であるという条件を満たす(ステップS205:Y)。したがって、検索装置100は検索の対象とする文書を選び出す第1段階目の検索処理を終了する。そして、以上の処理によって選ばれた文書を構成する文字列ごとに、検索語のヒット率を調べる第2段階目の検索処理としてのセンテンス内ヒット率処理を実行することになる(ステップS208)。   In this example, it is assumed that even when the hit rate is 66%, the number of corresponding documents exceeds the matching number of 10 (step S205: N). Then, the determination in step S206 is performed, and the hit rate is increased to 100% in step S207. As a result, it is assumed that three documents that include all three search words A, B, and C among all the documents to be searched are included. In this case, the condition that the number of applicable documents is 10 or less, which is the number of conformance, is satisfied (step S205: Y). Therefore, the search apparatus 100 ends the first-stage search process for selecting a document to be searched. Then, for each character string constituting the document selected by the above processing, the in-sentence hit rate processing is executed as the second-stage search processing for checking the hit rate of the search word (step S208).

一方、ヒット率が100パーセントに引き上げられた状態でも該当する文書が適合件数である10件を超えた場合には(ステップS205:N)、ヒット率が加算可能であるかの判別が行われる(ステップS206)。この場合には、ヒット率を更に引き上げることができない(N)。そこで第2段階目の検索処理に移行することができない旨のエラー表示が行われて(ステップS209)、処理が終了する(エンド)。このときに、「検索語を追加するか、検索条件を再設定して下さい。」というような表示が回答出力部112を構成するディスプレイに出力されるようになっていてもよい。この場合、検索作業者はステップS201の処理を検索条件を変えて再び行って、その後に検索を再実行することになる。   On the other hand, even when the hit rate is raised to 100%, if the number of applicable documents exceeds the matching number of 10 (step S205: N), it is determined whether the hit rate can be added (step S205: N). Step S206). In this case, the hit rate cannot be further increased (N). Therefore, an error display indicating that the process cannot be shifted to the second-stage search process is performed (step S209), and the process ends (END). At this time, a display such as “Add a search term or reset the search condition” may be output to the display constituting the answer output unit 112. In this case, the search operator performs the process of step S201 again while changing the search condition, and then executes the search again.

図5は、センテンス内ヒット率処理部を具体化したものである。センテンス内ヒット率処理部111は、センテンス集合作成部131と、センテンス内検索部132および記憶部133で構成されている。ここでセンテンス集合作成部131は、適合件数以下として第1段階目の検索処理で回答のあった文書(以下、回答文書という。)のそれぞれについてセンテンスの集合を作成する処理を行う。これは、1つの文献を所定単位の文字列に分割する処理である。ここでは一例として句点によって区切られたそれぞれの文をセンテンスとして処理する。したがって、具体的には文献を句点「。」で区切る処理が行われる。   FIG. 5 shows an embodiment of the intra-sentence hit rate processing unit. The in-sentence hit rate processing unit 111 includes a sentence set creation unit 131, an in-sentence search unit 132, and a storage unit 133. Here, the sentence set creation unit 131 performs a process of creating a set of sentences for each of the documents that have been answered in the first-stage search process (hereinafter referred to as answer documents) with the number of matching cases or less. This is a process of dividing one document into character strings of a predetermined unit. Here, as an example, each sentence separated by punctuation is processed as a sentence. Therefore, specifically, a process of dividing the document by the phrase “.” Is performed.

センテンス内検索部132は、センテンス集合作成部131で作成したそれぞれのセンテンスに対して、図2の検索語・適合件数指定部105で指定した検索語を用いて検索を行う。各センテンスごとの検索語に対するヒット率は、記憶部133に記憶されるようになっている。   The in-sentence search unit 132 searches each sentence created by the sentence set creation unit 131 using the search terms designated by the search term / matching number designation unit 105 in FIG. The hit rate for the search word for each sentence is stored in the storage unit 133.

図6は、センテンス内ヒット率処理部の処理の流れを示したものである。図2および図5と共に説明する。   FIG. 6 shows the flow of processing in the sentence hit rate processing section. This will be described with reference to FIGS.

センテンス内ヒット率処理部111のセンテンス集合作成部131は、まず回答文書が何番目の文書であるかを表わすパラメータKを「1」として(ステップS221)、第Kの回答文書(この場合には第1の回答文書)内のセンテンスの集合を作成する(ステップS222)。たとえば、第1の回答文書が100個のセンテンスからなっているとすると、これを第1〜第100のセンテンスの集合とする。   The sentence set creation unit 131 of the intra-sentence hit rate processing unit 111 first sets the parameter K indicating the number of the response document to “1” (step S221), and the Kth response document (in this case) A set of sentences in the first response document) is created (step S222). For example, if the first answer document is composed of 100 sentences, it is defined as a set of first to 100th sentences.

次に、センテンスの番号を表わすパラメータSを「1」とする(ステップS223)。そして、第Sのセンテンス(この場合には第1のセンテンス)における検索語・適合件数指定部105で設定した検索語についてのヒット率を算出する(ステップS224)。ヒット率の算出については、第1段階目の検索処理で文書単位に行ったものをセンテンス単位で行う点が異なるのみで、算出の方法は同じである。たとえば、A、B、Cの3つの検索語と、検索語Aについては類似語(均等語)のA1と、A2が設定されていたとする。この例で、たとえば、あるセンテンスにこれら3つの検索語および類似語のいずれも含まれていなければ、ヒット率は0パーセントである。また、検索語A、類似語A1あるいは類似語A2のいずれかが含まれていて、検索語B、Cが含まれていなければ、ヒット率は33パーセントである。検索語A、B、Cが1つのセンテンスに含まれていれば、ヒット率は100パーセントである。 Next, the parameter S representing the sentence number is set to “1” (step S223). Then, the hit rate for the search word set by the search word / matching number designation unit 105 in the S-th sentence (in this case, the first sentence) is calculated (step S224). The calculation of the hit rate is the same except that what is performed for each document in the first-stage search processing is performed for each sentence. For example, A, B, to the three search terms and C, and A 1 of the similar word (even word) for search terms A, and A 2 is set. In this example, for example, if a sentence does not include any of these three search terms and similar terms, the hit rate is 0 percent. If any of the search word A, the similar word A 1, or the similar word A 2 is included and the search words B and C are not included, the hit rate is 33%. If the search terms A, B, and C are included in one sentence, the hit rate is 100%.

このようにセンテンス内検索部132は第Sのセンテンスのヒット率を算出すると、これを記憶部133における第Kの回答文書に対応付けられた記憶領域にそのセンテンスと対応付けて記憶する(ステップS225)。そして、このときのパラメータSが第Kの回答文書の最後のセンテンスの第SMAXのセンテンスに達していなければ(ステップS226:N)、パラメータSを「1」だけ加算する(ステップS227)。この後、ステップS224に戻って、今度は第2のセンテンスに関するヒット率を算出することになる。 As described above, when the in-sentence search unit 132 calculates the hit rate of the S-th sentence, it is stored in the storage area associated with the K-th answer document in the storage unit 133 in association with the sentence (step S225). ). Then, if the parameter S at this time has not reached the sentences of the S MAX of the last sentence of the answer document of the K (step S226: N), adds the parameter S by "1" (step S227). Thereafter, the process returns to step S224, and this time, the hit rate related to the second sentence is calculated.

以下同様にして、第1の回答文書内で、最初のセンテンスから順にヒット率が算出されて、これらの結果が第1の回答文書に対応付けられた記憶部133に格納されていく。そして、最後(最大)の番号のセンテンスの処理が終了したら(ステップS226:Y)、現在処理を行った第Kの回答文書(この場合には第1の回答文書)が最後(最大)の番号の回答文書であるかの判別が行われる(ステップS228)。最後(最大)の番号の回答文書(第KMAXの回答文書)でなければ(N)、パラメータKを「1」だけ加算する(ステップS229)。そして、ステップS222に戻って、この例では第2の回答文書に関するヒット率を算出することになる。 In the same manner, the hit rate is calculated in order from the first sentence in the first answer document, and these results are stored in the storage unit 133 associated with the first answer document. When the sentence processing for the last (maximum) number is completed (step S226: Y), the Kth answer document (in this case, the first answer document) that has been processed is the last (maximum) number. It is determined whether or not the answer document is (step S228). If the answer document of the last (maximum) number is not the answer document (K MAX answer document) (N), the parameter K is incremented by “1” (step S229). Then, returning to step S222, in this example, the hit rate for the second answer document is calculated.

以下同様にして、第2の回答文書内で、最初のセンテンスから順にヒット率が算出されて、これらの結果が記憶部133の第2の回答文書に対応付けられた記憶領域に格納されていく。このようにして、最後(最大)の番号である第KMAXの回答文書の処理が終了したら(ステップS228:Y)、各回答文書の記憶領域の各センテンスのヒット率を高いものから順に並べ替えて(ステップS230)、処理を終了する(エンド)。このような並べ替えを行う代わりに、記憶部133から読み出す際にヒット率の高い順に読み出す処理を行ってもよい。 In the same manner, hit rates are calculated in order from the first sentence in the second answer document, and these results are stored in the storage area associated with the second answer document in the storage unit 133. . In this way, when the processing of the K MAX answer document which is the last (maximum) number is completed (step S228: Y), the hit rates of the sentences in the storage area of each answer document are rearranged in descending order. (Step S230), and the process ends (END). Instead of performing such rearrangement, when reading from the storage unit 133, reading processing may be performed in descending order of hit rate.

図3に戻って説明を続ける。図6で説明したセンテンス内ヒット率処理部111の処理が行われたら(ステップS208)、検索が正常に終了したので、その回答が出力されて(ステップS210)、処理が終了する(エンド)。   Returning to FIG. 3, the description will be continued. When the processing in the sentence hit rate processing unit 111 described with reference to FIG. 6 is performed (step S208), since the search is normally completed, the answer is output (step S210), and the processing is terminated (END).

図7は、検索結果の出力の一形態としてのディスプレイに表示されるウィンドウの要部を表わしたものである。ディスプレイのウィンドウ151には、検索結果を示す回答欄152が配置されており、その下には検索履歴欄153が配置されている。   FIG. 7 shows a main part of a window displayed on a display as one form of output of search results. In the display window 151, an answer column 152 indicating search results is arranged, and a search history column 153 is arranged therebelow.

この例では、検索の結果として適合件数が3件であったので、この3件についてセンテンス内での最高のヒット率のもの(以下、最適センテンスという。)が回答欄152に表示されている。この回答欄152によれば、センテンス単位で見たときの一番ヒット率が高かったのがF社の出願した特開平08−314305号公報であることが分かる。これは、この公報(文書)の特定のセンテンスで検索語A、B、Cのすべてが含まれていたことを示している。ただし、検索語Aについては、類似語(均等語)のA1と、A2のいずれかが含まれていてもよい。 In this example, since the number of matching cases is 3 as a result of the search, those having the highest hit rate in the sentence (hereinafter referred to as optimum sentence) are displayed in the answer column 152 for these three cases. According to the answer column 152, it is understood that Japanese Patent Application Laid-Open No. 08-314305 filed by Company F has the highest hit rate when viewed in sentence units. This indicates that all of the search terms A, B, and C were included in the specific sentence of this publication (document). However, for the search word A, either of the similar words (equivalent words) A 1 and A 2 may be included.

2番目に高いヒット率は、C社とS社の公報(文書)に含まれるセンテンスである。これらについては検索語A、B、Cのうちの2つの検索語が特定のセンテンスに含まれていたことを意味している。ただし、検索語Aについては、類似語(均等語)のA1と、A2のいずれかが含まれていてもよい。 The second highest hit rate is a sentence included in the publications (documents) of Company C and Company S. These mean that two of the search words A, B, and C are included in a specific sentence. However, for the search word A, either of the similar words (equivalent words) A 1 and A 2 may be included.

検索履歴欄153には、検索を行った履歴を表わす番号と、これらの番号に対応させて検索に使用した用語を表示するようになっている。   In the search history column 153, numbers representing the history of the search and the terms used in the search are displayed corresponding to these numbers.

図8は、検索作業者がヒットしたセンテンスを確認する際にディスプレイに表示したウィンドウの一例を示したものである。この図8に示したウィンドウ161は、たとえば図7に示したような回答欄152に表示された公報(文書)の1つをクリックすることで展開することができる。ただし、図8に示したウィンドウ161の内容は、図7に示した例と対応しないものを示している。   FIG. 8 shows an example of a window displayed on the display when checking a sentence hit by the search operator. The window 161 shown in FIG. 8 can be expanded by clicking one of the publications (documents) displayed in the answer field 152 as shown in FIG. However, the contents of the window 161 shown in FIG. 8 are not corresponding to the example shown in FIG.

ウィンドウ161には、その上部にセンテンス選択欄162が配置されており、その下に、ヒットセンテンス欄163と、その公報(文書)における実施例として示された箇所の全文を示す実施例表示欄164が配置されている。実施例表示欄164の下には、サーチボタン165とサーチ語句入力欄166が配置されている。サーチ語句入力欄166にサーチする語句を入力してサーチボタン165を押すと、実施例表示欄164に示されるテキスト情報の中から所望の語句を検索できるようになっている。   In the window 161, a sentence selection field 162 is arranged at the top, and below that, a hit sentence field 163 and an example display field 164 showing the full text of the part shown as an example in the gazette (document). Is arranged. Below the example display field 164, a search button 165 and a search word input field 166 are arranged. When a search phrase is entered in the search phrase input field 166 and the search button 165 is pressed, a desired phrase can be searched from the text information shown in the example display field 164.

ところでセンテンス選択欄162には、「最適センテンスに戻る」ボタン167と、同一公報(文書)内で最適順位を進ませたり戻すボタン168、169が設けられている。検索作業者は、これらのボタン167〜169を適宜操作することで、ヒットセンテンス欄163に表示するセンテンスの内容を変更することができる。   By the way, the sentence selection field 162 is provided with a “return to optimal sentence” button 167 and buttons 168 and 169 for advancing or returning the optimum rank in the same publication (document). The search operator can change the contents of the sentence displayed in the hit sentence column 163 by appropriately operating these buttons 167 to 169.

また、ヒットセンテンス欄163に表示されるセンテンスで検索語およびそれらの類似語(均等語)に該当する文字列には、残りの文字列と区別するための視覚上の工夫171がされている。ここでは、視覚上の工夫171がアンダーラインである場合を示しているが、該当する文字列自体を赤色等の色に着色したり、残りの文字列と異なるフォントにしたり、反転表示するようにしてもよい。   Further, a visual device 171 for distinguishing from the remaining character strings is provided for the character strings corresponding to the search words and their similar words (equivalent words) in the sentences displayed in the hit sentence column 163. Here, the case where the visual device 171 is underlined is shown, but the corresponding character string itself is colored in a color such as red, or the font is different from the remaining character strings, or is displayed in reverse video. May be.

以上説明したような本実施の形態の検索装置100によれば、次のような利点がある。   According to the search device 100 of the present embodiment as described above, there are the following advantages.

検索装置100は低ヒット率から高ヒット率に向かって検索を自動的に繰り返し、予め設定した適合件数以下の文書を検索作業者に提示する。最近の検索エンジンは高速であり、たとえば20回程度の検索を繰り返し行っても実用上のパフォーマンスの低下を無視できるものが数多く知られている。したがって、検索作業者は、検索速度を著しく低下させることなく、検索対象をある程度絞り込んだ文書群を検索結果として取得することができる。   The search device 100 automatically repeats the search from the low hit rate to the high hit rate, and presents documents having a preset number of conformances or less to the search operator. Recent search engines are high-speed, and for example, there are many known search engines that can ignore a decrease in practical performance even if the search is repeated about 20 times. Therefore, the search operator can acquire a document group in which the search target is narrowed down to some extent as a search result without significantly reducing the search speed.

また、本実施の形態の場合には検索方式がランキング型でありかつ検索対象がセンテンスであるので、文書内に雑多な記載があっても、局所に記載された内容を的確に抽出することができる。しかも、検索に用いる機器は一般的なパーソナルコンピュータやサーバといった一般的な装置を使用することができるので、安価な装置構成を実現することができる。   In the case of the present embodiment, since the search method is a ranking type and the search target is a sentence, even if there is a miscellaneous description in the document, the contents described locally can be accurately extracted. it can. In addition, since a device used for the search can use a general device such as a general personal computer or a server, an inexpensive device configuration can be realized.

特に実施の形態で一例として示した特許文献の検索作業の場合には、いろいろな目的があり、目的に応じて何件位の回答件数があれば検索結果として十分であるという基準的な件数が存在する。特許無効資料調査に基づいた検索作業を例にとると、十件程度の有用な資料が最終結果として得られれば、それで調査の目的は達成される。本実施の形態では、このような基準的な件数を適合件数として設定することができ、しかも、これによる検索時間の増加はほとんど無視できる程度にとどまる。したがって、ヒット率が何パーセントといったランキング型の検索処理と併せて、検索処理の信頼性を維持した状態で検索作業者の処理に要する負担を大幅に軽減することができる。   In particular, in the case of the search work of patent documents shown as an example in the embodiment, there are various purposes, and there is a standard number that the search result is sufficient if there are as many answers as there are according to the purpose. Exists. Taking the search work based on the patent invalid material search as an example, if the final result is about 10 useful materials, then the purpose of the search is achieved. In the present embodiment, such a standard number of cases can be set as the number of matching cases, and the increase in search time due to this is almost negligible. Therefore, in addition to the ranking type search process with a hit rate of what percentage, it is possible to greatly reduce the load required for the search operator process while maintaining the reliability of the search process.

しかも、本実施の形態では適合件数を基準として得られた文書のそれぞれに対して、センテンスに区分けしてランキング型の検索を行うことにした。このため、最も注目すべきセンテンスを容易に探し当てることができる。また、センテンスに分けて検索を行うことで、従来技術を記載している箇所等の内容的にノイズを発生する可能性のある場所の記載内容に影響を受けることない検索結果を得ることができる。   In addition, in the present embodiment, each type of document obtained based on the number of matching cases is classified into sentences and a ranking type search is performed. For this reason, it is possible to easily find the most notable sentence. In addition, by performing a search divided into sentences, it is possible to obtain a search result that is not affected by the description content of a place where noise may occur in the content such as a location where the prior art is described. .

なお、本実施の形態では特許文献の検索について例を挙げて説明したが、本発明の検索装置は学術文献、雑誌記事、新聞記事、ホームページの各種のコンテンツ等の各種の文書に適用することができるのは当然である。また、文書をグループごとに複数の文字列に区分けする場合、実施の形態で示した句点を単位とするものに限定されないことも、言うまでもない。   In the present embodiment, the search for patent documents has been described by way of example. However, the search device of the present invention can be applied to various documents such as academic documents, magazine articles, newspaper articles, and various contents on a homepage. Naturally, it can be done. In addition, when dividing a document into a plurality of character strings for each group, it is needless to say that the document is not limited to a unit using the punctuation points shown in the embodiment.

また、図8の実施例表示欄164でも示したように、検索の対象となる文書をセンテンスに区切る場合、改行位置に句点を追加したり、特定の識別記号を句点に置き替える等の必要な前処理を行うようにしてもよい。   Further, as shown in the example display column 164 of FIG. 8, when a document to be searched is divided into sentences, it is necessary to add a punctuation at a line feed position or to replace a specific identification symbol with a punctuation. Pre-processing may be performed.

更に本実施の形態では、検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も低い割合から最も高い割合の方向へ検索対象となる文書を順次検索し、得られた文書の数が、前記した適合件数指定手段で指定した前記した適合件数以下となったとき索処理を停止してその段階の文書を検索結果として出力することにした。これ以外に、検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も高い割合から最も低い割合の方向へと前記した検索対象となる文書を順次検索し、得られた文書の数が、前記した適合件数を超えることになったとき、検索処理を停止し、前記した適合件数を超えることになる1つ手前の段階の文書を検索結果として出力することも可能である。   Furthermore, in the present embodiment, documents to be searched are sequentially searched in the direction from the lowest ratio to the highest ratio among the search word hit ratios set by the search word hit ratio setting means. The search process is stopped when the number of matching cases specified by the above-mentioned matching number designation means becomes less than the number of matching cases, and the document at that stage is output as a search result. In addition to this, the documents to be searched are sequentially searched in the direction from the highest ratio of the search word hit ratio set by the search word hit ratio setting means to the lowest ratio, and the number of obtained documents is When the number of matching cases is exceeded, it is possible to stop the search process and output a document at the previous stage that exceeds the number of matching cases as a search result.

10、100 検索装置
11 適合件数指定手段
12 検索語指定手段
13 検索語ヒット割合設定手段
14 文書検索繰り返し手段
15 文書検索結果出力手段
101 主制御部
102 CPU
103 メモリ
104 文書格納部
105 検索語・適合件数指定部
106 検索エンジン
107 検索繰り返し部
110 適合件数比較部
111 センテンス内ヒット率処理部
112 回答出力部
121、151 ウィンドウ
131 センテンス集合作成部
132 センテンス内検索部
133 記憶部
DESCRIPTION OF SYMBOLS 10,100 Search apparatus 11 Matching number designation | designated means 12 Search term designation means 13 Search term hit ratio setting means 14 Document search repetition means 15 Document search result output means 101 Main control part 102 CPU
DESCRIPTION OF SYMBOLS 103 Memory 104 Document storage part 105 Search term / applicable number designation part 106 Search engine 107 Search repetition part 110 Conformity number comparison part 111 In-sentence hit rate processing part 112 Reply output part 121, 151 Window 131 Sentence set creation part 132 Search in sentence Section 133 Storage section

Claims (6)

検索対象となる複数の文書の中で最終的な検索対象とする文書の数としての適合件数を指定する適合件数指定手段と、
前記最終的な検索対象とする文書に含まれるべき用語としての検索語を予め所定数指定する検索語指定手段と、
この検索語指定手段によって指定した検索語が検索対象となるそれぞれの文書に含まれる数の割合としての検索語ヒット割合を複数段階設定する検索語ヒット割合設定手段と、
この検索語ヒット割合設定手段で設定した検索語ヒット割合のうちの最も低い割合から最も高い割合の方向へ、あるいは最も高い割合から最も低い割合の方向へと前記検索対象となる文書を順次検索し、得られた文書の数が、前記最も低い割合から最も高い割合の方向のときに前記適合件数指定手段で指定した前記適合件数以下となったとき、あるいは前記最も高い割合から最も低い割合の方向のときに前記適合件数を超えることになったとき、検索処理を停止する文書検索繰り返し手段と、
前記最も低い割合から最も高い割合の方向のときにこの文書検索繰り返し手段によって検索処理を停止した段階の文書、あるいは最も高い割合から最も低い割合の方向のときに前記適合件数を超えることになる1つ手前の段階の文書を検索結果として出力する文書検索結果出力手段
とを具備することを特徴とする検索装置。
A matching number specifying means for specifying a matching number as the number of documents to be finally searched among a plurality of documents to be searched;
A search word designating means for designating a predetermined number of search words as terms to be included in the final search target document;
A search word hit ratio setting means for setting a plurality of search word hit ratios as a ratio of the number of search words specified by the search word specifying means included in each document to be searched;
The documents to be searched are sequentially searched from the lowest rate to the highest rate in the search term hit rate set by the search word hit rate setting means, or from the highest rate to the lowest rate. , When the number of obtained documents is less than or equal to the number of conformances designated by the conformity number designation means when the direction is from the lowest percentage to the highest percentage, or the direction from the highest percentage to the lowest percentage A document search repetition means for stopping the search process when the number of matching cases is exceeded at the time of
The document at the stage where the search process is stopped by the document search repeating means when the direction is from the lowest rate to the highest rate, or the number of matching cases is exceeded when the direction is from the highest rate to the lowest rate. A search apparatus comprising: a document search result output means for outputting a document at a previous stage as a search result.
前記文書検索結果出力手段によって出力された文書の内で指定されたものについて、文書の一端から他端にかけてグループごとに複数の文字列に区分けする文字列区分け手段と、
この文字列区分け手段によって区分けした各文字列ごとに前記検索語指定手段によって指定した所定数の前記検索語が含まれる割合を算出する文字列別ヒット割合算出手段と、
この文字列別ヒット割合算出手段によって所定数の前記検索語が含まれる割合が多いものから該当する文書の文字列に対する前記検索語の検索結果を表示する文字列別検索結果表示手段
とを更に具備することを特徴とする請求項1記載の検索装置。
Character string dividing means for dividing a document designated by the document search result output means into a plurality of character strings for each group from one end to the other end of the document,
A character string hit ratio calculating means for calculating a ratio of a predetermined number of the search words specified by the search word specifying means for each character string divided by the character string dividing means;
The character string hit ratio calculation means further comprises a character string search result display means for displaying the search result of the search word with respect to the character string of the corresponding document from the one containing the predetermined number of the search words. The search device according to claim 1, wherein:
前記文字列区分け手段は、文書における読点で区切られた1つ1つの文章を前記文字列として区分けすることを特徴とする請求項2記載の検索装置。   3. The search apparatus according to claim 2, wherein the character string segmenting unit classifies each sentence divided by punctuation marks in the document as the character string. 前記文字列区分け手段は、文書における読点で区切られた文章が所定数ずつ連続したものを前記文字列として区分けすることを特徴とする請求項2記載の検索装置。   3. The search apparatus according to claim 2, wherein the character string segmenting means classifies a predetermined number of sentences separated by punctuation marks in the document as the character string. 前記検索語指定手段で指定した検索語のすべてが含まれる文書の数が前記適合件数を超えると判別されたとき、前記検索語指定手段によって指定した所定数の検索語の再入力を指示する検索語再入力指示手段を更に具備することを特徴とする請求項1記載の検索装置。   A search for instructing re-input of a predetermined number of search terms designated by the search term designation means when it is determined that the number of documents including all of the search terms designated by the search term designation means exceeds the number of matching cases The retrieval apparatus according to claim 1, further comprising word re-input instruction means. 前記検索語指定手段によって指定する検索語には、その用語の均等語が一つの検索語の範囲内として任意数指定可能であることを特徴とする請求項1記載の検索装置。   2. The search device according to claim 1, wherein an arbitrary number of equivalent words of the term can be designated as a search term to be designated by the search term designation means.
JP2009240343A 2009-04-30 2009-10-19 Retrieval device Pending JP2010277568A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009240343A JP2010277568A (en) 2009-04-30 2009-10-19 Retrieval device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009110908 2009-04-30
JP2009240343A JP2010277568A (en) 2009-04-30 2009-10-19 Retrieval device

Publications (1)

Publication Number Publication Date
JP2010277568A true JP2010277568A (en) 2010-12-09

Family

ID=43424431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009240343A Pending JP2010277568A (en) 2009-04-30 2009-10-19 Retrieval device

Country Status (1)

Country Link
JP (1) JP2010277568A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140240758A1 (en) * 2013-02-28 2014-08-28 Fuji Xerox Co., Ltd. Image forming apparatus, image forming method, and non-transitory computer readable medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140240758A1 (en) * 2013-02-28 2014-08-28 Fuji Xerox Co., Ltd. Image forming apparatus, image forming method, and non-transitory computer readable medium
CN104023153A (en) * 2013-02-28 2014-09-03 富士施乐株式会社 Image forming apparatus and image forming method

Similar Documents

Publication Publication Date Title
KR101118454B1 (en) Method for domain identification of documents in a document database
US9275106B2 (en) Dynamic search box for web browser
US9323867B2 (en) Search tool using multiple different search engine types across different data sets
US8171031B2 (en) Index optimization for ranking using a linear model
US20080147638A1 (en) Interactive web information retrieval using graphical word indicators
US20110144978A1 (en) System and method for advancement of vocabulary skills and for identifying subject matter of a document
JP5085708B2 (en) Keyword presentation apparatus, method, and program
WO2018051185A1 (en) Method and apparatus for ranking electronic information by similarity association
US10140297B2 (en) Supplementing search results with information of interest
CN109213925B (en) Legal text searching method
US20140289260A1 (en) Keyword Determination
US10102272B2 (en) System and method for ranking documents
JP4894510B2 (en) Literature retrieval program, literature retrieval device, literature retrieval method
JPH04281559A (en) Document retrieving device
US20150253942A1 (en) Grasping contents of electronic documents
JP4719921B2 (en) Data display device and data display program
JP2013054606A (en) Document retrieval device, method and program
JP2010277568A (en) Retrieval device
JP6843588B2 (en) Document retrieval method and equipment
WO2022134824A1 (en) Tuning query generation patterns
JP2011103027A (en) Document display device, document display method, and document display program
JP2009237755A (en) Related term retrieval method and apparatus, related term retrieval program, content retrieval method and device, and content retrieval program
JP4222811B2 (en) Keyword extracting apparatus, program, and recording medium
JP4959032B1 (en) Web page analysis apparatus and web page analysis program
JP6707410B2 (en) Document search device, document search method, and computer program