JP2005339150A - Document retrieval device - Google Patents

Document retrieval device Download PDF

Info

Publication number
JP2005339150A
JP2005339150A JP2004156399A JP2004156399A JP2005339150A JP 2005339150 A JP2005339150 A JP 2005339150A JP 2004156399 A JP2004156399 A JP 2004156399A JP 2004156399 A JP2004156399 A JP 2004156399A JP 2005339150 A JP2005339150 A JP 2005339150A
Authority
JP
Japan
Prior art keywords
condition
keyword
document
keyword set
neighborhood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004156399A
Other languages
Japanese (ja)
Inventor
Takaaki Nakamura
隆顕 中村
Mitsunori Kori
光則 郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004156399A priority Critical patent/JP2005339150A/en
Publication of JP2005339150A publication Critical patent/JP2005339150A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document retrieving device capable of shortening the retrieval time with respect to various retrieval conditions. <P>SOLUTION: When the retrieval instruction for the neighborhood conditions of a plurality of keyword groups is issued, a neighborhood condition deciding part 108 of a retrieval processing executing part 105 acquires the appearing positions in a document of the plurality of keyword groups from a keyword group collating part 107, and decides whether the instructed predetermined neighborhood conditions are satisfied by the acquired appearing positions. The acquisition processing of the appearing positions and the neighborhood condition decision processing are executed alternately, and when it is decided that the neighborhood conditions are true by the neighborhood condition deciding part 108, the decision result is outputted as a retrieval result at that point of time. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、キーワード集合に対して、所定の検索条件に一致した文書を出力する文書検索装置に関するものである。   The present invention relates to a document search apparatus that outputs a document that matches a predetermined search condition for a keyword set.

従来、文書検索装置としては、例えば、特許文献1に示すように、キーワードの文書中での出現位置情報の無駄なデータ転送を削減し、複合条件判定の判定を高速化するようにしたものがあった。ここで、複合条件とは、近傍条件、範囲条件、属性条件、文脈条件およびそれらの論理条件のことである。   Conventionally, as a document search apparatus, for example, as shown in Patent Document 1, wasteful data transfer of appearance position information in a keyword document is reduced, and the determination of the compound condition determination is accelerated. there were. Here, the compound condition is a neighborhood condition, a range condition, an attribute condition, a context condition, and their logical conditions.

特開平4−293161号公報JP-A-4-293161

しかしながら、特許文献1に記載された従来の文書検索装置は、キーワードの文書中での出現位置情報のデータ転送を効率化し、複合条件判定の判定を高速化するものであるが、例えば、近傍条件を判定する場合では、二つ以上のキーワードの出現位置を総当りで判定するしかなく、従って、キーワードの文書中での出現位置が増えるに従って、判定に要する計算量が膨大になるという課題があった。   However, the conventional document search device described in Patent Document 1 makes it efficient to transfer data of appearance position information in a keyword document and speeds up determination of composite condition determination. In this case, there is only a brute force determination of the appearance positions of two or more keywords, and there is a problem that the amount of calculation required for the determination increases as the appearance positions of the keywords in the document increase. It was.

この発明は上記のような課題を解決するためになされたもので、種々の検索条件に対しても検索時間の短縮化を図ることのできる文書検索装置を得ることを目的とする。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a document search apparatus capable of shortening the search time even for various search conditions.

この発明に係る文書検索装置は、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得する処理と、複数のキーワード集合の出現位置が、所定の近傍条件を満たすか否かを判定する近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたものである。   The document search device according to the present invention obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and whether the appearance positions of the plurality of keyword sets satisfy a predetermined neighborhood condition. And a proximity process determination unit that alternately executes a proximity condition determination process that determines whether or not, and outputs the determination result as a search result when the proximity condition is determined to be true.

この発明の文書検索装置は、キーワード集合照合部における出現位置の取得処理と、近傍条件判定部における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力するようにしたので、近傍条件が満たされた時点で検索結果を出すことができ、従って、キーワードの数や文書中のキーワードの出現位置が多い場合でも検索時間の短縮化を図ることができる。   The document search apparatus according to the present invention alternately executes the appearance position acquisition process in the keyword set matching unit and the neighborhood condition determination process in the neighborhood condition determination unit, and the determination result is obtained when the neighborhood condition is determined to be true. Since the search result is output, the search result can be output when the neighborhood condition is satisfied. Therefore, even when the number of keywords and the appearance positions of the keywords in the document are large, the search time can be shortened. be able to.

実施の形態1.
図1は、この発明の実施の形態1による文書検索装置を示す構成図である。
この文書検索装置は、1件以上の文書を蓄積したデーターベースから、検索条件に指定された近傍条件に適合した文書を出力する文書検索装置である。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a document search apparatus according to Embodiment 1 of the present invention.
This document search apparatus is a document search apparatus that outputs a document that meets a proximity condition specified as a search condition from a database that stores one or more documents.

図において、文書検索装置は、検索条件入力部103、検索条件解析部104、検索処理実行部105、検索結果出力部106、キーワード集合照合部107、近傍条件判定部108、キーワード照合部109、データベース110、文書索引111からなる。   In the figure, a document search apparatus includes a search condition input unit 103, a search condition analysis unit 104, a search processing execution unit 105, a search result output unit 106, a keyword set collation unit 107, a neighborhood condition determination unit 108, a keyword collation unit 109, a database. 110 and a document index 111.

検索条件入力部103は、検索ユーザからの検索条件101の入力を受け付ける機能部である。検索条件101には、検索の対象とする二つ以上のキーワード集合の情報と、そのキーワード集合間の近傍条件などが指定されている。検索条件解析部104は、検索条件入力部103から入力された検索条件を解析し、例えば所定の近傍条件検索といった検索の実行プランを生成する機能部である。検索処理実行部105は、検索条件解析部104より出力された検索実行プランに従って検索処理を実行する機能部である。検索結果出力部106は、検索処理実行部105で得られた検索結果102を検索のユーザに対して出力する機能部である。   The search condition input unit 103 is a functional unit that receives an input of the search condition 101 from a search user. In the search condition 101, information on two or more keyword sets to be searched and a neighborhood condition between the keyword sets are specified. The search condition analysis unit 104 is a functional unit that analyzes the search conditions input from the search condition input unit 103 and generates a search execution plan such as a predetermined neighborhood condition search. The search processing execution unit 105 is a functional unit that executes search processing according to the search execution plan output from the search condition analysis unit 104. The search result output unit 106 is a functional unit that outputs the search result 102 obtained by the search processing execution unit 105 to a search user.

検索処理実行部105は、キーワード集合照合部107と、近傍条件判定部108を備えている。キーワード集合照合部107は、キーワード照合部109を繰り返し呼び出すことで、検索条件に指定されたキーワード集合に含まれるキーワードの、文書中での出現位置を取得する機能を有している。キーワード照合部109は、データベース110に蓄積された文書索引111を参照しながら、キーワードの文書中での出現位置を取得する機能を有している。また、近傍条件判定部108は、キーワード集合照合部107から出力された、二つ以上のキーワード集合の文書中で出現位置の情報を元に、検索条件に指定された近傍条件を判定する機能を有している。即ち、検索処理実行部105は、キーワード集合照合部107における出現位置の取得処理と、近傍条件判定部108における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力するよう構成されている。   The search processing execution unit 105 includes a keyword set matching unit 107 and a neighborhood condition determination unit 108. The keyword set matching unit 107 has a function of acquiring the appearance position in the document of the keyword included in the keyword set specified in the search condition by repeatedly calling the keyword matching unit 109. The keyword matching unit 109 has a function of acquiring the appearance position of the keyword in the document while referring to the document index 111 accumulated in the database 110. In addition, the neighborhood condition determination unit 108 has a function of determining the neighborhood condition specified as the search condition based on the appearance position information in the documents of two or more keyword sets output from the keyword set matching unit 107. Have. That is, the search processing execution unit 105 alternately executes the appearance position acquisition process in the keyword set matching unit 107 and the neighborhood condition determination process in the neighborhood condition determination unit 108, and when the neighborhood condition is determined to be true, The determination result is output as a search result.

尚、上記の文書検索装置はコンピュータで実現され、検索条件解析部104および検索処理実行部105は、それぞれの機能に対応したソフトウェアと、これらのソフトウェアを実行するためのCPUやメモリ等のハードウェアから構成されている。   Note that the document search device described above is realized by a computer, and the search condition analysis unit 104 and the search processing execution unit 105 include software corresponding to each function, and hardware such as a CPU and a memory for executing the software. It is composed of

キーワード集合とは、一つ以上のキーワードを含む集合である。キーワードを一つも含まないキーワード集合は、そもそも文書中での出現位置が存在しないため、ここでは考慮しない。   A keyword set is a set including one or more keywords. A keyword set that does not contain any keywords does not have any appearance position in the document, and is not considered here.

あるキーワードkと同じ文字の並びが文書D中に存在するとき、キーワードkは文書D中に出現するという。キーワードkが文書D中に出現するとき、キーワードkの出現位置を、文書Dの先頭の文字からキーワードkの先頭の文字までの文字数で表わす。キーワードkは、文書D中に0回以上出現するため、キーワードkはkのD中での出現位置の集合とみなすこともできる。   The keyword k appears in the document D when the same character sequence as the keyword k exists in the document D. When the keyword k appears in the document D, the appearance position of the keyword k is represented by the number of characters from the first character of the document D to the first character of the keyword k. Since the keyword k appears 0 or more times in the document D, the keyword k can also be regarded as a set of appearance positions in D of k.

図2は、文書とキーワードとの関係を示す説明図である。
キーワードkの文書D中の出現位置の集合をkと表わす。図2の例では、キーワードk=“キーワード”のとき、文書201中でのkの出現位置は、図中の202に示すようにk={1,18,35}である。キーワードkの文字数を、キーワード長といい、LEN(k)と表わす。キーワードkの文書D中の出現位置を一つ取得する処理をSTR(k)と表わす。また、kの末尾の文字の位置をEND(k)と表わす。STR(k)と、ENDD(k)の関係を以下に示す。

Figure 2005339150
FIG. 2 is an explanatory diagram showing the relationship between documents and keywords.
A set of appearance position in the document D of keyword k represents a k D. In the example of FIG. 2, when the keyword k = “keyword”, the appearance position of k in the document 201 is k D = {1, 18, 35} as indicated by 202 in the figure. The number of characters of the keyword k is called the keyword length and is represented as LEN (k). A process of acquiring one appearance position of the keyword k in the document D is represented as STR D (k). Further, the position of the last character of k is represented as END D (k). The relationship between STR D (k) and END D ( k) is shown below.
Figure 2005339150

二つのキーワードkとk(STR(k)<STR(k)とする)があるとき、このキーワード間の距離を、キーワードkの末尾の文字とキーワードkの先頭の文字の間の文字数で表わし、DIST(k,k)と表わす。DIST(k,k)を以下のように定義する。

Figure 2005339150
図2の文書201の例では、最初の”キーワード”と”出現”の距離は3である。 When there are two keywords k 1 and k 2 (STR D (k 1) and <STR D (k 2)) , the distance between the keyword, the end of the keyword k 1 character and the keyword k 2 beginning of It is represented by the number of characters between characters, and is represented as DIST D (k 1 , k 2 ). DIST D (k 1 , k 2 ) is defined as follows.
Figure 2005339150
In the example of the document 201 in FIG. 2, the distance between the first “keyword” and “appearance” is 3.

キーワード集合をSとすると、S={k,k,…,k}(n≧1)である。キーワード集合Sの文書D中での出現位置を、S中のキーワードk(i=1〜n)の出現位置とする。Sをキーワード集合Sの文書中での出現位置の集合とすると、S=k ∪k ∪…∪k となる。図2の例では、キーワード集合をS={“キーワード”,“出現”}としたとき、図2の203に示したようにS={1,9,18,35,43}である。キーワード集合の文書中での出現位置の中で最も値の小さいものをSの最初の出現位置と呼ぶこととする。また、直前に取得したキーワード集合の出現位置以降で、文書中での最初の出現位置をキーワード集合の次の出現位置と呼ぶ。図2の例では、キーワード集合Sの最初の出現位置は1である。キーワード集合Sのその次の出現位置は9である。
二つのキーワード集合間の距離は、その二つのキーワード集合に含まれるキーワード間の距離によって定義する。
When the keyword set is S, S = {k 1 , k 2 ,..., K n } (n ≧ 1). The appearance position of the keyword set S in the document D is defined as the appearance position of the keyword k i (i = 1 to n) in S. When S D is a set of appearance positions in the document of the keyword set S, S D = k 1 D ∪k 2 D ∪... ∪k n D. In the example of FIG. 2, when the keyword set is S = {“keyword”, “appearance”}, S D = {1, 9, 18, 35, 43} as shown by 203 in FIG. The smallest appearance value in the keyword set in the document is called the first appearance position of S. Also, the first appearance position in the document after the appearance position of the keyword set acquired immediately before is called the next appearance position of the keyword set. In the example of FIG. 2, the first appearance position of the keyword set S is 1. The next appearance position of the keyword set S is nine.
The distance between two keyword sets is defined by the distance between keywords included in the two keyword sets.

近傍条件とは、二つ以上のキーワード集合間の距離によって真偽を判定する検索条件である。   The neighborhood condition is a search condition for determining authenticity based on a distance between two or more keyword sets.

図3は、本発明の文書検索装置における検索処理の流れ図である。
先ず、ステップST301で、検索条件入力部103に検索条件101が入力されると、ステップST302で、検索条件解析部104により検索実行プランが生成される。次に、検索処理実行部105で、データベース110に蓄積された文書を1件ずつ、近傍条件に適合するか判定する。
FIG. 3 is a flowchart of search processing in the document search apparatus of the present invention.
First, when the search condition 101 is input to the search condition input unit 103 in step ST301, a search execution plan is generated by the search condition analysis unit 104 in step ST302. Next, the search processing execution unit 105 determines whether the documents stored in the database 110 meet the neighborhood condition one by one.

先ず、ステップST303で、一つの文書が近傍条件に適合するか判定する。近傍条件に適合していたら(YES)、その文書を検索結果に追加する(ステップST304)。検索結果は、文書の識別子のみを保持しても良いし、他に付加的な情報を保持しても良い。検索結果に文書を追加したら、その次の文書に対してステップST303の近傍条件判定を実施する。ステップST303で、文書が近傍条件に適合していなければ(NO)、文書を検索結果に追加せずに、次の文書に対して近傍条件判定を実施する(ステップST303)。この様にして、全ての文書に対して1回ずつ近傍条件を判定し終えたら、ステップST305で、検索結果出力部106より検索結果102を出力する。   First, in step ST303, it is determined whether one document meets the neighborhood condition. If the neighborhood condition is met (YES), the document is added to the search result (step ST304). The search result may hold only the document identifier or may hold additional information. When a document is added to the search result, the neighborhood condition determination in step ST303 is performed on the next document. If the document does not conform to the neighborhood condition in step ST303 (NO), the neighborhood condition is determined for the next document without adding the document to the search result (step ST303). In this way, when the neighborhood condition is determined once for all the documents, the search result output unit 106 outputs the search result 102 in step ST305.

図4は、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
ここでは、キーワード集合S〜Sの近傍条件を判定するものとする。先ず、近傍条件判定部108は、キーワード集合照合部107から、各キーワード集合S〜Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk〜kを取得する(ステップST401)。ここで取得する情報は、キーワード集合の出現位置とキーワードの長さであっても良い。
FIG. 4 is a flowchart of the process (step ST303 in FIG. 3) of the search process execution unit 105 in FIG.
Here, it is assumed to determine the neighborhood condition of keyword set S 1 to S n. First, neighborhood condition judging unit 108, the keyword set collation unit 107, for each keyword set S 1 to S n, and first occurrence in a document to be determined, the keyword k 1 to k n at that appearance positions Is acquired (step ST401). The information acquired here may be the appearance position of the keyword set and the length of the keyword.

キーワード集合照合部107は、キーワード集合の出現位置取得要求がある度に、キーワード照合部109を呼び出しながら、文書の先頭から一つずつ順にキーワード集合の出現位置と、その位置のキーワード、もしくはキーワード長を出力する。   The keyword set matching unit 107 calls the keyword matching unit 109 each time a keyword set appearance position acquisition request is made, and sequentially displays the keyword set appearance position and the keyword at that position, or the keyword length, one by one from the top of the document. Is output.

次に、近傍条件判定部108は、ステップST402で、取得したキーワード集合の位置が近傍条件に適合するか否かを判定する。ステップST402において、判定対象の文書が近傍条件に適合していれば(YES)、ステップST406に移行し、「適合した」を出力して判定処理を終了する。一方、ステップST402でキーワード集合の出現位置が近傍条件に適合していなければ(NO)、ステップST403に移行して、近傍条件を満たさなかったキーワード集合S(i=1〜n)の文書中での次の出現位置を取得する。 Next, the neighborhood condition determining unit 108 determines whether or not the position of the acquired keyword set matches the neighborhood condition in step ST402. In step ST402, if the document to be determined conforms to the neighborhood condition (YES), the process proceeds to step ST406, “conforms” is output, and the determination process ends. On the other hand, if the appearance position of the keyword set does not match the neighborhood condition in step ST402 (NO), the process proceeds to step ST403, in the document of the keyword set S i (i = 1 to n) that does not satisfy the neighborhood condition. Get the next occurrence position at.

ステップST404では、ステップST403でキーワード集合の次の出現位置が取得できたかどうか判定し、取得できていた場合は(YES)、ステップST402に戻って、それらの出現位置が近傍条件に適合するか否かを判定する。ステップST404でキーワード集合の次の出現位置が取得できていなければ(NO)、その判定対象の文書中に、近傍条件に適合する出現位置はないということなので、ステップST405で「適合しない」を出力して終了する。   In step ST404, it is determined whether or not the next appearance position of the keyword set has been acquired in step ST403. If it has been acquired (YES), the process returns to step ST402, and whether or not these appearance positions meet the neighborhood condition. Determine whether. If the next appearance position of the keyword set has not been acquired in step ST404 (NO), it means that there is no appearance position that matches the neighborhood condition in the document to be determined, so that “not compatible” is output in step ST405. And exit.

キーワード照合部109は、データベース110に記録された文書索引111を参照しながら、キーワードの文書中での出現位置を出力する。ここで、データベース110に記録されている文書索引111は、n−gram索引やサフィックスアレイといった、文字列とその文書中での出現位置を記録した索引でも良いし、キーワード照合部109が判定対象の文書を直接走査することで、キーワードの文書中での出現位置を取得するものであっても良い。即ち、判定対象の文書中でのキーワードの出現位置を取得できる機能を備えていればその実現手段はどのようなものであっても良い。   The keyword matching unit 109 outputs the appearance position of the keyword in the document while referring to the document index 111 recorded in the database 110. Here, the document index 111 recorded in the database 110 may be an index that records a character string and an appearance position in the document, such as an n-gram index or a suffix array. The appearance position of the keyword in the document may be acquired by directly scanning the document. That is, as long as it has a function capable of acquiring the appearance position of a keyword in a document to be determined, any means for realizing it may be used.

以上のように、実施の形態1によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合の出現位置が、所定の近傍条件を満たすか否かを判定する近傍条件判定部108とを有し、キーワード集合照合部107における出現位置の取得処理と、近傍条件判定部108における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105を備えたので、キーワードの数やキーワードの文書中での出現位置が増大しても、判定に要する計算量を抑えることができ、このような場合の検索時間の短縮化に寄与することができる。   As described above, according to the first embodiment, the keyword set matching unit 107 that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets and the keyword set matching unit 107 are acquired. A proximity condition determination unit that determines whether or not the appearance positions of a plurality of keyword sets satisfy a predetermined neighborhood condition, and the appearance position acquisition processing in the keyword set matching unit 107 and the neighborhood condition determination unit in Since the search processing execution unit 105 that alternately executes the proximity condition determination process and outputs the determination result as a search result when the proximity condition is determined to be true, the number of keywords and the keyword in the document are included. Even if the appearance position increases, the amount of calculation required for the determination can be suppressed, which can contribute to shortening the search time in such a case.

例えば、キーワード「デジタル」と「カメラ」を同義語・異表記展開したキーワード集合{「デジタル」,「digital」,「ディジタル」}と、{「カメラ」,「camera」,「写真機」}の近傍条件を判定するといった場合でも、本実施の形態では、これらのキーワードをキーワード集合として直接判定することができ、従って、検索時間の短縮化を図ることができる。   For example, a keyword set {“digital”, “digital”, “digital”} and {“camera”, “camera”, “camera”} in which the keywords “digital” and “camera” are developed synonyms and different notations are used. Even in the case of determining the neighborhood condition, in the present embodiment, these keywords can be directly determined as a keyword set, and therefore the search time can be shortened.

実施の形態2.
実施の形態2は、キーワード集合の順序指定あり近傍内条件を判定するようにしたものである。
Embodiment 2. FIG.
In the second embodiment, the in-neighbor conditions with keyword group order designation are determined.

実施の形態2における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態2の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍内条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   Since the configuration of the second embodiment in the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the second embodiment is configured such that the neighborhood condition determination unit 108 of the document search apparatus according to the first embodiment can determine the in-neighbor conditions with keyword group order designation. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定あり近傍内条件について説明する。キーワード集合の順序指定あり近傍内条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が指定された距離以下であるか否かを判定する近傍条件である。今、キーワード集合S〜Sがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。

Figure 2005339150
Here, the in-neighbor conditions with keyword group order specification will be described. The in-neighbor condition with keyword set order specification is a neighborhood condition for determining whether or not a keyword set appears in the specified order and whether the distance between the preceding and following keyword sets is equal to or less than the specified distance. Now, keyword set S 1 to S n are as specified in this order. Further, it is assumed that the distance d between the keyword sets is designated. At this time, the condition is determined as follows.
Figure 2005339150

図5は、実施の形態2における、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
検索処理実行部105は、検索条件解析部104から、キーワード集合S〜Sとキーワード集合間の距離dおよび順序指定あり近傍内条件の判定指示が与えられると、近傍条件判定部108が、ステップST501でキーワード集合S〜Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk〜kを、キーワード集合照合部107から取得する。次に、ステップST502において、近傍条件判定部108は、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているか否かを判定する。即ち、i=1〜n−1に対して、DIST(k,ki+1)≦dを全て満たしているか否かを判定する。
FIG. 5 is a flowchart of the process (step ST303 in FIG. 3) of the search process execution unit 105 in FIG. 1 in the second embodiment.
Search processing execution unit 105, a search condition analysis unit 104, the determination instruction for distance d and ordering there near the conditions between keyword set S 1 to S n and keyword set is given, the neighborhood condition determination unit 108, the keyword set S 1 to S n in step ST 501, the first occurrence in a document determination target, the keyword k 1 to k n in its appearance position is obtained from the keyword set collation unit 107. Next, in step ST502, the neighborhood condition determining unit 108 determines whether or not the appearance position of the acquired keyword set conforms to the in-neighbor conditions with order designation. That is, it is determined with respect to i = 1~n-1, DIST D (k i, k i + 1) whether to satisfy all ≦ d.

ステップST502において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているならば(YES)、ステップST506に移行し、「適合した」を出力して終了する。一方、ステップST502において、順序指定あり近傍内条件に適合していなければ(NO)、ステップST503に移行する。ステップST503では、DIST(k,ki+1)≦dを満たさなかったk、ki+1の組で、iが最も小さいものに対して、どちらのキーワードが文書中で先に出現しているか判定する。 In step ST502, if the appearance position of the acquired keyword set for the document to be determined matches the in-neighbor condition with order specification (YES), the process proceeds to step ST506, and “adapted” is output. And exit. On the other hand, if it is determined in step ST502 that the order designation and in-neighbor conditions are not met (NO), the process proceeds to step ST503. In step ST503, which keyword appears first in the document with respect to the smallest i in the set of k i and k i + 1 that did not satisfy DIST D (k i , k i + 1 ) ≦ d. judge.

ステップST503において、判定対象の文書中で、kのほうがki+1より先に出現していれば(YES)、ステップST504でSの次の出現位置と、その出現位置にあるキーワードkを取得する。一方、ステップST503で、判定対象の文書中で、ki+1の方がkより先に出現していれば(NO)、ステップST505に移行してSi+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。ステップST504もしくはステップST505で、キーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST502に戻って、取得したキーワード集合の位置が順序指定あり近傍内条件に適合するか否かを判定する。 In step ST 503, in a document to be determined, if more of k i is long appeared earlier than k i + 1 (YES), the next occurrence position of S i in step ST 504, the keyword k i at that appearance positions get. On the other hand, if k i + 1 appears earlier than k i in the document to be determined in step ST503 (NO), the process proceeds to step ST505 and the next appearance position of S i + 1 and its appearance position. The keyword k i + 1 in is acquired. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST504 or step ST505, the process returns to step ST502, and whether or not the acquired position of the keyword set conforms to the in-neighbor conditions with specified order. Determine whether.

尚、図5の処理の流れ図では省略したが、ステップST501、ステップST504、ステップST505で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍内条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。   Although omitted in the flowchart of the processing of FIG. 5, if the appearance position of the keyword set cannot be acquired in step ST501, step ST504, or step ST505, the order is specified in the determination target document and the near-in condition is set. Since there is no matching appearance position, “not fit” is output and the process ends.

図6は、実施の形態2の図5に示した処理の流れによる、キーワード集合の順序指定あり近傍内条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sがこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p}、S ={p,p,p}とする。それらの出現位置の関係は、図6の通りであるとする。また、キーワード集合S、S、Sとしては、例えば、Sは{デジタル,digital,ディジタル}、Sは{カメラ,camera,写真機}といったように、それぞれのキーワード集合が複数のキーワードを含むものである。
FIG. 6 shows a determination path for the in-neighbor conditions with keyword group order designation according to the processing flow shown in FIG. 5 of the second embodiment.
Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between the appearance positions is as shown in FIG. Further, as the keyword sets S 1 , S 2 , S 3 , for example, S 1 is {digital, digital, digital}, S 2 is {camera, camera, camera}, and each keyword set includes a plurality of keyword sets. Includes keywords.

このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(4)の処理は図6中の(1)〜(4)に対応している。   When such a search condition is given, the determination is executed as follows. The following processes (1) to (4) correspond to (1) to (4) in FIG.

(1)図5のステップST501でキーワード集合S〜Sの文書D中での最初の出現位置p、p、pが取得される。次にステップST502でこの出現位置が順序指定あり近傍内条件に適合しているか否かを判定する。図6の場合、キーワード集合SがSよりも先に出現しているため、順序指定あり近傍内条件に適合していない。よって、ステップST503に移行する。ステップST503で、キーワード集合S、Sの文書D中での出現位置を判定し、Sの方が先に出現しているため、ステップST505で、キーワード集合Sの次の出現位置pを取得する。 (1) The first appearance positions p 1 , p 4 , and p 7 in the document D of the keyword sets S 1 to S 3 are acquired in step ST501 of FIG. Next, in step ST502, it is determined whether or not the appearance position is in conformity with the in-neighbor conditions with the specified order. In the case of FIG. 6, since the keyword set S 2 appears before S 1, it does not conform to the in-neighbor conditions with order designation. Therefore, the process proceeds to step ST503. In step ST503, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST505. Get 5 .

(2)今度は、S、Sの出現位置p、pと、ステップST505で取得したpに対してステップST502で順序指定あり近傍内条件の判定を実施する。今度はS、S間の距離がdより大きいため、順序指定あり近傍内条件に適合していない。よって、ステップST503に移行する。ステップST503で、Sの方がSよりも先に文書D中に出現しているため、ステップST504でSの次の出現位置p2を取得する。 (2) This time, in step ST502, the determination of the in-neighbor conditions with order designation is performed on the appearance positions p 1 and p 7 of S 1 and S 3 and p 5 acquired in step ST505. In this case, since the distance between S 1 and S 2 is larger than d, the in-neighbor condition is not satisfied with the order designation. Therefore, the process proceeds to step ST503. In step ST 503, towards S 1 it is because it appears in the document D earlier than S 2, to obtain the following appearance position p2 of S 1 in step ST 504.

(3)ステップST502で、出現位置p、p、pに対して順序あり近傍内条件を判定する。今度はSの方がSよりも文書D中で先に出現しているため、ステップST505でSの次の出現位置pを取得する。 (3) in step ST 502, it determines the order has near the condition for the occurrence position p 2, p 5, p 7 . Now since the direction of S 3 have appeared previously in the document D than S 2, to get the next occurrence position p 8 of S 3 in step ST505.

(4)ステップST502で、出現位置p、p、pに対して順序指定あり近傍内条件を判定し、条件に適合しているため、ステップST506で「適合した」を出力する。 (4) In step ST502, the in-neighbor conditions with order designation are determined for the appearance positions p 2 , p 5 , and p 7 , and since “matched” is output because “matched” is output in step ST506.

キーワードの文書中での出現位置の数は、文書の文字数Nに比例するとみなすことができる。即ち、キーワードの文書中での出現位置の数はオーダ記法でO(N)(オーダN)と表せる。キーワード集合に含まれるキーワード数をMとする。今、K個のキーワード集合間の順序指定あり近傍内条件を判定する場合を考える。   The number of appearance positions of the keyword in the document can be regarded as being proportional to the number N of characters in the document. That is, the number of appearance positions of the keyword in the document can be expressed as O (N) (order N) in the order notation. Let M be the number of keywords included in the keyword set. Consider a case where an in-neighbor condition with order specification between K keyword sets is determined.

従来の特許文献1記載の方式では、キーワードの出現位置を、総当りによって順序指定あり近傍内条件を判定する。このとき、K個のキーワード間の条件判定に要する計算量はO(N)であった。また、キーワード集合間の判定は、キーワード集合を展開して個々に条件を判定しなければならなかった。よって、組み合わせの数はMとなる。よって、K個のキーワード集合間の順序指定あり近傍内条件の判定に要する計算量は、O((MN))となる。 In the conventional method described in Patent Document 1, the in-neighbor condition with the order designation is determined by the round robin for the appearance position of the keyword. At this time, the amount of calculation required for determining the condition between K keywords was O (N K ). Further, the determination between keyword sets has to be performed by expanding the keyword sets and individually determining the conditions. Thus, the number of combinations will be M K. Therefore, the amount of calculation required to determine the in-neighbor condition with the order between the K keyword sets is O ((MN) K ).

これに対して、実施の形態2の順序指定あり近傍内条件の判定の場合を考える。キーワード集合の文書中での出現位置の数は、文書中の全文字数Nと、キーワード集合内のキーワード数Mに比例するとみなすことができる。即ち、O(MN)である。本実施の形態の判定方式では、キーワード集合の順序指定あり近傍内条件を、最大でも全てのキーワード集合の出現位置の和の回数で判定可能である。よって、K個のキーワード間の順序指定あり近傍内条件の判定に要する計算量は、O(KMN)である。   On the other hand, consider the case of determination of in-neighbor conditions with order designation in the second embodiment. The number of appearance positions in the document of the keyword set can be considered to be proportional to the total number N of characters in the document and the number of keywords M in the keyword set. That is, O (MN). In the determination method of the present embodiment, it is possible to determine the condition within the neighborhood with the specified keyword set order by the number of times of the sum of the appearance positions of all the keyword sets. Therefore, the amount of calculation required for determining the in-neighbor condition with order specification between K keywords is O (KMN).

このように、実施の形態2の文書検索装置では、キーワード集合間の順序指定あり近傍内条件を、従来の方式と比較して高速に判定することが可能である。   As described above, in the document search apparatus according to the second embodiment, it is possible to determine the in-neighbor conditions with the order designation between the keyword sets at a higher speed than in the conventional method.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍内条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the in-neighbor conditions with the order designation has been shown, but even if the conditions are determined in order from the end to the beginning of the document, Similar effects can be obtained.

以上のように、実施の形態2によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下である順序指定あり近傍内条件としたので、従来に比べて、順序指定あり近傍内条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the second embodiment, when all keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity condition determination unit 108. Compared to the conventional method, the near-internal condition with specified order that is less than the distance can reduce the amount of calculation required to determine the in-neighbor condition with specified order, and shorten the search time in such search processing. Can do.

実施の形態3.
実施の形態3は、キーワード集合の順序指定なし近傍内条件を判定するようにしたものである。
Embodiment 3 FIG.
In the third embodiment, the in-neighbor conditions without specifying the order of the keyword set are determined.

実施の形態3における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。また、実施の形態3の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定なし近傍内条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   Since the configuration of the third embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the third embodiment is configured such that the neighborhood condition determination unit 108 of the document search apparatus according to the first embodiment can determine the in-neighbor conditions without specifying the order of the keyword set. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定なし近傍内条件について説明する。キーワード集合の順序指定なし近傍内条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下であるか否かを判定する近傍条件である。今、キーワード集合S〜Sとキーワード集合間の距離dが与えられたとき、順序指定なし近傍内条件は以下のように判定される。

Figure 2005339150
Here, the condition in the neighborhood without specifying the order of the keyword set will be described. The in-neighbor condition without specifying the order of keyword sets is a neighborhood condition for determining whether or not the distance between preceding and following keyword sets is equal to or less than a specified distance when all keyword sets appear in a document. Now, when the keyword set S 1 to S n and the distance d between the keyword set is given, without ordering near the condition is determined as follows.
Figure 2005339150

図7は、実施の形態3における、キーワード集合が二つの場合の、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
検索処理実行部105に対してキーワード集合S、Sとキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST701でキーワード集合S、Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk、kを、キーワード集合照合部107から取得する。次に、近傍条件判定部108は、ステップST702において、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているか否かを判定する。即ち、DIST(k,k)≦dまたはDIST(k,k)≦dを満たしているか否かを判定する。
FIG. 7 is a flowchart of processing (step ST303 in FIG. 3) of the search processing execution unit 105 in FIG. 1 when there are two keyword sets in the third embodiment.
When the distance d between the keyword sets S 1 and S 2 and the keyword set is given to the search processing execution unit 105, the neighborhood condition determination unit 108 determines the document to be determined of the keyword sets S 1 and S 2 in step ST701. The first appearance position and the keywords k 1 and k 2 at the appearance position are acquired from the keyword set collating unit 107. Next, in step ST702, the neighborhood condition determining unit 108 determines whether the appearance position of the acquired keyword set conforms to the in-neighbor conditions with order designation. That is, it is determined whether DIST D (k 1 , k 2 ) ≦ d or DIST D (k 2 , k 1 ) ≦ d is satisfied.

ステップST702において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定なし近傍内条件に適合しているならば(YES)、ステップST706に移行し、「適合した」を出力して終了する。一方、ステップST702において、順序指定あり近傍内条件に適合していなければ(NO)、ステップST703に移行する。ステップST703では、kとkのどちらのキーワードが文書中で先に出現しているか判定する。判定対象の文書中で、kのほうがkより先に出現していれば(YES)、ステップST704でSの次の出現位置と、その出現位置にあるキーワードkを取得する。 If, in step ST702, the appearance position of the acquired keyword set for the document to be determined matches the in-neighbor conditions without order designation (YES), the process proceeds to step ST706, and “matched” is output. And exit. On the other hand, if it is determined in step ST702 that the in-neighbor conditions with specified order are not met (NO), the process proceeds to step ST703. In step ST703, it is determined whether either of the keyword of k 1 and k 2 have emerged earlier in the document. In the document to be determined, more of k 1 is if appearing before the k 2 (YES), the next occurrence position of S 1 in step ST704, acquires the keyword k 1 in its appearance position.

ステップST703で、判定対象の文書中で、kのほうがkより先に出現していれば(NO)、ステップST705でSの次の出現位置と、その出現位置にあるキーワードkを取得する。ステップST704もしくはステップST705で、キーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST702に戻って、取得したキーワード集合の位置が順序指定あり近傍内条件に適合するか否かを判定する。 In step ST 703, in a document to be determined, if more of the k 2 is long appeared earlier than k 1 (NO), the next occurrence position of S 2 in step ST 705, the keyword k 2 at that appearance positions get. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST704 or step ST705, the process returns to step ST702, and whether or not the position of the acquired keyword set meets the in-neighbor conditions with specified order. Determine whether.

尚、図7の処理の流れ図では省略したが、ステップST701、ステップST704、ステップST705で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定なし近傍内条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。   Although not shown in the flowchart of the processing in FIG. 7, if the appearance position of the keyword set cannot be acquired in step ST701, step ST704, or step ST705, the near-in-condition without order designation is set in the determination target document. Since there is no matching appearance position, “not fit” is output and the process ends.

図8は、実施の形態3の図7に示した処理の流れによる、二つのキーワード集合の順序指定なし近傍内条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、Sと距離dが与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p}、S ={p,p,p}とする。それらの出現位置の関係は、図8の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は、図8中の(1)〜(3)に対応している。
FIG. 8 shows a path for determining the in-neighbor conditions without specifying the order of the two keyword sets, according to the processing flow shown in FIG. 7 of the third embodiment.
Assume that keyword sets S 1 and S 2 and a distance d are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 } and S 2 D = {p 3 , p 4 , p 5 }. The relationship between the appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.

(1)図7のステップST701でS、Sの文書D中での最初の出現位置p、pが取得される。次に、ステップST702で、この出現位置が順序指定なし近傍内条件に適合しているか否かを判定する。図8の場合、キーワード集合SとS間の距離がdより大きいため順序指定なし近傍内条件に適合していない。よって、ステップST703に移行する。ステップST703で、キーワード集合S、Sの文書D中での出現位置を判定し、Sの方が先に出現しているため、ステップST705で、キーワード集合Sの次の出現位置pを取得する。 (1) In step ST701 in FIG. 7, the first appearance positions p 1 and p 3 in the document D of S 1 and S 2 are acquired. Next, in step ST702, it is determined whether or not this appearance position meets the in-neighbor conditions without order designation. In the case of FIG. 8, since the distance between the keyword sets S 2 and S 1 is larger than d, it does not meet the in-neighbor condition without order designation. Therefore, the process proceeds to step ST703. In step ST703, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST705. 4 is acquired.

(2)今度は、Sの出現位置pと、ステップST705で取得したpに対してステップST702で順序指定なし近傍内条件の判定を実施する。今度もS、S間の距離がdより大きいため、順序指定なし近傍内条件に適合していない。よって、ステップST703に移行する。ステップST703で、Sの方がSよりも先に文書D中に出現しているため、ステップST704でSの次の出現位置pを取得する。 (2) This time, the appearance position p 1 of S 1, to implement the determination of the ordering without near the condition in step ST702 with respect to p 4 acquired in step ST 705. Again, since the distance between S 1 and S 2 is greater than d, it does not meet the in-neighbor condition without order designation. Therefore, the process proceeds to step ST703. In step ST 703, towards S 1 it is because it appears in the document D earlier than S 2, to get the next occurrence position p 2 of S 1 at step ST704.

(3)ステップST702で出現位置p、pに対して順序なし近傍内条件を判定し、条件に適合しているため、ステップST706に移行して「適合した」を出力する。 (3) In Step ST702, the in-order neighborhood condition is determined for the appearance positions p 2 and p 4 , and the condition is satisfied. Therefore, the process proceeds to Step ST706, and “Applicable” is output.

次に、三つ以上のキーワード集合に対する検索処理を説明する。
図9は、実施の形態3における、三つ以上のキーワード集合に対する、検索処理実行部105の処理(図3のステップST303)の流れ図である。
検索処理実行部105は、キーワード集合S〜Sとキーワード集合間の距離dが与えられると、ステップST901でキーワード集合S〜Sの順序を一つ決定する。尚、最初の順序は任意である。次に、近傍条件判定部108は、ステップST902において、ステップST901で決められたキーワード集合の順序で、順序指定あり近傍内条件を判定する。この順序指定あり近傍内条件の判定処理は、実施の形態2と同様に実施される。
Next, a search process for three or more keyword sets will be described.
FIG. 9 is a flowchart of processing (step ST303 in FIG. 3) of the search processing execution unit 105 for three or more keyword sets in the third embodiment.
Search processing execution unit 105, the keyword set S 1 to S n and the distance d between the keyword set is given, one determines the order of the keyword set S 1 to S n in step ST 901. Note that the initial order is arbitrary. Next, in step ST902, the neighborhood condition determination unit 108 determines the in-neighbor conditions with order designation in the order of the keyword set determined in step ST901. The determination process of the in-neighbor condition with order designation is performed in the same manner as in the second embodiment.

ステップST902において、判定対象の文書が、ステップST901で決められたキーワード集合の順序で順序指定あり近傍内条件に適合しているならば(YES)、ステップST905に移行し、「適合した」を出力する。一方、ステップST902で、順序指定あり近傍内条件に適合していなければ(NO)、ステップST903で、まだステップST902で判定していないキーワード集合の順序の組み合わせがあるか否か判定する。ステップST903において、まだ判定していないキーワード集合の順序の組み合わせがある場合(YES)、ステップST901で、まだ判定していないキーワード集合の順序を決定し、ステップST902で、その順序による順序指定あり近傍内条件を判定する。ステップST903で、全てのキーワード集合の順序の組み合わせに対して、順序指定あり近傍内条件の判定を実施したと判定された場合(NO)、ステップST904で「適合しない」を出力して終了する。   In step ST902, if the document to be determined conforms to the in-neighbor conditions with order designation in the order of the keyword set determined in step ST901 (YES), the process proceeds to step ST905, and “conforms” is output. To do. On the other hand, if it is determined in step ST902 that the specified neighborhood condition is not satisfied (NO), it is determined in step ST903 whether there is a combination of the order of keyword sets that has not yet been determined in step ST902. In step ST903, if there is a combination of the order of keyword sets that have not been determined yet (YES), the order of keyword sets that have not been determined yet is determined in step ST901, and in step ST902, the neighborhood with the order specified by that order. Determine internal conditions. If it is determined in step ST903 that the determination of the in-neighbor condition with specified order has been performed for the combinations of the order of all keyword sets (NO), “not fit” is output in step ST904, and the process ends.

この順序指定なし近傍内条件の判定処理で、近傍条件判定部108はキーワード集合照合部107より取得したキーワード集合の出現位置の情報を、図示しないメモリ上に記憶しておいてもよい。そうすることで、一度取得したキーワード集合の出現位置を再度取得する場合に、キーワード集合照合部107を呼び出さなくて良い。   In the determination process of the in-neighbor condition without order designation, the vicinity condition determination unit 108 may store information on the appearance position of the keyword set acquired from the keyword set matching unit 107 in a memory (not shown). By doing so, it is not necessary to call the keyword set matching unit 107 when acquiring the appearance position of the keyword set once acquired.

文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。先ず、2個のキーワード集合間の順序指定なし近傍内条件を判定する場合を考える。従来の特許文献1の方式の、キーワードの出現位置を総当りによって順序指定なし近傍内条件を判定するものでは、2個のキーワード集合間の条件の判定に要する計算量は、O((MN))となる。一方、実施の形態3の順序指定なし近傍内条件の判定の場合は、2個のキーワード間の順序指定あり近傍内条件の判定に要する計算量は、O(2MN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. First, let us consider a case where an in-neighbor condition without order specification between two keyword sets is determined. In the conventional method of Patent Document 1, in which the in-neighbor conditions without order designation are determined by brute force, the amount of calculation required for determining the condition between two keyword sets is O ((MN) 2 ). On the other hand, in the case of the determination of the in-neighbor condition without order designation according to the third embodiment, the amount of calculation required for the determination of the in-neighbor condition with order designation between two keywords is O (2MN).

次にK個のキーワード集合間の順序指定なし近傍内条件を判定する場合を考える。ここでは、一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1の方式では、K個のキーワード集合間の順序指定なし近傍内条件の判定に要する計算量は、O(N)となる。 Next, consider a case in which an in-neighbor condition without order specification between K keyword sets is determined. Here, the number of appearance positions in the document of one keyword set is N. In the conventional method of Patent Document 1, the amount of calculation required for determining the in-neighbor condition without ordering between K keyword sets is O (N K ).

本実施の形態2の順序指定あり近傍内条件の判定に要する計算量はO(KN)である。K個のキーワード間の順序指定なし近傍内条件の場合は、キーワード集合の順序の組み合わせを変更しながら、順序指定あり近傍内条件を判定する。K個のキーワード集合の順序の組み合わせは、K!(Kの階乗)通りある。よって、K個のキーワード集合間の順序指定なし近傍内条件の判定に要する計算量は、O(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。   The amount of calculation required for determining the in-neighbor condition with the order designation in the second embodiment is O (KN). In the case of an in-neighbor condition without order specification between K keywords, the in-neighbor condition with order designation is determined while changing the combination of the order of the keyword set. The combination of the order of K keyword sets is K! There is (K factorial). Therefore, the amount of calculation required for determining the in-neighbor condition without ordering between the K keyword sets is O (K! KN). This calculation amount is less than the conventional method if K is smaller than N.

以上のように、実施の形態3によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下である順序指定なし近傍内条件としたので、従来に比べて、順序指定なし近傍内条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the third embodiment, when all keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity condition determination unit 108. Because the neighborhood condition without order designation that is less than the distance is used, the amount of calculation required to determine the condition within neighborhood without order designation can be reduced compared to the conventional case, and the search time in such search processing can be shortened. Can do.

実施の形態4.
実施の形態4は、キーワード集合の順序指定あり近傍等条件を判定するようにしたものである。
Embodiment 4 FIG.
In the fourth embodiment, conditions such as neighborhoods with keyword group order designation are determined.

実施の形態4における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態4の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍等条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   The configuration of the fourth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, and will be described with reference to FIG. The document search apparatus according to the fourth embodiment is configured such that the proximity condition determination unit 108 of the document search apparatus according to the first embodiment can determine conditions such as the vicinity of keywords set in the specified order. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定あり近傍等条件について説明する。キーワード集合の順序指定あり近傍等条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が真に指定された距離であるか否かを判定する近傍条件である。今、キーワード集合S〜Sがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。

Figure 2005339150
Here, a condition such as a neighborhood with keyword group order specification will be described. A keyword set order neighborhood condition is a neighborhood condition that determines whether a keyword set appears in the specified order and whether the distance between the preceding and following keyword sets is a truly specified distance. . Now, keyword set S 1 to S n are as specified in this order. Further, it is assumed that the distance d between the keyword sets is designated. At this time, the condition is determined as follows.
Figure 2005339150

図10は、実施の形態4における、検索処理実行部105の処理(図3のステップST303)の流れ図である。
検索処理実行部105は、キーワード集合S〜Sとキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST1001でキーワード集合S〜Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk〜kを、キーワード集合照合部107から取得する。次に、近傍条件判定部108は、ステップST1002において、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合しているか否かを判定する。即ち、i=1〜n−1に対して、DIST(k,ki+1)=dを全て満たしているか否かを判定する。
FIG. 10 is a flowchart of the process (step ST303 in FIG. 3) of the search process execution unit 105 in the fourth embodiment.
Search processing execution unit 105, the keyword set S 1 to S n and the distance d between the keyword set is given, neighborhood condition judging unit 108, the keyword set S 1 to S n in step ST 1001, in the document to be determined first and appearance position, the keyword k 1 to k n in its appearance position for, acquires from the keyword set collation unit 107. Next, in step ST1002, the neighborhood condition determination unit 108 determines whether the appearance position of the acquired keyword set conforms to the conditions such as neighborhood with order designation. That is, it is determined with respect to i = 1~n-1, DIST D (k i, k i + 1) whether to satisfy all = d.

ステップST1002において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合しているならば(YES)、ステップST1003に移行し、「適合した」を出力して終了する。一方、ステップST1002において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合していなければ(NO)、ステップST1004に移行する。   In step ST1002, if the appearance position of the acquired keyword set conforms to the conditions such as neighborhood with order designation for the determination target document (YES), the process proceeds to step ST1003, and “conforms” is output. And exit. On the other hand, in step ST1002, if the appearance position of the acquired keyword set does not conform to the conditions such as neighborhood with order designation for the determination target document (NO), the process proceeds to step ST1004.

ステップST1004では、DIST(k,ki+1)=dを満たさなかったk、ki+1の組で、iが最も小さいものに対して、どちらのキーワード集合が、文書中でより先に出現しているか判定する。Sが文書中で先に出現していた場合(YES)、ステップST1005でDIST(k,ki+1)がd未満か否かを判定する。DIST(k,ki+1)がd未満の場合(YES)、ステップST1007でキーワード集合Si+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。DIST(k,ki+1)がdより大きい場合(NO)、ステップST1006でキーワード集合Sの次の文書中での出現位置と、その出現位置にあるキーワードkを取得する。 In Step ST1004, which keyword set appears earlier in the document with respect to the combination of k i and k i + 1 that did not satisfy DIST D (k i , k i + 1 ) = d and i is the smallest. Judge whether you are doing. If S i appears first in the document (YES), it is determined in step ST1005 whether DIST D (k i , k i + 1 ) is less than d. When DIST D (k i , k i + 1 ) is less than d (YES), in step ST1007, the next appearance position of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. If DIST D (k i , k i + 1 ) is larger than d (NO), in step ST1006, the appearance position in the next document of the keyword set S i and the keyword k i at the appearance position are acquired.

ステップST1004で、Si+1が文書中で先に出現していた場合(NO)、ステップST1007でキーワード集合Si+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。ステップST1006またはステップST1007でキーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST1002に戻り、取得したキーワード集合の位置が順序指定あり近傍等条件に適合するか否かを判定する。 In step ST1004, when S i + 1 appears first in the document (NO), in step ST1007, the next appearance position of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST1006 or step ST1007, the process returns to step ST1002, and it is determined whether or not the position of the acquired keyword set conforms to the conditions such as neighborhood with specified order judge.

尚、図10の処理の流れ図では省略したが、ステップST1001、ステップST1006、ステップST1007のキーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍等条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。   Although omitted in the flowchart of the processing of FIG. 10, if the appearance position of the keyword set in step ST1001, step ST1006, and step ST1007 cannot be obtained, the order is specified in the determination target document and the conditions such as neighborhood are met. Since there is no appearance position to be output, “not fit” is output and the process ends.

図11は、実施の形態4の図10に示した処理の流れによる、キーワード集合の順序指定あり近傍等条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sがこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p}、S ={p,p,p}とする。それらの出現位置の関係は、図11の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(5)の処理は、図11中の(1)〜(5)に対応しているものである。
FIG. 11 shows a path for determining a condition such as a neighborhood with keyword group order designation according to the processing flow shown in FIG. 10 of the fourth embodiment.
Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (5) correspond to (1) to (5) in FIG.

(1)図11のステップST1001でS〜Sの文書D中での最初の出現位置p、p、pが取得される。次に、ステップST1002でこの出現位置が順序指定あり近傍等条件に適合しているか否かを判定する。図11の場合、キーワード集合Sが、Sよりも先に出現しているため、順序指定あり近傍等条件に適合していない。よって、ステップST1004に移行する。ステップST1004で、キーワード集合S、Sの文書D中での出現位置を判定し、Sの方が先に出現しているため、ステップST1007で、キーワード集合Sの次の出現位置pを取得する。 (1) In step ST1001 of FIG. 11, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. Next, in step ST1002, it is determined whether or not this appearance position is in conformity with a condition such as a neighborhood with order designation. For Figure 11, keyword set S 2 is, because of the appearance before the S 1, does not conform to the order specified there near such conditions. Therefore, the process proceeds to step ST1004. In step ST1004, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST1007. Get 5 .

(2)ステップST1002で、出現位置p、p、pに対して順序指定あり近傍等条件を判定する。今度はS、S間の距離がdより大きいため、順序指定あり近傍等条件に適合していない。よって、ステップST1004に移行する。ステップST1004で、Sの方がSよりも先に文書D中に出現しているため、ステップST1005でSとSとの間の距離がd未満であるか否かを判定する。図11の場合、S、S間の距離がdより大きいので、ステップST1006でSの次の出現位置pを取得する。 (2) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p 1 , p 5 , and p 7 . This time, since the distance between S 1 and S 2 is larger than d, it does not conform to the conditions such as neighborhood with order designation. Therefore, the process proceeds to step ST1004. In step ST 1004, since the direction of S 1 is has appeared in the document D earlier than S 2, it is determined whether the distance between the S 1 and S 2 is less than d in step ST1005. In the case of FIG. 11, since the distance between S 1 and S 2 is larger than d, the next appearance position p 2 of S 1 is acquired in step ST1006.

(3)ステップST1002で、出現位置p、p、pに対して順序指定あり近傍等条件を判定する。今度はSの方がSよりも文書D中で先に出現しているため、ステップST1007でSの次の出現位置pを取得する。 (3) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p 2 , p 5 , and p 7 . Since S 3 appears earlier in document D than S 2 , the next appearance position p 8 of S 3 is acquired in step ST 1007.

(4)ステップST1002で、出現位置p、p、pに対して順序指定あり近傍等条件を判定する。S、S間の距離がd未満なので、順序指定あり近傍等条件に適合しない。よって、ステップST1004に移行する。ステップST1004で、Sの方がSよりも先に文書中に出現しているため、ステップST1005でS、S間の距離がd未満であるか否かを判定する。S、S間の距離がd未満なので、ステップST1007でSの次の出現位置pを取得する。 (4) In step ST1002, conditions such as neighborhoods with specified order are determined for the appearance positions p 2 , p 5 , and p 8 . Since the distance between S 2 and S 3 is less than d, it does not meet the conditions such as neighborhood with specified order. Therefore, the process proceeds to step ST1004. In step ST 1004, since the direction of S 2 have appeared in the document before the S 3, the distance between S 2, S 3 at step ST1005 determines whether less than d. Since the distance between S 2 and S 3 is less than d, the next appearance position p 9 of S 3 is acquired in step ST1007.

(5)ステップST1002で、出現位置p2、p5、p9に対して順序指定あり近傍等条件を判定し、条件に適合するため、ステップST1003で「適合した」を出力して終了する。 (5) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p2, p5, and p9, and in order to meet the conditions, “matched” is output in step ST1003 and the process ends.

文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の順序指定あり近傍等条件の判定に要する計算量は、O((MN))となる。一方、実施の形態4の順序指定なし近傍等条件の判定の場合は、K個のキーワード間の順序指定あり近傍等条件の判定に要する計算量は、実施の形態2と同様にO(KMN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in Patent Document 1, the amount of calculation required to determine the condition such as the neighborhood with order specification between K keyword sets is O ((MN) K ). On the other hand, in the case of determining the neighborhood condition without order designation in the fourth embodiment, the amount of calculation required for determining the neighborhood condition with order designation between the K keywords is O (KMN) as in the second embodiment. It is.

このように、実施の形態4の文書検索装置では、キーワード集合間の順序指定あり近傍等条件を、従来の方式と比較して高速に判定することが可能である。   As described above, in the document search apparatus according to the fourth embodiment, it is possible to determine the conditions such as the neighborhood with specified order between keyword sets at a higher speed than in the conventional method.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍等条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   In addition, here, the method of acquiring the appearance position of the keyword set in order from the top of the document and determining the conditions such as the neighborhood with the order designation is shown, but even if the conditions are determined in order from the end to the top of the document, Similar effects can be obtained.

以上のように、実施の形態4によれば、近傍条件判定部108が行う判定処理の近傍条件として、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離に等しい順序指定あり近傍等条件としたので、従来に比べて、順序指定あり近傍等条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the fourth embodiment, as a neighborhood condition in the judgment process performed by the neighborhood condition judgment unit 108, keyword sets appear in the designated order, and the distance between the preceding and following keyword sets is designated. As a result, it is possible to reduce the amount of calculation required to determine the neighborhood condition with specified order and to shorten the search time in such a search process. Can do.

実施の形態5.
実施の形態5は、キーワード集合の順序指定無し近傍等条件を判定するようにしたものである。
Embodiment 5 FIG.
In the fifth embodiment, a condition such as the neighborhood without specifying the order of keyword sets is determined.

実施の形態5における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態5の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍等条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   The configuration of the fifth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, and therefore will be described with reference to FIG. The document search apparatus according to the fifth embodiment is configured such that the proximity condition determination unit 108 of the document search apparatus according to the first embodiment can determine conditions such as the vicinity with keyword group order designation. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定なし近傍等条件について説明する。キーワード集合の順序指定なし近傍条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が真に指定された距離であるか否かを判定する近傍条件である。今、キーワード集合S〜Sとキーワード集合間の距離がdに対して、順序指定なし近傍等条件は以下のように判定される。

Figure 2005339150
Here, a condition such as the neighborhood without specifying the order of the keyword set will be described. The keyword set order-free neighborhood condition is a neighborhood condition that determines whether or not the distance between the preceding and following keyword sets is a true specified distance when all keyword sets appear in the document. Now, the distance between the keyword set S 1 to S n and keyword set is relative d, unordered specifies vicinity such conditions is determined as follows.
Figure 2005339150

実施の形態5における、検索処理実行部105の処理(図3のステップST303)の流れは、図9のステップST902でキーワード集合間の順序指定あり近傍等条件を判定するように構成したものと同等であるため、ここでの説明は省略する。   The flow of processing (step ST303 in FIG. 3) of the search processing execution unit 105 in the fifth embodiment is the same as that configured so as to determine conditions such as neighborhoods with order designation between keyword sets in step ST902 in FIG. Therefore, the description here is omitted.

今、一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1記載の方式では、K個のキーワード集合間の順序指定なし近傍等条件の判定に要する計算量は、O(N)となる。一方、本実施の形態の場合は、K個のキーワード間の順序指定なし近傍等条件の判定に要する計算量は、実施の形態3と同様にO(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。 Now, let N be the number of appearance positions in a document of one keyword set. In the conventional method described in Patent Document 1, the amount of calculation required for determining a condition such as a neighborhood without order designation between K keyword sets is O (N K ). On the other hand, in the case of the present embodiment, the amount of calculation required for determining the condition such as the neighborhood without order designation between the K keywords is O (K! KN) as in the third embodiment. This calculation amount is less than the conventional method if K is smaller than N.

以上のように、実施の形態5によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離に等しい順序指定なし近傍等条件としたので、従来に比べて、順序指定なし近傍等条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the fifth embodiment, when all keyword sets appear in the document, the distance between the previous and next keyword sets is specified as the vicinity condition of the determination process performed by the vicinity condition determination unit 108. Since the neighborhood condition with no order designation equal to the distance is used, the amount of calculation required to determine the condition with no order designation can be reduced compared to the conventional case, and the search time in such search processing can be shortened. it can.

実施の形態6.
実施の形態6は、キーワード集合の順序指定あり近傍外条件を判定するようにしたものである。
Embodiment 6 FIG.
In the sixth embodiment, an out-of-neighbor condition with a specified order of keyword sets is determined.

実施の形態6における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態6の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍外条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   Since the configuration of the sixth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the sixth embodiment is configured so that the proximity condition determination unit 108 of the document search apparatus according to the first embodiment can determine an out-of-proximity condition with a specified keyword set order. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定あり近傍外条件について説明する。キーワード集合の順序指定あり近傍外条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が指定された距離以上であるか否かを判定する近傍条件である。今、キーワード集合S〜Sがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。

Figure 2005339150
Here, an out-of-neighbor condition with a specified keyword set order will be described. The out-of-neighbor condition with keyword set order specification is a neighborhood condition for determining whether or not a keyword set appears in the specified order and whether the distance between the preceding and following keyword sets is equal to or greater than the specified distance. Now, keyword set S 1 to S n are as specified in this order. Further, it is assumed that the distance d between the keyword sets is designated. At this time, the condition is determined as follows.
Figure 2005339150

図12は、実施の形態6における、検索処理実行部105の処理(図3のステップST303)の流れ図である。
検索処理実行部105は、キーワード集合S〜Sとキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST1201でキーワード集合Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードkを、キーワード集合照合部107から取得する。その後は、以下の処理をiが1〜n−1について繰り返す。
FIG. 12 is a flowchart of the process (step ST303 in FIG. 3) of the search process execution unit 105 in the sixth embodiment.
Search processing execution unit 105, the keyword set S 1 to S n and the distance d between the keyword set is given, neighborhood condition judging unit 108, the first keyword set S 1, in the document to be determined in step ST1201 And the keyword k 1 at the appearance position are acquired from the keyword set collating unit 107. Thereafter, the following processing is repeated for i = 1 to n-1.

ステップST1202では、キーワード集合Si+1の判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードki+1を取得する。次に、ステップST1203で、取得したキーワード集合SとSi+1の出現位置が、順序指定あり近傍等条件に適合しているか否かを判定する。即ち、DIST(k,ki+1)≧dを満たしているか否かを判定する。 In step ST1202, the first appearance position in the determination target document of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. Next, in step ST1203, it is determined whether or not the appearance positions of the acquired keyword sets S i and S i + 1 match a condition such as neighborhood with order designation. That is, it is determined whether to satisfy DIST D (k i, k i + 1) of ≧ d.

ステップST1203で判定対象の文書に対して、条件に適合していない場合(NO)、ステップST1205でSi+1の次の出現位置を取得し、ステップST1203で取得したキーワード集合間の順序指定あり近傍外条件を判定する。ステップST1203で条件に適合していた場合(YES)、ステップST1202で次のiに対してキーワード集合Si+1の最初の出現位置と、その出現位置にあるキーワードki+1を取得する。この処理を、iが1〜n−1について繰り返し、全てのiについて順序指定あり近傍等条件に適合した場合、ステップST1204で「適合した」を出力して終了する。 If the document does not meet the condition in step ST1203 (NO), the next appearance position of S i + 1 is acquired in step ST1205, and there is an order designation between the keyword sets acquired in step ST1203. Determine the conditions. If the condition is met in step ST1203 (YES), the first appearance position of the keyword set S i + 1 for the next i and the keyword k i + 1 at the appearance position are acquired for the next i in step ST1202. This process is repeated for i ranging from 1 to n−1, and if all i satisfy the conditions such as the neighborhood with order designation, “adapted” is output in step ST1204 and the process ends.

尚、図12の処理の流れ図では省略したが、ステップST1201、ステップST1205で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍等条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。   Although not shown in the flowchart of the processing in FIG. 12, if the appearance position of the keyword set cannot be acquired in step ST1201 and step ST1205, the order is specified in the document to be judged, and the appearance conforms to the conditions such as the neighborhood. Since there is no position, it outputs “not fit” and ends.

図13は、実施の形態6の図12に示した処理の流れによる、キーワード集合の順序指定あり近傍外条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sがこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p}、S ={p,p}とする。それらの出現位置の関係は、図13の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(5)の処理は、図13中の(1)〜(5)に対応している。
FIG. 13 shows a determination path for the near-neighbor condition with keyword group order designation according to the processing flow shown in FIG. 12 of the sixth embodiment.
Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 }. The relationship between the appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (5) correspond to (1) to (5) in FIG.

(1)図12のステップST1201でSの文書D中での最初の出現位置pが取得される。次に、ステップST1202でSの文書中での最初の出現位置pを取得する。ステップST1203でこの出現位置が順序指定あり近傍外条件に適合しているか否かを判定する。図13の場合、キーワード集合Sが、Sよりも先に出現しているため、順序指定あり近傍外条件に適合していない。よって、ステップST1205に移行する。ステップST1205で、キーワード集合Sの次の出現位置p5を取得する。 (1) first occurrence p 1 in the document D in S 1 in step ST1201 of FIG. 12 is obtained. Next, to obtain the first occurrence p 4 in a document S 2 in step ST 1202. In step ST1203, it is determined whether or not the appearance position is in conformity with an out-of-neighbor condition with a specified order. In the case of FIG. 13, the keyword set S 2 appears before S 1 , so that it does not meet the out-of-neighbor condition with order designation. Therefore, the process proceeds to step ST1205. In step ST1205, acquires the next occurrence position p5 of the keyword set S 2.

(2)ステップST1203で、出現位置p、pに対して順序指定あり近傍外条件を判定する。今度は、S、S間の距離がdより小さいため、順序指定あり近傍外条件に適合していない。よって、ステップST1205に移行し、キーワード集合Sの次の出現位置pを取得する。 (2) In step ST1203, an out-of-neighbor condition with an order is determined for the appearance positions p 1 and p 5 . This time, since the distance between S 1 and S 2 is smaller than d, it is not suitable for the near-outside condition with order designation. Therefore, the process proceeds to step ST1205, acquires the next occurrence position p 6 of keyword set S 2.

(3)ステップST1203で、出現位置p、pに対して順序指定あり近傍外条件を判定する。今度は順序指定あり近傍外条件に適合しているため、ステップST1202でキーワード集合S3の文書中での最初の出現位置pを取得する。 (3) In step ST1203, an out-of-neighbor condition is specified with respect to the appearance positions p 1 and p 6 . Now because they comply with the vicinity outside the conditions there specified order, to obtain the first occurrence p 7 in a document keyword set S3 in step ST 1202.

(4)ステップST1203で、出現位置p、pに対して順序指定あり近傍外条件を判定する。キーワード集合Sが、Sよりも先に出現しているため、順序指定あり近傍外条件に適合していない。よって、ステップST1205でキーワード集合Sの次の出現位置pを取得する。 (4) In step ST1203, an out-of-neighbor condition with an order is determined for the appearance positions p 6 and p 7 . Since the keyword set S 3 appears before S 2 , it does not meet the out-of-neighbor condition with the order specified. Therefore, to get the next occurrence position p 8 of keyword set S 3 at step ST1205.

(5)ステップST1203で、出現位置p、pに対して順序指定あり近傍外条件を判定する。ここで条件に適合し、かつ全てのキーワード集合について判定したので、ステップST1206で「適合した」を出力して終了する。 (5) In step ST1203, an out-of-neighbor condition with order designation is determined for the appearance positions p 6 and p 8 . Here, since the conditions are met and all keyword sets have been determined, “matched” is output in step ST1206, and the process ends.

文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来方式の、キーワードの出現位置を総当りによって順序指定あり近傍外条件を判定するものでは、K個のキーワード集合間の順序指定あり近傍外条件の判定に要する計算量は、O((MN))となる。一方、本実施の形態の順序指定あり近傍外条件の判定の場合は、実施の形態2と同様にO(KMN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method for determining an out-of-neighbor condition with an order specification by brute force, the amount of calculation required for determining an out-of-neighbor condition with an order specification between K keyword sets is O ((MN) K ). On the other hand, in the case of determining the out-of-neighbor condition with the order designation according to the present embodiment, it is O (KMN) as in the second embodiment.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍外条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the out-of-neighbor condition with the order designation has been shown, but even if the condition is determined in order from the end to the beginning of the document, Similar effects can be obtained.

以上のように、実施の形態6によれば、近傍条件判定部108が行う判定処理の近傍条件として、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離以上である順序指定あり近傍外条件としたので、従来に比べて、順序指定あり近傍外条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the sixth embodiment, as a neighborhood condition in the judgment process performed by the neighborhood condition judgment unit 108, keyword sets appear in the designated order, and a distance between preceding and following keyword sets is designated. Therefore, it is possible to reduce the amount of calculation required for determining the out-of-neighbor condition with specified order, and to shorten the search time in such search processing. be able to.

実施の形態7.
実施の形態7は、キーワード集合の順序指定無し近傍外条件を判定するようにしたものである。
Embodiment 7 FIG.
In the seventh embodiment, an out-of-neighbor condition without specifying a keyword set order is determined.

実施の形態7における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態5の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定無し近傍外条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。   Since the configuration of the seventh embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the fifth embodiment is configured such that the neighborhood condition determination unit 108 of the document search apparatus according to the first embodiment can determine an out-of-proximity condition without specifying a keyword set order. Further, since the entire flow of the search process is the same as that shown in FIG. 3, the description thereof is omitted here.

ここで、キーワード集合の順序指定なし近傍外条件について説明する。キーワード集合の順序指定なし近傍外条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以上であるか否かを判定する近傍条件である。今、キーワード集合S〜Sとキーワード集合間の距離がdに対して、順序指定なし近傍外条件は以下のように判定される。

Figure 2005339150
Here, an out-of-neighbor condition without specifying the order of keyword sets will be described. The out-of-neighbor condition without specifying the order of keyword sets is a neighborhood condition for determining whether or not the distance between preceding and following keyword sets is greater than or equal to a specified distance when all keyword sets appear in the document. Now, the distance between the keyword set S 1 to S n and keyword set is relative d, unordered designated neighborhood outside conditions are determined as follows.
Figure 2005339150

実施の形態7における、図1の検索処理実行部105の処理(図3のステップST303)の流れは、図9のステップST902でキーワード集合間の順序指定無し近傍外条件を判定するように構成したものと同等であるため、ここでの説明は省略する。   In the seventh embodiment, the flow of the processing of the search processing execution unit 105 in FIG. 1 (step ST303 in FIG. 3) is configured to determine an out-of-order specified neighborhood condition between keyword sets in step ST902 in FIG. Since it is equivalent to a thing, description here is abbreviate | omitted.

一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1記載の方式の、キーワードの出現位置を総当りによって、順序指定無し近傍外条件を判定するものでは、K個のキーワード集合間の順序指定無し近傍外条件の判定に要する計算量は、O(N)となる。一方、本実施の形態の場合は、K個のキーワード間の順序指定無し近傍外条件の判定に要する計算量は、実施の形態3と同様にO(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。 Let N be the number of appearance positions in a document of one keyword set. In the conventional method described in Patent Document 1, in which the out-of-order unspecified out-of-order condition is determined by brute force of the keyword appearance position, the amount of calculation required for determining the out-of-order unspecified out-of-order condition between K keyword sets Becomes O (N K ). On the other hand, in the case of the present embodiment, the amount of calculation required for determining an out-of-order condition between the K keywords without specifying the order is O (K! KN) as in the third embodiment. This calculation amount is less than the conventional method if K is smaller than N.

以上のように、実施の形態7によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以上である順序指定なし近傍外条件としたので、従来に比べて、順序指定なし近傍外条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the seventh embodiment, when all the keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity condition determining unit 108. Compared to the conventional method, the calculation amount required to determine the out-of-order non-neighbor condition can be reduced and the search time in such search processing can be shortened. Can do.

実施の形態8.
実施の形態8は、キーワード集合の文脈条件を判定するようにしたものである。
Embodiment 8 FIG.
In the eighth embodiment, the context condition of the keyword set is determined.

図14は、実施の形態8の文書検索装置を示す構成図である。
図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を文脈条件判定部112に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。文脈条件判定部112は、検索処理実行部105aに設けられ、複数のキーワード集合が与えられたとき、その全てのキーワード集合が同じ文書の構成単位中に出現するか否かを判定する機能を有するものである。
FIG. 14 is a block diagram showing the document search apparatus according to the eighth embodiment.
The illustrated document search apparatus is obtained by replacing the neighborhood condition determination unit 108 of the search processing execution unit 105 shown in FIG. 1 with a context condition determination unit 112. Since the other configuration is the same as that of FIG. 1, the same reference numerals are given to corresponding portions, and description thereof is omitted. The context condition determination unit 112 is provided in the search processing execution unit 105a and has a function of determining whether or not all keyword sets appear in the same document constituent unit when a plurality of keyword sets are given. Is.

検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、文脈条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。   The entire flow in the search process is equivalent to the process of determining whether or not the neighborhood condition in step ST303 in FIG. 3 is matched with the context condition determination process, and thus description thereof is omitted here. .

ここで、キーワード集合の文脈条件について説明する。キーワード集合の文脈条件とは、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が同じ文書の構成単位中に出現するか否かを判定する条件である。ここで、文書の構成単位とは、文書中の文、段落、章、節、ページのような文書を構成する要素のことである。キーワード集合S〜Sが指定されたとする。このとき、条件は以下のように判定される。ここでは、文書Dの構成単位をcompとし、その構成単位の先頭の位置をSTR(comp)、末尾の位置をEND(comp)とする。構成単位の先頭位置、末尾位置は、それぞれ文書の先頭からの文字数で表されるとする。

Figure 2005339150
Here, the context conditions of the keyword set will be described. The context condition of the keyword set is a condition for determining whether or not all of the keyword sets appear in the structural unit of the same document when two or more keyword sets are given. Here, the structural unit of a document is an element constituting the document such as a sentence, paragraph, chapter, section, page in the document. And keyword set S 1 ~S n is specified. At this time, the condition is determined as follows. Here, the constituent unit of the document D is comp D , the head position of the constituent unit is STR D (comp D ), and the tail position is END D (comp D ). It is assumed that the head position and the tail position of the structural unit are each represented by the number of characters from the head of the document.
Figure 2005339150

図15は、実施の形態8における検索処理実行部105aの処理の流れ図である。
検索処理実行部105aは、キーワード集合S〜Sが与えられると、先ず、ステップST1501で判定対象の文書の全ての文書構成単位の先頭位置と末尾位置の情報を取得する。次に、文脈条件判定部112は、ステップST1502でキーワード集合S〜Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk〜kを、キーワード集合照合部107から取得する。
FIG. 15 is a flowchart of processing of the search processing execution unit 105a in the eighth embodiment.
Search processing execution unit 105a, given keyword set S 1 to S n, firstly, acquires information of the start position and end positions of all the document constituent units of the document to be determined in step ST1501. Next, contextual condition judgment unit 112, the keyword set S 1 to S n in step ST 1502, the first occurrence in a document determination target, the keyword k 1 to k n in its appearance position, keyword set Obtained from the verification unit 107.

ステップST1503では、取得したキーワード集合の出現位置が、文脈条件に適合しているか否かを判定する。即ち、全てのi=1〜nとある文書の構成単位comp (j=1〜m)に対して、STR(comp )≦STR(k)、END(k)≦END(comp )を満たしているか否かを判定する。ステップST1503で判定対象の文書に対して、取得したキーワード集合の出現位置が、文脈条件に適合しているならば(YES)、ステップST1507に移行し、「適合した」を出力して終了する。一方、ステップST1503で、判定対象の文書に対して、取得したキーワード集合の出現位置が、文脈条件に適合していなければ(NO)、ステップST1504で、文書中でのキーワードの末尾の出現位置が最も後ろのkが、二つ以上の文書の構成単位に跨っていないか判定する。即ち、あるjに対してSTR(k)≦END(comp )≦END(k)であるか否かを判定する。 In step ST1503, it is determined whether or not the appearance position of the acquired keyword set matches the context condition. That is, STR D (comp D j ) ≦ STR D (k i ), END D (k i ) with respect to all document constituent units comp D j (j = 1 to m) where i = 1 to n. It is determined whether or not ≦ END D (comp D j ) is satisfied. If the appearance position of the acquired keyword set conforms to the context condition for the document to be determined in step ST1503 (YES), the process proceeds to step ST1507, “conforms” is output, and the process ends. On the other hand, if the appearance position of the acquired keyword set does not match the context condition for the determination target document in step ST1503 (NO), the appearance position of the end of the keyword in the document is determined in step ST1504. rearmost k i is determined or not span construction unit of two or more documents. That is, it is determined whether STR D (k i ) ≦ END D (comp D j ) ≦ END D (k i ) for a certain j .

ステップST1504において、跨っていた場合(YES)、ステップST1505でSの次の出現位置を取得し、ステップST1506に移行する。ステップST1504で、kが二つ以上の文書の構成単位に跨っていない場合(NO)、ステップST1506に移行する。ステップST1506では、キーワードの末尾の文書中での出現位置が最も後ろのkと同じ文書の構成単位に含まれない、全てのキーワード集合の次の出現位置を取得する。ステップST1506でキーワード集合の次の出現位置を取得したら、ステップST1503に戻り、取得したキーワード集合の出現位置が文脈条件に適合するか否かを判定する。 In step ST1504, if it was over (YES), obtains the next occurrence position of S i in step ST 1505, the process proceeds to step ST1506. In Step ST1504, if k i is not across the structural unit of two or more documents (NO), there moves to step ST1506. In step ST1506, the next appearance position of all keyword sets that does not fall within the same document constituent unit as the last k i in the last document of the keyword is acquired. If the next appearance position of a keyword set is acquired by step ST1506, it will return to step ST1503 and it will be determined whether the appearance position of the acquired keyword set is suitable for context conditions.

尚、図15の処理の流れ図では省略したが、ステップST1502、ステップST1505、ステップST1506で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に文脈条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。   Although omitted in the flowchart of the processing in FIG. 15, if the appearance position of the keyword set cannot be obtained in step ST1502, step ST1505, and step ST1506, the appearance position that matches the context condition in the determination target document. Since it means that there is no, output “not fit” and exit.

また、ステップST1501で、文書の構成単位の先頭位置と末尾位置を取得するとしたが、文書の構成単位の先頭・末尾位置の情報は、文書をデータベース110に登録するときに、文書から自動的に抽出してデータベース110に記録しておいても良いし、検索時に判定対象の文書を走査して取得してくるようにしても良い。どちらの場合も、文書の構成単位が文であるときは、句点の直後の文字の位置を先頭位置、次の句点の位置を末尾位置とすることで、自動的に文書から抽出できる。文書の構成単位が段落の場合は、句点の代わりに改行文字を、構成単位の区切り文字とすればよい。   In step ST1501, the start position and the end position of the document unit are acquired. However, the information on the start and end positions of the document unit is automatically acquired from the document when the document is registered in the database 110. It may be extracted and recorded in the database 110, or a document to be determined may be scanned and acquired at the time of search. In either case, when the structural unit of the document is a sentence, it can be automatically extracted from the document by setting the position of the character immediately after the phrase as the head position and the position of the next phrase as the end position. In the case where the structural unit of the document is a paragraph, a line feed character may be used as a delimiter for the structural unit instead of a punctuation mark.

図16は、実施の形態8の図15に示した処理の流れによる、キーワード集合の文脈条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sが与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p}、S ={p,p,p}とする。それらの出現位置の関係は、図16の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は図16中の(1)〜(3)に対応している。
FIG. 16 shows a determination path for keyword context context conditions according to the processing flow shown in FIG. 15 of the eighth embodiment.
Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.

(1)図15のステップST1501で、文書Dの全ての構成単位の先頭位置と末尾位置の情報を取得する。次に、ステップST1502で、S〜Sの文書D中での最初の出現位置p、p、pが取得される。ステップST1503で、取得した出現位置が文脈条件に適合しているか否かを判定する。図16の場合、キーワード集合S、Sが、構成単位1602に、Sが構成単位1601に含まれるため、文脈条件に適合しない。よって、ステップST1504を経てステップST1506に移行する。ステップST1506では、pが文書中で最も後ろの位置にあるため、キーワード集合Sが含まれる構成単位1602に含まれていないSの次の出現位置pを取得する。 (1) In step ST1501 in FIG. 15, information on the start position and end position of all the structural units of the document D is acquired. Next, in step ST1502, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. In step ST1503, it is determined whether or not the acquired appearance position meets the context condition. In the case of FIG. 16, the keyword sets S 1 and S 3 are included in the structural unit 1602 and S 2 is included in the structural unit 1601, and thus do not meet the context condition. Therefore, the process proceeds to step ST1506 via step ST1504. At step ST1506, since p 1 is in the rearmost position in the document, to get the next occurrence position p 5 of S 2 that are not included in the constituent unit 1602 includes keyword set S 1.

(2)ステップST1503で、出現位置p、p、pに対して文脈条件の判定を実施する。今度はS、Sは構成単位1602に、Sは構成単位1604に含まれているため、文脈条件に適合しない。ステップST1506で、pが文書中で最も後ろに位置するため、構成単位1604に含まれないキーワード集合SとSの次の出現位置p、pを取得する。 (2) In step ST1503, the context condition is determined for the appearance positions p 1 , p 5 , and p 7 . This time, S 1 and S 3 are included in the structural unit 1602 and S 2 is included in the structural unit 1604, and thus do not meet the context condition. In Step ST1506, since p 5 is positioned at the rearmost in the document, to get the next occurrence position p 2, p 8 of keyword set S 1 and S 2 which are not included in the constituent unit 1604.

(3)ステップST1503で、出現位置p、p、pに対して文脈条件を判定する。今度は、S、S、Sが、同じ構成単位1604に含まれるため、文脈条件に適合する。よって、ステップST1507で「適合した」を出力して終了する。 (3) In step ST1503, context conditions are determined for the appearance positions p 2 , p 5 , and p 8 . This time, S 1 , S 2 , and S 3 are included in the same structural unit 1604, and thus satisfy the context condition. Therefore, “applicable” is output in step ST1507 and the process ends.

文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の文脈条件の判定に要する計算量は、O((MN))となる。一方、本実施の形態の文脈条件の判定の場合は、実施の形態2と同様にO(KMN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in Patent Document 1, the amount of calculation required to determine the context condition between K keyword sets is O ((MN) K ). On the other hand, in the case of the determination of the context condition of the present embodiment, it is O (KMN) as in the second embodiment.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、文脈条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   Here, the method of determining the context condition by acquiring the appearance position of the keyword set in order from the beginning of the document has been shown, but the same effect can be obtained by determining the condition in order from the end of the document toward the beginning. can get.

以上のように、実施の形態8によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、同一文書の構成単位中に出現することを示す文脈条件を満たすか否かを判定する文脈条件判定部112とを有し、キーワード集合照合部107における出現位置の取得処理と、文脈条件判定部112における文脈条件判定処理とを交互に実行し、文脈条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105aを備えたので、従来に比べて、文脈条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the eighth embodiment, the keyword set matching unit 107 that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets and the keyword set matching unit 107 are acquired. A context condition determination unit 112 that determines whether or not a plurality of keyword sets meet a context condition indicating that they appear in a constituent unit of the same document; The context condition determination unit 112 alternately executes the context condition determination process and outputs the determination result as a search result when the context condition is determined to be true. Thus, it is possible to reduce the amount of calculation required for determining the context condition, and to shorten the search time in such a search process.

実施の形態9.
実施の形態9は、キーワード集合の範囲条件を判定するようにしたものである。
Embodiment 9 FIG.
In the ninth embodiment, the range condition of the keyword set is determined.

図17は、実施の形態9の文書検索装置を示す構成図である。
図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を範囲条件判定部113に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。範囲条件判定部113は、検索処理実行部105bに設けられ、複数のキーワード集合と、一つの文書範囲が与えられたとき、その全てのキーワード集合が同じ文書範囲中に出現するか否かを判定する機能を有するものである。
FIG. 17 is a configuration diagram illustrating the document search apparatus according to the ninth embodiment.
The illustrated document search apparatus is obtained by replacing the proximity condition determination unit 108 of the search processing execution unit 105 shown in FIG. 1 with a range condition determination unit 113. Since the other configuration is the same as that of FIG. 1, the same reference numerals are given to corresponding portions, and description thereof is omitted. The range condition determination unit 113 is provided in the search processing execution unit 105b. When a plurality of keyword sets and one document range are given, the range condition determination unit 113 determines whether or not all the keyword sets appear in the same document range. It has the function to do.

検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、範囲条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。   The overall flow in the search process is the same as that obtained by replacing the determination process of whether or not the neighborhood condition in step ST303 in FIG. .

ここで、キーワード集合の範囲条件について説明する。キーワード集合の範囲条件とは、二つ以上のキーワード集合と、一つの文書範囲が与えられたとき、その全てのキーワード集合が同じ文書範囲中に出現するか否かを判定する条件である。ここで、文書範囲とは、要約、前書き、後書き、本文などのように、文書中のあるまとまりを構成する範囲のことである。キーワード集合S〜Sと文書範囲が指定されたとする。このとき、範囲条件は以下のように判定される。ここでは、文書D中の範囲をrangeとし、その文書範囲の先頭の位置をSTR(range)、末尾の位置をEND(range)とする。

Figure 2005339150
Here, the range condition of the keyword set will be described. The range condition of the keyword set is a condition for determining whether or not all keyword sets appear in the same document range when two or more keyword sets and one document range are given. Here, the document range is a range that constitutes a certain unit in the document, such as a summary, a preface, a postscript, and a body. And keyword set S 1 ~S n and document range is specified. At this time, the range condition is determined as follows. Here, it is assumed that the range in the document D is range D , the start position of the document range is STR D (range D ), and the end position is END D (range D ).
Figure 2005339150

図18は、実施の形態9における、検索処理実行部105bの処理の流れ図である。
検索処理実行部105bは、キーワード集合S〜Sと文書範囲rangeが与えられると、先ず、ステップST1801で判定対象の文書の範囲の先頭位置と末尾位置の情報を取得する。次に、範囲条件判定部113は、ステップST1802でキーワード集合S〜Sの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk〜kを、キーワード集合照合部107から取得する。ステップST1803では、取得したキーワード集合の出現位置が、範囲条件に適合しているか否かを判定する。即ち、全てのi=1〜nと文書範囲rangeに対して、STR(range)≦STR(k)、END(k)≦END(range)を満たしているか否かを判定する。
FIG. 18 is a flowchart of the process of the search process execution unit 105b in the ninth embodiment.
Search processing execution unit 105b, when the keyword set S 1 to S n and the document range range D is given, first, to acquire the information of the start position and end position of the range of the document to be determined in step ST1801. Next, the range condition determining unit 113, the keyword set S 1 to S n in step ST1802, the first occurrence in a document determination target, the keyword k 1 to k n in its appearance position, keyword set Obtained from the verification unit 107. In step ST1803, it is determined whether the appearance position of the acquired keyword set conforms to the range condition. That is, for all i = 1 to n and the document range range D , whether STR D (range D ) ≦ STR D (k i ), END D (k i ) ≦ END D (range D ) is satisfied. Determine whether.

ステップST1803で判定対象の文書に対して、取得したキーワード集合の出現位置が、範囲条件に適合しているならば(YES)、ステップST1805に移行し、「適合した」を出力して終了する。一方、ステップST1803で、判定対象の文書に対して、取得したキーワード集合の出現位置が、範囲条件に適合していなければ(NO)、ステップST1804で、範囲条件を満たしていない全てのキーワード集合の次の出現位置を取得する。ステップST1804でキーワード集合の次の出現位置を取得したら、ステップST1803で、取得したキーワード集合の出現位置が範囲条件に適合するか否かを判定する。   If the appearance position of the acquired keyword set conforms to the range condition for the document to be determined in step ST1803 (YES), the process proceeds to step ST1805, “conforms” is output, and the process ends. On the other hand, if the appearance position of the acquired keyword set does not match the range condition for the determination target document in step ST1803 (NO), in step ST1804, all keyword sets that do not satisfy the range condition are detected. Get the next occurrence position. When the next appearance position of the keyword set is acquired in step ST1804, it is determined in step ST1803 whether or not the appearance position of the acquired keyword set meets the range condition.

尚、図18の処理の流れ図では省略したが、ステップST1802、ステップST1804で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に範囲条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。また、ステップST1803でEND(range)<END(k)となるキーワードがあった場合も、「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing in FIG. 18, if the appearance position of the keyword set cannot be acquired in steps ST1802 and ST1804, there is no appearance position that meets the range condition in the document to be determined. So, output “not fit” and exit. Also, even if there is a keyword to be in step ST1803 END D (range D) < END D (k i), to terminate with a "nonconforming".

図18のステップST1801で、文書範囲の先頭位置と末尾位置を取得するとしたが、文書範囲の先頭・末尾位置の情報は、文書をデータベース110に登録するときに、文書から自動的に抽出してデータベース110に記録しておいても良いし、検索時に判定対象の文書を走査して取得してくるようにしても良い。どちらの場合も、文書範囲の抽出ルールを予め決めておく必要がある。   In step ST1801 of FIG. 18, the start position and end position of the document range are acquired, but information on the start and end positions of the document range is automatically extracted from the document when the document is registered in the database 110. It may be recorded in the database 110, or it may be obtained by scanning a document to be determined at the time of search. In either case, it is necessary to determine a document range extraction rule in advance.

図19は、実施の形態9の図18に示した処理の流れよる、キーワード集合の範囲条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sが与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p}、S ={p,p,p}とする。それらの出現位置の関係は、図19の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は、図19中の(1)〜(3)に対応しているものである。
FIG. 19 shows a determination path for keyword set range conditions according to the processing flow shown in FIG. 18 of the ninth embodiment.
Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.

(1)図18のステップST1801で、文書Dの指定された範囲の先頭位置と末尾位置の情報を取得する。次に、ステップST1802で、S〜Sの文書D中での最初の出現位置p、p、pが取得される。ステップST1803で、取得した出現位置が範囲条件に適合しているか否かを判定する。図19の場合、いずれのキーワード集合も指定された範囲に含まれないため、範囲条件に適合しない。よって、ステップST1804では、S、S、Sの次の出現位置p、p、pを取得する。 (1) In step ST1801 in FIG. 18, information on the start position and end position of the designated range of the document D is acquired. Next, in step ST1802, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. In step ST1803, it is determined whether or not the acquired appearance position meets the range condition. In the case of FIG. 19, any keyword set is not included in the specified range, and therefore does not meet the range condition. Therefore, in step ST1804, acquires the S 1, S 2, the next occurrence position of S 3 p 2, p 5, p 8.

(2)ステップST1803で、出現位置p、p、pに対して範囲条件の判定を実施する。今度はS、Sが指定された文書範囲に含まれないため、範囲条件に適合しない。ステップST1804で、SとSの次の出現位置p、pを取得する。 (2) In step ST1803, the range condition is determined for the appearance positions p 2 , p 5 , and p 8 . This time, since S 1 and S 2 are not included in the designated document range, the range condition is not met. In step ST1804, the next appearance positions p 3 and p 6 of S 1 and S 2 are acquired.

(3)ステップST1803で、出現位置p、p、pに対して文脈条件を判定する。今度は、S、S、Sが、指定された文書範囲に含まれるため、範囲条件に適合する。よって、ステップST1805で「適合した」を出力して終了する。 (3) In step ST1803, context conditions are determined for the appearance positions p 3 , p 6 , and p 8 . This time, S 1 , S 2 , and S 3 are included in the designated document range, and therefore meet the range condition. Therefore, “applicable” is output in step ST1805, and the process ends.

文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の範囲条件の判定に要する計算量は、O(MKN)となる。一方、本実施の形態の文脈条件の判定の場合は、実施の形態2と同様にO(KMN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in Patent Document 1, the amount of calculation required to determine the range condition between K keyword sets is O (M K KN). On the other hand, in the case of the determination of the context condition of the present embodiment, it is O (KMN) as in the second embodiment.

このように、実施の形態9の文書検索装置では、キーワード集合間の範囲条件を、従来の方式と比較して高速に判定することが可能である。   As described above, in the document search apparatus according to the ninth embodiment, it is possible to determine the range condition between keyword sets at a higher speed than in the conventional method.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、範囲条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the range condition has been shown, but the same effect can be obtained by determining the condition in order from the end of the document toward the beginning. can get.

以上のように、実施の形態9によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、特定の文書範囲中に出現することを示す範囲条件を満たすか否かを判定する範囲条件判定部113とを有し、キーワード集合照合部107における出現位置の取得処理と、範囲条件判定部113における範囲条件判定処理とを交互に実行し、範囲条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたので、従来に比べて、範囲条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the ninth embodiment, the keyword set matching unit 107 that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets and the keyword set matching unit 107 are acquired. A range condition determination unit 113 that determines whether or not a range condition indicating that a plurality of keyword sets appear in a specific document range is satisfied, and an appearance position acquisition process in the keyword set matching unit 107; Since it includes a search processing execution unit that alternately executes the range condition determination processing in the range condition determination unit 113 and outputs the determination result as a search result when the range condition is determined to be true, The amount of calculation required for determining the range condition can be reduced, and the search time in such a search process can be shortened.

実施の形態10.
実施の形態10は、キーワード集合の複合条件を判定するようにしたものである。
Embodiment 10 FIG.
In the tenth embodiment, a composite condition of a keyword set is determined.

図20は、実施の形態10の文書検索装置を示す構成図である。
図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を複合条件判定部114に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。複合条件判定部114は、検索処理実行部105cに設けられ、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が、上記実施の形態2〜実施の形態7のいずれかの近傍条件、実施の形態8の文脈条件、実施の形態9の範囲条件、およびそれらを論理演算で組み合わせた論理条件に適合するか否かを判定する機能を有するものである。
FIG. 20 is a configuration diagram illustrating the document search apparatus according to the tenth embodiment.
The illustrated document search apparatus is obtained by replacing the proximity condition determination unit 108 of the search processing execution unit 105 shown in FIG. Since the other configuration is the same as that of FIG. 1, the same reference numerals are given to corresponding portions, and description thereof is omitted. The composite condition determination unit 114 is provided in the search processing execution unit 105c, and when two or more keyword sets are given, all the keyword sets are in the vicinity of any one of the second to seventh embodiments. It has a function of determining whether or not a condition, a context condition of the eighth embodiment, a range condition of the ninth embodiment, and a logical condition obtained by combining them with a logical operation are satisfied.

検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、複合条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。   Since the entire flow in the search process is equivalent to the process of determining whether or not the neighborhood condition in step ST303 in FIG. 3 is adapted to the complex condition determination process, the description here is omitted. .

ここで、キーワード集合の複合条件について説明する。キーワード集合の複合条件とは、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が、近傍条件、文脈条件、範囲条件、およびそれらを論理演算(AND/OR/NOT等)で組み合わせた論理条件に適合するか否かを判定する条件である。複合条件に範囲条件の判定を含む場合は、検索条件として一つの文書範囲も与える。   Here, the compound condition of the keyword set will be described. The compound condition of a keyword set is that when two or more keyword sets are given, all of the keyword sets are neighborhood conditions, context conditions, range conditions, and logical operations (AND / OR / NOT etc.). This is a condition for determining whether or not the combined logical condition is met. When the composite condition includes determination of a range condition, a single document range is also given as a search condition.

図21は、実施の形態10における検索処理実行部105cの処理の流れ図である。
今、検索条件として、キーワード集合の順序指定あり近傍内条件と、文脈条件と、範囲条件とを論理条件ANDで結合した複合条件が与えられたとする。検索処理実行部105cは、キーワード集合と、キーワード集合間の距離と、一つの文書範囲が指定されると、キーワード集合照合部107によって、ステップST2101で、判定対象の文書の、全ての構成単位と、指定された文書範囲の先頭と末尾の位置を取得する。次に、キーワード集合照合部107は、ステップST2102で全てのキーワード集合の最初の出現位置を取得する。そして、複合条件判定部114は、ステップST2103で、取得したキーワード集合の出現位置が範囲条件に適合するか判定する。
FIG. 21 is a flowchart of processing of the search processing execution unit 105c in the tenth embodiment.
Now, it is assumed that a compound condition obtained by combining a condition within a neighborhood with a specified keyword set order, a context condition, and a range condition with a logical condition AND is provided as a search condition. When the keyword set, the distance between the keyword sets, and one document range are designated, the search processing execution unit 105c determines, in step ST2101, all the structural units of the document to be determined by the keyword set matching unit 107. , Get the start and end position of the specified document range. Next, in step ST2102, the keyword set matching unit 107 acquires the first appearance position of all keyword sets. In step ST2103, the composite condition determination unit 114 determines whether the appearance position of the acquired keyword set meets the range condition.

ステップST2103において、範囲条件に適合した場合(YES)、ステップST2104に移行し、取得したキーワード集合の出現位置が文脈条件に適合するか判定する。ステップST2104で、文脈条件に適合した場合(YES)、ステップST2105で、取得したキーワード集合の出現位置が近傍条件に適合するか判定する。ステップST2105で、近傍条件に適合した場合、ステップST2106で、「適合した」を出力して終了する。   In step ST2103, when the range condition is met (YES), the process proceeds to step ST2104, and it is determined whether the appearance position of the acquired keyword set matches the context condition. If the context condition is satisfied in step ST2104 (YES), it is determined in step ST2105 whether the appearance position of the acquired keyword set is compatible with the neighborhood condition. If it is determined in step ST2105 that the neighborhood condition is met, “matched” is output in step ST2106, and the process ends.

一方、ステップST2103、ステップST2104、ステップST2105の各条件判定で、条件に適合しなかった場合(NO)は、ステップST2107で、キーワード集合の次の出現位置を取得する。ステップST2107で、出現位置を取得するキーワード集合は、判定で適合しなかった条件によって異なる。範囲条件に適合しなかった場合は、実施の形態9に従ってキーワード集合の出現位置を取得する。文脈条件に適合しなかった場合は、実施の形態8に従ってキーワード集合の出現位置を取得する。近傍条件に適合しなかった場合は、実施の形態2乃至実施の形態7のいずれかに従ってキーワード集合の出現位置を取得する。ステップST2107で、キーワード集合の出現位置を取得したら、ステップST2103に戻って、再び範囲条件を判定する。   On the other hand, when the condition is not satisfied in each condition determination in step ST2103, step ST2104, and step ST2105 (NO), the next appearance position of the keyword set is acquired in step ST2107. In step ST2107, the keyword set from which the appearance position is acquired differs depending on conditions that are not matched in the determination. If the range condition is not met, the appearance position of the keyword set is acquired according to the ninth embodiment. If the context condition is not met, the appearance position of the keyword set is acquired according to the eighth embodiment. If the neighborhood condition is not met, the appearance position of the keyword set is acquired according to any one of the second to seventh embodiments. If the appearance position of a keyword set is acquired in step ST2107, it will return to step ST2103 and will determine a range condition again.

図21の処理の流れ図では省略したが、ステップST2102、ステップST2107で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に範囲条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。また、ステップST2103で、キーワード集合の文書中での出現位置が、文書範囲より後ろであった場合も「適合しない」を出力して終了する。   Although omitted in the flowchart of the processing of FIG. 21, when the appearance position of the keyword set cannot be acquired in steps ST2102 and ST2107, it means that there is no appearance position that satisfies the range condition in the document to be determined. , "Not fit" is output and the process ends. Also, in step ST2103, if the appearance position of the keyword set in the document is behind the document range, “not fit” is output and the process ends.

図22は、実施の形態10の図21に示した処理の流れによる、キーワード集合の複合条件の判定のパスを示したものである。
今、検索条件としてキーワード集合S、S、Sが与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S ={p,p,p}、S ={p,p,p6,}、S ={p,p,p10}とする。それらの出現位置の関係は、図22の通りであるとする。尚、これらキーワード集合S、S、Sの複合条件を満たす具体的な動作は、実施の形態9における範囲条件、実施の形態8における文脈条件、および実施の形態2〜実施の形態7のいずれかによる近傍条件の各条件を全て満たす動作であるため、ここでの説明は省略する。
FIG. 22 shows a determination path for a keyword set compound condition according to the processing flow shown in FIG. 21 of the tenth embodiment.
Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is represented by S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6, p 7 }, Let S 3 D = {p 8 , p 9 , p 10 }. The relationship between the appearance positions is as shown in FIG. Note that specific operations that satisfy the compound conditions of the keyword sets S 1 , S 2 , and S 3 are the range conditions in the ninth embodiment, the context conditions in the eighth embodiment, and the second to seventh embodiments. Since this is an operation that satisfies all the conditions of the proximity condition by any of the above, description here is omitted.

範囲条件に適合する文書中の領域は、近傍条件や文脈条件と比べて局所的である。よって、論理条件ANDで結合された複合条件は、範囲条件から判定することで、より早く条件に適合する領域を絞り込むことができる。論理条件ORで結合された複合条件の場合は、条件に適合する領域が広いものを先に判定することで、より早く判定結果を取得することができる。   The region in the document that meets the range condition is local compared to the neighborhood condition or context condition. Therefore, the complex condition combined with the logical condition AND can be narrowed down the area that matches the condition earlier by determining from the range condition. In the case of a compound condition combined with a logical condition OR, a determination result can be acquired earlier by determining a wide area that meets the condition first.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、複合条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。   Here, the method of determining the compound condition by acquiring the appearance position of the keyword set in order from the beginning of the document has been shown, but the same effect can be obtained by determining the condition in order from the end to the beginning of the document. can get.

以上のように、実施の形態10によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、所定の近傍条件、同一文書の構成単位中に出現することを示す文脈条件、特定の文書範囲中に出現することを示す範囲条件、およびこれら条件の論理条件を組み合わせた複合条件を満たすか否かを判定する複合条件判定部114とを有し、キーワード集合照合部107における出現位置の取得処理と、複合条件判定部114における複合条件判定処理とを交互に実行し、複合条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105cを備えたので、従来に比べて、複合条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。   As described above, according to the tenth embodiment, the keyword set matching unit 107 that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets and the keyword set matching unit 107 are acquired. A composite that combines a predetermined neighborhood condition, a context condition indicating that it appears in a structural unit of the same document, a range condition indicating that it appears in a specific document range, and a logical condition of these conditions A composite condition determination unit 114 that determines whether or not a condition is satisfied, and alternately performs an appearance position acquisition process in the keyword set matching unit 107 and a composite condition determination process in the composite condition determination unit 114, Since the search processing execution unit 105c that outputs the result of the determination as a search result when the condition is determined to be true is provided, compared to the conventional case, there is a more It is possible to reduce the calculation amount required for the determination of the conditions, it is possible to shorten the search time in such a search process.

実施の形態11.
実施の形態11は、上記各実施の形態1乃至10において、キーワード集合照合部107で、キーワード集合の文書中での出現位置を高速に取得するようにしたものである。
Embodiment 11 FIG.
In the eleventh embodiment, in the first to tenth embodiments, the keyword set collating unit 107 acquires the appearance position of the keyword set in the document at high speed.

実施の形態11の図面上の構成は、各実施の形態1〜11のいずれかと同様であるため、その図示およびキーワード集合照合部107以外の構成の説明は省略する。実施の形態11のキーワード集合照合部107は、キーワード集合として直前に出力した出現位置にあるキーワードの次の出現位置のみを取得し、その取得した出現位置と、他のキーワードの出現位置とを比較し、最も小さいものをキーワード集合の次の出現位置として出力するよう構成されている。   Since the configuration of the eleventh embodiment on the drawing is the same as that of any of the first to eleventh embodiments, the description of the configuration other than the illustration and the keyword set matching unit 107 is omitted. The keyword set matching unit 107 of the eleventh embodiment acquires only the next appearance position of the keyword at the appearance position output immediately before as a keyword set, and compares the acquired appearance position with the appearance position of another keyword. The smallest one is output as the next appearance position of the keyword set.

次に、実施の形態11における、キーワード集合照合部107の動作について説明する。
キーワード集合照合部107は、キーワード集合の文書中での最初の出現位置取得要求があると、キーワード集合中の全てのキーワードについて、キーワード照合部109からその最初の出現位置を取得する。キーワード照合部109は、キーワードの出現位置取得要求がある度に、キーワードの出現位置を文書の先頭から順番に一つずつ出力する。例えば、図2の例で説明すると、キーワード集合{キーワード,出現}では、“キーワード”の最初の出現位置である1と、“出現”の最初の出現位置である9を出力する。
Next, the operation of the keyword set matching unit 107 in Embodiment 11 will be described.
When there is a first appearance position acquisition request in the keyword set document, the keyword set matching unit 107 acquires the first appearance position from the keyword matching unit 109 for all keywords in the keyword set. The keyword matching unit 109 outputs the keyword appearance positions one by one in order from the top of the document each time a keyword appearance position acquisition request is made. For example, in the example of FIG. 2, in the keyword set {keyword, appearance}, 1 that is the first appearance position of “keyword” and 9 that is the first appearance position of “appearance” are output.

キーワード集合照合部107は、キーワード集合中のどのキーワードについても、その出現位置が取得できなかった場合、「ヒットしない」を出力して終了する。一方、キーワード集合中の一つ以上のキーワードについて、その出現位置が取得できたら、その得られた出現位置の中で、文書中で最も早く出現するものを出力して終了する。図2の例では、各キーワードの最初の出現位置は[1,9]であるため、1をキーワード集合の出現位置として出力する。このとき、必要に応じて、その出現位置にあるキーワードやそのキーワード長もあわせて出力するようにしても良い。そして、キーワード集合照合部107は、終了時に出力した出現位置にあるキーワード(図2の例では「キーワード」)と、全てのキーワードについて取得した出現位置の情報(図2の例では[1,9])を内部で記憶しておく。   If the appearance position of any keyword in the keyword set cannot be acquired, the keyword set matching unit 107 outputs “no hit” and ends. On the other hand, if the appearance position of one or more keywords in the keyword set can be acquired, the one that appears earliest in the document among the obtained appearance positions is output and the process ends. In the example of FIG. 2, since the first appearance position of each keyword is [1, 9], 1 is output as the appearance position of the keyword set. At this time, if necessary, the keyword at the appearance position and the keyword length may also be output. Then, the keyword set matching unit 107 outputs the keyword at the appearance position output at the end (“keyword” in the example of FIG. 2) and the information on the appearance positions acquired for all the keywords ([1, 9 in the example of FIG. 2). ]) Is stored internally.

図23は、2回目以降のキーワード集合の出現位置の取得処理の流れである。
キーワード集合照合部107は、2回目以降のキーワード集合の出現位置の取得要求があった場合、ステップST2301で、前回出力した出現位置にあるキーワードについて、キーワード照合部109から次の出現位置を取得する。ステップST2302で、そのキーワードの出現位置が取得できたか否かを判定する。
FIG. 23 is a flow of the process for acquiring the appearance position of the keyword set for the second and subsequent times.
When there is a request for obtaining the appearance position of the keyword set for the second and subsequent times, the keyword set collating unit 107 obtains the next appearance position from the keyword collating unit 109 for the keyword at the appearance position output last time in step ST2301. . In step ST2302, it is determined whether or not the appearance position of the keyword has been acquired.

ステップST2302において、取得できていた場合(YES)、ステップST2303で、ステップST2301で取得してキーワードの出現位置と、前回以前のキーワード集合照合処理で取得したキーワードの出現位置の中で、最も文書中で早く出現するものを出力する。例えば、図2の例では、前回出力した出現位置にあるキーワードは“キーワード”であるため、ステップST2302において、“キーワード”の次の出現位置である18を取得する。次に、ステップST2303において、その他のキーワードである“出現”の出現位置9とを比較し、最も小さいものとして9をキーワード集合{キーワード,出現}の次の出現位置として出力する。   In step ST2302, if it has been acquired (YES), in step ST2303, it is the most in-document among the keyword appearance position acquired in step ST2301 and the keyword appearance position acquired in the previous keyword set matching process. Output what appears earlier. For example, in the example of FIG. 2, since the keyword at the appearance position output last time is “keyword”, in step ST2302, 18 that is the next appearance position of “keyword” is acquired. Next, in step ST2303, the appearance position 9 of the other keyword “appearance” is compared, and 9 is output as the next appearance position of the keyword set {keyword, appearance} as the smallest one.

ステップST2302で、出現位置が取得できなかった場合(NO)、ステップST2304に移行する。ステップST2304では、前回以前のキーワード集合照合処理で取得したキーワードの出現位置の情報があるか否かを判定する。出現位置の情報があった場合(YES)、ステップST2303に移行する。ステップST2304で、出現位置の情報がなかった場合(NO)、ステップST2305で、「ヒットしない」を出力して終了する。例えば、図2の例では、キーワード集合の出現位置として35を出力した後、次の出現位置要求があった場合、その出現位置35にある“キーワード”の次の出現位置は取得できないため、他のキーワードである“出現”の出現位置43をキーワード集合の次の出現位置として出力する。その後は、ステップST2304において、次の出現位置の候補が存在しないため、「ヒットしない」を出力する。   If the appearance position cannot be acquired in step ST2302, the process proceeds to step ST2304. In step ST2304, it is determined whether or not there is information on the appearance position of the keyword acquired in the keyword set matching process before the previous time. If there is information on the appearance position (YES), the process proceeds to step ST2303. When there is no appearance position information in step ST2304 (NO), in step ST2305, “no hit” is output and the process ends. For example, in the example of FIG. 2, when 35 is output as the appearance position of the keyword set and the next appearance position is requested, the next appearance position of the “keyword” at the appearance position 35 cannot be acquired. Is output as the next appearance position of the keyword set. After that, in step ST2304, since there is no candidate for the next appearance position, “no hit” is output.

キーワード照合部109の処理の詳細については触れなかったが、キーワード照合部109は、キーワードの出現位置取得要求に対して、そのキーワードが文書の先頭から何文字目に出現しているかの情報を返すことができれば、どのような方式で実現しても良い。即ち、記憶装置に文字や文字列と、その文書中での出現位置の組の情報を索引として記録しておいても良いし、出現位置取得要求があったときに文書を直接走査して、キーワードの出現位置を取得しても良い。   Although the details of the processing of the keyword matching unit 109 were not mentioned, the keyword matching unit 109 returns information indicating what character the keyword appears from the top of the document in response to the keyword appearance position acquisition request. As long as it is possible, it may be realized by any method. That is, information on a set of characters and character strings and appearance positions in the document may be recorded as an index in the storage device, or the document may be directly scanned when an appearance position acquisition request is made, You may acquire the appearance position of a keyword.

以上のように、キーワード集合照合部107を構成したので、キーワード集合の出現位置取得要求がある度に、一つのキーワードについて出現位置を取得するだけで、キーワード集合の出現位置を出力することができる。このように、キーワード集合中の全てのキーワードについて、全ての出現位置を取得することなく、必要最小限のキーワード照合の実行でキーワード集合の出現位置を取得できる。   As described above, since the keyword set collating unit 107 is configured, the appearance position of the keyword set can be output only by acquiring the appearance position for one keyword each time there is a request for obtaining the appearance position of the keyword set. . Thus, the appearance position of the keyword set can be acquired by executing the minimum necessary keyword matching without acquiring all the appearance positions for all the keywords in the keyword set.

尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得する方式について示したが、実施の形態1乃至実施の形態10の条件判定の方法によっては、文書の末尾から順にキーワード集合の出現位置を取得することも可能である。その場合は、キーワード照合部109を、文書の末尾から順番に一つずつ出力するように構成する。また、ステップST2303では、キーワードの出現位置の中で、文書中で最も後ろに出現するものを出力すればよい。   Here, the method for acquiring the appearance position of the keyword set in order from the beginning of the document has been described. However, depending on the condition determination method in the first to tenth embodiments, the appearance position of the keyword set in order from the end of the document. It is also possible to obtain. In that case, the keyword matching unit 109 is configured to output one by one in order from the end of the document. In step ST2303, it is only necessary to output the most recent appearance in the document among the appearance positions of the keywords.

以上のように、実施の形態11によれば、キーワード集合照合部107を、キーワード集合として直前に出力した出現位置にあるキーワードの次の出現位置のみを取得し、その取得した出現位置と、他のキーワードの出現位置とを比較し、最も小さいものをキーワード集合の次の出現位置として出力するよう構成したので、キーワード集合の文書中での出現位置を高速に取得することができる。   As described above, according to the eleventh embodiment, the keyword set matching unit 107 acquires only the next appearance position of the keyword at the appearance position output immediately before as the keyword set, and the acquired appearance position The appearance position of the keyword set in the document can be acquired at a high speed because the smallest position is output as the next occurrence position of the keyword set.

この発明の実施の形態1による文書検索装置を示す構成図である。It is a block diagram which shows the document search device by Embodiment 1 of this invention. 文書とキーワードとの関係を示す説明図である。It is explanatory drawing which shows the relationship between a document and a keyword. 実施の形態1の文書検索装置における検索処理の流れ図である。3 is a flowchart of search processing in the document search apparatus according to the first embodiment. 実施の形態1の文書検索装置における検索処理実行部の処理の流れ図である。4 is a flowchart of processing of a search processing execution unit in the document search device according to the first embodiment. 実施の形態2における検索処理実行部の処理の流れ図である。10 is a flowchart of processing of a search processing execution unit in the second embodiment. 実施の形態2のキーワード集合の順序指定あり近傍内条件の判定のパスを示す説明図である。FIG. 10 is an explanatory diagram showing a determination path for a neighborhood condition with a specified keyword set order according to the second embodiment; 実施の形態3におけるキーワード集合が二つの場合の検索処理実行部の処理の流れ図である。14 is a flowchart of processing of a search processing execution unit when there are two keyword sets in the third embodiment. 実施の形態3の二つのキーワード集合の順序指定なし近傍内条件の判定のパスを示す説明図である。FIG. 10 is an explanatory diagram illustrating a determination path for a condition in the neighborhood without specifying the order of two keyword sets according to the third embodiment. 実施の形態3における三つ以上のキーワード集合に対する検索処理実行部の処理の流れ図である。14 is a flowchart of processing of a search processing execution unit for three or more keyword sets in the third embodiment. 実施の形態4における検索処理実行部の処理の流れ図である。15 is a flowchart of processing of a search processing execution unit in the fourth embodiment. 実施の形態4のキーワード集合の順序指定あり近傍等条件の判定のパスを示す説明図である。FIG. 20 is an explanatory diagram showing a determination path for conditions such as neighborhoods with specified keyword set order according to the fourth embodiment; 実施の形態6における検索処理実行部の処理の流れ図である。18 is a flowchart of processing of a search processing execution unit in the sixth embodiment. 実施の形態6のキーワード集合の順序指定あり近傍外条件の判定のパスを示す説明図である。FIG. 20 is an explanatory diagram illustrating a determination path for an out-of-neighbor condition with a specified order of keyword sets according to the sixth embodiment. 実施の形態8の文書検索装置を示す構成図である。FIG. 10 is a configuration diagram illustrating a document search device according to an eighth embodiment. 実施の形態8における検索処理実行部の処理の流れ図である。20 is a flowchart of processing of a search processing execution unit in the eighth embodiment. 実施の形態8のキーワード集合の文脈条件の判定のパスを示す説明図である。FIG. 20 is an explanatory diagram illustrating a determination path for a context condition of a keyword set according to an eighth embodiment. 実施の形態9の文書検索装置を示す構成図である。FIG. 20 is a configuration diagram illustrating a document search device according to a ninth embodiment. 実施の形態9における検索処理実行部の処理の流れ図である。20 is a flowchart of processing of a search processing execution unit in the ninth embodiment. 実施の形態9のキーワード集合の範囲条件の判定のパスを示す説明図である。FIG. 20 is an explanatory diagram illustrating a determination path for a keyword set range condition according to the ninth embodiment; 実施の形態10の文書検索装置を示す構成図である。FIG. 20 is a configuration diagram illustrating a document search device according to an embodiment 10; 実施の形態10における検索処理実行部の処理の流れ図である。22 is a flowchart of processing of a search processing execution unit in the tenth embodiment. 実施の形態10のキーワード集合の複合条件の判定のパスを示す説明図である。FIG. 38 is an explanatory diagram illustrating a determination path for a composite condition of a keyword set according to the tenth embodiment. 実施の形態11における2回目以降のキーワード集合の出現位置の取得処理の流れである。This is a flow of processing for acquiring the appearance position of the keyword set for the second and subsequent times in the eleventh embodiment.

符号の説明Explanation of symbols

101 検索条件、105,105a,105b,105c 検索処理実行部、107 キーワード集合照合部、108 近傍条件判定部、110 データベース、112 文脈条件判定部、113 範囲条件判定部、114 複合条件判定部。   101 Search conditions, 105, 105a, 105b, 105c Search processing execution unit, 107 Keyword set collation unit, 108 Neighborhood condition determination unit, 110 Database, 112 Context condition determination unit, 113 Range condition determination unit, 114 Compound condition determination unit

Claims (11)

複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部と、当該キーワード集合照合部で取得した複数のキーワード集合の出現位置が、所定の近傍条件を満たすか否かを判定する近傍条件判定部とを有し、
前記キーワード集合照合部における出現位置の取得処理と、前記近傍条件判定部における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。
A keyword set matching unit that obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and the appearance positions of the plurality of keyword sets obtained by the keyword set matching unit satisfy a predetermined neighborhood condition. A neighborhood condition determination unit that determines whether or not to satisfy,
A search that alternately executes an appearance position acquisition process in the keyword set matching unit and a neighborhood condition determination process in the neighborhood condition determination unit, and outputs the determination result as a search result when the neighborhood condition is determined to be true. A document search apparatus comprising a processing execution unit.
近傍条件は、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離以下である順序指定あり近傍内条件であることを特徴とする請求項1記載の文書検索装置。   The neighborhood condition is an in-neighbor condition with an order specification in which a keyword set appears in a specified order and a distance between preceding and following keyword sets is equal to or less than a specified distance. Document retrieval device. 近傍条件は、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下である順序指定なし近傍内条件であることを特徴とする請求項1記載の文書検索装置。   2. The document according to claim 1, wherein the neighborhood condition is an unordered neighborhood condition in which a distance between preceding and following keyword sets is equal to or less than a specified distance when all keyword sets appear in the document. Search device. 近傍条件は、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離に等しい順序指定あり近傍等条件であることを特徴とする請求項1記載の文書検索装置。   2. The document according to claim 1, wherein the neighborhood condition is a neighborhood condition such that a keyword set appears in a specified order and a distance between preceding and following keyword sets is equal to a specified distance. Search device. 近傍条件は、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離に等しい順序指定なし近傍等条件であることを特徴とする請求項1記載の文書検索装置。   2. The document search according to claim 1, wherein when all keyword sets appear in the document, the neighborhood condition is a condition such as an unordered neighborhood condition in which a distance between preceding and following keyword sets is equal to a specified distance. apparatus. 近傍条件は、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離以上である順序指定あり近傍外条件であることを特徴とする請求項1記載の文書検索装置。   The neighborhood condition is an out-of-neighbor condition with an order specification in which a keyword set appears in a specified order and a distance between preceding and following keyword sets is equal to or greater than a specified distance. Document retrieval device. 近傍条件は、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以上である順序指定なし近傍外条件であることを特徴とする請求項1記載の文書検索装置。   2. The document according to claim 1, wherein the neighborhood condition is an out-of-order non-neighbor condition where a distance between preceding and following keyword sets is equal to or greater than a specified distance when all keyword sets appear in the document. Search device. 複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部と、当該キーワード集合照合部で取得した複数のキーワード集合が、同一文書の構成単位中に出現することを示す文脈条件を満たすか否かを判定する文脈条件判定部とを有し、
前記キーワード集合照合部における出現位置の取得処理と、前記文脈条件判定部における文脈条件判定処理とを交互に実行し、文脈条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。
A keyword set collation unit that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set collation unit appear in a constituent unit of the same document A context condition determination unit that determines whether or not a context condition indicating that
Retrieval in which appearance position acquisition processing in the keyword set matching unit and context condition determination processing in the context condition determination unit are alternately executed, and when the context condition is determined to be true, the determination result is output as a search result A document search apparatus comprising a processing execution unit.
複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部と、当該キーワード集合照合部で取得した複数のキーワード集合が、特定の文書範囲中に出現することを示す範囲条件を満たすか否かを判定する範囲条件判定部とを有し、
前記キーワード集合照合部における出現位置の取得処理と、前記範囲条件判定部における範囲条件判定処理とを交互に実行し、範囲条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。
A keyword set matching unit that obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set matching unit appear in a specific document range. A range condition determination unit that determines whether or not a range condition indicating that,
Retrieval in which appearance position acquisition processing in the keyword set matching unit and range condition determination processing in the range condition determination unit are alternately executed, and when the range condition is determined to be true, the determination result is output as a search result A document search apparatus comprising a processing execution unit.
複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部と、当該キーワード集合照合部で取得した複数のキーワード集合が、所定の近傍条件、同一文書の構成単位中に出現することを示す文脈条件、特定の文書範囲中に出現することを示す範囲条件、およびこれら条件の論理条件を組み合わせた複合条件を満たすか否かを判定する複合条件判定部とを有し、
前記キーワード集合照合部における出現位置の取得処理と、前記複合条件判定部における複合条件判定処理とを交互に実行し、複合条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。
A keyword set matching unit that obtains appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set matching unit include a predetermined neighborhood condition, A composite condition determining unit that determines whether or not a composite condition that combines a context condition that indicates occurrence in a structural unit, a range condition that indicates that it appears in a specific document range, and a logical condition of these conditions is combined; Have
A search that alternately executes an appearance position acquisition process in the keyword set matching unit and a complex condition determination process in the complex condition determination unit, and outputs the determination result as a search result when the complex condition is determined to be true. A document search apparatus comprising a processing execution unit.
キーワード集合照合部は、キーワード集合として直前に出力した出現位置にあるキーワードの次の出現位置のみを取得し、当該取得した出現位置と、他のキーワードの出現位置とを比較し、最も小さいものを前記キーワード集合の次の出現位置として出力することを特徴とする請求項1から請求項10のうちのいずれか1項記載の文書検索装置。   The keyword set matching unit acquires only the next appearance position of the keyword at the appearance position output immediately before as a keyword set, compares the obtained appearance position with the appearance position of another keyword, and determines the smallest one. The document search apparatus according to claim 1, wherein the document search apparatus outputs the next occurrence position of the keyword set.
JP2004156399A 2004-05-26 2004-05-26 Document retrieval device Pending JP2005339150A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156399A JP2005339150A (en) 2004-05-26 2004-05-26 Document retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156399A JP2005339150A (en) 2004-05-26 2004-05-26 Document retrieval device

Publications (1)

Publication Number Publication Date
JP2005339150A true JP2005339150A (en) 2005-12-08

Family

ID=35492659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156399A Pending JP2005339150A (en) 2004-05-26 2004-05-26 Document retrieval device

Country Status (1)

Country Link
JP (1) JP2005339150A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016133817A (en) * 2015-01-15 2016-07-25 富士通株式会社 Similarity determination apparatus, similarity determination method and similarity determination program
US9747529B2 (en) 2012-03-19 2017-08-29 Mitsubishi Electric Corporation Sequence program creation device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63257030A (en) * 1987-04-15 1988-10-24 Hitachi Ltd Character string retrieving circuit
JPH04293161A (en) * 1991-03-20 1992-10-16 Hitachi Ltd Method and device for retrieving document
JP2000112953A (en) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd Literature retrieval method and its system
US20020143758A1 (en) * 2001-03-29 2002-10-03 Aref Walid G. Method for keyword proximity searching in a document database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63257030A (en) * 1987-04-15 1988-10-24 Hitachi Ltd Character string retrieving circuit
JPH04293161A (en) * 1991-03-20 1992-10-16 Hitachi Ltd Method and device for retrieving document
JP2000112953A (en) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd Literature retrieval method and its system
US20020143758A1 (en) * 2001-03-29 2002-10-03 Aref Walid G. Method for keyword proximity searching in a document database

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747529B2 (en) 2012-03-19 2017-08-29 Mitsubishi Electric Corporation Sequence program creation device
JP2016133817A (en) * 2015-01-15 2016-07-25 富士通株式会社 Similarity determination apparatus, similarity determination method and similarity determination program

Similar Documents

Publication Publication Date Title
KR100785928B1 (en) Method and system for searching photograph using multimodal
KR100309062B1 (en) A method and device for extracting characteristic string, A method and device for searching relevant documents using the above method and device, A memory media having a program for extracting characteristic string, and A memory media having a program for searching relevant documents
US20040205542A1 (en) Robust anchoring of annotations to content
US7451090B2 (en) Information processing device and information processing method
US10185748B1 (en) Combining natural language and keyword search queries for personal content collections
US8433708B2 (en) Methods and data structures for improved searchable formatted documents including citation and corpus generation
US9087118B2 (en) Information search apparatus, and information search method, and computer product
JPWO2009066501A1 (en) Information retrieval method and apparatus, program, and computer-readable recording medium
CN1629834A (en) Computer-aided write, electronic document browsing, searching and distributing
KR20080066496A (en) Method for offering result of search and system for executing the method
JP4724051B2 (en) Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof
JP4237813B2 (en) Structured document management system
KR101868936B1 (en) Keyword extracting and refining system, and method thereof
US20160328374A1 (en) Methods and Data Structures for Improved Searchable Formatted Documents including Citation and Corpus Generation
US20140280050A1 (en) Term searching based on context
JPH10289240A (en) Image processor and its control method
JP2005339150A (en) Document retrieval device
JP2012518221A (en) Document ranking determination system and method based on contribution score
KR100933269B1 (en) Search method and system using color keyword
US9916376B2 (en) Digital document keyword generation
CN1629835A (en) Method and apparatus for computer-aided writing and browsing of electronic document
JP2009037359A (en) Data registration retrieval method, data registration retrieval program, and database system
US7860704B2 (en) Lexicon-based content correlation and navigation
JP2001092831A (en) Device and method for document retrieval
JP2017068757A (en) Document display method and document display device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070405

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071015

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100622