JP2006012000A - Method, device for retrieving document, computer program and computer readable recording medium - Google Patents

Method, device for retrieving document, computer program and computer readable recording medium Download PDF

Info

Publication number
JP2006012000A
JP2006012000A JP2004190753A JP2004190753A JP2006012000A JP 2006012000 A JP2006012000 A JP 2006012000A JP 2004190753 A JP2004190753 A JP 2004190753A JP 2004190753 A JP2004190753 A JP 2004190753A JP 2006012000 A JP2006012000 A JP 2006012000A
Authority
JP
Japan
Prior art keywords
keyword
character string
search
position information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004190753A
Other languages
Japanese (ja)
Inventor
Kotetsu Koshiba
晃哲 小芝
Noriaki Hishinuma
則晃 菱沼
Fusao Kurita
房生 栗田
Hidekazu Takahashi
英一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Original Assignee
Canon Marketing Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc filed Critical Canon Marketing Japan Inc
Priority to JP2004190753A priority Critical patent/JP2006012000A/en
Publication of JP2006012000A publication Critical patent/JP2006012000A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To make character strings to be a keyword easy to be visually observed in the case of displaying a result by performing vicinity retrieval. <P>SOLUTION: When two or more combinations of a starting keyword A and a termination keyword B (combination constituting of a starting keyword A whose positional information is "11" and a termination keyword B whose positional information is "20" and combination consisting of a starting keyword A whose positional information is "15" and a termination keyword B whose positional information is "20") are made within a range of the number of characters (10 characters) between keywords, combination in which the starting keyword A and the termination keyword B are approximated most (the combination consisting of the starting keyword A whose positional information is "15" and the termination keyword B whose positional information "20") is adopted as the optimal combination 601b among the two or more combinations and the starting keyword A and the termination keyword B of the optimal combination 601b are enhanced and displayed on a screen. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書検索方法、文書検索装置、コンピュータプログラム及びコンピュータ読み取り可能な記録媒体に関し、特に、文書ファイルの検索を行うために用いて好適なものである。   The present invention relates to a document search method, a document search device, a computer program, and a computer-readable recording medium, and is particularly suitable for use in searching for a document file.

従来から、文書データベースに格納されている文書ファイルの検索を行う方法として様々なものが提案されている。例えば、特定のキーワードをインデックス化し、インデックス化したキーワードをキーとして、目的の文書の検索を高速に行う仕組みや、フルテキスト検索(全文検索)を行って文書の検索を行う仕組み等が提案されている。また、ユーザがテキスト検索の条件を指定し、そのテキスト検索の条件を文書から検索する仕組みも提案されている。   Conventionally, various methods for searching a document file stored in a document database have been proposed. For example, a mechanism for indexing a specific keyword and using the indexed keyword as a key to search for a target document at high speed, or a mechanism for searching a document by performing a full text search (full text search) has been proposed. Yes. In addition, a mechanism has been proposed in which a user specifies a text search condition and the text search condition is searched from a document.

以上のように、文書の検索を行う仕組みとして、従来から様々な手法が採られているが、近年、ユーザの意図する文書の検索を、より高速に且つ適切に行う仕組みとして、いわゆる近傍検索が実用化されている。かかる近傍検索では、まず、ユーザが、検索対象とする2つのキーワードと、その2つのキーワードの間の文字数とを文書検索装置に対して指定する。そうすると、文書検索装置は、ユーザが指定した2つのキーワードから成るキーワードの組を検索する。そして、検索したキーワードの組の中から、そのキーワードの組の間の文字数が、前記ユーザが指定した文字数以内にあるキーワードの組を抽出し、抽出したキーワードの組を他と区別することができるように強調表示する。このようにすれば、キーワード間の意味的な結びつきを加味した検索を行うことができる。   As described above, various methods have been conventionally employed as a mechanism for searching for a document. In recent years, a so-called neighborhood search is a mechanism for performing a search for a document intended by a user at a higher speed and appropriately. It has been put into practical use. In such a proximity search, first, the user designates two keywords to be searched and the number of characters between the two keywords to the document search apparatus. Then, the document search apparatus searches for a keyword set including two keywords specified by the user. Then, from the searched keyword set, a keyword set in which the number of characters between the keyword sets is within the number of characters specified by the user can be extracted, and the extracted keyword set can be distinguished from others. To highlight. In this way, it is possible to perform a search that takes into account the semantic connection between keywords.

かかる近傍検索を応用した技術として、特許文献1には、近傍検索を含む複合条件の検索を、1つのマイコンで行う場合に、文字列の照合結果(検索結果)を示す個々の照合情報を、処理すべきプログラム(近傍条件判定プログラム、文脈条件判定プログラム、論理条件判定プログラム)にのみ出力することで、処理効率を上げるようにする仕組みが開示されている。
また、特許文献2には、ユーザが指定したキーワードを強調表示することで他のテキストデータとは異なるものにしつつ、検索条件(完全一致検索、近傍検索、異表記展開検索等)に合わせて強調表示の方法を変えることで、どのキーワードがどの検索条件に該当するものであるのかをユーザが視覚的に認識できるようにする仕組みが開示されている。
As a technology applying such neighborhood search, Patent Document 1 discloses individual matching information indicating a matching result (search result) of a character string when searching for a complex condition including a neighborhood search with one microcomputer. A mechanism is disclosed that increases processing efficiency by outputting only to programs to be processed (neighboring condition determination program, context condition determination program, logical condition determination program).
Patent Document 2 emphasizes keywords specified by the user by highlighting them according to search conditions (exact match search, neighborhood search, different notation expansion search, etc.) while making them different from other text data. A mechanism is disclosed that allows a user to visually recognize which keyword corresponds to which search condition by changing the display method.

特開平6-68152号公報JP-A-6-68152 特開平10−269233号公報Japanese Patent Laid-Open No. 10-269233

しかしながら、従来の近傍検索の仕組みでは、ユーザが指定した文字数の範囲内にあるキーワードの組を全て抽出し、抽出したキーワードの組を他と区別することができるように強調表示していた。このため、ユーザが指定した文字数の範囲内に、複数のキーワードの組が存在する場合、それら複数のキーワードの組を全て強調表示してしまう。したがって、従来の技術では、キーワードの最適な組み合わせパターンをユーザが確認することが困難であるという問題点があった。   However, in the conventional neighborhood search mechanism, all keyword pairs within the range of the number of characters specified by the user are extracted and highlighted so that the extracted keyword pairs can be distinguished from others. For this reason, when there are a plurality of keyword sets within the range of the number of characters specified by the user, all of the plurality of keyword sets are highlighted. Therefore, the conventional technique has a problem that it is difficult for the user to confirm the optimum combination pattern of keywords.

また、近傍検索のためにユーザが複数のキーワードの組を検索条件として指定した場合には、表示がより一層煩雑になる。例えば、A@20B(開始キーワードAと終了キーワードBとが20文字以内に存在)と、C@5D(開始キーワードCと終了キーワードDとが5文字以内に存在)とが、検索条件としてユーザにより指定された場合、従来の技術では、その検索条件に合致する全てのキーワードの組を検索結果として画面に強調表示してしまう。このため、例えば、開始キーワードAと終了キーワードBとの間に、開始キーワードC及び終了キーワードDの両方または片方が含まれる場合のように、強調表示する必要のあるキーワードが狭い範囲に多数存在する場合には、該当するキーワードの表示色を変更したり、該当するキーワードに下線を施したりしても、注目すべき開始キーワードA及び終了キーワードBの組と、開始キーワードC及び終了キーワードDの組とをユーザが識別するのは極めて困難である。   Further, when the user designates a set of a plurality of keywords as a search condition for neighborhood search, the display becomes even more complicated. For example, A @ 20B (start keyword A and end keyword B exist within 20 characters) and C @ 5D (start keyword C and end keyword D exist within 5 characters) are set as search conditions by the user. When specified, the conventional technique highlights all keyword pairs that match the search condition on the screen as search results. For this reason, for example, there are a large number of keywords that need to be highlighted in a narrow range, such as when both or one of the start keyword C and the end keyword D is included between the start keyword A and the end keyword B. In this case, even if the display color of the corresponding keyword is changed or the corresponding keyword is underlined, the set of the start keyword A and the end keyword B to be noticed, and the set of the start keyword C and the end keyword D Is extremely difficult for the user to identify.

本発明は、前述の問題点に鑑みてなされたものであり、近傍検索した結果を表示するに際し、キーワードとなる文字列を目視し易くすることを目的とする。   The present invention has been made in view of the above-described problems, and an object of the present invention is to make it easy to visually recognize a character string as a keyword when displaying a result of neighborhood search.

本発明の文書検索方法は、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索方法であって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとを有し、前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。   The document search method of the present invention is a document search method for searching a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, and is included in the neighborhood search condition. A search step that searches the document file for a character string that matches a plurality of character strings, and whether the plurality of character strings searched by the search step are within an existence range included in the neighborhood search condition A character string extraction step for extracting a character string to be highlighted based on a result of the determination, and a display step for highlighting the character string extracted by the character string extraction step, The character string extraction step is performed when there are a plurality of character string sets including a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition. Of the set number of strings, and extracts a set of strings that is closest, as a character string to be the highlight.

本発明の文書検索装置は、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索装置であって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索手段と、前記検索手段により検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出手段と、前記文字列抽出手段により抽出された文字列が強調表示されるようにするための強調表示情報を作成する表示情報作成手段とを有し、前記文字列抽出手段は、前記近傍検索条件に含まれている存在範囲内に、前記検索手段で検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。   The document search device of the present invention is a document search device that searches a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, and is included in the neighborhood search condition. A search unit that searches the document file for a character string that matches a plurality of character strings, and whether the plurality of character strings searched by the search unit are within an existence range included in the neighborhood search condition A character string extracting unit that extracts a character string to be highlighted based on the determination result, and a highlight display for highlighting the character string extracted by the character string extracting unit Display information creating means for creating information, and the character string extracting means includes a plurality of character strings searched by the search means within the existence range included in the neighborhood search condition. Multiple pairs If the standing, of the set of the plurality of character strings, and extracts a set of strings that is closest, as a character string to be the highlight.

本発明のコンピュータプログラムは、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行うことをコンピュータに実行させるためのコンピュータプログラムであって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとをコンピュータに実行させ、前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。
本発明のコンピュータ読み取り可能な記録媒体は、前記コンピュータプログラムを記録したことを特徴とする。
A computer program of the present invention is a computer program for causing a computer to perform a search for a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, A search step for searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition, and a plurality of character strings searched by the search step are included in the neighborhood search condition. A character string extraction step for determining whether the character string is within the existing range, and extracting a character string to be highlighted based on the determined result, and a display step for highlighting the character string extracted by the character string extraction step And the character string extraction step executes the search string within the existence range included in the neighborhood search condition. When there are a plurality of character string pairs made up of a plurality of character strings searched in the pop-up, the closest character string set of the character string pairs is selected as the character string to be highlighted. It is characterized by extracting.
A computer-readable recording medium according to the present invention records the computer program.

本発明によれば、強調して表示する文字列が狭い範囲に多数存在してしまうことを可及的に防止することができる。したがって、ユーザは、注目すべき文字列を一目で識別することができるようになる。   According to the present invention, it is possible to prevent as much as possible a large number of character strings to be highlighted and displayed in a narrow range. Therefore, the user can identify a noteworthy character string at a glance.

次に、図面を参照しながら、本発明の実施の形態について説明する。
図1は、本発明の実施形態を示し、文書検索システムの概略構成の一例を示す図である。
図1において、文書検索システムは、文書検索装置101と、ネットワーク105と、クライアント端末106とを有し、文書検索装置101と、クライアント端末106とが、ネットワーク105を介して相互に通信可能に接続されて構成される。
Next, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing an example of a schematic configuration of a document search system according to an embodiment of the present invention.
1, the document search system includes a document search apparatus 101, a network 105, and a client terminal 106. The document search apparatus 101 and the client terminal 106 are connected to be able to communicate with each other via the network 105. Configured.

文書検索装置101は、文書ファイルの近傍検索を行うためのサーバである。本実施形態の文書検索装置101は、近傍検索/表示プログラム102と、文書データベース(文書DB)103と、全文インデックス104とを有している。
文書データベース103は、近傍検索の対象となる複数の文書ファイルを格納する。本実施形態において、前記文書ファイルは、SGML(standard generalized markup language)フォーマット、XML(extensible markup language)フォーマット等に基づくものである。ただし、前記文書ファイルの形式は、これらに限定されるものではないということは言うまでもない。
The document search apparatus 101 is a server for performing a neighborhood search for document files. The document search apparatus 101 according to this embodiment includes a neighborhood search / display program 102, a document database (document DB) 103, and a full-text index 104.
The document database 103 stores a plurality of document files to be subjected to proximity search. In the present embodiment, the document file is based on a standard generalized markup language (SGML) format, an extensible markup language (XML) format, or the like. However, it goes without saying that the format of the document file is not limited to these.

近傍検索/表示プログラム102は、文書データベース103に格納された文書ファイルに対して近傍検索を行い、近傍検索の結果をユーザが判別できるように、該当する文書ファイルを編集し、編集した文書ファイルに基づいて表示用文書データの作成を行うためのプログラムである。
全文インデックス104は、近傍検索の高速化を図るためのものであり、近傍検索の際にユーザにより指定されたキーワードの位置情報を格納する。
The neighborhood search / display program 102 performs neighborhood search on the document file stored in the document database 103, edits the corresponding document file so that the user can determine the result of the neighborhood search, and creates the edited document file. It is a program for creating display document data based on the above.
The full-text index 104 is for speeding up the neighborhood search, and stores the position information of the keyword designated by the user in the neighborhood search.

クライアント端末106は、ユーザが所有するコンピュータ装置であり、近傍検索条件の入力と、近傍検索結果の表示とを行うためのプログラム又はWebブラウザを搭載している。より具体的に説明すると、クライアント端末106は、CGI(Common Gateway Interface)等を用いて、ユーザによるキーボードやマウス等の操作に基づいて入力された近傍検索条件を文書検索装置101に送信する。その後、後述するようにして文書検索装置101で行われた近傍検索の結果を含む表示用文書データを、HTML形式のデータファイルとして文書検索装置101から受信してブラウザアプリケーションで表示する。
なお、ネットワーク105は、文書検索装置101とクライアント端末106とを通信可能にするものであれば、インターネットやLAN(Local Area Network)等、どのようなものであってもよい。
The client terminal 106 is a computer device owned by the user, and is equipped with a program or a Web browser for inputting neighborhood search conditions and displaying neighborhood search results. More specifically, the client terminal 106 transmits a neighborhood search condition input based on a user's operation of a keyboard, a mouse, or the like to the document search device 101 using a common gateway interface (CGI) or the like. Thereafter, display document data including the result of the proximity search performed by the document search apparatus 101 as described later is received from the document search apparatus 101 as an HTML format data file and displayed by the browser application.
The network 105 may be anything such as the Internet or a LAN (Local Area Network) as long as it enables communication between the document search apparatus 101 and the client terminal 106.

図2は、文書検索装置101のハードウェア構成の一例を示す図である。
文書検索装置101は、CPU201と、RAM202と、ROM203と、システムバス204と、入力コントローラ205と、ビデオコントローラ206と、メモリコントローラ207と、通信I/Fコントローラ208と、キーボード209と、CRT(cathode ray tube)ディスプレイ(CRT)210と、外部メモリ211とを有している。
CPU201は、システムバス204に接続されている各デバイス202、203や、コントローラ205〜208を統括的に制御する。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the document search apparatus 101.
The document search apparatus 101 includes a CPU 201, a RAM 202, a ROM 203, a system bus 204, an input controller 205, a video controller 206, a memory controller 207, a communication I / F controller 208, a keyboard 209, a CRT (cathode). ray tube) display (CRT) 210 and external memory 211.
The CPU 201 comprehensively controls the devices 202 and 203 connected to the system bus 204 and the controllers 205 to 208.

また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)や、オペレーティングシステムプログラム(OS)や、文書検索装置101の実行する機能を実現するために必要な各種プログラム等が記憶されている。   The ROM 202 or the external memory 211 has various basic functions necessary for realizing the functions executed by the BIOS (Basic Input / Output System), the operating system program (OS), and the document search device 101, which are control programs of the CPU 201. Programs and so on are stored.

RAM202は、CPU201の主メモリや、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして実行することで各種動作を実現するものである。   The RAM 202 functions as a main memory, work area, and the like for the CPU 201. The CPU 201 implements various operations by loading a program necessary for execution of processing into the RAM 202 and executing it.

また、入力コントローラ205は、キーボード209や不図示のマウス等のポインティングデバイスからの入力を制御する。ビデオコントローラ206は、CRTディスプレイ210の表示を制御する。これら入力コントローラ205及びビデオコントローラ206は、CPU201と協働して制御を行う。例えば、CPU201が、例えばRAM203内の表示情報用のメモリ領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRTディスプレイ210上での表示が可能になる。また、CRTディスプレイ210上の不図示のマウスカーソル等でのユーザ指示が可能になる。なお、CRTディスプレイ210の代わりに、表示装置として、液晶ディスプレイ等を用いても構わない。   The input controller 205 controls input from a pointing device such as a keyboard 209 or a mouse (not shown). The video controller 206 controls display on the CRT display 210. The input controller 205 and the video controller 206 perform control in cooperation with the CPU 201. For example, when the CPU 201 executes outline font rasterization processing on a display information memory area in the RAM 203, for example, display on the CRT display 210 becomes possible. In addition, a user instruction with a mouse cursor (not shown) on the CRT display 210 can be performed. In place of the CRT display 210, a liquid crystal display or the like may be used as a display device.

外部メモリ211は、ブートプログラム、ブラウザソフトウェア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する。外部メモリ211は、例えば、ハードディスク(HD)、フレキシブルディスク(FD)、又はPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等である。   The external memory 211 stores a boot program, browser software, various applications, font data, user files, editing files, various data, and the like. The external memory 211 is, for example, a hard disk (HD), a flexible disk (FD), or a compact flash (registered trademark) memory connected to a PCMCIA card slot via an adapter.

なお、本実施形態において、図1に示した近傍検索/表示プログラム102は、この外部メモリ211に記録され、必要に応じてRAM202にロードされることによりCPU201によって実行される。また、文書データベース103や全文インデックス104もこの外部メモリ211に記録されている。   In the present embodiment, the neighborhood search / display program 102 shown in FIG. 1 is recorded in the external memory 211 and loaded into the RAM 202 as necessary to be executed by the CPU 201. The document database 103 and the full text index 104 are also recorded in the external memory 211.

メモリコントローラ207は、外部メモリ211へのアクセスを制御する。通信I/Fコントローラ208は、ネットワーク105を介して、クライアント端末106等の外部機器と通信するためのものであり、ネットワーク105を介したデータの通信制御処理を実行する。通信I/Fコントローラ208は、例えば、TCP/IPを用いたインターネット通信等を実行する。
なお、クライアント端末106のハードウェアの構成も図2に示したものと同様であるので、クライアント端末106についての詳細な説明を省略する。
The memory controller 207 controls access to the external memory 211. The communication I / F controller 208 is for communicating with an external device such as the client terminal 106 via the network 105, and executes data communication control processing via the network 105. The communication I / F controller 208 executes, for example, Internet communication using TCP / IP.
Since the hardware configuration of the client terminal 106 is the same as that shown in FIG. 2, detailed description of the client terminal 106 is omitted.

ここで、本実施形態の文書検索システムで近傍検索を行う際の動作の概要について説明する。
まず、ユーザは、クライアント端末106を操作して、開始キーワード及び終了キーワードと、開始キーワード及び終了キーワードの間の文字数(以下、キーワード間文字数と略称する)とを含む近傍検索条件を指定する。そうすると、クライアント端末106は、その近傍検索条件を示す情報を文書検索装置101に送信する。
Here, an outline of an operation when performing a neighborhood search in the document search system of the present embodiment will be described.
First, the user operates the client terminal 106 to specify a neighborhood search condition including a start keyword and an end keyword, and the number of characters between the start keyword and the end keyword (hereinafter abbreviated as the number of characters between keywords). Then, the client terminal 106 transmits information indicating the vicinity search condition to the document search apparatus 101.

この近傍検索条件を含む情報を受信した文書検索装置101は、文書ファイルを検索して、ユーザが指定した開始キーワード及び終了キーワードの組み合わせの中から最適な組み合わせを導き出す。そして、文書検索装置101は、その最適な組み合わせの開始キーワード及び終了キーワードを強調表示するための表示用文書データを作成してクライアント端末106に送信する。この表示用文書データを受信したクライアント端末106は、前記表示用文書データに基づいて、前記最適な組み合わせの開始キーワード及び終了キーワードを強調表示する。   The document search apparatus 101 that has received the information including the neighborhood search condition searches the document file and derives an optimum combination from the combinations of the start keyword and end keyword specified by the user. Then, the document search apparatus 101 creates display document data for highlighting the start keyword and the end keyword of the optimal combination, and transmits the display document data to the client terminal 106. The client terminal 106 that has received the display document data highlights the start keyword and the end keyword of the optimal combination based on the display document data.

特に、本実施形態の文書検索装置101では、文書ファイルを検索した結果、ユーザが指定したキーワード間文字数の中に、開始キーワード及び終了キーワードの組み合わせが複数存在する場合、それら複数の組み合わせのうち、最も近接した組み合わせを最適な組み合わせとするようにしている。
なお、本実施形態で行う近傍検索では、近傍検索条件に該当する開始キーワード及び終了キーワードが検索された場合、その開始キーワード及び終了キーワードは、次の近傍検索条件に基づく近傍検索が行われるまでは再利用されないこととする。
In particular, in the document search apparatus 101 of the present embodiment, when there are a plurality of combinations of start keywords and end keywords in the number of characters between keywords specified by the user as a result of searching for a document file, The closest combination is set as the optimum combination.
In the neighborhood search performed in the present embodiment, when the start keyword and the end keyword corresponding to the neighborhood search condition are searched, the start keyword and the end keyword are used until the neighborhood search based on the next neighborhood search condition is performed. It will not be reused.

以下、図3、図4、及び図6のフローチャートを参照しながら、本実施形態の文書検索システムで近傍検索を行う際の動作の一例について説明する。なお、図3、図4、及び図6のフローチャートに基づく処理は、主として、文書検索装置101に格納されている近傍検索/表示プログラム102で実行される。   Hereinafter, an example of an operation when performing a neighborhood search in the document search system of this embodiment will be described with reference to the flowcharts of FIGS. 3, 4, and 6. Note that the processing based on the flowcharts of FIGS. 3, 4, and 6 is mainly executed by the neighborhood search / display program 102 stored in the document search apparatus 101.

図3は、文書検索システムで近傍検索を行う際の概略動作の一例を説明するフローチャートである。図4は、図3に続くフローチャートである。
まず、クライアント端末106の表示装置に表示された検索条件指定画面901(図5(a)を参照)を用いて、ユーザが近傍検索条件を入力すると、クライアント端末106は、その近傍検索条件を示す情報を文書検索装置101に送信する。なお、図5(a)では、開始キーワードが「A」、終了キーワードが「B」、キーワード間文字数が「10」という第1の近傍検索条件(FW=A@10B)と、開始キーワードが「C」、終了キーワードが「D」、キーワード間文字数が「6」という第2の近傍検索条件(FW=C@6D)とを含む近傍検索条件が入力された例を示している。
FIG. 3 is a flowchart for explaining an example of a schematic operation when performing a neighborhood search in the document search system. FIG. 4 is a flowchart following FIG.
First, when the user inputs a neighborhood search condition using the search condition designation screen 901 (see FIG. 5A) displayed on the display device of the client terminal 106, the client terminal 106 indicates the neighborhood search condition. Information is transmitted to the document search apparatus 101. In FIG. 5A, the first neighborhood search condition (FW = A @ 10B) in which the start keyword is “A”, the end keyword is “B”, and the number of characters between keywords is “10”, and the start keyword is “ In this example, a neighborhood search condition including a second neighborhood search condition (FW = C @ 6D) of “C”, the end keyword “D”, and the number of characters between keywords is “6” is shown.

このようにしてクライアント端末106から近傍検索条件を示す情報が送信されると、文書検索装置101のCPU201は、通信I/Fコントローラ208を介して近傍検索条件を入力し(ステップS301)、外部メモリ211等に格納されている近傍検索条件テーブル902(図5(b)を参照)に、入力した近傍検索条件を格納する(ステップS302)。なお、前述したように、近傍検索条件には、開始キーワード及び終了キーワードと、キーワード間文字数(指定距離)とが含まれている。ただし、これら以外の条件が近傍検索条件として含まれていてもよいということは言うまでもない。   When the information indicating the proximity search condition is transmitted from the client terminal 106 in this way, the CPU 201 of the document search apparatus 101 inputs the proximity search condition via the communication I / F controller 208 (step S301), and the external memory The inputted neighborhood search condition is stored in the neighborhood search condition table 902 (see FIG. 5B) stored in 211 etc. (step S302). As described above, the neighborhood search condition includes a start keyword and an end keyword, and the number of characters between keywords (specified distance). However, it goes without saying that conditions other than these may be included as neighborhood search conditions.

こうして、近傍検索条件が近傍検索条件テーブル902に格納されると、CPU201は、近傍検索条件テーブル902に格納されている近傍検索条件の1つを選択し、選択した近傍検索条件の開始キーワードと一致するキーワードが存在している位置に関する情報(以下、開始キーワード位置情報と称する)を全文インデックス104から取得して、RAM202に記憶させる(ステップS303)。なお、本実施形態では、文書ファイルの先頭から、開始キーワードの最初の文字までの文字数を開始キーワード位置情報としている。   Thus, when the neighborhood search condition is stored in the neighborhood search condition table 902, the CPU 201 selects one of the neighborhood search conditions stored in the neighborhood search condition table 902 and matches the start keyword of the selected neighborhood search condition. Information on the position where the keyword to be present (hereinafter referred to as start keyword position information) is acquired from the full-text index 104 and stored in the RAM 202 (step S303). In this embodiment, the number of characters from the beginning of the document file to the first character of the start keyword is used as start keyword position information.

図5に示した近傍検索条件の例では、図7に示すように、前記第1の近傍検索条件(A@10B)の開始キーワードAは、文書ファイルの先頭から2文字目、11文字目、15文字目、34文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報501aとしてRAM202に記憶される。また、前記第2の近傍検索条件(C@6D)の開始キーワードCは、文書ファイルの先頭から4文字目、32文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報501bとしてRAM202に記憶される。   In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, the start keyword A of the first neighborhood search condition (A @ 10B) is the second character, the eleventh character from the top of the document file, Since they are in the 15th character, the 34th character, etc., these numbers are stored in the RAM 202 in the ascending order as the start keyword position information 501a. In addition, since the start keyword C of the second neighborhood search condition (C @ 6D) is in the fourth character, the 32nd character, etc. from the top of the document file, these numbers are in ascending order as the start keyword position information 501b. Stored in the RAM 202.

そして、CPU201は、ステップS303の処理において、開始キーワードと一致するキーワードが文書ファイル内に存在していたかどうかを確認する(ステップ304)。この確認の結果、開始キーワードと一致するキーワードが文書ファイル内に存在していなかった場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定する(ステップS305)。   Then, the CPU 201 confirms whether or not a keyword matching the start keyword exists in the document file in the process of step S303 (step 304). As a result of the confirmation, if the keyword that matches the start keyword does not exist in the document file, the CPU 201 refers to the neighborhood search condition table 902 to determine whether or not there is a next neighborhood search condition (step S305).

この判定の結果、次の近傍検索条件が存在しない場合には処理を終了し、存在する場合には、当該次の近傍検索条件について、開始キーワード位置情報を取得する処理(ステップ303)を行う。   As a result of this determination, if the next neighborhood search condition does not exist, the process is terminated, and if it exists, a process of acquiring start keyword position information for the next neighborhood search condition is performed (step 303).

こうして、ステップS304において、開始キーワードと一致するキーワードが文書ファイル内に存在していたことを確認すると、CPU201は、ステップS303で選択した近傍検索条件の終了キーワードと一致するキーワードが存在している位置に関する情報(以下、終了キーワード位置情報と称する)を全文インデックス104から取得して、RAM202に記憶させる(ステップS306)。なお、本実施形態では、文書ファイルの先頭から、終了キーワードの最初の文字までの文字数を終了キーワード位置情報としている。   Thus, when it is confirmed in step S304 that a keyword that matches the start keyword exists in the document file, the CPU 201 determines that a keyword that matches the end keyword of the neighborhood search condition selected in step S303 exists. Information related to the above (hereinafter referred to as end keyword position information) is acquired from the full-text index 104 and stored in the RAM 202 (step S306). In the present embodiment, the number of characters from the beginning of the document file to the first character of the end keyword is used as end keyword position information.

図5に示した近傍検索条件の例では、図7に示すように、前記第1の近傍検索条件(A@10B)の終了キーワードBは、文書ファイルの先頭から8文字目、20文字目、40文字目等にあるので、これらの数字が昇順に、終了キーワード位置情報502aとしてRAM202に記憶される。また、前記第2の近傍検索条件(C@6D)の終了キーワードDは、文書ファイルの先頭から9文字目、12文字目、37文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報502bとしてRAM202に記憶される。   In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, the end keyword B of the first neighborhood search condition (A @ 10B) is the eighth character, the 20th character from the beginning of the document file, Since it is in the 40th character, etc., these numbers are stored in the RAM 202 as the end keyword position information 502a in ascending order. Further, since the end keyword D of the second neighborhood search condition (C @ 6D) is at the ninth character, the twelfth character, the 37th character, etc. from the top of the document file, these numbers are in ascending order in the start keyword. The position information 502b is stored in the RAM 202.

そして、CPU201は、ステップS306の処理において、終了キーワードと一致するキーワードが文書ファイル内に存在していたかどうかを確認する(ステップS307)。この確認の結果、終了キーワードと一致するキーワードが文書ファイル内に存在しなかった場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定する(ステップS308)。   In step S306, the CPU 201 confirms whether a keyword that matches the end keyword exists in the document file (step S307). As a result of the confirmation, if the keyword that matches the end keyword does not exist in the document file, the CPU 201 refers to the neighborhood search condition table 902 and determines whether or not there is a next neighborhood search condition (step S308). ).

この判定の結果、次の近傍検索条件が存在しない場合には処理を終了し、存在する場合には、当該次の近傍検索条件について、開始キーワード位置情報を取得する処理(ステップ303)を行う。
そして、CPU201は、以上のようにして、開始キーワード位置情報と、終了キーワード位置情報とが共に取得された文書ファイルについて、これら開始キーワード位置情報と終了キーワード位置情報とを、位置情報が小さい順番から昇順にマージ(統合)し、マージした位置情報(以下、マージ位置情報と称する)をRAM202に記憶させる(ステップ309)。
As a result of this determination, if the next neighborhood search condition does not exist, the process is terminated, and if it exists, a process of acquiring start keyword position information for the next neighborhood search condition is performed (step 303).
Then, the CPU 201 sets the start keyword position information and the end keyword position information in the order from the smallest position information for the document file in which the start keyword position information and the end keyword position information are acquired as described above. Merging (merging) is performed in ascending order, and the merged position information (hereinafter referred to as merge position information) is stored in the RAM 202 (step 309).

そして、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定し(ステップS310)、ある場合には、近傍検索条件テーブル902の全ての近傍検索条件について、マージ位置情報を作成するまで、ステップS303〜S310の処理を繰り返し行う。   Then, the CPU 201 refers to the neighborhood search condition table 902 to determine whether or not there is a next neighborhood search condition (step S310), and if so, for all the neighborhood search conditions in the neighborhood search condition table 902, Until the merge position information is created, the processes in steps S303 to S310 are repeated.

図5に示した近傍検索条件の例では、図7に示すように、まず、前記第1の近傍検索条件における開始キーワード位置情報501aと開始キーワード「A」とを対応付けるとともに、終了キーワード位置情報502aと終了キーワード「B」とを対応付ける。そして、開始キーワード「A」に対応付けられた開始キーワード位置情報501aと、終了キーワード「B」に対応付けられた終了キーワード位置情報502aとを、位置情報が小さい順番から昇順にマージして、マージ位置情報503を作成する。   In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, first, start keyword position information 501a and start keyword “A” in the first neighborhood search condition are associated with each other, and end keyword position information 502a. Is associated with the end keyword “B”. The start keyword position information 501a associated with the start keyword “A” and the end keyword position information 502a associated with the end keyword “B” are merged in ascending order from the smallest position information. Position information 503 is created.

また、図5に示した近傍検索条件の例では、前記第1の近傍検索条件の他に、前記第2の近傍検索条件があるので、前記第2の近傍検索条件における開始キーワード位置情報501bと開始キーワード「C」とを対応付けるとともに、終了キーワード位置情報502bと終了キーワード「D」とを対応付け、これら開始キーワード「C」に対応付けられた開始キーワード位置情報501bと、終了キーワード「D」に対応付けられた終了キーワード位置情報502bと、マージ位置情報503とを、位置情報が小さい順番から昇順にマージして、近傍検索に使用する最終的なマージ位置情報504を作成する。このように、本実施形態では、複数の近傍検索条件が存在している場合であっても、マージ位置情報を1つだけ作成するようにしている。   Further, in the example of the neighborhood search condition shown in FIG. 5, since there is the second neighborhood search condition in addition to the first neighborhood search condition, start keyword position information 501b in the second neighborhood search condition and The start keyword “C” is associated with the end keyword position information 502b and the end keyword “D”. The start keyword position information 501b associated with the start keyword “C” and the end keyword “D” are associated with each other. The associated end keyword position information 502b and merge position information 503 are merged in ascending order from the smallest position information to create final merge position information 504 used for neighborhood search. Thus, in the present embodiment, only one merge position information is created even when a plurality of neighborhood search conditions exist.

次に、CPU201は、ステップS309で作成したマージ位置情報504を用いて、マージ情報内隣接位置取得処理を行う(ステップS311)。このマージ情報内隣接位置取得処理では、まず、CPU201は、RAM202からマージ位置情報504を読み出して、開始キーワードと終了キーワードとの組みあわせが、キーワード間文字数内に複数あるかどうかを確認する。この確認の結果、開始キーワードと終了キーワードとの組み合わせが、キーワード間文字数内に複数ある場合には、これら複数の開始キーワードと終了キーワードとの組み合わせのうち、最も近接している開始キーワードと終了キーワードとの組み合わせを、近傍検索における最適な組み合わせとする。一方、開始キーワードと終了キーワードとの組み合わせが、キーワード間文字数内に1つしかない場合には、その組み合わせを近傍検索における最適な組み合わせとする。   Next, the CPU 201 performs an adjacent position acquisition process in merge information using the merge position information 504 created in step S309 (step S311). In this merge information adjacent position acquisition process, first, the CPU 201 reads the merge position information 504 from the RAM 202 and checks whether there are a plurality of combinations of start keywords and end keywords within the number of characters between keywords. As a result of this check, if there are multiple combinations of the start keyword and the end keyword within the number of characters between keywords, the closest start keyword and end keyword among the combinations of these start keywords and end keywords Is the optimal combination in the neighborhood search. On the other hand, when there is only one combination of the start keyword and the end keyword within the number of characters between keywords, the combination is determined as the optimum combination in the neighborhood search.

図5に示した前記第1の近傍検索条件(A@10B)の例では、図8に示すように、開始キーワード位置情報が「2」の開始キーワード「A」から、キーワード間文字数である「10」文字以内の位置には、終了キーワード位置情報が「8」の終了キーワード「B」が存在する。また、開始キーワード位置情報が「34」の開始キーワード「A」から「10」文字以内の位置には、終了キーワード位置情報が「40」の終了キーワード「B」が存在する。したがって、CPU201は、組み合わせ601a、601cを最適な組み合わせとし、組み合わせ601a、601c内の開始キーワード「A」の位置情報と、開始キーワード「B」の位置情報に対してフラグを設定する。   In the example of the first neighborhood search condition (A @ 10B) shown in FIG. 5, as shown in FIG. 8, the start keyword position information is the number of characters between keywords from the start keyword “A” with “2”. An end keyword “B” having end keyword position information “8” exists at a position within 10 ”characters. Further, an end keyword “B” having end keyword position information “40” exists at a position within “10” characters from the start keyword “A” having start keyword position information “34”. Therefore, the CPU 201 sets the combination 601a and 601c as an optimal combination, and sets flags for the position information of the start keyword “A” and the position information of the start keyword “B” in the combinations 601a and 601c.

これに対し、開始キーワード位置情報が「11」の開始キーワード「A」から「10」文字以内の位置には、開始キーワード位置情報が「15」の開始キーワード「A」と、終了キーワード位置情報が「20」の終了キーワード「B」とが存在する。そうすると、開始キーワード位置情報が「11」の開始キーワード「A」と、終了キーワード位置情報が「20」の終了キーワード「B」との組み合わせと、開始キーワード位置情報が「15」の開始キーワード「A」と、終了キーワード位置情報が「20」の開始キーワード「B」との組み合わせとができる。   In contrast, the start keyword “A” with the start keyword position information “15” and the end keyword position information are at positions within the “10” characters from the start keyword “A” with the start keyword position information “11”. There is an end keyword “B” of “20”. Then, a combination of the start keyword “A” whose start keyword position information is “11” and the end keyword “B” whose end keyword position information is “20”, and the start keyword “A” whose start keyword position information is “15”. ”And a start keyword“ B ”whose end keyword position information is“ 20 ”.

このように、キーワード間文字数である「10」文字以内の領域に、開始キーワード「A」と、終了キーワード「B」との組み合わせが2つあるような場合、これら全てのキーワードを強調表示すると、多数のキーワードが狭い範囲で強調表示されてしまう。そうすると、ユーザは、どのキーワードに注目すればよいのかを判断することが極めて困難になる虞がある。そこで、本実施形態では、CPU201は、これら2つの組み合わせのうち、開始キーワード「A」と、開始キーワード「B」とがより近接している組み合わせ601bを最適な組み合わせとし、組み合わせ601b内の開始キーワード「A」の位置情報と、開始キーワード「B」の位置情報に対してフラグを設定する。   As described above, when there are two combinations of the start keyword “A” and the end keyword “B” in an area within “10” characters, which is the number of characters between keywords, when all these keywords are highlighted, Many keywords are highlighted in a narrow range. Then, it may be extremely difficult for the user to determine which keyword should be focused on. Therefore, in the present embodiment, the CPU 201 sets the combination 601b in which the start keyword “A” and the start keyword “B” are closer to each other among these two combinations as the optimum combination, and the start keyword in the combination 601b. A flag is set for the position information of “A” and the position information of the start keyword “B”.

同様に、図5に示した前記第2の近傍検索条件(C@6D)の例では、図9に示すように、開始キーワード位置情報が「4」の開始キーワード「C」から「6」文字以内の位置に、終了キーワード位置情報が「9」の終了キーワード「D」が存在する。また、開始キーワード位置情報が「32」の開始キーワード「C」から「6」文字以内の位置には、終了キーワード位置情報が「37」の終了キーワード「D」が存在する。したがって、CPU201は、組み合わせ701a、701bを最適な組み合わせとし、組み合わせ701a、701b内の開始キーワード「C」の位置情報と、開始キーワード「D」の位置情報に対してフラグを設定する。   Similarly, in the example of the second neighborhood search condition (C @ 6D) shown in FIG. 5, as shown in FIG. 9, the characters “6” to “6” from the start keyword “C” where the start keyword position information is “4”. The end keyword “D” whose end keyword position information is “9” is present at the position within. Further, an end keyword “D” having end keyword position information “37” exists at a position within “6” characters from the start keyword “C” having start keyword position information “32”. Therefore, the CPU 201 sets the combination 701a, 701b as an optimal combination, and sets a flag for the position information of the start keyword “C” and the position information of the start keyword “D” in the combination 701a, 701b.

以上のようにして、近傍検索に最適な組み合わせ601a〜601c、701a、701bを抽出した後、CPU201は、文書データベース103から該当する文書ファイルの表示用文書データを取得する(ステップS312)。
次に、CPU201は、ステップS311の処理でフラグが設定された位置情報を取得し、表示用文書データを編集する(ステップS313)。具体的に説明すると、CPU201は、最適な組み合わせ601a〜601c、701a、701bとして抽出された開始キーワードと終了キーワードとの間にある文字の背景がグレーで表示されるように、表示用文書データを編集する。
As described above, after extracting the combinations 601a to 601c, 701a, and 701b optimum for the neighborhood search, the CPU 201 acquires the document data for display of the corresponding document file from the document database 103 (step S312).
Next, the CPU 201 acquires the position information for which the flag is set in the process of step S311 and edits the display document data (step S313). Specifically, the CPU 201 displays the document data for display so that the background of characters between the start keyword and the end keyword extracted as the optimal combinations 601a to 601c, 701a, and 701b is displayed in gray. To edit.

次に、CPU201は、最適な組み合わせ601a〜601c、701a、701bとして抽出された開始キーワードと終了キーワードとが白抜き文字となるように、表示用文書データを編集する(ステップS314)。   Next, the CPU 201 edits the display document data so that the start keyword and the end keyword extracted as the optimal combinations 601a to 601c, 701a, and 701b are white characters (step S314).

最後に、CPU201は、ステップS313、S314で編集した表示用文書データを、通信I/Fコントローラ208を介してクライアント端末106に送信する。この表示用文書データを受信したクライアント端末106は、その表示用文書データに基づいて、前記最適な組み合わせとして抽出された開始キーワードと終了キーワードとが強調されるように文書を表示装置に表示する。なお、以上のようにして行う文書の強調表示の詳細については、図10を用いて後述する。   Finally, the CPU 201 transmits the display document data edited in steps S313 and S314 to the client terminal 106 via the communication I / F controller 208. The client terminal 106 that has received the display document data displays the document on the display device so that the start keyword and the end keyword extracted as the optimum combination are emphasized based on the display document data. Details of document highlighting performed as described above will be described later with reference to FIG.

ここで、図6のフローチャートを参照しながら、図4のステップS311におけるマージ情報内隣接位置取得処理の詳細について説明する。
まず、CPU201は、近傍検索条件テーブル902に格納されている近傍検索条件を1つ取得する(ステップS401)。そして、CPU201は、図3のステップS309で作成されたマージ位置情報504の先頭に検索ポインタをセットし(ステップS402)、その検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている開始キーワードと一致するかどうかを判定する(ステップS403)。
Details of the merge information adjacent position acquisition processing in step S311 of FIG. 4 will be described with reference to the flowchart of FIG.
First, the CPU 201 acquires one neighborhood search condition stored in the neighborhood search condition table 902 (step S401). Then, the CPU 201 sets a search pointer at the head of the merge position information 504 created in step S309 in FIG. 3 (step S402), and the keyword indicated by the search pointer satisfies the neighborhood search condition acquired in step S401. It is determined whether or not the start keyword is included (step S403).

この判定の結果、これらのキーワードが不一致の場合、CPU201は、検索ポインタの位置を次のキーワードに移動させ(ステップS404)、検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定する(ステップS405)。この判定の結果、検索ポインタの位置がマージ位置情報504の最後である場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定する(ステップS416)。この判定の結果、次の近傍検索条件が存在する場合には、検索ポインタをマージ位置情報504の先頭に戻し、次の近傍検索条件を取得する(ステップS401)。   If these keywords do not match as a result of the determination, the CPU 201 moves the position of the search pointer to the next keyword (step S404), and determines whether the position of the search pointer is the last of the merge position information 504. (Step S405). If the result of this determination is that the position of the search pointer is the last of the merge position information 504, the CPU 201 refers to the neighborhood search condition table 902 to determine whether or not the next neighborhood search condition exists (step S416). . If the result of this determination is that the next neighborhood search condition exists, the search pointer is returned to the beginning of the merge position information 504, and the next neighborhood search condition is acquired (step S401).

前記ステップS403において、検索ポインタが示しているキーワードが、ステップS401で取得した開始キーワードと一致する場合、CPU201は、その検索ポインタの位置情報を開始キーワード位置情報としてRAM202に記憶させた後(ステップS406)、その検索ポインタを次のキーワードに移動させる(ステップS407)。このとき、CPU201は、検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定し(ステップS408)、検索ポインタの位置がマージ位置情報504の最後である場合、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定する(ステップS416)。   In step S403, when the keyword indicated by the search pointer matches the start keyword acquired in step S401, the CPU 201 stores the position information of the search pointer in the RAM 202 as start keyword position information (step S406). ), The search pointer is moved to the next keyword (step S407). At this time, the CPU 201 determines whether or not the position of the search pointer is the last of the merge position information 504 (step S408), and if the position of the search pointer is the last of the merge position information 504, the neighborhood search condition table 902 is stored. With reference to this, it is determined whether or not the next neighborhood search condition exists (step S416).

一方、ステップS408の判定において、検索ポインタの位置がマージ位置情報504の最後でない場合、CPU201は、検索ポインタが示しているキーワードが、ステップS401で取得した開始キーワードと一致するかどうかを判定する(ステップS409)。この判定の結果、これらのキーワードが一致する場合、CPU201は、RAM202の記録内容を書き換えて、検索ポインタの位置情報を更新する(ステップS406)。   On the other hand, if it is determined in step S408 that the position of the search pointer is not the end of the merge position information 504, the CPU 201 determines whether or not the keyword indicated by the search pointer matches the start keyword acquired in step S401 ( Step S409). As a result of this determination, if these keywords match, the CPU 201 rewrites the recorded contents of the RAM 202 and updates the position information of the search pointer (step S406).

一方、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている開始キーワードと一致しない場合、CPU201は、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている終了キーワードと一致するかどうかを判定する(ステップS410)。この判定の結果、これらのキーワードが一致しない場合、CPU201は、検索ポインタを次のキーワードに移動させる(ステップS407)。   On the other hand, if the keyword indicated by the search pointer does not match the start keyword included in the neighborhood search condition acquired in step S401, the CPU 201 determines that the keyword indicated by the search pointer is the neighborhood search acquired in step S401. It is determined whether or not the end keyword included in the condition matches (step S410). If these keywords do not match as a result of this determination, the CPU 201 moves the search pointer to the next keyword (step S407).

一方、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている終了キーワードと一致する場合、CPU201は、現在の検索ポインタの位置情報を終了キーワード位置情報としてRAM202に記憶させる(ステップS411)。   On the other hand, when the keyword indicated by the search pointer matches the end keyword included in the neighborhood search condition acquired in step S401, the CPU 201 stores the current search pointer position information in the RAM 202 as end keyword position information. (Step S411).

図8に示した例では、例えば、マージ位置情報504の先頭に、開始キーワード情報が「2」の開始キーワードAがあるので、その開始キーワード位置情報(「2」)をRAM202に記憶させる(ステップS406)。そして、開始キーワードA又は終了キーワードBが見つかるまでマージ位置情報504を順次チェックする。そうすると、次に見つかるキーワードは、終了キーワード位置情報が「8」の終了キーワードBであるので、この終了キーワード位置情報(「8」)をRAM202に記憶させる(ステップS411)。   In the example shown in FIG. 8, for example, since there is a start keyword A whose start keyword information is “2” at the beginning of the merge position information 504, the start keyword position information (“2”) is stored in the RAM 202 (step S406). Then, the merge position information 504 is sequentially checked until the start keyword A or the end keyword B is found. Then, since the next keyword to be found is the end keyword B whose end keyword position information is “8”, the end keyword position information (“8”) is stored in the RAM 202 (step S411).

以上のように、ステップS406で開始キーワード位置情報が記憶され、且つステップS411で終了キーワード位置情報が記憶されると、CPU201は、それら開始キーワード位置情報と、終了キーワード位置情報との間の距離(文字数)を求め、求めた距離(文字数)が、ステップS401で取得した近傍検索条件に含まれているキーワード間文字数以下であるか否かを判定する(ステップS412)。   As described above, when the start keyword position information is stored in step S406 and the end keyword position information is stored in step S411, the CPU 201 determines the distance between the start keyword position information and the end keyword position information ( The number of characters is determined, and it is determined whether the determined distance (number of characters) is equal to or less than the number of characters between keywords included in the neighborhood search condition acquired in step S401 (step S412).

先に示した例では、開始キーワード位置情報「2」と、終了キーワード位置情報が「8」との間の距離(文字数)は「6」であり、キーワード間文字数である「10」以下である。よって、開始キーワード位置情報が「2」の開始キーワードAと、終了キーワード位置情報が「8」の終了キーワードBとが最適な組み合わせとなる。   In the example shown above, the distance (number of characters) between the start keyword position information “2” and the end keyword position information “8” is “6”, which is equal to or less than “10” which is the number of characters between keywords. . Therefore, the start keyword A whose start keyword position information is “2” and the end keyword B whose end keyword position information is “8” are an optimal combination.

このようにして行われるステップS412の判定の結果、開始キーワード位置情報と、終了キーワード位置情報との間の距離が、キーワード間文字数以下である場合、CPU201は、ステップS406で記憶した開始キーワード位置情報と、ステップS411で記憶した終了キーワード位置情報とを識別することができるように、マージ位置情報504にマーキングを行う(ステップS413)。   When the distance between the start keyword position information and the end keyword position information is equal to or less than the number of characters between keywords as a result of the determination in step S412, the CPU 201 stores the start keyword position information stored in step S406. Then, the merge position information 504 is marked so that the end keyword position information stored in step S411 can be identified (step S413).

そして、検索ポインタの位置を次のキーワードに移動させ、移動させた検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定する(ステップS415)。この判定の結果、移動させた検索ポインタの位置がマージ位置情報504の最後でない場合には、検索ポインタの位置がマージ位置情報504の最後になるまで、ステップS403〜S415の処理を繰り返し行う。   Then, the position of the search pointer is moved to the next keyword, and it is determined whether or not the position of the moved search pointer is the last of the merge position information 504 (step S415). If the result of this determination is that the position of the moved search pointer is not the end of the merge position information 504, the processing of steps S403 to S415 is repeated until the position of the search pointer reaches the end of the merge position information 504.

先に示した図8の例では、終了キーワード位置情報が「8」の終了キーワードBは、マージ位置情報504の最後のキーワードではないので、次のキーワードのチェックを行うことになる。そして、終了キーワード位置情報が「8」の終了キーワードBの次に見つかるのは、開始キーワード位置情報が「11」の開始キーワードAであるので、その開始キーワード位置情報(「11」)をRAM202に記憶させる(ステップS406)。   In the example of FIG. 8 shown above, the end keyword B whose end keyword position information is “8” is not the last keyword of the merge position information 504, so the next keyword is checked. Since the start keyword A whose start keyword position information is “11” is found next to the end keyword B whose end keyword position information is “8”, the start keyword position information (“11”) is stored in the RAM 202. Store (step S406).

そして、開始キーワードA又は終了キーワードBが見つかるまでマージ位置情報504を順次チェックする。そうすると、次に見つかるキーワードは、開始キーワード位置情報が「15」の開始キーワードAであるので、RAM202に記憶されている開始キーワード位置情報を「11」から「15」に書き換える(ステップS409のYes〜ステップS406)。その後、同様にしてマージ位置情報504のチェックを再開すると、次に見つかるキーワードは、終了キーワード位置情報が「20」の終了キーワードBであるので、この終了キーワード位置情報(「20」)をRAM202に記憶させる(ステップS411)。これら記憶させた開始キーワードAの開始キーワード位置情報「15」と、終了キーワードBの終了キーワード位置情報「20」との間の距離は「5」であり、キーワード間文字数である「10」以下である。よって、開始キーワード位置情報が「15」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとが最適な組み合わせとなる。   Then, the merge position information 504 is sequentially checked until the start keyword A or the end keyword B is found. Then, since the next keyword to be found is the start keyword A whose start keyword position information is “15”, the start keyword position information stored in the RAM 202 is rewritten from “11” to “15” (Yes in step S409). Step S406). Thereafter, when the check of the merge position information 504 is resumed in the same manner, the next keyword to be found is the end keyword B whose end keyword position information is “20”, so this end keyword position information (“20”) is stored in the RAM 202. Store (step S411). The distance between the stored start keyword position information “15” of the start keyword A and the end keyword position information “20” of the end keyword B is “5”, and the number of characters between keywords is “10” or less. is there. Therefore, the start keyword A whose start keyword position information is “15” and the end keyword B whose end keyword position information is “20” are an optimal combination.

このように、本実施形態では、例えば、近傍検索条件に含まれているキーワード間文字数「10」の範囲内に、開始キーワードAと終了キーワードBとの組が複数存在する場合(開始キーワード位置情報が「11」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとの組み合わせ、及び開始キーワード位置情報が「15」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとの組み合わせ)、これら複数の組み合わせのうちより近接している組み合わせを最適な組み合わせとしている。   Thus, in the present embodiment, for example, when there are a plurality of sets of the start keyword A and the end keyword B within the range of the inter-keyword character count “10” included in the neighborhood search condition (start keyword position information) A combination of a start keyword A with "11" and an end keyword B with end keyword position information "20", a start keyword A with start keyword position information "15", and an end keyword position information "20" Combinations with the end keyword B), and combinations that are closer to each other among these combinations are set as the optimum combinations.

一方、前記ステップS415において、移動させた検索ポインタの位置がマージ位置情報504の最後である場合には、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定し(ステップS416)、全ての近傍検索条件について処理を行うまで、ステップS401〜416の処理を行う。こうして、全ての近傍検索条件について処理を終えると、図4のステップS312に進む(リターンする)。   On the other hand, if the position of the moved search pointer is the last of the merge position information 504 in step S415, the CPU 201 refers to the neighborhood search condition table 902 to determine whether or not the next neighborhood search condition exists. (Step S416), and the processing of steps S401 to 416 is performed until processing is performed for all the neighborhood search conditions. In this way, when all the neighborhood search conditions have been processed, the process proceeds to step S312 in FIG. 4 (returns).

次に、以上のようにして文書検索装置101で行われた近傍検索の結果を、クライアント端末106の表示装置に表示する方法の一例を説明する。図10は、近傍検索の結果が反映された文書の表示画面の一例を示す図である。具体的に、近傍検索条件が「接続@10手段」と、「サイト@40通信」である場合の表示画面を示している。
表示画面800の領域801では、開始キーワードである「接続」と終了キーワードである「手段」とが白抜き文字で表示され、それら「接続」と「手段」との間にある文字の背景をグレーで表示している。また、領域803では、開始キーワードである「サイト」と終了キーワードである「通信」とが白抜き文字で表示され、それら「サイト」と「通信」との間にある文字の背景をグレーで表示している。
Next, an example of a method for displaying the result of the proximity search performed by the document search apparatus 101 as described above on the display device of the client terminal 106 will be described. FIG. 10 is a diagram showing an example of a document display screen in which the result of the neighborhood search is reflected. Specifically, the display screen when the neighborhood search condition is “connection @ 10 means” and “site @ 40 communication” is shown.
In the area 801 of the display screen 800, the start keyword “connection” and the end keyword “means” are displayed as white characters, and the background of the characters between these “connection” and “means” is grayed out. Is displayed. In the area 803, the start keyword “site” and the end keyword “communication” are displayed in white characters, and the background of the characters between the “site” and “communication” is displayed in gray. is doing.

このような表示の実現方法としては、最適な組み合わせとされた開始キーワードの位置情報と、終了キーワードの位置情報と、それら開始キーワード及び終了キーワード間の文字数(キーワード間文字数)とを、近傍検索条件毎にマージ位置情報504から取得する。そして、これら取得した情報に基づいて、最適な組み合わせの中に、他の最適な組み合わせがあるかどうかを判定する。そして、その判定した結果に応じて、以下のようにして表示画面800の表示を制御する。   As a method of realizing such a display, the position information of the start keyword that is the optimum combination, the position information of the end keyword, and the number of characters between the start keyword and the end keyword (the number of characters between keywords) Each time it is acquired from the merge position information 504. Then, based on the acquired information, it is determined whether there is another optimum combination among the optimum combinations. Then, display of the display screen 800 is controlled as follows according to the determined result.

図10に示す表示画面800において、領域801、802には、最適な組み合わせが1つしか存在しない。この場合には、前記取得した開始キーワードの位置情報からその開始キーワードの文字数分だけ後の位置を第1の色指定開始ポイントとする。また、最適な組み合わせとされた終了キーワードの位置情報をマージ位置情報504から取得し、その終了キーワードの位置情報より1文字前の位置を第1の色指定終了ポイントとする。そして、第1の色指定開始ポイントから第1の色指定終了ポイントまでの範囲の背景をグレーで表示する。   In the display screen 800 shown in FIG. 10, there is only one optimum combination in the areas 801 and 802. In this case, the position after the acquired start keyword position information by the number of characters of the start keyword is set as the first color designation start point. Also, the position information of the end keyword that is the optimal combination is acquired from the merge position information 504, and the position one character before the position information of the end keyword is set as the first color designation end point. Then, the background in the range from the first color designation start point to the first color designation end point is displayed in gray.

さらに、前記取得した開始キーワードの位置情報を第2の色指定開始ポイントとする。また、開始キーワードの位置情報から、その開始キーワードの文字数に1を減算した文字数だけ後の位置を第2の色指定終了ポイントとする。そして、第2の色指定開始ポイントから第2の色指定終了ポイントまでの範囲の文字を白抜きで表示する。   Further, the position information of the acquired start keyword is set as a second color designation start point. Further, the position after the number of characters obtained by subtracting 1 from the number of characters of the start keyword from the position information of the start keyword is set as the second color designation end point. Then, characters in the range from the second color designation start point to the second color designation end point are displayed in white.

これに対し、表示画面800の領域802では、「サイト」と「通信」との組み合わせの間に「接続」と「手段」との組み合わせが存在している。この場合、まず、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については色指定の対象から除外し、外側に位置する「サイト」と「通信」との組み合わせについて、前述したようにして、「サイト」と「通信」との間にある文字の背景をグレーで表示にするとともに、「サイト」と「通信」とを白抜きで表示にする。その後、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)とを、前述したようにして白抜きで表示するとともに、内側に位置する開始キーワード(「接続」)から終了キーワード(「手段」)までの文字の背景を通常の背景色に戻す。   On the other hand, in the area 802 of the display screen 800, a combination of “connection” and “means” exists between the combination of “site” and “communication”. In this case, first, the start keyword (“connection”) and the end keyword (“means”) located inside are excluded from the target of color designation, and the combination of “site” and “communication” located outside is As described above, the background of characters between “site” and “communication” is displayed in gray, and “site” and “communication” are displayed in white. After that, the start keyword (“connection”) and the end keyword (“means”) located inside are displayed in white as described above, and the start keyword (“connection”) located inside is the end keyword. The background of the characters up to ("means") is returned to the normal background color.

尚、開始キーワード及び終了キーワードを強調表示する方法は、図10に示した方法に限定されない。例えば、開始キーワードと終了キーワードとの間にある文字の背景色だけでなく、開始キーワード及び終了キーワードの背景色もグレーで表示するようにしてもよい。
また、開始キーワード及び終了キーワードの組み合わせ毎に、表示方法を異ならせるようにしてもよい。具体的に説明すると、例えば、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については、赤色で表示し、外側に位置する開始キーワード(「サイト」)と終了キーワード(「通信」)との組み合わせについては、青色で表示するようにする。
The method for highlighting the start keyword and the end keyword is not limited to the method shown in FIG. For example, not only the background color of the character between the start keyword and the end keyword, but also the background color of the start keyword and the end keyword may be displayed in gray.
Also, the display method may be different for each combination of the start keyword and the end keyword. Specifically, for example, the start keyword (“connection”) and the end keyword (“means”) located inside are displayed in red, and the start keyword (“site”) and end keyword (“site”) located outside ( The combination with “communication”) is displayed in blue.

また、視認性をより向上させるために、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については色指定の対象から除外したままとし、外側に位置する「サイト」と「通信」との組み合わせについてのみ強調表示するようにしてもよい。さらに、外側に位置する開始キーワード(「サイト」)と終了キーワード(「通信」)との組み合わせを色指定の対象から除外し、内側に位置する「接続」と「手段」との組み合わせについてのみ強調表示するようにしてもよい。つまり、複数の近傍検索条件がある場合には、近傍検索による検索結果の表示領域が領域802のように包含関係になることがあり、このような場合の強調表示では、外側に存在する「サイト」と「通信」による表示と、内側に存在する「接続」と「手段」による表示とを異ならしめるように表示制御することで、より視認性を上げることができる。   In addition, in order to improve the visibility, the start keyword (“connection”) and the end keyword (“means”) located inside are kept excluded from the color designation, and the “site” located outside is designated as “site”. Only the combination with “communication” may be highlighted. Furthermore, the combination of the start keyword (“site”) and the end keyword (“communication”) located outside is excluded from the color specification target, and only the combination of “connection” and “means” located inside is emphasized. You may make it display. In other words, when there are a plurality of neighborhood search conditions, the display area of the search result by the neighborhood search may be inclusive as in the area 802. Visibility can be further improved by controlling the display so that the display by “communication” is different from the display by “connection” and “means” existing inside.

以上のように本実施形態では、キーワード間文字数の範囲内に、開始キーワードと、終了キーワードとの組み合わせが2つ以上ある場合には、それら2つ以上の開始キーワードと、終了キーワードとの組み合わせのうち、開始キーワードと、終了キーワードとが最も近接している組み合わせを最適な組み合わせとし、その最適な組み合わせの開始キーワード及び終了キーワードを表示画面800に強調して表示するようにしたので、強調して表示されたキーワードが狭い範囲に多数存在してしまうことを可及的に防止することができる。これにより、ユーザは、結びつきが強い(注目すべき)キーワードを、一目で識別することができるようになる。したがって、本実施形態の文書検索システムを利用すれば、例えば、特許出願を行うに際しての先行技術調査や、権利調査の精度と効率とを可及的に高めることが可能となる。   As described above, in the present embodiment, when there are two or more combinations of the start keyword and the end keyword within the range of the number of characters between keywords, the combination of the two or more start keywords and the end keyword Among them, the combination in which the start keyword and the end keyword are closest to each other is regarded as the optimum combination, and the start keyword and the end keyword of the optimum combination are highlighted on the display screen 800. It is possible to prevent the displayed keywords from existing in a narrow range as much as possible. As a result, the user can identify at a glance keywords that are strongly linked (noticeable). Therefore, by using the document search system of the present embodiment, for example, it is possible to improve the accuracy and efficiency of prior art searches and rights searches when filing patent applications as much as possible.

また、複数の近傍検索条件に基づいて検索された開始キーワード及び終了キーワードについて、1つのマージ位置情報504を作成し、その作成したマージ位置情報504を用いて、開始キーワード及び終了キーワードの最適な組み合わせを抽出するようにしたので、近傍検索条件毎にマージ位置情報を作成する場合よりも、開始キーワード及び終了キーワードの最適な組み合わせを、より高速に抽出することができ、領域802のように2つの近傍検索条件の表示対象が包含関係になっている場合でも視認に適した表示を行うためのデータ管理と表示制御が容易に行えるようになる。   Also, one merge position information 504 is created for the start keyword and end keyword searched based on a plurality of neighborhood search conditions, and the optimum combination of the start keyword and end keyword is created using the created merge position information 504. Therefore, the optimal combination of the start keyword and the end keyword can be extracted at a higher speed than when the merge position information is created for each neighborhood search condition. Even when the display target of the neighborhood search condition is in an inclusive relationship, data management and display control for performing display suitable for visual recognition can be easily performed.

尚、本実施形態では、図1に示すように、文書検索装置101及びクライアント端末106を1つずつ設けるようにしたが、これら文書検索装置101及びクライアント端末106の少なくとも何れか一方を、複数設けて文書検索システムを構成するようにしてもよい。   In this embodiment, as shown in FIG. 1, one document search apparatus 101 and one client terminal 106 are provided. However, a plurality of at least one of the document search apparatus 101 and client terminal 106 are provided. Thus, a document search system may be configured.

また、本実施形態では、文書データベース103及び全文インデックス104を文書検索装置101に格納するようにしたが、文書データベース103及び全文インデックス104を、文書検索装置101と通信することが可能な他の装置(サーバ)に格納するようにしてもよい。
さらに、本実施形態では、キーワード間文字数を近傍検索条件としたが、開始キーワード及び終了キーワードが存在している範囲を示す情報であれば、必ずしもキーワード間文字数を近傍検索条件としなくてもよい。
また、本実施形態では、文書を順方向に近傍検索する場合を例に挙げて説明したが、前記順方向とは逆の方向に文書を近傍検索するようにしてもよい。
In the present embodiment, the document database 103 and the full-text index 104 are stored in the document search apparatus 101, but other apparatuses that can communicate with the document search apparatus 101 can store the document database 103 and the full-text index 104. You may make it store in (server).
Furthermore, in this embodiment, the number of characters between keywords is used as the neighborhood search condition. However, the number of characters between keywords may not necessarily be used as the neighborhood search condition as long as the information indicates a range where the start keyword and the end keyword exist.
In the present embodiment, the case where a document is searched for in the vicinity in the forward direction has been described as an example. However, the document may be searched in the vicinity in the direction opposite to the forward direction.

(本発明の他の実施形態)
上述した実施形態の機能を実現するべく各種のデバイスを動作させるように、該各種デバイスと接続された装置あるいはシステム内のコンピュータに対し、前記実施形態の機能を実現するためのソフトウェアのプログラムコードを供給し、そのシステムあるいは装置のコンピュータ(CPUあるいはMPU)に格納されたプログラムに従って前記各種デバイスを動作させることによって実施したものも、本発明の範疇に含まれる。
(Other embodiments of the present invention)
In order to operate various devices to realize the functions of the above-described embodiments, program codes of software for realizing the functions of the above-described embodiments are provided to an apparatus or a computer in the system connected to the various devices. What is implemented by operating the various devices according to a program supplied and stored in a computer (CPU or MPU) of the system or apparatus is also included in the scope of the present invention.

また、この場合、前記ソフトウェアのプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそのプログラムコードをコンピュータに供給するための手段、例えば、かかるプログラムコードを格納した記録媒体は本発明を構成する。かかるプログラムコードを記憶する記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。   In this case, the program code of the software itself realizes the functions of the above-described embodiments, and the program code itself and means for supplying the program code to the computer, for example, the program code are stored. The recorded medium constitutes the present invention. As a recording medium for storing the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.

また、コンピュータが供給されたプログラムコードを実行することにより、上述の実施形態の機能が実現されるだけでなく、そのプログラムコードがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して上述の実施形態の機能が実現される場合にもかかるプログラムコードは本発明の実施形態に含まれることは言うまでもない。   Further, by executing the program code supplied by the computer, not only the functions of the above-described embodiments are realized, but also the OS (operating system) or other application software in which the program code is running on the computer, etc. It goes without saying that the program code is also included in the embodiment of the present invention even when the functions of the above-described embodiment are realized in cooperation with the embodiment.

さらに、供給されたプログラムコードがコンピュータの機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合にも本発明に含まれることは言うまでもない。   Further, after the supplied program code is stored in the memory provided in the function expansion board of the computer or the function expansion unit connected to the computer, the CPU provided in the function expansion board or function expansion unit based on the instruction of the program code Needless to say, the present invention also includes a case where the functions of the above-described embodiment are realized by performing part or all of the actual processing.

本発明の実施形態を示し、文書検索システムの概略構成の一例を示す図である。It is a figure which shows embodiment of this invention and shows an example of schematic structure of a document search system. 本発明の実施形態を示し、文書検索装置のハードウェア構成の一例を示す図である。It is a figure which shows embodiment of this invention and shows an example of the hardware constitutions of a document search device. 本発明の実施形態を示し、文書検索システムで近傍検索を行う際の概略動作の一例を説明するフローチャートである。6 is a flowchart illustrating an example of a schematic operation when performing a neighborhood search in the document search system according to the embodiment of this invention. 本発明の実施形態を示し、図3に続くフローチャートである。It is a flowchart which shows embodiment of this invention and continues from FIG. 本発明の実施形態を示し、近傍検索条件指定画面及び近傍検索条件テーブルの一例を示す図である。It is a figure which shows embodiment of this invention and shows an example of a neighborhood search condition designation | designated screen and a neighborhood search condition table. 本発明の実施形態を示し、図4のフローチャートにおけるマージ情報内隣接位置取得処理の詳細を説明するフローチャートである。FIG. 5 is a flowchart illustrating an embodiment of the present invention and explaining details of an adjacent position acquisition process in merge information in the flowchart of FIG. 4. 本発明の実施形態を示し、マージ位置情報を作成する際の概念の一例を示す図である。It is a figure which shows embodiment of this invention and shows an example of the concept at the time of creating merge position information. 本発明の実施形態を示し、開始キーワードと終了キーワードとの最適な組み合わせを、マージ位置情報を用いて抽出する際の概念の第1の例を示す図である。It is a figure which shows embodiment of this invention and shows the 1st example of the concept at the time of extracting the optimal combination of a start keyword and an end keyword using merge position information. 本発明の実施形態を示し、開始キーワードと終了キーワードとの最適な組み合わせを、マージ位置情報を用いて抽出する際の概念の第2の例を示す図である。It is a figure which shows embodiment of this invention and shows the 2nd example of the concept at the time of extracting the optimal combination of a start keyword and an end keyword using merge position information. 本発明の実施形態を示し、近傍検索の結果が反映された文書の表示画面の一例を示す図である。It is a figure which shows embodiment of this invention and shows an example of the display screen of the document in which the result of the neighborhood search was reflected.

符号の説明Explanation of symbols

101 サーバー(文書検索装置)
102 近傍検索/表示プログラム
103 文書データベース(文書DB)
104 全文インデックス
105 ネットワーク
106 クライアント端末
201 CPU
202 ROM
203 RAM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/Fコントローラ
209 キーボード
210 CRTディスプレイ
211 外部メモリ
503、504 マージ位置情報
901 検索条件指定画面
902 近傍検索条件テーブル
101 server (document search device)
102 Neighborhood Search / Display Program 103 Document Database (Document DB)
104 Full-text index 105 Network 106 Client terminal 201 CPU
202 ROM
203 RAM
204 System Bus 205 Input Controller 206 Video Controller 207 Memory Controller 208 Communication I / F Controller 209 Keyboard 210 CRT Display 211 External Memory 503, 504 Merge Position Information 901 Search Condition Specification Screen 902 Neighborhood Search Condition Table

Claims (9)

複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索方法であって、
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、
前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとを有し、
前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする文書検索方法。
A document search method for searching a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
A search step of searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched in the search step are within the existence range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result A column extraction step;
A display step of highlighting the character string extracted by the character string extraction step,
In the character string extraction step, when there are a plurality of character string sets composed of a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition, the character string extraction steps A document search method, wherein a set of character strings that are closest to each other is extracted as the highlighted character string.
前記検索ステップは、前記近傍検索条件に含まれている複数の文字列と合致する文字列が検索された場合には、それら複数の文字列が存在している位置を示す文字列位置情報を取得し、
前記文字列抽出ステップは、前記検索ステップにより取得された複数の文字列位置情報を、それら文字列位置情報に基づく順番で統合してマージ位置情報を作成し、作成したマージ位置情報を用いて、前記強調表示する文字列を抽出することを特徴とする請求項1に記載の文書検索方法。
In the search step, when a character string that matches a plurality of character strings included in the neighborhood search condition is searched, character string position information indicating a position where the plurality of character strings exist is acquired. And
The character string extraction step creates a merge position information by integrating a plurality of character string position information acquired by the search step in an order based on the character string position information, and using the created merge position information, The document search method according to claim 1, wherein the character string to be highlighted is extracted.
前記文字列抽出ステップは、前記マージ位置情報を、前記近傍検索条件の数に拘わらず1つだけ作成することを特徴とする請求項2に記載の文書検索方法。   3. The document search method according to claim 2, wherein the character string extraction step creates only one merge position information regardless of the number of the neighborhood search conditions. 複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索装置であって、
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索手段と、
前記検索手段により検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列が強調表示されるようにするための強調表示情報を作成する表示情報作成手段とを有し、
前記文字列抽出手段は、前記近傍検索条件に含まれている存在範囲内に、前記検索手段で検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする文書検索装置。
A document search device that searches a document file according to a proximity search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
Search means for searching the document file for character strings that match a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched by the search means are within an existing range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result Column extraction means;
Display information creating means for creating highlighted display information for highlighting the character string extracted by the character string extracting means;
When there are a plurality of sets of character strings made up of a plurality of character strings searched by the search means within the existence range included in the neighborhood search condition, the character string extraction means A document search apparatus, wherein a set of character strings that are closest to each other is extracted as the highlighted character string.
前記検索手段は、前記近傍検索条件に含まれている複数の文字列と合致する文字列が検索された場合には、それら複数の文字列が存在している位置を示す文字列位置情報を取得し、
前記文字列抽出手段は、前記検索手段により取得された複数の文字列位置情報を、それら文字列位置情報に基づく順番で統合してマージ位置情報を作成し、作成したマージ位置情報を用いて、前記強調表示する文字列を抽出することを特徴とする請求項4に記載の文書検索装置。
The search means, when a character string that matches a plurality of character strings included in the neighborhood search condition is searched, obtains character string position information indicating a position where the plurality of character strings exist. And
The character string extraction means integrates a plurality of character string position information acquired by the search means in order based on the character string position information, creates merge position information, and uses the created merge position information, The document search apparatus according to claim 4, wherein the character string to be highlighted is extracted.
前記文字列抽出手段は、前記マージ位置情報を、前記近傍検索条件の数に拘わらず1つだけ作成することを特徴とする請求項5に記載の文書検索装置。   The document search apparatus according to claim 5, wherein the character string extraction unit creates only one merge position information regardless of the number of the neighborhood search conditions. 前記表示情報作成手段により作成された強調表示情報をクライアント端末に送信する送信手段を有することを特徴とする請求項4〜6の何れか1項に記載の文書検索装置。   The document search apparatus according to claim 4, further comprising a transmission unit configured to transmit the highlighted display information created by the display information creation unit to a client terminal. 複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行うことをコンピュータに実行させるためのコンピュータプログラムであって、
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、
前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとをコンピュータに実行させ、
前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とするコンピュータプログラム。
A computer program for causing a computer to perform a search for a document file according to a proximity search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
A search step of searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched in the search step are within the existence range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result A column extraction step;
Causing the computer to execute a display step of highlighting the character string extracted by the character string extraction step;
In the character string extraction step, when there are a plurality of character string sets composed of a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition, the character string extraction steps A computer program, wherein a set of character strings closest to each other is extracted as the highlighted character string.
請求項8に記載のコンピュータプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the computer program according to claim 8 is recorded.
JP2004190753A 2004-06-29 2004-06-29 Method, device for retrieving document, computer program and computer readable recording medium Pending JP2006012000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004190753A JP2006012000A (en) 2004-06-29 2004-06-29 Method, device for retrieving document, computer program and computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004190753A JP2006012000A (en) 2004-06-29 2004-06-29 Method, device for retrieving document, computer program and computer readable recording medium

Publications (1)

Publication Number Publication Date
JP2006012000A true JP2006012000A (en) 2006-01-12

Family

ID=35779178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004190753A Pending JP2006012000A (en) 2004-06-29 2004-06-29 Method, device for retrieving document, computer program and computer readable recording medium

Country Status (1)

Country Link
JP (1) JP2006012000A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169513A (en) * 2008-01-11 2009-07-30 Toshiba Corp Device, method and program for estimating nickname

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169513A (en) * 2008-01-11 2009-07-30 Toshiba Corp Device, method and program for estimating nickname

Similar Documents

Publication Publication Date Title
US8181104B1 (en) Automatic creation of cascading style sheets
US11592967B2 (en) Method for automatically indexing an electronic document
EP1503305A2 (en) Method for generating navigation of web site
US20020154117A1 (en) Graphic editing apparatus graphic editing method and storage medium on which is recorded a program for graphic editing
JP2004240750A (en) Picture retrieval device
CN107077515B (en) Display control device, display control method, and display control medium
JP2006012000A (en) Method, device for retrieving document, computer program and computer readable recording medium
JP2008276524A (en) Information processor and information processing method
JP4976783B2 (en) PROGRAM GENERATION DEVICE, PROGRAM GENERATION METHOD, PROGRAM, AND RECORDING MEDIUM
JP2001282773A (en) Device and method for editing structured document and recording medium
JPH1021192A (en) Operation extraction system and macro generation system
JPH1185457A (en) Data processor, its data processing method, and storage medium storing computer-readable program
JP4191543B2 (en) Output control device
JP2021064019A (en) Sentence creation support device, sentence creation support system and program
JP2018092283A (en) Information processing unit, control method for information processing unit, and program
JP2005115753A (en) Device, method and program for processing search result, recording media, and search result processing system
JP2771095B2 (en) Character processing method
JPH11161666A (en) Method and device for document data retrieval and document editing device
JP3396374B2 (en) Image processing apparatus and image processing method
JPH1097532A (en) Information processor and method
JP2001134563A (en) Method and device for editing structured document
JP2008065487A (en) Information retrieval device and its control method, program, and storage medium
JP2006330998A (en) Design information management system and design information management method
JPH06282619A (en) Graphic plotting device
JPH1063678A (en) Full sentence retrieved result display device