JP2006012000A - Method, device for retrieving document, computer program and computer readable recording medium - Google Patents
Method, device for retrieving document, computer program and computer readable recording medium Download PDFInfo
- Publication number
- JP2006012000A JP2006012000A JP2004190753A JP2004190753A JP2006012000A JP 2006012000 A JP2006012000 A JP 2006012000A JP 2004190753 A JP2004190753 A JP 2004190753A JP 2004190753 A JP2004190753 A JP 2004190753A JP 2006012000 A JP2006012000 A JP 2006012000A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- character string
- search
- position information
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、文書検索方法、文書検索装置、コンピュータプログラム及びコンピュータ読み取り可能な記録媒体に関し、特に、文書ファイルの検索を行うために用いて好適なものである。 The present invention relates to a document search method, a document search device, a computer program, and a computer-readable recording medium, and is particularly suitable for use in searching for a document file.
従来から、文書データベースに格納されている文書ファイルの検索を行う方法として様々なものが提案されている。例えば、特定のキーワードをインデックス化し、インデックス化したキーワードをキーとして、目的の文書の検索を高速に行う仕組みや、フルテキスト検索(全文検索)を行って文書の検索を行う仕組み等が提案されている。また、ユーザがテキスト検索の条件を指定し、そのテキスト検索の条件を文書から検索する仕組みも提案されている。 Conventionally, various methods for searching a document file stored in a document database have been proposed. For example, a mechanism for indexing a specific keyword and using the indexed keyword as a key to search for a target document at high speed, or a mechanism for searching a document by performing a full text search (full text search) has been proposed. Yes. In addition, a mechanism has been proposed in which a user specifies a text search condition and the text search condition is searched from a document.
以上のように、文書の検索を行う仕組みとして、従来から様々な手法が採られているが、近年、ユーザの意図する文書の検索を、より高速に且つ適切に行う仕組みとして、いわゆる近傍検索が実用化されている。かかる近傍検索では、まず、ユーザが、検索対象とする2つのキーワードと、その2つのキーワードの間の文字数とを文書検索装置に対して指定する。そうすると、文書検索装置は、ユーザが指定した2つのキーワードから成るキーワードの組を検索する。そして、検索したキーワードの組の中から、そのキーワードの組の間の文字数が、前記ユーザが指定した文字数以内にあるキーワードの組を抽出し、抽出したキーワードの組を他と区別することができるように強調表示する。このようにすれば、キーワード間の意味的な結びつきを加味した検索を行うことができる。 As described above, various methods have been conventionally employed as a mechanism for searching for a document. In recent years, a so-called neighborhood search is a mechanism for performing a search for a document intended by a user at a higher speed and appropriately. It has been put into practical use. In such a proximity search, first, the user designates two keywords to be searched and the number of characters between the two keywords to the document search apparatus. Then, the document search apparatus searches for a keyword set including two keywords specified by the user. Then, from the searched keyword set, a keyword set in which the number of characters between the keyword sets is within the number of characters specified by the user can be extracted, and the extracted keyword set can be distinguished from others. To highlight. In this way, it is possible to perform a search that takes into account the semantic connection between keywords.
かかる近傍検索を応用した技術として、特許文献1には、近傍検索を含む複合条件の検索を、1つのマイコンで行う場合に、文字列の照合結果(検索結果)を示す個々の照合情報を、処理すべきプログラム(近傍条件判定プログラム、文脈条件判定プログラム、論理条件判定プログラム)にのみ出力することで、処理効率を上げるようにする仕組みが開示されている。
また、特許文献2には、ユーザが指定したキーワードを強調表示することで他のテキストデータとは異なるものにしつつ、検索条件(完全一致検索、近傍検索、異表記展開検索等)に合わせて強調表示の方法を変えることで、どのキーワードがどの検索条件に該当するものであるのかをユーザが視覚的に認識できるようにする仕組みが開示されている。
As a technology applying such neighborhood search, Patent Document 1 discloses individual matching information indicating a matching result (search result) of a character string when searching for a complex condition including a neighborhood search with one microcomputer. A mechanism is disclosed that increases processing efficiency by outputting only to programs to be processed (neighboring condition determination program, context condition determination program, logical condition determination program).
しかしながら、従来の近傍検索の仕組みでは、ユーザが指定した文字数の範囲内にあるキーワードの組を全て抽出し、抽出したキーワードの組を他と区別することができるように強調表示していた。このため、ユーザが指定した文字数の範囲内に、複数のキーワードの組が存在する場合、それら複数のキーワードの組を全て強調表示してしまう。したがって、従来の技術では、キーワードの最適な組み合わせパターンをユーザが確認することが困難であるという問題点があった。 However, in the conventional neighborhood search mechanism, all keyword pairs within the range of the number of characters specified by the user are extracted and highlighted so that the extracted keyword pairs can be distinguished from others. For this reason, when there are a plurality of keyword sets within the range of the number of characters specified by the user, all of the plurality of keyword sets are highlighted. Therefore, the conventional technique has a problem that it is difficult for the user to confirm the optimum combination pattern of keywords.
また、近傍検索のためにユーザが複数のキーワードの組を検索条件として指定した場合には、表示がより一層煩雑になる。例えば、A@20B(開始キーワードAと終了キーワードBとが20文字以内に存在)と、C@5D(開始キーワードCと終了キーワードDとが5文字以内に存在)とが、検索条件としてユーザにより指定された場合、従来の技術では、その検索条件に合致する全てのキーワードの組を検索結果として画面に強調表示してしまう。このため、例えば、開始キーワードAと終了キーワードBとの間に、開始キーワードC及び終了キーワードDの両方または片方が含まれる場合のように、強調表示する必要のあるキーワードが狭い範囲に多数存在する場合には、該当するキーワードの表示色を変更したり、該当するキーワードに下線を施したりしても、注目すべき開始キーワードA及び終了キーワードBの組と、開始キーワードC及び終了キーワードDの組とをユーザが識別するのは極めて困難である。 Further, when the user designates a set of a plurality of keywords as a search condition for neighborhood search, the display becomes even more complicated. For example, A @ 20B (start keyword A and end keyword B exist within 20 characters) and C @ 5D (start keyword C and end keyword D exist within 5 characters) are set as search conditions by the user. When specified, the conventional technique highlights all keyword pairs that match the search condition on the screen as search results. For this reason, for example, there are a large number of keywords that need to be highlighted in a narrow range, such as when both or one of the start keyword C and the end keyword D is included between the start keyword A and the end keyword B. In this case, even if the display color of the corresponding keyword is changed or the corresponding keyword is underlined, the set of the start keyword A and the end keyword B to be noticed, and the set of the start keyword C and the end keyword D Is extremely difficult for the user to identify.
本発明は、前述の問題点に鑑みてなされたものであり、近傍検索した結果を表示するに際し、キーワードとなる文字列を目視し易くすることを目的とする。 The present invention has been made in view of the above-described problems, and an object of the present invention is to make it easy to visually recognize a character string as a keyword when displaying a result of neighborhood search.
本発明の文書検索方法は、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索方法であって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとを有し、前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。 The document search method of the present invention is a document search method for searching a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, and is included in the neighborhood search condition. A search step that searches the document file for a character string that matches a plurality of character strings, and whether the plurality of character strings searched by the search step are within an existence range included in the neighborhood search condition A character string extraction step for extracting a character string to be highlighted based on a result of the determination, and a display step for highlighting the character string extracted by the character string extraction step, The character string extraction step is performed when there are a plurality of character string sets including a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition. Of the set number of strings, and extracts a set of strings that is closest, as a character string to be the highlight.
本発明の文書検索装置は、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行う文書検索装置であって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索手段と、前記検索手段により検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出手段と、前記文字列抽出手段により抽出された文字列が強調表示されるようにするための強調表示情報を作成する表示情報作成手段とを有し、前記文字列抽出手段は、前記近傍検索条件に含まれている存在範囲内に、前記検索手段で検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。 The document search device of the present invention is a document search device that searches a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, and is included in the neighborhood search condition. A search unit that searches the document file for a character string that matches a plurality of character strings, and whether the plurality of character strings searched by the search unit are within an existence range included in the neighborhood search condition A character string extracting unit that extracts a character string to be highlighted based on the determination result, and a highlight display for highlighting the character string extracted by the character string extracting unit Display information creating means for creating information, and the character string extracting means includes a plurality of character strings searched by the search means within the existence range included in the neighborhood search condition. Multiple pairs If the standing, of the set of the plurality of character strings, and extracts a set of strings that is closest, as a character string to be the highlight.
本発明のコンピュータプログラムは、複数の文字列と、これら複数の文字列の存在範囲とを含む近傍検索条件に従って、文書ファイルの検索を行うことをコンピュータに実行させるためのコンピュータプログラムであって、前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとをコンピュータに実行させ、前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする。
本発明のコンピュータ読み取り可能な記録媒体は、前記コンピュータプログラムを記録したことを特徴とする。
A computer program of the present invention is a computer program for causing a computer to perform a search for a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings, A search step for searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition, and a plurality of character strings searched by the search step are included in the neighborhood search condition. A character string extraction step for determining whether the character string is within the existing range, and extracting a character string to be highlighted based on the determined result, and a display step for highlighting the character string extracted by the character string extraction step And the character string extraction step executes the search string within the existence range included in the neighborhood search condition. When there are a plurality of character string pairs made up of a plurality of character strings searched in the pop-up, the closest character string set of the character string pairs is selected as the character string to be highlighted. It is characterized by extracting.
A computer-readable recording medium according to the present invention records the computer program.
本発明によれば、強調して表示する文字列が狭い範囲に多数存在してしまうことを可及的に防止することができる。したがって、ユーザは、注目すべき文字列を一目で識別することができるようになる。 According to the present invention, it is possible to prevent as much as possible a large number of character strings to be highlighted and displayed in a narrow range. Therefore, the user can identify a noteworthy character string at a glance.
次に、図面を参照しながら、本発明の実施の形態について説明する。
図1は、本発明の実施形態を示し、文書検索システムの概略構成の一例を示す図である。
図1において、文書検索システムは、文書検索装置101と、ネットワーク105と、クライアント端末106とを有し、文書検索装置101と、クライアント端末106とが、ネットワーク105を介して相互に通信可能に接続されて構成される。
Next, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing an example of a schematic configuration of a document search system according to an embodiment of the present invention.
1, the document search system includes a
文書検索装置101は、文書ファイルの近傍検索を行うためのサーバである。本実施形態の文書検索装置101は、近傍検索/表示プログラム102と、文書データベース(文書DB)103と、全文インデックス104とを有している。
文書データベース103は、近傍検索の対象となる複数の文書ファイルを格納する。本実施形態において、前記文書ファイルは、SGML(standard generalized markup language)フォーマット、XML(extensible markup language)フォーマット等に基づくものである。ただし、前記文書ファイルの形式は、これらに限定されるものではないということは言うまでもない。
The
The
近傍検索/表示プログラム102は、文書データベース103に格納された文書ファイルに対して近傍検索を行い、近傍検索の結果をユーザが判別できるように、該当する文書ファイルを編集し、編集した文書ファイルに基づいて表示用文書データの作成を行うためのプログラムである。
全文インデックス104は、近傍検索の高速化を図るためのものであり、近傍検索の際にユーザにより指定されたキーワードの位置情報を格納する。
The neighborhood search /
The full-
クライアント端末106は、ユーザが所有するコンピュータ装置であり、近傍検索条件の入力と、近傍検索結果の表示とを行うためのプログラム又はWebブラウザを搭載している。より具体的に説明すると、クライアント端末106は、CGI(Common Gateway Interface)等を用いて、ユーザによるキーボードやマウス等の操作に基づいて入力された近傍検索条件を文書検索装置101に送信する。その後、後述するようにして文書検索装置101で行われた近傍検索の結果を含む表示用文書データを、HTML形式のデータファイルとして文書検索装置101から受信してブラウザアプリケーションで表示する。
なお、ネットワーク105は、文書検索装置101とクライアント端末106とを通信可能にするものであれば、インターネットやLAN(Local Area Network)等、どのようなものであってもよい。
The
The network 105 may be anything such as the Internet or a LAN (Local Area Network) as long as it enables communication between the
図2は、文書検索装置101のハードウェア構成の一例を示す図である。
文書検索装置101は、CPU201と、RAM202と、ROM203と、システムバス204と、入力コントローラ205と、ビデオコントローラ206と、メモリコントローラ207と、通信I/Fコントローラ208と、キーボード209と、CRT(cathode ray tube)ディスプレイ(CRT)210と、外部メモリ211とを有している。
CPU201は、システムバス204に接続されている各デバイス202、203や、コントローラ205〜208を統括的に制御する。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the
The
The
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)や、オペレーティングシステムプログラム(OS)や、文書検索装置101の実行する機能を実現するために必要な各種プログラム等が記憶されている。
The
RAM202は、CPU201の主メモリや、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして実行することで各種動作を実現するものである。
The
また、入力コントローラ205は、キーボード209や不図示のマウス等のポインティングデバイスからの入力を制御する。ビデオコントローラ206は、CRTディスプレイ210の表示を制御する。これら入力コントローラ205及びビデオコントローラ206は、CPU201と協働して制御を行う。例えば、CPU201が、例えばRAM203内の表示情報用のメモリ領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRTディスプレイ210上での表示が可能になる。また、CRTディスプレイ210上の不図示のマウスカーソル等でのユーザ指示が可能になる。なお、CRTディスプレイ210の代わりに、表示装置として、液晶ディスプレイ等を用いても構わない。
The
外部メモリ211は、ブートプログラム、ブラウザソフトウェア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する。外部メモリ211は、例えば、ハードディスク(HD)、フレキシブルディスク(FD)、又はPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等である。
The
なお、本実施形態において、図1に示した近傍検索/表示プログラム102は、この外部メモリ211に記録され、必要に応じてRAM202にロードされることによりCPU201によって実行される。また、文書データベース103や全文インデックス104もこの外部メモリ211に記録されている。
In the present embodiment, the neighborhood search /
メモリコントローラ207は、外部メモリ211へのアクセスを制御する。通信I/Fコントローラ208は、ネットワーク105を介して、クライアント端末106等の外部機器と通信するためのものであり、ネットワーク105を介したデータの通信制御処理を実行する。通信I/Fコントローラ208は、例えば、TCP/IPを用いたインターネット通信等を実行する。
なお、クライアント端末106のハードウェアの構成も図2に示したものと同様であるので、クライアント端末106についての詳細な説明を省略する。
The
Since the hardware configuration of the
ここで、本実施形態の文書検索システムで近傍検索を行う際の動作の概要について説明する。
まず、ユーザは、クライアント端末106を操作して、開始キーワード及び終了キーワードと、開始キーワード及び終了キーワードの間の文字数(以下、キーワード間文字数と略称する)とを含む近傍検索条件を指定する。そうすると、クライアント端末106は、その近傍検索条件を示す情報を文書検索装置101に送信する。
Here, an outline of an operation when performing a neighborhood search in the document search system of the present embodiment will be described.
First, the user operates the
この近傍検索条件を含む情報を受信した文書検索装置101は、文書ファイルを検索して、ユーザが指定した開始キーワード及び終了キーワードの組み合わせの中から最適な組み合わせを導き出す。そして、文書検索装置101は、その最適な組み合わせの開始キーワード及び終了キーワードを強調表示するための表示用文書データを作成してクライアント端末106に送信する。この表示用文書データを受信したクライアント端末106は、前記表示用文書データに基づいて、前記最適な組み合わせの開始キーワード及び終了キーワードを強調表示する。
The
特に、本実施形態の文書検索装置101では、文書ファイルを検索した結果、ユーザが指定したキーワード間文字数の中に、開始キーワード及び終了キーワードの組み合わせが複数存在する場合、それら複数の組み合わせのうち、最も近接した組み合わせを最適な組み合わせとするようにしている。
なお、本実施形態で行う近傍検索では、近傍検索条件に該当する開始キーワード及び終了キーワードが検索された場合、その開始キーワード及び終了キーワードは、次の近傍検索条件に基づく近傍検索が行われるまでは再利用されないこととする。
In particular, in the
In the neighborhood search performed in the present embodiment, when the start keyword and the end keyword corresponding to the neighborhood search condition are searched, the start keyword and the end keyword are used until the neighborhood search based on the next neighborhood search condition is performed. It will not be reused.
以下、図3、図4、及び図6のフローチャートを参照しながら、本実施形態の文書検索システムで近傍検索を行う際の動作の一例について説明する。なお、図3、図4、及び図6のフローチャートに基づく処理は、主として、文書検索装置101に格納されている近傍検索/表示プログラム102で実行される。
Hereinafter, an example of an operation when performing a neighborhood search in the document search system of this embodiment will be described with reference to the flowcharts of FIGS. 3, 4, and 6. Note that the processing based on the flowcharts of FIGS. 3, 4, and 6 is mainly executed by the neighborhood search /
図3は、文書検索システムで近傍検索を行う際の概略動作の一例を説明するフローチャートである。図4は、図3に続くフローチャートである。
まず、クライアント端末106の表示装置に表示された検索条件指定画面901(図5(a)を参照)を用いて、ユーザが近傍検索条件を入力すると、クライアント端末106は、その近傍検索条件を示す情報を文書検索装置101に送信する。なお、図5(a)では、開始キーワードが「A」、終了キーワードが「B」、キーワード間文字数が「10」という第1の近傍検索条件(FW=A@10B)と、開始キーワードが「C」、終了キーワードが「D」、キーワード間文字数が「6」という第2の近傍検索条件(FW=C@6D)とを含む近傍検索条件が入力された例を示している。
FIG. 3 is a flowchart for explaining an example of a schematic operation when performing a neighborhood search in the document search system. FIG. 4 is a flowchart following FIG.
First, when the user inputs a neighborhood search condition using the search condition designation screen 901 (see FIG. 5A) displayed on the display device of the
このようにしてクライアント端末106から近傍検索条件を示す情報が送信されると、文書検索装置101のCPU201は、通信I/Fコントローラ208を介して近傍検索条件を入力し(ステップS301)、外部メモリ211等に格納されている近傍検索条件テーブル902(図5(b)を参照)に、入力した近傍検索条件を格納する(ステップS302)。なお、前述したように、近傍検索条件には、開始キーワード及び終了キーワードと、キーワード間文字数(指定距離)とが含まれている。ただし、これら以外の条件が近傍検索条件として含まれていてもよいということは言うまでもない。
When the information indicating the proximity search condition is transmitted from the
こうして、近傍検索条件が近傍検索条件テーブル902に格納されると、CPU201は、近傍検索条件テーブル902に格納されている近傍検索条件の1つを選択し、選択した近傍検索条件の開始キーワードと一致するキーワードが存在している位置に関する情報(以下、開始キーワード位置情報と称する)を全文インデックス104から取得して、RAM202に記憶させる(ステップS303)。なお、本実施形態では、文書ファイルの先頭から、開始キーワードの最初の文字までの文字数を開始キーワード位置情報としている。
Thus, when the neighborhood search condition is stored in the neighborhood search condition table 902, the
図5に示した近傍検索条件の例では、図7に示すように、前記第1の近傍検索条件(A@10B)の開始キーワードAは、文書ファイルの先頭から2文字目、11文字目、15文字目、34文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報501aとしてRAM202に記憶される。また、前記第2の近傍検索条件(C@6D)の開始キーワードCは、文書ファイルの先頭から4文字目、32文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報501bとしてRAM202に記憶される。
In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, the start keyword A of the first neighborhood search condition (A @ 10B) is the second character, the eleventh character from the top of the document file, Since they are in the 15th character, the 34th character, etc., these numbers are stored in the
そして、CPU201は、ステップS303の処理において、開始キーワードと一致するキーワードが文書ファイル内に存在していたかどうかを確認する(ステップ304)。この確認の結果、開始キーワードと一致するキーワードが文書ファイル内に存在していなかった場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定する(ステップS305)。
Then, the
この判定の結果、次の近傍検索条件が存在しない場合には処理を終了し、存在する場合には、当該次の近傍検索条件について、開始キーワード位置情報を取得する処理(ステップ303)を行う。 As a result of this determination, if the next neighborhood search condition does not exist, the process is terminated, and if it exists, a process of acquiring start keyword position information for the next neighborhood search condition is performed (step 303).
こうして、ステップS304において、開始キーワードと一致するキーワードが文書ファイル内に存在していたことを確認すると、CPU201は、ステップS303で選択した近傍検索条件の終了キーワードと一致するキーワードが存在している位置に関する情報(以下、終了キーワード位置情報と称する)を全文インデックス104から取得して、RAM202に記憶させる(ステップS306)。なお、本実施形態では、文書ファイルの先頭から、終了キーワードの最初の文字までの文字数を終了キーワード位置情報としている。
Thus, when it is confirmed in step S304 that a keyword that matches the start keyword exists in the document file, the
図5に示した近傍検索条件の例では、図7に示すように、前記第1の近傍検索条件(A@10B)の終了キーワードBは、文書ファイルの先頭から8文字目、20文字目、40文字目等にあるので、これらの数字が昇順に、終了キーワード位置情報502aとしてRAM202に記憶される。また、前記第2の近傍検索条件(C@6D)の終了キーワードDは、文書ファイルの先頭から9文字目、12文字目、37文字目等にあるので、これらの数字が昇順に、開始キーワード位置情報502bとしてRAM202に記憶される。
In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, the end keyword B of the first neighborhood search condition (A @ 10B) is the eighth character, the 20th character from the beginning of the document file, Since it is in the 40th character, etc., these numbers are stored in the
そして、CPU201は、ステップS306の処理において、終了キーワードと一致するキーワードが文書ファイル内に存在していたかどうかを確認する(ステップS307)。この確認の結果、終了キーワードと一致するキーワードが文書ファイル内に存在しなかった場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定する(ステップS308)。
In step S306, the
この判定の結果、次の近傍検索条件が存在しない場合には処理を終了し、存在する場合には、当該次の近傍検索条件について、開始キーワード位置情報を取得する処理(ステップ303)を行う。
そして、CPU201は、以上のようにして、開始キーワード位置情報と、終了キーワード位置情報とが共に取得された文書ファイルについて、これら開始キーワード位置情報と終了キーワード位置情報とを、位置情報が小さい順番から昇順にマージ(統合)し、マージした位置情報(以下、マージ位置情報と称する)をRAM202に記憶させる(ステップ309)。
As a result of this determination, if the next neighborhood search condition does not exist, the process is terminated, and if it exists, a process of acquiring start keyword position information for the next neighborhood search condition is performed (step 303).
Then, the
そして、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件があるかどうかを判定し(ステップS310)、ある場合には、近傍検索条件テーブル902の全ての近傍検索条件について、マージ位置情報を作成するまで、ステップS303〜S310の処理を繰り返し行う。
Then, the
図5に示した近傍検索条件の例では、図7に示すように、まず、前記第1の近傍検索条件における開始キーワード位置情報501aと開始キーワード「A」とを対応付けるとともに、終了キーワード位置情報502aと終了キーワード「B」とを対応付ける。そして、開始キーワード「A」に対応付けられた開始キーワード位置情報501aと、終了キーワード「B」に対応付けられた終了キーワード位置情報502aとを、位置情報が小さい順番から昇順にマージして、マージ位置情報503を作成する。 In the example of the neighborhood search condition shown in FIG. 5, as shown in FIG. 7, first, start keyword position information 501a and start keyword “A” in the first neighborhood search condition are associated with each other, and end keyword position information 502a. Is associated with the end keyword “B”. The start keyword position information 501a associated with the start keyword “A” and the end keyword position information 502a associated with the end keyword “B” are merged in ascending order from the smallest position information. Position information 503 is created.
また、図5に示した近傍検索条件の例では、前記第1の近傍検索条件の他に、前記第2の近傍検索条件があるので、前記第2の近傍検索条件における開始キーワード位置情報501bと開始キーワード「C」とを対応付けるとともに、終了キーワード位置情報502bと終了キーワード「D」とを対応付け、これら開始キーワード「C」に対応付けられた開始キーワード位置情報501bと、終了キーワード「D」に対応付けられた終了キーワード位置情報502bと、マージ位置情報503とを、位置情報が小さい順番から昇順にマージして、近傍検索に使用する最終的なマージ位置情報504を作成する。このように、本実施形態では、複数の近傍検索条件が存在している場合であっても、マージ位置情報を1つだけ作成するようにしている。 Further, in the example of the neighborhood search condition shown in FIG. 5, since there is the second neighborhood search condition in addition to the first neighborhood search condition, start keyword position information 501b in the second neighborhood search condition and The start keyword “C” is associated with the end keyword position information 502b and the end keyword “D”. The start keyword position information 501b associated with the start keyword “C” and the end keyword “D” are associated with each other. The associated end keyword position information 502b and merge position information 503 are merged in ascending order from the smallest position information to create final merge position information 504 used for neighborhood search. Thus, in the present embodiment, only one merge position information is created even when a plurality of neighborhood search conditions exist.
次に、CPU201は、ステップS309で作成したマージ位置情報504を用いて、マージ情報内隣接位置取得処理を行う(ステップS311)。このマージ情報内隣接位置取得処理では、まず、CPU201は、RAM202からマージ位置情報504を読み出して、開始キーワードと終了キーワードとの組みあわせが、キーワード間文字数内に複数あるかどうかを確認する。この確認の結果、開始キーワードと終了キーワードとの組み合わせが、キーワード間文字数内に複数ある場合には、これら複数の開始キーワードと終了キーワードとの組み合わせのうち、最も近接している開始キーワードと終了キーワードとの組み合わせを、近傍検索における最適な組み合わせとする。一方、開始キーワードと終了キーワードとの組み合わせが、キーワード間文字数内に1つしかない場合には、その組み合わせを近傍検索における最適な組み合わせとする。
Next, the
図5に示した前記第1の近傍検索条件(A@10B)の例では、図8に示すように、開始キーワード位置情報が「2」の開始キーワード「A」から、キーワード間文字数である「10」文字以内の位置には、終了キーワード位置情報が「8」の終了キーワード「B」が存在する。また、開始キーワード位置情報が「34」の開始キーワード「A」から「10」文字以内の位置には、終了キーワード位置情報が「40」の終了キーワード「B」が存在する。したがって、CPU201は、組み合わせ601a、601cを最適な組み合わせとし、組み合わせ601a、601c内の開始キーワード「A」の位置情報と、開始キーワード「B」の位置情報に対してフラグを設定する。
In the example of the first neighborhood search condition (A @ 10B) shown in FIG. 5, as shown in FIG. 8, the start keyword position information is the number of characters between keywords from the start keyword “A” with “2”. An end keyword “B” having end keyword position information “8” exists at a position within 10 ”characters. Further, an end keyword “B” having end keyword position information “40” exists at a position within “10” characters from the start keyword “A” having start keyword position information “34”. Therefore, the
これに対し、開始キーワード位置情報が「11」の開始キーワード「A」から「10」文字以内の位置には、開始キーワード位置情報が「15」の開始キーワード「A」と、終了キーワード位置情報が「20」の終了キーワード「B」とが存在する。そうすると、開始キーワード位置情報が「11」の開始キーワード「A」と、終了キーワード位置情報が「20」の終了キーワード「B」との組み合わせと、開始キーワード位置情報が「15」の開始キーワード「A」と、終了キーワード位置情報が「20」の開始キーワード「B」との組み合わせとができる。 In contrast, the start keyword “A” with the start keyword position information “15” and the end keyword position information are at positions within the “10” characters from the start keyword “A” with the start keyword position information “11”. There is an end keyword “B” of “20”. Then, a combination of the start keyword “A” whose start keyword position information is “11” and the end keyword “B” whose end keyword position information is “20”, and the start keyword “A” whose start keyword position information is “15”. ”And a start keyword“ B ”whose end keyword position information is“ 20 ”.
このように、キーワード間文字数である「10」文字以内の領域に、開始キーワード「A」と、終了キーワード「B」との組み合わせが2つあるような場合、これら全てのキーワードを強調表示すると、多数のキーワードが狭い範囲で強調表示されてしまう。そうすると、ユーザは、どのキーワードに注目すればよいのかを判断することが極めて困難になる虞がある。そこで、本実施形態では、CPU201は、これら2つの組み合わせのうち、開始キーワード「A」と、開始キーワード「B」とがより近接している組み合わせ601bを最適な組み合わせとし、組み合わせ601b内の開始キーワード「A」の位置情報と、開始キーワード「B」の位置情報に対してフラグを設定する。
As described above, when there are two combinations of the start keyword “A” and the end keyword “B” in an area within “10” characters, which is the number of characters between keywords, when all these keywords are highlighted, Many keywords are highlighted in a narrow range. Then, it may be extremely difficult for the user to determine which keyword should be focused on. Therefore, in the present embodiment, the
同様に、図5に示した前記第2の近傍検索条件(C@6D)の例では、図9に示すように、開始キーワード位置情報が「4」の開始キーワード「C」から「6」文字以内の位置に、終了キーワード位置情報が「9」の終了キーワード「D」が存在する。また、開始キーワード位置情報が「32」の開始キーワード「C」から「6」文字以内の位置には、終了キーワード位置情報が「37」の終了キーワード「D」が存在する。したがって、CPU201は、組み合わせ701a、701bを最適な組み合わせとし、組み合わせ701a、701b内の開始キーワード「C」の位置情報と、開始キーワード「D」の位置情報に対してフラグを設定する。
Similarly, in the example of the second neighborhood search condition (C @ 6D) shown in FIG. 5, as shown in FIG. 9, the characters “6” to “6” from the start keyword “C” where the start keyword position information is “4”. The end keyword “D” whose end keyword position information is “9” is present at the position within. Further, an end keyword “D” having end keyword position information “37” exists at a position within “6” characters from the start keyword “C” having start keyword position information “32”. Therefore, the
以上のようにして、近傍検索に最適な組み合わせ601a〜601c、701a、701bを抽出した後、CPU201は、文書データベース103から該当する文書ファイルの表示用文書データを取得する(ステップS312)。
次に、CPU201は、ステップS311の処理でフラグが設定された位置情報を取得し、表示用文書データを編集する(ステップS313)。具体的に説明すると、CPU201は、最適な組み合わせ601a〜601c、701a、701bとして抽出された開始キーワードと終了キーワードとの間にある文字の背景がグレーで表示されるように、表示用文書データを編集する。
As described above, after extracting the
Next, the
次に、CPU201は、最適な組み合わせ601a〜601c、701a、701bとして抽出された開始キーワードと終了キーワードとが白抜き文字となるように、表示用文書データを編集する(ステップS314)。
Next, the
最後に、CPU201は、ステップS313、S314で編集した表示用文書データを、通信I/Fコントローラ208を介してクライアント端末106に送信する。この表示用文書データを受信したクライアント端末106は、その表示用文書データに基づいて、前記最適な組み合わせとして抽出された開始キーワードと終了キーワードとが強調されるように文書を表示装置に表示する。なお、以上のようにして行う文書の強調表示の詳細については、図10を用いて後述する。
Finally, the
ここで、図6のフローチャートを参照しながら、図4のステップS311におけるマージ情報内隣接位置取得処理の詳細について説明する。
まず、CPU201は、近傍検索条件テーブル902に格納されている近傍検索条件を1つ取得する(ステップS401)。そして、CPU201は、図3のステップS309で作成されたマージ位置情報504の先頭に検索ポインタをセットし(ステップS402)、その検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている開始キーワードと一致するかどうかを判定する(ステップS403)。
Details of the merge information adjacent position acquisition processing in step S311 of FIG. 4 will be described with reference to the flowchart of FIG.
First, the
この判定の結果、これらのキーワードが不一致の場合、CPU201は、検索ポインタの位置を次のキーワードに移動させ(ステップS404)、検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定する(ステップS405)。この判定の結果、検索ポインタの位置がマージ位置情報504の最後である場合、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定する(ステップS416)。この判定の結果、次の近傍検索条件が存在する場合には、検索ポインタをマージ位置情報504の先頭に戻し、次の近傍検索条件を取得する(ステップS401)。
If these keywords do not match as a result of the determination, the
前記ステップS403において、検索ポインタが示しているキーワードが、ステップS401で取得した開始キーワードと一致する場合、CPU201は、その検索ポインタの位置情報を開始キーワード位置情報としてRAM202に記憶させた後(ステップS406)、その検索ポインタを次のキーワードに移動させる(ステップS407)。このとき、CPU201は、検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定し(ステップS408)、検索ポインタの位置がマージ位置情報504の最後である場合、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定する(ステップS416)。
In step S403, when the keyword indicated by the search pointer matches the start keyword acquired in step S401, the
一方、ステップS408の判定において、検索ポインタの位置がマージ位置情報504の最後でない場合、CPU201は、検索ポインタが示しているキーワードが、ステップS401で取得した開始キーワードと一致するかどうかを判定する(ステップS409)。この判定の結果、これらのキーワードが一致する場合、CPU201は、RAM202の記録内容を書き換えて、検索ポインタの位置情報を更新する(ステップS406)。
On the other hand, if it is determined in step S408 that the position of the search pointer is not the end of the merge position information 504, the
一方、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている開始キーワードと一致しない場合、CPU201は、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている終了キーワードと一致するかどうかを判定する(ステップS410)。この判定の結果、これらのキーワードが一致しない場合、CPU201は、検索ポインタを次のキーワードに移動させる(ステップS407)。
On the other hand, if the keyword indicated by the search pointer does not match the start keyword included in the neighborhood search condition acquired in step S401, the
一方、検索ポインタが示しているキーワードが、ステップS401で取得した近傍検索条件に含まれている終了キーワードと一致する場合、CPU201は、現在の検索ポインタの位置情報を終了キーワード位置情報としてRAM202に記憶させる(ステップS411)。
On the other hand, when the keyword indicated by the search pointer matches the end keyword included in the neighborhood search condition acquired in step S401, the
図8に示した例では、例えば、マージ位置情報504の先頭に、開始キーワード情報が「2」の開始キーワードAがあるので、その開始キーワード位置情報(「2」)をRAM202に記憶させる(ステップS406)。そして、開始キーワードA又は終了キーワードBが見つかるまでマージ位置情報504を順次チェックする。そうすると、次に見つかるキーワードは、終了キーワード位置情報が「8」の終了キーワードBであるので、この終了キーワード位置情報(「8」)をRAM202に記憶させる(ステップS411)。 In the example shown in FIG. 8, for example, since there is a start keyword A whose start keyword information is “2” at the beginning of the merge position information 504, the start keyword position information (“2”) is stored in the RAM 202 (step S406). Then, the merge position information 504 is sequentially checked until the start keyword A or the end keyword B is found. Then, since the next keyword to be found is the end keyword B whose end keyword position information is “8”, the end keyword position information (“8”) is stored in the RAM 202 (step S411).
以上のように、ステップS406で開始キーワード位置情報が記憶され、且つステップS411で終了キーワード位置情報が記憶されると、CPU201は、それら開始キーワード位置情報と、終了キーワード位置情報との間の距離(文字数)を求め、求めた距離(文字数)が、ステップS401で取得した近傍検索条件に含まれているキーワード間文字数以下であるか否かを判定する(ステップS412)。
As described above, when the start keyword position information is stored in step S406 and the end keyword position information is stored in step S411, the
先に示した例では、開始キーワード位置情報「2」と、終了キーワード位置情報が「8」との間の距離(文字数)は「6」であり、キーワード間文字数である「10」以下である。よって、開始キーワード位置情報が「2」の開始キーワードAと、終了キーワード位置情報が「8」の終了キーワードBとが最適な組み合わせとなる。 In the example shown above, the distance (number of characters) between the start keyword position information “2” and the end keyword position information “8” is “6”, which is equal to or less than “10” which is the number of characters between keywords. . Therefore, the start keyword A whose start keyword position information is “2” and the end keyword B whose end keyword position information is “8” are an optimal combination.
このようにして行われるステップS412の判定の結果、開始キーワード位置情報と、終了キーワード位置情報との間の距離が、キーワード間文字数以下である場合、CPU201は、ステップS406で記憶した開始キーワード位置情報と、ステップS411で記憶した終了キーワード位置情報とを識別することができるように、マージ位置情報504にマーキングを行う(ステップS413)。
When the distance between the start keyword position information and the end keyword position information is equal to or less than the number of characters between keywords as a result of the determination in step S412, the
そして、検索ポインタの位置を次のキーワードに移動させ、移動させた検索ポインタの位置がマージ位置情報504の最後であるかどうかを判定する(ステップS415)。この判定の結果、移動させた検索ポインタの位置がマージ位置情報504の最後でない場合には、検索ポインタの位置がマージ位置情報504の最後になるまで、ステップS403〜S415の処理を繰り返し行う。 Then, the position of the search pointer is moved to the next keyword, and it is determined whether or not the position of the moved search pointer is the last of the merge position information 504 (step S415). If the result of this determination is that the position of the moved search pointer is not the end of the merge position information 504, the processing of steps S403 to S415 is repeated until the position of the search pointer reaches the end of the merge position information 504.
先に示した図8の例では、終了キーワード位置情報が「8」の終了キーワードBは、マージ位置情報504の最後のキーワードではないので、次のキーワードのチェックを行うことになる。そして、終了キーワード位置情報が「8」の終了キーワードBの次に見つかるのは、開始キーワード位置情報が「11」の開始キーワードAであるので、その開始キーワード位置情報(「11」)をRAM202に記憶させる(ステップS406)。
In the example of FIG. 8 shown above, the end keyword B whose end keyword position information is “8” is not the last keyword of the merge position information 504, so the next keyword is checked. Since the start keyword A whose start keyword position information is “11” is found next to the end keyword B whose end keyword position information is “8”, the start keyword position information (“11”) is stored in the
そして、開始キーワードA又は終了キーワードBが見つかるまでマージ位置情報504を順次チェックする。そうすると、次に見つかるキーワードは、開始キーワード位置情報が「15」の開始キーワードAであるので、RAM202に記憶されている開始キーワード位置情報を「11」から「15」に書き換える(ステップS409のYes〜ステップS406)。その後、同様にしてマージ位置情報504のチェックを再開すると、次に見つかるキーワードは、終了キーワード位置情報が「20」の終了キーワードBであるので、この終了キーワード位置情報(「20」)をRAM202に記憶させる(ステップS411)。これら記憶させた開始キーワードAの開始キーワード位置情報「15」と、終了キーワードBの終了キーワード位置情報「20」との間の距離は「5」であり、キーワード間文字数である「10」以下である。よって、開始キーワード位置情報が「15」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとが最適な組み合わせとなる。
Then, the merge position information 504 is sequentially checked until the start keyword A or the end keyword B is found. Then, since the next keyword to be found is the start keyword A whose start keyword position information is “15”, the start keyword position information stored in the
このように、本実施形態では、例えば、近傍検索条件に含まれているキーワード間文字数「10」の範囲内に、開始キーワードAと終了キーワードBとの組が複数存在する場合(開始キーワード位置情報が「11」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとの組み合わせ、及び開始キーワード位置情報が「15」の開始キーワードAと、終了キーワード位置情報が「20」の終了キーワードBとの組み合わせ)、これら複数の組み合わせのうちより近接している組み合わせを最適な組み合わせとしている。 Thus, in the present embodiment, for example, when there are a plurality of sets of the start keyword A and the end keyword B within the range of the inter-keyword character count “10” included in the neighborhood search condition (start keyword position information) A combination of a start keyword A with "11" and an end keyword B with end keyword position information "20", a start keyword A with start keyword position information "15", and an end keyword position information "20" Combinations with the end keyword B), and combinations that are closer to each other among these combinations are set as the optimum combinations.
一方、前記ステップS415において、移動させた検索ポインタの位置がマージ位置情報504の最後である場合には、CPU201は、近傍検索条件テーブル902を参照して、次の近傍検索条件が存在するかどうかを判定し(ステップS416)、全ての近傍検索条件について処理を行うまで、ステップS401〜416の処理を行う。こうして、全ての近傍検索条件について処理を終えると、図4のステップS312に進む(リターンする)。
On the other hand, if the position of the moved search pointer is the last of the merge position information 504 in step S415, the
次に、以上のようにして文書検索装置101で行われた近傍検索の結果を、クライアント端末106の表示装置に表示する方法の一例を説明する。図10は、近傍検索の結果が反映された文書の表示画面の一例を示す図である。具体的に、近傍検索条件が「接続@10手段」と、「サイト@40通信」である場合の表示画面を示している。
表示画面800の領域801では、開始キーワードである「接続」と終了キーワードである「手段」とが白抜き文字で表示され、それら「接続」と「手段」との間にある文字の背景をグレーで表示している。また、領域803では、開始キーワードである「サイト」と終了キーワードである「通信」とが白抜き文字で表示され、それら「サイト」と「通信」との間にある文字の背景をグレーで表示している。
Next, an example of a method for displaying the result of the proximity search performed by the
In the
このような表示の実現方法としては、最適な組み合わせとされた開始キーワードの位置情報と、終了キーワードの位置情報と、それら開始キーワード及び終了キーワード間の文字数(キーワード間文字数)とを、近傍検索条件毎にマージ位置情報504から取得する。そして、これら取得した情報に基づいて、最適な組み合わせの中に、他の最適な組み合わせがあるかどうかを判定する。そして、その判定した結果に応じて、以下のようにして表示画面800の表示を制御する。
As a method of realizing such a display, the position information of the start keyword that is the optimum combination, the position information of the end keyword, and the number of characters between the start keyword and the end keyword (the number of characters between keywords) Each time it is acquired from the merge position information 504. Then, based on the acquired information, it is determined whether there is another optimum combination among the optimum combinations. Then, display of the
図10に示す表示画面800において、領域801、802には、最適な組み合わせが1つしか存在しない。この場合には、前記取得した開始キーワードの位置情報からその開始キーワードの文字数分だけ後の位置を第1の色指定開始ポイントとする。また、最適な組み合わせとされた終了キーワードの位置情報をマージ位置情報504から取得し、その終了キーワードの位置情報より1文字前の位置を第1の色指定終了ポイントとする。そして、第1の色指定開始ポイントから第1の色指定終了ポイントまでの範囲の背景をグレーで表示する。
In the
さらに、前記取得した開始キーワードの位置情報を第2の色指定開始ポイントとする。また、開始キーワードの位置情報から、その開始キーワードの文字数に1を減算した文字数だけ後の位置を第2の色指定終了ポイントとする。そして、第2の色指定開始ポイントから第2の色指定終了ポイントまでの範囲の文字を白抜きで表示する。 Further, the position information of the acquired start keyword is set as a second color designation start point. Further, the position after the number of characters obtained by subtracting 1 from the number of characters of the start keyword from the position information of the start keyword is set as the second color designation end point. Then, characters in the range from the second color designation start point to the second color designation end point are displayed in white.
これに対し、表示画面800の領域802では、「サイト」と「通信」との組み合わせの間に「接続」と「手段」との組み合わせが存在している。この場合、まず、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については色指定の対象から除外し、外側に位置する「サイト」と「通信」との組み合わせについて、前述したようにして、「サイト」と「通信」との間にある文字の背景をグレーで表示にするとともに、「サイト」と「通信」とを白抜きで表示にする。その後、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)とを、前述したようにして白抜きで表示するとともに、内側に位置する開始キーワード(「接続」)から終了キーワード(「手段」)までの文字の背景を通常の背景色に戻す。
On the other hand, in the
尚、開始キーワード及び終了キーワードを強調表示する方法は、図10に示した方法に限定されない。例えば、開始キーワードと終了キーワードとの間にある文字の背景色だけでなく、開始キーワード及び終了キーワードの背景色もグレーで表示するようにしてもよい。
また、開始キーワード及び終了キーワードの組み合わせ毎に、表示方法を異ならせるようにしてもよい。具体的に説明すると、例えば、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については、赤色で表示し、外側に位置する開始キーワード(「サイト」)と終了キーワード(「通信」)との組み合わせについては、青色で表示するようにする。
The method for highlighting the start keyword and the end keyword is not limited to the method shown in FIG. For example, not only the background color of the character between the start keyword and the end keyword, but also the background color of the start keyword and the end keyword may be displayed in gray.
Also, the display method may be different for each combination of the start keyword and the end keyword. Specifically, for example, the start keyword (“connection”) and the end keyword (“means”) located inside are displayed in red, and the start keyword (“site”) and end keyword (“site”) located outside ( The combination with “communication”) is displayed in blue.
また、視認性をより向上させるために、内側に位置する開始キーワード(「接続」)と終了キーワード(「手段」)については色指定の対象から除外したままとし、外側に位置する「サイト」と「通信」との組み合わせについてのみ強調表示するようにしてもよい。さらに、外側に位置する開始キーワード(「サイト」)と終了キーワード(「通信」)との組み合わせを色指定の対象から除外し、内側に位置する「接続」と「手段」との組み合わせについてのみ強調表示するようにしてもよい。つまり、複数の近傍検索条件がある場合には、近傍検索による検索結果の表示領域が領域802のように包含関係になることがあり、このような場合の強調表示では、外側に存在する「サイト」と「通信」による表示と、内側に存在する「接続」と「手段」による表示とを異ならしめるように表示制御することで、より視認性を上げることができる。
In addition, in order to improve the visibility, the start keyword (“connection”) and the end keyword (“means”) located inside are kept excluded from the color designation, and the “site” located outside is designated as “site”. Only the combination with “communication” may be highlighted. Furthermore, the combination of the start keyword (“site”) and the end keyword (“communication”) located outside is excluded from the color specification target, and only the combination of “connection” and “means” located inside is emphasized. You may make it display. In other words, when there are a plurality of neighborhood search conditions, the display area of the search result by the neighborhood search may be inclusive as in the
以上のように本実施形態では、キーワード間文字数の範囲内に、開始キーワードと、終了キーワードとの組み合わせが2つ以上ある場合には、それら2つ以上の開始キーワードと、終了キーワードとの組み合わせのうち、開始キーワードと、終了キーワードとが最も近接している組み合わせを最適な組み合わせとし、その最適な組み合わせの開始キーワード及び終了キーワードを表示画面800に強調して表示するようにしたので、強調して表示されたキーワードが狭い範囲に多数存在してしまうことを可及的に防止することができる。これにより、ユーザは、結びつきが強い(注目すべき)キーワードを、一目で識別することができるようになる。したがって、本実施形態の文書検索システムを利用すれば、例えば、特許出願を行うに際しての先行技術調査や、権利調査の精度と効率とを可及的に高めることが可能となる。
As described above, in the present embodiment, when there are two or more combinations of the start keyword and the end keyword within the range of the number of characters between keywords, the combination of the two or more start keywords and the end keyword Among them, the combination in which the start keyword and the end keyword are closest to each other is regarded as the optimum combination, and the start keyword and the end keyword of the optimum combination are highlighted on the
また、複数の近傍検索条件に基づいて検索された開始キーワード及び終了キーワードについて、1つのマージ位置情報504を作成し、その作成したマージ位置情報504を用いて、開始キーワード及び終了キーワードの最適な組み合わせを抽出するようにしたので、近傍検索条件毎にマージ位置情報を作成する場合よりも、開始キーワード及び終了キーワードの最適な組み合わせを、より高速に抽出することができ、領域802のように2つの近傍検索条件の表示対象が包含関係になっている場合でも視認に適した表示を行うためのデータ管理と表示制御が容易に行えるようになる。 Also, one merge position information 504 is created for the start keyword and end keyword searched based on a plurality of neighborhood search conditions, and the optimum combination of the start keyword and end keyword is created using the created merge position information 504. Therefore, the optimal combination of the start keyword and the end keyword can be extracted at a higher speed than when the merge position information is created for each neighborhood search condition. Even when the display target of the neighborhood search condition is in an inclusive relationship, data management and display control for performing display suitable for visual recognition can be easily performed.
尚、本実施形態では、図1に示すように、文書検索装置101及びクライアント端末106を1つずつ設けるようにしたが、これら文書検索装置101及びクライアント端末106の少なくとも何れか一方を、複数設けて文書検索システムを構成するようにしてもよい。
In this embodiment, as shown in FIG. 1, one
また、本実施形態では、文書データベース103及び全文インデックス104を文書検索装置101に格納するようにしたが、文書データベース103及び全文インデックス104を、文書検索装置101と通信することが可能な他の装置(サーバ)に格納するようにしてもよい。
さらに、本実施形態では、キーワード間文字数を近傍検索条件としたが、開始キーワード及び終了キーワードが存在している範囲を示す情報であれば、必ずしもキーワード間文字数を近傍検索条件としなくてもよい。
また、本実施形態では、文書を順方向に近傍検索する場合を例に挙げて説明したが、前記順方向とは逆の方向に文書を近傍検索するようにしてもよい。
In the present embodiment, the
Furthermore, in this embodiment, the number of characters between keywords is used as the neighborhood search condition. However, the number of characters between keywords may not necessarily be used as the neighborhood search condition as long as the information indicates a range where the start keyword and the end keyword exist.
In the present embodiment, the case where a document is searched for in the vicinity in the forward direction has been described as an example. However, the document may be searched in the vicinity in the direction opposite to the forward direction.
(本発明の他の実施形態)
上述した実施形態の機能を実現するべく各種のデバイスを動作させるように、該各種デバイスと接続された装置あるいはシステム内のコンピュータに対し、前記実施形態の機能を実現するためのソフトウェアのプログラムコードを供給し、そのシステムあるいは装置のコンピュータ(CPUあるいはMPU)に格納されたプログラムに従って前記各種デバイスを動作させることによって実施したものも、本発明の範疇に含まれる。
(Other embodiments of the present invention)
In order to operate various devices to realize the functions of the above-described embodiments, program codes of software for realizing the functions of the above-described embodiments are provided to an apparatus or a computer in the system connected to the various devices. What is implemented by operating the various devices according to a program supplied and stored in a computer (CPU or MPU) of the system or apparatus is also included in the scope of the present invention.
また、この場合、前記ソフトウェアのプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそのプログラムコードをコンピュータに供給するための手段、例えば、かかるプログラムコードを格納した記録媒体は本発明を構成する。かかるプログラムコードを記憶する記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。 In this case, the program code of the software itself realizes the functions of the above-described embodiments, and the program code itself and means for supplying the program code to the computer, for example, the program code are stored. The recorded medium constitutes the present invention. As a recording medium for storing the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、コンピュータが供給されたプログラムコードを実行することにより、上述の実施形態の機能が実現されるだけでなく、そのプログラムコードがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して上述の実施形態の機能が実現される場合にもかかるプログラムコードは本発明の実施形態に含まれることは言うまでもない。 Further, by executing the program code supplied by the computer, not only the functions of the above-described embodiments are realized, but also the OS (operating system) or other application software in which the program code is running on the computer, etc. It goes without saying that the program code is also included in the embodiment of the present invention even when the functions of the above-described embodiment are realized in cooperation with the embodiment.
さらに、供給されたプログラムコードがコンピュータの機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合にも本発明に含まれることは言うまでもない。 Further, after the supplied program code is stored in the memory provided in the function expansion board of the computer or the function expansion unit connected to the computer, the CPU provided in the function expansion board or function expansion unit based on the instruction of the program code Needless to say, the present invention also includes a case where the functions of the above-described embodiment are realized by performing part or all of the actual processing.
101 サーバー(文書検索装置)
102 近傍検索/表示プログラム
103 文書データベース(文書DB)
104 全文インデックス
105 ネットワーク
106 クライアント端末
201 CPU
202 ROM
203 RAM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/Fコントローラ
209 キーボード
210 CRTディスプレイ
211 外部メモリ
503、504 マージ位置情報
901 検索条件指定画面
902 近傍検索条件テーブル
101 server (document search device)
102 Neighborhood Search /
104 Full-text index 105
202 ROM
203 RAM
204
Claims (9)
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、
前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとを有し、
前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする文書検索方法。 A document search method for searching a document file according to a neighborhood search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
A search step of searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched in the search step are within the existence range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result A column extraction step;
A display step of highlighting the character string extracted by the character string extraction step,
In the character string extraction step, when there are a plurality of character string sets composed of a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition, the character string extraction steps A document search method, wherein a set of character strings that are closest to each other is extracted as the highlighted character string.
前記文字列抽出ステップは、前記検索ステップにより取得された複数の文字列位置情報を、それら文字列位置情報に基づく順番で統合してマージ位置情報を作成し、作成したマージ位置情報を用いて、前記強調表示する文字列を抽出することを特徴とする請求項1に記載の文書検索方法。 In the search step, when a character string that matches a plurality of character strings included in the neighborhood search condition is searched, character string position information indicating a position where the plurality of character strings exist is acquired. And
The character string extraction step creates a merge position information by integrating a plurality of character string position information acquired by the search step in an order based on the character string position information, and using the created merge position information, The document search method according to claim 1, wherein the character string to be highlighted is extracted.
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索手段と、
前記検索手段により検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列が強調表示されるようにするための強調表示情報を作成する表示情報作成手段とを有し、
前記文字列抽出手段は、前記近傍検索条件に含まれている存在範囲内に、前記検索手段で検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とする文書検索装置。 A document search device that searches a document file according to a proximity search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
Search means for searching the document file for character strings that match a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched by the search means are within an existing range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result Column extraction means;
Display information creating means for creating highlighted display information for highlighting the character string extracted by the character string extracting means;
When there are a plurality of sets of character strings made up of a plurality of character strings searched by the search means within the existence range included in the neighborhood search condition, the character string extraction means A document search apparatus, wherein a set of character strings that are closest to each other is extracted as the highlighted character string.
前記文字列抽出手段は、前記検索手段により取得された複数の文字列位置情報を、それら文字列位置情報に基づく順番で統合してマージ位置情報を作成し、作成したマージ位置情報を用いて、前記強調表示する文字列を抽出することを特徴とする請求項4に記載の文書検索装置。 The search means, when a character string that matches a plurality of character strings included in the neighborhood search condition is searched, obtains character string position information indicating a position where the plurality of character strings exist. And
The character string extraction means integrates a plurality of character string position information acquired by the search means in order based on the character string position information, creates merge position information, and uses the created merge position information, The document search apparatus according to claim 4, wherein the character string to be highlighted is extracted.
前記近傍検索条件に含まれている複数の文字列と合致する文字列を前記文書ファイルから検索する検索ステップと、
前記検索ステップにより検索された複数の文字列が、前記近傍検索条件に含まれている存在範囲内にあるか否かを判定し、判定した結果に基づいて、強調表示する文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにより抽出された文字列を強調表示する表示ステップとをコンピュータに実行させ、
前記文字列抽出ステップは、前記近傍検索条件に含まれている存在範囲内に、前記検索ステップで検索された複数の文字列から成る文字列の組が複数存在する場合、それら複数の文字列の組のうち、最も近接している文字列の組を、前記強調表示する文字列として抽出することを特徴とするコンピュータプログラム。 A computer program for causing a computer to perform a search for a document file according to a proximity search condition including a plurality of character strings and the existence ranges of the plurality of character strings,
A search step of searching the document file for a character string that matches a plurality of character strings included in the neighborhood search condition;
A character that determines whether or not a plurality of character strings searched in the search step are within the existence range included in the neighborhood search condition, and extracts a character string to be highlighted based on the determined result A column extraction step;
Causing the computer to execute a display step of highlighting the character string extracted by the character string extraction step;
In the character string extraction step, when there are a plurality of character string sets composed of a plurality of character strings searched in the search step within the existence range included in the neighborhood search condition, the character string extraction steps A computer program, wherein a set of character strings closest to each other is extracted as the highlighted character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190753A JP2006012000A (en) | 2004-06-29 | 2004-06-29 | Method, device for retrieving document, computer program and computer readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190753A JP2006012000A (en) | 2004-06-29 | 2004-06-29 | Method, device for retrieving document, computer program and computer readable recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006012000A true JP2006012000A (en) | 2006-01-12 |
Family
ID=35779178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004190753A Pending JP2006012000A (en) | 2004-06-29 | 2004-06-29 | Method, device for retrieving document, computer program and computer readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006012000A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169513A (en) * | 2008-01-11 | 2009-07-30 | Toshiba Corp | Device, method and program for estimating nickname |
-
2004
- 2004-06-29 JP JP2004190753A patent/JP2006012000A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169513A (en) * | 2008-01-11 | 2009-07-30 | Toshiba Corp | Device, method and program for estimating nickname |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8181104B1 (en) | Automatic creation of cascading style sheets | |
US11592967B2 (en) | Method for automatically indexing an electronic document | |
EP1503305A2 (en) | Method for generating navigation of web site | |
US20020154117A1 (en) | Graphic editing apparatus graphic editing method and storage medium on which is recorded a program for graphic editing | |
JP2004240750A (en) | Picture retrieval device | |
CN107077515B (en) | Display control device, display control method, and display control medium | |
JP2006012000A (en) | Method, device for retrieving document, computer program and computer readable recording medium | |
JP2008276524A (en) | Information processor and information processing method | |
JP4976783B2 (en) | PROGRAM GENERATION DEVICE, PROGRAM GENERATION METHOD, PROGRAM, AND RECORDING MEDIUM | |
JP2001282773A (en) | Device and method for editing structured document and recording medium | |
JPH1021192A (en) | Operation extraction system and macro generation system | |
JPH1185457A (en) | Data processor, its data processing method, and storage medium storing computer-readable program | |
JP4191543B2 (en) | Output control device | |
JP2021064019A (en) | Sentence creation support device, sentence creation support system and program | |
JP2018092283A (en) | Information processing unit, control method for information processing unit, and program | |
JP2005115753A (en) | Device, method and program for processing search result, recording media, and search result processing system | |
JP2771095B2 (en) | Character processing method | |
JPH11161666A (en) | Method and device for document data retrieval and document editing device | |
JP3396374B2 (en) | Image processing apparatus and image processing method | |
JPH1097532A (en) | Information processor and method | |
JP2001134563A (en) | Method and device for editing structured document | |
JP2008065487A (en) | Information retrieval device and its control method, program, and storage medium | |
JP2006330998A (en) | Design information management system and design information management method | |
JPH06282619A (en) | Graphic plotting device | |
JPH1063678A (en) | Full sentence retrieved result display device |