JP5104329B2 - Document search system - Google Patents
Document search system Download PDFInfo
- Publication number
- JP5104329B2 JP5104329B2 JP2008006743A JP2008006743A JP5104329B2 JP 5104329 B2 JP5104329 B2 JP 5104329B2 JP 2008006743 A JP2008006743 A JP 2008006743A JP 2008006743 A JP2008006743 A JP 2008006743A JP 5104329 B2 JP5104329 B2 JP 5104329B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- keyword
- server
- appearance pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、端末とサーバとがネットワークを介して接続され、サーバが端末から受信した検索キーワードの関連キーワードを提示するドキュメント検索システムに関する。 The present invention relates to a document search system in which a terminal and a server are connected via a network, and the server presents related keywords of search keywords received from the terminal.
一般的なドキュメント検索システムでは、利用者が入力したキーワードに対して対象のドキュメントを検索し、検索結果のドキュメントの保管場所を提示する。ここで、ドキュメントとは、例えば、テキストファイル、HTML(Hyper Text Markup Language)ファイル、XML(Extensible Markup Language)ファイル、画像ファイル、その他文書レイアウトソフト、ワープロソフト、表計算ソフト等で作成された全てのファイルを含むものとする。 In a general document search system, a target document is searched for a keyword input by a user, and a storage location of the search result document is presented. Here, the document is, for example, a text file, an HTML (Hyper Text Markup Language) file, an XML (Extensible Markup Language) file, an image file, other document layout software, word processing software, spreadsheet software, etc. Includes files.
また、最近では、利用者が入力したキーワード(キーワード1とする。)に対して、過去の検索履歴(全利用者の検索履歴)を参照し、キーワード1と共に使用されたキーワード、またはキーワード1を含むキーワードを提示するサービスが行われている。例えば、利用者が「カレー」と入力した場合、過去の検索キーワードのトップ3として、「カレー レシピ」、「カレーの作り方」、「カレーうどん」を提示し、利用者の検索作業を支援する。しかし、過去の検索履歴を参照する場合、ドキュメントが日々更新されていく場合には有効なキーワードを提示することができない。
Also, recently, with reference to a keyword entered by a user (referred to as keyword 1), a past search history (search history of all users) is referred to, and a keyword used together with
一方、検索対象のドキュメントを参照し、検索キーワードの関連単語を提示するサービスも提案されている(特許文献1)。特許文献1では、関連単語として精度の高いものを提示するため、検索対象のドキュメントの中から「名詞、並立助詞、名詞」の順に並んでいるものを関連単語の組み合せとしている。
しかしながら、特許文献1の仕組みでは、関連単語としての精度を追求するあまり、提示できる関連単語が少なくなる可能性がある。すなわち、入力される検索キーワードに対して、関連単語を提示できない場合が多くなる可能性がある。また、提示された関連単語は関連度が極めて高いため、逆に広がりのないものになってしまう。例えば、検索対象ドキュメントが施設情報の場合、利用者は検索をする過程で「何をしたいか」、「どこに行きたいか」、「何を食べたいか」等を決定していく場合が多い。このような場合、特許文献1の仕組みでは、文法的な並列関係にある単語のみを関連単語としているため、利用者の検索作業を十分に支援することはできない。
However, in the mechanism of
本発明は、前述した問題点に鑑みてなされたもので、その目的は、入力された検索キーワードに対して、検索対象のドキュメントに含まれ、かつ広がりのある(文法的な並列関係にある単語のみにとらわれない)関連キーワードを提示し、利用者の検索作業を支援することができるドキュメント検索システムを提供することである。 The present invention has been made in view of the above-described problems, and the object of the present invention is included in a search target document with respect to an input search keyword, and has a broad (words in a grammatical parallel relationship). It is to provide a document search system that presents related keywords (not limited to only) and can support a user's search work.
前述した目的を達成するために第1の発明は、端末とサーバとがネットワークを介して接続され、前記サーバが前記端末から受信した検索キーワードの関連キーワードを提示するドキュメント検索システムであって、前記サーバは、単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語群関連度を算出する際の前記出現パターンごとの重みを出現パターン重みとして定義した単語属性出現パターン情報を保持する手段と、前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出する関連度算出手段と、前記関連度算出手段によって算出した前記単語群関連度を単語関連度情報として保持する手段と、前記端末から前記検索キーワードを受信すると、前記単語関連度情報を参照して前記検索キーワードの関連キーワードを提示する関連キーワード提示手段と、を具備することを特徴とするドキュメント検索システムである。第1の発明に係るドキュメント検索システムでは、入力された検索キーワードに対して、検索対象のドキュメントに含まれ、かつ広がりのある関連キーワードを提示し、利用者の検索作業を支援することができる。 In order to achieve the above object, a first invention is a document search system in which a terminal and a server are connected via a network, and the server presents a related keyword of a search keyword received from the terminal, The server defines a word type as a word attribute, defines a combination of the word attributes in which the word attribute appears within a certain range in the search target document as an appearance pattern, and calculates a word group relevance Means for holding word attribute appearance pattern information in which the weight for each appearance pattern is defined as the appearance pattern weight, and searching for a word group that matches the appearance pattern in the search target document, Relevance calculating means for calculating the word group relevance based on the distance and the appearance pattern weight, and the relevance calculating means. Means for holding the calculated word group relevance as word relevance information, and related keyword presenting means for presenting a related keyword of the search keyword with reference to the word relevance information when the search keyword is received from the terminal And a document search system characterized by comprising: In the document search system according to the first aspect of the present invention, it is possible to support a user's search work by presenting related keywords that are included in the search target document and have a broader range for the input search keyword.
前記第1の発明における前記単語群関連度は、例えば、前記出現パターン重みと単語群の距離の逆数との積を、事前に登録した全ての単語および全ての前記出現パターンに対して合算したものである。 The word group relevance in the first invention is, for example, the sum of the product of the appearance pattern weight and the reciprocal of the distance of the word group for all previously registered words and all the appearance patterns. It is.
また、前記出現パターン重みは、登録した単語群の出現順序が全て一致する場合と、それ以外の場合との両方の値を設定可能であることが望ましい。これによって、適切な値を設定すれば、提示する関連キーワードの精度を高めることができる(ここで、精度が高いとは、例えば、多くの利用者に対して検索作業を支援できる確率が高いことを言う。)。 In addition, it is desirable that the appearance pattern weights can be set to values in both cases where the appearance order of the registered word groups is identical and in other cases. Thus, if an appropriate value is set, the accuracy of the related keywords to be presented can be improved (here, high accuracy means that, for example, there is a high probability that search operations can be supported for many users) Say.)
また、前記単語属性出現パターン情報は、更新可能であることが望ましい。これによって、検索対象のドキュメントの量、内容が変化した場合でも、単語属性出現パターン情報を適切に更新することで関連キーワードの精度を保つことができる。 The word attribute appearance pattern information is preferably updatable. As a result, even when the amount and content of the search target document change, the accuracy of the related keywords can be maintained by appropriately updating the word attribute appearance pattern information.
また、前記関連キーワード提示手段は、前記検索キーワードによる検索結果、および/または前記関連キーワードに係る単語属性とともに、前記関連キーワードを提示することが望ましい。これによって、利用者は、自ら入力した検索キーワードによる検索結果と、提示された関連キーワードとを比較して、再び検索要求を行うかどうか判断することができる。また、利用者は、入力された検索キーワードに対して、広がりのある関連キーワード情報を自動的に(利用者自らが思考することなく)入手することができる。 The related keyword presenting means preferably presents the related keyword together with a search result based on the search keyword and / or a word attribute related to the related keyword. Thus, the user can determine whether or not to make a search request again by comparing the search result based on the search keyword input by himself with the presented related keyword. In addition, the user can automatically obtain broad related keyword information (without thinking by the user himself / herself) for the input search keyword.
第2の発明は、ネットワークを介して端末と接続され、前記端末から受信した検索キーワードの関連キーワードを提示するサーバであって、単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語群関連度を算出する際の前記出現パターンごとの重みを出現パターン重みとして定義した単語属性出現パターン情報を保持する手段と、前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出する関連度算出手段と、前記関連度算出手段によって算出した前記単語群関連度を単語関連度情報として保持する手段と、前記端末から前記検索キーワードを受信すると、前記単語関連度情報を参照して前記検索キーワードの関連キーワードを提示する関連キーワード提示手段と、を具備することを特徴とするサーバである。 A second invention is a server that is connected to a terminal via a network and presents a related keyword of a search keyword received from the terminal, wherein a word type is defined as a word attribute, and the word attribute is included in a search target document. Word attribute appearance pattern information in which a combination of the word attributes appearing within a certain close range is defined as an appearance pattern, and a weight for each appearance pattern when calculating the word group relevance is defined as an appearance pattern weight Relevance calculating means for searching for a word group that matches the appearance pattern in the search target document, and calculating a word group relevance by the distance of the searched word group and the appearance pattern weight; A means for holding the word group relevance calculated by the relevance calculation means as word relevance information; Upon receiving the keyword, a server, characterized by comprising, a related keyword presentation means for presenting the related keywords of the search keyword by referring to the word relevance information.
第3の発明は、端末とサーバとがネットワークを介して接続され、前記サーバは単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語群関連度を算出する際の前記出現パターンごとの重みを出現パターン重みとして定義した単語属性出現パターン情報を保持し、前記サーバが前記端末から受信した検索キーワードの関連キーワードを提示するドキュメント検索方法であって、前記サーバが、前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出するステップと、前記サーバが、前記単語群関連度を算出するステップによって算出した前記単語群関連度を単語関連度情報として保持するステップと、前記端末が、前記検索キーワードを前記サーバに送信するステップと、前記サーバが、前記単語関連度情報を参照し、受信した前記検索キーワードの関連キーワードを提示するステップと、を含むことを特徴とするドキュメント検索方法である。 In a third invention, a terminal and a server are connected via a network, the server defines a word type as a word attribute, and the word attribute appears within a certain range in the search target document. A combination of word attributes is defined as an appearance pattern, word attribute appearance pattern information is defined in which the weight for each occurrence pattern when calculating the word group relevance is defined as an appearance pattern weight, and the server receives from the terminal A document search method for presenting related keywords of a search keyword, wherein the server searches a word group that matches the appearance pattern in the search target document, and the distance between the searched word group and the appearance pattern weight And calculating the word group relevance by the server and calculating the word group relevance by the server. Holding the word group relevance as word relevance information, the terminal transmitting the search keyword to the server, and the server referring to the word relevance information and receiving the search And a step of presenting a keyword related to the keyword.
第4の発明は、コンピュータを第2の発明に記載のサーバとして機能させるプログラムである。 A fourth invention is a program for causing a computer to function as the server described in the second invention.
本発明により、入力された検索キーワードに対して、検索対象のドキュメントに含まれ、かつ広がりのある関連キーワードを提示し、利用者の検索作業を支援することができるドキュメント検索システムを提供することができる。そして、このようなドキュメント検索システムは、例えば、検索対象ドキュメントが施設情報の場合、利用者の検索作業を十分に支援することができる。 According to the present invention, it is possible to provide a document search system capable of supporting a user's search operation by presenting a wide range of related keywords included in a search target document with respect to an input search keyword. it can. Such a document search system can sufficiently support a user's search work when the search target document is facility information, for example.
以下図面に基づいて、本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
まず、図1を参照しながら、本発明の実施の形態に係るドキュメント検索システム1の概略構成について説明する。
First, a schematic configuration of a
図1は、ドキュメント検索システム1の概略構成を示す図である。図1に示すように、ドキュメント検索システム1は、管理者端末3、インデックス作成用サーバ5、検索用サーバ7、ウェブサーバ9、利用者端末11等が、ネットワーク(図示しない)を介して接続される。
FIG. 1 is a diagram showing a schematic configuration of a
インデックスとは、利用者に提示する関連キーワードに係る関連単語を高速に検索するために作成するデータを指す。本発明の実施の形態では、インデックスを作成し、関連単語の情報(検索単語との関連情報、格納場所情報、関連単語の属性情報等)を複数のファイルに分割して保持する。 The index refers to data that is created in order to quickly search for related words related to related keywords presented to the user. In the embodiment of the present invention, an index is created, and related word information (related information with a search word, storage location information, related word attribute information, etc.) is divided into a plurality of files and held.
管理者端末3は、ドキュメント検索システム1の管理者が使用する端末であり、インデックス作成用サーバ5と通信を行う。管理者は、管理者端末3を介してドキュメント検索システム1で使用するデータをインデックス作成用サーバ5に送信する。尚、管理者は、ドキュメント検索システム1で使用するデータを直接インデックス作成用サーバ5に入力しても良い。
The
インデックス作成用サーバ5は、関連キーワードのインデックスを作成するサーバであり、管理者端末3、検索用サーバ7、ウェブサーバ9と通信を行う。
The
検索用サーバ7は、関連キーワードのデータを保持するサーバであり、インデックス作成用サーバ5、ウェブサーバ9と通信を行う。
The
ウェブサーバ9は、利用者端末11から送信される検索等の要求に応答するサーバであり、インデックス作成用サーバ5、検索用サーバ7と通信を行う。
The web server 9 is a server that responds to a search request transmitted from the
利用者端末11は、ドキュメント検索システム1の利用者が使用する端末であり、ウェブサーバ9と通信を行う。ドキュメント検索システム1を実施する際、利用者端末11は、基本的には、市販のOS(Operating System)ソフト、ウェブ閲覧ソフトがインストールされていれば、特別な機能を有する必要はない。
The
インデックス作成用サーバ5、検索用サーバ7、ウェブサーバ9は、1つの装置で構成しても良い。また、インデックス作成用サーバ5、検索用サーバ7、ウェブサーバ9は、負荷分散、耐障害性等を考慮して、同一の機能を有する装置を複数台設置するようにしても良い。
The
以下では、インデックス作成用サーバ5、検索用サーバ7、ウェブサーバ9を区別しない、または総称する場合、単に「サーバ」という。また、管理者端末3、利用者端末11を区別しない、または総称する場合、単に「端末」という。
Hereinafter, when the
次に、図2を参照しながら、各装置のハードウェア構成を説明する。 Next, the hardware configuration of each device will be described with reference to FIG.
図2は、端末とサーバを実現するコンピュータのハードウェア構成図である。尚、図2のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
端末とサーバを実現するコンピュータは、制御部21、記憶部23、メディア入出力部25、通信制御部27、入力部29、表示部31、周辺機器I/F部33等が、バス35を介して接続される。
FIG. 2 is a hardware configuration diagram of a computer that realizes a terminal and a server. Note that the hardware configuration in FIG. 2 is an example, and various configurations can be adopted depending on the application and purpose.
A computer that realizes a terminal and a server includes a
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
The
CPUは、記憶部23、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス35を介して接続された各装置を駆動制御し、端末とサーバが行う後述する処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部23、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部21が各種処理を行う為に使用するワークエリアを備える。
The CPU calls a program stored in the
The ROM is a non-volatile memory and permanently holds a computer boot program, a program such as BIOS, data, and the like.
The RAM is a volatile memory, and temporarily stores programs, data, and the like loaded from the
記憶部23は、HDD(ハードディスクドライブ)であり、制御部21が実行するプログラム、プログラム実行に必要なデータ等が格納される。プログラムに関しては、OSに相当する制御プログラムや、後述の処理に相当するアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
The
Each of these program codes is read by the
メディア入出力部25(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。 The media input / output unit 25 (drive device) inputs / outputs data, for example, a CD drive (-ROM, -R, -RW, etc.), DVD drive (-ROM, -R, -RW, etc.), MO drive, etc. And other media input / output devices.
通信制御部27は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク13間の通信を媒介する通信インタフェースであり、ネットワーク13を介して、他のコンピュータ間との通信制御を行う。
The
入力部29は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部29を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
The
An operation instruction, an operation instruction, data input, and the like can be performed on the computer via the
表示部31は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
The
周辺機器I/F(インタフェース)部33は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部33を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部33は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。
The peripheral device I / F (interface)
バス35は、各装置間の制御信号、データ信号等の授受を媒介する経路である。 The bus 35 is a path that mediates transmission / reception of control signals, data signals, and the like between the devices.
次に、図3を参照しながら、サーバのソフトウェア構成について説明する。 Next, the software configuration of the server will be described with reference to FIG.
図3は、サーバのソフトウェア構成図である。図3に示すように、サーバは、関連キーワードインデックス作成アプリケーション41、関連キーワード検索アプリケーション43等を具備する。
FIG. 3 is a software configuration diagram of the server. As shown in FIG. 3, the server includes a related keyword
関連キーワードインデックス作成アプリケーション41は、インデックス作成用サーバ5にインストールされ(但し、管理者端末3から入力する部分は、必要があれば、管理者端末3にインストールされる。)、単語情報登録51、ドキュメント登録52、インデックス作成53、インデックス配布54、インデックス作成履歴参照56等の機能を有する。更に、インデックス作成53の機能は、インデックス更新対象ドキュメント判別処理71、形態素解析処理72、単語変換処理73、キーワードアシスト利用単語選別処理74、関連度算出処理75、インデックス作成処理76等の処理を実行する。機能および処理の詳細は、図4から図16の説明にて後述する。
The related keyword
尚、キーワードアシストとは、検索キーワードの関連キーワードを提示して、利用者の検索作業を支援することを意味する。 The keyword assist means that the related keyword of the search keyword is presented to assist the user's search operation.
また、関連キーワードインデックス作成アプリケーション41は、単語属性出現パターン情報101、単語属性情報102、単語変換情報103、ドキュメント情報104、更新ドキュメント履歴情報105、インデックス実行処理履歴情報106、更新対象ドキュメント情報107、形態素解析結果情報108、単語変換結果情報109、関連度計算対象単語情報110、単語関連度情報111、インデックス作成処理履歴情報112、キーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115等のデータを一時的、又は半永久的に保持する。データの詳細は、図4から図16の説明にて後述する。
The related keyword
関連キーワード検索アプリケーション43は、検索用サーバ7にインストールされ(但し、利用者端末11からの要求に応答する部分は、ウェブサーバ9にインストールされる。)、関連キーワード検索55等の機能を有する。機能の詳細は、図4から図16の説明にて後述する。
The related
また、関連キーワード検索アプリケーション43は、関連キーワードインデックス作成アプリケーション41から配布される、キーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115等のデータを半永久的に保持する。データの詳細は、図4から図16の説明にて後述する。
Further, the related
次に、図4を参照しながら、ドキュメント検索システム1における作業フローについて説明する。
Next, a work flow in the
図4は、ドキュメント検索システム1における作業フローの概要を示す図である。図4に示すように、ドキュメント検索システム1における作業は、単語情報の定義61、ドキュメントの収集・更新62、インデックスの作成63、インデックスの配布64、検索要求の受付65等の順番で行う。
FIG. 4 is a diagram showing an outline of a work flow in the
単語情報の定義61では、管理者が単語属性出現パターン情報101、単語属性情報102、単語変換情報103等の登録・更新・削除作業を行う。このとき、関連キーワードインデックス作成アプリケーション41が具備する単語情報登録51の機能を用いる。単語情報の定義61は、システム運用前に一括で行うことが望ましい。また、単語情報の定義61は、システム運用後も、管理者が定期的に行うことが望ましい。
In the
ドキュメントの収集・更新62では、例えば、管理者がドキュメント情報104等の登録・更新・削除作業を行う。このとき、関連キーワードインデックス作成アプリケーション41が具備するドキュメント登録52の機能を用いる。また、例えば、コンピュータがドキュメントの自動収集作業を行っても良い。
In the document collection /
インデックスの作成63では、インデックス作成用サーバ5がキーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115等の作成作業を行う。このとき、関連キーワードインデックス作成アプリケーション41が具備するインデックス作成53の機能を用いる。インデックスの作成63は、管理者の指示によって実行するようにしても良いし、バッチ処理で1日1回など定期的に実行するようにしても良い。
In the
インデックスの配布64では、インデックス作成用サーバ5がキーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115等の配布作業を行う。このとき、関連キーワードインデックス作成アプリケーション41が具備するインデックス配布54の機能を用いる。
In the index distribution 64, the
検索要求の受付65では、ウェブサーバ9が利用者端末11からの検索要求の受付作業を行う。また、検索サーバ7が検索要求に対する検索作業を行う。このとき、関連キーワード検索アプリケーション43が具備する関連キーワード検索55の機能を用いる。検索要求の受付65は、ドキュメントの収集・更新62、インデックスの作成63、インデックスの配布64の作業中に行っても良い。但し、一度もドキュメントの収集・更新62、インデックスの作成63、インデックスの配布64の作業を行っていない場合、検索結果は0件となる。
In the
尚、図示はしていないが、管理者は単語情報の定義61の作業の際、インデックス作成履歴の参照も行うことができる。このとき、管理者は、関連キーワードインデックス作成アプリケーション41が具備するインデックス作成履歴参照56の機能を用いて、インデックス作成処理履歴情報112を参照する。インデックス作成処理履歴情報112には、過去に実行したインデックス作成処理の履歴データが含まれる。
Although not shown, the administrator can also refer to the index creation history when working with the
以下では、図5から図16を参照しながら、図3で示した機能、処理、データを図4に示した作業ごとに詳細に説明する。 Hereinafter, the functions, processes, and data shown in FIG. 3 will be described in detail for each operation shown in FIG. 4 with reference to FIGS.
(単語情報の定義61)
図5から図7を参照しながら、単語情報の定義61の作業に関する機能等について説明する。本発明の実施の形態では、検索対象ドキュメントが施設情報の場合を例にして説明する。
(
With reference to FIGS. 5 to 7, functions related to the work of the
図5は、単語属性出現パターン情報101の一例を示す図である。出現パターンとは、ドキュメント内にどのような種類の単語がどのような順序で出現しているかの類型である。
FIG. 5 is a diagram illustrating an example of the word attribute
管理者は、単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語間の関連度を算出する際の出現パターンごとの重みを出現パターン重みとして定義する。すなわち、単語属性出現パターン情報101は、出現パターンID、出現パターンごとに定義する複数の単語属性、出現パターン重み等のデータ項目を有する。出現パターンは、例えば、128個程度まで登録できる。
The administrator defines a word type as a word attribute, defines a combination of the word attributes in which the word attribute appears within a certain range in the search target document as an appearance pattern, and determines the degree of association between words. The weight for each appearance pattern at the time of calculation is defined as the appearance pattern weight. That is, the word attribute
出現パターンの数は、提示する関連キーワードの精度(ここで、精度が高いとは、例えば、多くの利用者に対して検索作業を支援できる確率が高いことを言う。)、検索処理のパフォーマンス等に影響するため、システムの運用後も随時メンテナンスを行うことが望ましい。具体的には、多くのドキュメントの内容が変更された場合、またはドキュメントの数が大きく増減した場合、管理者は、単語属性出現パターン情報101を更新することが望ましい。本発明の実施の形態では、単語属性出現パターン情報101は、管理者が容易に更新できるように構成する。
The number of appearance patterns is the accuracy of the related keywords to be presented (here, high accuracy means, for example, that there is a high probability that search operations can be supported for many users), search processing performance, etc. Therefore, it is desirable to perform maintenance from time to time even after system operation. Specifically, when the contents of many documents are changed, or when the number of documents greatly increases or decreases, the administrator desirably updates the word attribute
単語の種類、すなわち単語属性は、例えば、地名等に関する単語である「地名単語」、店舗の名称等に関する単語である「店名単語」、料理の名称等に関する単語である「料理単語」、食材等に関する単語である「食材単語」、駅の名称等に関する単語である「駅名単語」等である。出現パターンごとに並べる単語属性は2個以上であり、例えば、最大8個である。 Types of words, that is, word attributes are, for example, “place name words” that are words related to place names, etc., “store name words” that are words related to store names, etc., “cooking words” that are words related to dish names, etc. “Food word” that is a word related to “station name”, “Station name word” that is a word related to the name of the station, etc. There are two or more word attributes arranged for each appearance pattern, for example, a maximum of eight.
出現パターン重みの意義は、管理者が検索対象のドキュメント群を閲覧し(またはドキュメント作成者からの要望でも良い。)、例えば、各ドキュメントを特定する確率が高い出現パターンに対して高い値を設定する、等によって提示する関連キーワードの精度を高めることができるというものである。また、出現パターン重みは、登録した単語群の出現順序が全て一致する場合と、それ以外の場合との両方の値を設定可能である。これによって、更に、提示する関連キーワードの精度を高めることができる。 The significance of the appearance pattern weight is set to a high value for an appearance pattern in which the administrator browses a group of documents to be searched (or may be a request from the document creator) and has a high probability of specifying each document, for example. It is possible to improve the accuracy of related keywords to be presented. In addition, the appearance pattern weight can be set for both the case where the appearance order of the registered word groups is identical and the other case. This further increases the accuracy of the related keywords to be presented.
図5に示すように、出現パターンIDが「1」のデータは、単語属性の出現順序が「地名単語」、「店名単語」であり、単語群の出現順序が全て一致する場合の出現パターン重みが「1」、それ以外の場合の出現パターン重みが「0.5」である。また、出現パターンIDが「2」のデータは、単語属性の出現順序が「店名単語」、「料理単語」、「食材単語」であり、単語群の出現順序が全て一致する場合の出現パターン重みが「1」、それ以外の場合の出現パターン重みが「0.5」である。また、出現パターンIDが「3」のデータは、単語属性の出現順序が「地名単語」、「駅名単語」であり、単語群の出現順序が全て一致する場合の出現パターン重みが「1」、それ以外の場合の出現パターン重みが「0.5」である。 As shown in FIG. 5, in the data with the appearance pattern ID “1”, the appearance pattern weights when the appearance order of the word attributes is “place name word” and “store name word” and the appearance order of the word groups all match. Is “1”, and the appearance pattern weight in other cases is “0.5”. In addition, in the data with the appearance pattern ID “2”, the appearance pattern weights when the appearance order of the word attributes is “store name word”, “cooking word”, and “food word” and the appearance order of the word groups all match. Is “1”, and the appearance pattern weight in other cases is “0.5”. In addition, in the data with the appearance pattern ID “3”, the appearance order of the word attributes is “place name word” and “station name word”, and the appearance pattern weight is “1” when the appearance order of the word groups all match. In other cases, the appearance pattern weight is “0.5”.
図6は、単語属性情報102の一例を示す図である。管理者は、検索対象のドキュメント群を閲覧し(またはドキュメント作成者からの要望でも良い。)、検索キーワード、または関連キーワードとして使用する単語を決定する。そして、管理者は、検索キーワード、または関連キーワードとして使用する単語の単語属性を定義する。尚、基本的には、ここで定義した単語のみが後述する処理で用いられる。
FIG. 6 is a diagram illustrating an example of the
単語属性情報102は、単語ID、単語、単語属性等のデータ項目を有する。図6に示すように、単語IDが「1」のデータは、単語が「北海道」、単語属性が「地名単語」である。また、単語IDが「4」のデータは、単語が「マクドナルド(登録商標)」、単語属性が「店名単語」である。
The word attribute
図7は、単語変換情報103の一例を示す図である。単語は、一般に表記の揺れ、略語等によって同じ意味の文字列が複数存在する。これら同じ意味の文字列を一つの単語として扱うために、管理者は、単語変換情報103を登録することが望ましい。
FIG. 7 is a diagram illustrating an example of the
単語変換情報103は、変換前単語、変換後単語等のデータ項目を有する。図7に示すように、変換前単語が「マクド(マクドナルド(登録商標)の略語の一つ)」のデータは、変換後単語が「マクドナルド(登録商標)」である。
The
(ドキュメントの収集・更新62)
次に、図8を参照しながら、ドキュメントの収集・更新62の作業に関する機能等について説明する。
(Document collection / update 62)
Next, functions related to the work of document collection /
図8は、ドキュメント情報104のデータ項目の一例を示す図である。管理者は、サーバが最終的に利用者に提示するドキュメント(厳密に言うと、サーバはドキュメントの保管場所を提示する。)に係るドキュメント情報104の登録・更新・削除作業を行う。また、コンピュータがドキュメントの自動収集作業を行い、ドキュメント情報104の登録・更新・削除作業を行っても良い。
FIG. 8 is a diagram illustrating an example of data items of the
図8に示すように、ドキュメント情報104は、ドキュメントID、URI(Uniform Resource Identifier)、サイトID、タイトル、カテゴリ、キーワード、本文、最終更新日、ダウンロード時間、状態等のデータ項目を有する。
As illustrated in FIG. 8, the
ドキュメントIDは、ドキュメントのユニークなID番号である。URIは、ドキュメントのURL(Uniform Resource Locator)である。サイトIDは、ドキュメントが存在するサイトのサイト名である。タイトルは、ドキュメントのタイトルである。カテゴリは、ドキュメントのカテゴリ名である。キーワードは、ドキュメントに付加するキーワードである。本文は、ドキュメントの本文である。最終更新日は、ドキュメントの最終更新日である。ダウンロード時間は、ドキュメントをダウンロードした時間である。状態は、新規または更新/変更なし/削除を表す数値である。 The document ID is a unique ID number of the document. The URI is a document URL (Uniform Resource Locator). The site ID is the site name of the site where the document exists. The title is the title of the document. The category is a category name of the document. The keyword is a keyword added to the document. The text is the text of the document. The last update date is the last update date of the document. The download time is the time when the document is downloaded. The status is a numerical value indicating new or updated / no change / deleted.
本発明の実施の形態で利用するデータ項目は、ドキュメントID、タイトル、本文、状態等である。 Data items used in the embodiment of the present invention are a document ID, a title, a text, a state, and the like.
(インデックスの作成63およびインデックスの配布64)
次に、図9から図15を参照しながら、インデックスの作成63およびインデックスの配布64の作業に関する機能等について説明する。
(
Next, functions and the like regarding the work of
図9は、インデックス更新対象ドキュメント判別処理71におけるデータの流れを示す図である。図9に示すように、インデックス更新対象ドキュメント判別処理71では、サーバがドキュメント情報104を基に、更新ドキュメント履歴情報105、インデックス実行処理履歴情報106を参照し、更新対象ドキュメント情報107を作成する。ここで、更新対象ドキュメント情報107は、次の処理(形態素解析処理72)が終了すれば不要であることから、一時的に保持していれば良い。
FIG. 9 is a diagram illustrating a data flow in the index update target document determination processing 71. As shown in FIG. 9, in the index update target document determination processing 71, the server creates update
例えば、管理者がインデックスの作成を指示する場合、全ドキュメントからインデックスを新規に作成するか(新規作成モード)、新規登録/更新/削除された差分のみを対象に既存のインデックスを更新するか(更新モード)を選択するようにしても良い。また、バッチ処理の場合、例えば、特定曜日、または月末日のみ新規作成モードとし、それ以外の日は更新モードとするようにしても良い。 For example, when an administrator instructs creation of an index, whether to create a new index from all documents (new creation mode), or to update an existing index only for newly registered / updated / deleted differences ( Update mode) may be selected. In the case of batch processing, for example, the new creation mode may be set only on a specific day of the week or the last day of the month, and the update mode may be set on other days.
サーバは、選択されたモード、更新ドキュメント履歴情報105、インデックス実行処理履歴情報106を参照し、ドキュメント情報104からインデックス作成の対象となるドキュメントを抽出し、更新対象ドキュメント情報107を作成する。
The server refers to the selected mode, the updated
図10は、形態素解析処理72におけるデータの流れを示す図である。図10に示すように、形態素解析処理72では、サーバが更新対象ドキュメント情報107を基に形態素解析結果情報108を作成する。ここで、形態素解析結果情報108は、次の処理(単語変換処理73)が終了すれば不要であることから、一時的に保持していれば良い。
FIG. 10 is a diagram showing a data flow in the
サーバは、更新対象ドキュメント情報107から、ドキュメントのタイトルと本文を形態素レベルに分解することで、形態素解析結果情報108を作成する。図10に示すように、サーバは、例えば、「恵比寿駅から3分のところにあるマクドナルド(登録商標)・・・」という文字列に対し、「恵比寿/駅/から/3/分/の/ところ/に/ある/マクドナルド(登録商標)・・・」と形態素レベルに分解する。
The server generates the morpheme analysis result
図11は、単語変換処理73におけるデータの流れを示す図である。図11に示すように、単語変換処理73では、サーバが形態素解析結果情報108を基に単語変換結果情報109を作成する。ここで、単語変換結果情報109は、次の処理(キーワードアシスト利用単語選別処理74)が終了すれば不要であることから、一時的に保持していれば良い。
FIG. 11 is a diagram illustrating a data flow in the
サーバは、単語の表記の揺れ等を統一するため、単語変換情報103を参照し、形態素解析結果情報108を変換して、単語変換結果情報109を作成する。図11に示すように、「マック(マクドナルド(登録商標)の略語の一つ)」、「マクド(マクドナルド(登録商標)の略語の一つ)」、「マクドナルド(登録商標)」、「McDonald’s(登録商標)」は、全て同じ意味、すなわち「マクドナルド(登録商標)」という店舗の名称であることから、「マクドナルド(登録商標)」に変換する。
The server refers to the
図12は、キーワードアシスト利用単語選別処理74におけるデータの流れを示す図である。図12に示す「特定の形態素解析エンジンによる品詞の分類の例116」は、キーワードアシストに利用する単語の品詞の一例であり、品詞の分類はこれに限定されるものではない。図12に示すように、キーワードアシスト利用単語選別処理74では、サーバが単語変換結果情報109を基に、単語属性情報102、特定の形態素解析エンジンによる品詞の分類の例116によって例示されるキーワードアシストに利用する単語の品詞の分類情報を参照し、関連度計算対象単語情報110を作成する。
FIG. 12 is a diagram illustrating a data flow in the keyword assist using
サーバは、キーワードアシストを高速に行う為、キーワードアシストに利用する単語を選別する。具体的には、サーバは、キーワードアシストに利用する単語の品詞116に示す品詞の単語、かつ単語属性情報102に登録されている単語を条件として、単語変換結果情報109から単語を抽出し、関連度計算対象単語情報110を作成する。
尚、前述のキーワードアシストに利用する単語の品詞は、検索対象とするドキュメントの内容、用途等によっては名詞以外を含めても良い。
The server selects words used for keyword assist in order to perform keyword assist at high speed. Specifically, the server extracts a word from the word
It should be noted that the part of speech of the word used for the keyword assist described above may include other than nouns depending on the content, usage, etc. of the document to be searched.
図13は、関連度算出処理75の処理の流れを示す図である。また、図14は、関連度算出処理75におけるデータの流れを示す図である。以下では、図13を中心として、図14を参照しながら、関連度算出処理75について説明する。
FIG. 13 is a diagram illustrating a processing flow of the
関連度算出処理75では、サーバが、検索対象ドキュメントの中で出現パターンと一致する単語群を検索し、検索した単語群の距離と出現パターン重みとによって単語群関連度を算出する。また、サーバは、算出した単語群関連度を単語関連度情報111として保持する。
In the degree-of-
図13に示すように、サーバの制御部21は、ドキュメントIDの添字k(kは自然数)に1を代入し(ステップ1001)、単語抽出回数n(nは0または自然数)に0を代入し(ステップ1002)、出現パターンの添字m(mは自然数)に1を代入し(ステップ1003)、初期化処理を行う。ここで、ドキュメントIDの添字kとは、図14に示す関連度計算対象単語情報110に係る表のドキュメントIDの欄の番号である。図14では、一例として、1、2、・・・、862が図示されている。尚、同じ表の出現位置の欄の値は、その単語がドキュメントの中で何単語目に出現したかを示すものである。また、単語抽出回数nとは、図14に示す単語抽出81の矢印を1回目とし、単語抽出81を行う回数を示す値である。また、出現パターンの添字mとは、図14に示す単語属性出現パターン情報101に係る表の先頭の番号である。図14では、一例として、1、2、3が図示されている。
As shown in FIG. 13, the
次に、サーバの制御部21は、k番目のドキュメントの中で、関連度計算対象単語情報110に登録されている(n×P−n)番目(Pは自然数)の単語を先頭として、P個の単語を抽出する(ステップ1004)。ここで、抽出個数Pは、例えば、100個である。また、抽出個数Pを大きい値にすれば、ほとんどのドキュメントに対して、ドキュメント全体の単語を抽出して後続の処理を実行することが可能である。図14では、単語抽出81の矢印が示す表によって、ステップ1004で抽出した単語を表わしている。
Next, the
次に、サーバの制御部21は、m番目の出現パターンに一致する全ての単語群に対して関連度を算出し(ステップ1005)、単語関連度情報111を更新する(ステップ1006)。具体的には、ステップ1005およびステップ1006を繰り返すことで、サーバの制御部21は、出現パターン重みと単語群の距離の逆数との積を、事前に登録した全ての単語(但し、検索対象のドキュメントに出現する単語に限る。)および全ての出現パターンに対して合算し、単語群関連度とする。尚、図5の説明にて前述したように、出現パターン重みは、登録した単語群の出現順序が全て一致する場合と、それ以外の場合との両方の値を設定可能である。
Next, the
図14に示す関連度算出82の矢印では、ステップ1005およびステップ1006を二つのデータ(後述するデータ(1)、データ(2)に相当)に対してだけ実行したときの例を表わしている。具体的には、サーバの制御部21は、単語属性の出現パターン情報101から、出現パターンの添字mが「1」のデータを取得する。次に、サーバの制御部21は、単語属性が「地名単語」と「料理単語」である単語群を抽出する。図14に示す例では、単語が「東京」(出現位置が「10」)と「カレー」(出現位置が「87」)(データ(1))、および単語が「カレー」(出現位置が「87」)と「東京」(出現位置が「928」)(データ(2))の二つのデータを抽出している。次に、サーバの制御部21は、出現パターン重みと距離の逆数との積を算出する。まず、データ(1)の場合、登録した単語群に係る単語属性の出現順序(最初に「地名単語」、次に「料理単語」)が全て一致することから、出現パターン重みは「1」となる。また、距離は、例えば、単語が「カレー」の出現位置「87」から、単語が「東京」の出現位置「10」を引いた値とする。一方、データ(2)の場合、登録した単語群に係る単語属性の出現順序と一致しないことから、出現パターン重みは「0.5」となる。また、距離は、例えば、単語が「東京」の出現位置「928」から、単語が「カレー」の出現位置「87」を引いた値とする。これを式で示すと、1×(1/(87−10))+0.5×(1/(928−87))=0.01358・・・となる。従って、図14に示す単語関連度情報111に係る表において、単語1が「東京」、単語2が「カレー」のレコードは、関連度が「0.0136」となっている。
The arrow of the relevance calculation 82 shown in FIG. 14 represents an example when step 1005 and step 1006 are executed only for two data (corresponding to data (1) and data (2) described later). Specifically, the
尚、図14に示す例では、距離の算出は、出現位置の差で求めていたが、他の算出方法でも良い。例えば、各ドキュメントに含まれる総単語数を用いて正規化するようにしても良い。 In the example shown in FIG. 14, the distance is calculated from the difference in appearance position, but other calculation methods may be used. For example, normalization may be performed using the total number of words included in each document.
図13の説明に戻る。次に、サーバの制御部21は、出現パターンの添字mにm+1を代入し(ステップ1007)、m>M(Mは出現パターンの添字の最終番号)を満たすかどうか確認する(ステップ1008)。
条件を満たさない場合(ステップ1008のNo)、サーバの制御部21は、ステップ1005から繰り返す。
条件を満たす場合(ステップ1008のYes)、サーバの制御部21は、ステップ1009に進む。
Returning to the description of FIG. Next, the
When the condition is not satisfied (No in Step 1008), the
When the condition is satisfied (Yes in Step 1008), the
次に、サーバの制御部21は、単語抽出回数nにn+1を代入し(ステップ1009)、ステップ1004でP個の単語を抽出しているかどうか確認する(ステップ1010)。
条件を満たす場合(ステップ1010のYes)、サーバの制御部21は、ステップ1003から繰り返す。
条件を満たさない場合(ステップ1010のNo)、サーバの制御部21は、ステップ1011に進む。
Next, the
If the condition is satisfied (Yes in step 1010), the
When the condition is not satisfied (No in Step 1010), the
次に、サーバの制御部21は、ドキュメントIDの添字kにk+1を代入し(ステップ1011)、k>K(KはドキュメントIDの添字の最終番号)を満たすかどうか確認する(ステップ1012)。
条件を満たさない場合(ステップ1012のNo)、サーバの制御部21は、ステップ1002から繰り返す。
条件を満たす場合(ステップ1012のYes)、サーバの制御部21は、処理を終了する。
Next, the
When the condition is not satisfied (No in Step 1012), the
If the condition is satisfied (Yes in step 1012), the
図15は、インデックス作成処理76におけるデータの流れを示す図である。図15に示すように、インデックス作成処理76では、サーバが単語関連度情報111を基に、キーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115を作成する。ここで、キーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115は、検索処理の高速化の為、図15に示すインデックスデータ117に相当するデータを分割して保持している。
FIG. 15 is a diagram showing a data flow in the
図4に示すインデックスの配布64の作業に関する機能等については、特に図示はしていない。インデックスの配布64は、関連キーワード検索アプリケーション43をインストールする装置に対して、キーワードアシストハッシュ情報113、キーワードアシスト検索単語情報114、キーワードアシスト関連単語情報115を配布する作業である。
The functions related to the work of index distribution 64 shown in FIG. 4 are not particularly shown. The index distribution 64 is an operation of distributing the keyword assist
(検索要求の受付65)
次に、図16を参照しながら、検索要求の受付65の作業に関する機能等について説明する。
(Retrieval request reception 65)
Next, with reference to FIG. 16, functions and the like related to the work of the
図16は、検索要求の受付65に関する処理の流れを示す図である。検索要求の受付65に関する処理では、サーバは、利用者が検索キーワードとして入力した検索単語を受信して関連単語を検索する。
FIG. 16 is a diagram showing a flow of processing related to the
図16に示すように、サーバの制御部21は、検索単語のトリミング、文字変換を行う(ステップ2001)。検索単語のトリミング、文字変換とは、(1)検索単語の両端の空白を削除、(2)全角英数字から半角英数字への変換、(3)半角カタカナから全角カタカナへの変換、(4)大文字英字から小文字英字への変換、等を行うことである。
As shown in FIG. 16, the
次に、サーバの制御部21は、既定のハッシュ関数を利用してキーワードアシストハッシュ情報113から検索単語ファイル位置を検索し(ステップ2002)、対象のデータが存在するかどうか確認する(ステップ2003)。
対象のデータが存在する場合(ステップ2003のYes)、サーバの制御部21は、ステップ2004に進む。
対象のデータが存在しない場合、(ステップ2003のNo)、サーバの制御部21は、処理を終了する。
Next, the
When the target data exists (Yes in Step 2003), the
When the target data does not exist (No in Step 2003), the
次に、サーバの制御部21は、キーワードアシスト検索単語情報114から関連単語ファイル位置を検索し(ステップ2004)、対象のデータが存在するかどうか確認する(ステップ2005)。
対象のデータが存在する場合(ステップ2005のYes)、サーバの制御部21は、ステップ2006に進む。
対象のデータが存在しない場合、(ステップ2005のNo)、サーバの制御部21は、処理を終了する。
Next, the
When the target data exists (Yes in Step 2005), the
When the target data does not exist (No in Step 2005), the
次に、サーバの制御部21は、キーワードアシスト関連単語情報115から関連単語の一覧を取得する(ステップ2006)。ここで、関連単語とともに、関連単語に紐付く関連度、単語属性も合わせて取得することが望ましい。取得した関連単語、関連度、単語属性は、サーバの制御部21が関連キーワードとして利用者の端末に送信する。送信する関連キーワードは、取得した関連単語等の全てでも良いし、関連度が閾値以上のものだけでも良いし、関連度が上位のものだけでも良い。
尚、サーバの制御部21は、利用者が入力した検索キーワードによる検索を別途行い、検索キーワードによる検索結果とともに、関連キーワードを提示するようにしても良い。これによって、利用者は、自ら入力した検索キーワードによる検索結果と、提示された関連キーワードとを比較して、再び検索要求を行うかどうか判断することができる。また、サーバの制御部21は、単語属性を取得する場合、単語属性も含めて利用者に提示するようにしても良い。これによって、利用者は、入力された検索キーワードに対して、広がりのある関連キーワード情報を自動的に(利用者自らが思考することなく)入手することができる。
Next, the
Note that the
また、更に、サーバの制御部21は、端末から関連キーワードを入力することなく、端末が関連キーワードによって再び検索要求を送信できるように提示することが望ましい。具体的には、(ウェブサーバ9としての)サーバの制御部21は、例えば、「関連キーワードの表示部分は利用者が端末の入力部29で選択可能であり、かつ利用者が入力部29を介して関連キーワードの表示部分を選択すると、端末が関連キーワードによる検索要求を送信する」HTTP(HyperText Transfer Protocol)レスポンスを端末に送信すれば良い。これによって、利用者は検索作業をスムーズに行うことができる。
Further, it is desirable that the
次に、図17から図21を参照しながら、本発明の実施の形態に係る実施例について説明する。本実施例は、情報ポータルサイトにおいて、サイト内検索機能の補助機能として、キーワードアシスト機能を利用する例である。 Next, examples according to the embodiment of the present invention will be described with reference to FIGS. The present embodiment is an example in which a keyword assist function is used as an auxiliary function of an in-site search function in an information portal site.
図17は、実施例のシステム構成を示す図である。図17に示すように、本実施例では、インターネット19aを介してサイト閲覧者端末11aとWebサーバ(情報ポータルサイト)9aとが接続し、例えば、ファイアウォール(図示しない)内でキーワードアシスト機能インデックス作成用サーバ5a、キーワードアシスト機能検索用サーバ7a、Webサーバ9aとが接続している。 FIG. 17 is a diagram illustrating a system configuration of the embodiment. As shown in FIG. 17, in this embodiment, the site viewer terminal 11a and the Web server (information portal site) 9a are connected via the Internet 19a, and for example, a keyword assist function index is created in a firewall (not shown). Server 5a, keyword assist function search server 7a, and Web server 9a are connected.
図18は、実施例で使用する主なデータを示す図である。図18に示すように、本実施例では、図18に示す単語属性出現パターン情報101a、単語属性情報102aを使用する。 FIG. 18 is a diagram illustrating main data used in the embodiment. As shown in FIG. 18, in this embodiment, the word attribute appearance pattern information 101a and the word attribute information 102a shown in FIG. 18 are used.
サイト管理者は、情報ポータルサイト内のコンテンツ(=検索対象のドキュメント)の内容から、単語の出現パターンを推測し、単語属性出現パターン情報101a、単語属性情報102aをキーワードアシスト機能インデックス作成用サーバ5aに登録する。データの登録は、例えば、サイト管理者の端末から、専用のGUI(Graphical User Interface)アプリケーションによって行う。 The site administrator infers the word appearance pattern from the content of the content (= document to be searched) in the information portal site, and uses the word attribute appearance pattern information 101a and the word attribute information 102a as the keyword assist function index creation server 5a. Register with. Data registration is performed by a dedicated GUI (Graphical User Interface) application from the site administrator's terminal, for example.
また、サイト管理者は、Webサーバ9aから検索対象のドキュメントをキーワードアシスト機能インデックス作成用サーバ5aにインポートするように指示する。ドキュメントのインポートは、例えば、サイト管理者の端末から、専用のGUIアプリケーションによって行う。同様に、サイト管理者は、インデックスの作成、インデックスの配布について、サイト管理者の端末から、専用のGUIアプリケーションによってサーバに指示する。 In addition, the site administrator instructs the Web server 9a to import the search target document into the keyword assist function index creation server 5a. For example, the document is imported from a site administrator's terminal using a dedicated GUI application. Similarly, the site administrator instructs the server about the creation of the index and the distribution of the index from the terminal of the site manager by the dedicated GUI application.
図19は、検索キーワードの入力を示す図である。Webサーバ9aは、情報ポータルサイトのサイト内検索フォームに入力された検索文字列を受け取る、すなわちサイト閲覧者端末11aからの検索要求を受け付ける。そして、Webサーバ9aは、形態素解析を行い、単語に分解する。図19に示す検索キーワードの例「カレー 有名店 東京」に対しては、「カレー/有名/店/東京」と分解する。 FIG. 19 is a diagram illustrating input of a search keyword. The Web server 9a receives the search character string input to the in-site search form of the information portal site, that is, receives a search request from the site viewer terminal 11a. Then, the Web server 9a performs morphological analysis and breaks it down into words. The example of the search keyword shown in FIG. 19 is “curry / famous store / Tokyo”, and is decomposed into “curry / famous / store / Tokyo”.
図20は、関連キーワードの検索を示す図である。Webサーバ9aは、分解した単語のうち、サイト管理者が登録した単語属性情報102aに含まれる単語のみを取り出し、それぞれに対して関連単語を検索する。図20に示すように、最初に「カレー」で検索すると、関連単語の検索結果は、「地名:インド」、「地名:銀座」、「食材:牛肉」、「食材:シーフード」である。次に「東京」で検索すると、関連単語の検索結果は、「地名:品川」、「地名:銀座」、「行動:観光」、「食材:シーフード」である。 FIG. 20 is a diagram illustrating retrieval of related keywords. The Web server 9a extracts only the words included in the word attribute information 102a registered by the site manager from the decomposed words, and searches for related words for each. As shown in FIG. 20, when first searching for “curry”, the related word search results are “place name: India”, “place name: Ginza”, “food: beef”, and “food: seafood”. Next, when searching for “Tokyo”, the related word search results are “place name: Shinagawa”, “place name: Ginza”, “action: tourism”, and “food: seafood”.
図21は、関連キーワードの提示を示す図である。Webサーバ9aは、関連単語の検索結果から共通の単語を取り出し、サイト閲覧者に対して関連キーワードを提示する。図21に示す例では、共通の単語が「銀座」、「シーフード」であることから、一つ目の関連キーワードとして、単語属性を含めた「+地名:[カレー 東京 銀座]」を提示する。また、二つ目の関連キーワードとして、単語属性を含めた「+食材:[カレー 東京 シーフード]」を提示する。このように、本実施例においては、入力された検索キーワードに対して広がりのある関連キーワードを提示することができる。また、検索対象のドキュメント群に対して、検索結果をより適切に絞り込むことが可能な関連キーワードを提示することができる。 FIG. 21 is a diagram illustrating presentation of related keywords. The Web server 9a extracts a common word from the related word search result and presents the related keyword to the site viewer. In the example shown in FIG. 21, since the common words are “Ginza” and “Seafood”, “+ place name: [curry Tokyo Ginza]” including the word attribute is presented as the first related keyword. In addition, “+ ingredients: [Curry Tokyo Seafood]” including the word attribute is presented as the second related keyword. As described above, in this embodiment, related keywords that are broad with respect to the input search keyword can be presented. Further, it is possible to present related keywords that can more appropriately narrow down the search results for the document group to be searched.
以上、添付図面を参照しながら、本発明に係るドキュメント検索システム等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the document search system and the like according to the present invention have been described above with reference to the accompanying drawings, but the present invention is not limited to such examples. It will be apparent to those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea disclosed in the present application, and these naturally belong to the technical scope of the present invention. Understood.
1………ドキュメント検索システム
3………管理者端末
5………インデックス作成用サーバ
7………検索用サーバ
9………ウェブサーバ
11………利用者端末
13………ネットワーク
21………制御部
23………記憶部
25………メディア入出力部
27………通信制御部
29………入力部
31………表示部
33………周辺機器I/F部
35………バス
41………関連キーワードインデックス作成アプリケーション
43………関連キーワード検索アプリケーション
51………単語情報登録
52………ドキュメント登録
53………インデックス作成
54………インデックス配布
55………関連キーワード検索
56………インデックス作成履歴参照
61………単語情報の定義
62………ドキュメントの収集・更新
63………インデックスの作成
64………インデックスの配布
65………検索要求の受付
71………インデックス更新対象ドキュメント判別処理
72………形態素解析処理
73………単語変換処理
74………キーワードアシスト利用単語選別処理
75………関連度算出処理
76………インデックス作成処理
101………単語属性出現パターン情報
102………単語属性情報
103………単語変換情報
104………ドキュメント情報
105………更新ドキュメント履歴情報
106………インデックス実行処理履歴情報
107………更新対象ドキュメント情報
108………形態素解析結果情報
109………単語変換結果情報
110………関連度計算対象単語情報
111………単語関連度情報
112………インデックス作成処理履歴情報
113………キーワードアシストハッシュ情報
114………キーワードアシスト検索単語情報
115………キーワードアシスト関連単語情報
116………特定の形態素解析エンジンによる品詞の分類の例
117………インデックスデータ
DESCRIPTION OF
Claims (16)
前記サーバは、
単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語群関連度を算出する際の前記出現パターンごとの重みを出現パターン重みとして定義した単語属性出現パターン情報を保持する手段と、
前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出する関連度算出手段と、
前記関連度算出手段によって算出した前記単語群関連度を単語関連度情報として保持する手段と、
前記端末から前記検索キーワードを受信すると、前記単語関連度情報を参照して前記検索キーワードの関連キーワードを提示する関連キーワード提示手段と、
を具備することを特徴とするドキュメント検索システム。 A document search system in which a terminal and a server are connected via a network, and the server presents a related keyword of a search keyword received from the terminal,
The server
When defining a word type as a word attribute, defining a combination of the word attributes where the word attribute appears within a certain range in the search target document as an appearance pattern, and calculating the word group relevance Means for holding word attribute appearance pattern information in which the weight for each appearance pattern is defined as the appearance pattern weight;
Relevance calculating means for searching for a word group that matches the appearance pattern in the search target document, and calculating a word group relevance by the distance of the searched word group and the appearance pattern weight;
Means for holding the word group relevance calculated by the relevance calculation means as word relevance information;
When the search keyword is received from the terminal, related keyword presenting means for presenting the related keyword of the search keyword with reference to the word relevance information;
A document search system comprising:
単語の種類を単語属性として定義し、単語属性が検索対象ドキュメント中に一定の近さの範囲内に出現する前記単語属性の組合せを出現パターンとして定義し、単語群関連度を算出する際の前記出現パターンごとの重みを出現パターン重みとして定義した単語属性出現パターン情報を保持する手段と、
前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出する関連度算出手段と、
前記関連度算出手段によって算出した前記単語群関連度を単語関連度情報として保持する手段と、
前記端末から前記検索キーワードを受信すると、前記単語関連度情報を参照して前記検索キーワードの関連キーワードを提示する関連キーワード提示手段と、
を具備することを特徴とするサーバ。 A server connected to a terminal via a network and presenting a related keyword of a search keyword received from the terminal,
When defining a word type as a word attribute, defining a combination of the word attributes where the word attribute appears within a certain range in the search target document as an appearance pattern, and calculating the word group relevance Means for holding word attribute appearance pattern information in which the weight for each appearance pattern is defined as the appearance pattern weight;
Relevance calculating means for searching for a word group that matches the appearance pattern in the search target document, and calculating a word group relevance by the distance of the searched word group and the appearance pattern weight;
Means for holding the word group relevance calculated by the relevance calculation means as word relevance information;
When the search keyword is received from the terminal, related keyword presenting means for presenting the related keyword of the search keyword with reference to the word relevance information;
A server comprising:
前記サーバが、前記検索対象ドキュメントの中で前記出現パターンと一致する単語群を検索し、検索した単語群の距離と前記出現パターン重みとによって単語群関連度を算出するステップと、
前記サーバが、前記単語群関連度を算出するステップによって算出した前記単語群関連度を単語関連度情報として保持するステップと、
前記端末が、前記検索キーワードを前記サーバに送信するステップと、
前記サーバが、前記単語関連度情報を参照し、受信した前記検索キーワードの関連キーワードを提示するステップと、
を含むことを特徴とするドキュメント検索方法。 A terminal and a server are connected via a network, the server defines a word type as a word attribute, and the word attribute appears in the search target document within a certain close range. It is defined as a pattern, holds word attribute appearance pattern information in which the weight for each appearance pattern when calculating the word group relevance is defined as the appearance pattern weight, and the related keyword of the search keyword received by the server from the terminal A document search method to be presented,
The server searches for a word group that matches the appearance pattern in the search target document, and calculates a word group relevance by the distance of the searched word group and the appearance pattern weight;
The server holds the word group relevance calculated by the step of calculating the word group relevance as word relevance information;
The terminal transmitting the search keyword to the server;
The server refers to the word relevance information and presents the received related keyword of the search keyword;
A document search method characterized by including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008006743A JP5104329B2 (en) | 2008-01-16 | 2008-01-16 | Document search system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008006743A JP5104329B2 (en) | 2008-01-16 | 2008-01-16 | Document search system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169651A JP2009169651A (en) | 2009-07-30 |
JP5104329B2 true JP5104329B2 (en) | 2012-12-19 |
Family
ID=40970750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008006743A Expired - Fee Related JP5104329B2 (en) | 2008-01-16 | 2008-01-16 | Document search system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5104329B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107414210B (en) * | 2017-09-21 | 2019-02-15 | 安徽霍山龙鑫金属科技有限公司 | A kind of tapping clamp for nut processing |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6799244B1 (en) * | 2019-05-31 | 2020-12-16 | 株式会社Can Eat | Eating out service support system |
JP7104017B2 (en) * | 2019-12-24 | 2022-07-20 | クックパッド株式会社 | Product proposal device, product proposal method, and product proposal program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (en) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | Related keyword automatic extraction device and document search system using the same |
JP2000112970A (en) * | 1998-10-02 | 2000-04-21 | Oki Electric Ind Co Ltd | Information retrieval device |
-
2008
- 2008-01-16 JP JP2008006743A patent/JP5104329B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107414210B (en) * | 2017-09-21 | 2019-02-15 | 安徽霍山龙鑫金属科技有限公司 | A kind of tapping clamp for nut processing |
Also Published As
Publication number | Publication date |
---|---|
JP2009169651A (en) | 2009-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7248879B2 (en) | PATENT DOCUMENT DEVELOPMENT DEVICE, METHOD, COMPUTER PROGRAM, COMPUTER-READABLE RECORDING MEDIUM, SERVER, AND SYSTEM | |
US10810237B2 (en) | Search query generation using query segments and semantic suggestions | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US20160179816A1 (en) | Near Real Time Auto-Suggest Search Results | |
US20140222795A1 (en) | Methods and apparatus for facilitating delivery of a service associated with a product | |
US7587672B2 (en) | File content preview tool | |
JP4746439B2 (en) | Document search server and document search method | |
EP2689355A2 (en) | Systems and method for enabling searches of a document corpus and generation of search queries | |
JP2003132060A (en) | Retrieval support device, retrieval support method and program thereof | |
JP2013191046A (en) | Structured document management device, structured document retrieval method | |
WO2020026366A1 (en) | Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program | |
JP2015106354A (en) | Search suggestion device, search suggestion method, and program | |
JP2014010758A (en) | File management device, file management method, and program | |
JP5104329B2 (en) | Document search system | |
US20170193119A1 (en) | Add-On Module Search System | |
JP2002334113A (en) | Method and device for controlling display of document data | |
JP5162215B2 (en) | Data processing apparatus, data processing method, and program | |
JP7046592B2 (en) | Search support system, search support method, and search support program | |
WO2013015811A1 (en) | Search query generation using query segments and semantic suggestions | |
JP2020021455A (en) | Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program | |
US20230418855A1 (en) | File search system, file search method, and recording medium with file search program recorded thereon | |
JP4146067B2 (en) | Document search system and document search method | |
TWI742568B (en) | Computer program product and apparatus for fuzzy search with universal databases | |
JP5843235B2 (en) | WEB information processing apparatus, WEB information processing method, and program | |
KR20080084568A (en) | Searching method based on a problem/function-defined interface for a patent database system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120917 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |