JP2011186692A - Information retrieval system and information retrieval method - Google Patents

Information retrieval system and information retrieval method Download PDF

Info

Publication number
JP2011186692A
JP2011186692A JP2010049977A JP2010049977A JP2011186692A JP 2011186692 A JP2011186692 A JP 2011186692A JP 2010049977 A JP2010049977 A JP 2010049977A JP 2010049977 A JP2010049977 A JP 2010049977A JP 2011186692 A JP2011186692 A JP 2011186692A
Authority
JP
Japan
Prior art keywords
information
document information
analysis
browser
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010049977A
Other languages
Japanese (ja)
Inventor
Jinichi Miyajima
仁一 宮島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZOO CORP
Original Assignee
ZOO CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZOO CORP filed Critical ZOO CORP
Priority to JP2010049977A priority Critical patent/JP2011186692A/en
Publication of JP2011186692A publication Critical patent/JP2011186692A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information retrieval system and an information retrieval method immediately acquiring relevant information from a network without separately starting a retrieval engine in a process of retrieving document information stored in the network. <P>SOLUTION: An analysis server 140 acquires data displayed on a browser 121 through the network 110 in response to a request from a client 120, extracts a word from document information included in the acquired data by using a morphological analysis means 141, finds out relevant document information related to the extracted word from a storage server 130 on the network 110, creates processed data by adding the existence information of the found out relevant document information to the acquired data, and causes the browser 121 of the client 120 to display the processed data through the network 110. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、ネットワーク上に存在する情報を検索するための情報検索システムおよび情報検索方法に関し、特にインターネット上に存在する文書情報を検索するために好適な情報検索システムおよび情報検索方法に関する。   The present invention relates to an information search system and an information search method for searching for information existing on a network, and more particularly to an information search system and an information search method suitable for searching for document information existing on the Internet.

ネットワーク上に存在している多くの情報の中から所要の情報を探し出すために、検索エンジンが用いられている。検索エンジンを用いて行われる情報検索の基本的な手順は、次のようなものである。すなわち、クライアント側から検索条件が与えられると、その検索条件がネットワークを介してサーバ側に送られ、サーバ側の検索エンジンが検索条件に合致する情報をネットワーク上から検出し、それらの情報の所在がサーバ側からネットワークを介してクライアント側に返される、というものである。インターネット上に存在するコンテンツなどの膨大なデータの中から特定の単語や文字列(テキスト)を含む文書情報のみを探し出すテキスト検索は、上記の手順による情報検索の一例である。   A search engine is used to find out required information from a lot of information existing on the network. The basic procedure for information retrieval using a search engine is as follows. That is, when a search condition is given from the client side, the search condition is sent to the server side via the network, and the search engine on the server side detects information that matches the search condition from the network, and the location of the information. Is returned from the server side to the client side via the network. A text search for searching only document information including a specific word or character string (text) from an enormous amount of data such as content existing on the Internet is an example of an information search according to the above procedure.

インターネット上に分散している文書情報を対象とするテキスト検索は、文書情報を含むデータを実際に蓄積しているデータベース、クライアントに対して情報検索サービスを提供するための検索サーバ、および、情報検索サービスを利用するためのクライアントが、それぞれ通信路を介してインターネットに接続されていることによって利用可能になる。クライアントはブラウザを備えるパーソナルコンピュータ(以下、パソコンと略記する。)によって構成されることが多く、インターネット上で目的とする文書情報を探そうとするユーザはパソコンのブラウザに表示されている検索ポータルサイトから検索キー情報としての文字列(キー文字列)を入力するのが通常である。   Text search for document information distributed on the Internet is a database that actually stores data including document information, a search server for providing information search services to clients, and information search Clients for using the service can be used by being connected to the Internet via communication paths. A client is often composed of a personal computer (hereinafter abbreviated as a personal computer) equipped with a browser, and a user who wants to find desired document information on the Internet is a search portal site displayed on the browser of the personal computer. Usually, a character string (key character string) is input as search key information.

また、検索サーバからクライアントに返される検索結果は、文書情報そのものであっても構わないが、その文書情報のインターネット上における所在情報であることが多い。一般的には、検索結果の候補とされる複数の文書情報のリンク先情報であるURL(Uniform Resource Locator)が、クライアントのブラウザにリスト形式で表示される。この表示方法によれば、ユーザは、ブラウザに表示されている各候補のURLを選択するだけで、その文書情報にアクセスして内容を確認することができる。そして、ユーザは、目的とする検索結果が得られたと判断すれば検索を終了し、そうでなければ異なるキー文字列を用いて上記の検索手順を繰り返すことになる。   The search result returned from the search server to the client may be document information itself, but is often location information of the document information on the Internet. In general, URLs (Uniform Resource Locators), which are link destination information of a plurality of document information that are candidates for search results, are displayed in a list format on a browser of a client. According to this display method, the user can access the document information and confirm the contents only by selecting each candidate URL displayed in the browser. If the user determines that the desired search result has been obtained, the user ends the search. Otherwise, the search procedure is repeated using a different key character string.

ところで、上述した検索の過程において、目的とする文書情報だけでなく、これとは別の情報も併せて必要になる場合がある。例えば、あるキー文字列を用いてテキスト検索を行ったところ検索結果である文書情報に含まれている未知の用語について新たに調べる必要が生じた、という場合である。もちろん、新たに調べようとする未知の用語をキー文字列とする新たな検索を別途行うことによって、その用語に関する情報をネットワーク上から収集することは可能である。しかし、既に検索を開始しているユーザにとって、検索エンジンを別途起動して新たな検索を並行して行わなければならないことは、非常に煩わしい。   By the way, in the above-described search process, not only target document information but also other information may be required. For example, when a text search is performed using a certain key character string, it is necessary to newly investigate an unknown term included in document information as a search result. Of course, it is possible to collect information on the term from the network by separately performing a new search using the unknown term to be newly examined as a key character string. However, it is very troublesome for a user who has already started a search to start a search engine separately and perform a new search in parallel.

そこで、従来、ネットワーク上の検索対象となり得る文書情報に含まれている単語に、関連する情報の所在情報を予め付加しておくことが行われている。具体的には、ネットワーク上に蓄積されている文書情報に含まれる主な用語について、関連する情報のリンク先情報を予め付加しておくこと(いわゆるリンクを張っておくこと)が行われている。この方法によれば、検索結果として得られた文書情報に未知の単語が含まれていても、ブラウザ上でその文字列に付加されているURL等のリンク先情報をクリックする等の方法によって選択するだけで、新たな検索を別途行うことなく、そのリンク先に存在する関連情報にアクセスすることが可能になる。   Therefore, conventionally, location information of related information is added in advance to words included in document information that can be searched on a network. More specifically, link destination information of related information is added in advance for main terms included in document information accumulated on the network (a so-called link is established). . According to this method, even if an unknown word is included in the document information obtained as a search result, it is selected by a method such as clicking on link destination information such as URL attached to the character string on the browser. It is possible to access related information existing at the link destination without performing a new search separately.

しかし、この方法には、ネットワーク上の検索対象となり得る文書情報の全てに漏れなくリンクを張っておくことが困難である、という問題点がある。また、ネットワーク上の情報が変更されてリンク先に関連情報が存在しなくなること(いわゆるリンク切れ)が生じ得る、といった不都合もある。後者は、絶え間なく更新され続けているインターネット上のコンテンツに含まれる文書情報について特に問題となるが、インターネット上において全てのリンク先情報を常に最新の状態に維持することは実際上不可能である。 However, this method has a problem that it is difficult to link all document information that can be searched on the network without omission. In addition, there is a disadvantage that information on the network is changed and related information does not exist at the link destination (so-called broken link). The latter is particularly problematic for document information contained in Internet content that is constantly being updated, but it is practically impossible to keep all link information up to date on the Internet. .

そこで、上記のような問題点を回避するための方法として、ネットワーク上に蓄積されている文書情報(文書ファイル)中に含まれる単語を切り出して作成した単語表を元の文書ファイルに付加しておくこと、が提案されている(特許文献1)。この提案によれば、単語表は、文書情報に対して適時に処理を施すことによって自動的に作成されるものであり、具体的には、作成された文書情報が蓄積された時点や夜間等のシステムが使用されない時間帯に形態素解析等の手法を用いて作成されるものである、とされる。   Therefore, as a method for avoiding the above problems, a word table created by cutting out words included in document information (document file) accumulated on the network is added to the original document file. Has been proposed (Patent Document 1). According to this proposal, the word table is automatically created by processing the document information in a timely manner. Specifically, when the created document information is accumulated, at night, etc. It is assumed that the system is created using a technique such as morphological analysis during a time period when the system is not used.

しかし、上記の方法によっても、ネットワーク上に蓄積される文書情報の量が増加するにつれて処理に要する時間が飛躍的に増加することから、システムが使用されない時間帯に全ての文書情報に単語表を漏れなく付加することが困難になることが明らかである。同様の理由から、文書情報の更新等に伴って単語表が即時に更新されることも保証されない。従って、上記の方法は、イントラネット上に構築された企業内の文書管理システム内に蓄積されている文書情報に対しては適用可能なものであっても、絶え間なく更新され続けるインターネット上の文書情報に対しては到底適用できないと言わざるを得ないものである。   However, even with the above method, as the amount of document information accumulated on the network increases, the time required for processing increases dramatically. Therefore, the word table is added to all document information during the time when the system is not used. It is clear that it becomes difficult to add without leakage. For the same reason, it is not guaranteed that the word table will be updated immediately as the document information is updated. Therefore, even if the above method is applicable to the document information stored in the document management system in the company built on the intranet, the document information on the Internet is continuously updated. It must be said that it cannot be applied at all.

特開2000−29906号公報JP 2000-29906 A

本発明は、このような事情をふまえて行われたものであり、ネットワーク上に蓄積されている文書情報に対する検索の過程で、検索エンジンを別途起動することなく関連情報をネットワーク上から即時に取得可能な、情報検索システムおよび情報検索方法を提供することを課題とする。   The present invention has been made in view of such circumstances, and in the process of searching for document information stored on the network, related information is immediately acquired from the network without starting a search engine separately. It is an object to provide an information search system and an information search method that are possible.

上記の課題を解決するための、本発明の情報検索システムは、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含んで構成される情報検索システムであって、前記ブラウザが、前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求する解析要求手段を備え、前記解析要求手段からの要求に応じて前記解析サーバが、前記表示手段に表示されているデータを取得し、その取得したデータに含まれる文書情報から形態素解析によって単語を切り出し、前記単語に関連する関連文書情報を前記蓄積サーバから探し出し、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成し、前記クライアントが、前記処理済データを前記ブラウザに表示する、ことを特徴とするものである。   In order to solve the above problems, an information search system according to the present invention includes a storage server that stores data including document information, and a browser that displays the data including the document information, all connected to a network. An information retrieval system comprising: a client comprising: an analysis server comprising morphological analysis means; wherein the browser performs morphological analysis on document information contained in data displayed on the display means Analysis request means for requesting the analysis server, and in response to a request from the analysis request means, the analysis server acquires data displayed on the display means, and document information included in the acquired data A word is cut out from the morphological analysis from the storage server, the related document information related to the word is searched from the storage server, The location information of the writing information is added to the obtained data to create the processed data, the client displays the processed data to the browser, it is characterized in.

また、上記の課題を解決するための、本発明の別の情報検索システムは、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含んで構成される情報検索システムであって、前記ブラウザが、前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求する解析要求手段を備え、前記解析要求手段からの要求に応じて前記解析サーバが、前記表示手段に表示されているデータを取得し、その取得したデータに含まれる文書情報から形態素解析によって単語を切り出し、前記単語に関連する関連文書情報を前記単語の品詞情報および属性情報に基づいて前記蓄積サーバから探し出し、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成し、前記クライアントが、前記処理済データを前記ブラウザに表示する、ことを特徴とするものである。   In addition, another information retrieval system of the present invention for solving the above-described problems includes a storage server that is connected to a network and stores data including document information, and data including the document information. An information search system including a client that includes a browser that displays a message and an analysis server that includes a morphological analysis unit, wherein the browser is configured to process document information included in data displayed on the display unit. Analysis request means for requesting the analysis server to perform morphological analysis, and in response to a request from the analysis request means, the analysis server acquires the data displayed on the display means, and the acquired data A word is cut out from included document information by morphological analysis, and related document information related to the word is represented as part-of-speech information and attribute of the word. Searching from the storage server based on information, adding location information of the related document information to the acquired data to create processed data, and displaying the processed data on the browser by the client. It is a feature.

また、上記の課題を解決するための、本発明の情報検索方法は、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含むネットワークシステム上で用いられる情報検索方法であって、前記ブラウザが前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求するステップと、前記解析要求手段からの要求に応じて、前記解析サーバが、前記表示手段に表示されているデータを取得するステップと、取得したデータに含まれる文書情報から形態素解析によって単語を切り出すステップと、前記単語に関連する関連文書情報を前記蓄積サーバから探すステップと、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成するステップと、前記クライアントが、前記処理済データを前記ブラウザに表示するステップと、 を有する、ことを特徴とするものである。   In addition, the information search method of the present invention for solving the above-described problem is a storage server that is connected to a network and stores data including document information, and displays the data including the document information. An information search method used on a network system including a client having a browser and an analysis server having morphological analysis means, the morpheme for document information included in data displayed on the display means by the browser The analysis server includes a step of requesting the analysis server to execute analysis, the analysis server acquiring data displayed on the display unit in response to a request from the analysis request unit, and included in the acquired data Extracting words from document information by morphological analysis; and storing related document information related to the words. A step of searching from a server, a step of creating processed data by adding location information of the related document information to the acquired data, and a step of displaying the processed data on the browser by the client. It is characterized by that.

また、上記の課題を解決するための、本発明の別の情報検索方法は、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含むネットワークシステム上で用いられる情報検索方法であって、前記ブラウザが前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求するステップと、前記解析要求手段からの要求に応じて、前記解析サーバが、前記表示手段に表示されているデータを取得するステップと、取得したデータに含まれる文書情報から形態素解析によって単語を切り出すステップと、前記単語に関連する関連文書情報を前記単語の品詞情報および属性情報に基づいて前記蓄積サーバから探し出すステップと、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成するステップと、前記クライアントが、前記処理済データを前記ブラウザに表示するステップとを有する、ことを特徴とするものである。   In addition, another information search method of the present invention for solving the above-described problems includes a storage server that is connected to a network and stores data including document information, and data including the document information. An information search method used on a network system including a client including a browser for displaying a message and an analysis server including a morpheme analyzing unit, wherein the browser includes document information included in data displayed on the display unit Requesting the analysis server to perform a morphological analysis on the data, in response to a request from the analysis requesting means, the analysis server obtaining data displayed on the display means, and obtaining the data Cutting out words from the included document information by morphological analysis and related document information related to the words Searching from the storage server based on part-of-speech information and attribute information of a word; adding location information of the related document information to the acquired data; creating processed data; and And displaying data on the browser.

本願の情報検索システムに係る発明によれば、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含んで構成される情報検索システムであって、前記ブラウザが、前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求する解析要求手段を備え、前記解析要求手段からの要求に応じて前記解析サーバが、前記表示手段に表示されているデータを取得し、その取得したデータに含まれる文書情報から形態素解析によって単語を切り出し、前記単語に関連する関連文書情報を前記蓄積サーバから探し出し、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成し、前記クライアントが、前記処理済データを前記ブラウザに表示するので、ネットワーク上の文書情報に予め関連情報を付加しておく等の処理を必要とせず、ユーザがブラウザ上で所在情報を選択するだけで関連文書情報をいつでもネットワークから即時に取得可能な情報検索システムを提供できる。   According to the invention relating to the information retrieval system of the present application, both are connected to a network, a storage server in which data including document information is stored, a client including a browser that displays data including the document information, An information search system comprising an analysis server comprising morphological analysis means, wherein the browser performs execution of morphological analysis on document information included in data displayed on the display means. Analysis request means for requesting, and in response to a request from the analysis request means, the analysis server acquires data displayed on the display means, and from the document information included in the acquired data, a word is obtained by morphological analysis And searches the storage server for related document information related to the word, and the location of the related document information Information is added to the acquired data to create processed data, and the client displays the processed data on the browser. Therefore, processing such as adding related information to document information on the network in advance Therefore, it is possible to provide an information retrieval system that allows a user to immediately obtain related document information from a network at any time simply by selecting location information on a browser.

また、本願発明の別の情報検索システムに係る発明によれば、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含んで構成される情報検索システムであって、前記ブラウザが、前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求する解析要求手段を備え、前記解析要求手段からの要求に応じて前記解析サーバが、前記表示手段に表示されているデータを取得し、その取得したデータに含まれる文書情報から形態素解析によって単語を切り出し、前記単語に関連する関連文書情報を前記単語の品詞情報および属性情報に基づいて前記蓄積サーバから探し出し、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成し、前記クライアントが、前記処理済データを前記ブラウザに表示するので、ネットワーク上の膨大な文書情報に予め関連情報を付加しておく等の処理を必要とせず、ユーザがブラウザ上で所在情報を選択するだけで最適な関連文書情報をいつでもネットワークから即時に取得可能な、情報検索システムを提供できる。   Further, according to the invention relating to another information retrieval system of the present invention, a storage server that is connected to a network and stores data including document information, and a browser that displays the data including the document information An information retrieval system comprising: a client comprising: an analysis server comprising morphological analysis means; wherein the browser performs morphological analysis on document information contained in data displayed on the display means Analysis request means for requesting the analysis server, and in response to a request from the analysis request means, the analysis server acquires data displayed on the display means, and document information included in the acquired data A word is extracted from the word by morphological analysis, and related document information related to the word is based on the part of speech information and attribute information of the word. And searching the storage server, adding the location information of the related document information to the acquired data to create processed data, and the client displays the processed data on the browser. Information retrieval system that does not require processing such as adding related information to simple document information in advance, and the user can immediately obtain the optimum related document information from the network at any time simply by selecting the location information on the browser Can provide.

また、本願の情報検索方法に係る発明によれば、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含むネットワークシステム上で用いられる情報検索方法であって、前記ブラウザが前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求するステップと、前記解析要求手段からの要求に応じて、前記解析サーバが、前記表示手段に表示されているデータを取得するステップと、取得したデータに含まれる文書情報から形態素解析によって単語を切り出すステップと、前記単語に関連する関連文書情報を前記蓄積サーバから探すステップと、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成するステップと、前記クライアントが、前記処理済データを前記ブラウザに表示するステップと、を有するので、ネットワーク上の文書情報に予め関連情報を付加しておく等の処理を必要とせず、ユーザがブラウザ上で所在情報を選択するだけで関連文書情報をいつでもネットワークから即時に取得可能な、情報検索方法を提供できる。   According to the invention relating to the information search method of the present application, a client including a storage server that stores data including document information and is connected to a network, and a browser that displays the data including the document information. And an analysis server comprising a morphological analysis means, and an information search method used on a network system, wherein the browser performs morphological analysis on document information included in data displayed on the display means A step of requesting the analysis server; a step of acquiring the data displayed on the display unit in response to a request from the analysis request unit; and a morphological analysis from the document information included in the acquired data And extracting related words related to the word from the storage server. Adding the location information of the related document information to the acquired data to create processed data, and the client displaying the processed data on the browser. An information search method that does not require processing such as adding related information to the above document information in advance, and the user can immediately obtain related document information from the network at any time by selecting location information on the browser. Can be provided.

また、本願のさらに別の発明によれば、いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含むネットワークシステム上で用いられる情報検索方法であって、前記ブラウザが前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求するステップと、前記解析要求手段からの要求に応じて、前記解析サーバが、前記表示手段に表示されているデータを取得するステップと、取得したデータに含まれる文書情報から形態素解析によって単語を切り出すステップと、前記単語に関連する関連文書情報を前記単語の品詞情報および属性情報に基づいて前記蓄積サーバから探し出すステップと、前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成するステップと、前記クライアントが、前記処理済データを前記ブラウザに表示するステップと、を有するので、ネットワーク上の膨大な文書情報に予め関連情報を付加しておく等の処理を必要とせず、ユーザがブラウザ上で所在情報を選択するだけで最適な関連文書情報をいつでもネットワークから即時に取得可能な、情報検索方法を提供できる。   Further, according to still another invention of the present application, both are connected to a network, a storage server in which data including document information is stored, a client including a browser for displaying data including the document information, An information search method used on a network system including a morpheme analysis unit, wherein the browser performs a morpheme analysis on document information included in data displayed on the display unit. A request to the analysis request unit, the analysis server acquiring data displayed on the display unit, and a word by morphological analysis from the document information included in the acquired data And the related document information related to the word as part of speech information and attributes of the word A step of searching from the storage server based on information, a step of creating processed data by adding location information of the related document information to the acquired data, and the client displaying the processed data on the browser The process of adding related information to a large amount of document information on the network in advance, and the user can select the optimum related document information simply by selecting the location information on the browser. An information search method that can be immediately obtained from the network at any time can be provided.

本発明の情報検索システムの基本的な構成を示す図である。It is a figure which shows the basic composition of the information search system of this invention. 本発明の一実施形態としての情報検索システムの実施例である医薬品検索システムのブラウザ画面に文書情報と共に形態素解析要求手段としての擬似ボタンが表示されている様子を示す図である。It is a figure which shows a mode that the pseudo | simulation button as a morphological analysis request | requirement means is displayed on the browser screen of the pharmaceutical search system which is an Example of the information search system as one Embodiment of this invention with document information. 本発明の一実施形態としての情報検索システムの実施例である医薬品検索システムのブラウザ画面に処理済データが表示されている様子を示す図である。It is a figure which shows a mode that processed data is displayed on the browser screen of the pharmaceutical search system which is an Example of the information search system as one Embodiment of this invention. 本発明の一実施形態としての情報検索システムの実施例である医薬品検索システムのブラウザ画面に表示されている処理済データのリンクをクリックして関連情報を取得させる操作を説明するための図である。It is a figure for demonstrating operation which acquires the related information by clicking the link of the processed data currently displayed on the browser screen of the pharmaceutical search system which is an Example of the information search system as one Embodiment of this invention. . 本発明の情報検索システムの形態素解析手段が備える辞書の基本的な構造を示す図である。It is a figure which shows the basic structure of the dictionary with which the morphological analysis means of the information search system of this invention is provided. 本発明の情報検索システムの形態素解析が備える辞書のより詳細な構造の一例を示す図である。It is a figure which shows an example of the more detailed structure of the dictionary with which the morphological analysis of the information search system of this invention is provided. 本発明の一実施形態としての情報検索方法の主要な手順を説明するためのフロー図である。It is a flowchart for demonstrating the main procedures of the information search method as one Embodiment of this invention.

本発明の実施の形態について、図面を参照しながら説明する。以下では、まず本発明の一つの実施形態である情報検索システムについて説明し、次にその情報検索システムの構成例をも併せて参照しながら本発明のもう一つの実施形態である情報検索方法について説明する。   Embodiments of the present invention will be described with reference to the drawings. Hereinafter, an information search system according to one embodiment of the present invention will be described first, and then an information search method according to another embodiment of the present invention will be described with reference to a configuration example of the information search system. explain.

図1は本発明の実施形態としての情報検索システムの基本的な構成を示す図である。この情報検索システム100は、それぞれがネットワーク110に接続された、ブラウザ121を備えるクライアント120と、文書情報を含むデータが蓄積されている蓄積サーバ130と、形態素解析手段141および辞書142を備える解析サーバ140と、を含むコンピュータネットワークとして構成される。   FIG. 1 is a diagram showing a basic configuration of an information search system as an embodiment of the present invention. The information retrieval system 100 includes a client 120 including a browser 121, a storage server 130 storing data including document information, an analysis server including a morpheme analysis unit 141 and a dictionary 142, each connected to a network 110. 140 is configured as a computer network.

ネットワーク110は、クライアント120、解析サーバ130、および、蓄積サーバ140を、通信路によって相互接続するための手段である。前記通信路は、有線または無線のいずれによって構成されたものでもよく、その両者を用いて構成されたものでも構わない。また、ネットワーク110の規模は問わないが、典型的にはインターネットまたは企業等におけるイントラネットである。以下においては、ネットワーク110がもっぱらインターネットである場合を想定して説明する。   The network 110 is a means for interconnecting the client 120, the analysis server 130, and the storage server 140 with a communication path. The communication path may be either wired or wireless, or may be configured using both. The scale of the network 110 is not limited, but is typically the Internet or an intranet in a company or the like. In the following description, it is assumed that the network 110 is exclusively the Internet.

クライアント120は、蓄積サーバ130および解析サーバ140に所定の処理を要求し、蓄積サーバ130および解析サーバ140から前記処理の結果を受け取るための手段であり、ブラウザ121を備えるパーソナルコンピュータ(パソコン)等によって構成される。なお、実際の情報検索システム100においては、ネットワーク110に、複数台のクライアント120が同時に接続されている場合が多いものの、説明の便宜のために、図1には1台のクライアント120のみを示す。   The client 120 is a means for requesting the storage server 130 and the analysis server 140 to perform a predetermined process and receiving the result of the process from the storage server 130 and the analysis server 140. The client 120 is a personal computer (personal computer) provided with the browser 121 or the like. Composed. In the actual information search system 100, although a plurality of clients 120 are often connected to the network 110 at the same time, only one client 120 is shown in FIG. 1 for convenience of explanation. .

クライアント120が備えるブラウザ121は、文書情報を含むウェブページを表示する機能を提供する手段である。このようなブラウザの機能は、例えば、Microsoft Corporationの「Internet Explorer(登録商標)」等によって提供されている。また、ブラウザ121は、解析サーバ140の形態素解析手段141を起動してウェブページに含まれる文書情報に対して形態素解析を実行させるための、解析要求手段としての擬似ボタン122を表示する機能をも提供する。なお、形態素解析手段141および解析要求手段としての擬似ボタン122については、後にそれぞれ詳述する。   The browser 121 provided in the client 120 is a means for providing a function of displaying a web page including document information. Such browser functions are provided by, for example, “Internet Explorer (registered trademark)” of Microsoft Corporation. In addition, the browser 121 has a function of displaying a pseudo button 122 as an analysis request unit for starting the morphological analysis unit 141 of the analysis server 140 and causing the morphological analysis to be performed on the document information included in the web page. provide. The morphological analysis unit 141 and the pseudo button 122 as the analysis request unit will be described later in detail.

蓄積サーバ130は、文書情報を含むデータを蓄積するための手段であり、具体的にはウェブページを蓄積しているウェブサーバである。文書情報を含むデータであるウェブページは、蓄積サーバ130に蓄積されて公開可能な状態にされると、ネットワーク110を介してクライアント120のブラウザ121に表示されて閲覧されることになる。なお、実際の情報検索システム100においては、ネットワーク110に、複数台の蓄積サーバ130が同時に接続されている場合が多いものの、説明の便宜のために、蓄積サーバ130についても図1には1台のみを示す。   The accumulation server 130 is means for accumulating data including document information, and is specifically a web server that accumulates web pages. When the web page, which is data including document information, is stored in the storage server 130 and made public, the web page is displayed on the browser 121 of the client 120 via the network 110 and browsed. In the actual information search system 100, a plurality of storage servers 130 are often connected to the network 110 at the same time. However, for convenience of explanation, only one storage server 130 is shown in FIG. Show only.

解析サーバ140は、クライアント120からの要求に応じて、指定された文書情報に含まれる単語に関連する関連情報をネットワーク110上から探し出す処理を行うともに、その探し出された関連情報の所在情報を指定された文書情報に付加する処理を行い、その関連文書の所在情報が付加された文書情報を処理結果としてクライアント120に返す。解析サーバ140は、文書情報に含まれる単語を切り出す処理を行うための手段として、形態素解析手段141を備えている。また、形態素解析手段141は、形態素解析を行う際に使用する辞書142を備えている。なお、解析サーバ140は、クライアント120から要求される検索処理を実行するための文書検索手段143を備えていてもよい。   In response to a request from the client 120, the analysis server 140 performs processing for searching related information related to the word included in the designated document information from the network 110, and also stores location information of the searched related information. Processing to add to the specified document information is performed, and the document information to which the location information of the related document is added is returned to the client 120 as a processing result. The analysis server 140 includes a morpheme analysis unit 141 as a unit for performing a process of extracting a word included in the document information. In addition, the morpheme analysis unit 141 includes a dictionary 142 used when performing morpheme analysis. Note that the analysis server 140 may include document search means 143 for executing a search process requested from the client 120.

形態素解析手段141は、クライアント120からの要求に応じて、指定されたウェブページに含まれる文書情報に対して形態素解析を実行する。クライアント120のブラウザ121には、ウェブページと共に、そのウェブページに含まれる文書情報に対して形態素解析を実行させるための解析要求手段としての擬似ボタン122が表示されている。ウェブページを閲覧しているユーザがこの擬似ボタン122をクリックすると、ブラウザ121に表示されているウェブページが形態素解析の対象として指定され、そのウェブページに含まれる文書情報が解析サーバ140に取り込まれて、形態素解析手段141によって形態素解析される。   In response to a request from the client 120, the morpheme analysis unit 141 performs morpheme analysis on the document information included in the designated web page. A browser 121 of the client 120 displays a pseudo button 122 as an analysis request unit for causing a morphological analysis to be performed on document information included in the web page, along with the web page. When a user viewing a web page clicks the pseudo button 122, the web page displayed on the browser 121 is designated as a morphological analysis target, and the document information included in the web page is taken into the analysis server 140. The morpheme analysis unit 141 performs morpheme analysis.

擬似ボタン122によってブラウザ120に表示されているウェブページが形態素解析の対象として指定されると、解析サーバ140はそのウェブページの内容をネットワーク110を介して取得する。ここで、解析サーバ140が形態素解析の対象とされるウェブページを取得する際に、ブラウザ121からウェブページのURL等の所在情報のみを取得しておき、そのURLを用いてネットワーク110を介してウェブページのデータを取得するように構成すると効率的である。もちろん、解析サーバ140が、形態素解析の対象とされるウェブページのデータをクライアント120から受け取るように構成することも可能である。   When the web page displayed on the browser 120 is designated by the pseudo button 122 as a morphological analysis target, the analysis server 140 acquires the content of the web page via the network 110. Here, when the analysis server 140 acquires a web page to be subjected to morphological analysis, only the location information such as the URL of the web page is acquired from the browser 121 and is used via the network 110 using the URL. It is efficient to configure to acquire web page data. Of course, the analysis server 140 can be configured to receive from the client 120 data of a web page to be subjected to morphological analysis.

解析サーバ140は、形態素解析の対象とされるウェブページのデータを取得すると、そのデータに含まれる文書情報に対して形態素解析手段141を用いて形態素解析を行う。そして、解析サーバ140は、形態素解析によって切り出された各単語に、その関連情報の所在情報を付加する処理を行う。具体的には、切り出された各単語を関連する文書情報に結びつけるためのリンク先情報を探し出し、そのリンク先情報を取得した元のウェブページのデータに埋め込む処理を行う。そして、リンク先情報が埋め込まれたウェブページのデータ(以下、処理済データという。)は、解析サーバ140からクライアント120に返される。   When the analysis server 140 acquires web page data to be subjected to morphological analysis, the analysis server 140 performs morphological analysis on the document information included in the data using the morphological analysis unit 141. And the analysis server 140 performs the process which adds the location information of the relevant information to each word cut out by the morphological analysis. Specifically, link destination information for linking each extracted word to related document information is searched, and processing for embedding the link destination information in the original web page data is performed. The web page data in which the link destination information is embedded (hereinafter referred to as processed data) is returned from the analysis server 140 to the client 120.

上記の処理に際して、形態素解析手段141は、収載されている各単語について品詞情報および属性情報を有する辞書142を用いている。そのため、形態素解析手段141は、品詞情報および属性情報に基づいて、文書情報から各単語を正確に切り出すことができるだけでなく、切り出された各単語について最適な関連情報をネットワーク110上から探し出すこともできる。なお、解析サーバ140が処理対象とする文書情報の属する分野が限定的である場合には、辞書142の所定範囲内の単語のみを用いることによって、解析サーバ140の処理効率を一層高めることができる。 In the above processing, the morphological analysis unit 141 uses the dictionary 142 having part-of-speech information and attribute information for each word included. Therefore, the morpheme analyzing unit 141 can not only accurately extract each word from the document information based on the part of speech information and the attribute information, but can also search the network 110 for optimum related information for each extracted word. it can. When the field to which the document information to be processed by the analysis server 140 belongs is limited, the processing efficiency of the analysis server 140 can be further improved by using only words within a predetermined range of the dictionary 142. .

解析サーバ140からクライアント120に返された処理済データは、ブラウザ121に表示される。このとき、ブラウザ121に表示されているウェブページ中の単語には、アンダーライン等によって、前述したリンク先情報が付されている旨が表示される。そして、情報検索システム100のユーザが、リンク先情報が付された単語をブラウザ121上でクリックする等の方法によって選択すると、そのリンク先に存在する関連情報、または、その関連情報のリンク先情報が、ブラウザ121上に示される。ブラウザ121に関連情報のリンク先情報が示された場合には、それらをクリックする等の方法によって選択することによって、そのリンク先に存在する関連情報が呼び出されてブラウザ121に表示される。   The processed data returned from the analysis server 140 to the client 120 is displayed on the browser 121. At this time, the word in the web page displayed on the browser 121 displays that the above-mentioned link destination information is attached by an underline or the like. When the user of the information search system 100 selects a word to which the link destination information is attached by clicking on the browser 121, the related information existing at the link destination or the link destination information of the related information is selected. Is displayed on the browser 121. When link destination information of related information is displayed on the browser 121, the related information existing at the link destination is called and displayed on the browser 121 by selecting them by a method such as clicking them.

次に、上述した情報検索システム100の構成を参照しながら、本発明のもう一つの実施形態である情報検索方法について説明する。なお、以下では、本発明の情報検索システム100が医薬品情報の検索システムとして構成された実施例を参照しながら説明する。   Next, an information search method according to another embodiment of the present invention will be described with reference to the configuration of the information search system 100 described above. Hereinafter, the information search system 100 of the present invention will be described with reference to an embodiment in which the drug information search system is configured.

図2は、任意に選択されたウェブページがブラウザ121にそのまま表示されている状態を示している。この状態では、ブラウザ121には、ある医薬品に関連する関連情報が記載されたウェブページと、そのウェブページ内の文書情報に対する形態素解析の実行を要求するための擬似ボタン122と、が表示されている。この状態において、情報検索システム100のユーザは、このウェブページ内の文書情報に含まれている単語について更に詳しく知りたい場合に、ポインタ123を移動させて擬似ボタン122をクリックすればよい。   FIG. 2 shows a state where an arbitrarily selected web page is displayed on the browser 121 as it is. In this state, the browser 121 displays a web page in which related information related to a certain medicine is described, and a pseudo button 122 for requesting execution of morphological analysis on document information in the web page. Yes. In this state, the user of the information search system 100 may move the pointer 123 and click the pseudo button 122 to learn more about the words included in the document information in the web page.

ブラウザ121において、解析サーバ140の形態素解析手段141を起動してウェブページに含まれる文書情報に対して形態素解析を実行させるための、解析要求手段としての擬似ボタン122は、ツールバーの一部として構成されている。このツールバーは、解析サーバ140から取得することができるもので、クライアント120から解析サーバ140に対して初めて処理を要求する際に取得すればよい。なお、このツールバーには、所定のホームページを表示させるための擬似ボタンや、ウェブページが切り替えられた際に自動的に形態素解析を実行させるための擬似ボタン、形態素解析手段141が切り出した単語を表示させるための擬似ボタン、などが併せて配されてもよい。   In the browser 121, a pseudo button 122 serving as an analysis request unit for starting the morpheme analysis unit 141 of the analysis server 140 and executing morphological analysis on the document information included in the web page is configured as a part of the toolbar. Has been. This toolbar can be acquired from the analysis server 140 and may be acquired when the client 120 requests the analysis server 140 for the first time. The toolbar displays a pseudo button for displaying a predetermined home page, a pseudo button for automatically executing a morphological analysis when a web page is switched, and a word extracted by the morphological analysis means 141. A pseudo button or the like may be arranged together.

図3は、ブラウザ121に表示される擬似ボタン122がクリックされた後の、ウェブページの表示状態を示している。ブラウザ121上の擬似ボタン122がクリックされると、前述したようにそのウェブページ内の文書情報に含まれる単語が切り出され、切り出された各単語にはリンク先情報が付加されていることを示すアンダーラインが付される。この状態で、アンダーラインが付された単語(例えば、「アセチルサリチル酸」)の上にポインタ123を移動するとその単語に関連する関連情報のインデクスが、解析サーバ140の辞書142から読み出され、例えばポップアップ124などによってブラウザ121に強調表示される。   FIG. 3 shows a display state of the web page after the pseudo button 122 displayed on the browser 121 is clicked. When the pseudo button 122 on the browser 121 is clicked, a word included in the document information in the web page is cut out as described above, and link destination information is added to each cut out word. Underlined. In this state, when the pointer 123 is moved over an underlined word (for example, “acetylsalicylic acid”), an index of related information related to the word is read from the dictionary 142 of the analysis server 140, for example, It is highlighted on the browser 121 by a pop-up 124 or the like.

図4は、ブラウザ121に表示されるポップアップ124がクリックされた後の、ウェブページの表示状態を示している。ブラウザ121上のポップアップ124がクリックされると、ポップアップ124によって強調表示されていた関連情報のリンク先情報が展開され、ポップアップ125などによって詳細な情報が階層的に表示される。この状態で、ポインタ123をポップアップ125内に展開されているいずれかのリンク先情報(例えば、「情報提供サイト3」)の上に移動すると、そのリンク先情報に存在する関連情報が解析サーバ140を介してネットワーク110から取得され、ブラウザ121に表示される。もちろん、関連情報のリンク先情報が1つだけの場合には、ポップアップ124を選択することによって直ちに関連情報が取得されることになる。   FIG. 4 shows a display state of the web page after the pop-up 124 displayed on the browser 121 is clicked. When the pop-up 124 on the browser 121 is clicked, the link destination information of the related information highlighted by the pop-up 124 is expanded, and detailed information is hierarchically displayed by the pop-up 125 or the like. In this state, when the pointer 123 is moved onto any link destination information (for example, “information providing site 3”) developed in the pop-up 125, related information existing in the link destination information is analyzed by the analysis server 140. Via the network 110 and displayed on the browser 121. Of course, when the link information of the related information is only one, the related information is acquired immediately by selecting the pop-up 124.

ここで、解析サーバ140の形態素解析手段141が備える辞書142について具体的に説明する。辞書142は、解析サーバ140の処理効率を高めるために、情報検索システム100が適用される分野毎に編纂された辞書であることが望ましい。図5は、そのような点を考慮して構成された辞書142の一部を示している。このように、辞書142は、「医療分野」だけでなく、「建築分野」や「法律分野」など、異なる分野の辞書が含まれているものであっても構わない。ただし、医薬品情報の検索システムおいて最も頻繁に使用される辞書は「医療分野」の単語が収載された辞書であり、ユーザは、クライアント120から予め「医療分野」の辞書を選択しておくことが望ましい。また、複数の分野の辞書が使用される場合には、必要に応じて辞書に優先順位をつけておくことも効果的である。   Here, the dictionary 142 provided in the morphological analysis unit 141 of the analysis server 140 will be specifically described. The dictionary 142 is preferably a dictionary compiled for each field to which the information search system 100 is applied in order to increase the processing efficiency of the analysis server 140. FIG. 5 shows a part of the dictionary 142 configured in consideration of such points. Thus, the dictionary 142 may include not only the “medical field” but also a dictionary in a different field such as “architectural field” or “law field”. However, the dictionary that is most frequently used in the drug information search system is a dictionary in which the word “medical field” is stored, and the user selects the “medical field” dictionary from the client 120 in advance. Is desirable. In addition, when dictionaries of a plurality of fields are used, it is also effective to prioritize the dictionaries as necessary.

辞書142に含まれる各分野の辞書は、それぞれ階層化されており、例えば、「固有名詞」の下位に「医療分野」、「建築分野」などが配され、さらに「医療分野」の下位に「1:医薬品名」や「2:傷病名」などが配されている。また、「1:医薬品名」に関する辞書は、さらに「A:医療用医薬品」、「B:OTC(Over The Counter)医薬品」、「C:医薬部外品」、「D:サプリメント」などに細分されている。同様に、「2:傷病名」に関する辞書は、さらに「A:内科系」、「B:外科系」などに細分されている。さらに、辞書142に含まれる各分野の辞書は、それぞれ、収載されている各単語について品詞情報および属性情報を有している。   The dictionaries of each field included in the dictionary 142 are hierarchized. For example, “medical field”, “architectural field”, etc. are arranged below “proprietary nouns”, and “ "1: Drug name" and "2: Injury name" are arranged. Further, the dictionary relating to “1: drug name” is further subdivided into “A: prescription drug”, “B: OTC (Over The Counter) drug”, “C: quasi drug”, “D: supplement”, etc. Has been. Similarly, the dictionary relating to “2: name of injury” is further subdivided into “A: internal medicine”, “B: surgery”, and the like. Furthermore, the dictionary of each field included in the dictionary 142 has part-of-speech information and attribute information for each stored word.

図6は、図5に示した「医薬品名」辞書の一部の内部構造を示している。「医薬品名」辞書には、例えば「バファリン」、「バファリンA」、「バファリンプラス」、「チョコラBB」、「アミノプロテイン」、「リバイタリー」、などの単語(いずれも登録商標)が収載されている。なお、「バファリン(登録商標)」、「バファリンA」および「バファリンプラス」は、いずれもライオン株式会社の商品名である。また、「チョコラBB(登録商標)」はエーザイ・アール・アンド・ディー・マネジメント株式会社の商品名であり、「アミノプロテイン」および「リバイタリー」も商品名である。これらの単語は、いずれも、その品詞が固有名詞である点で共通している。一方、これらの単語の属性は、医薬品名である点で共通するものの、それ以外の点では様々であり、「バファリン」は「A:医療用医薬品」、バファリンA」および「バファリンプラス」は「B:OTC医薬品」、「チョコラBB」は「C:医薬部外品」、「アミノプロテイン」および「リバイタリー」は「D:サプリメント」である。   FIG. 6 shows a partial internal structure of the “pharmaceutical name” dictionary shown in FIG. In the “pharmaceutical name” dictionary, for example, words such as “bufferin”, “bufferin A”, “bufferin plus”, “chocola BB”, “aminoprotein”, “revitalization” (all registered trademarks) are listed. ing. “Bufferin®”, “Bufferin A” and “Bufferin Plus” are trade names of Lion Corporation. “Chocola BB (registered trademark)” is a trade name of Eisai R & D Management Co., Ltd., and “Aminoprotein” and “Revitaly” are trade names. These words are common in that the part of speech is a proper noun. On the other hand, although the attributes of these words are common in that they are drug names, they are different in other respects. “Buffalin” is “A: prescription drug”, bufferin A ”and“ bufferin plus ”are“ “B: OTC pharmaceutical” and “Chocola BB” are “C: Quasi-drug”, “Aminoprotein” and “Revitaly” are “D: Supplement”.

すなわち、図6は、各辞書に収載されている単語の「属性」を、「表記」、「読み」、「品詞」などと共に記録したテーブルである。解析サーバ140の形態素解析手段141は、辞書142が分野ごとに階層化されているとともに、各分野の辞書がそれぞれ上述したようなテーブル形式の品詞情報および属性情報を有している。そして、辞書142のこのようなデータ構造が、形態素解析手段141が特定の分野において単語(専門用語)を切り出す処理を、より正確で効率よく行うことを可能にしている。   That is, FIG. 6 is a table in which “attributes” of words included in each dictionary are recorded together with “notation”, “reading”, “part of speech”, and the like. The morpheme analyzing means 141 of the analysis server 140 has the dictionary 142 hierarchized for each field, and the dictionary in each field has part-of-speech information and attribute information in the table format as described above. Such a data structure of the dictionary 142 enables the morphological analysis unit 141 to perform a process of extracting words (technical terms) in a specific field more accurately and efficiently.

次に、以上説明してきた本発明の情報検索方法の主要な手順を、図7に示すフロー図を参照しながら説明する。まず、クライアント120のブラウザ121に、あるウェブページが図2に示したような状態で表示されているものとする(ステップS0)。ここでブラウザ121に表示されるウェブページは、ブラウザ121が記憶しているURLを用いて取得されたものでもよく、解析サーバ140の文書検索手段143を用いてネットワーク110上から任意に探し出したものでもよい。   Next, the main procedure of the information search method of the present invention described above will be described with reference to the flowchart shown in FIG. First, it is assumed that a web page is displayed in the state shown in FIG. 2 on the browser 121 of the client 120 (step S0). Here, the web page displayed on the browser 121 may be acquired using a URL stored in the browser 121, or arbitrarily searched from the network 110 using the document search unit 143 of the analysis server 140. But you can.

次に、ブラウザ121に表示されている擬似ボタン122がクリックされると、クライアント120から解析サーバ140に形態素解析の実行が指示される(ステップS1)。そして、この指示に基づいて、ブラウザ121に表示されているウェブページが形態素解析の対象として指定され、解析サーバ140はそのウェブページの内容をネットワーク110を介して取り込む(ステップS2)。   Next, when the pseudo button 122 displayed on the browser 121 is clicked, execution of morphological analysis is instructed from the client 120 to the analysis server 140 (step S1). Based on this instruction, the web page displayed on the browser 121 is designated as a morphological analysis target, and the analysis server 140 takes in the content of the web page via the network 110 (step S2).

次に、解析サーバ140の形態素解析手段141が、前記取り込まれたウェブページに含まれれる文書情報に対して形態素解析を行い、単語を切り出す(ステップS3)。そして、解析サーバ140は、切り出された各単語について、それらを関連文書情報に結びつけるためのリンク先情報を探し出し、そのリンク先情報を取得したウェブページのデータに埋め込む処理を行う(S4)。この埋め込まれたデータは、後にブラウザ121上に関連情報を表示させる際に用いられる。   Next, the morphological analysis unit 141 of the analysis server 140 performs morphological analysis on the document information included in the fetched web page, and cuts out words (step S3). Then, the analysis server 140 searches for link destination information for linking the extracted words to related document information, and embeds the link destination information in the acquired web page data (S4). This embedded data is used when displaying related information on the browser 121 later.

解析サーバ140によって文書情報に含まれる各単語にリンク先情報が付加されたウェブページの処理済データは、クライアント120に返送されてブラウザ121に候補として表示される(ステップS5)。そして、処理済データに含まれる各単語に付加されたリンク先情報がユーザによって選択されると(ステップS6)、リンク先情報によって関連付けられた関連情報をブラウザ121に表示させるための処理が指示され、リンク先情報が蓄積サーバ130に送られることによって表示されるべき関連情報が特定される(ステップS7)。そして、特定された関連情報が蓄積サーバ130からブラウザ121に送られ、ブラウザ121に表示される(ステップS8)。   The processed data of the web page in which link destination information is added to each word included in the document information by the analysis server 140 is returned to the client 120 and displayed as a candidate on the browser 121 (step S5). When the link destination information added to each word included in the processed data is selected by the user (step S6), a process for causing the browser 121 to display related information associated with the link destination information is instructed. The link destination information is sent to the storage server 130 to identify the related information to be displayed (step S7). Then, the identified related information is sent from the storage server 130 to the browser 121 and displayed on the browser 121 (step S8).

そして、ユーザは、目的とする検索結果が得られたと判断すれば検索を終了し、そうでなければ、目的とする検索結果が得られるまで、ステップS1からステップS8までの各ステップを繰り返す。   If the user determines that the target search result is obtained, the search is terminated. Otherwise, the steps from step S1 to step S8 are repeated until the target search result is obtained.

以上説明したように、本発明によれば、解析サーバがブラウザに表示されているデータに含まれる文書情報から形態素解析によって単語を切り出し、前記切り出された単語に関連する関連文書情報を検索手段を用いて随時探し出すこととしているため、ネットワーク上の文書情報に予め関連情報を付加しておく等の処理を行う必要がなく、ユーザがブラウザ上で所在情報を選択するだけで必要な関連文書情報もネットワークから即時に取得することが可能な、情報検索システムおよび情報検索方法を提供できる。   As described above, according to the present invention, the analysis server extracts words from document information included in the data displayed on the browser by morphological analysis, and retrieves related document information related to the extracted words. It is not necessary to perform processing such as adding related information to the document information on the network in advance, and the user can select the location information on the browser. An information search system and an information search method that can be immediately acquired from a network can be provided.

なお、以上の説明においては、医薬品情報の検索システムを参照したが、本発明の情報検索システムおよび情報検索方法の適用はこれに限られるものではなく、あらゆる分野における情報検索システムおよび情報検索方法として実現可能なものである。また、本発明の情報検索システムおよび情報検索方法は、インターネットのような大規模ネットワーク上に限らず、イントラネットやローカルエリアネットワークなど中小規模ネットワーク上でも実施可能なものである。   In the above description, the drug information search system has been referred to. However, the application of the information search system and information search method of the present invention is not limited to this, and as an information search system and information search method in all fields. It is feasible. In addition, the information search system and information search method of the present invention can be implemented not only on a large-scale network such as the Internet but also on a small and medium-sized network such as an intranet or a local area network.

100 情報検索システム
110 ネットワーク
120 クライアント
121 ブラウザ
122 擬似ボタン
130 蓄積サーバ
140 検索サーバ
141 形態素解析手段
142 辞書

100 Information Retrieval System 110 Network 120 Client 121 Browser 122 Pseudo Button 130 Storage Server 140 Search Server 141 Morphological Analysis Means 142 Dictionary

Claims (4)

いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含んで構成される情報検索システムであって、
前記ブラウザが、前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求する解析要求手段を備え、
前記解析要求手段からの要求に応じて、前記解析サーバが、
前記表示手段に表示されているデータを取得し、
その取得したデータに含まれる文書情報から形態素解析によって単語を切り出し、
前記単語に関連する関連文書情報を前記蓄積サーバから探し出し、
前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成し、
前記クライアントが、前記処理済データを前記ブラウザに表示する
ことを特徴とする情報検索システム。
Each includes a storage server that is connected to a network and stores data including document information, a client that includes a browser that displays data including the document information, and an analysis server that includes morphological analysis means. An information retrieval system comprising:
The browser comprises analysis request means for requesting the analysis server to perform morphological analysis on document information included in data displayed on the display means;
In response to a request from the analysis request unit, the analysis server
Obtaining data displayed on the display means;
Extract words by morphological analysis from the document information included in the acquired data,
Search related document information related to the word from the storage server,
Adding location information of the related document information to the acquired data to create processed data;
The information search system, wherein the client displays the processed data on the browser.
前記解析サーバは、前記単語の品詞情報および属性情報に基づいて前記関連文書情報を探し出すことを特徴とする請求項1に記載の情報検索システム。   The information search system according to claim 1, wherein the analysis server searches for the related document information based on part-of-speech information and attribute information of the word. いずれもネットワークに接続されている、文書情報を含むデータが蓄積されている蓄積サーバと、前記文書情報を含むデータを表示するブラウザを備えるクライアントと、形態素解析手段を備える解析サーバと、を含むネットワークシステム上で用いられる情報検索方法であって、
前記ブラウザが前記表示手段に表示されているデータに含まれる文書情報に対する形態素解析の実行を前記解析サーバに要求するステップと、
前記解析要求手段からの要求に応じて、前記解析サーバが、
前記表示手段に表示されているデータを取得するステップと、
取得したデータに含まれる文書情報から形態素解析によって単語を切り出すステップと、
前記単語に関連する関連文書情報を前記蓄積サーバから探すステップと、
前記関連文書情報の所在情報を前記取得したデータに付加して処理済データを作成するス
テップと、
前記クライアントが、前記処理済データを前記ブラウザに表示するステップと
を有することを特徴とする情報検索方法。
A network including a storage server that stores data including document information, a client that includes a browser that displays data including the document information, and an analysis server that includes morphological analysis means, all connected to the network. An information search method used on a system,
Requesting the analysis server to perform morphological analysis on document information included in data displayed on the display means by the browser;
In response to a request from the analysis request unit, the analysis server
Obtaining data displayed on the display means;
Extracting words from document information included in the acquired data by morphological analysis;
Searching the storage server for related document information related to the word;
Adding location information of the related document information to the acquired data to create processed data;
The client displaying the processed data on the browser;
A method for retrieving information, comprising:
前記関連文書情報は、前記単語の品詞情報および属性情報に基づいて探し出されることを特徴とする請求項3に記載の情報検索方法。   4. The information search method according to claim 3, wherein the related document information is searched based on part-of-speech information and attribute information of the word.
JP2010049977A 2010-03-08 2010-03-08 Information retrieval system and information retrieval method Pending JP2011186692A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010049977A JP2011186692A (en) 2010-03-08 2010-03-08 Information retrieval system and information retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010049977A JP2011186692A (en) 2010-03-08 2010-03-08 Information retrieval system and information retrieval method

Publications (1)

Publication Number Publication Date
JP2011186692A true JP2011186692A (en) 2011-09-22

Family

ID=44792894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010049977A Pending JP2011186692A (en) 2010-03-08 2010-03-08 Information retrieval system and information retrieval method

Country Status (1)

Country Link
JP (1) JP2011186692A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636472A (en) * 2015-02-13 2015-05-20 烟台智慧云谷云计算有限公司 Storage system and storage algorithm of TB (terabyte) database with four-layer framework
JP2017527896A (en) * 2014-08-22 2017-09-21 トムソン ライセンシングThomson Licensing Method and apparatus for processing files

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527896A (en) * 2014-08-22 2017-09-21 トムソン ライセンシングThomson Licensing Method and apparatus for processing files
CN104636472A (en) * 2015-02-13 2015-05-20 烟台智慧云谷云计算有限公司 Storage system and storage algorithm of TB (terabyte) database with four-layer framework

Similar Documents

Publication Publication Date Title
JP5264892B2 (en) Multilingual information search
JP3998706B2 (en) Document data management method, management system, and computer software
US20040059727A1 (en) Document information management system
AU2010328181A1 (en) Resource search operations
KR20100068532A (en) Apparatus and method for keyword extraction and associative word network configuration of document data
JP2008021267A (en) Document retrieval system, document retrieval processing method and document retrieval processing program
US20130007004A1 (en) Method and apparatus for creating a search index for a composite document and searching same
JP5185402B2 (en) Document search apparatus, document search method, and document search program
US20090037396A1 (en) Search apparatus and search method
JP5296014B2 (en) Search device, method and program
JPH11224256A (en) Information retrieving method and record medium recording information retrieving program
JP2009086944A (en) Information processor and information processing program
JP2004514967A (en) Method and apparatus for linking databases
Kiran et al. An approach towards establishing reference linking in desktop reference manager
JP2008243033A (en) Retrieval system, retrieval method, program and storage medium
JP2011186692A (en) Information retrieval system and information retrieval method
JP2008102773A (en) Method for converting data into common format
JP2006236221A (en) Management server for web page retrieval
JP5228529B2 (en) Data search program, data search device, and data search method
JP4417497B2 (en) Information retrieval apparatus and storage medium storing program
JP2006185020A (en) Information processor, information processing method and computer program
JP2011086156A (en) System and program for tracking of leaked information
JP2009123067A (en) Term dictionary creating method, term dictionary creating apparatus, program, and recording medium
JP2009230483A (en) Information retrieving method, program and device
JP2005316590A (en) Information retrieval device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20121124