JP2005275714A - Information retrieval apparatus - Google Patents
Information retrieval apparatus Download PDFInfo
- Publication number
- JP2005275714A JP2005275714A JP2004086934A JP2004086934A JP2005275714A JP 2005275714 A JP2005275714 A JP 2005275714A JP 2004086934 A JP2004086934 A JP 2004086934A JP 2004086934 A JP2004086934 A JP 2004086934A JP 2005275714 A JP2005275714 A JP 2005275714A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- information
- weight
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、インターネットを介したキーワード検索のための情報検索装置に関するものである。 The present invention relates to an information retrieval apparatus for keyword retrieval via the Internet.
インターネット上には一般のユーザがキーワードを指定し、例えばコンピュータ用語や経済用語等の特定の分野に関する単語を検索結果として得ることができる検索サイトがある。このような検索サイトの管理者は、検索精度の向上のために検索サイトのシステムのチューニングを行う。しかし、従来の技術ではこのチューニングは、当該検索サイトにおけるキーワードの利用頻度や、ユーザからの指摘や、あるいは、検索対象の特定の分野に詳しい専門家の助言などを元に、手作業で実施されていた。このため、単語の意味が時間の流れとともに変化する分野においては、このチューニングが追いつかないためにユーザが古いキーワードを使わなければ単語が検索結果に出てこないことがある問題点があった。 There are search sites on the Internet where general users can specify keywords and obtain words related to specific fields such as computer terms and economic terms as search results. The administrator of such a search site tunes the search site system in order to improve the search accuracy. However, in the conventional technology, this tuning is performed manually based on the frequency of use of keywords on the search site, indications from users, or advice from experts who are familiar with the specific field to be searched. It was. For this reason, in the field where the meaning of the word changes with the passage of time, there is a problem that the word cannot appear in the search result unless the user uses an old keyword because the tuning cannot catch up.
なお、従来の検索装置として、特許文献1に記載されるものが知られている。特許文献1に記載の技術は検索装置において検索対象の単語に類似のキーワードを付加するものであり、本発明が解決しようとする時間の流れに伴う単語の意味自体の変化に検索サイトが対応できない問題点を解決するものではない。
本発明は上記の事情を考慮してなされたもので、その目的は、時間の流れに伴う単語の意味自体の変化に対応した検索結果を得ることができる情報検索装置を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide an information search apparatus capable of obtaining a search result corresponding to a change in the meaning of a word itself with the passage of time.
この発明は前述の課題を解決するためになされたもので、請求項1の発明は、クライアントのコンピュータからキーワードを受信した時、単語と、前記単語に関するキーワードとを格納する記憶領域中の単語データベースから前記受信したキーワードに対応する単語を読み出して前記クライアントのコンピュータに送信する情報検索装置であって、単語と、前記単語に関するキーワードと、前記単語と前記キーワードとの関連度の高さを表す重みとを格納するキーワード履歴データベースと、予め指定されたインターネット上の複数のサイトをアクセスして前記サイトに掲載された文章の情報を得る情報収集部と、前記情報収集部が得た文章の情報から前記キーワード履歴データベース中の単語に関するキーワードを抽出し、前記キーワードの重みを計算し、前記単語と、前記キーワードと、前記重みとを前記キーワード履歴データベースに書き込むキーワード抽出部と、前記キーワード履歴データベースからデータを読み出し、前記単語と、前記キーワードとを合わせてキーとして前記重みを集計した重みを得て、前記単語と、前記キーワードと、前記集計した重みとを記憶領域中のインターネットインデックスデータベースへ書き込むインデックス生成部と、前記クライアントのコンピュータからキーワードを受信した時、前記単語データベースから前記受信したキーワードに対応する単語を読み出し、前記受信したキーワードと、前記受信したキーワードに対応する単語との関連度を前記インターネットインデックスデータベース中の前記集計した重みに基づいて判定し、前記受信したキーワードに対応する単語と、前記関連度とを前記クライアントのコンピュータへ送信する検索処理部と、を備えることを特徴とする情報検索装置である。
The present invention has been made to solve the above-mentioned problems. The invention of
請求項2に記載の発明は、請求項1に記載の情報検索装置であって、前記キーワード抽出部と、インデックス生成部とは、所定の期間毎に処理を行うことを特徴とするものである。
The invention according to
請求項3に記載の発明は、請求項1または請求項2のいずれかに記載の情報検索装置であって、前記キーワード履歴データベースから所定の時間を経過したデータを削除するキーワード履歴データベースメンテナンス部をさらに具備することを特徴とするものである。
The invention according to
請求項4に記載の発明は、請求項1〜請求項3のいずれかに記載の情報検索装置であって、前記キーワード履歴データベースメンテナンス部は、所定の期間毎に処理を行うことを特徴とするものである。 A fourth aspect of the present invention is the information search device according to any one of the first to third aspects, wherein the keyword history database maintenance unit performs processing every predetermined period. Is.
請求項5に記載の発明は、クライアントのコンピュータからキーワードを受信した時、単語と、前記単語に関するキーワードとを格納する記憶領域中の単語データベースから前記受信したキーワードに対応する単語を読み出して前記クライアントのコンピュータに送信する情報検索装置のコンピュータに、予め指定されたインターネット上のサイトをアクセスして前記サイトに掲載された文章の情報を得る処理と、単語と、前記単語に関するキーワードと、前記単語と前記キーワードとの関連度の高さを表す重みと、前記キーワードが掲載されていたサイトのアドレスと、前記キーワードの前記サイトからの抽出日時とを格納する記憶領域中のキーワード履歴データベースに格納されている単語に関するキーワードを前記文章の情報から抽出する処理と、前記抽出したキーワードの前記単語との関連度である重みを計算し、前記単語と、前記抽出したキーワードと、前記重みと、前記サイトのアドレスと、前記キーワードを抽出した日時とを前記キーワード履歴データベースに書き込む処理と、前記キーワード履歴データベースからデータを読み出し、前記単語と、前記キーワードとを合わせてキーとして前記重みを集計した重みを得て、前記単語と、前記キーワードと、前記集計した重みとを記憶領域中のインターネットインデックスデータベースへ書き込む処理と、前記クライアントのコンピュータからキーワードを受信した時、前記単語データベースから前記受信したキーワードに対応する単語を読み出し、前記受信したキーワードと、前記受信したキーワードに対応する単語との関連度を前記インターネットインデックスデータベース中の前記集計した重みに基づいて判定し、前記受信したキーワードに対応する単語と、前記関連度とを前記クライアントのコンピュータへ送信する処理とを実行させるためのプログラムである。 According to a fifth aspect of the present invention, when a keyword is received from a client computer, a word corresponding to the received keyword is read from a word database in a storage area for storing a word and a keyword related to the word, and the client The computer of the information retrieval device to be transmitted to the computer, a process of accessing a site on the Internet designated in advance to obtain information on the text posted on the site, a word, a keyword related to the word, and the word Stored in a keyword history database in a storage area for storing a weight representing a high degree of relevance with the keyword, an address of a site where the keyword was posted, and an extraction date and time of the keyword from the site. Extract keywords from the sentence information A weight that is a degree of association between the extracted keyword and the word, and the word, the extracted keyword, the weight, the site address, and the date and time when the keyword was extracted. A process of writing to the keyword history database, reading data from the keyword history database, obtaining a weight obtained by summing the weights using the word and the keyword together as a key, and obtaining the word, the keyword, and the sum A process of writing the weights to the Internet index database in the storage area, and when a keyword is received from the client computer, the word corresponding to the received keyword is read from the word database, the received keyword, and the reception Corresponding to the selected keyword For executing a process of transmitting a word corresponding to the received keyword and the degree of association to the client computer. It is a program.
請求項1、あるいは請求項5の発明によれば、情報検索装置はインターネットインデックスデータベースをインターネットのサイトを元に最新の内容に書き換えるため、情報検索装置のユーザは時間の流れに伴う単語の意味の変化に対応した検索結果を得ることができる効果がある。 According to the first or fifth aspect of the present invention, the information search device rewrites the Internet index database with the latest contents based on the Internet site. There is an effect that a search result corresponding to the change can be obtained.
請求項2の発明によれば、インターネットインデックスデータベースが長い間更新されないために新しい単語の登場や単語の意味の変化を情報検索装置の検索結果が反映しなくなることを抑止できる効果がある。
According to the invention of
請求項3の発明によれば、キーワード履歴データベースから古いデータが削除されるため、インターネットインデックスデータベース中からも古いデータが削除され、情報検索装置の検索結果の中に古い単語の意味が残ることを抑止できる効果がある。
According to the invention of
請求項4の発明によれば、キーワード履歴データベースから古いデータが定期的に削除されるため、情報検索装置の検索結果の中に古い単語の意味が残ることを一層確実に抑止できる効果がある。
According to the invention of
まず、図2を参照して本実施の形態における基本的な考え方を説明する。図2はインターネット上で職業紹介を行うサイトの職業情報に関する情報検索装置の概要を表している。この図において、情報検索装置はネットワーク経由で職業に関する情報を提供する複数のWebサイトを定期的にアクセスし、職業に関する情報を含む文章のデータを収集する。次に、情報検索装置は収集した文章のデータを分析して文章のデータに含まれる職業名や、その職業を検索する際にキーワードを抽出する。そして、情報検索装置は抽出したキーワードに関して、各Webサイトでの出現頻度を元に職業名との関連度を計算し、インターネットインデックスDB(Data Base)へ登録する。インターネットのユーザは図2の情報検索装置を使用して、例えば「介護支援」等のキーワードを元にユーザの興味のある職種を検索し、キーワードに対して関連度の高い「ケアマネージャ」などの具体的な職種を知ることができる。 First, the basic concept in the present embodiment will be described with reference to FIG. FIG. 2 shows an outline of an information search apparatus regarding occupation information of a site that introduces occupations on the Internet. In this figure, the information retrieval apparatus periodically accesses a plurality of Web sites that provide information on occupations via a network, and collects text data including information on occupations. Next, the information retrieval apparatus analyzes the collected sentence data and extracts a job name included in the sentence data and a keyword when searching for the occupation. Then, the information search apparatus calculates the degree of association with the occupation name based on the appearance frequency on each Web site for the extracted keyword, and registers it in the Internet index DB (Data Base). The user of the Internet uses the information search apparatus of FIG. 2 to search for a job type that the user is interested in based on a keyword such as “care support”, and the “care manager” or the like having a high degree of relevance to the keyword. You can know specific job types.
図1は本実施の形態における情報検索装置の構成を表している。図1の情報検索装置100はインターネットに接続されたコンピュータであり、本実施の形態においては職業に関する情報検索サービスを一般のインターネットユーザに提供する。制御部101は情報検索装置100の制御機能であり、詳細は以降に記述する。Web情報収集部102はインターネット経由で他のWebサイトをアクセスして職業に関する情報を得て、この職業に関する情報をキーワード抽出部103へ出力する。
キーワード抽出部103はWeb情報収集部102から職業に関する情報を入力し、職業の職業名と、職業に関するキーワードとを抽出してキーワード履歴DB104へ書き込む。
FIG. 1 shows a configuration of an information search apparatus according to this embodiment. An
The keyword extraction unit 103 inputs information related to occupations from the Web
キーワード履歴DB104は図10に表される形式のデータベースである。キーワード履歴DB104は職業名と、職業に関するキーワードと、キーワードが登録されていたホームページのURL(Universal Resource Locator)と、キーワードの登録日時と、キーワードの職業に関する関連度を表す重みとを含むデータベースである。 The keyword history DB 104 is a database having the format shown in FIG. The keyword history DB 104 is a database that includes occupation names, keywords relating to occupations, URLs (Universal Resource Locators) of websites where the keywords are registered, keyword registration dates and times, and weights that indicate the degree of association of the keywords with respect to occupations. .
Webサイト情報格納部109は情報検索装置100の職業に関する情報源であるインターネット上のサイトに関する情報を格納する。Webサイト情報格納部109は図4の形式のデータを格納し、URLは職業に関する情報を掲載しているサイトのURLであり、定型/非定型は当該サイトが定型のフォーマットで表記されているか否かを表し、フォーマット情報は当該サイトが定型のフォーマットで書かれている場合のフォーマットに関する情報である。キーワード履歴DBメンテナンス部105は制御部101の指示を受け、定期的にキーワード履歴DB104中の古いデータを削除する。インデックス生成部106は制御部101の指示を受けてキーワード履歴DB104を読み出し、読み出したデータを集計してインターネットインデックスDB107へ書き込む。
The website
インターネットインデックスDB107は図11に表される形式のデータベースである。インターネットインデックスDB107は職業名と、職業に関するキーワードと、キーワード履歴DB104の重みの集計結果である集計した重みとを含むデータベースである。
検索処理部108は制御部101からユーザの指定したキーワードを入力し、職業DB110と、インターネットインデックスDB107とをアクセスし、ユーザの指定したキーワードに関連する職業に関する情報を制御部101を経由してユーザに提供する。
職業DB110は図12に表されるデータベースである。職業DB110は一般のインターネットユーザに対する職業情報の提供のために予め情報検索装置100が備えるデータベースであり、職業名と、職業に関するキーワードと、職業の解説文とを含むものである。
The
The
The
次に、本実施の形態における処理の流れについて、図を参照しながら説明する。
本実施の形態においては、情報検索装置100の管理者は準備として、職業に関する情報を提供するサイトを選別して情報検索装置に指定する。次に、情報検索装置100は情報検索装置の管理者の指定したサイトを定期的にアクセスし、職業に関する情報を得て、この情報からキーワードを抽出し、キーワード履歴DB104へキーワードを格納する処理であるキーワード抽出処理を行う。また、情報検索装置100は所定の期間毎にキーワード履歴DB104のメンテナンス処理を行う。次に、情報検索装置100はキーワード抽出処理によって得られたキーワードから職業ごとに使用されるキーワードの使用頻度を計算して重み付けを行い、キーワードと、その重みとをインターネットインデックスDB107へ登録する処理であるインデックス生成処理を行う。次に、情報検索装置100はインターネットを経由してユーザからの職業に関する検索要求を受け付けた時、検索結果をユーザに提供する検索処理を行う。以降では、これらの処理について説明する。
Next, the flow of processing in the present embodiment will be described with reference to the drawings.
In the present embodiment, as a preparation, the administrator of the
<Webサイト選別>
まず、情報検索装置100の管理者は職業に関する情報を提供する他のサイトを選別する。このサイトから得られる情報を元に情報検索装置100は職業に関するキーワードを情報検索装置内部のキーワード履歴DB104に格納する。図3はこのサイト選別の手順を表している。情報検索装置100の管理者は職業に関する情報を提供する他のサイトを選別するために、管理者のパソコンを使用してインターネット上の検索エンジンなどのサービスを利用して職業名が掲載されているサイトをチェックし、職業に関する情報を提供するサイトを見つけると、そのサイトのURLを情報検索装置100へ入力する。
<Website selection>
First, the administrator of the
情報検索装置100の制御部101は管理者からのデータの入力を受け付け、入力したURLを図4のようにWebサイト情報格納部109に書き込む。
また、情報検索装置100の管理者は当該サイトが定型のフォーマットで情報を表示しているか、あるいは、特に決まったフォーマットを持っていないかをチェックし、決まったフォーマットを持っている場合には当該サイトの表示形式の情報を含むフォーマット情報を作成し、このフォーマット情報を情報検索装置100に入力する。情報検索装置100の制御部101は管理者からのデータの入力を受け付け、入力したフォーマット情報と、“定型”とをWebサイト情報格納部109に格納書き込む。
The
In addition, the administrator of the
また、情報検索装置の管理者は当該サイトが定型のフォーマットを持たない場合には、当該サイトが定型のフォーマットを持たないことを情報検索装置100に入力する。情報検索装置100の制御部101は管理者からのデータの入力を受け付け、“非定型”をWebサイト情報格納部109に格納書き込む。
その後、情報検索装置100は図3のようにこのURLが示すWebサイトをアクセスして職業に関する情報を含むデータをHTML(Hyper Text Markup Language)形式やXML(eXtensible Markup Language)形式のデータとして得る。この処理に関してはキーワード抽出処理で説明する。
Further, when the site does not have a fixed format, the administrator of the information search device inputs to the
Thereafter, the
<キーワード抽出処理>
情報検索装置100は図5〜図8が表す処理の流れに従ってキーワード抽出処理を行う。まず、情報検索装置100の制御部101は情報検索装置100の管理者が指定したWebサイトを定期的にアクセスして職業情報を含むHTML形式、あるいはXML形式のデータを収集するため、Web情報収集部102にWeb情報収集要求を出力する。Web情報収集部102は制御部101からの要求を受け、Webサイト情報格納部109からアクセスすべきWebサイトのURLを読み出し、インターネットを経由して当該Webサイトをアクセスして職業情報を含むHTML形式、あるいはXML形式のデータであるページ情報を受信する(図5のステップS01)。次に、Web情報収集部102は受信したページ情報と、Webサイト情報格納部109から読み出したURLとをキーワード抽出部103へ出力する。
<Keyword extraction process>
The
キーワード抽出部103はWeb情報収集部102からデータを入力し、Webサイト情報格納部109を参照してWeb情報収集部102から入力したURLが定型のフォーマットを持つか否かを確認する。
Web情報収集部102から入力したページ情報の取得元であるWebサイトが定型のフォーマットである場合には(図5のS02、図6のU01、図7のステップU01)、ページ情報のどこに職業を説明するためのキーワードであるのか、あるいはどこに職業を説明するための文章があるのかが予め明確である。このため、キーワード抽出部103はページ情報から職業に関するキーワードを抽出する。あるいは、ページ情報中の職業に関する説明等の文章については、キーワード抽出部103は当該項目に関して形態素解析処理を行い、職業に関するキーワードを抽出する。
The keyword extraction unit 103 inputs data from the Web
When the Web site from which the page information input from the Web
次に、キーワード抽出部103は抽出したキーワードと、先ほどWeb情報収集部102から入力したURLと、現在日時とをキーワード履歴DB104へ書き込む。キーワード抽出部103は現在日時をキーワード履歴DB104中の登録日時に対応させる。ここで、キーワード抽出部103はキーワード履歴DB104に既に同じキーワードやURLが登録されていても、職業名と、キーワードと、URLと、登録日時との全てが一致しない場合には別のデータとみなしてキーワード履歴DB104へ書き込む。
Next, the keyword extraction unit 103 writes the extracted keyword, the URL input from the Web
次に、キーワード抽出部103は抽出したキーワードの重みを計算する。キーワード抽出部103は、抽出したキーワードが当該Webサイトのページ中で類似職業名として挙げられていた場合には100ポイントをキーワード履歴DB104の当該キーワードの重みに設定する。また、キーワード抽出部103は、抽出したキーワードが当該Webサイトのページにおいて解説文の中で出てきた場合には1ポイントをキーワード履歴DB104の当該キーワードの重みに設定する。
ただし、キーワード履歴DB104に既に職業名と、キーワードと、URLと、登録日時との全てが一致するデータが登録されている場合には、キーワード抽出部103はキーワード履歴DB104の重みを累積して加算し、設定する。
キーワード抽出部103による重み付けにより、図7においては、例えば、“介護福祉士”と、“ホームヘルパー”と、“サービス提供責任者”とは各々100ポイントとなり、“シフト作成”と、“利用者”と、“ケアマネージャー”と、“サービス”と、“調整”と、“訪問”と、“介護”と、“計画書”と、“書類”と、“整備”と、“ヘルパー”と、“面接”と、“採用”と、“教育”と、“車”と、“巡回”とは各々5ポイントとなる。
Next, the keyword extraction unit 103 calculates the weight of the extracted keyword. The keyword extraction unit 103 sets 100 points as the weight of the keyword in the
However, if data that matches all of the occupation name, the keyword, the URL, and the registration date / time has already been registered in the
According to the weighting by the keyword extraction unit 103, in FIG. 7, for example, “care worker”, “home helper”, and “service provider” are each 100 points, and “shift creation” and “user” ”,“ Care manager ”,“ service ”,“ coordination ”,“ visit ”,“ care ”,“ plan ”,“ documents ”,“ maintenance ”,“ helper ”, “Interview”, “recruitment”, “education”, “car”, and “tour” are 5 points each.
Web情報収集部102から入力したページ情報の取得元であるWebサイトが非定型のフォーマットである場合には、キーワード抽出部103は入力したページ情報からHTMLのタグなどを取り除いて平文のデータを生成する(図6のT01、図8のステップT01)。次に、キーワード抽出部103は平文データに対して形態素解析処理を実行し、平文のデータを単語に分ける(図6のT02、図8のステップT02)。
If the Web site from which the page information input from the Web
さらに、キーワード抽出部103は平文のデータ中の「。」や「、」等の記号、「が」、「の」、「を」等の助詞、「だ」、「です」等の助動詞、「また」等の接続詞、「ほとんど」等の副詞、「いわゆる」、「或る」等の連体詞、あるいは、「あの」「この」等の代名詞等を取り除き、キーワードのみを残す(図6のT03、図8のステップT03)。そして、キーワード抽出部103は平文データ中の各キーワードを、上述のWebサイトが定型のフォーマットである場合と同様にキーワード履歴DB104に書き込む(図6のT04、図8のステップT04)。
Further, the keyword extraction unit 103 includes symbols such as “.” And “,” in plaintext data, particles such as “ga”, “no”, “wo”, auxiliary verbs such as “da”, “da”, “ Also, connectives such as “,” adverbs such as “almost”, conjuncts such as “so-called” and “some”, or pronouns such as “that” and “this” are removed, leaving only the keywords (T03 in FIG. 6). Step T03 in FIG. 8). Then, the keyword extraction unit 103 writes each keyword in the plain text data in the
<キーワード履歴DBのメンテナンス処理>
情報検索装置100はキーワード抽出処理を定期的に繰り返すことにより、キーワード履歴DB104には常に新しい職業に関するデータが蓄積される。しかし、情報検索装置100がデータを蓄積するばかりでは、キーワード履歴DB104中のデータには古いデータが残ったままとなる。そこで、情報検索装置100の制御部101は古いデータをキーワード履歴DB104から取り除くために、所定の期間毎にキーワード履歴DBメンテナンス部105にメンテナンス要求を出力する。
<Keyword history DB maintenance processing>
The
キーワード履歴DBメンテナンス部105は情報検索装置100からメンテナンス要求を入力し、キーワード履歴DB104中のデータのうち登録日時が予め決められた期限よりも古いものを削除する(図5のS03)。この処理により、例えば図10が表すようにキーワード履歴DB104中の2002/12/31以前のデータは削除されるため、陳腐化して誰も使わなくなった職業名やキーワードはキーワード履歴DB104から削除される。また、キーワード抽出処理ではキーワード履歴DB104中に既に格納されているキーワードについても登録日時が異なれば別のデータとみなされてキーワード履歴DB104に再度登録されるため、長い年月の間一般に使用される職業名やキーワードはキーワード履歴DB104中に残ったままとなる。
The keyword history
<インデックス生成処理>
情報検索装置100は予め決められた期間毎にキーワード履歴DB104の集計結果を生成してインターネットインデックスDB107へ集計結果を格納する。このために、制御部101は所定の期間毎にインデックス生成部106にインデックス生成要求を出力する。
インデックス生成部106は制御部101からのインデックス生成要求を受け付け、一旦、インターネットインデックスDB107中の全てのデータを削除する。そして、インデックス生成部106はキーワード履歴DB104を読み出し、図11のようにキーワード履歴DB104中の職業名と、キーワードとを共にキーとして重みを加算して集計した重みを求め、インターネットインデックスDB107へ職業名と、キーワードと、集計した重みとを書き込む(図5のステップS04)。
<Index generation processing>
The
The
<検索処理>
いま、情報検索装置100はインターネットを経由してユーザが指定した“高齢者”というキーワードを受信し、当該キーワードに関連の強い職業名の検索要求を受け付けた(図9のステップV01)。情報検索装置100の制御部101はこの要求を受けて、検索処理部108に受信したキーワードを出力して当該キーワードと関連性の強い職業名の検索を要求する。
<Search process>
Now, the
検索処理部108は制御部101からデータを入力し、図13に表される職業リストを記憶領域中に生成する。そして、検索処理部108は図12に表される職業DB110をアクセスして職業名毎に“高齢者”に該当するキーワードが出現するか否か、および、解説文中に“高齢者”が出現するか否かをチェックする。検索処理部108はこのチェックを行いながら各職業名にポイントを付与し、ポイントが高い職業名はユーザが指定した“高齢者”と関連性が高いものと判断する。この処理では例えば、職業DB110中の“介護福祉士”にはキーワードとして“高齢者”は対応していないが、解説文中に“高齢者”が含まれている。この場合、検索処理部108は“介護福祉士”に対して50ポイントを付与し、“介護福祉士”と、50ポイントとを職業リストに格納する。また、職業リストの“介護福祉士”にすでにポイントが付与されている場合には、検索処理部108は50ポイントを加算して職業リストに書き込む。
The
また、職業DB110中の“介護福祉士”のデータにはキーワードとして“高齢者”が対応していた場合には、検索処理部108は“介護福祉士”に対して500ポイントを付与し、“介護福祉士”と、500ポイントとを職業リストに格納する。また、職業リストの“介護福祉士”にすでにポイントが付与されている場合には、検索処理部108は500ポイントを“介護福祉士”に加算して職業リストに書き込む。検索処理部108は、職業DB110中の他のデータについても同様の処理を行う。
In addition, when “elderly person” corresponds as a keyword to the data of “care worker” in the
さらに、検索処理部108はインターネットインデックスDB107をアクセスし、“高齢者”がインターネットインデックスDB107にキーワードとして存在するか否かをチェックする。インターネットインデックスDB107中に“高齢者”がキーワードとして存在する場合には、検索処理部108は“高齢者”に対応する職業名と、集計した重みとをインターネットインデックスDB107から読み出し、職業リストと突き合わせて同じ職業名が含まれているか否かをチェックする。
検索処理部108は、職業リスト中に、インターネットインデックスDB107から読み出した職業名が含まれていないことを確認した場合には、集計した重みをポイントとみなして、職業名と、ポイントとを職業リストに追加する。
また、検索処理部108は、職業リスト中に、インターネットインデックスDB107から読み出した職業名が含まれていることを検知した場合には、該当する職業リスト中のデータのポイントにインターネットインデックスDB107から読み出した集計した重みを加算して書き込む(図9のステップV02)。
次に、検索処理部108は職業リストを記憶領域から読み出し、ポイントの高い順にソートして制御部101へ出力する(図9のステップV03)。制御部101は検索処理部108からデータを入力して職業リストをインターネットを経由して要求元へ送信する(図9のステップV04)。
Further, the
When it is confirmed that the occupation name read from the
In addition, when the
Next, the
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、本実施の形態における情報検索装置は職業に関する情報提供を目的とするものであったが、コンピュータ用語や経済用語、あるいは時事情報に関する用語等に関する情報提供を目的とするものに適用しても良い。 As described above, the embodiments of the present invention have been described in detail with reference to the drawings, but the specific configuration is not limited to these embodiments, and includes design changes and the like within a scope not departing from the gist of the present invention. It is. For example, the information retrieval apparatus in the present embodiment is intended to provide information on occupations, but may be applied to information intended to provide information on computer terms, economic terms, terms related to current affairs information, etc. good.
100…情報検索装置
101…制御部
102…Web情報収集部
103…キーワード抽出部
104…キーワード履歴DB
105…キーワード履歴DBメンテナンス部
106…インデックス生成部
107…インターネットインデックスDB
108…検索処理部
109…Webサイト情報格納部
110…職業DB
DESCRIPTION OF
105 ... Keyword history
108 ...
Claims (5)
単語と、前記単語に関するキーワードと、前記単語と前記キーワードとの関連度の高さを表す重みとを格納するキーワード履歴データベースと、
予め指定されたインターネット上の複数のサイトをアクセスして前記サイトに掲載された文章の情報を得る情報収集部と、
前記情報収集部が得た文章の情報から前記キーワード履歴データベース中の単語に関するキーワードを抽出し、前記キーワードの重みを計算し、前記単語と、前記キーワードと、前記重みとを前記キーワード履歴データベースに書き込むキーワード抽出部と、
前記キーワード履歴データベースからデータを読み出し、前記単語と、前記キーワードとを合わせてキーとして前記重みを集計した重みを得て、前記単語と、前記キーワードと、前記集計した重みとを記憶領域中のインターネットインデックスデータベースへ書き込むインデックス生成部と、
前記クライアントのコンピュータからキーワードを受信した時、前記単語データベースから前記受信したキーワードに対応する単語を読み出し、前記受信したキーワードと、前記受信したキーワードに対応する単語との関連度を前記インターネットインデックスデータベース中の前記集計した重みに基づいて判定し、前記受信したキーワードに対応する単語と、前記関連度とを前記クライアントのコンピュータへ送信する検索処理部と、
を備えることを特徴とする情報検索装置。 An information retrieval device for reading a word corresponding to the received keyword from a word database in a storage area for storing a word and a keyword related to the word when the keyword is received from a client computer and transmitting the word to the client computer. There,
A keyword history database storing a word, a keyword related to the word, and a weight representing a high degree of association between the word and the keyword;
An information collecting unit for accessing a plurality of sites on the Internet designated in advance and obtaining information on sentences posted on the sites;
A keyword related to a word in the keyword history database is extracted from sentence information obtained by the information collecting unit, a weight of the keyword is calculated, and the word, the keyword, and the weight are written in the keyword history database. A keyword extractor;
Data is read from the keyword history database, the weight obtained by adding the word and the keyword together as a key to obtain the weight is obtained, and the word, the keyword, and the collected weight are stored in the Internet in the storage area. An index generator for writing to the index database;
When a keyword is received from the client computer, a word corresponding to the received keyword is read from the word database, and a degree of association between the received keyword and the word corresponding to the received keyword is stored in the Internet index database. A search processing unit for determining a word corresponding to the received keyword and transmitting the degree of association to the client computer;
An information retrieval apparatus comprising:
前記キーワード抽出部は、前記単語と、前記キーワードと、前記重みとを前記キーワード履歴データベースに書き込む際に、前記キーワードが掲載されていたサイトのアドレスと、前記キーワードの前記サイトからの抽出日時とをさらに書き込み、
前記キーワード履歴データベースから所定の時間を経過したデータを削除するキーワード履歴データベースメンテナンス部をさらに具備する
ことを特徴とする請求項1または請求項2のいずれかに記載の情報検索装置。 The keyword history database further stores an address of a site where the keyword was posted and an extraction date and time of the keyword from the site,
When the keyword extraction unit writes the word, the keyword, and the weight in the keyword history database, an address of a site on which the keyword is posted and an extraction date and time of the keyword from the site Write further,
The information search apparatus according to claim 1, further comprising a keyword history database maintenance unit that deletes data that has passed a predetermined time from the keyword history database.
予め指定されたインターネット上の複数のサイトをアクセスして前記サイトに掲載された文章の情報を得る処理と、
単語と、前記単語に関するキーワードと、前記単語と前記キーワードとの関連度の高さを表す重みとを格納する記憶領域中のキーワード履歴データベースに格納されている単語に関するキーワードを前記文章の情報から抽出する処理と、
前記抽出したキーワードの前記単語との関連度である重みを計算し、前記単語と、前記抽出したキーワードと、前記重みとを前記キーワード履歴データベースに書き込む処理と、
前記キーワード履歴データベースからデータを読み出し、前記単語と、前記キーワードとを合わせてキーとして前記重みを集計した重みを得て、前記単語と、前記キーワードと、前記集計した重みとを記憶領域中のインターネットインデックスデータベースへ書き込む処理と、
前記クライアントのコンピュータからキーワードを受信した時、前記単語データベースから前記受信したキーワードに対応する単語を読み出し、前記受信したキーワードと、前記受信したキーワードに対応する単語との関連度を前記インターネットインデックスデータベース中の前記集計した重みに基づいて判定し、前記受信したキーワードに対応する単語と、前記関連度とを前記クライアントのコンピュータへ送信する処理と
を実行させるためのプログラム。 An information retrieval apparatus for reading a word corresponding to the received keyword from a word database in a storage area for storing a word and a keyword related to the word when the keyword is received from a client computer and transmitting the word to the client computer. On the computer,
A process of accessing a plurality of sites on the Internet designated in advance to obtain information on sentences posted on the sites;
A keyword related to a word stored in a keyword history database in a storage area for storing a word, a keyword related to the word, and a weight representing a high degree of association between the word and the keyword is extracted from the sentence information. Processing to
Calculating a weight that is a degree of association of the extracted keyword with the word, and writing the word, the extracted keyword, and the weight to the keyword history database;
Data is read from the keyword history database, the weight obtained by adding the word and the keyword together as a key to obtain the weight is obtained, and the word, the keyword, and the collected weight are stored in the Internet in the storage area. Writing to the index database;
When a keyword is received from the client computer, a word corresponding to the received keyword is read from the word database, and a degree of association between the received keyword and the word corresponding to the received keyword is stored in the Internet index database. A program for executing a process of determining a word corresponding to the received keyword and transmitting the degree of association to the client computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004086934A JP2005275714A (en) | 2004-03-24 | 2004-03-24 | Information retrieval apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004086934A JP2005275714A (en) | 2004-03-24 | 2004-03-24 | Information retrieval apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005275714A true JP2005275714A (en) | 2005-10-06 |
Family
ID=35175341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004086934A Pending JP2005275714A (en) | 2004-03-24 | 2004-03-24 | Information retrieval apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005275714A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102055826A (en) * | 2009-10-27 | 2011-05-11 | 北京网秦天下科技有限公司 | Method and system for maintaining multi-dimensional related information related to contacts in address list |
CN109857761A (en) * | 2018-12-28 | 2019-06-07 | 珍岛信息技术(上海)股份有限公司 | A kind of database optimizing method and its system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000227917A (en) * | 1999-02-05 | 2000-08-15 | Agency Of Ind Science & Technol | Thesaurus browsing system and method therefor and recording medium recording its processing program |
JP2002189746A (en) * | 2000-12-21 | 2002-07-05 | Just Syst Corp | Device and method for electronic file retrieval, and computer-readable recording medium with program making computer implement the method recorded thereon |
JP2003271609A (en) * | 2002-03-12 | 2003-09-26 | Mitsubishi Electric Corp | Information monitoring device and information monitoring method |
-
2004
- 2004-03-24 JP JP2004086934A patent/JP2005275714A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000227917A (en) * | 1999-02-05 | 2000-08-15 | Agency Of Ind Science & Technol | Thesaurus browsing system and method therefor and recording medium recording its processing program |
JP2002189746A (en) * | 2000-12-21 | 2002-07-05 | Just Syst Corp | Device and method for electronic file retrieval, and computer-readable recording medium with program making computer implement the method recorded thereon |
JP2003271609A (en) * | 2002-03-12 | 2003-09-26 | Mitsubishi Electric Corp | Information monitoring device and information monitoring method |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102055826A (en) * | 2009-10-27 | 2011-05-11 | 北京网秦天下科技有限公司 | Method and system for maintaining multi-dimensional related information related to contacts in address list |
CN109857761A (en) * | 2018-12-28 | 2019-06-07 | 珍岛信息技术(上海)股份有限公司 | A kind of database optimizing method and its system |
CN109857761B (en) * | 2018-12-28 | 2022-11-11 | 珍岛信息技术(上海)股份有限公司 | Database optimization method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6883001B2 (en) | Document information search apparatus and method and recording medium storing document information search program therein | |
JP4350744B2 (en) | Method and system for providing regional information search results | |
US7707208B2 (en) | Identifying sight for a location | |
US20060059152A1 (en) | Browse history presentation system | |
US20110087682A1 (en) | Automated media analysis and document management system | |
JP2002032401A (en) | Method and device for document retrieval and computer- readable recording medium with recorded program making computer actualize method for document retrieving | |
JP2007188352A (en) | Page reranking apparatus, and page reranking program | |
JP2010129061A (en) | Index creating system, information retrieval system, and index creating method | |
JP4875911B2 (en) | Content identification method and apparatus | |
WO2004088541A1 (en) | A method of managing web sites registered in search engine and a system thereof | |
JP5313295B2 (en) | Document search service providing method and system | |
JP2009122807A (en) | Associative retrieval system | |
JP2004280569A (en) | Information monitoring device | |
JP2008077353A (en) | Method for classifying keyword, server computer, and program | |
JP4755834B2 (en) | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program | |
JP5286007B2 (en) | Document search device, document search method, and document search program | |
JP2005275714A (en) | Information retrieval apparatus | |
JP4213700B2 (en) | Blog community analysis device and program | |
CN102521288A (en) | Acquisition method of Web service information on Internet | |
JP2007012100A (en) | Retrieval method and retrieval device or information providing system based on personal information | |
KR101020895B1 (en) | Method and system for generating a search result list based on local information | |
KR100371805B1 (en) | Method and system for providing related web sites for the current visitting of client | |
JP2003173351A (en) | Method, device, program and storage medium for analysis, collection and retrieval of information | |
JP3662857B2 (en) | SEARCH SYSTEM, SEARCH METHOD, AND SEARCH PROGRAM | |
JP2008171110A (en) | Site search system, search server, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091027 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100126 |