JP2003271663A - Information retrieval method and device and software - Google Patents
Information retrieval method and device and softwareInfo
- Publication number
- JP2003271663A JP2003271663A JP2002067367A JP2002067367A JP2003271663A JP 2003271663 A JP2003271663 A JP 2003271663A JP 2002067367 A JP2002067367 A JP 2002067367A JP 2002067367 A JP2002067367 A JP 2002067367A JP 2003271663 A JP2003271663 A JP 2003271663A
- Authority
- JP
- Japan
- Prior art keywords
- information
- time
- search
- time information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000000605 extraction Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、ネットワーク上に
おける情報検索方法及び装置に関する。特に、検索時に
有効な情報を検索する技術に係るものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information search method and device on a network. In particular, it relates to a technique for searching effective information at the time of searching.
【0002】[0002]
【従来の技術】インターネットやイントラネットにおい
て、近年では商用化が進み、それに蓄えられた情報量は
飛躍的に増大している。この膨大な情報から情報検索を
行うために、検索サイトと呼ばれるサービスが提供さ
れ、高速で有効な検索を行うための検索エンジンの開発
も進められている。2. Description of the Related Art In recent years, commercialization of the Internet and Intranet has progressed, and the amount of information stored therein has increased dramatically. A service called a search site is provided to search information from this enormous amount of information, and a search engine for high-speed and effective search is under development.
【0003】例えば、Google(商標)というWW
Wサービスにおいては、「Googleは情報の散在を秩序正
しくするように設計されています。編集や限定されたデ
ィレクトリや、販売された高額順の検索結果リストでは
なく、インターネットがもつ独自の構造にしたがってウ
ェブ上の情報を整理し、検索サービスの本来あるべき姿
を実現しています。」 とし、その具体的技術として、P
ageRank(商標)なる技術を用いると開示している。For example, a WW called Google (trademark)
According to the W service, "Google is designed to make information scattered in an orderly manner. It is not a compilation or limited directory, or a list of expensive search results sold, but according to the unique structure of the Internet. "We are organizing the information on the Web and realizing the ideal form of a search service."
It discloses that a technology called ageRank (trademark) is used.
【0004】すなわち、「PageRank(TM) は、Webの膨
大なリンク構造を用いて、その特性を生かします。ペー
ジAからページBへのリンクをページAによるページBへ
の支持投票とみなし、Googleはこの投票数によりそのペ
ージの重要性を判断します。しかしGoogleは単に票数、
つまりリンク数を見るだけではなく、票を投じたページ
についても分析します。「重要度」の高いページによっ
て投じられた票はより高く評価されて、それを受け取っ
たページを「重要なもの」にしていくのです。こうした
分析によって高評価を得た重要なページには高いPageRa
nk(TM) (ページ順位)が与えられ、検索結果内の順位
も高くなります。PageRank(TM) はGoogleにおけるペー
ジの重要度を示す総合的な指標であり、各検索に影響さ
れるものではありません。むしろ、PageRank(TM) は複
雑なアルゴリズムにしたがったリンク構造の分析にもと
づく、各Webページそのものの特性です。 」として、リ
ンク数を中心とした検索結果の重要度を決定する手法を
用いている。That is, "PageRank (TM) takes advantage of the characteristics of the huge link structure of the Web. The link from page A to page B is regarded as a support vote for page B by page A, and Google Determines how important the page is by this number of votes, but Google simply says
So not only do you see the number of links, but you also analyze the pages that voted. The votes cast by the "important" pages are more highly evaluated, and the pages that receive them are "important". High PageRa for important pages that have been highly evaluated by such analysis
nk (TM) (page rank) is given, and the rank in the search results is also high. PageRank (TM) is a comprehensive index that shows the importance of a page on Google, and is not affected by each search. Rather, PageRank (TM) is a property of each web page itself, based on an analysis of the link structure according to complex algorithms. ", The method of determining the importance of the search result centering on the number of links is used.
【0005】上記従来の方法は、検索結果の重要度、す
なわち重み付けをする上で極めて有効であり、実際に多
くリンクされる情報は、すでに該情報を参照した者が人
為的にあるいは自動的に有用と判断したものであること
が多いため、必要とされる情報を含む可能性が高い。し
かし、この方法のみによると、例えば観光情報など、情
報の有効性に時間的な制限がある情報については、十分
な検索ができない問題がある。The above-mentioned conventional method is extremely effective in weighting the search results, that is, in weighting, and information that is actually linked in large numbers is automatically or artificially linked by a person who has already referred to the information. Since it is often judged to be useful, it is likely to include the necessary information. However, according to only this method, there is a problem that sufficient search cannot be performed for information such as tourist information whose validity is limited in time.
【0006】すなわち、例えば寺院における仏像の特別
公開などについて、観光情報を検索しようとしたとき
に、それが注目された公開であると従来の方法では多く
のリンクが行われ、公開期間が終了してもそのリンクが
削除されるとは限らないために、引き続き重要度の高い
検索結果として出力されることになる。しかし、本例で
は明らかに公開期間が終了してしまえば、観光情報を探
している検索者にとって無用な情報であり、却って検索
効率を悪化を招いてしまう。That is, for example, when a tourist information is searched for a special opening of a Buddhist statue in a temple, many links are made by the conventional method if it is the noted opening, and the opening period ends. However, since the link is not always deleted, it will continue to be output as a search result of high importance. However, in this example, if the disclosure period is apparently ended, the information is useless for a searcher who is looking for tourist information, which rather deteriorates the search efficiency.
【0007】また、従来でも検索結果を新しく記録され
たものから優先的に出力することはあるが、情報自体の
時間的適合を判断するものではなく、特に検索者が必要
とされる時間に適合したものについて検索結果への重み
付けを行う技術ではなかった。Although search results may be preferentially output from newly recorded ones in the past, they do not judge the time suitability of the information itself, and particularly suit the time required by the searcher. It was not a technique for weighting the search results for those that were done.
【0008】[0008]
【発明が解決しようとする課題】そこで、本発明は、上
記従来技術が有していた問題を解決しようとするもので
あり、ネットワーク上に記録された情報から、時間的に
適合する有用な情報を検索する技術の提供を目的とす
る。SUMMARY OF THE INVENTION Therefore, the present invention is intended to solve the problems of the above-mentioned prior art, and it is useful information that is temporally adapted from the information recorded on the network. The purpose is to provide a search technology.
【0009】[0009]
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の情報検索方法は、以下の特徴を備える。
すなわち、インターネット又はイントラネットのネット
ワーク上に単数又は複数の情報記憶サーバーを有すると
きに、該ネットワークに接続された情報端末から情報検
索を行う方法であって、次の各ステップを少なくとも含
む。
(1) 情報端末において検索キーワードを発生するス
テップ、該検索キーワードに基づいて情報記憶サーバ
ー、又は該情報記憶サーバーから予め検索用情報を収集
した検索用情報記憶サーバーの少なくともいずれかにつ
いて情報検索を行うステップ、(2) 該情報検索の検
索結果から、各結果毎に該情報の時間情報を抽出するス
テップ、(3) 該時間情報に基づき、上記検索キーワ
ード又は検索実行時間の少なくともいずれかに関連して
該検索結果に重み付けを行うステップ、(4) 該重み
付けに基づき検索結果を順位付けて出力するステップで
ある。In order to achieve the above object, the information retrieval method of the present invention has the following features.
That is, when a single or a plurality of information storage servers are provided on a network such as the Internet or an intranet, it is a method for searching information from an information terminal connected to the network, which includes at least the following steps. (1) A step of generating a search keyword in an information terminal, an information search is performed on at least one of an information storage server based on the search keyword, or a search information storage server that has previously collected search information from the information storage server Step (2) extracting time information of the information for each result from the search result of the information search, (3) relating to at least one of the search keyword and the search execution time based on the time information And weighting the search results, and (4) ranking and outputting the search results based on the weighting.
【0010】本発明では、検索結果について従来技術と
異なり、検索結果の時間情報と、検索者が望む時間との
関連性から重み付けを行うことで、時間的に適合する有
用な情報を検索することができる。In the present invention, unlike the prior art, the search results are weighted based on the relationship between the time information of the search results and the time desired by the searcher to search for useful information that matches in time. You can
【0011】前記時間情報が、該検索結果が当該情報記
憶サーバー又は検索用情報記憶サーバーの少なくともい
ずれかにおいて記録、更新、削除された時間であっても
よい。The time information may be a time at which the search result is recorded, updated, or deleted in at least one of the information storage server and the search information storage server.
【0012】また、前記時間情報が、予め時間情報を指
示する文字列を指定しておき、該文字列が、該検索結果
に含まれる文字列と所定のしきい値以上一致するとき
に、抽出される時間であってもよい。The time information specifies a character string indicating the time information in advance, and when the character string matches the character string included in the search result by a predetermined threshold value or more, extraction is performed. It may be time to be.
【0013】さらに本発明では、インターネット又はイ
ントラネットのネットワーク上に単数又は複数の情報記
憶サーバーを有するときに、該ネットワークに接続され
た情報端末から情報検索を行う情報検索装置を提供する
こともできる。該装置には、情報端末において検索キー
ワードを発生するキーワード発生部、該検索キーワード
に基づいて情報記憶サーバー、又は該情報記憶サーバー
から予め検索用情報を収集した検索用情報記憶サーバー
の少なくともいずれかについて情報検索を行う情報検索
部、該情報検索の検索結果から、各結果毎に該情報の時
間情報を抽出する時間情報抽出部、該時間情報に基づ
き、上記検索キーワード又は検索実行時間の少なくとも
いずれかに関連して該検索結果に重み付けを行う検索結
果評価部、該重み付けに基づき検索結果を順位付けて出
力する検索結果出力部の各部を少なくとも備える。Further, according to the present invention, it is possible to provide an information retrieving apparatus for retrieving information from an information terminal connected to the network when one or more information storage servers are provided on the Internet or intranet network. The apparatus includes at least one of a keyword generation unit that generates a search keyword in an information terminal, an information storage server based on the search keyword, or a search information storage server that collects search information in advance from the information storage server. An information search unit that performs information search, a time information extraction unit that extracts time information of the information for each result from the search results of the information search, and based on the time information, at least one of the search keyword and the search execution time. And a search result output unit that weights the search result in relation to the search result and a search result output unit that ranks and outputs the search result based on the weight.
【0014】前記時間情報が、該検索結果が当該情報記
憶サーバー又は検索用情報記憶サーバーの少なくともい
ずれかにおいて記録、更新、削除された時間でもよい
し、予め時間情報を指示する文字列を指定しておき、該
検索結果に含まれる文字列との一致を調べて自動的に抽
出する時間であってもよい。The time information may be a time at which the search result is recorded, updated, or deleted in at least one of the information storage server and the search information storage server, or a character string indicating the time information is designated in advance. The time may be the time for checking for a match with the character string included in the search result and automatically extracting it.
【0015】ここで、本発明による情報検索方法・装置
が、指定期間内に1個又は複数の処理を行う場合のプロ
セスを検索する構成において、前記時間情報を、該処理
自体に要する時間である第1時間情報と、該処理を行う
ために処理以外に要する時間である第2時間情報と、該
指定期間内で、他に要する時間である第3時間情報と、
該指定期間を示す期間情報とに分類することができる。Here, in the configuration in which the information retrieval method / apparatus according to the present invention retrieves a process when performing one or a plurality of processes within a designated period, the time information is a time required for the process itself. First time information, second time information that is a time required to perform the process other than the process, and third time information that is another time required in the designated period,
It can be classified into period information indicating the designated period.
【0016】そして、最初に発生した検索キーワードか
ら該時間情報のいずれかが得られたときに、他の時間情
報の少なくともいずれかを得る検索キーワードを自動的
に発生させ、他の時間情報を得ると共に、複数の時間情
報に基づき、検索キーワード又は検索実行時間の少なく
ともいずれかに関連して該検索結果に重み付けを行って
もよい。Then, when any of the time information is obtained from the first generated search keyword, a search keyword for obtaining at least one of the other time information is automatically generated to obtain the other time information. At the same time, the search results may be weighted in relation to at least one of the search keyword and the search execution time based on a plurality of time information.
【0017】特に、期間情報が旅行期間である構成にお
いては、第1時間情報が、行き先におけるイベント時間
であり、第2時間情報が、該イベントの行われる場所ま
でのアクセス時間であり、第3時間情報が、日常生活中
で必要な/生じる生活時間である構成でもよい。In particular, in the structure in which the period information is the travel period, the first time information is the event time at the destination, the second time information is the access time to the place where the event is performed, and the third time information. The time information may be a necessary / occurring living time in daily life.
【0018】[0018]
【発明の実施の形態】以下、本発明の実施形態を図面に
示した実施例に基づいて説明する。なお、実施形態は、
本発明の主旨から逸脱しないかぎり適宜変更可能なもの
である。図1に本発明による情報検索装置(1)のブロ
ック図を示す。本装置(1)ではインターネット(2)
に無数に配置されている情報サーバーから所望の情報を
検索する。なお、インターネットではなく限られた範囲
のサーバー・端末のみで構成されるイントラネットにお
いても全く同様の構成で本装置(1)を用いることがで
きる。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the examples shown in the drawings. The embodiment is
Modifications can be made without departing from the spirit of the present invention. FIG. 1 shows a block diagram of an information retrieval device (1) according to the present invention. The device (1) uses the Internet (2)
Search for desired information from an infinite number of information servers. Note that the present apparatus (1) can be used in the completely same configuration not only on the Internet but also on an intranet configured by only a limited range of servers and terminals.
【0019】本装置(1)は、主な構成要素として、演
算・通信処理を行うCPU(4)と、現在時刻など時間
をCPUに与えるクロック部(6)、情報を格納するハ
ードディスクなどの外部記録手段(7)を備える。そし
て、キーボードなど入力装置(3)から入力された情報
からCPU(4)のキーワード発生部(10)で検索す
べきキーワードを発生させる。The present apparatus (1) has, as main components, a CPU (4) for performing arithmetic / communication processing, a clock unit (6) for giving time such as current time to the CPU, and an external hard disk for storing information. A recording means (7) is provided. Then, the keyword generation unit (10) of the CPU (4) generates a keyword to be searched from the information input from the input device (3) such as a keyboard.
【0020】キーワードの発生については、入力装置
(3)から直接入力された語句でもよいし、自動的にさ
らに別の語句を付加したり、別に備えるシソーラスデー
タベースによって関連語を抽出したり、言語翻訳した
り、文字種を変換したりして、さらに有効な検索ができ
るようにしてもよい。Regarding the generation of the keyword, a word or phrase directly input from the input device (3) may be used, another word or phrase may be automatically added, or a related word may be extracted by a thesaurus database provided separately, or a language translation may be performed. Alternatively, the character type may be converted to enable more effective search.
【0021】例えば、観光情報を検索するための装置で
あれば、検索者が入力装置(3)で「奈良」と入力した
場合にも、「観光」や「旅行」などの語句を付加してキ
ーワードを発生させる。又、「奈良」を「なら」や「ナ
ラ」に変換させてもよい。このように、本発明ではキー
ワード発生部(10)においてキーワードを発生させ、
必ずしもキーボードによる入力だけでなく、他の装置な
どから与えられた情報を基に自由なキーワードを用いる
ことができる。For example, in the case of a device for retrieving sightseeing information, even when the searcher inputs "Nara" with the input device (3), words such as "sightseeing" and "travel" are added. Generate keywords. Further, "Nara" may be converted into "nara" or "nara". As described above, according to the present invention, the keyword is generated in the keyword generating unit (10),
Not only the input by the keyboard but also free keywords can be used based on the information given from other devices.
【0022】キーワード発生部(10)によるキーワー
ドを用い、インターネット(2)に接続され情報を記録
してある情報記録サーバー(20)や、予めインターネ
ット(2)から情報を検索用に収集し記録してある検索
用情報記憶サーバー(21)から一致する情報を情報検
索部(11)において検索する。検索用情報記憶サーバ
ー(21)は図示のようにインターネット(2)を介し
て接続する構成ではなく、点線部(22)のように本装
置(1)に直接接続される構成でもよい。又は両方の経
路を備えていてもよい。Information is collected from the information recording server (20) which is connected to the Internet (2) and records information, or the Internet (2) in advance by using a keyword generated by the keyword generating unit (10), for recording and recording. The information retrieval unit (11) retrieves matching information from the retrieval information storage server (21). The search information storage server (21) may not be connected via the Internet (2) as shown, but may be directly connected to the device (1) as indicated by a dotted line part (22). Alternatively, both paths may be provided.
【0023】情報検索部(11)における検索には公知
の様々な検索技術を用いることができるが、本発明では
特に検索対象となる情報に含めて、該情報の記録日や更
新日、削除情報が記録されるシステムにおいては削除日
なども検索結果として取得するのが望ましい。また、本
発明では時間情報を重視するため、可能な限り新しい情
報を検索する必要があり、検索用情報記録サーバー(2
1)などによって検索の高速化を図るときには、その更
新頻度が大きい方が望ましい。Various known search techniques can be used for the search in the information search section (11). In the present invention, the information to be searched is included in the record date, update date, and delete information of the information. In the system where is recorded, it is desirable to acquire the date of deletion as a search result. Further, in the present invention, since time information is important, it is necessary to search for new information as much as possible, and the search information recording server (2
When the search speed is increased by 1) or the like, it is desirable that the update frequency is high.
【0024】検索結果は、一旦外部記録装置(7)に設
ける検索結果データベース(30)に格納される。この
段階では、公知の検索技術による検索結果と同等の順位
により格納され、例えばキーワードの一致率や、前記従
来技術で示したリンク数に応じた重要度による順位など
により並べられる。The search results are temporarily stored in the search result database (30) provided in the external recording device (7). At this stage, they are stored in the same rank as the search results by the known search technique, and are sorted by, for example, the matching rate of the keywords or the rank according to the importance according to the number of links shown in the above-mentioned conventional technique.
【0025】本発明では、これら従来技術から、時間的
に適合した情報を出力するために、次の時間情報抽出部
(12)、検索結果評価部(13)を新たに加えて時間
軸を中心とした検索結果の重み付けを行う。まず、時間
情報抽出部(12)について説述する。According to the present invention, in order to output time-adapted information from these conventional techniques, the following time information extraction unit (12) and search result evaluation unit (13) are newly added to center the time axis. The search results are weighted. First, the time information extraction unit (12) will be described.
【0026】時間情報抽出部(12)では、検索結果デ
ータベース(30)中の検索結果から、時間に係わる情
報が含まれていないかを調べ、含まれているときにはそ
の情報を抽出する。抽出する方法では、例えば該情報の
当該情報記録サーバー(20)への記録日や更新日、例
えばWWW(World Wide Web)におけるhtmlファイルの
date情報などに着目する。これらの情報は、該情報の新
しさを示す重要な指標であり、従来の手法で見られたよ
うに単に新しいものから並べるのではなく、絶対的な時
間の経過から該情報の有用性の判断をも可能にする。The time information extraction unit (12) checks the search results in the search result database (30) whether or not time-related information is included, and if so, extracts the information. In the method of extracting, for example, the recording date or the update date of the information in the information recording server (20), for example, the html file in the WWW (World Wide Web)
Focus on date information. These pieces of information are important indicators of the freshness of the information, and the usefulness of the information is judged from the absolute passage of time, rather than simply arranging the new ones as seen in the conventional method. Also enables.
【0027】検索用情報記録サーバー(21)など、予
め情報を取得して検索に利用するシステムでは、インタ
ーネット上の情報が増えたことで、システムが検索対象
サイトにアクセスした時刻のキャッシュ情報と実際に存
在するサイトの情報に違いがあることがある。そこで、
上記に加えて、システム検索時刻を時間情報として抽出
してもよい。In a system such as a search information recording server (21) that obtains information in advance and uses it for a search, since the amount of information on the Internet has increased, the cache information and the actual time when the system accessed the search target site There may be differences in the information on the sites that exist in. Therefore,
In addition to the above, the system search time may be extracted as time information.
【0028】時間情報抽出部(12)で抽出する時間に
は、検索結果に含まれる「更新日」など、明示的に記述
されている情報記載時間を用いることもできる。従来で
は、例えばhtmlファイルのdate情報は、該情報が人為的
に作成された日や修正された日を示すことが多かった
が、最近のWWWサイトではサイトへのアクセスを監視
するアクセスカウンターなどのプログラムが自動的に働
き、それに伴ってdate情報が書き換えられる場合が少な
くない。従って、date情報などのシステム上の情報を抽
出するよりも、情報中に明示的に記載された情報の方が
より信頼性が高いことが考えられる。As the time to be extracted by the time information extraction unit (12), the information description time explicitly described such as "update date" included in the search result can be used. Conventionally, for example, date information in an html file often indicates the date on which the information was artificially created or modified, but recent WWW sites use an access counter or the like to monitor access to the site. Programs often work automatically, and the date information is often rewritten accordingly. Therefore, it can be considered that the information explicitly described in the information is more reliable than the information on the system such as the date information is extracted.
【0029】これら記録・更新された時間を示す文字列
は、外部記録装置(7)の時間指定文字列データベース
(31)に予め備えておき、一致する文字列について検
索結果から探す。本構成は、上記システム上の情報より
も、人為的に記入されたものであり、その情報の新しさ
を判断する上で極めて有効な情報になりうる。The character string indicating the recorded / updated time is prepared in advance in the time designation character string database (31) of the external recording device (7), and the matching character string is searched from the search result. This configuration is artificially entered rather than the information on the system, and can be extremely effective information for judging the freshness of the information.
【0030】また、検索結果から、時間情報を示すと考
えられる情報を探すこともできる。すなわち、例えばイ
ベントの開催日や開催時間などを抽出するために、あら
かじめ時間指定文字列データベース(31)に、「開催
日」「期間」「開場」などの文字列を備えておき、それ
らが検索結果に含まれるときに、その指示する時間情報
を抽出する。Further, it is possible to search the information which is considered to indicate the time information from the search result. That is, for example, in order to extract the date and time of an event, the time designation character string database (31) is provided beforehand with character strings such as "date", "period", and "open", and these are searched. When included in the result, the time information designated by the instruction is extracted.
【0031】ここで、上記時間情報は「開催日」「期
間」「開場」などイベントの時間情報に限らず、他の時
間概念を含むことができる。整理して考えると、ある期
間(期間情報)内に、1つ又は複数の処理を行うとき
に、その処理そのものに要する時間(第1時間情報)、
その処理を行うために不可欠な準備・移動などに要する
時間(第2時間情報)、その他、食事時間や睡眠・休憩
時間、あるいは日照時間など期間内で凡そ制約を与える
時間(第3時間情報)などの時間情報が考えられる。Here, the above-mentioned time information is not limited to the time information of the event such as "date", "period", "opening", and may include other time concepts. In summary, when performing one or more processes within a certain period (period information), the time required for the process itself (first time information),
Time (second time information) required for preparation / movement, etc. in order to perform the processing, and other time (third time information) that is approximately restricted within the period such as meal time, sleep / rest time, or sunshine time Time information such as is considered.
【0032】旅行にあてはめると、イベントの開催時間
などは第1時間情報であり、イベントまでの交通手段で
要するアクセス時間などは第2時間情報、旅行者の起床
時間や食事時間、休憩時間などの生活時間は第3時間情
報と分類することができる。When applied to a trip, the event holding time is the first time information, and the access time required for transportation to the event is the second time information, the traveler's wake-up time, meal time, break time, etc. Living time can be classified as third time information.
【0033】そして、情報検索の目的であるイベントに
ついて検索する場合でも、上記アクセス時間や生活時間
についても本発明では検索可能とする。すなわち、例え
ば第1時間情報が時間情報抽出部(12)で抽出された
とき、キーワード発生部(10)では該イベント場所ま
でのアクセス時間を抽出させるキーワードを発生する。
例えば、博物館の開館時間が抽出されたとき、キーワー
ド発生部(10)では博物館までの経路を検索するキー
ワード「博物館 電車経路」などを発生し、情報検索部
(11)で検索する。Further, even in the case of searching for an event which is the purpose of information search, the present invention allows searching for the access time and the living time. That is, for example, when the first time information is extracted by the time information extraction unit (12), the keyword generation unit (10) generates a keyword for extracting the access time to the event place.
For example, when the museum opening time is extracted, the keyword generating unit (10) generates a keyword "museum train route" for searching a route to the museum, and the information searching unit (11) searches.
【0034】その結果として、電車の所要時間など第2
時間情報を得ることができる。同様に、公園を訪問する
ときに明るくなければならなければ、「公園 日没」な
どのキーワードで検索して第3時間情報を抽出すること
もできる。As a result, the time required for the train, etc.
You can get time information. Similarly, if it is necessary to be bright when visiting the park, the third time information can be extracted by searching for a keyword such as "park sunset".
【0035】以上によって時間情報抽出部(12)で抽
出された時間情報に基づき、検索結果データベース(3
0)内の検索結果を、検索結果評価部(13)で重み付
けする。この際、本装置(1)ではクロック部(6)を
備えており、検索者が検索を行う検索時刻を取得するこ
とにより、該時間情報と比較して検索結果の重み付けを
行うことができる。また、キーワード発生部(10)に
おいて予め最適な時刻をキーワードに含めておき、これ
らキーワードとの比較によって検索結果の重み付けを行
っても良い。Based on the time information extracted by the time information extraction unit (12) as described above, the search result database (3
The search result in (0) is weighted by the search result evaluation unit (13). At this time, the device (1) includes the clock unit (6), and the searcher obtains the search time at which the search is performed, so that the search result can be weighted in comparison with the time information. Further, the keyword generation unit (10) may include the optimum time in advance in the keywords, and the search results may be weighted by comparison with these keywords.
【0036】例えば、上記情報記録サーバー(20)へ
の記録日や更新日を用いる例としては次のような技術が
考えられる。すなわち、1年を経過した情報について
は、一律に所定の軽い重みを付けてもよいし、経過期間
毎に重みを設定してもよく、それらの情報は外部記録装
置(7)に記録しておくことができる。For example, the following technique can be considered as an example of using the date of recording or the date of updating in the information recording server (20). That is, for a year-old information, a predetermined light weight may be uniformly applied, or a weight may be set for each elapsed time, and such information is recorded in the external recording device (7). Can be set.
【0037】また、さらに発展させて定期的に開催され
る催し、例えば「初詣」に関連する情報は、1年以上前
に記録・更新された情報は、すべて最も軽い重みを設定
するなど、キーワードや検索結果に含まれる語句に応じ
て設定する重みを変化させてもよい。これら情報の時間
的有効性に係わる情報を大量に蓄積したデータベースを
本装置(1)に備えることで、さらに実際的な検索結果
の出力を図ることもできる。Further, it is an event that is further developed and held regularly. For example, information related to "Hatsumode" is set to the lightest weight for all information recorded / updated more than a year ago. Alternatively, the weight to be set may be changed according to the word / phrase included in the search result. By equipping the device (1) with a database in which a large amount of information relating to the temporal validity of these pieces of information is provided, it is possible to achieve more practical output of search results.
【0038】「更新日」など明示的に記述されている情
報記載時間を用いる場合には、更新日が検索時刻あるい
はキーワードに適するか否かにより重み付けを行う。例
えば、更新日が検索時刻から1週間以内では最も高い重
みを設定し、逆に6ヶ月以上経過している情報について
は最も軽い重みとなるように段階的な重み付けを行う。
これにより、「更新日」など信頼性の高い情報の新しさ
を強く検索結果に反映させることができる。When the information description time explicitly described such as "update date" is used, weighting is performed depending on whether the update date is suitable for the search time or the keyword. For example, the highest weight is set when the update date is within one week from the search time, and conversely, the weighting is performed stepwise so that the information that is 6 months or more has the lowest weight.
As a result, the freshness of highly reliable information such as "update date" can be strongly reflected in the search result.
【0039】このような構成において、検索結果中に記
録・更新された時間を示す文字列がない検索結果につい
ては、文字列がある検索結果に比して低い重み付けを行
う構成でもよい。明示的な記述がない場合には、その情
報の新しさを測る手段がなく、本発明のように時間的に
適合した検索結果を得るためには不適である。従って、
重み付けを低くしたり、前記システム上情報、例えばda
te情報などと組み合わせて重み付けするようにしてもよ
い。In such a structure, a search result having no character string indicating the recorded / updated time in the search result may be weighted lower than a search result having a character string. If there is no explicit description, there is no means to measure the freshness of the information, and it is unsuitable for obtaining a time-matched search result as in the present invention. Therefore,
Lower the weight or use the information on the system, such as da
Weighting may be performed in combination with te information or the like.
【0040】さらに、検索結果から時間情報を探す場合
には、イベントの開催期間など、より具体的な時間的適
合を判断できることが多く、特に重み付けの効果が高
い。これらイベントなどでは時間的に適合せず、検索結
果として出力する必要が小さい場合には、極めて小さな
重みを設定し、逆に上記検索時刻やキーワードに合致す
る場合には、最大の重みを設定することが考えられる。Further, in the case of searching for time information from the search result, it is often possible to determine a more specific time match such as the event holding period, and the weighting effect is particularly high. If these events and the like do not match in time and the output as a search result is small, set an extremely small weight, and conversely, if they match the search time or keyword, set the maximum weight. It is possible.
【0041】時間的な適合の有無を調べる際には、上述
した時間の概念を組み合わせて評価することができる。
例えばイベント時間だけが適合してもアクセス時間と組
み合わせると適合しない場合も多く、第1時間情報ない
し第3時間情報が期間情報と組み合わせて、検索したキ
ーワードが適合するか否かを判断してもよい。以上によ
り、本発明の特徴である時間的な適合を加味した検索結
果の順位付けを図ることができる。When investigating the presence or absence of temporal matching, the concept of time described above can be combined and evaluated.
For example, even if only the event time is matched, it is often not matched when combined with the access time, and the first time information or the third time information is combined with the period information to judge whether or not the searched keyword matches. Good. As described above, the search results can be ranked in consideration of the temporal matching that is a feature of the present invention.
【0042】検索結果評価部(13)では、各検索結果
について重み付けを行い、検索結果データベース(3
0)内の検索結果を順位付けする。該順位に従って、検
索結果出力部(14)では本装置(1)から、好適な検
索結果を出力する。出力される検索結果は例えばモニタ
などの出力装置(5)で表示してもよいし、他の処理装
置などで用いてもよい。In the search result evaluation section (13), each search result is weighted, and the search result database (3
Rank the search results in 0). According to the order, the search result output unit (14) outputs a suitable search result from the device (1). The output search result may be displayed on an output device (5) such as a monitor, or may be used on another processing device.
【0043】本発明では、以上の構成を備えるが、上記
実施例に限らず検索ソフトウェアのアルゴリズムとして
用いることのできる検索方法としても提供する。検索装
置としては、パーソナルコンピュータにソフトウェアを
組み込み、上記と同様の構成をとってもよいし、入力装
置などを一体的に備えた専用端末として提供してもよ
い。Although the present invention has the above-mentioned configuration, the present invention is not limited to the above-described embodiment, but is also provided as a search method that can be used as an algorithm of search software. As the search device, software may be incorporated in a personal computer to have the same configuration as described above, or the search device may be provided as a dedicated terminal integrally provided with an input device and the like.
【0044】また、情報の検索対象としては、上述した
WWWのhtmlに限らず、任意の情報を用いることができ
る。例えば、電子メールを用いた情報配信サービスを蓄
積したデータベースを参照し、その受信日や含まれる文
字列を参照する構成でもよい。The information retrieval target is not limited to the above WWW html, and any information can be used. For example, a configuration may be used in which a database that stores information distribution services using electronic mail is referenced, and the date of reception and the included character string are referenced.
【0045】[0045]
【発明の効果】本発明の情報検索方法及び装置は、上述
の構成を備えるので、以下の効果を奏する。すなわち、
ネットワーク上に記録された膨大な情報から、時間的に
適合する有用な情報を検索することが可能となり、検索
効率の向上に寄与することができる。特に、ネットワー
クを通した情報の収集にはアクセスコストがかかるた
め、本発明によれば、無駄な情報へのアクセス、検索の
繰り返しによるコスト上昇を抑制することができる。Since the information retrieval method and apparatus of the present invention have the above-mentioned configuration, they have the following effects. That is,
It is possible to retrieve useful information that is temporally suitable from the vast amount of information recorded on the network, which can contribute to improvement in retrieval efficiency. In particular, since it costs access cost to collect information through the network, according to the present invention, it is possible to suppress cost increase due to repeated access to unnecessary information and repeated search.
【図1】本発明による情報検索装置のブロック図であ
る。FIG. 1 is a block diagram of an information search device according to the present invention.
1 本発明による情報検索装置 2 インターネット 3 入力装置 4 CPU 5 出力装置 6 クロック部 7 外部記憶装置 10 キーワード発生部 11 情報検索部 12 時間情報抽出部 13 検索結果評価部 14 検索結果出力部 20 情報記録サーバ 21 検索用情報記録サーバ 22 接続経路 30 検索結果データベース 31 時間指定文字列データベース 1 Information retrieval apparatus according to the present invention 2 Internet 3 input devices 4 CPU 5 Output device 6 clock section 7 External storage device 10 keyword generation section 11 Information Retrieval Department 12-hour information extractor 13 Search Results Evaluation Department 14 Search result output section 20 Information recording server 21 Information Recording Server for Search 22 Connection route 30 Search result database 31 time specified character string database
───────────────────────────────────────────────────── フロントページの続き (72)発明者 河野 恭之 兵庫県西宮市大井手町10−6−401 (72)発明者 木戸出 正継 奈良県奈良市学園朝日元町2−1903−33 Fターム(参考) 5B075 KK03 NK02 NK31 NR15 PP22 PQ02 PQ75 PR08 ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Yasuyuki Kono 10-6-401 Oide Town, Nishinomiya City, Hyogo Prefecture (72) Inventor Masatsugu Kido Nara City Nara City School Asahimoto Town 2-1903-33 F term (reference) 5B075 KK03 NK02 NK31 NR15 PP22 PQ02 PQ75 PR08
Claims (10)
トワーク上に単数又は複数の情報記憶サーバーを有する
ときに、該ネットワークに接続された情報端末から情報
検索を行う方法であって、 情報端末において検索キーワードを発生するステップ、 該検索キーワードに基づいて情報記憶サーバー、又は該
情報記憶サーバーから予め検索用情報を収集した検索用
情報記憶サーバーの少なくともいずれかについて情報検
索を行うステップ、 該情報検索の検索結果から、各結果毎に該情報の時間情
報を抽出するステップ、 該時間情報に基づき、上記検索キーワード又は検索実行
時間の少なくともいずれかに関連して該検索結果に重み
付けを行うステップ、 該重み付けに基づき検索結果を順位付けて出力するステ
ップの各ステップを少なくとも備えたことを特徴とする
情報検索方法。1. A method of performing information retrieval from an information terminal connected to the network when a single or a plurality of information storage servers are provided on the Internet or intranet network, wherein a search keyword is generated in the information terminal. A step of performing an information search on at least one of an information storage server based on the search keyword or a search information storage server that has collected search information from the information storage server in advance; Extracting time information of the information for each result, weighting the search result in relation to at least one of the search keyword and the search execution time based on the time information, the search result based on the weighting At least each step of the ranked and output step Information retrieval method which is characterized in that there was example.
サーバーの少なくともいずれかにおいて記録、更新、削
除された時間である請求項1に記載の情報検索方法。2. The information search method according to claim 1, wherein the time information is a time at which the search result is recorded, updated, or deleted in at least one of the information storage server and the search information storage server.
列が、該検索結果に含まれる文字列と所定のしきい値以
上一致するときに、抽出される時間である請求項1又は
2に記載の情報検索方法。3. The time information specifies a character string indicating time information in advance, and when the character string matches a character string included in the search result by a predetermined threshold value or more, extraction is performed. The information retrieval method according to claim 1 or 2, which is a time to be performed.
は複数の処理を行う場合のプロセスを検索する方法であ
る構成において、 前記時間情報を、 該処理自体に要する時間である第1時間情報と、 該処理を行うために処理以外に要する時間である第2時
間情報と、 該指定期間内で、他に要する時間である第3時間情報
と、 該指定期間を示す期間情報とに分類し、 最初に発生した検索キーワードから該時間情報のいずれ
かが得られたときに、他の時間情報の少なくともいずれ
かを得る検索キーワードを自動的に発生させて他の時間
情報を得ると共に、 複数の時間情報に基づき、検索キーワード又は検索実行
時間の少なくともいずれかに関連して該検索結果に重み
付けを行うことを特徴とする請求項1ないし3に記載の
情報検索方法。4. The configuration wherein the information retrieval method is a method for retrieving one or more processes within a designated period, wherein the time information is a time required for the process itself. The time information, the second time information that is the time required to perform the process other than the process, the third time information that is the time required for the other process within the designated period, and the period information that indicates the designated period. When one of the time information is obtained by classifying the search keyword generated first, the search keyword for obtaining at least one of the other time information is automatically generated to obtain the other time information, 4. The information search method according to claim 1, wherein the search result is weighted in relation to at least one of the search keyword and the search execution time based on a plurality of time information.
て、 前記第1時間情報が、行き先におけるイベント時間であ
り、 前記第2時間情報が、該イベントの行われる場所までの
アクセス時間であり、 前記第3時間情報が、日常生活中で必要な/生じる生活
時間である請求項4に記載の情報検索方法。5. In a structure in which the period information is a travel period, the first time information is an event time at a destination, and the second time information is an access time to a place where the event is performed, The information search method according to claim 4, wherein the third time information is a life time required / occurred in daily life.
トワーク上に単数又は複数の情報記憶サーバーを有する
ときに、該ネットワークに接続された情報端末から情報
検索を行う情報検索装置であって、 情報端末において検索キーワードを発生するキーワード
発生部、 該検索キーワードに基づいて情報記憶サーバー、又は該
情報記憶サーバーから予め検索用情報を収集した検索用
情報記憶サーバーの少なくともいずれかについて情報検
索を行う情報検索部、 該情報検索の検索結果から、各結果毎に該情報の時間情
報を抽出する時間情報抽出部、 該時間情報に基づき、上記検索キーワード又は検索実行
時間の少なくともいずれかに関連して該検索結果に重み
付けを行う検索結果評価部、 該重み付けに基づき検索結果を順位付けて出力する検索
結果出力部を少なくとも備えたことを特徴とする情報検
索装置。6. An information retrieval device for performing information retrieval from an information terminal connected to the network when having a single or a plurality of information storage servers on the network of the Internet or an intranet, wherein the retrieval keyword is used in the information terminal. A keyword generation unit that generates a keyword, an information search unit that performs information search on at least one of an information storage server based on the search keyword, or a search information storage server that has collected search information from the information storage server in advance; A time information extraction unit that extracts time information of the information for each result from the search results, and weights the search results in relation to at least one of the search keyword and the search execution time based on the time information Search result evaluation unit, a search result that ranks and outputs search results based on the weighting. Information retrieval apparatus characterized by comprising at least the result output section.
サーバーの少なくともいずれかにおいて記録、更新、削
除された時間である請求項6に記載の情報検索装置。7. The information search device according to claim 6, wherein the time information is a time at which the search result is recorded, updated, or deleted in at least one of the information storage server and the search information storage server.
結果に含まれる文字列との一致を調べて自動的に抽出す
る時間である請求項6又は7に記載の情報検索装置。8. The time information is a time when a character string designating the time information is designated in advance and a match with the character string included in the search result is checked and automatically extracted. 7. The information retrieval device described in 7.
は複数の処理を行う場合のプロセスを検索する構成にお
いて、 前記時間情報を、 該処理自体に要する時間である第1時間情報と、 該処理を行うために処理以外に要する時間である第2時
間情報と、 該指定期間内で、他に要する時間である第3時間情報
と、 該指定期間を示す期間情報とに分類し、 最初に発生した検索キーワードから該時間情報のいずれ
かが得られたときに、キーワード発生部において他の時
間情報の少なくともいずれかを得る検索キーワードを自
動的に発生させ、情報検索部及び時間情報抽出部によっ
て他の時間情報を得ると共に、 検索結果評価部において、複数の時間情報に基づき、検
索キーワード又は検索実行時間の少なくともいずれかに
関連して該検索結果に重み付けを行うことを特徴とする
請求項6ないし8に記載の情報検索装置。9. The configuration in which the information search device searches for a process when performing one or more processes within a designated period, wherein the time information is first time information that is a time required for the process itself. , Second time information, which is the time required to perform the process other than the process, third time information, which is the other time within the designated period, and period information, which indicates the designated period, When any of the time information is obtained from the first generated search keyword, the keyword generation unit automatically generates a search keyword for obtaining at least one of the other time information, and the information search unit and the time information extraction Other time information is obtained by the section, and at the same time, in the search result evaluation section, the search result is related to at least one of the search keyword and the search execution time based on the plurality of time information. 9. The information search device according to claim 6, wherein weighting is performed.
いて、 前記第1時間情報が、行き先におけるイベント時間であ
り、 前記第2時間情報が、該イベントの行われる場所までの
アクセス時間であり、 前記第3時間情報が、日常生活中で必要な/生じる生活
時間である請求項9に記載の情報検索装置。10. The structure in which the period information is a travel period, the first time information is an event time at a destination, and the second time information is an access time to a place where the event is performed, The information search device according to claim 9, wherein the third time information is a life time required / occurred in daily life.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002067367A JP2003271663A (en) | 2002-03-12 | 2002-03-12 | Information retrieval method and device and software |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002067367A JP2003271663A (en) | 2002-03-12 | 2002-03-12 | Information retrieval method and device and software |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003271663A true JP2003271663A (en) | 2003-09-26 |
Family
ID=29198781
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002067367A Pending JP2003271663A (en) | 2002-03-12 | 2002-03-12 | Information retrieval method and device and software |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003271663A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007122203A (en) * | 2005-10-26 | 2007-05-17 | Life & Business Weather Inc | Information retrieval system |
| JP2016053986A (en) * | 2008-05-23 | 2016-04-14 | マイクロソフト テクノロジー ライセンシング,エルエルシー | Pivot search results by time and location |
-
2002
- 2002-03-12 JP JP2002067367A patent/JP2003271663A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007122203A (en) * | 2005-10-26 | 2007-05-17 | Life & Business Weather Inc | Information retrieval system |
| JP2016053986A (en) * | 2008-05-23 | 2016-04-14 | マイクロソフト テクノロジー ライセンシング,エルエルシー | Pivot search results by time and location |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101063364B1 (en) | System and method for prioritizing websites during the web crawling process | |
| Van den Bosch et al. | Estimating search engine index size variability: a 9-year longitudinal study | |
| Koshman et al. | Web searching on the Vivisimo search engine | |
| WO2008014702A1 (en) | Method and system of extracting new words | |
| CN108304444A (en) | Information query method and device | |
| US20080162425A1 (en) | Global anchor text processing | |
| KR101174057B1 (en) | Method and apparatus for analyzing and searching index | |
| Gaizauskas et al. | Coupling information retrieval and information extraction: A new text technology for gathering information from the web. | |
| CN111460255A (en) | Music work information data acquisition and storage method | |
| JP2001325272A (en) | Information arrangement method, information processor, storage medium and program transmitter | |
| KR100557874B1 (en) | Recording medium storing computer information analysis method and method | |
| JP2004151855A (en) | Search system for electronic document | |
| JP5639549B2 (en) | Information retrieval apparatus, method, and program | |
| CN118690001B (en) | Query optimization method and system based on detection enhancement generation technology | |
| Nazemi et al. | Comparison of full-text articles and abstracts for visual trend analytics through natural language processing | |
| JP4009937B2 (en) | Document search device, document search program, and medium storing document search program | |
| JP2003271663A (en) | Information retrieval method and device and software | |
| JPWO2007046445A1 (en) | Search device and search method | |
| JP2003006221A (en) | Predictive analysis type retrieval system, predictive analysis type retrieval method, and computer program | |
| Li et al. | CoWS: An Internet-enriched and quality-aware Web services search engine | |
| CN110309246A (en) | A kind of method and device thereof internet geologic data retrieval and obtained | |
| JP2007140603A (en) | Early adapter extraction method and apparatus and program, and topic word prediction method and apparatus and program | |
| Monroe et al. | Obtaining language models of web collections using query-based sampling techniques | |
| JP2011086156A (en) | System and program for tracking of leaked information | |
| JP2009282903A (en) | Knowledge extraction / retrieval device and method thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040416 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060324 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060830 |