JP5002631B2 - Word information collection apparatus, word information collection methods and word information collection program - Google Patents

Word information collection apparatus, word information collection methods and word information collection program Download PDF

Info

Publication number
JP5002631B2
JP5002631B2 JP2009204796A JP2009204796A JP5002631B2 JP 5002631 B2 JP5002631 B2 JP 5002631B2 JP 2009204796 A JP2009204796 A JP 2009204796A JP 2009204796 A JP2009204796 A JP 2009204796A JP 5002631 B2 JP5002631 B2 JP 5002631B2
Authority
JP
Japan
Prior art keywords
word
information
search
time
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009204796A
Other languages
Japanese (ja)
Other versions
JP2011054102A (en
Inventor
享晴 吉田
芳郎 山本
Original Assignee
ヤフー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー株式会社 filed Critical ヤフー株式会社
Priority to JP2009204796A priority Critical patent/JP5002631B2/en
Publication of JP2011054102A publication Critical patent/JP2011054102A/en
Application granted granted Critical
Publication of JP5002631B2 publication Critical patent/JP5002631B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ウェブページに含まれる単語に関する情報を収集する単語情報収集装置、単語情報収集方法および単語情報収集プログラムに関する。 The present invention, word information collecting apparatus that collects information about the words contained on the web page, to word information collection method and word information collecting program.

従来、ネットワーク上の検索エンジンによる検索結果ページには、指定された検索語に応じた検索結果の一覧のほかにも様々な情報が表示される。 Traditionally, the search results by the search engine on the network page, a variety of information is also displayed in addition to the list of corresponding to the specified search term results. 例えば、検索語に関連する広告情報や、検索語に関連のあるショッピングなどの特定のサービス情報などがある。 For example, and advertising information related to the search term, there is such as a specific service information, such as shopping that are relevant to the search term. このように、検索結果の一覧だけでなく、様々な情報を表示することでユーザに有益な情報を提供することができるため、検索結果ページにおけるコンテンツのさらなる充実化が求められている。 Thus, not only the list of search results, it is possible to provide useful information to the user by displaying various information, further enrich the content of the search results page is demanded.

ここで、検索エンジンは、単語と該単語が含まれるウェブページに関する情報とを関連付けて記憶しており、これらの情報に基づいて、該単語のウェブページにおける出現頻度や重要度に基づいてインデクシング(索引化)した検索用インデックスを作成している。 Here, the search engine is stored in association with the information on the web page that contains the words and said word, based on the information, based on the appearance frequency or importance of the web page of said word indexing ( are creating a search index that indexing) was. 検索時には、この検索用インデックスを参照するため、検索結果ページにはインデクシングの高い(重みの高い)情報が上位に表示され、より有益で意味のある情報をユーザに提供している。 During the search, to refer to this search index, and provides search results page high indexing (high weight) information is displayed on the upper to the more useful and meaningful information to the user.

また、検索エンジンは、ネットワークを巡回してウェブページに関する情報を取得してデータベースに蓄積する処理を行う。 The search engine performs a process of storing in the database to obtain information about web pages visited network. ウェブページは日々更新されるため、これらの更新情報を速報することは、より有益な情報をユーザに提供することになり、ユーザにとって利便性が高い。 Since the web page is updated on a daily basis, be breaking these updates are made to provide a more useful information to the user, is highly convenient for the user. このような情報提供を行う方式として、例えば、ホームページを定期、定時に巡回し、その都度ホームページ上の異同を検出、分析を行う技術が知られている(例えば、特許文献1参照)。 As a method for performing such information provided, for example, regular homepage, visited on time, each time detecting a difference on the home page, a technique for analysis are known (e.g., see Patent Document 1).

特開2002−73649号公報 JP 2002-73649 JP

ところで、検索語としては様々なものを入力でき、例えば、流行語のような珍しい単語を指定する場合がある。 By the way, as the search term you can enter a variety of things, for example, there is a case to specify the unusual words such as buzzword. 流行語は、それが初めて登場したウェブページを発端として流行が広まっている可能性が高く、流行の発端となったウェブページの情報を得たいと思うユーザもいる。 Buzzword, it first appeared there is a high possibility that the epidemic is widespread as the beginning of the web pages, some users want to get the information of the web page, which was the beginning of the epidemic.
しかしながら、特許文献1に記載の方式では、各ウェブページの最新の情報は得られるものの、特定の単語がウェブページに最初に登場したときの情報を得ることはできない。 However, in the method described in Patent Document 1, although the latest information of the web page is obtained, it is impossible to obtain information on when specific words first appeared on the web page.

本発明の目的は、任意の単語が最初に登場したウェブページに関する情報を簡単に収集でき、収集した情報を用いてウェブページのコンテンツの充実化を図ることのできる単語情報収集装置、単語情報収集方法および単語情報収集プログラムを提供することである。 An object of the present invention, any word can be easily collect information about the web page, which first appeared in, word information collection device that can be achieved enrich the content of the web page by using the collected information, word information collection it is to provide a method and word information collecting program.

本発明の単語情報収集装置は、ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集装置であって、前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得手段と、前記取得したウェブページを解析して単語候補を抽出するページ解析手段と、前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定手段と、前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補 Word information collecting apparatus of the present invention, words that collects information about the words contained on the web page on the network, using the collected words, to generate a search index for performing the index search to the search key an information collecting apparatus, a page information acquisition means for acquiring the update date of the web page with information about web pages visited the network, page analysis means for extracting word candidates by analyzing the web page the acquired When the word candidates the extracted, already obtained compared with a previously generated search index from the word candidate, it determines the registration state determination means for determining whether the word candidate is stored in the search index when the result of the determination, when it is determined that not stored in the search index, wherein the word candidate 該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録手段と、を備えることを特徴とする。 Characterized in that and a first-appearing word registration means for storing the first occurrence word storage means in association with the update date and time and information relating to the web page as a Created date.

本発明の単語情報収集装置は、ネットワーク上のウェブページに含まれる単語を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する装置である。 Word information collecting apparatus of the present invention collects a word included in a web page on the network, using the collected words is the device for generating a search index for performing the index search to the search key . そのために、ページ情報取得手段は、ネットワークを巡回してウェブページに関する情報を取得する(この処理をクロール処理という。)。 To that end, page information acquisition means, to obtain information about the web page to patrol the network (this process that crawl process.). ここで、ウェブページに関する情報とは、ウェブページのURL(Uniform Resource Locator)情報、ウェブページに表示される文章データ、および画像データ等である。 Here, the information on a web page, the web page URL (Uniform Resource Locator) information, a text data displayed on the web page, and the image data and the like. このとき、ページ情報取得手段は、該ウェブページの更新日時も同時に取得する。 At this time, the page information acquisition unit, also acquired at the same time update the date and time of the web page. ページ解析手段は、取得したウェブページの文章を解析して単語候補を抽出する。 Page analysis means extracts a word candidates by analyzing the text of a web page obtained.

登録状況判定手段は、抽出した単語候補が、検索用インデックスに登録済みであるか否かを判定する。 Registration status determination means, extracted word candidate is equal to or a registered in the search for the index. 検索用インデックスは、クロール処理が行われるたびに、それまでに取得した単語候補全体に対して作成されるものである。 Search index every time the crawling process is performed, is intended to be created for the entire word candidate obtained so far. 初出ワード登録手段は、登録状況判定手段により未登録と判定された単語候補を初出ワード記憶手段へ記憶させる。 Created word registering means stores the word candidates is determined to unregistered by registration status determining means to the first-appearing word storage means. このとき、単語候補には、初出日時として、ページ情報取得手段により取得した該ウェブページの更新日時が関連付けられ、さらに該ウェブページのURL情報や該ウェブページに表示された文章データや画像データ等のウェブページに関する情報が関連付けられて記憶される。 At this time, the word candidate, as the first appearance time, associated Modified said web page obtained by the page information acquisition unit, further wherein the web page of the URL information and the web page displayed text data, image data, and the like information on the web page is stored in association with the.

本発明では、ネットワークを通して収集した単語に対して検索用インデックスを作成するという通常の処理を行いながら、一方で、抽出した単語候補に関する初出情報を収集する。 In the present invention, while normal processing of creating a search index for the word that was collected through the network, while the collecting first instance information about the extracted word candidates. 初出情報とは、任意の単語が最初にウェブページに登場したときの日時や該ウェブページに関する情報である。 The first appearance information is information relating to the date and time and the web page at the time of any of the word first appeared in the web page. すなわち、単語情報収集装置が通常実施するクロール処理やインデックス作成処理を利用して、登録状況判定手段および初出ワード登録手段が同時に初出情報を収集する。 That is, by using the crawling and indexing process word information collecting apparatus is normally carried out, registration status determining means and the first-appearing word registration means for collecting simultaneously Created information.

このように、クロール処理によりインデックスを作成しながら初出情報を収集することができるので、初出情報を得るためだけの処理を実施する必要がなく、簡単かつ効率よく単語の初出情報を収集することができる。 Thus, it is possible to collect the first-appearing information while indexed by crawling, it is not necessary to carry out the processing only for obtaining first occurrence information, to be easily and efficiently collecting first-appearing information word it can.
また、このようにして収集された初出情報は、ウェブページに表示してユーザに提供することができる。 In addition, the first appearance information that has been collected in this way, can be provided to the user is displayed on the web page. 例えば、ユーザが指定した検索語に応じた検索結果の一覧と共に初出情報を表示させることで、検索結果ページのコンテンツの充実化を図ることができる。 For example, by displaying the first occurrence of information along with the list of search results according to the search terms specified by the user, it is possible to enrich the content of the search results page.

本発明の単語情報収集装置において、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。 In word information collecting apparatus of the present invention, the first occurrence word registration means, when said word candidate is determined to be stored in the search index, stored in association with the word candidate by the registration status determining means comparing the first-appearing updating date the acquired date and time, when the update time is determined to older than the first appearance time, it is preferable to update the first-appearing time of said word candidates in said update time.

この発明では、初出ワード登録手段は、初出ワード記憶手段に記憶された単語データの更新処理を行う。 In the present invention, first appearance word registration unit performs update processing of the word data stored in the first occurrence word storage means. 更新処理を行うのは、登録状況判定手段により抽出した単語候補が検索用インデックスに登録済みであると判定された場合である。 The updating process is when the word candidate extracted by the registration status determining means is determined to be registered in the search index. すなわち、検索用インデックスは、前回のクロール処理によって前回までに取得した単語候補全てに対して作成されているため、初出ワード登録手段に記憶されている単語は全て検索用インデックスに含まれている。 That is, the search index, because it was created for all word candidates obtained up to the previous by a previous crawl, words stored in the first occurrence word registering means is included in all search index. したがって、単語候補の検索用インデックスへの登録の有無を判定することで、初出ワード記憶手段への登録の有無を判定できる。 Therefore, by determining the presence or absence of registration in the search index of the word candidates can determine the presence or absence of registration in the first instance the word storage means.

更新処理は、クロール処理によって任意の単語が含まれるウェブページの情報を取得するたびに、初出ワード記憶手段に記憶された該単語の初出日時と、ウェブページの情報の取得と同時に取得したウェブページの更新日時と、を比較し、更新日時が初出日時よりも古い場合は、初出ワード記憶手段に記憶されている該単語に関連付けられている初出日時を更新日時で更新し、該単語に関連付けられているウェブページの情報を、新しく取得したウェブページの情報で更新する。 Update process, each time to obtain the information of the web pages that contain any word by crawling, and first appearance time of said word stored in the first occurrence word storage means, a web page acquired simultaneously with the acquisition of the information of the web page compares the Modified, and when the update time is older than the first appearance date and time, and updates the first-appearing time associated with said word stored in the first occurrence word storage means update date, associated with said word the information of the web page that is updated with newly acquired information of the web page. すなわち、新しく取得したウェブページの更新日時が古いほど初出ワード記憶手段に記憶されることになる。 That is, the update date and time of the newly acquired web page is stored in the old as the first occurrence of the word storage means. このような処理が繰り返されることで、結果として該単語がウェブ上に登場した古いウェブページに関する情報を収集することができる。 By such a process is repeated, the single word as a result it is possible to collect information about the old web page that appeared on the web.
本発明によれば、クロール処理が行われるたびに、初出ワード記憶手段に記憶された単語データが、より更新日時の古いウェブページの情報に更新されていくので、自動的に最も古い日時のウェブページに関する情報を簡単に収集することができる。 According to the present invention, each time the crawling process is performed, the word data stored in the first occurrence word storage means, so will be updated to the information of more update time older web page, automatically the oldest date web information on the page can be easily collected. したがって、通常のクロール処理を利用して効率よく単語の初出情報を収集することができる。 Therefore, it is possible to collect efficiently first appearance information of a word by using the normal crawl process.

本発明の単語情報収集装置において、前記ネットワークを介して接続された端末装置に対して検索語の入力を要求し、入力された検索語を取得する検索語取得手段と、前記取得した検索語と一致するキーワードを、前記検索用インデックスから検索し、該当するキーワードに関連付けられたウェブページに関する情報を取得するデータ検索手段と、前記取得した検索語と一致する単語を、前記初出ワード記憶手段から検索し、該当する単語に関連付けられたウェブページに関する情報と初出日時とを取得する初出ワード検索手段と、前記データ検索手段により取得したウェブページに関する情報と前記初出ワード検索手段により取得したウェブページに関する情報および初出日時とを表示させたウェブページを作成して配信する検索結果ペー In word information collecting apparatus of the present invention, the network requests the input of a search word to the connected terminal device via a search word obtaining means for obtaining an input search term, the search term and that the obtained Search matching keywords, search from the search index, and data retrieval means for obtaining information about the web pages associated with the appropriate keywords, the word that matches the acquired search terms, from the first appearance word storage means and the first appearance word search means for obtaining information about the web page associated with the word corresponding to the first appearance time, information about the web page obtained by the data information on a web page as obtained by the search means and the first-appearing word search means and the first appearance date and time and the search results page to create and deliver a web page to display the 提供手段と、をさらに備えたことが好ましい。 It is preferable to further comprise a providing means.

この発明では、初出ワード記憶手段に収集した初出情報を、ユーザが指定した検索語に対する検索結果の一覧とともに表示させる。 In the present invention, the first-appearing information collected in first appearance word storage means, is displayed together with a list of search results for the search term designated by the user. すなわち、通常利用されている検索エンジンと同様に、指定された検索語を取得し、検索用インデックスから該検索語のデータを取得し、検索結果ページに一覧表示する一方で、さらに初出ワード検索手段が、初出ワード記憶手段から該検索語のデータ(初出日時、ウェブページに関する情報)を取得し、検索結果ページ提供手段によりそのデータを検索結果ページに表示させて端末装置に送信する。 That is, similarly to the search engines that are normally available, acquires the specified search term, to get the data of the search term from the search index, while listing on the search results page, further Created word search means but first appeared word storage means the search term data from acquires (first appearance time, information about the web page), the search results to display the data by the page providing means to the search result page to the terminal device.

この発明によれば、ユーザは、指定した検索語に対する検索結果とは別の情報、すなわち検索語の初出情報を得ることができる。 According to the present invention, the user can obtain other information from the search result for the specified search term, that is, the first appearance information of the search word. 特に、検索語として流行後を指定した場合、この流行語に対する初出情報は流行の発端に関わる情報を得ることができ、ユーザにとって有益なものである。 In particular, if you specify after epidemic as a search term, first appeared information for this buzzword can obtain information related to beginning of the epidemic, it is of benefit to the user. このようにして、検索結果ページのコンテンツの充実化を図ることができる。 In this way, it is possible to enrich the content of the search results page.

本発明の単語情報収集装置において、前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させることが好ましい。 In word information collecting apparatus of the present invention, further comprising a first-appearing word registration determination means determines whether or not the word that matches the extracted word candidate is stored in the first occurrence word information storage means, the first occurrence word registration unit , the said word candidate by registration status determining means is determined not to be stored in the search index, and, when said word candidate by the first appearance word registration determination means is not stored in the first occurrence word information storage means If it is determined is possible to store the update date and time information about said word candidate and the web page first appears word storage means in association with the first appearance time is preferred.

また、本発明の単語情報収集装置において、前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていると判定された場合は、前記単語候補に関連付けられて記憶された初 Further, the word information collecting apparatus of the present invention, further comprising a first-appearing word registration determination means determines whether or not the word that matches the extracted word candidate is stored in the first occurrence word information storage means, the first appearance word registration means, it is determined that the word candidate is not stored in the search index by the registration status determination unit, and the word candidate by the first appearance word registration determination means is not stored in the first occurrence word information storage means If it is determined that there is no, the word candidate with the update date and time and information relating to the web page is stored in the first occurrence word storage means in association with the first appearance time, the first occurrence word the word candidate is the first appearance word by the registration determination unit If it is determined to be stored in the information storage means, first stored in association with the word candidate 日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。 Comparing the update date date and said acquired, if the update time is determined to older than the first appearance time, it is preferable to update the first-appearing time of said word candidates in said update time.

この発明では、初出ワード登録手段による登録処理または更新処理を行う前に、初出ワード登録判定手段により、初出ワード記憶手段への該当単語候補の登録の有無を判定する。 In the present invention, it determines before performing the registration processing or update processing by the first-appearing word registration unit, the first occurrence word registration determination means, the presence or absence of registration of the relevant word candidates to first occurrence word storage means. 該当単語が初出ワード記憶手段へ登録済みの場合は更新処理を行い、未登録の場合は登録処理を行う。 If applicable word is registered to the first occurrence of the word storage unit performs the update process, in the case of unregistered carry out the registration process.
これによれば、仮に初出ワード記憶手段に記憶された単語と検索用インデックスに記憶された単語が一致しない場合であっても、確実に登録処理または更新処理を行うことができる。 According to this, even if a first occurrence word word memory means a word which is stored in stored in the search index does not match, it is possible to reliably perform registration or update process.

本発明の単語情報収集方法は、ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集方法であって、前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得ステップと、前記取得したウェブページを解析して単語候補を抽出するページ解析ステップと、前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定ステップと、前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、 Word information collection method of the present invention, words that collects information about the words contained on the web page on the network, using the collected words, to generate a search index for performing the index search to the search key an information collecting method, the page analysis step of extracting the page information acquisition step of acquiring the update time of the web page with information about web pages visited the network, the word candidates by analyzing the web page the acquired When the word candidates the extracted, compared with the previously generated search index from acquired word candidates, registration status determining whether the word candidate is stored in the search index when the result of the determination, when it is determined that not stored in the search index, 記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録ステップと、を備えることを特徴とする。 A first appearance word registration step of storing the update time to the information about the serial word candidate and the web page first appears word storage means in association with the first appearance time, characterized in that it comprises a.

この発明では、ネットワークを巡回してウェブページに関する情報を取得し、このウェブページを解析して単語候補を抽出し、これまでに抽出した単語に対して検索用インデックスを作成するという処理を行いながら、一方で、抽出した単語候補に関する初出情報を収集する。 In the present invention, to obtain information about the web pages visited network, the word candidate extracted by analyzing the web page, while the process of creating a search index for the word extracted so far , on the other hand, to collect the first instance information related to the extracted word candidate. 本発明では、クロール処理により検索用インデックスを生成するという通常の処理を利用して、登録状況判定ステップおよび初出ワード登録ステップにより初出情報を収集する。 In the present invention, by utilizing the conventional process of generating search index by crawling, collecting first-appearing information by registration status determining step and the first-appearing word registration step.

具体的には、抽出した単語候補が検索用インデックスに登録済みであるか否かを判定し、単語候補が検索用インデックスに未登録と判定されると、単語候補を初出ワード記憶手段へ登録する。 Specifically, the extracted word candidate is equal to or been registered in the search index, the word candidate is determined to not registered in the search index, to register the word candidates to first appearance word storage means . 登録の際、その単語候補には、初出日時としてページ情報取得ステップで取得された更新日時が関連付けられ、さらに該単語候補が含まれるウェブページに関する情報が関連付けられて記憶される。 During registration, the the word candidate, the associated update date and time acquired by the page information acquisition step as a first-appearing time, are stored in association with more information about the web page that contains said word candidates. なお、検索用インデックスは、クロール処理が行われるたびに、それまでに取得した単語候補全体に対して作成されるものである。 Note that search index every time the crawling process is performed, is intended to be created for the entire word candidate obtained so far.

このように、通常のクロール処理によりインデックスを作成しながら初出情報を収集することができるので、初出情報を得るためだけの処理を実施する必要がなく、簡単かつ効率よく単語の初出情報を収集することができる。 Thus, it is possible to collect the first-appearing information while indexing the normal crawling process, it is not necessary to carry out the processing only for obtaining first occurrence information, easily and efficiently collecting first-appearing information word be able to.
また、このようにして収集された初出情報は、ウェブページに表示することで該ウェブページのコンテンツの充実化を図ることができる。 Further, first appearance information collected in this way, it is possible to enrich the content of the web page by displaying the web page.

本発明の単語情報収集方法において、前記初出ワード登録ステップは、前記登録状況判定ステップにより前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。 In word information collection method of the present invention, the first occurrence word registration step, if the word candidate by the registration situation determining step is determined to be stored in the search index, stored in association with the word candidate comparing the first-appearing updating date the acquired date and time, when the update time is determined to older than the first appearance time, it is preferable to update the first-appearing time of said word candidates in said update time.

この発明では、登録状況判定ステップで抽出した単語候補が検索用インデックスに登録済みであると判定された場合に、初出ワード記憶手段に記憶されている該当単語データの更新を行う。 In the present invention, if the word candidate extracted in the registration status determining step is determined to be registered in the search index, and updates the corresponding word data stored in the first occurrence word storage means. 更新処理は、クロール処理によって任意の単語が含まれるウェブページの情報を取得するたびに、初出ワード記憶手段に記憶された該当単語の初出日時と、ウェブページの情報の取得と同時に取得したウェブページの更新日時と、を比較し、更新日時が初出日時よりも古い場合は、初出ワード記憶手段に記憶されている該単語に関連付けられている初出日時を更新日時で更新し、該単語に関連付けられているウェブページの情報を、新しく取得したウェブページの情報で更新する。 Update process, each time to obtain the information of the web pages that contain any word by crawling, and first appearance date and time of the corresponding word stored in the first occurrence word storage means, a web page acquired simultaneously with the acquisition of the information of the web page compares the Modified, and when the update time is older than the first appearance date and time, and updates the first-appearing time associated with said word stored in the first occurrence word storage means update date, associated with said word the information of the web page that is updated with newly acquired information of the web page. すなわち、新しく取得したウェブページの更新日時が古いほど初出ワード記憶手段に記憶されることになる。 That is, the update date and time of the newly acquired web page is stored in the old as the first occurrence of the word storage means. このような処理が繰り返されることで、結果として該単語が初出したと思われるウェブページに関する情報を収集することができる。 By such processing is repeated, said word as a result it is possible to collect information about web pages that may have first appearance.

本発明によれば、クロール処理が行われるたびに、初出ワード記憶手段に記憶された単語データが、より更新日時の古いウェブページの情報に更新されていくので、自動的に最も古い日時のウェブページに関する情報を簡単に収集することができる。 According to the present invention, each time the crawling process is performed, the word data stored in the first occurrence word storage means, so will be updated to the information of more update time older web page, automatically the oldest date web information on the page can be easily collected. したがって、通常のクロール処理を利用して効率よく単語の初出情報を収集することができる。 Therefore, it is possible to collect efficiently first appearance information of a word by using the normal crawl process.

本発明の単語情報収集プログラムは、前述の単語情報収集方法をコンピュータに実行させることを特徴とする。 Word information collection program of the present invention is characterized in that to execute the word information collection method described above to the computer.
この発明によれば、コンピュータに前述の単語情報収集方法を実行させるため、この単語情報収集プログラムをインストールするだけの簡単な構成で、前述と同様の作用効果を得ることができ、有用性が高い。 According to the present invention, for executing the above-mentioned word information collection method in a computer, with a simple configuration of simply installing the word information collection program, it is possible to obtain the advantageous effects similar to the above, highly useful .

本発明の実施形態にかかる単語情報収集システムの概略構成を示すブロック図。 Block diagram showing a schematic configuration of a word information acquisition system according to an embodiment of the present invention. 前記実施形態における単語情報収集装置の動作を示すフローチャート。 Flowchart illustrating the operation of the word information collecting apparatus in the embodiment. 前記実施形態における単語情報収集装置が提供する検索結果ページを端末装置で表示させた画面の概略図。 Schematic diagram of a screen of the search result page word information collecting device is provided to display in the terminal device in the embodiment.

以下、本発明の実施形態を図面に基づいて説明する。 It will be described below with reference to embodiments of the present invention with reference to the drawings. 本実施形態では、検索エンジンの機能を有する単語情報収集システムを例示して説明する。 In the present embodiment, it will be exemplified word information collection system having a function of search engines.
[1. [1. 単語情報収集システムの構成] The configuration of the word information collection system]
図1に示すように、単語情報収集システム1は、単語情報収集装置100と、インターネット20を介して単語情報収集装置100に接続された端末装置200と、を備えている。 As shown in FIG. 1, the word information collection system 1, the word information collecting device 100, and a terminal device 200 connected to the word information collection device 100 via the Internet 20.

インターネット20はTCP/IPなどの汎用のプロトコルに基づくインターネットであるが、これに限られない。 Internet 20 is the Internet based on a general-purpose protocol such as TCP / IP, but is not limited to this. 例えば、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成も利用できる。 For example, LAN (Local Area Network) intranet such as, a network such as a communication network or broadcast network in which a plurality of base stations information that can be transmitted and received by wireless medium constituting the network, and further, medium for receiving data directly become such as a wireless medium itself, the data can be utilized either configuration to be transmitted and received.

単語情報収集装置100は、検索エンジンの機能を有するとともに、単語の初出情報を収集するものである。 Word information collecting device 100 has a function of search engines is for collecting first instance information word. ここで、初出情報とは、任意の単語がウェブページ上に最初に登場したときの情報であり、そのときの日時(初出日時)や該ウェブページのURL情報、該ウェブページに表示される文章データおよび画像データ等の情報を含む。 Here, the sentence and the first appearance information is information of when any of the word first appeared on the web page, which is displayed the date and time (first appearance date and time) and the URL information of the web page at that time, on the web page It includes information such as data and image data.
単語情報収集装置100としては、一般的に用いられているパーソナルコンピュータ(PC)が用いられ、各種情報を記憶する記憶手段と、各種演算を実施するCPU等の制御手段と、キーボードやマウス等の入力手段、ウェブページを画面表示として出力させる表示手段などを備えている。 The word information collection device 100, in general personal computer (PC) is used, a storage unit for storing various information, and a control unit such as a CPU performs various operations, a keyboard and a mouse, etc. input means, and the like display means for outputting a web page as a screen display.

単語情報収集装置100は、図1に示すように、記憶手段として、検索用インデックスとしてのインデックスデータベース101と、初出ワード情報記憶手段としての初出ワードデータベース102と、を備えている。 Word information collection device 100, as shown in FIG. 1, as a storage means, and an index database 101 as search index, the first appearance word database 102 as first occurrence word information storage means. また、図示しないが、単語情報収集装置100は、検索結果ページを作成するための各種フォームを記憶させたデータベースを備えている。 Although not shown, word information collecting apparatus 100 is provided with various databases stored thereon form to create a search results page.

インデックスデータベース101は、例えば、以下の表1に示すように、単語ごとに該単語が含まれるウェブページのURL(Uniform Resource Locator)情報およびランクが関連付けられて1つのレコードとして記憶されたテーブル構造となっている。 Index database 101, for example, the following as shown in Table 1, and the web page URL (Uniform Resource Locator) information and table rank is stored as one record associated structure that contains said word for each word going on. なお、項目はここに列挙したものに限られず、検索結果として表示可能な情報、例えば単語に関連するイメージデータ等を適宜追加してもよい。 Incidentally, the item is not limited to those listed herein, as a search result can be displayed information, such as image data or the like related to the words may be added as appropriate.

ランク付けとは、任意の単語を含む複数のウェブページに対して、単語とウェブページとの関連度を各種アルゴリズムにより算出し、該ウェブページに付与することである。 The ranking for a plurality of web pages containing any word, the degree of association between words and web pages calculated by various algorithms is to impart to the web page. ランク付けの方法として、例えば、該単語を含むウェブページ中で、該単語が該ウェブページの内容に占める頻度が多いほど重要度が高くランク付けされたり、ウェブページのタイトル中に該キーワードが含まれている場合は重要度が高くランク付けされたりする。 As the ranking of the way, include, for example, in a web page that contains a single-word, or the single word is more important high degree of ranking is more frequently occupied in the content of the web page, is the keyword in the title of the web page is is if you are or importance is ranked higher. また、キーワードを含むウェブページにどれだけ多くのリンクが張られているかに応じてランク付けする方法もある。 In addition, there is also a method to rank depending on whether a number of link much to the web page containing the keyword is stretched.
なお、このランク付けは、クロール処理を行われるたびに新しく収集した単語も含めた検索用インデックスが作成され、インデックスデータベース101に再登録される。 It should be noted that this ranking, the search for the index, including the words of the newly collected each time it is performed a crawl process is created and re-registered in the index database 101.

初出ワードデータベース102は、例えば、以下の表2に示すように、単語ごとに該単語がウェブページ上に最初に登場した日時である初出日時、該単語が含まれるウェブページのURL情報およびキャッシュが関連付けられて1つのレコードとして記憶されたテーブル構造となっている。 Created word database 102, for example, as shown in Table 2 below, first appearance time said word in each word is a date and time that first appeared on the web page, the URL information and the cache of a web page that contains said word associated has a stored table structure as a single record. キャッシュとは、ウェブページの内容を保存したものであり、該ウェブページが更新されてしまった場合でも、キャッシュを表示することによって更新前のウェブページを閲覧することができる。 Cache and is one where you saved the contents of the web page, even if the web page had been updated, it is possible to view the pre-update web page by displaying the cache. なお、項目はここに列挙したものに限られず、検索結果として表示可能な情報、例えば単語に関連するイメージデータ等を適宜追加してもよい。 Incidentally, the item is not limited to those listed herein, as a search result can be displayed information, such as image data or the like related to the words may be added as appropriate.

単語情報収集装置100は、演算処理手段として、ネットワーク上のウェブページから単語情報を収集する単語情報収集手段110と、指定された検索語に応じた検索結果を提供するウェブ検索手段120と、図示しないが、ネットワークを介して端末装置200とデータの送受信を行う送受信手段と、を備えている。 Word information collection device 100, as an arithmetic processing unit, the word information collection unit 110 for collecting the word information from a web page on the network, a web search means 120 for providing a search result corresponding to the designated search word, shown not, but and a transmitting and receiving means for transmitting and receiving terminal 200 and the data over the network.

単語情報収集手段110は、ネットワークから単語情報を収集するものであり、ページ情報取得手段111と、ページ解析手段112と、登録状況判定手段113と、初出ワード登録手段114と、検索用インデックス生成手段115と、初出ワード登録判定手段116と、を備えている。 Word information collecting unit 110 is for collecting word information from the network, a page information acquisition unit 111, the page analysis unit 112, a registration status determination unit 113, a first occurrence word registration unit 114, a search index generation means and 115, and a first appearance word registration determination unit 116, a.
ページ情報取得手段111は、ネットワーク内を巡回し、ネットワーク内に公開されているウェブページのURL情報、文章データおよび画像データなどの情報(ウェブページに関する情報)を取得する。 Page information acquisition unit 111, visited network, obtains URL information of the web pages published on the network, information such as text data and image data (information about the web page). この処理は一般的にクロール処理と呼ばれ、前回作成された検索用インデックス、すなわちインデックスデータベース101に記憶されたウェブページのURL情報に基づいて各ウェブページを巡回する。 This process is commonly called crawling, search indices created last, namely to cycle through each web page based on the URL information of the web pages stored in the index database 101. また、クロール処理の頻度は必要に応じて適宜調整することができる。 Also, the frequency of crawling process can be appropriately adjusted as necessary.

ページ解析手段112は、ページ情報取得手段111により取得したウェブページに含まれる文章(テキスト)を抽出し、該文章に対して形態素解析を実施する。 Page analysis unit 112 extracts sentence (text) contained on the web page obtained by the page information acquisition unit 111 performs a morphological analysis on the sentence. 形態素解析とは、文章を意味のある単語に区切り、各単語の品詞等を判別する処理である。 The morphological analysis, delimiting the meaningful words of the text, a process for determining the part of speech of each word. ページ解析手段112は、形態素解析により得られる複数の単語のうち、名詞となり得るものを単語候補として取得する。 Page analysis unit 112, among a plurality of words obtained by the morphological analysis, to obtain what could be a noun as a word candidate.

登録状況判定手段113は、ページ解析手段112により得られた単語候補が、インデックスデータベース101に登録済みであるか否かを判定する。 Registration status determination unit 113, the word candidate obtained by the page analysis unit 112 determines whether or not registered in the index database 101. インデックスデータベース101には、前回のクロール処理までに取得した単語候補に対して作成したインデックスが記憶されている。 The index database 101, index created for the word candidate obtained up to the previous crawl process is stored. インデックスデータベース101に登録済みである単語候補は、初出ワードデータベース102への更新対象となり、未登録である単語候補は登録対象となる。 Word candidate is registered in the index database 101 may be updated to first occurrence word database 102, the word candidate is not registered will be registered.

初出ワード登録手段114は、取得した単語候補を初出ワードデータベース102に登録または更新の処理を行う。 Created word registration unit 114 performs registration or updating the acquired word candidates to first occurrence word database 102. 登録処理としては、登録対象となった単語候補に該単語候補が含まれるウェブページのURL情報と該ウェブページの更新日時とを関連づけて初出ワードデータベース102に記憶させる。 The registration process is stored in the first occurrence word database 102 in association with Modified URL information and the web page of the web page that contains said word candidate word candidate became registered. また、更新処理としては、更新対象となった初出ワードデータベース102内の単語データに対して、記憶されている初出日時と取得した更新日時とを比較し、更新日時が初出日時よりも古い場合は、初出日時を更新日時で更新する。 As the update process, for the word data in the first instance the word database 102 to be updated subject, comparing the updated and acquired first appearance date and time stored date, when the update date and time is older than the first appearance date and time , to update the first appearance date and time with the updated date and time.

検索用インデックス生成手段115は、新しく収集した単語候補と、インデックスデータベース101に記憶されている単語情報と、に対して検索用インデックスを作成し、作成した検索用インデックスでインデックスデータベース101を更新する。 Search index generation means 115, the word candidate with the newly collected to create the word information stored in the index database 101, a search index with respect to update the index database 101 by search index created.
初出ワード登録判定手段116は、初出ワード登録手段114の登録または更新処理の前に、対象となる単語候補が初出ワードデータベース102に登録済みであるか否かを判定する。 Created word registration determination unit 116 determines prior to the registration or update processing of the first-appearing word registration unit 114, the word candidates of interest whether it is registered in the first instance the word database 102. 単語候補が初出ワードデータベース102に登録済みであると判定された場合は、該単語候補は更新処理の対象となる。 If the word candidate is determined to be registered in the first instance the word database 102, said word candidates are subject to updating. 一方、未登録であると判定された場合は、該単語候補は登録処理の対象となる。 On the other hand, if it is determined that the unregistered, said word candidates are subject to registration.

ウェブ検索手段120は、端末装置200で指定された検索語に応じた検索結果ページを提供するものであり、検索語取得手段121と、インデックス検索手段122と、初出ワード検索手段123と、検索結果ページ提供手段124と、を備えている。 Web section 120 is to provide a search result page corresponding to the search term designated by the terminal apparatus 200, a search word acquisition unit 121, an index search unit 122, a first occurrence word search unit 123, the search results a page providing unit 124, and a.
検索語取得手段121は、端末装置200からの要求に応じて、検索ページを端末装置200に送信する。 Search word acquisition unit 121, in response to a request from the terminal device 200 transmits the search page to the terminal device 200. 検索語を入力させるための欄などが表示された検索ページを端末装置200に表示させることで、ユーザに検索語を入力させる。 The search page, etc. is displayed column for inputting a search word by displaying on the terminal apparatus 200, and inputs a search term to the user. 入力された検索語は、ユーザの要求により端末装置200から単語情報収集装置100に送信され、検索語取得手段121は、受信した検索語を取得する。 Inputted search word, the user request transmitted from the terminal device 200 to the word information collection device 100, the search word acquisition unit 121 acquires the received search word.

インデックス検索手段122は、取得した検索語をインデックスデータベース101から検索し、検索語に相当するキーワードと対応付けられたURL情報を取得する。 Index search unit 122 searches the obtained search word from the index database 101, and acquires the URL information associated with the keyword corresponding to the search term.
初出ワード検索手段123は、取得した検索語を初出ワードデータベース102から検索し、検索語に該当する初出ワードと、該初出ワードに対応付けられた初出日時、URL情報、およびキャッシュ等を取得する。 Created word search unit 123 searches the acquired search Language Created words database 102, and first appears word corresponding to the search word, and obtains first appearance date and time associated with 該初 out word, URL information, and a cache or the like.

検索結果ページ提供手段124は、検索結果ページを作成し、端末装置200に送信する。 Search results page providing unit 124 creates a search result page to the terminal apparatus 200. 端末装置200の表示手段で表示される検索結果ページには、検索結果の一覧のほか、該検索語の初出情報が表示される。 The search results page is displayed on the display means of the terminal device 200, in addition to the list of search results, first appearance information of the search word is displayed. 初出情報としては、検索語が初出したウェブページのタイトルが表示され、このタイトルにはウェブページへのリンクが張られている。 The first appearance information, the web page of the title search term was first appearance is displayed, and a link to the web page is extended over the title. タイトルをクリックするだけで該ウェブページを閲覧することができる。 Just click on the title can be viewed the web page. また、初出日時やキャッシュも表示される。 In addition, the first appearance date and time and the cache is also displayed. キャッシュには、該ウェブページに関する情報を取得したときの内容が保存されているため、仮に該ウェブページが存在しない状況であったとしても、初出した当時のウェブページを閲覧することができる。 The cache, because the content of when obtaining information relating to the web page has been saved, even if the web page is a situation that does not exist, it is possible to browse the web page at the time that first appearance.

端末装置200は、図示しないが、演算処理手段として、単語情報収集装置100に対して検索サービスを要求し、要求した検索サービスのウェブページを受信する端末送受信手段と、ウェブページを画面表示として出力させる出力手段と、文字入力可能なマウスやキーボードなどの入力手段とを備えている。 Terminal device 200, although not shown, output as an arithmetic processing unit, and requests a search service to the word information collecting device 100, a terminal receiving means for receiving the web page requested search service, a web page as a screen display an output means for, and an input means such as a character can be entered mouse and keyboard. 一方、記憶手段としては、各種フォームにかかわるフォームデータを記憶するデータベースなどを備えている。 Meanwhile, the storage means, and the like database for storing form data relating to various forms. 端末装置200としては特に限定されないが、例えば、携帯電話やノートパソコンなどが挙げられる。 No particular limitation is imposed on the terminal apparatus 200, for example, such as mobile phones and laptop computers and the like.

[2. [2. 単語情報収集装置100の動作] The operation of the word information collection device 100]
次に、単語情報収集装置100の動作について説明する。 Next, the operation of the word information collecting device 100. 単語情報収集装置100は、単語情報収集手段110による処理と、ウェブ検索手段120による処理と、が別々に動作する。 Word information collecting apparatus 100 includes a treatment with word information collection unit 110, and processing by the web search means 120, to operate independently.

まず、単語情報収集手段110の動作について、図2に基づいて説明する。 First, the operation of the word information collection unit 110 will be described with reference to FIG.
ステップS1において、ページ情報取得手段111は、ネットワークに公開されているウェブページを巡回し、該ウェブページに関する情報と、該ウェブページの更新日時と、を取得する。 In step S1, the page information acquisition unit 111, visited web pages published on the network, it acquires the information relating to the web page, and update date and time of the web page, the. ここで、ウェブページに関する情報とは、ウェブページのURL情報、ウェブページに表示される文章データおよび画像データ等であり、更新日時とは、ウェブページが更新されたときに通常付与される日時のことである。 Here, the information on the web page, URL information of the web page, a text data and image data, and the like are displayed on the web page, and the update date and time, date and time, which are normally granted when the web page has been updated it is.
次に、ステップS2において、ページ解析手段112は、ページ情報取得手段111により取得したウェブページの文章データを抽出し、該文章データに対して形態素解析を実施する。 Next, in step S2, the page analysis unit 112 extracts the text data of the Web page acquired by the page information acquisition unit 111 performs a morphological analysis on the text data. 形態素解析により得られる複数の単語のうち、名詞となり得るものを単語候補として取得する。 Among a plurality of words obtained by the morphological analysis, to obtain what could be a noun as a word candidate.

このようにしてウェブページから得られた単語候補のそれぞれに対して、以下の処理を実施する。 For each word candidate obtained from the web page in this way performs the following processing.
ステップS3において、登録状況判定手段113は、インデックスデータベース101を参照し、ページ解析手段112により得られた単語候補が記憶されているか否かを判定する。 In step S3, the registration status determination unit 113 determines whether or not with reference to the index database 101, the word candidate obtained by the page analysis unit 112 is stored. 単語候補がインデックスデータベース101に記憶されている場合(S3:Yes)は、ステップS6へ進む。 If the word candidate is stored in the index database 101 (S3: Yes), the process proceeds to step S6. 一方、単語候補がインデックスデータベース101に記憶されていない場合(S3:No)は、ステップS4へ進む。 On the other hand, if the word candidate is not stored in the index database 101 (S3: No), the process proceeds to step S4.

ステップS4では、初出ワード登録判定手段116は、初出ワードデータベース102を参照し、ページ解析手段112により得られた単語候補が記憶されているか否かを判定する。 In step S4, first appeared word registration determination unit 116 determines whether the reference to the first-appearing word database 102, the word candidate obtained by the page analysis unit 112 is stored. 単語候補が初出ワードデータベース102に記憶されている場合(S4:Yes)は、ステップS6へ進む。 If the word candidate is stored in the first occurrence word database 102 (S4: Yes), the process proceeds to step S6. 一方、単語候補が初出ワードデータベース102に記憶されていない場合(S4:No)は、ステップS5へ進む。 On the other hand, if the word candidate is not stored in the first occurrence word database 102 (S4: No), the process proceeds to step S5.

ステップS5では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補に、該単語候補が含まれるウェブページの更新日時とURL情報とを関連付けて、初出ワードデータベース102に記憶させてステップS8へ進む。 In step S5, first appeared word registration unit 114, the word candidate obtained by the page analysis unit 112, in association with the update date and URL information of the web page that contains said word candidates, and stored in first appearance word database 102 the process proceeds to step S8.
また、ステップS6では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補と一致する単語を初出ワードデータベース102から検索し、該当単語に関連付けられた初出日時と、該単語候補が含まれるウェブページの更新日時と、を比較し、更新日時が初出日時よりも古いか否かを判定する。 In step S6, first appeared word registration unit 114 searches for words that match the word candidate obtained by the page analysis unit 112 from the first appearance word database 102, a first appearance date and time associated with that word, the said word candidates and the update date and time of the web page that is included, compared with, determines whether or not the update date and time or older than the first appearance date and time. 更新日時が初出日時よりも古い場合(S6:Yes)は、ステップS7へ進む。 When the update date and time is older than the first appearance time (S6: Yes), the process proceeds to step S7. 一方、更新日時が初出日時と同じか初出日時より新しい場合(S6:No)は、ステップS8へ進む。 On the other hand, if the update date and time is newer than or equal first appearance date and Created Date (S6: No), the process proceeds to step S8.

ステップS7では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補と一致する単語を初出ワードデータベース102から検索し、該当単語に関連付けられた初出日時を、該ウェブページの更新日時で更新し、さらの該当単語に関連付けられたウェブページのURL情報およびキャッシュを該ウェブページのURL情報およびキャッシュで更新して、ステップS8へ進む。 In step S7, first appeared word registration unit 114 searches for words that match the word candidate obtained by the page analysis unit 112 from the first appearance word database 102, the first appearance date and time associated with that word, update date of the web page in updating, the URL information and the cache of a web page associated with the relevant words further update the URL information and cache the web page, the process proceeds to step S8.
なお、ステップS3〜S7までの処理は、単語候補の数に応じて複数回実施される。 The processing of steps S3~S7 are performed multiple times depending on the number of word candidates.

ステップS8では、検索用インデックス生成手段115は、新しく収集した単語候補と、インデックスデータベース101に記憶されている単語情報と、に対して検索用インデックスを生成し、新しく生成した検索用インデックスでインデックスデータベース101を更新した後、処理を終了する。 In step S8, the search index generation means 115, the word candidate with the newly collected to generate the word information stored in the index database 101, a search index with respect to the index database search index newly generated after updating the 101, the process is terminated.

次に、ウェブ検索手段120の動作について説明する。 Next, the operation of the Web means 120.
まず、ユーザは、端末装置200の入力手段を入力操作し、単語情報収集装置100が提供する検索ページにアクセスするために、例えば、ウェブブラウザを起動させてアドレスを入力し、検索ページを要求する。 First, the user inputs an operation input means of the terminal apparatus 200, for word information collection device 100 to access the search page to provide, for example, enter the address activates the web browser requests a search page .
単語情報収集装置100は、図示しない送受信手段により端末装置200からの検索ページの要求を受信すると、検索語取得手段121は、図示しない記憶手段から検索ページ用のフォームを読み出し、これらの情報に基づいて検索ページを作成し、端末装置に送信する。 Word information collection device 100 receives a request for a search page from the terminal device 200 by the transmitting and receiving means (not shown), the search word acquisition unit 121 reads out the form for a search page from the storage means (not shown), based on the information create a search page Te, it is transmitted to the terminal device.

端末装置200では、端末送受信手段により検索ページの情報を受信して、図示しない表示手段(ディスプレイ等)に画面表示させる。 In the terminal device 200 receives the information of the search page by the terminal receiving means, thereby the screen displayed on the display means (not shown) (display).
ユーザは、画面表示にしたがって、入力手段を用いて検索したい単語(検索語)を入力し、単語情報収集装置100へ送信する。 The user, according to the screen display, to enter the word you want to search using the input means (search term) to the word information collecting device 100.
単語情報収集装置100は、送受信手段で検索語を受信し、検索語取得手段121は検索語を取得する。 Word information collection device 100 receives the search word in transmitting and receiving means, the search word acquisition unit 121 obtains the search term.

次に、インデックス検索手段122は、取得した検索語に相当する単語をインデックスデータベース101から検索し、該当する単語データを抽出する。 Next, the index search unit 122 searches for a word corresponding to the acquired search word from the index database 101, and extracts the corresponding word data.
また、初出ワード検索手段123は、取得した検索語と一致する単語を初出ワードデータベース102から検索し、該当する単語データを抽出する。 Further, first appeared word search unit 123 searches the word that matches the acquired search terms from first appearance word database 102, and extracts the corresponding word data.
次に、検索結果ページ提供手段124は、図3に示すような検索結果ページを作成し、端末装置200に送信する。 Then, the search result page providing unit 124 creates a search results page as shown in FIG. 3, and transmits it to the terminal apparatus 200.

図3において、検索結果ページ5は、検索語入力領域51と、初出情報表示領域52と、検索結果一覧表示領域53を有している。 3, the search results page 5, the search word input area 51, the first appearance information display area 52, and a search result list display area 53.
検索語入力領域51は、ユーザが入力可能な検索語入力欄511と検索ボタン512を有する。 Search word input area 51 has a user and can be input search term input box 511 search button 512. 検索語入力欄511にはユーザが入力した検索語が表示され、検索ボタン512は再検索の要求を単語情報収集装置100へ送信するためのボタンである。 The search term input box 511 displays the search term entered by the user, the search button 512 is a button for sending a request for search to the word information collecting device 100.

初出情報表示領域52は、初出情報であることを示すタイトル欄521と、ウェブページのタイトルがテキスト表示されたURL情報欄522と、初出日時が表示された初出日時欄523と、該ウェブページのキャッシュへのリンクが張られたキャッシュ欄524と、を有する。 First appearance information display area 52, a title field 521 which indicates that the first occurrence information, and URL information column 522 of the web page title is displayed text, the first appearance date and time field 523 first occurrence date is displayed, of the web page having a cache column 524 links to the cache has been stretched, the. タイトル欄521には、指定された検索語が最初に登場したときのウェブページ情報を表示していることをユーザに理解させるためのタイトルが表示されればよい。 The title column 521, it is sufficient that displays the title of the order to understand the user you are viewing the web page information at the time of the specified search word first appeared. 例えば、検索語として「ねこなべ」が指定されている場合には「ねこなべの初出は!」というタイトルを表示することができる。 For example, in the case where "Nekonabe" is designated as a search term is able to display the title of "the first appearance of Nekonabe!". URL情報欄522に表示されたテキストには、該ウェブページのURLへのリンクが張られており、該URL情報欄522をクリックするだけで、指定した検索語が初出したウェブページのURLへ移動しその内容を閲覧することができる。 The text displayed in the URL information column 522 movement, has been stretched a link to the URL of the web page, to the just click the URL information column 522, the web page the search term that you specify is first appearance URL it is possible to browse the contents of perilla. また、キャッシュ欄524をクリックすると、初出ワードデータベース102に保存した時(初出時)のウェブページの内容を閲覧することができる。 Also, when you click the cache column 524, it is possible to browse the contents of the web page at the time (at the time of first appearance) that was saved in the first appearance word database 102.

検索結果一覧表示領域53は、インデックスデータベース101から抽出したデータが一覧表示される領域である。 Search result list display area 53 is an area in which data extracted from the index database 101 are listed. ウェブページのタイトルがテキスト表示されるとともに、該テキストにはウェブページのURLへのリンクが張られている。 Along with the web page title is displayed text, in the text has been stretched a link to the URL of the web page.

ユーザは、端末装置200の表示手段に画面表示された検索結果ページにより、指定した検索語に関連するウェブページの一覧を閲覧することができるだけでなく、指定した検索語が最初に登場したウェブページに関する情報も得ることができる。 The user, the search results page that is displayed on the screen of the display means of the terminal device 200, not only is it possible to view a list of web pages associated with the specified search term, web page specified search word first appeared information can also be obtained on.

[3. [3. 本実施形態の作用効果] Effects of the Embodiment]
上述した実施形態では、以下に示す作用効果を奏することができる。 In the embodiment described above, advantages can be attained as shown below.
単語情報収集手段110において、ページ情報取得手段111がネットワークを巡回してウェブページに関する情報を取得し、ページ解析手段112が取得したウェブページから単語情報を取得し、検索用インデックス生成手段115が検索用インデックスを作成するという、いわゆる検索エンジンにおける通常の処理を行うとともに、登録状況判定手段および初出ワード登録手段114により取得した単語情報に関する初出情報を収集している。 In word information acquisition unit 110 acquires information about the web page information acquisition unit 111 is visited network, obtains the word information from a web page page analysis unit 112 acquires the search is a search index generation means 115 of creating use index, performs normal processing in the so-called search engines, it is collecting first-appearing of information obtained on word information by registration status determining means and the first-appearing word registration unit 114. ページ情報取得手段111はウェブページに関する情報とともに、該ウェブページの更新日時を取得する。 Page information acquisition unit 111 along with information about the web page, acquires the update date and time of the web page. 初出ワードデータベース102に記憶された単語には初出日時が関連付けられているので、この初出日時と取得した更新日時とを比較し、古いほうの日時を初出日時として再登録する。 Since the word stored in the first occurrence word database 102 associated with the first appearance time, compared with the update date and time acquired this first appearance time, to re-register the older date and time of the first occurrence date and time. すなわち、取得するウェブページの更新日時が随時古い日時に更新されるので、結果として最も古いウェブページの情報を効率よく収集することができる。 That is, since the update date and time of the web page to be acquired is updated to the old at any time date and time, it is possible to efficiently collect the information of the oldest web page as a result.
このように、検索エンジンにおいて通常行われる処理を行いながら、簡単かつ効率よく初出情報を収集することができる。 Thus, while the process normally performed in the search engine, it can be collected easily and efficiently Created information.

また、ウェブ検索手段120では、ユーザが指定した検索語の検索結果の一覧とともに、収集した初出情報を検索結果ページに表示している。 In addition, the web search means 120, with a list of user search results for the specified search term, displaying the collected first appearance information on the search results page. ユーザが指定する検索語としては、一般的な単語のほか、流行語のような単語もある。 The search terms specified by the user, general other words, there is also a word, such as the buzzword. 流行語は、あるウェブページに表示されたことが発端となって流行が広まることも多く、流行の発端となったウェブページに関する情報を得たいと思うユーザも多数いる。 Buzzword, many also be displayed in a web page spread epidemics become a beginning, users are also a large number who want to obtain information on the web page, which was the beginning of the epidemic. 上記実施形態では、上述の単語情報収集手段110によって収集した初出情報を、ウェブ検索手段120が、例えば検出語が初出したウェブページのタイトルと、初出日時と、を表示させ、タイトルには該ウェブページのURLへのリンクを張った状態で検索結果ページに表示する。 In the above embodiment, the first-appearing information collected by the above-described word information collection unit 110, web search means 120, for example, a web page title which detected word is first appearance, the first appearance time, to display, in the title the web It is displayed on the search results page in a state that stretched a link to a page of the URL.
したがって、ユーザは指定した検索語の初出情報を得ることができるとともに、初出したウェブページを閲覧することができる。 Therefore, the user can obtain a first appearance information of the specified search terms, it is possible to browse the web page that appears for the first time. このように、ユーザが知りたいと思う有益な情報を検索語の検索結果とともに提供することができ、検索結果ページのコンテンツの充実化を図ることができる。 In this way, the user is able to provide with you the search term results of the valuable information that I think know, it is possible to enrich the content of the search results page.

さらに、上記実施形態では、検索結果ページの初出情報の一部にキャッシュを表示している。 Furthermore, in the above embodiment, displaying the cache part of the first occurrence information of the search results page. 初出情報としてリンクが張られるウェブページは古く、その後更新されていることが多いため、初出時のウェブページを閲覧できない可能性が高い。 Web page the link is stretched as the first appearance information is old, because they often are then updated, there is a high possibility that can not browse the web page of the first occurrence. しかしながら、初出時のウェブページの内容をキャッシュとして初出ワードデータベース102に保存し、検索結果ページにキャッシュとして表示させるので、仮に初出時のウェブページが存在しない場合でも、初出時のウェブページを閲覧することができる。 However, to save the contents of the web page of the first occurrence in the first instance word database 102 as a cache, so to be displayed as a cache on the search results page, even if the first appearance at the time of the web page does not exist, to browse the web page of the first occurrence be able to. したがって、ユーザにとって有益な情報を提供することができる。 Therefore, it is possible to provide useful information to the user.

[4. [4. 変形例] Modification]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。 The present invention is not limited to the embodiment described above, within the range that can achieve the object of the present invention, but also includes modifications shown below.
例えば、上記実施形態では、単語情報収集手段110の動作において、初出ワード登録判定手段116により、検索語が初出ワードデータベース102に登録済みであるか否かを判定する処理(S4)を行ったが、この処理は省略してもよい。 For example, in the above embodiment, in the operation of the word information collection unit 110, the first occurrence word registration determination unit 116, although the search word is performed first appearance process of determining whether a registered word database 102 (S4) this process may be omitted. これは、ステップS3において、登録状況判定手段113がインデックスデータベース101への登録状況を判定しているため、この判定結果に基づいて初出ワードデータベース102への登録の有無を判定することができるからである。 In this, in step S3, since the registration status determination unit 113 determines the registration status of the index database 101, since it is possible to determine the presence or absence of registration in the first instance the word database 102 based on the determination result is there. これによれば、処理の高速化を図ることができる。 According to this, it is possible to increase the speed of processing.

また、上記実施形態では、ページ解析手段112は、形態素解析により文章を単語候補に分解したが、単語候補を抽出する方法はこれに限られない。 In the above embodiment, the page analysis unit 112 has been disassembled sentence word candidate by morphological analysis, a method for extracting word candidates is not limited to this. 一般的に用いられる言語処理技術、例えばN−gramを用いて解析してもよい。 Generally language processing technology used, may be analyzed for example using N-gram.

さらに、上記実施形態において、初出ワードデータベース102の項目として画像データを追加してもよい。 Further, in the above embodiment, it may be added to the image data as an item in the first instance the word database 102. 任意の単語が含まれるウェブページから、該単語に関連する画像データを取得し、該単語にこの画像データを関連付けて初出ワードデータベース102に記憶させる。 From a web page that includes any word, acquires image data associated with said word, is stored in association with the image data in said word to first occurrence word database 102. したがって、ウェブ検索手段120により初出情報を検索結果ページに表示させる際は、初出情報の一部としてこの画像データを表示させることができる。 Therefore, when displaying the first-appearing information on the search results page by the web search means 120 can display the image data as a part of the first occurrence information. 画像データは視覚的なものであるので、ユーザにとっては認識が容易である。 Since the image data is one visual, it is easy to recognize for the user. すなわち、ユーザにわかりやすい情報提供を行うことができる。 In other words, it is possible to perform provide easy-to-understand information to the user.

本発明は、ネットワーク上のウェブページに含まれる単語情報を収集する単語情報収集装置として検索エンジン等に利用できる。 The present invention is applicable to a search engine such as word information collecting apparatus for collecting word information included in the web page on the network.

100…単語情報収集装置101…インデックスデータベース102…初出ワードデータベース110…単語情報収集手段111…ページ情報取得手段112…ページ解析手段113…登録状況判定手段114…初出ワード登録手段115…検索用インデックス生成手段116…初出ワード登録判定手段120…ウェブ検索手段121…検索語取得手段122…インデックス検索手段123…初出ワード検索手段124…検索結果ページ提供手段200…端末装置 100 ... word information collection device 101 ... index database 102 ... Created word database 110 ... word information collection unit 111 ... page information acquisition unit 112 ... page analysis unit 113 ... registration status determination unit 114 ... Created word registration unit 115 ... search index generation means 116 ... Created word registration determination unit 120 ... web unit 121 ... search word acquisition unit 122 ... index search unit 123 ... Created word search means 124 ... search result page providing unit 200 ... terminal

Claims (8)

  1. ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集装置であって、 Collects information about words included in the web page on the network, using the collected words, a word information collecting apparatus for generating a search index for performing the index search to the search key,
    前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得手段と、 A page information acquisition means for acquiring the update time of the Web page with information about web pages visited network;
    前記取得したウェブページを解析して単語候補を抽出するページ解析手段と、 And the page analysis means for extracting a word candidates by analyzing the web page that the acquired,
    前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定手段と、 And word candidates the extracted, and already obtained compared with a previously generated search index from the word candidate, it determines the registration state determination means for determining whether the word candidate is stored in the search index,
    前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録手段と、を備える ことを特徴とする単語情報収集装置。 The result of the determination, if it is determined not to be stored in the search index, first appeared word register for storing the update date and time information about said word candidate and the web page first appears word storage means in association with the first appearance time word information collection apparatus characterized by comprising: a means.
  2. 請求項1に記載の単語情報収集装置において、 In word information collecting apparatus according to claim 1,
    前記初出ワード登録手段は、 The first appearance word registering means,
    前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する ことを特徴とする単語情報収集装置。 Wherein when the word candidate by the registration status determination means determines that stored in the search index, compared with the update date of the first occurrence date and time stored in association with the word candidate said acquired, the update time When There is judged older than the first appearance time, word information collection device and updates the first-appearing time of said word candidates in said update time.
  3. 請求項1または請求項2に記載の単語情報収集装置において、 In word information collecting apparatus according to claim 1 or claim 2,
    前記ネットワークを介して接続された端末装置に対して検索語の入力を要求し、入力された検索語を取得する検索語取得手段と、 A search word acquisition unit via said network requesting input of a search word to the connected terminal device, acquires the inputted search word,
    前記取得した検索語と一致するキーワードを、前記検索用インデックスから検索し、該当するキーワードに関連付けられたウェブページに関する情報を取得するデータ検索手段と、 The keyword that matches the acquired search term, and data retrieval means for searching from the search index, to obtain information about the web pages associated with the appropriate keywords,
    前記取得した検索語と一致する単語を、前記初出ワード記憶手段から検索し、該当する単語に関連付けられたウェブページに関する情報と初出日時とを取得する初出ワード検索手段と、 The word that matches the acquired search term, searching from the first appearance word storage means, and first appeared word search means for obtaining information about the web pages associated with the appropriate word and the first appearance time,
    前記データ検索手段により取得したウェブページに関する情報と前記初出ワード検索手段により取得したウェブページに関する情報および初出日時とを表示させたウェブページを作成して配信する検索結果ページ提供手段と、をさらに備えた ことを特徴とする単語情報収集装置。 Additionally and a search result page providing means for distributing to create a web page to display the information and Created Date relating web page obtained by the information and the first appearance word search means about a web page obtained by said data retrieval means word information collecting device, characterized in that the.
  4. 請求項1に記載の単語情報収集装置において、 In word information collecting apparatus according to claim 1,
    前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、 Further comprising a first-appearing word registration determination means determines whether or not the word that matches the extracted word candidate is stored in the first occurrence word information storage means,
    前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる ことを特徴とする単語情報収集装置。 The first appearance word registration means, it is determined that the word candidate is not stored in the search index by the registration status determination unit, and the word candidate by the first appearance word registration determination means the first appearance word information storage means If it is determined not to be stored, the word information collecting device, characterized in that to store the update date and time information about said word candidate and the web page first appears word storage means in association with the first appearance time.
  5. 請求項2に記載の単語情報収集装置において、 In word information collecting apparatus according to claim 2,
    前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、 Further comprising a first-appearing word registration determination means determines whether or not the word that matches the extracted word candidate is stored in the first occurrence word information storage means,
    前記初出ワード登録手段は、 The first appearance word registering means,
    前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させ、 Wherein the registration condition determining means is determined that the word candidate is not stored in the search index, and it is determined that the word candidate by the first appearance word registration determination means is not stored in the first occurrence word information storage means and if the update date is stored in the first occurrence word storage means in association with the first appearance date and time and information on the word candidate and the web page,
    前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていると判定された場合は、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する ことを特徴とする単語情報収集装置。 The first appearance when the word candidate by the word registration determination means is determined to be stored in the first occurrence word information storage means, compares the updated date Created date and time stored in association with the word candidate that the acquired and, wherein the update time is determined to older than the first appearance time, word information collection device and updates the first-appearing time of said word candidates in said update time.
  6. ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集方法であって、 Collects information about words included in the web page on the network, using the collected words, a word information collection method of generating a search index for performing the index search to the search key,
    前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得ステップと、 A page information acquisition step of acquiring the update time of the Web page with information about web pages visited network;
    前記取得したウェブページを解析して単語候補を抽出するページ解析ステップと、 And the page analysis step of extracting a word candidates by analyzing the web page that the acquired,
    前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定ステップと、 And word candidates the extracted, and already obtained compared with a previously generated search index from the word candidate, registration status determining whether the word candidate is stored in the search index,
    前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録ステップと、を備える ことを特徴とする単語情報収集方法。 The result of the determination, if it is determined not to be stored in the search index, first appeared word register for storing the update date and time information about said word candidate and the web page first appears word storage means in association with the first appearance time word information collection method characterized by comprising the steps, a.
  7. 請求項6に記載の単語情報収集方法において、 In word information collection method according to claim 6,
    前記初出ワード登録ステップは、 The first appearance word registration step,
    前記登録状況判定ステップにより前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する ことを特徴とする単語情報収集方法。 Wherein when the word candidate by registration status determining step is determined to be stored in the search index, compared with the update date of the first occurrence date and time stored in association with the word candidate said acquired, the update time When There is judged older than the first appearance time, word information collection method and updates the first-appearing time of said word candidates in said update time.
  8. 請求項6または請求項7に記載の単語情報収集方法をコンピュータに実行させることを特徴とする単語情報収集プログラム。 Word information collection program, characterized in that to execute the word information collection method according to the computer to claim 6 or claim 7.
JP2009204796A 2009-09-04 2009-09-04 Word information collection apparatus, word information collection methods and word information collection program Active JP5002631B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009204796A JP5002631B2 (en) 2009-09-04 2009-09-04 Word information collection apparatus, word information collection methods and word information collection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009204796A JP5002631B2 (en) 2009-09-04 2009-09-04 Word information collection apparatus, word information collection methods and word information collection program

Publications (2)

Publication Number Publication Date
JP2011054102A JP2011054102A (en) 2011-03-17
JP5002631B2 true JP5002631B2 (en) 2012-08-15

Family

ID=43943003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009204796A Active JP5002631B2 (en) 2009-09-04 2009-09-04 Word information collection apparatus, word information collection methods and word information collection program

Country Status (1)

Country Link
JP (1) JP5002631B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5479517B2 (en) * 2012-03-06 2014-04-23 ヤフー株式会社 The information processing apparatus, method and system
JP6324326B2 (en) * 2015-01-23 2018-05-16 ヤフー株式会社 The information processing apparatus, information processing method, and an information processing program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
JP2006185020A (en) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd Information processor, information processing method and computer program
JP5126501B2 (en) * 2007-12-27 2013-01-23 大日本印刷株式会社 Early caller identification system

Also Published As

Publication number Publication date
JP2011054102A (en) 2011-03-17

Similar Documents

Publication Publication Date Title
US8676837B2 (en) Systems and methods for personalizing aggregated news content
US8639684B2 (en) Dynamic search box for web browser
KR101532715B1 (en) Search engine that applies feedback from users to improve search results
CN101288046B (en) Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US6327590B1 (en) System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US6651065B2 (en) Search and index hosting system
JP4648455B2 (en) Personalized search method and a personalized search system
US20070055652A1 (en) Speculative search result for a search query
CN100481077C (en) Visual method and device for strengthening search result guide
US7516124B2 (en) Interactive search engine
US8458207B2 (en) Using anchor text to provide context
US7406459B2 (en) Concept network
US20080222140A1 (en) Comparative web search system and method
US8978033B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
US20020049699A1 (en) Document information management system
US8271546B2 (en) Method and system for URL autocompletion using ranked results
US7933906B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US9192684B1 (en) Customization of search results for search queries received from third party sites
JP4961043B2 (en) Sorting of user browser history based on the relevance
KR101171405B1 (en) Personalization of placed content ordering in search results
US8819003B2 (en) Query refinement based on user selections
US20090150353A1 (en) Method and arrangement for handling of information search results
Crescenzi et al. Clustering web pages based on their structure
US8301616B2 (en) Search equalizer
CN102043833B (en) Search method and device based on query word

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250