JP2006215689A - Information providing system - Google Patents

Information providing system Download PDF

Info

Publication number
JP2006215689A
JP2006215689A JP2005026037A JP2005026037A JP2006215689A JP 2006215689 A JP2006215689 A JP 2006215689A JP 2005026037 A JP2005026037 A JP 2005026037A JP 2005026037 A JP2005026037 A JP 2005026037A JP 2006215689 A JP2006215689 A JP 2006215689A
Authority
JP
Japan
Prior art keywords
information
freshness
function
timing
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005026037A
Other languages
Japanese (ja)
Inventor
Atsushi Takayama
淳 高山
Tetsuya Shimizu
哲哉 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AJS KK
Original Assignee
AJS KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AJS KK filed Critical AJS KK
Priority to JP2005026037A priority Critical patent/JP2006215689A/en
Publication of JP2006215689A publication Critical patent/JP2006215689A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information providing system permitting recognition of the newness of information on the web, namely the freshness of the information. <P>SOLUTION: The information providing system is provided with an information reading part 2, a history information storage part 3, a processing part 11 and an output part 9. The processing part 11 is provided with a function for comparing information read with the information reading part 2 at the latest timing with information read at the preceding timing to extract differential contents, a function for identifying additional contents in the extracted differential contents, a function for extracting a predetermined keyword from the identified additional contents, a function for identifying timing when the keyword has been generated on a web page, and a function for preparing freshness information obtained by grouping information including the keyword by the freshness according to the generation timing on the web page. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、ウエブ上に表示された特定の情報の新しさを示す鮮度情報を提供する情報提供システムに関する。   The present invention relates to an information providing system for providing freshness information indicating the newness of specific information displayed on a web.

例えば、企業の求人情報や不動産の物件情報等のような特定の用途の情報を探すユーザーは、有用な情報を得るために、毎日のようにウエブページを検索する。しかし、毎日検索した情報のほとんどは過去に見たことのあるものである。ユーザーが本当に知りたいものは、まだ見ていないもの、すなわち、新しい情報であるが、どの情報が最近更新されたものなのかを、ユーザーが自分で判断することは難しい。
そのため、ウエブページの中には、「new」マークを表示して、新しい情報であることを示すようにしたものがある。このような「new」マークを付けることによって、ユーザーへ、新情報であることをわからせるようにしている。
特開2002−157162号公報
For example, a user who searches for information for a specific use such as job offer information of a company or property information of a real estate searches a web page every day in order to obtain useful information. However, most of the information searched every day has been seen in the past. What the user really wants to know is what has not yet been seen, that is, new information, but it is difficult for the user to determine for himself which information has been recently updated.
For this reason, some web pages display a “new” mark to indicate new information. By attaching such a “new” mark, the user can know that the information is new information.
JP 2002-157162 A

上記のように、更新された情報に、「new」マークが付けられていると、ユーザーは、その情報を新しい情報と判断することができる。しかし、この「new」マークは、そのウエブサイトの管理者によって付けられるものなので、本当に新しい情報なのかどうか確かではない。
すなわち、新たにウエブ上に掲載した時点で「new」マークを付けたとしても、そのマークをいつはずすのかということは、サイトによって異なる。そのため、それほど新しくないのに「new」マークが付いたままになっていることもある。
また、反対に、更新時に「new」マークを付けないサイトでは、新情報をマークで判断することはできない。
つまり、サイトごとの基準で「new」マークを付けるシステムでは、ユーザーが、情報の新しさを正しく判断できないことがあった。
As described above, when the “new” mark is added to the updated information, the user can determine that the information is new information. However, since the “new” mark is attached by the administrator of the website, it is not certain whether it is really new information.
In other words, even when a “new” mark is added at the time of newly posting on the web, when the mark is removed differs depending on the site. For this reason, the “new” mark may remain attached even though it is not so new.
On the other hand, at sites that do not have a “new” mark at the time of update, new information cannot be determined by the mark.
In other words, in a system in which a “new” mark is given on a site-by-site basis, the user may not be able to correctly determine the freshness of information.

さらに、特許文献1のようにデータベースを定期的に監視して、今回と前回とで変更された差分情報を検出する方法もある。このような方法をウエブ検索に応用して、差分情報を取得したとしても、この差分情報から、必要な情報の新しさがどれくらいなのかを、ユーザーが判断することは難しい。差分情報からは、情報の更新時点でその情報が新しいことがわかるが、それが削除されるまでの間、どのくらい時間が経過しているのかということはわからない。
この発明の目的は、ウエブ上に提供される情報であって、ユーザーが必要とする情報について、その情報の新しさ、すなわち情報の鮮度がわかるようにする情報提供システムを提供することである。
Further, there is a method of periodically monitoring a database as in Patent Document 1 to detect difference information changed between the current time and the previous time. Even if such a method is applied to the web search and the difference information is acquired, it is difficult for the user to determine how much the necessary information is new from the difference information. From the difference information, it can be seen that the information is new when the information is updated, but it is not known how much time has passed until it is deleted.
An object of the present invention is to provide an information providing system that enables information on a web, which is necessary for a user, to know the newness of the information, that is, the freshness of the information.

第1の発明は、予め設定された特定のウエブページに接続可能にするとともに、所定のタイミングで上記ウエブページの情報を読み取る情報読み取り部と、この情報読み取り部が読み取った情報を読み取りタイミングに対応付けて履歴情報として記憶する履歴情報記憶部と、上記履歴情報のうち、予め設定されたキーワードにかかわる情報に、その情報の鮮度を対応付けた鮮度情報を作成する処理部と、この処理部が作成した鮮度情報を出力する出力部とを備え、上記処理部は、上記情報読み取り部が最新のタイミングで読み取った情報と前回読み取った情報とを対比してその差異内容を抽出する機能と抽出した差異内容のうち、追加内容を特定する機能と、特定した追加内容から予め設定されたキーワードを抽出する機能と、抽出されたキーワードが上記ウエブページに発生した発生タイミングを特定する機能と、上記抽出したキーワードを含む情報をウエブページへの発生タイミングに応じた鮮度別にグループ分けする機能と、各グループに鮮度を対応付けて鮮度情報を作成する機能とを備えた点に特徴を有する。   The first invention makes it possible to connect to a specific web page set in advance, an information reading unit for reading the information on the web page at a predetermined timing, and the information read by the information reading unit corresponding to the reading timing And a history information storage unit for storing the history information, a processing unit for creating freshness information in which the freshness of the information is associated with information related to a preset keyword among the history information, and the processing unit An output unit that outputs the created freshness information, and the processing unit extracts a function of extracting the difference contents by comparing the information read by the information reading unit at the latest timing with the information read last time. Among the difference contents, a function for identifying additional contents, a function for extracting a preset keyword from the identified additional contents, and an extracted key A function for identifying the occurrence timing of a word on the web page, a function for grouping information including the extracted keywords according to the freshness according to the occurrence timing on the web page, and a freshness by associating each group with a freshness It has a feature in that it has a function of creating information.

第2の発明は、第1の発明を前提とし、上記処理部は、抽出した差異内容のうち、削除内容を特定する機能と、特定した削除内容から予め設定されたキーワードを抽出する機能と、抽出されたキーワードが上記ウエブページから削除された削除タイミングを特定する機能と、特定した削除タイミングを鮮度情報に付加する機能とを備えた点に特徴を有する。   2nd invention presupposes 1st invention, The said process part is a function which specifies the deletion content among the extracted difference content, The function which extracts the keyword preset from the specified deletion content, It is characterized in that it has a function of specifying the deletion timing when the extracted keyword is deleted from the web page, and a function of adding the specified deletion timing to the freshness information.

第3の発明は、上記第2の発明を前提とし、上記出力部は、通信を介して接続可能にしたユーザー端末に表示させる表示データとして、上記鮮度情報を鮮度順に並べた情報に、上記発生タイミングおよび削除タイミングを対応付けたテーブルを作成し、それをウエブページに掲載する機能を備えた点に特徴を有する。   3rd invention presupposes the said 2nd invention, and the said output part produces | generates the said generation | occurrence | production into the information which arranged the said freshness information in order of freshness as display data displayed on the user terminal which enabled connection via communication. It is characterized in that it has a function of creating a table in which timings and deletion timings are associated with each other and posting them on a web page.

第1〜第3の発明によれば、ウエブページから必要な情報を抽出し、その鮮度を表した鮮度情報を提供することができる。
上記鮮度情報により、ユーザーは、鮮度が重要な情報について、その価値を評価しやすくなる。
また、ユーザーは、自身で、様々なウエブページにアクセスしたり、情報検索をしたりする必要がなく、上記鮮度情報として、求める情報を簡単に取得できるようになる。
According to the 1st-3rd invention, required information can be extracted from a web page and the freshness information showing the freshness can be provided.
The freshness information makes it easier for the user to evaluate the value of information on which freshness is important.
In addition, the user does not need to access various web pages or search for information by himself / herself, and can easily obtain the desired information as the freshness information.

さらに第2の発明によれば、ユーザーは、情報の更新サイクルを簡単に把握できるようになる。例えば、求人情報や不動産物件情報に適用した場合には、人気職種や、人気物件を把握できるようになる。
また、第3の発明によれば、多数のユーザーが、それぞれ、必要なタイミングに、鮮度情報をわかりやすい形で取得できるようになる。
Furthermore, according to the second aspect, the user can easily grasp the information update cycle. For example, when applied to job offer information and real estate property information, it becomes possible to grasp popular occupation types and popular properties.
In addition, according to the third invention, a large number of users can acquire freshness information in an easy-to-understand manner at a necessary timing.

図1〜図8に、この発明の一実施形態を示す。このシステムは、ウエブページから、必要な情報を、その鮮度がわかるようにして提供するシステムである。そして、上記必要な情報が求人情報である例を説明する。
図1は、このシステムの全体構成を示している。
この発明の情報提供システム1は、インターネットN1を介して各企業の求人情報ページ10a,10b,10c,・・・に接続可能にし、通信手段N2を介して、このシステムが作成した情報を取得するユーザー側のユーザー端末20a,20b,20c,・・・を接続可能にしている。なお、上記システム1とユーザー端末20a,20b,20c,・・・の間を接続する通信手段N2は、インターネットなど、どのようなものでもかまわない。
また、このシステムのユーザーとは、求人情報を必要とするユーザーであり、人材派遣会社などが考えられるが、求職中の個人であってもよい。
1 to 8 show an embodiment of the present invention. This system provides necessary information from a web page so that its freshness can be understood. An example in which the necessary information is job information will be described.
FIG. 1 shows the overall configuration of this system.
The information providing system 1 of the present invention enables connection to job information pages 10a, 10b, 10c,... Of each company via the Internet N1, and acquires information created by this system via the communication means N2. The user terminals 20a, 20b, 20c,... On the user side can be connected. The communication means N2 for connecting the system 1 and the user terminals 20a, 20b, 20c,... May be anything such as the Internet.
In addition, the user of this system is a user who needs job offer information, such as a staffing agency, but may be an individual who is seeking a job.

このシステム1は、上記求人情報ページ10a,10b,10c,・・・から、情報を読み取る情報読み取り部2と、これに連係した履歴情報記憶部3と、差異検出部4およびキーワード抽出部5からなる差分情報作成部11とを備え、キーワード抽出部5には、後で説明するキーワード抽出処理の際に用いるキーワードを記憶したキーワード記憶部7と、上記差分情報作成部11が作成した差分情報を記憶する差分情報記憶部8とを接続している。この差分情報記憶部8には、差分情報に基づいて鮮度情報を作成する鮮度情報作成部6を接続し、この鮮度情報作成部6には、出力部9を接続している。   The system 1 includes an information reading unit 2 that reads information from the job information pages 10a, 10b, 10c,... The keyword extraction unit 5 includes a keyword storage unit 7 that stores keywords used in a keyword extraction process, which will be described later, and the difference information created by the difference information creation unit 11. A difference information storage unit 8 to be stored is connected. A freshness information creation unit 6 that creates freshness information based on the difference information is connected to the difference information storage unit 8, and an output unit 9 is connected to the freshness information creation unit 6.

なお、ここでは、上記差異検出部4が検出する差異と、差分情報とを区別して用いる。後で詳しく説明するが、上記差異は、対比した情報間での表面上の差異であり、差分情報とは、このシステムが提供する内容的に意味ある情報であって、さらに特定した部分についての差異である。例えば、この実施形態では、求人情報に適用しているので、求人内容として、募集職種名が知りたいのであって、その前後に付加された修飾語などは不要な場合もある。このような不要部分を除いた必要部分のみの差異を、ここでは差分としている。   Here, the difference detected by the difference detection unit 4 is distinguished from the difference information. As will be described in detail later, the above difference is a difference on the surface between the contrasted information, and the difference information is information that is meaningful in terms of content provided by this system. It is a difference. For example, in this embodiment, since it is applied to the job information, there is a case where it is necessary to know the name of the recruiting job type as the content of the job, and the modifiers added before and after the job name are not necessary. A difference only in the necessary part excluding such an unnecessary part is defined as a difference here.

上記情報読み取り部2は、所定の読み取りタイミングで、特定のウエブページに接続し、そのページの情報を読み取って、読み取った日付とともに履歴情報記憶部3に記憶させる機能を備えている。
上記所定の読み取りタイミングとして、例えば、毎日の特定の時刻とか、毎週月曜日の9時という読み取りタイミングを予め情報読み取り部2に設定しておいて、自動的に情報を読み取らせるようにすることもできるし、オペレーターが所定のタイミングで、情報を読み取らせるためのコマンドを入力するようにしてもかまわない。
The information reading unit 2 has a function of connecting to a specific web page at a predetermined reading timing, reading the information on the page, and storing the information in the history information storage unit 3 together with the read date.
As the predetermined reading timing, for example, a reading timing such as a specific time every day or 9 o'clock every Monday is set in the information reading unit 2 in advance, and information can be automatically read. However, the operator may input a command for reading information at a predetermined timing.

また、この情報読み取り部2が情報を読み取る特定のウエブページは、予め決められたページであり、この実施形態では、各企業の求人情報が記載されたページとし、各ウエブページのURLを、監視URL一覧として情報読み取り部2に設定しておくようにする。そして、情報読み取り部2は、設定された読み取りタイミングで、設定されたURLの情報を読み取る機能を備えている。
なお、このURLごとに、その読み取りタイミングを別々に設定しておくことも可能である。例えば、A社の求人情報は、毎日読み取るが、B社の情報は月曜日と木曜日にのみ、読み取るということもできる。
Further, the specific web page from which the information reading unit 2 reads information is a predetermined page. In this embodiment, the job reading information of each company is described, and the URL of each web page is monitored. The URL is set in the information reading unit 2 as a URL list. The information reading unit 2 has a function of reading the set URL information at the set read timing.
Note that the reading timing can be set separately for each URL. For example, it can be said that the job offer information of company A is read every day, but the information of company B is read only on Monday and Thursday.

そして、情報読み取り部2は、読み取った情報を、その読み取りタイミングに対応付けて履歴情報記憶部3に記憶させる。
この実施形態では、情報読み取り部2が、毎日、1回、自動的に所定のウエブページの情報を読み取るものとする。そして、ここでは、2005年1月20日を本日とする。
また、情報読み取り部2が1日に1回、ウエブページを読み取るようにしているので、履歴情報記憶部3は、図2に示すように、読み取りタイミングとしての日付に、読み取った情報を対応付けて記憶している。そして、上記情報読み取り部2がアクセスする各URLで特定されるページから読み取った情報を、ファイルF1,F2,F3,・・・とファイル名を付けて、それぞれ読み取った日付に対応付けて記憶している。
The information reading unit 2 stores the read information in the history information storage unit 3 in association with the reading timing.
In this embodiment, it is assumed that the information reading unit 2 automatically reads information on a predetermined web page once a day. Here, today is January 20, 2005.
Further, since the information reading unit 2 reads the web page once a day, the history information storage unit 3 associates the read information with the date as the reading timing as shown in FIG. I remember. Then, the information read from the page specified by each URL accessed by the information reading unit 2 is stored with the files F1, F2, F3,. ing.

この実施形態において、上記読み取り部2がアクセスするページは、それぞれ、企業の求人情報のページなので、例えば、ファイルF1は、A社の求人情報、ファイルF2はB社の求人情報、ファイルF3は、C社の求人情報である。そして、これらファイルF1,F2,F3,・・・は、2005年1月20日(2005/1/20)のフォルダにも、2005年1月19日のフォルダにも対応付けられている。同様に、情報読み取り部2が、そのページにアクセスして情報を読み取るたびに、その日付のフォルダと、個々のファイルを作成するようにしている。   In this embodiment, the page accessed by the reading unit 2 is a company job information page. For example, the file F1 is job information of company A, the file F2 is job information of company B, and the file F3 is This is job posting information for company C. These files F1, F2, F3,... Are associated with both the folder on January 20, 2005 (2005/1/20) and the folder on January 19, 2005. Similarly, each time the information reading unit 2 accesses the page and reads the information, a folder and an individual file for that date are created.

以下に、このシステム1によって、ウエブページから求人情報を抽出し、鮮度情報を作成して、それを出力する手順を詳しく説明する。
まず、上記情報読み取り部2が、毎日決まった時刻に、予め設定されている監視URL一覧に対応する全てウエブページにアクセスして、その情報を履歴情報記憶部3に記憶させる。
次に、差異検出部4が、今回読み取った情報と前回の情報との間の差異を検出する。その手順を図3のフローチャートに従って説明する。
The procedure for extracting job posting information from a web page, creating freshness information, and outputting it will be described in detail below.
First, the information reading unit 2 accesses all the web pages corresponding to the preset monitoring URL list at a predetermined time every day, and stores the information in the history information storage unit 3.
Next, the difference detection unit 4 detects a difference between the information read this time and the previous information. The procedure will be described with reference to the flowchart of FIG.

ステップS1で、履歴情報記憶部3が記憶している情報を基にして、今回読み取った情報と、前回読み取った情報との間の差異検出を開始するが、この開始タイミングは、情報読み取り部2が、全ての情報を読み取った後である。情報読み取り部2が、読み取り終了信号を出力するなどして、差異検出部4を起動させる。
ステップS2で、今回と前回の情報を全て読み出したかどうかを判断し、全て読み出していない場合には、ステップS3へ進み、残りの情報を読み出す。
In step S1, based on the information stored in the history information storage unit 3, detection of a difference between the information read this time and the information read last time is started. But after reading all the information. The information reading unit 2 activates the difference detecting unit 4 by outputting a reading end signal or the like.
In step S2, it is determined whether all of the current and previous information has been read out. If not all of the information has been read out, the process proceeds to step S3 and the remaining information is read out.

上記今回と前回の情報とは、例えば、本日が2005年1月20日の場合、図2に示す2005/1/20のフォルダのファイルF1,F2,F3,・・・と、前回、すなわち前日に読み取った2005/1/19のフォルダのファイルF1,F2,F3,・・・のことである。
上記のファイルの情報を、順番に読み出して、ステップS4で対比するが、対比するファイルは、同名のファイル同士である。すなわち、今回のファイルF1と前回のファイルF1とを対比し、次に、ファイルF2とファイルF2とを対比する。ステップS2では、履歴情報記憶部3が記憶しているファイルを全て読み出したかどうかを判断していることになる。
For example, if today is January 20, 2005, the files F1, F2, F3,... In the folder shown in FIG. The files F1, F2, F3,...
The file information is read in order and compared in step S4. The files to be compared are files with the same name. That is, the current file F1 and the previous file F1 are compared, and then the file F2 and the file F2 are compared. In step S2, it is determined whether all the files stored in the history information storage unit 3 have been read.

ステップS4で差異があると判断した場合には、ステップS5へ進み、その差異内容を、会社名およびURLとともにキーワード抽出部5へ送る。
ここで、キーワード抽出部5へ送られる差異情報は、図4に示すもので、ステップS4で対比したファイルに対応するURLおよび会社名と、差異内容である。この差異内容には、追加または削除の別を付加するようにしている。今回の情報にあって、前回の情報に無い内容は、今回追加された内容であり、前回の情報にあって、今回の情報に無い内容は削除された内容である。
上記ステップS4で差異を検出する方法は、特に限定されないが、例えば、ウエブページのデータを全て取り込んで、そのHTML文書を、タグを除いて対比すれば、表面上の差異を全て検出することができる。
If it is determined in step S4 that there is a difference, the process proceeds to step S5, and the content of the difference is sent to the keyword extraction unit 5 together with the company name and URL.
Here, the difference information sent to the keyword extraction unit 5 is as shown in FIG. 4 and includes the URL and company name corresponding to the file compared in step S4 and the difference contents. The difference contents are added or deleted. In the current information, the content not included in the previous information is the content added this time, and in the previous information, the content not included in the current information is the deleted content.
The method for detecting the difference in step S4 is not particularly limited. For example, if all the data of the web page is taken and the HTML document is compared except for the tag, all the differences on the surface can be detected. it can.

上記差異検出部4では、今回の読み取りタイミングで、追加があった場合と、削除があった場合のどちらも差異として検出するようにしている。そして、個々の差異内容を1つの差異レコードR1,R2,R3,・・・という。
上記のように、差異検出部4は、会社名ごとに差異内容を特定し、そのデータをキーワード抽出部5へ送る。全てのファイルについてステップS3〜S5の処理が終了したら、ステップS2からステップS6へ進み、キーワード抽出部5を起動させて、差異検出は終了する(ステップS7)。
The difference detection unit 4 detects the difference between the case where there is an addition and the case where there is a deletion at the current reading timing. Each difference content is referred to as one difference record R1, R2, R3,.
As described above, the difference detection unit 4 identifies the difference content for each company name and sends the data to the keyword extraction unit 5. When the processes of steps S3 to S5 are completed for all the files, the process proceeds from step S2 to step S6, the keyword extraction unit 5 is activated, and the difference detection is completed (step S7).

次に、キーワード抽出部5が、差異検出部4が検出した差異情報からキーワードを抽出する処理を行う。このキーワードとは、このシステムで提供すべき情報を特定するためのもので、提供する情報が求人情報の場合には、職種や、業種などである。そして、このキーワードを、キーワード記憶部7が記憶している。
つまり、求人情報を求めているユーザーにとってどの会社の職種の求人があるのかということが必要であるが、上記差異検出部4によって検出された差異情報は、単に、前回との差異なので、職種などには直接関係のない情報も含まれていることがある。そのため、その中から、キーワードを特定して求人情報として必要な情報を抽出する必要がある。
Next, the keyword extraction unit 5 performs a process of extracting a keyword from the difference information detected by the difference detection unit 4. This keyword is for specifying information to be provided by this system. When the information to be provided is job information, it is a job type, a business type, or the like. The keyword storage unit 7 stores this keyword.
In other words, it is necessary for the user who is seeking job information to know which company's job type exists, but the difference information detected by the difference detection unit 4 is simply a difference from the previous time, so the job type, etc. May contain information that is not directly related. Therefore, it is necessary to identify the keyword and extract necessary information as job information.

上記キーワード記憶部7が記憶している職種としてのキーワードには、「営業」、「人事」、「技術」、などがあるが、キーワードには、前後に他の文字が付加された単語も抽出できるように、正規表現を含むようにする。例えば、「○○営業」や、「営業○○」という単語も、効率よく抽出できるようにするためである。   The keywords as job types stored in the keyword storage unit 7 include “sales”, “personnel”, “technical”, etc., but the keywords are also extracted with other characters added to the front and back. Include regular expressions so that you can. For example, the words “XX sales” and “sales XX” can be extracted efficiently.

そこで、キーワード抽出部5は、上記差異情報からキーワードを抽出して、求人情報に関する差分情報を作成する。この手順を、図5のフローチャートを用いて説明する。
キーワード抽出部5は、上記差異検出部4から送られた差異情報を一時的に記憶し、ステップS11で、差異検出部4からの信号に基づいて処理を開始し、ステップS12で差異情報の差異レコードを全て読み出したと判断するまで、上記差異情報の差異レコードを1つずつ読み出してキーワード抽出を行う。
Therefore, the keyword extraction unit 5 extracts a keyword from the difference information and creates difference information regarding the job offer information. This procedure will be described with reference to the flowchart of FIG.
The keyword extraction unit 5 temporarily stores the difference information sent from the difference detection unit 4 and starts processing based on the signal from the difference detection unit 4 in step S11. Until it is determined that all the records have been read, the difference records of the difference information are read one by one and keyword extraction is performed.

ステップS12で、全ての差異レコードを読み出していないと判断した場合には、ステップS13へ進み、差異レコードを1つ読み出す。ステップS14では、その差異が追加か削除かを判断し、追加の場合には、ステップS15へ進み、削除の場合には、ステップS18へ進む。つまり、追加内容と、削除内容とを別々に処理するようにしている。ただし、追加と削除とを区別するステップは、キーワードの抽出後など、このステップS14でなくてもかまわない。   If it is determined in step S12 that all the difference records have not been read, the process proceeds to step S13, and one difference record is read. In step S14, it is determined whether the difference is addition or deletion. If the difference is added, the process proceeds to step S15. If the difference is deleted, the process proceeds to step S18. That is, the added content and the deleted content are processed separately. However, the step of discriminating between addition and deletion may not be step S14 such as after keyword extraction.

ステップS15では、差異内容をキーワード記憶部8が記憶している就職情報にかかわる全てのキーワードと対比して、ステップS16で、マッチするものがあるかどうかを判断する。マッチするものが無かった場合には、ここで読み出した差異レコードには、求める情報は含まれていなかったことになるので、そのままステップS12へ戻る。
ステップS16で、マッチしたキーワードがあった場合には、ステップS17へ進み、そのキーワードと、会社名と、URLと、この情報が「追加」であることを、本日の差分情報レコードとして差分情報記憶部8へ記憶させる。会社名およびURLは、上記差異レコードとともに差異検出部4から出力されたデータである。
In step S15, the content of the difference is compared with all keywords related to the job information stored in the keyword storage unit 8, and in step S16, it is determined whether there is a match. If there is no match, the difference record read out here does not contain the required information, and the process directly returns to step S12.
If there is a matched keyword in step S16, the process proceeds to step S17, where the keyword, company name, URL, and the fact that this information is “added” are stored as difference information records of today as difference information records. Store in the unit 8. The company name and URL are data output from the difference detection unit 4 together with the difference record.

なお、上記ステップS14において、ステップS13で読み出した差異レコードが削除された情報であることを特定したら、ステップS18へ進み、その差異内容を就職情報にかかわる全てのキーワードと対比し、ステップS19で、マッチするものがあるか否かを判断する。このステップS18,S19は、追加のレコードに対する処理ステップS15,S16と同じである。
そして、ステップS19で、マッチするキーワードがあった場合には、ステップS20へ進み、そのキーワードと、会社名と、URLと、この情報が「削除」であることを、本日の差分情報レコードとして差分情報記憶部8へ記憶させる。
If it is determined in step S14 that the difference record read in step S13 is deleted information, the process proceeds to step S18, where the difference content is compared with all the keywords related to the employment information, and in step S19, Determine if there is a match. These steps S18 and S19 are the same as the processing steps S15 and S16 for the additional record.
If there is a matching keyword in step S19, the process proceeds to step S20, where the keyword, company name, URL, and the fact that this information is “deleted” are recorded as a difference information record for today. The information is stored in the information storage unit 8.

以上の処理を、全ての差異レコードについて繰り返し行って、それが終了したら、ステップS12からステップS21へ進み、鮮度情報作成部を起動させて、キーワード抽出は終了する(ステップS22)。
このキーワード抽出処理によって、この発明の差分情報が作成され、その情報を差分情報記憶部8が記憶する。差分情報は、上記したように、目的の情報、ここでは求人情報についての、今回(本日)と前回(昨日)との差である。例えば、図6に示すように、本日の差分情報として、本日追加された求人、削除された求人の職種が差分情報記憶部8に記憶される。ここで、記憶される職種は、上記キーワード記憶部7に記憶させるキーワードによって決まるので、必要に応じて選ぶことができる。
なお、差分情報記憶部8は、本日の差分情報と同様に、それ以前の、毎日の差分情報も記憶している。
The above process is repeated for all the difference records, and when it is completed, the process proceeds from step S12 to step S21, the freshness information creation unit is activated, and the keyword extraction is completed (step S22).
By the keyword extraction process, difference information of the present invention is created, and the difference information storage unit 8 stores the information. As described above, the difference information is the difference between the current time (today) and the previous time (yesterday) regarding the target information, here, the job information. For example, as shown in FIG. 6, as the difference information for today, the job types of today added and deleted jobs are stored in the difference information storage unit 8. Here, the job type to be stored is determined by the keyword stored in the keyword storage unit 7, and can be selected as necessary.
The difference information storage unit 8 stores daily difference information before that as well as today's difference information.

以上のステップにより、本日の差分情報が作成されたら、鮮度情報作成部6が処理を開始する。この処理を、図7のフローチャートを用いて説明する。
ステップS101で、鮮度情報作成部6は、上記差分情報記憶部8が記憶している差分情報に基づいて鮮度情報作成処理を開始する。
ステップS102で、上記差分情報のレコードを、発生日をキーとしてソートし、発生日の新しい順に並べ替える。上記発生日は、その情報がウエブ上に登場した日付であり、この発明で定義した発生タイミングにあたる。この発生日は、上記鮮度情報において、その情報が追加された日である。
When today's difference information is created by the above steps, the freshness information creation unit 6 starts processing. This process will be described with reference to the flowchart of FIG.
In step S101, the freshness information creation unit 6 starts freshness information creation processing based on the difference information stored in the difference information storage unit 8.
In step S102, the records of the difference information are sorted using the date of occurrence as a key, and are rearranged in order of date of occurrence. The occurrence date is the date when the information appears on the web, and corresponds to the occurrence timing defined in the present invention. This occurrence date is the date when the information is added to the freshness information.

次に、ステップS103で、上記並べ替えたレコードを、発生日順の鮮度に応じてグループ分けする。上記「鮮度」とは、情報の新しさの度合いであるが、例えば、発生日が本日から1週間以内のもの、2週間以内のもの、1ヶ月以内のものにグループ分けする。このとき、鮮度は「1週間以内」、「2週間以内」、「1ヶ月以内」である。ここでは、鮮度として「1週間以内」、「2週間以内」、「1ヶ月以内」の3レベルを設定したが、この鮮度の基準はどのようにしてもかまわない。   Next, in step S103, the rearranged records are grouped according to the freshness in order of occurrence date. The “freshness” is the degree of newness of information, and for example, the occurrence date is grouped into those within one week, those within two weeks, and those within one month from today. At this time, the freshness is “within 1 week”, “within 2 weeks”, and “within 1 month”. In this example, three levels of “within 1 week”, “within 2 weeks”, and “within 1 month” are set as the freshness.

その結果、上記3つの鮮度のグループには、発生日を特定できる追加情報に対応するレコードが含まれる。
なお、上記3つのグループに含まれない、発生日の古い情報は、古い情報として出力するようにしてもよい。ただし、あまりにも鮮度の落ちる情報は、ユーザーに求められていない場合が多いので、出力しないようにしてもよい。
As a result, the three freshness groups include records corresponding to additional information that can specify the date of occurrence.
Note that information that is not included in the above three groups and has an old occurrence date may be output as old information. However, information that is too fresh may not be output because it is often not requested by the user.

一方、ウエブページから情報が削除されたときにも、その情報が、差分情報として記憶されている。そこで、ステップS104で、削除のレコードからそのレコードの削除日を特定する。次に、ステップS105で、削除日を特定したレコードについて、上記削除日から遡って対応するレコードを検索する。例えば、図6に示す差分情報の削除のレコードR4は、削除日が本日(2005年1月20日)であるが、この情報は、前日以前に発生しているはずである。従って、1月19日から、順に遡って、このレコードに対応する追加のレコードを検索する。追加のレコードは、会社名、URLおよび職種を検索条件として検索する。   On the other hand, when information is deleted from the web page, the information is stored as difference information. In step S104, the deletion date of the record is specified from the deletion record. Next, in step S105, a record corresponding to the deletion date is searched retroactively from the deletion date. For example, the difference information deletion record R4 shown in FIG. 6 has a deletion date of today (January 20, 2005), but this information should have occurred before the previous day. Therefore, from January 19th, the additional records corresponding to this record are retrieved in order. The additional record is searched using the company name, URL, and job type as search conditions.

例えば、レコードR4の場合、「A社」、「経理」を含む追加のレコードであって、その発生日が1月20日に直近のものを検索し、そのレコードが、上記レコードR4に対応するものであると特定する。そして、この特定した追加のレコードに、先の削除日を対応付ける。つまり、1月19日以前に発生した「A社の経理募集」の情報が、1月20日に削除されたことになる。
このように、削除された情報にはその削除日を対応付けてから、ステップS107で、先にグループ分けしたグループに鮮度を対応付けてその一覧を出力部9へ送る。
For example, in the case of the record R4, an additional record including “Company A” and “Accounting” is searched for the latest occurrence date on January 20, and the record corresponds to the record R4. Identify that it is. Then, the previous deletion date is associated with the identified additional record. In other words, the information on “Accounting for Company A” that occurred before January 19 was deleted on January 20.
As described above, the deleted information is associated with the deletion date, and in step S107, the freshness is associated with the previously grouped group and the list is sent to the output unit 9.

出力部9は、鮮度情報をユーザー向けに加工して、ユーザー端末20a,20b,20c,・・・からアクセス可能なウエブページとして図示しないウエブサーバーに登録したり、メールとしてユーザー端末20a,20b,20c,・・・宛に送信したりする。
その結果、ユーザー端末20a,20b,20c,・・・には、鮮度情報として図8に示す表が表示される。この表には、鮮度ごとに求人情報が表示され、その求人開始日と、求人終了日も表示される。ここに表示された求人開始日は、上記情報の発生日であり求人終了日は上記情報の削除日である。また、募集職種は、上記キーワードで特定した情報である。
The output unit 9 processes the freshness information for the user and registers it in a web server (not shown) as a web page accessible from the user terminals 20a, 20b, 20c,. 20c, and so on.
As a result, the table shown in FIG. 8 is displayed as the freshness information on the user terminals 20a, 20b, 20c,. In this table, job offer information is displayed for each freshness, and the job start date and job end date are also displayed. The job offer start date displayed here is the occurrence date of the information, and the job offer end date is the deletion date of the information. The recruiting job category is information specified by the keyword.

なお、図8に示すように、求人が終了した情報を表示しているのは、その情報がウエブページから削除されたことをユーザーがわかり易くするためである。また、求人開始日と、終了日とを対応付けて提示することによって、ユーザーは、その職種の人気度を予測することができる。すなわち、求人開始日から終了日までの時間が短いものは、人気が高くてすぐに決まってしまうものであると予測できる。   Note that, as shown in FIG. 8, the information indicating that the job has been completed is displayed in order to make it easier for the user to understand that the information has been deleted from the web page. Moreover, the user can predict the popularity of the job type by presenting the job offer start date and the end date in association with each other. In other words, it is possible to predict that a job with a short time from the job offer start date to the job finish date is highly popular and will be decided immediately.

以上のように、この発明の情報提供システムを用いれば、ウエブ上のさまざまな情報の鮮度を自動的に評価して、その情報を提供することができる。特に、監視すべき情報が、企業ごとに異なる方式で作成されていたとしても、キーワードによって必要な部分を抽出することができる。さらに、このシステムでは、全ての情報に対して、その情報の発生日という同一基準で鮮度を評価しているので、従来のように、ウエブページ作成者側が、それぞれの思惑で「new」マークなどを付ける場合と比べて、正確な鮮度を把握できる。   As described above, by using the information providing system of the present invention, it is possible to automatically evaluate the freshness of various information on the web and provide the information. In particular, even if the information to be monitored is created by a method different for each company, a necessary portion can be extracted by a keyword. Furthermore, in this system, the freshness of all information is evaluated based on the same standard of the date of occurrence of the information. As in the past, the web page creator side has a “new” mark for each speculation. Compared with the case of attaching, the correct freshness can be grasped.

なお、上記実施形態においては、上記差分情報作成部11および鮮度情報作成部6がこの発明の処理部を構成している。ただし、図1に示したシステム1の各構成要素は、それぞれ機能を示したものであり、ハードウエアとして別個のものではない。システム1は、1または複数のコンピュータからなるコンピュータシステムであって、各機能は、どの装置で実行されてもかまわない。例えば、ウエブページ10a,10b,10c,・・・の読み取り機能を有する読み取りコンピュータと、鮮度情報を作成する鮮度情報作成コンピュータとを用いてもよいし、1台のコンピュータで、全ての処理を行ってもかまわない。   In the above embodiment, the difference information creation unit 11 and the freshness information creation unit 6 constitute the processing unit of the present invention. However, each component of the system 1 shown in FIG. 1 shows a function, and is not separate as hardware. The system 1 is a computer system including one or a plurality of computers, and each function may be executed by any device. For example, a reading computer having a reading function for the web pages 10a, 10b, 10c,... And a freshness information creation computer for creating freshness information may be used, or all processing is performed by one computer. It doesn't matter.

また、上記実施形態において、差分情報記憶部8に出力部9を接続し、出力部9は、上記鮮度情報だけでなく、差分情報も出力するようにしてもよい。
さらに、上記実施形態では、求人情報を監視対象とした例を説明しているが、このシステムは、求人情報に限らず、さまざまな情報に適用できる。特に、その情報の鮮度が重要視される情報として、不動産情報などに適用することが有用である。
不動産情報に適用する場合には、キーワードとして、建物や住所を特定する「マンション」、「ハイツ」、「都」、「県」、「市」、「郡」などが考えられる。
Moreover, in the said embodiment, the output part 9 may be connected to the difference information storage part 8, and the output part 9 may output not only the said freshness information but difference information.
Furthermore, although the above embodiment describes an example in which job posting information is monitored, this system is not limited to job posting information but can be applied to various information. In particular, it is useful to apply to real estate information or the like as information in which the freshness of the information is regarded as important.
When applied to real estate information, keywords such as “apartment”, “heights”, “city”, “prefecture”, “city”, “county”, etc., that specify the building or address are considered.

実施形態のシステム構成図である。It is a system configuration figure of an embodiment. 履歴情報記憶部のデータ構成を示した模式図である。It is the schematic diagram which showed the data structure of the log | history information storage part. 差異検出の手順を示したフローチャートである。It is the flowchart which showed the procedure of difference detection. 差異情報の例を示した表である。It is the table | surface which showed the example of difference information. 差分情報の作成手順を示したフローチャートである。It is the flowchart which showed the creation procedure of difference information. 差分情報の例を示した表である。It is the table | surface which showed the example of difference information. 鮮度情報の作成手順を示したフローチャートである。It is the flowchart which showed the preparation procedure of freshness information. 鮮度情報の表示例を示した表である。It is the table | surface which showed the example of a display of freshness information.

符号の説明Explanation of symbols

1 情報提供システム
2 情報読み取り部
3 履歴情報記憶部
4 差異検出部
5 キーワード抽出部
6 鮮度情報作成部
9 出力部
10a,10b,10c・・・ ウエブページ
11 差分情報作成部
20a,20b,20c,・・・ ユーザー端末
N1 インターネット
N2 通信手段
DESCRIPTION OF SYMBOLS 1 Information provision system 2 Information reading part 3 History information storage part 4 Difference detection part 5 Keyword extraction part 6 Freshness information creation part 9 Output part 10a, 10b, 10c ... Web page 11 Difference information creation part 20a, 20b, 20c, ... User terminal N1 Internet N2 communication means

Claims (3)

予め設定された特定のウエブページに接続可能にするとともに、所定のタイミングで上記ウエブページの情報を読み取る情報読み取り部と、この情報読み取り部が読み取った情報を、読み取りタイミングに対応付けて履歴情報として記憶する履歴情報記憶部と、上記履歴情報のうち、予め設定されたキーワードにかかわる情報に、その情報の鮮度を対応付けた鮮度情報を作成する処理部と、この処理部が作成した鮮度情報を出力する出力部とを備え、上記処理部は、上記情報読み取り部が最新のタイミングで読み取った情報と前回読み取った情報とを対比してその差異内容を抽出する機能と、抽出した差異内容のうち、追加内容を特定する機能と、特定した追加内容から予め設定されたキーワードを抽出する機能と、抽出されたキーワードが上記ウエブページに発生した発生タイミングを特定する機能と、上記抽出したキーワードを含む情報をウエブページへの発生タイミングに応じた鮮度別にグループ分けする機能と、各グループに鮮度を対応付けて鮮度情報を作成する機能とを備えた情報提供システム。   It is possible to connect to a specific web page set in advance, and an information reading unit that reads information on the web page at a predetermined timing, and information read by the information reading unit is associated with the reading timing as history information A history information storage unit that stores information, a processing unit that creates freshness information in which the freshness of the information is associated with information related to a preset keyword among the history information, and freshness information created by the processing unit. An output unit for outputting, and the processing unit compares the information read by the information reading unit at the latest timing with the information read last time, and extracts the difference content, and among the extracted difference content , A function for identifying additional content, a function for extracting a preset keyword from the identified additional content, and an extracted keyword A function for identifying the occurrence timing that occurred on the web page, a function for grouping information including the extracted keywords according to the freshness according to the occurrence timing on the web page, and associating each group with freshness information An information provision system with functions to create. 上記処理部は、抽出した差異内容のうち、削除内容を特定する機能と、特定した削除内容から予め設定されたキーワードを抽出する機能と、抽出されたキーワードが上記ウエブページ上から削除された削除タイミングを特定する機能と、特定した削除タイミングを鮮度情報に付加する機能とを備えたことを特徴とする請求項1に記載の情報提供システム。   The processing unit includes a function for identifying the deletion content, a function for extracting a preset keyword from the identified deletion content, and a deletion in which the extracted keyword is deleted from the web page. The information providing system according to claim 1, further comprising a function for specifying timing and a function for adding the specified deletion timing to the freshness information. 上記出力部は、通信を介して接続可能にしたユーザー端末に表示させる表示データとして、上記鮮度情報を鮮度順に並べた情報に、上記発生タイミングおよび削除タイミングを対応付けたテーブルを作成し、それをウエブページに掲載する機能を備えたことを特徴とする請求項2に記載の情報提供システム。   The output unit creates a table in which the generation timing and the deletion timing are associated with information in which the freshness information is arranged in order of freshness as display data to be displayed on a user terminal that can be connected via communication, The information providing system according to claim 2, further comprising a function for posting on a web page.
JP2005026037A 2005-02-02 2005-02-02 Information providing system Pending JP2006215689A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005026037A JP2006215689A (en) 2005-02-02 2005-02-02 Information providing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005026037A JP2006215689A (en) 2005-02-02 2005-02-02 Information providing system

Publications (1)

Publication Number Publication Date
JP2006215689A true JP2006215689A (en) 2006-08-17

Family

ID=36978895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005026037A Pending JP2006215689A (en) 2005-02-02 2005-02-02 Information providing system

Country Status (1)

Country Link
JP (1) JP2006215689A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142791A1 (en) * 2007-05-24 2008-11-27 Fujitsu Limited Difference calculation program, difference calculation device, and difference calculation method
JP2013020634A (en) * 2012-09-14 2013-01-31 Kddi Corp Abnormality detection device for web page, program, and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142791A1 (en) * 2007-05-24 2008-11-27 Fujitsu Limited Difference calculation program, difference calculation device, and difference calculation method
JPWO2008142791A1 (en) * 2007-05-24 2010-08-05 富士通株式会社 Difference calculation program, difference calculation device, and difference calculation method
JP4957796B2 (en) * 2007-05-24 2012-06-20 富士通株式会社 Difference calculation program, difference calculation device, and difference calculation method
JP2013020634A (en) * 2012-09-14 2013-01-31 Kddi Corp Abnormality detection device for web page, program, and recording medium

Similar Documents

Publication Publication Date Title
US10275434B1 (en) Identifying a primary version of a document
US7720833B1 (en) Method and system for automatically updating search results on an online auction site
JP3803961B2 (en) Database generation apparatus, database generation processing method, and database generation program
JP2008257444A (en) Similar file management device, method therefor and program therefor
JP2010224705A (en) Log retrieval system
JP2006099341A (en) Update history generation device and program
JP5294002B2 (en) Document management system, document management program, and document management method
US20070185832A1 (en) Managing tasks for multiple file types
US20110252313A1 (en) Document information selection method and computer program product
JP7290391B2 (en) Information processing device and program
JP2009015589A (en) System and program for presenting related document
JP2004151855A (en) Search system for electronic document
JP2006302024A (en) Relevant document display method and program
JP2010224984A (en) Device, method, and program for supporting patent specification evaluation-creation work
JP5423470B2 (en) Name identification check support device, name identification check support program, and name identification check support method
JP4807364B2 (en) Information management device
JP2006215689A (en) Information providing system
JP2008204198A (en) Information providing system and information providing program
JP2009223679A (en) Electronic document search device and electronic document search program
JP2011086156A (en) System and program for tracking of leaked information
JP4135330B2 (en) Person introduction system
JP2007193574A (en) Management/search method of histories of downloaded files
JP2007299093A (en) Document management system
JP4451305B2 (en) Experience score management system and method, program
JP3902188B2 (en) Database security system