JP2006023878A

JP2006023878A - データ抽出システム

Info

Publication number: JP2006023878A
Application number: JP2004200109A
Authority: JP
Inventors: Kazuya Yoshimura; 一哉吉村
Original assignee: Quin Land Co Ltd
Current assignee: Quin Land Co Ltd
Priority date: 2004-07-07
Filing date: 2004-07-07
Publication date: 2006-01-26

Abstract

【課題】情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システムなどを提供することを目的とする。
【解決手段】抽出マッチング手段９０は、抽出パターン記憶部１０８に記憶されている複数の抽出パターンファイルを順次読み出して、これと、抽出対象文書記憶部１０２から読み出した抽出対象文書とを順次マッチングする。マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連する種別データと内容データとを、データ対として抽出する。したがって、抽出対象文書の構成に対応した抽出パターンファイルを準備することで必要なデータ対を確実に取得できる。また、抽出パターンファイルは、種別データと内容データとの配置パターンを正規表現にて記載するだけなので、抽出対象文書に使用されている言語の文法などの影響を受けることはない。
【選択図】図２

Description

この発明はデータ抽出システム、データ抽出装置、データ抽出方法等に関する。

多数のウェブページに分散している情報、たとえば各会社の求人情報など、を抽出する方法として、形態素解析などの文法解釈と意味判断とを組み合わせた方法が知られている。この方法だと、ウェブページの記載内容を文法解釈するとともに、文法解釈の結果に辞書などを適用して記載内容の意味を把握することができるので、ウェブページの記載内容から必要な情報のみを自動的に抽出することが可能となる。

しかしながら、従来のこのような方法では、抽出した情報の中にノイズが含まれていたり、必要な情報を抽出できなかったりするなど、情報抽出の精度が必ずしも満足できるものではないことから、信頼性に問題があった。情報の抽出精度を上げるためには、文法解釈をきめ細かく行ったり辞書をさらに整備したりする必要があるが、要求される抽出精度が高くなればなるほど、システムの改良に必要な時間や経費が指数関数的に大きくなるため、事実上、情報の抽出精度の向上には限界があった。

また、このような文法解析や意味判断を伴う方法では、記載されている情報の言語体系が異なるとその言語体系に適合する別の文法解釈手法や辞書を導入しなければならないから、想定した１つの言語体系、たとえば日本語、で記載されたウェブページ以外には適用できないのが実状である。

この発明は、このような従来の情報抽出方法における課題を解決し、記載された情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システム、データ抽出装置、データ抽出方法などを提供することを目的とする。

この発明によるデータ抽出システムは、データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、情報通信網を介してサーバコンピュータのデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、を備えたデータ抽出システムであって、データ抽出装置は、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。

この発明によるデータ抽出装置は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。

この発明によるプログラムは、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。

この発明によるプログラムを記録した記録媒体は、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。

この発明によるデータ抽出方法は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、ステップを備えている。

本発明の特徴は、上記のように広く示すことができるが、その構成や内容は、目的および特徴とともに、図面を考慮に入れた上で、以下の開示によりさらに明らかになるであろう。

請求項１によるデータ抽出システムは、データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、情報通信網を介してサーバコンピュータのデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、を備えたデータ抽出システムであって、データ抽出装置は、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。

請求項２によるデータ抽出装置は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。

請求項３によるプログラムは、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。

請求項４によるプログラムを記録した記録媒体は、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。

請求項１０によるデータ抽出方法は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、ステップを備えている。

つまり、これらのシステム、装置、プログラム、プログラムを記録した記録媒体および方法においては、相互に関連する種別データと内容データとの配置パターンを正規表現にて記載した複数の抽出パターンファイルを準備しておき、抽出パターンファイルを順次読み出して抽出対象文書とマッチングし、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連する種別データと内容データとを、データ対として抽出するようにしている。

したがって、情報を抽出したい抽出対象文書の構成に対応した抽出パターンファイルを準備することで必要なデータ対を確実に取得できるから、抽出対象文書が増えたとしても、情報の抽出精度を容易に上げることができる。また、抽出パターンファイルは、種別データと内容データとの配置パターンを正規表現にて記載するだけなので、抽出対象文書に使用されている言語の文法などの影響を受けることはない。

すなわち、記載された情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システム、データ抽出装置、データ抽出方法などを実現することができる。

請求項５のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、種別データパターンは、種別データの候補となる複数の類似語を構成する複数組の具体的な文字列の選択を表す正規表現であること、を特徴とする。

つまり、種別データの候補となる類似語の範囲を設定しておくことで、抽出対象文書ごとの種別データの表現のバラツキを吸収することができる。このため、抽出対象文書ごとの表現の相違を超えて、実質的に抽出したい種別の情報を的確に得ることができる。

請求項６のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する上位概念記憶手段と、抽出手段により抽出された内容データが上位概念記憶手段に記憶されているか否かを判断し、上位概念記憶手段に記憶されている場合には、当該内容データについて、対応する上位概念データを出力する上位概念出力手段と、を備えたこと、を特徴とする。

つまり、抽出された内容データを対応する上位概念におきかえて出力することで、抽出対象文書ごとの内容データの表現のバラツキを吸収することができる。このため、抽出対象文書ごとの表現の相違を超えて、抽出結果を所望の上位概念で自動的に分類表示することができる。

請求項７のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶する消去パターン記憶手段と、抽出対象文書からデータ対を抽出するまえに、消去パターン記憶手段から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する消去マッチング手段と、消去マッチング手段においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする消去手段と、を備えたこと、を特徴とする。

つまり、抽出対象文書から消去すべき文字列がある場合には、あらかじめそのような文字列を消去しておくことで、その後複数回行われる可能性の高い抽出マッチングに要する合計時間を減少させることができる。

請求項８のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶する文書更新日時記憶手段と、抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶手段に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶手段に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する抽出対象除外手段と、を備えたこと、を特徴とする。

つまり、未更新の抽出対象文書を今回のデータ対抽出の対象から除外し、更新された抽出対象文書のみをデータ対抽出処理の対象とすることで、重複処理を回避し、データ対抽出処理全体に要する時間を減少させることができる。

請求項９のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書とのマッチングが成功した抽出パターンファイルを当該抽出対象文書と対応付けて記憶する成功パターン記憶手段、を備え、抽出マッチング手段は、抽出対象文書が成功パターン記憶手段に記憶されているか否かを判断し、成功パターン記憶手段に記憶されている場合には、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うこと、を特徴とする。

つまり、マッチングが成功した抽出パターンファイルを抽出対象文書ごとに記憶しておき、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うことで、他の抽出パターンファイルとのマッチング処理を回避し、抽出マッチングに要する時間を減少させることができる。

このため、抽出対象文書のデータ対の構成パターンが多種にわたるために多種の抽出パターンファイルを準備しなければならない場合であっても、これらの抽出対象文書との抽出マッチングに要する合計時間を大幅に減少させることができる。

図１は、この発明の一実施形態によるデータ抽出システム２の構成を示す図面である。この実施形態においては、各会社の求人情報を抽出するためにデータ抽出システム２を用いる場合を例に説明する。データ抽出システム２においては、データ抽出装置４は、複数のユーザ端末６および複数の情報源コンピュータ１０と、情報通信網８を介して通信可能となっている。

図２は、図１のデータ抽出システム２を構成するデータ抽出装置４、ユーザ端末６および情報源コンピュータ１０の構成を示すブロック図である。図２に示すように、情報源コンピュータ１０は、入力装置１０ａ、表示装置１０ｂおよび記憶装置１０ｃを備えている。記憶装置１０ｃには、データと、データをマーク付けするためのタグと、により構成された抽出対象文書、たとえばＨＴＭＬ（HyperText Markup Language）により記述された文書すなわちＨＴＭＬファイル、が記憶されている。

データ抽出装置４は、情報通信網８を介して各情報源コンピュータ１０の抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する。データ抽出装置４については、後で詳しく説明する。

ユーザ端末６は、入力装置６ａ、表示装置６ｂおよび記憶装置６ｃを備えている。ユーザ端末６は、情報通信網８を介してデータ抽出装置４に記憶されているデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を、表示装置６ｂに表示する。

さて、データ抽出装置４は、抽出対象文書取得手段８２，抽出対象除外手段８４，消去マッチング手段８６，消去手段８８，抽出マッチング手段９０，抽出手段９２，上位概念出力手段９４、検索手段９６および情報データベース１００を備えている。

情報データベース１００は、本システムの処理に必要な種々の情報を記憶させたデータベースであって、抽出対象文書記憶部１０２，文書更新日時記憶手段としての文書更新日時記憶部１０４，消去パターン記憶手段としての消去パターン記憶部１０６，抽出パターン記憶手段としての抽出パターン記憶部１０８，成功パターン記憶手段としての成功パターン記憶部１１０，類似語記憶部１１２，上位概念記憶手段としての上位概念記憶部１１４，および、抽出結果記憶部１１６を備えている。

抽出対象文書取得手段８２は、ＵＲＬ（Uniform Resource Locator）などによって情報源コンピュータ１０の抽出対象文書が指定されると、情報通信網８を介して、指定された抽出対象文書にアクセスし、これを取得して、情報データベース１００の抽出対象文書記憶部１０２に記憶する。図７は、抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルの一例である。なお、図６は、図７に示すＨＴＭＬファイル１２１をコンピュータ画面に表示した場合の表示画像１２０を示す図面である。

情報データベース１００の文書更新日時記憶部１０４は、後述の抽出手段９２により抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶している。図１６は、データ抽出記憶処理の処理結果等を記憶させておく解析結果ファイル１５６の内容を例示した図面である。解析結果ファイル１５６の「ページ更新年月日」欄が、文書更新日時記憶部１０４に対応する。

抽出対象除外手段８４は、抽出対象文書記憶部１０２に記憶されている抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶部１０４に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶部１０４に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する。

情報データベース１００の消去パターン記憶部１０６は、抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶している。図８は、消去パターン記憶部１０６に記憶されている消去パターンファイルの一例を示す図面である。なお、図８に示す消去パターンファイル１３０は、コメント行を表す正規表現となっている。なお、この実施形態では、本システムの少なくとも一部にプログラム言語としてＰｅｒｌ（Practical Extraction and Report Language、とくにＰｅｒｌ５．６以上）を用いた場合を例に説明している。したがって、正規表現もＰｅｒｌにて用意されたものを例示している。

消去マッチング手段８６は、抽出対象文書記憶部１０２に記憶されている抽出対象文書からデータ対を抽出するまえに、消去パターン記憶部１０６から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する。

消去手段８８は、消去マッチング手段８６においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする。

情報データベース１００の抽出パターン記憶部１０８は、複数の抽出パターンファイルを記憶している。抽出パターンファイルは、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含み、複数のデータおよびタグの組合せを表す一連の正規表現により構成されている。図９は、抽出パターン記憶部１０８に記憶されている抽出パターンファイルの一例を示す図面である。

図９に示す抽出パターンファイル１４０は、たとえば図７に示すＨＴＭＬファイル１２１から、「仕事内容」、「職種」、「年齢」、「勤務地」に関する４組のデータ対を一度に抽出するためのものである。

抽出パターンファイル１４０において、置換変数「<__ＴＲ_ＴＲ__>」、「<__ＴＤ_ＴＤ__>」、「<__ＡＮＹ__>」が定義されているが、システムにおいても置換変数として「<__ＴＡＧ_タグ名__>」、「__ＫＥＹ_数値__」、「__ＶＡＬＵＥ_数値__」等が定義されている。

図１０Ａは、置換変数「<__ＴＡＧ_タグ名__>」の置換内容を表す正規表現である。

図１０Ｂは、置換変数「__ＫＥＹ_数値__」において、数値が「０」のとき、すなわち「__ＫＥＹ_０__」の置換内容を表す正規表現である。置換変数「__ＫＥＹ_数値__」の置換内容を表す正規表現が、種別データパターンに対応する。

図１０Ｂに示すように、この実施形態においては、抽出パターンファイルを構成する種別データパターンを、種別データの候補となる複数の類似語（図１０Ｂでは、「職種」、「募集職種」、「採用職種」の３つ）を構成する複数組の具体的な文字列の選択を表す正規表現にて構成している。したがって、この例だと、抽出対象であるＨＴＭＬファイルに「職種」、「募集職種」、「採用職種」のいずれかが記載されていれば、図１０Ｂに示す種別データパターンにマッチすることになる。

図１５Ａは、図２に示す情報データベース１００を構成する類似語記憶部１１２に対応するキーファイル１５０の内容を例示した図面である。キーファイル１５０には、置換変数「__ＫＥＹ_数値__」の置換内容を構成する複数の類似語が「数値」（キーファイル１５０では「番号」に相当する）と対応付けて記憶されている。このように構成することで、各種別データの外延を容易に変更管理することができる。

図１０Ｃは、置換変数「__ＶＡＬＵＥ_数値__」の置換内容を表す正規表現である。置換変数「__ＶＡＬＵＥ_数値__」の置換内容を表す正規表現が、内容データパターンに対応する。

図１０Ｃの例では、抽出パターンファイルを構成する内容データパターンを、「ＴＡＢＬＥ開始／終了タグ」、「ＴＤ開始／終了タグ」、「ＴＲ開始／終了タグ」以外の任意の文字列を表す正規表現にて構成している。

また、この実施形態においては、内容データパターンに対応する置換変数「__ＶＡＬＵＥ_数値__」と、上述の種別データパターンに対応する置換変数「__ＫＥＹ_数値__」とを、「数値」で関連付けている。したがって、たとえば、置換変数「__ＶＡＬＵＥ_０__」にマッチした任意の文字列は、置換変数「__ＫＥＹ_０__」にマッチした種別データに対応する内容データとして抽出され、記憶されることになる。

図７に示すＨＴＭＬファイル１２１の場合だと、たとえば、置換変数「__ＶＡＬＵＥ_０__」にマッチした任意の文字列「設計技術職」が、置換変数「__ＫＥＹ_０__」にマッチした種別データ「職種」に対応する内容データとして抽出され、相互に関連する一組のデータ対として、図１６に示す解析結果ファイル１５６に記憶される。具体的には、内容データである「設計技術職」が、解析結果ファイル１５６の「記載職種」欄（種別データに対応）に記憶されることになる。

このように、図９に示す抽出パターンファイル１４０を用いることで、図７に示すＨＴＭＬファイル１２１から、「仕事内容」、「職種」、「年齢」、「勤務地」に関する４組のデータ対を一度に抽出して、記憶することができる。

図２に戻って、抽出マッチング手段９０は、抽出パターン記憶部１０８から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する。

成功パターン記憶部１１０には、抽出対象文書とのマッチングが成功した抽出パターンファイルと当該抽出対象文書とが対応付けて記憶される。図１６に示す解析結果ファイル１５６の「成功パターンＩＤ」欄が、成功パターン記憶部１１０に対応する。

この実施形態においては、上記抽出マッチング手段９０は、成功パターン記憶部１１０に、抽出対象文書と抽出マッチングに成功した抽出パターンファイルとが対応付けて記憶されているか否かを判断し、対応付けて記憶されている場合には、当該抽出対象文書について、成功パターン記憶部１１０にて指定されている抽出パターンファイルを優先的に適用して今回の抽出マッチングを行うようにしている。

抽出手段９２は、抽出マッチング手段９０においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する。

上位概念記憶部１１４は、抽出した内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する。図１５Ｂおよび図１５Ｃは、ともに上位概念記憶部１１４に対応する職種ファイル１５２および勤務地ファイル１５４の内容を、それぞれ例示した図面である。

職種ファイル１５２には、内容データに相当する「記載職種」と上位概念に相当する「上位概念職種」とが、対応付けて記載されている。勤務地ファイル１５４には、内容データに相当する「記載勤務地」と上位概念に相当する「都道府県」とが、対応付けて記載されている。

図２に示す上位概念出力手段９４は、抽出手段９２により抽出された内容データが上位概念記憶部１１４に記憶されているか否かを判断し、上位概念記憶部１１４に記憶されている場合には、当該内容データについて、対応する上位概念データを出力し、図１６に示す解析結果ファイル１５６の「上位概念職種」欄または「都道府県」欄に記憶する。

情報データベースの抽出結果記憶部１１６は、抽出手段９２および上位概念出力手段９４の出力を記憶する。図１６に示す解析結果ファイル１５６は、図２に示す文書更新日時記憶部１０４，成功パターン記憶部１１０および抽出結果記憶部１１６に対応する。

検索手段９６は、ユーザ端末６からの検索命令に応じ、抽出結果記憶部１１６等を検索し、検索出力をユーザ端末６に送信する。

すなわち、検索手段９６は、情報通信網８を介してユーザ端末６からアクセスがあると、ユーザ端末６の表示装置６ｂに、図１７に示す検索入力画面１６２を表示させ、ユーザ端末６からの検索命令を待つ。ユーザ端末６から検索命令が入力されると、図１６に示す解析結果ファイル１５６等を検索し、検索結果をユーザ端末６に送信し、その表示装置６ｂに、図１７に示す検索出力画面１６４を表示させる。なお、図１７の例では、検索出力画面１６４とともに検索入力画面１６２も表示され、両者で検索画面１６０を構成している。

図１７に示すように、検索出力画面１６４には、検索命令にヒットした求人情報がリストアップされる。各求人情報は、当該求人情報を構成する概要データである「求人会社が上場会社であるか否かを示すデータ」、「求人会社の名称」、「上位概念職種」、および「勤務地のある都道府県」の順に統一して表示されるので、複数の求人情報を比較検討するのに好都合である。

図３は、データ抽出装置４として機能するサーバコンピュータ４，ユーザ端末６，および情報源コンピュータ１０のハードウェア構成を説明するためのブロック図である。

サーバコンピュータ４は、図２に示す情報データベース１００の記憶媒体であり本システムのプログラムを記録した記録媒体でもある記憶装置としてのハードディスク５０、ハードディスク５０に記録されたプログラムを主メモリ（図示せず）にロードして実行する制御手段であるＣＰＵ４２，表示装置であるＬＣＤ（液晶表示装置）４４，入力装置であるキーボード４６、マウス４８，ならびに、情報通信網８としてのインターネット８を介してユーザ端末６および情報源コンピュータ１０等と通信するための通信インタフェース５２を備えている。

この実施形態においては、ユーザ端末６はパーソナルコンピュータである。ユーザ端末６は、入力装置６ａであるキーボード６６およびマウス６８，表示装置６ｂであるＬＣＤ６４、ＯＳ（オペレーションシステム）や閲覧プログラム等を記録した記憶装置６ｃであるハードディスク７０、ハードディスク７０に記録されたプログラム等を主メモリ（図示せず）にロードして実行するＣＰＵ６２，インターネット８を介してサーバコンピュータ４と通信するための通信インタフェース７２を備えている。

情報源コンピュータ１０は、入力装置１０ａであるキーボード２６およびマウス２８，表示装置１０ｂであるＬＣＤ２４、ＯＳ等のプログラムを記録した記憶装置１０ｃであるハードディスク３０、ハードディスク３０に記録されたプログラム等を主メモリ（図示せず）にロードして実行するＣＰＵ２２，インターネット８を介してサーバコンピュータ４と通信するための通信インタフェース３２を備えている。

図４は、データ抽出システム２における処理の流れの一例を示すフローチャートである。図５は、図４に示すデータ抽出記憶処理Ｓ４を詳細に表したフローチャートである。

図１１は、抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルの他の例をコンピュータ画面に表示した場合の表示画像１２２を示す図面である。図１２は、抽出パターン記憶部１０８に記憶されている抽出パターンファイルの他の例であって、図１１に示す表示画像１２２に対応するＨＴＭＬファイルから所定のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。

図１３Ａは、抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルのさらに他の例をコンピュータ画面に表示した場合の表示画像１２４を示す図面である。図１３Ｂは、図１３Ａに示す表示画像１２４に対応するＨＴＭＬファイル１２５を示す図面である。図１４は、抽出パターン記憶部１０８に記憶されている抽出パターンファイルのさらに他の例であって、図１３Ｂに示すＨＴＭＬファイル１２５から所定のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。

図２〜図１７に基づいて、データ抽出システム２の動作の説明を行う。図３に示すサーバコンピュータ４のＣＰＵ４２は、図４に示すように、ＨＴＭＬファイル取得命令、データ抽出命令、および検索命令を監視している。（ステップＳ１、ステップＳ３、およびステップＳ５）。

ステップＳ１においてＨＴＭＬファイル取得命令があれば、ＣＰＵ４２は、当該命令に含まれる取得ＵＲＬリスト（図示せず）にしたがって、インターネット８を介して、ＨＴＭＬファイル取得し、取得したＨＴＭＬファイルを抽出対象文書記憶部１０２に記憶する（ステップＳ２）。

ＨＴＭＬファイル取得命令は、サーバコンピュータ４のキーボード４６やマウス４８を用いて適宜入力するようにしてもよいが、日時を定め自動的に与えるようにしておくのが好ましい。ＨＴＭＬファイル取得命令に含まれる取得ＵＲＬリストの生成方法はとくに限定されるものではないが、たとえば、求人情報を提供している企業のＵＲＬ情報等を記憶した企業情報ファイルを予め準備しておき、この企業情報ファイルに基づいて作成することができる。

取得ＵＲＬリストの記載内容は、とくに限定されるものではないが、たとえば、任意レベルのＵＲＬ（ディレクトリ）を記載可能としておくことができる。この実施形態においては、取得ＵＲＬリストにおいて上位ディレクトリが指定されているウェブサイトについては、指定されたディレクトリ以下の全てのページ（ＨＴＮＬファイル）が、本システムの処理対象となるよう構成している。

ステップＳ３においてデータ抽出命令があれば、ＣＰＵ４２は、抽出対象文書記憶部１０２（図２参照）に記憶されているＨＴＭＬファイルに対するデータ抽出記憶処理を実行する（ステップＳ４）。データ抽出命令は、サーバコンピュータ４のキーボード４６やマウス４８を用いて適宜入力するようにしてもよいが、日時を定め自動的に与えるようにしたり、ＨＴＭＬファイル取得処理（ステップＳ３）に引き続き自動的に与えるようにしたりすることができる。

図５にしたがって、データ抽出記憶処理について説明する。当該処理において、ＣＰＵ４２は、まず、抽出対象文書記憶部１０２に記憶されているＨＴＭＬファイルの１つについて、当該ＨＴＭＬファイルが、前回のデータ対抽出時以後に更新されたか否かの判断を行う（ステップＳ１１）。

当該判断は、抽出対象文書記憶部１０２に記憶されている当該ＨＴＭＬファイルの更新日時を示すデータと、解析結果ファイル１５６の「ページ更新年月日」欄に記憶されている前回のデータ対抽出時における当該ＨＴＭＬファイルの更新日時と、を比較することにより行う。

ステップＳ１１において、当該ＨＴＭＬファイルが更新されていないと判断した場合には、ＣＰＵ４２は、当該ＨＴＭＬファイルからデータ対を抽出する必要がないと判断して、制御をステップＳ２１に移す。

ステップＳ２１において、ＣＰＵ４２は、抽出対象文書記憶部１０２に記憶されている全てのＨＴＭＬファイルについてデータ抽出記憶処理が完了したか否かを判断し、完了したと判断した場合にはステップＳ５（図４参照）に制御を移し、完了していないと判断した場合には、次の処理対象となるＨＴＭＬファイルを設定するとともに（ステップＳ２２）、後述する抽出パターンの指定を初期化したあと（ステップＳ２３）、制御をステップＳ１１に戻す。

なお、ステップＳ１１の更新有無判断処理は、図４に示すステップＳ２以前に行うようにすることもできる。たとえば、上述の取得ＵＲＬリストを生成する際に、各ＨＴＭＬファイルの更新の有無を判断し、前回のデータ対取得時以後に更新されていないＨＴＭＬファイルを取得ＵＲＬリストから外すよう構成することもできる。このようにしておけば、抽出対象文書記憶部１０２に記憶されている全てのＨＴＭＬファイルについて、ステップＳ１２以後の処理が実行されることになる。

さて、ステップＳ１１において、当該ＨＴＭＬファイルが更新されていると判断した場合には、ＣＰＵ４２は、当該ＨＴＭＬファイルを抽出対象文書記憶部１０２から所定の作業領域（図示せず）に読み込む（ステップＳ１２）。

ＣＰＵ４２は、つぎに、読み込んだＨＴＭＬファイルから不要個所を消去し，不要個所の消去されたＨＴＭＬファイルを、新たな抽出対象文書とする（ステップＳ１３）。

具体的には、この不要個所消去処理において、ＣＰＵ４２は、消去パターン記憶部１０６（図２参照）に記憶されている消去パターン（たとえば、図８に示す消去パターン１３０）を読み込み、読み込んだ消去パターンと当該ＨＴＭＬファイルとのマッチングを行う。マッチングが成功した場合には、当該ＨＴＭＬファイルを構成する文字列から当該消去パターンに相当する文字列を消去し、残部の文字列により構成されるＨＴＭＬファイルを新たな抽出対象文書とする。もちろん、消去マッチングが成功しなかった場合（すなわち、想定する不要個所がなかった場合）には、もとのＨＴＭＬファイルが、そのまま抽出対象文書となっている。

つぎに、ＣＰＵ４２は、抽出パターン記憶部１０８（図２参照）に記憶されている複数の抽出パターンの中から、所定順位にしたがって、１つ読み込み（ステップＳ１４）、読み込んだ抽出パターンと抽出対象文書であるＨＴＭＬファイルとのマッチングを行う（ステップＳ１５）。

抽出パターン記憶部１０８には、種々のデータ表現態様（たとえば、図６，図１１，図１３Ａ参照）に対応すべく、種々の抽出パターン、たとえば、抽出パターン１４０、１４２、１４４（図９，図１２，図１４参照）が記憶されている。ＣＰＵ４２は、これら複数の抽出パターンを所定の順位にしたがって、１つずつ読み込んで抽出マッチング処理を実行するのである。

抽出パターンの読み込み順位は、とくに限定されるものではないが、この実施形態においては、当該ＨＴＭＬファイルについて直近の抽出マッチング処理においてマッチングが成功したパターン（成功パターン）を優先的に適用するようにしている。すなわち、ステップＳ１４において、ＣＰＵ４２は、まず、解析結果ファイル１５６（図１６参照）の「成功パターンＩＤ」欄を参照し、当該欄において指定されている抽出パターンを、第１順位の抽出パターンとして読み込むようにしている。

「成功パターンＩＤ」欄において何も指定されていない場合には、通常の順位、たとえば、抽出パターンを特定するパターンＩＤのアルファベット順、にしたがって高順位の抽出パターンから順に読み込めばよい。なお、通常の順位として、これ以外に、たとえば、過去の抽出マッチング処理において成功したＨＴＭＬファイルの数の多い抽出パターンを高順位とする方法等もある。

ＣＰＵ４２は、抽出マッチングが成功したか否かの判断を行い（ステップＳ１６）、マッチングが成功しなかったと判断した場合には、全ての抽出パターンについてマッチングが完了したか否かの判断を行う（ステップＳ１７）。全抽出パターンについてマッチングが完了したと判断した場合には、制御をステップＳ２１に移し、そうでない場合には、次の順位の抽出パターンを設定して（ステップＳ１８）、制御をステップＳ１４に戻す。

ステップＳ１６において、抽出マッチングが成功したと判断した場合には、ＣＰＵ４２は、当該成功した抽出パターンに基づいて当該ＨＴＭＬファイルからデータ対を抽出するとともに、抽出したデータ対の上位概念を出力する（ステップＳ１９）。

ステップＳ１９におけるデータ対抽出処理を具体的に説明する。たとえば、抽出対象文書たるＨＴＭＬファイルが図６に対応するものであったとすると，図９に示す抽出パターン１４０とマッチングするから、データ対抽出処理において、「仕事内容」と「回路設計」、「職種」と「設計技術職」、「年齢」と「２０〜３０歳程度」、「勤務地」と「渋谷区渋谷２−１０−２８」の４組のデータ対が得られる。

また、たとえば、抽出対象文書たるＨＴＭＬファイルが図１１に対応するものであったとすると，図１２に示す抽出パターン１４２とマッチングするから、データ対抽出処理において、「職種」と「機械設計」、「内容」と「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「募集対象」と「機械、精密機械工学、システム工学」、「勤務地」と「××県」、「職種」と「制御設計」、「内容」と「プレス機械・搬送機械・サーボ制御・・・・・」、「募集対象」と「電気、電子、制御、システム・・・・・」、「勤務地」と「××県」、「職種」と「研究開発」、「内容」と「メカトロニクス・油圧技術・ロボット・組成技術・・・・・」、「募集対象」と「機械、制御、応用物理、・・・・・」、「勤務地」と「××県」の１２組のデータ対が得られる。

なお、図１２に示す抽出パターン１４２のなかに、「__ＤＥＬＥＴＥ_ＰＯＳＩＴＩＯＮ_Ｓ__」と「__ＤＥＬＥＴＥ_ＰＯＳＩＴＩＯＮ_Ｅ__」なる一対の制御変数が記載されているが、これらは、抽出マッチングの過程で消去したい個所の始点と終点とを示す制御変数である。

つまり、図１１に対応するＨＴＭＬファイルと図１２に示す抽出パターン１４２とのマッチングを行う場合、１回目のマッチングが成功すると（すなわち、「職種」と「機械設計」、「内容」と「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「募集対象」と「機械、精密機械工学、システム工学」、「勤務地」と「××県」の４組のデータ対が得られると）、当該ＨＴＭＬファイルから、マッチングに成功した部分であって上記一対の制御変数の間にある正規表現に対応する部分（すなわち、「機械設計」、「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「機械、精密機械工学、システム工学」、「××県」）を消去したのち、再度、抽出パターン１４２とのマッチングを行う。このようにして、マッチングが成功しなくなるまで、これを繰り返す。このようにして、４組×３回＝１２組のデータ対を抽出するのである。

つぎに、たとえば、抽出対象文書たるＨＴＭＬファイルが図１３Ａに対応するものであったとすると，図１４に示す抽出パターン１４４とマッチングするから、データ対抽出処理において、「職種」と「設計技術職」、「仕事の内容」と「製品開発のための開発設計業務」、「資格」と「大卒以上２８〜３５歳位までの方」、「勤務地」と「神奈川県横浜市」の４組のデータ対が得られる。

なお、上述の抽出パターンのうち、抽出パターン１４０、１４２は、いずれも、テーブル形式にて記載されているデータ対を抽出するための抽出パターンであり、抽出パターン１４４は、非テーブル形式で記載されているデータ対を抽出するための抽出パターンである。このように、データ対の配置形式などが従来のウェブサイトと異なる場合であっても、抽出パターンを追加するだけで、容易に対応することができる。同様に、外国語で記述されているウェブサイトに対しても、抽出パターンを追加するだけで、容易に対応することができる。

つぎに、ステップＳ１９における上位概念出力処理を、図６に対応するＨＴＭＬファイルの場合を例に、具体的に説明する。この実施形態においては、上位概念記憶部１１４（図２参照）に職種ファイル１５２および勤務地ファイル１５４（図１５Ｂおよび図１５Ｃ参照）が記憶されている。したがって、ＣＰＵ４２は、抽出した４組のデータ対のうち２組のデータ対、すなわち、「職種」と「設計技術職」、「勤務地」と「渋谷区渋谷２−１０−２８」について、それぞれ、データ対を構成する内容データが、職種ファイル１５２および勤務地ファイル１５４に下位概念として記載されているか否かを判断し、記載されていれば、対応する上位概念を出力する。

具体的には、上位概念抽出処理において、たとえば、職種ファイル１５２において、記載職種（下位概念）たる「設計技術職」と上位概念職種（上位概念）たる「設計職」とが関連づけて登録されている場合には、種別データ「職種」に対応する内容データ「設計技術職」の上位概念として「設計職」を出力する。同様に、勤務地ファイル１５４において、記載勤務地（下位概念）たる「渋谷区」と都道府県（上位概念）たる「東京」とが関連づけて登録されている場合には、種別データ「勤務地」に対応する内容データ「渋谷区渋谷２−１０−２８」の上位概念として「東京都」を出力する。

このようにして、ステップＳ１９に示す処理が終了すると、ＣＰＵ４２は、ステップＳ１９において抽出したデータ対、および、その上位概念がある場合はそれを、図１６に示す解析結果ファイル１５６に記憶する（ステップＳ２０）。

解析結果ファイル１５６には、これら解析結果情報の他、当該ＨＴＭＬファイルのＵＲＬおよび当該ＨＴＭＬファイルの掲載されている企業のホームページのＵＲＬが、それぞれ、「ページＵＲＬ」および「ホームページＵＲＬ」欄に記載されている。なお、抽出されたデータ対を含む求人情報を提供している企業名等は、解析結果ファイル１５６に直接記憶しておいてもよいが、たとえば、前述の企業情報ファイルに、企業のホームページのＵＲＬと関連付けて記憶するようにしてもよい。このようにして、データ抽出記憶処理（ステップＳ４）が実行される。

図４に戻って、ステップＳ５において検索命令があれば、ＣＰＵ４２は、データ検索出力処理を実行する（ステップＳ６）。すなわち、上述のように、ＣＰＵ４２は、インターネット８を介してユーザ端末６から検索命令が入力されると、図１６に示す解析結果ファイル１５６等を検索し、検索結果をユーザ端末６に送信し、その表示装置６ｂに、図１７に示す検索出力画面１６４を表示させる。

なお、図４のステップＳ２が図２の抽出対象文書取得手段８２に対応し、ステップＳ６が検索手段９６に対応する。また、図５のステップＳ１１が図２の抽出対象除外手段８４に対応し、ステップＳ１３が消去マッチング手段８６および消去手段８８に対応し、ステップＳ１４およびステップＳ１５が抽出マッチング手段９０に対応し、ステップＳ１９およびステップＳ２０が抽出手段９２および上位概念出力手段９４に対応する。

なお、上述の実施形態においては、ウェブページに分散している各会社の求人情報を抽出するためにデータ抽出システム２を用いる場合を例に説明したが、この発明によるデータ抽出システムは、これに限定されるものではない。たとえば、ウェブページに分散している各種専門知識を抽出するために用いることができる。

さらに、この発明における抽出対象文書は、ウェブページに存在している文書に限定されるものでなく、さらには、ＨＴＭＬにて記述された文書に限定されるものでもなく、データと、データをマーク付けするためのタグと、により構成された文書全般を対象とするものである。また、上述の実施形態においては、本システムの少なくとも一部をＰｅｒｌスクリプトにて記載した場合を例に説明したが、この発明は、もちろんこれに限定されるものではない。

また、上述の実施形態においては、ユーザ端末としてパーソナルコンピュータを例に説明したが、ユーザ端末はパーソナルコンピュータに限定されるものではない。ユーザ端末として、たとえば、携帯電話や携帯情報端末等も使用できる。

また、上述のシステム構成図、ブロック図、ハードウェア構成、フローチャート、各種データ構造、表示画面等は例として挙げたものであり、本願発明は、上述のシステム構成図、ブロック図、ハードウェア構成、フローチャート、各種データ構造、表示画面等に限定されるものではない。

また、データベースの数や種類も特に限定されるものではなく、上述のデータベースを分割して、複数のデータベースとすることもできる。また、データベースを構成する各種記憶部の数や種類も特に限定されるものではなく、上述の各種記憶部をさらに分割したり、まとめたりすることもできる。

また、上述の実施形態においては、データ抽出装置と情報源コンピュータとを情報通信網を介して接続する場合を例に説明したが、この発明はこれに限定されるものではない。たとえば、データ抽出装置と情報源コンピュータとを直接接続したり、両装置を兼用する装置を用いたりしてもよい。

また、データ抽出装置として、複数のコンピュータを分散配置することもできる。分散配置する場合は、これらを情報通信網を介して相互に接続することもできる。

また、上述の実施形態においては、情報通信網としてインターネットを例に説明したが、情報通信網はインターネットに限定されるものではない。たとえば、ＬＡＮ（ローカルエリアネットワーク）やＷＡＮ（ワイドエリアネットワーク）、イントラネット等を介して複数のコンピュータを接続するようなネットワークにおいて本発明を実現するようにしてもよい。

なお、この実施形態においては、データ抽出システムを構成するプログラムは、データ抽出装置のハードディスクにインストールされたものを実行するようにしている。ただし、当該プログラムの保持形態はこれに限定されるものではない。たとえば、当該プログラムを、ＣＤ−ＲＯＭ、フレキシブルディスク、磁気テープ等に記録するようにしてもよい。

さらに、有線や無線の情報通信網を介して当該プログラムを配信するようにしてもよい。また、当該プログラムをプログラム配布サーバ（図示せず）にインストールしておき、たとえばインターネットなどの情報通信網を介してクライアントコンピュータに当該プログラムを実行させるようにしてもよい。

また、プログラムやデータの記録態様や配布態様は特に限定されるものではない。直接実行できる形で記録媒体に記録したり配布したりする他、たとえば、解凍して使用するように圧縮された形で記録媒体に記録したり配布したりすることもできる。

なお、上述の実施形態においては、コンピュータを用いて図２の各機能を実現する場合を例に説明したが、図２の機能の一部または全部を、ハードウェアロジックを用いて構成するようにしてもよい。

上記においては、本発明を好ましい実施形態として説明したが、各用語は、限定のために用いたのではなく、説明のために用いたものであって、本発明の範囲および精神を逸脱することなく、添付のクレームの範囲において、変更することができるものである。また、上記においては、本発明のいくつかの典型的な実施形態についてのみ詳細に記述したが、当業者であれば、本発明の新規な教示および利点を逸脱することなしに上記典型的な実施形態において多くの変更が可能であることを、容易に認識するであろう。したがって、そのような変更はすべて、本発明の範囲に含まれるものである。

この発明の一実施形態によるデータ抽出システム２の構成を示す図面である。図１のデータ抽出システム２を構成するデータ抽出装置４、ユーザ端末６および情報源コンピュータ１０の構成を示すブロック図である。データ抽出装置４としてのサーバコンピュータ４，ユーザ端末６，および情報源コンピュータ１０のハードウェア構成を説明するためのブロック図である。データ抽出システム２における処理の流れの一例を示すフローチャートである。図４に示すデータ抽出記憶処理Ｓ４を詳細に表したフローチャートである。図７に示すＨＴＭＬファイル１２１をコンピュータ画面に表示した場合の表示画像１２０を示す図面である。抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルの一例である。消去パターン記憶部１０６に記憶されている消去パターンファイルの一例を示す図面である。抽出パターン記憶部１０８に記憶されている抽出パターンファイルの一例を示す図面である。図１０Ａは、置換変数「<__ＴＡＧ_タグ名__>」の置換内容を表す正規表現である。図１０Ｂは、「__ＫＥＹ_０__」の置換内容を表す正規表現である。図１０Ｃは、置換変数「__ＶＡＬＵＥ_数値__」の置換内容を表す正規表現である。抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルの他の例をコンピュータ画面に表示した場合の表示画像１２２を示す図面である。抽出パターン記憶部１０８に記憶されている抽出パターンファイルの他の例であって、図１１に示す表示画像１２２に対応するＨＴＭＬファイルから所望のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。図１３Ａは、抽出対象文書記憶部１０２に記憶されたＨＴＭＬファイルのさらに他の例をコンピュータ画面に表示した場合の表示画像１２４を示す図面である。図１３Ｂは、図１３Ａに示す表示画像１２４に対応するＨＴＭＬファイル１２５を示す図面である。抽出パターン記憶部１０８に記憶されている抽出パターンファイルのさらに他の例であって、図１３Ｂに示すＨＴＭＬファイル１２５から所望のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。図１５Ａは、類似語記憶部１１２に対応するキーファイル１５０の内容を例示した図面である。図１５Ｂおよび図１５Ｃは、ともに上位概念記憶部１１４に対応する職種ファイル１５２および勤務地ファイル１５４の内容を、それぞれ例示した図面である。データ抽出記憶処理の処理結果等を記憶させておく解析結果ファイル１５６の内容を例示した図面である。ユーザ端末６の表示装置６ｂに表示される検索画面１６０の一例を示す図面である。

符号の説明

９０：抽出マッチング手段
１０２：抽出対象文書記憶部
１０８：抽出パターン記憶部

特許出願人株式会社クインランド
出願人代理人弁理士田川幸一

Claims

データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、
情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、
情報通信網を介してサーバコンピュータの前記データ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、
を備えたデータ抽出システムであって、
前記データ抽出装置は、
抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
を備えた、
データ抽出システム。
データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、
抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
を備えたデータ抽出装置。
コンピュータを、
抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
を備えたデータ抽出装置、
として機能させるためのプログラム。
コンピュータを、
抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
を備えたデータ抽出装置、
として機能させるためのプログラムを記録した記録媒体。
請求項１ないし４のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
前記種別データパターンは、
種別データの候補となる複数の類似語を構成する複数組の具体的な文字列の選択を表す正規表現であること、
を特徴とするもの。
請求項１ないし５のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
前記データ抽出装置は、さらに、
内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する上位概念記憶手段と、
前記抽出手段により抽出された内容データが上位概念記憶手段に記憶されているか否かを判断し、上位概念記憶手段に記憶されている場合には、当該内容データについて、対応する上位概念データを出力する上位概念出力手段と、
を備えたこと、
を特徴とするもの。
請求項１ないし６のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
前記データ抽出装置は、さらに、
抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶する消去パターン記憶手段と、
抽出対象文書からデータ対を抽出するまえに、消去パターン記憶手段から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する消去マッチング手段と、
消去マッチング手段においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする消去手段と、
を備えたこと、
を特徴とするもの。
請求項１ないし７のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
前記データ抽出装置は、さらに、
抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶する文書更新日時記憶手段と、
抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶手段に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶手段に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する抽出対象除外手段と、
を備えたこと、
を特徴とするもの。
請求項１ないし８のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
前記データ抽出装置は、さらに、
抽出対象文書とのマッチングが成功した抽出パターンファイルを当該抽出対象文書と対応付けて記憶する成功パターン記憶手段、
を備え、
前記抽出マッチング手段は、抽出対象文書が成功パターン記憶手段に記憶されているか否かを判断し、成功パターン記憶手段に記憶されている場合には、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うこと、
を特徴とするもの。
データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも１組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、
抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、
記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、
マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、
ステップを備えたデータ抽出方法。