JP2006023878A - データ抽出システム - Google Patents

データ抽出システム Download PDF

Info

Publication number
JP2006023878A
JP2006023878A JP2004200109A JP2004200109A JP2006023878A JP 2006023878 A JP2006023878 A JP 2006023878A JP 2004200109 A JP2004200109 A JP 2004200109A JP 2004200109 A JP2004200109 A JP 2004200109A JP 2006023878 A JP2006023878 A JP 2006023878A
Authority
JP
Japan
Prior art keywords
extraction
data
pattern
target document
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004200109A
Other languages
English (en)
Inventor
Kazuya Yoshimura
一哉 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quin Land Co Ltd
Original Assignee
Quin Land Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quin Land Co Ltd filed Critical Quin Land Co Ltd
Priority to JP2004200109A priority Critical patent/JP2006023878A/ja
Publication of JP2006023878A publication Critical patent/JP2006023878A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システムなどを提供することを目的とする。
【解決手段】 抽出マッチング手段90は、抽出パターン記憶部108に記憶されている複数の抽出パターンファイルを順次読み出して、これと、抽出対象文書記憶部102から読み出した抽出対象文書とを順次マッチングする。マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連する種別データと内容データとを、データ対として抽出する。したがって、抽出対象文書の構成に対応した抽出パターンファイルを準備することで必要なデータ対を確実に取得できる。また、抽出パターンファイルは、種別データと内容データとの配置パターンを正規表現にて記載するだけなので、抽出対象文書に使用されている言語の文法などの影響を受けることはない。
【選択図】図2

Description

この発明はデータ抽出システム、データ抽出装置、データ抽出方法等に関する。
多数のウェブページに分散している情報、たとえば各会社の求人情報など、を抽出する方法として、形態素解析などの文法解釈と意味判断とを組み合わせた方法が知られている。この方法だと、ウェブページの記載内容を文法解釈するとともに、文法解釈の結果に辞書などを適用して記載内容の意味を把握することができるので、ウェブページの記載内容から必要な情報のみを自動的に抽出することが可能となる。
しかしながら、従来のこのような方法では、抽出した情報の中にノイズが含まれていたり、必要な情報を抽出できなかったりするなど、情報抽出の精度が必ずしも満足できるものではないことから、信頼性に問題があった。情報の抽出精度を上げるためには、文法解釈をきめ細かく行ったり辞書をさらに整備したりする必要があるが、要求される抽出精度が高くなればなるほど、システムの改良に必要な時間や経費が指数関数的に大きくなるため、事実上、情報の抽出精度の向上には限界があった。
また、このような文法解析や意味判断を伴う方法では、記載されている情報の言語体系が異なるとその言語体系に適合する別の文法解釈手法や辞書を導入しなければならないから、想定した1つの言語体系、たとえば日本語、で記載されたウェブページ以外には適用できないのが実状である。
この発明は、このような従来の情報抽出方法における課題を解決し、記載された情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システム、データ抽出装置、データ抽出方法などを提供することを目的とする。
この発明によるデータ抽出システムは、データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、情報通信網を介してサーバコンピュータのデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、を備えたデータ抽出システムであって、データ抽出装置は、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。
この発明によるデータ抽出装置は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。
この発明によるプログラムは、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。
この発明によるプログラムを記録した記録媒体は、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。
この発明によるデータ抽出方法は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、ステップを備えている。
本発明の特徴は、上記のように広く示すことができるが、その構成や内容は、目的および特徴とともに、図面を考慮に入れた上で、以下の開示によりさらに明らかになるであろう。
請求項1によるデータ抽出システムは、データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、情報通信網を介してサーバコンピュータのデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、を備えたデータ抽出システムであって、データ抽出装置は、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。
請求項2によるデータ抽出装置は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えている。
請求項3によるプログラムは、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。
請求項4によるプログラムを記録した記録媒体は、コンピュータを、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、を備えたデータ抽出装置、として機能させるためのものである。
請求項10によるデータ抽出方法は、データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、ステップを備えている。
つまり、これらのシステム、装置、プログラム、プログラムを記録した記録媒体および方法においては、相互に関連する種別データと内容データとの配置パターンを正規表現にて記載した複数の抽出パターンファイルを準備しておき、抽出パターンファイルを順次読み出して抽出対象文書とマッチングし、マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連する種別データと内容データとを、データ対として抽出するようにしている。
したがって、情報を抽出したい抽出対象文書の構成に対応した抽出パターンファイルを準備することで必要なデータ対を確実に取得できるから、抽出対象文書が増えたとしても、情報の抽出精度を容易に上げることができる。また、抽出パターンファイルは、種別データと内容データとの配置パターンを正規表現にて記載するだけなので、抽出対象文書に使用されている言語の文法などの影響を受けることはない。
すなわち、記載された情報の言語体系に左右されることなく、情報の抽出精度を容易に向上せしめることができるデータ抽出システム、データ抽出装置、データ抽出方法などを実現することができる。
請求項5のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、種別データパターンは、種別データの候補となる複数の類似語を構成する複数組の具体的な文字列の選択を表す正規表現であること、を特徴とする。
つまり、種別データの候補となる類似語の範囲を設定しておくことで、抽出対象文書ごとの種別データの表現のバラツキを吸収することができる。このため、抽出対象文書ごとの表現の相違を超えて、実質的に抽出したい種別の情報を的確に得ることができる。
請求項6のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する上位概念記憶手段と、抽出手段により抽出された内容データが上位概念記憶手段に記憶されているか否かを判断し、上位概念記憶手段に記憶されている場合には、当該内容データについて、対応する上位概念データを出力する上位概念出力手段と、を備えたこと、を特徴とする。
つまり、抽出された内容データを対応する上位概念におきかえて出力することで、抽出対象文書ごとの内容データの表現のバラツキを吸収することができる。このため、抽出対象文書ごとの表現の相違を超えて、抽出結果を所望の上位概念で自動的に分類表示することができる。
請求項7のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶する消去パターン記憶手段と、抽出対象文書からデータ対を抽出するまえに、消去パターン記憶手段から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する消去マッチング手段と、消去マッチング手段においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする消去手段と、を備えたこと、を特徴とする。
つまり、抽出対象文書から消去すべき文字列がある場合には、あらかじめそのような文字列を消去しておくことで、その後複数回行われる可能性の高い抽出マッチングに要する合計時間を減少させることができる。
請求項8のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶する文書更新日時記憶手段と、抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶手段に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶手段に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する抽出対象除外手段と、を備えたこと、を特徴とする。
つまり、未更新の抽出対象文書を今回のデータ対抽出の対象から除外し、更新された抽出対象文書のみをデータ対抽出処理の対象とすることで、重複処理を回避し、データ対抽出処理全体に要する時間を減少させることができる。
請求項9のシステム、装置、プログラムまたはプログラムを記録した記録媒体においては、データ抽出装置は、さらに、抽出対象文書とのマッチングが成功した抽出パターンファイルを当該抽出対象文書と対応付けて記憶する成功パターン記憶手段、を備え、抽出マッチング手段は、抽出対象文書が成功パターン記憶手段に記憶されているか否かを判断し、成功パターン記憶手段に記憶されている場合には、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うこと、を特徴とする。
つまり、マッチングが成功した抽出パターンファイルを抽出対象文書ごとに記憶しておき、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うことで、他の抽出パターンファイルとのマッチング処理を回避し、抽出マッチングに要する時間を減少させることができる。
このため、抽出対象文書のデータ対の構成パターンが多種にわたるために多種の抽出パターンファイルを準備しなければならない場合であっても、これらの抽出対象文書との抽出マッチングに要する合計時間を大幅に減少させることができる。
図1は、この発明の一実施形態によるデータ抽出システム2の構成を示す図面である。この実施形態においては、各会社の求人情報を抽出するためにデータ抽出システム2を用いる場合を例に説明する。データ抽出システム2においては、データ抽出装置4は、複数のユーザ端末6および複数の情報源コンピュータ10と、情報通信網8を介して通信可能となっている。
図2は、図1のデータ抽出システム2を構成するデータ抽出装置4、ユーザ端末6および情報源コンピュータ10の構成を示すブロック図である。図2に示すように、情報源コンピュータ10は、入力装置10a、表示装置10bおよび記憶装置10cを備えている。記憶装置10cには、データと、データをマーク付けするためのタグと、により構成された抽出対象文書、たとえばHTML(HyperText Markup Language)により記述された文書すなわちHTMLファイル、が記憶されている。
データ抽出装置4は、情報通信網8を介して各情報源コンピュータ10の抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する。データ抽出装置4については、後で詳しく説明する。
ユーザ端末6は、入力装置6a、表示装置6bおよび記憶装置6cを備えている。ユーザ端末6は、情報通信網8を介してデータ抽出装置4に記憶されているデータ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を、表示装置6bに表示する。
さて、データ抽出装置4は、抽出対象文書取得手段82,抽出対象除外手段84,消去マッチング手段86,消去手段88,抽出マッチング手段90,抽出手段92,上位概念出力手段94、検索手段96および情報データベース100を備えている。
情報データベース100は、本システムの処理に必要な種々の情報を記憶させたデータベースであって、抽出対象文書記憶部102,文書更新日時記憶手段としての文書更新日時記憶部104,消去パターン記憶手段としての消去パターン記憶部106,抽出パターン記憶手段としての抽出パターン記憶部108,成功パターン記憶手段としての成功パターン記憶部110,類似語記憶部112,上位概念記憶手段としての上位概念記憶部114,および、抽出結果記憶部116を備えている。
抽出対象文書取得手段82は、URL(Uniform Resource Locator)などによって情報源コンピュータ10の抽出対象文書が指定されると、情報通信網8を介して、指定された抽出対象文書にアクセスし、これを取得して、情報データベース100の抽出対象文書記憶部102に記憶する。図7は、抽出対象文書記憶部102に記憶されたHTMLファイルの一例である。なお、図6は、図7に示すHTMLファイル121をコンピュータ画面に表示した場合の表示画像120を示す図面である。
情報データベース100の文書更新日時記憶部104は、後述の抽出手段92により抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶している。図16は、データ抽出記憶処理の処理結果等を記憶させておく解析結果ファイル156の内容を例示した図面である。解析結果ファイル156の「ページ更新年月日」欄が、文書更新日時記憶部104に対応する。
抽出対象除外手段84は、抽出対象文書記憶部102に記憶されている抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶部104に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶部104に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する。
情報データベース100の消去パターン記憶部106は、抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶している。図8は、消去パターン記憶部106に記憶されている消去パターンファイルの一例を示す図面である。なお、図8に示す消去パターンファイル130は、コメント行を表す正規表現となっている。なお、この実施形態では、本システムの少なくとも一部にプログラム言語としてPerl(Practical Extraction and Report Language、とくにPerl5.6以上)を用いた場合を例に説明している。したがって、正規表現もPerlにて用意されたものを例示している。
消去マッチング手段86は、抽出対象文書記憶部102に記憶されている抽出対象文書からデータ対を抽出するまえに、消去パターン記憶部106から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する。
消去手段88は、消去マッチング手段86においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする。
情報データベース100の抽出パターン記憶部108は、複数の抽出パターンファイルを記憶している。抽出パターンファイルは、抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含み、複数のデータおよびタグの組合せを表す一連の正規表現により構成されている。図9は、抽出パターン記憶部108に記憶されている抽出パターンファイルの一例を示す図面である。
図9に示す抽出パターンファイル140は、たとえば図7に示すHTMLファイル121から、「仕事内容」、「職種」、「年齢」、「勤務地」に関する4組のデータ対を一度に抽出するためのものである。
抽出パターンファイル140において、置換変数「<__TR_TR__>」、「<__TD_TD__>」、「<__ANY__>」が定義されているが、システムにおいても置換変数として「<__TAG_タグ名__>」、「__KEY_数値__」、「__VALUE_数値__」等が定義されている。
図10Aは、置換変数「<__TAG_タグ名__>」の置換内容を表す正規表現である。
図10Bは、置換変数「__KEY_数値__」において、数値が「0」のとき、すなわち「__KEY_0__」の置換内容を表す正規表現である。置換変数「__KEY_数値__」の置換内容を表す正規表現が、種別データパターンに対応する。
図10Bに示すように、この実施形態においては、抽出パターンファイルを構成する種別データパターンを、種別データの候補となる複数の類似語(図10Bでは、「職種」、「募集職種」、「採用職種」の3つ)を構成する複数組の具体的な文字列の選択を表す正規表現にて構成している。したがって、この例だと、抽出対象であるHTMLファイルに「職種」、「募集職種」、「採用職種」のいずれかが記載されていれば、図10Bに示す種別データパターンにマッチすることになる。
図15Aは、図2に示す情報データベース100を構成する類似語記憶部112に対応するキーファイル150の内容を例示した図面である。キーファイル150には、置換変数「__KEY_数値__」の置換内容を構成する複数の類似語が「数値」(キーファイル150では「番号」に相当する)と対応付けて記憶されている。このように構成することで、各種別データの外延を容易に変更管理することができる。
図10Cは、置換変数「__VALUE_数値__」の置換内容を表す正規表現である。置換変数「__VALUE_数値__」の置換内容を表す正規表現が、内容データパターンに対応する。
図10Cの例では、抽出パターンファイルを構成する内容データパターンを、「TABLE開始/終了タグ」、「TD開始/終了タグ」、「TR開始/終了タグ」以外の任意の文字列を表す正規表現にて構成している。
また、この実施形態においては、内容データパターンに対応する置換変数「__VALUE_数値__」と、上述の種別データパターンに対応する置換変数「__KEY_数値__」とを、「数値」で関連付けている。したがって、たとえば、置換変数「__VALUE_0__」にマッチした任意の文字列は、置換変数「__KEY_0__」にマッチした種別データに対応する内容データとして抽出され、記憶されることになる。
図7に示すHTMLファイル121の場合だと、たとえば、置換変数「__VALUE_0__」にマッチした任意の文字列「設計技術職」が、置換変数「__KEY_0__」にマッチした種別データ「職種」に対応する内容データとして抽出され、相互に関連する一組のデータ対として、図16に示す解析結果ファイル156に記憶される。具体的には、内容データである「設計技術職」が、解析結果ファイル156の「記載職種」欄(種別データに対応)に記憶されることになる。
このように、図9に示す抽出パターンファイル140を用いることで、図7に示すHTMLファイル121から、「仕事内容」、「職種」、「年齢」、「勤務地」に関する4組のデータ対を一度に抽出して、記憶することができる。
図2に戻って、抽出マッチング手段90は、抽出パターン記憶部108から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する。
成功パターン記憶部110には、抽出対象文書とのマッチングが成功した抽出パターンファイルと当該抽出対象文書とが対応付けて記憶される。図16に示す解析結果ファイル156の「成功パターンID」欄が、成功パターン記憶部110に対応する。
この実施形態においては、上記抽出マッチング手段90は、成功パターン記憶部110に、抽出対象文書と抽出マッチングに成功した抽出パターンファイルとが対応付けて記憶されているか否かを判断し、対応付けて記憶されている場合には、当該抽出対象文書について、成功パターン記憶部110にて指定されている抽出パターンファイルを優先的に適用して今回の抽出マッチングを行うようにしている。
抽出手段92は、抽出マッチング手段90においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する。
上位概念記憶部114は、抽出した内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する。図15Bおよび図15Cは、ともに上位概念記憶部114に対応する職種ファイル152および勤務地ファイル154の内容を、それぞれ例示した図面である。
職種ファイル152には、内容データに相当する「記載職種」と上位概念に相当する「上位概念職種」とが、対応付けて記載されている。勤務地ファイル154には、内容データに相当する「記載勤務地」と上位概念に相当する「都道府県」とが、対応付けて記載されている。
図2に示す上位概念出力手段94は、抽出手段92により抽出された内容データが上位概念記憶部114に記憶されているか否かを判断し、上位概念記憶部114に記憶されている場合には、当該内容データについて、対応する上位概念データを出力し、図16に示す解析結果ファイル156の「上位概念職種」欄または「都道府県」欄に記憶する。
情報データベースの抽出結果記憶部116は、抽出手段92および上位概念出力手段94の出力を記憶する。図16に示す解析結果ファイル156は、図2に示す文書更新日時記憶部104,成功パターン記憶部110および抽出結果記憶部116に対応する。
検索手段96は、ユーザ端末6からの検索命令に応じ、抽出結果記憶部116等を検索し、検索出力をユーザ端末6に送信する。
すなわち、検索手段96は、情報通信網8を介してユーザ端末6からアクセスがあると、ユーザ端末6の表示装置6bに、図17に示す検索入力画面162を表示させ、ユーザ端末6からの検索命令を待つ。ユーザ端末6から検索命令が入力されると、図16に示す解析結果ファイル156等を検索し、検索結果をユーザ端末6に送信し、その表示装置6bに、図17に示す検索出力画面164を表示させる。なお、図17の例では、検索出力画面164とともに検索入力画面162も表示され、両者で検索画面160を構成している。
図17に示すように、検索出力画面164には、検索命令にヒットした求人情報がリストアップされる。各求人情報は、当該求人情報を構成する概要データである「求人会社が上場会社であるか否かを示すデータ」、「求人会社の名称」、「上位概念職種」、および「勤務地のある都道府県」の順に統一して表示されるので、複数の求人情報を比較検討するのに好都合である。
図3は、データ抽出装置4として機能するサーバコンピュータ4,ユーザ端末6,および情報源コンピュータ10のハードウェア構成を説明するためのブロック図である。
サーバコンピュータ4は、図2に示す情報データベース100の記憶媒体であり本システムのプログラムを記録した記録媒体でもある記憶装置としてのハードディスク50、ハードディスク50に記録されたプログラムを主メモリ(図示せず)にロードして実行する制御手段であるCPU42,表示装置であるLCD(液晶表示装置)44,入力装置であるキーボード46、マウス48,ならびに、情報通信網8としてのインターネット8を介してユーザ端末6および情報源コンピュータ10等と通信するための通信インタフェース52を備えている。
この実施形態においては、ユーザ端末6はパーソナルコンピュータである。ユーザ端末6は、入力装置6aであるキーボード66およびマウス68,表示装置6bであるLCD64、OS(オペレーションシステム)や閲覧プログラム等を記録した記憶装置6cであるハードディスク70、ハードディスク70に記録されたプログラム等を主メモリ(図示せず)にロードして実行するCPU62,インターネット8を介してサーバコンピュータ4と通信するための通信インタフェース72を備えている。
情報源コンピュータ10は、入力装置10aであるキーボード26およびマウス28,表示装置10bであるLCD24、OS等のプログラムを記録した記憶装置10cであるハードディスク30、ハードディスク30に記録されたプログラム等を主メモリ(図示せず)にロードして実行するCPU22,インターネット8を介してサーバコンピュータ4と通信するための通信インタフェース32を備えている。
図4は、データ抽出システム2における処理の流れの一例を示すフローチャートである。図5は、図4に示すデータ抽出記憶処理S4を詳細に表したフローチャートである。
図11は、抽出対象文書記憶部102に記憶されたHTMLファイルの他の例をコンピュータ画面に表示した場合の表示画像122を示す図面である。図12は、抽出パターン記憶部108に記憶されている抽出パターンファイルの他の例であって、図11に示す表示画像122に対応するHTMLファイルから所定のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。
図13Aは、抽出対象文書記憶部102に記憶されたHTMLファイルのさらに他の例をコンピュータ画面に表示した場合の表示画像124を示す図面である。図13Bは、図13Aに示す表示画像124に対応するHTMLファイル125を示す図面である。図14は、抽出パターン記憶部108に記憶されている抽出パターンファイルのさらに他の例であって、図13Bに示すHTMLファイル125から所定のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。
図2〜図17に基づいて、データ抽出システム2の動作の説明を行う。図3に示すサーバコンピュータ4のCPU42は、図4に示すように、HTMLファイル取得命令、データ抽出命令、および検索命令を監視している。(ステップS1、ステップS3、およびステップS5)。
ステップS1においてHTMLファイル取得命令があれば、CPU42は、当該命令に含まれる取得URLリスト(図示せず)にしたがって、インターネット8を介して、HTMLファイル取得し、取得したHTMLファイルを抽出対象文書記憶部102に記憶する(ステップS2)。
HTMLファイル取得命令は、サーバコンピュータ4のキーボード46やマウス48を用いて適宜入力するようにしてもよいが、日時を定め自動的に与えるようにしておくのが好ましい。HTMLファイル取得命令に含まれる取得URLリストの生成方法はとくに限定されるものではないが、たとえば、求人情報を提供している企業のURL情報等を記憶した企業情報ファイルを予め準備しておき、この企業情報ファイルに基づいて作成することができる。
取得URLリストの記載内容は、とくに限定されるものではないが、たとえば、任意レベルのURL(ディレクトリ)を記載可能としておくことができる。この実施形態においては、取得URLリストにおいて上位ディレクトリが指定されているウェブサイトについては、指定されたディレクトリ以下の全てのページ(HTNLファイル)が、本システムの処理対象となるよう構成している。
ステップS3においてデータ抽出命令があれば、CPU42は、抽出対象文書記憶部102(図2参照)に記憶されているHTMLファイルに対するデータ抽出記憶処理を実行する(ステップS4)。データ抽出命令は、サーバコンピュータ4のキーボード46やマウス48を用いて適宜入力するようにしてもよいが、日時を定め自動的に与えるようにしたり、HTMLファイル取得処理(ステップS3)に引き続き自動的に与えるようにしたりすることができる。
図5にしたがって、データ抽出記憶処理について説明する。当該処理において、CPU42は、まず、抽出対象文書記憶部102に記憶されているHTMLファイルの1つについて、当該HTMLファイルが、前回のデータ対抽出時以後に更新されたか否かの判断を行う(ステップS11)。
当該判断は、抽出対象文書記憶部102に記憶されている当該HTMLファイルの更新日時を示すデータと、解析結果ファイル156の「ページ更新年月日」欄に記憶されている前回のデータ対抽出時における当該HTMLファイルの更新日時と、を比較することにより行う。
ステップS11において、当該HTMLファイルが更新されていないと判断した場合には、CPU42は、当該HTMLファイルからデータ対を抽出する必要がないと判断して、制御をステップS21に移す。
ステップS21において、CPU42は、抽出対象文書記憶部102に記憶されている全てのHTMLファイルについてデータ抽出記憶処理が完了したか否かを判断し、完了したと判断した場合にはステップS5(図4参照)に制御を移し、完了していないと判断した場合には、次の処理対象となるHTMLファイルを設定するとともに(ステップS22)、後述する抽出パターンの指定を初期化したあと(ステップS23)、制御をステップS11に戻す。
なお、ステップS11の更新有無判断処理は、図4に示すステップS2以前に行うようにすることもできる。たとえば、上述の取得URLリストを生成する際に、各HTMLファイルの更新の有無を判断し、前回のデータ対取得時以後に更新されていないHTMLファイルを取得URLリストから外すよう構成することもできる。このようにしておけば、抽出対象文書記憶部102に記憶されている全てのHTMLファイルについて、ステップS12以後の処理が実行されることになる。
さて、ステップS11において、当該HTMLファイルが更新されていると判断した場合には、CPU42は、当該HTMLファイルを抽出対象文書記憶部102から所定の作業領域(図示せず)に読み込む(ステップS12)。
CPU42は、つぎに、読み込んだHTMLファイルから不要個所を消去し,不要個所の消去されたHTMLファイルを、新たな抽出対象文書とする(ステップS13)。
具体的には、この不要個所消去処理において、CPU42は、消去パターン記憶部106(図2参照)に記憶されている消去パターン(たとえば、図8に示す消去パターン130)を読み込み、読み込んだ消去パターンと当該HTMLファイルとのマッチングを行う。マッチングが成功した場合には、当該HTMLファイルを構成する文字列から当該消去パターンに相当する文字列を消去し、残部の文字列により構成されるHTMLファイルを新たな抽出対象文書とする。もちろん、消去マッチングが成功しなかった場合(すなわち、想定する不要個所がなかった場合)には、もとのHTMLファイルが、そのまま抽出対象文書となっている。
つぎに、CPU42は、抽出パターン記憶部108(図2参照)に記憶されている複数の抽出パターンの中から、所定順位にしたがって、1つ読み込み(ステップS14)、読み込んだ抽出パターンと抽出対象文書であるHTMLファイルとのマッチングを行う(ステップS15)。
抽出パターン記憶部108には、種々のデータ表現態様(たとえば、図6,図11,図13A参照)に対応すべく、種々の抽出パターン、たとえば、抽出パターン140、142、144(図9,図12,図14参照)が記憶されている。CPU42は、これら複数の抽出パターンを所定の順位にしたがって、1つずつ読み込んで抽出マッチング処理を実行するのである。
抽出パターンの読み込み順位は、とくに限定されるものではないが、この実施形態においては、当該HTMLファイルについて直近の抽出マッチング処理においてマッチングが成功したパターン(成功パターン)を優先的に適用するようにしている。すなわち、ステップS14において、CPU42は、まず、解析結果ファイル156(図16参照)の「成功パターンID」欄を参照し、当該欄において指定されている抽出パターンを、第1順位の抽出パターンとして読み込むようにしている。
「成功パターンID」欄において何も指定されていない場合には、通常の順位、たとえば、抽出パターンを特定するパターンIDのアルファベット順、にしたがって高順位の抽出パターンから順に読み込めばよい。なお、通常の順位として、これ以外に、たとえば、過去の抽出マッチング処理において成功したHTMLファイルの数の多い抽出パターンを高順位とする方法等もある。
CPU42は、抽出マッチングが成功したか否かの判断を行い(ステップS16)、マッチングが成功しなかったと判断した場合には、全ての抽出パターンについてマッチングが完了したか否かの判断を行う(ステップS17)。全抽出パターンについてマッチングが完了したと判断した場合には、制御をステップS21に移し、そうでない場合には、次の順位の抽出パターンを設定して(ステップS18)、制御をステップS14に戻す。
ステップS16において、抽出マッチングが成功したと判断した場合には、CPU42は、当該成功した抽出パターンに基づいて当該HTMLファイルからデータ対を抽出するとともに、抽出したデータ対の上位概念を出力する(ステップS19)。
ステップS19におけるデータ対抽出処理を具体的に説明する。たとえば、抽出対象文書たるHTMLファイルが図6に対応するものであったとすると,図9に示す抽出パターン140とマッチングするから、データ対抽出処理において、「仕事内容」と「回路設計」、「職種」と「設計技術職」、「年齢」と「20〜30歳程度」、「勤務地」と「渋谷区渋谷2−10−28」の4組のデータ対が得られる。
また、たとえば、抽出対象文書たるHTMLファイルが図11に対応するものであったとすると,図12に示す抽出パターン142とマッチングするから、データ対抽出処理において、「職種」と「機械設計」、「内容」と「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「募集対象」と「機械、精密機械工学、システム工学」、「勤務地」と「××県」、「職種」と「制御設計」、「内容」と「プレス機械・搬送機械・サーボ制御・・・・・」、「募集対象」と「電気、電子、制御、システム・・・・・」、「勤務地」と「××県」、「職種」と「研究開発」、「内容」と「メカトロニクス・油圧技術・ロボット・組成技術・・・・・」、「募集対象」と「機械、制御、応用物理、・・・・・」、「勤務地」と「××県」の12組のデータ対が得られる。
なお、図12に示す抽出パターン142のなかに、「__DELETE_POSITION_S__」と「__DELETE_POSITION_E__」なる一対の制御変数が記載されているが、これらは、抽出マッチングの過程で消去したい個所の始点と終点とを示す制御変数である。
つまり、図11に対応するHTMLファイルと図12に示す抽出パターン142とのマッチングを行う場合、1回目のマッチングが成功すると(すなわち、「職種」と「機械設計」、「内容」と「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「募集対象」と「機械、精密機械工学、システム工学」、「勤務地」と「××県」の4組のデータ対が得られると)、当該HTMLファイルから、マッチングに成功した部分であって上記一対の制御変数の間にある正規表現に対応する部分(すなわち、「機械設計」、「プレス機械・自動加工ライン・自動装置・金型など各種受注製品の設計」、「機械、精密機械工学、システム工学」、「××県」)を消去したのち、再度、抽出パターン142とのマッチングを行う。このようにして、マッチングが成功しなくなるまで、これを繰り返す。このようにして、4組×3回=12組のデータ対を抽出するのである。
つぎに、たとえば、抽出対象文書たるHTMLファイルが図13Aに対応するものであったとすると,図14に示す抽出パターン144とマッチングするから、データ対抽出処理において、「職種」と「設計技術職」、「仕事の内容」と「製品開発のための開発設計業務」、「資格」と「大卒以上28〜35歳位までの方」、「勤務地」と「神奈川県横浜市」の4組のデータ対が得られる。
なお、上述の抽出パターンのうち、抽出パターン140、142は、いずれも、テーブル形式にて記載されているデータ対を抽出するための抽出パターンであり、抽出パターン144は、非テーブル形式で記載されているデータ対を抽出するための抽出パターンである。このように、データ対の配置形式などが従来のウェブサイトと異なる場合であっても、抽出パターンを追加するだけで、容易に対応することができる。同様に、外国語で記述されているウェブサイトに対しても、抽出パターンを追加するだけで、容易に対応することができる。
つぎに、ステップS19における上位概念出力処理を、図6に対応するHTMLファイルの場合を例に、具体的に説明する。この実施形態においては、上位概念記憶部114(図2参照)に職種ファイル152および勤務地ファイル154(図15Bおよび図15C参照)が記憶されている。したがって、CPU42は、抽出した4組のデータ対のうち2組のデータ対、すなわち、「職種」と「設計技術職」、「勤務地」と「渋谷区渋谷2−10−28」について、それぞれ、データ対を構成する内容データが、職種ファイル152および勤務地ファイル154に下位概念として記載されているか否かを判断し、記載されていれば、対応する上位概念を出力する。
具体的には、上位概念抽出処理において、たとえば、職種ファイル152において、記載職種(下位概念)たる「設計技術職」と上位概念職種(上位概念)たる「設計職」とが関連づけて登録されている場合には、種別データ「職種」に対応する内容データ「設計技術職」の上位概念として「設計職」を出力する。同様に、勤務地ファイル154において、記載勤務地(下位概念)たる「渋谷区」と都道府県(上位概念)たる「東京」とが関連づけて登録されている場合には、種別データ「勤務地」に対応する内容データ「渋谷区渋谷2−10−28」の上位概念として「東京都」を出力する。
このようにして、ステップS19に示す処理が終了すると、CPU42は、ステップS19において抽出したデータ対、および、その上位概念がある場合はそれを、図16に示す解析結果ファイル156に記憶する(ステップS20)。
解析結果ファイル156には、これら解析結果情報の他、当該HTMLファイルのURLおよび当該HTMLファイルの掲載されている企業のホームページのURLが、それぞれ、「ページURL」および「ホームページURL」欄に記載されている。なお、抽出されたデータ対を含む求人情報を提供している企業名等は、解析結果ファイル156に直接記憶しておいてもよいが、たとえば、前述の企業情報ファイルに、企業のホームページのURLと関連付けて記憶するようにしてもよい。このようにして、データ抽出記憶処理(ステップS4)が実行される。
図4に戻って、ステップS5において検索命令があれば、CPU42は、データ検索出力処理を実行する(ステップS6)。すなわち、上述のように、CPU42は、インターネット8を介してユーザ端末6から検索命令が入力されると、図16に示す解析結果ファイル156等を検索し、検索結果をユーザ端末6に送信し、その表示装置6bに、図17に示す検索出力画面164を表示させる。
なお、図4のステップS2が図2の抽出対象文書取得手段82に対応し、ステップS6が検索手段96に対応する。また、図5のステップS11が図2の抽出対象除外手段84に対応し、ステップS13が消去マッチング手段86および消去手段88に対応し、ステップS14およびステップS15が抽出マッチング手段90に対応し、ステップS19およびステップS20が抽出手段92および上位概念出力手段94に対応する。
なお、上述の実施形態においては、ウェブページに分散している各会社の求人情報を抽出するためにデータ抽出システム2を用いる場合を例に説明したが、この発明によるデータ抽出システムは、これに限定されるものではない。たとえば、ウェブページに分散している各種専門知識を抽出するために用いることができる。
さらに、この発明における抽出対象文書は、ウェブページに存在している文書に限定されるものでなく、さらには、HTMLにて記述された文書に限定されるものでもなく、データと、データをマーク付けするためのタグと、により構成された文書全般を対象とするものである。また、上述の実施形態においては、本システムの少なくとも一部をPerlスクリプトにて記載した場合を例に説明したが、この発明は、もちろんこれに限定されるものではない。
また、上述の実施形態においては、ユーザ端末としてパーソナルコンピュータを例に説明したが、ユーザ端末はパーソナルコンピュータに限定されるものではない。ユーザ端末として、たとえば、携帯電話や携帯情報端末等も使用できる。
また、上述のシステム構成図、ブロック図、ハードウェア構成、フローチャート、各種データ構造、表示画面等は例として挙げたものであり、本願発明は、上述のシステム構成図、ブロック図、ハードウェア構成、フローチャート、各種データ構造、表示画面等に限定されるものではない。
また、データベースの数や種類も特に限定されるものではなく、上述のデータベースを分割して、複数のデータベースとすることもできる。また、データベースを構成する各種記憶部の数や種類も特に限定されるものではなく、上述の各種記憶部をさらに分割したり、まとめたりすることもできる。
また、上述の実施形態においては、データ抽出装置と情報源コンピュータとを情報通信網を介して接続する場合を例に説明したが、この発明はこれに限定されるものではない。たとえば、データ抽出装置と情報源コンピュータとを直接接続したり、両装置を兼用する装置を用いたりしてもよい。
また、データ抽出装置として、複数のコンピュータを分散配置することもできる。分散配置する場合は、これらを情報通信網を介して相互に接続することもできる。
また、上述の実施形態においては、情報通信網としてインターネットを例に説明したが、情報通信網はインターネットに限定されるものではない。たとえば、LAN(ローカルエリアネットワーク)やWAN(ワイドエリアネットワーク)、イントラネット等を介して複数のコンピュータを接続するようなネットワークにおいて本発明を実現するようにしてもよい。
なお、この実施形態においては、データ抽出システムを構成するプログラムは、データ抽出装置のハードディスクにインストールされたものを実行するようにしている。ただし、当該プログラムの保持形態はこれに限定されるものではない。たとえば、当該プログラムを、CD−ROM、フレキシブルディスク、磁気テープ等に記録するようにしてもよい。
さらに、有線や無線の情報通信網を介して当該プログラムを配信するようにしてもよい。また、当該プログラムをプログラム配布サーバ(図示せず)にインストールしておき、たとえばインターネットなどの情報通信網を介してクライアントコンピュータに当該プログラムを実行させるようにしてもよい。
また、プログラムやデータの記録態様や配布態様は特に限定されるものではない。直接実行できる形で記録媒体に記録したり配布したりする他、たとえば、解凍して使用するように圧縮された形で記録媒体に記録したり配布したりすることもできる。
なお、上述の実施形態においては、コンピュータを用いて図2の各機能を実現する場合を例に説明したが、図2の機能の一部または全部を、ハードウェアロジックを用いて構成するようにしてもよい。
上記においては、本発明を好ましい実施形態として説明したが、各用語は、限定のために用いたのではなく、説明のために用いたものであって、本発明の範囲および精神を逸脱することなく、添付のクレームの範囲において、変更することができるものである。また、上記においては、本発明のいくつかの典型的な実施形態についてのみ詳細に記述したが、当業者であれば、本発明の新規な教示および利点を逸脱することなしに上記典型的な実施形態において多くの変更が可能であることを、容易に認識するであろう。したがって、そのような変更はすべて、本発明の範囲に含まれるものである。
この発明の一実施形態によるデータ抽出システム2の構成を示す図面である。 図1のデータ抽出システム2を構成するデータ抽出装置4、ユーザ端末6および情報源コンピュータ10の構成を示すブロック図である。 データ抽出装置4としてのサーバコンピュータ4,ユーザ端末6,および情報源コンピュータ10のハードウェア構成を説明するためのブロック図である。 データ抽出システム2における処理の流れの一例を示すフローチャートである。 図4に示すデータ抽出記憶処理S4を詳細に表したフローチャートである。 図7に示すHTMLファイル121をコンピュータ画面に表示した場合の表示画像120を示す図面である。 抽出対象文書記憶部102に記憶されたHTMLファイルの一例である。 消去パターン記憶部106に記憶されている消去パターンファイルの一例を示す図面である。 抽出パターン記憶部108に記憶されている抽出パターンファイルの一例を示す図面である。 図10Aは、置換変数「<__TAG_タグ名__>」の置換内容を表す正規表現である。図10Bは、「__KEY_0__」の置換内容を表す正規表現である。図10Cは、置換変数「__VALUE_数値__」の置換内容を表す正規表現である。 抽出対象文書記憶部102に記憶されたHTMLファイルの他の例をコンピュータ画面に表示した場合の表示画像122を示す図面である。 抽出パターン記憶部108に記憶されている抽出パターンファイルの他の例であって、図11に示す表示画像122に対応するHTMLファイルから所望のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。 図13Aは、抽出対象文書記憶部102に記憶されたHTMLファイルのさらに他の例をコンピュータ画面に表示した場合の表示画像124を示す図面である。図13Bは、図13Aに示す表示画像124に対応するHTMLファイル125を示す図面である。 抽出パターン記憶部108に記憶されている抽出パターンファイルのさらに他の例であって、図13Bに示すHTMLファイル125から所望のデータ対を抽出するのに適した抽出パターンファイルの一例を示す図面である。 図15Aは、類似語記憶部112に対応するキーファイル150の内容を例示した図面である。図15Bおよび図15Cは、ともに上位概念記憶部114に対応する職種ファイル152および勤務地ファイル154の内容を、それぞれ例示した図面である。 データ抽出記憶処理の処理結果等を記憶させておく解析結果ファイル156の内容を例示した図面である。 ユーザ端末6の表示装置6bに表示される検索画面160の一例を示す図面である。
符号の説明
90:抽出マッチング手段
102:抽出対象文書記憶部
108:抽出パターン記憶部

特許出願人 株式会社クインランド
出願人代理人 弁理士 田川 幸一

Claims (10)

  1. データと、データをマーク付けするためのタグと、により構成された抽出対象文書を記憶するとともに、情報通信網に接続可能な複数の情報源コンピュータと、
    情報通信網を介して各情報源コンピュータの抽出対象文書にアクセスするとともに、アクセスにより得られた抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置、として機能するサーバコンピュータと、
    情報通信網を介してサーバコンピュータの前記データ対に対応する情報にアクセスするとともに、アクセスにより得られた情報を表示可能な複数のユーザ端末と、
    を備えたデータ抽出システムであって、
    前記データ抽出装置は、
    抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
    抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
    抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
    を備えた、
    データ抽出システム。
  2. データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶するデータ抽出装置であって、
    抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
    抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
    抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
    を備えたデータ抽出装置。
  3. コンピュータを、
    抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
    抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
    抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
    を備えたデータ抽出装置、
    として機能させるためのプログラム。
  4. コンピュータを、
    抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を複数記憶する抽出パターン記憶手段と、
    抽出パターン記憶手段から抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する抽出マッチング手段と、
    抽出マッチング手段においてマッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する抽出手段と、
    を備えたデータ抽出装置、
    として機能させるためのプログラムを記録した記録媒体。
  5. 請求項1ないし4のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
    前記種別データパターンは、
    種別データの候補となる複数の類似語を構成する複数組の具体的な文字列の選択を表す正規表現であること、
    を特徴とするもの。
  6. 請求項1ないし5のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
    前記データ抽出装置は、さらに、
    内容データの上位概念に相当する上位概念データと当該内容データとを対応付けて記憶する上位概念記憶手段と、
    前記抽出手段により抽出された内容データが上位概念記憶手段に記憶されているか否かを判断し、上位概念記憶手段に記憶されている場合には、当該内容データについて、対応する上位概念データを出力する上位概念出力手段と、
    を備えたこと、
    を特徴とするもの。
  7. 請求項1ないし6のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
    前記データ抽出装置は、さらに、
    抽出対象文書から消去すべき文字列を表す一連の正規表現により構成された消去パターンファイルを記憶する消去パターン記憶手段と、
    抽出対象文書からデータ対を抽出するまえに、消去パターン記憶手段から消去パターンファイルを読み出して抽出対象文書と比較し、消去パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断する消去マッチング手段と、
    消去マッチング手段においてマッチングが成功した場合に、成功した消去パターンファイルを構成する正規表現に対応する文字列を抽出対象文書から削除し、当該文字列の削除された抽出対象文書を、データ対を抽出すべき新たな抽出対象文書とする消去手段と、
    を備えたこと、
    を特徴とするもの。
  8. 請求項1ないし7のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
    前記データ抽出装置は、さらに、
    抽出対象文書からデータ対が抽出された時点における当該抽出対象文書の更新日時を当該抽出対象文書と対応付けて記憶する文書更新日時記憶手段と、
    抽出対象文書からデータ対を抽出するまえに、当該抽出対象文書の更新日時が文書更新日時記憶手段に記憶された日時以前の日時であるか否かを判断し、文書更新日時記憶手段に記憶された日時以前の日時である場合には、当該抽出対象文書を今回のデータ対抽出の対象から除外する抽出対象除外手段と、
    を備えたこと、
    を特徴とするもの。
  9. 請求項1ないし8のいずれかのシステム、装置、プログラムまたはプログラムを記録した記録媒体において、
    前記データ抽出装置は、さらに、
    抽出対象文書とのマッチングが成功した抽出パターンファイルを当該抽出対象文書と対応付けて記憶する成功パターン記憶手段、
    を備え、
    前記抽出マッチング手段は、抽出対象文書が成功パターン記憶手段に記憶されているか否かを判断し、成功パターン記憶手段に記憶されている場合には、当該抽出対象文書について、対応する抽出パターンファイルを優先的に適用して抽出マッチングを行うこと、
    を特徴とするもの。
  10. データと、データをマーク付けするためのタグと、により構成された抽出対象文書から相互に関連する少なくとも1組のデータ対を抽出し、抽出したデータ対に対応する情報を記憶する処理を、記憶装置を備えたコンピュータを用いて行うデータ抽出方法であって、
    抽出すべきデータ対のうち種別を示す種別データを構成する具体的な文字列を含む正規表現である種別データパターンと、抽出すべきデータ対のうち内容を示す内容データとなるべき任意の文字列を表す正規表現である内容データパターンであって種別データパターンと関連付けられた内容データパターンと、を含む抽出パターンファイルであって、複数のデータおよびタグの組合せを表す一連の正規表現により構成された抽出パターンファイル、を記憶装置に複数記憶しておき、
    記憶装置から、抽出パターンファイルを順次読み出して抽出対象文書と比較し、抽出パターンファイルを構成する一連の正規表現により表される文字列が抽出対象文書に含まれるか否かによってマッチングの成否を判断し、
    マッチングが成功した場合に、成功した抽出パターンファイルの構成に基づいて、抽出対象文書から、相互に関連付けられた種別データと内容データとをデータ対として抽出する、
    ステップを備えたデータ抽出方法。
JP2004200109A 2004-07-07 2004-07-07 データ抽出システム Pending JP2006023878A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004200109A JP2006023878A (ja) 2004-07-07 2004-07-07 データ抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004200109A JP2006023878A (ja) 2004-07-07 2004-07-07 データ抽出システム

Publications (1)

Publication Number Publication Date
JP2006023878A true JP2006023878A (ja) 2006-01-26

Family

ID=35797125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004200109A Pending JP2006023878A (ja) 2004-07-07 2004-07-07 データ抽出システム

Country Status (1)

Country Link
JP (1) JP2006023878A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241993A (ja) * 2006-02-08 2007-09-20 Mieko Tsuyusaki 情報更新システム及び情報取得システム
JP2012018667A (ja) * 2010-07-07 2012-01-26 Nhn Corp テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
WO2012147840A1 (ja) * 2011-04-28 2012-11-01 有限会社アイ・アール・ディー データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09510811A (ja) * 1995-01-11 1997-10-28 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 文書全文検索用ユーザインタフェース
JPH10254882A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 複合語情報抽出装置および複合語情報抽出方法
JPH10293762A (ja) * 1997-04-17 1998-11-04 Nec Corp 文書要約方法及び装置
WO1999017229A1 (fr) * 1997-09-29 1999-04-08 Fujitsu Limited Systeme de signets par affichage d'image
JP2000049912A (ja) * 1998-05-27 2000-02-18 Nippon Denki Ido Tsushin Kk 無線通信機、無線通信システムおよび無線通信機の情報ダイヤルサ―ビスメニュ―更新制御方法
JP2000259660A (ja) * 1999-03-11 2000-09-22 Fuji Xerox Co Ltd 属性抽出装置
WO2001050343A1 (fr) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Dispositif d'extraction d'un mot-cle
JP2003114906A (ja) * 2001-08-13 2003-04-18 Xerox Corp ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
JP2004178604A (ja) * 2002-11-27 2004-06-24 Sony United Kingdom Ltd 情報検索装置及びその方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09510811A (ja) * 1995-01-11 1997-10-28 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 文書全文検索用ユーザインタフェース
JPH10254882A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 複合語情報抽出装置および複合語情報抽出方法
JPH10293762A (ja) * 1997-04-17 1998-11-04 Nec Corp 文書要約方法及び装置
WO1999017229A1 (fr) * 1997-09-29 1999-04-08 Fujitsu Limited Systeme de signets par affichage d'image
JP2000049912A (ja) * 1998-05-27 2000-02-18 Nippon Denki Ido Tsushin Kk 無線通信機、無線通信システムおよび無線通信機の情報ダイヤルサ―ビスメニュ―更新制御方法
JP2000259660A (ja) * 1999-03-11 2000-09-22 Fuji Xerox Co Ltd 属性抽出装置
WO2001050343A1 (fr) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Dispositif d'extraction d'un mot-cle
JP2003114906A (ja) * 2001-08-13 2003-04-18 Xerox Corp ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
JP2004178604A (ja) * 2002-11-27 2004-06-24 Sony United Kingdom Ltd 情報検索装置及びその方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241993A (ja) * 2006-02-08 2007-09-20 Mieko Tsuyusaki 情報更新システム及び情報取得システム
JP2012018667A (ja) * 2010-07-07 2012-01-26 Nhn Corp テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
WO2012147840A1 (ja) * 2011-04-28 2012-11-01 有限会社アイ・アール・ディー データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法
JP2013152692A (ja) * 2011-04-28 2013-08-08 Ird:Kk データベース構築装置、データベース構築方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN1749995B (zh) 内容相关对象的创建和管理
JP6165913B1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2007133794A (ja) 電子文書管理装置、電子文書管理プログラム、電子文書管理システム
JP6645850B2 (ja) 情報管理装置、情報管理方法及び情報管理プログラム
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP3212983B1 (ja) 部品説明書の作成支援方法、部品説明書の作成支援システム、及びコンピュータ読取可能な記録媒体
JP6015546B2 (ja) 情報処理装置、情報処理方法、プログラム
JP2008191982A (ja) 検索結果出力装置
WO2020161506A1 (en) Method and system for capturing metadata in a document object or file format
JP2008181218A (ja) 入力支援方法及び装置
JP2006023878A (ja) データ抽出システム
CN107491466B (zh) 客户端设备、信息处理系统、以及信息处理方法
WO2021049272A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP2007133763A (ja) 要素情報比較装置およびプログラム
KR100846204B1 (ko) 인터넷 웹 메모 관리 시스템
JP5880637B2 (ja) 情報処理装置、その制御方法、及びプログラム、並びに情報処理システム、その制御方法、及びプログラム
JP2006309593A (ja) 帳票処理装置、帳票処理方法、プログラム及び記録媒体
JP2007041864A (ja) メタデータ取得・管理方法及び装置及びプログラム
JP6939473B2 (ja) 文書処理装置及びプログラム
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JP2000067071A (ja) 文書表示装置および文書表示方法並びに文書表示プログラムを記録した記録媒体
JP2009098829A (ja) 漫画のコマ検索装置
JP2011043930A (ja) 帳票処理システム、帳票処理サーバ装置、帳票処理装置、帳票処理方法、およびプログラム
JP2009128937A (ja) Web閲覧行動特徴抽出装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511