JP5238105B2 - プログラム、及びデータ抽出方法 - Google Patents

プログラム、及びデータ抽出方法 Download PDF

Info

Publication number
JP5238105B2
JP5238105B2 JP2007549011A JP2007549011A JP5238105B2 JP 5238105 B2 JP5238105 B2 JP 5238105B2 JP 2007549011 A JP2007549011 A JP 2007549011A JP 2007549011 A JP2007549011 A JP 2007549011A JP 5238105 B2 JP5238105 B2 JP 5238105B2
Authority
JP
Japan
Prior art keywords
data
extraction
condition
extracting
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007549011A
Other languages
English (en)
Other versions
JPWO2007066414A1 (ja
Inventor
正卓 松浦
宏也 林
真彦 永田
清英 大宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007066414A1 publication Critical patent/JPWO2007066414A1/ja
Application granted granted Critical
Publication of JP5238105B2 publication Critical patent/JP5238105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Description

本発明は、取得可能なデータのなかから指定された抽出条件を満たすデータを抽出するための技術に関する。
取得可能なデータのなかから任意のデータを抽出することができるデータ抽出装置は、現在、様々な用途に広く用いられている。インターネットで公開されている情報の検索では、検索エンジンとして用いられている。ユーザはそのデータ抽出装置を用いることにより、大量のデータのなかから所望のデータを迅速に得ることができる。
データ抽出装置は、予め定められた単位でデータを抽出する。その単位となるのは、例えばファイル、或いはレコードである。文書、及びインターネット上のWebページはファイルに相当する。顧客の利用実績POS(Point Of Sales)データやHHT(Hand Held Terminal)データなどはレコード単位で管理されるのが普通である。
図1は、従来のデータ抽出方法を説明する図である。ここで、図1を参照して、そのデータ抽出方法について具体的に説明する。
図1に示す従来のデータ抽出方法は、例えばクレジットカード会社で行われる場合のものである。表記した「JOURNAL」は、ファクトデータをレコード単位で格納したジャーナルファイルを表している。「MASTER」は、クレジットカードの所有者である顧客のデータをレコード単位で格納したマスタファイルを表している。それにより、図1に示すデータ抽出方法は、SQL(Structured Query Language)を用いて、共に複数、存在するジャーナルファイル、及びマスタファイルのなかから所望のものを連結(JOIN)させ、その連結結果から所望のレコードを抽出する場合の例を表している。
連結させるジャーナルファイル、マスタファイルのそれぞれの条件は、FROM句内のWHERE句に記述されている。そこに記述された条件により、マスタファイルは現在のものが選択され、ジャーナルファイルは2004年のものが選択される。そのFROM句内のFROM句には、ファイル間におけるレコードの対応関係はクレジットカードナンバーにより特定することが記述されている。連結結果から抽出されるレコードに格納されるデータの項目は、SERECT句に記述されている。そこに記述された項目は、顧客の指名(V.NAME)、その年齢(V.AGE)、利用回数(V.SALES_NUM)、売上額(V.SALES)である。連結結果から抽出するレコードの条件は、WHERE句に記述されている。そこに記述された条件は、カードの種類がコールドカード、というものである。このようなことから、2004年に利用し、現在もゴールドカードを持つ顧客のレコードが検索結果として抽出される。
連結結果から抽出されるレコードを異ならせるには、WHERE句に記述する抽出条件を変更すれば良い。シルバーカードを持つ顧客のレコードを抽出させるのであれば、例えば図2に示すように、「GOLD」の記述を「SILVER」に変更すれば良い。それにより、2004年に利用し、現在もシルバーカードを持つ顧客のレコードが検索結果として抽出される。
このように、従来のデータ抽出方法では、所望のデータを得るための抽出条件を決定し、その抽出条件毎に検索を行わせるようになっていた。このため、データを抽出する目的の数、つまり検索に使用する抽出条件の数が多くなるほど、全ての抽出結果を得るまでに要する時間が長くなり、効率的な作業が行えなくなるという問題点があった。
現在、デジタルデータで扱う情報の種類、及びその量は非常に増大しつつある。そのため、今後は従来のデータ抽出方法では対応するのが非常に困難となるのが予想される。このこともあって、膨大なデータのなかからでも必要な種類のデータを全てより迅速に得られるようにすることが重要であると考えられる。
特開2002−222194号公報 特開2005−70911号公報 特開平6−319906号公報
本発明は、膨大なデータのなかからでも必要な種類のデータを全てより迅速に得られるようにする技術を提供することを目的とする。
本発明の第1、及び第2の態様のプログラムは共に、取得可能なデータのなかから指定された抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させることを前提とし、それぞれ以下の機能を実現させる。
第1の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、入力する機能により一つ以上、入力された抽出条件を用いて、該抽出条件毎にデータを抽出する機能と、抽出する機能により抽出条件毎に抽出されたデータをそれぞれ異なる出力先に出力する機能と、を実現させる。
第2の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、入力する機能により入力された抽出条件を構成する条件式を複数の部分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確認することにより、取得する機能により取得したデータのなかで該抽出条件を満たすデータを抽出する機能と、を実現させる。
本発明のデータ抽出方法は、取得可能なデータのなかから指定された抽出条件を満たすデータを抽出するために適用されることが前提であり、対象となるデータが異なる抽出条件を複数、入力可能とさせ、抽出条件が1つ以上、入力された場合に、該抽出条件毎にデータの抽出を行い、該抽出によって得たデータを、該データが満たす抽出条件に応じた出力先に出力する。
本発明では、対象となるデータが異なる抽出条件を複数、入力可能とさせ、抽出条件が1つ以上、入力された場合に、抽出条件毎にデータの抽出を行い、それによって得たデータを、そのデータが満たす抽出条件に応じた出力先にそれぞれ出力する。このため、ユーザは、複数の抽出条件を定義して入力することにより、1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果をより迅速に得ることができる。この結果、高い作業効率も容易に実現させることができる。
本発明では、入力された抽出条件は、それを構成する条件式を複数の部分条件式に分割し、その分割によって得られる部分条件式の組み合わせで表現する形式に変換して、部分条件式単位でその部分条件式を満たすか否か確認することにより、データのなかで抽出条件を満たすデータを抽出する。部分条件式の組み合わせで表現する形式に抽出条件を変換することにより、異なる条件式に同じ部分条件式が存在していても、条件式毎に部分条件式をデータが満たすか否かの確認を行う必要性を回避できるようになる。このため、より小さい負荷でデータ抽出を行えることとなる。
従来のデータ抽出方法を説明する図である。 従来のデータ抽出方法で異なる種類のデータを抽出させるための抽出条件の相違を説明する図である。 本実施の形態によるデータ抽出装置の昨日構成を説明する図である。 本実施の形態によるデータ抽出装置100が可能なデータ抽出を説明する図である。 本実施の形態によるデータ集計装置を実現できるコンピュータのハードウェア構成の一例を示す図である。 XMLデータの構成例を説明する図である。 CSVデータの構成例を説明する図である。 抽出条件群の内容例を説明する図である。 タグDFA例を説明する図である。 階層照合NFA例を説明する図である。 CSV解析DFA例を説明する図である。 キーワードDFA例を説明する図である。 論理テーブル例を説明する図である。 出力バッファの管理方法を説明する図である。 抽出条件入力部110が実行する処理のフローチャートである。 データ入力構造検索部120が実行する処理のフローチャートである。 抽出条件判定部130が実行する処理のフローチャートである。 データ判定部140が実行する処理のフローチャートである。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その1)。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その2)。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その3)。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その4)。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その5)。 本実施の形態によるデータ抽出装置の適用例を説明する図である(その6)。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
図3は、本実施の形態によるデータ抽出装置の機能構成を説明する図である。
そのデータ抽出装置100は、入力装置210からデータ211としてテキストデータを入力し、そのデータ211を指定された抽出条件群220により振り分けて出力するものとして実現されている。そのために、抽出条件入力部110、データ入力構造検索部120、抽出条件判定部130、データ判定部140、外部出力用の出力バッファ150、及びデータ出力部160を備えている。ここでは便宜的に、入力装置210から入力するデータ211として、図6に示すようなXML(eXtensible Markup Language )データ、及び図7に示すようなCSV(Comma Separated Values)データのみを想定する。それらのデータは共にテキストデータである。
抽出条件入力部110によって入力される抽出条件群220は、例えば図8に示すような内容のものである。その図8では、(1)〜(3)に分けてそれぞれ抽出条件、及び出力条件を示している。そのように分けて示す抽出条件は全て、ユーザが所望のデータ211を抽出するためのものである。抽出条件と併せて示す出力条件は、その抽出条件によって抽出されるデータ211の出力先、及びそのファイル名を指定するものである。それに
より、抽出条件群220は、所望のデータ211別に、そのデータ211が満たすべき抽出条件、及びその出力先ファイル名を指定するものとなっている。そのようにデータ211の出力先を任意に指定できるようにしたのは、データ211をより迅速に所望の形で利用するのを可能とさせるためである。以降、(1)に記述された抽出条件は「抽出条件1」と表記する。これは他でも同様である。
図4は、本実施の形態によるデータ抽出装置100が可能なデータ抽出を説明する図である。ここで図4を参照して、そのデータ抽出について具体的に説明する。
図8に示す抽出条件群220は、データ211としてXMLデータを想定したものである。図4では、CSVデータを想定した抽出条件群220を示している。「Query」は抽出条件に相当し、「OutFile」は出力条件に相当する。Query(抽出条件)として表記した「$X」は、項目名「X」を表し、「$_」は任意の項目名を表している。それにより、例えばQuery1で表記した「$X==’X1’ OR $X==’Xa’」は、項目名「X」のデータがX1またはXaであるデータ211が抽出の対象であることを示している。その表記が「$_==’Xa’」となっているQueryでは、任意の項目のデータとしてXaが存在しているデータ211が抽出の対象であることを示している。そのデータ211はXMLデータ、及びCSVデータの何れであっても、ファイルとしてまとめて入力させても良いが、一つずつ順次、入力させても良い。一つずつ入力させる場合、XMLデータでは図6に示すようなものとなり、CSVデータでは、図7において、先頭に「000001」〜「000007」を表記した行のようなものとなる。ここでは便宜的に、それらのデータのまとまりをレコードと呼ぶことにする。また、2つの「’」の間に記述された文字列については「キーワード」と呼ぶことにする。そのキーワードは、図8に示す抽出条件群220では2つの「”」の間に記述された文字列が相当する。
本実施の形態では、文字列照合方式を用いて、抽出条件群220で指定された抽出条件の何れかを満たすデータ211を抽出し、満たす抽出条件に対応付けられた出力条件で指定された出力先ファイル名のファイルに出力する。それにより、Query1を満たすデータ211はファイル名「result1.csv」のファイル231として、Query2を満たすデータ211はファイル名「result2.csv」のファイル232として、Query3を満たすデータ211はファイル名「result3.csv」のファイル233として、それぞれ出力される。入力されたデータ211とファイル231〜3の何れかに出力されるデータ211の対応関係は、図中に表記の(1)〜(6)により示している。
各抽出条件はそれぞれ単独で考慮されるため、抽出条件は全て任意に定義することができる。このため、XMLデータやCSVデータなどのデータ211の種類毎に1つ以上の抽出条件を定義することもでき、また、その構造別に1つ以上の抽出条件を定義することもできるようになっている。従って、対象とするデータ211間でスキーマがどのように相違していても、その相違の影響は確実に回避させることができる。
上述したようなことから、抽出条件間は排他関係としなくとも良い。それにより、Query1とQuery2では条件式(論理式)「$X==’Xa’」を満たすデータ211をそれぞれ抽出する内容となっている。同様にQuery2とQuery3では条件式「$X==’Xb’」を満たすデータをそれぞれ抽出する内容となっている。この結果、ファイル231、232には共に(4)を表記したデータ211が出力され、ファイル232、233には共に(5)を表記したデータ211が出力されている。
このように、抽出条件群220により複数の抽出条件が指定されると、抽出条件毎にそれを満たすデータ211を振り分けて指定の出力先に出力するようになっている。このた
め、ユーザは、抽出条件群220として複数の抽出条件、及び出力条件を定義するだけで1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果はより迅速に得ることができる。この結果、高い作業効率も容易に実現させることができる。
上述したように、本実施の形態では文字列照合方式を採用している。その文字列照合方式は、抽出条件で指定した文字列と対象のデータ211との照合を、そのデータ211の先頭より後方に向かって逐次、行っていくことにより、その文字列がデータ211中に存在するか否かを調べるものである。その文字列照合方式では、先頭より後方に向かった走査を1回、行うだけで、抽出条件群220で定義された抽出条件の何れをデータ211が満たしているか確認することができる。そのため、定義された抽出条件の数に係わらず、常に迅速に抽出すべきデータ211を抽出することができる。その参考文献としては、例えば特許文献1、及び2が挙げられる。
図3の説明に戻る。
抽出条件入力部110は、上述したような抽出条件群220を入力し、抽出条件毎に、その抽出条件を解析して対応のオートマトンを生成する。それにより、抽出条件がXMLデータ用のものであればタグDFA(Deterministic Finite state Automaton)170、階層照合NFA(Non-deterministic Finite state Automaton)171、及びキーワードDFA180が生成される。抽出条件がCSVデータ用のものであればCSV解析DFA172、及びキーワードDFA180が生成される。論理テーブル190は、キーワードDFA172と同様に、抽出条件が想定するデータ211の種類に係わらず生成される。
抽出条件群220の作成は基本的に、ユーザによるデータ入力によって行われる。本実施の形態によるデータ抽出装置100と接続された端末装置で抽出条件群220を作成する場合、例えばユーザは抽出条件群220作成用の画面を表示させ、その画面上に所望の内容の抽出条件群220を入力する。その入力後、データ抽出を指示すると、作成された抽出条件群220がデータ抽出装置100に出力される。
上記論理テーブル190としては、抽出条件群220が図8に示す内容であった場合、抽出条件入力部110によって図13に示すようなものが生成される。図13に示すように、その論理テーブル190は、A論理テーブル190a、及びZ論理テーブル190bから構成されている。
A論理テーブル190aは、抽出条件を構成する条件式(論理式)を関係演算子(図8中では「=」及び「<」が相当)で分解して、その条件式が表現する論理により細分化し(図8では抽出条件2を構成する条件式「/root/Company/code <
99」は「/root/Company/code」「< 99」に分解される)、細分化した条件式(部分条件式)毎に固有の論理番号を付した構成のものである。Z論理テーブル190bは、条件式、或いは抽出条件を部分条件式、或いは条件式に付した論理番号の組み合わせで表現し、表現した組み合わせ毎に固有の論理番号を付した構成のものである。組み合わせる論理番号はA論理テーブル190a、及びZ論理テーブル190bの何れのものであっても良い。その論理番号を用いて条件式、或いは抽出条件を表現することにより、A論理テーブル190a、或いはZ論理テーブル190bで参照すべきレコード(行)を特定できるようにさせている。特には図示していないが、そのZ論理テーブル190bには、論理番号の組み合わせ毎に、その組み合わせで表現される条件式、或いは抽出条件が成立しているか否かを示す符号を格納できるようになっている。以降テーブル190a、及び190bでそれぞれ割り当てる論理番号を区別するために、A論理テーブル190aの論理番号には「A」、Z論理テーブル190bの論理には「Z」をそれぞれ先頭に付して表記する。
Z論理テーブル190bで論理番号Z1が割り当てられた組み合わせは「A1×A2」である。その組み合わせ「A1×A2」は、論理番号A1の部分条件式(/root/origin)が成立し、且つ論理番号A2の部分条件式(”atcg”)が成立するデータ211が抽出対象であることを表す形式の論理式となっている。それにより、組み合わせ(論理式)「A1×A2」中の「×」は、論理番号A1、及びA2の部分条件式の論理積を行うことを示す論理演算子となっている。その論理式は、抽出条件1の内容を表している。同様に、論理番号Z4、及びZ5の各論理式はそれぞれ抽出条件3、及び2の内容を表している。抽出条件2はZ5=Z2×Z3になっている。ここで190bのテーブル内で、Z2=A3×A4によりA3=/root/Company/code、A4=<99に対応する。
また、Z3=A1×A5により、A1=/root/origin、A5=“gtac”に対応する。したがって、抽出条件2は、Z論理番号Z5と介して、A論理番号A3、A4、A1、A5に対応し、図8で示す抽出条件2の論理積(AND)は、図13で示す論理テーブルとその要素間のリンク状態で示される。図8の抽出条件3は図13の抽出条件3、Z論理番号4、A論理番号A1、A6の論理テーブルとその要素間のリンクで示される。すなわち、抽出条件3はZ4=A1×A6(A1=/root/origin、A6=“aacg”)としてA論理番号に対応している。すなわち、このような論理番号によって各抽出条件で形成される論理テーブルを使って抽出条件毎のデータ判別が可能となる。
図13に示す検索結果判定情報195は、抽出条件毎に、その抽出条件を表現する論理番号の組み合わせに対して付された論理番号、その抽出条件を満たすデータ211を格納すべき出力バッファ150を示す番号(図中「出力バッファNo.」と表記)、及びファイルディスクリプタ(対応付けられた出力条件)がまとめられたものである。それにより、何れかの抽出条件を満たすデータ211は、検索結果判定情報195を参照して出力すべき出力バッファ150に出力された後、出力すべきファイルに出力される。
上記オートマトン(タグDFA170、階層照合NFA171、キーワードDFA180、CSV解析DFA172)は検索条件中の文字列をデータ211と照合するための状態遷移テーブルである。状態間は遷移の方向を示す矢印で結んで表現される。先頭を初期状態とし、この初期状態からデータ211中の文字列に応じて順次、状態を遷移させる。遷移させる状態には、検索条件中の文字列の最後に位置する文字に相当する受理状態が1つ以上、含まれている。それによりオートマトンは、データ211中に検出すべき文字列が存在していれば、何れかの受理状態に遷移するように生成される。受理状態に遷移した場合、その受理状態に応じたヒット情報を出力するようになっている。そのヒット情報は、遷移した受理状態に応じた特有のものであり、オートマトンの生成時に併せて生成される。
上記タグDFA170は、キーワードと照合すべき文字列(要素内容)が存在する要素までの検索パスを検出するためのものである。抽出条件群220が図8に示す内容であった場合、抽出条件入力部110によって図9に示すようなタグDFA170が最終的に生成される。図8に示す抽出条件群220では、検索パスとして「/root/origin」及び「/root/Company/code」が存在することから、それぞれがタグ名である文字列「root」「origin」「Company」及び「code」をそれぞれ検出できるように生成されている。それらの文字列の最後に位置する文字「t」「n」「y」及び「e」の何れかに相当する受理状態まで遷移することで、その文字に対応する文字列が検出されたことを示すヒット情報170a〜dの何れかが出力される。
階層照合NFA171は、現在、対象とする検索パスを管理するためのものである。抽
出条件群220が図8に示す内容であった場合、抽出条件入力部110によって図10に示すような階層照合NFA171が最終的に生成される。そのNFA171は、図10に示すように、何れかの検索パスに記述されたタグ名を単位とした状態遷移が行われるように生成されている。このため、その状態遷移は開始タグ、及び終了タグによって発生する。ここでは、「4」、及び「2」を表記した状態が受理状態に相当する。
「4」を表記した受理状態に遷移したことは、検索パス「/root/Company/code」が検出されたことを意味する。それにより、その検索パスで指定されたノードでは、その値が99未満か否か、つまり論理番号A4の部分条件式(論理)が成立するか否かの照合を行うためのヒット情報171aが出力される。そのヒット情報171aは、照合の対象となる部分条件式を示す論理番号(ここではA4)、検索パスの階層の深さを示す階層情報、及びその部分条件式で関係を確認すべき内容を示す比較情報(ここでは<99)を含むものである。同様に「2」を表記した受理状態に遷移したことは、検索パス「/root/origin」が検出されたことを意味するから、その検索パスで指定されたノード、つまりタグ名「origin」のタグでは、その文字列が「atcg」「gtac」或いは「aacg」の何れと一致するか否かの照合を行うためのヒット情報171b−dが出力される。それらのヒット情報171b−dで比較情報を示していないのは、それらに表記した論理番号に対応する部分条件式の照合はキーワードDFA180により行うためである。
階層照合NFA171における状態遷移は、図9に示すタグDFA170を用いて行われる。例えばタグ名である文字列「root」をタグDFA170により検出すると、つまりタグDFA170によりヒット情報170aを出力すると、NFA171では「0」を表記した初期状態から「1」を表記した状態に遷移する。次にタグDFA170により文字列「origin」を検出すると、NFA171では「1」を表記した状態から「2」を表記した状態に遷移する。このとき、タグDFA170により文字列「Company」を検出すると、NFA171では「1」を表記した状態から「3」を表記した状態に遷移する。それらの何れの文字列もタグDFA170により検出できなければ、NFA171では「1」を表記した状態から「0」を表記した初期状態に遷移する。そのように遷移させることにより、階層照合NFA171を用いて検索パスに沿った階層の移動の有無を把握し、対象とする検索パスを管理する。
CSV解析DFA172は、キーワードと照合すべき文字列(要素内容)が存在する要素までの検索パスを検出するためのものである。その要素が2つのダブルコーテーション間に存在するCSVデータ(図7)では、抽出条件入力部110によって図11に示すようなCSV解析DFA172が生成される。図11中に表記した「0x」はそれに続くシンボルが16進数表現であることを表している。
キーワードDFA180は、抽出条件により指定されたキーワードと一致する文字列をデータ211中から検出するためのものである。抽出条件群220が図8に示す内容であった場合、抽出条件入力部110によって図12に示すようなキーワードDFA180が最終的に生成される。それに登録された何れかのキーワードの最後に位置する文字に相当する受理状態まで遷移した場合、つまり文字列「aacg」「acgt」及び「gtac」の何れかを検出できた場合、検出された文字列に応じてヒット情報180a〜cの何れかが出力される。
データ入力構造検索部120は、入力装置210から所定量ずつ連続的にデータ211を入力し、そのデータ211の種類に応じて、照合に用いるオートマトンを決定する。それにより、データ211がXMLデータであれば、タグDFA170、及び階層照合NFA171を用いて抽出条件の何れかに記述された検索パスの検出を行う。データ211が
CSVデータであれば、CSV解析DFA172を用いて抽出条件の何れかに記述された項目名の検出を行う。検索パス、或いは項目名を検出すると、その検索パスによって指定されたノード、或いはその項目名のセルが開始する位置を示すデータ位置情報、及び検出された文字列を示すノード・セル情報を抽出条件判定部130に通知する。それらの情報は例えばヒット情報として生成するものか、或いはそれを含むものである。それらの情報の通知は、データ211の終端を検出するまで、検索パス、或いは項目名を検出する度に行う。その終端の検出は、XMLデータではルートタグと組になる終了タグの検出に相当し、CSVデータでは所定個数のセルの検出に相当する。データ入力構造検索部120による検索パス、或いは項目名の検出は、A論理テーブル190aに格納された部分条件式が成立することの確認に相当する。
抽出条件判定部130は、データ入力構造検索部120から通知されたデータ位置情報が示すデータ位置より、キーワードDFA180を用いた照合を行う。その照合の結果、そのデータ位置から何れかのキーワードと一致する文字列、或いは関係演算子が示す関係を満たす値(図8に示す抽出条件群220では99未満の値)が存在することを確認すると、Z論理テーブル190bの該当論理番号の箇所にそのことを示す符号(以降「真符号」と表記し、それと異なる符号を「偽符号」と表記する)を格納する。その確認ができる前にデータ211の終端を検出した場合には、その終端の位置を示すデータ位置情報をデータ入力構造検索部120に通知する。それにより、構造検索部120は、データ211の終端を自身が検出したか否かに係わらず、その終端まで走査が終了したことをデータ判定部140に通知する。
抽出条件判定部130は、上記通知を行うか、或いは構造検索部120が終端を検出するまで、構造検索部120から情報が通知される度にキーワードDFA180を用いた照合を行う。この結果、データ211が抽出条件2を満たしている場合には、論理番号Z2、及びZ3の符号として真符号が順次、格納され、最後に論理番号Z5の符号として真符号が格納されることになる。そのようにして、対象とするデータ211が論理式を満たす論理番号の箇所にのみ真符号が格納されることから、Z論理テーブル190bを参照することにより、データ211が満たす抽出条件を確認できるようになっている。
このようにして本実施の形態では、抽出条件を構成する条件式をそれが表現する論理により細分化し、その細分化によって得られた部分条件式(細分化論理)単位での照合を行うようにしている。それにより、一致する文字列、或いは検索パスの検出、関係演算子で表す関係の確認、及びそのようなことを行うべき箇所の特定、などをそれぞれ個別に実施している。そのようにすると、より柔軟に対応することが可能となり、データ211の種類やその構造などの情報がたとえ不足していたとしても、ユーザは得られている情報から所望のデータ211が満たす内容を抽出条件としてより容易に定義できるようになる。このため、ユーザにとっての高い利便性が実現される。
部分条件式(細分化論理)は、同じ、或いは他の抽出条件で別に存在する場合がある。図8に示す例では、部分条件式「/root/origin」は抽出条件1〜3の何れにも記述されている。しかし、そのような複数の同じ記述は、条件式を細分化することにより、一つの部分条件式として残せば済むようになる。それにより、抽出条件の数や内容に係わらず、成立するか否か確認すべき部分条件式は必要最小限に抑えることができる。条件式、或いは抽出条件は複数の部分条件式の組み合わせで表現される。このため、それらが成立するか否かはより迅速に行えることとなる。
データ判定部140は、Z論理テーブル190bを参照して、データ211が満たす抽出条件を確認する。その確認により、何れかの抽出条件を満たしていることが判明すると、検索結果判定情報195(図13)を参照して、出力すべき出力バッファ150にデー
タ211を出力して格納する。
図14は、出力バッファの管理方法を説明する図である。
データ211を対応する出力バッファ150への出力は、出力バッファ情報151、及びバッファ情報152により管理している。出力バッファ情報151は、抽出条件群220により確保した出力バッファ150の数を示す取得バッファ数情報、及びバッファ情報152にアクセスするためのポインタ情報を備えている。そのバッファ情報152は、取得バッファ数情報が示す数のレコードを備えたものであり、各レコードには、対応する出力バッファ150(ここでは出力バッファ150a〜cのうちの一つ)に関する複数の情報を有する個別バッファ情報153(ここでは個別バッファ情報153a〜cのうちの一つ)がそれぞれ格納されている。それら出力バッファ情報151、及びバッファ情報152を格納するエリアは出力バッファ150と共に、データ抽出装置100に搭載、或いは接続された記憶装置1401上に確保されている。タグDFA170、階層照合NFA171、CSV解析DFA172、キーワードDFA180、及び論理テーブル190も例えばその記憶装置1401に格納される。
その個別バッファ情報153は、対応する出力バッファ150にアクセスするためのポインタ情報、そのデータ211を格納可能な全サイズを表す全バッファサイズ、そのサイズのなかでデータ211を格納可能な残りのサイズを表す残バッファサイズ、確保した出力バッファ150自体のサイズを表す出力バッファサイズ、を有している。各レコードに付した番号の大小関係は抽出条件の番号のそれと同じとさせている。つまり、レコード番号0のレコードは抽出条件1に対応している。それにより、データ211が満たす抽出条件に対応するレコードを特定できるようにさせている。
上述したようなことから、データ判定部140は、Z論理テーブル190bを参照してデータ211が満たす抽出条件が存在していることを確認すると、検索結果判定情報195を参照してその抽出条件を確認し、出力バッファ情報151、及びバッファ情報152を参照する。それにより、確認した抽出条件に対応するレコードをバッファ情報152から取り出し、そのレコードに格納された個別バッファ情報153により指定される出力バッファ150にデータ211を出力する。残バッファサイズは、出力するデータ211のサイズにより更新する。
データ出力部160は、各出力バッファ150の例えば残バッファサイズを監視し、そのサイズが所定値以下になるか、或いは入力装置210から入力して処理するデータ211が無くなった場合に、検索結果判定情報195を参照して、出力バッファ150に格納されているデータ211を対応するファイルに出力する。それにより、出力条件で指定された出力先ファイル名のファイルに、これまでに抽出したデータ211を保存する。ここでは、3つのファイル231〜233は共に同じ出力装置230上に保存させている。
図5は、データ抽出装置100を実現できるコンピュータのハードウェア構成の一例を示す図である。抽出装置100は複数のコンピュータ(データ処理装置)により実現させても良いが、ここでは図5に構成を示す1台のコンピュータによって実現されていることを前提として説明することとする。
図5に示すコンピュータは、CPU51、メモリ52、入力装置53、出力装置54、外部記憶装置55、媒体駆動装置56、及びネットワーク接続装置57を有し、これらがバス58によって互いに接続された構成となっている。同図に示す構成は一例であり、これに限定されるものではない。
メモリ52は、データを一時的に格納するRAM等のメモリである。外部記憶装置55
、若しくは媒体駆動装置56がアクセスする可搬記録媒体MDに記憶されているプログラム、あるいはデータが一時的に格納される。CPU51は、プログラムをメモリ52に読み出して実行することにより、全体の制御を行う。そのプログラムは、ネットワーク接続装置57によりネットワークを介して取得したものであっても良い。
入力装置53は、例えば、キーボード、マウス等の入力機器と接続されているか、或いはそれらを有するものである。そのような入力機器に対するユーザの操作を検出し、その検出結果をCPU51に通知する。
出力装置54は、例えばディスプレイと接続されているか、或いはそれを有するものである。CPU51の制御によって送られてくるデータをディスプレイ上に出力させる。
ネットワーク接続装置57は、例えばイントラネットやインターネット等のネットワークを介して、他の装置と通信を行うためのものである。外部記憶装置55は、例えばハードディスク装置である。主に各種データやプログラムの保存に用いられる。
記憶媒体駆動装置56は、フレキシブル・ディスク、光ディスク(ここではCD−ROM、CD−R、及びDVD等を含む)、或いは光磁気ディスク等の可搬型の記録媒体MDにアクセスするものである。
図3に示す出力装置230は、図5に示す構成では外部記憶装置55、記録媒体MDが装着された媒体駆動装置56、或いはネットワーク接続装置57によりアクセス可能な外部装置に相当する。入力装置210は、記録媒体MDが装着された媒体駆動装置56、或いはネットワーク接続装置57によりアクセス可能な外部装置に相当する。抽出条件群220の入力は、入力装置53、記録媒体MDが装着された媒体駆動装置56、或いはネットワーク接続装置57により行うことができる。図14に示す記憶装置1401は、例えば外部記憶装置55、及びメモリ52の少なくとも一方に相当する。
検索条件入力部110は、例えば出力装置54を除く各部51〜53、及び55〜58によって実現される。データ入力構造検索部120、及びデータ出力部160は共に、例えば入力装置53、及び出力装置54を除く各部51、52、及び55〜57によって実現される。抽出条件判定部130、及びデータ判定部140は共に、例えば入力装置53、出力装置54、及びネットワーク接続装置57を除く各部51、52、55、56、及び58によって実現される。
次に、上述した各部110、120、130、及び140の動作について、図15〜図18に示す各処理のフローチャートを参照して詳細に説明する。それらの処理は何れも、例えばCPU51が、外部記憶装置55、若しくは媒体駆動装置56に装着された可搬記録媒体MDに記憶されているプログラムをメモリ52に読み出して実行することにより実現される。
図15は、抽出条件入力部110が実行する処理のフローチャートである。始めに図15を参照して、その処理について詳細に説明する。その処理は、例えば抽出条件群220の入力をユーザが入力装置53、或いはネットワークを介して指示することで起動される。その場合、抽出条件群220は入力装置53、或いはネットワーク接続装置57を介して入力される。
先ず、ステップ11では、抽出条件群220を入力し、例えばメモリ52に保存する。続くステップ12では、保存した抽出条件群220のなかから1抽出条件を選択して読み出し、それを解析して対応するオートマトンの種類を特定する。その次に移行するステップ13では、特定した種類のオートマトンを生成、或いは更新する。その生成、或いは更
新により、抽出条件に記述された文字列が必要に応じてタグDFA170、階層照合NFA171、或いはキーワードDFA180に登録される。
ステップ13に続くステップ14では、抽出条件群220のなかに選択していない他の抽出条件が有るか否か判定する。そのような抽出条件が残っていた場合、判定はYESとなって上記ステップ12に戻り、他の選択条件を選択する。そうでない場合には、判定はNOとなり、ステップ15で論理テーブル190の生成と併せて検索結果判定情報195(図13)、出力バッファ情報151、及びバッファ情報152の生成を行い、抽出条件数に応じた出力バッファ150(図14)の確保を行った後、一連の処理を終了する。このようにして、抽出条件群220の入力により、必要なオートマトンの生成に併せて、データ211を出力すべき出力先に出力するための準備が行われる。
図16は、データ入力構造検索部120が実行する処理のフローチャートである。次に図16を参照して、その処理について詳細に説明する。その処理は、例えばデータ211の入力装置210からの取り込みが指示されている間、実行される。
先ず、ステップ21では、入力装置210から入力すべきデータ211が有るか否か判定する。そのようなデータ211が無かった場合、判定はNOとなり、再度、その判定を行う。それにより、そのデータ211が生じるのを待つ。一方、そうでない場合には、判定はYESとなってステップ22に移行する。
ステップ22では、入力装置210から所定量のデータ211を入力する。続くステップ23では、入力したデータ211から一つを選択し、抽出条件入力部110によって決定したオートマトンを用いて、それに登録された文字列の何れかと一致する文字列の検索を行う。
その検索は1文字単位で行い、その検索が終了するとステップ24に移行して、対象となる文字列(検索パス、項目名、など)を検出できたか否か判定する。そのような文字列を検出できなかった場合、判定はNOとなってステップ27に移行する。そうでない場合には、判定はYESとなってステップ25に移行する。
ステップ25では、データ位置情報等を抽出条件判定部130に通知する。その通知により、抽出条件判定部13はキーワードDFA180を用いた照合を行い、その照合によってデータ211の終端を検出すると、そのデータ位置情報を通知する。このことから、次のステップ26では、その通知が有ったか否か判定する。その通知が有った場合、判定はYESとなってステップ28に移行する。そうでない場合には、判定はNOとなって上記ステップ23に戻り、検索を続行する。
上記ステップ24の判定がNOとなって移行するステップ27では、検索によってデータ211の終端を検出したか否か判定する。その終端を検出した場合、判定はYESとなってステップ28に移行する。そうでない場合には、判定はNOとなって上記ステップ23に戻り、検索を続行する。
ステップ28では、データ211の終端が検出されたことをデータ判定部140に通知する。続くステップ29では、入力したデータ211のなかで未選択のデータ211が有るか否か判定する。未選択のデータ211が存在する場合、判定はYESとなって上記ステップ23に戻り、未選択のデータ211を選択して検索を開始する。そうでない場合には、判定はNOとなって上記ステップ21に戻る。それにより、入力装置210に入力すべきデータ211が有るか否かの確認を行う。
図17は、抽出条件判定部130が実行する処理のフローチャートである。次に図17を参照して、その処理について詳細に説明する。
先ず、ステップ41では、レコードの終了通知が通知されるのを待つ。その通知を受け取ると、判定がNOとなってステップ42に移行し、通知されたデータ位置情報、及びキーワードDFA180を用いた照合を行う。その次に移行するステップ43では、キーワードDFA180に登録されたキーワードの何れかと一致する文字列をデータ211から検出できたか否か判定する。そのような文字列を検出できた場合、判定はYESとなり、ステップ44で論理テーブル190(Z論理テーブル190b)の該当論理番号の箇所に真符号を設定した後、上記ステップ41に戻り、通知待ちの状態に移行する。そうでない場合には、判定はNOとなってステップ45に移行する。
ステップ45では、データ211の終端を検出したか否か判定する。照合によってその終端を検出した場合、判定はYESとなり、そのことを通知するためにデータ位置情報をデータ入力構造検索部120にステップ46で通知した後、上記ステップ41に戻る。そうでない場合には、判定はNOとなって上記ステップ42に戻り、照合を続行する。
上述したようにして、データ入力構造検索部120と抽出条件判定部130の間では必要な情報のやりとりが随時、行われ、その情報によってそれぞれ処理を進行させる。それにより、1データ211毎に、それが成立する抽出条件を確認し、その確認結果に応じた処理を行うようになっている。
図18は、データ判定部140が実行する処理のフローチャートである。最後に図18を参照して、その処理について詳細に説明する。
先ず、ステップ51では、データ入力構造検索部120からデータ211の終端が通知されるのを待つ。その通知を受け取ると、判定がNOとなってステップ52に移行し、論理テーブル190を参照して、現在、対象としているデータ211が満たす抽出条件を判定する。その後はステップ53に移行する。
ステップ53では、データ211が満たす抽出条件が有るか否か判定する。そのような抽出条件が存在した場合、判定はYESとなってステップ54に移行し、検索結果判定情報195(図13)、出力バッファ情報151、及びバッファ情報152(図14)を参照してデータ211を出力すべき出力バッファ150に出力し、対応する個別バッファ情報153を更新した後、上記ステップ51に戻る。それにより、通知待ちの状態に移行する。一方、そうでない場合には、判定はNOとなってそのステップ51に戻る。
図19〜図24は、上記データ抽出装置の適用例を説明する図である。以降は、図19〜図24を参照して、その適用可能な利用法について具体的に説明する。図19〜図24において、データ抽出装置は「抽出器」と表記している。
図19は、複数のデータ抽出装置100を多段階で使用する場合の例を示している。データ1903を入力するデータ抽出装置100は、そのデータ1903を2つの連結器1910に振り分けている。その二つの連結器1910の一方は、マスタファイル1901のデータをデータ1903と連結させて別のデータ抽出装置100に出力し、そのデータ抽出装置100は連結結果を2つの集計器1920に振り分けている。その2つの集計器1920はそれぞれ異なるデータ抽出装置100に集計結果を出力し、その集計結果を入力するデータ抽出装置100はそのデータをそれぞれ3つのファイルに振り分けて出力している。これらは、二つの連結器1910の他方側でも同様である。
図20は、入力データの振り分けにデータ抽出装置100を使用する場合の例を示している。その入力データは、ジャーナルファイル2000に格納された各レコードのデータ
である。データ抽出装置100は、抽出条件を満たすデータをジャーナルファイル2001〜3のうちの何れかに振り分けて出力するために用いられている。そのように振り分けるのは、例えばマスタX〜Zとの連結条件がそれぞれ異なることに対応するためである。そのように振り分けると、データを3系統で並行して処理することが可能となることから、処理の高速化を実現できる。
図21は、連結結果のデータの振り分けにデータ抽出装置100を使用する場合の例を示している。その連結結果は、マスタとジャーナルのデータを連結させたものである。データ抽出装置100は、抽出条件1〜3の何れかを満たすデータを、その抽出条件に応じてファイル2101〜3のうちの何れかに出力するために用いられている。
図22は、集計結果のデータの振り分けにデータ抽出装置100を使用する場合の例を示している。その集計結果は、マスタとジャーナルのデータの連結結果に対して集計操作を行ったものである。データ抽出装置100は、抽出条件1〜3の何れかを満たす集計結果のデータを、その抽出条件に応じてファイル2201〜3のうちの何れかに出力するために用いられている。
図23は、新聞社等で実施されるクリッピングサービスの提供用にデータ抽出装置100を使用する場合の例を示している。その場合、データ抽出装置100にはサービス登録者毎に、その登録者に送るべき記事データが満たす抽出条件を定義する。その抽出装置100には随時、記事データが入力され、その記事データが満たす抽出条件に応じて対応するファイルに出力される。そのファイルに出力された記事データは、定期的にサービス登録者に配信される。サービス登録者の追加、削除、或いは要求の変更などは、抽出条件の追加、削除、或いは内容の変更によって対応することができる。
図24は、ハイウェイ利用調査システムにデータ抽出装置100を使用する場合の例を示している。その場合、ハイウェイのモニタシステムから随時、データがデータ抽出装置100に入力される。その抽出装置100には、必要なデータのみを抽出するための抽出条件を定義する。それにより、抽出装置100は、抽出条件に従ってデータを選別する(フィルタリングする)。選別されたデータは、連結器によりマスタデータと照合され、より詳細なデータに展開される。例では、自動車の番号が「k 2104」のデータに対して会社名「○○通運」が付加されている。マスタデータと照合されたデータは集計器により、例えば会社毎に集計されて出力される。
なお、本実施の形態では、抽出条件によって出力先を振り分けるデータそのものを外部から入力しているが、そのデータは実際に振り分けるデータの生成用、或いは特定用のものであっても良い。つまり符号化された圧縮データのようなものであっても良い。そのようなデータの入力は、記録媒体MDに記録して行うようにしても良い。

Claims (4)

  1. 取得可能なデータのなかから指定された第一の抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させるプログラムであって、
    前記データを取得する機能と、
    前記第一の抽出条件を入力する機能と、
    前記入力する機能により二つ以上、入力された前記第一の抽出条件それぞれを、該第一の抽出条件それぞれに含まれる複数の部分条件に分割し、該分割によって得られる部分条件を複数の前記第一の抽出条件に共通して含まれる共通条件と該共通条件以外の非共通条件との組み合わせで表現する第二の抽出条件に前記第一の抽出条件それぞれを変換し、前記第二の抽出条件の前記部分条件それぞれを前記データの形式に対応する照合用オートマトンにそれぞれ変換し、前記データより前記照合用オートマトンを用いて前記部分条件単位で該部分条件を満たすデータをそれぞれ抽出し、該抽出したデータそれぞれから、前記第二の抽出条件それぞれを満たすデータを抽出することにより、前記第一の抽出条件を満たすデータを抽出する機能と、
    を実現させるためのプログラム。
  2. 請求項1記載のプログラムであって、
    前記入力する機能は、前記第一の抽出条件それぞれと併せて、該第一の抽出条件それぞれと対応付けたデータの出力先に関する出力条件をそれぞれ入力することができ、
    前記出力条件に従って、該出力条件と対応付けられた抽出条件を満たすデータを出力するプログラム。
  3. 請求項1記載のプログラムであって、
    前記抽出する機能により前記第二の抽出条件毎に抽出したデータはそれぞれ異なる出力先に出力するプログラム。
  4. 取得可能なデータのなかから指定された第一の抽出条件を満たすデータを抽出するためのデータ抽出方法において、
    前記第一の抽出条件を二つ以上、取得した場合に、前記第一の抽出条件それぞれを、該第一の抽出条件それぞれに含まれる複数の部分条件に分割し、該分割によって得られる部分条件を複数の前記第一の抽出条件に共通して含まれる共通条件と該共通条件以外の非共通条件との組み合わせで表現する第二の抽出条件に前記第一の抽出条件それぞれを変換し、前記第二の抽出条件の前記部分条件それぞれを前記データの形式に対応する照合用オートマトンにそれぞれ変換し、前記データより前記照合用オートマトンを用いて前記部分条件毎に該部分条件を満たすデータをそれぞれ抽出して該抽出によって得たデータを記憶ユニットに記憶し、
    前記抽出によって得たデータを、前記記憶ユニットから読み出し、該読み出したデータそれぞれから、前記第二の抽出条件それぞれを満たすデータを抽出することにより、前記第一の抽出条件を満たすデータを抽出する
    処理を情報処理装置に実行させることを特徴とするデータ抽出方法。
JP2007549011A 2005-12-09 2005-12-09 プログラム、及びデータ抽出方法 Active JP5238105B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/022699 WO2007066414A1 (ja) 2005-12-09 2005-12-09 プログラム、データ抽出装置、及び方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2010181831A Division JP2011008811A (ja) 2010-08-16 2010-08-16 プログラム、及びデータ抽出方法
JP2013034951A Division JP5633589B2 (ja) 2013-02-25 2013-02-25 プログラム、データ抽出装置、及び方法

Publications (2)

Publication Number Publication Date
JPWO2007066414A1 JPWO2007066414A1 (ja) 2009-05-14
JP5238105B2 true JP5238105B2 (ja) 2013-07-17

Family

ID=38122567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007549011A Active JP5238105B2 (ja) 2005-12-09 2005-12-09 プログラム、及びデータ抽出方法

Country Status (3)

Country Link
US (1) US20080319985A1 (ja)
JP (1) JP5238105B2 (ja)
WO (1) WO2007066414A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8261186B2 (en) 2009-01-02 2012-09-04 Apple Inc. Methods for efficient cluster analysis
JP5855989B2 (ja) * 2012-03-21 2016-02-09 三菱電機インフォメーションネットワーク株式会社 データ処理装置及びデータ処理方法及びデータ処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225238A (ja) * 1992-02-07 1993-09-03 Nippon Steel Corp データベース検索システム
JPH06139291A (ja) * 1992-10-30 1994-05-20 Hitachi Ltd 情報検索方法およびシステム
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2001344282A (ja) * 2001-03-08 2001-12-14 Hitachi Ltd 文書検索方法および装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69229521T2 (de) * 1991-04-25 2000-03-30 Nippon Steel Corp Datenbankauffindungssystem
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
EP0667586A3 (en) * 1994-02-14 1996-08-28 Digital Equipment Corp Database creation system.
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
CH689288A5 (de) * 1994-10-21 1999-01-29 Komax Holding Ag Verfahren und Vorrichtung zum Bestuecken von Steckergehaeusen.
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
EP1122651B1 (en) * 2000-02-03 2010-05-19 Hitachi, Ltd. Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor
US20040010482A1 (en) * 2002-07-11 2004-01-15 Austin James R. Creation theory
US20040254919A1 (en) * 2003-06-13 2004-12-16 Microsoft Corporation Log parser
EP1709553A4 (en) * 2003-07-11 2009-08-26 Computer Ass Think Inc METHOD AND DEVICE FOR PRODUCING CSV FORMATTED EXTRACTION FILES
JP4497882B2 (ja) * 2003-10-01 2010-07-07 キヤノン株式会社 情報出力装置及び方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225238A (ja) * 1992-02-07 1993-09-03 Nippon Steel Corp データベース検索システム
JPH06139291A (ja) * 1992-10-30 1994-05-20 Hitachi Ltd 情報検索方法およびシステム
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2001344282A (ja) * 2001-03-08 2001-12-14 Hitachi Ltd 文書検索方法および装置

Also Published As

Publication number Publication date
JPWO2007066414A1 (ja) 2009-05-14
US20080319985A1 (en) 2008-12-25
WO2007066414A1 (ja) 2007-06-14

Similar Documents

Publication Publication Date Title
JP4365162B2 (ja) 構造化文書のデータを検索する装置および方法
US8892599B2 (en) Apparatus and method for securing preliminary information about database fragments for utilization in mapreduce processing
US9152632B2 (en) Information management system
US6226634B1 (en) Association rule generation and group-by processing system
US20160162504A1 (en) Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
CN102959578B (zh) 取证系统、取证方法及取证程序
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
US20090043767A1 (en) Approach For Application-Specific Duplicate Detection
JP3566111B2 (ja) 記号辞書作成方法及び記号辞書検索方法
US7024405B2 (en) Method and apparatus for improved internet searching
CN102893281A (zh) 信息搜索设备、信息搜索方法、计算机程序和数据结构
US20090030887A1 (en) Recording medium in which collation processing program is stored, collation processing device and collation processing method
JP5238105B2 (ja) プログラム、及びデータ抽出方法
CN101377816B (zh) 匹配规则包含位移指示符的并行多模式匹配的方法及系统
JP2011008811A (ja) プログラム、及びデータ抽出方法
JP5633589B2 (ja) プログラム、データ抽出装置、及び方法
JP2014199678A (ja) 抽出制御プログラム、抽出制御方法、及び抽出制御装置
JP2006171800A (ja) データ集計装置、その方法、及びプログラム
JP2009098931A (ja) キーワード間の関連度算出システム及び関連度算出方法
Agam et al. Content-based document image retrieval in complex document collections
Chantaranimi et al. Evaluation of Candidate Pair Generation Strategies in Entity Matching
JP4889964B2 (ja) 規則文章作成装置
US20090187562A1 (en) Search method
JPH11203312A (ja) キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体
US20020138482A1 (en) Process for nonlinear processing and identification of information

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110803

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130330

R150 Certificate of patent or registration of utility model

Ref document number: 5238105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3