JP5238105B2 - プログラム、及びデータ抽出方法 - Google Patents
プログラム、及びデータ抽出方法 Download PDFInfo
- Publication number
- JP5238105B2 JP5238105B2 JP2007549011A JP2007549011A JP5238105B2 JP 5238105 B2 JP5238105 B2 JP 5238105B2 JP 2007549011 A JP2007549011 A JP 2007549011A JP 2007549011 A JP2007549011 A JP 2007549011A JP 5238105 B2 JP5238105 B2 JP 5238105B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- extraction
- condition
- extracting
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Description
図1に示す従来のデータ抽出方法は、例えばクレジットカード会社で行われる場合のものである。表記した「JOURNAL」は、ファクトデータをレコード単位で格納したジャーナルファイルを表している。「MASTER」は、クレジットカードの所有者である顧客のデータをレコード単位で格納したマスタファイルを表している。それにより、図1に示すデータ抽出方法は、SQL(Structured Query Language)を用いて、共に複数、存在するジャーナルファイル、及びマスタファイルのなかから所望のものを連結(JOIN)させ、その連結結果から所望のレコードを抽出する場合の例を表している。
本発明の第1、及び第2の態様のプログラムは共に、取得可能なデータのなかから指定された抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させることを前提とし、それぞれ以下の機能を実現させる。
図3は、本実施の形態によるデータ抽出装置の機能構成を説明する図である。
そのデータ抽出装置100は、入力装置210からデータ211としてテキストデータを入力し、そのデータ211を指定された抽出条件群220により振り分けて出力するものとして実現されている。そのために、抽出条件入力部110、データ入力構造検索部120、抽出条件判定部130、データ判定部140、外部出力用の出力バッファ150、及びデータ出力部160を備えている。ここでは便宜的に、入力装置210から入力するデータ211として、図6に示すようなXML(eXtensible Markup Language )データ、及び図7に示すようなCSV(Comma Separated Values)データのみを想定する。それらのデータは共にテキストデータである。
より、抽出条件群220は、所望のデータ211別に、そのデータ211が満たすべき抽出条件、及びその出力先ファイル名を指定するものとなっている。そのようにデータ211の出力先を任意に指定できるようにしたのは、データ211をより迅速に所望の形で利用するのを可能とさせるためである。以降、(1)に記述された抽出条件は「抽出条件1」と表記する。これは他でも同様である。
図8に示す抽出条件群220は、データ211としてXMLデータを想定したものである。図4では、CSVデータを想定した抽出条件群220を示している。「Query」は抽出条件に相当し、「OutFile」は出力条件に相当する。Query(抽出条件)として表記した「$X」は、項目名「X」を表し、「$_」は任意の項目名を表している。それにより、例えばQuery1で表記した「$X==’X1’ OR $X==’Xa’」は、項目名「X」のデータがX1またはXaであるデータ211が抽出の対象であることを示している。その表記が「$_==’Xa’」となっているQueryでは、任意の項目のデータとしてXaが存在しているデータ211が抽出の対象であることを示している。そのデータ211はXMLデータ、及びCSVデータの何れであっても、ファイルとしてまとめて入力させても良いが、一つずつ順次、入力させても良い。一つずつ入力させる場合、XMLデータでは図6に示すようなものとなり、CSVデータでは、図7において、先頭に「000001」〜「000007」を表記した行のようなものとなる。ここでは便宜的に、それらのデータのまとまりをレコードと呼ぶことにする。また、2つの「’」の間に記述された文字列については「キーワード」と呼ぶことにする。そのキーワードは、図8に示す抽出条件群220では2つの「”」の間に記述された文字列が相当する。
め、ユーザは、抽出条件群220として複数の抽出条件、及び出力条件を定義するだけで1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果はより迅速に得ることができる。この結果、高い作業効率も容易に実現させることができる。
抽出条件入力部110は、上述したような抽出条件群220を入力し、抽出条件毎に、その抽出条件を解析して対応のオートマトンを生成する。それにより、抽出条件がXMLデータ用のものであればタグDFA(Deterministic Finite state Automaton)170、階層照合NFA(Non-deterministic Finite state Automaton)171、及びキーワードDFA180が生成される。抽出条件がCSVデータ用のものであればCSV解析DFA172、及びキーワードDFA180が生成される。論理テーブル190は、キーワードDFA172と同様に、抽出条件が想定するデータ211の種類に係わらず生成される。
99」は「/root/Company/code」「< 99」に分解される)、細分化した条件式(部分条件式)毎に固有の論理番号を付した構成のものである。Z論理テーブル190bは、条件式、或いは抽出条件を部分条件式、或いは条件式に付した論理番号の組み合わせで表現し、表現した組み合わせ毎に固有の論理番号を付した構成のものである。組み合わせる論理番号はA論理テーブル190a、及びZ論理テーブル190bの何れのものであっても良い。その論理番号を用いて条件式、或いは抽出条件を表現することにより、A論理テーブル190a、或いはZ論理テーブル190bで参照すべきレコード(行)を特定できるようにさせている。特には図示していないが、そのZ論理テーブル190bには、論理番号の組み合わせ毎に、その組み合わせで表現される条件式、或いは抽出条件が成立しているか否かを示す符号を格納できるようになっている。以降テーブル190a、及び190bでそれぞれ割り当てる論理番号を区別するために、A論理テーブル190aの論理番号には「A」、Z論理テーブル190bの論理には「Z」をそれぞれ先頭に付して表記する。
出条件群220が図8に示す内容であった場合、抽出条件入力部110によって図10に示すような階層照合NFA171が最終的に生成される。そのNFA171は、図10に示すように、何れかの検索パスに記述されたタグ名を単位とした状態遷移が行われるように生成されている。このため、その状態遷移は開始タグ、及び終了タグによって発生する。ここでは、「4」、及び「2」を表記した状態が受理状態に相当する。
CSVデータであれば、CSV解析DFA172を用いて抽出条件の何れかに記述された項目名の検出を行う。検索パス、或いは項目名を検出すると、その検索パスによって指定されたノード、或いはその項目名のセルが開始する位置を示すデータ位置情報、及び検出された文字列を示すノード・セル情報を抽出条件判定部130に通知する。それらの情報は例えばヒット情報として生成するものか、或いはそれを含むものである。それらの情報の通知は、データ211の終端を検出するまで、検索パス、或いは項目名を検出する度に行う。その終端の検出は、XMLデータではルートタグと組になる終了タグの検出に相当し、CSVデータでは所定個数のセルの検出に相当する。データ入力構造検索部120による検索パス、或いは項目名の検出は、A論理テーブル190aに格納された部分条件式が成立することの確認に相当する。
タ211を出力して格納する。
データ211を対応する出力バッファ150への出力は、出力バッファ情報151、及びバッファ情報152により管理している。出力バッファ情報151は、抽出条件群220により確保した出力バッファ150の数を示す取得バッファ数情報、及びバッファ情報152にアクセスするためのポインタ情報を備えている。そのバッファ情報152は、取得バッファ数情報が示す数のレコードを備えたものであり、各レコードには、対応する出力バッファ150(ここでは出力バッファ150a〜cのうちの一つ)に関する複数の情報を有する個別バッファ情報153(ここでは個別バッファ情報153a〜cのうちの一つ)がそれぞれ格納されている。それら出力バッファ情報151、及びバッファ情報152を格納するエリアは出力バッファ150と共に、データ抽出装置100に搭載、或いは接続された記憶装置1401上に確保されている。タグDFA170、階層照合NFA171、CSV解析DFA172、キーワードDFA180、及び論理テーブル190も例えばその記憶装置1401に格納される。
、若しくは媒体駆動装置56がアクセスする可搬記録媒体MDに記憶されているプログラム、あるいはデータが一時的に格納される。CPU51は、プログラムをメモリ52に読み出して実行することにより、全体の制御を行う。そのプログラムは、ネットワーク接続装置57によりネットワークを介して取得したものであっても良い。
ネットワーク接続装置57は、例えばイントラネットやインターネット等のネットワークを介して、他の装置と通信を行うためのものである。外部記憶装置55は、例えばハードディスク装置である。主に各種データやプログラムの保存に用いられる。
新により、抽出条件に記述された文字列が必要に応じてタグDFA170、階層照合NFA171、或いはキーワードDFA180に登録される。
先ず、ステップ41では、レコードの終了通知が通知されるのを待つ。その通知を受け取ると、判定がNOとなってステップ42に移行し、通知されたデータ位置情報、及びキーワードDFA180を用いた照合を行う。その次に移行するステップ43では、キーワードDFA180に登録されたキーワードの何れかと一致する文字列をデータ211から検出できたか否か判定する。そのような文字列を検出できた場合、判定はYESとなり、ステップ44で論理テーブル190(Z論理テーブル190b)の該当論理番号の箇所に真符号を設定した後、上記ステップ41に戻り、通知待ちの状態に移行する。そうでない場合には、判定はNOとなってステップ45に移行する。
先ず、ステップ51では、データ入力構造検索部120からデータ211の終端が通知されるのを待つ。その通知を受け取ると、判定がNOとなってステップ52に移行し、論理テーブル190を参照して、現在、対象としているデータ211が満たす抽出条件を判定する。その後はステップ53に移行する。
である。データ抽出装置100は、抽出条件を満たすデータをジャーナルファイル2001〜3のうちの何れかに振り分けて出力するために用いられている。そのように振り分けるのは、例えばマスタX〜Zとの連結条件がそれぞれ異なることに対応するためである。そのように振り分けると、データを3系統で並行して処理することが可能となることから、処理の高速化を実現できる。
Claims (4)
- 取得可能なデータのなかから、指定された第一の抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させるプログラムであって、
前記データを取得する機能と、
前記第一の抽出条件を入力する機能と、
前記入力する機能により、二つ以上、入力された前記第一の抽出条件それぞれを、該第一の抽出条件それぞれに含まれる複数の部分条件に分割し、該分割によって得られる部分条件を複数の前記第一の抽出条件に共通して含まれる共通条件と該共通条件以外の非共通条件との組み合わせで表現する第二の抽出条件に前記第一の抽出条件それぞれを変換し、前記第二の抽出条件の前記部分条件それぞれを前記データの形式に対応する照合用オートマトンにそれぞれ変換し、前記データより前記照合用オートマトンを用いて前記部分条件単位で該部分条件を満たすデータをそれぞれ抽出し、該抽出したデータそれぞれから、前記第二の抽出条件それぞれを満たすデータを抽出することにより、前記第一の抽出条件を満たすデータを抽出する機能と、
を実現させるためのプログラム。 - 請求項1記載のプログラムであって、
前記入力する機能は、前記第一の抽出条件それぞれと併せて、該第一の抽出条件それぞれと対応付けたデータの出力先に関する出力条件をそれぞれ入力することができ、
前記出力条件に従って、該出力条件と対応付けられた抽出条件を満たすデータを出力するプログラム。 - 請求項1記載のプログラムであって、
前記抽出する機能により前記第二の抽出条件毎に抽出したデータはそれぞれ異なる出力先に出力するプログラム。 - 取得可能なデータのなかから、指定された第一の抽出条件を満たすデータを抽出するためのデータ抽出方法において、
前記第一の抽出条件を二つ以上、取得した場合に、前記第一の抽出条件それぞれを、該第一の抽出条件それぞれに含まれる複数の部分条件に分割し、該分割によって得られる部分条件を複数の前記第一の抽出条件に共通して含まれる共通条件と該共通条件以外の非共通条件との組み合わせで表現する第二の抽出条件に前記第一の抽出条件それぞれを変換し、前記第二の抽出条件の前記部分条件それぞれを前記データの形式に対応する照合用オートマトンにそれぞれ変換し、前記データより前記照合用オートマトンを用いて前記部分条件毎に該部分条件を満たすデータをそれぞれ抽出して該抽出によって得たデータを記憶ユニットに記憶し、
前記抽出によって得たデータを、前記記憶ユニットから読み出し、該読み出したデータそれぞれから、前記第二の抽出条件それぞれを満たすデータを抽出することにより、前記第一の抽出条件を満たすデータを抽出する、
処理を情報処理装置に実行させることを特徴とするデータ抽出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/022699 WO2007066414A1 (ja) | 2005-12-09 | 2005-12-09 | プログラム、データ抽出装置、及び方法 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010181831A Division JP2011008811A (ja) | 2010-08-16 | 2010-08-16 | プログラム、及びデータ抽出方法 |
JP2013034951A Division JP5633589B2 (ja) | 2013-02-25 | 2013-02-25 | プログラム、データ抽出装置、及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007066414A1 JPWO2007066414A1 (ja) | 2009-05-14 |
JP5238105B2 true JP5238105B2 (ja) | 2013-07-17 |
Family
ID=38122567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007549011A Active JP5238105B2 (ja) | 2005-12-09 | 2005-12-09 | プログラム、及びデータ抽出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080319985A1 (ja) |
JP (1) | JP5238105B2 (ja) |
WO (1) | WO2007066414A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8261186B2 (en) | 2009-01-02 | 2012-09-04 | Apple Inc. | Methods for efficient cluster analysis |
JP5855989B2 (ja) * | 2012-03-21 | 2016-02-09 | 三菱電機インフォメーションネットワーク株式会社 | データ処理装置及びデータ処理方法及びデータ処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05225238A (ja) * | 1992-02-07 | 1993-09-03 | Nippon Steel Corp | データベース検索システム |
JPH06139291A (ja) * | 1992-10-30 | 1994-05-20 | Hitachi Ltd | 情報検索方法およびシステム |
JPH09245052A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 構造化文書処理装置 |
JP2000339346A (ja) * | 1999-03-19 | 2000-12-08 | Hitachi Ltd | 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体 |
JP2001344282A (ja) * | 2001-03-08 | 2001-12-14 | Hitachi Ltd | 文書検索方法および装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69229521T2 (de) * | 1991-04-25 | 2000-03-30 | Nippon Steel Corp | Datenbankauffindungssystem |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
EP0667586A3 (en) * | 1994-02-14 | 1996-08-28 | Digital Equipment Corp | Database creation system. |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
CH689288A5 (de) * | 1994-10-21 | 1999-01-29 | Komax Holding Ag | Verfahren und Vorrichtung zum Bestuecken von Steckergehaeusen. |
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
JP3531468B2 (ja) * | 1998-03-30 | 2004-05-31 | 株式会社日立製作所 | 文書処理装置及び方法 |
EP1122651B1 (en) * | 2000-02-03 | 2010-05-19 | Hitachi, Ltd. | Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor |
US20040010482A1 (en) * | 2002-07-11 | 2004-01-15 | Austin James R. | Creation theory |
US20040254919A1 (en) * | 2003-06-13 | 2004-12-16 | Microsoft Corporation | Log parser |
EP1709553A4 (en) * | 2003-07-11 | 2009-08-26 | Computer Ass Think Inc | METHOD AND DEVICE FOR PRODUCING CSV FORMATTED EXTRACTION FILES |
JP4497882B2 (ja) * | 2003-10-01 | 2010-07-07 | キヤノン株式会社 | 情報出力装置及び方法、並びにプログラム |
-
2005
- 2005-12-09 WO PCT/JP2005/022699 patent/WO2007066414A1/ja active Application Filing
- 2005-12-09 JP JP2007549011A patent/JP5238105B2/ja active Active
-
2008
- 2008-06-02 US US12/131,630 patent/US20080319985A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05225238A (ja) * | 1992-02-07 | 1993-09-03 | Nippon Steel Corp | データベース検索システム |
JPH06139291A (ja) * | 1992-10-30 | 1994-05-20 | Hitachi Ltd | 情報検索方法およびシステム |
JPH09245052A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 構造化文書処理装置 |
JP2000339346A (ja) * | 1999-03-19 | 2000-12-08 | Hitachi Ltd | 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体 |
JP2001344282A (ja) * | 2001-03-08 | 2001-12-14 | Hitachi Ltd | 文書検索方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2007066414A1 (ja) | 2009-05-14 |
US20080319985A1 (en) | 2008-12-25 |
WO2007066414A1 (ja) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4365162B2 (ja) | 構造化文書のデータを検索する装置および方法 | |
US8892599B2 (en) | Apparatus and method for securing preliminary information about database fragments for utilization in mapreduce processing | |
US9152632B2 (en) | Information management system | |
US6226634B1 (en) | Association rule generation and group-by processing system | |
US20160162504A1 (en) | Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product | |
CN102959578B (zh) | 取证系统、取证方法及取证程序 | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US20090043767A1 (en) | Approach For Application-Specific Duplicate Detection | |
JP3566111B2 (ja) | 記号辞書作成方法及び記号辞書検索方法 | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
CN102893281A (zh) | 信息搜索设备、信息搜索方法、计算机程序和数据结构 | |
US20090030887A1 (en) | Recording medium in which collation processing program is stored, collation processing device and collation processing method | |
JP5238105B2 (ja) | プログラム、及びデータ抽出方法 | |
CN101377816B (zh) | 匹配规则包含位移指示符的并行多模式匹配的方法及系统 | |
JP2011008811A (ja) | プログラム、及びデータ抽出方法 | |
JP5633589B2 (ja) | プログラム、データ抽出装置、及び方法 | |
JP2014199678A (ja) | 抽出制御プログラム、抽出制御方法、及び抽出制御装置 | |
JP2006171800A (ja) | データ集計装置、その方法、及びプログラム | |
JP2009098931A (ja) | キーワード間の関連度算出システム及び関連度算出方法 | |
Agam et al. | Content-based document image retrieval in complex document collections | |
Chantaranimi et al. | Evaluation of Candidate Pair Generation Strategies in Entity Matching | |
JP4889964B2 (ja) | 規則文章作成装置 | |
US20090187562A1 (en) | Search method | |
JPH11203312A (ja) | キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体 | |
US20020138482A1 (en) | Process for nonlinear processing and identification of information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110726 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110803 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110916 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5238105 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |