JP2013191062A - データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム - Google Patents
データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム Download PDFInfo
- Publication number
- JP2013191062A JP2013191062A JP2012057545A JP2012057545A JP2013191062A JP 2013191062 A JP2013191062 A JP 2013191062A JP 2012057545 A JP2012057545 A JP 2012057545A JP 2012057545 A JP2012057545 A JP 2012057545A JP 2013191062 A JP2013191062 A JP 2013191062A
- Authority
- JP
- Japan
- Prior art keywords
- data
- character
- analysis
- length
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】データ解析装置11は、項目の区切りが存在しない固定長データ12を解析する。つまり、第1解析部16で、固定長データ12を解析し、文字の種類等からレコードの区切り位置を求め、項目解析部18の第2解析部20で、文字や数字に連続する詰め文字を求め、第3解析部22で、詰め文字及び文字の種類等から固定長データ12の1つのレコードにおける項目の区切り位置を求める。
【選択図】図1
Description
図1には、コンピュータで実現される本実施形態に係るデータ解析システム10が示されている。データ解析システム10は、少なくとも解析部14を含むデータ解析装置11と、分割部26を含むデータ分割装置13とを含む。データ解析装置11の解析部14は、第1解析部16と、第2解析部20及び第3解析部22を含む項目解析部18と、を備えている。解析部14には、複数の項目のデータが区切り記号無しに連続する固定長データ12が入力される。解析部14は、入力された固定長データ12を解析し、各項目のデータの区切りを示す情報(以下、区切りを示す情報)24を出力する。また、データ分割装置13の分割部26には、解析部14から出力された区切りを示す情報24と、固定長データ12が入力される。分割部26は、区切りを示す情報24に基づいて固定長データ12を分割し、項目定義データ28として出力する。
まず、図3〜図15を参照し、データ解析システム10のデータ解析装置11によって実現される固定長データ12の区切りを示す情報を求める解析処理を説明する。
図7(A)は、約数5において固定長データ12を分割した分割データ12C−1,12C−2,12C−3,12C−4,12C−5,12C−6を示している。また、図7(B)は、分割データ12C−1〜12C−6に対応する部分配列12c−1〜12c−6を示している。図7(B)から理解されるように、数字列の終了位置と文字列の開始位置は、部分配列12c−1〜12c−6について一致しない。
前記解析部は、文字と数字との境界位置を、項目の区切り位置を示す項目区切情報とする請求項1に記載のデータ解析装置。
前記入力データに含まれる予め定めた閾値を超える文字数の文字を前記詰め文字とするときに、
前記解析部は、前記詰め文字の有無の境界位置を、項目の区切り位置を示す項目区切情報とする請求項1に記載のデータ解析装置。
11 データ解析装置
12 固定長データ
13 データ分割装置
14 解析部
16 第1解析部
18 項目解析部
20 第2解析部
22 第3解析部
24 区切りを示す情報
26 分割部
30 コンピュータ
32 CPU
34 メモリ
36 記憶部
38 解析プログラム
40 第1解析プロセス
42 第2解析プロセス
44 第3解析プロセス
46 分割プログラム
50 分割プロセス
Claims (15)
- 単位データの組み合わせから成り、複数項目のデータを各々含むレコードが複数連続する入力データに対し、前記入力データにおける前記単位データ毎の種類を示す型情報の配列を一定長さ毎に分割したときに、分割した個々の部分配列における型情報の配列が対応するときの前記部分配列の長さを前記レコードの長さとして求めることで、前記入力データにおける前記レコードの区切り位置を解析する解析部
を備えたデータ解析装置。 - 前記解析部は、前記部分配列の開始位置及び終了位置の少なくとも一方の位置を、前記入力データの区切り位置を示す区切情報として解析する
請求項1に記載のデータ解析装置。 - 前記解析部は、前記部分配列の開始位置及び終了位置の少なくとも一方の位置であり、同種の前記型情報が連続する開始位置及び終了位置の少なくとも一方の位置を、前記入力データの区切り位置を示す区切情報として解析する
請求項2に記載のデータ解析装置。 - 前記解析部は、前記分割した個々の部分配列における型情報の配列が一致する比率を示す一致度が、予め定めた閾値以上である場合に、前記部分配列の開始位置及び終了位置の少なくとも一方の位置を区切情報として解析する
請求項1〜請求項3の何れか1項に記載のデータ解析装置。 - 前記解析部は、前記単位データを1文字を示すデータとしかつ、前記入力データの総文字数の約数で除算した文字数を前記一定長さとして分割する
請求項1〜請求項4の何れか1項に記載のデータ解析装置。 - 前記入力データは、前記データ及び前記レコードの少なくとも一方の区切りを示す予め定めた特定区切情報を含んでいないデータである
請求項1〜請求項5の何れか1項に記載のデータ解析装置。 - 前記解析部は、
前記レコードの区切り位置を解析する第1解析部と、
前記部分配列について、前記部分配列の一部を含む配列を基本パターンとすると共に、前記分割した個々の部分配列における型情報の配列が対応するときの基本パターンの開始位置及び終了位置の少なくとも一方の位置を、前記項目の区切り位置を示す項目区切情報として解析する項目解析部と
を含む請求項1〜請求項6の何れか1項に記載のデータ解析装置。 - 前記解析部は、前記単位データを1文字を示すデータとしかつ、
前記レコードの区切り位置を解析する第1解析部と、
前記部分配列に対応する前記入力データについて、連続する同一文字を詰め文字として解析する第2解析部と、
前記詰め文字として解析された前記連続する文字の開始位置または終了位置を、前記項目区切情報として解析する第3解析部と
を含む請求項1〜請求項7の何れか1項に記載のデータ解析装置。 - 前記第2解析部は、前記入力データに含まれる予め定めた閾値を超える文字数の文字を前記詰め文字として解析する
請求項8に記載のデータ解析装置。 - 前記複数項目のデータは、文字を示すデータと数字を示すデータを含むテキストデータである
請求項1〜請求項9の何れか1項に記載のデータ解析装置。 - 請求項1〜請求項10の何れか1項に記載のデータ解析装置により解析された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを複数の項目に対応するデータに分割する分割部
を備えるデータ分割装置。 - 単位データの組み合わせから成り、複数項目のデータを各々含むレコードが複数連続する入力データに対し、前記入力データにおける前記単位データ毎の種類を示す型情報の配列を一定長さ毎に分割したときに、分割した個々の部分配列における型情報の配列が対応するときの前記部分配列の長さを前記レコードの長さとして求めることで、前記入力データにおける前記レコードの区切り位置を解析する解析ステップ
を含むデータ解析方法。 - 請求項12に記載のデータ解析方法により解析された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを複数の項目に対応するデータに分割する分割ステップ、
を含むデータ分割方法。 - コンピュータに、
前記コンピュータを、単位データの組み合わせから成り、複数項目のデータを各々含むレコードが複数連続する入力データに対し、前記入力データにおける前記単位データ毎の種類を示す型情報の配列を一定長さ毎に分割したときに、分割した個々の部分配列における型情報の配列が対応するときの前記部分配列の長さを前記レコードの長さとして求めることで、前記入力データにおける前記レコードの区切り位置を解析する解析ステップ
を含む処理を実行させるためのデータ解析プログラム。 - コンピュータに、
前記コンピュータを、請求項14に記載のデータ解析プログラムにより解析された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを複数の項目に対応するデータに分割する分割ステップ
を含む処理を実行させるためのデータ分割プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012057545A JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
US13/798,626 US8977635B2 (en) | 2012-03-14 | 2013-03-13 | Device, method of processing data, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012057545A JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013191062A true JP2013191062A (ja) | 2013-09-26 |
JP5838871B2 JP5838871B2 (ja) | 2016-01-06 |
Family
ID=49158663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012057545A Expired - Fee Related JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8977635B2 (ja) |
JP (1) | JP5838871B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6242540B1 (ja) * | 2016-03-17 | 2017-12-06 | 株式会社日立製作所 | データ変換システム及びデータ変換方法 |
JP2019502979A (ja) * | 2015-10-30 | 2019-01-31 | アクシオム コーポレーション | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169394B2 (en) | 2014-06-05 | 2019-01-01 | International Business Machines Corporation | Managing data sets of a storage system |
US20200219487A1 (en) * | 2017-08-09 | 2020-07-09 | Sony Corporation | Information processing apparatus and information processing method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190479A (ja) * | 1995-01-05 | 1996-07-23 | Mitsubishi Electric Corp | データベース移行方式 |
JP2004021698A (ja) * | 2002-06-18 | 2004-01-22 | Hitachi Eng Co Ltd | データファイル変換処理システム |
JP2004318750A (ja) * | 2003-04-21 | 2004-11-11 | Getronics Japan Ltd | データ変換装置及び方法 |
WO2011060257A1 (en) * | 2009-11-13 | 2011-05-19 | Ab Initio Technology Llc | Managing record format information |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06203020A (ja) | 1992-12-29 | 1994-07-22 | Hitachi Ltd | テキストフォーマット認識生成方法および装置 |
US5634123A (en) * | 1993-07-08 | 1997-05-27 | Park City Group, Inc. | Data management using nested records and code points |
JP3724878B2 (ja) | 1996-06-28 | 2005-12-07 | 株式会社日立製作所 | キーワード抽出ルール生成方法 |
US7512610B1 (en) * | 2005-09-30 | 2009-03-31 | Miosoft Corporation | Processing data records |
JP2011170546A (ja) | 2010-02-17 | 2011-09-01 | Fuji Xerox Co Ltd | 文書生成装置及びプログラム |
-
2012
- 2012-03-14 JP JP2012057545A patent/JP5838871B2/ja not_active Expired - Fee Related
-
2013
- 2013-03-13 US US13/798,626 patent/US8977635B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190479A (ja) * | 1995-01-05 | 1996-07-23 | Mitsubishi Electric Corp | データベース移行方式 |
JP2004021698A (ja) * | 2002-06-18 | 2004-01-22 | Hitachi Eng Co Ltd | データファイル変換処理システム |
JP2004318750A (ja) * | 2003-04-21 | 2004-11-11 | Getronics Japan Ltd | データ変換装置及び方法 |
WO2011060257A1 (en) * | 2009-11-13 | 2011-05-19 | Ab Initio Technology Llc | Managing record format information |
Non-Patent Citations (1)
Title |
---|
JPN6015029627; 大村 あつし: '"めざせ!Excel/VBAの達人 第12回 テキスト・ファイルを扱うためのコツ"' 日経ソフトウェア 第2巻 第13号, 19991124, pp.170-177, 日経BP社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019502979A (ja) * | 2015-10-30 | 2019-01-31 | アクシオム コーポレーション | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 |
JP6242540B1 (ja) * | 2016-03-17 | 2017-12-06 | 株式会社日立製作所 | データ変換システム及びデータ変換方法 |
Also Published As
Publication number | Publication date |
---|---|
US8977635B2 (en) | 2015-03-10 |
JP5838871B2 (ja) | 2016-01-06 |
US20130246444A1 (en) | 2013-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US9025890B2 (en) | Information classification device, information classification method, and information classification program | |
JP6107513B2 (ja) | 情報処理システム、情報処理方法、および情報処理プログラム | |
US8484229B2 (en) | Method and system for identifying traditional arabic poems | |
JP5838871B2 (ja) | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム | |
CN111950263B (zh) | 一种日志解析方法、系统及电子设备 | |
US8527516B1 (en) | Identifying similar digital text volumes | |
WO2021121279A1 (en) | Text document categorization using rules and document fingerprints | |
US20150370781A1 (en) | Extended-context-diverse repeats | |
JP5056337B2 (ja) | 情報検索システム | |
US10346450B2 (en) | Automatic datacenter state summarization | |
US20180165174A1 (en) | Message analysis apparatus, message analysis method, and storage medium | |
CN113282717B (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2008027431A (ja) | 情報解析装置、情報解析方法、及び情報解析プログラム | |
JP6536580B2 (ja) | 文集合抽出システム、方法およびプログラム | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
CN112417819A (zh) | 一种Word文档信息提取方法、装置、电子设备及介质 | |
JP6807201B2 (ja) | 情報処理装置 | |
CN110874398A (zh) | 违禁词处理方法、装置、电子设备及存储介质 | |
JP6044422B2 (ja) | 略称生成方法および略称生成装置 | |
JP2015191396A (ja) | 詳細化不足検出装置、詳細化不足検出方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5838871 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |