JP5838871B2 - データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム - Google Patents
データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム Download PDFInfo
- Publication number
- JP5838871B2 JP5838871B2 JP2012057545A JP2012057545A JP5838871B2 JP 5838871 B2 JP5838871 B2 JP 5838871B2 JP 2012057545 A JP2012057545 A JP 2012057545A JP 2012057545 A JP2012057545 A JP 2012057545A JP 5838871 B2 JP5838871 B2 JP 5838871B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- character
- length
- character string
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Description
図1には、コンピュータで実現される本実施形態に係るデータ解析システム10が示されている。データ解析システム10は、少なくとも解析部14を含むデータ解析装置11と、分割部26を含むデータ分割装置13とを含む。データ解析装置11の解析部14は、第1解析部16と、第2解析部20及び第3解析部22を含む項目解析部18と、を備えている。解析部14には、複数の項目のデータが区切り記号無しに連続する固定長データ12が入力される。解析部14は、入力された固定長データ12を解析し、各項目のデータの区切りを示す情報(以下、区切りを示す情報)24を出力する。また、データ分割装置13の分割部26には、解析部14から出力された区切りを示す情報24と、固定長データ12が入力される。分割部26は、区切りを示す情報24に基づいて固定長データ12を分割し、項目定義データ28として出力する。
まず、図3〜図15を参照し、データ解析システム10のデータ解析装置11によって実現される固定長データ12の区切りを示す情報を求める解析処理を説明する。
図7(A)は、約数5において固定長データ12を分割した分割データ12C−1,12C−2,12C−3,12C−4,12C−5,12C−6を示している。また、図7(B)は、分割データ12C−1〜12C−6に対応する部分配列12c−1〜12c−6を示している。図7(B)から理解されるように、数字列の終了位置と文字列の開始位置は、部分配列12c−1〜12c−6について一致しない。
前記解析部は、文字と数字との境界位置を、項目の区切り位置を示す項目区切情報とする請求項1に記載のデータ解析装置。
前記入力データに含まれる予め定めた閾値を超える文字数の文字を前記詰め文字とするときに、
前記解析部は、前記詰め文字の有無の境界位置を、項目の区切り位置を示す項目区切情報とする請求項1に記載のデータ解析装置。
11 データ解析装置
12 固定長データ
13 データ分割装置
14 解析部
16 第1解析部
18 項目解析部
20 第2解析部
22 第3解析部
24 区切りを示す情報
26 分割部
30 コンピュータ
32 CPU
34 メモリ
36 記憶部
38 解析プログラム
40 第1解析プロセス
42 第2解析プロセス
44 第3解析プロセス
46 分割プログラム
50 分割プロセス
Claims (14)
- 複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定する解析部
を備えたデータ解析装置。 - 前記解析部は、前記文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となるときの、前記部分文字列データの開始位置及び終了位置の少なくとも一方の位置を、前記入力データにおける前記レコードの区切り位置と推定する
請求項1に記載のデータ解析装置。 - 前記解析部は、前記文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となるときの、文字のデータ属性の切り替わり位置を、前記入力データにおける前記データ項目の区切り位置と推定する
請求項2に記載のデータ解析装置。 - 前記解析部は、前記特定のデータ長として前記入力データの総文字数の約数を用いて前記入力データを分割する
請求項1〜請求項3の何れか1項に記載のデータ解析装置。 - 前記入力データは、前記データ項目及び前記レコードの少なくとも一方の区切りを示す予め定めた特定区切情報を含んでいないデータである
請求項1〜請求項4の何れか1項に記載のデータ解析装置。 - 前記解析部は、推定した前記レコードの区切り位置で前記入力データを複数の部分文字列データに分割し、分割した複数の部分文字列データのうちの閾値以上の割合の部分文字列データに共通する文字のデータ属性の切り替わり位置を、前記入力データにおける前記データ項目の区切り位置と推定する
を含む請求項1〜請求項5の何れか1項に記載のデータ解析装置。 - 前記解析部は、推定した前記レコードの区切り位置で前記入力データを複数の部分文字列データに分割し、分割した個々の部分文字列データに含まれる連続する同一文字を詰め文字に設定し、設定した前記詰め文字の連続の開始位置または終了位置を、前記入力データにおける前記データ項目の区切り位置と推定する
を含む請求項1〜請求項6の何れか1項に記載のデータ解析装置。 - 前記解析部は、前記部分文字列データに含まれる連続する同一文字のうち、文字数が最大の文字を前記詰め文字に設定する
請求項7に記載のデータ解析装置。 - 前記複数のデータ項目は、文字型のデータ項目と数字型のデータ項目を含む
請求項1〜請求項8の何れか1項に記載のデータ解析装置。 - 複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定するデータ解析装置により推定された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを分割する分割部
を備えるデータ分割装置。 - 複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定する解析ステップ
を含む処理をコンピュータに実行させるデータ解析方法。 - 複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定するデータ解析方法により推定された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを分割する分割ステップ、
を含む処理をコンピュータに実行させるデータ分割方法。 - コンピュータに、
複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定する解析ステップ
を含む処理を実行させるためのデータ解析プログラム。 - コンピュータに、
複数のデータ項目それぞれの値を文字列として含むレコードが複数連続する入力データに対し、前記入力データを特定のデータ長毎に分割したときに生成されることとなる複数の部分文字列データそれぞれにおける、文字のデータ属性の切り替わり位置が前記複数の部分文字列データ間で所定以上の一致度となる前記特定のデータ長に基づいて、前記入力データにおける前記レコードの区切り位置を推定するデータ解析プログラムにより推定された区切り位置を示す情報が入力され、入力された前記情報に基づいて、前記入力データを分割する分割ステップ
を含む処理を実行させるためのデータ分割プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012057545A JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
US13/798,626 US8977635B2 (en) | 2012-03-14 | 2013-03-13 | Device, method of processing data, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012057545A JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013191062A JP2013191062A (ja) | 2013-09-26 |
JP5838871B2 true JP5838871B2 (ja) | 2016-01-06 |
Family
ID=49158663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012057545A Expired - Fee Related JP5838871B2 (ja) | 2012-03-14 | 2012-03-14 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8977635B2 (ja) |
JP (1) | JP5838871B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169394B2 (en) | 2014-06-05 | 2019-01-01 | International Business Machines Corporation | Managing data sets of a storage system |
CN108351898B (zh) | 2015-10-30 | 2021-10-08 | 安客诚公司 | 用于结构化多字段文件布局的自动化解释 |
JP6242540B1 (ja) * | 2016-03-17 | 2017-12-06 | 株式会社日立製作所 | データ変換システム及びデータ変換方法 |
EP3667660A4 (en) * | 2017-08-09 | 2020-12-23 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06203020A (ja) | 1992-12-29 | 1994-07-22 | Hitachi Ltd | テキストフォーマット認識生成方法および装置 |
US5634123A (en) * | 1993-07-08 | 1997-05-27 | Park City Group, Inc. | Data management using nested records and code points |
JPH08190479A (ja) * | 1995-01-05 | 1996-07-23 | Mitsubishi Electric Corp | データベース移行方式 |
JP3724878B2 (ja) | 1996-06-28 | 2005-12-07 | 株式会社日立製作所 | キーワード抽出ルール生成方法 |
JP2004021698A (ja) * | 2002-06-18 | 2004-01-22 | Hitachi Eng Co Ltd | データファイル変換処理システム |
JP4279588B2 (ja) * | 2003-04-21 | 2009-06-17 | エヌ・ティ・ティ・データ・ジェトロニクス株式会社 | データ変換装置及び方法 |
US7512610B1 (en) * | 2005-09-30 | 2009-03-31 | Miosoft Corporation | Processing data records |
JP5690349B2 (ja) * | 2009-11-13 | 2015-03-25 | アビニシオ テクノロジー エルエルシー | レコード形式情報の管理 |
JP2011170546A (ja) | 2010-02-17 | 2011-09-01 | Fuji Xerox Co Ltd | 文書生成装置及びプログラム |
-
2012
- 2012-03-14 JP JP2012057545A patent/JP5838871B2/ja not_active Expired - Fee Related
-
2013
- 2013-03-13 US US13/798,626 patent/US8977635B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013191062A (ja) | 2013-09-26 |
US20130246444A1 (en) | 2013-09-19 |
US8977635B2 (en) | 2015-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
CN107729526B (zh) | 一种文本结构化的方法 | |
US9025890B2 (en) | Information classification device, information classification method, and information classification program | |
JP6107513B2 (ja) | 情報処理システム、情報処理方法、および情報処理プログラム | |
JP5838871B2 (ja) | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム | |
US8484229B2 (en) | Method and system for identifying traditional arabic poems | |
US8527516B1 (en) | Identifying similar digital text volumes | |
US10346450B2 (en) | Automatic datacenter state summarization | |
JP5056337B2 (ja) | 情報検索システム | |
JP6856527B2 (ja) | メッセージ分析装置、メッセージ分析方法、および、メッセージ分析プログラム | |
CN113282717B (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
JP5577546B2 (ja) | 計算機システム | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
US20190294637A1 (en) | Similar data search device, similar data search method, and recording medium | |
JP6723726B2 (ja) | 入力支援装置 | |
JP2016076100A (ja) | ファイル分割システム及び方法 | |
JP6807201B2 (ja) | 情報処理装置 | |
JP7208222B2 (ja) | データレコード内のフォーマットを動的に定義する技術 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
CN110874398A (zh) | 违禁词处理方法、装置、电子设备及存储介质 | |
JP6044422B2 (ja) | 略称生成方法および略称生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5838871 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |