JP2019502979A - 構造化されたマルチフィールドファイルのレイアウトの自動解釈 - Google Patents
構造化されたマルチフィールドファイルのレイアウトの自動解釈 Download PDFInfo
- Publication number
- JP2019502979A JP2019502979A JP2018522637A JP2018522637A JP2019502979A JP 2019502979 A JP2019502979 A JP 2019502979A JP 2018522637 A JP2018522637 A JP 2018522637A JP 2018522637 A JP2018522637 A JP 2018522637A JP 2019502979 A JP2019502979 A JP 2019502979A
- Authority
- JP
- Japan
- Prior art keywords
- oracle
- field
- data file
- file
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 54
- 238000004458 analytical method Methods 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims 2
- 238000001914 filtration Methods 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 3
- 101001023021 Homo sapiens LIM domain-binding protein 3 Proteins 0.000 description 139
- 102100035112 LIM domain-binding protein 3 Human genes 0.000 description 139
- 230000008569 process Effects 0.000 description 17
- 230000004044 response Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (26)
- 複数のフィールドをそれぞれ含む複数のレコードを含むデータファイルからファイルレイアウトを推測する方法であって、
a.推測エンジンにおいて前記データファイルを受信するステップと、
b.前記データファイルの予備分析を実行するステップであって、前記予備分析が前記データファイルがフィールド区切りファイルであるか固定幅フィールドファイルであるかを判断するステップを含む、実行するステップと、
c.前記データファイルがフィールド区切りファイルであると判定された場合、前記データファイルに対して区切られた分析を実行するステップと、
d.前記データファイルが固定幅フィールドファイルであると判定された場合、前記データファイルに対して固定幅分析を実行するステップと、
e.前記データファイルに列タイプ識別を適用するステップであって、前記フィールドファイルに列タイプ識別を適用する前記ステップは、少なくとも1つの基本オラクル、少なくとも1つの標準オラクル、および少なくとも1つのメタオラクルを前記データファイルに適用するステップを含む、適用するステップと、
f.前記データファイルの最終的な列タイプ情報を出力するステップと
を含む、方法。 - 前記少なくとも1つの基本オラクルが、アルファオラクル、英数字オラクル、空白オラクル、数字オラクル、または数値オラクルの1つ以上を含む、請求項1に記載の方法。
- 前記少なくとも1つの基本オラクルが、アルファオラクル、英数字オラクル、空白オラクル、数字オラクル、および数値オラクルのそれぞれを含む、請求項2に記載の方法。
- 前記少なくとも1つの標準オラクルが、住所リンクオラクル、消費者リンクオラクル、文書識別子オラクル、商号オラクル、都市オラクル、国オラクル、国オラクル、日付オラクル、ドメインオラクル、電子メールオラクル、ファーストネームオラクル、または性別オラクルの1つ以上を含む、請求項2に記載の方法。
- 前記少なくとも1つの標準オラクルが、住所リンクオラクル、消費者リンクオラクル、文書識別子オラクル、商号オラクル、都市オラクル、国オラクル、国オラクル、日付オラクル、ドメインオラクル、電子メールオラクル、ファーストネームオラクル、および性別オラクルのそれぞれを含む、請求項4に記載の方法。
- 前記少なくとも1つのメタオラクルが、完全な住所オラクルまたはフルネームオラクルの1つ以上を含む、請求項2に記載の方法。
- 前記少なくとも1つのメタオラクルが、完全な住所オラクルおよびフルネームオラクルのそれぞれを含む、請求項6に記載の方法。
- 区切られた分析を前記ファイル上で実行する前記ステップが、
a.非数字、非アルファベット文字の初期頻度表を計算するステップと、
b.可能な区切り文字のセットから試行区切り文字を使用して、前記データファイル内の各行について列数をカウントするステップと、
c.フィールドおよび行の前記数で前記列カウントを要約するステップと、
d.少ない要約カウントをフィルタリングして除くステップと、
e.基本オラクルまたはフィールドオラクルの1つ以上を使用してフィールドカウントをランク付けするステップと、
f.最終的な区切られた決定を出力するステップと
を含む、請求項1に記載の方法。 - 前記ファイルに対して固定幅分析を実行する前記ステップが、
a.前記データファイル上に空間ヒストグラムを作成するステップと、
b.前記データファイル上に文字マップを作成するステップと、
c.前記空間ヒストグラムおよび文字マップの1つ以上を使用して前記データファイル上に列抽出をマッピングするステップと、
d.最終的な固定幅決定を出力するステップと
を含む、請求項1に記載の方法。 - 前記データファイルに列タイプの識別を適用する前記ステップが、
a.少なくとも1つの基本オラクルを使用して前記データファイル内の有効値をカウントするステップと、
b.少なくとも1つの標準オラクルを使用して前記データファイル内の有効値をカウントするステップと、
c.前記少なくとも1つの基本オラクルおよび少なくとも1つの標準オラクルを使用して、前記データファイル内の有効値をカウントする前記ステップに続いて、少なくとも1つのメタオラクルを使用して最初の列タイプを計算するステップと、
d.未知の列タイプが残っている場合に、1つ以上の通常オラクルまたは基本オラクル情報を適用するステップと、
e.最終的なタイプ決定を出力するステップと
を含む、請求項1に記載の方法。 - 前記データファイルに列タイプの識別を適用する前記ステップが、前記データファイル内の少なくとも1万個のレコードの各フィールドの内容の前記分析を含む、請求項1に記載の方法。
- 前記データファイルに列タイプの識別を適用する前記ステップが、前記データファイル内の少なくとも10万個のレコードの各フィールドの内容の前記分析を含む、請求項1に記載の方法。
- 前記データファイルに列タイプの識別を適用する前記ステップが、前記データファイル内の少なくとも100万個のレコードの各フィールドの内容の前記分析を含む、請求項1に記載の方法。
- 少なくとも1つの基本オラクル、少なくとも1つの標準オラクル、および少なくとも1つのメタオラクルを前記データファイルに適用する前記ステップが、異なるオラクルを使用して前記データファイルの各フィールドの予想されるデータタイプに関する複数の潜在的に不確実な決定を行うステップを含み、前記データファイルの各フィールドの前記予想されるデータタイプに関する最良の選択を行うために、前記複数の潜在的に不確実な決定の前記結果を組み合わせるステップをさらに含む、請求項1に記載の方法。
- 複数のフィールドをそれぞれ含む複数のレコードを含むデータファイルからファイルレイアウトを推測するシステムであって、
a.複数の基本オラクルであって、各基本オラクルが、前記複数のフィールドの少なくとも1つ中の特定のタイプの文字の存在を決定するように動作可能である、複数の基本オラクルと、
b.複数の標準オラクルであって、各標準オラクルが、前記複数のフィールドのうちの少なくとも1つ中に多くとも少数の共通表現を有する共通かつ頻繁に現れるフィールドタイプを識別するように動作可能である、複数の標準オラクルと、
c.複数のメタオラクルであって、各メタオラクルが、隣接フィールドと前記複数のレコードのそれぞれの中の互いに対する位置とのいずれかまたは両方を使用して、前記複数のフィールドのうちの少なくとも1つ中の複合データタイプを識別するように動作可能である、複数のメタオラクルと、
d.前記データファイルのファイルレイアウトを決定するために、前記データファイル内の前記複数のレコードの少なくともサブセットに前記基本オラクル、標準オラクル、およびメタオラクルを適用するように動作可能なオラクル分析サブシステムと
を含む、システム。 - 前記複数の基本オラクルの少なくとも1つが、アルファベットオラクル、数字オラクル、英数字オラクル、数字オラクル、または空白オラクルを含む、請求項15に記載のシステム。
- 前記複数の標準オラクルの少なくとも1つが、住所リンクオラクル、消費者リンクオラクル、文書識別子オラクル、商号オラクル、都市オラクル、国オラクル、日付オラクル、ドメインオラクル、電子メールオラクル、ファーストネームオラクル、ラストネームオラクル、または性別オラクルを含む、請求項16に記載のシステム。
- 前記複数のメタオラクルの少なくとも1つが、完全な住所オラクルまたはフルネームオラクルを含む、請求項17に記載のシステム。
- 前記オラクル分析サブシステムが、前記基本オラクル、標準オラクル、およびメタオラクルから複数の潜在的に不確実な重複決定を受け、かつ前記基本オラクル、標準オラクル、およびメタオラクルからの前記重複決定に基づいて、複数の可能な解釈からフィールドタイプおよびフィールド位置の少なくとも1つに対して最良の選択肢を選択するようにさらに動作可能である、請求項18に記載のシステム。
- 前記複数のフィールドの少なくとも1つについて、基本オラクルが真の所見を返すように動作可能であり、標準オラクルが同じフィールドについて真の所見を返すように動作可能であり、前記オラクル分析サブシステムが、前記基本オラクル所見よりも前記標準オラクル所見を選択して前記フィールドタイプを決定するように動作可能である、請求項19に記載のシステム。
- 複数のフィールドをそれぞれ含む複数のレコードを含むデータファイルからファイルレイアウトを推測する方法であって、
a.前記データファイル内の前記レコードの少なくともサブセットを使用して、前記複数のフィールドの少なくとも1つ中の特定のタイプの文字の存在を決定するステップと、
b.前記データファイル内の前記レコードの少なくともサブセットを使用して、前記複数のフィールドの少なくとも1つ中に多くとも少数の共通表現を有する共通または頻繁に現れるフィールドタイプを識別するステップと、
c.前記データファイル内の前記レコードの少なくともサブセットを使用して、隣接フィールドと互いに対する前記位置とのいずれかまたは両方を使用して、前記複数のフィールドのうちの少なくとも1つ中の複合データタイプを識別するステップと、
d.ステップ(a)〜(c)の前記結果を適用して前記データファイルのファイルレイアウトを決定するステップと
を含む、方法。 - 前記データファイルがフィールド区切りファイルであるか固定幅フィールドファイルであるかを決定するステップをさらに含む、請求項21に記載の方法。
- 前記データファイルがフィールド区切りファイルであると決定された場合に、前記データファイルに対して区切り分析を実行するステップ、あるいは、前記データファイルが固定幅フィールドファイルであると決定された場合に、前記データファイルに対して固定幅分析を実行するステップをさらに含む、請求項22に記載の方法。
- 区切られた分析を前記ファイル上で実行する前記ステップが、
a.非数字、非アルファベット文字の初期頻度表を計算するステップと、
b.可能な区切り文字のセットから試行区切り文字を使用して、前記データファイル内の各行について列数をカウントするステップと、
c.フィールドおよび行の前記数で前記列カウントを要約するステップと、
d.少ない要約カウントをフィルタリングして除くステップと、
e.前記フィールドカウントをランク付けするステップと
を含む、請求項23に記載の方法。 - 前記ファイルに対して固定幅分析を実行する前記ステップが、
a.前記データファイル上に空間ヒストグラムまたは文字マップの一方または両方を作成するステップと、
b.前記空間ヒストグラムまたは前記文字マップの一方または両方を使用して前記データファイル上に列抽出をマッピングするステップと
を含む、請求項24に記載の方法。 - 請求項25に記載のステップ(a)〜(c)の前記結果を適用して前記データファイルのファイルレイアウトを決定するステップが、
a.前記データファイルの各フィールドの予想されるデータタイプに関する複数の潜在的に不確実な決定を行うステップと、
b.前記データファイルの各フィールドの前記予想されるデータタイプに関する最良の選択を行うために、前記複数の潜在的に不確実な決定の前記結果を組み合わせるステップと
を含む、請求項25に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562248619P | 2015-10-30 | 2015-10-30 | |
US62/248,619 | 2015-10-30 | ||
PCT/US2016/059378 WO2017075392A1 (en) | 2015-10-30 | 2016-10-28 | Automated interpretation for the layout of structured multi-field files |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019502979A true JP2019502979A (ja) | 2019-01-31 |
JP6893209B2 JP6893209B2 (ja) | 2021-06-23 |
Family
ID=58631927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018522637A Active JP6893209B2 (ja) | 2015-10-30 | 2016-10-28 | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10838919B2 (ja) |
EP (1) | EP3369013A4 (ja) |
JP (1) | JP6893209B2 (ja) |
CN (1) | CN108351898B (ja) |
HK (1) | HK1251055A1 (ja) |
WO (1) | WO2017075392A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10055732B1 (en) | 2013-03-29 | 2018-08-21 | Wells Fargo Bank, N.A. | User and entity authentication through an information storage and communication system |
US10037561B1 (en) | 2013-03-29 | 2018-07-31 | Wells Fargo Bank, N.A. | Systems and methods for managing lists using an information storage and communication system |
US10530646B1 (en) | 2013-03-29 | 2020-01-07 | Wells Fargo Bank, N.A. | Systems and methods for providing user preferences for a connected device |
US10387928B1 (en) | 2013-03-29 | 2019-08-20 | Wells Fargo Bank, N.A. | Systems and methods for transferring a gift using an information storage and communication system |
US10204119B1 (en) * | 2017-07-20 | 2019-02-12 | Palantir Technologies, Inc. | Inferring a dataset schema from input files |
US10942959B1 (en) | 2018-02-06 | 2021-03-09 | Wells Fargo Bank, N.A. | Authenticated form completion using data from a networked data repository |
CN111414330B (zh) * | 2019-01-04 | 2024-03-22 | 阿里巴巴集团控股有限公司 | 数据编辑方法及系统、数据处理设备、存储介质 |
CN110569329B (zh) * | 2019-10-28 | 2022-08-02 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN110851520A (zh) * | 2019-11-19 | 2020-02-28 | 中国银行股份有限公司 | 数据加载方法及系统 |
CN111159497B (zh) * | 2019-12-31 | 2023-09-22 | 奇安信科技集团股份有限公司 | 正则表达式的生成方法及基于正则表达式的数据提取方法 |
CN111382128A (zh) * | 2020-03-20 | 2020-07-07 | 中国邮政储蓄银行股份有限公司 | 一种文件的拆分方法、装置及计算机系统 |
US11410186B2 (en) * | 2020-05-14 | 2022-08-09 | Sap Se | Automated support for interpretation of terms |
US11556563B2 (en) * | 2020-06-12 | 2023-01-17 | Oracle International Corporation | Data stream processing |
US11461301B2 (en) * | 2020-09-13 | 2022-10-04 | International Business Machines Corporation | Database index optimization |
CN113095064A (zh) * | 2021-03-18 | 2021-07-09 | 杭州数梦工场科技有限公司 | 代码字段识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007506191A (ja) * | 2003-09-15 | 2007-03-15 | エービー イニティオ ソフトウェア コーポレーション | データプロファイリング |
JP2013511097A (ja) * | 2009-11-13 | 2013-03-28 | アビニシオ テクノロジー エルエルシー | レコード形式情報の管理 |
JP2013191062A (ja) * | 2012-03-14 | 2013-09-26 | Fujitsu Ltd | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01205260A (ja) | 1988-02-12 | 1989-08-17 | Toshiba Corp | 文書整形装置 |
DE69206796T2 (de) | 1991-04-24 | 1997-02-13 | Michael Sussman | Digitale dokumentenvergroesserungsvorrichtung |
US5778359A (en) | 1996-04-18 | 1998-07-07 | Davox Corporation | System and method for determining and verifying a file record format based upon file characteristics |
US6094684A (en) * | 1997-04-02 | 2000-07-25 | Alpha Microsystems, Inc. | Method and apparatus for data communication |
US6981028B1 (en) | 2000-04-28 | 2005-12-27 | Obongo, Inc. | Method and system of implementing recorded data for automating internet interactions |
US7225199B1 (en) * | 2000-06-26 | 2007-05-29 | Silver Creek Systems, Inc. | Normalizing and classifying locale-specific information |
US7111075B2 (en) * | 2000-12-18 | 2006-09-19 | Microsoft Corporation | Method and system for processing data records having multiple formats |
US6493858B2 (en) * | 2001-03-23 | 2002-12-10 | The Board Of Trustees Of The Leland Stanford Jr. University | Method and system for displaying VLSI layout data |
US7185017B1 (en) * | 2002-04-10 | 2007-02-27 | Compuware Corporation | System and method for selectively processing data sub-segments using a data mask |
US7305129B2 (en) | 2003-01-29 | 2007-12-04 | Microsoft Corporation | Methods and apparatus for populating electronic forms from scanned documents |
EP1609044A4 (en) * | 2003-03-28 | 2008-08-06 | Dun & Bradstreet Inc | SYSTEM AND METHOD FOR CLEANING DATA |
US7305612B2 (en) | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
WO2005010727A2 (en) | 2003-07-23 | 2005-02-03 | Praedea Solutions, Inc. | Extracting data from semi-structured text documents |
US7599952B2 (en) * | 2004-09-09 | 2009-10-06 | Microsoft Corporation | System and method for parsing unstructured data into structured data |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8135814B2 (en) * | 2005-06-29 | 2012-03-13 | At&T Intellectual Property I, L.P. | Network capacity management system |
US7849048B2 (en) * | 2005-07-05 | 2010-12-07 | Clarabridge, Inc. | System and method of making unstructured data available to structured data analysis tools |
WO2007026365A2 (en) | 2005-08-31 | 2007-03-08 | Intuview Ltd. | Decision-support expert system and methods for real-time exploitation of documents in non-english languages |
US7792814B2 (en) * | 2005-09-30 | 2010-09-07 | Sap, Ag | Apparatus and method for parsing unstructured data |
US8468244B2 (en) | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US7930322B2 (en) * | 2008-05-27 | 2011-04-19 | Microsoft Corporation | Text based schema discovery and information extraction |
US20090300054A1 (en) * | 2008-05-29 | 2009-12-03 | Kathleen Fisher | System for inferring data structures |
US8489388B2 (en) * | 2008-11-10 | 2013-07-16 | Apple Inc. | Data detection |
US8250026B2 (en) * | 2009-03-06 | 2012-08-21 | Peoplechart Corporation | Combining medical information captured in structured and unstructured data formats for use or display in a user application, interface, or view |
US8341096B2 (en) | 2009-11-27 | 2012-12-25 | At&T Intellectual Property I, Lp | System, method and computer program product for incremental learning of system log formats |
US8626778B2 (en) * | 2010-07-23 | 2014-01-07 | Oracle International Corporation | System and method for conversion of JMS message data into database transactions for application to multiple heterogeneous databases |
US8526743B1 (en) * | 2010-11-01 | 2013-09-03 | Raf Technology, Inc. | Defined data patterns for object handling |
US8619090B2 (en) * | 2011-09-23 | 2013-12-31 | The Mathworks, Inc. | Text import tool for a technical computing environment |
EP2570974B1 (en) * | 2011-09-13 | 2018-11-28 | ExB Asset Management GmbH | Automatic crowd sourcing for machine learning in information extraction |
CA2887022C (en) * | 2012-10-23 | 2021-05-04 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US9244903B2 (en) * | 2013-04-15 | 2016-01-26 | Vmware, Inc. | Efficient data pattern matching |
US10157353B2 (en) * | 2013-09-12 | 2018-12-18 | Acxiom Corporation | Name variant extraction from individual handle identifiers |
US9846567B2 (en) * | 2014-06-16 | 2017-12-19 | International Business Machines Corporation | Flash optimized columnar data layout and data access algorithms for big data query engines |
US9483477B2 (en) * | 2015-01-19 | 2016-11-01 | Sas Institute Inc. | Automated data intake system |
-
2016
- 2016-10-28 JP JP2018522637A patent/JP6893209B2/ja active Active
- 2016-10-28 CN CN201680066594.3A patent/CN108351898B/zh active Active
- 2016-10-28 WO PCT/US2016/059378 patent/WO2017075392A1/en active Application Filing
- 2016-10-28 US US15/771,326 patent/US10838919B2/en active Active
- 2016-10-28 EP EP16860904.8A patent/EP3369013A4/en active Pending
-
2018
- 2018-08-13 HK HK18110342.4A patent/HK1251055A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007506191A (ja) * | 2003-09-15 | 2007-03-15 | エービー イニティオ ソフトウェア コーポレーション | データプロファイリング |
JP2013511097A (ja) * | 2009-11-13 | 2013-03-28 | アビニシオ テクノロジー エルエルシー | レコード形式情報の管理 |
JP2013191062A (ja) * | 2012-03-14 | 2013-09-26 | Fujitsu Ltd | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2017075392A1 (en) | 2017-05-04 |
JP6893209B2 (ja) | 2021-06-23 |
CN108351898A (zh) | 2018-07-31 |
US10838919B2 (en) | 2020-11-17 |
EP3369013A4 (en) | 2019-04-10 |
CN108351898B (zh) | 2021-10-08 |
EP3369013A1 (en) | 2018-09-05 |
US20180314711A1 (en) | 2018-11-01 |
HK1251055A1 (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6893209B2 (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
US10347019B2 (en) | Intelligent data munging | |
US8468167B2 (en) | Automatic data validation and correction | |
US9031895B2 (en) | Matching metadata sources using rules for characterizing matches | |
US7281001B2 (en) | Data quality system | |
US20220004878A1 (en) | Systems and methods for synthetic document and data generation | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
US20050065967A1 (en) | System and method for processing semi-structured business data using selected template designs | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110381115B (zh) | 信息推送方法、装置、计算机可读存储介质和计算机设备 | |
US20230087421A1 (en) | Systems and methods for generalized structured data discovery utilizing contextual metadata disambiguation via machine learning techniques | |
JP6470249B2 (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
CN110580301A (zh) | 一种高效商标检索方法、系统及平台 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN115879901B (zh) | 一种智能人事自助服务平台 | |
CN102103502A (zh) | 基于经过遗留系统的踪迹来分析遗留系统的方法和系统 | |
US10877998B2 (en) | Highly atomized segmented and interrogatable data systems (HASIDS) | |
CN115062023A (zh) | 宽表优化方法、装置、电子设备及计算机可读存储介质 | |
Arasu et al. | Towards a domain independent platform for data cleaning | |
WO2016013157A1 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
JPWO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
CN117608565B (zh) | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 | |
CN113138936B (zh) | 数据处理方法、装置、存储介质及处理器 | |
US20230359826A1 (en) | Computer-implemented system and method to perform natural language processing entity research and resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6893209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |