CN112463737A - 针对多格式数据智能匹配模板快速采集数据的系统及方法 - Google Patents
针对多格式数据智能匹配模板快速采集数据的系统及方法 Download PDFInfo
- Publication number
- CN112463737A CN112463737A CN202011287345.1A CN202011287345A CN112463737A CN 112463737 A CN112463737 A CN 112463737A CN 202011287345 A CN202011287345 A CN 202011287345A CN 112463737 A CN112463737 A CN 112463737A
- Authority
- CN
- China
- Prior art keywords
- data
- file
- transaction
- account
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004140 cleaning Methods 0.000 claims description 19
- 230000001915 proofreading effect Effects 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 210000001503 joint Anatomy 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明具体涉及针对多格式数据智能匹配模板快速采集数据的系统及方法,通过平台采集,将数据进行加工和清洗,再经过数据补全和去重,最终数据入库,这一系列的数据清洗流程,是保障数据健康的必经操作,为后期的数据挖掘及数据分析研判提供数据保障;本发明的系统应用构架,面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台,充分考虑系统功能的主次定位和依赖关系,具有高度灵活的定制性和配置性,能够应对多变的需求、繁多的数据类型、多样的服务方式。
Description
技术领域
本发明涉及数据处理技术领域,具体是针对多格式数据智能匹配模板快速采集数据的系统及方法。
背景技术
目前计算机软件产业的不断发展,越来越多的行业单位都实现了信息化,但由于一些行业单位业务烦琐,又没有一个软件提供商能为其提供所有的技术支持,许多行业单位存在好几套软件同时应用的现象,比如证券公司在经营过程重同时应用0A系统、薪酬系统、清算系统、财务管理系统等等,而这些系统间还存在着某些关联,比如A系统可能会需要B系统的数据,但又不能让用户在AB系统都分别录一遍数据,如果那样不仅为用户带了巨大的工作量,而且重复录入还可能存在录入错误,给数据核对造成一定的困难。于是各应用软件就常常会涉及到数据采集、数据汇总、财务核算等工作,数据采集的重要性十分显著。这种从其他数据库或外部文件而来的数据称为接口数据,然而各种接口系统所产生的数据格式均有所不同,所以必须在开发的过程中,经过采集、整理,才能将异构数据形式转换为应用系统所需要的格式。
中国专利“CN101320394A一种支持多种文件类型的数据采集方法”所述的技术方案提到数据采集的方法,在实现的过程中,并没有涉及到数据采集之后的整理,采集之后的数据质量如何,是否存在大量重复数据,以及是否能够对缺失数据进行补全,并没有提及,如果只是采集数据而不做数据质量的整理,这可能在数据后期应用过程中造成数据不准确的情况出现。
发明内容
有鉴于此,本发明的目的是提供针对多格式数据智能匹配模板快速采集数据的系统及方法,包括对多种数据类型的识别、数据采集校对、数据质量评估、数据补全和数据去重。
本发明的针对多格式数据智能匹配模板快速采集数据的方法,包括步骤:
S101,数据采集,通过数据接口对账户交易时产生的数据文件进行采集,采集时,先将数据文件上传,同时对文件进行文件类型识别、数据类型识别以及超大文件拆分,并生成模板将数据文件内的数据进行结构化处理;
S102,对采集的数据进行数据校对,系统根据上传的数据自动判断格式,并进行数据格式的自动匹配,在匹配过程中,若存在上传的数据与系统中匹配的数据不一致的情况,系统采用自动推荐+人工参与的方式进行修改。
S103对采集入库的数据按照系统内置的采集规则进行校验和清洗,对与非数值型、非日期型、字符长度异常、收付标志判断有误、关键字段为空以及存在特殊字符的数据,系统根据校验规则,包括非数值型校验、非日期型校验、字符长度异常校验、收付标志判断有误校验、关键字段为空校验以及特殊字符校验,校验出异常数据,并对异常数据进行修改和替换操作,对数据进行清洗,修改和去除无效数据。
S104,对采集入库的数据,系统根据判断规则,若存在缺失数据和重复数据,系统可根据当前的数据类型格式,在数据库后台的历史数据库中对其补全,并进行去除重复数据;
S105,数据入库记录,根据入库的数据文件生成用于查看和回溯数据文件的日志文件;
S106,根据多次的步骤S101-S104的处理后,生成数据库。
进一步,所述步骤S101中,对数据采集的规则为,对交易明细中的交易双方的交易账号提取到交易账号表中,并与已导入的交易账号数据进行对比和合并;对比时,对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息,只提取其对应的交易数据。
进一步,所述步骤S103中对采集入库的数据补全其完整的具体步骤包括:
S10301,获取开户信息表;
S10302,从开户信息表中获取账号的开户信息和交易对方的账号的开户信息,从中提取出交易双方的人员信息;
S10303,根据开户信息表中提取出的人员信息检测出一证多人、一卡多人和一卡多行的情况,并对其进行指定唯一,并对开户信息表中处理之后的数据补全至用于记录交易信息的交易信息表中,并更新至数据库中。
进一步,所述步骤S103中对采集入库的数据进行去重的具体步骤包括:
S10304,根据资金交易明细、开户信息和用户信息识别出数据文件内的数据类型,根据数据类型对数据文件进行筛选,并检测出重复数据;
S10305,直接去除重复数据或者根据自定义规则去除重复数据。
本发明还提供用于进行上述步骤的多格式数据智能匹配模板快速采集数据的系统,包括顺序连接的数据采集接口、数据识别单元、数据结构化单元、数据清洗单元、数据校对单元和数据库;
采集接口用于与外部系统对接,并下载对应的数据文件;
数据识别单元用于识别数据文件的文件类型、数据类型和数据文件的大小,数据文件过大时,数据识别单元对其进行拆分;
数据结构化单元用于生成模板,并将数据文件中的数据转移至模板中,生成结构化的数据文件;
数据清洗单元用于设置清洗条件,对结构化的数据文件进行清洗;
数据校对单元用于对清洗后的数据文件进行补全和去重;
数据库用于存储结构化的数据文件。
本发明的有益效果是:本发明的针对多格式数据智能匹配模板快速采集数据的系统及方法,通过平台采集,将数据进行加工和清洗,再经过数据补全和去重,最终数据入库,这一系列的数据清洗流程,是保障数据健康的必经操作,为后期的数据挖掘及数据分析研判提供数据保障;本发明的系统应用构架,面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台,充分考虑系统功能的主次定位和依赖关系,具有高度灵活的定制性和配置性,能够应对多变的需求、繁多的数据类型、多样的服务方式。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本发明的方法流程图;
图2为本发明的补全和去重的结方法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明主要用于对原始数据的采集,主要包括资金交易数据、账户交易数据、JASS数据、物流数据、海关数据、电商数据、反洗钱数据、税务数据、公司企业数据、通讯数据、标书数据、涉众数据、证券交易数据、云搜数据等数据类型,采集的数据来源渠道主要分为离线采集渠道、查控渠道、科信渠道、工商渠道、银行渠道5个主要数据渠道,采集的数据格式有结构化、半结构化、非结构三种数据格式,通过平台采集,将数据进行加工和清洗,再经过数据补全和去重,最终数据入库,这一系列的数据清洗流程,是保障数据健康的必经操作,为后期的数据挖掘及数据分析研判提供数据保障。
本发明的系统应用构架,是按照面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台,充分考虑系统功能的主次定位和依赖关系,具有高度灵活的定制性和配置性,能够应对多变的需求、繁多的数据类型、多样的服务方式。
如图1所示:本实施例的针对多格式数据智能匹配模板快速采集数据的方法,包括步骤:
S101,数据采集,使用数据库服务器接入至需要采集数据的系统,数据库服务器通过数据接口对账户交易时产生的数据文件进行采集,采集之前时,数据库服务器需要对可能会遇到的数据进行预先定义,从而对数据文件的类型、数据类型进行识别;完成定义后,将数据文件上传至数据服务器中,数据服务器对文件进行文件类型识别、数据类型识别以及超大文件拆分,并生成模板将数据文件内的数据进行结构化处理,采集的数据为结构化、半结构化、非结构三种数据格式,数据服务器需要对其中的字符、标识等信息进行提取并根据预先的定义进行识别,将识别出的字符、标识等信息自动填写至空白的模板中,生成格式统一的结构化数据文件;
S102,数据服务器对采集入库的数据进行清洗,包括非数值判断、非日期格式判断、字符长度异常判断、收付标志判断、关键字段判断和特殊字符判断,并根据非数值判断、非日期格式判断、字符长度异常判断、收付标志判断、关键字段判断和特殊字符判断的判断结果和设定规则对数据进行清洗,去除无效字符和标志,上述对非数字字符、非日期字符、异常字符长度、是否属于收付标志和是否属于特殊字符的判断都需要基于步骤S101中,在数据服务器内进行的预定义,数据服务器根据预定义对数据文件中的字符进行对比判断,如果不符合预定义的直接进行删除清洗,或者根据定义有目的地删除其中的一些不符合预定义的字符或者标识,使得剩余的字符均为符合数据服务器的预定义,进而使得模板上的数据均为数据服务器可识别的;
如图2所示,S103,对采集的数据进行数据校对,对采集入库的数据补全其完整性,并去除重复数据;
具体过程为:
S10301,从外部的系统中获取开户信息表,开户信息表中含有所有的账号的开户信息,一般来说,设计上资金交易的账户需要填写姓名、性别和身份证号码信息,以及其他的非必要的信息;
S10302,从开户信息表中获取账号的开户信息和交易对方的账号的开户信息,获取方法为对比查找,将交易信息中的零碎信息带入至开户信息表,并从中提取出交易双方的人员信息,必要的信息为人员姓名和身份证号码;
S10303,根据开户信息表中提取出的人员信息检测出一证多人、一卡多人和一卡多行的情况,并对其进行指定唯一,从而对开户信息表的数据进行核实,并对开户信息表中处理之后的数据补全至用于记录交易信息的交易信息表中,并更新至数据库的相应的数据文件中。
S10304,根据资金交易明细、开户信息和用户信息识别出数据文件内的数据类型,并根据资金交易明细、开户信息和用户信息作为选线对数据进行筛选,根据数据类型对数据文件进行筛选,并检测出重复数据;
S10305,直接去除重复数据或者根据自定义规则去除重复数据。
S104,数据入库记录,根据入库的数据文件生成用于查看和回溯数据文件的日志文件,查询时根据日志文件对数据库中的数据文件进行回溯;
S105,根据多次的步骤S101-S104的处理后,生成数据库。
本实施例中,所述步骤S101中,对数据采集的规则为,对交易明细中的交易双方的交易账号提取到交易账号表中,并与已导入的交易账号数据进行对比和合并;对比时,对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息,只提取其对应的交易数据。
本发明还提供用于进行上述步骤的多格式数据智能匹配模板快速采集数据的系统,包括顺序连接的数据采集接口、数据识别单元、数据结构化单元、数据清洗单元、数据校对单元和数据库;
采集接口用于与外部系统对接,并下载对应的数据文件;
数据识别单元用于识别数据文件的文件类型、数据类型和数据文件的大小,数据文件过大时,数据识别单元对其进行拆分;
数据结构化单元用于生成模板,并将数据文件中的数据转移至模板中,生成结构化的数据文件;
数据清洗单元用于设置清洗条件,对结构化的数据文件进行清洗;
数据校对单元用于对清洗后的数据文件进行补全和去重;
数据库用于存储结构化的数据文件。
本发明中的多格式数据智能匹配模板快速采集数据的系统为基于多格式数据智能匹配模板快速采集数据的方法生成的功能系统,具体由一台或者多台计算机或者服务器实现其功能。
本发明的针对多格式数据智能匹配模板快速采集数据的系统及方法,通过平台采集,将数据进行加工和清洗,再经过数据补全和去重,最终数据入库,这一系列的数据清洗流程,是保障数据健康的必经操作,为后期的数据挖掘及数据分析研判提供数据保障;本发明的系统应用构架,面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台,充分考虑系统功能的主次定位和依赖关系,具有高度灵活的定制性和配置性,能够应对多变的需求、繁多的数据类型、多样的服务方式。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.针对多格式数据智能匹配模板快速采集数据的方法,其特征在于:包括步骤:
S101,数据采集,通过数据接口对账户交易时产生的数据文件进行采集,采集时,先将数据文件上传,同时对文件进行文件类型识别、数据类型识别以及超大文件拆分,并生成模板将数据文件内的数据进行结构化处理;
S102,对采集的数据进行数据校对,系统根据上传的数据自动判断格式,并进行数据格式的自动匹配,在匹配过程中,若存在上传的数据与系统中匹配的数据不一致的情况,系统采用自动推荐+人工参与的方式进行修改。
S103对采集入库的数据按照系统内置的采集规则进行校验和清洗,对与非数值型、非日期型、字符长度异常、收付标志判断有误、关键字段为空以及存在特殊字符的数据,系统根据校验规则,包括非数值型校验、非日期型校验、字符长度异常校验、收付标志判断有误校验、关键字段为空校验以及特殊字符校验,校验出异常数据,并对异常数据进行修改和替换操作,对数据进行清洗,修改和去除无效数据。
S104,对采集入库的数据,系统根据判断规则,若存在缺失数据和重复数据,系统可根据当前的数据类型格式,在数据库后台的历史数据库中对其补全,并进行去除重复数据;
S105,数据入库记录,根据入库的数据文件生成用于查看和回溯数据文件的日志文件;
S106,根据多次的步骤S101-S104的处理后,生成数据库。
2.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的方法,其特征在于:所述步骤S101中,对数据采集的规则为,对交易明细中的交易双方的交易账号提取到交易账号表中,并与已导入的交易账号数据进行对比和合并;对比时,对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息,只提取其对应的交易数据。
3.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的系统及方法,其特征在于:所述步骤S103中对采集入库的数据补全其完整的具体步骤包括:
S10301,获取开户信息表;
S10302,从开户信息表中获取账号的开户信息和交易对方的账号的开户信息,从中提取出交易双方的人员信息;
S10303,根据开户信息表中提取出的人员信息检测出一证多人、一卡多人和一卡多行的情况,并对其进行指定唯一,并对开户信息表中处理之后的数据补全至用于记录交易信息的交易信息表中,并更新至数据库中。
4.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的系统及方法,其特征在于:所述步骤S103中对采集入库的数据进行去重的具体步骤包括:
S10304,根据资金交易明细、开户信息和用户信息识别出数据文件内的数据类型,根据数据类型对数据文件进行筛选,并检测出重复数据;
S10305,直接去除重复数据或者根据自定义规则去除重复数据。
5.多格式数据智能匹配模板快速采集数据的系统,其特征在于:包括顺序连接的数据采集接口、数据识别单元、数据结构化单元、数据清洗单元、数据校对单元和数据库;
采集接口用于与外部系统对接,并下载对应的数据文件;
数据识别单元用于识别数据文件的文件类型、数据类型和数据文件的大小,数据文件过大时,数据识别单元对其进行拆分;
数据结构化单元用于生成模板,并将数据文件中的数据转移至模板中,生成结构化的数据文件;
数据清洗单元用于设置清洗条件,对结构化的数据文件进行清洗;
数据校对单元用于对清洗后的数据文件进行补全和去重;
数据库用于存储结构化的数据文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287345.1A CN112463737A (zh) | 2020-11-17 | 2020-11-17 | 针对多格式数据智能匹配模板快速采集数据的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287345.1A CN112463737A (zh) | 2020-11-17 | 2020-11-17 | 针对多格式数据智能匹配模板快速采集数据的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463737A true CN112463737A (zh) | 2021-03-09 |
Family
ID=74837608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011287345.1A Pending CN112463737A (zh) | 2020-11-17 | 2020-11-17 | 针对多格式数据智能匹配模板快速采集数据的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463737A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064888A (zh) * | 2021-03-25 | 2021-07-02 | 珠海格力电器股份有限公司 | 数据校对方法、装置和系统、服务器、设备 |
CN113360556A (zh) * | 2021-05-25 | 2021-09-07 | 北京京东振世信息技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN114090520A (zh) * | 2021-11-22 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 数据检测方法 |
WO2024020163A3 (en) * | 2022-07-20 | 2024-05-02 | Lyght Ai | System, method and apparatuses for improved script creation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005227910A (ja) * | 2004-02-10 | 2005-08-25 | Sumitomo Mitsui Banking Corp | 取引口座情報管理システム及び管理方法 |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN107358518A (zh) * | 2017-03-20 | 2017-11-17 | 宝钢工程技术集团有限公司 | 多态多维度衔接直联式账户信息采集方法 |
CN108062387A (zh) * | 2017-12-14 | 2018-05-22 | 国网陕西省电力公司电力科学研究院 | 一种面向tas系统的实时数据清洗与转换方法 |
CN110033279A (zh) * | 2019-04-04 | 2019-07-19 | 银清科技(北京)有限公司 | 基于知识图谱技术的可疑账户交易确认方法及装置 |
CN111523853A (zh) * | 2020-04-14 | 2020-08-11 | 上海资信有限公司 | 一种企业信用信息加工、整理及存储的管理方法 |
WO2020186786A1 (zh) * | 2019-03-20 | 2020-09-24 | 平安科技(深圳)有限公司 | 文件处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-17 CN CN202011287345.1A patent/CN112463737A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005227910A (ja) * | 2004-02-10 | 2005-08-25 | Sumitomo Mitsui Banking Corp | 取引口座情報管理システム及び管理方法 |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN107358518A (zh) * | 2017-03-20 | 2017-11-17 | 宝钢工程技术集团有限公司 | 多态多维度衔接直联式账户信息采集方法 |
CN108062387A (zh) * | 2017-12-14 | 2018-05-22 | 国网陕西省电力公司电力科学研究院 | 一种面向tas系统的实时数据清洗与转换方法 |
WO2020186786A1 (zh) * | 2019-03-20 | 2020-09-24 | 平安科技(深圳)有限公司 | 文件处理方法、装置、计算机设备和存储介质 |
CN110033279A (zh) * | 2019-04-04 | 2019-07-19 | 银清科技(北京)有限公司 | 基于知识图谱技术的可疑账户交易确认方法及装置 |
CN111523853A (zh) * | 2020-04-14 | 2020-08-11 | 上海资信有限公司 | 一种企业信用信息加工、整理及存储的管理方法 |
Non-Patent Citations (1)
Title |
---|
王曰芬;章成志;张蓓蓓;吴婷婷;: "数据清洗研究综述", 现代图书情报技术, no. 12, 25 December 2007 (2007-12-25), pages 50 - 56 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064888A (zh) * | 2021-03-25 | 2021-07-02 | 珠海格力电器股份有限公司 | 数据校对方法、装置和系统、服务器、设备 |
CN113064888B (zh) * | 2021-03-25 | 2021-12-07 | 珠海格力电器股份有限公司 | 数据校对方法、装置和系统、服务器、设备 |
CN113360556A (zh) * | 2021-05-25 | 2021-09-07 | 北京京东振世信息技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN113360556B (zh) * | 2021-05-25 | 2023-08-08 | 北京京东振世信息技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN114090520A (zh) * | 2021-11-22 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 数据检测方法 |
WO2024020163A3 (en) * | 2022-07-20 | 2024-05-02 | Lyght Ai | System, method and apparatuses for improved script creation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112463737A (zh) | 针对多格式数据智能匹配模板快速采集数据的系统及方法 | |
US8233751B2 (en) | Method and system for simplified recordkeeping including transcription and voting based verification | |
US20190130494A1 (en) | System and method for automatic generation of reports based on electronic documents | |
US9390176B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
US20130226623A1 (en) | Insurance claims processing | |
AU2019203697A1 (en) | Intelligent data extraction | |
CN106599160B (zh) | 一种内容规则库管理系统及其编码方法 | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN101421725A (zh) | 用于关联企业实体的方法与系统 | |
US20080091742A1 (en) | System and method for detecting and updating geographical information dataset versions | |
EP2028598A1 (en) | Information classification device, information classification method, and information classification program | |
CN109241014B (zh) | 数据处理方法、装置和服务器 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
US11822578B2 (en) | Matching machine generated data entries to pattern clusters | |
CN104182416A (zh) | 文件下载系统及方法 | |
CN109426576B (zh) | 容错处理方法以及容错组件 | |
CN111242779A (zh) | 金融数据特征选择和预测方法、装置、设备及存储介质 | |
JP6160503B2 (ja) | 情報入力システム及びプログラム | |
JP6588988B2 (ja) | 業務プログラム生成支援システムおよび業務プログラム生成支援方法 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN114840776B (zh) | 一种数据发布源收录的方法、装置、电子设备及存储介质 | |
JP2003223459A (ja) | 住所情報の管理方法 | |
CN107918672B (zh) | 信息处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |