CN103309907A - 对不同来源的业务数据进行规范化处理的方法及系统 - Google Patents

对不同来源的业务数据进行规范化处理的方法及系统 Download PDF

Info

Publication number
CN103309907A
CN103309907A CN2012100805853A CN201210080585A CN103309907A CN 103309907 A CN103309907 A CN 103309907A CN 2012100805853 A CN2012100805853 A CN 2012100805853A CN 201210080585 A CN201210080585 A CN 201210080585A CN 103309907 A CN103309907 A CN 103309907A
Authority
CN
China
Prior art keywords
data
standard format
data content
content
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100805853A
Other languages
English (en)
Other versions
CN103309907B (zh
Inventor
杨敬宇
王志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI AGILESC INFORMATION SYSTEMS CO Ltd
Original Assignee
SHANGHAI AGILESC INFORMATION SYSTEMS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=49135144&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN103309907(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by SHANGHAI AGILESC INFORMATION SYSTEMS CO Ltd filed Critical SHANGHAI AGILESC INFORMATION SYSTEMS CO Ltd
Priority to CN201210080585.3A priority Critical patent/CN103309907B/zh
Publication of CN103309907A publication Critical patent/CN103309907A/zh
Application granted granted Critical
Publication of CN103309907B publication Critical patent/CN103309907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种对不同来源的业务数据进行规范化处理的方法,对不同来源的、具有相同数据字段格式的业务数据文件,先拆分为多个组,对每个组的数据按照预先配置的规则,将每个数据字段中的数据内容转换为标准格式,对不能转换为标准格式的数据内容,与预设的标准主数据进行匹配,匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容,在标准主数据中建立一条新的标准格式数据内容,将匹配不成功的数据内容再次与标准主数据进行匹配,匹配成功后的数据内容转换为标准格式。本发明同时公开了实现上述方法的系统。应用本发明,实现了不同来源的业务数据中相同字段的数据内容的规范化,能够同时兼顾数据的及时性和准确性。

Description

对不同来源的业务数据进行规范化处理的方法及系统
技术领域
本发明涉及对不同来源的业务数据进行数据处理的技术,特别涉及一种对不同来源的业务数据进行规范化处理的方法及系统。 
背景技术
各行各业的生产厂商都希望及时、准确、完整地掌握其渠道商销售的相关数据,但是各个渠道商在采集数据时所采用的数据字段格式不完全相同,即使数据的字段格式相同的,数据内容填写也不完全相同。例如:同样是产品名称这一字段,同样是“史克肠虫清”,有的渠道商会填写“史克肠虫清”,有的会填写“阿苯达唑(史克肠虫清)”等等。这就使得生产厂商在对不同来源的业务数据进行处理时,很困难。 
目前,所采用的方式是由第三方数据处理企业,接收其各个渠道商的业务数据,将其统一格式和数据内容后,再发送给生产厂商。通常是通过一套完整的软件来实现。首先,会在生产厂商的各个渠道商(下文中统称为渠道商)处安装客户端程序,该程序中固定了该生产厂商所需要的符合该生产厂商格式的渠道商信息及产品信息等。渠道商每天的销售相关数据会通过数据系统与该生产厂商需要的渠道商信息进行匹配,在匹配完成后再将数据转换成所匹配的内容并统一发送至生产厂商。 
该方式虽然解决了生产厂商对于数据及时性的需求,但对于数据的准确性,却存在以下不足: 
1、渠道商的下游渠道存在可变性,一旦渠道发生变化,原本储存在系统中固定的匹配关系其准确性及数据的可匹配率将大大下降。 
2、生产厂商的渠道商信息也存在可变性,如果生产厂商需要变更其下游渠道,第三方数据处理企业无法将所有部署在全国各地渠道商的系统中的匹配关系进行快速的更新,且每次更新都需要花费大量的人力和 财力。 
3、对于无法匹配的数据,即使该数据是真实有效的渠道业务数据,生产厂商也无法获取。 
除了上述方式,一些专业的数据处理公司还采用了另一种策略。通过邮件或快递等方式获取渠道铺货数据,先将其转换成统一标准的电子文件格式,以此来确保原始数据的完整性和准确性;其次安排质检人员对数据的准确性进行双录排错与数据汇总,确保数据与原始一致,然后将数据中的下游渠道商匹配成客户需要的渠道商信息,在检查无误后再已刻录光盘或邮件的形式反馈至客户。 
这种处理方式采取了全人工处理的策略,通过双录排错及人工校验的形式保证了数据的准确性,可对于数据的及时性,却依然存在以下不足: 
1、及时性差,且人工成本高。 
由于采取了人工处理的策略,整个处理较机器处理所需时间长、效率低。尤其是海量数据,该类根本无法在短时间内完成处理, 
2、对于无法匹配的数据,即使是真实有效的渠道业务数据,生产厂商也无法获取。即使生产厂商获取了这部分数据,由于没有进行规范化处理,也只是渠道商提供的原始数据,无法供生产厂商使用。 
发明内容
有鉴于此,本发明的主要目的在于一种对不同来源的业务数据进行规范化处理的方法及系统,实现不同来源的业务数据中相同字段的数据内容的规范化。 
为达到上述目的的一个方面,本发明提供了一种种对不同来源的业务数据进行规范化处理的方法,对于不同来源的、具有相同数据字段格式的业务数据文件,执行如下步骤: 
A、按照数据字段的名称,将业务数据划分为多组数据。 
B、从业务数据中的第一组开始,逐个对每组数据执行: 
B1、按照预先配置的规则,将该组数据中的每个数据字段中的数据 内容转换为标准格式。 
B2、从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配。 
所述标准格式的数据内容存储在预先设置的标准主数据中。 
B3、将匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容执行步骤B4。 
B4、将步骤B2提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中;将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式。 
为达到上述目的的一个方面,本发明还提供了一种对不同来源的业务数据进行规范化处理的系统,包括: 
数据拆分单元,按照数据字段的名称,将业务数据划分为多组数据,从业务数据中的第一组开始,逐个将每组数据传送给数据转换单元。 
数据转换单元,按照预先配置的规则,将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元。 
数据匹配单元,从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;将匹配成功的数据内容转换为标准格式输出,将匹配不成功的数据内容传送给主数据新增工作台。 
所述标准格式的数据内容存储在预先设置的标准主数据中。 
主数据新增工作台,将数据匹配单元提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中。 
数据修复工作台,将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式输出。 
由上述的技术方案可见,本发明提供的这种对不同来源的业务数据进行规范化处理的方法及系统,对不同来源的、具有相同数据字段格式的业务数据文件,先拆分为多个组,对每个组的数据按照预先配置的规则,将每个数据字段中的数据内容转换为标准格式,对不能转换为标准 格式的数据内容,与预设的标准主数据进行匹配,匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容,在标准主数据中建立一条新的标准格式数据内容,将匹配不成功的数据内容再次与标准主数据进行匹配,匹配成功后的数据内容转换为标准格式。因此,实现了不同来源的业务数据中相同字段的数据内容的规范化,能够同时兼顾数据的及时性和准确性。 
附图说明
图1为本发明一较佳实施例中对企业数据组进行规范化处理的流程图; 
图2为本发明一较佳实施例中对业务数据进行规范化处理的系统示意图; 
图3为图2所示实施例中数据转换处理单元的结构示意图。 
具体实施方式
以下参照附图并举具体实施例对本发明进行详细说明。 
本发明提供了一种对不同来源的业务数据进行规范化处理的方法及系统,对不同来源的、具有相同数据字段格式的业务数据文件,先拆分为多个组,对每个组的数据按照预先配置的规则,将每个数据字段中的数据内容转换为标准格式,对不能转换为标准格式的数据内容,与预设的标准主数据进行匹配,匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容,在标准主数据中建立一条新的标准格式数据内容,将匹配不成功的数据内容再次与标准主数据进行匹配,匹配成功后的数据内容转换为标准格式。 
以下举具体实施例对本发明进行详细说明。 
本发明中不同来源的、具有相同数据字段格式的业务数据文件,指的是一个生产厂商的不同渠道商提供的多个业务数据文件。首先,按照数据字段的名称,将业务数据划分为多组数据,并预先建立相应的标准格式的主数据。例如:将与企业信息相关的数据字段“企业名称”、“企 业类型”、“企业地址”、“邮编”等等企业相关的数据字段,划分为一组,称为企业数据;将与贸易关系相关的数据字段“渠道商上游企业的名称”、“渠道商下游企业的名称”等等数据字段,划分为一组,称为企业贸易关系数据。相应的,预先设置标准企业主数据和标准企业贸易主数据,该标准企业主数据和标准企业贸易主数据中存储了相应数据字段的标准格式的数据内容,以便用于数据匹配。 
对于一个完整的数据文件,其处理的过程是按照上述分组的顺序,从第一组开始,一组一组的串行进行处理,直到全部数据字段处理完毕。由于对各组数据进行处理的过程是相同的,以下以对企业数据组进行规范化处理过程为例,对本发明进行详细说明。 
如图1所示,对企业数据组进行规范化处理过程包括如下步骤: 
步骤101,按照预先配置的规则,将数据内容转换为标准格式。对转换后的数据,执行步骤110;对不能转换的数据,执行步骤102。 
本步骤中的数据转换是由计算机自动根据预先配置的规则进行转换。 
以处理某厂商的库存数据为例,如果配置的规则为“去除多余空格规则”、“中文符号转为符号规则”、“产品转换规则”。输入数据内容格式如表1所示: 
  21510104   阿苯达唑片(史克肠虫清)    0.2g*10T       7400   盒   盒   2015-07-07
  20924202   复方盐酸伪麻黄碱缓释胶囊(新康泰克胶囊)    90mg∶4mg*10s       38600   盒   盒   2013-06-12
表1 
经过转换后,输出数据格式如表2所示: 
  44351  肠虫清0.2g×10T     0.2×10T       7400.00   盒   盒   2015-07-07
  05451  新康泰克10c     10c       38600.00   盒   盒   2013-06-12
表2 
步骤102,判断能否从不能转换为标准格式的数据内容中提取标准格式的数据内容需要的信息,如果是,则执行步骤104;否则执行步骤103。 
本步骤中,可以采用人工辅助计算机的方式进行。例如:将不能转换为标准格式的数据内容输出到显示器,操作人员根据标准格式来判断是否能够提取需要的信息。 
步骤103,对数据内容进行规整。 
本步骤中,也可以采用人工辅助计算机的方式进行。例如,因“企 业地址”中的错别字,而不能提取标准格式的数据内容需要的信息,则通过人工将该错别字修改。数据规整后,执行步骤104。 
步骤104,提取出标准格式的数据内容需要的信息与标准主数据进行匹配。对匹配成功的数据执行步骤110,匹配不成功的数据执行步骤105。 
本步骤中,计算机采用现有的匹配算法进行模糊匹配,当匹配率达到95%或以上时,直接将该数据内容转换为标准格式的数据内容,转换后的数据执行步骤110。 
步骤105,判断匹配过程中是否有可用建议值,如果有,则执行步骤109;否则,执行步骤106。 
本步骤是个审核的过程,就是判断在匹配过程中计算的建议值中,是否有能够匹配的数据内容。实际应用中,本步骤也可采用人工辅助计算机的方式实现。另外,为了提高准确性,本审核步骤可以执行两次。 
步骤106,用步骤104提取出标准格式的数据内容需要的信息,新增标准主数据。 
本步骤中,是将提取出的信息,组合成一条新的标准格式的数据内容展示给操作人员,操作人员需要手工补全该信息,再将数据传输至主数据审核工作台。 
例如:提取出的信息为“上海市第一人民医院”,标准格式需要其中包含区的名称,则新增的标准格式的数据为“上海市浦东区第一人民医院”。 
步骤107,判断新增标准主数据审核是否通过,如果是,则执行步骤109;否则执行步骤108。 
本步骤中的数据审核可以包括两个方面: 
1、判断标准主数据中,是否已经存在该新增的标准格式的数据内容;如果已经有,则对该数据要返回去执行步骤104;否则可以执行第2方面审核。 
2、判断新增的标准格式的数据内容是否为要求的标准格式,例如:是否有错别字,是否缺少或多出信息等等。 
如果第2方面的审核不通过,则执行步骤108。 
步骤108,修正新增标准主数据后,返回步骤107。 
本步骤中,也可以采用人工辅助计算机实现。人工修改错别字,增加或删除标准格式中的信息。 
步骤109,修复数据。 
本步骤中,具体地就是将匹配不成功的数据内容与标准主数据再次进行匹配,将匹配上的数据转换为标准格式。 
由于找到了可用的建议值,或者新增了标准主数据,因此在本步骤中,数据都能匹配成功。 
步骤110,判断数据审核是否通过,如果是,则将转换后的标准格式的数据输出;否则,执行步骤111。 
本步骤中,是将已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数据转换正确,则该组数据的规范化处理完成,将转换后的标准格式的数据输出,否则对审核不通过的数据,执行步骤111。 
步骤111,对数据进行修正,返回步骤110。 
上述步骤110和111,同样可以采用人工辅助计算机实现。步骤111对数据进行修正的方法与步骤108相同,这里不再重复说明。 
另外,本发明的对不同来源的业务数据进行规范化处理的方法,还可以包括将已转换为标准格式的业务数据转换为企业需要数据的步骤,从标准格式的业务数据中的第一组开始,逐个对每组数据执行如下步骤: 
1、按照预先配置的规则,将该部分数据中的每个数据字段中的数据内容转换为企业需要的格式。 
2、从不能转换为企业需要的格式的数据内容中提取企业需要的格式的数据内容所需要的信息,与对应数据字段的企业需要的格式的数据内容进行匹配。 
所述企业需要的格式的数据内容存储在预先设置的企业格式主数据中; 
3、将匹配成功的数据内容转换为企业需要的格式,对匹配不成功的 数据内容执行步骤4。 
4、将步骤2提取的信息,按照企业需要的格式新建一条企业需要的格式的数据内容,存储到所述企业格式主数据中;将匹配不成功的数据内容与新建的企业需要的格式的数据内容进行匹配,转换为企业需要的格式。 
实际这个转换为企业需要的格式的数据过程与图1所示的过程基本相同,区别在于转换规则和具体的格式不完全相同,而且由于是对标准格式的数据进行转换,因此在转换过程中不需要进行数据内容规整。 
以下,对本发明提供的对不同来源的业务数据进行规范化处理的系统进行详细说明。 
如图2所示,本实施例一个较佳的系统包括:数据拆分单元200,数据转换单元201,数据匹配单元202,数据规整工作台203、主数据新增工作台204,主数据审核工作台205、主数据修正工作台206、数据修复工作台207,数据审核工作台208和数据修正工作台209。 
其中,数据拆分单元200,按照数据字段的名称,将业务数据划分为多组数据,从业务数据中的第一组开始,逐个将每组数据传送给数据转换单元201。 
数据转换单元201,按照预先配置的规则,将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出给数据审核工作台208,将不能转换为标准格式的数据内容传送给数据匹配单元202。 
本实施例中,为了进一步提高数据的准确性,设置了数据审核工作台208,在实际应用中如果对数据准确性要求不高,也可以不设置数据审核工作台。 
数据匹配单元202,判断能否从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,如果能,则从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;如果不能,则将匹配不成功的数据内容传送给数据规整工作台203。并将匹配成功的数据内容转换为标准格式输出给数据审核工作台208,对匹配不成功的数据,判断其在匹配过程 中是否有可用的建议值,如果有,则将该匹配不成功的数据、提取的信息和可用建议值传送给数据修复工作台207。如果没有,则将匹配不成功的数据内容传送给主数据新增工作台204。 
数据规整工作台203,对数据内容进行数据规整,提取标准格式的数据内容所需要的信息后,发送给数据匹配单元202进行匹配。 
本实施例中,为了进一步提高数据的准确性,设置了数据规整工作台203,在实际应用中如果对数据准确性要求不高,也可以不设置数据规整工作台203。 
本实施例中,标准格式的数据内容存储在预先设置的标准主数据中。 
本实施例中的主数据新增工作台204,将数据匹配单元202提取的信息,按照标准格式新建一条标准格式的数据内容,传送给主数据审核工作台205。 
主数据审核工作台205,先判断标准主数据中是否已经存在该新建的标准格式的数据内容,如果存在,则将该数据内容经主数据新增工作台返回给数据匹配单元202;否则,判断该新建的标准格式的数据内容是否符合标准格式,如果符合,则将新建的标准格式的数据内容存储到标准主数据中,并通知数据修正工作台207;如果不符合,则将新建的标准格式的数据内容传送给主数据修正工作台206。 
主数据修正工作台206,对新建的标准格式的数据内容,按标准格式进行修正后,返回给主数据审核工作台205。 
数据修复工作台207,将匹配不成功的数据内容与可用建议值进行匹配,或与新建的标准格式的数据内容进行匹配,转换为标准格式输出给数据审核工作台208。 
同样的,如果在实际应用中如果对数据准确性要求不高,也可以不设置主数据审核工作台205和主数据修正工作台206。 
数据审核工作台208,从数据转换处理单元201、数据匹配单元202和数据修复工作台207获得要输出的、已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数 据转换正确,则该组数据的规范化处理完成,将转换后的数据输出。否则,转换错误的数据字段的数据内容传送给数据修正工作台209。 
数据修正工作台209,按照标准格式对数据进行修正后,返回给数据审核工作台。 
同样的,如果在实际应用中如果对数据准确性要求不高,也可以不设置数据修正工作台209。 
另外,在本实施例的系统中还可以包括:设置在数据匹配单元202和主数据新增工作台204之间的数据二次确认工作台(图2中未示出)。本实施例中,数据匹配单元202,可以先将匹配不成功的数据内容传送给数据二次确认工作台,数据二次确认工作台,两次确认在匹配过程中计算的建议值中是否有能够匹配的数据内容,如果有,则将匹配不成功的数据内容,用能够匹配的数据内容转换为标准格式输出给数据审核工作台208;否则,将匹配不成功的数据内容传送给主数据新增工作台204。 
本实施例中的数据转换单元201如图3所示,包括:数据转换模块301、规则配置模块302和监控模块303。 
其中,数据转换模块301,接收输入的数据,从规则配置模块302获取规则,按照规则将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元202,并在执行每个处理步骤时,向监控模块303发送该处理步骤对应的心跳信号。 
规则配置模块302,配置和存储规则。 
监控模块303,根据心跳信号对所述数据转换模块进行监控,判断数据转换模块是否出现异常以及出现异常的处理步骤,在数据处理模块出现处理步骤异常时,输出异常信息;异常信息可以通过显示器显示给操作人员。 
还需要说明的是,本实施例系统中的各个单元由计算机实现,各个工作台可以由人工辅助计算机实现。 
由上述的实施例可见,本发明的这种对不同来源的业务数据进行规范化处理的方法及系统,实现了不同来源的业务数据中相同字段的数据 内容的规范化,能够同时兼顾数据的及时性和准确性。 

Claims (14)

1.一种对不同来源的业务数据进行规范化处理的方法,其特征在于,对于不同来源的、具有相同数据字段格式的业务数据文件,执行如下步骤:
A、按照数据字段的名称,将业务数据划分为多组数据;
B、从业务数据中的第一组开始,逐个对每组数据执行:
B1、按照预先配置的规则,将该组数据中的每个数据字段中的数据内容转换为标准格式;
B2、从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;
所述标准格式的数据内容存储在预先设置的标准主数据中;
B3、将匹配成功的数据内容转换为标准格式,对匹配不成功的数据内容执行步骤B4;
B4、将步骤B2提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中;将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式。
2.如权利要求1所述的方法,其特征在于:所述步骤B2中对不能转换为标准格式的数据内容,先判断是否能够从中提取标准格式的数据内容所需要的信息,如果是,则进行匹配;否则,对数据内容进行数据规整,提取标准格式的数据内容所需要的信息后,进行匹配。
3.如权利要求2所述的方法,其特征在于:所述步骤B4中,先判断在匹配过程中计算的建议值中,是否有能够匹配的数据内容,如果有,则将匹配不成功的数据内容,用能够匹配的数据内容转换为标准格式;否则,按照标准格式新建一条标准格式的数据内容。
4.如权利要求3所述的方法,其特征在于:所述步骤B4中,在按照标准格式新建一条标准格式的数据内容前,执行第二次判断在匹配过程中计算的建议值中,是否有能够匹配的数据内容,如果有,则将匹配不成功的数据内容,用能够匹配的数据内容转换为标准格式;否则,按照标准格式新建一条标准格式的数据内容。
5.如权利要求3所述的方法,其特征在于:所述步骤B4中,在将新建的标准格式的数据内容存储到标准主数据中前,判断该新建的数据内容是否有问题,如果是,则对该新建的标准格式的数据内容进行修正;否则将新建的标准格式的数据内容存储到标准主数据中。
6.如权利要求5所述的方法,其特征在于:该方法还包括步骤B5:将已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数据转换正确,则该组数据的规范化处理完成;否则,对转换错误的数据字段的数据内容进行修正后,再次进行比较,直至全部数据转换正确。
7.如权利要求1-6任一项所述的方法,其特征在于,该方法还包括:将已转换为标准格式的业务数据转换为企业需要数据的步骤:
C、从标准格式的业务数据中的第一组开始,逐个对每组数据执行:
C1、按照预先配置的规则,将该部分数据中的每个数据字段中的数据内容转换为企业需要的格式;
C2、从不能转换为企业需要的格式的数据内容中提取企业需要的格式的数据内容所需要的信息,与对应数据字段的企业需要的格式的数据内容进行匹配;
所述企业需要的格式的数据内容存储在预先设置的企业格式主数据中;
C3、将匹配成功的数据内容转换为企业需要的格式,对匹配不成功的数据内容执行步骤C4;
C4、将步骤C2提取的信息,按照企业需要的格式新建一条企业需要的格式的数据内容,存储到所述企业格式主数据中;将匹配不成功的数据内容与新建的企业需要的格式的数据内容进行匹配,转换为企业需要的格式。
8.一种对不同来源的业务数据进行规范化处理的系统,其特征在于,包括:
数据拆分单元,按照数据字段的名称,将业务数据划分为多组数据,从业务数据中的第一组开始,逐个将每组数据传送给数据转换单元;
数据转换单元,按照预先配置的规则,将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元;
数据匹配单元,从不能转换为标准格式的数据内容中提取标准格式的数据内容所需要的信息,与对应数据字段的标准格式的数据内容进行匹配;将匹配成功的数据内容转换为标准格式输出,将匹配不成功的数据内容传送给主数据新增工作台,
所述标准格式的数据内容存储在预先设置的标准主数据中;
主数据新增工作台,将数据匹配单元提取的信息,按照标准格式新建一条标准格式的数据内容,存储到所述标准主数据中;
数据修复工作台,将匹配不成功的数据内容与新建的标准格式的数据内容进行匹配,转换为标准格式输出。
9.如权利要求8所述的系统,其特征在于,所述数据转换单元包括:数据转换模块、规则配置模块和监控模块;
所述数据转换模块,接收输入的数据,从规则配置模块获取规则,按照规则将每组数据中的每个数据字段中的数据内容转换为标准格式,将转换后的数据输出,将不能转换为标准格式的数据内容传送给数据匹配单元;并在执行每个处理步骤时,向监控模块发送该处理步骤对应的心跳信号;
所述规则配置模块,配置和存储规则;
所述监控模块,根据心跳信号对所述数据转换模块进行监控,判断数据转换模块是否出现异常以及出现异常的处理步骤,在数据处理模块出现处理步骤异常时,输出异常信息。
10.如权利要求9所述的系统,其特征在于,该系统还包括:数据规整工作台;
所述数据匹配单元,进一步将不能从中提取标准格式的数据内容所需要的信息的数据内容传送给数据规整工作台;
数据规整工作台,对数据内容进行数据规整,提取标准格式的数据内容所需要的信息后,发送给数据匹配单元进行匹配。
11.如权利要求10所述的系统,其特征在于,该系统还包括:数据二次确认工作台;
所述数据匹配单元,先将匹配不成功的数据内容传送给数据二次确认工作台;
数据二次确认工作台,两次确认在匹配过程中计算的建议值中是否有能够匹配的数据内容,如果有,则将匹配不成功的数据内容,用能够匹配的数据内容转换为标准格式输出;否则,将匹配不成功的数据内容传送给主数据新增工作台。
12.如权利要求11所述的系统,其特征在于,该系统还包括:主数据审核工作台和主数据修正工作台;
所述主数据新增工作台在将新建的标准格式的数据内容存储到标准主数据中前,将新建的数据内容传送给主数据审核工作台;
主数据审核工作台,先判断标准主数据中是否已经存在该新建的标准格式的数据内容,如果存在,则将该数据内容经主数据新增工作台返回给数据匹配单元;否则,判断该新建的标准格式的数据内容是否符合标准格式,如果符合,则将新建的标准格式的数据内容存储到标准主数据中;如果不符合,则将新建的标准格式的数据内容传送给主数据修正工作台;
主数据修正工作台,对新建的标准格式的数据内容,按标准格式进行修正后,返回给主数据审核工作台。
13.如权利要求12所述的系统,其特征在于,该系统还包括:数据审核工作台和数据修正工作台;
数据审核工作台,获得要输出的、已转换为标准格式的每个数据字段中的数据内容,分别与转换前的数据内容和标准主数据中相应数据字段中的标准格式的数据内容进行比较,判断转换是否正确,如果全部数据转换正确,则该组数据的规范化处理完成;否则,转换错误的数据字段的数据内容传送给数据修正工作台;
数据修正工作台,按照标准格式对数据进行修正后,返回给数据审核工作台。
14.如权利要求13所述的系统,其特征在于:所述系统中的各个单元由计算机实现;所述的各个工作台由人工辅助计算机实现。
CN201210080585.3A 2012-03-16 2012-03-16 对不同来源的业务数据进行规范化处理的方法及系统 Active CN103309907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210080585.3A CN103309907B (zh) 2012-03-16 2012-03-16 对不同来源的业务数据进行规范化处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210080585.3A CN103309907B (zh) 2012-03-16 2012-03-16 对不同来源的业务数据进行规范化处理的方法及系统

Publications (2)

Publication Number Publication Date
CN103309907A true CN103309907A (zh) 2013-09-18
CN103309907B CN103309907B (zh) 2017-02-01

Family

ID=49135144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210080585.3A Active CN103309907B (zh) 2012-03-16 2012-03-16 对不同来源的业务数据进行规范化处理的方法及系统

Country Status (1)

Country Link
CN (1) CN103309907B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605715A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 用于多个数据源的数据整合处理方法和装置
CN104036384A (zh) * 2014-05-16 2014-09-10 上海倍通医药科技咨询有限公司 一种电子文件名称规范化管理及存储登记的方法
CN104252398A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据防火墙系统修复数据方法和系统
CN104461544A (zh) * 2014-12-12 2015-03-25 用友软件股份有限公司 编码动态生成装置和方法
WO2015103879A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种基于规则优化的数据防火墙修复方法及系统
CN107066431A (zh) * 2017-05-10 2017-08-18 北京精真估信息技术有限公司 一种车型数据的存储方法及存储处理设备
CN107066411A (zh) * 2017-04-13 2017-08-18 深圳市酷开网络科技有限公司 数据传输方法、装置及计算机可读存储介质
CN107404477A (zh) * 2017-06-30 2017-11-28 海航创新科技研究有限公司 集装箱运营数据发送方法和装置、接收方法和装置
CN107783950A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN107786530A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 文件交互系统及方法
CN108510213A (zh) * 2018-05-11 2018-09-07 苏州华兴源创电子科技有限公司 将任务依次分配至任务组的方法、装置、设备及介质
CN109033125A (zh) * 2018-05-31 2018-12-18 黑龙江大学 时序数据支配集信息提取方法
CN109240882A (zh) * 2018-08-30 2019-01-18 广发证券股份有限公司 一种金融数据一致性检测系统及方法
CN109584009A (zh) * 2018-11-26 2019-04-05 上海阿米特数据系统有限公司 一种网站数据自动匹配系统
CN110019030A (zh) * 2017-08-30 2019-07-16 北京京东尚科信息技术有限公司 分割文件的方法和装置
CN110569296A (zh) * 2019-08-29 2019-12-13 南宁学院 一种流程数据格式转换方法
CN110598008A (zh) * 2018-06-13 2019-12-20 杭州海康威视系统技术有限公司 录制数据的数据质检方法及装置、存储介质
CN111475491A (zh) * 2020-05-12 2020-07-31 北京明朝万达科技股份有限公司 一种物流数据整合处理方法和装置
CN112699636A (zh) * 2021-01-08 2021-04-23 中南大学 一种多源Markdown地质资料文本格式规范化方法及系统
CN116226786A (zh) * 2023-03-22 2023-06-06 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116629811A (zh) * 2023-07-26 2023-08-22 太平金融科技服务(上海)有限公司深圳分公司 一种双录文件处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158977A (zh) * 2007-11-21 2008-04-09 金蝶软件(中国)有限公司 一种对多业务单据数据的处理方法及系统
CN101571861A (zh) * 2008-04-29 2009-11-04 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
US20110167051A1 (en) * 2010-01-06 2011-07-07 Pierre-Etienne Melet Search engine and associated method
CN102142027A (zh) * 2011-02-23 2011-08-03 南京智尚丰软件有限公司 数据整合的适配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158977A (zh) * 2007-11-21 2008-04-09 金蝶软件(中国)有限公司 一种对多业务单据数据的处理方法及系统
CN101571861A (zh) * 2008-04-29 2009-11-04 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
US20110167051A1 (en) * 2010-01-06 2011-07-07 Pierre-Etienne Melet Search engine and associated method
CN102142027A (zh) * 2011-02-23 2011-08-03 南京智尚丰软件有限公司 数据整合的适配方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605715A (zh) * 2013-11-14 2014-02-26 北京国双科技有限公司 用于多个数据源的数据整合处理方法和装置
CN104252398A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据防火墙系统修复数据方法和系统
WO2015081725A1 (zh) * 2013-12-04 2015-06-11 深圳市华傲数据技术有限公司 一种数据防火墙系统修复数据方法和系统
WO2015103879A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种基于规则优化的数据防火墙修复方法及系统
CN104036384A (zh) * 2014-05-16 2014-09-10 上海倍通医药科技咨询有限公司 一种电子文件名称规范化管理及存储登记的方法
CN104461544B (zh) * 2014-12-12 2017-11-07 用友网络科技股份有限公司 编码动态生成装置和方法
CN104461544A (zh) * 2014-12-12 2015-03-25 用友软件股份有限公司 编码动态生成装置和方法
CN107786530B (zh) * 2017-02-16 2019-12-13 平安科技(深圳)有限公司 文件交互系统及方法
CN107786530A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 文件交互系统及方法
CN107783950A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN107066411A (zh) * 2017-04-13 2017-08-18 深圳市酷开网络科技有限公司 数据传输方法、装置及计算机可读存储介质
CN107066431A (zh) * 2017-05-10 2017-08-18 北京精真估信息技术有限公司 一种车型数据的存储方法及存储处理设备
CN107404477A (zh) * 2017-06-30 2017-11-28 海航创新科技研究有限公司 集装箱运营数据发送方法和装置、接收方法和装置
CN110019030A (zh) * 2017-08-30 2019-07-16 北京京东尚科信息技术有限公司 分割文件的方法和装置
CN110019030B (zh) * 2017-08-30 2021-11-05 北京京东尚科信息技术有限公司 分割文件的方法和装置
CN108510213A (zh) * 2018-05-11 2018-09-07 苏州华兴源创电子科技有限公司 将任务依次分配至任务组的方法、装置、设备及介质
CN109033125A (zh) * 2018-05-31 2018-12-18 黑龙江大学 时序数据支配集信息提取方法
CN110598008B (zh) * 2018-06-13 2023-08-18 杭州海康威视系统技术有限公司 录制数据的数据质检方法及装置、存储介质
CN110598008A (zh) * 2018-06-13 2019-12-20 杭州海康威视系统技术有限公司 录制数据的数据质检方法及装置、存储介质
CN109240882A (zh) * 2018-08-30 2019-01-18 广发证券股份有限公司 一种金融数据一致性检测系统及方法
CN109240882B (zh) * 2018-08-30 2021-11-12 广发证券股份有限公司 一种金融数据一致性检测系统及方法
CN109584009A (zh) * 2018-11-26 2019-04-05 上海阿米特数据系统有限公司 一种网站数据自动匹配系统
CN110569296A (zh) * 2019-08-29 2019-12-13 南宁学院 一种流程数据格式转换方法
CN111475491A (zh) * 2020-05-12 2020-07-31 北京明朝万达科技股份有限公司 一种物流数据整合处理方法和装置
CN112699636A (zh) * 2021-01-08 2021-04-23 中南大学 一种多源Markdown地质资料文本格式规范化方法及系统
CN116226786A (zh) * 2023-03-22 2023-06-06 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116226786B (zh) * 2023-03-22 2023-08-22 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116629811A (zh) * 2023-07-26 2023-08-22 太平金融科技服务(上海)有限公司深圳分公司 一种双录文件处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103309907B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103309907A (zh) 对不同来源的业务数据进行规范化处理的方法及系统
CN102169500B (zh) 一种业务流程动态展示方法及装置
CN112270550B (zh) 一种基于区块链的新能源电力溯源方法及系统
CN102446303B (zh) 工艺路线组件的分配方法及装置
CN104156832A (zh) 系统间数据核对方法及装置
CN107886296B (zh) 一种异构pdm系统之间的协同审核方法
CN101504672A (zh) 一种动态配置实体数据表的方法和系统
US20140149369A1 (en) Version control methodology for network model
CN102629263A (zh) 对企业间交互的业务数据进行格式转换的方法及系统
CN111367895B (zh) 数据迁移方法及装置
CN110795387B (zh) 一种数据导入方法、数据导出方法、装置及数据处理系统
EP4071697A1 (en) Data management system, management method, and management program
CN113065314A (zh) 一种基于xml文件格式的bios硬件适配方法及装置
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
CN102857949A (zh) 一种规划数据一致性保证的方法和装置
KR20120135665A (ko) 데이터 웨어하우스를 이용한 데이터베이스 구축 방법 및 그 시스템
CN111651460A (zh) 一种数据治理方法、装置、电子设备及可读存储介质
CN111026451A (zh) 一种用于变电站终端间隔的参数配置方法及配置工具
CN106844819B (zh) 智能站二次图模库设计工具数据库采集系统
CN116756129A (zh) 数据补录方法、装置、存储介质及电子设备
CN105404613A (zh) 基于sap平台的xls数据导出方法及系统
CN113157657A (zh) 一种多数据源数据库定时同步的方法及系统
CN101866334A (zh) Qfii业务中ca信息报文的生成方法及系统
CN112596806A (zh) 数据湖数据加载脚本生成方法和系统
CN112967032A (zh) 一种销售物料清单管理方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant