CN108153789A - 一种交易平台数据处理方法 - Google Patents
一种交易平台数据处理方法 Download PDFInfo
- Publication number
- CN108153789A CN108153789A CN201611109700.XA CN201611109700A CN108153789A CN 108153789 A CN108153789 A CN 108153789A CN 201611109700 A CN201611109700 A CN 201611109700A CN 108153789 A CN108153789 A CN 108153789A
- Authority
- CN
- China
- Prior art keywords
- data
- platform
- processing method
- transaction platform
- acquisition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种交易平台数据处理方法,该方法应用于交易平台数据处理系统中,该系统包括多个互联网交易平台,多个数据收集单元,中间存储器,数据清洗平台,数据仓库,客户机;该交易平台数据处理方法能够针对不同的数据交易平台作定制化的数据收集和清洗处理,能够基于同一/全部交易平台数据进行数据缺失补全,提高了数据补全的准确度和自动数据填充的比率,减少了人为参与的工作量,提高了自动化程度,从而能够为数据交易平台数据处理提供有力保障。
Description
【技术领域】
本发明属于数据处理领域,尤其涉及交易平台数据处理方法。
【背景技术】
供货商可以通过多个互联网交易平台发布产品信息,而买家可以从互联网交易平台中获取信息,并通过产品供货商所发布的信息可以联系到产品供货商进行购买;在这一过程中,就涉及到大量数据的处理。但是,由于每个互联网交易平台对信息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个供货商去不同的互联网交易平台发布同一个产品可能会出现不同的表现形式,其会造成这些互联网产品交易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同互联网数据源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判断是否有重复数据的重要保障。
现有技术中的数据清洗方法都比较简单,不能针对同时针对多个数据交易平台作并行的数据采集,也没有考虑各个不同的数据交易平台之间的差异来进行定制化的处理,自动数据补全的方法相对简单导致自动化程度不高;基于上述诸多问题,现在亟需一种新的交易平台数据处理方法,能够针对不同的数据交易平台作定制化的数据收集和清洗处理,能够针对同一/全部交易平台数据进行数据缺失补全,提高了数据补全的准确度和自动数据填充的比率,减少了人为参与的工作量,提高了自动化程度,从而能够为数据交易平台数据处理提供有力保障。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种交易平台数据处理方法,其特征在于,该方法包括如下步骤:
步骤1:数据收集单元基于针对互联网交易平台的采集策略通过互联网进行数据收集;
步骤2:中间存储器保存来自不同互联网交易平台的数据;
步骤3:数据清洗平台对数据集合中的所有数据进行格式内容的标准化处理;
步骤4:数据清洗平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值。
步骤5:数据清洗平台将处理后的数据集合保存到数据仓库中;
步骤6:客户机访问数据仓库获取所需数据;
进一步的,基于数据清洗平台的请求将特定数据收集单元采集的匹配所请求序列编号的数据集合通过中间存储器发送给数据清洗平台。
进一步的,中间存储器中为每个数据收集单元分配独立的存储区域。
进一步的,同一数据收集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中。
进一步的,在数据收集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向中间存储器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储。
进一步的,当序列编码对应的数据集合过了保留时间期限后则标记为无效。
进一步的,序列编号随着采集次数的增加而增加。
进一步的,该临时存储区域在物理上邻接该存储区域;。
进一步的,中间存储器为存储器集群。
进一步的,中间存储器允许多个设备发起的并行数据访问。
本发明的有益效果包括:能够针对不同的数据交易平台作定制化的数据收集和清洗处理,能够基于同一/全部交易平台数据进行数据缺失补全,提高了数据补全的准确度和自动数据填充的比率,减少了人为参与的工作量,提高了自动化程度,从而能够为数据交易平台数据处理提供有力保障。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明所应用的交易平台数据处理系统结构图。
图2是本发明交易平台数据处理方法步骤图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,是本发明所应用的一种交易平台数据处理系统,该系统包括多个互联网交易平台,多个数据收集单元,中间存储器,数据清洗平台,数据仓库,客户机;
参见附图2,其示出了本发明交易平台数据处理方法的基本步骤:
步骤1:数据收集单元基于针对互联网交易平台的采集策略通过互联网进行数据收集;
步骤2:中间存储器保存来自不同互联网交易平台的数据;
步骤3:数据清洗平台对数据集合中的所有数据进行格式内容的标准化处理;
步骤4:数据清洗平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值。
步骤5:数据清洗平台将处理后的数据集合保存到数据仓库中;
步骤6:客户机访问数据仓库获取所需数据;
基于上述交易平台数据处理系统,下面对本发明的一种交易平台数据处理方法进行详细说明。
(1)数据收集单元基于针对互联网交易平台的采集策略通过互联网进行数据获取,为收集到的数据设置来源属性和时间戳,将数据集合关联于本次收集的序列编号保存到中间存储器中相应的位置,然后发送收集完成指令给数据清洗平台,收集完成指令中携带有本次收集的序列编号;
由于不同的互联网交易平台其数据的产生都有一定的规律性,其产生的数据都有一定的特点;同一个数据收集单元并行负责多个互联网交易平台的数据收集集,不能对多个互联网交易平台进行并行的实时收集,这样收集集效率会很低,数据清洗平台进行数据获取和处理的效率也会很低,需要结合不同互联网交易平台的数据产生规律来更新针对该互联网交易平台的数据采集策略;针对不同的互联网交易平台其采集策略是不同的;针对互联网交易平台的采集策略可以设置为:为不同的互联网交易平台设置不同的数据采集周期;还可设置为,通过监控获取针对互联网交易平台的数据产生高峰时间段,在高峰时间段过去后进行数据采集;还可设置为:互联网交易平台在满足预设条件后,进行主动的数据推送,预设条件是:在数据量达到预设值后,或预设的时间周期达到后等;
(2)中间存储器保存来自不同互联网交易平台的数据,并基于数据清洗平台的请求将特定数据收集单元采集的匹配所请求序列编号的数据集合发送给数据清洗平台;中间存储器中为每个数据收集单元分配独立的存储区域,同一数据收集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中;在数据收集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向中间存储器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储;
优选的:当序列编码对应的数据集合过了保留时间期限后则标记为无效;
优选的:序列编号随着采集次数的增加而增加;
优选的:该临时存储区域在物理上邻接该存储区域;
(3)数据清洗平台接收来自于中间存储器的数据集合并将该数据集合存放到本地缓存中;在本地缓存中数据为空的时候,数据清洗平台向中间存储器发送数据获取请求;请求时携带所请求数据集合的序列编号,该请求的序列编号大于已处理的数据集合对应的序列编号;
优选的:数据清洗平台中包含多个并行处理设备,多个并行处理设备可以并行的对多个采集单元采集的数据集合进行处理,也可以同时处理同一数据收集单元收集的数据集合;
数据清洗平台可以一次性获取多个序列编号的数据集合,并同时对该多个序列编号的数据集合进行处理;
(4)数据清洗平台获取当前待处理的数据集合的数据签名Sig,将该数据签名Sig和历史数据签名表作对比,如果该数据签名已经保存于历史数据签名表中,则表示该数据集合已经被处理过,丢弃该数据集合,继续下一数据集合的处理;
当数据集合处理完毕后,将该数据集合的数据签名保存到历史数据签名表中;
数据签名基于该数据集合的数据值获取,可以采用常见的签名算法,此处不再详述;
(5)数据清洗平台对数据集合中的所有数据进行格式内容的标准化处理;由于不同的客户机可能有不同的格式要求,需要针对不同的客户机基于不同的标准化规则进行数据的标准化;如果标准化过程中发现字段值错误,则判断是不是发生字段值错位,如果是,则将字段值存放到正确的字段中;
数据格式内容的不一致和输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可;但由于不同的客户机对数据格式的要求可能不同,允许客户机设置自己要求的标准化规则;
检查每条数据记录,如果一条数据记录中的某个数据值是正确的,但是其格式不正确,则根据客户机要求的标准化规则中针对数据值对应的字段的标准化要求对该字段值进行修改;例如:日期填写格式不正确,民族填写方式不符合要求等。
如果一条数据记录中的某个字段值是错误的,不能进行标准化,通过错误字段值的重填,可以最快速的做数据记录的更改,同时这种更改的可靠性也是比较高的;例如:姓名写了性别,身份证号写了手机号等等,均属这种问题;当一个数据记录中的一个字段值和其字段不符时,确定字段值是错误的,确定一条记录中的所有错误字段值,针对每个错误字段值,遍历该数据记录中的其它错误字段值对应的字段,如果该个错误字段值满足该其它错误字段值对应的字段中的一个字段要求,则将该个错误字段值填写到该一个字段中,将该一个字段中的字段值回写到该该个错误字段值对应的字段中,直到该一条数据记录中的每个错误字段值均处理完毕;
(6)数据清洗平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值;具体的:遍历所有的数据字段值,根据数据字段的取值范围确定明显不合理字段值,将该不合理字段值删除;删除后该字段的字段值设置为缺失值;对于一条数据记录中存在明显的矛盾的一对字段值,根据一个字段值对另一字段值进行修改;
优选的:根据关键字段值对另一字段值做修改;例如:根据身份证字段值对年龄字段值作修改;关键字段值可以有数据清洗平台设置或者由用户设置;例如:设置身份证号码、手机号码、姓名字段为关键字段;
例如:有人填表时候瞎填,年龄200岁,年收入100000万,这些值都可以明确的判定为不合理值;有些字段是可以互相验证的,如:身份证号是1101031980XXXXXXXX,然后年龄填18岁,这明显是矛盾的;
(7)数据清洗平台对数据集合进行缺失补全;具体的:数据清洗平台对数据集合中的所有数据记录做遍历,找出其中存在字段缺失的数据记录,针对存在字段缺失的数据记录先进行计算补全,对于经过计算补全后仍然存在字段缺失的数据记录,将其保存在补全缓存中;对于补全缓存中的每条数据记录,根据当前数据记录中的关键字段值到本地缓存中进行全部数据集合的查找,根据查找到的数据记录对当前数据记录中的缺失字段进行补全,如果查找到多个匹配的数据字段,则根据时间戳的先后选择数据记录进行补全;如果在本地缓存中没有找到匹配的数据记录,则根据将该关键字段值发送到中间存储器中,中间存储器接收该关键数据字段值并查找匹配的数据记录,将匹配的数据记录发送给数据清洗平台用于对当前数据记录进行补全;如果在中间存储器中没有找到匹配的数据记录,在允许人工补全的情况下,将该数据记录发送给客户机进行人工补全;如果不允许人工补全,判断该当前数据记录中字段值的缺失率,如果缺失率大于第一缺失阈值,则将该条数据记录做删除处理,同时更新数据删除计数值,如果缺失率小于等于第一缺失阈值,则对缺失字段填充默认字段值;
例如:对于生日字段,可以通过身份证号码字段进行计算补全;还可以当前数据记录中的所有数据记录的该字段值的均值、中位数、众数等填充缺失值;
优选的:关键字段值可以为一个或者多个,关键字段值可以由数据清洗平台、数据收集单元或用户来设置;
优选的:数据清洗平台可以将关键字段值发送到一个或者多个中间存储器中进行查找;
优选的:将所有需要进行人工补全的数据集合统一发送到客户机进行人工补全;
(8)数据清洗平台找出相似重复的数据以便去重;具体的:数据清洗平台计算两条数据记录之间的相似度,如果相似度S小于第一相似度阈值TS,则认为该两条数据记录是重复数据,根据该两条数据记录的置信度B选择一条数据记录进行删除;采用公式(1)计算两条数据记录之间的相似度;
其中,第一相似度阈值TS可以由不同的用户根据需求来设置;
B=w1×(当前时间-数据记录获取时间)+w2×数据来源置信度+w3*(1-字段值缺失率) 公式(2)
其中,互联网交易平台的置信度可以根据该互联网交易平台历史清洗处理中问题数据记录比率来设置;问题数据记录比率是指同一互联网交易平台中经过(5)~(8)中任一步骤处理的数据记录数目占总的数据记录的数目的比值;字段值缺失率是指该条数据记录中存在缺失的字段占总字段数的比率;w1~w3为权重值,由数据清洗平台来预设;
优选的,删除置信度较低的一条数据记录;
(9)在从一客户机所要求的互联网交易平台获取的数据集合均处理完毕后,将处理后的数据集合保存到数据仓库中,生成异常数据报告,并将该处理后的数据集合的保存位置以及异常数据报告发送给该客户机;
异常数据报告中包括所处理的数据集合及其获取互联网交易平台,数据收集单元的采集时间,被丢弃的数据集合及其丢弃原因,明显不合理和明显矛盾的数据记录条数,缺失补全的数据记录条数,标准化处理的数据记录条数,重复删除的数据记录条数,总的数据字段缺失率等;
(10)客户机访问数据仓库获取所需数据;数据仓库对客户机身份进行验证,当验证通过后,允许客户机基于获取的保存位置进行处理后的数据集合的获取;
该交易平台数据处理还包括如下步骤:
(11)在数据处理过程中,数据清洗平台支持增量数据清洗导入;具体的:在数据处理过程中,如果客户机下达增量数据清洗导入的消息,数据清洗平台向数据收集单元发送增量数据获取的请求,数据收集单元将增量数据发送到数据清洗平台,数据清洗平台将该增量数据保存到本地缓存中最后一数据集合后,等待数据清洗平台对该增量数据的处理;如果数据处理已经完成,客户机下达增量数据清洗导入的消息,数据清洗平台向数据收集单元发送增量数据获取的请求,数据收集单元将增量数据发送到数据清洗平台,数据清洗平台将该增量数据保存到本地缓存中,针对该增量数据执行步骤(4)~(8)中一个或者多个步骤的处理;处理完毕后将该处理后的数据集合发送到数据仓库中,并通知下达消息的客户机获取增量数据处理结果,同时将该处理后的数据集合的保存位置以及针对该增量数据集合处理的异常数据报告发送给该客户机;
(12)数据清洗平台支持大数据文件的清洗导入;用户可以直接将大数据文件发送给数据清洗平台,客户机也可以直接向数据清洗平台发送大数据文件,数据清洗平台在接收到大数据文件后,将文件内的数据记录保存到本地缓存中,执行步骤(4)~(8)中的一个或者多个步骤,并将处理结果发送给用户或者客户机;
(13)数据清洗平台支持自定义数据的清洗规则;用户可以通过数据清洗平台设置或修改清洗规则,还可以通过客户机下发数据清洗规则;数据清洗平台按照用户设置的规则对目标数据集合进行清洗;通过清洗规则的设置不仅可以提供用户所需的标准化格式,还可以设置清洗的深度,清洗过程中的各项阈值,清洗必选或跳过的步骤,是否允许人工补全等;设置深度清洗时,清洗规则较为严格,可以设置较高的阈值要求,并完成完整的清洗步骤等;而对于宽松的清洗规则,则对应于浅度清洗,设置较低的阈值要求同时可以选择完成部分清洗步骤等;
本发明的交易平台数据处理方法和系统,能够找出相似重复的数据以便去重、对不同来源的数据进行匹配、进行数据集合的去矛盾、补全和标准化、支持全量数和增量数据清洗,支持大数据文件的清洗导入、支持自定义数据的清洗规则、支持并行的数据采集和处理。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
Claims (10)
1.一种交易平台数据处理方法,其特征在于,该方法包括如下步骤:
步骤1:数据收集单元基于针对互联网交易平台的采集策略通过互联网进行数据收集;
步骤2:中间存储器保存来自不同互联网交易平台的数据;
步骤3:数据清洗平台对数据集合中的所有数据进行格式内容的标准化处理;
步骤4:数据清洗平台去除数据记录中存在的明显不合理字段值和一条数据记录中存在明显矛盾的字段值。
步骤5:数据清洗平台将处理后的数据集合保存到数据仓库中;
步骤6:客户机访问数据仓库获取所需数据。
2.根据权利要求1所述的交易平台数据处理方法,其特征在于,基于数据清洗平台的请求将特定数据收集单元采集的匹配所请求序列编号的数据集合通过中间存储器发送给数据清洗平台。
3.根据权利要求1-2任意一项所述的交易平台数据处理方法,其特征在于,中间存储器中为每个数据收集单元分配独立的存储区域。
4.根据权利要求1-3任意一项所述的交易平台数据处理方法,其特征在于,同一数据收集单元采集的数据集合按照采集序列编号的顺序保存在同一存储区域中。
5.根据权利要求3所述的交易平台数据处理方法,其特征在于,在数据收集单元对其对应存储区域进行存储时,如果该存储区域用尽,则判断位于存储区域头部的数据集合对应的序列编码是否已经无效,如果是,则直接从该头部区域开始存储,覆盖该无效序列编码对应的数据集合,如果否,则向中间存储器申请临时存储区域进行存储,在申请临时存储区域失败的情况下,暂停针对当次序列编号的数据集合的存储。
6.根据权利要求5所述的交易平台数据处理方法,其特征在于,当序列编码对应的数据集合过了保留时间期限后则标记为无效。
7.根据权利要求5所述的交易平台数据处理方法,其特征在于,序列编号随着采集次数的增加而增加。
8.根据权利要求5所述的交易平台数据处理方法,其特征在于,该临时存储区域在物理上邻接该存储区域;。
9.根据权利要求1所述的交易平台数据处理方法,其特征在于,中间存储器为存储器集群。
10.根据权利要求1所述的交易平台数据处理方法,其特征在于,中间存储器允许多个设备发起的并行数据访问。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611109700.XA CN108153789A (zh) | 2016-12-02 | 2016-12-02 | 一种交易平台数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611109700.XA CN108153789A (zh) | 2016-12-02 | 2016-12-02 | 一种交易平台数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108153789A true CN108153789A (zh) | 2018-06-12 |
Family
ID=62467805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611109700.XA Pending CN108153789A (zh) | 2016-12-02 | 2016-12-02 | 一种交易平台数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153789A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299081A (zh) * | 2018-08-21 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 清洗房价数据的方法、装置、计算机设备和存储介质 |
CN110134592A (zh) * | 2019-04-19 | 2019-08-16 | 平安普惠企业管理有限公司 | 一种补充数据字段的方法及装置、电子设备 |
CN110298753A (zh) * | 2019-06-06 | 2019-10-01 | 上海数据交易中心有限公司 | 数据交易系统及方法、可读存储介质 |
CN110555071A (zh) * | 2019-09-03 | 2019-12-10 | 北京明略软件系统有限公司 | 数据融合处理方法和装置、存储介质及电子装置 |
CN110580625A (zh) * | 2019-07-30 | 2019-12-17 | 上海数据交易中心有限公司 | 流通数据监管方法及装置、存储介质、终端 |
CN110958296A (zh) * | 2019-10-29 | 2020-04-03 | 深圳市科华恒盛科技有限公司 | 充电桩集群通信系统、方法及充电桩 |
CN111061940A (zh) * | 2018-09-28 | 2020-04-24 | 北京国双科技有限公司 | 数据处理的方法及装置 |
CN111402044A (zh) * | 2020-03-06 | 2020-07-10 | 上海数据交易中心有限公司 | 数据配置系统及其数据配置方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1963562A (zh) * | 2005-11-11 | 2007-05-16 | 中国石油天然气集团公司 | 多地震工区数据动态组合处理方法 |
CN103514205A (zh) * | 2012-06-27 | 2014-01-15 | 中国电信股份有限公司 | 海量数据处理方法和系统 |
US20140236707A1 (en) * | 2007-07-03 | 2014-08-21 | 3M Innovative Properties Company | System and method for assessing effectiveness of communication content |
CN105096181A (zh) * | 2015-07-23 | 2015-11-25 | 浪潮软件集团有限公司 | 一种大数据的电商交易方法及电商交易系统 |
-
2016
- 2016-12-02 CN CN201611109700.XA patent/CN108153789A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1963562A (zh) * | 2005-11-11 | 2007-05-16 | 中国石油天然气集团公司 | 多地震工区数据动态组合处理方法 |
US20140236707A1 (en) * | 2007-07-03 | 2014-08-21 | 3M Innovative Properties Company | System and method for assessing effectiveness of communication content |
CN103514205A (zh) * | 2012-06-27 | 2014-01-15 | 中国电信股份有限公司 | 海量数据处理方法和系统 |
CN105096181A (zh) * | 2015-07-23 | 2015-11-25 | 浪潮软件集团有限公司 | 一种大数据的电商交易方法及电商交易系统 |
Non-Patent Citations (1)
Title |
---|
叶焕倬等: "相似重复记录清理方法研究综述", 《现代图书情报技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299081A (zh) * | 2018-08-21 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 清洗房价数据的方法、装置、计算机设备和存储介质 |
CN109299081B (zh) * | 2018-08-21 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 清洗房价数据的方法、装置、计算机设备和存储介质 |
CN111061940A (zh) * | 2018-09-28 | 2020-04-24 | 北京国双科技有限公司 | 数据处理的方法及装置 |
CN111061940B (zh) * | 2018-09-28 | 2023-10-27 | 北京国双科技有限公司 | 数据处理的方法及装置 |
CN110134592A (zh) * | 2019-04-19 | 2019-08-16 | 平安普惠企业管理有限公司 | 一种补充数据字段的方法及装置、电子设备 |
CN110298753A (zh) * | 2019-06-06 | 2019-10-01 | 上海数据交易中心有限公司 | 数据交易系统及方法、可读存储介质 |
CN110580625A (zh) * | 2019-07-30 | 2019-12-17 | 上海数据交易中心有限公司 | 流通数据监管方法及装置、存储介质、终端 |
CN110555071A (zh) * | 2019-09-03 | 2019-12-10 | 北京明略软件系统有限公司 | 数据融合处理方法和装置、存储介质及电子装置 |
CN110958296A (zh) * | 2019-10-29 | 2020-04-03 | 深圳市科华恒盛科技有限公司 | 充电桩集群通信系统、方法及充电桩 |
CN111402044A (zh) * | 2020-03-06 | 2020-07-10 | 上海数据交易中心有限公司 | 数据配置系统及其数据配置方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776951B (zh) | 一种清洗对比入库方法 | |
CN108153789A (zh) | 一种交易平台数据处理方法 | |
CN108153747A (zh) | 一种并行数据清洗系统 | |
CN108153793A (zh) | 一种原始数据处理方法 | |
CN105488231B (zh) | 一种基于自适应表维度划分的大数据处理方法 | |
US20070083488A1 (en) | Undo hints to speed up segment extension and tuning of undo retention | |
CN110362632A (zh) | 一种数据同步方法、装置、设备及计算机可读存储介质 | |
CN103488681A (zh) | 斜线标签 | |
CN107103068A (zh) | 业务缓存的更新方法及装置 | |
CN110245145A (zh) | 关系型数据库到Hadoop数据库的结构同步方法和装置 | |
CN109947729B (zh) | 一种实时数据分析方法及装置 | |
CN110321383A (zh) | 大数据平台数据同步方法、装置、计算机设备及存储介质 | |
CN104584524A (zh) | 聚合中介系统中的数据 | |
CN108647357A (zh) | 数据查询的方法及装置 | |
CN108376171A (zh) | 大数据快速导入的方法、装置、终端设备及存储介质 | |
CN104423982A (zh) | 请求的处理方法和处理设备 | |
CN104991741B (zh) | 一种基于键值模型的情境适配电网大数据存储方法 | |
CN107506438A (zh) | 一种用于物联网的数据处理存储方法以及装置 | |
CN107273403A (zh) | 一种历史数据收集及存储的方法 | |
CN106649530A (zh) | 云详单查询管理系统及方法 | |
CN111913913B (zh) | 访问请求的处理方法和装置 | |
CN108959614A (zh) | 一种快照管理方法、系统、装置、设备及可读存储介质 | |
CN104166650B (zh) | 数据存储装置和数据存储方法 | |
CN111737331B (zh) | 一种数据库与对象存储的事务一致性处理方法及系统 | |
CN111259017B (zh) | 订单检索方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4) Applicant after: Zhongke Star Map Co.,Ltd. Address before: 101399 Building 1A-4, National Geographic Information Technology Industrial Park, Guomen Business District, Shunyi District, Beijing Applicant before: GEOVIS TECHNOLOGY (BEIJING) Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180612 |