CN101661510A - 一种数据匹配方法及装置 - Google Patents

一种数据匹配方法及装置 Download PDF

Info

Publication number
CN101661510A
CN101661510A CN200910179910A CN200910179910A CN101661510A CN 101661510 A CN101661510 A CN 101661510A CN 200910179910 A CN200910179910 A CN 200910179910A CN 200910179910 A CN200910179910 A CN 200910179910A CN 101661510 A CN101661510 A CN 101661510A
Authority
CN
China
Prior art keywords
data set
record
field value
data
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910179910A
Other languages
English (en)
Inventor
邝维生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN200910179910A priority Critical patent/CN101661510A/zh
Publication of CN101661510A publication Critical patent/CN101661510A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据匹配方法及装置,所述方法包括:分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值;对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录;依据原始数据集中的当前记录,和比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系;根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。本发明运用了减少了匹配数据集中数据的时间,提升了匹配效率。

Description

一种数据匹配方法及装置
技术领域
本发明涉及数据处理领域,特别是涉及一种数据匹配方法及装置。
背景技术
企业资源计划(Enterprise Resource Planning,ERP)系统,是指建立在信息技术基础上,对企业的所有资源(物流、资金流、信息流或人力资源)进行整合集成管理,采用信息化手段实现企业供销链管理,从而达到对供应链上的每一环节实现科学管理的目的。在ERP系统中,有时候需要进行单据之间的数据匹配,从而将两张单据以某种关系匹配起来。例如,在做业务数据处理时,以核对应收款为例,为了确定收款单所收的金额对应的是哪一张销售发票上哪一个物料的钱,就需要建立销售发票明细与收款单明细之间的数据匹配关系,由这种数据匹配关系就可以明确哪张销售发票已经收过款了,哪张销售发票还未收款或还未全部收款,或者,客户的应收款余额是多少,等等。
现有技术中有一种进行数据匹配的方法,以销售发票和收款单为例,对于销售发票中的金额进行匹配时,从第一行发票明细开始,依次匹配收款单中的第一行到最后一行数据,如果收款单有足够的剩余金额,那么将这条发票明细和这条收款单明细建立关联,关联金额为发票金额,如果收款单没有足够的剩余金额,则首先将这条发票明细和这条收款单明细建立关联,关联金额为收款单金额,发票的剩余金额为减去关联金额的金额,然后,在收款单中开始遍历下一条明细,利用同样的方法与发票的剩余金额进行匹配,直到销售发票中的这条金额匹配完成为止。然后在销售发票中插叙下一条发票明细,直至所有的发票明细都匹配完成。
从上述过程中可以看出,需要建立一个嵌套循环,对于明细较多的时候,性能下降明显,性能不好。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够提出一种数据匹配方法,用以解决现有技术中需要建立嵌套循环导致的性能下降问题。
发明内容
本发明所要解决的技术问题是提供一种数据匹配方法,用以解决现有技术中需要建立嵌套循环导致的性能下降问题。
本发明的另一个目的是将上述构思应用于具体的应用环境中,提供一种数据匹配装置,从而保证该方法的实现和应用。
为解决上述技术问题,本发明实施例提供了一种数据匹配方法,包括:
分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值;
对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录;
依据所述原始数据集中的当前记录,和所述比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系;
根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
可选的,所述根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据,具体包括:
对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差;
对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差;
当所述第一数据差大于等于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
如果否,则获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据;
如果是,则获取原始数据集的匹配字段值作为关联数据。
可选的,所述根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据,还包括:
当所述第一数据差小于所述第二数据差,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
如果是,则获取原始数据集和比对数据集的匹配字段值之间的差,与比对数据集的匹配字段值的和,并将所述和的值作为关联数据;
如果否,则获取比对数据集的匹配字段值作为关联数据。
可选的,将所述匹配关系和关联数据以数据表的形式向用户进行展示。
可选的,所述原始数据集和比对数据集中的记录数目不相同。
本发明实施例还提供了一种数据匹配装置,包括:
累加模块,用于分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值;
查找模块,用于对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录;
生成匹配关系模块,用于依据所述原始数据集中的当前记录,和所述比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系;
生成关联数据模块,用于根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
可选的,所述生成关联数据模块具体包括:
第一获取子模块,用于对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差;
第二获取子模块,用于对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差;
第一判断子模块,用于当所述第一数据差大于等于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
第三获取子模块,用于当所述第一判断子模块的结果为否时,获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据;
第四获取子模块,用于当所述第一判断子模块的结果为是时,获取原始数据集的匹配字段值作为关联数据。
可选的,所述生成关联数据模块还包括:
第二判断子模块,用于当所述第一数据差小于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
第五获取子模块,用于当所述第二判断子模块的结果为是时,获取原始数据集和比对数据集的匹配字段值之间的差,与比对数据集的匹配字段值的和,并将所述和的值作为关联数据;
第六获取子模块,用于当所述第二判断子模块的结果为否时,获取比对数据集的匹配字段值作为关联数据。
可选的,还包括:
展示模块,用于将所述匹配关系和关联数据以数据表的形式向用户进行展示。
可选的,所述原始数据集和比对数据集中的记录数目不相同。
与现有技术相比,本发明具有以下优点:
在本实施例中,首先将原始数据集和比对数据集中的匹配字段的值进行累加,在后续进行匹配时,就利用该累加字段的值,从而生成两个数据集之间的匹配关系和关联数据。采用本发明实施例所述的方法和装置,运用了数据库的集合处理的特点,从而不需要像现有技术一样设置嵌套循环,从而减少了匹配数据集中数据的时间,提升了匹配效率。本实施例所述的匹配方法,可以快速的建立数据集之间的数据匹配关系,提升在ERP系统应用时的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据匹配方法实施例1的流程图;
图2是本发明的一种数据匹配方法实施例2的流程图;
图3是本发明的一种数据匹配装置实施例1的结构示意图;
图4是本发明的一种数据匹配装置实施例2的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
为了使得本领域技术人员能够更清楚的了解本发明的技术方案,下面对数据匹配的原理做一个简单的介绍。
数据匹配就是将一个数据集(原始数据集)中的记录基于某一特定元素(即是比对元素,例如数量,金额等)与另一个数据集(比对数据集)中的记录按顺序进行比对,如果原始数据集的该条记录中的比对元素的数据值大于比对数据集被比对的记录的比对元素的数据值,则以数据值小的一方的值为匹配值建立两条记录的匹配关系,同时,将原始数据集中该记录中比对元素的余额(该条记录比对元素的原始值与已经匹配的值之差)与比对数据集的下一条记录进行比对,直至原始数据集中该条记录的比对元素的数据值与比对数据集中的记录完成匹配为止。同时,如果原始数据集中该记录比对元素的值小于比对数据集记录中比对元素的数据值,则同样以数据值小的一方的值为匹配值建立两条记录的匹配关系,并将比对数据集中该记录的比对元素的余额(该条记录比对元素的原始值与已经匹配的值之差)与原始数据集的下一条记录进行比对,直至比对数据集中该条记录的比对元素的值被与原始数据集中的记录完成匹配为止。按照互相匹配的顺序直至两个数据集中某一个数据集中的比对元素的值全部完成匹配为止。最终,两个数据集之间就建立起以元素匹配值为依据的这样一种一一对应的关系。
参考图1,示出了本发明的一种数据匹配方法实施例1的流程图,可以包括以下步骤:
步骤101:分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值。
在实际应用中,如果比对元素是原始金额(为了与累加金额进行区分,本发明实施例中所述的原始金额即是实际中的金额),则首先需要获取到原始数据集和比对数据集中的金额字段,然后读取该字段的所有字段值(即是具体金额是多少),并依次从第一行的金额向最后一行累加。即是第一行的累加金额就是第一行的金额值,第二行的累加金额则是第一行和第二行的原始金额之和,以此类推。数据集中的累加金额的值,在实际应用中可以放在一个累加字段中。
步骤102:对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录。
从原始数据集中的第一条记录开始匹配,并且从比对数据集中也是从第一条记录开始查找。当比对数据集中的第一条记录的累计金额小于原始数据集对应的累计金额时,则继续查找比对数据集中的下一条记录,直到找到比对数据集中大于原始数据集第一条记录累加金额的记录,这时,再拿原始数据集中的第二条记录与比对数据集中的该条记录匹配,直到找到原始数据集中大于比对数据集中该条记录累加金额的记录,以此类推。
例如,对于原始数据集中的第二条记录,则在比对数据集中查找第一个大于原始数据集的第一条记录的累加字段值对应的记录,这里将比对数据集中的该记录记为第一记录;同时,在比对数据集中查找第一个大于原始数据集的第二条记录的累加字段值对应的记录,这里将比对数据集中的该记录记为第二记录。
步骤103:依据原始数据集中的当前记录,和比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系。
按照步骤102中查找到的比对数据集中的第一记录和第二记录,以及原始数据集中的当前记录,生成两个数据集之间的匹配关系。可以看出,对于原始数据集来说,原始数据集中的每一条记录的匹配记录,都是比对数据集中从第一个大于原始数据集的上一条记录的累加字段值对应的记录,到第一个大于原始数据集的当前记录的累加字段值对应的记录。对于比对数据集来说,比对数据集中的每一条记录的匹配记录,也都是原始数据集中从第一个大于比对数据集的上一条记录的累加字段值对应的记录,到第一个大于比对数据集的当前记录的累加字段值对应的记录。
步骤104:根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
最后,再根据两个数据集中累加字段值以及匹配关系,计算获取所述原始数据集和比对数据集每一个记录对应的关联数据。
在本实施例中,可以看出,运用了数据库的集合处理的特点,从而不需要像现有技术一样设置嵌套循环,从而减少了匹配数据集中数据的时间,提升了匹配效率。本实施例所述的匹配方法,可以快速的建立数据集之间的数据匹配关系,提升在ERP系统应用时的性能。
参考图2,示出了本发明的一种数据匹配方法实施例2的流程图,本实施例可以包括以下步骤:
步骤201:分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值。
在实际应用中,所述原始数据集和比对数据集中的记录数目可以不相同,也可以相同。例如,所述原始数据集的如表1所示,所述比对数据集如表2所示,则两个数据集累加后的数据可以如表3所示。
表1
 序号     金额
 1     100
 2     150
 3     80
 4     120
 5     60
表2
  序号     金额
  1     50
  2     240
  3     30
  4     110
  5     50
  6     30
表3
Figure G200910179910XD00081
步骤202:对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录。
对于表1所示的原始数据集而言,原始数据集的第一条记录(即是表中的第一行数据内容,序号为1)在比对数据集中的匹配记录,是比对数据集中的第一个记录和第二个记录,而对于原始数据集的第二条记录(序号为2)在比对数据集中的匹配记录,是比对数据集中的第二个记录,对于原始数据集的第三条记录(序号为3)在比对数据集中的匹配记录,是比对数据集中的第二、第三和第四个记录(序号分别为2、3和4);依次类推,可以找出原始数据集中所有记录在比对数据集中的匹配记录。
步骤203:依据原始数据集中的当前记录,和比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系。
同样的,对于比对数据集中的第一条记录(序号为1),对应原始数据集中的第一条记录,对于比对数据集中的第二条记录(序号为2),对应原始数据集中的第一条、第二条和第三条记录(序号包括1、2和3);以此类推,可以得到对于比对数据集中每一条记录在原始数据集中的匹配记录,依据生成两个数据集之间的匹配关系。
其中,所述匹配关系在本实施例中具体可以如表4所示:
表4
Figure G200910179910XD00101
步骤204:对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差。
在本实施例中,匹配字段就是原始数据集和比对数据集中的原始金额字段,因此对于原始数据集中的第一条记录而言,第一数据差就是0,因为累计金额等于原始金额;对于原始数据集中的第二条记录而言,第一数据差就是100,依次类推,可以得到原始数据集中所有记录的第一数据差。
步骤205:对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差。
而对于比对数据集中的第一条记录而言,第二数据差依旧是0,但是对于比对数据集中的第二条记录而言,第二数据差就是50,依此类推,可以得到比对数据集中所有记录的第一数据差。
步骤206:当所述第一数据差大于等于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值,如果是,则进入步骤208,如果否,则进入步骤207。
当原始数据集中的第二条记录和比对数据集中的第二条记录比对时,原始数据集的第一数据差为100,而比对数据集的第二数据差为50,则判断原始数据集的第二条记录的累积字段值是否小于所述比对数据集的第二条记录的累积字段值。
步骤207:获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据。
当原始数据集的第一条记录和比对数据集中的第一条记录比对时,原始数据集的原始金额值为100,比对数据集的原始金额值为50,因此此时,关联数据就为:50-100+100,得到关联数据为50。
步骤208:获取原始数据集的匹配字段值作为关联数据。
则此时,就获取原始数据集中第二条记录的原始金额值100作为关联数据。
步骤209:当所述第一数据差小于所述第二数据差,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值,如果是,则进入步骤210,如果否,则进入步骤211。
当原始数据集的第三条记录与比对数据集的第三条记录比对时,第一数据差为250,第二数据差为290,此时,判断原始数据集第三条记录的累积字段值是否小于比对数据集中第三条记录的累计字段值。
步骤210:获取原始数据集和比对数据集的累计字段值之间的差,与比对数据集的匹配字段值的和,并将该和的值作为关联数据。
例如,对于原始数据集的第三条记录和比对数据集的第五条记录而言,其关联数据的计算方式就为:450-480+50,关联数据的值为20。
步骤211:获取比对数据集的匹配字段值作为关联数据。
此时则两个数据集中第三条记录互相匹配的关联数据为比对数据集中第三条记录中的原始金额,即是30。
当原始数据集和比对数据集的每一条记录对应的关联数据都获取到时,可以和匹配关系一起生成一个匹配关系和关联金额的表格。在本实施例中的匹配关系和关联金额可以如下表5所示。
表5
Figure G200910179910XD00111
Figure G200910179910XD00121
步骤212:将所述匹配数据和关联数据以数据表的形式向用户进行展示。
最后生成的数据表可以向用户进行展示。与传递匹配算法相比,运用本实施例所述的数据匹配方法,在实际应用中,可以很好的提升性能,尤其是在需要匹配的数据量较大的时候,更能提升在ERP系统中对于数据匹配的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参考图3,示出了本发明的一种数据匹配装置实施例1的结构框图,可以包括以下模块:
累加模块301,用于分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值。在实际应用中,如果比对元素是原始金额(为了与累加金额进行区分,本发明实施例中所述的原始金额即是实际中的金额),则首先需要获取到原始数据集和比对数据集中的金额字段,然后读取该字段的所有字段值(即是具体金额是多少),并依次从第一行的金额向最后一行累加。即是第一行的累加金额就是第一行的金额值,第二行的累加金额则是第一行和第二行的原始金额之和,以此类推。数据集中的累加金额的值,在实际应用中可以放在一个累加字段中。
查找模块302,用于对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录。
从原始数据集中的第一条记录开始匹配,并且从比对数据集中也是从第一条记录开始查找。当比对数据集中的第一条记录的累计金额小于原始数据集对应的累计金额时,则继续查找比对数据集中的下一条记录,直到找到比对数据集中大于原始数据集第一条记录累加金额的记录,这时,再拿原始数据集中的第二条记录与比对数据集中的该条记录匹配,直到找到原始数据集中大于比对数据集中该条记录累加金额的记录,以此类推。
生成匹配关系模块303,用于依据原始数据集中的当前记录,和比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系。
按照前面查找到的比对数据集中的第一记录和第二记录,以及原始数据集中的当前记录,生成两个数据集之间的匹配关系。可以看出,对于原始数据集来说,原始数据集中的每一条记录的匹配记录,都是比对数据集中从第一个大于原始数据集的上一条记录的累加字段值对应的记录,到第一个大于原始数据集的当前记录的累加字段值对应的记录。对于比对数据集来说,比对数据集中的每一条记录的匹配记录,也都是原始数据集中从第一个大于比对数据集的上一条记录的累加字段值对应的记录,到第一个大于比对数据集的当前记录的累加字段值对应的记录。
生成关联数据模块304,用于根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
最后,再根据两个数据集中累加字段值以及匹配关系,计算获取所述原始数据集和比对数据集每一个记录对应的关联数据。在本实施例中,可以看出,运用了数据库的集合处理的特点,从而不需要像现有技术一样设置嵌套循环,从而减少了匹配数据集中数据的时间,提升了匹配效率。本实施例所述的匹配方法,可以快速的建立数据集之间的数据匹配关系,提升在ERP系统应用时的性能。
参考图4,示出了本发明的一种数据匹配装置实施例2的结构框图,可以包括以下模块:
累加模块301,用于分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值。
查找模块302,用于对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录。
生成匹配关系模块303,用于依据原始数据集中的当前记录,和比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系。
第一获取子模块401,用于对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差。
第二获取子模块402,用于对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差。
第一判断子模块403,用于当所述第一数据差大于等于所述第二数据差,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值。
第三获取子模块404,用于当所述第一判断子模块的结果为否时,获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据。
第四获取子模块405,用于当所述第一判断子模块的结果为是时,获取原始数据集的匹配字段值作为关联数据。
第二判断子模块406,用于当所述第一数据差小于所述第二数据差,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值。
第五获取子模块407,用于当所述第二判断子模块的结果为是时,获取原始数据集和比对数据集的匹配字段值之间的差,与比对数据集的匹配字段值的和,并将该和的值作为关联数据。
第六获取子模块408,用于当所述第二判断子模块的结果为否时,获取比对数据集的匹配字段值作为关联数据。
展示模块409,用于将所述匹配关系和关联数据以数据表的形式向用户进行展示。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种数据匹配方法及数据匹配装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1、一种数据匹配方法,其特征在于,包括:
分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值;
对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录;
依据所述原始数据集中的当前记录,和所述比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系;
根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
2、如权利要求1所述的方法,其特征在于,所述根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据,具体包括:
对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差;
对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差;
当所述第一数据差大于等于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
如果否,则获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据;
如果是,则获取原始数据集的匹配字段值作为关联数据。
3、如权利要求2所述的方法,其特征在于,所述根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据,还包括:
当所述第一数据差小于所述第二数据差,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
如果是,则获取原始数据集和比对数据集的匹配字段值之间的差,与比对数据集的匹配字段值的和,并将所述和的值作为关联数据;
如果否,则获取比对数据集的匹配字段值作为关联数据。
4、如权利要求1所述的方法,其特征在于,将所述匹配关系和关联数据以数据表的形式向用户进行展示。
5、如权利要求1-4任意一项所述的方法,其特征在于,所述原始数据集和比对数据集中的记录数目不相同。
6、一种数据匹配装置,其特征在于,包括:
累加模块,用于分别将原始数据集和比对数据集的匹配字段值进行累加,得到原始数据集和比对数据集中每条记录分别对应的累加字段值;
查找模块,用于对于所述原始数据集中的每条当前记录,在比对数据集中查找第一个大于所述当前记录的上一条记录的累加字段值对应的第一记录,以及,第一条大于或等于当前记录的累加字段值对应的第二记录;
生成匹配关系模块,用于依据所述原始数据集中的当前记录,和所述比对数据集中的第一记录和第二记录生成原始数据集和比对数据集的匹配关系;
生成关联数据模块,用于根据所述原始数据集和比对数据集各自的累加字段值和匹配关系,生成所述原始数据集和比对数据集的关联数据。
7、如权利要求6所述的装置,其特征在于,所述生成关联数据模块具体包括:
第一获取子模块,用于对于原始数据集的每条记录,获取对应的累计字段值与匹配字段值的第一数据差;
第二获取子模块,用于对于比对数据集的每条记录,获取对应的累计字段值与匹配字段值的第二数据差;
第一判断子模块,用于当所述第一数据差大于等于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
第三获取子模块,用于当所述第一判断子模块的结果为否时,获取所述比对数据集与原始数据集的累计字段值之间的差,与原始数据集中的匹配字段值的和,并将所述和的值作为关联数据;
第四获取子模块,用于当所述第一判断子模块的结果为是时,获取原始数据集的匹配字段值作为关联数据。
8、如权利要求7所述的装置,其特征在于,所述生成关联数据模块还包括:
第二判断子模块,用于当所述第一数据差小于所述第二数据差时,判断原始数据集当前记录的累积字段值是否小于所述比对数据集的累计字段值;
第五获取子模块,用于当所述第二判断子模块的结果为是时,获取原始数据集和比对数据集的匹配字段值之间的差,与比对数据集的匹配字段值的和,并将所述和的值作为关联数据;
第六获取子模块,用于当所述第二判断子模块的结果为否时,获取比对数据集的匹配字段值作为关联数据。
9、如权利要求6所述的装置,其特征在于,还包括:
展示模块,用于将所述匹配关系和关联数据以数据表的形式向用户进行展示。
10、如权利要求6-9任意一项所述的装置,其特征在于,所述原始数据集和比对数据集中的记录数目不相同。
CN200910179910A 2009-09-29 2009-09-29 一种数据匹配方法及装置 Pending CN101661510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910179910A CN101661510A (zh) 2009-09-29 2009-09-29 一种数据匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910179910A CN101661510A (zh) 2009-09-29 2009-09-29 一种数据匹配方法及装置

Publications (1)

Publication Number Publication Date
CN101661510A true CN101661510A (zh) 2010-03-03

Family

ID=41789530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910179910A Pending CN101661510A (zh) 2009-09-29 2009-09-29 一种数据匹配方法及装置

Country Status (1)

Country Link
CN (1) CN101661510A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916262A (zh) * 2010-07-29 2010-12-15 北京用友政务软件有限公司 一种财政要素匹配的加速方法
CN105468592A (zh) * 2014-08-04 2016-04-06 北京奇虎科技有限公司 一种关联数据表的展示方法和装置
CN105786911A (zh) * 2014-12-25 2016-07-20 阿里巴巴集团控股有限公司 应用数据的校验方法及装置
CN105917336A (zh) * 2014-01-16 2016-08-31 起元技术有限责任公司 数据库键识别
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN108920601A (zh) * 2018-06-27 2018-11-30 中国联合网络通信集团有限公司 一种数据匹配方法及装置
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
US11163670B2 (en) 2013-02-01 2021-11-02 Ab Initio Technology Llc Data records selection

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916262B (zh) * 2010-07-29 2012-07-04 北京用友政务软件有限公司 一种财政要素匹配的加速方法
CN101916262A (zh) * 2010-07-29 2010-12-15 北京用友政务软件有限公司 一种财政要素匹配的加速方法
US11163670B2 (en) 2013-02-01 2021-11-02 Ab Initio Technology Llc Data records selection
CN105917336A (zh) * 2014-01-16 2016-08-31 起元技术有限责任公司 数据库键识别
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification
CN105468592B (zh) * 2014-08-04 2019-12-13 北京奇虎科技有限公司 一种关联数据表的展示方法和装置
CN105468592A (zh) * 2014-08-04 2016-04-06 北京奇虎科技有限公司 一种关联数据表的展示方法和装置
CN105786911A (zh) * 2014-12-25 2016-07-20 阿里巴巴集团控股有限公司 应用数据的校验方法及装置
CN105786911B (zh) * 2014-12-25 2019-08-16 阿里巴巴集团控股有限公司 应用数据的校验方法及装置
CN106202486B (zh) * 2016-07-19 2019-07-09 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
CN108920601B (zh) * 2018-06-27 2020-12-01 中国联合网络通信集团有限公司 一种数据匹配方法及装置
CN108920601A (zh) * 2018-06-27 2018-11-30 中国联合网络通信集团有限公司 一种数据匹配方法及装置

Similar Documents

Publication Publication Date Title
CN101661510A (zh) 一种数据匹配方法及装置
Shrivastava et al. Improved asymmetric locality sensitive hashing (ALSH) for maximum inner product search (MIPS)
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN102567408B (zh) 推荐搜索关键词的方法和装置
US8666976B2 (en) Methods and systems for implementing approximate string matching within a database
Henderson Firm strategy and age dependence: A contingent view of the liabilities of newness, adolescence, and obsolescence
CN102129431B (zh) 应用于网上交易平台的检索方法和系统
CN103984714B (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN105446991A (zh) 数据存储方法、查询方法及设备
CN106952072A (zh) 一种数据处理的方法及系统
KR20100123684A (ko) 데이터베이스 내에 근사 스트링 매칭을 구현하기 위한 방법 및 시스템
US9110984B1 (en) Methods and systems for constructing a taxonomy based on hierarchical clustering
CN101430779A (zh) 一种在erp系统中匹配商品价格的方法及装置
CN104077407A (zh) 一种智能数据搜索系统及方法
CN104620238A (zh) 联合搜索结果上的点进率的在线学习
US20160171549A1 (en) System and method for extracting and publishing information captured by point of sale, point of service, and other order management and sales transactions recording systems for positively influencing internet search engine results
CN101609473A (zh) 一种重构报表查询的结构化查询语言的方法及装置
Liang et al. Parallel user profiling based on folksonomy for large scaled recommender systems: An implimentation of cascading mapreduce
CN104966204A (zh) 一种网络店铺的生成方法和装置
CN103605528A (zh) 一种业务开发方法及装置
Yahui et al. NSGA-II algorithm and application for multi-objective flexible workshop scheduling
US10922328B2 (en) Method and system for implementing an on-demand data warehouse
Hackney Understanding and implementing successful data marts
CN105359172A (zh) 计算企业存在拖欠的概率
CN115423555A (zh) 一种商品推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100303