CN108920601B - 一种数据匹配方法及装置 - Google Patents
一种数据匹配方法及装置 Download PDFInfo
- Publication number
- CN108920601B CN108920601B CN201810682625.9A CN201810682625A CN108920601B CN 108920601 B CN108920601 B CN 108920601B CN 201810682625 A CN201810682625 A CN 201810682625A CN 108920601 B CN108920601 B CN 108920601B
- Authority
- CN
- China
- Prior art keywords
- data
- matched
- target
- data records
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 20
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请实施例公开了一种数据匹配方法及装置,涉及通信领域,解决了将不同数据源的数据进行模糊匹配时错配的问题。具体方案为:获取第一数据记录和第二数据记录,获取数据记录的关联字段和待匹配字段,将第一数据记录中关联字段的键值相同的数据记录分为一组,得到第一分组集合,将第二数据记录中,关联字段的键值相同的数据记录分为一组,得到第二分组集合,在允许匹配数据的情况下,将第一分组和第二分组的两条数据记录进行关联,计算关联的两条数据记录的待匹配距离,将待匹配距离中绝对值最小的数据记录确定为匹配成功的记录,并将与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录删除。本申请实施例用于数据匹配的过程中。
Description
技术领域
本申请实施例涉及通信领域,尤其涉及一种数据匹配方法及装置。
背景技术
随着大数据行业的崛起,各行各业对数据价值有了更多的关注。在数据的生命周期中包含数据生成和数据应用两个主要环节。其中,在数据应用环节,需要将多个数据源产生的数据进行模糊匹配,具体的可以通过距离进行数据的模糊匹配。
例如,在将网络侧和计费中心这两个数据源的通话记录进行模糊匹配的情况下,可以以主叫号码为关联字段,从两个数据源获取具有相同主叫号码的通话记录,并以通话开始时间为待匹配字段,匹配来自两个数据源、具有相同主叫号码的两条通话记录,若两条通话记录包括的通话开始时间接近,则确定两条通话记录匹配成功。
但是,由于数据源记录的通话记录可能会出现漏记、错记的情况,此时进行数据匹配可能会导致错配的问题,使得数据匹配的准确性较低。例如,对于同一个主叫号码,网络侧记录有两条通话记录,通话开始时间分别为:3点和5点,计费中心漏记了一条通话记录,仅记录有通话开始时间为5点的通话记录,这样进行匹配时,会出现网络侧的3点的通话记录与计费中心的5点的通话记录匹配成功,网络侧的5点的通话记录不再进行匹配的情况,造成了错配的问题。
发明内容
本申请提供一种数据匹配方法及装置,解决了将不同数据源的数据进行模糊匹配时错配的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种数据匹配方法,该方法可以包括:数据匹配装置获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段,将第一数据记录中,关联字段的键值相同的数据记录分为一组,得到第一分组集合,第一分组集合包括至少一个第一分组;将第二数据记录中,关联字段的键值相同的数据记录分为一组,得到第二分组集合,第二分组集合包括至少一个第二分组;在允许匹配数据的情况下,将第一分组和第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离,待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,第一分组和所述第二分组的关联字段的键值相同;将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录;将除匹配成功的关联数据记录外的其他关联数据记录中,与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除。
第二方面,本申请提供一种数据匹配装置,该数据匹配装置可以包括:获取单元、分组单元、关联单元、计算单元、确定单元和删除单元。其中,获取单元,用于获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段。分组单元,用于将第一数据记录中,关联字段的键值相同的数据记录分为一组,得到第一分组集合,第一分组集合包括至少一个第一分组;将第二数据记录中,关联字段的键值相同的数据记录分为一组,得到第二分组集合,第二分组集合包括至少一个第二分组。关联单元,用于在允许匹配数据的情况下,将第一分组和第二分组的两条数据记录进行关联。计算单元,用于计算关联的两条数据记录的待匹配距离,待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,第一分组和第二分组的关联字段的键值相同。确定单元,用于将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录。删除单元,用于将除匹配成功的关联数据记录外的其他关联数据记录中,与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除。
具体的实现方式可以参考第一方面的可能的实现方式提供的数据匹配方法中数据匹配装置的行为功能。
第三方面,提供一种数据匹配装置,该数据匹配装置包括:至少一个处理器、存储器、通信接口和通信总线。处理器与存储器、通信接口通过通信总线连接,存储器用于存储计算机执行指令,当数据匹配装置运行时,处理器执行存储器存储的计算机执行指令,以使数据匹配装置执行如第一方面的可能的实现方式中的数据匹配方法。
第四方面,提供一种计算机存储介质,其上存储有计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如第一方面的可能的实现方式中的数据匹配方法。
本申请提供的数据匹配方法,数据匹配装置通过将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录,并将其他关联数据记录中,与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录删除,这样,在数据源记录的数据出现错记、漏记的情况下,数据匹配装置能够将距离较近的数据记录匹配成功,大大减小了错配的可能性,从而提高了数据匹配的准确性。
附图说明
图1为本申请实施例提供的一种数据匹配装置的组成示意图;
图2为本申请实施例提供的一种数据匹配方法的流程图;
图3为本申请实施例提供的另一种数据匹配方法的流程图;
图4为本申请实施例提供的另一种数据匹配方法的流程图;
图5为本申请实施例提供的另一种数据匹配装置的组成示意图;
图6为本申请实施例提供的另一种数据匹配装置的组成示意图;
图7为本申请实施例提供的另一种数据匹配装置的组成示意图。
具体实施方式
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图1为本申请实施例提供的一种数据匹配装置的组成示意图,如图1所示,该数据匹配装置可以包括:至少一个处理器11、存储器12、通信接口13和通信总线14。
下面结合图1对数据匹配装置的各个构成部件进行具体的介绍:
其中,处理器11是数据匹配装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器11是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个数字信号处理器(DigitalSignal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable GateArray,FPGA)。
在具体的实现中,作为一种实施例,处理器11可以包括一个或多个CPU,例如图1中所示的CPU0和CPU1。且,作为一种实施例,数据匹配装置可以包括多个处理器,例如图1中所示的处理器11和处理器15。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器12可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器12可以是独立存在,通过通信总线14与处理器11相连接。存储器12也可以和处理器11集成在一起。
在具体的实现中,存储器12,用于存储本申请中的数据和执行本申请的软件程序。处理器11可以通过运行或执行存储在存储器12内的软件程序,以及调用存储在存储器12内的数据,执行数据匹配装置的各种功能。
通信接口13,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local Area Networks,WLAN)等。通信接口13可以包括接收单元实现接收功能,以及发送单元实现发送功能。
通信总线14,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
为了解决将不同数据源的数据进行模糊匹配时错配的问题,本申请实施例提供了一种数据匹配方法,如图2所示,该方法可以包括:
201、数据匹配装置获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段。
其中,当需要匹配两个数据源的数据记录时,数据匹配装置可以获取第一数据源的第一数据记录和第二数据源的第二数据记录,并在用户输入对应的关联字段和待匹配字段后,获取数据记录的关联字段和待匹配字段。
示例性的,假设两个数据源分别为:网络侧和计费中心,则数据匹配装置可以获取网络侧的第一数据记录和计费中心的第二数据记录,且当用户在数据匹配装置输入关联字段为主叫号码,待匹配字段为通话开始时间后,数据匹配装置便可以获取到关联字段和待匹配字段。
202、数据匹配装置将第一数据记录中,关联字段的键值相同的数据记录分为一组,得到第一分组集合。
其中,第一分组集合包括至少一个第一分组。数据匹配装置在获取到第一数据记录之后,可以将关联字段的键值相同的数据记录分为一组。
示例性的,按照步骤201的例子,数据匹配装置可以将第一数据记录中,主叫号码相同的数据记录分为一组。
203、数据匹配装置将第二数据记录中,关联字段的键值相同的数据记录分为一组,得到第二分组集合。
其中,第二分组集合包括至少一个第二分组。
204、在允许匹配数据的情况下,数据匹配装置将第一分组和第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离。
其中,待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,第一分组和第二分组的关联字段的键值相同。
由于数据源的数据记录的类型较多,在已采用本申请的方法对一些类型的数据记录进行了匹配,且准确性较高的情况下,下次再进行这些类型的数据记录的数据匹配时,便可以直接采用本申请的方法,但是对于首次采用本申请的方法进行数据匹配的一些类型的数据记录来说,需要先验证本申请的方法是否适用于处理这些类型的数据记录,因此,数据匹配装置在检测到用户允许进行数据匹配的情况下,可以将第一分组和第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离。
示例性的,按照步骤202中的例子,假设网络侧的一个第一分组的数据记录如表1所示,计费中心的一个第二分组的数据记录如表2所示。
表1
关联字段的键值 | 待匹配字段的字段值 | 其他信息字段 |
A | 3点 | A1 |
A | 5点 | A2 |
A | 7点 | A3 |
表2
关联字段的键值 | 待匹配字段的字段值 | 其他信息字段 |
A | 3点1分 | B1 |
A | 7点2分 | B2 |
这样,数据匹配装置便可以将表1中的数据记录和表2中的数据记录进行关联,得到6条关联的记录,并计算关联的记录的待匹配距离,如表3所示。
表3
205、数据匹配装置将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录。
其中,数据匹配装置在计算出关联的两条数据记录的待匹配距离之后,可以将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录。
示例性的,结合表3,数据匹配装置可以将绝对值最小,即表3的第一行的两条关联数据记录确定为匹配成功的记录。
206、数据匹配装置将除匹配成功的关联数据记录外的其他关联数据记录中,与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除。
示例性的,按照步骤205中的例子,数据匹配装置在确定出表3的第一行的两条关联数据记录为匹配成功的记录时,可以将表3中其他的关联数据记录中,与第一行的第一分组的待匹配字段的字段值:3点,或第二分组的待匹配字段的字段值:3点1分相同的关联数据记录进行删除,如,第二行、第三行和第五行的关联数据记录。
需要说明的是,在本申请实施例中,数据匹配装置在执行完步骤206之后,可以重复执行步骤205和步骤206,继续确定第一分组和第二分组的其他匹配成功的关联数据记录,直至确定出第一分组和第二分组的所有匹配成功的数据记录。示例性的,按照步骤206中的例子,在确定出第一行为匹配成功的数据记录,且删除了第二行、第三行和第五行的关联数据记录后,剩余的关联数据记录为第四行和第六行的关联数据记录。此时,数据匹配装置可以将第四行和第六行的待匹配距离进行比较,将待匹配距离最小,即第六行的两条关联数据记录确定为匹配成功的记录,并将第四行的关联数据记录删除。这样,将表1和表2的数据记录进行匹配之后,便可以获得第一行和第六行两条匹配成功的记录。
且,数据匹配装置可以重复执行步骤201-步骤206,对所有关联字段的键值相同的第一分组和第二分组均进行数据匹配,本申请实施例在此仅以一个第一分组和一个第二分组为例进行说明。
进一步的,在本申请实施例中,为了提高数据匹配的效率,在上述步骤203之后,可以先对第一分组和第二分组的数据记录进行处理。具体的,如图3所示,本申请实施例的数据匹配方法还可以包括以下步骤:
207、数据匹配装置获取第一数据记录的关联字段的第一键值集合,并获取第二数据记录的关联字段的第二键值集合。
208、数据匹配装置根据第一键值集合和第二键值集合,确定目标键值集合。
其中,目标键值集合包括的键值同时包含在第一键值集合和第二键值集合中。数据匹配装置在获取到第一键值集合和第二键值集合之后,可以对第一键值集合和第二键值集合取交集,得到目标键值集合。
209、数据匹配装置删除第一分组集合中,未包含在目标键值集合的键值的第一分组,得到第一目标分组集合,并删除第二分组集合中,未包含在目标键值集合的键值的第二分组,得到第二目标分组集合。
210、数据匹配装置删除第一目标分组和第二目标分组中重复的数据记录。
其中,重复的数据记录为关联字段的键值相同,且待匹配字段的字段值相同的数据记录。由于数据源可能会重复记录相同的数据记录,因此,为了避免重复处理相同的数据记录,数据匹配装置在得到第一目标分组集合和第二目标分组集合之后,可以先将每个第一目标分组,以及每个第二目标分组中,关联字段的键值相同、且待匹配字段的字段值相同的数据记录仅保留一条,其余进行删除。此时,相应的,上述步骤204可以替换为:在允许匹配数据的情况下,数据匹配装置将删除重复的数据记录的第一目标分组和第二目标分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离。
可选的,在上述步骤204中,对于首次采用本申请的方法进行数据匹配的一些类型的数据记录来说,当数据匹配装置检测到用户不允许进行数据匹配的情况下,如图4所示,本申请实施例提供的数据匹配方法的还可以包括以下步骤:
211、在不允许匹配数据的情况下,数据匹配装置根据待匹配字段的字段值对第一目标分组的数据记录进行排序,并对第二目标分组的数据记录进行排序。
示例性的,假设待匹配字段为通话开始时间,那么数据匹配装置在删除了目标分组中重复的数据记录之后,如果确定不允许进行数据匹配,则可以按照通话开始时间由早到晚的顺序对每个分组的数据记录进行排序。
212、数据匹配装置计算目标分组内,相邻的两条数据记录的待匹配字段的字段值的差值,并将所有差值按照由小到大的顺序进行排序。
其中,假设表1为某一目标分组,那么数据匹配装置可以计算第二行与第一行的待匹配字段的字段值的差值为2小时,计算第三行与第二行的待匹配字段的字段值为2小时。
213、数据匹配装置根据预设数量的差值计算第一目标分组和第二目标分组的待匹配字段的距离均值。
其中,数据匹配装置在将一个目标分组的所有差值按照由小到大的顺序进行排序之后,可以按照预设比例,取所有差值中的较小前N个差值计算平均值,得到该目标分组的待匹配字段的距离均值。
214、数据匹配装置在确定出所有的匹配成功的记录后,根据匹配成功的记录的待匹配距离,计算待匹配距离的均值和均方差,并根据目标距离均值和均方差,计算适用系数。
其中,由于数据源存储的数据记录庞大,若将所有的数据记录进行匹配耗时较大,因此在验证本申请的方法是否适用于处理数据源的数据记录的情况下,数据匹配装置可以仅处理部分样本数据记录来分析结果。在具体的实现中,数据匹配装置可以设置训练次数K,并初始化K为0,在处理完一个第一目标分组和一个第二目标分组的数据记录后,将K加1,并判断K是否等于C,C为预设在数据匹配装置中的值,代表数据匹配装置处理的数据记录的组数。数据匹配装置可以在确定K等于C时,根据处理得到的所有匹配成功的记录的待匹配距离,计算待匹配距离的均值和均方差,并按照步骤213的计算一个目标分组的待匹配字段的距离均值的方法,得到所有处理的目标分组的待匹配字段的距离均值,将这些待匹配字段的距离均值按照由小到大的顺序进行排序,且按照预设比例,取这些待匹配字段的距离均值中的较小前M个距离均值计算平均值,得到目标距离均值,这样,数据匹配装置便可以根据目标距离均值和待匹配距离的均方差,计算适用系数,该适用系数表明本申请的方法对数据源的数据记录的适用程度,适用系数越大表明越适用。且,数据匹配装置可以保存并显示待匹配距离的均值,该均值为非误差性距离,用于用户分析该非误差性距离对数据匹配结果的影响,且用于根据该影响对数据匹配装置进行校准,以便降低后续匹配数据产生的非误差性距离。
本申请提供的数据匹配方法,数据匹配装置通过将待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录,并将其他关联数据记录中,与匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录删除,这样,在数据源记录的数据出现错记、漏记的情况下,数据匹配装置能够将距离较近的数据记录匹配成功,大大减小了错配的可能性,从而提高了数据匹配的准确性。
上述主要从数据匹配装置对本申请实施例提供的方案进行了介绍。可以理解的是,数据匹配装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例可以根据上述方法示例对数据匹配装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图5示出了上述实施例中涉及的数据匹配装置的另一种可能的组成示意图,如图5所示,该数据匹配装置可以包括:获取单元31、分组单元32、关联单元33、计算单元34、确定单元35和删除单元36。
其中,获取单元31,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤201,图3所示的数据匹配方法中的步骤207。
分组单元32,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤202、步骤203。
关联单元33,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤204所述的将第一分组和第二分组的两条数据记录进行关联。
计算单元34,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤204所述的计算关联的两条数据记录的待匹配距离,图4所示的数据匹配方法中的步骤212所述的计算目标分组内,相邻的两条数据记录的待匹配字段的字段值的差值、步骤213、步骤214。
确定单元35,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤205,图3所示的数据匹配方法中的步骤208。
删除单元36,用于支持数据匹配装置执行图2所示的数据匹配方法中的步骤206,图3所示的数据匹配方法中的步骤209、步骤210。
进一步的,在本申请实施例中,如图6所示,数据匹配装置还可以包括:排序单元37。
排序单元37,用于支持数据匹配装置执行图4所示的数据匹配方法中的步骤211、步骤212所述的将所有差值按照由小到大的顺序进行排序。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例提供的数据匹配装置,用于执行上述数据匹配方法,因此可以达到与上述数据匹配方法相同的效果。
在采用集成的单元的情况下,图7示出了上述实施例中所涉及的数据匹配装置的另一种可能的组成示意图。如图7所示,该数据匹配装置包括:处理模块41、通信模块42和存储模块43。
处理模块41用于对数据匹配装置的动作进行控制管理,例如,处理模块41用于支持数据匹配装置执行图2中的步骤201、步骤202、步骤203、步骤204、步骤205、步骤206,图3中的步骤207、步骤208、步骤209、步骤210,图4中的步骤211、步骤212、步骤213、步骤214,和/或用于本文所描述的技术的其它过程。通信模块42用于支持数据匹配装置与其他网络实体的通信。存储模块43,用于存储数据匹配装置的程序代码和数据。
其中,处理模块41可以是图1中的处理器。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块42可以是图1中的通信接口。存储模块43可以是图1中的存储器。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段;
将所述第一数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第一分组集合,所述第一分组集合包括至少一个第一分组;
将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合,所述第二分组集合包括至少一个第二分组;
在允许匹配数据的情况下,将所述第一分组和所述第二分组的两条数据记录进行关联,并计算关联的两条数据记录的待匹配距离,所述待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,所述第一分组和所述第二分组的关联字段的键值相同;
将所述待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录;
将除所述匹配成功的关联数据记录外的其他关联数据记录中,与所述匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除;
在不允许匹配数据的情况下,根据所述待匹配字段的字段值对第一目标分组的数据记录进行排序,并对第二目标分组的数据记录进行排序;
计算目标分组内,相邻的两条数据记录的待匹配字段的字段值的差值,并将所有差值按照由小到大的顺序进行排序;
根据预设数量的差值计算所述第一目标分组和所述第二目标分组的待匹配字段的距离均值;
在确定出所有的匹配成功的记录后,根据匹配成功的记录的待匹配距离,计算待匹配距离的均值和均方差;
将所有目标分组的待匹配字段的距离均值按照由小到大的顺序进行排序;
根据排序后的预设数量的待匹配字段的距离均值,计算目标距离均值;
根据所述目标距离均值和所述均方差,计算适用系数。
2.根据权利要求1所述的数据匹配方法,其特征在于,在所述将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合之后,还包括:
获取所述第一数据记录的关联字段的第一键值集合,并获取所述第二数据记录的关联字段的第二键值集合;
根据所述第一键值集合和所述第二键值集合,确定目标键值集合,所述目标键值集合包括的键值同时包含在所述第一键值集合和所述第二键值集合中;
删除所述第一分组集合中,未包含在所述目标键值集合的键值的第一分组,得到第一目标分组集合,并删除所述第二分组集合中,未包含在所述目标键值集合的键值的第二分组,得到第二目标分组集合;
删除所述第一目标分组和所述第二目标分组中重复的数据记录,所述重复的数据记录为关联字段的键值相同,且待匹配字段的字段值相同的数据记录。
3.根据权利要求2所述的数据匹配方法,其特征在于,所述将所述第一分组和所述第二分组的两条数据记录进行关联,包括:
将删除重复的数据记录的所述第一目标分组和所述第二目标分组的两条数据记录进行关联。
4.一种数据匹配装置,其特征在于,所述数据匹配装置包括:获取单元、分组单元、关联单元、计算单元、确定单元、删除单元和排序单元;
所述获取单元,用于获取第一数据源的第一数据记录和第二数据源的第二数据记录,并获取数据记录的关联字段和待匹配字段;
所述分组单元,用于将所述第一数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第一分组集合,所述第一分组集合包括至少一个第一分组;将所述第二数据记录中,所述关联字段的键值相同的数据记录分为一组,得到第二分组集合,所述第二分组集合包括至少一个第二分组;
所述关联单元,用于在允许匹配数据的情况下,将所述第一分组和所述第二分组的两条数据记录进行关联;
所述计算单元,用于计算关联的两条数据记录的待匹配距离,所述待匹配距离为关联的两条数据记录的待匹配字段的字段值的绝对值,所述第一分组和所述第二分组的关联字段的键值相同;
所述确定单元,用于将所述待匹配距离中绝对值最小的两条关联数据记录确定为匹配成功的记录;
所述删除单元,用于将除所述匹配成功的关联数据记录外的其他关联数据记录中,与所述匹配成功的关联数据记录的待匹配字段的字段值相同的关联数据记录进行删除;
所述排序单元,用于在不允许匹配数据的情况下,根据所述待匹配字段的字段值对第一目标分组的数据记录进行排序,并对第二目标分组的数据记录进行排序;
所述计算单元,还用于计算目标分组内,相邻的两条数据记录的待匹配字段的字段值的差值;
所述排序单元,还用于将所有差值按照由小到大的顺序进行排序;
所述计算单元,还用于根据预设数量的差值计算所述第一目标分组和所述第二目标分组的待匹配字段的距离均值;
所述计算单元,还用于在确定出所有的匹配成功的记录后,根据匹配成功的记录的待匹配距离,计算待匹配距离的均值和均方差;
所述排序单元,还用于将所有目标分组的待匹配字段的距离均值按照由小到大的顺序进行排序;
所述计算单元,还用于根据排序后的预设数量的待匹配字段的距离均值,计算目标距离均值;根据所述目标距离均值和所述均方差,计算适用系数。
5.根据权利要求4所述的数据匹配装置,其特征在于,
所述获取单元,还用于获取所述第一数据记录的关联字段的第一键值集合,并获取所述第二数据记录的关联字段的第二键值集合;
所述确定单元,还用于根据所述第一键值集合和所述第二键值集合,确定目标键值集合,所述目标键值集合包括的键值同时包含在所述第一键值集合和所述第二键值集合中;
所述删除单元,还用于删除所述第一分组集合中,未包含在所述目标键值集合的键值的第一分组,得到第一目标分组集合,并删除所述第二分组集合中,未包含在所述目标键值集合的键值的第二分组,得到第二目标分组集合;删除所述第一目标分组和所述第二目标分组中重复的数据记录,所述重复的数据记录为关联字段的键值相同,且待匹配字段的字段值相同的数据记录。
6.根据权利要求5所述的数据匹配装置,其特征在于,所述关联单元,具体用于:
将删除重复的数据记录的所述第一目标分组和所述第二目标分组的两条数据记录进行关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810682625.9A CN108920601B (zh) | 2018-06-27 | 2018-06-27 | 一种数据匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810682625.9A CN108920601B (zh) | 2018-06-27 | 2018-06-27 | 一种数据匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920601A CN108920601A (zh) | 2018-11-30 |
CN108920601B true CN108920601B (zh) | 2020-12-01 |
Family
ID=64422925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810682625.9A Active CN108920601B (zh) | 2018-06-27 | 2018-06-27 | 一种数据匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920601B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115132B (zh) * | 2019-06-20 | 2024-02-13 | 北京百度网讯科技有限公司 | 数据关联方法、装置、设备和存储介质 |
US11474983B2 (en) * | 2020-07-13 | 2022-10-18 | International Business Machines Corporation | Entity resolution of master data using qualified relationship score |
CN113836897A (zh) * | 2021-09-22 | 2021-12-24 | 北京计算机技术及应用研究所 | 一种多源异构数据字典对齐的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661510A (zh) * | 2009-09-29 | 2010-03-03 | 金蝶软件(中国)有限公司 | 一种数据匹配方法及装置 |
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN104463627A (zh) * | 2014-12-05 | 2015-03-25 | 北京国双科技有限公司 | 数据处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060058066A (ko) * | 2006-05-01 | 2006-05-29 | 강명국 | 위치기반 시스템과 얼굴인식 시스템을 이용한 즉석 미팅서비스 지원 방법. |
-
2018
- 2018-06-27 CN CN201810682625.9A patent/CN108920601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661510A (zh) * | 2009-09-29 | 2010-03-03 | 金蝶软件(中国)有限公司 | 一种数据匹配方法及装置 |
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN104463627A (zh) * | 2014-12-05 | 2015-03-25 | 北京国双科技有限公司 | 数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108920601A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109587008B (zh) | 检测异常流量数据的方法、装置及存储介质 | |
CN108920601B (zh) | 一种数据匹配方法及装置 | |
CN112597153B (zh) | 一种基于区块链的数据存储方法、装置及存储介质 | |
CN110474900B (zh) | 一种游戏协议测试方法及装置 | |
CN111507479B (zh) | 特征分箱方法、装置、设备及计算机可读存储介质 | |
CN112488297B (zh) | 一种神经网络剪枝方法、模型生成方法及装置 | |
CN111324781A (zh) | 一种数据分析方法、装置及设备 | |
CN111679968A (zh) | 接口调用异常的检测方法、装置、计算机设备及存储介质 | |
CN110019341B (zh) | 一种数据查询方法及装置 | |
CN108255950B (zh) | 数据存储方法及终端设备 | |
CN110661913B (zh) | 一种用户排序方法、装置及电子设备 | |
CN114513498B (zh) | 文件传输校验方法、装置、计算机设备和存储介质 | |
CN114860608A (zh) | 基于场景构建的系统自动化测试方法、装置、设备及介质 | |
CN111222739B (zh) | 核电站的任务分配方法及核电站的任务分配系统 | |
CN110177006B (zh) | 基于接口预测模型的节点测试方法及装置 | |
CN113656354A (zh) | 日志分类方法、系统、计算机设备和可读存储介质 | |
CN111932142A (zh) | 方案分组和数据分组方法、装置、设备及存储介质 | |
CN112612865A (zh) | 一种基于Elasticsearch的文档存储方法和装置 | |
CN109344047B (zh) | 系统回归测试方法、计算机可读存储介质和终端设备 | |
CN108984101B (zh) | 在分布式存储系统中确定事件之间关系的方法及装置 | |
CN106980495B (zh) | 一种基于程序切片的功能可复用性度量方法 | |
CN112488141A (zh) | 物联卡应用范围的确定方法、装置及计算机可读存储介质 | |
US20190057139A1 (en) | Mass data movement mechanism | |
CN106528577B (zh) | 一种设置待清理文件的方法和装置 | |
CN113485944B (zh) | 一种软件测试方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |