CN106934409A - 一种数据匹配方法及装置 - Google Patents

一种数据匹配方法及装置 Download PDF

Info

Publication number
CN106934409A
CN106934409A CN201511017638.7A CN201511017638A CN106934409A CN 106934409 A CN106934409 A CN 106934409A CN 201511017638 A CN201511017638 A CN 201511017638A CN 106934409 A CN106934409 A CN 106934409A
Authority
CN
China
Prior art keywords
acquisition system
data acquisition
data
character string
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511017638.7A
Other languages
English (en)
Other versions
CN106934409B (zh
Inventor
皇甫庆彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Youquan Information Technology Co.,Ltd.
Original Assignee
Best Faith Racket (beijing) Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Best Faith Racket (beijing) Mdt Infotech Ltd filed Critical Best Faith Racket (beijing) Mdt Infotech Ltd
Priority to CN201511017638.7A priority Critical patent/CN106934409B/zh
Publication of CN106934409A publication Critical patent/CN106934409A/zh
Application granted granted Critical
Publication of CN106934409B publication Critical patent/CN106934409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开一种数据匹配方法及装置。该方法中,首先获取已知匹配关系的数据集合a1和数据集合b1,待匹配的数据集合a2包含的字符串类型部分或全部属于数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于数据集合b1包含的字符串类型,然后获取a1和b1中各数据的字符串,获取数据集合a1中的各个字符串与数据集合b1中的各个字符串的匹配关系,再根据该匹配关系,确定数据集合a2与数据集合b2的匹配关系。该方案能够确定两个待匹配的数据集合之间的匹配关系,对人工依赖性低,并且根据数据集合中字符串间的关联实现匹配,不需要人为设定选择条件和根据选择条件进行比对,因此,相对于现有技术,耗时较短,提高了匹配效率。

Description

一种数据匹配方法及装置
技术领域
本公开涉及数据匹配技术领域,尤其涉及一种数据匹配方法及装置。
背景技术
随着信息技术的发展,各种信息的数据量不断扩充。为了明确不同数据间的关系,通常需要进行数据匹配。其中,数据匹配指的是在数据之间,按照某种内在关系进行配准。
现有技术中,在进行数据匹配时,通常采用表格匹配或工具匹配的方法。其中,在采用表格匹配方法时,需要将待匹配的两组数据分别存储在两个表格中,然后人为对两个表格中需要进行匹配的各个字符进行逐一比对,根据比对结果确定所述两组数据是否匹配;另外,采用工具匹配方法时,需要设置多个选择条件,并将待匹配的数据与所述选择条件进行一一比对,判断待匹配的数据是否符合选择条件,并根据判断结果确定两组数据是否匹配。
但是,发明人在本申请的研究过程中发现,采用表格匹配方法,由于需要人工匹配,以及,采用工具匹配的方法,需要人为设定选择条件,并根据选择条件进行多次比对,因此,均存在耗时长,匹配效率低的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据匹配方法及装置。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
根据本公开实施例的第一方面,提供一种数据匹配方法,包括:
获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。
对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;
根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;
根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
优选的,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:
若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;
确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。
优选的,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:
获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;
获取各个基础向量在所述数据集合a1中出现的基础向量次数;
根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
优选的,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括:
对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;
根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;
确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
优选的,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
根据本公开实施例的第二方面,提供一种数据匹配装置,包括:
数据集合获取模块,用于获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;
维度分割模块,用于对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;
第一匹配模块,用于根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;
第二匹配模块,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
优选的,所述第一匹配模块包括:
维度获取单元,用于若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;
第一匹配单元,用于确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。
优选的,所述第一匹配模块包括:
基础向量获取单元,用于获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
目标向量获取单元,用于获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
第一次数获取单元,用于获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;
第二次数获取单元,用于获取各个基础向量在所述数据集合a1中出现的基础向量次数;
相似度获取单元,用于根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
优选的,所述第二匹配模块包括:
维度分割单元,用于对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;
相似度计算单元,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;
匹配确定单元,用于确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
优选的,所述相似度计算单元根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
本公开的实施例提供的技术方案可以包括以下有益效果:
本申请公开一种数据匹配方法及装置,该方法中,首先获取已知匹配关系的数据集合a1和数据集合b1,待匹配的数据集合a2包含的字符串类型部分或全部属于数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于数据集合b1包含的字符串类型,然后获取a1和b1中各条数据的字符串,获取数据集合a1中的各个字符串与数据集合b1中的各个字符串的匹配关系,再根据该匹配关系,确定数据集合a2与数据集合b2的匹配关系。
通过本申请公开的方案,能够确定两个待匹配的数据集合之间的匹配关系,与现有技术中采用的表格匹配方法相比,对人工依赖性低,并且,本申请的方法根据待匹配的数据集合中包含的字符串间的关联实现匹配,与现有技术中采用的工具匹配的方法相比,不需要人为设定选择条件和根据选择条件进行比对,因此,相对于现有技术,本申请公开的方法耗时较短,提高了匹配效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种数据匹配方法的工作流程示意图;
图2是根据一示例性实施例示出的一种数据匹配方法中,获取字符串的匹配关系的工作流程示意图;
图3是根据一示例性实施例示出的一种数据匹配装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决在通过现有技术进行数据匹配时,存在的耗时长,匹配效率低的问题,本申请公开一种数据匹配方法及装置。
本申请的实施例一公开一种数据匹配方法。参见图1所示的工作流程示意图,所述数据匹配方法包括以下步骤:
步骤S11、获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。
其中,所述数据集合a1和数据集合b1中包含多条数据,所述已知匹配关系指的是所述数据集合a1中包含的数据与所述数据集合b1中包含的数据的匹配关系。
所述待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型。其中,所述待匹配的数据集合a2包含的字符串类型全部属于所属数据集合a1包含的字符串类型,指的是所述数据集合a2中包含的字符串类型与所述数据集合a1中包含的字符串类型是相同的,或者,所述数据集合a2中包含的字符串类型为所述数据集合a1中包含的部分字符串类型。另外,若所述待匹配的数据集合a2包含的字符串类型部分属于所述数据集合a1包含的字符串类型,则所述待匹配的数据集合a2与所述数据集合a1之间重合的字符串类型在预设范围内,例如,所述待匹配的数据集合a2中至少有百分之五十以上的字符串类型属于所属数据集合a1包含的字符串类型。
相应的,所述待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。其中,所述待匹配的数据集合b2包含的字符串类型全部属于所属数据集合b1包含的字符串类型,指的是所述数据集合b2中包含的字符串与所述数据集合b1中包含的字符串类型相同,或者,所述数据集合b2中包含的字符串类型为所述数据集合b1中包含的部分字符串类型。另外,若所述待匹配的数据集合b2包含的字符串类型部分属于所述数据集合b1包含的字符串类型,则所述待匹配的数据集合b2与所述数据集合b1之间重合的字符串类型在预设范围内,例如,所述待匹配的数据集合b2中至少有百分之五十以上的字符串类型属于所属数据集合b1包含的字符串类型。
步骤S12、对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串。
步骤S13、根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系。
例如,若数据集合a1中包含一条数据为“1.3AT尊贵”,该条数据经过维度分割后,能够获取“1.3”、“AT”和“尊贵”三个字符串,根据已知匹配关系,确定在数据集合b1中,与该条数据相匹配的数据为“1.3T自动尊贵型”,而经过维度分割后,该数据被分割为“1.3T”、“自动”和“尊贵型”三个字符串,则步骤S13用于确定“1.3”、“AT”和“尊贵”三个字符串和“1.3T”、“自动”和“尊贵型”三个字符串的匹配关系。根据步骤S13,能够确定数据集合a1中字符串“1.3”和数据集合b1中字符串“1.3T”相匹配,数据集合a1中字符串“AT”和数据集合b1中字符串“自动”相匹配,数据集合a1中字符串“尊贵”和数据集合b1中字符串“尊贵型”相匹配。
步骤S14、根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
由于所述待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,所述待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型,根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,即可确定所述数据集合a2与所述数据集合b2的匹配关系。
本申请的第一实施例公开一种数据匹配方法,该方法中,首先获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型,然后获取数据集合a1和数据集合b1中包含的各条数据的字符串,根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,再根据各个字符串的匹配关系,确定数据集合a2与数据集合b2的匹配关系。
通过本申请公开的方法,能够确定两个待匹配的数据集合之间的匹配关系,与现有技术中采用的表格匹配方法相比,对人工依赖性低,并且,本申请的方法根据待匹配的数据集合中包含的字符串间的关联实现匹配,与现有技术中采用的工具匹配的方法相比,不需要人为设定选择条件和根据选择条件进行比对,因此,相对于现有技术,本申请公开的方法耗时较短,提高了匹配效率。
进一步的,在本申请中,能够通过多种方式,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系。
在其中一种方式中,所述数据集合a1和数据集合b1中包含的各个字符串的维度统一。所述维度统一,指的是相匹配的两条数据包含的字符串数量相等,并且根据已知匹配关系,能够确定在所述相匹配的两条数据中,位于同一维度的字符串相匹配。例如,在数据集合a1中,每条数据的格式为“a1、a2、a3、a4”,在数据集合b1中,每条数据的格式为“b1、b2、b3、b4”,两条数据均包含四个字符串,并且在已知匹配关系中,规定同一维度的字符串a1与字符串b1相匹配,同一维度的字符串a2与字符串b2相匹配,字符串a3与字符串b3相匹配,字符串a4与字符串b4相匹配,则认为所述数据集合a1和数据集合b1中包含的各个字符串的维度统一。
若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括以下步骤:
首先,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度。例如,若数据为“a1、a2、a3、a4”,则a1为第一维度,并依次类推,a4为第四维度;相应的,若数据为“b1、b2、b3、b4”,则b1为第一维度,并依次类推,b4为第四维度。
然后,确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配,从而确定所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系。根据上例可知,a1和b1均为第一维度,则a1和b1相匹配,并依次类推,a4和b4均为第四维度,则a4和b4相匹配。并且,相匹配的字符串的相似度最高。
另外,所述数据集合a1和数据集合b1中包含的各个字符串的维度有时不统一,根据已知匹配关系,确定数据集合a1和数据集合b1中包含的数据相匹配。这种情况下,参见图2所示的工作流程示意图,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括以下步骤:
步骤S21、获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串。
步骤S22、获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串。
在实际操作过程中,执行步骤S21和步骤S22的先后顺序无需限定,还可以同时执行步骤S21和步骤S22,或者,先执行步骤S22,再执行步骤S21。
步骤S23、获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数。
例如,数据集合a1中包含与数据集合b1中有三条数据以一一对应的形式互相匹配,则数据集合a1与数据集合b1包含三个匹配数据组,而基础向量a1与目标向量b1在第一匹配数据组和第二匹配数据组中均同时出现一次,则基础向量a1与目标向量b1对应存在的次数为2。
另外,若数据集合a1中存在第一数据和第二数据,且均与数据集合b1中存在的第三数据相匹配,则数据集合a1与数据集合b1包含两个匹配数据组,分别为“第一数据/第三数据”和“第二数据/第三数据”,而基础向量a1与目标向量b1在两个匹配数据组均同时出现一次,则基础向量a1与目标向量b1对应存在的次数为2。
步骤S24、获取各个基础向量在所述数据集合a1中出现的基础向量次数。
在实际操作过程中,执行步骤S23和步骤S24的先后顺序无需限定,还可以同时执行步骤S23和步骤S24,或者,先执行步骤S24,再执行步骤S23。
步骤S25、根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
例如,若基础向量a1与目标向量b1对应存在的次数为2,基础向量a1在数据集合a1中出现的基础向量次数为3,则基础向量a1与目标向量b1的相似度为0.666666667;若基础向量a1与目标向量b2对应存在的次数为3,基础向量a1在数据集合a1中出现的基础向量次数为3,则基础向量a1与目标向量b2的相似度为1。
通过基础向量与目标向量的相似度,能够表征二者之间的匹配关系。例如,与所述基础向量相似度最高的目标向量与所述基础向量相匹配,而与所述基础向量相似度最低的目标向量与所述基础向量不存在匹配关联。
例如,若基础向量a1与目标向量b1的相似度为0.666666667,且基础向量a1与目标向量b2的相似度为1,则与基础向量a1相似度最高的目标向量b2与a1相匹配。
通过步骤S21至步骤S25,能够获取基础向量与目标向量之间的相似度,通过所述相似度表征二者之间的匹配关系,而基础向量为数据集合a1中包含的字符串,目标向量为数据集合b1中包含的字符串,通过基础向量与目标向量的匹配关系,即可确定数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系。
以下以一个实例对步骤S21至步骤S25的操作进行描述。
在该实例中,数据集合a1和数据集合b1如表1所示,其中,表1左侧列中的各条数据构成所述数据集合a1,表1右侧列中的各条数据构成所述数据集合b1,并且,表1中,在同一行的两条数据相互匹配。
表1
1.3 AT 尊贵 1.3T 自动 尊贵型
1.5 MT 标准 1.5T 手动 标准型
1.8 CRT 运动 1.8T 自动 运动型
1.5 AT 运动 1.5T 自动 运动型
1.8 MT 标准 1.8T 手动 标准型
1.3 CRT 标准 1.3T 自动 标准型
1.3 MT 运动 1.3T 手动 运动型
1.8 CRT 尊贵 1.8T 自动 尊贵型
1.5 AT 标准 1.5T 自动 标准型
根据步骤S21至步骤S25,能够获取表2。
表2
基础向量 目标向量 次数 基础向量总次数 在基础向量对应的占比
AT 1.3T 1 3 0.3333
AT 1.5T 2 3 0.666666667
AT 自动 3 3 1
AT 尊贵型 1 3 0.333333333
AT 运动型 1 3 0.333333333
AT 标准型 1 3 0.333333333
MT 1.5 1 3 0.333333333
MT 1.8 1 3 0.333333333
MT 1.3 1 3 0.333333333
MT 手动 3 3 1
MT 标准型 2 3 0.666666667
MT 运动型 1 3 0.333333333
CRT 1.3T 1 3 0.333333333
CRT 1.8T 2 3 0.666666667
CRT 自动 3 3 1
CRT 尊贵型 1 3 0.333333333
CRT 运动型 1 3 0.333333333
CRT 标准型 1 3 0.333333333
其中,字符串“AT”在数据集合a1中出现,则字符串“AT”为基础向量;字符串“1.3T”在数据集合b1中出现,则字符串“1.3T”为目标向量。另外,根据表1可知,数据集合a1中的数据“1.3AT尊贵”与数据集合b1中的数据“1.3T自动尊贵型”相匹配,也就是说,“1.3AT尊贵”和“1.3T自动尊贵型”为一个匹配数据组。表2中,“次数”指的是基础向量与目标向量对应存在的次数,由于基础向量“AT”和目标向量“1.3T”仅在1.3AT尊贵”和“1.3T自动尊贵型”构成的这一个匹配数据组中同时出现一次,则次数为1。而基础向量“AT”在数据集合a1中出现3次,则基础向量次数为3。这种情况下,基础向量“AT”与目标向量“1.3T”的相似度为0.3333,而基础向量“AT”与目标向量“自动”的相似度为1,与基础向量“AT”相似度最高的目标向量为“自动”,则确定“AT”与“自动”相匹配。
并且,根据上述方案可知,字符串“MT”与“手动”相匹配,字符串“CRT”与“自动”相匹配。
进一步的,本申请公开的数据匹配方法中,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括以下步骤:
第一步,对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串。
第二步,根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度。其中,第一数据指的是所述数据集合a2中包含的数据,第二数据指的是数据集合b2中包含的数据。
第三步,确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
本申请中,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
上述公式中,Qi表示第一数据中第i个字符串在所述第一数据中的权重。若各个字符串在数据中的权重相等,则Qi为1/n,其中,n为第一数据所包含的字符串的数量,和所述第二数据所包含的字符串的数量中的最大值。当然,还可以根据实际需求,预先分别为各个字符串设置相应的权重。
另外,n表示维度分割后,第一数据所包含的字符串的数量,和所述第二数据所包含的字符串的数量中的最大值,例如,第一数据包含4个字符串,而第二数据包含三个字符串,则n为4。
其中,第一数据中第i个字符串与所述第二数据中各字符串的相似度可通过步骤S21至步骤S25获取。另外,若数据集合a1和数据集合b1中包含的各个字符串的维度统一,确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,为同一维度的字符串相匹配,这种情况下,可设定所述数据集合a1和数据集合b1中相匹配的字符串的相似度为m,而不匹配的字符串的相似度为n,并且,m大于n,从而根据匹配关系确定Si
相应的,本申请公开一种数据匹配装置。参见图3所示的结构示意图,所述数据匹配装置包括:数据集合获取模块100、维度分割模块200、第一匹配模块300和第二匹配模块400。
其中,所述数据集合获取模块100,用于获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。
其中,所述数据集合a1和数据集合b1中包含多条数据,所述已知匹配关系指的是所述数据集合a1中包含的数据与所述数据集合b1中包含的数据的匹配关系。
所述维度分割模块200,用于对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;
所述第一匹配模块300,用于根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;
所述第二匹配模块400,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
由于所述待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,所述待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型,根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,即可确定所述数据集合a2与所述数据集合b2的匹配关系。
在本申请中,能够通过多种方式,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系。
在其中一种方式中,所述数据集合a1和数据集合b1中包含的各个字符串的维度统一。所述维度统一,指的是相匹配的两条数据包含的字符串数量相等,并且根据已知匹配关系,能够确定在所述相匹配的两条数据中,位于同一维度的字符串相匹配。例如,在数据集合a1中,每条数据的格式为“a1、a2、a3、a4”,在数据集合b1中,每条数据的格式为“b1、b2、b3、b4”,两条数据均包含四个字符串,并且在已知匹配关系中,规定字符串a1与字符串b1相匹配,字符串a2与字符串b2相匹配,字符串a3与字符串b3相匹配,字符串a4与字符串b4相匹配,则认为所述数据集合a1和数据集合b1中包含的各个字符串的维度统一。
这种情况下,所述第一匹配模块300包括:
维度获取单元,用于若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;
第一匹配单元,用于确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。
另外,所述数据集合a1和数据集合b1中包含的各个字符串的维度有时不统一,根据已知匹配关系,确定数据集合a1和数据集合b1中包含的数据相匹配。这种情况下,所述第一匹配模块包括:
基础向量获取单元,用于获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
目标向量获取单元,用于获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
第一次数获取单元,用于获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;
第二次数获取单元,用于获取各个基础向量在所述数据集合a1中出现的基础向量次数;
相似度获取单元,用于根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
进一步的,所述第二匹配模块400包括:
维度分割单元,用于对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;
相似度计算单元,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;
匹配确定单元,用于确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
进一步的,本申请公开的数据匹配装置中,所述相似度计算单元根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
通过本申请公开的方案,能够确定两个待匹配的数据集合之间的匹配关系,与现有技术中采用的表格匹配方法相比,对人工依赖性低,并且,本申请的方法根据待匹配的数据集合中包含的字符串间的关联实现匹配,与现有技术中采用的工具匹配的方法相比,不需要人为设定选择条件和根据选择条件进行比对,因此,相对于现有技术,本申请公开的方法耗时较短,提高了匹配效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据匹配方法,其特征在于,包括:
获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;
对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;
根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;
根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
2.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:
若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;
确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。
3.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:
获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;
获取各个基础向量在所述数据集合a1中出现的基础向量次数;
根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
4.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括:
对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;
根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;
确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
5.根据权利要求4所述的数据匹配方法,其特征在于,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
S = Σ i n Q i S i ;
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
6.一种数据匹配装置,其特征在于,包括:
数据集合获取模块,用于获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;
维度分割模块,用于对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;
第一匹配模块,用于根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;
第二匹配模块,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
7.根据权利要求1所述的数据匹配装置,其特征在于,所述第一匹配模块包括:
维度获取单元,用于若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;
第一匹配单元,用于确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。
8.根据权利要求6所述的数据匹配装置,其特征在于,所述第一匹配模块包括:
基础向量获取单元,用于获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;
目标向量获取单元,用于获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;
第一次数获取单元,用于获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;
第二次数获取单元,用于获取各个基础向量在所述数据集合a1中出现的基础向量次数;
相似度获取单元,用于根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。
9.根据权利要求6所述的数据匹配装置,其特征在于,所述第二匹配模块包括:
维度分割单元,用于对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;
相似度计算单元,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;
匹配确定单元,用于确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。
10.根据权利要求9所述的数据匹配装置,其特征在于,所述相似度计算单元根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:
S = Σ i n Q i S i ;
其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。
CN201511017638.7A 2015-12-29 2015-12-29 一种数据匹配方法及装置 Active CN106934409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511017638.7A CN106934409B (zh) 2015-12-29 2015-12-29 一种数据匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511017638.7A CN106934409B (zh) 2015-12-29 2015-12-29 一种数据匹配方法及装置

Publications (2)

Publication Number Publication Date
CN106934409A true CN106934409A (zh) 2017-07-07
CN106934409B CN106934409B (zh) 2021-04-20

Family

ID=59441387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511017638.7A Active CN106934409B (zh) 2015-12-29 2015-12-29 一种数据匹配方法及装置

Country Status (1)

Country Link
CN (1) CN106934409B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN112232069A (zh) * 2020-10-10 2021-01-15 米奥兰特(浙江)网络科技有限公司 一种基于多模式数据的匹配处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272223A (zh) * 2012-02-28 2015-01-07 谷歌公司 用于将输入文本从第一字符集音译到第二字符集的技术
CN104584021A (zh) * 2014-11-07 2015-04-29 曹庆恒 一种智能选药的方法、系统和设备
CN104598740A (zh) * 2015-01-26 2015-05-06 曹庆恒 一种智能用药指导的方法、系统和设备
CN104796354A (zh) * 2014-11-19 2015-07-22 中国科学院信息工程研究所 一种乱序数据包字符串匹配方法及系统
US20150310014A1 (en) * 2013-04-28 2015-10-29 Verint Systems Ltd. Systems and methods for keyword spotting using adaptive management of multiple pattern matching algorithms
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272223A (zh) * 2012-02-28 2015-01-07 谷歌公司 用于将输入文本从第一字符集音译到第二字符集的技术
US20150310014A1 (en) * 2013-04-28 2015-10-29 Verint Systems Ltd. Systems and methods for keyword spotting using adaptive management of multiple pattern matching algorithms
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN104584021A (zh) * 2014-11-07 2015-04-29 曹庆恒 一种智能选药的方法、系统和设备
CN104796354A (zh) * 2014-11-19 2015-07-22 中国科学院信息工程研究所 一种乱序数据包字符串匹配方法及系统
CN104598740A (zh) * 2015-01-26 2015-05-06 曹庆恒 一种智能用药指导的方法、系统和设备
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANLONG TAN 等: ""Speeding up pattern matching by optimal partial string extraction"", 《2011 IEEE CONFERENCE ON COMPUTER COMMUNICATIONS WORKSHOPS》 *
刘辉平 等: ""一种基于模式的实体解析算法"", 《计算机学报》 *
林学民 等: ""集合和字符串的相似度查询"", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN112232069A (zh) * 2020-10-10 2021-01-15 米奥兰特(浙江)网络科技有限公司 一种基于多模式数据的匹配处理方法及装置

Also Published As

Publication number Publication date
CN106934409B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN104573000B (zh) 基于排序学习的自动问答装置及方法
CN106527757A (zh) 一种输入纠错方法及装置
CN106528821B (zh) 一种变动列数据导入数据库的方法
CN109858476B (zh) 标签的扩充方法和电子设备
CN108763810B (zh) 一种桥梁静载试验荷载加载布置与调整方法
CN110232445B (zh) 一种基于知识蒸馏的文物真伪鉴定方法
CN107506350A (zh) 一种识别信息的方法和设备
CN106598999A (zh) 一种计算文本主题归属度的方法及装置
CN107239468A (zh) 任务节点管理方法及装置
CN105787521A (zh) 一种面向标签不平衡性的半监督众包标注数据整合方法
CN111309945A (zh) 一种无人机巡检图片精确分类方法及系统
CN104375181B (zh) 一种快速生成三维共检波点初至道集的方法
CN106339366A (zh) 基于人工智能的需求识别的方法和装置
CN110334406A (zh) 一种考虑风速特大值的极值风速重现期确定方法和装置
CN107291765A (zh) 基于dc规划处理缺失数据的聚类方法
CN103995873A (zh) 一种数据挖掘方法及数据挖掘系统
CN106934409A (zh) 一种数据匹配方法及装置
CN110837566B (zh) 一种针对cnc机床故障诊断的知识图谱的动态构建方法
CN106649210A (zh) 一种数据转换方法及装置
CN113218537B (zh) 温度异常检测模型的训练方法、装置、设备和存储介质
CN105335459A (zh) 基于xbrl智能报告平台的合并报表数据抽取方法
CN106815346A (zh) 一种分级码多级数据的同步迁移方法
CN106127202A (zh) 一种图片中字符识别的方法以及装置
CN106933829A (zh) 一种信息关联方法和设备
CN104973215A (zh) 一种基于精度数据库的全局动态拟实搭载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170707

Assignee: Beijing May 8th clapping Information Technology Co.,Ltd.

Assignor: YOUXINPAI (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2020990000158

Denomination of invention: Data matching method and device thereof

License type: Common License

Record date: 20200402

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230911

Address after: 230012 In the factory building of Anhui Guogou Energy Co., Ltd., 100 meters east of the intersection of Guanjing Road and Luban Road in Xinzhan District, Hefei City, Anhui Province

Patentee after: Hefei Youquan Information Technology Co.,Ltd.

Address before: 100020 2507, 21 / F, building 10, No. 93, Jianguo Road, Chaoyang District, Beijing

Patentee before: YOUXINPAI (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.