CN103761341B

CN103761341B - 一种信息匹配方法及装置

Info

Publication number: CN103761341B
Application number: CN201410059965.8A
Authority: CN
Inventors: 马龙彪
Original assignee: GOODWILL INFORMATION TECHNOLOGY Co Ltd
Current assignee: GOODWILL INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2017-02-22
Anticipated expiration: 2034-02-21
Also published as: CN103761341A

Abstract

本申请提供了一种信息匹配方法及装置，预先设定匹配所需的至少两个属性项以及每个属性项的权重，方法包括：获取信息表，信息表包括多个属性项；依据属性项对信息表中的信息记录进行分词，得到信息文本；对于每条信息记录，从信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息，基于第一属性信息检索信息文本，确定第一属性信息的相似度，通过第一属性信息的相似度以及对应的属性项的权重确定信息记录的相似度；基于每条信息记录的相似度对信息表中的信息记录进行匹配。本申请提供的信息匹配方法及装置能够对信息表中的信息进行准确的匹配。

Description

一种信息匹配方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息匹配方法及装置。

背景技术

随着信息化技术的不断发展，各个行业开始大量依赖信息系统。在每个行业信息化发展的过程中，通常会伴随有业务的不断变化和系统的不断升级，甚至软件开发商的更换，但是，不论信息系统怎样变化，业务发生的相关信息对每个行业来说都具有重要意义，其是决策支持和前景分析的基础。

信息系统涉及的相关信息通常以信息表的形式存储，例如，人员信息，包括员工信息、客户信息等。当信息表中的信息达到一定规模后，通常会存在大量重复的信息。这是因为，同一个人员发生多次业务后可能产生多条信息记录，例如，同一个人在一家医院就诊了10次，可能会产生10条信息记录。为了便于信息管理，通常会对数据表中的信息记录进行信息匹配。所谓信息匹配，即为对多条信息记录进行相似度计算，合并为一条信息记录的过程。

现有技术中，由于信息系统的变化，导致信息表中记录的信息不完整，并且信息质量较低，例如，医院在患者登记时，很多患者信息都没有登记身份证号，在“家庭电话”中记录“手机号”，“联系人”记录在“备注”中，“地址”记录“不详”或“未知”等。发明人在实现本发明创造的过程中发现：信息表中信息的完整度和信息质量较低导致信息无法准确匹配。

发明内容

有鉴于此，本发明提供了一种信息匹配方法，用以解决现有技术中信息表中信息的完整度和信息质量较低导致信息无法准确匹配的问题，其技术方案如下：

一种信息匹配方法，预先设定匹配所需的至少两个属性项以及每个属性项的权重，所述方法包括：

获取信息表，所述信息表包括多个属性项；

依据所述属性项对所述信息表中的信息记录进行分词，得到信息文本；

对于每条信息记录，从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息，基于所述第一属性信息检索所述信息文本，确定所述第一属性信息的相似度，通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度；

基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。

其中，所述基于所述第一属性信息检索所述信息文本，确定所述第一属性信息的相似度，包括：

基于所述第一属性信息检索所述信息文本，确定所述第一属性信息与所述信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为所述第一属性信息的相似度。

可选的，所述方法还包括：

预先设置别名数据库，所述别名数据库中包括属性信息的别名；

则确定所述第一属性信息与所述信息文本中其它属性信息的相似度，具体为：

结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名，当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时，确定所述第一属性信息的相似度为1。

其中，所述基于每条信息记录的相似度对所述数据表中的信息记录进行匹配包括：

查找所述数据表中的相似信息记录集合，所述相似记录集合中包括至少两条相似信息记录；

将所述相似信息记录集合中，相似度大于第一预设值的信息记录进行匹配。

其中，查找所述数据表中的相似信息记录集合，具体为：

将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息，基于所述第二属性信息在所述信息文本中检索，确定与所述第二属性信息有关的信息记录，并将与所述第二属性信息有关的信息记录确定为相似信息记录。

一种信息匹配装置，预先设定匹配所需的至少两个属性项和与每个属性项对应的权重，所述装置包括：

获取模块，用于获取信息表，所述信息表包括多个属性项；

分词模块，用于依据所述属性项对所述信息表中的信息记录进行分词，得到信息文本；

确定模块，用于对于每条信息记录，从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息，基于所述第一属性信息检索所述信息文本，确定所述第一属性信息的相似度，通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度；

匹配模块，用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。

其中，所述确定模块包括：

确定子模块，用于基于所述第一属性信息检索所述信息文本，确定所述第一属性信息与所述信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为所述第一属性信息的相似度。

则所述确定子模块，具体用于结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名，当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时，确定所述第一属性信息的相似度为1。

其中，所述匹配模块包括：

查找子模块，用于查找所述数据表中的相似信息记录集合，所述相似记录集合中包括至少两条相似信息记录；

匹配子模块，用于将所述相似信息记录集合中，相似度大于第一预设值的信息记录进行匹配。

其中，所述查找子模块，具体用于将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息，基于所述第二属性信息在所述信息文本中检索，确定与所述第二属性信息有关的信息记录，并将与所述第二属性信息有关的信息记录确定为相似信息记录。

上述技术方案具有如下有益效果：

本发明提供的信息匹配方法及装置，将信息表中的信息记录进行分词，可得到信息文本，然后基于与预先设置的属性项对应的属性信息在信息文本中检索，确定与预先设置的属性项对应的属性信息的相似度，通过属性信息的相似度及对应的属性项的权重确定信息记录的相似度，进而基于信息记录的相似度对信息表中的信息记录进行匹配。本发明提供的信息匹配方法及装置，采用分词后的全文检索方法确定属性信息的相似度，而不依赖于属性信息在信息表中的位置，因此，信息能够准确匹配。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种信息匹配方法的流程示意图；

图2为本发明实施例提供的一种信息匹配装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为本发明实施例提供的一种信息匹配方法的流程示意图，预先设定匹配规则，其中，匹配规则包括匹配所需的至少两个属性项以及每个属性项的权重，该方法可以包括：

步骤S101：获取信息表。

其中，信息表包括多个属性项。

示例性的，获取的信息表如表1所示：

表1

表1中包括6个属性项，分别为“姓名”、“性别”、“出生日期”、“身份证号”、“电话”和“地址”。基于表1中示出的信息表，可设置多种匹配规则。示例性的，基于表1设定的一种匹配规则可以为表2，即设定匹配所需要的属性项为“姓名”和“身份证号”，并且，设定属性项“姓名”的权重为0.3，属性项“身份证号”的权重为0.7。示例性的，基于表1设定的另一种匹配规则可以为表3，即，设定匹配所需要的属性项为“姓名”、“性别”、“出生日期”、“电话”和“地址”，并且，设定“姓名”、“性别”、“出生日期”、“电话”和“地址”的权重均为0.2。

表2

属性项	属性项的权重
		姓名	0.3
身份证号	0.7

表3

字段名称	比较权重
		姓名	0.2
性别	0.2
		出生日期	0.2
电话	0.2
		地址	0.2

步骤S102：依据属性项对获取的信息表中的信息记录进行分词，得到信息文本。

以表1为例，依据属性项对信息表中的信息记录进行分词，得到信息文本，具体为：

张三|不详|无|101203197211091403|北京市海淀区

张三|男|1982-11-02|101203197211091402|67532212|北京市海淀区

张山|男|1982-11-02|010-67532212|北京海淀

步骤S103：对于每条信息记录，从信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息，基于第一属性信息检索信息文本，确定第一属性信息的相似度，通过第一属性信息的相似度以及对应的属性项的权重确定信息记录的相似度。

其中，基于第一属性信息检索信息文本，确定第一属性信息的相似度，具体为：基于第一属性信息检索信息文本，确定第一属性信息与信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为第一属性信息的相似度。

以表1中的第一条信息记录为例：假设预先设定的匹配所需要的属性项为“姓名”和“身份证号”，那么基于与属性项“姓名”对应的第一属性信息“张三”在上述得到的信息文本中检索，确定第一属性信息“张三”与信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为第一属性信息“张三”的相似度。同样的，基于与属性项“身份证号”对应的第一属性信息“无”在上述得到的信息文本中检索，确定第一属性信息“无”与信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为第一属性信息“无”的相似度。对于表1中的第二条信息记录和第三条信息记录进行与第一条信息记录同样的处理，得到与匹配所需要的属性项对应的属性信息的相似度。

表4示出了与属性项“姓名”和“身份证号”对应的属性信息的相似度，以及通过与属性项“姓名”和“身份证号”对应的属性信息的相似度确定的每条信息记录的相似度：

表4

序号	姓名	身份证	人员相似度
				1	1	1	10.3+10.7=1
2	1	0.9	10.3+0.90.7=0.96
				3	0.6	0	0.60.3+00.7=0.18

表5示出了与属性项“姓名”、“性别”、“出生日期”、“电话”和“地址”对应的属性信息的相似度，以及通过属性信息的相似度确定的每条信息记录的相似度：

表5

步骤S104：基于每条信息记录的相似度对信息表中的信息记录进行匹配。

在本实施例中，基于每条信息记录的相似度对信息表中的信息记录进行匹配，具体为：查找数据表中的相似信息记录集合，其中，相似记录集合中包括至少两条相似信息记录；将相似信息记录集合中，相似度大于第一预设值的信息记录进行匹配。而对于小于等于第一预设值的信息记录可直接过滤掉，不作任何处理。

需要说明的是，除了上述的匹配方式外，在另一种可能的实现方式中，除了设置第一预设值外，还可设置第二预设值，使第二预设值小于第一预设值，在进行信息记录的匹配时，将相似信息记录集合中的信息记录分成三部分进行处理：对于大于第一预设值的信息记录，可直接进行匹配，对于大于第二预设值小于等于第一预设值的信息记录，可通过人工或其它辅助信息进一步确认是否与大于第一预设值的信息记录进行匹配，而对于小于第二预设值的信息记录可直接过滤掉，不作任何处理。

以表4为例：假设相似信息记录集合包括表1中的三条信息记录，第一预设值为0.95，由于表1中第一条信息记录的相似度为1，第二条信息记录的相似度为0.96，第一条信息记录和第二条信息记录的相似度均大于0.95，因此，将第一条信息记录和第二条信息记录进行匹配。

需要说明的是，信息表中的信息通常较多，例如，信息表中不只有“张三”的信息，还可能会有“李四”等等多个人的信息，如表6所示：

表6

在进行匹配时，通常需要先找到相似信息记录集合，例如，所有“张三”的信息记录和可能为“张三”的信息记录组成信息记录集合，所有“李四”的信息记录和可能为“李四”的信息记录组成信息记录集合。查找的依据可以为信息记录中的至少一个属性信息，例如通过属性信息“张三”在信息文本中检索，确定与“张三”有关信息记录，将与“张三”有关的所有信息记录确定为相似信息记录集合，同样的，可通过“李四”在信息文本中检索，确定与“李四”有关信息记录，将与“李四”有关的所有信息记录确定为相似信息记录集合。

即，上述步骤中，查找数据表中的相似信息记录集合具体为：将与信息表中的至少一个属性项对应的属性信息作为第二属性信息，基于第二属性信息在信息文本中检索，确定与第二属性信息有关的信息记录，并将与第二属性信息有关的信息记录确定为相似信息记录。

需要说明的是，和第二属性信息有关的信息记录可能包括两种情况，一种可能的情况为，信息记录中包括与第二属性信息相同的属性信息，另一种可能的情况为，信息记录中包括与第二属性信息的相似度大于预设值的属性信息。

另外，需要说明的是，进行信息匹配时，可设置多个匹配规则，依据通过多个匹配规则计算出的相似度对信息表中的信息记录进行匹配。

本发明实施例提供的信息匹配方法，将信息表中的信息记录进行分词，可得到信息文本，然后基于与预先设置的属性项对应的属性信息在信息文本中检索，确定与预先设置的属性项对应的属性信息的相似度，通过属性信息的相似度及对应的属性项的权重确定信息记录的相似度，进而基于信息记录的相似度对信息表中的信息记录进行匹配。本发明实施例提供的信息匹配方法，采用分词后的全文检索方法确定属性信息的相似度，而不依赖于属性信息在信息表中的位置，因此，提高了信息匹配的准确度。

需要说明的是，在确定属性信息的相似度时，经常由于各种原因导致信息不完整或同一个意思的多种表述方法，这会影响相似度的计算。本发明实施例针对这种情况，维护一个别名数据库，该别名数据库录入有地址、电话区号等信息，别名数据库中的信息如表7所示：

表7

名称	类型	别名1	别名2	别名3
					山西省	区划	山西	晋	老西
医生	职业	医师	大夫	郎中
					街道	地址	弄	街	路

在进行第一属性信息的相似度计算时，结合别名数据库计算第一属性信息与信息文本中其它属性信息的相似度，具体的，如果其它信息记录中的属性信息中包括第一属性信息的别名，则确定第一属性信息的相似度为1。

另外，在计算相似度时，由于地方口音或手误引起的拼写错误，一般为相同或相似读音的字，针对这种情况，在计算相似度时，可增加拼音的模糊匹配，适当提高相似度。

与上述方法相对应，本发明实施例还提供了一种信息匹配装置，预先设定匹配所需的至少两个属性项和与每个属性项对应的权重，图2示出了该装置的结构示意图，可以包括：获取模块201、分词模块202、确定模块203和匹配模块204。其中：

获取模块201，用于获取信息表。

其中，信息表包括多个属性项。

分词模块202，用于依据属性项对信息表中的信息记录进行分词，得到信息文本。

确定模块203，用于对于每条信息记录，从信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息，基于第一属性信息检索信息文本，确定第一属性信息的相似度，通过第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度。

匹配模块204，用于基于每条信息记录的相似度对信息表中的信息记录进行匹配。

本发明实施例提供的信息匹配装置，将信息表中的信息记录进行分词，可得到信息文本，然后基于与预先设置的属性项对应的属性信息在信息文本中检索，确定与预先设置的属性项对应的属性信息的相似度，通过属性信息的相似度及对应的属性项的权重确定信息记录的相似度，进而基于信息记录的相似度对信息表中的信息记录进行匹配。本发明实施例提供的信息匹配装置，采用分词后的全文检索方法确定属性信息的相似度，而不依赖于属性信息在信息表中的位置，因此，提高了信息匹配的准确度。

在上述实施例中，确定模块203可以包括确定子模块。

确定子模块，用于基于第一属性信息检索信息文本，确定第一属性信息与信息文本中其它属性信息的相似度，将计算得到的最大相似度确定为第一属性信息的相似度。

在上述实施例中，还可预先设置别名数据库，该别名数据库中包括属性信息的别名。则，确定子模块，具体用于结合别名数据库确定信息文本中的其它属性信息中是否存在第一属性信息的别名，当信息文本中的其它属性信息中存在第一属性信息的别名时，确定第一属性信息的相似度为1。

在上述实施例中，匹配模块204包括：查找子模块和匹配子模块。其中：

查找子模块，用于查找数据表中的相似信息记录集合，相似记录集合中包括至少两条相似信息记录；

匹配子模块，用于将相似信息记录集合中，相似度大于第一预设值的信息记录进行匹配。

进一步的，查找子模块，具体用于将与信息表中的至少一个属性项对应的属性信息作为第二属性信息，基于第二属性信息在信息文本中检索，确定与第二属性信息有关的信息记录，并将与第二属性信息有关的信息记录确定为相似信息记录。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信息匹配方法，其特征在于，预先设定匹配所需的至少两个属性项以及每个属性项的权重，所述方法包括：

获取信息表，所述信息表包括多个属性项；

基于每条信息记录的相似度对所述信息表中的信息记录进行匹配；

所述基于所述第一属性信息检索所述信息文本，确定所述第一属性信息的相似度，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于每条信息记录的相似度对所述信息表中的信息记录进行匹配包括：

查找所述信息表中的相似信息记录集合，所述相似记录集合中包括至少两条相似信息记录；

4.根据权利要求3所述的方法，其特征在于，查找所述信息表中的相似信息记录集合，具体为：

5.一种信息匹配装置，其特征在于，预先设定匹配所需的至少两个属性项和与每个属性项对应的权重，所述装置包括：

获取模块，用于获取信息表，所述信息表包括多个属性项；

匹配模块，用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配；

所述确定模块包括：

6.根据权利要求5所述的装置，其特征在于，预先设置别名数据库，所述别名数据库中包括属性信息的别名；

所述确定子模块，具体用于结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名，当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时，确定所述第一属性信息的相似度为1。

7.根据权利要求5或6所述的装置，其特征在于，所述匹配模块包括：

查找子模块，用于查找所述信息表中的相似信息记录集合，所述相似记录集合中包括至少两条相似信息记录；

8.根据权利要求7所述的装置，其特征在于，所述查找子模块，具体用于将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息，基于所述第二属性信息在所述信息文本中检索，确定与所述第二属性信息有关的信息记录，并将与所述第二属性信息有关的信息记录确定为相似信息记录。