CN106408316A

CN106408316A - 用于识别客户的方法及装置

Info

Publication number: CN106408316A
Application number: CN201611042571.7A
Authority: CN
Inventors: 关鹏; 王莹
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-02-15

Abstract

本申请公开一种用于识别客户的方法及装置。用于识别客户的方法，包括：将客户数据按照预定的分组类型处理，得到第一分组数据，所述第一分组数据包括至少一条第一组类数据；将所述第一组类数据分别进行对应处理，得到第二分组数据，所述第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据；以及将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分。本申请公开的用于识别客户的方法及装置，可以提高客户检索效率，降低系统资源消耗，提高客户匹配精度。

Description

用于识别客户的方法及装置

技术领域

本发明涉及数据信息处理领域，具体而言，涉及一种用于识别客户的方法及装置。

背景技术

随着信息化时代的到来，绝大多数服务类企业都采用了客户管理系统来对客户信息进行信息化的管理。对于业务数量多，客户涉及面广的客户管理系统而言，在对客户进行管理时，经常需要整合各个业务线上的大量客户信息，力图呈现客户全面完整的信息视图。在进行客户信息管理与整理时，如何判断两条客户信息是否为同一人，是客户管理系统的一项核心功能。

以保险系统为例，当一条新的客户信息进入系统时，客户识别流程如图1所示。首先获取“姓名、性别、生日、证件类型、证件号码”五项关键信息，将关键信息与系统中全部存量客户进行匹配，根据匹配结果判断是否存在相同客户，并做后续处理。在现有技术中，在与系统内客户匹配的时候，会分别对比客户每项关键信息相同或者不同，根据匹配信息项的情况做相似度评分。客户各项关键信息完全相同时，认为两客户为同一个人，系统自动合并两客户；客户各项关键信息不完全相同时，需人工逐一核对各项信息，再做其他处理。在现有技术中，进行客户匹配识别时，新加入的客户信息需要和数据库内所有已有的所有的客户信息做对比，服务器资源消耗巨大。而且，对于客户的关键信息，每类信息项比对的结果只有“相同”和“不同”两种，不能对信息比较中相同或者不同的程度做出判断。

因此，需要一种新的用于识别客户的方法及装置。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种用于识别客户的方法及装置，能够提高客户检索效率，降低系统资源消耗，提高客户匹配精度。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种用于识别客户的方法，其特征在于，包括：

将客户数据按照预定的分组类型处理，得到第一分组数据，第一分组数据包括至少一条第一组类数据；

将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据；以及

将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分。

在本公开的一种示例性实施例中，数据库中不同客户为客户数据的第一组类数据至少有一条彼此相同的客户或客户数据的第二组类数据至少有一条彼此相同的客户。

在本公开的一种示例性实施例中，分组类型，包括：姓名组、姓名拼音组、身份证号组、以及姓名生日组。

在本公开的一种示例性实施例中，将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据，包括：

将第一组类数据按照分组类型进行编制，得到编制数据；以及

将编制数据进行哈希处理得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据。

在本公开的一种示例性实施例中，将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分，包括：

获取第二分组数据中的信息与数据库中不同客户的客户数据中的信息；

按照预定类别，对第二分组数据中的信息与客户数据中的信息进行匹配度评分；以及

将多个匹配度评分相加得到综合匹配度评分。

判断第二分组数据的第二组类数据与数据库中已有客户的客户数据是否至少有一条彼此相同；以及

如果第二分组数据的第二组类数据与数据库中已有客户的客户数据均不相同，则将第二分组数据添加进数据库中。

在本公开的一种示例性实施例中，预定类别，包括：姓名、姓名拼音、性别、生日、身份证号码、以及手机号码。

在本公开的一种示例性实施例中，将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分，包括以下情况中至少一种：

基于出现频率评分；以及

基于差异程度评分。

在本公开的一种示例性实施例中，还包括：

综合匹配度评分高于第一阈值时，将第二分组数据与目标数据进行合并处理。

在本公开的一种示例性实施例中，还包括：

综合匹配度评分低于第二阈值时，将第二分组数据添加进数据库中。

在本公开的一种示例性实施例中，还包括：

将客户数据进行标准化处理。

在本公开的一种示例性实施例中，包括：

分组模块，用于将客户数据按照预定的分组类型处理，得到第一分组数据，第一分组数据包括至少一条第一组类数据；

数据处理模块，用于将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据；以及

评分模块，用于将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分。

根据本发明的一方面，提供一种用于识别客户的装置，能够提高客户检索效率，降低系统资源消耗，提高客户匹配精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性来动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中客户识别流程图。

图2是根据一示例性实施例示出的一种用于识别客户的方法的流程图。

图3是根据另一示例性实施例示出的一种用于识别客户的方法的流程图。

图4是根据一示例性实施例示出的一种用于识别客户的装置的框图。

具体实施例

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图2所示，在S202中，将客户数据按照预定的分组类型处理，得到第一分组数据，第一分组数据包括至少一条第一组类数据。

按照客户数据中包含的信息项制定分组类型，可例如：“姓名组”、“姓名拼音组”、“身份证号组”、“姓名+生日组”等。本发明不以此为限。可例如，接收到一个姓名为“张三”、身份证号为“11010219800612710”的客户的数据。可例如，将此客户的数据处理分为四组，第一分组数组可例如包括四组第一组类数据，第一组类数据分别为：

姓名组：“张三”；

姓名拼音组：“zhangsan”；

身份证号组：“11010219800612710”；

姓名+生日组：“张三+19860601”。

在S204中，将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据。

将上文所述的四组第一组类数据，分别按照不同组类别相应的特点，进行处理，可例如，进行编制处理，按照不同组相应的特点，制定不同的编制规则，对数据进行处理，可例如：

姓名组，信息不变，处理为：“张三”→“张三”；

姓名拼音组，将姓名中文转换为大写拼音字母，处理为：“zhangsan”→“ZHANGSAN”；

身份证号组，按数字从小到大排序，处理为：“11010219800612710”→“000000111111226789”；

姓名+生日组，按照YYYYMMDD+姓名排列，处理为：“张三19860601”→“19800601+张三”。

还可例如，将以上编制后的数据做哈希处理，以便将以上编制后的数据处理成为规范的数值型数据，处理之后的数值型数据为第二组数据，如上文的示例，本发明实施例中，可包括四组第二组类数据，对于同一个客户来讲，一个客户的第二组类数据有四个，分别是哈希处理之后的姓名数据、哈希处理之后的姓名拼音数据、哈希处理之后的身份证号数据以及哈希处理之后的姓名生日数据。

在S206中，将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分。

以上文中客户“张三”为例，将希处理之后的姓名数据、哈希处理之后的姓名拼音数据、哈希处理之后的身份证号数据以及哈希处理之后的姓名生日数据，可例如，分别于数据库中不同的客户数据进行比较，寻找哈希值相同的分组数据。可例如，在姓名数据库中，获得100个同样名为“张三”的客户数据；在姓名拼音组中，获得120个同样为“ZHANGSAN”的客户数据；在身份证号组中，获得60个身份证号数据排列为“000000111111226789”的客户数据；在姓名生日组，获得0个“19800601+张三”的客户数据。获取到的“100+120+60”个客户数据可作为目标数据。

以上文中客户“张三”为例，利用客户的信息，将客户张三的数据，与上文中获取的“100+120+60”个客户数据进行比对，并对比对结果进行综合匹配度得分的评分。

本发明实施例的用于识别客户的方法，通过将客户的信息进行分组，找寻分组数据相同的客户，再进行具体的匹配度评分的方法，这样客户只在组内进行比较，与原来要和全部存量客户比较相比，大大降低了检索范围。能够提高客户检索效率，降低系统资源消耗。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

在本公开的一种示例性实施例中，数据库中不同客户为客户数据的第一组类数据至少有一条彼此相同的客户或客户数据的第二组类数据至少有一条彼此相同的客户。如果数据库中某客户的客户数据中，第一组类数据与第二组类数据与带比较的客户数据至少有一组相同，才进行客户数据的比较。

在本公开的一种示例性实施例中，将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据，包括：将第一组类数据按照分组类型进行编制，得到编制数据；以及将编制数据进行哈希处理得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据。

如上文所述，将第一分组数据进行编制处理，按照不同组相应的特点，制定不同的编制规则，对数据进行处理。将以上编制后的数据做哈希处理，以便将以上编制后的数据处理成为规范的数值型数据，处理之后的数值型数据为第二组数据。

在本公开的一种示例性实施例中，将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分，包括：判断第二分组数据的第二组类数据与数据库中已有客户的客户数据是否至少有一条彼此相同；以及如果第二分组数据的第二组类数据与数据库中已有客户的客户数据均不相同，则将第二分组数据添加进数据库中。

以上文中客户“张三”为例，将哈希处理之后的姓名数据、哈希处理之后的姓名拼音数据、哈希处理之后的身份证号数据以及哈希处理之后的姓名生日数据，分别于数据库中对应的分组数据进行比较，寻找哈希值相同的分组数据。如果找到了哈希值相同的数据，则进行后续的综合匹配度比较评分，如果未找到任何一个与“张三”的各种分组数据相同的数据，则将“张三”的各项分组数据，作为新数据加入到数据库中。

如图3所述，在S302中，获取第二分组数据中的信息与数据库中不同客户的客户数据中的信息。

以上文中客户“张三”为例，获取客户张三的数据，获取上文中提到的已经查找的“100+120+60”个客户数据。

在S304中，按照预定类别，对第二分组数据中的信息与客户数据中的信息进行匹配度评分。

如上文所述的客户数据，按照预定类别进行比对，并对比对结果进行综合匹配度得分的评分。预定类别，可包括：姓名；姓名拼音；性别；生日；身份证号码；以及手机号码。

在S306中，将多个匹配度评分相加得到综合匹配度评分。

每个预定类别匹配度评分之后都有得到一个评分数值，在预定类别一一评分之后，将多个评分相加，得到综合匹配度评分之。可例如，下表所示的评分形式：

表1：

表2：

	客户A	客户B	匹配结果	得分
					姓名	依马尔达尼.买买提	依马尔达尼.买买提	相同	7.0
姓名拼音	YIMAERDANIMAIMAITI	YIMAERDANIMAIMAITI	-	-
					性别	男	男	相同	0.3
生日	1975-3-12	1982-2-1	不同	0.0
					身份证号	210102197503112763	210303198202012635	不同	-3.0
手机号码	13701029367	13521587762	不同	0.0
								总分	4.3

本发明实施例的用于识别客户的方法，通过将分组之后的客户的各项信息分别进行匹配度评分，找寻分数数据相同的客户，再进行具体的匹配度评分的方法，能够更加有效的发现潜在的相同客户，提高客户匹配的精准度。

在本公开的一种示例性实施例中，通过第二分组数据中的信息与目标数据中的信息，进行匹配度评分，包括以下情况中至少一种：基于出现频率评分；以及基于差异程度评分。

基于出现频率的评分。可例如，高频率出现的值评分低(如：李明)，低频率出现的值评分高(如：爱新觉罗)。假设姓名出现频率为P，评分结果为R，可用如下公式计算：R＝log10(1/P)。

基于差异程度的评分。可例如，完全相同的两个值具有最高的评分，每修改一次差异降低一个分值。如：110102198006012718和110102198006012710的差异为1。

在本公开的一种示例性实施例中，上述方法还包括：综合匹配度评分高于第一阈值时，将第二分组数据与目标数据进行合并处理。在本公开的一种示例性实施例中，上述方法还包括：综合匹配度评分低于第二阈值时，将第二分组数据添加进数据库中。

通过上述过程，最终得到两个客户匹配程度的评分。可例如，设置两个阈值，第一阈值可例如为高阈值，第二阈值可例如为低阈值，评分高于高阈值的，可以认为是同一客户，进行合并处理；评分低于低阈值的，是两个独立无关的客户，将此客户作为新客户，将入到数据库中。还可例如，评分介于高低阈值之间的，由人工审核处理。本发明不以此为限。

以上文中表1表2为例，可例如，第一阈值(高阈值)设置为12，第二阈值(低阈值)设置为7。本发明不以此为限。表1中，两客户相似度评分为16.8，大于高阈值12，将客户信息与数据库中，已存在的“关朋”的相应数据做合并处理。表2中，虽因客户姓名相同且少见出现较高评分项，但其他信息存在较大差异，因此总评分为4.3，小于低阈值7，将此客户作为新客户处理。

在本公开的一种示例性实施例中，上述方法还包括：将客户数据进行标准化处理。

在进行各项数据处理之前，可将客户数据进行标准化处理，用于简化、规范数据格式，为后面的数据比较做好基础。如：去除姓名中的空格、证件号码中的字母转大写等。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图4是根据一示例性实施例示出的一种用于识别客户的装置的框图。如图所示，用于识别客户的装置包括：分组模块402，数据处理模块404，评分模块406。

其中，分组模块402用于将客户数据按照预定的分组类型处理，得到第一分组数据，第一分组数据包括至少一条第一组类数据。

数据处理模块404用于将第一组类数据分别进行对应处理，得到第二分组数据，第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据。

评分模块406用于将数据库中不同客户的客户数据与第二分组数据进行比对，获取综合匹配度评分。

根据本实施例的一种用于识别客户的装置，能够提高客户检索效率，降低系统资源消耗，提高客户匹配精度。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

通过以上的详细描述，本领域的技术人员易于理解，根据本发明实施例的用于识别客户的装置具有以下优点中的一个或多个。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如「上」、「第一」、「第二」及「一」等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本发明可实施的范畴。

Claims

1.一种用于识别客户的方法，其特征在于，包括：

将客户数据按照预定的分组类型处理，得到第一分组数据，所述第一分组数据包括至少一条第一组类数据；

将所述第一组类数据分别进行对应处理，得到第二分组数据，所述第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据；以及

将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分。

2.如权利要求1所述的方法，其特征在于，所述数据库中不同客户为客户数据的第一组类数据至少有一条彼此相同的客户或客户数据的第二组类数据至少有一条彼此相同的客户。

3.如权利要求1所述的方法，其特征在于，所述分组类型，包括：姓名组、姓名拼音组、身份证号组、以及姓名生日组。

4.如权利要求1所述的方法，其特征在于，将所述第一组类数据分别进行对应处理，得到第二分组数据，所述第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据，包括：

将所述第一组类数据按照所述分组类型进行编制，得到编制数据；以及

将所述编制数据进行哈希处理得到第二分组数据，所述第二分组数据包括与所述第一分组数据的所述第一组类数据对应的所述第二组类数据。

5.如权利要求1所述的方法，其特征在于，将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分，包括：

获取所述第二分组数据中的信息与所述数据库中不同客户的客户数据中的信息；

按照预定类别，对第二分组数据中的信息与所述客户数据中的信息进行匹配度评分；以及

将多个所述匹配度评分相加得到所述综合匹配度评分。

6.如权利要求1所述的方法，其特征在于，将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分，包括：

判断所述第二分组数据的所述第二组类数据与所述数据库中已有客户的客户数据是否至少有一条彼此相同；以及

如果所述第二分组数据的所述第二组类数据与所述数据库中已有客户的客户数据均不相同，则将所述第二分组数据添加进数据库中。

7.如权利要求5所述的方法，其特征在于，预定类别，包括：姓名、姓名拼音、性别、生日、身份证号码、以及手机号码。

8.如权利要求1所述的方法，其特征在于，将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分，包括以下情况中至少一种：

基于出现频率评分；以及

基于差异程度评分。

9.如权利要求1所述的方法，其特征在于，还包括：

所述综合匹配度评分高于第一阈值时，将所述第二分组数据与所述目标数据进行合并处理。

10.如权利要求1所述的方法，其特征在于，还包括：

所述综合匹配度评分低于第二阈值时，将所述第二分组数据添加进数据库中。

11.如权利要求1所述的方法，其特征在于，还包括：

将所述客户数据进行标准化处理。

12.一种用于识别客户的装置，其特征在于，包括：

分组模块，用于将客户数据按照预定的分组类型处理，得到第一分组数据，所述第一分组数据包括至少一条第一组类数据；

数据处理模块，用于将所述第一组类数据分别进行对应处理，得到第二分组数据，所述第二分组数据包括与第一分组数据的第一组类数据对应的第二组类数据；以及

评分模块，用于将所述数据库中不同客户的客户数据与所述第二分组数据进行比对，获取综合匹配度评分。