CN108090185A

CN108090185A - 一种客户信息查重方法

Info

Publication number: CN108090185A
Application number: CN201711356799.8A
Authority: CN
Inventors: 张毅; 王章龙; 张松
Original assignee: Hebei Hui Day Information Technology Co Ltd
Current assignee: Hebei Hui Day Information Technology Co Ltd
Priority date: 2017-12-16
Filing date: 2017-12-16
Publication date: 2018-05-29

Abstract

本发明属于信息查重技术领域，提出了一种客户信息查重方法，包括以下步骤：从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包，并映射第i+1条目标企业数据包的代码存储至此目标企业数据包，将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作，如果查重结果为重复，将此企业数据从待查重企业数据中删除，返回步骤S3，如果查重结果为不重复，第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除；本发明解决了现有技术中心企业信息查重负责不方便的问题。

Description

一种客户信息查重方法

技术领域

本发明属于信息查重技术领域，涉及一种客户信息查重方法。

背景技术

在实际生产生活中，整理客户的企业数据对企业做定向营销时发现，样本数据中存在大量重复的企业数据。为在营销中降低营销用户企业反感，通过降低营销数据重复率，从而更精确的定位营销范围的投放，提高企业中文数据的精确性。在成千上万的数据中，若使用人力查找重复数据是一件非常困难的事情。现有方案一般有以下几种：

1、使用EXCEL的普通筛选查找实现的查重功能，去除完全相同的企业名称重复数据。

2、使用SQL等数据库工具，去除完全相同的企业名称重复数据。

3、使用查重工具，去除完全相同的企业名称重复数据

4、使用现有的分词工具，拆分后，使用以上三种方法的字段组合方式去除企业名称的重复数据。

这些方案具有以下缺点：

1、需要操作人员掌握EXCEL、SQL、查重、分词等工具，对基础操作人员的技能要求高。

2、要求操作人员懂得一定的查重方法，组合各个方法做查重。

3、中间流程多，操作复杂。

4、查重结果的重复率高，完全重复的数据可以去除，近似重复的不能查到。

5、耗费资源多，若数据量大需要多人协作、重复确认，容易出错。

发明内容

本发明提出一种客户信息查重方法，解决了现有技术中的上述问题。

本发明的技术方案是这样实现的：

一种客户信息查重方法，包括以下步骤：

S1：从待查重企业数据中选取一企业数据建立第i条目标企业数据包，并映射第i条目标企业数据包的代码存储至此目标企业数据包，

S2：第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除，

S3：从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包，并映射第i+1条目标企业数据包的代码存储至此目标企业数据包，

S4：将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作，如果查重结果为重复，将此企业数据从待查重企业数据中删除，返回步骤S3，如果查重结果为不重复，第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除；

S5：重复步骤S3～S4，且i依次递增，其中i为自然数；

其中，建立目标企业数据包具体包括以下步骤：

S31：将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机，一同组成一条目标企业数据包储存于文档中，

S32：规范目标企业名称，规范目标企业名称的输入方式统一清洗为半角中文，同时将目标企业名称中的阿拉伯数字统一为汉字数字；

S33：目标企业名称分词处理，从目标企业数据包中选取目标企业名称进行分词处理，得到目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式，并将目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式增加至目标企业数据包；

其中，S4中查重规则设定具体为，对比目标企业数据包与已核查企业数据库中一企业的企业名称规则a1，对比目标企业数据包与已核查企业数据库中一企业的目标企业字号规则a2，对比目标企业数据包与已核查企业数据库中一企业的目标企业区域规则a3，对比目标企业数据包与已核查企业数据库中一企业的目标企业经营范围规则a4，对比目标企业数据包与已核查企业数据库中一企业的目标企业组织形式规则a5，对比目标企业数据包与已核查企业数据库中一企业的关联手机号规则a6，对比目标企业数据包与已核查企业数据库中一企业的企业地址规则a7，对比目标企业数据包与已核查企业数据库中一企业的关联电子邮箱规则a8，对比目标企业数据包与已核查企业数据库中一企业的企业邮政编码规则a9，对比目标企业数据包与已核查企业数据库中一企业的关联座机规则a10。

作为进一步的技术方案，S4中查重规则选取为a2且a3。

作为进一步的技术方案，S4中查重规则选取为a2且a3且a4。

作为进一步的技术方案，S4中查重结果为重复或者不重复由查重量M的数值决定，

M≥r，查重结果为重复，

M＜r，查重结果为不重复，r为预设常数。

作为进一步的技术方案，M＝M1+M2+M3+M4+M5+M6+M7+M8，

M1为目标企业字号相似度分值，

M2为目标企业区域相似度分值

M3为目标企业经营范围相似度分值，

M4为目标企业组织形式相似度分值，

M5为目标企业关联手机号相似度分值，

M6为目标企业关联电子邮箱相似度分值，

M7为目标企业邮政编码相似度分值，

M8为目标企业关联座机相似度分值。

作为进一步的技术方案，目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对，若字符完全相同，M1＝1，若有x1个字符不同M1＝1-0.1*x1，若字符完全不同或不参与查重，M1＝0，

目标企业数据包的区域与已核查企业数据库中一企业的区域相比对，若字符完全相同，M2＝1，若有x2个字符不同M2＝1-0.2*x2，若字符完全不同或不参与查重M2＝0，

目标企业数据包的经营范围与已核查企业数据库中一企业的经营范围相比对，若字符完全相同，M3＝1，若有x3个字符不同M3＝1-0.2*x3，若字符完全不同或不参与查重M3＝0，

目标企业数据包的组织形式与已核查企业数据库中一企业的组织形式相比对，若字符完全相同，M4＝1，若有x4个字符不同M4＝1-0.2*x4，若字符完全不同或不参与查重M4＝0，

目标企业数据包的关联手机号与已核查企业数据库中一企业的关联手机号相比对，若字符完全相同，M5＝1，若有x5个字符不同M5＝1-0.08*x5，若字符完全不同或不参与查重M5＝0，

目标企业数据包的关联电子邮箱与已核查企业数据库中一企业的关联电子邮箱相比对，若字符完全相同，M6＝1，若有x6个字符不同M6＝1-0.05*x6，若字符完全不同或不参与查重M6＝0，

目标企业数据包的邮政编码与已核查企业数据库中一企业的邮政编码相比对，若字符完全相同，M7＝1，若有x7个字符不同M7＝1-0.16*x7，若字符完全不同或不参与查重M7＝0，

目标企业数据包的关联座机与已核查企业数据库中一企业的关联座机相比对，若字符完全相同，M8＝1，若有x8个字符不同M8＝1-0.08*x8，若字符完全不同或不参与查重M8＝0。

本发明使用原理及有益效果为：

1、节省时间，经试验，10万条企业名称数据在1小时左右就可以完成查重。

2、操作简单，中间环节少，4～5个步骤就可以完成操作。

3、对操作人员的技能要求低，配置完成的查重规则使操作人员只需要按照步骤操作就可以得到最终的结果。

4、查重结果重复率低，查重率可以达到90％。

5、解决方案配置方便，根据实际生产场景需要配置不通的查重规则，满足各种用户的特殊需求

6、节省成本，一个人操作就可以完成企业名称的查重操作。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的一种客户信息查重方法，包括以下步骤：

S5：重复步骤S3～S4，且i依次递增，其中i为自然数；

其中，建立目标企业数据包具体包括以下步骤：

进一步，S4中查重规则选取为a2且a3。

进一步，S4中查重规则选取为a2且a3且a4。

进一步，S4中查重结果为重复或者不重复由查重量M的数值决定，

M≥r，查重结果为重复，

M＜r，查重结果为不重复，r为预设常数。

进一步，M＝M1+M2+M3+M4+M5+M6+M7+M8，

M1为目标企业字号相似度分值，

M2为目标企业区域相似度分值

M3为目标企业经营范围相似度分值，

M4为目标企业组织形式相似度分值，

M5为目标企业关联手机号相似度分值，

M6为目标企业关联电子邮箱相似度分值，

M7为目标企业邮政编码相似度分值，

M8为目标企业关联座机相似度分值。

进一步，目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对，若字符完全相同，M1＝1，若有x1个字符不同M1＝1-0.1*x1，若字符完全不同或不参与查重，M1＝0，

本系统针对中文企业名称做分词，将中文企业名称精准的拆分为字号、省份、城市、经营范围、组织形式等。可自由组合中文企业名称拆分的各字段、手机、联系人及邮箱字段，设置查重规则，从而达到精准查重的目的，方便不同需求客户自由选择，便于进一步的查重分析、数据挖掘、营销管理。

本发明实施例可以通过EXCEL实现，系统可以设置5个部分，登录程序、导入EXCEL数据、自动查重、手动查重、导出数据。

1、登录程序：授权用户登录。

2、导入EXCEL数据：导入待查重数据。既可以开发出单表导入查重，也可以开发出多表导入对比查重，这些均是本领域技术人员能够实现的。

3、自动查重：使用默认查重规则(a2且a3，a2且a3且a4)，调用本发明算法查重。

4、手动查重：加载用户自定义规则，调用本发明算法查重。

5、导出数据：导出去重后数据到EXCEL中，方便用户使用。

对中文企业名称列做以下操作：

1、清洗规范企业名称。

1>全角转半角。企业名称录入到EXCEL中的环节多，每个操作员的操作习惯或者系统现在不相同，会导致有全角、半角的数据。统一清洗为半角中文。

2>阿拉伯数字转汉字。由于实际场景千差万别，企业名称中的103厂、一零三厂等阿拉伯数字和中文数字代表同一种含义，统一转换为中文数字。

2、对企业名称做分词操作。分为字号、国家、省份、城市、区县、经营范围、组织形式、政府机构等。

根据以下规则对企业名称做分词：

字号：代表企业、公司名称等。没有规律，把其他类型排除后就只字号。积累了特殊的公司名称。

国家：跨国企业会包含国家名称。一般存在于首位、末尾。会使用“()”包含。例如：“(中国)”。

省份：使用中国行政区划中的省份作字典分词，总结了既可以作为省份又可以作为区县或其他类型的词汇。例如：河北区、南京路等。

城市：使用中国行政区划中的城市作字典分词，总结了既可以作为城市又可以作为区县或其他类型的词汇。例如：南京路等。

区县：使用中国行政区划中的区县作字典分词，总结了常用简称、常用别名等。

经营范围：总结积累了经营范围的信息作字典分词，“电子商业”、“科技有限公司”等。

组织形式：含有组织形式。例如：XXX有限公司，XXX集团等。

政府机构：包含局、机构、XX处等信息的作为政府机构。

系统中把各个规则作为模板规则使用，可以动态添加新积累的信息。可以优化完善现有的系统。

3、查重规则：

分词完成后，可以使用字号、国家、省份、城市、区县、经营范围、组织形式、政府机构做两个或多个组合作为一个规则。多个规则组合作为一组规则。多组规则组成中文企业名称查重解决方案。

系统中默认的规则是经过10年的数据处理经验筛选、调整，可以作为通用的中文企业名称的通用解决方案。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种客户信息查重方法，其特征在于，包括以下步骤：

S5：重复步骤S3～S4，且i依次递增，其中i为自然数；

其中，建立目标企业数据包具体包括以下步骤：

2.根据权利要求1所述的一种客户信息查重方法，其特征在于，S4中查重规则选取为a2且a3。

3.根据权利要求1所述的一种客户信息查重方法，其特征在于，S4中查重规则选取为a2且a3且a4。

4.根据权利要求1所述的一种客户信息查重方法，其特征在于，S4中查重结果为重复或者不重复由查重量M的数值决定，

M≥r，查重结果为重复，

M＜r，查重结果为不重复，r为预设常数。

5.根据权利要求4所述的一种客户信息查重方法，其特征在于，M＝M1+M2+M3+M4+M5+M6+M7+M8，

M1为目标企业字号相似度分值，

M2为目标企业区域相似度分值

M3为目标企业经营范围相似度分值，

M4为目标企业组织形式相似度分值，

M5为目标企业关联手机号相似度分值，

M6为目标企业关联电子邮箱相似度分值，

M7为目标企业邮政编码相似度分值，

M8为目标企业关联座机相似度分值。

6.根据权利要求5所述的一种客户信息查重方法，其特征在于，

目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对，若字符完全相同，M1＝1，若有x1个字符不同M1＝1-0.1*x1，若字符完全不同或不参与查重，M1＝0，