CN108090185A - 一种客户信息查重方法 - Google Patents
一种客户信息查重方法 Download PDFInfo
- Publication number
- CN108090185A CN108090185A CN201711356799.8A CN201711356799A CN108090185A CN 108090185 A CN108090185 A CN 108090185A CN 201711356799 A CN201711356799 A CN 201711356799A CN 108090185 A CN108090185 A CN 108090185A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- target
- duplicate checking
- character
- verified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1453—Management of the data involved in backup or backup restore using de-duplication of the data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于信息查重技术领域,提出了一种客户信息查重方法,包括以下步骤:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;本发明解决了现有技术中心企业信息查重负责不方便的问题。
Description
技术领域
本发明属于信息查重技术领域,涉及一种客户信息查重方法。
背景技术
在实际生产生活中,整理客户的企业数据对企业做定向营销时发现,样本数据中存在大量重复的企业数据。为在营销中降低营销用户企业反感,通过降低营销数据重复率,从而更精确的定位营销范围的投放,提高企业中文数据的精确性。在成千上万的数据中,若使用人力查找重复数据是一件非常困难的事情。现有方案一般有以下几种:
1、使用EXCEL的普通筛选查找实现的查重功能,去除完全相同的企业名称重复数据。
2、使用SQL等数据库工具,去除完全相同的企业名称重复数据。
3、使用查重工具,去除完全相同的企业名称重复数据
4、使用现有的分词工具,拆分后,使用以上三种方法的字段组合方式去除企业名称的重复数据。
这些方案具有以下缺点:
1、需要操作人员掌握EXCEL、SQL、查重、分词等工具,对基础操作人员的技能要求高。
2、要求操作人员懂得一定的查重方法,组合各个方法做查重。
3、中间流程多,操作复杂。
4、查重结果的重复率高,完全重复的数据可以去除,近似重复的不能查到。
5、耗费资源多,若数据量大需要多人协作、重复确认,容易出错。
发明内容
本发明提出一种客户信息查重方法,解决了现有技术中的上述问题。
本发明的技术方案是这样实现的:
一种客户信息查重方法,包括以下步骤:
S1:从待查重企业数据中选取一企业数据建立第i条目标企业数据包,并映射第i条目标企业数据包的代码存储至此目标企业数据包,
S2:第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除,
S3:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,
S4:将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;
S5:重复步骤S3~S4,且i依次递增,其中i为自然数;
其中,建立目标企业数据包具体包括以下步骤:
S31:将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机,一同组成一条目标企业数据包储存于文档中,
S32:规范目标企业名称,规范目标企业名称的输入方式统一清洗为半角中文,同时将目标企业名称中的阿拉伯数字统一为汉字数字;
S33:目标企业名称分词处理,从目标企业数据包中选取目标企业名称进行分词处理,得到目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式,并将目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式增加至目标企业数据包;
其中,S4中查重规则设定具体为,对比目标企业数据包与已核查企业数据库中一企业的企业名称规则a1,对比目标企业数据包与已核查企业数据库中一企业的目标企业字号规则a2,对比目标企业数据包与已核查企业数据库中一企业的目标企业区域规则a3,对比目标企业数据包与已核查企业数据库中一企业的目标企业经营范围规则a4,对比目标企业数据包与已核查企业数据库中一企业的目标企业组织形式规则a5,对比目标企业数据包与已核查企业数据库中一企业的关联手机号规则a6,对比目标企业数据包与已核查企业数据库中一企业的企业地址规则a7,对比目标企业数据包与已核查企业数据库中一企业的关联电子邮箱规则a8,对比目标企业数据包与已核查企业数据库中一企业的企业邮政编码规则a9,对比目标企业数据包与已核查企业数据库中一企业的关联座机规则a10。
作为进一步的技术方案,S4中查重规则选取为a2且a3。
作为进一步的技术方案,S4中查重规则选取为a2且a3且a4。
作为进一步的技术方案,S4中查重结果为重复或者不重复由查重量M的数值决定,
M≥r,查重结果为重复,
M<r,查重结果为不重复,r为预设常数。
作为进一步的技术方案,M=M1+M2+M3+M4+M5+M6+M7+M8,
M1为目标企业字号相似度分值,
M2为目标企业区域相似度分值
M3为目标企业经营范围相似度分值,
M4为目标企业组织形式相似度分值,
M5为目标企业关联手机号相似度分值,
M6为目标企业关联电子邮箱相似度分值,
M7为目标企业邮政编码相似度分值,
M8为目标企业关联座机相似度分值。
作为进一步的技术方案,目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对,若字符完全相同,M1=1,若有x1个字符不同M1=1-0.1*x1,若字符完全不同或不参与查重,M1=0,
目标企业数据包的区域与已核查企业数据库中一企业的区域相比对,若字符完全相同,M2=1,若有x2个字符不同M2=1-0.2*x2,若字符完全不同或不参与查重M2=0,
目标企业数据包的经营范围与已核查企业数据库中一企业的经营范围相比对,若字符完全相同,M3=1,若有x3个字符不同M3=1-0.2*x3,若字符完全不同或不参与查重M3=0,
目标企业数据包的组织形式与已核查企业数据库中一企业的组织形式相比对,若字符完全相同,M4=1,若有x4个字符不同M4=1-0.2*x4,若字符完全不同或不参与查重M4=0,
目标企业数据包的关联手机号与已核查企业数据库中一企业的关联手机号相比对,若字符完全相同,M5=1,若有x5个字符不同M5=1-0.08*x5,若字符完全不同或不参与查重M5=0,
目标企业数据包的关联电子邮箱与已核查企业数据库中一企业的关联电子邮箱相比对,若字符完全相同,M6=1,若有x6个字符不同M6=1-0.05*x6,若字符完全不同或不参与查重M6=0,
目标企业数据包的邮政编码与已核查企业数据库中一企业的邮政编码相比对,若字符完全相同,M7=1,若有x7个字符不同M7=1-0.16*x7,若字符完全不同或不参与查重M7=0,
目标企业数据包的关联座机与已核查企业数据库中一企业的关联座机相比对,若字符完全相同,M8=1,若有x8个字符不同M8=1-0.08*x8,若字符完全不同或不参与查重M8=0。
本发明使用原理及有益效果为:
1、节省时间,经试验,10万条企业名称数据在1小时左右就可以完成查重。
2、操作简单,中间环节少,4~5个步骤就可以完成操作。
3、对操作人员的技能要求低,配置完成的查重规则使操作人员只需要按照步骤操作就可以得到最终的结果。
4、查重结果重复率低,查重率可以达到90%。
5、解决方案配置方便,根据实际生产场景需要配置不通的查重规则,满足各种用户的特殊需求
6、节省成本,一个人操作就可以完成企业名称的查重操作。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的一种客户信息查重方法,包括以下步骤:
S1:从待查重企业数据中选取一企业数据建立第i条目标企业数据包,并映射第i条目标企业数据包的代码存储至此目标企业数据包,
S2:第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除,
S3:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,
S4:将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;
S5:重复步骤S3~S4,且i依次递增,其中i为自然数;
其中,建立目标企业数据包具体包括以下步骤:
S31:将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机,一同组成一条目标企业数据包储存于文档中,
S32:规范目标企业名称,规范目标企业名称的输入方式统一清洗为半角中文,同时将目标企业名称中的阿拉伯数字统一为汉字数字;
S33:目标企业名称分词处理,从目标企业数据包中选取目标企业名称进行分词处理,得到目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式,并将目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式增加至目标企业数据包;
其中,S4中查重规则设定具体为,对比目标企业数据包与已核查企业数据库中一企业的企业名称规则a1,对比目标企业数据包与已核查企业数据库中一企业的目标企业字号规则a2,对比目标企业数据包与已核查企业数据库中一企业的目标企业区域规则a3,对比目标企业数据包与已核查企业数据库中一企业的目标企业经营范围规则a4,对比目标企业数据包与已核查企业数据库中一企业的目标企业组织形式规则a5,对比目标企业数据包与已核查企业数据库中一企业的关联手机号规则a6,对比目标企业数据包与已核查企业数据库中一企业的企业地址规则a7,对比目标企业数据包与已核查企业数据库中一企业的关联电子邮箱规则a8,对比目标企业数据包与已核查企业数据库中一企业的企业邮政编码规则a9,对比目标企业数据包与已核查企业数据库中一企业的关联座机规则a10。
进一步,S4中查重规则选取为a2且a3。
进一步,S4中查重规则选取为a2且a3且a4。
进一步,S4中查重结果为重复或者不重复由查重量M的数值决定,
M≥r,查重结果为重复,
M<r,查重结果为不重复,r为预设常数。
进一步,M=M1+M2+M3+M4+M5+M6+M7+M8,
M1为目标企业字号相似度分值,
M2为目标企业区域相似度分值
M3为目标企业经营范围相似度分值,
M4为目标企业组织形式相似度分值,
M5为目标企业关联手机号相似度分值,
M6为目标企业关联电子邮箱相似度分值,
M7为目标企业邮政编码相似度分值,
M8为目标企业关联座机相似度分值。
进一步,目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对,若字符完全相同,M1=1,若有x1个字符不同M1=1-0.1*x1,若字符完全不同或不参与查重,M1=0,
目标企业数据包的区域与已核查企业数据库中一企业的区域相比对,若字符完全相同,M2=1,若有x2个字符不同M2=1-0.2*x2,若字符完全不同或不参与查重M2=0,
目标企业数据包的经营范围与已核查企业数据库中一企业的经营范围相比对,若字符完全相同,M3=1,若有x3个字符不同M3=1-0.2*x3,若字符完全不同或不参与查重M3=0,
目标企业数据包的组织形式与已核查企业数据库中一企业的组织形式相比对,若字符完全相同,M4=1,若有x4个字符不同M4=1-0.2*x4,若字符完全不同或不参与查重M4=0,
目标企业数据包的关联手机号与已核查企业数据库中一企业的关联手机号相比对,若字符完全相同,M5=1,若有x5个字符不同M5=1-0.08*x5,若字符完全不同或不参与查重M5=0,
目标企业数据包的关联电子邮箱与已核查企业数据库中一企业的关联电子邮箱相比对,若字符完全相同,M6=1,若有x6个字符不同M6=1-0.05*x6,若字符完全不同或不参与查重M6=0,
目标企业数据包的邮政编码与已核查企业数据库中一企业的邮政编码相比对,若字符完全相同,M7=1,若有x7个字符不同M7=1-0.16*x7,若字符完全不同或不参与查重M7=0,
目标企业数据包的关联座机与已核查企业数据库中一企业的关联座机相比对,若字符完全相同,M8=1,若有x8个字符不同M8=1-0.08*x8,若字符完全不同或不参与查重M8=0。
本系统针对中文企业名称做分词,将中文企业名称精准的拆分为字号、省份、城市、经营范围、组织形式等。可自由组合中文企业名称拆分的各字段、手机、联系人及邮箱字段,设置查重规则,从而达到精准查重的目的,方便不同需求客户自由选择,便于进一步的查重分析、数据挖掘、营销管理。
本发明实施例可以通过EXCEL实现,系统可以设置5个部分,登录程序、导入EXCEL数据、自动查重、手动查重、导出数据。
1、登录程序:授权用户登录。
2、导入EXCEL数据:导入待查重数据。既可以开发出单表导入查重,也可以开发出多表导入对比查重,这些均是本领域技术人员能够实现的。
3、自动查重:使用默认查重规则(a2且a3,a2且a3且a4),调用本发明算法查重。
4、手动查重:加载用户自定义规则,调用本发明算法查重。
5、导出数据:导出去重后数据到EXCEL中,方便用户使用。
对中文企业名称列做以下操作:
1、清洗规范企业名称。
1>全角转半角。企业名称录入到EXCEL中的环节多,每个操作员的操作习惯或者系统现在不相同,会导致有全角、半角的数据。统一清洗为半角中文。
2>阿拉伯数字转汉字。由于实际场景千差万别,企业名称中的103厂、一零三厂等阿拉伯数字和中文数字代表同一种含义,统一转换为中文数字。
2、对企业名称做分词操作。分为字号、国家、省份、城市、区县、经营范围、组织形式、政府机构等。
根据以下规则对企业名称做分词:
字号:代表企业、公司名称等。没有规律,把其他类型排除后就只字号。积累了特殊的公司名称。
国家:跨国企业会包含国家名称。一般存在于首位、末尾。会使用“()”包含。例如:“(中国)”。
省份:使用中国行政区划中的省份作字典分词,总结了既可以作为省份又可以作为区县或其他类型的词汇。例如:河北区、南京路等。
城市:使用中国行政区划中的城市作字典分词,总结了既可以作为城市又可以作为区县或其他类型的词汇。例如:南京路等。
区县:使用中国行政区划中的区县作字典分词,总结了常用简称、常用别名等。
经营范围:总结积累了经营范围的信息作字典分词,“电子商业”、“科技有限公司”等。
组织形式:含有组织形式。例如:XXX有限公司,XXX集团等。
政府机构:包含局、机构、XX处等信息的作为政府机构。
系统中把各个规则作为模板规则使用,可以动态添加新积累的信息。可以优化完善现有的系统。
3、查重规则:
分词完成后,可以使用字号、国家、省份、城市、区县、经营范围、组织形式、政府机构做两个或多个组合作为一个规则。多个规则组合作为一组规则。多组规则组成中文企业名称查重解决方案。
系统中默认的规则是经过10年的数据处理经验筛选、调整,可以作为通用的中文企业名称的通用解决方案。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种客户信息查重方法,其特征在于,包括以下步骤:
S1:从待查重企业数据中选取一企业数据建立第i条目标企业数据包,并映射第i条目标企业数据包的代码存储至此目标企业数据包,
S2:第i条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除,
S3:从待查重企业数据中选取一企业数据建立第i+1条目标企业数据包,并映射第i+1条目标企业数据包的代码存储至此目标企业数据包,
S4:将第i+1条目标企业数据包与已核查企业数据库一企业从设定好的查重规则选取查重项目至少两项进行查重操作,如果查重结果为重复,将此企业数据从待查重企业数据中删除,返回步骤S3,如果查重结果为不重复,第i+1条目标企业数据包存储至已核查企业数据库并将此企业数据从待查重企业数据中删除;
S5:重复步骤S3~S4,且i依次递增,其中i为自然数;
其中,建立目标企业数据包具体包括以下步骤:
S31:将目标企业名称同其对应的关联手机号、企业地址、关联电子邮箱、企业邮政编码、关联座机,一同组成一条目标企业数据包储存于文档中,
S32:规范目标企业名称,规范目标企业名称的输入方式统一清洗为半角中文,同时将目标企业名称中的阿拉伯数字统一为汉字数字;
S33:目标企业名称分词处理,从目标企业数据包中选取目标企业名称进行分词处理,得到目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式,并将目标企业字号、目标企业区域、目标企业经营范围、目标企业组织形式增加至目标企业数据包;
其中,S4中查重规则设定具体为,对比目标企业数据包与已核查企业数据库中一企业的企业名称规则a1,对比目标企业数据包与已核查企业数据库中一企业的目标企业字号规则a2,对比目标企业数据包与已核查企业数据库中一企业的目标企业区域规则a3,对比目标企业数据包与已核查企业数据库中一企业的目标企业经营范围规则a4,对比目标企业数据包与已核查企业数据库中一企业的目标企业组织形式规则a5,对比目标企业数据包与已核查企业数据库中一企业的关联手机号规则a6,对比目标企业数据包与已核查企业数据库中一企业的企业地址规则a7,对比目标企业数据包与已核查企业数据库中一企业的关联电子邮箱规则a8,对比目标企业数据包与已核查企业数据库中一企业的企业邮政编码规则a9,对比目标企业数据包与已核查企业数据库中一企业的关联座机规则a10。
2.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重规则选取为a2且a3。
3.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重规则选取为a2且a3且a4。
4.根据权利要求1所述的一种客户信息查重方法,其特征在于,S4中查重结果为重复或者不重复由查重量M的数值决定,
M≥r,查重结果为重复,
M<r,查重结果为不重复,r为预设常数。
5.根据权利要求4所述的一种客户信息查重方法,其特征在于,M=M1+M2+M3+M4+M5+M6+M7+M8,
M1为目标企业字号相似度分值,
M2为目标企业区域相似度分值
M3为目标企业经营范围相似度分值,
M4为目标企业组织形式相似度分值,
M5为目标企业关联手机号相似度分值,
M6为目标企业关联电子邮箱相似度分值,
M7为目标企业邮政编码相似度分值,
M8为目标企业关联座机相似度分值。
6.根据权利要求5所述的一种客户信息查重方法,其特征在于,
目标企业数据包的目标企业字号与已核查企业数据库中一企业的企业字号相比对,若字符完全相同,M1=1,若有x1个字符不同M1=1-0.1*x1,若字符完全不同或不参与查重,M1=0,
目标企业数据包的区域与已核查企业数据库中一企业的区域相比对,若字符完全相同,M2=1,若有x2个字符不同M2=1-0.2*x2,若字符完全不同或不参与查重M2=0,
目标企业数据包的经营范围与已核查企业数据库中一企业的经营范围相比对,若字符完全相同,M3=1,若有x3个字符不同M3=1-0.2*x3,若字符完全不同或不参与查重M3=0,
目标企业数据包的组织形式与已核查企业数据库中一企业的组织形式相比对,若字符完全相同,M4=1,若有x4个字符不同M4=1-0.2*x4,若字符完全不同或不参与查重M4=0,
目标企业数据包的关联手机号与已核查企业数据库中一企业的关联手机号相比对,若字符完全相同,M5=1,若有x5个字符不同M5=1-0.08*x5,若字符完全不同或不参与查重M5=0,
目标企业数据包的关联电子邮箱与已核查企业数据库中一企业的关联电子邮箱相比对,若字符完全相同,M6=1,若有x6个字符不同M6=1-0.05*x6,若字符完全不同或不参与查重M6=0,
目标企业数据包的邮政编码与已核查企业数据库中一企业的邮政编码相比对,若字符完全相同,M7=1,若有x7个字符不同M7=1-0.16*x7,若字符完全不同或不参与查重M7=0,
目标企业数据包的关联座机与已核查企业数据库中一企业的关联座机相比对,若字符完全相同,M8=1,若有x8个字符不同M8=1-0.08*x8,若字符完全不同或不参与查重M8=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711356799.8A CN108090185A (zh) | 2017-12-16 | 2017-12-16 | 一种客户信息查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711356799.8A CN108090185A (zh) | 2017-12-16 | 2017-12-16 | 一种客户信息查重方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108090185A true CN108090185A (zh) | 2018-05-29 |
Family
ID=62176528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711356799.8A Pending CN108090185A (zh) | 2017-12-16 | 2017-12-16 | 一种客户信息查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090185A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750509A (zh) * | 2019-10-24 | 2020-02-04 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种企业名称查重方法及装置、设备、介质 |
CN112347082A (zh) * | 2020-11-18 | 2021-02-09 | 河南省农业科学院粮食作物研究所 | 一种多代杂交组合查重方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136204A (zh) * | 2011-11-23 | 2013-06-05 | 北大方正集团有限公司 | 一种客户信息查重方法及系统 |
CN104424202A (zh) * | 2013-08-21 | 2015-03-18 | 北大方正集团有限公司 | 对crm系统中的客户信息进行查重的方法及系统 |
CN106934038A (zh) * | 2017-03-15 | 2017-07-07 | 江苏华生基因数据科技股份有限公司 | 一种医疗数据查重和关联的方法及系统 |
US20170270099A1 (en) * | 2014-09-12 | 2017-09-21 | Tomas Gorny | System and Method for Monitoring a Sentiment Score |
-
2017
- 2017-12-16 CN CN201711356799.8A patent/CN108090185A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136204A (zh) * | 2011-11-23 | 2013-06-05 | 北大方正集团有限公司 | 一种客户信息查重方法及系统 |
CN104424202A (zh) * | 2013-08-21 | 2015-03-18 | 北大方正集团有限公司 | 对crm系统中的客户信息进行查重的方法及系统 |
US20170270099A1 (en) * | 2014-09-12 | 2017-09-21 | Tomas Gorny | System and Method for Monitoring a Sentiment Score |
CN106934038A (zh) * | 2017-03-15 | 2017-07-07 | 江苏华生基因数据科技股份有限公司 | 一种医疗数据查重和关联的方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750509A (zh) * | 2019-10-24 | 2020-02-04 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种企业名称查重方法及装置、设备、介质 |
CN112347082A (zh) * | 2020-11-18 | 2021-02-09 | 河南省农业科学院粮食作物研究所 | 一种多代杂交组合查重方法 |
CN112347082B (zh) * | 2020-11-18 | 2024-01-02 | 河南省农业科学院粮食作物研究所 | 一种多代杂交组合查重方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260354A (zh) | 一种基于关键词字典树构造的中文ac自动机工作方法 | |
CN107092659A (zh) | 一种通用的树形结构存储解析方法 | |
CN106649464A (zh) | 一种中文地址树的构建方法及装置 | |
CN105630938A (zh) | 一种智能问答系统 | |
CN104537062A (zh) | 一种地址信息抽取方法及系统 | |
CN104021123A (zh) | 用于数据迁移的方法和系统 | |
CN101090346A (zh) | 基于即时通信的群组管理方法及其即时通信客户端 | |
CN107634765B (zh) | 一种物联网编码方法及系统 | |
CN106850187A (zh) | 一种隐私字符信息加密查询方法及系统 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN107766433A (zh) | 一种基于Geo‑BTree的范围查询方法及装置 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN104573022A (zh) | 一种HBase的数据查询方法及装置 | |
CN102346747A (zh) | 在数据模型中查找参数的方法 | |
CN103853838B (zh) | 一种数据处理方法和装置 | |
CN112256821B (zh) | 中文地址补全的方法、装置、设备及存储介质 | |
CN103365991A (zh) | 一种基于一维线性空间实现Trie树的词典存储管理方法 | |
CN106055582B (zh) | 一种替换数据库的表名的方法及装置 | |
CN110781183A (zh) | Hive数据库中增量数据的处理方法、装置以及计算机设备 | |
CN111415120A (zh) | 一种工业互联网标识编码方法 | |
CN105528345B (zh) | 终端、服务器和补字方法 | |
CN108090185A (zh) | 一种客户信息查重方法 | |
CN111523433B (zh) | 快件末端地址的标准化处理方法、装置和设备 | |
CN104008205B (zh) | 一种内容路由的查询方法及系统 | |
CN106970918A (zh) | 生成国际地址唯一标识符的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180529 |
|
RJ01 | Rejection of invention patent application after publication |