CN104424202B - 对crm系统中的客户信息进行查重的方法及系统 - Google Patents

对crm系统中的客户信息进行查重的方法及系统 Download PDF

Info

Publication number
CN104424202B
CN104424202B CN201310367451.4A CN201310367451A CN104424202B CN 104424202 B CN104424202 B CN 104424202B CN 201310367451 A CN201310367451 A CN 201310367451A CN 104424202 B CN104424202 B CN 104424202B
Authority
CN
China
Prior art keywords
customer information
rule
duplicate checking
sub
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310367451.4A
Other languages
English (en)
Other versions
CN104424202A (zh
Inventor
刘胜飏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201310367451.4A priority Critical patent/CN104424202B/zh
Publication of CN104424202A publication Critical patent/CN104424202A/zh
Application granted granted Critical
Publication of CN104424202B publication Critical patent/CN104424202B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了对客户信息进行查重的方法和系统。该方法包括:针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则;将子规则按预设的优先级组合成查重规则;以及根据所组合的查重规则对客户信息进行查重。根据本申请的方法和系统,用户可根据需要确定不同的查重规则,因此能够更灵活且更有效地查找出重复的客户信息。

Description

对CRM系统中的客户信息进行查重的方法及系统
技术领域
本申请涉及对客户信息进行查重的方法和系统,具体地,涉及在CRM系统中对客户信息进行查重的方法及系统。
背景技术
CRM系统即客户关系管理系统(Customer Relationship Management),企业通过CRM系统来管理其与客户之间的关系。CRM系统是崭新的以客户为中心的企业管理和商业运作模式,也是以信息技术为手段、有效提高企业收益、客户满意度、雇员生产力的具体软件和实现方法。CRM系统将客户当作企业运作的核心,客户在CRM系统中是非常重要的信息,企业不仅希望收集尽可能多的客户数据,也希望系统中的客户都是有效信息,尽量减少数据的冗余。
但是在从外部加载数据的过程中,由于数据来源多,录入规则各异,相同的客户在不同数据源中可能录入的名称并不相同。例如,北京北大方正电子有限公司可能有“北京北大方正电子有限公司”、“方正电子”、“方正电子公司”等多个名称,但实际上都是同一机构。因此,希望实现数据归并,避免数据重复,从而保证系统数据的有效性。
发明内容
本发明提供了一种至少能够部分改善上述现有技术中的缺陷对CRM系统中的客户信息进行查重的方法和系统。
根据本申请的一个方面,提供了一种对客户信息进行查重的方法,其包括:针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则;将子规则按预设的优先级组合成查重规则;以及根据所组合的查重规则对客户信息进行查重。
根据本申请的另一方面,提供了一种对客户信息进行查重的系统,其包括确定子规则模块、组合模块和查重模块,其中,确定子规则模块用于针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则;组合模块用于将所述子规则按预设的优先级组合成查重规则;以及查重模块,用于根据所组合的查重规则对客户信息进行查重。
如上所述,通过本申请提供的对客户信息进行查重的方法和系统,能够通过用户根据需要确定不同的查重规则,因此能够更灵活且更有效地查找出重复的客户信息,从而保证了系统数据的唯一性。
附图说明
图1为根据本申请的示例性实施方式的对客户信息进行查重的方法流程图;
图2为根据本申请的示例性实施方式的对客户信息进行查重的方法的详细流程图;以及
图3为根据本申请的示例性实施方式的对客户信息进行查重的系统的示意性框图。
具体实施方式
为了更好地理解本申请,将参考附图对本申请的各个方面做出更详细的说明。可以理解,所述附图和详细说明只是对本申请优选实施方案的描述,而非以任何方式限制本申请的范围。
图1概述地示出了根据本申请示例性实施方式的对CRM系统中的客户信息进行查重的方法。在本申请中,“查重”是指查找多个为相同的客户信息的信息,即,查找出重复的客户信息。
参见图1,在步骤S110中,针对不同类型的客户信息,可确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则。换言之,在该步骤中,用户可针对多种类型的客户信息,自行确定查重子规则。接下来,在步骤S120中,可将子规则按预设的优先级组合成查重规则。用户可充分考虑哪些子规则组合可查询出最多的重复数据,按需要选择子规则进行组合。在步骤S130中,用户可根据所组合的查重规则对客户信息进行查重。在一个实施方式中,可首先将客户信息导入,然后将导入的信息与系统原有的信息进行比对,从而查找出重复的客户信息。
根据本申请的方法,用户可根据需要确定不同的查重规则,因此与现有技术中的选择已有的查重规则的方法相比,能够更加灵活且更加有效地查找出重复的客户信息。
下面参照图2详细地描述根据本申请的对客户信息进行查重的方法,在图2中示出了针对包括文本类型和数值类型的客户信息进行查重的方法。虽然图2仅示出了对这两种类型的客户信息进行查重的情况,但是本申请不限于这两种类型。例如,本申请还可包括日期类型的客户信息,该类型的客户信息可以按与数值类型的客户信息的相同的方法进行处理,因而本申请省略对其的描述。
以个体客户信息为例,文本类型的客户信息可包括但不限于:姓名、性别、出生地、国籍、民族、身份证号、电话、手机、电子邮件、兴趣爱好等;数值类型的客户信息可包括但不限于:年龄、身高、体重、年收入等。以团体客户信息为例,文本类型的客户信息包括但不限于:机构名称、简称、法人代表、组织机构编码、地址、邮编、网址、联系人、联系电话等;数值类型的客户信息可包括但不限于:注册资本、总资产、净资产、年营业收入等。一般来说,文本类型不可转换为数值类型。
具体地,参见图2,对于文本类型的客户信息,在步骤S210中,通过分词方法将文本类型的客户信息切分成一个或多个字段。这里,分词方法可以是现有技术中的任意分词方法,本申请不限于任何特定的分词算法。在步骤S220中,根据过滤词表去除一个或多个字段中应过滤的字段,以得到与文本类型的客户信息对应的一个或多个关键字。在一个实施方式中,可预先设置过滤词表,过滤词表可包括应过滤的字、词、标点符号、特殊字符等。通常,切分的第一个词为前缀,最后一个词为后缀,将切分后的所有词根据过滤词表去除应该过滤的词之后,即可得到与该客户信息对应的一个或多个关键字。接下来,在步骤S230中,将至少有部分关键字相同的客户信息确定为相同的客户信息。这里,至少有部分关键字相同例如可包括:全部关键字都相同、部分关键字相同、前缀相同或后缀相同等。
例如,对于北京北大方正电子有限公司,通过公知的分词方法,可以分为北京、北大方正、电子、有限公司,北京是前缀,有限公司是后缀,北大方正是关键字。
再参见图2,对于数值类型的客户信息,在步骤S240中,将数值相同的客户信息确定为相同的客户信息;或者将数值差处于预定范围内的客户信息确定为相同的客户信息。
接下来,进行以上参照图1已描述的步骤S120和步骤S130,从而完成对客户信息的查重。
根据本申请的查重方法,用户可根据需要针对不同类型的客户信息确定不同的查重规则,并且能够自行组合,因此能够更灵活且更有效地查找出重复的客户信息
在一个实施方式中,按预设的优先级组合成查重规则的步骤可包括将子规则以逻辑与、逻辑或、逻辑非进行组合;和将组合后的子规则按预设的优先级进行组合。要充分考虑哪几个属性字段组合可以查询最多的重复数据,尽量避免单一字段查重
在一个实施方式中,对客户信息进行查重的方法还可包括将在查重中多个被确定为相同的客户信息的信息进行合并。例如,可以以列表的形式导出查重的结果。在另一实施方式中,执行查重操作后,可自动清空所有历史重复记录,仅存储当前执行所产生的重复记录,即,系统仅存储最近一次查重操作的结果。这样,在查看任务历史执行记录时,只需提供历史执行结果的描述信息(如执行结果,重复性规则,重复记录数等),而无需提供每次执行时产生的重复性记录。
在一个实施方式中,可选择两条或更多条的“未处理”状态的客户进行查重,然后将被确定为相同的客户信息的信息进行合并操作。例如,当某条重复记录的所有相似客户中,仅存在一条或零条“未处理”状态的相似客户时,此重复记录状态会变更为“已合并”,在其它情况下,此重复记录的状态都是“未处理”状态。
在另一实施方式中,可对一条或多条相似客户进行移除操作,被移除的相似客户不能进行合并操作。
以上参照图1和图2描述了根据本申请的实施方式的对CRM系统中的客户信息进行查重的方法,下面将参照图3描述根据本申请的对CRM系统中的客户信息进行查重的系统1000。
参见图3,系统1000可包括确定子规则模块310、组合模块320以及查重模块330。确定子规则模块310可用于针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则。组合模块320可用于将确定出的子规则按预设的优先级组合成查重规则。查重模块330可用于根据所组合的查重规则对客户信息进行查重。
客户信息可包括文本类型和数值类型。应该理解,本申请不限于这两种类型的客户信息,本申请还适用于日期类型的客户信息。可以按与数值类型的客户信息的相同的方法对日期类型的客户信息进行处理。
对于文本类型的客户信息,系统1000还包括切分模块340和过滤模块350。切分模块340可用于通过分词方法将文本类型的客户信息切分成一个或多个字段。这里,分词方法可以是现有技术中的任意分词方法,本申请不限于任何特定的分词算法。过滤模块350可用于根据过滤词表去除一个或多个字段中应过滤字段,以得到与文本类型的客户信息的一个或多个关键字。这样,确定子规则模块310可将至少有部分关键字相同的客户信息确定为相同的客户信息。这里,至少有部分关键字相同例如可包括:全部关键字都相同、部分关键字相同、前缀相同或后缀相同等。
对于数值类型的客户信息,确定子规则模块还可将数值相同的客户信息确定为相同的客户信息;或者将数值差处于预定范围内的客户信息确定为相同的客户信息。
在一个实施方式中,组合模块320还可将子规则以逻辑与、逻辑或、逻辑非进行组合;以及将组合后的子规则按预设的优先级进行组合。
在一个实施方式中,系统1000还可包括合并模块(未示出),其可将在查重中多个被确定为相同的客户信息的信息进行合并。
以上所述仅为一些具体的实施方式,并非用来限制本发明的专利范围,凡是利用本申请说明书及附图内容所作的等效变换,或直接或间接运用在其他相关的技术领域的等同技术特征对本申请文件公开的技术方案进行的修改,均包括在本发明的保护范围内。

Claims (8)

1.一种对客户信息进行查重的方法,包括:
针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则;
将所述子规则按预设的优先级组合成查重规则;以及
根据所组合的查重规则对所述客户信息进行查重;
其中,所述客户信息的类型包括文本类型,所述确定子规则的步骤包括:
通过分词方法将所述文本类型的客户信息切分成一个或多个字段;
根据过滤词表去除所述一个或多个字段中应过滤的字段,以得到与所述文本类型的客户信息对应的一个或多个关键字;以及
将至少有部分关键字相同的客户信息确定为相同的客户信息。
2.如权利要求1所述的方法,其中,所述客户信息的类型包括数值类型,所述确定子规则的步骤包括:
将数值相同的客户信息确定为相同的客户信息;或者
将数值差处于预定范围内的客户信息确定为相同的客户信息。
3.如权利要求1所述的方法,其中,所述按预设的优先级组合成查重规则的步骤包括:
将所述子规则以逻辑与、逻辑或、逻辑非进行组合;和将组合后的所述子规则按预设的优先级进行组合。
4.如权利要求1所述的方法,还包括:
将在所述查重中多个被确定为相同的客户信息的信息进行合并。
5.一种对客户信息进行查重的系统,包括:
确定子规则模块,用于针对不同类型的客户信息,确定出用于在客户关系管理CRM系统中查找是否为相同的客户信息的多个客户信息的子规则;
组合模块,用于将所述子规则按预设的优先级组合成查重规则;以及
查重模块,用于根据所组合的查重规则对所述客户信息进行查重;
其中,所述客户信息的类型包括文本类型,所述系统还包括:
切分模块,用于通过分词方法将所述文本类型的客户信息切分成一个或多个字段;以及
过滤模块,用于根据过滤词表去除所述一个或多个字段中应过滤字段,以得到与所述文本类型的客户信息的一个或多个关键字;
其中,所述确定子规则模块将至少有部分关键字相同的客户信息确定为相同的客户信息。
6.如权利要求5所述的系统,其中,所述客户信息的类型包括数值类型,所述确定子规则模块还将数值相同的客户信息确定为相同的客户信息;或者将数值差处于预定范围内的客户信息确定为相同的客户信息。
7.如权利要求6所述的系统,其中,所述组合模块还将所述子规则以逻辑与、逻辑或、逻辑非进行组合;以及将组合后的所述子规则按预设的优先级进行组合。
8.如权利要求5所述的系统,还包括合并模块,所述合并模块将在查重中多个被确定为相同的客户信息的信息进行合并。
CN201310367451.4A 2013-08-21 2013-08-21 对crm系统中的客户信息进行查重的方法及系统 Expired - Fee Related CN104424202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310367451.4A CN104424202B (zh) 2013-08-21 2013-08-21 对crm系统中的客户信息进行查重的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310367451.4A CN104424202B (zh) 2013-08-21 2013-08-21 对crm系统中的客户信息进行查重的方法及系统

Publications (2)

Publication Number Publication Date
CN104424202A CN104424202A (zh) 2015-03-18
CN104424202B true CN104424202B (zh) 2018-11-06

Family

ID=52973202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310367451.4A Expired - Fee Related CN104424202B (zh) 2013-08-21 2013-08-21 对crm系统中的客户信息进行查重的方法及系统

Country Status (1)

Country Link
CN (1) CN104424202B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488212B (zh) * 2015-12-11 2019-06-14 广东精点数据科技股份有限公司 一种重复数据的数据质量检测方法及装置
CN106407245B (zh) * 2016-06-23 2021-05-07 平安科技(深圳)有限公司 信息的处理方法及装置
CN107153991A (zh) * 2017-04-28 2017-09-12 国网冀北电力有限公司物资分公司 一种财务系统中名称不一致的综合处理方法
CN107742187A (zh) * 2017-10-31 2018-02-27 宁波国技互联信息技术有限公司 Erp销售客保系统
CN108090185A (zh) * 2017-12-16 2018-05-29 河北慧日信息技术有限公司 一种客户信息查重方法
CN110197383B (zh) * 2018-02-27 2023-06-02 华为技术有限公司 获取客户群的用户集的方法和装置
CN109461009A (zh) * 2018-11-13 2019-03-12 泰康保险集团股份有限公司 一种电销客户资料数据下发的方法、装置、设备和介质
CN109872072A (zh) * 2019-02-25 2019-06-11 政和科技股份有限公司 一种科技项目自动查重方法及系统
CN110675648B (zh) * 2019-08-20 2023-04-14 中国平安财产保险股份有限公司 停车场数据源采集及数据去重采集的方法及系统、服务器
CN110750509A (zh) * 2019-10-24 2020-02-04 赛诺贝斯(北京)营销技术股份有限公司 一种企业名称查重方法及装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101702179A (zh) * 2009-12-01 2010-05-05 百度在线网络技术(北京)有限公司 在数据挖掘中去除重复的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181527A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a string similarity measurement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101702179A (zh) * 2009-12-01 2010-05-05 百度在线网络技术(北京)有限公司 在数据挖掘中去除重复的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
个性化web商务信息融合关键技术研究;苏伟兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315;正文第40-45页 *
基于操作型数据存储ODS的客户数据质量分析与管理;关雯雯;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070415;正文第5-6页、第22-24页,第38-45页 *

Also Published As

Publication number Publication date
CN104424202A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
CN104424202B (zh) 对crm系统中的客户信息进行查重的方法及系统
Eberendu Unstructured Data: an overview of the data of Big Data
US20200272645A1 (en) Identity resolution in big, noisy, and/or unstructured data
US8666984B2 (en) Unsupervised message clustering
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
US10891591B2 (en) Maintaining a custodian directory by analyzing documents
US8407218B2 (en) Role based search
CN107025239B (zh) 敏感词过滤的方法和装置
US20100057772A1 (en) Automatic determination of an entity's searchable social network using role-based inferences
CN110651288A (zh) 事件提取系统和方法
CN102609832A (zh) 具有对话中发送者列表的基于对话的电子邮件
CN101194277A (zh) 在基于对话的电子邮件系统中显示对话
CN103593412B (zh) 一种基于树形结构问题的应答方法及系统
US9584589B2 (en) Friend recommendation method, apparatus and storage medium
US20150120708A1 (en) Information aggregation, classification and display method and system
US9886711B2 (en) Product recommendations over multiple stores
CN109857833B (zh) 一种规则引擎实现方法、装置及电子设备
US20140214788A1 (en) Analyzing uniform resource locators
US20160335367A1 (en) Entity disambiguation using multisource learning
US20130159222A1 (en) Interactive interface for object search
US11194869B2 (en) Method and apparatus for enriching metadata via a network
CN113326363B (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
TWI575391B (zh) 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
AU2022221543A1 (en) Computer System Configured for Issuing a Personalised Vehicle Number Plate
WO2016010591A1 (en) Search engine using name clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181106

Termination date: 20190821