CN103136204A - 一种客户信息查重方法及系统 - Google Patents

一种客户信息查重方法及系统 Download PDF

Info

Publication number
CN103136204A
CN103136204A CN2011103751390A CN201110375139A CN103136204A CN 103136204 A CN103136204 A CN 103136204A CN 2011103751390 A CN2011103751390 A CN 2011103751390A CN 201110375139 A CN201110375139 A CN 201110375139A CN 103136204 A CN103136204 A CN 103136204A
Authority
CN
China
Prior art keywords
customer information
looked
keyword
customer
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103751390A
Other languages
English (en)
Inventor
朱学武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN2011103751390A priority Critical patent/CN103136204A/zh
Publication of CN103136204A publication Critical patent/CN103136204A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种客户信息查重方法,包括以下步骤:首先将客户信息存储在数据库中的客户信息表中;然后分别生成与每个客户信息相对应的一个或多个关键词,存储在关键词表中;最后根据所述关键词在数据库中进行查重操作。本发明还涉及一种与上述方法相对应的查重系统。本发明极大地提高了客户查重的效率,而且查重结果全面,不会漏掉重复客户。

Description

一种客户信息查重方法及系统
技术领域
本发明属于查重技术领域,具体涉及一种客户信息查重方法及系统。
背景技术
在企业信息系统的实施和使用的过程中,随着企业业务的不断发展,系统中客户的数量不断增加。由于客户的录入工作可能由企业中多个人来进行,例如在媒体的广告系统中,经常会加入新的客户,有的客户是大型企业,有的客户是小公司,还有很多是个人。由于客户录入人员的业务水平各不相同,这些客户在录入过程中,有的是录入全称,有的是录入简称,所以造成很多客户在系统重复录入。重复客户会造成系统业务数据查询、统计不准确的后果,进而影响企业的决策。而且过多的重复客户也会降低系统的运行效率和用户的操作效率。
传统的解决方法一般是采用人工查找重复客户或者将客户按名称排序后查找重复客户,找到重复客户后再进行合并操作。这种方式具有如下两个缺点:①需要花费大量的人力和物力来查找重复客户,而且需要很长时间;②查找的结果很可能是不全面的,会漏掉很多重复的客户。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种高效、全面的客户信息查重方法及系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种客户信息查重方法,包括以下步骤:
(1)将客户信息存储在数据库中的客户信息表中;
(2)分别生成与每个客户信息相对应的一个或多个关键词,存储在关键词表中;
(3)根据所述关键词在数据库中进行查重操作。
一种客户信息查重系统,包括用于将客户信息存储在数据库中的客户信息表中的存储装置;
用于生成与每个客户信息相对应的一个或多个关键词,并存储在关键词表中的生成装置;
用于根据关键词在数据库中进行查重操作的查重装置。
本发明所述方法及系统,通过生成与客户信息相对应的关键词,利用关键词在数据库中查找重复客户的方式,极大地提高了客户查重的效率,而且查重结果全面,不会漏掉重复客户。
附图说明
图1是具体实施方式中客户信息查重系统的结构框图;
图2是具体实施方式中生成装置的结构框图;
图3是具体实施方式中客户信息查重方法的流程图;
图4是具体实施方式中生成关键词的流程图;
图5是具体实施方式中增量生成关键词的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
如图1所示,本实施方式中客户信息查重系统包括存储装置11、生成装置12、查重装置13、更新装置14和设置装置15。如图2所示,生成装置12加载单元121、切分单元122和去除单元123。
存储装置11用于将客户信息存储在数据库16中的客户信息表中,以及将关键词中应过滤的词存储在数据库16中的应过滤词表中。
生成装置12用于生成与每个客户信息相对应的一个或多个关键词,并存储在数据库16中的关键词表中。其中:加载单元121用于将词库加载到内存中;切分单元122用于按照词库将客户信息切分成若干关键字,并存储在关键字数组中;去除单元123用于去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词。
查重装置13用于根据关键词在数据库16中进行查重操作。
更新装置14用于当客户信息表中的客户信息更新时,根据客户信息的更新类型更新关键词表中与该客户信息对应的关键词。
设置装置15用于将客户信息设置成独立客户,所述独立客户不参与查重操作。
如图3所示,采用上述系统对客户信息进行查重的方法包括以下步骤:
(1)存储装置11将客户信息存储在数据库16中的客户信息表中。
本实施方式中,客户信息表的结构如下表一所示:
Figure BDA0000111340630000031
(2)生成装置12分别生成与每个客户信息相对应的一个或多个关键词,存储在数据库16中的关键词表中。
如图4所示,生成关键词的过程包括以下步骤:
①加载单元121将词库加载到内存中,词库中包括所有常用的词;
②从客户信息表中取出所有客户信息,对每一条客户信息,切分单元122按照所述词库将所述客户信息切分成若干关键字,存储在关键字数组中。
例如:假设客户信息为:北京北大方正电子有限公司;词库中包括“北京、北大、方正、电子、有限、公司……”切分单元122会根据词库分出北京、北大、方正、电子、有限、公司这六个关键字,存入关键字数组中。
③去除单元123去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,得到该客户信息的关键词,将生成的关键词存储在关键词表中。
所述应过滤词是指在关键词中应过滤掉的词,由存储装置11将应过滤词存储在数据库16中的应过滤词表中。本实施方式中,应过滤词表的结构如下表二所示:
  键值   字段名称   类型   长度   可空   缺省值   说明
  PK   CRW_nID   int   4   否   过滤词ID
  CRW_strRemoveWord   nvarchar   100   否   过滤词
生成关键词后,存储在关键词表中。关键词表的结构如下表三所示:
  键值   字段名称   类型   长度   可空   缺省值   说明
  PK   CK_nCustID   int   4   否   客户ID
  PK   CK_strKeyword   nvarchar   20   否   客户关键字
(3)查重装置13根据所述关键词在数据库中进行查重操作。
关键词生成后,便可以进行查重操作。首先通过客户ID关联客户信息表和关键词表,将关键词相同的客户信息排列在一起。然后判断关键词相同的客户信息是否是相同的客户,如是,则将相同的客户信息合并。
由于一个客户信息一般会对应多个关键词,因此查重结果中一个客户信息会出现在多个位置,从而能够保证不漏掉可能的重复客户。如果判断某个客户比较特殊,以后也不会出现重复,则可以由设置装置15将该客户设置为独立客户,在以后的查重过程中,不再查询独立客户。
经过一次查重处理以后,用户在使用系统过程中,可能会对客户进行增加、修改、删除的更新操作。当需要再次进行查重时,可以根据客户信息的更新类型进行增量生成关键词或者全部生成关键词。所述增量生成关键词是指仅对新增或修改后的客户信息生成关键词,所述全部生成关键词是指对客户信息表中的所有客户信息均生成关键词。如果没有修改应过滤词,则只需增量生成关键词;如果修改了应过滤词,则应该全部生成关键词。如图5所示,更新装置14增量生成关键词的过程如下:
①将词库加载到内存中。
②从客户信息表中查询出更新的客户信息。
客户信息的更新类型可以用数字表示,例如,用0表示未更新,1表示增加,2表示修改,3表示删除。如果某客户信息的更新类型大于0,则说明该客户信息是更新的客户信息。
③如果客户信息的更新类型为3,即删除,则清除关键词表中与该客户信息对应的关键词。
④如果客户信息的更新类型为1或2,即增加或修改,则在关键词表中生成或重新生成与该客户信息相对应的关键词。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种客户信息查重方法,其特征在于,包括以下步骤:
(1)将客户信息存储在数据库中的客户信息表中;
(2)分别生成与每个客户信息相对应的一个或多个关键词,存储在关键词表中;
(3)根据所述关键词在数据库中进行查重操作。
2.如权利要求1所述的客户信息查重方法,其特征在于:所述数据库中还存储有应过滤词表,在所述应过滤词表中存储在所述关键词中应过滤的词。
3.如权利要求2所述的客户信息查重方法,其特征在于,步骤(2)中生成与客户信息相对应的关键词的方法包括以下步骤:
①将词库加载到内存中;
②对每一条客户信息,按照所述词库将所述客户信息切分成若干关键字,存储在关键字数组中;
③去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词,得到该客户信息的关键词。
4.如权利要求3所述的客户信息查重方法,其特征在于:当所述客户信息表中的客户信息更新时,根据客户信息的更新类型更新关键词表中与该客户信息对应的关键词,所述更新类型包括修改、增加和删除。
5.如权利要求4所述的客户信息查重方法,其特征在于,所述更新关键词表中与该客户信息对应的关键词的方法包括以下步骤:
①将词库加载到内存中;
②从客户信息表中查询出更新的客户信息;
③如果客户信息的更新类型为删除,则清除关键词表中与该客户信息对应的关键词;
④如果客户信息的更新类型为增加或修改,则在关键词表中生成或重新生成与该客户信息相对应的关键词。
6.如权利要求2所述的客户信息查重方法,其特征在于:如果所述应过滤词发生变化,则重新生成与所有客户信息相对应的关键词。
7.如权利要求1~6中任一项所述的客户信息查重方法,其特征在于,所述客户信息包括客户ID,步骤(3)中所述查重操作的方法包括以下步骤:
通过客户ID关联所述客户信息表和关键词表,将关键词相同的客户信息排列在一起;
判断关键词相同的客户信息是否是相同的客户,如是,则合并。
8.如权利要求1~6中任一项所述的客户信息查重方法,其特征在于:所述方法还包括将客户信息设置成独立客户的步骤,所述独立客户不参与查重操作。
9.一种客户信息查重系统,其特征在于:包括用于将客户信息存储在数据库中的客户信息表中的存储装置(11);
用于生成与每个客户信息相对应的一个或多个关键词,并存储在关键词表中的生成装置(12);
用于根据关键词在数据库中进行查重操作的查重装置(13)。
10.如权利要求9所述的客户信息查重系统,其特征在于:所述存储装置(11)还用于将关键词中应过滤的词存储在数据库中的应过滤词表中。
11.如权利要求10所述的客户信息查重系统,其特征在于:所述生成装置(12)包括用于将词库加载到内存中的加载单元(121);
用于按照词库将客户信息切分成若干关键字,并存储在关键字数组中的切分单元(122);
用于去除关键字数组中的标点符号、特殊字符、重复元素和应过滤词的去除单元(123)。
12.如权利要求9~11中任一项所述的客户信息查重系统,其特征在于:所述系统还包括用于当客户信息表中的客户信息更新时,根据客户信息的更新类型更新关键词表中与该客户信息对应的关键词的更新装置(14)。
13.如权利要求9~11中任一项所述的客户信息查重系统,其特征在于:所述系统还包括用于将客户信息设置成独立客户的设置装置(15),所述独立客户不参与查重操作。
CN2011103751390A 2011-11-23 2011-11-23 一种客户信息查重方法及系统 Pending CN103136204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103751390A CN103136204A (zh) 2011-11-23 2011-11-23 一种客户信息查重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103751390A CN103136204A (zh) 2011-11-23 2011-11-23 一种客户信息查重方法及系统

Publications (1)

Publication Number Publication Date
CN103136204A true CN103136204A (zh) 2013-06-05

Family

ID=48496041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103751390A Pending CN103136204A (zh) 2011-11-23 2011-11-23 一种客户信息查重方法及系统

Country Status (1)

Country Link
CN (1) CN103136204A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN106934509A (zh) * 2015-12-30 2017-07-07 平安科技(深圳)有限公司 客户信息合并方法和系统
CN108090185A (zh) * 2017-12-16 2018-05-29 河北慧日信息技术有限公司 一种客户信息查重方法
CN109461009A (zh) * 2018-11-13 2019-03-12 泰康保险集团股份有限公司 一种电销客户资料数据下发的方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350869A (zh) * 2007-07-19 2009-01-21 中国电信股份有限公司 基于索引和散列的电信计费去重方法及设备
US7631144B1 (en) * 2004-09-13 2009-12-08 Datadomain, Inc. Write latency efficient storage system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631144B1 (en) * 2004-09-13 2009-12-08 Datadomain, Inc. Write latency efficient storage system
CN101350869A (zh) * 2007-07-19 2009-01-21 中国电信股份有限公司 基于索引和散列的电信计费去重方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN106934509A (zh) * 2015-12-30 2017-07-07 平安科技(深圳)有限公司 客户信息合并方法和系统
CN108090185A (zh) * 2017-12-16 2018-05-29 河北慧日信息技术有限公司 一种客户信息查重方法
CN109461009A (zh) * 2018-11-13 2019-03-12 泰康保险集团股份有限公司 一种电销客户资料数据下发的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US8099725B2 (en) Method and apparatus for generating code for an extract, transform, and load (ETL) data flow
US11709878B2 (en) Enterprise knowledge graph
US8280907B2 (en) System and method for managing access to data in a database
US20070192374A1 (en) Virtual repository management to provide functionality
US20140337287A1 (en) Virtual repository management
CN107003935A (zh) 优化数据库去重
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
US10540444B2 (en) Text mining a dataset of electronic documents to discover terms of interest
CN111914066B (zh) 多源数据库全局搜索方法及系统
Kunze et al. Querying process models by behavior inclusion
CN103136204A (zh) 一种客户信息查重方法及系统
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN106203171A (zh) 大数据平台安全索引系统及方法
CN109885585A (zh) 支持存储过程、触发器与视图的分布式数据库系统和方法
CN102156744A (zh) 一种内存话单剔重方法
WO2018226255A1 (en) Functional equivalence of tuples and edges in graph databases
CN106844497A (zh) 一种数据库代码的检查装置和方法
EP2542986A1 (en) System and method for rowset inserts
Zhu et al. A data cleaning method for heterogeneous attribute fusion and record linkage
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN115774717A (zh) 数据搜索方法、装置、电子设备及计算机可读存储介质
CN110032574A (zh) Sql语句的处理方法及装置
CN113590792A (zh) 用户问题的处理方法、装置和服务器
JP2017010376A (ja) マートレス検証支援システムおよびマートレス検証支援方法
CN112269807A (zh) 基于Elasticsearch技术的可配置信用档案检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130605