CN109241363A - 名单清洗方法、系统、计算机设备和存储介质 - Google Patents
名单清洗方法、系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109241363A CN109241363A CN201810561479.4A CN201810561479A CN109241363A CN 109241363 A CN109241363 A CN 109241363A CN 201810561479 A CN201810561479 A CN 201810561479A CN 109241363 A CN109241363 A CN 109241363A
- Authority
- CN
- China
- Prior art keywords
- field
- information
- client
- list
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000005611 electricity Effects 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 20
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims 1
- 235000021167 banquet Nutrition 0.000 description 12
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种名单清洗方法、系统、计算机设备和存储介质。其中清洗方法包括:获取含有不同来源的客户原始信息的电销名单;调用第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息;调用第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息;调用第三清洗规则,读取客户原始信息的属性字段,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。本发明通过上述将客户原始信息进行预清洗、格式化清洗及属性转换,确保了最终客户名单信息的完整、准确。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种名单清洗方法、系统、计算机设备和存储介质。
背景技术
电销业务是指利用电话接线员来吸引新顾客和联系老客户,以确定他们的满意程度或能否接受订单。就日常的接受订单而言,它被称为电话销售(telesales)。许多顾客通常是通过电话方式来订购商品和服务。直接营销者利用一切主要媒体向潜在的客户提供直接服务,而在电销业务中,客户名单极为重要,客户名单中数据的完整性和准确性直接影响了电销坐席的工作效率、坐席接通并销售成功的比率。
目前电销业务的客户名单原始信息来源有多个渠道,比如上载、网销脱落、渠道引流、客户主动呼入等,间接造成名单原始信息的数据完整性及准确性参差不齐,现有的做法是通过人工方式进行筛选,即需要坐席对名单原始信息数据进行额外的筛选和完善工作,工作量较大,且数据准确性存在不确定性,明显影响坐席拨打的效率以及接通并销售成功的比率。
发明内容
有鉴于此,有必要针对现有技术由于客户名单原始信息的数据完整性和准确性参差不齐,需要人工筛选客户名单的缺陷,提供一种名单清洗方法、系统、计算机设备和存储介质。
一种名单清洗方法,包括如下步骤:
获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;
调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;
调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;
调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
在其中一个实施例中,所述电销名单中的客户原始信息包括联系方式字段、城市字段、证件号码字段或性别字段中的至少一种基础字段。
在其中一个实施例中,所述电销名单中的客户原始信息还包括资产字段、经济字段或职业字段中的至少一种属性字段。
在其中一个实施例中,调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗时,采用如下方式:处理全角转半角、去tab、去回车、去换行、去空格、清除无效字段或数据合并去重中的至少一项操作,实现基础字段的格式统一。
在其中一个实施例中,所述清除无效字段的操作方式包括:
所述客户原始信息中的基础字段含有联系方式字段时,将小于11位且不为数字的联系方式字段定义为无效字段并清除;
所述客户原始信息中的基础字段含有城市字段时,将非汉字的城市字段定义为无效字段并清除;
所述客户原始信息中的基础字段含有证件号码字段时,将非数字的证件号码字段定义为无效字段并清除。
在其中一个实施例中,调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗时,采用如下方式:
所述客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容;
所述客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容;
所述客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中;
所述客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
在其中一个实施例中,所述客户基础信息中的基础字段含有联系方式字段、未含有城市字段时,通过联系方式字段获取城市信息,转换为城市代码作为客户名单信息中的城市字段内容。
在其中一个实施例中,所述客户基础信息中的基础字段含有证件号码字段且此证件号码字段为身份证时,以身份证内容转换的性别字段存储在客户名单信息中。
在其中一个实施例中,在调用部署在存储器中的第三清洗规则前,在存储器中预设一属性规则表,所述属性规则表中罗列了包括资产字段、经济字段或职业字段在内的属性信息,及每一种属性信息对应的活动类型;
调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段后,通过将客户原始信息中的属性字段与属性规则表中的属性信息进行比较,如比较相同时,读取此属性信息对应的活动类型,将客户原始信息中的属性字段转换成此活动类型,存储在客户名单信息中。
一种名单清洗系统,包括如下单元:
获取单元,用于获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;
预清洗单元,用于调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;
格式化清洗单元,用于调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;
转换单元,用于调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
在其中一个实施例中,所述格式化清洗单元包括:
清洗联系方式模块,用于所述客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容;
清洗城市模块,用于所述客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容;
清洗证件号码模块,用于所述客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中;
清洗性别模块,用于所述客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述名单清洗方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述名单清洗方法的步骤。
上述名单清洗方法、装置、计算机设备和存储介质,包括获取含有不同来源的客户原始信息的电销名单,将电销名单保存在存储器中;调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。本发明通过上述将客户原始信息进行预清洗、格式化清洗及属性转换,确保了最终客户名单信息的完整、准确,可供坐席有针对性的拨打,提高坐席工作效率和接通并销售成功的比率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明一个实施例中的名单清洗方法的流程图;
图2为图1中步骤S3的流程图;
图3为本发明一个实施例中的名单清洗系统的结构图;
图4为图3中的格式化清洗单元的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本发明一个实施例中的名单清洗方法的流程图,如图1所示,清洗方法,包括如下步骤:
步骤S1,获取电销名单:将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息。
本实施例可以选择一业务系统,业务系统优选Linux系统,Linux系统是面向企业的系统,且Linux系统是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统,它能运行主要的UNIX工具软件、应用程序和网络协议,用户可以任意修改其源代码。Linux支持多用户,各个用户对于自己的文件设备有自己特殊的权利,保证了各用户之间互不影响。Linux同时具有字符界面和图形界面,在字符界面用户可以通过键盘输入相应的指令来进行操作。
基于Linux系统时可以在系统的web前端预先设置供上传的信息上传页面,工作人员可以通过终端设备的网页访问信息上传页面,将各自的客户原始信息通过信息上传页面进行上传。这种方式,能实现异地随时上传的目的。
基于Linux系统时还可以在系统中设置信息上传界面,工作人员在本地,通过系统中的信息上传界面通过输入字段的方式,或者上传文件的方式上传客户原始信息。
上述客户原始信息优选采用excel电子表格的格式,excel电子表格中包括“联系方式”、“城市”、“证件号码”、“性别”字段等基础信息,客户的资产、经济、职业等情况的属性信息。excel电子表格的形式,其信息容量大,上传简单,获取和存储电销名单可靠。在后续读取和转换各种信息时,也非常方便。
步骤S2,预清洗:调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一。
客户原始信息中的基础字段,如联系方式字段、城市字段、证件号码字段或性别字段等,在上载、网销脱落、渠道引流或人工录入时,每个客户的基础字段大多没有统一成相同的格式,同一项字段可能会存在全角和半角的区别、英文大小写的区别、空格、无效字符等格式问题。本步骤,通过第一清洗规则,将这些没有统一的格式经过清洗后,实现客户基础信息的格式统一。
步骤S3,格式化清洗:调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一。
在得到格式统一的客户基础信息后,期内的数据存在内容不一致问题,比如“城市”,呈现方式可能是“上海”、“上海市”或“沪”等内容问题,本步骤,通过第二清洗规则,将这些没有统一的内容经过格式化清洗后,实现最终的客户名单信息的内容统一。
步骤S4,属性转换:调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
在客户原始信息中,不仅仅存在如“联系方式”、“城市”、“证件号码”、“性别”字段等基础信息,还存在有如客户的资产、经济、职业等情况的属性信息。这些信息具体例如:是否有房、是否有车、是否有贷、是否有信用卡,以及拥有信用卡年限、信用卡额度、房产情况、发薪方式、职业类别、学历、社保公积金等。上述信息对后续销售产品也至关重要,为了实现属性信息与销售产品直接对应,增加坐席的工作效率和接通并销售成功的比率,本步骤在存储器中预设有属性规则表,通过调用第三清洗规则,将客户原始信息中的属性字段,与属性规则表中的属性信息进行比较,得到对应的活动类型,将活动类型对应的客户在客户名单信息中进行存储。
本实施例,通过将客户原始信息中的基础信息进行预清洗、格式化清洗,将客户原始信息中的属性信息转换为活动类型,最终得到了完整、准确,具有较高销售策略价值的客户名单信息。
在一个实施例中,步骤S1中,电销名单中的客户原始信息包括联系方式字段、城市字段、证件号码字段或性别字段中的至少一种基础字段。电销名单中的客户原始信息还包括资产字段、经济字段或职业字段中的至少一种属性字段。
基础字段是客户的一些基本信息,需要对这些基础字段进行与清洗实现格式统一,格式化清洗实现内容统一。而属性字段内容较为繁杂,从领域来说,可以包括客户的资产、经济、职业情况等特殊信息,从具体属性来说,可以包括是否有房、是否有车、是否有贷、是否有信用卡、以及拥有信用卡年限、信用卡额度、房产情况、月薪、发薪方式、职业类别、学历、社保公积金缴纳情况、连续缴纳多久等。属性字段的内容直接影响了后续销售产品的活动类型,需要对属性字段进行直接转换为活动类型,供后续坐席参考。
在一个实施例中,步骤S2中,调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗时,采用如下方式:处理全角转半角、去tab、去回车、去换行、去空格、清除无效字段或数据合并去重中的至少一项操作,实现基础字段的格式统一。
其中,清除无效字段的操作方式包括:客户原始信息中的基础字段含有联系方式字段时,将小于11位且不为数字的联系方式字段定义为无效字段并清除;客户原始信息中的基础字段含有城市字段时,将非汉字的城市字段定义为无效字段并清除;客户原始信息中的基础字段含有证件号码字段时,将非数字的证件号码字段定义为无效字段并清除。
采用上述各清洗的操作方式,能将客户原始信息中的基础字段进行有效清洗,得到比较准确的基础字段信息,为下一步实现客户名单信息的内容统一提供精确数据。
在具体配置第一清洗规则时,首先可以根据基础字段中的某一项关键字,先进行数据合并去重工作,如通过联系方式字段或证件号码字段的唯一性原则,作为关键字,对客户原始信息进行合并去重,去重的实现方法可以通过SQL语言或excel自带的工具实现。其次,再依次对每个客户原始信息进行遍历清洗。
采用本实施例的第一清洗规则,可以尽可能的对客户原始信息的基础字段进行预清洗,通过预清洗解决了基础信息的整体完整性问题。
在一个实施例中,如图2所示,步骤S3包括如下具体步骤:
步骤S301,清洗联系方式字段:客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容。
在客户基础信息中基础字段格式统一的前提下,本步骤还对联系方式字段进行了格式化清洗,其运用的第二清洗规则包括如下表1所示:
表1
通过上述联系方式字段的清洗规则,可以得到较为准确的客户联系方式,为后续坐席进行电销时的接通率得到保证。
步骤S302,清洗城市字段:客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容。
在客户基础信息中基础字段格式统一的前提下,本步骤还对城市字段进行了格式化清洗,格式化清洗前,预先在存储器中配置城市基表,城市基表中的内容包括城市名称、城市简称、城市代码,具体的部分城市基表如下表2所示:
城市名称 | 城市简称 | 城市代码 |
北京市 | 京 | 1101 |
天津市 | 津 | 1201 |
上海市 | 沪 | 3101 |
浙江省杭州市 | 浙 | 3301 |
浙江省宁波市 | 浙 | 3302 |
表2
本步骤在对城市字段进行了格式化清洗时,其运用的第二清洗规则包括如下表3所示:
表3
上述表3中,精确匹配是指只有整个字段与检索词相同才匹配。在本步骤中,将城市字段中的汉字当固定词组,与城市基表中内容进行检索,只有汉字与城市基表中的城市简称或城市名称完全一致,才认为匹配成功,获取对应的城市代码。
模糊匹配是指无论词的位置怎样只要出现该词即可。在本步骤中,将城市字段中的汉字拆分为单个汉字的单元概念,并进行逻辑与运算,根据预设的逻辑与运算认为匹配成功时,获取对应的城市代码。逻辑与运算可以根据实际实施时的具体情况,运用“and”、“or”、“not”关系。例如,城市字段内容为“上海”,则将“上海”拆分为“上”和“海”,预设逻辑是“and”关系,即,只要城市名称中的某一项存在“上”and“海”则认为匹配,获取对应的城市代码“3101”,作为客户名单信息中的城市字段内容。
本步骤采用精确匹配和模糊匹配相结合的方式,将客户基础信息中城市字段进行内容的统一,以满足后续对客户名单信息的数据采集,在后续坐席拨打销售时可以根据城市进行自动分配。
步骤S303,清洗证件号码字段:客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中。
在客户基础信息中基础字段格式统一的前提下,本步骤还对证件号码字段进行了格式化清洗,其运用的第二清洗规则包括如下表4所示:
表4
居民身份证号码具有唯一性和编码规则性,其号码结构是一组特征组合码,由十七位数字本体码和一位校验码组成。排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。其中,六位数字地址码中,第一、二位表示省(自治区、直辖市、特别行政区),第三、四位表示市(地级市、自治州、盟及国家直辖市所属市辖区和县的汇总码),第五、六位表示县(市辖区、县级市、旗)。其中,三位数字顺序码中,第十七位奇数分给男性,偶数分给女性。
本步骤根据上述编码规则,在确定证件号码字段为身份证的前提下,可以获取到众多客户的基本信息,补充到客户名单信息中,供后续坐席参考。
步骤S304,清洗性别字段:客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
在客户基础信息中基础字段格式统一的前提下,本步骤还对性别字段进行了格式化清洗,其运用的第二清洗规则包括如下表5所示:
表5
由于对性别的描述比较繁杂,因此本步骤,对性别字段的判断时,罗列了几种常见的撰写情况,依次进行判断,识别出该客户是男性(M)或女性(F)。判断性别后,能为后续坐席在电销过程中,推荐产品的类别提供直接方向。
在一个实施例中,客户基础信息中的基础字段含有联系方式字段、未含有城市字段时,通过联系方式字段获取城市信息,转换为城市代码作为客户名单信息中的城市字段内容。
由于联系方式是一种具有一定编码规则的数字,如手机号码中的第4到7位表示号码归属地,因此通过联系方式字段也能识别出客户的城市。在客户基础信息中没有城市字段时,为了尽可能的完善客户的基础信息,本实施例通过从联系方式字段中,读取号码归属地,经转换后,获取城市代码作为客户名单信息中的城市字段内容。
在一个实施例中,客户基础信息中的基础字段含有证件号码字段且此证件号码字段为身份证时,以身份证内容转换的性别字段存储在客户名单信息中。
由于公民的身份证号码具有唯一性和权威性,因此在客户基础信息中含有身份证时,由于身份证号码中,第十七位奇数分给男性,偶数分给女性,因此以身份证上获取的性别信息优先级高于其他字段获取的性别信息。
本实施例能增加对性别字段的数据正确性,为坐席提供完整和准确的客户名单信息。
在一个实施例中,在调用部署在存储器中的第三清洗规则前,在存储器中预设一属性规则表,属性规则表中罗列了包括资产字段、经济字段或职业字段在内的属性信息,及每一种属性信息对应的活动类型;调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段后,通过将客户原始信息中的属性字段与属性规则表中的属性信息进行比较,如比较相同时,读取此属性信息对应的活动类型,将客户原始信息中的属性字段转换成此活动类型,存储在客户名单信息中。
具体的,例如客户原始信息中存在有某一客户的属性字段为“有车”,而属性规则表中预设的属性信息中设有“有车”属性信息,及对应的活动类型为“短信MGM活动”,则通过调用第三清洗规则,读取客户原始信息的属性字段后,通过将客户原始信息中的属性字段与属性规则表中的属性信息进行比较,读取“短信MGM活动”的活动类型,存储在客户名单信息中。
在一个实施例中,提出了一种名单清洗系统,如图3所示,包括如下单元:
获取单元,用于获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;
预清洗单元,用于调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;
格式化清洗单元,用于调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;
转换单元,用于调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
在一个实施例中,如图4所示,格式化清洗单元包括:
清洗联系方式模块,用于所述客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容;
清洗城市模块,用于所述客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容;
清洗证件号码模块,用于所述客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中;
清洗性别模块,用于所述客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如下步骤:获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种名单清洗方法,其特征在于,包括如下步骤:
获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;
调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;
调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;
调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
2.根据权利要求1所述的名单清洗方法,其特征在于,调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗时,采用如下方式:处理全角转半角、去tab、去回车、去换行、去空格、清除无效字段或数据合并去重中的至少一项操作,实现基础字段的格式统一。
3.根据权利要求2所述的名单清洗方法,其特征在于,所述清除无效字段的操作方式包括:
所述客户原始信息中的基础字段含有联系方式字段时,将小于11位且不为数字的联系方式字段定义为无效字段并清除;
所述客户原始信息中的基础字段含有城市字段时,将非汉字的城市字段定义为无效字段并清除;
所述客户原始信息中的基础字段含有证件号码字段时,将非数字的证件号码字段定义为无效字段并清除。
4.根据权利要求1所述的名单清洗方法,其特征在于,调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗时,采用如下方式:
所述客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容;
所述客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容;
所述客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中;
所述客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
5.根据权利要求4所述的名单清洗方法,其特征在于,所述客户基础信息中的基础字段含有联系方式字段、未含有城市字段时,通过联系方式字段获取城市信息,转换为城市代码作为客户名单信息中的城市字段内容;
所述客户基础信息中的基础字段含有证件号码字段且此证件号码字段为身份证时,以身份证内容转换的性别字段存储在客户名单信息中。
6.根据权利要求1所述的名单清洗方法,其特征在于,在调用部署在存储器中的第三清洗规则前,在存储器中预设一属性规则表,所述属性规则表中罗列了包括资产字段、经济字段或职业字段在内的属性信息,及每一种属性信息对应的活动类型;
调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段后,通过将客户原始信息中的属性字段与属性规则表中的属性信息进行比较,如比较相同时,读取此属性信息对应的活动类型,将客户原始信息中的属性字段转换成此活动类型,存储在客户名单信息中。
7.一种名单清洗系统,其特征在于,包括如下单元:
获取单元,用于获取电销名单,将电销名单保存在存储器中,电销名单中含有不同来源的客户原始信息;
预清洗单元,用于调用部署在存储器中的第一清洗规则,对客户原始信息中的基础字段进行预清洗得到客户基础信息,所述预清洗用于实现客户基础信息中的基础字段的格式统一;
格式化清洗单元,用于调用部署在存储器中的第二清洗规则,对客户基础信息中的基础字段进行格式化清洗后得到客户名单信息,所述格式化清洗用于对基础字段的读取、匹配或转换成统一内容,实现客户名单信息的内容统一;
转换单元,用于调用部署在存储器中的第三清洗规则,读取客户原始信息的属性字段,将属性字段与预设的属性规则表中的属性信息进行比较,将与属性规则表中内容匹配的属性字段转换成活动类型后,存储在客户名单信息中。
8.根据权利要求7所述的名单清洗系统,其特征在于,所述格式化清洗单元包括:
清洗联系方式模块,用于所述客户基础信息中的基础字段含有联系方式字段时,读取联系方式字段,判断联系方式字段为数字且不小于11位时,从后往前截取11位数字作为客户名单信息中的联系方式字段内容;
清洗城市模块,用于所述客户基础信息中的基础字段含有城市字段时,读取城市字段,判断城市字段为汉字时,采用精确匹配或模糊匹配的方式与预设的城市基表进行匹配,获取城市基表中的城市代码作为客户名单信息中的城市字段内容;
清洗证件号码模块,用于所述客户基础信息中的基础字段含有证件号码字段时,读取证件号码字段,判断证件号码字段长度为18位且前17位是数字位时,认为此证件号码字段为身份证,将身份证内容转换为性别字段、出生日期字段、年龄字段后,与证件号码字段一起存储在客户名单信息中;
清洗性别模块,用于所述客户基础信息中的基础字段含有性别字段时,读取性别字段,判断性别字段中的内容带有M、男、先生或Male,且不为FeMale时,认为性别字段为M存储在客户名单信息中,判断性别字段中的内容带有F、女、小姐、女士、或FeMale,则认为性别字段为F存储在客户名单信息中。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述名单清洗方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述名单清洗方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561479.4A CN109241363A (zh) | 2018-06-04 | 2018-06-04 | 名单清洗方法、系统、计算机设备和存储介质 |
PCT/CN2018/104298 WO2019232952A1 (zh) | 2018-06-04 | 2018-09-06 | 名单清洗方法、系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561479.4A CN109241363A (zh) | 2018-06-04 | 2018-06-04 | 名单清洗方法、系统、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241363A true CN109241363A (zh) | 2019-01-18 |
Family
ID=65083699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810561479.4A Pending CN109241363A (zh) | 2018-06-04 | 2018-06-04 | 名单清洗方法、系统、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109241363A (zh) |
WO (1) | WO2019232952A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287406A (zh) * | 2019-05-21 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 渠道用户推荐方法、服务器及计算机可读存储介质 |
CN112380201A (zh) * | 2020-11-10 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种保险信息报送方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473375A (zh) * | 2013-09-29 | 2013-12-25 | 方正国际软件有限公司 | 数据清洗系统和数据清洗方法 |
CN103489051A (zh) * | 2012-06-11 | 2014-01-01 | 上海佳锐信息科技有限公司 | 基金公司的多个信息系统中客户信息核对归一的一种方法 |
US20140052736A1 (en) * | 2012-08-14 | 2014-02-20 | International Business Machines Corporation | Custom object-in-memory format in data grid network appliance |
CN104765806A (zh) * | 2015-04-01 | 2015-07-08 | 国家电网公司 | 营销客户基础信息不规范的自动处理技术 |
CN107679718A (zh) * | 2017-09-19 | 2018-02-09 | 平安科技(深圳)有限公司 | 名单分配方法、设备以及计算机可读存储介质 |
CN107909473A (zh) * | 2017-12-27 | 2018-04-13 | 中国银行股份有限公司 | 一种基于用户行为分析的网上银行营销方法及装置 |
CN108073591A (zh) * | 2016-11-10 | 2018-05-25 | 北京宸信征信有限公司 | 一种具有身份属性的多源数据的整合存储系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239581A (zh) * | 2017-07-07 | 2017-10-10 | 小草数语(北京)科技有限公司 | 数据清洗方法及装置 |
-
2018
- 2018-06-04 CN CN201810561479.4A patent/CN109241363A/zh active Pending
- 2018-09-06 WO PCT/CN2018/104298 patent/WO2019232952A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103489051A (zh) * | 2012-06-11 | 2014-01-01 | 上海佳锐信息科技有限公司 | 基金公司的多个信息系统中客户信息核对归一的一种方法 |
US20140052736A1 (en) * | 2012-08-14 | 2014-02-20 | International Business Machines Corporation | Custom object-in-memory format in data grid network appliance |
CN103473375A (zh) * | 2013-09-29 | 2013-12-25 | 方正国际软件有限公司 | 数据清洗系统和数据清洗方法 |
CN104765806A (zh) * | 2015-04-01 | 2015-07-08 | 国家电网公司 | 营销客户基础信息不规范的自动处理技术 |
CN108073591A (zh) * | 2016-11-10 | 2018-05-25 | 北京宸信征信有限公司 | 一种具有身份属性的多源数据的整合存储系统及方法 |
CN107679718A (zh) * | 2017-09-19 | 2018-02-09 | 平安科技(深圳)有限公司 | 名单分配方法、设备以及计算机可读存储介质 |
CN107909473A (zh) * | 2017-12-27 | 2018-04-13 | 中国银行股份有限公司 | 一种基于用户行为分析的网上银行营销方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287406A (zh) * | 2019-05-21 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 渠道用户推荐方法、服务器及计算机可读存储介质 |
CN112380201A (zh) * | 2020-11-10 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种保险信息报送方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019232952A1 (zh) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Obembe et al. | Covid-19 and the tourism industry: An early stage sentiment analysis of the impact of social media and stakeholder communication | |
Duffie et al. | Stationary markov equilibria | |
CN103700003A (zh) | 基于意愿符合度匹配的房屋网上直租方法和系统 | |
CN109118051A (zh) | 基于网络舆情的风险商户识别及处置方法、装置及服务器 | |
CN107800894A (zh) | 一种用于电话业务系统的语音提示方法及终端设备 | |
CN111539221A (zh) | 一种数据处理方法及系统 | |
Radziukiewicz | Remote work in Poland and perspectives thereof | |
CN109241363A (zh) | 名单清洗方法、系统、计算机设备和存储介质 | |
CN108053323A (zh) | 服务方案生成的方法、装置、计算机设备及存储介质 | |
Jeffres et al. | Newspapers, pluralism, and diversity in an urban context | |
CN111414490A (zh) | 确定失联修复信息的方法、装置、电子设备和存储介质 | |
ENZa et al. | Significance of digital communication channels for tourism providers in holiday regions | |
CN112633889A (zh) | 一种企业基因测序系统及方法 | |
Amaeshi et al. | Corporate tax responsibility in Africa: Insight from Nigeria | |
Bratianu | A critical analysis of intellectual capital research in universities | |
Xiong et al. | Information technology for development in small and medium-sized enterprises | |
CN110046233A (zh) | 问题派发方法及装置 | |
Renteria | How transformational mobile banking optimizes household expenditures: A case study from rural communities in Mexico | |
CN114265887A (zh) | 一种维度数据处理方法、装置、存储介质及电子设备 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
WO2020214768A1 (en) | Company size estimation system | |
CN112598499A (zh) | 确定授信额度的方法和装置 | |
Rujichansiri et al. | Pair Selection of Appropriate Taxi Drivers Using Social Network Analysis Models | |
Badnjevic et al. | ICT Awareness in Small Enterprises in the Indian Tourism Branch | |
Stone | The relative importance of telecommunications investments on selected measures of socioeconomic development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |
|
RJ01 | Rejection of invention patent application after publication |