CN110362607B - 异常号码识别方法、装置、计算机设备及存储介质 - Google Patents
异常号码识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110362607B CN110362607B CN201910501338.8A CN201910501338A CN110362607B CN 110362607 B CN110362607 B CN 110362607B CN 201910501338 A CN201910501338 A CN 201910501338A CN 110362607 B CN110362607 B CN 110362607B
- Authority
- CN
- China
- Prior art keywords
- product
- initial
- telephone number
- abnormal
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000002688 persistence Effects 0.000 claims description 9
- 238000011284 combination treatment Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 239000000047 product Substances 0.000 description 117
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 4
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异常号码识别方法、装置、计算机设备及存储介质,所述方法包括:查找产品数据仓库,从所述产品数据仓库中提取产品信息;从每一所述产品信息中,识别出电话号码,作为初始电话号码;将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数;若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码。上述异常号码识别方法实现了对异常号码的识别,以便后续保证业务人员能够与客户进行联系,减少了客户的流失,提高业务人员的工作效率。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种异常号码识别方法、装置、计算机设备及存储介质。
背景技术
随着社会的快速发展,各行各业在交易方面为了提供更便利的服务,会通过第三方如中介或者代理人进行客户服务,以保险公司的保险产品服务为例,对于保险公司来说,为了更好地服务客户,客户购买保险产品时,会有保险代理人办理保险手续,其中的保险代理人是指根据保险人的委托,向保险人收取代理手续费,并在保险人授权的范围内代为办理保险业务的单位或者个人,因此导致保单中联系人均为保险代理人的电话号码,而保险代理人通常是服务多个客户,也即保险代理人与客户是一对多的关系,为此,不同客户的保单中可能存在同一个代理人电话号码。在保险在保期间,必然会对保单中的保险代理人进行回访,造成了对保险代理人的骚扰,同时由于联系不上客户,造成客户名单损,影响保险公司的收益和信誉,因此,对保险代理人电话进行识别是保险机构目前亟待解决的问题。
传统地,通过数据库查询的方式进行异常电话号码识别,由于数据库无法满足保险业务变化的需求,需要每天都进行查询,非常耗时,影响异常号码识别的效率。
发明内容
本发明实施例提供一种异常号码识别方法、装置、计算机设备及存储介质,以解决异常号码识别效率不高的问题。
一种异常号码识别方法,包括:
查找产品数据仓库,从所述产品数据仓库中提取产品信息;
从每一所述产品信息中,识别出电话号码,作为初始电话号码;
将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数;
若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码。
一种异常号码识别装置,包括:
数据仓库获取模块,用于查找产品数据仓库,从所述产品数据仓库中提取产品信息;
号码识别模块,用于从每一所述产品信息中,识别出电话号码,作为初始电话号码;
弹性分布式数据集获取模块,用于将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
电话次数计算模块,用于对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数;
异常号码确定模块,用于若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异常号码识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常号码识别方法。
上述异常号码识别方法、装置、计算机设备及存储介质中,首先,查找产品数据仓库,从产品数据仓库中提取产品信息;然后,从每一产品信息中,识别出电话号码,作为初始电话号码,该识别方法方便准确,提高了初始电话号码获取效率,以便后续对该初始电话号码进行进一步地处理;接着,将每一初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集,能够批量对数据表中的初始电话号码进行处理,提高对海量数据处理的效率;进而,对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数,准确方便地获取初始电话次数,避免了对数据的复杂查询统计,提高了初始电话次数的计算效率;最后,当初始电话次数大于或者等于预设的次数阈值时,确定初始电话次数对应的初始电话号码为异常号码,提高了异常号码识别的效率,避免对保险代理人造成骚扰,以便后续保证业务人员能够与客户进行联系,减少了客户的流失,提高业务人员的工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的异常号码识别方法的应用环境示意图;
图2是本发明实施例提供的异常号码识别方法一示例图;
图3是本发明实施例提供的异常号码识别方法的另一示例图;
图4是本发明实施例提供的异常号码识别方法的另一示例图;
图5是本发明实施例提供的异常号码识别方法的另一示例图;
图6是本发明实施例提供的异常号码识别装置的一原理框图;
图7是本发明实施例提供的异常号码识别装置的另一原理框图;
图8是本发明实施例提供的异常号码识别装置的另一原理框图;
图9是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的异常号码识别方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的产品数据仓库,从产品数据仓库中提取产品信息;然后,从每一产品信息中,识别出电话号码,作为初始电话号码;接着,将每一初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;进而,对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数;最后,若初始电话次数大于或者等于预设的次数阈值,则确定初始电话次数对应的初始电话号码为异常号码。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:查找产品数据仓库,从产品数据仓库中提取产品信息。
其中,数据仓库(data warehouse)是一个面向主题的,集成的,不可更新的,随时间不断变化的数据集合,数据仓库内的数据是面向全渠道的。用于支持企业或组织的决策分析处理。本实施例中,产品数据仓库是以产品为主题域,由全渠道中和产品有关的信息汇集成的数据集市。以用户续保保单为例。具体地,产品数据仓库是一个以保单为维度,里面包含客户相关信息(例如:姓名、证件号码、地址、性别、年龄和爱好等相关标签)、保单相关信息(例如:保单号、承保日期、保险起期、保险止期、保费、险种等相关标签)、电话信息、客户和不同类型的险种的一些衍生指标(例如:连续承保年数、连续未出险次数、客户评分和险种评分等相关标签)的数据集市,给后续对客户进行服务、销售提供数据支撑,用于对全渠道名单进行统一管理,方便名单的追溯及检视。
其中,产品信息是指与保险合同相关的信息,包括保单号、保费、险种以及投保客户填写的联系方式如电话号码等。具体地,从产品数据仓库中提取产品信息可以是由源系统在数据处理过程中,由应用程序直接记录保单信息,并提取到产品信息,也可以是由源系统按照数据的逻辑规则(如业务日期)识别产品信息,然后提取出产品信息,也可以是利用数据库系统的机制,在源系统中增加设置(如Trigger、MV或者CDC),在数据处理过程中由数据库系统识别得到产品信息,然后再通过应用加工提取出产品信息。具体产品信息提取方法可根据实际需求进行选取,此处不作限定。
S20:从每一产品信息中,识别出电话号码,作为初始电话号码。
其中,初始电话号码是指产品信息中包含的电话号码。具体地,可以采用正则表达式对产品信息中的电话号码进行识别,其中的正则表达式(regular expression)是一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。
可选地,通过以下正则表达式识别电话号码:
/^[1][3,4,5,7,8][0-9]{9}$/;
该正则表达式中,“^”表示字符串的开始位置,[1]表示以1开头,[3,4,5,7,8]表示第二位可能是3、4、5、7或8等的任意一个,再加上后面的[0-9]表示数字0-9中的9位,“$”代表字符串的结束位置,也即电话号码加起来11位结束。通过该正则表达式识别电话号码的方法方便准确,提高了初始电话号码获取效率,以便后续对该初始电话号码进行进一步地处理。
S30:将每一初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集。
其中,大数据计算引擎是指对大数据进行收集、存储、计算、挖掘和管理,并通过深度学习技术和数据建模技术,使数据具有"智能"一种计算框架,该大数据计算引擎包括但不限于Spark。Spark是一种开源集群计算环境,启用了内存分布数据集,不仅能够提供交互式查询,还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。创建Spark从而支持分布式数据集上的迭代作业,可以在Hadoop文件系统中并行运行,通过第三方集群框架(Mesos)能够实现大数据的计算,用于构建大型的、低延迟的数据分析应用程序。
其中,号码弹性分布式数据集(Resilient Distributed Datasets,RDD)是指存储初始电话号码的数据集,RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,从而能够提升查询速度。具体地,将每个初始电话号码保存到大数据计算引擎Spark中,得到该号码RDD。可以理解地,由于RDD在对数据更新上具有较高性能,使得号码RDD信息更加全面完整,同时,初始电话号码信息较多,通过号码RDD,能够批量对数据表中的初始电话号码进行处理,提高对海量数据处理的效率。具体地,采用大数据计算引擎Spark为每个初始电话号码建立弹性分布式数据集(RDD),从RDD中,可以利用分区剪枝(input pruning)的特性统计同一初始电话号码出现次数。可以理解地,由于产品信息海量,初始电话次数的计算量也大,且都是重复计算,因此通过大数据计算引擎Spark的迭代优化计算,以便后续快速准确地计算出初始电话次数。
S40:对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数;
其中,初始电话次数是指相同初始电话号码出现的次数,也即该初始电话号码在车辆保单中出现的次数。
具体地,RDD中的交集运算是一种提取相同元素的集合运算,具体地,可以通过交集运算函数intersection()对RDD中的每一初始号码进行相同元素提取,并将相同元素的个数作为初始电话次数。其中的相同元素即为同一初始电话号码,相同元素的个数也即初始电话次数。通过对号码RDD中的每一初始号码进行交集运算,准确方便地获取初始电话次数,避免了对数据的复杂查询统计,提高了初始电话次数的计算效率。
S50:若初始电话次数大于或者等于预设的次数阈值,确定初始电话次数对应的初始电话号码为异常号码。
其中,异常号码是指在不同客户的保单信息上出现次数较多的电话号码,且该异常号码不是客户电话号码。可选地,该异常号码包括但不限于是保险代理人的电话号码。容易理解地,若保单信息中的存在保险代理人电话号码,也即异常号码,势必会导致业务人员对该异常电话号码进行业务联系,不仅会打扰到保险代理人,而且还会由于缺少对客户的联系导致客户减少,降低客户体验,从而影响了保险公司的效益。为此,本实施例中识别出异常号码,以便后续使得异常号码得以被排除,避免业务人员与异常号码联系影响工作效率。
其中,预设的次数阈值是指预先设置的用于识别出异常号码的初始电话次数的临界值。例如,次数阈值可以是4、5或者6等。优选地,该预设的次数阈值为4,例如,当初始电话次数值大于或等于4时,那么初始电话次数对应的初始电话号码确认为异常号码,当初始电话次数值小于4时,那么初始电话次数对应的初始电话号码不是异常号码。
需要说明的是,本实施例中的产品信息是从以同一主题域为唯一维度的产品数据仓库中提取,因此,每一客户的产品数量相同,因此,当初始电话次数大于或者等于预设的次数阈值时,则能够确定该初始电话号码为异常号码。可以理解地,如果不识别出异常号码,显然会错过真实客户,影响处理效率。本实施例中,通过将初始电话次数大于或者等于预设的次数阈值进行比较,更加准确方便地对异常号码和客户电话号码进行区分,提高了异常号码识别的效率,避免对保险代理人造成骚扰,减少了客户的流失,以便后续保证业务人员能够与客户进行联系,提高业务人员的工作效率。
本实施例中,首先,查找产品数据仓库,从续保数据仓库中提取续保信息;然后,从每一续保信息中,识别出电话号码,作为初始电话号码,该识别方法方便准确,提高了初始电话号码获取效率,以便后续对该初始电话号码进行进一步地处理;接着,将每一初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集,能够批量对数据表中的初始电话号码进行处理,提高对海量数据处理的效率;进而,对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数,准确方便地获取初始电话次数,避免了对数据的复杂查询统计,提高了初始电话次数的计算效率;最后,当初始电话次数大于或者等于预设的次数阈值时,确定初始电话次数对应的初始电话号码为异常号码,提高了异常号码识别的效率,避免对保险代理人造成骚扰,以便后续保证业务人员能够与客户进行联系,减少了客户的流失,提高业务人员的工作效率。
在一实施例中,如图3所示,步骤S10中,获取续保数据仓库,包括:
S11:获取用户产品的标签集合,并将标签集合保存在数据表中,得到保单数据表。
其中,用户产品的标签包括保单标签、保费标签、客户标签和电话号码标签等,标签集合也即用户保单的各个标签的组合。保单数据表是反映用户保单的标签集合中各个标签之间映射关系的表格。具体地,将标签集合作为一个资源文件保存到数据表中,读取该资源文件的标签标识为一个标签集合(定义为listAll),并通过SparkContext来进行广播;然后,使用Spark core读取hdfs上的用户保单的属性文件(其中每行是一个用户保单对应的的标签,如保单标签,电话号码标签等),将单个用户保单的所有标签解析成一个标签集合(定义为listUser),也即listUser是listAll的一个子集;最后将该标签集合保存在数据表中,形成产品数据表。
S12:基于预设的产品标签映射表,采用遍历的方式对产品数据表进行查询,得到对应的产品标签。
其中,预设的产品标签映射表是指预先设定的用于对产品数据表中能够反映续保关系的标签进行关联的表格。产品标签是指与预设的标签产品映射表中的一致的标签。具体地,通过遍历的方式,如foreach()方法对产品数据表中的标签进行查询,若查询到与预设的标签产品映射表一致的标签,即产品数据表中反映续保关系的标签与预设的标签续保映射表中标签相同。示例性地,预设的标签产品映射表中有车险字段、保费字段和连续承保年数字段,且在产品数据表中查询到反映续保关系的标签也为车险字段、保费字段和连续承保年数字段,则将查询到的标签作为产品标签,因此,该车险字段、保费字段和连续承保年数字段即为产品标签。
S13:对产品标签进行关联合并处理,得到保单大宽表,并将保单大宽表作为产品数据仓库。
其中,预设的标签产品关系映射表是指预先设定的用于对产品数据表中能够反映续保关系的标签进行关联的表格。大宽表(parquet)是指一行数据(字段)较多的数据表。具体地,采用Spark中的数据合并工具如createCombiner()对产品标签进行关联合并,把相关字段放在同一张表中,得到保单大宽表,也即产品数据仓库。通过对产品标签进行关联合并处理,得到保单大宽表,可以大大提高数据挖掘过程中迭代计算时的效率。
本实施例中,首先,获取用户产品的标签集合,并将标签集合保存在数据表中,得到保单数据表;然后,基于预设的产品标签映射表,采用遍历的方式对产品数据表进行查询,得到对应的产品标签;最后,对产品标签进行关联合并处理,得到产品大宽表,并将产品大宽表作为产品数据仓库,可以大大提高数据挖掘过程中迭代计算时的效率。
在一实施例中,如图4所示,步骤S20中,从保单信息中,识别出电话号码,作为初始电话号码,具体包括如下步骤:
S21:对产品信息解析,得到数字信息。
其中,数值信息是指由数值组成的信息,示例性地,“12789”、“15677789899”等。具体地,服务端使用信息解析工具Perl(Practical Extraction and Report Language,实用报表提取语言)对产品信息按照信息的数据类型(格式)进行解析,识别出其中包含的文字信息、符号信息和数字信息等,并提取出数字信息。
S22:采用正则表达式对数字信息进行匹配,获取到电话号码,作为初始电话号码。
可以理解地,由于保单信息来自于续保数据仓库中,续保数据仓库中数字信息较多,如保单ID、保费和电话号码等均包含数值信息,因此,使用正则表达式来匹配电话号码,电话号码由数字信息或符号‘-’组成,位数在10到12位之间,其中区号3-4位,号码7-8位,因此电话号码的正则表达式为:
((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$);
该正则表达式的匹配格式为:11位手机号码3-4位区号,7-8位直播号码,1-4位分机号,如:12345678901、1234-12345678-1234。正则表达式具有较强的数字信息处理能力,因此,采用通过正则表达式对数字信息进行匹配,可以快速准确地提取出初始电话号码。
本实施例中,对产品信息解析,得到数字信息;采用正则表达式对数字信息进行匹配,获取到电话号码,作为初始电话号码,可以快速准确地提取出初始电话号码。
在一实施例中,如图5所示,在步骤S30之前,即在对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数之前,该异常号码识别方法还包括如下步骤:
S61:获取每一初始电话号码对应的产品时间。
其中,产品时间是指首次获取到产品信息的时间。本步骤中的产品时间即为与初始电话号码对应的产品信息获取时间。具体地,可以采用时间提取的正则表达式获取产品时间,也可以采用SQL中的DATENAME()方法获取产品时间。
S62:根据产品时间对初始电话号码进行分组。
其中,分组是指对数据进行归类整理的操作。具体地,依据产品时间对初始电话号码分组,以便后续对同一初始电话号码进行统计。
本步骤中,可以通过大数据计算引擎Spark中的Scala分组,也可以采用基于Java的编码方式进行分组。其中的Scala进行分组,即直接遍历产品时间,将与产品时间对应的初始电话号码进行提取后分组。基于Java的编码方式进行分组,即在大数据平台上直接输入产品时间对应的时间区间,将位于同一产品时间对应的时间区间的初始电话号码分配到同一组。可以理解地,初始电话号码通过都是大批量信息,并且随着时间的推移会发生变化,因此,为了保证初始电话号码的准确性和条理性,本实施例通过产品时间对初始电话号码分组,使得初始电话号码更加清晰度和准确度,对后续计算提供参考,同时对初始电话号码进行分组,不仅能够区分出新增的电话号码,并且也能快速对电话号码进行统计,以便后续高效计算初始电话次数。
本实施例中,获取每一初始电话号码对应的产品时间,根据产品时间对初始电话号码进行分组,使得初始电话号码更加清晰度和准确度,对后续计算提供参考,同时对初始电话号码进行分组,不仅能够区分出新增的电话号码,并且也能快速对电话号码进行统计,以便后续高效计算初始电话次数。
在一实施例中,在步骤S50之后,即在确定初始电话次数对应的初始电话号码为异常号码之后,该异常号码识别方法还包括如下步骤:
S70:使用数据持久层框架对异常号码进行保存,形成异常号码数据表。
其中,数据持久层框架是一种轻量级的对象关系映射(ORM)框架,用于对文件进行存储。数据持久层框架可以是但不限于是Tbatis。本实施例中,数据持久层框架用于对异常号码进行存储。具体地,将步骤S40中识别出的所有异常号码通过SpingMVC框架传到后台,再通过数据持久层框架保存到数据库。其中,SpringMVC框架提供了构建Web应用程序的全功能MVC模块。使用Spring可插入的MVC架构,可以选择是使用内置的Spring Web框架Web框架。异常号码数据表是指存储有异常号码的数据表,用于对异常号码进行统计或者分析处理等。进一步地,可以采用该异常号码数据表筛选出异常号码,从而避免了异常号码带来的干扰。通过使用数据持久层框架对异常号码进行保存,形成异常号码数据表,能够准确快速地得到异常号码数据,还可以提高对异常号码的有效管控。
本实施例中,使用数据持久层框架对异常号码进行保存,形成异常号码数据表,能够准确快速地得到异常号码数据,还可以提高对异常号码的有效管控。
在一实施例中,提供一种异常号码识别装置,该异常号码识别装置与上述实施例中异常号码识别方法一一对应。如图6所示,该异常号码识别装置包括数据仓库获取模块10、号码识别模块20、弹性分布式数据集获取模块30、电话次数计算模块40和异常号码确定模块50。各功能模块详细说明如下:
数据仓库获取模块10,用于查找产品续保数据仓库,从产品数据仓库中提取保单信息;
号码识别模块20,用于从每一产品信息中,识别出电话号码,作为初始电话号码;
弹性分布式数据集获取模块30,用于将每一初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
电话次数计算模块40,用于对号码弹性分布式数据集中的每一初始号码进行交集运算,得到相同元素,将相同元素的个数作为初始电话次数;
异常号码确定模块50,用于若初始电话次数大于或者等于预设的次数阈值,确定初始电话次数对应的初始电话号码为异常号码。
优选地,如图7所示,数据仓库获取模块10包括数据表获取单元11、续保标签获取单元12和数据仓库获取单元13。
数据表获取单元11,用于获取用户产品的标签集合,并将标签集合保存在数据表中,得到产品数据表;
产品标签获取单元12,用于基于预设的产品标签映射表,采用遍历的方式对产品数据表进行查询,得到对应的产品标签;
数据仓库获取单元13,用于对产品标签进行关联合并处理,得到产品大宽表,并将产品大宽表作为产品数据仓库。
优选地,如图8所示,号码识别模块包括数字信息获取单元21和电话号码匹配单元22。
数字信息获取单元21,用于对产品信息解析,得到数字信息;
电话号码匹配单元22,用于采用正则表达式对数字信息进行匹配,获取到电话号码,作为初始电话号码。
优选地,该异常号码识别装置还包括产品时间获取模块和电话号码分组模块。
保单时间获取模块,用于获取每一初始电话号码对应的产品时间;
电话号码分组模块,用于根据产品时间对初始电话号码进行分组。
优选地,该异常号码识别装置还包括异常号码数据库形成模块,用于使用数据持久层框架对异常号码进行保存,形成异常号码数据库。
关于异常号码识别装置的具体限定可以参见上文中对于异常号码识别方法的限定,在此不再赘述。上述异常号码识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常号码识别方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常号码识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
查找产品数据仓库,从所述产品数据仓库中提取产品信息;
从每一所述产品信息中,识别出电话号码,作为初始电话号码;
将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数;
若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
查找产品数据仓库,从所述产品数据仓库中提取产品信息;
从每一所述产品信息中,识别出电话号码,作为初始电话号码;
将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数;
若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (5)
1.一种异常号码识别方法,其特征在于,所述异常号码识别方法包括:
查找产品数据仓库,从所述产品数据仓库中提取产品信息;
从每一所述产品信息中,识别出电话号码,作为初始电话号码;
将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为初始电话次数;
若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码;
所述查找产品数据仓库,包括:
获取用户产品的标签集合,并将所述标签集合保存在数据表中,得到产品数据表;
基于预设的产品标签映射表,采用遍历的方式对所述产品数据表进行查询,得到对应的产品标签;
对所述产品标签进行关联合并处理,得到产品大宽表,并将所述产品大宽表作为所述产品数据仓库;
所述从每一所述产品信息中,识别出电话号码,作为初始电话号码,包括:
对所述产品信息解析,得到数字信息;
采用正则表达式对所述数字信息进行匹配,获取到电话号码,作为所述初始电话号码;
在所述对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为所述初始电话次数之前,所述异常号码识别方法还包括:
获取每一所述初始电话号码对应的产品时间;
根据所述产品时间对所述初始电话号码进行分组。
2.如权利要求1所述的异常号码识别方法,其特征在于,在所述确定所述初始电话次数对应的初始电话号码为异常号码之后,所述异常号码识别方法还包括:
使用数据持久层框架对所述异常号码进行保存,形成异常号码数据库。
3.一种异常号码识别装置,其特征在于,所述异常号码识别装置包括:
数据仓库获取模块,用于查找产品数据仓库,从所述产品数据仓库中提取产品信息;
号码识别模块,用于从每一所述产品信息中,识别出电话号码,作为初始电话号码;
弹性分布式数据集获取模块,用于将每一所述初始电话号码保存到大数据计算引擎Spark中,得到号码弹性分布式数据集;
电话次数计算模块,用于对所述号码弹性分布式数据集中的每一所述初始号码进行交集运算,得到相同元素,将所述相同元素的个数作为初始电话次数;
异常号码确定模块,用于若所述初始电话次数大于或者等于预设的次数阈值,确定所述初始电话次数对应的初始电话号码为异常号码;
所述数据仓库获取模块,包括:
数据表获取单元,用于获取用户产品的标签集合,并将所述标签集合保存在数据表中,得到产品数据表;
产品标签获取单元,用于基于预设的产品标签映射表,采用遍历的方式对所述产品数据表进行查询,得到对应的产品标签;
数据仓库获取单元,用于对所述产品标签进行关联合并处理,得到产品大宽表,并将所述产品大宽表作为所述产品数据仓库;
所述号码识别模块,包括:
数字信息获取单元,用于对所述产品信息解析,得到数字信息;
电话号码匹配单元,用于采用正则表达式对所述数字信息进行匹配,获取到电话号码,作为所述初始电话号码;
保单时间获取模块,用于获取每一初始电话号码对应的产品时间;
电话号码分组模块,用于根据产品时间对初始电话号码进行分组。
4.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述异常号码识别方法。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述异常号码识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501338.8A CN110362607B (zh) | 2019-06-11 | 2019-06-11 | 异常号码识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501338.8A CN110362607B (zh) | 2019-06-11 | 2019-06-11 | 异常号码识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362607A CN110362607A (zh) | 2019-10-22 |
CN110362607B true CN110362607B (zh) | 2024-02-06 |
Family
ID=68217071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910501338.8A Active CN110362607B (zh) | 2019-06-11 | 2019-06-11 | 异常号码识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362607B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598661B (zh) * | 2020-05-14 | 2023-09-22 | 拉扎斯网络科技(上海)有限公司 | 一种异常报备处理方法、装置、平台服务器及存储介质 |
CN111651457B (zh) * | 2020-05-29 | 2023-09-22 | 中国平安财产保险股份有限公司 | 数据分组方法、装置、计算机设备及存储介质 |
CN111832998B (zh) * | 2020-07-21 | 2024-04-05 | 北京明朝万达科技股份有限公司 | 一种判断寄递电话号码真实使用者的方法及装置 |
CN113962817B (zh) * | 2021-11-11 | 2024-07-19 | 泰康保险集团股份有限公司 | 异常人员识别方法及装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7194483B1 (en) * | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
KR20130082953A (ko) * | 2011-12-23 | 2013-07-22 | 김용성 | 보이스피싱, 원링, 스팸 전화 및 문자 발신정보 수집 및 광고를 이용한 보상과 활용 방법 및 장치 |
CN104219672A (zh) * | 2014-10-14 | 2014-12-17 | 北京奇虎科技有限公司 | 来电或短信识别方法和装置 |
CN104731977A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 电话号码数据的发现与分类方法 |
WO2015098347A1 (ja) * | 2013-12-27 | 2015-07-02 | トビラシステムズ株式会社 | リスト生成装置、リスト配信装置、着信処理装置及びプログラム |
CN109640312A (zh) * | 2018-11-21 | 2019-04-16 | 上海观安信息技术股份有限公司 | “黑卡”识别方法、电子设备及计算机程序产品 |
-
2019
- 2019-06-11 CN CN201910501338.8A patent/CN110362607B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7194483B1 (en) * | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
KR20130082953A (ko) * | 2011-12-23 | 2013-07-22 | 김용성 | 보이스피싱, 원링, 스팸 전화 및 문자 발신정보 수집 및 광고를 이용한 보상과 활용 방법 및 장치 |
WO2015098347A1 (ja) * | 2013-12-27 | 2015-07-02 | トビラシステムズ株式会社 | リスト生成装置、リスト配信装置、着信処理装置及びプログラム |
CN104219672A (zh) * | 2014-10-14 | 2014-12-17 | 北京奇虎科技有限公司 | 来电或短信识别方法和装置 |
CN104731977A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 电话号码数据的发现与分类方法 |
CN109640312A (zh) * | 2018-11-21 | 2019-04-16 | 上海观安信息技术股份有限公司 | “黑卡”识别方法、电子设备及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN110362607A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362607B (zh) | 异常号码识别方法、装置、计算机设备及存储介质 | |
US20200012666A1 (en) | Dataset connector and crawler to identify data lineage and segment data | |
US9646262B2 (en) | Data intelligence using machine learning | |
CN111459985B (zh) | 标识信息处理方法及装置 | |
US9646077B2 (en) | Time-series analysis based on world event derived from unstructured content | |
US9390176B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
EP3121738A1 (en) | Data storage extract, transform and load operations for entity and time-based record generation | |
US20230004536A1 (en) | Systems and methods for a data search engine based on data profiles | |
CN107767070B (zh) | 用于信息推广的方法及装置 | |
US10592508B2 (en) | Organizing datasets for adaptive responses to queries | |
US10007718B2 (en) | Managing data within a temporal relational database management system | |
US20180046956A1 (en) | Warning About Steps That Lead to an Unsuccessful Execution of a Business Process | |
CN109189385B (zh) | 算法配置方法、装置、计算机设备及存储介质 | |
US20230161947A1 (en) | Mathematical models of graphical user interfaces | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN114186760A (zh) | 一种企业稳健运营的分析方法、系统及可读存储介质 | |
CN111737244A (zh) | 数据质量检查方法、装置、计算机系统及存储介质 | |
CN115544007A (zh) | 标签预处理方法、装置、计算机设备和存储介质 | |
CN116561134A (zh) | 业务规则处理方法、装置、设备及存储介质 | |
CN104376021A (zh) | 文件推荐系统及方法 | |
US20190286671A1 (en) | Algorithmic computation of entity information from ip address | |
US11645283B2 (en) | Predictive query processing | |
CN113760864A (zh) | 数据模型的生成方法和装置 | |
CN110851517A (zh) | 一种源数据抽取方法、装置、设备及计算机存储介质 | |
AU2020103522A4 (en) | DAMA- Dataset Discovery: Dataset Discovery in Data Analytics and Machine Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |