CN117319552A - 异常号码监测方法、装置、存储介质和电子设备 - Google Patents
异常号码监测方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN117319552A CN117319552A CN202311228385.2A CN202311228385A CN117319552A CN 117319552 A CN117319552 A CN 117319552A CN 202311228385 A CN202311228385 A CN 202311228385A CN 117319552 A CN117319552 A CN 117319552A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- target
- calling
- type
- target suspected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 499
- 238000012544 monitoring process Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000005516 engineering process Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 39
- 230000006399 behavior Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 230000011664 signaling Effects 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000012806 monitoring device Methods 0.000 abstract description 3
- 230000002354 daily effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种异常号码监测方法、装置、存储介质和电子设备。该方法包括:获取目标疑似异常号码,并确定目标疑似异常号码的号码类型;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,若是则获取目标疑似异常号码的目标主叫录音文本;在号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,以表征目标疑似异常号码是否为异常号码;在号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。本申请解决了相关信令侧或业务侧的数据分析技术无法准确辨识异常号码的技术问题。
Description
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种异常号码监测方法、装置、存储介质和电子设备。
背景技术
目前,电信运营商主要采用的防范诈骗号码监测技术手段大都是基于信令侧或业务侧的数据分析,尽管这类方法具有分析时效高、部署成本低等优势,然而该方法还存在数据间接属性强、人工干预不确定性多、误判率高、新型特征适应度差等缺点,因此,无法实现最精确地监测异常号码。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种异常号码监测方法、装置、存储介质和电子设备,以至少解决相关信令侧或业务侧的数据分析技术无法准确辨识异常号码的技术问题。
根据本申请实施例的一个方面,提供了一种异常号码监测方法,包括:获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
可选地,获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,包括:从疑似异常号码库中获取目标疑似异常号码,其中,疑似异常号码库中包括多个疑似异常号码;按照号码属性确定目标疑似异常号码的号码类型,其中,号码属性中包括以下之一:号码归属地、号码主叫通话时长、号码主叫通话频次、国际移动设备识别码,第一类号码包括至少之一:第一子类号码、第二子类号码,且第一子类号码与第二子类号码的主叫活跃度不同。
可选地,依据号码类型确定采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,包括:在目标疑似异常号码的号码类型为第一子类号码时,采用第一评判规则判断目标疑似异常号码是否为预设号码,其中,第一评判规则用于表征第一周期内目标疑似异常号码的主叫活跃度平均值不小于第一预设阈值且第一时间段内疑似异常号码的主叫频率不小于第二预设阈值,主叫活跃度平均值由第一子周期内的第一通呼叫时间与最后一通呼叫时间的时间间隔之和除以第一子周期的总数确定;在目标疑似异常号码的号码类型为第二子类号码或第二类号码时,采用第二评判规则判断目标疑似异常号码是否为预设号码,其中,第二评判规则用于表征将疑似异常号码直接转为预设号码。
可选地,在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,包括:在目标疑似异常号码的号码类型为第一子类号码时,采集第一数量的目标疑似异常号码的第一主叫录音资源,并通过自动语音识别技术对第一主叫录音资源进行转换,得到第一主叫录音文本,其中,每个第一主叫录音资源的第一时长不超过第一时间阈值;在目标疑似异常号码的号码类型为第二子类号码时,采集第二数量的目标疑似异常号码的第二主叫录音资源,并通过自动语音识别技术对第二主叫录音资源进行转换,得到第二主叫录音文本,其中,每个第二主叫录音资源的第一时长不超过第二时间阈值;在目标疑似异常号码的号码类型为第二类号码时,采集第三数量的目标疑似异常号码的第三主叫录音资源,并通过自动语音识别技术对第三主叫录音资源进行转换,得到第三主叫录音文本。
可选地,异常号码监测模型的构建过程包括:确定初始卷积神经网络模型;获取多组样本数据,其中,每组样本数据中包括:样本号码的号码标签以及样本号码的异常录音文本对应的词向量,异常录音文本是通过对样本号码的第四主叫录音资源进行语音识别并标注所得,号码标签用于表征样本号码是否为异常号码;基于多组样本数据对初始卷积神经网络监测模型进行迭代训练,得到异常号码监测模型。
可选地,获取多组样本数据,包括:获取多个样本号码的第四主叫录音资源,并采用自动语音识别技术对每个第四主叫录音资源进行转换,得到第四主叫录音文本,其中,第四主叫录音文本中至少包括:异常录音文本;对异常录音文本进行预处理操作,其中,预处理操作中至少包括:联合评估标注、分词处理、删除停用词、删除偶发性超低频词汇、删除标点符号;采用预训练的连续词袋模型对预处理后的异常录音文本进行处理,得到词向量。
可选地,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码,包括:获取异常关键字库,其中,异常关键字库中至少包括:不同安全风险程度的多类异常关键字组合;依次遍历目标疑似异常号码的目标主叫录音文本,检索目标主叫录音文本中是否包含异常关键字库中的异常关键字组合;在目标主叫录音文本中包含异常关键字库中的异常关键字组合时,按照异常关键字组合的风险等级匹配对应的评判规则确定目标疑似异常号码是否为异常号码。
可选地,异常关键字组合至少包括:安全风险程度最高的第一类异常关键字组合、安全风险程度次高的第二类异常关键字组合、安全风险程度次次高的第三类异常关键字组合,其中,按照异常关键字组合的组合类型匹配对应的评判规则确定目标疑似异常号码是否为异常号码,包括:在异常关键字组合的组合类型为第一类异常关键字组合时,确定将目标疑似异常号码的第一号码信息发送至专用处理平台,并接收来自专用处理平台反馈的处理结果,其中,第一号码信息中至少包括:第一类异常关键字组合,处理结果用于表征目标疑似异常号码是否为异常号码;在异常关键字组合的组合类型为第二类异常关键字组合时,确定在目标疑似异常号码的多个号码行为的行为分数值之和是否大于预设的预警阈值,并在多个号码行为的行为分数值之和大于预设的预警阈值时,将目标疑似异常号码的第二号码信息发送至专用处理平台,并接收来自专用处理平台反馈的处理结果,其中,第二号码信息中至少包括:第二类异常关键字组合,号码行为中包括:每日第二时间段内的呼叫频次大于第三预设阈值、每日被叫号码数大于第四预设阈值、每日接通率占比小于第五预设阈值、每日敏感通话时长占比平均值小于第六预设阈值、存在呼叫转移行为、呼叫注册地为高风险地区,每日敏感通话时长占比平均值由每日大于第一通话时长的通话次数占当日总次数的第一比例与每日小于第二通话时长的通话次数占当日总次数的第二比例确定;在异常关键字组合的组合类型为第三类异常关键字组合时,记录第三时间段内的第三类异常关键字组合的命中次数和命中号码清单,并根据命中次数和命中号码清单确定是否将第三类异常关键字组合重新调整为第一类异常关键字组合或第二类异常关键字组合。
根据本申请实施例的另一方面,还提供了一种异常号码监测装置,包括:获取模块,用于获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;评判模块,用于采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;第一监测模块,用于在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;第二监测模块,用于在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的异常号码监测方法。
在本申请实施例中,获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
通过上述技术方案,考虑不同安全风险程度的疑似异常号码的号码特性,实现差异化地主叫录音文本获取,以确保主叫录音文本的可靠性;同时,针对不同安全风险程度的异常号码采用不同的监测方法,其中,对于安全风险等级较低的第一类号码,通过神经网络模型监测号码行为以确定疑似异常号码是否为异常号码;而对于安全风险等级较高的第二类号码,直接采用关键词匹配录音文本内容,根据匹配结果进一步地确定该疑似异常号码是否为异常号码,提升异常号码判别精度,从而解决了相关信令侧或业务侧的数据分析技术无法准确辨识异常号码技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据图本申请实施例的一种用于实现异常号码监测方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种可选的异常号码监测方法的流程示意图;
图3是根据本申请实施例的一种可选的异常号码监测模型的结构示意图;
图4是根据本申请实施例的一种可选的异常号码监测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,本申请所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本申请实施例,提供了一种异常号码监测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现异常号码监测方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的异常号码监测方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的异常号码监测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,图2是根据本申请实施例的一种可选的异常号码监测方法的流程示意图,如图2所示,该方法至少包括步骤S202-S208,其中:
步骤S202,获取目标疑似异常号码,并确定目标疑似异常号码的号码类型。
在上述步骤S202提供的技术方案中,上述目标疑似异常号码是指可能存在安全风险的异常号码,例如疑似涉诈高风险号码。另外,根据目标疑似异常号码的安全风险程度的高低,确定目标疑似异常号码的号码类型,其中,本申请实施例中所划分的第二类号码的安全风险程度高于第一类号码,也就是说,将安全风险程度较低的一类称为第一类号码,而将安全风险程度较高的一类称为第二类号码,例如将疑似涉诈高风险较低的一类作为第一类号码,而将疑似涉诈高风险较低的一类作为第二类号码。
作为一种可选的实施方式,在上述步骤S202提供的技术方案中,该方法可以包括:从疑似异常号码库中获取目标疑似异常号码,其中,疑似异常号码库中包括多个疑似异常号码;按照号码属性确定目标疑似异常号码的号码类型,其中,号码属性中包括以下之一:号码归属地、号码主叫通话时长、号码主叫通话频次、国际移动设备识别码,第一类号码包括至少之一:第一子类号码、第二子类号码,且第一子类号码与第二子类号码的主叫活跃度不同。
在该实施例中,上述疑似异常号码库是预先构建的,其是由多个第一类号码和第二类号码组成,并对各个号码进行整理和清洗所得的。通常,还可以通过专用通信路线对疑似异常号码库进行不定时更新,以确保疑似异常号码库内疑似异常号码的实时性。另外,还可以根据号码属性确定疑似异常号码库内目标疑似异常号码的类型,并进一步地根据号码属性(号码主叫通话时长、号码主叫通话频次)对于安全风险程度较低的一类号码进行划分,得到较为活跃的第一子类号码以及较为沉默的第二子类号码。其中,上述主叫活跃度是用于衡量号码的使用情况和电话线路的繁忙度,其可以根据呼叫次数、呼叫时长、呼叫时间分布等指标进行计算。
举例而言,可以将第一类号码称为“准高危号码”,第二类号码称为“特高危号码”,其中,对第一类号码进行划分所得的第一子类号码称为“准高危活跃号码”,第二子类号码称为“准高危沉默号码”,以下面三类不同号码类型的确定标准为例简单介绍如何划分号码类型,其中:
准高危活跃号码的确定标准可以是:每日小于300s的通话时长的主叫次数占当日总通话次数高于60%,或每日10点至18点的主叫呼叫频次占当日总呼叫频次的85%,或者每日10点至18点的主叫呼叫活跃值高于前一月呼叫活跃值1.2倍的平均值;
准高危沉默号码的确定标准可以是:满足号码未使用3个月及以上,突然开始大量呼出,或大量收发短信,或大量使用流量;
特高危号码的确定标准可以是:已被相关部门标记,或者在相关部门建立的国际移动设备识别码(International Mobile Equipment Identification Number,IMIE)重点号码库中。
需要说明的是,所获取的目标疑似异常号码是脱敏后的号码,即对目标疑似异常号码进行部分或全部替换、加密或删除,以使其不再能够被直接识别和使用,同时保留一定的号码数据特征以维持号码数据的可用性。
步骤S204,采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本。
在上述步骤S204提供的技术方案中,由于疑似异常号码库内存储的号码可能还存在一些被误判的正常号码,因此,在获取目标疑似异常号码后,可以进一步地依据不同安全风险程度的疑似异常号码采用不同的评判规则确定该号码是否为预设号码,其中,该预设号码用于识别目标疑似异常号码是否存在潜在安全风险,如欺诈、垃圾信息、诈骗等违法违规行为的号码,因此预设号码为预先确定好的,又可以被称为“灰名单号码”。在确定该目标疑似异常号码是预设号码时,可以获取该号码的目标主叫录音文本,用于后续的异常号码监测分析。
作为一种可选的实施方式,在上述步骤S204提供的技术方案中,针对不同号码类型可以采用不同的评判规则,其中,
在目标疑似异常号码的号码类型为第一子类号码时,采用第一评判规则判断目标疑似异常号码是否为预设号码,其中,第一评判规则用于表征第一周期内目标疑似异常号码的主叫活跃度平均值不小于第一预设阈值且第一时间段内疑似异常号码的主叫频率不小于第二预设阈值,主叫活跃度平均值由第一子周期的第一通呼叫时间与最后一通呼叫时间的时间间隔之和除以第一子周期的总数确定;
在目标疑似异常号码的号码类型为第二子类号码或第二类号码时,采用第二评判规则判断目标疑似异常号码是否为预设号码,其中,第二评判规则用于表征将疑似异常号码直接转为预设号码。
其中,为了便于更好地理解上述的评判规则,将通过如下示例对上述不同的评判规则进行解释说明。
在目标疑似异常号码的号码类型为准高危活跃号码(即第一子类号码)时,根据当月每日9-17点(即第一周期)目标疑似异常号码的主叫活跃度平均值不小于第一预设阈值以及每90分钟(即第一时间段)内疑似异常号码的主叫频率不小于第二预设阈值,确定该目标疑似异常号码是否为预设号码,其中,上述当月每日9-17点目标疑似异常号码的主叫活跃度平均值可以通过如下公式进行计算:
其中,A表示每日9-17点(即第一子周期)的目标疑似异常号码的主叫活跃度平均值,T1表示每日9点至13点间第一通呼叫时间与最后一通呼叫的时间间隔,T2表示每日13点至17点间第一通呼叫时间与最后一通呼叫的时间间隔,T为统计日期数目(第一子周期的总数)。
在目标疑似异常号码的号码类型为准高危沉默号码(即第二子类号码)或者特高危号码(即第二类号码)时,可以直接确定该准高危沉默号码或者特高危号码为预设号码。
在按照上述评判规则确定目标疑似异常号码为预设号码后,预设号码向核心网发起呼叫,在核心网收到预设号码的呼叫后首先会进行逻辑判断,经鉴权后再次确认该通呼叫需要进行录音采样时,核心网的业务逻辑执行模块才会连接至媒体模块,申请主叫、被叫通话的媒体资源,下面将简单介绍核心网侧进行主被叫媒体的协商过程:
首先,主叫号码外呼被叫号码,此时核心网信令消息INVITE SDP里面携带的媒体信息为所需主叫媒体资源;
在被叫号码接通后,核心网信令消息INVITE 200ok SDP携带的媒体信息为所需被叫媒体资源;
从而主叫媒体资源与被叫媒体资源通过桥接实现该通话内容的媒体流保存,进而生成相关通话的录音文件与对应标签。
可选地,在本申请实施例中,根据不同号码特性选择如下三类主叫通话采样方式采集录音文本,包括:
在目标疑似异常号码的号码类型为第一子类号码时,采集第一数量的目标疑似异常号码的第一主叫录音资源,并通过自动语音识别技术对第一主叫录音资源进行转换,得到第一主叫录音文本,其中,每个第一主叫录音资源的第一时长不超过第一时间阈值。
其中,上述第一数量通常情况下可以理解为,每日采集此类号码的主叫录音资源不超过n1次,而若此类号码被监测预警为漫游外地呼叫、高危地呼叫、呼转等情景时,则第一数量又可以被理解为,每日采集此类号码的主叫录音资源不超过n1+N1次。另外,需要确保所采集的主叫录音资源的第一时长最长不超过第一时间阈值,如180s,作为主叫录音资源的通话时长不能小于10s。在完成主叫录音资源的选取后,进一步地通过自动语音识别技术,如ASR(Automatic Speech Recognition)技术将第一主叫录音资源进行转换为第一主叫录音文本。
在目标疑似异常号码的号码类型为第二子类号码时,采集第二数量的目标疑似异常号码的第二主叫录音资源,并通过自动语音识别技术对第二主叫录音资源进行转换,得到第二主叫录音文本,其中,每个第二主叫录音资源的第一时长不超过第二时间阈值。
其中,上述第二数量通常情况下可以理解为,每日采集此类号码的主叫录音资源不超过n2次,而若此类号码被监测预警为漫游外地呼叫、高危地呼叫、呼转等情景时,则第二数量又可以被理解为,每日采集此类号码的主叫录音资源不超过n2+N2次。另外,需要确保所采集的主叫录音资源的第二时长最长不超过第二时间阈值,如360s,作为主叫录音资源的通话时长不能小于5s。在完成主叫录音资源的选取后,进一步地通过自动语音识别技术,如ASR技术将第二主叫录音资源进行转换为第二主叫录音文本。
在目标疑似异常号码的号码类型为第二类号码时,采集第三数量的目标疑似异常号码的第三主叫录音资源,并通过自动语音识别技术对第三主叫录音资源进行转换,得到第三主叫录音文本。
其中,对于每日采集此类号码的第三主叫录音资源的次数以及采样录音时间不具体限制,因此,上述第三数量可以根据实际应用场景自行设定。
步骤S206,在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果。
在上述步骤S206提供的技术方案中,针对安全风险程度较低的第一类号码,可以根据其主叫录音文本,采用预先训练好的异常号码监测模型得到用于表征目标疑似异常号码是否为异常号码的监测结果,其中,本申请实施例中的上述监测模型可以根据目标疑似异常号码的录音文本进行分析,得到有效、准确的监测结果,在此过程中减少了人工干预,因此在一定程度上可以提升分析客观性、精准性以及数据信息安全性。需要说明的是,上述对目标疑似异常号码的目标主叫录音文本进行监测是经过授权后的。
具体地,上述异常号码监测模型的构建过程可以如下步骤S1-S3,其中:
步骤S1,确定初始卷积神经网络模型。
其中,上述初始卷积神经网络模型可以是基于NLP(Natural LanguageProcessing,自然语言处理)技术的文本卷积神经网络(Convolutional Neural Networkfor text,text-CNN)所构建的初始模型。
步骤S2,获取多组样本数据,其中,每组样本数据中包括:样本号码的号码标签以及样本号码的异常录音文本对应的词向量,异常录音文本是通过对样本号码的第四主叫录音资源进行语音识别并标注所得,号码标签用于表征样本号码是否为异常号码。
可选地,可以按照如下方法获取样本数据:获取多个样本号码的第四主叫录音资源,并采用自动语音识别技术对每个第四主叫录音资源进行转换,得到第四主叫录音文本,其中,第四主叫录音文本中至少包括:异常录音文本;对异常录音文本进行预处理操作,其中,预处理操作中至少包括:联合评估标注、分词处理、删除停用词、删除偶发性超低频词汇、删除标点符号;采用预训练的连续词袋模型对预处理后的异常录音文本进行处理,得到词向量。
上述方案可以理解为,获取已知号码标签(即异常号码和非异常号码)的样本号码的第四主叫录音资源,且该第四主叫录音资源所转换得到的第四主叫录音文本中需要包含可以证明该样本号码为异常号码的异常录音文本,其中,仍然是通过自动语音识别技术将第四主叫录音资源进行转换为第四主叫录音文本;在得到包含异常录音文本的第四主叫录音文本后,对异常录音文本进行评估标准,并采用jieba分词算法进行分词处理,同时删除停用词、删除偶发性超低频词汇、不相关词汇、标点符号等,以抽取具有典型性表征的词汇,其中,上述所抽取的词汇若包括类似:贷款、代办信用卡、冒充电商物流客服、刷单返利、假网络婚恋、假网络交友、虚假购物、虚假服务、虚假网络投资理财、虚假征信等影响号码安全的词汇可以作为负样本,而将其他词汇作为正样本;进而采用与训练的连续词袋模型对所抽取的词汇转换为词向量的数字特征形式,后续可作为初始卷积神经网络监测模型的输入特征,其中,上述连续词袋模型(Continuous Bag of Words,CBoW)是一种用于生成词向量的神经网络模型,词向量用于将将单词表示位固定长度的实数向量。
步骤S3,基于多组样本数据对初始卷积神经网络监测模型进行迭代训练,得到异常号码监测模型。
其中,在得到多组样本数据后,还可以选择80%作为训练样本,20%作为测试样本,通过训练样本训练得到异常号码监测模型后,通过测试样本修正模型参数,以确保模型质量。
具体地,本申请实施例中异常号码监测模型的模型结构如图3所示,该模型共有5层,包括输入层、卷积层、最大池化层、全连接层和分类层,其中,
输入层用于接收预设的连续词袋模型与原始词嵌入矩阵预处理后得到的词向量矩阵wj;
卷积层用于遍历不同卷积核(宽度分别为2、3、4的卷积核),在进行3次卷积操作,得到特征图a,其表达式可以写作:
a=[a1,a2,…,aj]
aj=f(wj·k+b)
其中,上述f(·)表示激活函数,k表示权值矩阵,wj表示第j个词汇的词向量矩阵,b表示偏置值。
最大池化层用于选择卷积层中输出特征图中值最大的向量Vmax,其表达式可以写作:
Vmax=max{a}
全连接层用于接受最大池化层的输出向量,并将前几层网络经过学习取得的特征映射到样本标记空间。此外,为了防止模型出现过拟合现象,并加快训练效率,本申请实施例中采用了Dropout机制丢弃部分神经元,其中,可以将模型中将1/2的隐藏层节点的值设为0,使其不参与计算。
分类层用于使用Softmax函数将全连接层得到的结果进行归一化输出,以得到研判结果。
步骤S208,在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
在上述步骤S208提供的技术方案中,由于第二类号码的安全风险程度较高,也就说明其可能具备涉诈风险高、欺骗性强、迷惑性大等特点,因此,针对此类号码可以采用关键词匹配算法对目标疑似异常号码的目标主叫录音文本进行监测,以确定该目标疑似异常号码是否为异常号码。
作为一种可选的实施方式,在上述步骤S208提供的技术方案中,该方法可以包括如下步骤S2081-S2083,其中,
步骤S2081,获取异常关键字库,其中,异常关键字库中至少包括:不同安全风险程度的多类异常关键字组合;
步骤S2082,依次遍历目标疑似异常号码的目标主叫录音文本,检索目标主叫录音文本中是否包含异常关键字库中的异常关键字组合;
步骤S2083,在目标主叫录音文本中包含异常关键字库中的异常关键字组合时,按照异常关键字组合的风险等级匹配对应的评判规则确定目标疑似异常号码是否为异常号码。
在上述实施例中,异常关键字库是由大量且敏感的异常关键字组合构成,且异常关键字组合具体是由表示逻辑“与”、“或”将若干个异常关键词进行复合构成,例如(AB或CD)与(EF或HI),其中,AB、CD、EF、HI均为异常关键词,且A、B、C、D、E、F均为异常关键词中的异常关键字。另外,为了便于针对不同风险程度的号码进行不同的研判处理,本申请实施例中还可以按照异常关键词的安全风险等级,可以将异常关键字库内的异常关键字组合大致分为如下三类:安全风险程度最高的第一类异常关键字组合(又可以称为重点异常关键字组合)、安全风险程度次高的第二类异常关键字组合(又可以称为常规异常关键字组合)、安全风险程度次次高的第三类异常关键字组合(又可以称为试点异常关键字组合)。
在获取包含上述三种类型的异常关键字组合的异常关键字库后,本申请实施例中提出了一种改进的关键词匹配算法,该方法考虑提取异常关键词间的语义相关性,从而可以确保检索结果的准确度。
以上述异常关键字组合(AB或CD)与(EF或HI)为例,对改进的关键词匹配算法的应用过程进行详述:
首先,取异常关键词AB中的首位字A,从目标疑似异常号码的目标主叫录音文本的开始字位依次进行扫描,当目标主叫录音文本命中该字A时,则从发现位置开始,向上下文扫描W个字位,确认是否命中字B;
若在W个字位内命中该字B时,则继续取异常关键词EF中的首位字E,并目标疑似异常号码的目标主叫录音文本的开始字位依次进行扫描,当目标主叫录音文本命中该字E时,则从发现位置开始,向上下文扫描W个字位,确认是否命中字F;若在W个字位内命中F,则检索过程结束;而若未命中F,同理,取异常关键词HI中的首位字H,从目标疑似异常号码的目标主叫录音文本的开始字位依次进行扫描,直至未有关键字H命中或整体命中HI,流程结束;
若在W个字位内未命中该字B时,则取异常关键词CD中的首位字C,从目标疑似异常号码的目标主叫录音文本的开始字位依次进行扫描,当目标主叫录音文本命中该字C时,继续从发现位置开始,向上下文扫描W个字位,确认是否命中字D。若命中D,则转向逻辑关系“与”之后的关键词(EF或HI),同理依次运行直至未有异常关键词命中或命中EF或命中HI。而若未命中D,则检索过程结束。
其中,上述例子中讲述了异常关键字组合内包括逻辑“与”关系下的关键词匹配流程,同理当异常关键字组合内包括多组逻辑“与”、“或”关系时,同样可以参考上述过程,此处不再多做赘述。
通过上述关键词匹配算法确定目标主叫录音文本中命中异常关键字库中的异常关键字组合后,进而可以根据命中异常关键字组合的类型采用如下方法对目标疑似异常号码进行研判,其中,
在异常关键字组合的组合类型为第一类异常关键字组合时,确定将目标疑似异常号码的第一号码信息发送至专用处理平台,并接收来自专用处理平台反馈的处理结果,其中,第一号码信息中至少包括:第一类异常关键字组合,处理结果用于表征目标疑似异常号码是否为异常号码。
具体地,对于命中第一类异常关键字组合(即重点涉诈关键字组合)的情况下,可以直接将目标疑似异常号码的第一号码信息发送至专用处理平台,专用处理平台根据接收到的第一号码信息确定目标疑似异常号码是否为异常号码,其中,上述第一号码信息中包括但不仅限于:命中的重点涉诈关键字组合、目标疑似异常号码、目标疑似异常号码的标识符等。
在异常关键字组合的组合类型为第二类异常关键字组合时,确定在目标疑似异常号码的多个号码行为的行为分数值之和是否大于预设的预警阈值,并在多个号码行为的行为分数值之和大于预设的预警阈值时,将目标疑似异常号码的第二号码信息发送至专用处理平台,并接收来自专用处理平台反馈的处理结果,其中,第二号码信息中至少包括:第二类异常关键字组合,号码行为中包括:每日第二时间段内的呼叫频次大于第三预设阈值、每日被叫号码数大于第四预设阈值、每日接通率占比小于第五预设阈值、每日敏感通话时长占比平均值小于第六预设阈值、存在呼叫转移行为、呼叫注册地为高风险地区,每日敏感通话时长占比平均值由每日大于第一通话时长的通话次数占当日总次数的第一比例与每日小于第二通话时长的通话次数占当日总次数的第二比例确定。
具体地,对于命中第二类异常关键字组合(即常规涉诈关键字组合)的情况下,可以引入“打分研判”机制,即根据目标疑似异常号码的多个号码行为的行为分数值之和是否大于预设的预警阈值确定是否将目标疑似异常号码的第二号码信息发送至专用处理平台。其中,上述“打分研判”机制主要针对号码基础行为信息、呼叫行为信息进行打分研判,号码行为中包括但不仅限于:呼叫频次、被叫号码数、接通率占比、敏感通话时长占比平均值、呼叫转移、发话地是否为高风险地区等,下表1展示了一种可选的“打分研判”机制。
表1
其中,上述存在呼叫转移行为以及呼叫注册地为高风险地区的分值设定具体可以结合实际应用场景进行确定。另外,关于上述敏感通话时长占比平均值的定义如下:
其中,A1表示每日通话时长大于60s(即第一通话时长)的通话次数占当日总通话次数的第一比例,A2表示当日通话时长大于3s(即第二通话时长)的通话次数占总通话次数的第二比例,a1与a2分别为对应比例的权重值。
进一步地,在确定“打分研判”机制后,则可以根据号码行为得到其行为分值总和,并在行为分值总和D1+D2+D3+D4+D5+D6大于预设的预警阈值G时,可以将将目标疑似异常号码的第二号码信息发送至专用处理平台,专用处理平台根据接收到的第二号码信息确定目标疑似异常号码是否为异常号码。其中,上述第二号码信息中包括但不仅限于:命中的常规涉诈关键字组合、目标疑似异常号码、目标疑似异常号码的标识符等。
在异常关键字组合的组合类型为第三类异常关键字组合时,记录第三时间段内的第三类异常关键字组合的命中次数和命中号码清单,并根据命中次数和命中号码清单确定是否将第三类异常关键字组合重新调整为第一类异常关键字组合或第二类异常关键字组合。
具体地,对于命中第三类异常关键字组合(即试点涉诈关键字组合)的情况下,可以继续对该特高危号码进行监测,并在第三时间段内的第三子周期(如一周内每天)生成该第三类异常关键字组合的命中次数统计情况和命中号码清单,后续便可以通过人工介入,依据命中次数统计情况和命中号码清单确定是否需要将第三类异常关键字组合调整为第一类异常关键字组合或第二类异常关键字组合,若需要则根据调整后的异常关键字组合类型执行相应的研判过程。
基于上述各个步骤所限定的方案,可以获知,在实施例具备以下优势:
(1)通过对脱敏后的疑似异常号码的呼叫内容进行分析,相比于传统分析用户画像或话单数据而言,通过获取源头最直接的数据进行分析,可以确保后续分析结果的准确性,同时还不会影响用户感知;
(2)考虑不同类型号码的使用场景,采用不同的录音文本采集方法可以确保用于后续监测分析的数据的有效性;
(3)本申请实施例针对不同安全风险程度的号码采用不同的监测方法,创新性地将两种监测方法与用户呼叫行为数据、异常关键字组合的敏感性程度相结合,提升最终监测的精确度;
(3)针对准高危号码采用通过Text-CNN算法构建的异常号码监测模型,自适应分析疑似异常号码的呼叫语义文本,以对呼叫语义文本是否异常做出有效、精准的研判,同时,该模型可以极大地减少人工干预,在一定程度上提升了分析客观性、精准性以及数据信息安全性;
(4)考虑目标录音文本中的异常关键字组合间的语义关系,采用改进的关键词匹配算法确定目标录音文本中是否命中异常关键字组合,提升结果的准确度,同时,还根据异常关键字组合的敏感程度采用不同的处理方法,其中,针对第二类异常关键字组合,结合号码行为提出的“打分研判”机制可以有效降低误判率。
由此可见,通过本申请实施例的技术方案,可以有效解决相关信令侧或业务侧的数据分析技术无法准确辨识异常号码的技术问题。
实施例2
基于本申请实施例1,还提供了一种异常号码监测装置的实施例,该装置运行时执行上述实施例的上述异常号码监测方法。其中,图4是根据本申请实施例的一种可选的异常号码监测装置的结构示意图,如图4所示,该异常号码监测装置中至少包括获取模块41,评判模块42,第一监测模块43和第二监测模块44,其中:
获取模块41,用于获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;
评判模块42,用于采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;
第一监测模块43,用于在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;
第二监测模块44,用于在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
需要说明的是,上述异常号码监测装置中的各个模块可以是程序模块(例如是实现某种特定功能的程序指令集合),也可以是硬件模块,对于后者,其可以表现为以下形式,但不限于此:上述各个模块的表现形式均为一个处理器,或者,上述各个模块的功能通过一个处理器实现。
实施例3
根据本申请实施例,还提供了一种非易失性存储介质,该非易失性存储介质中存储有程序,其中,在程序运行时控制非易失性存储介质所在设备执行实施例1中的异常号码监测方法。
可选地,非易失性存储介质所在设备通过运行该程序执行实现以下步骤:
获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
根据本申请实施例,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行实施例1中的异常号码监测方法。
可选地,程序运行时执行实现以下步骤:
获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
根据本申请实施例,还提供了一种电子设备,其中,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述实施例1中的异常号码监测方法。
可选地,处理器被配置为通过计算机程序执行实现以下步骤:
获取目标疑似异常号码,并确定目标疑似异常号码的号码类型,其中,号码类型至少包括:第一类号码、第二类号码,且第二类号码的安全风险程度高于第一类号码;采用与号码类型对应的评判规则判断目标疑似异常号码是否为预设号码,并在目标疑似异常号码为预设号码时,获取目标疑似异常号码的目标主叫录音文本,其中,预设号码用于识别目标疑似异常号码是否存在潜在安全风险;在目标疑似异常号码的号码类型为第一类号码时,采用预训练的异常号码监测模型对目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,监测结果用于表征目标疑似异常号码是否为异常号码;在目标疑似异常号码的号码类型为第二类号码时,通过预设的异常关键字库与目标疑似异常号码的目标主叫录音文本的匹配结果,确定目标疑似异常号码是否为异常号码。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种异常号码监测方法,其特征在于,包括:
获取目标疑似异常号码,并确定所述目标疑似异常号码的号码类型,其中,所述号码类型至少包括:第一类号码、第二类号码,且所述第二类号码的安全风险程度高于所述第一类号码;
采用与所述号码类型对应的评判规则判断所述目标疑似异常号码是否为预设号码,并在所述目标疑似异常号码为所述预设号码时,获取所述目标疑似异常号码的目标主叫录音文本,其中,所述预设号码用于识别所述目标疑似异常号码是否存在潜在安全风险;
在所述目标疑似异常号码的号码类型为所述第一类号码时,采用预训练的异常号码监测模型对所述目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,所述监测结果用于表征所述目标疑似异常号码是否为异常号码;
在所述目标疑似异常号码的号码类型为所述第二类号码时,通过预设的异常关键字库与所述目标疑似异常号码的目标主叫录音文本的匹配结果,确定所述目标疑似异常号码是否为所述异常号码。
2.根据权利要求1所述的方法,其特征在于,获取目标疑似异常号码,并确定所述目标疑似异常号码的号码类型,包括:
从疑似异常号码库中获取所述目标疑似异常号码,其中,所述疑似异常号码库中包括多个疑似异常号码;
按照号码属性确定所述目标疑似异常号码的号码类型,其中,所述号码属性中包括以下之一:号码归属地、号码主叫通话时长、号码主叫通话频次、国际移动设备识别码,所述第一类号码包括至少之一:第一子类号码、第二子类号码,且所述第一子类号码与所述第二子类号码的主叫活跃度不同。
3.根据权利要求2所述的方法,其特征在于,依据所述号码类型确定采用与所述号码类型对应的评判规则判断所述目标疑似异常号码是否为预设号码,包括:
在所述目标疑似异常号码的号码类型为所述第一子类号码时,采用第一评判规则判断所述目标疑似异常号码是否为所述预设号码,其中,所述第一评判规则用于表征第一周期内所述目标疑似异常号码的主叫活跃度平均值不小于第一预设阈值且第一时间段内所述疑似异常号码的主叫频率不小于第二预设阈值,所述主叫活跃度平均值由第一子周期内的第一通呼叫时间与最后一通呼叫时间的时间间隔之和除以所述第一子周期的总数确定;
在所述目标疑似异常号码的号码类型为所述第二子类号码或所述第二类号码时,采用第二评判规则判断所述目标疑似异常号码是否为所述预设号码,其中,所述第二评判规则用于表征将所述疑似异常号码直接转为所述预设号码。
4.根据权利要求2所述的方法,其特征在于,在所述目标疑似异常号码为所述预设号码时,获取所述目标疑似异常号码的目标主叫录音文本,包括:
在所述目标疑似异常号码的号码类型为所述第一子类号码时,采集第一数量的所述目标疑似异常号码的第一主叫录音资源,并通过自动语音识别技术对所述第一主叫录音资源进行转换,得到第一主叫录音文本,其中,每个所述第一主叫录音资源的第一时长不超过第一时间阈值;
在所述目标疑似异常号码的号码类型为所述第二子类号码时,采集第二数量的所述目标疑似异常号码的第二主叫录音资源,并通过自动语音识别技术对所述第二主叫录音资源进行转换,得到第二主叫录音文本,其中,每个所述第二主叫录音资源的第一时长不超过第二时间阈值;
在所述目标疑似异常号码的号码类型为所述第二类号码时,采集第三数量的所述目标疑似异常号码的第三主叫录音资源,并通过自动语音识别技术对所述第三主叫录音资源进行转换,得到第三主叫录音文本。
5.根据权利要求1所述的方法,其特征在于,所述异常号码监测模型的构建过程包括:
确定初始卷积神经网络模型;
获取多组样本数据,其中,每组所述样本数据中包括:样本号码的号码标签以及所述样本号码的异常录音文本对应的词向量,所述异常录音文本是通过对所述样本号码的第四主叫录音资源进行语音识别并标注所得,所述号码标签用于表征所述样本号码是否为所述异常号码;
基于多组所述样本数据对所述初始卷积神经网络监测模型进行迭代训练,得到所述异常号码监测模型。
6.根据权利要求5所述的方法,其特征在于,获取多组样本数据,包括:
获取多个所述样本号码的第四主叫录音资源,并采用自动语音识别技术对每个所述第四主叫录音资源进行转换,得到第四主叫录音文本,其中,所述第四主叫录音文本中至少包括:异常录音文本;
对所述异常录音文本进行预处理操作,其中,所述预处理操作中至少包括:联合评估标注、分词处理、删除停用词、删除偶发性超低频词汇、删除标点符号;
采用预训练的连续词袋模型对预处理后的所述异常录音文本进行处理,得到所述词向量。
7.根据权利要求1所述的方法,其特征在于,通过预设的异常关键字库与所述目标疑似异常号码的目标主叫录音文本的匹配结果,确定所述目标疑似异常号码是否为所述异常号码,包括:
获取所述异常关键字库,其中,所述异常关键字库中至少包括:不同安全风险程度的多类异常关键字组合;
依次遍历所述目标疑似异常号码的目标主叫录音文本,检索所述目标主叫录音文本中是否包含所述异常关键字库中的异常关键字组合;
在所述目标主叫录音文本中包含所述异常关键字库中的异常关键字组合时,按照所述异常关键字组合的风险等级匹配对应的评判规则确定所述目标疑似异常号码是否为所述异常号码。
8.根据权利要求7所述的方法,其特征在于,所述异常关键字组合至少包括:安全风险程度最高的第一类异常关键字组合、安全风险程度次高的第二类异常关键字组合、安全风险程度次次高的第三类异常关键字组合,其中,按照所述异常关键字组合的组合类型匹配对应的评判规则确定所述目标疑似异常号码是否为所述异常号码,包括:
在所述异常关键字组合的组合类型为所述第一类异常关键字组合时,确定将所述目标疑似异常号码的第一号码信息发送至专用处理平台,并接收来自所述专用处理平台反馈的处理结果,其中,所述第一号码信息中至少包括:所述第一类异常关键字组合,所述处理结果用于表征所述目标疑似异常号码是否为所述异常号码;
在所述异常关键字组合的组合类型为所述第二类异常关键字组合时,确定在所述目标疑似异常号码的多个号码行为的行为分数值之和是否大于预设的预警阈值,并在多个所述号码行为的行为分数值之和大于预设的预警阈值时,将所述目标疑似异常号码的第二号码信息发送至所述专用处理平台,并接收来自所述专用处理平台反馈的处理结果,其中,所述第二号码信息中至少包括:所述第二类异常关键字组合,所述号码行为中包括:每日第二时间段内的呼叫频次大于第三预设阈值、每日被叫号码数大于第四预设阈值、每日接通率占比小于第五预设阈值、每日敏感通话时长占比平均值小于第六预设阈值、存在呼叫转移行为、呼叫注册地为高风险地区,所述每日敏感通话时长占比平均值由每日大于第一通话时长的通话次数占当日总次数的第一比例与每日小于第二通话时长的通话次数占所述当日总次数的第二比例确定;
在所述异常关键字组合的组合类型为所述第三类异常关键字组合时,记录第三时间段内的所述第三类异常关键字组合的命中次数和命中号码清单,并根据所述命中次数和命中号码清单确定是否将所述第三类异常关键字组合重新调整为所述第一类异常关键字组合或所述第二类异常关键字组合。
9.一种异常号码监测装置,其特征在于,包括:
获取模块,用于获取目标疑似异常号码,并确定所述目标疑似异常号码的号码类型,其中,所述号码类型至少包括:第一类号码、第二类号码,且所述第二类号码的安全风险程度高于所述第一类号码;
评判模块,用于采用与所述号码类型对应的评判规则判断所述目标疑似异常号码是否为预设号码,并在所述目标疑似异常号码为所述预设号码时,获取所述目标疑似异常号码的目标主叫录音文本,其中,所述预设号码用于识别所述目标疑似异常号码是否存在潜在安全风险;
第一监测模块,用于在所述目标疑似异常号码的号码类型为所述第一类号码时,采用预训练的异常号码监测模型对所述目标疑似异常号码的目标主叫录音文本进行监测,得到监测结果,其中,所述监测结果用于表征所述目标疑似异常号码是否为异常号码;
第二监测模块,用于在所述目标疑似异常号码的号码类型为所述第二类号码时,通过预设的异常关键字库与所述目标疑似异常号码的目标主叫录音文本的匹配结果,确定所述目标疑似异常号码是否为所述异常号码。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的异常号码监测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311228385.2A CN117319552A (zh) | 2023-09-21 | 2023-09-21 | 异常号码监测方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311228385.2A CN117319552A (zh) | 2023-09-21 | 2023-09-21 | 异常号码监测方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117319552A true CN117319552A (zh) | 2023-12-29 |
Family
ID=89273009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311228385.2A Pending CN117319552A (zh) | 2023-09-21 | 2023-09-21 | 异常号码监测方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117319552A (zh) |
-
2023
- 2023-09-21 CN CN202311228385.2A patent/CN117319552A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910901B (zh) | 一种情绪识别方法及装置、电子设备和可读存储介质 | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
US8219404B2 (en) | Method and apparatus for recognizing a speaker in lawful interception systems | |
US20110035347A1 (en) | Systems and methods for identifying provider noncustomers as likely acquisition targets | |
US20100246799A1 (en) | Methods and apparatus for deep interaction analysis | |
WO2017186090A1 (zh) | 通信号码处理方法及装置 | |
CN111654866A (zh) | 移动通讯防诈骗的方法、装置及计算机存储介质 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
US11580094B2 (en) | Real-time anomaly determination using integrated probabilistic system | |
CN110909384B (zh) | 确定泄露用户信息的业务方的方法及装置 | |
CN111401906A (zh) | 转账风险检测方法及系统 | |
CN110598008A (zh) | 录制数据的数据质检方法及装置、存储介质 | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
CN111126071A (zh) | 提问文本数据的确定方法、装置和客服群的数据处理方法 | |
CN113836360B (zh) | 数据检测方法及装置 | |
CN112667792B (zh) | 人机对话数据处理方法、装置、计算机设备和存储介质 | |
CN113989859A (zh) | 一种防刷机设备指纹相似度识别方法和装置 | |
CN116318974A (zh) | 站点风险识别方法、装置、计算机可读介质及电子设备 | |
CN117319552A (zh) | 异常号码监测方法、装置、存储介质和电子设备 | |
WO2011019731A2 (en) | Systems and methods for gererating leads in a network by predicting properties of external nodes | |
CN112215386A (zh) | 一种人员活跃度预测方法、装置和计算机可读存储介质 | |
CN114189585A (zh) | 骚扰电话异常检测方法、装置及计算设备 | |
CN111429144A (zh) | 非正常汇款交易识别方法及装置 | |
CN111447082B (zh) | 关联账号的确定方法、装置和关联数据对象的确定方法 | |
CN112529623B (zh) | 恶意用户的识别方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |