CN114567697A - 一种异常电话的识别方法、装置、设备及存储介质 - Google Patents

一种异常电话的识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114567697A
CN114567697A CN202210192989.5A CN202210192989A CN114567697A CN 114567697 A CN114567697 A CN 114567697A CN 202210192989 A CN202210192989 A CN 202210192989A CN 114567697 A CN114567697 A CN 114567697A
Authority
CN
China
Prior art keywords
abnormal
sample
sample set
telephone
test data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210192989.5A
Other languages
English (en)
Inventor
崔鹏翔
李智
董玉强
尚程
潘宝宝
卢桂龙
傅强
梁彧
蔡琳
杨满智
王杰
田野
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202210192989.5A priority Critical patent/CN114567697A/zh
Publication of CN114567697A publication Critical patent/CN114567697A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种异常电话的识别方法、装置、设备及存储介质。该方法包括获取样本集;确定每个样本的样本特征,根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,根据目标异常样本集,训练得到异常电话识别模型;将实时获取的测试数据集输入至异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。本发明实施例的技术方案提供一种基于大数据分析与离线建模实现异常电话识别的新方法,提高模型迭代优化效率,缩短模型固化周期,确保识别准确率的同时还可以有效应对诈骗行为特征随犯罪分子警惕性提高而不断变化的情况。

Description

一种异常电话的识别方法、装置、设备及存储介质
技术领域
本发明实施例移动通信电话反诈技术领域,尤其涉及一种异常电话的识别方法、装置、设备及存储介质。
背景技术
目前,电话诈骗案件借助移动互联网的普及,在诈骗手段方面层出不穷,在诈骗场景方面不断延伸,在诈骗数量方面依旧高发。
仿冒类诈骗是犯罪分子比较惯用的诈骗形式之一,通过系统性的剧本和明确的人员分工,将受害人逐步引入陷阱,此类诈骗一般为团伙作案,具备较高的专业性和警惕性。目前常用的行为特征检测方法不能及时针对性更新反诈规则库,而基于内容的检测方法比较依赖用户隐私数据,并且需要较大的语音分析设备投入,目前的检测方法已经不能满足随诈骗手段随犯罪分子警惕性提高而不断变化的反诈需求。
发明内容
本发明实施例提供了一种异常电话的识别方法、装置、设备及存储介质,提供一种基于大数据分析与离线建模实现异常电话识别的新方法,提高模型迭代优化效率,缩短模型固化周期,确保识别准确率的同时还可以有效应对诈骗行为特征随犯罪分子警惕性提高而不断变化的情况。
第一方面,本发明实施例提供了一种异常电话的识别方法,该方法包括:
获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
第二方面,本发明实施例还提供了一种异常电话的识别装置,该装置包括:
样本集获取模块,用于获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
筛选条件确定模块,用于根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
模型训练模块,用于根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
识别结果获取模块,用于将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种异常电话的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如本发明任意实施例所述的一种异常电话的识别方法。
本发明实施例通过获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果,解决现有技术中基于行为特征检测方法不能及时针对性更新规则库,基于通话内容的检测方法需要较大的语音分析设备投入的问题,提供一种基于大数据分析与离线建模实现异常电话识别的新方法,提高模型迭代优化效率,缩短模型固化周期,确保识别准确率的同时还可以有效应对诈骗行为特征随犯罪分子警惕性提高而不断变化的情况。
附图说明
图1为本发明实施例一提供的一种异常电话的识别方法的流程图;
图1a为本发明实施例一提供的一种通话所在小时的标准差的分布特征示意图;
图1b为本发明实施例提供的一种日均总时长的分布特征示意图;
图1c为本发明实施例一提供的一种异常电话识别模型的离线训练的具体流程示意图;
图2为本发明实施例二提供的一种异常电话的识别装置的结构示意图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种异常电话的识别方法的流程图,本实施例可适用于对异常电话号码进行识别的情况,该方法可以由异常电话的识别装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在服务器中。参考图1,该方法具体包括如下步骤:
S110、获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单。
其中,异常样本集可以是从多个第三方处获取的异常电话号码数据。例如,可以包括公案报案数据、从运营商处获取的举报号码、从XX举报平台处获取的举报号码以及互联网标签标注的部分号码。
正常样本集可以根据各个地市信息和不同号段信息获得,可以随机抽取一批看似正常的用户号码,通过预先建立的互联网爬虫数据,查看这批号码是否标记为骚扰或者诈骗(快递送餐,房产中介除外),如果没有标记,则作为正常样本,从而构建正常样本集。
预设历史时间区间可以是指对单个样本号码的话单获取时间段,具体的可以是对单个样本号码在过去连续几天内的话单进行获取。其中,话单可以是指B域话单信息。
在本实施例中,获取样本集后,可以通过话单字段进行初步筛选。例如,phone2_type为5(3位服务号码),6(12583等服务号),7(证券银行类航空号码)等样本可以预先筛除样本集。
S120、根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件。
其中,样本特征可以是指主叫次数、主叫比例、主叫时间和主叫时长等特征。显著异常样本筛选条件可以是用于筛选出明显异常电话的条件,显著异常样本筛选条件包括至少一个。
在本实施例中,可以识别样本话单中各种字段对应的字段值,确定每个样本的样本特征,进而对异常样本的样本特征和正常样本的样本特征进行比较,获取异常样本集与正常样本集中各样本特征之间的差异性,从而根据差异性确定出显著异常样本筛选条件。
在本实施例的一个可选实施方式中,根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件,可以包括:
根据与所述异常样本集和正常样本集分别对应的各样本特征,通过4分位分析法,计算与各样本特征分别对应的异常门限值;根据所述异常门限值,从所述异常样本集和正常样本集中筛选得到备选异常样本集和备选正常样本集;根据所述备选异常样本集和备选正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件。
其中,异常门限值可以是指对样本集中个体样本进行类别判断的标准值。备选异常样本集可以是根据异常样本集的异常门限值,从异常样本集中选出的一部分异常样本作为备选异常样本集,可以理解为,从异常样本集中筛除被误判为异常样本的正常样本。备选正常样本集可以是根据正常样本集的异常门限值,从正常样本集中选出的一部分正常样本作为备选正常样本集,可以理解为,从正常样本集中筛除被误判为正常样本的异常样本。
具体的,可以分别针对异常样本集和正常样本集的各样本特征,通过4分位分析法,计算各样本特征分别对应的异常门限值,从而根据各样本特征的异常门限值,对异常样本集和正常样本集进行筛选,筛除被误判的样本,得到备选异常样本集和备选正常样本集。比较备选异常样本集和备选正常样本集各样本特征之间的差异性,确定显著异常样本筛选条件。这样设置的好处在于,可以筛选出异常样本集和和正常样本集中的误判样本,提高样本集中样本类别的准确率。
示例性的,4分位分析法的具体实现方式可以如下所示:
把一批样本的主叫时长对应的所有数值由小到大排列并分成四等份,处于三个分割点位置的对应数值就是四分位数。
第一四分位数(Q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;第三四分位数(Q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。Q3与Q1的差距又称四分位差IQR,其间包含了全部数值的一半,IQR=Q3-Q1,反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
而识别该批数值中异常值的标准可以为:小于Q1-1.5IQR或大于Q3+1.5IQR的值。其中,Q1-1.5IQR和Q3+1.5IQR对应的数值即为异常门限值。
可选的,根据所述备选异常样本集和备选正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件,可以包括:
分别计算备选异常样本集和备选正常样本集中各样本在每个样本特征下的分布特征,选择分布特征之间差异度超过预设差异阈值的样本特征作为目标样本特征;将备选异常样本集中目标样本特征的分布特征,作为显著异常样本筛选条件。
其中,分布特征可以是值样本特征的在一段时间内的分布情况。目标样本特征可以是指从多个样本特征中选择的可以筛选条件的特征。预设差异阈值可以是指差异度的界限值。
在本实施例中,可以分别计算备选异常样本集和备选正常样本集中各样本在每个样本特征下的分布情况,比较异常样本和正常样本每个样本特征的分布情况并确定相应的差异度,将差异度超过预设差异阈值的样本特征作为目标样本特征,从而将备选异常样本集中目标样本特征的分布特征,作为显著异常样本筛选条件。
以通话时间为例,图1a为本发明实施例一提供的一种通话所在小时的标准差的分布特征示意图。8天内,异常号码在通话所在小时的标准差上的表现相对与正常号码更离散,但是大部分异常号码8天内通话所在小时的标准差都比较低,这表明异常号码每天活跃小时数都比较相近。
以通话时长为例,图1b为本发明实施例提供的一种日均总时长的分布特征示意图。8天内,异常号码8天内日均总时长相对较长且大多数是高于1500秒的,而正常号码8天内日均总时长相对较短且大多数是小于1000秒的。
显然,异常号码和正常号码的通话所在小时的标准差的分布情况,或者日均总时长的分布情况,存在明显差异,因此,可以将通话所在小时的标准差,和/或,日均总时长的分布情况作为显著异常样本筛选条件。
S130、根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型。
其中,目标异常样本集可以是用于训练异常电话识别模型的异常样本集。异常电话识别模型可以是用于进行异常电话识别的模型。
在本实施例中,可以根据显著异常样本筛选条件,从异常样本集中,筛选得到目标异常样本集,从而进行模型训练。这样设置的好处在于,可以提高模型迭代优化效率。
在本实施例的一个可选实施方式中,根据目标异常样本集,训练得到异常电话识别模型,可以包括:
根据目标异常样本集,分别对多个由机器学习算法构建的各备选异常电话识别模型进行离线训练;对比各训练后的备选异常电话识别模型的识别效果,确定目标异常电话识别模型;对所述目标异常电话识别模型进行固化处理,得到异常电话识别模型。
其中,机器学习算法例如可以包括随机森林、SVM(Support Vector Machine,支持向量机)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)和lightGBM(LightGradient Boosting Machine,轻量级梯度提升机)等算法。
示例性的,图1c为本发明实施例一提供的一种异常电话识别模型的离线训练的具体流程示意图。获取样本数据,根据样本数据的话单从全部样本数据中筛选出有效异常样本,并获取有效异常样本的样本特征,与正常样本的样本特征进行比较,建立筛选条件,对有效异常样本进行过滤,查看过滤结果是否符合预期结果,如果是,可以对模型进行离线训练和固化,得到异常电话识别模型。否则,可以重新分析样本特征。
S140、将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
在本实施例的一个可选实施方式中,将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果,可以包括:
将实时获取的测试数据集输入至所述异常电话识别模型中,获取输出结果;所述输出结果中包括对测试数据集中异常电话的初步识别结果;根据正常电话筛选条件,对所述输出结果中的所述初步识别结果进行处理,得到与测试数据集对应的异常电话识别结果。
其中,正常电话筛选条件可以包括套餐价值等筛选条件,例如,异常号码一般不会设置高价值的套餐。
在本实施例中,为提高对异常电话的识别准确率,可以对异常电话识别模型的初步识别结果进一步进行筛选,筛除被误判的正常号码。
可选的,所述输出结果中还包括:对测试数据集中话单字段缺失电话的预警结果;
在获取输出结果之后,还包括:
如果所述预警结果超过预警门限,则将所述测试数据集,以及所述预警结果发送至预警平台进行监控。
在本实施例中,异常电话识别模型实时进行异常电话识别时,如果话单字段存在数据缺失,可以针对对应的电话生成预警结果,根据数据缺失程度,可以在预警结果中包含相应的预警程度,并将预警结果发送至预警平台进行监控。
可选的,在得到与测试数据集对应的异常电话识别结果之后,还包括:
根据与异常电话识别结果匹配的通话时长特征,获取与异常电话识别结果匹配的异常程度。
具体的,基于对测试数据集最终的异常电话识别结果,可以根据相应的通话时长特征,获取匹配的异常程度。示例性的,异常电话对应的主叫方与被叫方通话2次以上且通话时长超过60秒,或者被叫方与主叫方之间通话时长超过180秒可以判断为深度异常。
本发明实施例的技术方案,通过获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果,解决了现有技术中基于行为特征检测方法不能及时针对性更新规则库,基于通话内容的检测方法需要较大的语音分析设备投入的问题,提供了一种基于大数据分析与离线建模实现异常电话识别的新方法,提高了模型迭代优化效率,缩短模型固化周期,确保识别准确率的同时还可以有效应对诈骗行为特征随犯罪分子警惕性提高而不断变化的情况。
实施例二
图2为本发明实施例二提供的一种异常电话的识别装置的结构示意图。该装置可以执行上述各实施例中涉及到的异常电话的识别方法。参考图2,该装置包括:样本集获取模块210、筛选条件确定模块220、模型训练模块230和识别结果获取模块240。其中:
样本集获取模块210,用于获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
筛选条件确定模块220,用于根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
模型训练模块230,用于根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
识别结果获取模块240,用于将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
本发明实施例的技术方案,通过获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果,解决了现有技术中基于行为特征检测方法不能及时针对性更新规则库,基于通话内容的检测方法需要较大的语音分析设备投入的问题,提供了一种基于大数据分析与离线建模实现异常电话识别的新方法,提高了模型迭代优化效率,缩短模型固化周期,确保识别准确率的同时还可以有效应对诈骗行为特征随犯罪分子警惕性提高而不断变化的情况。
上述装置中,可选的是,筛选条件确定模块220,包括:
异常门限值计算单元,用于根据与所述异常样本集和正常样本集分别对应的各样本特征,通过4分位分析法,计算与各样本特征分别对应的异常门限值;
备选样本集获取单元,用于根据所述异常门限值,从所述异常样本集和正常样本集中筛选得到备选异常样本集和备选正常样本集;
筛选条件确定单元,用于根据所述备选异常样本集和备选正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件。
上述装置中,可选的是,筛选条件确定单元,可以具体用于:
分别计算备选异常样本集和备选正常样本集中各样本在每个样本特征下的分布特征,选择分布特征之间差异度超过预设差异阈值的样本特征作为目标样本特征;
将备选异常样本集中目标样本特征的分布特征,作为显著异常样本筛选条件。
上述装置中,可选的是,模型训练模块230,可以具有用于:
根据目标异常样本集,分别对多个由机器学习算法构建的各备选异常电话识别模型进行离线训练;
对比各训练后的备选异常电话识别模型的识别效果,确定目标异常电话识别模型;
对所述目标异常电话识别模型进行固化处理,得到异常电话识别模型。
上述装置中,可选的是,识别结果获取模块240,可以具体用于:
将实时获取的测试数据集输入至所述异常电话识别模型中,获取输出结果;所述输出结果中包括对测试数据集中异常电话的初步识别结果;
根据正常电话筛选条件,对所述输出结果中的所述初步识别结果进行处理,得到与测试数据集对应的异常电话识别结果。
上述装置中,可选的是,所述输出结果中还包括:对测试数据集中话单字段缺失电话的预警结果;
上述装置中,可选的是,还包括,监控模块,用于在获取输出结果之后:
如果所述预警结果超过预警门限,则将所述测试数据集,以及所述预警结果发送至预警平台进行监控。
上述装置中,可选的是,还包括,异常程度获取模块,用于在得到与测试数据集对应的异常电话识别结果之后:
根据与异常电话识别结果匹配的通话时长特征,获取与异常电话识别结果匹配的异常程度。
本发明实施例所提供的异常电话的识别装置可执行本发明任意实施例所提供的异常电话的识别方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3为本发明实施例三提供的一种电子设备的结构示意图,如图3所示,该设备包括处理器310、存储装置320、输入装置330和输出装置340;设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;设备中的处理器310、存储装置320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储装置320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的异常电话的识别方法对应的程序指令/模块(例如,异常电话的识别装置中的样本集获取模块210、筛选条件确定模块220、模型训练模块230和识别结果获取模块240)。处理器310通过运行存储在存储装置320中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的异常电话的识别方法,该方法可以包括:
获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
存储装置320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时用于执行一种异常电话的识别方法,该方法可以包括:
获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储有计算机程序,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的异常电话的识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述异常电话的识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种异常电话的识别方法,其特征在于,包括:
获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
2.根据权利要求1所述的方法,其特征在于,根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件,包括:
根据与所述异常样本集和正常样本集分别对应的各样本特征,通过4分位分析法,计算与各样本特征分别对应的异常门限值;
根据所述异常门限值,从所述异常样本集和正常样本集中筛选得到备选异常样本集和备选正常样本集;
根据所述备选异常样本集和备选正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件。
3.根据权利要求2所述的方法,其特征在于,根据所述备选异常样本集和备选正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件,包括:
分别计算备选异常样本集和备选正常样本集中各样本在每个样本特征下的分布特征,选择分布特征之间差异度超过预设差异阈值的样本特征作为目标样本特征;
将备选异常样本集中目标样本特征的分布特征,作为显著异常样本筛选条件。
4.根据权利要求1所述的方法,其特征在于,根据目标异常样本集,训练得到异常电话识别模型,包括:
根据目标异常样本集,分别对多个由机器学习算法构建的各备选异常电话识别模型进行离线训练;
对比各训练后的备选异常电话识别模型的识别效果,确定目标异常电话识别模型;
对所述目标异常电话识别模型进行固化处理,得到异常电话识别模型。
5.根据权利要求1所述的方法,其特征在于,将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果,包括:
将实时获取的测试数据集输入至所述异常电话识别模型中,获取输出结果;所述输出结果中包括对测试数据集中异常电话的初步识别结果;
根据正常电话筛选条件,对所述输出结果中的所述初步识别结果进行处理,得到与测试数据集对应的异常电话识别结果。
6.根据权利要求5所述的方法,其特征在于,所述输出结果中还包括:对测试数据集中话单字段缺失电话的预警结果;
在获取输出结果之后,还包括:
如果所述预警结果超过预警门限,则将所述测试数据集,以及所述预警结果发送至预警平台进行监控。
7.根据权利要求5所述的方法,其特征在于,在得到与测试数据集对应的异常电话识别结果之后,还包括:
根据与异常电话识别结果匹配的通话时长特征,获取与异常电话识别结果匹配的异常程度。
8.一种异常电话的识别装置,其特征在于,包括:
样本集获取模块,用于获取样本集,所述样本集中包括:异常样本集和正常样本集,每个样本中包括样本号码和与样本号码在预设历史时间区间内的话单;
筛选条件确定模块,用于根据各话单中的话单字段,确定每个样本的样本特征,并根据异常样本集与正常样本集中各样本特征之间的差异性,确定显著异常样本筛选条件;
模型训练模块,用于根据显著异常样本筛选条件,在异常样本集中,筛选得到目标异常样本集,并根据目标异常样本集,训练得到异常电话识别模型;
识别结果获取模块,用于将实时获取的测试数据集输入至所述异常电话识别模型中,得到与测试数据集对应的异常电话识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的一种异常电话的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的一种异常电话的识别方法。
CN202210192989.5A 2022-03-01 2022-03-01 一种异常电话的识别方法、装置、设备及存储介质 Pending CN114567697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210192989.5A CN114567697A (zh) 2022-03-01 2022-03-01 一种异常电话的识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210192989.5A CN114567697A (zh) 2022-03-01 2022-03-01 一种异常电话的识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114567697A true CN114567697A (zh) 2022-05-31

Family

ID=81716702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210192989.5A Pending CN114567697A (zh) 2022-03-01 2022-03-01 一种异常电话的识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114567697A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105704719A (zh) * 2014-11-28 2016-06-22 中国移动通信集团公司 一种实现骚扰电话监控策略优化的方法和装置
CN107343077A (zh) * 2016-04-28 2017-11-10 腾讯科技(深圳)有限公司 识别恶意电话及建立识别模型的方法、装置、设备
CN107506776A (zh) * 2017-01-16 2017-12-22 恒安嘉新(北京)科技股份公司 一种诈骗电话号码的分析方法
CN110311902A (zh) * 2019-06-21 2019-10-08 北京奇艺世纪科技有限公司 一种异常行为的识别方法、装置及电子设备
CN111222025A (zh) * 2019-12-27 2020-06-02 南京中新赛克科技有限责任公司 一种基于卷积神经网络的诈骗号码识别方法及系统
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112417007A (zh) * 2020-12-03 2021-02-26 恒安嘉新(北京)科技股份公司 一种数据分析方法、装置、电子设备及存储介质
CN112990375A (zh) * 2021-04-29 2021-06-18 北京三快在线科技有限公司 一种模型训练方法、装置、存储介质及电子设备
CN113452845A (zh) * 2020-03-26 2021-09-28 中国移动通信集团福建有限公司 识别异常电话号码的方法和电子设备
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105704719A (zh) * 2014-11-28 2016-06-22 中国移动通信集团公司 一种实现骚扰电话监控策略优化的方法和装置
CN107343077A (zh) * 2016-04-28 2017-11-10 腾讯科技(深圳)有限公司 识别恶意电话及建立识别模型的方法、装置、设备
CN107506776A (zh) * 2017-01-16 2017-12-22 恒安嘉新(北京)科技股份公司 一种诈骗电话号码的分析方法
CN110311902A (zh) * 2019-06-21 2019-10-08 北京奇艺世纪科技有限公司 一种异常行为的识别方法、装置及电子设备
CN111222025A (zh) * 2019-12-27 2020-06-02 南京中新赛克科技有限责任公司 一种基于卷积神经网络的诈骗号码识别方法及系统
CN113452845A (zh) * 2020-03-26 2021-09-28 中国移动通信集团福建有限公司 识别异常电话号码的方法和电子设备
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112417007A (zh) * 2020-12-03 2021-02-26 恒安嘉新(北京)科技股份公司 一种数据分析方法、装置、电子设备及存储介质
CN112990375A (zh) * 2021-04-29 2021-06-18 北京三快在线科技有限公司 一种模型训练方法、装置、存储介质及电子设备
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108763499B (zh) 基于智能语音的呼叫质检方法、装置、设备及存储介质
US11343375B2 (en) Systems and methods for automatically conducting risk assessments for telephony communications
CN109819126B (zh) 一种异常号码识别方法及装置
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
CN110493476B (zh) 一种检测方法、装置、服务器及存储介质
CN112329811A (zh) 异常账号识别方法、装置、计算机设备和存储介质
CN108243049A (zh) 电信欺诈识别方法及装置
CN110378712A (zh) 一种投诉处理方法及装置
CN110611929A (zh) 异常用户识别方法及装置
CN109840183B (zh) 数据中心分级预警方法、装置及存储介质
JP2000507765A (ja) 遠隔通信網における不正監視
CN111310612A (zh) 行为督导方法和装置
CN108777749B (zh) 一种诈骗电话识别方法及装置
CN110611655A (zh) 一种黑名单筛选方法和相关产品
CN113065748A (zh) 业务风险评估方法、装置、设备及存储介质
CN110139288B (zh) 一种网络通话方法、装置、系统和记录介质
CN114567697A (zh) 一种异常电话的识别方法、装置、设备及存储介质
CN114449106B (zh) 一种异常电话号码的识别方法、装置、设备和存储介质
CN114257688A (zh) 电话诈骗识别方法及相关装置
CN114358543A (zh) 一种信息处理方法和装置
CN114374769A (zh) 一种异常号码的获取方法、装置、服务器和存储介质
CN114168423A (zh) 异常号码的呼叫监控方法、装置、设备及存储介质
CN116418915A (zh) 非正常号码识别方法、装置、服务器和存储介质
CN113452847A (zh) 一种骚扰电话的识别方法及相关装置
CN108055661B (zh) 基于通信网络的电话号码黑名单建立方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination