CN110401780A - 一种识别诈骗电话的方法及装置 - Google Patents
一种识别诈骗电话的方法及装置 Download PDFInfo
- Publication number
- CN110401780A CN110401780A CN201810378567.0A CN201810378567A CN110401780A CN 110401780 A CN110401780 A CN 110401780A CN 201810378567 A CN201810378567 A CN 201810378567A CN 110401780 A CN110401780 A CN 110401780A
- Authority
- CN
- China
- Prior art keywords
- preset
- call
- preset model
- days
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000006399 behavior Effects 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 24
- 230000002354 daily effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2218—Call detail recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/36—Statistical metering, e.g. recording occasions when traffic exceeds capacity of trunks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种识别诈骗电话的方法及装置,所述方法包括:获取待识别号码的通话数据;根据所述通话数据获取反映通话行为的特征变量的多维度向量值;将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。所述装置执行上述方法。本发明实施例提供的识别诈骗电话的方法及装置,通过将获取到的特征变量的多维度向量值输入预设模型,并根据输出结果确定待识别号码是否为诈骗电话,能够高效、准确识别出诈骗电话。
Description
技术领域
本发明实施例涉及通信安全技术领域,具体涉及一种识别诈骗电话的方法及装置。
背景技术
近年来,电信诈骗案数量居高不下,形势非常严峻。
现有技术经过前期积累的经验,并采用广泛撒网模式进行诈骗号码识别,具体是:从诈骗案例中获得了大量的欺诈规律和样本,通过分析大量诈骗场景,建立基于诈骗场景的数据分析模型,但是,由于诈骗场景的复杂性,在数据分析模型使用前,需要通过人工收集诈骗场景,形成场景分析样本,还要利用大量算法进行分析校验,消耗大量人力资源和时间,由此导致诈骗电话的识别效率低下。
因此,如何避免上述缺陷,能够高效、准确地识别出诈骗电话,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种识别诈骗电话的方法及装置。
第一方面,本发明实施例提供一种识别诈骗电话的方法,所述方法包括:
获取待识别号码的通话数据;
根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
第二方面,本发明实施例提供一种识别诈骗电话的装置,所述装置包括:
第一获取单元,用于获取待识别号码的通话数据;
第二获取单元,用于根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
识别单元,用于将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取待识别号码的通话数据;
根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取待识别号码的通话数据;
根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
本发明实施例提供的识别诈骗电话的方法及装置,通过将获取到的特征变量的多维度向量值输入预设模型,并根据输出结果确定待识别号码是否为诈骗电话,能够高效、准确识别出诈骗电话。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例识别诈骗电话的方法流程示意图;
图2为本发明实施例识别诈骗电话的装置结构示意图;
图3为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例识别诈骗电话的方法流程示意图,如图1所示,本发明实施例提供的一种识别诈骗电话的方法,包括以下步骤:
S1:获取待识别号码的通话数据。
具体的,装置获取待识别号码的通话数据。通话数据可以从话单服务器中获取,可以包括预设天数内的通话总数、拨打的号码总数和通话时长等。预设天数可以根据实际情况自主选定,可选为10天或30天等,不作具体限定。通话总数可以包括主叫数和被叫数;拨打的号码总数可以包括有回拨号码数和无回拨号码数。通话时长即是通话的终止时间与起始时间之间的时间间隔。
S2:根据所述通话数据获取反映通话行为的特征变量的多维度向量值。
具体的,装置根据所述通话数据获取反映通话行为的特征变量的多维度向量值。特征变量可以包括号码活跃度、互动率、平均通话花销成本和主叫行为与反馈的相关度中的至少一项,下面分别进行说明:
对于号码活跃度:
可以根据如下公式计算所述号码活跃度:
其中,ufr为号码活跃度、RtFromFr为预设天数内的通话总数、所述通话总数包括主叫数和被叫数;FrRt为日平均被叫数(可以通过预设天数内的被叫数/预设天数计算获得)、Fr为日平均主叫数(可以通过预设天数内的主叫数/预设天数计算获得)、η为修正系数,值域为[0.1,1]、dω为主叫行为发生的天数,可以理解为:在预设天数内,只要某天发起了主叫行为,那么这天就作为dω中的其中一天。ufr数值越大,待识别号码为诈骗号码的可能性越小;ufr数值越小,待识别号码为诈骗号码的可能性越大。
需要说明的是:诈骗号码符合如下条件:一是每天呼叫量很大,号码回拨率很低,符合“广撒”的诈骗号码特征;二是每天呼叫量很小,但通话时长都很长,符合“广撒”后的精准诈骗模型的诈骗电话特征。但是,这个和日常生活中的通话行为有冲突,可以在获取待识别号码的通话数据后,在对通话数据进行去噪的步骤中进行剔除,经过分析发现:对于正常号码来说,如果将其活跃度和每天的呼出量进行排名,则会呈现明显的拖尾特征,即呼叫量越高的号码数量会越来越少,符合对数递减的线性模型。从该线性模型中可以知道,正常号码每天具有相对比较固定的呼叫量,且被叫和主叫的数量基本相同,可以基于上述特征,对正常号码进行剔除,从而保证了上述条件二中的不包括正常号码。因此,待识别号码是否符合拖尾特征可以作为分类器的一个参考指标,修正系数η可以近似地用如下公式来代替:
其中,σ表示有回拨号码的离散度,即:
其中,Xi表示在预设天数内第i个有回拨号码的回拨数量、N为有回拨号码数、为在预设天数内全部有回拨号码的回拨总数与N的比值。因此,修正系数η的意义在于:σ越大,待识别号码越接近诈骗号码;σ越小,待识别号码越接近正常号码。
对于互动率:
可以根据如下公式计算所述互动率:
其中,Ir为互动率、ωc为预设天数内拨打的号码总数、所述号码总数可以包括有回拨号码数;为第i个有回拨号码对应的主叫在预设天数内发起的通话时长;为第i个有回拨号码在预设天数内的回拨通话时长;N为有回拨号码数。对说明如下:在第i个有回拨号码B回拨给待识别号码A(对应主叫)之前,待识别号码A在预设天数内主动呼叫第i个有回拨号码B的通话时长。需要说明的是:如果是多次回拨,为累积的回拨通话时长。互动率表示了待识别号码与其被叫的互动程度量化后的数值,这在很大的程度上反映了诈骗号码与正常号码的区别,大部分正常的号码联系的号码相对比较固定,受到其拨打的号码回拨的可能性也较高;而诈骗电话的受到其拨打的号码回拨的情况出现的可能性应该是极低甚至于为0。互动率就表示了在预设天数内互动行为发送的频率。可以理解的是:互动率高的待识别号码为诈骗号码的可能性较低;互动率低的待识别号码为诈骗号码的可能性较高。
对于平均通话花销成本:
可以根据如下公式计算所述平均通话花销成本:
其中,为平均通话花销成本、为平均每天的通话时长(可以通过预设天数内的通话时长/预设天数计算获得)、ωθ为活跃天数,可以根据如下公式计算:
其中,ω为主叫数、dω为主叫行为发生的天数。需要说明的是:待识别号码的平均通话花销成本的时间越长,说明其重要性就越高,为诈骗号码的可能性也越低;待识别号码的平均通话花销成本的时间越短,说明其重要性就越低,为诈骗号码的可能性也越高。
对于主叫行为与反馈的相关度:
可以根据如下公式计算所述主叫行为与反馈的相关度:
其中,ru为主叫行为与反馈的相关度、M表示对所述预设天数作M等分;zi为每一等分中的主叫数、yi为每一等分中针对所述主叫数的回拨数、为所有M等分中的主叫数之和的平均数、为所有M等分中针对所有主叫数的回拨数的平均数;为平均反馈率,可以根据如下公式计算:
举例说明如下:
假设预设天数为10天,对预设天数作五等分(即M=5),即每一等分对应两天,zi为每两天中的主叫数;yi为每两天中的针对该主叫数的回拨数;为所有五等分中(即等于预设天数10天)的主叫数之和的平均数,可以通过预设天数中所有主叫数/M计算获得、为所有五等分中(即等于预设天数10天)针对所有主叫数的回拨数的平均数,可以通过预设天数中针对所有主叫数的回拨数/M计算获得。需要说明的是:主叫行为指的是主叫发出,反馈指的是待识别号码被回拨。当主叫行为被反馈的越多时,为诈骗电话的可能性越低;当主叫行为被反馈的越少时,为诈骗电话的可能性越高。
为简化计算,引入支持向量机(svm)模型,把反映通话行为的特征变量转换为多维度向量。引入Scikit-learn机器学习分类器,对通话样本数据投放训练。在设置置信度后,将训练出来的模型输出结果经过声纹后反馈回到训练器,后期人工维护优化,使得输出的数据越来越接近理想化数据。
S3:将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
具体的,装置将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。可以将预设模型的输出结果与预设阈值做比较,如果输出结果大于预设阈值,则确定待识别号码是诈骗电话;如果输出结果小于等于预设阈值,则确定待识别号码不是诈骗电话。预设阈值可以根据实际情况自主设置。
预设模型可以是一种概率型非线性回归模型。考虑具有n个特征变量的向量x=(x1,x2,...,xn),设条件概率P(Y=1|x)=p为根据观测量相对于某事件发生的概率,则回归模型可表示为如公式(1)所示:
其中,g(x)=β0+β1x1+β2x2+...+βnxn;
β0为截距项,β=(β1,β2,...,βn)为自变量的回归系数。显然,π(x)的值域为[0,1],因此,可以根据其取值来估计因变量Y=1时发生的概率。对回归模型的参数进行估计,可以采用极大似然函数法。设Y是0-1型变量,m个观测值为{y1,y2,...,ym},于是,m个观测值的似然函数为如公式(2)所示:
对式(2)两边求自然对数,可得对数似然函数,如公式(3)所示:
最大似然估计就是选取β0,β1,β2,...,βn的估计值,使得InL的值最大化。对式(3)求导,应用牛顿-拉斐森方法进行迭代求解,即可获取模型的截距项和回归系数,将求得的参数代入式(1)即可得到预设模型:
其中,CM为所述预设模型、x=(x1,x2,…,xn)为所述特征变量、x1,x2,…,xn分别对应维度为n的多维度向量值、β0为截距项,β1,β2,...,βn为与所述多维度向量值一一对应的回归系数。
预设模型的预先训练,可以包括:
获取作为采样样本的样本号码对应的通话样本数据;所述样本号码的分类类型可以包括已知的正常号码和已知的诈骗号码;根据所述通话样本数据获取反映通话行为的样本特征变量的多维度样本向量值;将所述多维度样本向量值输入预设模型,并将所述预设模型的输出结果与所述分类类型相比较,根据比较结果计算所述预设模型的评价指标,评价指标可以包括正确率、查全率、查准率和漏检率中的至少一种;若所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,以完成所述预设模型的预先训练。对各项评价指标具体说明如下:
正确率=(a+d)/(a+b+c+d)×100%;
其中,a为预设模型的输出结果为诈骗号码、且所述分类类型也为已知的诈骗号码对应的样本数量;b为预设模型的输出结果为正常号码、且所述分类类型为已知的诈骗号码对应的样本数量;c为预设模型的输出结果为诈骗号码、且所述分类类型为已知的正常号码对应的样本数量;d为预设模型的输出结果为正常号码、且所述分类类型也为已知的正常号码对应的样本数量;
查全率=a/(a+b)×100%;
具体说明可参照上述实施例,不再赘述。
查准率=a/(a+c)×100%;
具体说明可参照上述实施例,不再赘述。
漏检率=b/(a+b)×100%。
具体说明可参照上述实施例,不再赘述。
若所述正确率、所述查全率和所述查准率中的至少一项大于第一预设比率,且所述漏检率小于第二预设比率(即满足预设条件),则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,其中,所述第一预设比率大于所述第二预设比率。第一预设比率和第二预设比率可以根据实际情况自主设置,第一预设比率可选为95%、第二预设比率可选为5%。预设规则可以是上述实施例中已作说明的采用极大似然函数法,不再具体赘述。如果不满足预设条件,则需要继续重复执行上述获取作为采样样本的样本号码对应的通话样本数据至根据比较结果计算所述预设模型的评价指标之间的步骤,直到满足预设条件为止。
需要说明的是:特征变量的取值通常取自号码话单,显然号码话单越多,其计算结果越准确。但是对于新入网的号码,其话单数并不多,有些甚至为零,运用上述方法来计算特征变量的取值显然不合理,因而模型的最终计算结果也不够准确。因此,将预设模型作如下改进:当号码入网当天主叫发起次数ω≥50时,设Tx为号码最后一条主叫的时间与当前时间的间隔天数,如果ω=0,则Tx为号码入网时间与当前时间的间隔天数,ωθ为号码的活跃天数,此时号码的置信值CM可以表示为一个值域在[0,1]之间与Tx负相关、与ωθ正相关的幂函数,公式如下:
其中,CM1与Tx负相关,值域为[0,1]、CM2与ωθ正相关,值域为[0,1],Tx和ωθ除以100(对数值不作具体限定)是对单位时间的作用进行放大。由于Tx和ωθ不存在相关关系,故可能会出现CM>1的情况,此时,可以取CM=1。可以看出,一个新入网的号码其Tx和ωθ均为0,置信值CM=1,即对新入网的号码默认进行监控,随着时间的推移,如果号码始终没有高呼叫量的行为,则置信值将会不断降低,即可剔出监控名单。
本发明实施例提供的识别诈骗电话的方法,通过将获取到的特征变量的多维度向量值输入预设模型,并根据输出结果确定待识别号码是否为诈骗电话,能够高效、准确识别出诈骗电话。
在上述实施例的基础上,所述预设模型为:
其中,CM为所述预设模型、x=(x1,x2,...,xn)为所述特征变量、x1,x2,...,xn分别对应维度为n的多维度向量值、β0为截距项,β1,β2,...,βn为与所述多维度向量值一一对应的回归系数。
具体的,装置中的所述预设模型为:
其中,CM为所述预设模型、x=(x1,x2,...,xn)为所述特征变量、x1,x2,...,xn分别对应维度为n的多维度向量值、β0为截距项,β1,β2,...,βn为与所述多维度向量值一一对应的回归系数。可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,通过将预设模型选为逻辑回归模型,进一步能够高效、准确识别出诈骗电话。
在上述实施例的基础上,所述预设模型的预先训练,包括:
获取作为采样样本的样本号码对应的通话样本数据;所述样本号码的分类类型包括已知的正常号码和已知的诈骗号码。
具体的,装置获取作为采样样本的样本号码对应的通话样本数据;所述样本号码的分类类型包括已知的正常号码和已知的诈骗号码。可参照上述实施例,不再赘述。
根据所述通话样本数据获取反映通话行为的样本特征变量的多维度样本向量值。
具体的,装置根据所述通话样本数据获取反映通话行为的样本特征变量的多维度样本向量值。可参照上述实施例,不再赘述。
将所述多维度样本向量值输入预设模型,并将所述预设模型的输出结果与所述分类类型相比较,根据比较结果计算所述预设模型的评价指标。
具体的,装置将所述多维度样本向量值输入预设模型,并将所述预设模型的输出结果与所述分类类型相比较,根据比较结果计算所述预设模型的评价指标。可参照上述实施例,不再赘述。
若所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,以完成所述预设模型的预先训练。
具体的,装置若判断获知所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,以完成所述预设模型的预先训练。可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,通过预先训练预设模型,进一步能够高效、准确识别出诈骗电话。
在上述实施例的基础上,所述评价指标包括正确率、查全率、查准率和漏检率中的至少一种;相应的,所述根据比较结果计算所述预设模型的评价指标,包括:
分别根据如下公式计算所述评价指标:
正确率=(a+d)/(a+b+c+d)×100%;
其中,a为预设模型的输出结果为诈骗号码、且所述分类类型也为已知的诈骗号码对应的样本数量;b为预设模型的输出结果为正常号码、且所述分类类型为已知的诈骗号码对应的样本数量;c为预设模型的输出结果为诈骗号码、且所述分类类型为已知的正常号码对应的样本数量;d为预设模型的输出结果为正常号码、且所述分类类型也为已知的正常号码对应的样本数量;查全率=a/(a+b)×100%;查准率=a/(a+c)×100%;漏检率=b/(a+b)×100%。
具体的,装置分别根据如下公式计算所述评价指标:
正确率=(a+d)/(a+b+c+d)×100%;
其中,a为预设模型的输出结果为诈骗号码、且所述分类类型也为已知的诈骗号码对应的样本数量;b为预设模型的输出结果为正常号码、且所述分类类型为已知的诈骗号码对应的样本数量;c为预设模型的输出结果为诈骗号码、且所述分类类型为已知的正常号码对应的样本数量;d为预设模型的输出结果为正常号码、且所述分类类型也为已知的正常号码对应的样本数量;查全率=a/(a+b)×100%;查准率=a/(a+c)×100%;漏检率=b/(a+b)×100%。可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,通过计算具体的评价指标,能够有效评价预设模型。
在上述实施例的基础上,所述若所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,包括:
若所述正确率、所述查全率和所述查准率中的至少一项大于第一预设比率,且所述漏检率小于第二预设比率,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,其中,所述第一预设比率大于所述第二预设比率。
具体的,装置若判断获知所述正确率、所述查全率和所述查准率中的至少一项大于第一预设比率,且所述漏检率小于第二预设比率,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,其中,所述第一预设比率大于所述第二预设比率。可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,通过评价指标是否满足预设条件,能够有效判断预设模型是否适用。
在上述实施例的基础上,所述则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,包括:
将所述通话样本数据代入所述预设模型,并采用极大似然函数法计算所述回归系数。
具体的,装置将所述通话样本数据代入所述预设模型,并采用极大似然函数法计算所述回归系数。可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,采用极大似然函数法计算预设模型的回归系数,有效地完成预设模型的训练。
在上述实施例的基础上,所述通话数据包括预设天数内的通话总数、拨打的号码总数和通话时长;所述特征变量包括号码活跃度、互动率、平均通话花销成本和主叫行为与反馈的相关度中的至少一项;相应的,所述根据所述通话数据获取反映通话行为的特征变量的多维度向量值,包括:
具体的,装置根据如下公式计算所述号码活跃度:
其中,ufr为号码活跃度、RtFromFr为预设天数内的通话总数、所述通话总数包括主叫数和被叫数;FrRt为日平均被叫数、Fr为日平均主叫数、η为修正系数,值域为[0.1,1]、dω为主叫行为发生的天数。
根据如下公式计算所述号码活跃度:
其中,ufr为号码活跃度、RtFromFr为预设天数内的通话总数、所述通话总数包括主叫数和被叫数;FrRt为日平均被叫数、Fr为日平均主叫数、η为修正系数,值域为[0.1,1]、dω为主叫行为发生的天数。可参照上述实施例,不再赘述。
根据如下公式计算所述互动率:
其中,Ir为互动率、ωc为预设天数内拨打的号码总数、所述号码总数包括有回拨号码数;为第i个有回拨号码对应的主叫在预设天数内发起的通话时长;为第i个有回拨号码在预设天数内的回拨通话时长;N为有回拨号码数。
具体的,装置根据如下公式计算所述互动率:
其中,Ir为互动率、ωc为预设天数内拨打的号码总数、所述号码总数包括有回拨号码数;为第i个有回拨号码对应的主叫在预设天数内发起的通话时长;为第i个有回拨号码在预设天数内的回拨通话时长;N为有回拨号码数。可参照上述实施例,不再赘述。
根据如下公式计算所述平均通话花销成本:
其中,为平均通话花销成本、为平均每天的通话时长、ωθ为活跃天数,根据如下公式计算:
其中,ω为主叫数、dω为主叫行为发生的天数。
具体的,装置根据如下公式计算所述平均通话花销成本:
其中,为平均通话花销成本、为平均每天的通话时长、ωθ为活跃天数,根据如下公式计算:
其中,ω为主叫数、dω为主叫行为发生的天数。可参照上述实施例,不再赘述。
根据如下公式计算所述主叫行为与反馈的相关度:
其中,ru为主叫行为与反馈的相关度、M表示对所述预设天数作M等分;zi为每一等分中的主叫数、yi为每一等分中针对所述主叫数的回拨数、为所有M等分中的主叫数之和的平均数、为所有M等分中针对所有主叫数的回拨数的平均数;为平均反馈率,根据如下公式计算:
具体的,装置根据如下公式计算所述主叫行为与反馈的相关度:
其中,ru为主叫行为与反馈的相关度、M表示对所述预设天数作M等分;zi为每一等分中的主叫数、yi为每一等分中针对所述主叫数的回拨数、为所有M等分中的主叫数之和的平均数、为所有M等分中针对所有主叫数的回拨数的平均数;为平均反馈率,根据如下公式计算:
可参照上述实施例,不再赘述。
本发明实施例提供的识别诈骗电话的方法,通过具体计算出特征向量的多维度向量值,进一步能够高效、准确识别出诈骗电话。
图2为本发明实施例识别诈骗电话的装置结构示意图,如图3所示,本发明实施例提供了一种识别诈骗电话的装置,包括第一获取单元1、第二获取单元2和识别单元3,其中:
第一获取单元1用于获取待识别号码的通话数据;第二获取单元2用于根据所述通话数据获取反映通话行为的特征变量的多维度向量值;识别单元3用于将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
具体的,第一获取单元1用于获取待识别号码的通话数据;第二获取单元2用于根据所述通话数据获取反映通话行为的特征变量的多维度向量值;识别单元3用于将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
本发明实施例提供的识别诈骗电话的装置,通过将获取到的特征变量的多维度向量值输入预设模型,并根据输出结果确定待识别号码是否为诈骗电话,能够高效、准确识别出诈骗电话。
本发明实施例提供的识别诈骗电话的装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备包括:处理器(processor)301、存储器(memory)302和总线303;
其中,所述处理器301、存储器302通过总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待识别号码的通话数据;根据所述通话数据获取反映通话行为的特征变量的多维度向量值;将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待识别号码的通话数据;根据所述通话数据获取反映通话行为的特征变量的多维度向量值;将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待识别号码的通话数据;根据所述通话数据获取反映通话行为的特征变量的多维度向量值;将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。
Claims (10)
1.一种识别诈骗电话的方法,其特征在于,包括:
获取待识别号码的通话数据;
根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
2.根据权利要求1所述的方法,其特征在于,所述预设模型为:
其中,CM为所述预设模型、x=(x1,x2,…,xn)为所述特征变量、x1,x2,…,xn分别对应维度为n的多维度向量值、β0为截距项,β1,β2,...,βn为与所述多维度向量值一一对应的回归系数。
3.根据权利要求2所述的方法,其特征在于,所述预设模型的预先训练,包括:
获取作为采样样本的样本号码对应的通话样本数据;所述样本号码的分类类型包括已知的正常号码和已知的诈骗号码;
根据所述通话样本数据获取反映通话行为的样本特征变量的多维度样本向量值;
将所述多维度样本向量值输入预设模型,并将所述预设模型的输出结果与所述分类类型相比较,根据比较结果计算所述预设模型的评价指标;
若所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,以完成所述预设模型的预先训练。
4.根据权利要求3所述的方法,其特征在于,所述评价指标包括正确率、查全率、查准率和漏检率中的至少一种;相应的,所述根据比较结果计算所述预设模型的评价指标,包括:
分别根据如下公式计算所述评价指标:
正确率=(a+d)/(a+b+c+d)×100%;
其中,a为预设模型的输出结果为诈骗号码、且所述分类类型也为已知的诈骗号码对应的样本数量;b为预设模型的输出结果为正常号码、且所述分类类型为已知的诈骗号码对应的样本数量;c为预设模型的输出结果为诈骗号码、且所述分类类型为已知的正常号码对应的样本数量;d为预设模型的输出结果为正常号码、且所述分类类型也为已知的正常号码对应的样本数量;
查全率=a/(a+b)×100%;
查准率=a/(a+c)×100%;
漏检率=b/(a+b)×100%。
5.根据权利要求4所述的方法,其特征在于,所述若所述评价指标满足预设条件,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,包括:
若所述正确率、所述查全率和所述查准率中的至少一项大于第一预设比率,且所述漏检率小于第二预设比率,则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,其中,所述第一预设比率大于所述第二预设比率。
6.根据权利要求5所述的方法,其特征在于,所述则将所述通话样本数据代入所述预设模型,并根据预设规则计算所述预设模型的回归系数,包括:
将所述通话样本数据代入所述预设模型,并采用极大似然函数法计算所述回归系数。
7.根据权利要求1至6任一所述的方法,其特征在于,所述通话数据包括预设天数内的通话总数、拨打的号码总数和通话时长;所述特征变量包括号码活跃度、互动率、平均通话花销成本和主叫行为与反馈的相关度中的至少一项;相应的,所述根据所述通话数据获取反映通话行为的特征变量的多维度向量值,包括:
根据如下公式计算所述号码活跃度:
其中,ufr为号码活跃度、RtFromFr为预设天数内的通话总数、所述通话总数包括主叫数和被叫数;FrRt为日平均被叫数、Fr为日平均主叫数、η为修正系数,值域为[0.1,1]、dω为主叫行为发生的天数;
根据如下公式计算所述互动率:
其中,Ir为互动率、ωc为预设天数内拨打的号码总数、所述号码总数包括有回拨号码数;为第i个有回拨号码对应的主叫在预设天数内发起的通话时长;为第i个有回拨号码在预设天数内的回拨通话时长;N为有回拨号码数;
根据如下公式计算所述平均通话花销成本:
其中,为平均通话花销成本、为平均每天的通话时长、ωθ为活跃天数,根据如下公式计算:
其中,ω为主叫数、dω为主叫行为发生的天数;
根据如下公式计算所述主叫行为与反馈的相关度:
其中,ru为主叫行为与反馈的相关度、M表示对所述预设天数作M等分;zi为每一等分中的主叫数、yi为每一等分中针对所述主叫数的回拨数、为所有M等分中的主叫数之和的平均数、为所有M等分中针对所有主叫数的回拨数的平均数;为平均反馈率,根据如下公式计算:
8.一种识别诈骗电话的装置,其特征在于,包括:
第一获取单元,用于获取待识别号码的通话数据;
第二获取单元,用于根据所述通话数据获取反映通话行为的特征变量的多维度向量值;
识别单元,用于将所述多维度向量值输入预先训练好的预设模型,并根据所述预设模型的输出结果确定所述待识别号码是否为诈骗电话。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810378567.0A CN110401780B (zh) | 2018-04-25 | 2018-04-25 | 一种识别诈骗电话的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810378567.0A CN110401780B (zh) | 2018-04-25 | 2018-04-25 | 一种识别诈骗电话的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110401780A true CN110401780A (zh) | 2019-11-01 |
CN110401780B CN110401780B (zh) | 2021-05-11 |
Family
ID=68322510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810378567.0A Active CN110401780B (zh) | 2018-04-25 | 2018-04-25 | 一种识别诈骗电话的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110401780B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111031546A (zh) * | 2019-11-29 | 2020-04-17 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN112839335A (zh) * | 2019-11-25 | 2021-05-25 | 中移动信息技术有限公司 | 号码识别方法、装置、设备及介质 |
CN113076776A (zh) * | 2020-01-03 | 2021-07-06 | 中国移动通信集团广东有限公司 | 通信号码的识别方法、装置和电子设备 |
CN113163057A (zh) * | 2021-01-20 | 2021-07-23 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
CN113452845A (zh) * | 2020-03-26 | 2021-09-28 | 中国移动通信集团福建有限公司 | 识别异常电话号码的方法和电子设备 |
CN114125155A (zh) * | 2021-11-15 | 2022-03-01 | 天津市国瑞数码安全系统股份有限公司 | 一种基于大数据分析的骚扰电话检测方法及系统 |
CN114430442A (zh) * | 2022-04-02 | 2022-05-03 | 广东创新科技职业学院 | 一种基于人工智能的诈骗号码识别分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107770777A (zh) * | 2017-09-30 | 2018-03-06 | 杭州东信北邮信息技术有限公司 | 一种录音诈骗电话的识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102200253B1 (ko) * | 2015-07-07 | 2021-01-07 | 주식회사 케이티 | 문자 메시지 부정 사용 탐지 방법 및 시스템 |
CN107343077B (zh) * | 2016-04-28 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 识别恶意电话及建立识别模型的方法、装置、设备 |
CN107517463A (zh) * | 2016-06-15 | 2017-12-26 | 中国移动通信集团浙江有限公司 | 一种电话号码的识别方法和装置 |
CN106506880B (zh) * | 2016-10-25 | 2019-07-09 | 杭州东信北邮信息技术有限公司 | 一种从黑名单号码库中自动识别可释放号码的方法 |
CN106791220B (zh) * | 2016-11-04 | 2021-06-04 | 国家计算机网络与信息安全管理中心 | 防止电话诈骗的方法及系统 |
CN107506776A (zh) * | 2017-01-16 | 2017-12-22 | 恒安嘉新(北京)科技股份公司 | 一种诈骗电话号码的分析方法 |
CN107133265B (zh) * | 2017-03-31 | 2021-07-09 | 咪咕动漫有限公司 | 一种识别行为异常用户的方法及装置 |
CN107944557B (zh) * | 2017-12-13 | 2021-08-13 | 广州市景心科技股份有限公司 | 一种骚扰电话的识别方法 |
-
2018
- 2018-04-25 CN CN201810378567.0A patent/CN110401780B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107770777A (zh) * | 2017-09-30 | 2018-03-06 | 杭州东信北邮信息技术有限公司 | 一种录音诈骗电话的识别方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112839335A (zh) * | 2019-11-25 | 2021-05-25 | 中移动信息技术有限公司 | 号码识别方法、装置、设备及介质 |
CN111031546A (zh) * | 2019-11-29 | 2020-04-17 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN111031546B (zh) * | 2019-11-29 | 2023-09-19 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN113076776A (zh) * | 2020-01-03 | 2021-07-06 | 中国移动通信集团广东有限公司 | 通信号码的识别方法、装置和电子设备 |
CN113452845A (zh) * | 2020-03-26 | 2021-09-28 | 中国移动通信集团福建有限公司 | 识别异常电话号码的方法和电子设备 |
CN113452845B (zh) * | 2020-03-26 | 2024-03-19 | 中国移动通信集团福建有限公司 | 识别异常电话号码的方法和电子设备 |
CN113163057A (zh) * | 2021-01-20 | 2021-07-23 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
CN113163057B (zh) * | 2021-01-20 | 2022-09-30 | 北京工业大学 | 一种诈骗电话动态识别区间构建方法 |
CN114125155A (zh) * | 2021-11-15 | 2022-03-01 | 天津市国瑞数码安全系统股份有限公司 | 一种基于大数据分析的骚扰电话检测方法及系统 |
CN114430442A (zh) * | 2022-04-02 | 2022-05-03 | 广东创新科技职业学院 | 一种基于人工智能的诈骗号码识别分析方法 |
CN114430442B (zh) * | 2022-04-02 | 2022-07-15 | 广东创新科技职业学院 | 一种基于人工智能的诈骗号码识别分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110401780B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110401780B (zh) | 一种识别诈骗电话的方法及装置 | |
US10757264B2 (en) | Matching using agent/caller sensitivity to performance | |
CN107220845A (zh) | 用户复购概率预测/用户质量确定方法、装置及电子设备 | |
CN111414641B (zh) | 一种基于采样的个性化差分隐私保护方法及系统 | |
CN111385420B (zh) | 用户的识别方法、装置、存储介质及电子装置 | |
WO2020164333A1 (zh) | 基于强化学习模型的业务用户分流方法和装置 | |
WO2019174184A1 (zh) | 电话外呼分析控制方法、电子装置及可读存储介质 | |
CN110782291A (zh) | 广告投放用户确定方法及装置、存储介质及电子装置 | |
CN110889117A (zh) | 一种模型攻击的防御方法及装置 | |
CN110113748B (zh) | 骚扰电话监控方法、装置 | |
CN110677269B (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN113194210B (zh) | 一种语音通话接入方法及装置 | |
CN112351429A (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN111062422A (zh) | 一种套路贷体系化识别方法及装置 | |
CN113796834B (zh) | 认知能力评估方法、装置、设备及存储介质 | |
CN113596260B (zh) | 异常电话号码检测方法和电子设备 | |
CN110765303A (zh) | 一种更新数据库的方法及系统 | |
CN110399399B (zh) | 用户分析的方法、装置、电子设备和存储介质 | |
CN110856159B (zh) | 确定家庭圈成员的方法、装置及存储介质 | |
CN109508454B (zh) | 一种短信审核方法及装置 | |
CN113869926A (zh) | 广告识别方法、装置、电子设备及存储介质 | |
CN111210289A (zh) | 移动用户信用等级的获取方法和装置 | |
CN113011476B (zh) | 基于自适应滑动窗口gan的用户行为安全检测方法 | |
CN112419050B (zh) | 基于电话通讯网络和社交行为的信用评估方法及装置 | |
CN118055188A (zh) | 用户身份识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |