CN114339639B - 通话识别方法、装置、存储介质和电子设备 - Google Patents

通话识别方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN114339639B
CN114339639B CN202111621017.5A CN202111621017A CN114339639B CN 114339639 B CN114339639 B CN 114339639B CN 202111621017 A CN202111621017 A CN 202111621017A CN 114339639 B CN114339639 B CN 114339639B
Authority
CN
China
Prior art keywords
call
value
analysis
suspected
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111621017.5A
Other languages
English (en)
Other versions
CN114339639A (zh
Inventor
王旭庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111621017.5A priority Critical patent/CN114339639B/zh
Publication of CN114339639A publication Critical patent/CN114339639A/zh
Application granted granted Critical
Publication of CN114339639B publication Critical patent/CN114339639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种通话识别方法、装置、存储介质和电子设备。其中,该方法包括:在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对来电通话进行分析,得到通话分析值,其中,每个通话分析维度的权重值不同;如果通话分析值大于第一预定阈值,则确定来电通话为高度疑似骚扰电话;如果通话分析值大于第二预定阈值且小于第三预定阈值,则确定来电通话为低度疑似骚扰电话;如果通话分析值小于第四预定阈值,则确定来电通话为非骚扰电话;过滤掉非骚扰电话,并对高度疑似骚扰电话和低度疑似骚扰电话进行识别处理,得到识别处理结果。解决了采用传统技术方案难以有效识别骚扰电话,给广大通信用户造成巨大困扰的技术问题。

Description

通话识别方法、装置、存储介质和电子设备
技术领域
本发明涉及通信技术领域,尤其涉及通信安全技术领域,具体而言,涉及一种通话识别方法、装置、存储介质和电子设备。
背景技术
近年来,由于存在垃圾短信、骚扰电话、通信网络诈骗、违法违规内容、数据安全等信息安全问题,因此,对电信运营商的信息安全工作日趋严格和强化。
通信话音服务因其性价比、传播效率高的特征,被各行各业的广告主用于滥打骚扰电话,给广大通信用户造成巨大困扰。骚扰电话黑灰色产业鱼龙混杂,呼叫规模大,呼叫类别广泛,参与主体众多,利用传统技术手段难以实现有效的管控。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种通话识别方法、装置、存储介质和电子设备,以至少解决采用传统技术方案难以有效识别骚扰电话,给广大通信用户造成巨大困扰的技术问题。
根据本发明实施例的一个方面,提供了一种通话识别方法,包括:在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值;过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。
可选的,上述方法还包括:基于不同的上述通话分析维度构建初始电话分析模型,其中,上述通话分析维度包括:主叫号码每天呼叫号码个数、主叫号码每天重复呼叫号码个数占比、呼叫省份数量、呼叫时长、主叫号码前预定位数、定时呼叫判定、单日被挂断次数、流量使用信息、呼入呼出比例、是否被用户手机标记、是否为海外号码、呼出时间段;选取预定数量的通话样本数据,其中,上述通话样本数据包括:骚扰电话样本和非骚扰电话样本;采用上述通话样本数据训练上述初始电话分析模型,得到骚扰电话分析模型。
可选的,上述采用上述通话样本数据训练上述初始电话分析模型,得到骚扰电话分析模型,包括:通过调整上述初始电话分析模型中不同的模型数值,对上述通话样本数据进行评价,得到评价正确率;将最高的上述评价正确率对应的上述模型数值确定为最优模型数值,其中,上述模型数值包括:阈值、分值、权重值;采用上述最优模型数值训练上述初始电话分析模型,得到上述骚扰电话分析模型。
可选的,对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:分别对上述来电通话的呼叫省份数量的权重值进行偏导数计算,得到呼叫省份计算值,以及对上述来电通话的呼出时间段的权重值进行偏导数计算,得到呼出时间计算值;计算上述呼叫省份计算值与上述呼出时间计算值之和,得到第一总和;计算上述呼叫省份数量的积分值与上述呼出时间段的积分值之和,得到第二总和;如果上述第一总和等于上述第二总和,则确定上述来电通话为上述非骚扰电话,并将上述来电通话的电话号码存入第一通话数据库。
可选的,对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:对上述来电通话的电话号码的权重值进行偏导数计算,得到电话号码计算值;如果上述电话号码计算值等于上述电话号码的积分值,则确定上述来电通话为诈骗电话,并将上述来电通话的电话号码存入第三通话数据库。
可选的,在对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果之后,上述方法还包括:对上述来电通话进行外呼操作处理,并对通话内容进行录音得到录音内容;其中,上述外呼操作处理用于建立智能机器人与上述来电通话的通话连接;采用自然语言识别算法识别与上述录音内容对应的录音文本,得到识别结果;根据上述识别结果对上述电话号码进行分类标注,并根据标注结果将上述电话号码存入对应的通话数据库。
可选的,上述方法还包括:预先设置不同类型的多个通话数据库,其中,第一通话数据库中存储的电话号码为非骚扰电话,第二通话数据库中存储的电话号码为疑似骚扰电话,第三数据库中存储的电话号码为确定骚扰电话。
根据本发明实施例的另一方面,还提供了一种通话识别装置,包括:分析模块,用于在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;第一确定模块,用于如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;以及如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;第二确定模块,用于如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值;识别模块,用于过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的通话识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行任意一项上述的通话识别方法。
在本发明实施例中,通过在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值,过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。达到了通过不同通话分析维度对来电通话进行分析,提升分析准确性和有效性的目的,从而实现了精准识别骚扰电话,避免通信用户被骚扰电话困扰的技术效果,进而解决了采用传统技术方案难以有效识别骚扰电话,给广大通信用户造成巨大困扰的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种通话识别方法的流程示意图;
图2是根据本发明实施例的一种可选的通话识别方法的流程示意图;
图3是根据本发明实施例的一种可选的AI外呼操作的流程示意图;
图4是根据本发明实施例的一种通话识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种通话识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种通话识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;
步骤S104,如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;
步骤S106,如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值;
步骤S108,过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。
在本发明实施例中,通过在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值,过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。达到了通过不同通话分析维度对来电通话进行分析,提升分析准确性和有效性的目的,从而实现了精准识别骚扰电话,避免通信用户被骚扰电话困扰的技术效果,进而解决了采用传统技术方案难以有效识别骚扰电话,给广大通信用户造成巨大困扰的技术问题。
在本申请实施例中,可以预先基于不同的通话分析维度构建骚扰电话分析模型,在接收到来电通话时,可以采用该骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值。
可选的,每个上述通话分析维度的权重值不同;在本申请实施例中,可以采用不同处理规则及积分维度对来电通话的安全性进行分析检测,以对用户在通话中的隐私进行保护。
可选的,上述高度疑似骚扰电话和低度疑似骚扰电话分别是指来电通话的类型,均为疑似骚扰电话,该高度疑似骚扰电话被定义为骚扰电话的可能性大于低度疑似骚扰电话,具体可以在以下技术方案中进一步进行识别和分析。
通过将疑似骚扰电话区分为高度疑似骚扰电话和低度疑似骚扰电话,可以提升骚扰电话分类和标注的高准确性,由于,在本申请实施例中,采用基于骚扰电话的特征创建骚扰电话分析模型准确标注出骚扰电话,对疑似骚扰电话按不同类型进一步进行分类,具体的,是基于不同的模型及骚扰电话特征将骚扰电话进行不同的分类;可以直接过滤掉高频但非骚扰电话:利用相应的模型算法过滤出高频呼叫但是非骚扰电话的号码;在本申请实施例中,还可以通过多维度的阈值调整优化让模型更加精准,即提升模型参数调整的高灵活性。
本申请实施例中所提供的上述通话识别方法,可以但不限于应用在谢绝来电集中管控平台。例如,采用骚扰电话分析模型实现具体的模型计算部分,可以在谢绝来电集中管控平台大数据分析子系统实现应用;AI外呼及标注功能可以在谢绝来电集中管控平台云质检子系统实现应用;对于白库、灰库及黑库的功能在谢绝来电集中管控平台自有标签库子系统中实现应用;对于用户的标注功能在谢绝来电集中管控平台微信公众号及手机APP中实现应用。
在一种可选的实施例中,如图2所示,上述方法还包括:预先设置不同类型的多个通话数据库,其中,第一通话数据库中存储的电话号码为非骚扰电话,第二通话数据库中存储的电话号码为疑似骚扰电话,第三数据库中存储的电话号码为确定骚扰电话。
例如,作为一种可选的实施例,可以基于骚扰电话的疑似值设置白库,灰库,黑库三个数据库,其中,白库中存储的号码为非骚扰电话,灰库中存储的号码为疑似骚扰电话,黑库中存储的号码为骚扰电话,基于后面的步骤通过计算结果将号码加入到相应的库中。
在一种可选的实施例中,上述方法还包括:
步骤S202,基于不同的上述通话分析维度构建初始电话分析模型;
步骤S204,选取预定数量的通话样本数据,其中,上述通话样本数据包括:骚扰电话样本和非骚扰电话样本;
步骤S206,采用上述通话样本数据训练上述初始电话分析模型,得到骚扰电话分析模型。
在上述可选的实施例中,仍如图2所示,基于不同的通话分析维度构建骚扰电话分析模型,其中,上述通话分析维度包括:主叫号码每天呼叫号码个数、主叫号码每天重复呼叫号码个数占比、呼叫省份数量、呼叫时长、主叫号码前预定位数、定时呼叫判定、单日被挂断次数、流量使用信息、呼入呼出比例、是否被用户手机标记、是否为海外号码、呼出时间段;每个通话分析维度对应的模型规则如下:
1.主叫号码每天呼叫号码个数,呼叫号码数记为A,当A的数量达到10次每个号码积a分,小于等于10次每个号码积分0分,类型权重记做x1
2.主叫号码每天重复呼叫号码个数占比,占比数记为B,B的值小于5%积b分,大于等于5%积0分,类型权重记做x2
3.呼叫省份数量:同一个主叫在一天内呼叫了多个省份的被叫号码。呼叫省份数量记为C,省份个数大于5个每个省份积c分,省份个数小于等于5大于1每个省份积c'分,呼叫省份为1个省份积C'分,类型权重记做x3
4.呼叫时长:呼叫时长小于等于分钟的次数记做D,大于等于5次每次积d分,小于5次每次积0分。同一个号码如果有多次呼叫,按多次计算,类型权重记做x4
5.主叫号码前预定位数:170,171,400,950,951,952,957。记E分,类型权重记做x5
6.定时呼叫判定:有些骚扰软件会根据程序定时定点向外呼叫,当从数据集发现每日呼出时间一致的,且结束呼出时间也一致的电话可视为骚扰电话。从统计时间向前连续一样的天数记为F,每天的分数记为f,类型权重记做x6
7.单日被挂断次数:号码呼出后被挂断次数记为G,大于5次每次积g分,小于等于5次每次积0分,类型权重记做x7
8.根据号码查询流量使用情况,从统计时间向前连续没使用流量的天数记为H,每天的分数记为h,如果是固话号码则积总分H'分,类型权重记做x8
9.呼入呼出是否成比例:电话呼入次数与电话呼出次数比例低于I%,则确定呼入呼出不成比例,记i分,大于I%积0分,类型权重记做x9
10.是否被用户手机标记,如果被用户手机标记,则标记次数记为J,每次积分j,类型权重记做x10
11.呼出号码如果为海外号码,则积分K,类别权重记做x11
12.呼出时间为早9点到晚5点之间则积L分,全天分布则积l分,类别权重记做x12
基于上述通话分析维度可归纳出总分数学模型,即上述初始电话分析模型:
Figure GDA0004067453900000071
其中,F(xi)为总分数,f(xi)为每种类型的分数,A、a、B、b、C、c、C'、c'、D、d、E、F、f、G、g、H、h、H'、I、i、J、j、K、L、l为阈值或统计值,均为已知数字,xi为每种类型权重的变量。
然后,通过选取一定数量的骚扰电话样本和非骚扰电话样本,训练上述初始电话分析模型,得到骚扰电话分析模型。
在一种可选的实施例中,上述采用上述通话样本数据训练上述初始电话分析模型,得到骚扰电话分析模型,包括:
步骤S302,通过调整上述初始电话分析模型中不同的模型数值,对上述通话样本数据进行评价,得到评价正确率;
步骤S304,将最高的上述评价正确率对应的上述模型数值确定为最优模型数值,其中,上述模型数值包括:阈值、分值、权重值;
步骤S306,采用上述最优模型数值训练上述初始电话分析模型,得到上述骚扰电话分析模型。
在上述实施例中,可以选取一定数量的骚扰电话样本和非骚扰电话样本,通过调整上述初始电话分析模型中不同的模型数值,对上述通话样本数据进行评价,得到评价正确率;再设置模型中每个阈值、分值、权重的起始值及步长,通过设定不同的最优模型数值来基于样本数据进行计算,评价骚扰电话或非骚扰电话正确率最高的一组阈值、分值、权重为模型最优状态。
通过调整x1至x12的权重值计算出总分值结果F(x),判断F(x)的值,如果大于某个值y1则可认定该号码为高度疑似骚扰电话,大于某个值y2小于某个值y3则可认定该号码为疑似骚扰电话,小于某个值y4则可认定为该号码为非骚扰电话,针对高度疑似骚扰电话和疑似骚扰电话则进行下一步过滤。
作为一种可选的实施例,对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:
步骤S402,分别对上述来电通话的呼叫省份数量的权重值进行偏导数计算,得到呼叫省份计算值,以及对上述来电通话的呼出时间段的权重值进行偏导数计算,得到呼出时间计算值;
步骤S404,计算上述呼叫省份计算值与上述呼出时间计算值之和,得到第一总和;
步骤S406,计算上述呼叫省份数量的积分值与上述呼出时间段的积分值之和,得到第二总和;
步骤S408,如果上述第一总和等于上述第二总和,则确定上述来电通话为上述非骚扰电话,并将上述来电通话的电话号码存入第一通话数据库。
在上述可选的实施例中,针对高度疑似骚扰电话和疑似骚扰电话,对F(xi)进行x3和x12的偏导数计算,计算结果分别为F'(x3)F'(x12),如果F'(x3)+F'(x12)=C'+L则可认定为该号码为非骚扰电话,而是地方政府部门或者街道或居委会对当地居民的一类通知电话,将这类通知电话的电话号码存入进入白库(即第一通话数据库),而未被过滤的号码则进行下一步过滤。
作为另一种可选的实施例,对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:
步骤S502,对上述来电通话的电话号码的权重值进行偏导数计算,得到电话号码计算值;
步骤S504,如果上述电话号码计算值等于上述电话号码的积分值,则确定上述来电通话为诈骗电话,并将上述来电通话的电话号码存入第三通话数据库。
在上述可选的实施例中,针对高度疑似骚扰电话和疑似骚扰电话,对F(xi)进行x11的偏导数计算,计算结果为F'(x11),如果F'(x3)=K则可认定为该号码为诈骗电话,这类电话直接进入黑库(即第三通话数据库),而未被过滤的号码则进行下一步过滤。
基于已有的黑库骚扰电话数据基于不同的通话分析维度计算出每个维度的训练值f(mi),使用欧氏距离进行聚类计算:
Figure GDA0004067453900000091
计算结果D(x,m)的值小于某个值D',则可认定该号码与骚扰电话极度相似,则入黑库。
可选的,仍如图2所示,在对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果,之后,上述方法还包括:
步骤S602,对上述来电通话进行外呼操作处理,并对通话内容进行录音得到录音内容;其中,上述外呼操作处理用于建立智能机器人与上述来电通话的通话连接;
步骤S604,采用自然语言识别算法识别与上述录音内容对应的录音文本,得到识别结果;
步骤S606,根据上述识别结果对上述电话号码进行分类标注,并根据标注结果将上述电话号码存入对应的通话数据库。
作为一种可选的实施例,如图3所示,本申请中提供的AI外呼的具体实现场景中包括:数据层、平台层和实现层,数据层为平台层提供FTP(文件传输协议)数据源;MRCP为媒体资源控制协议,ASR是自动语音识别技术、TTS是指语音识别技术;PSTN为公共交换电话网络,IMS是IP多媒体系统,是运营商提供的一种全新的多媒体业务形式。
如图3所示,针对上述方法实施例中,分析得到的疑似骚扰电话和高度疑似骚扰电话,进行过滤处理之后还可以继续进行AI外呼操作,通过智能机器人与号码产生通话,并对通话内容进行录音,并对于产生的录音进行转文本操作,通过NLP自然语言理解,对号码进行分类标注,营销电话则可标注出行业,根据标注结果进入黑库。如果经过上述处理,仍未有结果的高度疑似骚扰电话和疑似骚扰电话则进入临时库,每隔一定的周期T后重复聚类处理之后的操作,如果后续的话单号码能通过上述判定出结果则从临时库中移除,根据标注结果将电话号码分别插入预先定义的三类通话数据库。
本申请实施例中所提出的骚扰电话精准识别方法的算法设计,将大数据分析、语音识别、自然语言理解进行了充分结合,利用数学公式进行建模处理,从而精准分析出骚扰电话,并标记出骚扰电话类别,针对营销电话能标注出其所在行业。可以解决传统的标记算法精准度不够,另外没有针对骚扰电话类别或者行业进行精准细分的技术问题。
实施例2
根据本发明实施例,还提供了一种用于实施上述通话识别方法的装置实施例,图4是根据本发明实施例的一种通话识别装置的结构示意图,如图4所示,上述通话识别装置,包括:分析模块40、第一确定模块42、第二确定模块44、识别模块46,其中:
分析模块40,用于在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;第一确定模块42,用于如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;第二确定模块44,用于如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值;识别模块46,用于过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述分析模块40、第一确定模块42、第二确定模块44、识别模块46对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的通话识别装置还可以包括处理器和存储器,上述分析模块40、第一确定模块42、第二确定模块44、识别模块46等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种计算机可读存储介质的实施例。可选地,在本实施例中,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述任意一种通话识别方法。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对上述来电通话进行分析,得到通话分析值,其中,每个上述通话分析维度的权重值不同;如果上述通话分析值大于第一预定阈值,则确定上述来电通话为高度疑似骚扰电话;如果上述通话分析值大于第二预定阈值且小于第三预定阈值,则确定上述来电通话为低度疑似骚扰电话;如果上述通话分析值小于第四预定阈值,则确定上述来电通话为非骚扰电话,其中,上述第一预定阈值>上述第二预定阈值>上述第三预定阈值>上述第四预定阈值;过滤掉上述非骚扰电话,并对上述高度疑似骚扰电话和上述低度疑似骚扰电话进行识别处理,得到识别处理结果。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:基于不同的上述通话分析维度构建初始电话分析模型,其中,上述通话分析维度包括:主叫号码每天呼叫号码个数、主叫号码每天重复呼叫号码个数占比、呼叫省份数量、呼叫时长、主叫号码前预定位数、定时呼叫判定、单日被挂断次数、流量使用信息、呼入呼出比例、是否被用户手机标记、是否为海外号码、呼出时间段;选取预定数量的通话样本数据,其中,上述通话样本数据包括:骚扰电话样本和非骚扰电话样本;采用上述通话样本数据训练上述初始电话分析模型,得到骚扰电话分析模型。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:通过调整上述初始电话分析模型中不同的模型数值,对上述通话样本数据进行评价,得到评价正确率;将最高的上述评价正确率对应的上述模型数值确定为最优模型数值,其中,上述模型数值包括:阈值、分值、权重值;采用上述最优模型数值训练上述初始电话分析模型,得到上述骚扰电话分析模型。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:分别对上述来电通话的呼叫省份数量的权重值进行偏导数计算,得到呼叫省份计算值,以及对上述来电通话的呼出时间段的权重值进行偏导数计算,得到呼出时间计算值;计算上述呼叫省份计算值与上述呼出时间计算值之和,得到第一总和;计算上述呼叫省份数量的积分值与上述呼出时间段的积分值之和,得到第二总和;如果上述第一总和等于上述第二总和,则确定上述来电通话为上述非骚扰电话,并将上述来电通话的电话号码存入第一通话数据库。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:对上述来电通话的电话号码的权重值进行偏导数计算,得到电话号码计算值;如果上述电话号码计算值等于上述电话号码的积分值,则确定上述来电通话为诈骗电话,并将上述来电通话的电话号码存入第三通话数据库。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:对上述来电通话进行外呼操作处理,并对通话内容进行录音得到录音内容;其中,上述外呼操作处理用于建立智能机器人与上述来电通话的通话连接;采用自然语言识别算法识别与上述录音内容对应的录音文本,得到识别结果;根据上述识别结果对上述电话号码进行分类标注,并根据标注结果将上述电话号码存入对应的通话数据库。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:预先设置不同类型的多个通话数据库,其中,第一通话数据库中存储的电话号码为非骚扰电话,第二通话数据库中存储的电话号码为疑似骚扰电话,第三数据库中存储的电话号码为确定骚扰电话。
根据本申请实施例,还提供了一种处理器的实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种通话识别方法。
根据本申请实施例,还提供了一种电子设备的实施例,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行上述任意一种的通话识别方法。
根据本申请实施例,还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有上述任意一种的通话识别方法步骤的程序。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种通话识别方法,其特征在于,包括:
在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对所述来电通话进行分析,得到通话分析值,其中,每个所述通话分析维度的权重值不同;
如果所述通话分析值大于第一预定阈值,则确定所述来电通话为高度疑似骚扰电话,以及如果所述通话分析值大于第二预定阈值且小于第三预定阈值,则确定所述来电通话为低度疑似骚扰电话;
如果所述通话分析值小于第四预定阈值,则确定所述来电通话为非骚扰电话,其中,所述第一预定阈值>所述第二预定阈值>所述第三预定阈值>所述第四预定阈值;
过滤掉所述非骚扰电话,并对所述高度疑似骚扰电话和所述低度疑似骚扰电话进行识别处理,得到识别处理结果;
其中,对所述高度疑似骚扰电话和所述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:分别对所述来电通话的呼叫省份数量的权重值进行偏导数计算,得到呼叫省份计算值,以及对所述来电通话的呼出时间段的权重值进行偏导数计算,得到呼出时间计算值;计算所述呼叫省份计算值与所述呼出时间计算值之和,得到第一总和;计算所述呼叫省份数量的积分值与所述呼出时间段的积分值之和,得到第二总和。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于不同的所述通话分析维度构建初始电话分析模型,其中,所述通话分析维度包括:主叫号码每天呼叫号码个数、主叫号码每天重复呼叫号码个数占比、呼叫省份数量、呼叫时长、主叫号码前预定位数、定时呼叫判定、单日被挂断次数、流量使用信息、呼入呼出比例、是否被用户手机标记、是否为海外号码、呼出时间段;
选取预定数量的通话样本数据,其中,所述通话样本数据包括:骚扰电话样本和非骚扰电话样本;
采用所述通话样本数据训练所述初始电话分析模型,得到骚扰电话分析模型。
3.根据权利要求2所述的方法,其特征在于,所述采用所述通话样本数据训练所述初始电话分析模型,得到骚扰电话分析模型,包括:
通过调整所述初始电话分析模型中不同的模型数值,对所述通话样本数据进行评价,得到评价正确率;
将最高的所述评价正确率对应的所述模型数值确定为最优模型数值,其中,所述模型数值包括:阈值、分值、权重值;
采用所述最优模型数值训练所述初始电话分析模型,得到所述骚扰电话分析模型。
4.根据权利要求1所述的方法,其特征在于,对所述高度疑似骚扰电话和所述低度疑似骚扰电话进行识别处理,得到识别处理结果,包括:
对所述来电通话的电话号码的权重值进行偏导数计算,得到电话号码计算值;
如果所述电话号码计算值等于所述电话号码的积分值,则确定所述来电通话为诈骗电话,并将所述来电通话的电话号码存入第三通话数据库。
5.根据权利要求1所述的方法,其特征在于,在对所述高度疑似骚扰电话和所述低度疑似骚扰电话进行识别处理,得到识别处理结果之后,所述方法还包括:
对所述来电通话进行外呼操作处理,并对通话内容进行录音得到录音内容;其中,所述外呼操作处理用于建立智能机器人与所述来电通话的通话连接;
采用自然语言识别算法识别与所述录音内容对应的录音文本,得到识别结果;
根据所述识别结果对电话号码进行分类标注,并根据标注结果将所述电话号码存入对应的通话数据库。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先设置不同类型的多个通话数据库,其中,第一通话数据库中存储的电话号码为非骚扰电话,第二通话数据库中存储的电话号码为疑似骚扰电话,第三数据库中存储的电话号码为确定骚扰电话。
7.一种通话识别装置,其特征在于,包括:
分析模块,用于在接收到来电通话时,采用预先训练得到的骚扰电话分析模型,从不同通话分析维度对所述来电通话进行分析,得到通话分析值,其中,每个所述通话分析维度的权重值不同;
第一确定模块,用于如果所述通话分析值大于第一预定阈值,则确定所述来电通话为高度疑似骚扰电话,以及如果所述通话分析值大于第二预定阈值且小于第三预定阈值,则确定所述来电通话为低度疑似骚扰电话;
第二确定模块,用于如果所述通话分析值小于第四预定阈值,则确定所述来电通话为非骚扰电话,其中,所述第一预定阈值>所述第二预定阈值>所述第三预定阈值>所述第四预定阈值;
识别模块,用于过滤掉所述非骚扰电话,并对所述高度疑似骚扰电话和所述低度疑似骚扰电话进行识别处理,得到识别处理结果;
其中,所述识别模块还用于:分别对所述来电通话的呼叫省份数量的权重值进行偏导数计算,得到呼叫省份计算值,以及对所述来电通话的呼出时间段的权重值进行偏导数计算,得到呼出时间计算值;计算所述呼叫省份计算值与所述呼出时间计算值之和,得到第一总和;计算所述呼叫省份数量的积分值与所述呼出时间段的积分值之和,得到第二总和。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至6中任意一项所述的通话识别方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任意一项所述的通话识别方法。
CN202111621017.5A 2021-12-27 2021-12-27 通话识别方法、装置、存储介质和电子设备 Active CN114339639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111621017.5A CN114339639B (zh) 2021-12-27 2021-12-27 通话识别方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111621017.5A CN114339639B (zh) 2021-12-27 2021-12-27 通话识别方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN114339639A CN114339639A (zh) 2022-04-12
CN114339639B true CN114339639B (zh) 2023-05-12

Family

ID=81015505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111621017.5A Active CN114339639B (zh) 2021-12-27 2021-12-27 通话识别方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114339639B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721660B (zh) * 2016-02-03 2018-09-11 北京光年无限科技有限公司 骚扰电话识别方法及系统
CN107566597A (zh) * 2016-06-30 2018-01-09 百度在线网络技术(北京)有限公司 一种用于标记骚扰号码的方法与装置
CN108366173A (zh) * 2018-01-05 2018-08-03 腾讯科技(深圳)有限公司 一种电话识别方法、相关设备及系统
CN109995925B (zh) * 2019-02-27 2021-03-12 努比亚技术有限公司 一种骚扰电话识别方法、终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN114339639A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110401779B (zh) 一种识别电话号码的方法、装置和计算机可读存储介质
CN108366045B (zh) 一种风控评分卡的设置方法和装置
CN111131593B (zh) 骚扰电话识别方法及其装置
CN109168168B (zh) 一种检测国际盗打的方法
CN110839216B (zh) 识别通讯信息诈骗的方法和装置
CN112751835B (zh) 一种流量预警方法、系统、设备和存储介质
CN116320139A (zh) 分析通话的风控管理的方法、装置、电子设备及存储介质
CN110113748B (zh) 骚扰电话监控方法、装置
CN114513791A (zh) 一种基于机器学习的电信反欺诈方法
CN114339639B (zh) 通话识别方法、装置、存储介质和电子设备
CN112351429A (zh) 基于深度学习的有害信息检测方法及系统
US20200252506A1 (en) Systems and methods of gateway detection in a telephone network
CN107222319B (zh) 一种通信操作分析方法及装置
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN111930808B (zh) 一种利用键值匹配模型提高黑名单准确率的方法及系统
CN111062422A (zh) 一种套路贷体系化识别方法及装置
CN111447169A (zh) 一种在网关上的实时恶意网页识别方法及系统
CN111368858A (zh) 用户满意度评估方法及装置
CN112468444B (zh) 互联网域名滥用识别方法和装置,电子设备,存储介质
CN114189585A (zh) 骚扰电话异常检测方法、装置及计算设备
CN101820367A (zh) 一种网络垃圾电话的监测方法、装置和系统
CN112380323A (zh) 一种基于中文分词识别技术的垃圾信息剔除系统及方法
CN114268939B (zh) 一种移动通信中异常用户识别的方法及智能设备
CN110808988A (zh) 一种基于信息特征熵和长短期记忆网络的物联网卡业务异常检测方法
CN112437197B (zh) 一种基于通信行为信息熵的异常呼叫发现方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant