CN109995924A

CN109995924A - 欺诈电话识别方法、装置、设备及介质

Info

Publication number: CN109995924A
Application number: CN201711491653.4A
Authority: CN
Inventors: 刘阳; 翁先正; 徐腾; 罗秀; 邓先晖; 马国彬; 许海泉; 康丽; 尚杰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guizhou Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guizhou Co Ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2019-07-09

Abstract

本发明实施例提供了一种欺诈电话识别方法、装置、设备及介质，包括如下步骤：获取用户的基础通话数据；将所述基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征；从所述与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码；建立二分类训练模型，将所述多个已知的黑名单号码的数据特征与所述多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型；及将新号码的数据特征输入所述经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。本发明能直接识别欺诈电话，不需用户进行标识判断且不需要安装客户端。

Description

欺诈电话识别方法、装置、设备及介质

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种欺诈电话识别方法、装置、设备及介质。

背景技术

目前，欺诈电话的判断方式是：基于用户的客户端进行判断标识。即用户接到欺诈电话后，通过终端，将该号码标识为欺诈电话，然后传到服务器端，服务器端将该号码列入“黑名单”，当该号码再拨打电话时，系统通过对比“黑名单”识别出该号码是欺诈电话，然后通过客户端提示用户。但现有技术存在以下弊端：欺诈电话的判断是由用户进行，用户可能误判欺诈电话，用户也可能故意进行错误标识；用户需安装客户端，未安装客户端或非智能手机用户不能进行欺诈标识与欺诈提示。

发明内容

本发明实施例提供了一种欺诈电话识别方法、装置、设备及介质，能够通过机器学习技术直接识别欺诈电话，不需要用户进行标识判断且不需要安装客户端。

第一方面，本发明实施例提供了一种欺诈电话识别方法，其包括如下步骤：获取用户的基础通话数据；将所述基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征；从所述与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码；建立二分类训练模型，将所述多个已知的黑名单号码的数据特征与所述多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型；及将与用户通话的新号码的数据特征输入所述经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

第二方面，本发明实施例提供了一种欺诈电话识别装置，其包括：通话数据获取模块、数据特征生成模块、号码选择模块及识别模块。所述通话数据获取模块用于获取用户的基础通话数据。所述数据特征生成模块用于将所述基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征。所述号码选择模块用于从所述与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码。所述模型构建模块用于建立二分类训练模型，将多个已知的黑名单号码的数据特征与多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型。所述识别模块用于将与用户通话的新号码的数据特征输入所述经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

本发明实施例提供了一种欺诈电话识别设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

与现有技术相比较，本发明实施例提供的欺诈电话识别方法、装置、设备及介质，可直接通过用户通话的行为进行是否是“欺诈电话”的判断，不需要用户进行标识，避免的用户误标问题；同时，不需要安装客户端，在网络侧就可进行分析判断，发现欺诈电话。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的欺诈电话识别方法的流程图。

图2示出了图1的欺诈电话识别方法中第一特征的示意图。

图3示出了图1的欺诈电话识别方法中第二特征的示意图。

图4示出了图1的欺诈电话识别方法中第三特征的示意图。

图5示出了采用卷积神经网络算法识别黑名单号码的一个示例。

图6示出了图1的欺诈电话识别方法的子流程图。

图7示出了本发明另一实施例提供的欺诈电话识别装置的结构示意图。

图8示出了本发明另一实施例提供的欺诈电话识别设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了本发明一个实施例提供一种欺诈电话识别方法的流程图。该方法包括步骤S1-S5。

S1：获取用户的基础通话数据。在本实施例中，通过采集用户通话的信令数据并对所述信令数据进行筛选，以获取与语音/视频呼叫相关的基础通话数据；具体的，通过Socket接口，采集移动通信网络侧的A口、Mw口的语音/视频呼叫相关的信令数据。其中2/3G语音数据的采用A口信令；VOLTE实时语音由多个信令合成，该多个信令包括S1-MME、Gn-C、S1-U、Gm、Mw、Mg、Mi、Mj、Mr、ISC、I2、Sv、Cx、Dx、Sh、Dh、Zh、Gx、Rx中的至少一个；所述基础通话数据包括日期、主叫号码、被叫号码、响铃时间、通话时长、挂机方向等的至少一个。

在一个示例中，采集数据后，按天对数据进行清洗，保留语音/视频呼叫相关的信息：日期、主叫号码、被叫号码、响铃时间、通话时长、挂机方向，后续所用到的54个特征均由该几个字段计算出。

S2：将基础通话数据进行统计及计算，生成与用户通话的各电话号码的数据特征。数据特征包括第一特征及/或第二特征及/或第三特征。

将基础数据信息结合时间维度建立用户通话的基础特征与统计特征的特征组合。在一个实施例中，共制定了三级特征(即，第一特征、第二特征和第三特征)指标集合，如图2-图4所示。同时，这些特征不是随便制定，而是需要具有正确的业务逻辑含义或统计学方面的意义。在本发明的各个实施例中，数据特征的数量为54个。但数据特征的数量并不局限于本实施例。

第1级特征(第一特征)，为直接从基础数据中获得的特征，如一天内用户的主叫次数、主叫时长、被叫次数、被叫时长等，这些指标特征可以从基础数据中结合业务逻辑进行简单的逻辑计算得出，具有明显的业务逻辑含义；

第2级特征(第二特征)，主要基于第1级特征中的具体特征内容进行关联计算，进一步得出具有业务逻辑含义的特征值，如：平均主叫时长，表达的是用户在一天内每一通主叫电话的平均通话时长，本级特征仍然主要具有业务逻辑含义；

第3级特征(第三特征)，基于第1、第2级特征，并将数据周期放大(如1周、15天、1月等)进行统计意义上的计算而得出来的新的特征，这些特征有些仍然具有一定的业务逻辑含义，有些则是具有明显的统计学含义，如：一周主叫通话次数和，表达的是一周内用户产生的主叫通话次数；一周通话用户数方差，则是基于每天用户的通话用户数以及时间周期(7天)计算的方差结果，表达了用户在这7天内的通话用户数这个特征的统计学含义：方差情况，本级特征主要体现一段时间周期内各个特征的统计学含义。

为方便各级特征的识别和管理，对各级指标进行编码标识，1、2、3开头的编号分别表示特征所属1级、2级、3级，同时，对是从其他特征相互计算得出的特征，标记出关联特征方便开发和使用人员对识别和了解特征的含义和来源。如：第3级特征“31-32-33平均主叫次数”，特征编码为33，它是由两个3级指标31“一周主角通话次数和”和32“活跃天数”，通过计算得来，31“一周主角通话次数和”除以32“活跃天数”。

如图2所示，第一特征是将基础通话数据进行统计后得到的第一预定时长内的用户通话的数据特征。在一个示例中，第一预定时长例如可以是一天，则该第一特征可以包括如下项中的一个或多个：一天内用户的呼出响铃次数、一天内用户的呼出响铃时长、一天内用户的呼出响铃用户数、一天内用户的呼入响铃次数、一天内用户的呼入响铃时长、一天内用户的呼入响铃用户数、一天内用户的主叫通话次数、一天内用户的主叫通话时长、一天内用户的主叫通话用户数、一天内用户的被叫通话次数、一天内用户的被叫通话时长、一天内用户的被叫通话用户数、一天内用户的响铃主动挂机次数、一天内用户的响铃被动挂机次数、一天内用户的通话主动挂机次数、一天内用户的通话被动挂机次数、一天内用户的主叫最大通话时长、一天内用户的被叫最大通话时长等。第一特征具有业务逻辑含义，比如“一天内用户的呼出响铃次数”的业务逻辑含义是用户在一天内呼出的响铃次数之和。当然，也可以是其它时长内的用户通话的数据特征，比如两天，三天，或者根据需要进行设置。

如图3所示，第二特征是基于第一特征及/或第二特征的业务逻辑含义，将至少两个第一特征及/或其他的第二特征进行计算后得到的第一预订时长用户通话的数据特征。第二特征包括如下项中的一个或多个：平均主叫时长、平均呼出未通话响铃时长、呼出失败率、呼出被挂率、呼出频次、响铃用户多样性、通话用户多样性、整体用户多样性、呼入成功率、主动呼出率、被叫平均时长、主叫通话时长占有率及主动挂机率等。第二特征也具有业务逻辑含义，比如：“平均主叫时长”的业务逻辑含义是用户在一天内每一通主叫电话的平均通话时长。

如图4所示，第三特征是基于第一特征及/或第二特征及/或第三特征的业务逻辑含义，将至少两个第一特征及/或第二特征及/或第三特征进行计算得到的将第二预定时长内(较长时间段，如1周、15天、1月等)的用户通话的数据特征。第三特征包括如下项中的一个或多个：一周主叫通话次数求和、一周活跃天数、一周平均主叫次数、一周主叫次数方差、一周响铃被挂机次数求和、一周平均响铃被挂机次数、一周响铃被挂机次数方差、一周主叫通话时长求和、一周平均通话时长、一周通话时长方差、一周呼出频次求和、一周平均呼出频次、一周呼出频次求方差、一周最大通话时长、一周最大呼出次数、一周响铃未通话时长求和、一周平均呼出未通知时长、一周呼出未通话方差、一周呼出失败率求和、一周平均呼出失败率、一周呼出失败率求方差、一周呼出被挂率求和、一周平均呼出被挂率、一周呼出被挂率求方差、一周呼出响铃未接通总用户数、一周平均呼出响铃未接通用户数、一周呼出响铃未接通用户数求方差、一周主叫通话用户数、一周平均通话用户数、一周通话用户数求方差、一周响铃用户数多样性求和、平均一周响铃用户多样性、一周响铃用户多样性求方差、一周通话用户多样性求和、平均一周通话用户多样性、一周通话用户多样性求方差、一周用户整体多样性求和、平均用户整体多样性求和、一周用户整体多样性求方差等。第三特征也具有业务逻辑含义，比如：“一周主叫通话次数和”的业务逻辑含义为一周内用户产生的主叫通话次数之和；“一周通话用户数方差”的业务逻辑含义为基于每天用户的通话用户数以及时间周期(7天)计算的方差结果。

为了方便各数据特征的识别和管理，本方法中还对第一特征、第二特征及第三特征进行编码标识，1开头的编号表示第一特征，2开头的编号表示第二特征，3开头的编号表示第三特征。同时，对于通过使用其他数据特征进行计算得出的数据特征，图2-4还揭示了各数据特征与其关联特征及计算公式，表示出数据特征的含义和来源。比如：第三特征“31-32-33一周平均主叫次数”，表示其特征编码为33，它是通过将两个3级指标31“一周主叫通话次数和”与32“一周活跃天数”相除得到的。

S3：从所述与用户通话的各电话号码中选出多个已知的黑名单号码(用户投诉的欺诈电话)及多个已知的非黑名单号码。

S4：建立二分类训练模型，将多个已知的黑名单号码的数据特征与多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型。在本实施例中，将每个电话号码的多个数据特征组合视为该电话号码的一个行为图像，基于各数据特征的取值结果可以画出该电话号码的一个行为图像，不同类别的号码群体在行为图像上具有不同的特征结果，相同类别的号码群体在行为图像上具有相同的特征结果，因此，我们将图像识别中的深度学习算法应用到黑名单号码的识别算法中，采用卷积神经网络算法(Convolutional Neural Network，CNN)识别黑名单号码，如图5所示。

在一个示例实施例中，如图6所示，步骤S4包括可以如下步骤S41-43。

S41：建立二分类训练模型，并设定二分类训练模型中的各参数。在本实施例中，所述二分类训练模型为基于python的thenao算法包中的CNN算法模型；所述二分类训练模型包括两个参数设定相同的隐含层，每个隐含层中的过滤器数量为128个，过滤器大小为2*1，每个隐含层中的降维系数为0.5，迭代次数为10次，分类个数为2个(即：黑名单号码、非黑名单号码两类)。

S42：将所述多个已知的黑名单号码的数据特征及所述多个已知的非黑名单号码的数据特征使用归一化函数进行归一化处理，使其均在0-1区间之内，以得到经过归一化后的多个已知的黑名单号码的数据特征及经过归一化后的多个已知的非黑名单号码的数据特征。

S43：将经过归一化后的多个已知的黑名单号码的数据特征及经过归一化后的多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，对所述二分类训练模型进行卷积神经网络训练，并调整所述二分类训练模型中的各参数，直至达到最佳的黑名单号码与非黑名单号码分类验证效果，从而得到经过训练的二分类训练模型。在一个示例中，关于模型的训练样本，可假设已知的黑名单号码的数量与已知的非黑名单号码的数量比例为4：1，这样可以更好地获得黑名单号码的数据特征，已知的黑名单号码的数量与已知的非黑名单号码的数量之和为5万条。

S5：将与用户通话的新号码的数据特征输入经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

下面以一个示例对采用卷积神经网络算法CNN对黑名单号码进行识别进行说明。(1)按照计算逻辑，生成所有号码的54个特征结果数据；(2)对号码的54个特征数据使用归一化函数进行归一化处理，使所有特征的数值均在0-1区间之内；(3)选择算法包，并设定响应的参数：程序包使用的是基于python的thenao算法包中的CNN算法模型。本方法中建立两个隐含层，各层中的参数设定保持一致，其中每层过滤器数量为128个，过滤器大小为2*1，每层降维系数为0.5，迭代次数为10次，分类个数为2个(即：黑名单号码、非黑名单号码两类)；(4)准备训练集，基于已经获得的黑名单标注号码(用户投诉的欺诈电话)作为分类模型的训练集，训练集中正负样本(非黑名单、黑名单)比例为4：1，训练数据集样本量在5万条；(5)训练卷积神经网络，并调整相应参数，直至最佳的分类验证效果；(6)分类模型应用，基于模型进行黑名单号码的预测。

如图7所示，本发明另一实施例提供一种欺诈电话识别装置100，该装置100适用于执行上述本发明实施例所提供的欺诈电话识别方法。该装置100包括：通话数据获取模块10、数据特征生成模块20、号码选择模块30、模型构建模块40及识别模块50。

通话数据获取模块10用于获取用户的基础通话数据。

数据特征生成模块20用于将基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征。

号码选择模块30用于从与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码。

模型构建模块40用于建立二分类训练模型，将多个已知的黑名单号码的数据特征与多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型。

识别模块50用于将新号码的数据特征输入经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

进一步的，基础通话数据信号包括日期、主叫号码、被叫号码、响铃时间、通话时长、挂机方向中的至少一个。

进一步的，数据特征包括第一特征及/或第二特征及/或第三特征。所述第一特征是将所述基础通话数据进行统计后得到的一天内用户通话的数据特征；所述第二特征是将至少两个所述第一特征及/或其他的第二特征进行计算后得到的一天内用户通话的数据特征；所述第三特征是将至少两个所述第一特征及/或所述第二特征及/或其他的第三特征进行计算得到的较长时间段(比如一周、15天、一个月)的用户通话的数据特征。

进一步的，第一特征包括如下项中的一个或多个：一天内用户的呼出响铃次数、一天内用户的呼出响铃时长、一天内用户的呼出响铃用户数、一天内用户的呼入响铃次数、一天内用户的呼入响铃时长、一天内用户的呼入响铃用户数、一天内用户的主叫通话次数、一天内用户的主叫通话时长、一天内用户的主叫通话用户数、一天内用户的被叫通话次数、一天内用户的被叫通话时长、一天内用户的被叫通话用户数、一天内用户的响铃主动挂机次数、一天内用户的响铃被动挂机次数、一天内用户的通话主动挂机次数、一天内用户的通话被动挂机次数、一天内用户的主叫最大通话时长、一天内用户的被叫最大通话时长。

进一步的，第二特征包括如下项中的一个或多个：平均主叫时长、平均呼出未通话响铃时长、呼出失败率、呼出被挂率、呼出频次、响铃用户多样性、通话用户多样性、整体用户多样性、呼入成功率、主动呼出率、被叫平均时长、主叫通话时长占有率及主动挂机率。

进一步的，第三特征包括如下项中的一个或多个：一周主叫通话次数求和、一周活跃天数、一周平均主叫次数、一周主叫次数方差、一周响铃被挂机次数求和、一周平均响铃被挂机次数、一周响铃被挂机次数方差、一周主叫通话时长求和、一周平均通话时长、一周通话时长方差、一周呼出频次求和、一周平均呼出频次、一周呼出频次求方差、一周最大通话时长、一周最大呼出次数、一周响铃未通话时长求和、一周平均呼出未通知时长、一周呼出未通话方差、一周呼出失败率求和、一周平均呼出失败率、一周呼出失败率求方差、一周呼出被挂率求和、一周平均呼出被挂率、一周呼出被挂率求方差、一周呼出响铃未接通总用户数、一周平均呼出响铃未接通用户数、一周呼出响铃未接通用户数求方差、一周主叫通话用户数、一周平均通话用户数、一周通话用户数求方差、一周响铃用户数多样性求和、平均一周响铃用户多样性、一周响铃用户多样性求方差、一周通话用户多样性求和、平均一周通话用户多样性、一周通话用户多样性求方差、一周用户整体多样性求和、平均用户整体多样性求和、一周用户整体多样性求方差。

进一步的，识别模块40先建立二分类训练模型，并设定二分类训练模型中的各参数；将所述多个已知的黑名单号码的数据特征及所述多个已知的非黑名单号码的数据特征使用归一化函数进行归一化处理，使其均在0-1区间之内，以得到所述多个已知的黑名单号码及所述多个已知的非黑名单号码被归一化之后的数据特征；将所述多个已知的黑名单号码及所述多个已知的非黑名单号码被归一化之后的数据特征输入所述二分类训练模型内，对所述二分类训练模型进行卷积神经网络训练，并调整所述二分类训练模型中的各参数，直至达到最佳的分类验证效果，以得到所述训练好的二分类训练模型。

进一步的，通话数据获取模块10通过采集用户通话的信令数据，并对信令数据进行筛选，以获取语音/视频呼叫相关的基础通话数据。

进一步的，信令数据采集模块10通过Socket接口，采集移动通信网络侧的A口、Mw口的语音/视频呼叫相关的信令数据。

进一步的，2/3G语音数据采用A口信令；VOLTE实时语音由多个信令进行合成，该多个信令包括S1-MME、Gn-C、S1-U、Gm、Mw、Mg、Mi、Mj、Mr、ISC、I2、Sv、Cx、Dx、Sh、Dh、Zh、Gx、Rx中的至少一个。

与现有技术相比较，本发明可直接通过通话的行为进行是否是“欺诈电话”的判断，不需要用户进行标识，避免的用户误标问题；同时，不需要安装客户端，在网络侧就可进行分析判断，发现欺诈电话。

另外，上述本发明实施例提供的欺诈电话识别方法可以由欺诈电话识别设备来实现。图8示出了本发明实施例提供的欺诈电话识别设备的硬件结构示意图。

欺诈电话识别设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在数据处理装置的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。在特定实施例中，存储器402包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种欺诈电话识别方法。

在一个示例中，欺诈电话识别设备还可包括通信接口403和总线410。其中，如图8所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将欺诈电话识别设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的欺诈电话识别方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种欺诈电话识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种欺诈电话识别方法，其特征在于，包括如下步骤：

获取用户的基础通话数据；

将所述基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征；

从所述与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码；

建立二分类训练模型，将所述多个已知的黑名单号码的数据特征与所述多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型；及

将与用户通话的新号码的数据特征输入所述经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

2.根据权利要求1所述的方法，其特征在于，所述基础通话数据包括日期、主叫号码、被叫号码、响铃时间、通话时长、挂机方向中的一个或多个。

3.根据权利要求1所述的方法，其特征在于，所述数据特征包括第一特征及/或第二特征及/或第三特征，所述第一特征是将所述基础通话数据进行统计后得到的第一预定时长内的用户通话的数据特征；所述第二特征是基于第一特征和第二特征的业务逻辑含义，将至少两个第一特征及/或第二特征进行计算得到的第一预定时长内的用户通话的数据特征；所述第三特征是基于第一特征、第二特征和第三特征的业务逻辑含义，将至少两个所述第一特征及/或所述第二特征及/或第三特征进行计算得到的第二预定时长内的用户通话的数据特征。

4.根据权利要求3所述的方法，其特征在于，所述第一特征包括如下项中的一个或多个：第一预定时长内用户的呼出响铃次数、第一预定时长内用户的呼出响铃时长、第一预定时长内用户的呼出响铃用户数、第一预定时长内用户的呼入响铃次数、第一预定时长内用户的呼入响铃时长、第一预定时长内用户的呼入响铃用户数、第一预定时长内用户的主叫通话次数、第一预定时长内用户的主叫通话时长、第一预定时长内用户的主叫通话用户数、第一预定时长内用户的被叫通话次数、第一预定时长内用户的被叫通话时长、第一预定时长内用户的被叫通话用户数、第一预定时长内用户的响铃主动挂机次数、第一预定时长内用户的响铃被动挂机次数、第一预定时长内用户的通话主动挂机次数、第一预定时长内用户的通话被动挂机次数、第一预定时长内用户的主叫最大通话时长、第一预定时长内用户的被叫最大通话时长。

5.根据权利要求3所述的方法，其特征在于，所述第二特征包括如下项中的一个或多个：平均主叫时长、平均呼出未通话响铃时长、呼出失败率、呼出被挂率、呼出频次、响铃用户多样性、通话用户多样性、整体用户多样性、呼入成功率、主动呼出率、被叫平均时长、主叫通话时长占有率及主动挂机率。

6.根据权利要求3所述的方法，其特征在于，所述第三特征包括如下项中的一个或多个：第二预定时长内主叫通话次数求和、第二预定时长内活跃天数、第二预定时长内平均主叫次数、第二预定时长内主叫次数方差、第二预定时长内响铃被挂机次数求和、第二预定时长内平均响铃被挂机次数、第二预定时长内响铃被挂机次数方差、第二预定时长内主叫通话时长求和、第二预定时长内平均通话时长、第二预定时长内通话时长方差、第二预定时长内呼出频次求和、第二预定时长内平均呼出频次、第二预定时长内呼出频次求方差、第二预定时长内最大通话时长、第二预定时长内最大呼出次数、第二预定时长内响铃未通话时长求和、第二预定时长内平均呼出未通知时长、第二预定时长内呼出未通话方差、第二预定时长内呼出失败率求和、第二预定时长内平均呼出失败率、第二预定时长内呼出失败率求方差、第二预定时长内呼出被挂率求和、第二预定时长内平均呼出被挂率、第二预定时长内呼出被挂率求方差、第二预定时长内呼出响铃未接通总用户数、第二预定时长内平均呼出响铃未接通用户数、第二预定时长内呼出响铃未接通用户数求方差、第二预定时长内主叫通话用户数、第二预定时长内平均通话用户数、第二预定时长内通话用户数求方差、第二预定时长内响铃用户数多样性求和、平均第二预定时长内响铃用户多样性、第二预定时长内响铃用户多样性求方差、第二预定时长内通话用户多样性求和、平均第二预定时长内通话用户多样性、第二预定时长内通话用户多样性求方差、第二预定时长内用户整体多样性求和、平均用户整体多样性求和、第二预定时长内用户整体多样性求方差。

7.根据权利要求1所述的方法，其特征在于，建立二分类训练模型，将所述多个已知的黑名单号码的数据特征与所述多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，去训练所述二分类训练模型，以得到经过训练的二分类训练模型的步骤包括：

建立二分类训练模型，并设定所述二分类训练模型中的各参数；

将所述多个已知的黑名单号码的数据特征及所述多个已知的非黑名单号码的数据特征使用归一化函数进行归一化处理，使其均在0-1区间之内，以得到经过归一化后的多个已知的黑名单号码的数据特征及经过归一化后的多个已知的非黑名单号码的数据特征；

将所述经过归一化后的多个已知的黑名单号码的数据特征及所述经过归一化后的多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，去训练所述二分类训练模型，并调整所述二分类训练模型中的各参数，直至达到最佳的黑名单号码与非黑名单号码分类验证效果，以得到所述经过训练的二分类训练模型。

8.一种欺诈电话识别装置，其特征在于，该装置包括：

通话数据获取模块，用于获取用户的基础通话数据；

数据特征生成模块，用于将所述基础通话数据进行统计及计算，生成与用户通话的各电话号码及其数据特征；

号码选择模块，用于从所述与用户通话的各电话号码中选出多个已知的黑名单号码及多个已知的非黑名单号码；

模型构建模块，用于建立二分类训练模型，将多个已知的黑名单号码的数据特征与多个已知的非黑名单号码的数据特征输入所述二分类训练模型内，训练所述二分类训练模型，以得到经过训练的二分类训练模型；

识别模块，用于将与用户通话的新号码的数据特征输入所述经过训练的二分类训练模型内，以识别该新号码是否是欺诈电话。

9.一种欺诈电话识别设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。