CN109525739B

CN109525739B - 一种电话号码识别方法、装置及服务器

Info

Publication number: CN109525739B
Application number: CN201811593710.4A
Authority: CN
Inventors: 余蜀明
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2021-02-05
Anticipated expiration: 2038-12-25
Also published as: CN109525739A

Abstract

本发明提供的电话号码识别方法、装置及服务器，应用于通信技术领域，该方法获取目标电话号码在第一预设时间段内的包含主叫信息和被叫信息的通话信息，然后调用预训练的号码识别模型，该号码识别模型以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到，最后，将目标电话号码的通话信息输入号码识别模型，得到识别结果。本发明提供的电话号码识别方法、装置及服务器，通过目标电话号码的通话信息，即可实现对目标电话号码的识别，不再依赖于用户对电话号码的标记情况，可以提高电话号码的识别效率，解决现有技术中识别工作滞后严重的问题。

Description

一种电话号码识别方法、装置及服务器

技术领域

本发明属于通信技术领域，尤其涉及一种电话号码识别方法、装置及服务器。

背景技术

在日常生活与工作中，不法分子通过电话进行诈骗、骚扰的事件时有发生，给人们的生活、工作带来不利影响。

现有技术中的诈骗电话识别方法，大都将智能终端与云服务器相结合，通过云服务器统计智能终端将某一电话号码的标记为诈骗电话的次数，当所得统计次数达到预设的限值时，认定该电话号码为诈骗电话，然后即对接到该电话号码呼叫的用户进行提醒，防止用户上当受骗。

上述识别方法的实现，依赖于用户对电话号码的标记情况，只有对某一电话号码的标记次数达到预设的限值时，才会将该电话号码认定为诈骗电话，而这一过程往往需要经历较长的时间，导致诈骗电话的识别工作效率低下，滞后性比较严重。

发明内容

有鉴于此，本发明的目的在于提供一种电话号码识别方法、装置及服务器，提高电话号码识别工作的效率，解决现有技术中识别工作滞后严重的问题，具体方案如下：

第一方面，本发明提供一种电话号码识别方法，包括：

获取目标电话号码在第一预设时间段内的通话信息，其中，所述通话信息至少包括主叫信息和被叫信息；

调用预训练的号码识别模型，所述号码识别模型以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到，其中，所述号码类型包括：诈骗号码和非诈骗号码；

将所述通话信息输入所述号码识别模型，得到识别结果。

可选的，训练得到所述号码识别模型的过程，包括：

获取第一数量的电话号码在第二预设时间段内的通话信息，并以所述通话信息作为样本数据，其中，所述第一数量的电话号码中包含第二数量的号码类型已知的电话号码，且所述第二数量小于所述第一数量；

将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果；

计算所述识别结果中，与所述号码类型已知的电话号码属于同一号码类型的电话号码的数量与所述第二数量的比值，得到识别比例；

以所述识别比例处于预设偏差范围内为训练目标，调整所述随机森林模型中所述预设决策条件，得到所述号码识别模型。

可选的，在所述将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果之前，本发明第一方面提供的电话号码识别方法，还包括：

解析每一所述电话号码的通话信息中包含的主叫信息，筛选得到第一号码集；

解析每一所述电话号码的通话信息中包含的被叫信息，筛选得到第二号码集；

合并所述第一号码集和所述第二号码集，得到样本号码集；

所述将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果，包括：

将所述样本号码集中每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果。

可选的，所述解析每一所述电话号码的通话信息中包含的主叫信息，筛选得到第一号码集，包括：

根据每一所述电话号码的通话信息中的主叫信息，

在所述第一数量的电话号码中，筛选呼叫被叫号码的数量大于第一预设数量限值的电话号码；

在所述呼叫被叫号码的数量大于第一预设数量限值的电话号码中，筛选呼叫接通率小于预设接通率限值的电话号码；

在所述呼叫接通率小于预设接通率限值的电话号码中，筛选通话详情满足预设详情条件的电话号码，得到第一号码子集，其中，所述通话详情包括通话时长和通话流量；

在所述第一数量的电话号码中，筛选在第三预设时间段内呼叫被叫号码的数量大于第二预设数量限值的电话号码，得到第二号码子集；

合并所述第一号码子集和所述第二号码子集，得到第一号码集。

可选的，所述在所述呼叫被叫号码的数量大于第一预设数量限值的电话号码中，筛选呼叫接通率小于预设接通率限值的电话号码，包括：

在所述呼叫被叫号码的数量大于第一预设数量限值的电话号码中，

筛选呼叫被叫号码数量小于第三预设数量限值，且呼叫接通率小于第一预设接通率限值的电话号码，

或，

筛选呼叫被叫号码数量大于或等于第四预设数量限值，且呼叫接通率小于第二预设接通率限值的电话号码，其中，所述第三预设数量限值大于所述第一预设数量限值，所述第四预设数量限值大于所述第三预设数量限值。

可选的，所述在所述呼叫接通率小于预设接通率限值的电话号码中，筛选通话详情满足预设详情条件的电话号码，包括：

针对每一所述呼叫接通率小于预设接通率限值的电话号码，统计通话时长小于第一预设通话时长限值的通话次数；

计算每一所述呼叫接通率小于预设接通率限值的电话号码的所述通话次数与所述第二预设时间段内总通话次数的比值；

筛选所述比值小于预设比例限值的电话号码；

在所述比值小于预设比例限值的电话号码中，筛选所述通话流量小于预设流量限值的电话号码，得到通话详情满足预设详情条件的电话号码。

可选的，所述解析每一所述电话号码对应的所述通话信息中包含的被叫信息，筛选得到第二号码集，包括：

根据每一所述电话号码的通话信息中的被叫信息，

在所述第一数量的电话号码中，筛选被网络号码呼叫过的电话号码；

在所述被网络号码呼叫过的电话号码中，筛选和陌生号码进行过通话的电话号码；

在所述和陌生号码进行过通话的电话号码中，筛选和陌生号码通话时长大于第二预设通话时长限值的电话号码，得到第三号码子集；

在所述第一数量的电话号码中，筛选被已知诈骗电话呼叫过的电话号码；

在所述被已知诈骗电话呼叫过的电话号码中，筛选进行过异地通话的电话号码；

在所述进行过异地通话的电话号码中，筛选进行号码查询服务的电话号码；

在所述进行号码查询服务的电话号码中，筛选和陌生号码通话时长大于所述第二预设通话时长限值的电话号码，得到第四号码子集；

合并所述第三号码子集和所述第四号码子集，得到第二号码集。

第二方面，本发明提供一种电话号码识别装置，包括：

第一获取单元，用于获取目标电话号码在第一预设时间段内的通话信息，其中，所述通话信息至少包括主叫信息和被叫信息；

调用单元，用于调用预训练的号码识别模型，所述号码识别模型以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到，其中，所述号码类型包括：诈骗号码和非诈骗号码；

判定单元，用于将所述通话信息输入所述号码识别模型，得到识别结果。

可选的，本发明第二方面提供的电话号码识别装置，还包括：

第二获取单元，用于获取第一数量的电话号码在第二预设时间段内的通话信息，并以所述通话信息作为样本数据，其中，所述第一数量的电话号码中包含第二数量的号码类型已知的电话号码，且所述第二数量小于所述第一数量；

输入单元，用于将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果；

计算单元，用于计算所述识别结果中，与所述号码类型已知的电话号码属于同一号码类型的电话号码的数量与所述第二数量的比值，得到识别比例；

修正单元，用于以所述识别比例处于预设偏差范围内为训练目标，调整所述随机森林模型中所述预设决策条件，得到所述号码识别模型。

第三方面，本发明提供一种服务器，包括：存储器和处理器；所述存储器存储有适于所述处理器执行的程序，以实现本发明第一方面任一项所述的电话号码识别方法的步骤。

基于上述技术方案，本发明提供的电话号码识别方法、装置及服务器，预先训练得到一号码识别模型，该以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到。针对任一目标电话号码，本发明通过获取该目标电话号码在第一预设时间段内的通话信息，并将得到的通话信息输入该号码识别模型，从而利用该号码识别模型的运算，直接得到识别结果，确定目标电话号码的号码类型，即判断出目标电话号码是诈骗号码还是非诈骗号码。通过本发明提供的电话号码识别方法、装置及服务器，通过目标电话号码的通话信息，即可实现对目标电话号码的识别，不再依赖于用户对电话号码的标记情况，可以提高电话号码的识别效率，解决现有技术中识别工作滞后严重的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种电话号码识别方法的流程图；

图2是本发明实施例提供的电话号码识别方法中一种训练得到号码识别模型的方法的流程图；

图3是本发明实施例提供的电话号码识别方法中另一种训练得到号码识别模型的方法的流程图；

图4是本发明实施例提供的一种电话号码识别装置的结构框图；

图5是本发明实施例提供的另一种电话号码识别装置的结构框图；

图6是本发明实施例提供的一种服务器的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的电话号码识别方法的流程图，该方法可应用于电子设备，该电子设备可选如笔记本电脑、智能手机、PC(个人计算机)等具有数据处理能力的用户设备，显然，该电子设备在某些情况下也可选用网络侧的服务器实现；参照图1，本发明实施例提供的电话号码识别方法可以包括：

步骤S100、获取目标电话号码在第一预设时间段内的通话信息。

本发明申请实施例提供的电话号码识别方法，可以针对任一电话号码进行号码识别操作，以区分目标电话号码是属于诈骗电话还是属于非诈骗电话。

可选的，本申请实施例对目标电话号码进行识别，是以目标电话号码的通话信息为基础数据进行的。通话信息至少包括目标电话在第一预设时间段内的主叫信息和被叫信息。进一步的，主叫信息中至少包括作为主叫呼叫被叫号码的数量、主叫的接通情况、每一通接通电话的通话时长、通话产生的通话流量，以及主被叫基站参数等数据。被叫信息至少包括作为被叫和主叫号码进行通话的次数、每一次通话的通话时长、通话对象(即主叫号码)是否已经被标注为诈骗电话、是否为网络号码、以及通话时产生的通话流量等数据。

通话信息中具体参量的选择，可以根据对于识别准确度以及识别过程的快慢的要求进行筛选。可以想到的是，如果要求较高的识别准确度，那么应该尽可能多的选择通话信息中具体包含的参量的种类，以期更加全面的衡量目标电话号码；相应的，如果更注重识别过程的效率，那么可以相应的减少参量的种类，以减少数量，从而加快识别的效率。在实际应用中，往往需要综合考虑二者的情况，选择能够兼顾准确度与识别效率的参量设置。

可选的，第一预设时间段的选取可以根据目标电话号码的具体通话信息的情况进行选择。具体的，如果目标电话号码的通话信息数据量较少，那么第一预设时间段可以选择较长时间，比如一个月，甚至多个月份；相应的，如果目标电话号码的通话信息数据量较多，那么第一预设时间段可以选择较短时间，比如几天内的通话信息。

步骤S110、调用预训练的号码识别模型。

本申请实施例提供一种号码识别模型，该号码识别模型以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到，通过本申请实施例提供的号码识别模型，可以识别目标电话号码所述的号码类型，及区分目标电话号码是属于诈骗电话还是属于非诈骗电话。

在得到目标电话号码的通话信息之后，即可调用预训练得到的号码识别模型，用于对目标电话号码的识别。

步骤S120、将通话信息输入号码识别模型，得到识别结果。

以通话信息为输入数据，输入预训练的号码识别模型，通过号码识别模型的计算，即可得到识别结果，判断出目标电话号码是否属于诈骗电话。

通过上述内容可以看出，本申请实施例提供的电话号码识别方法，以目标电话的通信信息为判断的基础数据，通过目标电话号码的通话信息，即可实现对目标电话号码的识别，不再依赖于用户对电话号码的标记，大大缩短等待标记结果的时长，从而可以提高电话号码的识别效率。

可选的，本发明申请实施例还提供一种训练随机森林模型，以得到号码识别模型的方法，参见图2，图2是本发明实施例提供的电话号码识别方法中一种训练得到号码识别模型的方法的流程图，该流程可以包括：

步骤S200、获取第一数量的电话号码在第二预设时间段内的通话信息。

以第一数量的电话号码在第二预设时间段内的通话信息作为训练随机森林模型的样本数据。为保证训练过程的可靠进行，同时提高训练结果的准确率，在第一数量的电话号码中，包括第二数量的号码类型已知的电话号码，即对于训练模型而言，包括第二数量标签类型已知的电话号码。可以想到的是，第二数量是小于第一数量的，以使样本数据中包含足够数量的类型位置的电话号码。

可选的，号码类型已知的电话号码可以选择根据历史数据已经确定为诈骗电话的电话号码，即获取诈骗电话在第二预设时间段内的通话信息，并进一步结合号码类型未知的电话号码的通话信息，得到训练随机森林模型的样本数据。

可以想到的是，为使训练得到的号码识别模型能够更加准确、高效对目标电话号码进行识别，对随机森林模型进行训练时使用的样本数据的数据量应较大一些，因此，第二预设时间段时间跨度的选取，可以选择较长的时间段，比如，可以选择两年内作为样本的电话号码的通话信息。

步骤S210、将每一电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果。

随机森林模型是一个包含多个决策树的分类器，其输出的识别结果是由单一决策树输出的识别结果的众数决定的。在使用随机森林模型进行号码识别之前，需要预设决策条件。在设置决策条件之后，即可以将每一电话号码的通话信息输入随机森林模型进行识别，进而得到每一个电话号码所属号码类型的识别结果。

需要说明的是，决策条件的设定可以参照现有技术中随机森林模型的使用方法进行设定，此处不再赘述。

步骤S220、计算识别结果中，与号码类型已知的电话号码属于同一号码类型的电话号码的数量与第二数量的比值，得到识别比例。

在得到号码类型识别结果之后，即可计算识别比例。该识别比例表示在所得识别结果中，与号码类型已知的电话号码属于同一号码类型的电话号码的数量与第二数量的比值。

如果第二数量的电话号码的号码类型为诈骗电话，那么识别比例即对应为经过识别之后，判定为诈骗电话的总量与第二数量的比值。

步骤S230、判断所得识别比例是否小于预设偏差范围。若否，执行步骤S240；若是，执行步骤S250。

在得到识别比例之后，即可判断所得识别比例是否小于预设偏差范围，并以此作为判断训练过程能否结束的条件。如果识别比例不小于预设偏差范围，执行步骤S240；相反的，如果识别比例小于预设偏差范围，即执行步骤S250

步骤S240、修正随机森林模型中的预设决策条件。

在识别比例不小于预设偏差范围的情况下，需要进一步调整随机森林模型中预设决策条件，以期修正森林模型的识别输出。因此，在调整随机森林模型的预设决策条件之后，需要返回执行步骤S210。

步骤S250、确定识别比例小于预设偏差范围时对应的随机森林模型为号码识别模型。

当计算得到的识别比例小于预设偏差范围时，说明得到的模型已经满足对电话号码进行识别的要求，可以将识别比例小于预设偏差范围时对应的随机森林模型作为号码识别模型。

进一步的，为提高训练随机森林模型的效率，在训练随机森林模型之前，还可以对样本数据进行初步的筛选，得到疑似为诈骗电话的电话号码。参见图3，图3是本发明实施例提供的电话号码识别方法中另一种训练得到号码识别模型的方法的流程图，在图2所示流程的基础上，该流程还包括：

步骤S300、解析每一电话号码的通话信息中包含的主叫信息，筛选得到第一号码集。

解析获取得到的每一个电话号码在第二预设时间段内的通话信息中包含的主叫信息，统计每一个电话号码作为主叫号码呼叫被叫号码的数量，得到各个电话号码对应的呼叫被叫号码的数量。如果某一电话号码是诈骗电话的话，那么它呼出电话的数量应该是较多的，因此，可以将所得呼叫被叫号码的数量作为筛选条件之一。在第一数量的电话号码中，筛选呼叫被叫号码的数量大于第一预设数量限值的电话号码。

需要说明的是，统计呼叫被叫号码的数量，可以天为单位，即统计一天或多天内电话号码作为主叫呼叫被叫号码的次数。当然，也可以统计其他时段内作为主叫号码呼叫被叫号码的次数，具体统计时长的选取，本申请不做限定。

针对每一呼叫被叫号码的数量大于第一预设数量限值的电话号码，统计各个电话号码的呼叫接通率，在呼叫被叫号码的数量大于第一预设数量限值的电话号码中，进一步筛选呼叫接通率小于预设接通率限值的电话号码。

可选的，对于预设接通率限值的设定，可以根据每个电话号码具体呼叫被叫号码的数量进行针对性的设置，避免预设接通率限值设置的过大或过小，对筛选结果造成影响。具体的，可以设置第一预设接通率限值和第二预设接通率限值。在呼叫被叫号码的数量大于第一预设数量限值的电话号码中，筛选呼叫被叫号码数量小于第三预设数量限值，且呼叫接通率小于第一预设接通率限值的电话号码，或，筛选呼叫被叫号码数量大于第四预设数量限值，且呼叫接通率小于第二预设接通率限值的电话号码，其中，第三预设数量限值大于第一预设数量限值，第四预设数量限值大于所述第三预设数量限值。

比如，第一预设数量限值设定为5个，第三预设数量限值定为8个、第四预设数量限值定为10个、第一预设接通率限值设定为50％，第二预设接通率限值设定为30％。筛选过程为，在第一数量的电话号码中，筛选呼叫被叫号码的数量大于5个的电话号码，然后，在呼叫被叫号码的数量大于5个的电话号码中，筛选呼叫被叫号码数量小于8个，且呼叫接通率小于50％的电话号码，或者，筛选呼叫被叫号码数量大于或等于10个，且呼叫接通率小于30％的电话号码。

在呼叫接通率小于预设接通率限值的电话号码中，筛选通话详情满足预设详情条件的电话号码，进而得到第一号码子集。其中，通话详情包括通话时长和通话流量。

具体的，针对每一呼叫接通率小于预设接通率限值的电话号码，统计通话时长小于第一预设通话时长限值的通话次数，然后计算每一呼叫接通率小于预设接通率限值的电话号码的通话次数与第二预设时间段内该电话号码的总通话次数的比值。筛选所得比值小于预设比例限值的电话号码；

并进一步在比值小于预设比例限值的电话号码中，筛选通话流量小于预设流量限值的电话号码，得到通话详情满足预设详情条件的电话号码，将经过此步骤筛选后剩余的电话号码作为最终得到的第一号码子集。

同时，还可以针对第一数量的电话号码，筛选在第三预设时间段内呼叫被叫号码的数量大于第二预设数量限值的电话号码，并将所得筛选结果作为第二号码子集。可以想到的是，如果某一电话号码是诈骗电话，必然会不停的对其他号码进行呼叫，即在短时间内发起多次主叫呼叫，比如，在2s内连续发起主叫超过3个的电话号码，很有可能就是诈骗电话，因此，本申请实施例将这一情况，作为筛选电话号码的判定条件之一，得到第二号码子集。

在得到第一号码子集和第二号码子集之后，即可将二者进行合并，从而得到第一号码集。需要说明的是，在合并的过程中，如果第一号码子集和第二号码子集中包含有相同的电话号码，那么需要将合集中重复的电话号码删除一个，仅保留二者之一即可，使得最终得到第一号码集中不含有相同的电话号码。

步骤S310、解析每一电话号码的通话信息中包含的被叫信息，筛选得到第二号码集。

可选的，筛选第二号码集的过程以通话信息中的被叫信息为基础数据。通过被叫信息，可以更加全面的分析受害人接到诈骗电话后的应对行为，通过分析受害人的异常行为，构建受害人画像，从而可以筛选与受害人异常行为相对应的诈骗电话的特征，实现对诈骗电话的筛选。

根据每一电话号码的通话信息中的被叫信息，在第一数量的电话号码中，筛选被网络号码呼叫过的电话号码，不法分子使用网络号码作案的可能性极高，因此，需要筛选被网络号码呼叫过的电话号码。

在被网络号码呼叫过的电话号码中，进一步筛选和陌生号码进行过通话的电话号码，被网络号码呼叫过，说明机主很有可能已经被不法分子列为重点欺诈对象，因此，需要进一步筛选和陌生号码进行过通话的电话号码。

需要说明的是，对于通过的对方是否属于陌生号码可以结合被叫号码一段时间内的通话记录来计算，或者通过计算被叫号码的交往范围来判定。

在和陌生号码进行过通话的电话号码中，筛选和陌生号码通话时长大于第二预设通话时长限值的电话号码，从而得到第三号码子集。和陌生人进行长时间的通话，很有可能是机主和不法分子进行了长时间的通话，因此，可以将此条件作为筛选的条件之一。

可选的，在第一数量的电话号码中，还可以筛选被已知诈骗电话呼叫过的电话号码，进而在被已知诈骗电话呼叫过的电话号码中，筛选进行过异地通话的电话号码，并在进行过异地通话的电话号码中，筛选进行号码查询服务的电话号码。

机主在进行异地通话后，进行了号码查询服务，即拨打114查号台进行查询与核实，说明机主对进行通话过的电话号码感到怀疑，因此，在通话后，对主叫号码进行号码查询服务，可以作为筛选条件之一。

需要说明的是，由于通话内容不可知，因此，需要考虑机主进行号码查询服务的时机，如果号码查询服务发生在和异地号码进行通讯后的不久，那么异地号码是诈骗电话的嫌疑就是比较高的；相反，如果号码查询服务发生的时间与前述异地号码的通话时间间隔时间很长，那么异地号码是诈骗电话的可能性就要低一些。

在进行号码查询服务的电话号码中，筛选和陌生号码通话时长大于第二预设通话时长限值的电话号码，从而得到第四号码子集。

合并第三号码子集和第四号码子集，进而得到以被叫信息为主要筛选依据的第二号码集。需要说明的是，合并得到第二号码集的过程与合并得到第一号码集的过程类型，同样需要删除重复的电话号码，此处不再赘述。

可选的，对于根据受害人的行为特征筛选诈骗电话的过程，还可以通过频繁路径分析(NPATH路径分析)实现。受害人决策系统，频繁路径的分析(NPATH路径分析)。NPATH是一个SQL-Mapreduce功能，主要用于序列分析，按照自定义的路径模式(即前述生成第三号码子集和第四号码子集的过程)，输出匹配结果。在NPATH自定义的路径模式中，通过分析受害人受骗过程中异常行为的共性，从而最终构建受害人的特征模型，得到第二号码集。

基于通话信息中包含的时间值，构建时间序列，分析所得时间序列，进而求取时间序列的长期趋势(T)季节变动(S)和不规则变动(I)的值，并选定近似的数学模式来代表它们。

具体的，在本申请实施例中，长期趋势可以理解为每次通话的时间序列范围，季节变动可以理解节假日期间时通话信息的数据变化以及特殊地点的通话信息等，而对于周末这样不具有明显规律性的时间序列对应的通话信息，则可以通过不规则变动来表征。

利用时间序列数据求出长期趋势、季节变动和不规则变动的数学模型后，就可以利用它来预测未来的长期趋势值T和季节变动值S，在可能的情况下预测不规则变动值I。然后用以下模式计算出未来的时间序列的预测值Y：

加法模式T+S+I＝Y 乘法模式T×S×I＝Y

当预测值Y的所得值大于给定的限制时，即可认为机主是受害人，相应的，判定过程中对最终输出结果起到明显作用的电话号码，即可以判定为诈骗电话。

步骤S320、合并第一号码集和第二号码集，得到样本号码集。

在得到第一号码集和第二号码集之后，将二者进行合并，得到最终用于训练随机森林模型的样本号码集。

合并第一号码集和第二号码集，以得到样本号码集的过程与合并第一号码子集和第二号码子集得到第一号码集的过程类似，同样需要删除重复的电话号码，仅保留二者之一，此处不再赘述。

进一步，在得到样本号码集之后，即可执行步骤S210(此时步骤S210针对的样本数据为样本号码集中的电话号码所对应的通话信息)，将样本号码对应的通话信息代入随机森林模型进行识别，辨别每一个样本号码所属的号码类型，得到识别结果。

本申请实施例提供的方法，可以对样本数据进行筛选以减少数据量，进而有效减少无效数据，加快训练随机森林模型得到号码识别模型的过程。

下面对本发明实施例提供的电话号码识别装置进行介绍，下文描述的电话号码识别装置可以认为是为实现本发明实施例提供的电话号码识别方法，在中央设备中需设置的功能模块架构；下文描述内容可与上文相互参照。

图4为本发明实施例提供的一种电话号码识别装置的结构框图，参照图4，该装置可以包括：

第一获取单元10，用于获取目标电话号码在第一预设时间段内的通话信息，其中，所述通话信息至少包括主叫信息和被叫信息；

调用单元20，用于调用预训练的号码识别模型，所述号码识别模型以电话号码的通话信息为训练样本，以电话号码所属的号码类型为样本标签，训练随机森林模型得到，其中，所述号码类型包括：诈骗号码和非诈骗号码；

判定单元30，用于将所述通话信息输入所述号码识别模型，得到识别结果。

可选的，参见图5，图5为本发明实施例提供的另一种电话号码识别装置的结构框图，在图4所示实施例基础上，该装置还可以包括：

第二获取单元40，用于获取第一数量的电话号码在第二预设时间段内的通话信息，并以所述通话信息作为样本数据，其中，所述第一数量的电话号码中包含第二数量的号码类型已知的电话号码，且所述第二数量小于所述第一数量；

输入单元50，用于将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果；

计算单元60，用于计算所述识别结果中，与所述号码类型已知的电话号码属于同一号码类型的电话号码的数量与所述第二数量的比值，得到识别比例；

修正单元70，用于以所述识别比例处于预设偏差范围内为训练目标，调整所述随机森林模型中所述预设决策条件，得到所述号码识别模型。

图6为本发明实施例提供的服务器的结构框图，参见图6所示，可以包括：至少一个处理器100，至少一个通信接口200，至少一个存储器300和至少一个通信总线400；

在本发明实施例中，处理器100、通信接口200、存储器300、通信总线400的数量为至少一个，且处理器100、通信接口200、存储器300通过通信总线400完成相互间的通信；显然，图6所示的处理器100、通信接口200、存储器300和通信总线400所示的通信连接示意仅是可选的；

可选的，通信接口200可以为通信模块的接口，如GSM模块的接口；

处理器100可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器300，存储有应用程序，可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，处理器100具体用于执行存储器内的应用程序，以实现上述所述的电话号码识别方法的任一实施例。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电话号码识别方法，其特征在于，包括：

将所述通话信息输入所述号码识别模型，得到识别结果；

其中，训练得到所述号码识别模型的过程，包括：

2.根据权利要求1所述的电话号码识别方法，其特征在于，在所述将每一所述电话号码的通话信息输入预设决策条件的随机森林模型进行识别，得到号码类型的识别结果之前，所述方法还包括：

合并所述第一号码集和所述第二号码集，得到样本号码集；

3.根据权利要求2所述的电话号码识别方法，其特征在于，所述解析每一所述电话号码的通话信息中包含的主叫信息，筛选得到第一号码集，包括：

根据每一所述电话号码的通话信息中的主叫信息，

4.根据权利要求3所述的电话号码识别方法，其特征在于，所述在所述呼叫被叫号码的数量大于第一预设数量限值的电话号码中，筛选呼叫接通率小于预设接通率限值的电话号码，包括：

或，

5.根据权利要求3所述的电话号码识别方法，其特征在于，所述在所述呼叫接通率小于预设接通率限值的电话号码中，筛选通话详情满足预设详情条件的电话号码，包括：

筛选所述比值小于预设比例限值的电话号码；

6.根据权利要求2所述的电话号码识别方法，其特征在于，所述解析每一所述电话号码对应的所述通话信息中包含的被叫信息，筛选得到第二号码集，包括：

根据每一所述电话号码的通话信息中的被叫信息，

7.一种电话号码识别装置，其特征在于，包括：

判定单元，用于将所述通话信息输入所述号码识别模型，得到识别结果；

8.一种服务器，其特征在于，包括：存储器和处理器；所述存储器存储有适于所述处理器执行的程序，以实现权利要求1-6任一项所述的电话号码识别方法的步骤。