CN112396079A - 号码识别模型训练方法、号码识别方法及装置 - Google Patents

号码识别模型训练方法、号码识别方法及装置 Download PDF

Info

Publication number
CN112396079A
CN112396079A CN201910760686.7A CN201910760686A CN112396079A CN 112396079 A CN112396079 A CN 112396079A CN 201910760686 A CN201910760686 A CN 201910760686A CN 112396079 A CN112396079 A CN 112396079A
Authority
CN
China
Prior art keywords
data
recognition model
number recognition
layer
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910760686.7A
Other languages
English (en)
Inventor
涂锋
王建宏
黄志豪
刘忱
陈辉
余刚
张炳华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910760686.7A priority Critical patent/CN112396079A/zh
Publication of CN112396079A publication Critical patent/CN112396079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种号码识别模型训练方法、号码识别模型训练装置、号码识别方法、号码识别装置及电子设备,该号码识别模型训练方法包括:获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据;基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征;基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。本发明实施例的技术方案,能够训练出高效快捷提取号码特征数据的号码识别模型,并通过该模型提前识别诈骗号码,有效减少电话诈骗。

Description

号码识别模型训练方法、号码识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种号码识别模型训练方法、号码识别模型训练装置、号码识别方法、号码识别装置、电子设备以及计算机可读存储介质。
背景技术
现今,使用电话的人越来越多,通过电话进行各种活动例如广告推销、诈骗的现象十分普遍。如何快速准确识别出用于诈骗或广告推销等活动的电话号码成为了关注的焦点。
现有的技术方案中的号码识别模型,根据已发生的诈骗号码,在用户的通话信令数据分析提取特征数据,再通过例如聚类、随机森林等常见的机器学习算法进行分类识别。然而,该技术方案仅能对已经进行诈骗行为的号码进行识别,无法提前识别诈骗号码。
发明内容
本发明实施例的目的是提供一种号码识别模型训练方法、号码识别模型训练装置、号码识别方法、号码识别装置、电子设备以及计算机可读存储介质,能够得到能够提前识别出诈骗号码的号码识别模型,通过该模型提前识别诈骗号码,能够有效减少电话诈骗。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供了一种号码识别模型训练方法,包括:获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据;基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征;基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。
第二方面,本发明实施例提供了一种号码识别方法,包括:获取目标号码的原始数据,原始数据包含业务数据以及信令数据;基于目标号码的原始数据生成与目标号码对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征;将生产数据特征输入如上述第一方面所述的号码识别模型,得到输出数据;基于输出数据,确定目标号码对应的分类标签。
第三方面,本发明实施例提供了一种号码识别模型训练装置,包括:数据获取模块,用于获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据;样本数据特征生成模块,用于基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征;模型训练模块,用于基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。
第四方面,本发明实施例提供了一种号码识别装置,包括:数据获取模块,用于获取目标号码的原始数据,原始数据包含业务数据以及信令数据;生产数据特征生成模块,用于基于目标号码的原始数据生成与目标号码对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征;数据输入模块,用于将生产数据特征输入如上述第一方面所述的号码识别模型,得到输出数据;分类标签确定模块,用于基于输出数据,确定目标号码对应的分类标签。
第五方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的号码识别模型训练方法或如上述第二方面所述的号码识别方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的号码识别模型训练方法或如上述第二方面所述的号码识别方法。
根据本发明实施例的技术方案,一方面,获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据,能够得到用于训练模型的业务数据以及多种信令数据;另一方面,基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征,能够高效地生成号码的多种样本特征数据,不需要人工进行分析和提取;再一方面,基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值,能够训练出对诈骗号码进行提取识别的号码识别模型,通过该模型提前识别诈骗号码,能够有效减少电话诈骗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明的一些实施例提供的号码识别模型训练方法的流程示意图;
图2示出了根据本发明的一些实施例提供的号码识别方法的流程示意图;
图3示出了根据本发明的另一些实施例提供的号码识别方法的流程示意图;
图4示出了根据本发明的另一些实施例提供的号码识别模型训练方法的示意图;
图5示出了根据本发明的一些实施例提供的多层矩阵数据的示意图;
图6示出了根据本发明的一些实施例提供的号码识别模型的示意图;
图7示出了根据本发明的再一些实施例的号码识别方法的示意图;
图8示出了根据本发明的一些实施例的号码识别模型训练装置的示意框图;
图9示出了根据本发明的一些实施例提供的号码识别装置的示意框图;以及
图10示出了根据本发明的一些实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1示出了根据本发明的一些实施例提供的号码识别模型训练方法的流程示意图。参照图1所示,该号码识别模型训练方法包括步骤S110、步骤S120、步骤S130,可以应用于服务器端。下面对图1的示例实施例中的号码识别模型训练方法进行详细的说明。
参照图1所示,在步骤S110中,获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据。
在示例实施例中,定义数据获取周期,即预定时间段,例如30天,具体为在日期T获取T-1至T-30这30天的号码的原始数据以及对应的分类标签,例如,在2019年8月2日,获取2019年8月1日至2019年7月3日之间的30天的号码的原始数据。同一号码的原始数据包括业务数据与信令数据。业务数据包括且不限于:开户信息、业务办理、入网渠道;信令数据包括且不限于:通话位数、上网流量、位置信息。另外,不同号码的原始数据被分为正常号码数据与诈骗号码数据,正常号码数据对应的分类标签为正常分类1、正常分类2、正常分类3等;诈骗号码数据对应的分类标签为诈骗分类1、诈骗分类2、诈骗分类3等。
在步骤S120中,基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征。
在示例实施例中,对各个号码的原始数据进行预处理,将原始数据中的业务数据、信令数据转换为自定义的多层矩阵数据,得到样本数据特征。具体为,基于预定时间段的时间顺序,生成与各个号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括但不限于:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;将该多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理,得到与号码的原始数据对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征。
进一步地,在示例实施例中,基于预定时间段的时间顺序,生成与各个号码的原始数据对应的多层矩阵数据的步骤包括:基于预定时间段的单位时间的对应数据层的数据生成对应数据层的矩阵数据的数据行,对应数据层为业务数据层、信令通话数据层、上网流量数据层以及位置数据层中的一种;按照预定时间段的时序,基于各个单位时间的对应数据层的数据行生成对应数据层的矩阵数据。
例如,某多层矩阵数据分为4层,分别是业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵。业务数据层矩阵是第一层,为业务相关数据整合后得到的单层矩阵格式的数据,其他矩阵同理。业务数据矩阵层的列是预设的固定值,例如15,行是步骤S110中提到的数据获取周期,例如30。在2019年8月2日,获取2019年8月1日至2019年7月3日之间的30天的号码的原始数据。从2019年7月3日开始循环,获取当天数据组装成15列数据增加到矩阵表中,直至2019年8月1日,即完成了业务数据矩阵层中15x30的时序数据,同样,信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵也按该方法组装数据,如果号码某天无数据,则默认设置为0。
在示例实施例中,正常号码数据经过预处理后得到的样本数据特征称为正常样本,诈骗号码数据经过预处理后得到的样本数据特征称为诈骗样本。在步骤S110中获取的原始数据中,正常样本远多于诈骗样本,将正常样本与诈骗样本按预定比例组装,得到样本组,例如按3:1组装的正常样本与诈骗样本为一个样本组。
在步骤S130中,基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。
在示例实施例中,将步骤S120中获得的样本数据特征构成的样本组按照预定比例分为训练数据样本以及测试数据样本,例如预定比例为7:3,即样本数据特征中,70%的样本组作为训练数据样本,用于训练模型,30%的样本组为测试数据样本,用于测试模型。基于训练数据样本以及对应的分类标签,通过梯度优化器对号码识别模型进行训练。该号码识别模型为卷积神经网络模型。利用测试数据样本以及对应的分类标签,对该号码识别模型进行测试,并对其参数进行调整。当该号码识别模型对应的损失函数小于预定阈值时,可视为该模型能够实现识别诈骗号码的功能,已达到训练的目的。如果该号码识别模型通过测试,即可利用该号码识别模型进行诈骗号码的识别工作。
在示例实施例中,训练数据样本以及对应的分类标签分别存储于一一对应的字段train_x对应的存储空间与字段train_y对应的存储空间中,测试数据样本以及对应分类标签分别存储于一一对应的字段test_x对应的存储空间与字段test_y对应的存储空间中。
在示例实施例中,对号码识别模型进行训练的流程具体为:如步骤S120中所述的对号码的原始数据进行预处理;启动卷积神经网络适配器,读取预设的网络配置参数,加载预设的网络结构,定义损失函数与梯度优化器;设置模型训练结果保存路径,判断如果有上次训练结果则加载无则创建;根据预设的单次训练数据输入数量,即参数batch_size,从字段train_x与字段train_y中获取对应数量的训练数据样本输入模型;根据预设的训练轮次循环训练数据;基于测试数据样本对模型进行测试,若通过测试,保存模型。
在示例实施例中,定义损失函数loss,可以使用交叉熵作为分类的损失函数,参考公式为:
Figure BDA0002170161750000071
该损失函数的选择仅为一种示例,本申请也可以选择其他函数作为损失函数。
在示例实施例中,定义梯度优化器,可以使用“Adam”优化器,学习速率为0.001。上述优化器的选择以及学习速率仅为一种示例,本申请并不对此进行特殊限制。
根据图1的示例实施例中的号码识别模型训练方法,一方面,获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据,能够得到用于训练模型的业务数据以及多种信令数据;另一方面,基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征,能够高效地生成号码的多种样本特征数据,不需要人工进行分析和提取;再一方面,基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值,能够训练出对诈骗号码进行提取识别的号码识别模型,通过该模型提前识别诈骗号码,能够有效减少电话诈骗。
图2示出了根据本发明的一些实施例提供的号码识别方法的流程示意图。参照图2所示,该号码识别方法包括步骤S210、步骤S220、步骤S230、步骤S240,可以应用终端设备,该移动终端包括但不限于手机、平板电脑、电脑、可穿戴设备等智能终端。下面对图2的示例实施例中的号码识别方法进行详细的说明。
参照图2所示,在步骤S210中,获取目标号码的原始数据,原始数据包含业务数据以及信令数据。
在示例实施例中,基于预定时间段获取想要识别的目标号码的原始数据。预定时间段即数据获取周期,例如为30天,具体为在日期T获取T-1至T-30这30天的目标号码的原始数据,如,在2019年8月2日,获取2019年8月1日至2019年7月3日之间的30天的号码的原始数据。目标号码的原始数据来自于实际生产过程,故又称生产数据。同一号码的原始数据包括业务数据与信令数据。业务数据包括且不限于:开户信息、业务办理、入网渠道;信令数据包括且不限于:通话位数、上网流量、位置信息。
需要注意的是,在示例实施例中,步骤S210中获取的目标号码的原始数据与图1的步骤S110中获取的号码的原始数据不同。目标号码的原始数据不具有分类标签,在通过号码识别模型进行识别之前,也无从得知是否为诈骗号码。
在步骤S220中,基于目标号码的原始数据生成与目标号码对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征。
在示例实施例中,在示例实施例中,对目标号码的原始数据进行预处理,将原始数据中的业务数据、信令数据转换为自定义的多层矩阵数据,得到生产数据特征。具体为,基于预定时间段的时间顺序,生成与目标号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括但不限于:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;将该多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理,得到与目标号码的原始数据对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征。
进一步地,在示例实施例中,基于预定时间段的时间顺序,生成与目标号码的原始数据对应的多层矩阵数据的方法为:基于预定时间段的单位时间的对应数据层的数据生成对应数据层的矩阵数据的数据行,对应数据层为业务数据层、信令通话数据层、上网流量数据层以及位置数据层中的一种;按照预定时间段的时序,基于各个单位时间的对应数据层的数据行生成对应数据层的矩阵数据。
例如,某多层矩阵数据分为4层,分别是业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵。业务数据层矩阵是第一层,为业务相关数据整合后得到的单层矩阵格式的数据,其他矩阵同理。业务数据矩阵层的列是预设的固定值,例如15,行是步骤S110中提到的数据获取周期,例如30。在2019年8月2日,获取2019年8月1日至2019年7月3日之间的30天的号码的原始数据。从2019年7月3日开始循环,获取当天数据组装成15列数据增加到矩阵表中,直至2019年8月1日,即完成了业务数据矩阵层中15x30的时序数据,同样,信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵也按该方法组装数据,如果号码某天无数据,则默认设置为0。
在步骤S230中,将生产数据特征输入号码识别模型,得到输出数据。
在示例实施例中,读取号码识别模型的配置参数,加载网络模型结构;读取已训练好的模型地址,加载模型数据;将生产数据特征按批次输入模型,得到输出数据,可命名为out_data。
基于输出数据,确定目标号码对应的分类标签。
在示例实施例中,基于输出数据out_data,确定目标号码的分类的概率,可命名为logits_data;基于分类的概率logits_data,确定与目标号码对应的分类标签识别码,可命名为pre_label_idx;将分类标签识别码pre_label_idx与分类标签库中的分类标签名称进行匹配,分类标签库中存储有多种分类标签的识别码,如label_idx,与名称,如label_name,得到目标号码对应的分类标签名称,可命名为pre_label_name。
在示例实施例中,通过输出数据,确定目标号码的分类的概率,可以利用softmax()函数来计算得到,也可以通过其他算法来实现。基于分类的概率,确定与目标号码对应的分类标签识别码,可以使用argmax()函数来计算得到,也可以通过其他算法来实现。
在示例实施例中,目标号码可命名为user_num,将目标号码与开户渠道表中的开户渠道名称如num_chanel_name进行匹配,可得到目标号码对应的开户渠道名称。
在示例实施例中,将目标号码user_num与对应的各个参数,如目标号码的分类的概率logits_data、分类标签识别码pre_label_idx、分类标签名称pre_label_name以及开户渠道名称num_chanel_name等组装为最终输出数据。
需要注意的是,在示例实施例中,输出数据与输入数据数量相同,即输入的目标号码的数量,与包括目标号码以及对应参数的最终输出数据的数量是一样的。
在示例实施例中,将疑似诈骗号码及渠道信息输出,具体为,根据系统设置将最终输出数据推送至数据库相应存储表中;再根据设置推送至其它平台。
根据图2的示例实施例中的号码识别方法,一方面,获取目标号码的原始数据,原始数据包含业务数据以及信令数据,能够得到目标号码的原始数据;基于目标号码的原始数据生成与目标号码对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征,能够高效地生成目标号码的多种生产数据特征,不需要人工进行分析和提取;将生产数据特征输入号码识别模型,得到输出数据,能够得到号码识别模型的输出数据;基于输出数据,确定目标号码对应的分类标签,能够获得与目标号码对应的分类标签,确定目标号码是否为诈骗号码,从而减少电话诈骗。
图3示出了根据本发明的另一些实施例提供的号码识别方法的流程示意图。
在步骤S310中,输入数据。
在示例实施例中,输入获取的号码的原始数据,该数据包括训练数据与生产数据,二者皆包括业务数据与信令数据。业务数据包括开户、办理、渠道数据;信令数据包括通话、位置、上网数据。
在步骤S320中,进行数据预处理。
在示例实施例中,将按照号码产生的时序,将步骤S310中获得的数据中的号码的业务数据与信令数据组装为多层矩阵数据,再进行归一化处理,得到的样本数据特征。
在步骤S330中,训练深度学习模型。
在示例实施例中,初始化卷积神经网络模型,定义了卷积层数、卷积核大小及数量、训练参数等参数;通过预处理后的数据对模型进行训练,以达到最优效果;再测试模型,若通过测试,保存模型参数与配置。
在步骤S340中,提取疑似诈骗号码。
在示例实施例中,将生产数据输入训练后通过测试的模型,得到输出结果,基于输出结果确定与生产数据中的各个号码对应的分类标签,根据分类标签可提取正常号码与诈骗号码。
在步骤S350中,输出结果。
将将疑似诈骗号码及渠道信息输出至数据库中相应存储表中,根据设置推送至其它平台。
图4示出了根据本发明的另一些实施例提供的号码识别模型训练方法的示意图。
参照图4所示,在步骤S410中,输入训练数据。
在示例实施例中,输入的训练数据即如图1在步骤S110中获取的预定时间段内的多个号码的原始数据以及对应的分类标签。
在步骤S420中,对训练数据进行数据预处理操作。
在示例实施例中,基于预定时间段的时间顺序,生成与各个号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括但不限于:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;将该多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理。
在步骤S430中,获得特征数据X。
在示例实施例中,特征数据X即样本数据特征,是将训练数据转换为对应的多层矩阵数据后得到的。
在步骤S440中,获得分类标签Y。
在示例实施例中,分类标签Y是在步骤S410中获取的号码的原始数据以及对应的分类标签中得到的。
在步骤S450中,输入卷积神经网络1。
在示例实施例中,卷积神经网络1是号码识别模型的一种示例,将特征数据X输入该卷积神经网络1得到输出数据。
在步骤S460中,在步骤S450得到的输出数据与步骤S440中获得的分类标签Y输入损失函数。
在示例实施例中,输出数据为分类标签的理论值,分类标签Y为分类标签的实际值,二者通过损失函数进行运算,从而对卷积神经网络1的参数进行调整。
在步骤S470中,梯度优化器对卷积神经网络1进行优化。
在示例实施例中,梯度优化器作用于损失函数,从而对卷积神经网络1的参数进行优化调整。
在步骤S480中,存储训练后的模型。
在示例实施例中,训练卷积神经网络1结束后对其进行测试,若通过测试,则将该模型存储于指定位置。
图5示出了根据本发明的一些实施例提供的多层矩阵数据的示意图。
参照图5所示,多层数据矩阵分为C层,例如3层,分别为业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵;H为每一层矩阵数据的行数,即数据获取周期,W为每一层矩阵数据的列数,为预设的固定值。
需要注意的是,在示例实施例中,W/H/C均为可以调整的参数,例如当数据预处理的过程中需要增加与业务数据、信令通话数据、上网流量数据不同的新的数据特征“位置信息数据”时,层数C增加1,由3变为4。
图6示出了根据本发明的一些实施例提供的号码识别模型的示意图。
参照图6所述,该号码识别模型为一个卷积神经网络模型。在步骤S610中,该模型接收输入数据,即多层矩阵数据格式的样本数据特征或生产数据特征,其参数为矩阵数据列W,矩阵数据行H,矩阵层数C,数据大小为WxHxC。
在步骤S620中,设置第一卷积层conv1的参数如下:卷积核大小为3x3,输出256,步长stride为1,扩充边缘相同,即pad=SAME。
在步骤S630中,设置第二卷积层conv2的参数如下:卷积核大小为5x5,输出512,步长stride为1,扩充边缘相同,即pad=SAME。
接着在步骤S640中,连接一层最大池化层maxpool,其参数如下:卷积核大小为2x2,此时数据大小变为矩阵数据列/2x矩阵数据行/2x512。
在步骤S650中,再连接第三卷积层conv3,设置其参数如下:卷积核大小为矩阵数据列/2x矩阵数据行/2,输出1024,步长stride为1,扩充边缘无效,即pad=VALID,此时数据输出大小为1x1x1024。
在步骤S660中,设置四层卷积层conv4的参数如下:卷积核大小为1x1,输出正常号码分类与诈骗号码分类的总和cls_num,简称分类总和,步长stride为1,扩充边缘相同,即pad=SAME。
在步骤S670中,该模型输出数据,输出数据的大小为1x1x分类总和。
图7示出了根据本发明的再一些实施例的号码识别方法的示意图。
参照图7所示,在步骤S710中,获取生产数据。
在示例实施例中,基于预定时间段获取目标号码的原始数据,即生产数据。
在步骤S720中,数据预处理。
在示例实施例中,对生产数据进行数据预处理操作,具体为,基于预定时间段的时间顺序,生成与各个号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括但不限于:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;将该多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理。
在步骤S730中,获取特征数据X。
在示例实施例中,特征数据X,即生产数据特征,是将生产数据转换为对应的多层矩阵数据后得到的。
在步骤S740中,将特征数据X输入卷积神经网络模型1。
在示例实施例中,卷积神经网络1是号码识别模型的一种示例,将特征数据X输入该卷积神经网络1得到输出数据。
在步骤S750中,基于卷积神经网络模型1的输出结果,提取疑似诈骗号码。
在示例实施例中,基于输出数据,确定目标号码的分类的概率;基于分类的概率,确定与目标号码对应的分类标签识别码;将分类标签识别码与分类标签库中的分类标签名称进行匹配,分类标签库中存储有多种分类标签的识别码,与名称,得到目标号码对应的分类标签名称。根据目标号码对应的分类标签名称,可以提取疑似诈骗号码。
在步骤S760中,诈骗号码及渠道信息输出。
在示例实施例中,将诈骗号码及渠道信息存储并推送至其他平台。具体为,根据系统设置将最终输出数据推送至数据库相应存储表中;再根据设置推送至其它平台
图8示出了根据本发明的一些实施例提供的号码识别模型训练装置的示意框图。参照图8所示,该号码识别模型训练装置800包括:数据获取模块810、样本数据特征生成模块820以及模型训练模块830。其中,数据获取模块用于获取预定时间段内的多个号码的原始数据以及对应的分类标签,该原始数据包含业务数据以及信令数据;样本数据特征生成模块用于基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征;模型训练模块用于基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。
在本发明的一些实施例中,基于上述方案,样本数据特征生成模块包括:多层矩阵数据生成单元,用于基于预定时间段的时序,生成与号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;数据归一化单元,用于将多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理,得到与号码的原始数据对应的样本数据特征。
在本发明的一些实施例中,基于上述方案,多层矩阵数据生成单元包括:数据行生成单元,用于基于预定时间段的单位时间的对应数据层的数据生成对应数据层的矩阵数据的数据行,对应数据层为业务数据层、信令通话数据层、上网流量数据层以及位置数据层中的一种;矩阵数据生成单元,用于按照预定时间段的时序,基于各个单位时间的对应数据层的数据行生成对应数据层的矩阵数据。
在本发明的一些实施例中,基于上述方案,模型训练模块包括:数据样本分类单元,用于从样本数据特征按照预定比例分为训练数据样本以及测试数据样本;模型训练单元,用于基于训练数据样本以及对应的分类标签通过梯度优化器对号码识别模型进行训练;参数调整单元,用于基于测试数据样本以及对应的分类标签对号码识别模型的参数进行调整。
图9示出了根据本发明的一些实施例提供的号码识别装置的示意框图。参照图9所示,该群组推荐装置900包括:数据获取模块910、生产数据特征生成模块920、数据输入模块930以及分类标签确定模块940。其中,数据获取模块用于获取目标号码的原始数据,原始数据包含业务数据以及信令数据;生产数据特征生成模块用于基于目标号码的原始数据生成与目标号码对应的生产数据特征,生产数据特征包括业务数据特征以及信令数据特征;数据输入模块用于将生产数据特征输入号码识别模型,得到输出数据;分类标签确定模块用于基于输出数据,确定目标号码对应的分类标签。
在本发明的一些实施例中,基于上述方案,分类标签确定模块,包括:分类概率确定单元,用于基于输出数据,确定目标号码的分类的概率;识别码确定单元,用于基于分类的概率,确定与目标号码对应的分类标签识别码;标签名称匹配单元,用于将分类标签识别码与分类标签库中的分类标签名称进行匹配,分类标签库中存储有多种分类标签的识别码与名称。
进一步地,本申请实施例还提供了一种电子设备,图10为本申请一实施例提供的电子设备的结构示意图,如图10所示,该设备包括:存储器1001、处理器1002、总线1003和通信接口1004。存储器1001、处理器1002和通信接口1004通过总线1003进行通信,通信接口1004可以包括输入输出接口,输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。
图10中,存储器1001上存储有可在处理器1002上运行的计算机可执行指令,该计算机可执行指令被处理器1002执行时实现以下流程:获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据;基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征;基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值。
可选地,该计算机可执行指令被处理器1002执行时,基于各个号码的原始数据生成与各个号码对应的样本数据特征,包括:基于预定时间段的时序,生成与号码的原始数据对应的多层矩阵数据,该多层矩阵数据包括:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;将该多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理,得到与号码的原始数据对应的样本数据特征。
可选地,该计算机可执行指令被处理器1002执行时,基于预定时间段的时序,生成与号码的原始数据对应的多层矩阵数据,包括:基于预定时间段的单位时间的对应数据层的数据生成对应数据层的矩阵数据的数据行,该对应数据层为业务数据层、信令通话数据层、上网流量数据层以及位置数据层中的一种;按照预定时间段的时序,基于各个单位时间的对应数据层的数据行生成对应数据层的矩阵数据。
可选地,该计算机可执行指令被处理器1002执行时,该号码识别模型是卷积神经网络模型,基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,包括:从样本数据特征按照预定比例分为训练数据样本以及测试数据样本;基于训练数据样本以及对应的分类标签通过梯度优化器对号码识别模型进行训练;基于测试数据样本以及对应的分类标签对号码识别模型的参数进行调整。
可选地,该计算机可执行指令被处理器1002执行时实现以下流程:获取目标号码的原始数据,该原始数据包含业务数据以及信令数据;基于目标号码的原始数据生成与目标号码对应的生产数据特征,该生产数据特征包括业务数据特征以及信令数据特征;将生产数据特征输入号码识别模型,得到输出数据;基于输出数据,确定目标号码对应的分类标签。
可选地,该计算机可执行指令被处理器1002执行时,基于输出数据,确定目标号码对应的分类标签,包括:基于输出数据,确定目标号码的分类的概率;基于分类的概率,确定与目标号码对应的分类标签识别码;将分类标签识别码与分类标签库中的分类标签名称进行匹配,该分类标签库中存储有多种分类标签的识别码与名称。
根据本发明实施例的技术方案,一方面,获取预定时间段内的多个号码的原始数据以及对应的分类标签,原始数据包含业务数据以及信令数据,能够得到用于训练模型的业务数据以及多种信令数据;另一方面,基于各个号码的原始数据生成与各个号码对应的样本数据特征,样本数据特征包括业务数据特征以及信令数据特征,能够高效地生成号码的多种样本特征数据,不需要人工进行分析和提取;再一方面,基于各个号码对应的样本数据特征以及分类标签对号码识别模型进行训练,以使号码识别模型对应的损失函数小于预定阈值,能够训练出对诈骗号码进行提取识别的号码识别模型,通过该模型提前识别诈骗号码,能够有效减少电话诈骗
本申请实施例中的电子设备能够实现前述号码识别模型训练方法或号码识别方法的各个过程,并达到相同的效果和功能,这里不再重复。
进一步地,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述号码识别模型训练方法或号码识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明上述实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种号码识别模型训练方法,其特征在于,包括:
获取预定时间段内的多个号码的原始数据以及对应的分类标签,所述原始数据包含业务数据以及信令数据;
基于各个所述号码的原始数据生成与各个所述号码对应的样本数据特征,所述样本数据特征包括业务数据特征以及信令数据特征;
基于各个所述号码对应的样本数据特征以及分类标签对所述号码识别模型进行训练,以使所述号码识别模型对应的损失函数小于预定阈值。
2.根据权利要求1所述的方法,其特征在于,所述基于各个所述号码的原始数据生成与各个所述号码对应的样本数据特征,包括:
基于所述预定时间段的时序,生成与所述号码的所述原始数据对应的多层矩阵数据,所述多层矩阵数据包括:业务数据层矩阵、信令通话数据层矩阵、上网流量数据层矩阵以及位置数据层矩阵;
将所述多层矩阵数据的每层矩阵数据转化为浮点数,并进行归一化处理,得到与所述号码的原始数据对应的样本数据特征。
3.根据权利要求2所述的方法,其特征在于,基于所述预定时间段的时序,生成与所述号码的所述原始数据对应的多层矩阵数据,包括:
基于所述预定时间段的单位时间的对应数据层的数据生成所述对应数据层的矩阵数据的数据行,所述对应数据层为业务数据层、信令通话数据层、上网流量数据层以及位置数据层中的一种;
按照所述预定时间段的时序,基于各个单位时间的所述对应数据层的数据行生成所述对应数据层的矩阵数据。
4.根据权利要求1所述的方法,其特征在于,所述号码识别模型是卷积神经网络模型,所述基于各个所述号码对应的样本数据特征以及分类标签对号码识别模型进行训练,包括:
将所述样本数据特征按照预定比例分为训练数据样本以及测试数据样本;
基于所述训练数据样本以及对应的分类标签通过梯度优化器对所述号码识别模型进行训练;
基于所述测试数据样本以及对应的分类标签对所述号码识别模型的参数进行调整。
5.一种号码识别方法,其特征在于,包括:
获取目标号码的原始数据,所述原始数据包含业务数据以及信令数据;
基于所述目标号码的原始数据生成与所述目标号码对应的生产数据特征,所述生产数据特征包括业务数据特征以及信令数据特征;
将所述生产数据特征输入如权利要求1至4中任一项所述的号码识别模型,得到输出数据;
基于所述输出数据,确定所述目标号码对应的分类标签。
6.根据权利要求5所述的方法,其特征在于,所述基于所述输出数据,确定所述目标号码对应的分类标签,包括:
基于所述输出数据,确定所述目标号码的分类的概率;
基于所述分类的概率,确定与所述目标号码对应的分类标签识别码;
将所述分类标签识别码与分类标签库中的分类标签名称进行匹配,所述分类标签库中存储有多种分类标签的识别码与名称。
7.一种号码识别模型训练装置,其特征在于,包括:
数据获取模块,用于获取预定时间段内的多个号码的原始数据以及对应的分类标签,所述原始数据包含业务数据以及信令数据;
样本数据特征生成模块,用于基于各个所述号码的原始数据生成与各个所述号码对应的样本数据特征,所述样本数据特征包括业务数据特征以及信令数据特征;
模型训练模块,用于基于各个所述号码对应的样本数据特征以及分类标签对所述号码识别模型进行训练,以使所述号码识别模型对应的损失函数小于预定阈值。
8.一种号码识别装置,其特征在于,包括:
数据获取模块,用于获取目标号码的原始数据,所述原始数据包含业务数据以及信令数据;
生产数据特征生成模块,用于基于所述目标号码的原始数据生成与所述目标号码对应的生产数据特征,所述生产数据特征包括业务数据特征以及信令数据特征;
数据输入模块,用于将所述生产数据特征输入如权利要求1至4中任一项所述的号码识别模型,得到输出数据;
分类标签确定模块,用于基于所述输出数据,确定所述目标号码对应的分类标签。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的号码识别模型训练方法,或如权利要求5至6中任一项所述的号码识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的号码识别模型训练方法,或如权利要求5至6中任一项所述的号码识别方法。
CN201910760686.7A 2019-08-16 2019-08-16 号码识别模型训练方法、号码识别方法及装置 Pending CN112396079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910760686.7A CN112396079A (zh) 2019-08-16 2019-08-16 号码识别模型训练方法、号码识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910760686.7A CN112396079A (zh) 2019-08-16 2019-08-16 号码识别模型训练方法、号码识别方法及装置

Publications (1)

Publication Number Publication Date
CN112396079A true CN112396079A (zh) 2021-02-23

Family

ID=74603133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910760686.7A Pending CN112396079A (zh) 2019-08-16 2019-08-16 号码识别模型训练方法、号码识别方法及装置

Country Status (1)

Country Link
CN (1) CN112396079A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660369A (zh) * 2021-09-22 2021-11-16 展讯通信(天津)有限公司 来电处理及模型训练方法、装置、终端设备和存储介质
CN115022464A (zh) * 2022-05-06 2022-09-06 中国联合网络通信集团有限公司 号码处理方法、系统、计算设备、存储介质
CN113141613B (zh) * 2021-04-27 2023-09-26 上海淇玥信息技术有限公司 一种通信渠道检测方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109429230A (zh) * 2017-08-28 2019-03-05 中国移动通信集团浙江有限公司 一种通信诈骗识别方法及系统
CN109995924A (zh) * 2017-12-30 2019-07-09 中国移动通信集团贵州有限公司 欺诈电话识别方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109429230A (zh) * 2017-08-28 2019-03-05 中国移动通信集团浙江有限公司 一种通信诈骗识别方法及系统
CN109995924A (zh) * 2017-12-30 2019-07-09 中国移动通信集团贵州有限公司 欺诈电话识别方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张明月: "《考虑产品特征的个性化推荐及应用》", 30 April 2019, 企业管理出版社, pages: 120 *
杨观赐等: "基于Dopout与ADAM优化器的改进CNN 算法", 华中科技大学学报(自然科学版)》, vol. 46, no. 7, 31 July 2018 (2018-07-31), pages 1 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113141613B (zh) * 2021-04-27 2023-09-26 上海淇玥信息技术有限公司 一种通信渠道检测方法、装置和电子设备
CN113660369A (zh) * 2021-09-22 2021-11-16 展讯通信(天津)有限公司 来电处理及模型训练方法、装置、终端设备和存储介质
CN113660369B (zh) * 2021-09-22 2023-09-12 展讯通信(天津)有限公司 来电处理及模型训练方法、装置、终端设备和存储介质
CN115022464A (zh) * 2022-05-06 2022-09-06 中国联合网络通信集团有限公司 号码处理方法、系统、计算设备、存储介质

Similar Documents

Publication Publication Date Title
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109783730A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN109493199A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN110276382B (zh) 基于谱聚类的人群分类方法、装置及介质
CN111582932A (zh) 场景间信息推送方法、装置、计算机设备及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN114120299A (zh) 信息获取方法、装置、存储介质及设备
CN113139816A (zh) 信息处理方法、装置、电子设备和存储介质
CN111475731A (zh) 数据处理方法、装置、存储介质及设备
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN113726942A (zh) 一种智能电话接听方法、系统、介质及电子终端
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN111898378A (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN110765110A (zh) 泛化能力处理方法、装置、设备及存储介质
CN115809889A (zh) 基于营销效果的智能客群筛选方法、系统、介质及设备
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN106557465B (zh) 一种词权重类别的获得方法及装置
CN113591857A (zh) 字符图像处理方法、装置及古代汉籍图像的识别方法
JP2020144636A (ja) 情報処理装置、学習装置及び学習済モデル
CN112016582A (zh) 菜品推荐方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination