CN108205592A

CN108205592A - 用户上网信令内容解析方法、装置、设备及存储介质

Info

Publication number: CN108205592A
Application number: CN201711491081.XA
Authority: CN
Inventors: 李亮; 郑建兵; 赵雨; 顾强; 孙苑苑
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2018-06-26

Abstract

本发明提供了用户上网信令内容解析方法、装置、设备及存储介质。该方法包括：接收用户上网所输入的原始信令；从原始信令的内容中提取特征字段；获取所有训练集，训练集包括从原始信令的内容中提取的特征字段；采用循环神经网络模型对训练集进行训练获得M×N的矩阵，其中M表示特征字段中字符集合长度，N表示向量维度，M、N均为正整数；M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征提取；提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认。本发明自动对用户上网信令内容进行解析，减少人为干预，节约了资源并提高了解析APP的覆盖度。

Description

用户上网信令内容解析方法、装置、设备及存储介质

技术领域

本发明涉及互联网数据处理技术领域，尤其涉及一种用户上网信令内容解析方法、装置、设备及存储介质。

背景技术

现有用户上网信令内容解析的方式都是基于规则库，建立并持续维护一个规则库。处理方式是将规则库中的具体规则与信令中的特征字段进行对比匹配，匹配的上的打上对应的规则编码，完成识别。上述现有技术方案主要存在以下缺点：需要人工建立并有专人来持续维护运营规则库，费时费力以及产生额外的开销。目前用户使用APP和上网网站数目和种类繁多，规则变化和更新速度快，规则库的规则数量和完整度对用户上网内容解析的覆盖度影响较大并且难以靠人工枚举完整。人工维护规则库，有些规则特征不明显的，无法通过人工进行辨别具体归属APP。

发明内容

本发明实施例提供了一种用户上网信令内容解析方法、装置、设备及存储介质，用以解决现有技术中采用规则库需要人工干预以及解析APP覆盖度不足的技术问题。

第一方面，本发明实施例提供了一种用户上网信令内容解析方法，方法包括：

接收用户上网所输入的原始信令；

从所述原始信令的内容中提取特征字段；

获取所有训练集，所述训练集包括从所述原始信令的内容中提取的所述特征字段；

采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数；

所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征提取；

提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

第二方面，本发明实施例提供了一种用户上网信令内容解析装置，装置包括：

接收模块，用于接收用户上网所输入的原始信令；

提取模块，用于从所述原始信令的内容中提取特征字段；

训练集获取模块，用于获取所有训练集，所述训练集包括从所述原始信令的内容中提取的所述特征字段；

预处理模块，用于采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数；

特征训练模块，用于所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征训练；

确认模块，用于提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

第三方面，本发明实施例提供了一种用户上网信令内容解析设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的用户上网信令内容解析方法、装置、设备及存储介质，本方案采用CHAR级的CNN模型方式，通过采用RNN(Recurrent Neural Net，循环神经网络)与CNN(Convolutional Neural Network,卷积神经网络)结合的深度学习模型，实现上网信令内容自动解析，抛弃目前通过规则库对比方式解析，不需要建立专门的规则库以及专人对规则库进行维护，提高了解析APP的覆盖度和自动化程度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的用户上网信令内容解析方法的流程示意图。

图2示出了采用本发明实施例的用户上网信令内容解析方法的解析识别率测试结果图。

图3示出了采用本发明实施例的用户上网信令内容解析方法的解析损失函数曲线图。

图4示出了本发明实施例的用户上网信令内容解析装置的结构示意图。

图5示出了本发明实施例的用户上网信令内容解析设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明总体思路是提供一种用户上网信令内容解析方法，搭建深度学习模型并通过训练模型学习特征后，自动对用户上网信令内容进行解析，抛弃目前通过规则库对比方式解析，不需要建立专门的规则库以及专人对规则库进行维护，减少人为干预，节约了资源并提高了解析APP的覆盖度。具体来说，如图1所示，本发明的用户上网信令内容解析方法包括：

S1、接收用户上网所输入的原始信令；

S2、从所述原始信令的内容中提取特征字段；所述特征字段包括HOST、IP和URL中的至少一种。

S3、获取所有训练集，所述训练集包括从所述原始信令的内容中提取的所述特征字段；

S4、采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数；

S5、所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征提取；

S6、提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

本发明实施例提供的用户上网信令内容解析方法，通过采用RNN+CNN结合的深度学习模型，实现上网信令内容自动解析，抛弃目前通过规则库对比方式解析，不需要建立专门的规则库以及专人对规则库进行维护，提高了解析APP的覆盖度和自动化程度。

进一步地，所述采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数包括：

采用循环神经网络模型中的长短时记忆模型对所述训练集进行训练；

依据训练获得所述M×N的矩阵。

进一步地，所述特征字段为HOST时，所述N取值为32、64或128。

更进一步地，所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征提取包括：

所述M×N的矩阵通过K层卷积神经网络模型进行特征提取，所述K层卷积神经网络模型包括K/2层卷积层和K/2层池化层，其中K为正偶数。

在一个优选实施例中，所述K值取6。

在一个优选实施例中，所述提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认包括：

提取后的特征通过3层的前置神经网络模型进行分类，各分类对应一个应用程序的身份信息；

完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

优选地，本发明实施例的用户上网信令内容解析方法还包括：将分类输出后的每一分类与对应的用户终端身份信息、IMEI、数据流量大小、时长信息以及位置信息结合。具体地，解析后的信令内容汇总成各类数据资产，结合信令内容中包括的用户终端的身份信息(如手机号码)，IMEI，产生的数据流量大小，时长信息，位置信息等其他信息对用户进行上网行为分析，依据分析结果，开展精确营销等方面的应用。

在一个具体实施例中，上述用户上网信令内容解析方法是基于深度学习算法来实现的，主要是通过建立和训练深度学习模型RNN/CNN，通过训练后的深度学习模型自动解析上网信令内容中某些字段，比如HOST等，获取该信令是由用户访问哪个具体APP或者网站而触发产生的。

下面以HOST作为特征字段为例来具体说明用户上网信令内容解析方法：基于用户上网信令字段特点选用深度学习模型并完成整体架构，解析用户具体访问哪个APP(应用软件)或者是网站，只需要提取和解析信令字段中的HOST字段，针对HOST字段及深度模型特点，本方案采用CHAR级的CNN模型方式：首先输入原始信令；接着提取特征字段HOST；搭建RNN模型并完成训练；之后搭建CNN模型对用户上网信令内容进行解析，确定HOST属于哪个APP或网站中。

具体来说，上述搭建RNN模型并完成训练，主要包括：对信令内容中HOST字段预处理，采用循环神经网络RNN中的LSTMs(Long Short-Term Memory，长短时记忆)模型，训练得到所有训练集中所有特征字段HOST包含的M×N的矩阵(或者“字典表”(EMBEDDINGMATRIX))以及根据字典表做输入参数映射。进一步地，所述M×N的矩阵中的维度为32维度、64维度或128维度之一。通过反复对32、64、128三种维度参数调整测试，本发明实施例最终选取效果最好的128维度，当然其它两个维度也可以实现。这里的步骤可以是：输入训练集；第一次采用循环神经网络RNN中的LSTMs模型(LSTM lr1)；第二次采用循环神经网络RNN中的LSTMs模型(LSTM lr2)；采用Pr(X_t|Y_t-1)概率分布得到所有特征字段HOST包含的M×N的矩阵(字典表)。本发明实施例中，当所有特征字段为HOST时，优选N的取值为128。

进一步地，各所述特征字段映射后的M×N的矩阵通过若干层卷积神经网络进行特征提取包括：

各所述特征字段映射后的M×N的矩阵通过6层卷积神经网络进行特征提取，所述6层卷积神经网络包括3层卷积层和3层池化层。

CNN模型搭建并完成训练：上网信令内容解析处理层采用卷积神经网络CNN模型，结合信令内容解析字段情况，该CNN模型共有9层，其中第1层至第6层主要做特征提取，采用局部链接(卷积神经网络-过滤器，卷积层结合上网内容解析字段的特点，经过反复试验测试采用3*3的窗口过滤器)，在第6层之后包含了3个池化层；第7层至第9层为前置神经网络结构采用全连接，共同组成分类器。

输入向量x是通过RNNLM获得的，维度D＝128,x＝[x1,x2,...,xD]

因此，每个输入HOST可以看作是矩阵X：

X的矩阵为D×L(相当于上面的M×N)，L为HOST地址字段的最大长度，D为向量维度(这里采用128)。

第1层至第6层的激活值是基于神经网络的激活函数Relu function产生的，第7层与第8层是没有任何活化函数的纯线性神经节点，为了防止CNN过拟合，在第7层与第8层后面都增加一个dropout rate为0.9的dropout layer。最后，第9层是输出层，输出值是使用softmax分类器的Pr(y|x)的概率分布。

作为本发明的一个实施例，所述方法进一步包括：测试所述信令内容解析识别率。具体来说，本发明实施例的上网信令内容解析方法的深度模型训练及测试流程如下：

测试和训练样例

任务描述：通过相应的HOST地址对App的身份信息(ID)进行分类。

APP的ID总数：8000

训练总数：10,000,0000(70％作为训练，30％作为测试)

总测试集：3,000,0000

训练时间：100h

数据样例如下表1(表中APP_ID为应用程序身份信息，HOST为特征字段)：

表1

本发明实施例的前述训练得到以下测试结果：

如图2所示，本发明实施例的识别率测试结果图(纵坐标表示识别率，横坐标表示测试集量)，图中可以从训练结果(横坐标0.000处斜率较大的曲线)和测试或者实际应用结果(横坐标0.000处斜率较小的曲线)两条曲线来看，二者的解析识别率测试结果均在0.900以上，也就是说，基本上达到90％以上的解析识别率。

输出函数：

请参见图3，从损失函数曲线图(纵坐标表示损失量，横坐标表示测试集量)来看的话，训练结果(横坐标5000k处离横坐标较远的曲线)和测试或者实际应用结果(横坐标5000处离横坐标较近的曲线)两条曲线来看，随着测试集量增多，损失量非常低。

损失函数：

上述两公式中，y:是具体分到一个类别的概率，x是输入样本，上标l8表示第8层的输入出(同时也是最后一层的输入)，e是自然对数常数，m是样本总数，k是类别总数，大写的上标T表示转置运算，J(seta)损失函数。

通过测试得出以下结论：

模型上网信令识别率实际数据测试结果与训练结果吻合，信令识别率和准确率为97％左右。可以完全通过深度学习模型进行用户上网信令解析，并可以识别由于规则库规则覆盖度问题导致通过规则无法识别的信令。

请参见图4，本发明实施例对应图1描述的本发明实施例的用户上网信令内容解析方法还提供一种用户上网信令内容解析装置，所述装置包括：

接收模块10，用于接收用户上网所输入的原始信令；

提取模块20，用于从所述原始信令的内容中提取特征字段；

训练集获取模块30，用于获取所有训练集，所述训练集包括从所述原始信令的内容中提取的所述特征字段；

预处理模块40，用于采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数；

特征训练模块50，用于所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征训练；

确认模块60，用于提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

优选地，所述装置还包括：信息结合模块，将分类输出后的每一分类与对应的用户终端身份信息、IMEI、数据流量大小、时长信息以及位置信息结合。

优选地，所述特征字段包括HOST、IP和URL中的至少一种。

优选地，所述预处理模块包括：

依据训练获得所述M×N的矩阵。

较佳地，所述特征字段为HOST时，所述N取值为32、64或128。

特征训练模块50包括：所述M×N的矩阵通过K层卷积神经网络模型进行特征提取，所述K层卷积神经网络模型包括K/2层卷积层和K/2层池化层，其中K为正偶数。较佳地，所述K值取6。

所述确认模块60包括：

分类单元，用于提取后的特征通过3层的前置神经网络模型进行分类，各分类对应一个应用程序的身份信息；

确认单元，用于完成用户上网所输入的原始信令对应的应用程序身份信息的确认。

另外，结合图1描述的本发明实施例的用户上网信令内容解析方法可以由用户上网信令内容解析设备来实现。图5示出了本发明实施例提供的用户上网信令内容解析设备的硬件结构示意图。

用户上网信令内容解析设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在数据处理装置的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。在特定实施例中，存储器402包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种用户上网信令内容解析方法。

在一个示例中，用户上网信令内容解析设备还可包括通信接口403和总线410。其中，如图5所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将用户上网信令内容解析设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的用户上网信令内容解析方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户上网信令内容解析方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种用户上网信令内容解析方法，其特征在于，所述方法包括：

接收用户上网所输入的原始信令；

从所述原始信令的内容中提取特征字段；

2.根据权利要求1所述的用户上网信令内容解析方法，其特征在于，所述特征字段包括HOST、IP和URL中的至少一种。

3.根据权利要求2所述的用户上网信令内容解析方法，其特征在于，所述采用循环神经网络模型对所述训练集进行训练获得M×N的矩阵，其中M表示所述特征字段中字符集合长度，N表示向量维度，M、N均为正整数包括：

依据训练获得所述M×N的矩阵。

4.根据权利要求3所述的用户上网信令内容解析方法，其特征在于，所述特征字段为HOST时，所述N取值为32、64或128。

5.根据权利要求1所述的用户上网信令内容解析方法，其特征在于，所述M×N的矩阵通过第一预定数目层的卷积神经网络模型进行特征提取包括：

6.根据权利要求5所述的用户上网信令内容解析方法，其特征在于，所述K值取6。

7.根据权利要求1至6所述的用户上网信令内容解析方法，其特征在于，所述提取后的特征通过第二预定数目层的前置神经网络模型进行分类，完成用户上网所输入的原始信令对应的应用程序身份信息的确认包括：

8.一种用户上网信令内容解析装置，其特征在于，所述装置包括：

接收模块，用于接收用户上网所输入的原始信令；

提取模块，用于从所述原始信令的内容中提取特征字段；

9.一种用户上网信令内容解析设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。