CN109947932B

CN109947932B - 一种推送信息分类方法及系统

Info

Publication number: CN109947932B
Application number: CN201711056833.XA
Authority: CN
Inventors: 蒋忠强; 梁俊; 全兵; 杨静; 李婧; 桑永胜; 严明
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-06-04
Anticipated expiration: 2037-10-27
Also published as: CN109947932A

Abstract

本发明公开了一种推送信息分类方法及系统，用于提高推送信息分类的效率和准确性，该方法包括获取推送信息对应的文本信息；将所述文本信息进行分词处理，获得所述文本信息对应的词组序列；对所述词组序列中的每个词组进行向量编码后，输入到深度神经网络模型；根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。

Description

一种推送信息分类方法及系统

技术领域

本发明涉及无线通信领域，尤其涉及一种推送信息分类方法及系统。

背景技术

垃圾短信通常指未经用户同意向用户发送的用户不愿意接收到的短信，这些短信通常是具有商业、广告、诈骗、涉黑、涉黄等违规内容，严重影响到了人们的日常生活、运营商形象及社会民生的和平稳定，甚至给人民的生命财产带来严重后果。

目前，针对垃圾短信的分类方法主要是基于内容的垃圾短信分类方法。

基于内容的垃圾短信分类方法是通过对垃圾短信中文本特征的学习和特征的分类实现短信文本的分类。但该种方法提取的文本特征存在不完整的可能，对垃圾短信的分类能力有限。并且，基于内容的垃圾短信分类方法以短信文本中各词组的特征相互独立分布为前提条件，对各词组的分类存在一定偏差，从而导致对应的垃圾短信的分类结果存在一定偏差。同时，针对大数据背景下垃圾短信体量浩大、生成快速等特点，基于内容的垃圾短信分类方法从文本特征到短信分类的映射能力有限，无法有效的满足快速变异的垃圾短信分类需求。

发明内容

本发明提供一种推送信息分类方法及系统，用以解决现有技术中存在的对垃圾信息的分类能力有限，分类结果不准确，无法有效的实现快速变异的垃圾信息分类的问题，提高垃圾信息分类的效率和准确性。

第一方面，本发明实施例提供了一种推送信息分类方法，该方法包括：

获取推送信息对应的文本信息；

将所述文本信息进行分词处理，获得所述文本信息对应的词组序列；

对所述词组序列中的每个词组进行向量编码后，输入到深度神经网络模型；其中，所述深度神经网络模型包括回复式双向LSTM层和前向Softmax层，所述回复式双向LSTM层用于解析所述每个词组的多层含义，更新所述每个词组对应的所述向量编码，所述前向Softmax层根据所述更新后的所述向量编码对所述每个词组进行分类，并将所述分类中词组数量最多的分类作为所述深度神经网络模型的输出结果；

根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。

一种实施方式，所述回复式双向LSTM层更新所述每个词组对应的所述向量编码后，该方法还包括：

获取垃圾信息的样本数据；

对所述样本数据进行语义分析确定每个样本数据所表达的语义，并基于所述语义的共性确定垃圾信息模型中垃圾信息所对应的多种类型；

所述前向Softmax层根据所述更新后的所述向量编码和所述垃圾信息模型确定所述每个词组对应的类型，并将词组数量最多的类型确定为所述推送信息的类型，然后将所述确定的所述推送信息的类型作为所述深度神经网络模型的输出结果。

一种实施方式，所述深度神经网络模型还包括Highway层，该方法还包括：

所述更新后的所述向量编码经过所述Highway层后输入所述前向Softmax层；其中，所述Highway层用于放大所述每个词组对应的语义特征值。

一种实施方式，将所述文本信息进行分词处理前，该方法还包括：

将所述文本信息中的繁体中文转化为简体中文；

去除所述文本信息中的错别字和乱码。

一种实施方式，对所述词组序列中的每个词组进行向量编码后，输入到深度神经网络模型之后，该方法还包括：

判断所述深度神经网络模型中是否存在所述输入所述深度神经网络的词组；

如果存在，则不保存所述输入所述深度神经网络的词组；

如果不存在，则将所述输入所述深度神经网络的词组以及所述词组对应的含义保存到所述深度神经网络模型中。

第二方面，本发明实施例还提供了一种推送信息分类系统，该系统包括：

获取模块，用于获取推送信息对应的文本信息；

处理模块，用于将所述文本信息进行分词处理，获得所述文本信息对应的词组序列；

输出模块，用于根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。

可选的，该系统还包括：

学习模块，用于获取垃圾信息的样本数据；

所述处理模块还用于：

使所述前向Softmax层根据所述更新后的所述向量编码和所述垃圾信息模型确定所述每个词组对应的类型，并将词组数量最多的类型确定为所述推送信息的类型，然后将所述确定的所述推送信息的类型作为所述深度神经网络模型的输出结果。

可选的，所述深度神经网络模型还包括Highway层，所述处理模块还用于：

使所述更新后的所述向量编码经过所述Highway层后输入所述前向Softmax层；其中，所述Highway层用于用于放大所述每个词组对应的语义特征值。

可选的，所述处理模块还用于：

将所述文本信息中的繁体中文转化为简体中文；

去除所述文本信息中的错别字和乱码。

可选的，所述处理模块还用于：

如果存在，则不保存所述输入所述深度神经网络的词组；

一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面里任一种实施方式所提供的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面里任一种实施方式所提供的方法。

本发明有益效果如下：

本发明实施例提供了一种垃圾信息分类方法和系统，通过对所述文本信息进行分词处理，然后对每个词组进行向量编码，输入到深度神经网络模型中。通过深度神经网络模型中的回复式双向LSTM层解析出文本信息中各词组对应的多层语义信息，通过深度神经网络模型中的前向Softmax层对所述每个词组进行分类，并将所述分类中词组数量最多的分类作为所述深度神经网络模型的输出结果，可以有效的实现快速变异的垃圾信息分类，提高垃圾信息分类的效率和准确性。

附图说明

图1为本发明实施例一提供的一种垃圾信息分类方法的流程示意图；

图2为本发明实施例一提供的一种垃圾信息分类方法的流程示意图；

图3为本发明实施例一提供的一种垃圾信息分类方法的流程示意图；

图4为本发明实施例一提供的一种垃圾信息分类方法的流程示意图；

图5为本发明实施例二提供的一种垃圾信息分类系统的结构示意图；

图6为本发明实施例三提供的一种计算机装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供一种垃圾信息分类方法，如图1所示，该方法包括：

S101，获取推送信息对应的文本信息；

获取推送信息对应的文本信息可以是移动通讯设备接收到的短信，也可以是社交软件在线接收的文本信息，本发明对于获取推送信息对应的文本信息的具体方式不作限制。

S102，将所述文本信息进行分词处理，获得所述文本信息对应的词组序列；

将所述文本信息进行分词处理，具体可以是根据词性和/或语义，对所述文本信息进行分词，然后将所述文本信息中的语句划分成词组序列。对于具体的分词处理方式，本发明不作限制，只要经过分词处理后，可获得相应的词组序列即可。

S103，对所述词组序列中的每个词组进行向量编码后，输入到深度神经网络模型；其中，所述深度神经网络模型包括回复式双向LSTM(Long Short-Term Memory，长短期记忆网络)层和前向Softmax层，所述回复式双向LSTM层用于解析所述每个词组的多层含义，更新所述每个词组对应的所述向量编码，所述前向Softmax层根据所述更新后的所述向量编码对所述每个词组进行分类，并将所述分类中词组数量最多的分类作为所述深度神经网络模型的输出结果；

S104，根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。

具体的，在S103中，对所述词组序列中的每个词组进行向量编码，具体实现方式可以是：所述向量编码表征了所述词组序列中每个词组间的关系，并用0和1之间的数字表示每个词组间的远近关系，数字的值越大，表示词组间相关性越高，数字的值越小，表示词组间相关性越低。例如，词组序列为：老虎、狮子、花。词组“老虎”的向量编码为(0.8，0.2)，其中，0.8对应词组“狮子”，0.2对应词组“花”。可见，老虎与狮子同属于动物，相关性高，则相对于词组“狮子”，词组“老虎”的向量编码中对应词组“狮子”的数值大；而老虎是动物，花是植物，两者属于不同的物种类别，相关性低，则相对于词组“花”，词组“老虎”的向量编码中对应词组“花”的数值小。

具体的，在S103中，所述深度神经网络模型中的回复式双向LSTM层用于建立所述文本信息的时序关系，解析所述每个词组的多层含义，更新所述每个词组对应的所述向量编码。例如，“小明，你的苹果忘带了”与“张总，您的苹果忘拿了”这两条短信，经过S101、S102、S103输入到深度神经网络模型中，通过回复式双向LSTM层有效利用各词组间的前后关系，解析出这两条短信中的“苹果”的含义，前一句中的“苹果”指的是一种水果，而后一句中的“苹果”指的是一种电子设备，由此解析出来“苹果”这个词组的多层含义，然后更新后一句中“苹果”这个词组对应的向量编码，便于后续的词组分类。其中，值得说明的是，经过回复式双向LSTM层，解析出词组的多层含义后，可根据各词组间的前后关系，确定词组的含义，再更新词组对应的向量编码。

具体的，在S103中，所述深度神经网络模型中的前向Softmax层根据所述更新后的所述向量编码对所述每个词组进行分类，并将所述分类中词组数量最多的分类作为所述深度神经网络模型的输出结果。例如，所述分类为(A类，B类，C类)，而属于同一句子的一组词组序列中词组1对应的向量编码为(0.12，0.32，0.54)，词组2对应的向量编码为(0.21，0.65，0.62)，词组3对应的向量编码为(0.14，0.34，0.59)，其中，向量编码中的数值与所述分类中的类别一一对应，如词组1的向量编码中0.12与A类对应，0.32与B类对应，0.54与C类对应，词组2的向量编码中0.21与A类对应，0.65与B类对应，0.62与C类对应，词组3的向量编码中0.14与A类对应，0.34与B类对应，0.59与C类对应。然后，根据向量编码中的数值大小，数值越大，表示词组与所述分类的相关性越高，则可以确定词组的类别，如词组1的向量编码中数值最大是0.54，而0.54与C类对应，则可以确定出词组1属于C类，同样的，可以确定出词组2属于B类，词组3属于C类。由于属于C类的词组数量最多，则可以确定这一组词组序列对应的文本信息属于C类信息，并作为所述深度神经网络模型的输出结果。

具体的，在S104中，根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。例如，所述深度神经网络模型的输出结果为广告类信息，则可以确定所述推送信息为垃圾信息，并且属于垃圾信息中的广告类垃圾信息。

进一步，在S103中，所述回复式双向LSTM层更新所述每个词组对应的所述向量编码后，如图2所示，还包括：

S113，获取垃圾信息的样本数据；

S123，对所述样本数据进行语义分析确定每个样本数据所表达的语义，并基于所述语义的共性确定垃圾信息模型中垃圾信息所对应的多种类型；

具体的，S113和S123可以是一个无监督学习的过程，通过使用无监督学习算法实现自主学习垃圾信息的语义信息、文本特征和数据表达，形成简单的垃圾信息模型。但本发明对S113中垃圾信息样本数据的获取方式和S123中形成垃圾信息模型中垃圾信息所对应的多种类型的方式均不作限制。

S133，所述前向Softmax层根据所述更新后的所述向量编码和所述垃圾信息模型确定所述每个词组对应的类型，并将词组数量最多的类型确定为所述推送信息的类型，然后将所述确定的所述推送信息的类型作为所述深度神经网络模型的输出结果。

进一步，在S103中，所述深度神经网络模型还包括Highway层，所述更新后的所述向量编码经过所述Highway层后输入所述前向Softmax层；其中，所述Highway层用于放大所述每个词组对应的语义特征值。

具体的，由于神经网络模型当网络结构较大时，存在梯度消失的问题，通过Highway层放大所述每个词组对应的语义特征值，提高了最终每个词组的分类准确性，有效的解决了深度神经网络模型中的梯度消失问题。例如，分类为(A类，B类，C类)，词组1对应的向量编码为(0.41，0.12，0.23)，而且词组1是属于A类。但经过回复式双向LSTM层后，词组1对应的向量编码为(0.00005，0.000051，0.000049)，向量编码中的三个数值很接近，如果以此为依据对词组1进行分类，则会将词组1分为B类，显然与一开始的结果有偏差。但经过Highway层放大所述每个词组对应的语义特征值后，可以得到词组1对应的向量编码为(0.38，0.11，0.18)，根据该向量编码可以准确的将词组1分为A类。

进一步，如图3所示，在S102将所述文本信息进行分词处理前，本发明实施例一还包括：

S112，将所述文本信息中的繁体中文转化为简体中文；

S122，去除所述文本信息中的错别字和乱码。

具体的，S112和S122对所述文本信息进行了规范化处理，例如，所述文本信息为“先生，清看看這個產品&&”，通过S112和S122，将所述文本信息中的繁体中文(這個產)转化为了简体中文(这个产)，并去除了所述文本信息中的错别字(清)和乱码(&&)，最终转化为“先生，看看这个产品”，便于后续的分词处理。

进一步，如图4所示，在S103之后，本发明实施例一还包括：

S11，判断所述深度神经网络模型中是否存在所述输入所述深度神经网络的词组；如果存在，执行S12；如果不存在，执行S13；

S12，不保存所述输入所述深度神经网络的词组；

S13，将所述输入所述深度神经网络的词组以及所述词组对应的含义保存到所述深度神经网络模型中。

具体的，通过S11、S12和S13，不断更新、扩大神经网络模型的结构，使得所述深度神经网络模型能有效的进行海量垃圾信息的分类。例如，将词组1和词组2输入所述深度神经网络模型中，经过判断确定出词组2存在于所述深度神经网络模型中，词组1不存在于所述深度神经网络模型中并，则不保存词组2，而将词组1和词组1对应的含义保存到所述深度神经网络模型中。

值得说明的是，对于本发明实施例中的深度神经网络模型，可以使用RTRL(RealTime Recurrent Learning，实时梯度计算)方式更新深度神经网络模型的回复式双向LSTM层，可以使用BP(Back Propagation，反向传播)方式更新深度神经网络模型的前向Softmax层、前向Highway层。

实施例二

本发明实施例二提供了一种垃圾信息分类系统，如图5所示，该系统包括：

获取模块201，用于获取推送信息对应的文本信息；

处理模块202，用于将所述文本信息进行分词处理，获得所述文本信息对应的词组序列；

输出模块203，用于根据所述深度神经网络模型的输出结果，确定所述推送信息为垃圾信息，并确定所述推送信息在垃圾信息中的类型。

可选的，该系统还包括学习模块204，用于获取垃圾信息的样本数据；对所述样本数据进行语义分析确定每个样本数据所表达的语义，并基于所述语义的共性确定垃圾信息模型中垃圾信息所对应的多种类型；处理模块202还用于使所述前向Softmax层根据所述更新后的所述向量编码和所述垃圾信息模型确定所述每个词组对应的类型，并将词组数量最多的类型确定为所述推送信息的类型，然后将所述确定的所述推送信息的类型作为所述深度神经网络模型的输出结果。

可选的，所述深度神经网络模型还包括Highway层，处理模块202还用于使所述更新后的所述向量编码经过所述Highway层后输入所述前向Softmax层；其中，所述Highway层用于用于放大所述每个词组对应的语义特征值。

可选的，处理模块202还用于将所述文本信息中的繁体中文转化为简体中文；去除所述文本信息中的错别字和乱码。

可选的，处理模块202还用于判断所述深度神经网络模型中是否存在所述输入所述深度神经网络的词组；如果存在，则不保存所述输入所述深度神经网络的词组；如果不存在，则将所述输入所述深度神经网络的词组以及所述词组对应的含义保存到所述深度神经网络模型中。

值得说明的是，本发明提供的的垃圾信息分类方法可以依托于底层GPU(GraphicsProcessing Unit，图形处理器)，运行在计算机集群、GPU集群、PC(Personal Computer，个人计算机)系统上，实现大规模的垃圾信息分类；并且，本发明提供的垃圾信息分类系统提供Web API(World Wide Web Application Programming Interface，网络应用程序编程接口)接口，用户可以通过调用预测接口、增量训练接口或模型初始化训练接口高效地使用垃圾信息分类系统。

实施例三

本发明实施例中还提供一种计算机装置，如图6所示，该计算机装置包括处理器601和存储器602，其中，处理器601用于执行存储器602中存储的计算机程序时实现本发明实施例一中提供的推送信息分类方法的步骤。

可选的，处理器601具体可以是中央处理器、特定应用集成电路(ApplicationSpecific Integrated Circuit，ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(Field Programmable Gate Array，FPGA)开发的硬件电路，可以是基带处理器。

可选的，处理器601可以包括至少一个处理核。

可选的，电子设备还包括存储器602，存储器602可以包括只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)和磁盘存储器。存储器602用于存储处理器501运行时所需的数据。存储器602的数量为一个或多个。其中，存储器602在图6中一并示出，但需要知道的是存储器602不是必选的功能模块，因此在图6中以虚线示出。

实施例四

本发明实施例中还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行本发明实施例一中提供的推送信息分类方法的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种推送信息分类方法，其特征在于，该方法包括：

获取推送信息对应的文本信息；

根据所述词组序列中的每个词组与其他词组之间的相关性对所述词组序列中的每个词组进行向量编码；

将向量编码之后的词组序列输入到深度神经网络模型；其中，所述深度神经网络模型包括回复式双向LSTM层和前向Softmax层，所述回复式双向LSTM层用于解析所述每个词组的多层含义，更新所述每个词组对应的所述向量编码，所述前向Softmax层根据所述更新后的所述向量编码对所述每个词组进行分类，并将所述分类中词组数量最多的分类作为所述深度神经网络模型的输出结果；

2.如权利要求1所述的方法，其特征在于，所述回复式双向LSTM层更新所述每个词组对应的所述向量编码后，该方法还包括：

获取垃圾信息的样本数据；

3.如权利要求1所述的方法，其特征在于，所述深度神经网络模型还包括Highway层，该方法还包括：

4.如权利要求1所述的方法，其特征在于，将所述文本信息进行分词处理前，该方法还包括：

将所述文本信息中的繁体中文转化为简体中文；

去除所述文本信息中的错别字和乱码。

5.如权利要求1所述的方法，其特征在于，对所述词组序列中的每个词组进行向量编码后，输入到深度神经网络模型之后，该方法还包括：

如果存在，则不保存所述输入所述深度神经网络的词组；

6.一种推送信息分类系统，其特征在于，该系统包括：

获取模块，用于获取推送信息对应的文本信息；

7.如权利要求6所述的系统，其特征在于，该系统还包括：

学习模块，用于获取垃圾信息的样本数据；

所述处理模块还用于：

8.如权利要求6所述的系统，其特征在于，所述深度神经网络模型还包括Highway层，所述处理模块还用于：

使所述更新后的所述向量编码经过所述Highway层后输入所述前向Softmax层；其中，所述Highway层用于放大所述每个词组对应的语义特征值。

9.如权利要求6所述的系统，其特征在于，所述处理模块还用于：

将所述文本信息中的繁体中文转化为简体中文；

去除所述文本信息中的错别字和乱码。

10.如权利要求6所述的系统，其特征在于，所述处理模块还用于：

如果存在，则不保存所述输入所述深度神经网络的词组；

11.一种计算机装置，所述计算机装置包括处理器，其特征在于，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5任一所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，其特征在于，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-5任一所述的方法。