CN110913353A

CN110913353A - 短信的分类方法及装置

Info

Publication number: CN110913353A
Application number: CN201811083769.9A
Authority: CN
Inventors: 高喆; 周笑添; 孙常龙; 康杨杨; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2020-03-24
Anticipated expiration: 2038-09-17
Also published as: CN110913353B

Abstract

本申请公开了一种短信的分类方法及装置。其中，该方法包括：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。本申请解决了传统的垃圾短信识别方案基于文本分类或关键词拦截的方法进行短信的分类，无法精准的对短信内容进行分类的技术问题。

Description

短信的分类方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种短信的分类方法及装置。

背景技术

垃圾短信是指未经过用户同意向用户发送的用户不愿意接收到的短信，或用户不能根据自己的意愿拒绝接收的短信，垃圾短信泛滥已经严重影响到人们正常生活、运营商形象乃至社会稳定。垃圾短信识别是短信内容安全系统的第一道防线，因此，如何识别并拦截垃圾短信至关重要。

但是，在现有技术中，传统的垃圾短信识别方案通常基于文本分类或关键词拦截的方法进行，忽略了短信发送方和接收方的行为特征，从而无法精准的判断垃圾短信的风险概率。例如，使用传统的关键词拦截技术或者文本分类模型，会造成大量的误拦或者大量的漏拦。

针对上述传统的垃圾短信识别方案基于文本分类或关键词拦截的方法进行短信的分类，无法精准的对短信内容进行分类的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种短信的分类方法及装置，以至少解决传统的垃圾短信识别方案基于文本分类或关键词拦截的方法进行短信的分类，无法精准的对短信内容进行分类的技术问题。

根据本申请实施例的一个方面，提供了一种短信的分类方法，包括：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

根据本申请实施例的另一方面，还提供了一种短信的分类装置，包括：获取模块，用于获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；分类模块，用于将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

根据本申请实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的短信的分类方法。

根据本申请实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行任意一项上述的短信的分类方法。

根据本申请实施例的另一方面，还提供了一种计算机系统，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

在本申请实施例中，通过获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

容易注意到的是，本申请实施例获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征，依据上述行为特征和文本特征对短信的内容属性进行分类，并且，本申请方案将上述行为特征和上述文本特征联立作为组合输入特征，通过深度学习算法对上述短信的内容属性进行分类，可以有效提高对短信内容进行分类的准确性。

由此，本申请实施例达到了提高对短信内容进行分类的准确性的目的，从而实现了提高判断垃圾短信的风险概率的精准性的技术效果，进而解决了传统的垃圾短信识别方案基于文本分类或关键词拦截的方法进行短信的分类，无法精准的对短信内容进行分类的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了一种用于实现短信的分类方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种短信的分类方法的流程图；

图3是根据本申请实施例的一种可选的短信的分类方法的场景示意图；

图4是根据本申请实施例的一种可选的短信的分类方法的流程图；

图5是根据本申请实施例的一种可选的短信的分类方法的流程图；

图6是根据本申请实施例的一种可选的短信的分类方法的流程图；

图7是根据本申请实施例的一种短信的分类装置的示意图；以及

图8是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

二部图，又称二分图，是图论中的一种特殊模型，其顶点集可分割为两个互不相交的子集，并且图中每条边依附的两个顶点都分属于这两个互不相交的子集，两个子集内的顶点不相邻。

随机游走算法，是指给定一个图和一个出发点，随机地选择一个邻居结点，移动到邻居结点上，然后把当前结点作为出发点，重复以上过程。

图嵌入算法(node2vec)，是指一种针对图结构的节点特征表示学习算法。

预设词向量化工具(word2vec)，是指一种开源软件，通过大规模语料学习词语的向量表示。

卷积神经网络，是一种深度前馈神经网络，其人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

实施例1

根据本申请实施例，提供了一种短信的分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现短信的分类方法的计算机终端(或移动设备)的硬件结构框图，如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的短信的分类方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的短信的分类方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种短信的分类方法，图2是根据本申请实施例的一种短信的分类方法的流程图，如图2所示，上述方法包括：

步骤S202，获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；

步骤S204，将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

需要说明的是，本申请实施例可以但不限于应用于垃圾短信分类和拦截的应用场景下，其中，上述垃圾短信可以但不限于为：商业类及非法广告类短信、涉黄类短信、涉政类短信、违禁违法类短信等。

可选的，上述行为特征为用户行为特征，上述短信的发送方的行为特征可以但不限于包括：发送方的历史发送短信特征，例如，人工判定为涉黄的比例、投诉比例等，上述短信的接收方的行为特征可以但不限于包括：接收方的历史接收短信特征，例如，接收到垃圾短信的概率等。

可选的，上述文本特征可以采用词特征向量，例如，通过对短信的文本内容进行分词处理，得到多个分词，并通过运行word2vec算法或者skip-gram方法将上述多个分词转化为词特征向量，进而可以采用上述词特征向量表示上述文本特征。

在一种可选的实施例中，本申请方案可以但不限于通过二部图数据结构对发送方和接收方进行建模，得到二部图模型；并基于上述二部图模型，采用图嵌入算法获取上述发送方与上述接收方的行为特征。也即，本申请实施例通过构建基于短信发送方和接收方的用户行为特征，解决了现有技术中单纯从文本角度判断疑似垃圾短信的准确性较低的问题。

在另一种可选的实施例中，本申请方案通过将行为特征和文本特征作为组合输入特征，结合文本嵌入的特征提取方法以及深度学习技术，进而本申请方案可以对短信语义以及用户行为特征进行有效的组合表示，全方位的判断垃圾短信的风险概率以及评估垃圾短信风险，避免了现有技术中使用关键词拦截或单一文本分类模型，所导致的误拦率和漏拦率较高的问题。

需要说明的是，基于传统关键词拦截技术的垃圾短信识别准确率为50％，召回率为20％；基于文本分类模型(例如，词袋模型+SVM)的垃圾短信识别准确率为72％，召回率为68％；基于深度学习的文本分类模型(例如，卷积神经网络)的垃圾短信识别准确率为77％，召回率为65％；但是，通过采用本申请方案中所提供的短信的分类方法，垃圾短信识别准确率可以达到82％，召回率可以达到74％，有效提高了识别垃圾短信的准确性和垃圾短信召回率。

在一种可选的实施例中，获取上述发送方与上述接收方的行为特征包括：

步骤S302，通过二部图数据结构对上述发送方与上述接收方的标识进行建模，得到二部图模型；

步骤S304，基于上述二部图模型，采用图嵌入算法获取上述发送方与上述接收方的行为特征。

如图3所示，在本申请实施例中，通过二部图数据结构对上述发送方与上述接收方的标识进行建模，得到如图3所示的二部图模型，并基于上述二部图模型采用图嵌入算法获取上述发送方与上述接收方的行为特征。

在一种可选的实施例中，如图4所示，上述步骤S302，通过上述二部图数据结构对上述发送方与上述接收方的标识进行建模，得到上述二部图模型包括：

步骤S402，将上述发送方在发送上述短信时所使用的签名标识设置为上述二部图数据结构中的第一类型节点；

步骤S404，将上述发送方与上述接收方所使用的终端标识设置为上述二部图数据结构中的第二类型节点。

在一种可选的实施例中，可以获取短信发送方的签名标识，将每一个签名标识作为二部图数据结构中的一个节点，节点类型为第一类节点；并获取所有独立的手机号码，将每个手机号码作为二部图数据结构中的一个节点，节点类型为第二类节点。

步骤S406，统计上述发送方与上述接收方之间的异常短信占比。

其中，上述异常短信占比通过计算第一数值与第二数值的比值得到，上述第一数值表示上述发送方向上述接收方发送过的异常短信的数量，上述第二数值表示上述发送方向上述接收方发送过的全部短信的数量，上述异常短信中包含敏感信息且上述异常短信通过预先标记确定。

可选的，上述异常短信可以为垃圾短信，在上述可选的实施例中，通过统计上述发送方与上述接收方之间的异常短信占比，即统计每一对发送方和接收方的之间的垃圾短信，占该发送方和接收方之间的所有短信的比例。

步骤S408，按照统计得到的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出待使用节点，并在上述待使用节点中的每一对发送方与接收方之间生成边，得到上述二部图模型。

具体的，在上述步骤S408中，上述边的权重为该对发送方与接收方对应的异常短信占比。

本申请实施例依据上述异常短信占比，从第一类型节点和第二类型节点中，筛选得到上述待使用节点，并在上述待使用节点中的每一对发送方与接收方之间生成边，得到上述二部图模型，其中，上述边可以为无方向边。

在一种可选的实施例中，按照统计得到的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出待使用节点包括：

步骤S502，对统计得到的异常短信占比进行降序排列，得到排序结果；

步骤S504，按照预设比例从上述排序结果选取排名靠前的异常短信占比；

步骤S506，根据选取的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出上述待使用节点。

可选的，上述预设比例可以但不限于为25％，需要说明的是，上述预设比例的取值可以根据实际情况确定，本申请实施例中并不具体限定。

在本申请实施例中，由于异常短信占比(垃圾短信占比)较少，为保证二部图数据结构的稀疏性，本申请实施例可以但不限于对统计得到的异常短信占比进行排序，例如，降序排列，按照预设比例从降序排列得到的排序结果中选取排名靠前的异常短信占比，例如，选取排名靠前的25％的异常短信占比，并根据选取排名靠前的25％的异常短信占比从第一类型节点和第二类型节点中筛选出待使用节点，进而可以在筛选待使用节点的过程中，达到保证二部图数据结构的稀疏性的目的。

在一种可选的实施例中，基于上述二部图模型，采用图嵌入算法获取上述发送方与上述接收方的行为特征包括：采用上述图嵌入算法生成与上述二部图模型中的每个节点对应的节点特征向量，其中，上述节点特征向量用于表示上述发送方与上述接收方的行为特征。

在本申请实施例中，对于构建的二部图模型，可以通过运行图嵌入算法(例如，node2vec算法、LINE方法、Deep Walk方法等)，生成与上述二部图模型中的每个节点对应的节点特征向量，以表示上述发送方与上述接收方的行为特征。

需要说明的是，在本申请方案中，发送方和接收方的节点特征向量均可以但不限于通过128维向量文本特征提取。

在一种可选的实施例中，如图5所示，获取上述短信的上述文本特征包括：

步骤S602，对上述短信的文本内容进行分词处理，得到多个分词；

步骤S604，采用预设词向量化工具将上述多个分词转化为词特征向量，其中，上述词特征向量用于表示上述文本特征。

在上述可选的实施例中，可以通过对短信的文本内容进行分词处理，得到多个分词，如图3所示，可以通过运行预设词向量化工具对短信文本进行词特征向量的提取，上述预设词向量化工具中可以实现word2vec算法、skip-gram方法、glove方法等。本申请方案中的词特征向量为128维向量，还可以将词向量的文本长度限制为150个字，超过部分舍弃，不足部分按0向量进行补充深度学习。

在一种可选的实施例中，如图6所示，将上述行为特征和上述文本特征作为组合输入特征，通过上述深度学习对上述短信的内容属性进行分类包括：

步骤S702，将节点特征向量和词特征向量合并，构成特征矩阵；

步骤S704，重复多次对上述特征矩阵进行多通道卷积运算和降维操作，得到处理结果；

步骤S706，将上述处理结果输入至全连接层神经网络，对上述短信的内容属性进行分类。

在本申请一种可选的实施例中，如图3所示，通过将上述节点特征向量和词特征向量进行合并处理，可以但不限于构成一个152*128维的特征矩阵。并通过重复多次对上述特征矩阵进行多通道卷积运算和降维操作，得到处理结果，其中，本申请实施例中的通道可以但不限于为(3，4，5)。

需要说明的是，上述降维操作可以通过max-pooling方法，或者average-pooling方法实现，但并不限于此，对此，本申请实施例并不具体限定。

在上述可选的实施例中，仍如图3所示，在得到处理结果之后，通过将上述处理结果输入至全连接层神经网络，对上述短信的内容属性进行分类，进而可以得到上述短信为垃圾短信的风险概率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述短信的分类方法的装置实施例，图7是根据本申请实施例的一种短信的分类装置的示意图，如图7所示，该装置700包括：获取模块702和分类模块704，其中：

获取模块702，用于获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；分类模块704，用于将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

在本申请实施例中，通过获取模块702，用于获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；分类模块704，用于将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

此处需要说明的是，上述获取模块702和分类模块704对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种计算机系统的实施例，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

实施例4

根据本申请的实施例，还提供一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行短信的分类方法中以下步骤的程序代码：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

可选地，图8是根据本申请实施例的一种计算机终端的结构框图，如图8所示，该计算机终端800可以包括：一个或多个(图中仅示出一个)处理器802、存储器804、以及外设接口806。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的短信的分类方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的短信的分类方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：通过二部图数据结构对上述发送方与上述接收方的标识进行建模，得到二部图模型；基于上述二部图模型，采用图嵌入算法获取上述发送方与上述接收方的行为特征。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述发送方在发送上述短信时所使用的签名标识设置为上述二部图数据结构中的第一类型节点；将上述发送方与上述接收方所使用的终端标识设置为上述二部图数据结构中的第二类型节点；统计上述发送方与上述接收方之间的异常短信占比，其中，上述异常短信占比通过计算第一数值与第二数值的比值得到，上述第一数值表示上述发送方向上述接收方发送过的异常短信的数量，上述第二数值表示上述发送方向上述接收方发送过的全部短信的数量，上述异常短信中包含敏感信息且上述异常短信通过预先标记确定；按照统计得到的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出待使用节点，并在上述待使用节点中的每一对发送方与接收方之间生成边，得到上述二部图模型，其中，上述边的权重为该对发送方与接收方对应的异常短信占比。

可选的，上述处理器还可以执行如下步骤的程序代码：采用上述图嵌入算法生成与上述二部图模型中的每个节点对应的节点特征向量，其中，上述节点特征向量用于表示上述发送方与上述接收方的行为特征。

可选的，上述处理器还可以执行如下步骤的程序代码：对上述短信的文本内容进行分词处理，得到多个分词；采用预设词向量化工具将上述多个分词转化为词特征向量，其中，上述词特征向量用于表示上述文本特征。

可选的，上述处理器还可以执行如下步骤的程序代码：将节点特征向量和词特征向量合并，构成特征矩阵；重复多次对上述特征矩阵进行多通道卷积运算和降维操作，得到处理结果；将上述处理结果输入至全连接层神经网络，对上述短信的内容属性进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：对统计得到的异常短信占比进行降序排列，得到排序结果；按照预设比例从上述排序结果选取排名靠前的异常短信占比；根据选取的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出上述待使用节点。

采用本申请实施例，提供了一种短信的分类的方案，通过获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端800还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的短信的分类方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取短信的发送方与接收方的行为特征以及获取上述短信的文本特征；将上述行为特征和上述文本特征作为组合输入特征，通过深度学习对上述短信的内容属性进行分类。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过二部图数据结构对上述发送方与上述接收方的标识进行建模，得到二部图模型；基于上述二部图模型，采用图嵌入算法获取上述发送方与上述接收方的行为特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述发送方在发送上述短信时所使用的签名标识设置为上述二部图数据结构中的第一类型节点；将上述发送方与上述接收方所使用的终端标识设置为上述二部图数据结构中的第二类型节点；统计上述发送方与上述接收方之间的异常短信占比，其中，上述异常短信占比通过计算第一数值与第二数值的比值得到，上述第一数值表示上述发送方向上述接收方发送过的异常短信的数量，上述第二数值表示上述发送方向上述接收方发送过的全部短信的数量，上述异常短信中包含敏感信息且上述异常短信通过预先标记确定；按照统计得到的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出待使用节点，并在上述待使用节点中的每一对发送方与接收方之间生成边，得到上述二部图模型，其中，上述边的权重为该对发送方与接收方对应的异常短信占比。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用上述图嵌入算法生成与上述二部图模型中的每个节点对应的节点特征向量，其中，上述节点特征向量用于表示上述发送方与上述接收方的行为特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对上述短信的文本内容进行分词处理，得到多个分词；采用预设词向量化工具将上述多个分词转化为词特征向量，其中，上述词特征向量用于表示上述文本特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将节点特征向量和词特征向量合并，构成特征矩阵；重复多次对上述特征矩阵进行多通道卷积运算和降维操作，得到处理结果；将上述处理结果输入至全连接层神经网络，对上述短信的内容属性进行分类。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对统计得到的异常短信占比进行降序排列，得到排序结果；按照预设比例从上述排序结果选取排名靠前的异常短信占比；根据选取的异常短信占比从上述第一类型节点和上述第二类型节点中筛选出上述待使用节点。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种短信的分类方法，包括：

获取短信的发送方与接收方的行为特征以及获取所述短信的文本特征；

将所述行为特征和所述文本特征作为组合输入特征，通过深度学习对所述短信的内容属性进行分类。

2.根据权利要求1所述的方法，其中，获取所述发送方与所述接收方的行为特征包括：

通过二部图数据结构对所述发送方与所述接收方的标识进行建模，得到二部图模型；

基于所述二部图模型，采用图嵌入算法获取所述发送方与所述接收方的行为特征。

3.根据权利要求2所述的方法，其中，通过所述二部图数据结构对所述发送方与所述接收方的标识进行建模，得到所述二部图模型包括：

将所述发送方在发送所述短信时所使用的签名标识设置为所述二部图数据结构中的第一类型节点；

将所述发送方与所述接收方所使用的终端标识设置为所述二部图数据结构中的第二类型节点；

统计所述发送方与所述接收方之间的异常短信占比，其中，所述异常短信占比通过计算第一数值与第二数值的比值得到，所述第一数值表示所述发送方向所述接收方发送过的异常短信的数量，所述第二数值表示所述发送方向所述接收方发送过的全部短信的数量，所述异常短信中包含敏感信息且所述异常短信通过预先标记确定；

按照统计得到的异常短信占比从所述第一类型节点和所述第二类型节点中筛选出待使用节点，并在所述待使用节点中的每一对发送方与接收方之间生成边，得到所述二部图模型，其中，所述边的权重为该对发送方与接收方对应的异常短信占比。

4.根据权利要求3所述的方法，其中，按照统计得到的异常短信占比从所述第一类型节点和所述第二类型节点中筛选出待使用节点包括：

对统计得到的异常短信占比进行降序排列，得到排序结果；

按照预设比例从所述排序结果选取排名靠前的异常短信占比；

根据选取的异常短信占比从所述第一类型节点和所述第二类型节点中筛选出所述待使用节点。

5.根据权利要求3所述的方法，其中，基于所述二部图模型，采用图嵌入算法获取所述发送方与所述接收方的行为特征包括：

采用所述图嵌入算法生成与所述二部图模型中的每个节点对应的节点特征向量，其中，所述节点特征向量用于表示所述发送方与所述接收方的行为特征。

6.根据权利要求1所述的方法，其中，获取所述短信的所述文本特征包括：

对所述短信的文本内容进行分词处理，得到多个分词；

采用预设词向量化工具将所述多个分词转化为词特征向量，其中，所述词特征向量用于表示所述文本特征。

7.根据权利要求1所述的方法，其中，将所述行为特征和所述文本特征作为组合输入特征，通过所述深度学习对所述短信的内容属性进行分类包括：

将节点特征向量和词特征向量合并，构成特征矩阵；

重复多次对所述特征矩阵进行多通道卷积运算和降维操作，得到处理结果；

将所述处理结果输入至全连接层神经网络，对所述短信的内容属性进行分类。

8.一种短信的分类装置，包括：

获取模块，用于获取短信的发送方与接收方的行为特征以及获取所述短信的文本特征；

分类模块，用于将所述行为特征和所述文本特征作为组合输入特征，通过深度学习对所述短信的内容属性进行分类。

9.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的短信的分类方法。

10.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的短信的分类方法。

11.一种计算机系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：