CN105516499A

CN105516499A - 一种对短信进行分类的方法、装置、通信终端及服务器

Info

Publication number: CN105516499A
Application number: CN201510927448.2A
Authority: CN
Inventors: 张金晶; 常富洋; 李强
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-04-20
Anticipated expiration: 2035-12-14
Also published as: CN105516499B

Abstract

本发明公开了一种对短信进行分类的方法、装置、通信终端及服务器，该方法包括：对目标短信进行分词，获得所述目标短信的至少一个分词；获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；根据所述至少一个分词获得所述目标短信所属的主题向量；根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型，由此解决了现有技术中仅根据分词进行分类导致的分类结果精确度较低的技术问题，达到了提高分类结果精确度的技术效果。

Description

一种对短信进行分类的方法、装置、通信终端及服务器

技术领域

本发明涉及通信技术领域，尤其涉及一种对短信进行分类的方法、装置、通信终端及服务器。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，电子产品的种类也越来越多，人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的移动终端，享受随着科技发展带来的舒适生活。例如，智能手机、已经成为人们生活中一个重要的组成部分，用户可以使用智能手机打电话、收发短信等，实现随时随地快速通信。

短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为它使用的广泛和成本低廉常被广告商、不法分子等所利用。人们常常会收到诸多垃圾短信，如：诈骗短信、广告短信、骚扰短信等等。为了避免这些对用户来说无用设置有害的垃圾短信对用户造成困扰，现有技术会对用户目标短信进行分类，然后将属于垃圾短信的这类短信以及用户标记的不想收到的短信进行拦截。

现有技术中，对短信进行分类时，通常是先对短信进行分词，然后将分词输入分类模型中进行分类，这种仅根据分词进行分类的方式仅从分词层面上考虑短信的特征属性，导致其分类结果存在精确度较低的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种对短信进行分类的方法、装置、通信终端及服务器。

本发明的一个方面，提供了一种对短信进行分类的方法，包括：

对目标短信进行分词，获得所述目标短信的至少一个分词；

获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；

根据所述至少一个分词获得所述目标短信所属的主题向量；

根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

可选的，所述获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量，包括：分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量；将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。

可选的，根据所述至少一个分词获得所述目标短信所述的主题向量，包括：将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。

可选的，根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型，包括：将所述至少一个分词中的每个分词作为一个第一特征，所述短信词向量作为第二特征，所述主题向量作为第三特征；将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵；将所述特征矩阵输入短信分类模型对所述目标短信进行分类，获得所述目标短信所属的第一类型。

可选的于，所述短信分类模型通过如下方法获得：

采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包括短信的分词、词向量及主题向量；获取多种类别的短信，其中，每种类别的短信包含多条；将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。

可选的，所述将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，包括：根据所述多种类别的短信内容获得属性特征；将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。

可选的，在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，所述方法还包括：判断所述第一类型是否为垃圾短信中的一种类型；若所述第一类型是垃圾短信中的一种类型，将所述目标短信标记为所述第一类型，并执行将所述目标短信作为拦截对象进行拦截的操作。

可选的，若所述第一类型不是垃圾短信中的一种类型，所述方法还包括：

获得用户对所述目标短信进行标记的第二类型；判断所述第二类型是否与所述第一类型相同；若所述第二类型与所述第一类型不相同，将所述目标短信标记为所述第二类型，并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。

可选的，若所述第一类型是垃圾短信中的一种类型，所述方法还包括：获得发送所述目标短信的电话号码；建立所述目标短信所属的第一类型与所述电话号码之间的对应关系，并保存所述对应关系至预置数据库。

可选的，若所述目标短信所属的第一类型不是所述垃圾短信中的一种类型，所述目标短信的发送方为陌生联系人，所述方法还包括：

获得发送所述目标短信的电话号码；对所述电话号码的归属地和/或地区编码号段进行解析；若所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同，则执行将所述目标短信作为拦截对象进行拦截的操作；或者，若在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话，则执行将所述目标短信作为拦截对象进行拦截的操作。

本发明的另一个方面，提供一种对短信进行分类的装置，包括：

分词模块，用于对目标短信进行分词，获得所述目标短信的至少一个分词；

词向量获取模块，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；

主题向量获取模块，用于根据所述至少一个分词获得所述目标短信所属的主题向量；

分类模块，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

可选的，所述词向量获取模块用于：分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量；将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。

可选的，所述主题向量获取模块，用于：将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。

可选的，所述分类模块，包括：组合子模块，用于将所述至少一个分词中的每个分词作为一个第一特征，所述短信词向量作为第二特征，所述主题向量作为第三特征；将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵；输入子模块，用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类，获得所述目标短信所属的第一类型。

可选的，通过如下所述装置还包括：分类训练模块，用于采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包括短信的分词、词向量及主题向量；获取多种类别的短信，其中，每种类别的短信包含多条；将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。

可选的，所述分类训练模块，包括：特征获取子模块，用于根据所述多种类别的短信内容获得属性特征；训练子模块，用于将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。

可选的，所述装置还包括：第一判断模块，用于在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，判断所述第一类型是否为垃圾短信中的一种类型；拦截模块，用于在所述第一类型是垃圾短信中的一种类型时，将所述目标短信标记为所述第一类型，并执行将所述目标短信作为拦截对象进行拦截的操作。

可选的，所述装置还包括：第二判断模块，用于在所述第一类型不是垃圾短信中的一种类型时，获得用户对所述目标短信进行标记的第二类型；判断所述第二类型是否与所述第一类型相同；更新模块，用于在所述第二类型与所述第一类型不相同时，将所述目标短信标记为所述第二类型，并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。

可选的，所述装置还包括：号码获取模块，用于在所述第一类型是垃圾短信中的一种类型时，获得发送所述目标短信的电话号码；生成模块，用于建立所述目标短信所属的第一类型与所述电话号码之间的对应关系，并保存所述对应关系至预置数据库。

可选的，所述装置还包括：号码获取模块，用于在所述目标短信所属的第一类型不是所述垃圾短信中的一种类型，所述目标短信的发送方为陌生联系人时，获得发送所述目标短信的电话号码；解析模块，用于对所述电话号码的归属地和/或地区编码号段进行解析；拦截模块，用于在所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同时，执行将所述目标短信作为拦截对象进行拦截的操作；或者在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话时，执行将所述目标短信作为拦截对象进行拦截的操作。

本发明的另一个方面，提供一种通信终端，包括一种对短信进行分类的装置，该装置包括：分词模块，用于对目标短信进行分词，获得所述目标短信的至少一个分词；词向量获取模块，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；主题向量获取模块，用于根据所述至少一个分词获得所述目标短信所属的主题向量；分类模块，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

本发明的另一个方面，提供一种服务器，包括一种对短信进行分类的装置，该装置包括：分词模块，用于对目标短信进行分词，获得所述目标短信的至少一个分词；词向量获取模块，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；主题向量获取模块，用于根据所述至少一个分词获得所述目标短信所属的主题向量；分类模块，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

通过获得短信的分词、词向量及主题向量，并根据短信的分词、词向量及主题向量进行分类，增加了分类可依据的特征，使得对短信的分类能够更细致、深入，解决了现有技术中仅根据分词进行分类导致的分类结果精确度较低的技术问题，提高了分类结果的精确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种对短信进行分类的方法流程图；

图2示出了根据本发明一个实施例的训练分类模型的方法流程图；

图3示出了根据本发明一个实施例的一种对短信进行分类的装置示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种对短信进行分类的方法、装置、通信终端及服务器，用以解决现有技术中仅根据分词进行分类导致的分类结果精确度较低的技术问题。

作为一种可选的实施例，示出了一种对短信进行分类的方法。请参考图1，本申请实施例提供的一种对短信进行分类的方法，包括：

S11、对目标短信进行分词，获得所述目标短信的至少一个分词；

S12、获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；

S13、根据所述至少一个分词获得所述目标短信所属的主题向量；

S14、根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

在执行S11之前，本申请实施例可以先对目标短信进行筛选。具体的，可以获得接收到的短信的发送方的电话号码，根据短信发送方的电话号码进行筛选，将陌生联系人发送的短信作为目标短信。在实现时，通信终端设备中的操作系统一般会为应用程序开放一些接口，供应用程序从系统中获取所需的信息。因此，在本发明实施例中，为了能够对通信终端的短信接收情况进行监测，可以在通信终端中运行一应用程序，然后就可以利用通信终端系统的这一特点，在操作系统中对应用程序进行注册。这样，当操作系统广播通知消息时，应用程序就能够收听到这种通知消息，并从中获取所需的信息。例如，当接收短信时，通信终端的操作系统就会广播该短信接收消息，并携带短信发送方的电话号码，这样，应用程序就能够监测到该事件，并从中获取到短信发送方的电话号码。

针对获得的目标短信进行分词，将目标短信拆分成多个分词，例如：假设目标短信为“您的信用卡消费超出10000.00￥”，可以采用阿里分词将目标短信分为“您”、“您的”、“信用卡”、“消费”、“超出”及“10000.00￥”，分词时除了采用阿里分词，还可以采用IKAnalyzer、盘古分词等分词工具进行分词，本申请实施例不限制分词使用的具体工具。每一个分词在某些特定的主题下有特定的语义，即使两个分词之间本身含义毫不相同，但在某一主题下两个不相关的分词可能表示同样的含义。因此，若仅仅根据分词的含义来对短信进行分类，如利用“信用卡”、“消费”、“兑换”等来对短信进行分类，是无法将“您的信用卡消费超出10000.00￥”分类为积分诈骗短信的。

为了获得分词的语义及表示其与其它分词之间的关系，本申请实施例在分词后，进一步执行S12获得目标短信的至少一个分词的至少一个词向量。其中，目标短信的至少一个分词可以是目标短信的所有分词，也可以是目标短信的部分分词。例如：“您的信用卡消费超出10000.00￥”可以只选择“信用卡”、“消费”、及“超出”作为分类所需的至少一个分词，过滤掉不具有辅助意义的分词“您”和“您的”。

词向量为通过训练将语言中的每一个词映射成一个固定长度的向量，可以通过将每个分词输入词向量工具获得每个分词的词向量，例如可以通过word2vec工具把每个分词当作特征映射到K维空间获得分词的词向量。其中，词向量工具中包含有语料词矩阵，该语料词矩阵中为n*k的矩阵，n为数据库中的分词量，k为每个词的维度，假设某一词向量工具中包含800个分词、设定的词向量的维度为100，那么该语料词矩阵则为800*100的矩阵。将分词输入词向量工具，词向量工具会得到一个表示该分词位置的向量并将这个向量与语料词矩阵相乘便可获得并输出这个分词的词向量。

S12在获得目标短信的至少一个分词的至少一个词向量之后，还进一步根据至少一个词向量及语料词矩阵生成目标短信的短信词向量，以表示目标短信的语义。具体的，可以通过将目标短信的所有词向量及语料词矩阵相乘获得目标短信的短信词向量。例如：假设该语料词矩阵为800*100的矩阵T，若目标短信的有10个分词，n1～n10分别表示这10个分词的词向量，将n1*n2*…n10的乘积与语料词矩阵T相乘获得目标短信的短信词向量，即目标短信的短信词向量等于n1*n2*…n10*T。

S13根据目标短信的至少一个分词获得目标短信所属的主题向量，可以通过LDA(LatentDirichletAllocation，语义主题生成模型)获得目标短信所属的主题向量即主题。具体的，将目标短信的至少一个分词中的所有分词输入LDA模型，LDA模型会对应每个分词获得表示其所属主题topic概率的向量，然后将输入的所有分词的表示其所属主题topic概率的向量相加，在将相加得到的向量与LDA模型的主题矩阵相乘获得目标短信的主题向量并输出。例如：假设LDA模型的主题矩阵为10*100的矩阵T1，若目标短信的有10个分词，m1～m10分别表示这10个分词所属主题topic概率的向量，将m1*m2*…m10相加然后再与主题矩阵T1相乘获得目标短信的主题向量，即目标短信的主题向量等于(m1+m2+…m10)*T1。

通过S11～S13分别获得目标短信的至少一个分词、短信词向量及主题向量后，执行S14根据目标短信的至少一个分词、短信词向量及主题向量对目标短信进行分类，获得目标短信所属的第一类型。具体的，可以通过分类模型对目标短信进行分类，将至少一个分词中的每个分词作为第一特征、短信词向量作为第二特征、主题向量作为第三特征组合成一特征矩阵，将该特征矩阵输入分类模型对目标短信进行分类以获得目标短信所属的第一类型。

请参考图2，分类模型可以通过如下方法训练获得：

S21、采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包含分词、词向量及主题向量；

S22、获取多种类别的短信，其中，每种类别的短信包含多条；

S23、将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。

本申请实施例S21采用预置的短信分类规则构造多分类短信分类模型时，可以采用Libsvm(支持向量机分类库)构造多分类的短信分类模型，也可以采用Liblinear(线性分类库)构造多分类的短信分类模型。在采用Liblinear构造多分类的短信分类模型时，可以调用Liblinear中的动态分类库，利用调用的动态分类库构造多分类的短信分类模型，从而实现了从二类分类模型到多类分类模型的构造。

S21构造的短信分类模型为多分类，可以包含诈骗类、房产中介类、广告推销类、教育培训类、商家促销类、保险类等等。短信分类模型中各个参数依据短信的分词、词向量及主题向量等属性特征进行设置。具体的，可以根据各个分词出现在各个分类中的概率来设置各个参数，例如，收集“教育”出现在教育培训类的短信中概率为70％、出现在诈骗短信中的概率为20％，那么可以根据这个概率进行参数设置。根据词向量与各分类的参考词向量之间的余弦相似度来设置各个参数，参考词向量通过分类中关键分词的词向量与语料词矩阵获得，具体计算方法与短信的词向量相同。根据主题向量与各分类的参考主题向量之间的余弦相似度来设置各个参数，参考主题向量通过分类中包含的关键分词输入LDA模型获得。

在执行S21构造的分类模型模型之后或同时，S22获取多种类别的短信。可以通过多种方式来实现，例如可以获取人工标注的多种类别的短信，或者接收至少一个客户端上报的至少一种类别的短信。由于人工事先标注分类好的或者客户端的用户提交的分类短信，其准确性很高，本发明实施例将这些类别的短信作为训练样本对短信分类模型进行训练，保证了短信分类模型模型的准确性。

在步骤S22获取多种类别的短信之后，步骤S23中将多种类别的短信作为训练样本对短信分类模型进行训练，本发明实施例提供了一种可选的方案，在该方案中，根据多种类别的短信内容获得属性特征，包括：先从多种类别的短信内容提取短信的分词，再进一步根据短信的分词获得短信的词向量、主题向量等属性特征，随后将获得的属性特征和对应的短信类别输入短信分类模型进行训练。这里的属性特征还可以包含短信的发送方电话号码、发送方的名称或姓名等，本发明不作限制。

针对训练获得短信分类模型，将目标短信的至少一个分词中的每个分词作、短信词向量、主题向量分别作为目标短信的特征输入短信分类模型进行分类，进而获得短信分类模型的分类结果，即目标短信所属的第一类型。由于增加了输入分类参数的属性特征词向量和主题向量，提高了对短信的分类精度。并且，由于词向量不仅表征短信本身的语义，还能够表征短信与相似短信之间的关系，而且主题向量能够表征短信所属的主题及与其它主题之间的关系，通过短信的词向量和主题向量，能够帮助短信分类模型对新的、相似的短信进行分类，提升了短信分类模型的泛化能力，即提升了对短信的识别度。

在S14通过短信分类模型获得目标短信的第一类型后，本申请实施例还进一步判断第一类型是否为垃圾短信中的一种类型，其中，垃圾短信包括诈骗短信、广告短信、骚扰短信等。

若第一类型是垃圾短信中的一种类型，那么将目标短信标记为第一类型，并执行将该目标短信作为拦截对象进行拦截的操作。例如：假设短信分类模型将目标短信“12月12在XX广场将举行大型特卖活动……”分为广告短信，判断出广告短信输入垃圾短信中的一种，那么将12月12在XX广场将举行大型特卖活动……”标记为广告短信，具体可以在短信的属性信息中写入广告短信标识码如01，并将12月12在XX广场将举行大型特卖活动……”拦截。

若第一类是垃圾短信中的一种类似时，本申请实施例还获得发送目标短信的电话号码，建立该目标短信所述的第一类型与该电话号码之间的对应关系，并保存该对应感谢至预置数据库，以供便于后续根据电话号码拦截接收的短信和/或来电。例如：假设电话号码138……9944发送的短信为骚扰短信，那么建立138……9944与骚扰短信之间的对应关系并保存至预置数据库，当138……9944再次发送短信至用户终端时，可以确定138……9944发送的是骚扰短信直接进行拦截。

若目标短信的第一类型不是垃圾短信中的一种类型时，获得用户对目标短信进行标记的第二类型。具体可以向用户提供短信标记功能，并在确定第一类型不是垃圾短信中的一种类型时，生成一提示信息，在用户查看该目标短信时提醒用户对该短信的类型进行标记。然后，判断用户标记的第二类型与短信分类模型输出的第一类型是否相同，若相同，表明分类准确不再执行后续操作；若不相同，表明分类错误，将目标短信标记为第二类型，并将目标短信作为第二类型的训练样本更新短信分类模型。例如：针对目标短信“您的快递含有非法物品，快递单号为XXX，请与配送员138……9944联系”的分类为快递短信，用户标记为诈骗短信，那么将该短信标记为诈骗短信，并将该短信作为诈骗短信的训练样本，以对短信分类模型进行训练更新短信分类模型。通过不断的更新，提升短信分类模型的精确度及泛化能力。

若目标短信的第一类型不是垃圾短信中的一种类型时，为了提高垃圾短信的拦截成功率，本申请实施例还针对陌生联系人发来的目标短信执行如下操作：先获得发送目标短信的电话号码；然后对该电话号码的归属地和/或地区编码进行解析，获得解析结果并根据解析结果确定是否对该目标短信执行拦截操作。具体的，若解析获得目标短信的电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区片编码号段不相同，则执行将该目标短信作为拦截对象进行拦截的操作。或者，若在短信接收机主的通信录中不存在与该电话号码的归属地和/或地区编码号段相同的联系电话，则执行将该目标短信作为拦截对象进行拦截的操作。

例如：收到一陌生号码发来的短信，经过分类判别出该短信不是垃圾短信，但解析出该陌生号码的归属地为“西安”；该陌生号码的归属地“西安”与短信接收机主所在地“北京”不相同，为此可以将该短信当作拦截对象进行拦截。由于短信接收机主大多存在很多异地联系人，收到异地的非垃圾短信也是容易出现的，所以还可以在解析出目标短信的归属地位为“西安”时，执行另一种拦截策略：判断在该机主的通信录中所有的联系电话中是否存在归属地位为“西安”的联系电话；若不存在，将这条目标短信拦截；若存在，则放弃执行拦截操作。

基于同一发明构思，本发明实施例还提供一种对短信进行分类的装置。请参考图3，本发明实施例提供的一种对短信进行分了的装置，包括：

分词模块31，用于对目标短信进行分词，获得所述目标短信的至少一个分词；

词向量获取模块32，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；

主题向量获取模块33，用于根据所述至少一个分词获得所述目标短信所属的主题向量；

分类模块34，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

在具体实施过程中，所述词向量获取模块32用于：分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量；将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。相应的，所述主题向量获取模块33用于：将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。

针对获得的至少一个分词、短信词向量及主题向量，可以通过分类模块34进行分类。具体的，所述分类模块34，包括：组合子模块，用于将所述至少一个分词中的每个分词作为一个第一特征，所述短信词向量作为第二特征，所述主题向量作为第三特征；将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵；输入子模块，用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类，获得所述目标短信所属的第一类型。

在具体实施过程中，本申请实施例提供的一种对短信进行分类的装置还包括：分类训练模块35，用于采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包括短信的分词、词向量及主题向量；获取多种类别的短信，其中，每种类别的短信包含多条；将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。所述分类训练模块35具体包括：特征获取子模块，用于根据所述多种类别的短信内容获得属性特征；训练子模块，用于将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。

为了对分类获得的特定类型短信进行拦截，本申请实施例提供的装置还包括：第一判断模块36，用于在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，判断所述第一类型是否为垃圾短信中的一种类型；拦截模块37，用于在所述第一类型是垃圾短信中的一种类型时，将所述目标短信标记为所述第一类型，并执行将所述目标短信作为拦截对象进行拦截的操作。

进一步的，为了不断更新短信训练模型、提升短信训练模型的泛化能力，本申请实施例提供的所述装置还包括：第二判断模块38，用于在所述第一类型不是垃圾短信中的一种类型时，获得用户对所述目标短信进行标记的第二类型；判断所述第二类型是否与所述第一类型相同；更新模块39，用于在所述第二类型与所述第一类型不相同时，将所述目标短信标记为所述第二类型，并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。

在具体实施过程中，本申请实施例提供的所述装置还包括：号码获取模块40、生成模块41和/或解析模块42。号码获取模块40用于在所述第一类型是垃圾短信中的一种类型时，获得发送所述目标短信的电话号码；生成模块41，用于建立所述目标短信所属的第一类型与所述电话号码之间的对应关系，并保存所述对应关系至预置数据库。号码获取模块40还用于在所述目标短信所属的第一类型不是所述垃圾短信中的一种类型，所述目标短信的发送方为陌生联系人时，获得发送所述目标短信的电话号码；解析模块42用于：对所述电话号码的归属地和/或地区编码号段进行解析；拦截模块37还用于：在所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同时，执行将所述目标短信作为拦截对象进行拦截的操作；或者在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话时，执行将所述目标短信作为拦截对象进行拦截的操作。

基于同一发明构思，本申请实施例还提供一种通信终端，该通信终端可以是手机、pad等电子设备。该通信终端包括图2示出的对短信进行分类的装置，该装置包括：分词模块31，用于对目标短信进行分词，获得所述目标短信的至少一个分词；词向量获取模块32，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；主题向量获取模块33，用于根据所述至少一个分词获得所述目标短信所属的主题向量；分类模块34，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

基于同一发明构思，本申请实施例还提供一种服务器，包括一种对短信进行分类的装置，该装置包括：分词模块31，用于对目标短信进行分词，获得所述目标短信的至少一个分词；词向量获取模块32，用于获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量；主题向量获取模块33，用于根据所述至少一个分词获得所述目标短信所属的主题向量；分类模块34，用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型。

本申请实施例提供一种对短信进行分类的方法及装置，通过获得短信的分词、词向量及主题向量，并根据短信的分词、词向量及主题向量进行分类，增加了分类可依据的特征，使得对短信的分类能够更细致、深入，解决了现有技术中仅根据分词进行分类导致的分类结果精确度较低的技术问题，提高了分类结果的精确度。

并且，由于词向量不仅表征短信本身的语义，还能够表征短信与相似短信之间的关系，而且主题向量能够表征短信所属的主题及与其它主题之间的关系，通过短信的词向量和主题向量，能够帮助短信分类模型对新的、相似的短信进行分类，提升了短信分类模型的泛化能力，即提升了对短信的识别度。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1、一种对短信进行分类的方法，其特征在于，包括：

对目标短信进行分词，获得所述目标短信的至少一个分词；

根据所述至少一个分词获得所述目标短信所属的主题向量；

A2、根据A1所述的方法，其特征在于，所述获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量，包括：

分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量；

将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。

A3、根据A1所述的方法，其特征在于，根据所述至少一个分词获得所述目标短信所述的主题向量，包括：

将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。

A4、根据A1所述的方法，其特征在于，根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型，包括：

将所述至少一个分词中的每个分词作为一个第一特征，所述短信词向量作为第二特征，所述主题向量作为第三特征；

将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵；

将所述特征矩阵输入短信分类模型对所述目标短信进行分类，获得所述目标短信所属的第一类型。

A5、根据A4所述的方法，其特征在于，所述短信分类模型通过如下方法获得：

采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包括短信的分词、词向量及主题向量；

获取多种类别的短信，其中，每种类别的短信包含多条；

将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。

A6、根据A5所述的方法，其特征在于，所述将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，包括：

根据所述多种类别的短信内容获得属性特征；

将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。

A7、根据A1～A6任一所述的方法，其特征在于，在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，所述方法还包括：

判断所述第一类型是否为垃圾短信中的一种类型；

若所述第一类型是垃圾短信中的一种类型，将所述目标短信标记为所述第一类型，并执行将所述目标短信作为拦截对象进行拦截的操作。

A8、根据A7所述的方法，其特征在于，若所述第一类型不是垃圾短信中的一种类型，所述方法还包括：

获得用户对所述目标短信进行标记的第二类型；

判断所述第二类型是否与所述第一类型相同；

若所述第二类型与所述第一类型不相同，将所述目标短信标记为所述第二类型，并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。

A9、根据A7所述的方法，其特征在于，若所述第一类型是垃圾短信中的一种类型，所述方法还包括：

获得发送所述目标短信的电话号码；

建立所述目标短信所属的第一类型与所述电话号码之间的对应关系，并保存所述对应关系至预置数据库。

A10、根据A7所述的方法，其特征在于，若所述目标短信所属的第一类型不是所述垃圾短信中的一种类型，所述目标短信的发送方为陌生联系人，所述方法还包括：

获得发送所述目标短信的电话号码；

对所述电话号码的归属地和/或地区编码号段进行解析；

若所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同，则执行将所述目标短信作为拦截对象进行拦截的操作；或者

若在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话，则执行将所述目标短信作为拦截对象进行拦截的操作。

本发明还公开了，B11、一种对短信进行分类的装置，其特征在于，包括：

B12、根据B11所述的装置，其特征在于，所述词向量获取模块用于：

B13、根据B11所述的装置，其特征在于，所述主题向量获取模块，用于：

B14、根据B11所述的装置，其特征在于，所述分类模块，包括：

组合子模块，用于将所述至少一个分词中的每个分词作为一个第一特征，所述短信词向量作为第二特征，所述主题向量作为第三特征；将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵；

输入子模块，用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类，获得所述目标短信所属的第一类型。

B15、根据B14所述的装置，其特征在于，通过如下所述装置还包括：

分类训练模块，用于采用预置的短信分类规则，构造多分类的短信分类模型，其中，所述短信分类模型中的各个参数依据短信的属性特征进行设置，所述属性特征包括短信的分词、词向量及主题向量；获取多种类别的短信，其中，每种类别的短信包含多条；将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，计算所述短信分类模型中的各个参数，得到训练后的短信分类模型。

B16、根据B15所述的装置，其特征在于，所述分类训练模块，包括：

特征获取子模块，用于根据所述多种类别的短信内容获得属性特征；

训练子模块，用于将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。

B17、根据B11～B16任一所述的装置，其特征在于，所述装置还包括：

第一判断模块，用于在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，判断所述第一类型是否为垃圾短信中的一种类型；

拦截模块，用于在所述第一类型是垃圾短信中的一种类型时，将所述目标短信标记为所述第一类型，并执行将所述目标短信作为拦截对象进行拦截的操作。

B18、根据B17所述的装置，其特征在于，所述装置还包括：

第二判断模块，用于在所述第一类型不是垃圾短信中的一种类型时，获得用户对所述目标短信进行标记的第二类型；判断所述第二类型是否与所述第一类型相同；

更新模块，用于在所述第二类型与所述第一类型不相同时，将所述目标短信标记为所述第二类型，并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。

B19、根据B17所述的装置，其特征在于，所述装置还包括：

号码获取模块，用于在所述第一类型是垃圾短信中的一种类型时，获得发送所述目标短信的电话号码；

生成模块，用于建立所述目标短信所属的第一类型与所述电话号码之间的对应关系，并保存所述对应关系至预置数据库。

B20、根据B17所述的装置，其特征在于，所述装置还包括：

号码获取模块，用于在所述目标短信所属的第一类型不是所述垃圾短信中的一种类型，所述目标短信的发送方为陌生联系人时，获得发送所述目标短信的电话号码；

解析模块，用于对所述电话号码的归属地和/或地区编码号段进行解析；

拦截模块，用于在所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同时，执行将所述目标短信作为拦截对象进行拦截的操作；或者在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话时，执行将所述目标短信作为拦截对象进行拦截的操作。

本发明还公开了，C21、一种通信终端，其特征在于，包括根据B10～B20任一所述的装置。

本发明还公开了，D22、一种服务器，其特征在于，包括根据B10～B20任一所述的装置。

Claims

1.一种对短信进行分类的方法，其特征在于，包括：

对目标短信进行分词，获得所述目标短信的至少一个分词；

根据所述至少一个分词获得所述目标短信所属的主题向量；

2.如权利要求1所述的方法，其特征在于，所述获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量，包括：

3.如权利要求1所述的方法，其特征在于，根据所述至少一个分词获得所述目标短信所述的主题向量，包括：

4.如权利要求1所述的方法，其特征在于，根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型，包括：

5.如权利要求4所述的方法，其特征在于，所述短信分类模型通过如下方法获得：

获取多种类别的短信，其中，每种类别的短信包含多条；

6.如权利要求5所述的方法，其特征在于，所述将所述多种类别的短信作为训练样本对所述短信分类模型进行训练，包括：

根据所述多种类别的短信内容获得属性特征；

7.如权利要求1～6任一所述的方法，其特征在于，在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类，获得所述目标短信所属的第一类型后，所述方法还包括：

判断所述第一类型是否为垃圾短信中的一种类型；

8.一种对短信进行分类的装置，其特征在于，包括：

9.一种通信终端，其特征在于，包括如权利要求8所述的装置。

10.一种服务器，其特征在于，包括如权利要求8所述的装置。