CN107734131B

CN107734131B - 一种短信息分类方法及装置

Info

Publication number: CN107734131B
Application number: CN201610659527.4A
Authority: CN
Inventors: 陈军
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2021-02-12
Anticipated expiration: 2036-08-11
Also published as: WO2018028065A1; CN107734131A

Abstract

本发明提供一种短信息分类方法及装置，其中，所述短信息分类方法包括：识别接收的短信息中的预设特征词，将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号，确定第一分类模型，从所述第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量，根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果，根据所述第一运算结果，判定所述短信息的类型。本发明的方案，通过预先设置的分类模型，能够对短信息所属的短信息类型进行准确地判定，实现对短信息的智能管理，方便用户对短信息进行查询整理。

Description

一种短信息分类方法及装置

技术领域

本发明涉及文本分类统计技术领域，特别是涉及一种短信息分类方法及装置。

背景技术

目前，终端中的短信息(包括通知中心的文本消息)基本没有分类，或者仅采用发送方号码进行分类存储，按接收的时间进行排列。

这样，当终端中存储有大量短信息时，上述分类方式会使得用户查询整理短信息时极为不便。例如，用户想要找几天前招商银行发送的信用卡还款短信，这时需要用户在大量的招商银行发送的短信中手工查找，费时费力。即使用户经常手动整理短信息，也容易出现误删及漏删的情况。

发明内容

本发明的目的在于提供一种短信息分类方法及装置，以解决现有的分类短信息的方式使得用户查询整理短信息时极为不便的问题。

为了实现上述的目的，本发明提供一种短信息分类方法，包括：

识别接收的短信息中的预设特征词；

将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号；

确定第一分类模型，其中，所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型；

从所述第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果；

根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。

优选的，所述方法还包括：

若所述短信息的类型为所述非第一短信息类型，确定第二分类模型，其中，所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型；

从所述第二分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

根据所述第二分类模型，对读取的符号向量和字向量进行加权运算，得到第二运算结果；

根据所述第二运算结果，判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。

优选的，所述根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果的步骤，包括：

根据所述第一分类模型，对所述读取的符号向量和字向量进行处理，得到与所述短信息对应的信息向量；

确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量，其中，所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应；

利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算，得到至少两个预测量化值。

优选的，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤，包括：

比较所述至少两个预测量化值，得到所述至少两个预测量化值中的最大的预测量化值；

判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。

优选的，所述识别接收的短信息中的预设特征词的步骤之前，所述方法还包括：

对所述接收的短信息进行规范处理；

所述识别接收的短信息中的预设特征词的步骤包括：

识别所述规范处理后的短信息中的预设特征词。

优选的，所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤，包括：

根据文本分词技术，获取所述短信息中除所述预设特征词之外的其余字中的词语；

读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。

优选的，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后，所述方法还包括：

将所述短信息分类保存至其所属的短信息类型中。

输出所述预设特征词中的至少一个。

本发明还提供一种短信息分类装置，包括：

识别模块，用于识别接收的短信息中的预设特征词；

替换模块，用于将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号；

第一确定模块，用于确定第一分类模型，其中，所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型；

第一读取模块，用于从所述第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

第一运算模块，用于根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果；

第一判定模块，用于根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。

优选的，所述装置还包括：

第二确定模块，用于在所述短信息的类型为所述非第一短信息类型时，确定第二分类模型，其中，所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型；

第二读取模块，用于从所述第二分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

第二运算模块，用于根据所述第二分类模型，对读取的符号向量和字向量进行加权运算，得到第二运算结果；

第二判定模块，用于根据所述第二运算结果，判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。

优选的，所述第一运算模块包括：

处理单元，用于根据所述第一分类模型，对所述读取的符号向量和字向量进行处理，得到与所述短信息对应的信息向量；

确定单元，用于确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量，其中，所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应；

运算单元，用于利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算，得到至少两个预测量化值。

优选的，所述第一判定模块包括：

比较单元，用于比较所述至少两个预测量化值，得到所述至少两个预测量化值中的最大的预测量化值；

判定单元，用于判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。

优选的，所述装置还包括：

规范处理模块，用于对所述接收的短信息进行规范处理；

所述识别模块具体用于：

识别所述规范处理后的短信息中的预设特征词。

优选的，所述读取模块包括：

获取单元，用于根据文本分词技术，获取所述短信息中除所述预设特征词之外的其余字中的词语；

读取单元，用于读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。

优选的，所述装置还包括：

分类保存模块，用于将所述短信息分类保存至其所属的短信息类型中。

优选的，所述装置还包括：

输出模块，用于输出所述预设特征词中的至少一个。

通过本发明的上述技术方案，本发明的有益效果在于：

本发明的短信息分类方法，通过预先设置的分类模型，能够对短信息所属的短信息类型进行准确地判定，实现对短信息的智能管理，方便用户对短信息进行查询整理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例的短信息分类方法的流程图。

图2表示本发明实施例的短信息分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例提供一种短信息分类方法，其中，所述方法包括如下步骤：

步骤101：识别接收的短信息中的预设特征词；

步骤102：将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号；

步骤103：确定第一分类模型，其中，所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型；

步骤104：从所述第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

步骤105：根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果；

步骤106：根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。

本发明实施例的短信息分类方法，通过预先设置的分类模型，能够对短信息所属的短信息类型进行准确地判定，实现对短信息的智能管理，方便用户对短信息进行查询整理。

其中，所述预设特征词可以为电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等等，也可以为自定义的词汇，包括专业应用领域的词汇、成语、食物、地点、作品、设备、人名、地名和机构名称等等，本发明不对其进行限制。

而与所述预设特征词对应的特征符号是预先设置的。例如，与时间对应的特征符号可为DATE，与货币对应的特征符号可为CURRENCY，与银行对应的特征符号可为BANK，等等。

需要说明的是，预先设置特征符号并对特征词进行替换，主要是因为在短信息分类过程中，从语义上终端只需要了解短信息中存在哪些特征词即可，并不关心所述特征词具体是什么。

例如，终端接收到短信息“您个人信用卡11月账单人民币4818.93，到期还款日11月23日。[招商银行]”，经过识别可得到预设特征词“11月”、“人民币4818.93”、“11月23日”和“招商银行”，那么，通过对应的特征符号替换后，所述短信息就成为“您个人信用卡DATE账单CURRENCY，到期还款日DATE。[BANK]”，更体现出短信息中存在哪些特征词。也就是说，在分析该短信息时，终端并不关心具体的金额、日期、具体银行等，只需要了解到存在金钱、日期、银行等即可。

本发明实施例中，所述第一分类模型是预先训练好的，且所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型。也就是说，依据所述第一分类模型，可将终端接收的短信息的类型判定为第一短信息类型(即所述至少一种第一短信息类型中的一种)，或非第一短信息类型。

例如，所述第一分类模型可为一个单类分类器，对应的短信息类型包括还款提醒短信息类型和非还款提醒短信息类型；或者，所述第一分类模型也可为一个多类分类器，对应的短信息类型包括还款提醒短信息类型、消费账单短信息类型和入账账单短信息类型，以及其他类短信息类型(即非还款提醒，也非消费账单和入账账单短信息类型)。

日常生活中，常用汉字及符号的数量大概是3500个左右，但在某一类型短信息中出现的汉字符号(即高频字)远没有这么多，所以，对于资源受限终端，并不需要通过所有汉字及符号才能断定短信息类型，只需关注特定分类模型下的高频字。即在对样本分类模型进行训练时，只需保留高频字的字向量，低频字都以一个统一的特定符号代替，即低频字共用一个字向量，从而形成与该分类模型对应的高频字字向量库。

其中，所述字向量指的是有限维的浮点数，代表着字的语义的量化数值。此处的有限维可以是4维、8维或12维等，依据训练时样本大小和训练模型而定，通常取4的倍数。

在对短信息分析过程中，要从第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量，并依据读取的符号向量和字向量对短信息进行分析。

具体的，所述第一分类模型例如为采用动态k-max池化的卷积神经网络训练好的模型。而所述根据所述第一分类模型，对读取的字向量进行加权运算，得到第一运算结果的步骤具体为：

根据所述第一分类模型，对所述读取的符号向量和字向量进行处理，得到与所述短信息对应的信息向量；这个步骤即是对短信息的符号向量和字向量进行卷积运算后抽取出能表示句子语义的向量。

需要说明的是，所述预测量化值可为预测的概率值或评分，用于判断短信息的类型。并且实际应用中，为了准确判定短信息的类型，在得到所述预测量化值时，可在加权运算得到的求和结果值的基础上再加上一个偏置系数。

进一步的，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤具体为：

也就是说，在利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算时，会计算得到与每种短信息类型对应的预测量化值，并将其中最大预测量化值对应的短信息类型判定为所述短信息的类型。

本发明实施例中，在所述步骤106之后，所述方法还包括：

在另外的实施例中，如果对第一短信息类型进一步进行类型细分，也可以将判别为第一短信息类型的短信息输入第三分类模型进行进一步分类。比如第一分类模型只识别短信息是银行账单类型还是非银行账单类型。对于识别出银行账单类型的短信息可进一步进行第三分类模型(可识别出消费类型、入账类型、还款类型及其他银行账单类型)的细分判断。

也就是说，对于资源受限的终端，可以采用级联方式对短信息进行逐步判定，即依次利用第一分类模型、第二分类模型、第三分类模型、第四分类模型等进行判定，以实现较细的分类。

其中，在级联判定过程中，涉及的分类模型例如可以采用银行账单分类模型、航班火车等出发日程提醒分类模型、广告消息分类模型、诈骗消息分类模型等单一分类模型，以满足不同的用户需求。

本发明实施例中，在所述步骤101之前，所述方法还包括：

对所述接收的短信息进行规范处理；

而所述步骤101具体为：识别所述规范处理后的短信息中的预设特征词。

这样，经过规范化处理的短信息，能够便于后续的语义分析。

其中，具体的规范处理可包括统一字符编码，繁体转简体，全角半角转换，不规范用语替换，剔除文本中多余空白符，剔除对语义分析没有帮助的语气词、特殊标点符号等等，本发明不对其进行限制。

本发明实施例中，在读取字向量之前，还可以对短信息文本采用现有技术中的文本分词技术进行分词，即把常用词分出来，这样能更具有语义特征。因为中文汉字中单个字往往不能准确表达意思，几个汉字组成的词语能更加准确的表达特定的意思。例如，“公”和“司”两个字的意思与“公司”完全不一样；这样，当进行分词后，则读取“公司”的词向量即可，而不必读取“公”和“司”两个字向量。其中，读取词向量后进行的处理过程和运算过程与字向量的一样。

具体的，本发明实施例中，所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤具体为：

这样，能够提高后续的与短信息对应的信息向量的准确度。

本发明实施例中，在所述步骤106之后，所述方法还包括：

将所述短信息分类保存至其所属的短信息类型中。

这样，将接收到的短信息进行分类保存，方便用户的查询整理。

本发明实施例中，在所述步骤106之后，所述方法还包括：

输出所述预设特征词中的至少一个。

需要说明的是，此处的输出可以是输出至终端屏幕显示，以提示用户核查，防止一些误判或漏判，也可以是输出至其他APP应用以使用。

例如，上述经过特征符号替换后的短信息“您个人信用卡DATE账单CURRENCY，到期还款日DATE。[BANK]”，当识别出是信用卡还款提醒短信息类型时，可将DATE和CURRENCY对应的原始文本，即“11月”、“人民币4818.93”和“11月23日”，输出至终端屏幕显示，以提示用户核查。并且，输出的信息还可进一步存放至终端日程表中，形成一个提醒时间。

又例如，终端接收到短信息“您的建行卡积分已达1万分，可兑换5％现金，请登录www.xxxx.com进行兑换，逾期积分清零[xx分行]”，经过特征符号替换后，所述短信息变为“您的建行卡积分已达CURRENCY，可兑换PERCENT现金，请登录URL进行兑换，逾期积分清零[BANK]”；当识别出是垃圾短信息类型时，可将URL对应的原始文本“www.xxxx.com”输出，以提示用户确认核查，防止误判或漏判。

参见图2所示，本发明实施例还提供一种短信息分类装置，与图1所示的短信息分类方法相对应，所述装置包括：

识别模块21，用于识别接收的短信息中的预设特征词；

替换模块22，用于将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号；

第一确定模块23，用于确定第一分类模型，其中，所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型；

第一读取模块24，用于从所述第一分类模型的高频字字向量库中，读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量；

第一运算模块25，用于根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果；

第一判定模块26，用于根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。

本发明实施例的短信息分类装置，通过预先设置的分类模型，能够对短信息所属的短信息类型进行准确地判定，实现对短信息的智能管理，方便用户对短信息进行查询整理。

具体的，所述装置还包括：

本发明实施例中，所述第一运算模块包括：

进一步的，所述第一判定模块包括：

本发明实施例中，所述装置还包括：

规范处理模块，用于对所述接收的短信息进行规范处理；

所述识别模块具体用于：识别所述规范处理后的短信息中的预设特征词。

本发明实施例中，所述读取模块包括：

本发明实施例中，所述装置还包括：

输出模块，用于输出所述预设特征词中的至少一个。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种短信息分类方法，其特征在于，包括：

识别接收的短信息中的预设特征词；

根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型；

所述根据所述第一分类模型，对读取的符号向量和字向量进行加权运算，得到第一运算结果的步骤，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述识别接收的短信息中的预设特征词的步骤之前，所述方法还包括：

对所述接收的短信息进行规范处理；

所述识别接收的短信息中的预设特征词的步骤包括：

识别所述规范处理后的短信息中的预设特征词。

5.根据权利要求1所述的方法，其特征在于，所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后，所述方法还包括：

将所述短信息分类保存至其所属的短信息类型中。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后，所述方法还包括：

输出所述预设特征词中的至少一个。

8.一种短信息分类装置，其特征在于，包括：

识别模块，用于识别接收的短信息中的预设特征词；

第一判定模块，用于根据所述第一运算结果，判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型；

所述第一运算模块包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述第一判定模块包括：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

规范处理模块，用于对所述接收的短信息进行规范处理；

所述识别模块具体用于：

识别所述规范处理后的短信息中的预设特征词。

12.根据权利要求8所述的装置，其特征在于，所述读取模块包括：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

输出模块，用于输出所述预设特征词中的至少一个。