CN114040409B

CN114040409B - 短信识别方法、装置、设备及存储介质

Info

Publication number: CN114040409B
Application number: CN202111333879.8A
Authority: CN
Inventors: 霍明德; 周国语; 及莹; 翁国栋; 刘韧
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-06-06
Anticipated expiration: 2041-11-11
Also published as: CN114040409A

Abstract

本申请提供一种短信识别方法、装置、设备及存储介质，该方案中，通过获取第一特征码，其中，第一特征码包含M个子特征，M个子特征中每个子特征包含一个或多个字，每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且M个子特征包含的所有字包含于同一个历史短信中，M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的；根据第一特征码识别短信集合中的垃圾短信，其中，垃圾短信包含M个子特征，从而实现提高对垃圾短信的识别准确率的目的。

Description

短信识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种短信识别方法、装置、设备及存储介质。

背景技术

随着移动通信技术的发展，使用移动通信业务的用户越来越多，这也导致一些用户经常接收到垃圾短信，若用户对垃圾短信中信息的真实度无法辨别，就会导致用户被骗，造成用户信息安全和经济安全受到损害。因此，如何识别出垃圾短信显得尤为重要。

一种识别垃圾短信的方法如下：通过人工设置垃圾短信的关键字，若待处理短信中匹配到该关键字，则认为该待处理短信是垃圾短信；若待处理短信中未匹配到该关键字，则认为该待处理短信不是垃圾短信。但是，若垃圾短信中出现大量的通假字、发音相近或者形体相似的生僻字来代替关键字，或者在垃圾短信中的关键字的位置随机插入特殊符号，则会由于无法识别出垃圾短信中的关键字，导致无法识别出垃圾短信。因此，目前的识别垃圾短信的方法存在对垃圾短信的识别准确率较低的问题。

发明内容

本申请实施例提供一种短信识别方法、装置、设备及存储介质，用于解决现有技术中的对垃圾短信进行识别的技术方案，存在识别准确率较低的问题。

第一方面，本申请实施例提供一种短信识别方法，该方法包括：获取第一特征码，其中，第一特征码包含M个子特征，M个子特征中每个子特征包含一个或多个字，每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且M个子特征包含的所有字包含于同一个历史短信中，M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的；根据第一特征码识别短信集合中的垃圾短信，其中，垃圾短信包含M个子特征。

本申请实施例提供的技术方案可以包括以下有益效果：由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值，也即，第一特征码中包含的所有字都为历史短信集中的高频字，这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字，因此，可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰，从而在利用第一特征码识别垃圾短信时，可以有效地提高识别垃圾短信的准确率。

第二方面，本申请实施例提供一种短信识别装置，该装置包括用于实现第一方面中的方法的各个功能模块，任意功能模块可以通过软件/或硬件的方式实现。

例如，该装置可以包括获取模块和识别模块。

获取模块，用于获取第一特征码，其中，第一特征码包含M个子特征，M个子特征中每个子特征包含一个或多个字，每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且M个子特征包含的所有字包含于同一个历史短信中，M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的；

识别模块，用于根据第一特征码识别短信集合中的垃圾短信，其中，垃圾短信包含M个子特征。

第三方面，本申请实施例提供一种电子设备，包括：处理器，存储器，交互接口；存储器用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行第一方面的短信识别方法。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面的短信识别方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时用于实现第一方面的短信识别方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的短信识别方法的应用场景示意图；

图2为本申请实施例提供的短信识别方法实施例一的流程图；

图3为本申请实施例提供的短信识别方法实施例二的流程图；

图4为本申请实施例提供的短信识别方法实施例三的流程图；

图5为本申请实施例提供的短信识别装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在根据本实施例的启示下做出的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

背景技术中提供的现有技术中，在对垃圾短信进行识别时，至少存在以下技术问题：

对垃圾短信进行识别主要通过关键字进行处理，这种方法需要人工设置关键字并调整流量阈值，若垃圾短信中出现大量通假字、发音相近的字、形体相近的生僻字，或者在垃圾短信中随机插入特殊符号，则很容易规避掉提前设置好的关键字，导致无法准确识别垃圾短信导致用户投诉，若根据用户投诉内容重新设置关键字，则需要大量人工对大量用户投诉的短信进行处理，从而设置新的关键字，而这又会导致出现新的通假字、发音相近的字、形体相近的生僻字，在增加了人工成本的同时，也依然无法提高对垃圾短信进行识别的准确率，并且，由于有很多重复的工作量，导致识别垃圾短信的效率较低。

针对上述的问题，本申请提出一种短信识别方法，首先通过对历史短信集中的所有的字的出现频次进行统计，然后按照每个字的出现频次从高到低的顺序进行排序，取排名靠前的N个字作为高频字集，或者按照每个字的出现频次从低到高的顺序进行排序，取排名靠后的N个字作为高频字集，然后按照得到的高频字集中的字对历史短信集中的短信进行匹配，若高频字集中的字在历史短信集中的短信中出现，则按照高频字集中的字在历史短信集中的短信中的位置，提取出第一特征码，然后按照该第一特征码对短信集合中的垃圾短信进行识别。由于高频字集中的字较多，可能包含一些正常短信中出现的高频字，因此，可以用预设的第二特征码对第一特征码识别后的短信进行再次识别，由于第二特征码中的字为汉字白名单中的字，因此，可以有效地将正常短信识别出来，避免将正常短信误识别成垃圾短信，从而有效地提高了对垃圾短信进行识别的准确率，同时避免了设置关键字导致的重复工作量的问题，也提高了识别垃圾短信的效率。下面首先对本申请中涉及的名词进行解释。

垃圾短信：指未经用户同意向用户发送的用户不愿意收到的短信息，或用户不能根据自己的意愿拒绝接收的短信息，主要包含以下属性：(1)未经用户同意向用户发送的商业类、广告类等短信息；(2)其他违反行业自律性规范的短信息。

本申请提供的数据处理方法，其核心思想是通过对大量的历史短信集中的所有字的出现频次进行统计，然后按照出现频次对所有字进行排序处理，取其中出现频次大于预设频次阈值的字作为高频字集，然后按照得到的高频字集中的字对历史短信集中的短信进行匹配，若高频字集中的字在历史短信集中的短信中出现，则按照高频字集中的字在历史短信集中的短信中的位置，提取出第一特征码，然后按照该第一特征码对短信集合中的垃圾短信进行识别。在使用第一特征码对短信集合中的垃圾短信进行识别之后，还需使用第二特征码对第一特征码识别过的短信再次进行识别，由于第二特征码中的字为汉字白名单中的字，因此，可以利用第二特征码将正常短信识别出来，避免只通过第一特征码识别短信时，将正常短信误识别为垃圾短信，从而可以有效地提高识别垃圾短信的准确率。

在一种可能的实现中，可以在一种应用场景中应用该实施例的短信识别理方法。图1为本申请实施例提供的短信识别方法的应用场景示意图，如图1所示，在该场景中，可以应用一种短信识别系统实现该短信识别方法，该短信识别系统中至少可以包括特征策略模块、辅助数据模块、数据分析模块、短信平台、短信网关和预警分析模块。

特征策略模块可以用于生成第一特征码和第二特征码，并将第一特征码和第二特征码存储至特征码库中。其中，第二特征码可以为预先设置好的特征码，第二特征码中的字为汉字白名单中的字。

辅助数据模块可以用于存储用户的投诉数据，以及白名单数据，该白名单数据可以包括汉字白名单和用户白名单数据。其中，投诉数据可以用于生成第一特征码。

数据分析模块可以用于对历史短信集中的短信以及这些短信的发件人中触发部分监控关键字的用户号码等原始数据进行数据分析，也即根据历史短信集中的短信进行字频统计，生成特征策略模块中的第一特征码，然后根据特征策略模块中的第一特征码、第二特征码，或者特征码库中的第一特征码和第二特征码，以及辅助数据中的白名单数据，自动标记出短信集合中的垃圾短信，然后在通过人工对标记出的垃圾短信进行再次审核，并根据人工审核的结果实时调整第一特征码，第二特征码，特征码库中的第一特征码和第二特征码，以及白名单数据。

短信平台可以用于在数据分析模块自动标记出垃圾短信之后，对垃圾短信进行关停，也即停止对垃圾短信的发送。

短信网关可以用于在数据分析模块自动标记出垃圾短信之后，对垃圾短信进行短信预警，从而向工作人员提示有垃圾短信；并且在数据分析模块中通过人工审核垃圾短信之后，若发现垃圾短信为真正的垃圾短信，则进行垃圾短信预警。

预警分析模块可以用于在数据分析模块自动标记出垃圾短信之后，对标记出的垃圾短信进行实时监控，然后将监控结果发送至数据分析模块，以便于工作人员可以根据监控结果对自动识别出的垃圾短信进行人工审核。

在上述场景中，短信识别系统可以为基于B/S模式的系统，该系统的硬件要求较低，可以在云平台或者普通个人计算机(Personal Computer，简称：PC)的服务器上运行。

在上述场景中，通过短信识别系统中包括的特征策略模块、辅助数据模块、数据分析模块、短信平台、短信网关和预警分析模块，可以有效地提高对垃圾短信进行识别的准确率，并且可以对垃圾短信进行实时监控和预警，从而提高了对垃圾短信进行识别的效率。

基于上述场景，下面通过几个示例性的实施方式对该短信识别方法进行详细说明。

图2为本申请实施例提供的短信识别方法实施例一的流程图，如图2所示，该短信识别方法包括以下步骤：

S201：获取第一特征码。

在本步骤中，第一特征码包含M个子特征，M个子特征中每个子特征包含一个或多个字，每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且M个子特征包含的所有字包含于同一个历史短信中，M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的。

在该方案中，为了提高对垃圾短信识别的准确率，历史短信集中的短信可以为垃圾短信，从而第一特征码中每个子特征中的字均为垃圾短信中出现的高频字，且第一特征码中的每个字的位置可以按照历史短信中出现的字的位置设置。可以每15分钟通过短信中心对每小时发送量大于5条(具体参数可更改)短信的用户号码，将其最近半小时内的短信作为历史短信集。

在上述方案中，第一特征码的语法规则可以采用正则表达式的语法规则，且第一特征码具备以下几个特点：支持随机长度和固定长度的模糊匹配；支持数字和字母的模糊表达；支持区间字符；语法精简易懂。第一特征码的语法规则可以如下：

1)+可以匹配任何字符串；2)？可以匹配任何一个字符；3)#相当于[0-9]，只能匹配一个数字，若要匹配两个数字，则需要写成##；4)[abc]为区间字符，可以为区间字符中出现的任何一个字符；5)[a-z]为字符列表，可以用于提供一个区间。

举例而言，历史短信集中的短信内容为：

#尊敬的手机用户您好：恭喜您的手机号码已被浙江卫视【中国新歌声】栏目组抽取为场外幸运用户，您将得￥160000元人民币和苹果笔记本电脑一台,本栏目官方活动网站：txtaiji.com【迅速领取】领取码【9166】本次活动已通过浙江省杭州市互联网公证处审批，请幸运用户放心领取！注：如将个人领奖信息泄露给他人造成冒名领取，本公司概不负责！

则基于正则表达式的第一特征码可以为：

恭喜+抽取+######+元+码+####

S202：根据第一特征码识别短信集合中的垃圾短信。

在本步骤中，垃圾短信中可以包含第一特征码中的M个子特征，短信集合可以为待处理短信的短信集合。由于第一特征码中每个子特征中的字均为垃圾短信中出现的高频字，因此根据第一特征码识别短信集合中的短信，可以有效地提高垃圾短信的识别准确率。

本实施例提供的短信识别方法，由于获取到的第一特征码中包含的所有字在历史短信集中出现的频次都大于预设频次阈值，也即，第一特征码中包含的所有字都为历史短信集中的高频字，这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字，因此，可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰，从而在利用第一特征码识别垃圾短信时，可以有效地提高识别垃圾短信的准确率。

下面对步骤S102中的根据第一特征码识别短信集合中的垃圾短信的方法进行详细介绍。

在一种可能的实现中，根据第一特征码识别短信集合中的垃圾短信，包括：将短信集合中与第一特征码匹配的短信识别为可疑短信，得到可疑短信集，其中，可疑短信包含M个子特征；将可疑短信集中与第二特征码不匹配的短信确定为垃圾短信，其中，第二特征码包含N个子特征，N个子特征中每个子特征包含一个或多个字，N个子特征中的每个子特征中的每个字为汉字白名单中的字。

在该方案中，由于短信集合中的短信包括垃圾短信和正常短信，因此，而第一特征码中每个子特征中的字也有可能有部分是汉字白名单中的字，因此通过第一特征码对短信集合中的短信进行识别之后，与第一特征码可以匹配的可疑短信可能为正常短信或者垃圾短信，从而需要第二特征码对可疑短信进行再次识别，由于第二特征码中的每个子特征中的字为汉字白名单中的字，利用第二特征码对可疑短信进行二次识别，可以有效地提高对垃圾短信识别的准确率。

在上述方案中，第二特征码可以为预先根据快递等正常短信进行统计得到的特征码，用于识别正常短信，因此，第二特征码还可以称为反向特征码。第二特征码的语法结构可以和第一特征码的语法结构相同，第二特征码中的每个子特征中的字均为汉字白名单中的字，因此，可以通过第二特征码将快递、家校通等正常短信识别出来，避免仅通过第一特征码将快递等正常短信识别为垃圾短信，导致用户无法收到这类短信，从而提高了对垃圾短信识别的准确率。第二特征码和对应的正常短信可以如表1所示：

表1第二特征码示例表

在一种可能的实现中，根据第一特征码识别短信集合中的垃圾短信，包括：将短信集合划分为多个短信子集，其中，多个短信子集与多个可疑度等级一一对应；按照多个短信子集的可疑度等级从高到低的顺序，根据第一特征码依次识别多个短信子集中的垃圾短信。

在该方案中，短信集合中的短信为待识别的短信，这些短信中可以包括垃圾短信，也可以包括正常短信，且每个短信的短信内容可能都不太一样，每个短信是垃圾短信的可疑度也不太一样。同时，短信集合中的短信数量较多，因此，为了避免将可疑度等级较高的短信发送至用户，导致用户的利益受损，可以将短信集合划分为多个短信子集，然后按照每个短信子集的可疑度等级从高到低的顺序，依次使用第一特征码识别每个短信子集中的短信，这样就可以最大程度上减少垃圾短信对用户造成的影响。

在上述方案中，在使用第一特征码对每个短信子集中的短信进行识别之后，可以使用第二特征码进行二次识别，从而提高对每个短信子集中的垃圾短信的识别准确率。

在一种可能的实现中，将短信集合划分为多个短信子集，包括：按照短信集合中的短信的内容相似度，将短信集合划分为多个短信子集，其中，多个短信子集中每个短信子集包含短信集合中内容相似的一个或多个短信，短信子集中的短信的内容相似度越高，短信子集的可疑度等级越高，和/或，短信子集中的短信数量越多，短信子集的可疑度等级越高。

在该方案中，在将短信集合划分为多个短信子集时，可以按照短信集合中的短信的内容相似度来划分。可选地，可以对短信集合中每两个短信中的相同的字进行统计，若两个短信中相同的字的数量超过预设的第一数量阈值，则确定这两个短信的内容相似度的等级为一级，若两个短信中相同的字的数量超过预设的第二数量阈值，则确定这两个短信的内容相似度的等级为二级等。通过短信集合中的短信的内容相似度将短信集合划分为多个短信子集，不同短信子集的内容相似度可以不同。

在上述方案中，在不同短信子集的内容相似度不同时，可以根据每个短信子集的内容相似度，确定每个短信子集的内容相似度的等级，从而根据每个短信子集的内容相似度的等级确定其可疑度等级，短信子集的内容相似度越高，其内容相似度等级越高，可疑度等级也越高，比如，可疑度等级可以为一级到五级，一级的可疑度等级最低，五级的可疑度等级最高，可疑度等级越高，则对应的短信子集的垃圾短信疑似度越高，该短信子集中的短信越有可能为垃圾短信。

在上述方案中，在多个短信子集的内容相似度相同时，可以按照短信子集中的短信的数量确定短信子集的可疑度等级，短信子集中的短信的数量越多，短信子集的可疑度等级越高。

在上述方案中，确定短信子集的可疑度等级，还可以根据短信子集中短信的发件人的源号码数量，每个发件人发送的短信总数量，发件人发送的短信分布和收件人的回复分布，以及用户白名单中的发件人等确定短信子集的可疑度等级。由于短信子集中的短信相似，若短信子集中的多个短信的发件人不同，且每个发件人发送的短信总数量较大，同时用户未回复，且发件人不在用户白名单中，则该短信子集的可疑度等级较高。可疑度等级的示意表可以如表2所示：

表2可疑度等级示意表

下面对步骤S101中的获取第一特征码的方法进行详细介绍。

在一种可能的实现中，获取第一特征码，包括：获取历史短信集中所有短信的所有字的出现频次；根据所有字中每个字的出现频次确定高频字集，其中，高频字集中包括M个出现频次大于或者等于预设频次阈值的字；根据高频字集提取出第一特征码。

在该方案中，历史短信集中的短信可以为一组内容相似的短信，每个历史短信集对应一个第一特征码。在根据历史短信集获取第一特征码时，可以对历史短信集中的所有短信的所有字的出现频次进行统计，然后建立字频统计表，该字频统计示意表可以如表3所示：

表3字频统计示意表

编号	字	出现频次
			1	电	106
2	话	71
			3	游	12
4	放	225
			5	水	223
6	惘	246
			7	址	175
8	生	83
			9	同	58
10	注	182
			11	愉	7
12	祝	15
			13	側	335
14	淞	220
			15	词	1
16	从	8
			17	的	244
18	反	6
			19	高	55

在上述方案中，为了避免干扰，在字频统计时，只统计中文汉字，对英文、字符、标点符号等予以舍弃，但是，由于第一特征码支持字符和数字，因此，第一特征码可以匹配手机号码、网址、汉字等字符，极大地降低了通过第一特征码匹配短信集合中的短信的复杂度。

在上述方案中，在生成了字频统计表之后，可以根据字频统计表中每个字的出现频次将每个字进行排序，然后取出现频次大于或者等于预设的频次阈值的字作为高频字集，然后根据得到的高频字集提取出第一特征码。

在一种可能的实现中，根据所有字中每个字的出现频次确定高频字集，包括：根据每个字的出现频次对所有字进行降序排序；将进行降序排序后的所有字中的前S个字确定为高频字集，其中，S为大于0的自然数，前S个字的出现频次均大于或者等于预设频次阈值；或者，根据每个字的出现频次对所有字进行升序排序；将进行升序排序后的所有字中的后S个字确定为高频字集，其中，S为大于0的自然数，后S个字的出现频次均大于或者等于预设频次阈值。

在该方案中，以表3所示的字和降序排序的方式为例，将表3中示意出的所有字进行排序，可以得到如表4所示的字频排序表：

表4字频排序示意表

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19
																			側	惘	的	放	水	淞	注	址	电	生	话	同	高	祝	游	从	愉	反	词
335	246	244	225	223	220	182	175	106	83	71	58	55	15	12	8	7	6	1

在上述方案中，高频字集中的字的数量可以根据实际需求进行调整，比如，预设的频次阈值为8，则通过表4所示的字频排序，排名前16个字的出现频次为大于或者等于8的字，从而可以将排名前16个字作为高频字集，则高频字集为：側惘的放水淞注址电生话同高祝游从(16个)。

可选的，高频字集还可以用于确定两组短信之间的内容相似度。由于不良信息发送者通过在短信中添加特殊字符、变换称谓等改变原有短信中的内容，导致无法通过匹配完整短信来实现短信分类，而根据每两组短信的字符向量计算这两组短信的相似度时，计算量极大，因此，为了避免计算量大的问题，可以通过对每组短信建立一个高频字集，然后根据两组短信的高频字集之间的相似度，确定这两组短信的内容相似度，高频字集之间的相似度越高，这两组短信的内容相似度越高，极大的提高了确定两组短信的内容相似度的效率。

可选的，通过高频字集确定两组短信之间的内容相似度，可以快速确定这两组短信之间是否有垃圾短信，但无法对所有垃圾短信进行全量识别，因此，还需要通过第一特征码和第二特征码对这两组短信进行更加全面的识别，从而识别出这两组短信中所有的垃圾短信。

在一种可能的实现中，根据高频字集提取出第一特征码，包括：根据高频字集中的所有字匹配历史短信集中的短信；若高频字集中的多个字在历史短信集中的短信中的位置连续，则将多个字确定为M个子特征中的第一子特征；若高频字集中的多个字在历史短信集中的短信中的位置不连续，将多个字中的每个字确定为M个子特征中的第二子特征；将多个第一子特征和多个第二子特征按照历史短信集中的短信中的位置进行组合，得到第一特征码。

在该方案中，以高频字集为：側惘的放水淞注址电生话同高祝游从(16个)，历史短信集中的短信为：

游，xi放，水，惘址：vybpryr.ws％注，側淞58，签，菿淞256，询，问，再，綫，愘，腹办，哩，电话：xxxxxx「太陽诚」

则根据“側惘的放水淞注址电生话同高祝游从”中的所有字对上述短信进行匹配，高频字集中的“側”、“惘”、“放”、“水”、“淞”、“注”、“址”、“电”、“话”、“游”都可以匹配到，且高频字集中的“惘”、“址”、“側”、“淞”、“电”、“话”在上述短信中的位置都是连续的，因此，将“惘址”、“側淞”、“电话”作为三个第一子特征，将“放”、“水”、“注”、“游”作为四个第二子特征，按照上述短信中的位置进行组合，得到第一特征码即为：

游+放+水+惘址+注+側淞+电话

在上述方案中，在得到第一特征码之后，就可以使用得到的第一特征码描述上述历史短信集中的短信。其中，一个历史短信集可以对应一个第一特征码。

在上述方案中，当根据一个历史短信集得到一个第一特征码之后，可以将得到的第一特征码存储至特征码库中，从而在下次对短信集合中的短信进行识别时，可以直接采用特征码库中的第一特征码进行识别，而无需再次根据高频字集提取第一特征码，从而提高了对垃圾短信进行识别的效率。

在上述方案中，特征码库中的第一特征码还可以根据用户的投诉数据得到。当用户对垃圾短信进行投诉之后，可以根据用户投诉的垃圾短信的相似度分析识别得到第一特征码，该第一特征码即为根据用户投诉的短信生成的第一特征码，从而可以根据该第一特征码快速识别短信集合中的垃圾短信，提高了对垃圾短信进行识别的效率。

举例而言，当用户投诉的两个垃圾短信分别为：

尊敬的王洪女士：您的建设银行卡尾号7168(消费异常)导致已冻结，请立即联系客服：00861-855973XXXX办理解冻(中国建行)

尊敬的刘加林先生：您的工行尾号7168(消费异常)导致已冻结，请立即联系客服：00861-855974XXXX办理解冻(中国工商银行)

则根据用户投诉的这两个垃圾短信的相似度可以直接得到第一特征码为：

尊敬的+您的+尾号####(消费异常)导致已冻结，请立即联系客服：00861-85597#####办理解冻

从而根据该第一特征码可以快速识别出短信集合中的这一类垃圾短信。第一特征码及匹配到的示例短信可以如表5所示：

表5第一特征码示意表

编号	第一特征码	示例短信
			1	[曾增]+禾+兑+#######	发票
6	发[票漂飘瞟]+电话########	发票
			8	身份证##############+贷款	贷款
10	监+听+卡+联+###########	非法
			11	代+开+票	！\|代\|开\|真\|票\|％
27	增+[值徝]+开	！有各城市普^通&增^值可开电：159-999-13518陈

本实施例提供的短信识别方法，通过对历史短信集中的所有短信的字频进行统计，得到高频字集，然后通过高频字集提取出第一特征码，并使用第一特征码对短信集合中的垃圾短信进行识别。在使用第一特征码识别短信集合中的短信之后，为了提高对垃圾短信识别的准确率，还可以根据第二特征码对第一特征码识别过的短信进行再次识别，从而可以避免将快递等正常短信误识别为垃圾短信。同时，由于第一特征码中包含的所有字都为历史短信集中的高频字，这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字，因此，可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰，因此，本申请提供的技术方案可以有效地提高识别垃圾短信的准确率。

图3为本申请实施例提供的短信识别方法实施例二的流程图，如图3所示，该短信识别方法包括以下步骤：

S301：根据历史短信集建立字频统计表；

S302：根据字频统计表建立高频字集；

S303：根据高频字集及提取第一特征码；

S304：人工录入特征码库；

S305：人工录入第二特征码；

S306：根据第一特征码、特征码库和第二特征码识别疑似垃圾短信；

在该步骤中，特征码库中的特征码可以为根据用户的投诉短信生成的人工录入的特征码，第二特征码可以为人工录入的预先设置的用于识别正常短信的特征码。

S307：判断疑似垃圾短信是否符合垃圾短信特征；

在该步骤中，若疑似垃圾短信符合垃圾短信特征，则疑似垃圾短信即为垃圾短信，跳转至步骤S308，若疑似垃圾短信不符合垃圾短信特征，则疑似垃圾短信为正常短信，跳转至步骤S309。

S308：对垃圾短信进一步处理。

在该步骤中，当疑似垃圾短信符合垃圾短信特征时，该疑似垃圾短信即为垃圾短信，此时，可以对该垃圾短信进行拦截处理，并进行预警。

S309：对正常短信进行抛弃。

在该步骤中，当疑似垃圾短信不符合垃圾短信特征时，该疑似垃圾短信即为正常短信，此时，可以对该正常短信抛弃忽略，从而该正常短信就可以正常发送至用户。

图4为本申请实施例提供的短信识别方法实施例三的流程图，如图4所示，该短信识别方法包括以下步骤：

S401：从短信中心获取历史短信集；

在该步骤中，历史短信集可以为用户的点对点通信信息，也即可以对某一个用户的发送信息或者接收信息进行获取，得到历史短信集。

S402：建立识别模型；

在该步骤中，在获取到历史短信集之后，可以根据历史短信集建立字频统计表，然后根据字频统计表建立高频字集，从而根据高频字集提取出第一特征码，然后获取预先设置的第二特征码。

S403：对待识别的短信集合中的短信进行分组，并确定每组短信的可疑度等级。

在该步骤中，可以根据对S401中的用户的主叫和被叫的离散度确定每组短信的可疑度等级，也即，该用户发送的短信和该用户接收的短信的离散度，离散度越大，则该组短信的可疑度等级越低，离散度越小，则该组短信的可疑度等级越高。

S404：根据可疑度等级、第一特征码和第二特征码对短信集合中的垃圾短信进行识别。

本申请实施例提供的短信识别方法，通过对历史短信集中的所有短信的字频进行统计，得到高频字集，然后通过高频字集提取出第一特征码，并使用第一特征码对短信集合中的垃圾短信进行识别。在使用第一特征码识别短信集合中的短信之后，为了提高对垃圾短信识别的准确率，还可以根据第二特征码对第一特征码识别过的短信进行再次识别，从而可以避免将快递等正常短信误识别为垃圾短信。同时，由于第一特征码中包含的所有字都为历史短信集中的高频字，这些高频字中可以包括通假字、发音相近的字或者形体相似的生僻字，因此，可以有效地避免通假字、发音相近的字或者形体相似的生僻字等对垃圾短信识别的干扰，因此，本申请提供的技术方案可以有效地提高识别垃圾短信的准确率

从总体上来说，本申请提供的技术方案，通过对短信设置可疑度等级，然后按照可疑度等级从高到低的顺序，先使用第一特征码识别，再使用第二特征码二次识别，是一种既可以提高对短信识别的效率，也可以提高对短信进行识别的准确率的技术实现方法。

图5为本申请实施例提供的短信识别装置的结构示意图，如图5所示，该短信识别装置50包括：

获取模块51，用于获取第一特征码，其中，第一特征码包含M个子特征，M个子特征中每个子特征包含一个或多个字，每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且M个子特征包含的所有字包含于同一个历史短信中，M个子特征中包含多个字的子特征中的多个字在历史短信中的位置是连续的；

识别模块52，用于根据第一特征码识别短信集合中的垃圾短信，其中，垃圾短信包含M个子特征。

可选的，识别模块52还用于将短信集合中与第一特征码匹配的短信识别为可疑短信，得到可疑短信集，其中，可疑短信包含M个子特征；将可疑短信集中与第二特征码不匹配的短信确定为垃圾短信，其中，第二特征码包含N个子特征，N个子特征中每个子特征包含一个或多个字，N个子特征中的每个子特征中的每个字为汉字白名单中的字。

可选的，识别模块52还用于将短信集合划分为多个短信子集，其中，多个短信子集与多个可疑度等级一一对应；按照多个短信子集的可疑度等级从高到低的顺序，根据第一特征码依次识别多个短信子集中的垃圾短信。

可选的，识别模块52还用于按照短信集合中的短信的内容相似度，将短信集合划分为多个短信子集，其中，多个短信子集中每个短信子集包含短信集合中内容相似的一个或多个短信，短信子集中的短信的内容相似度越高，短信子集的可疑度等级越高，和/或，短信子集中的短信数量越多，短信子集的可疑度等级越高。

可选的，获取模块51还用于获取历史短信集中所有短信的所有字的出现频次；根据所有字中每个字的出现频次确定高频字集，其中，高频字集中包括M个出现频次大于或者等于预设频次阈值的字；根据高频字集提取出第一特征码。

可选的，获取模块51还用于根据高频字集中的所有字匹配历史短信集中的短信；若高频字集中的多个字在历史短信集中的短信中的位置连续，则将多个字确定为M个子特征中的第一子特征；若高频字集中的多个字在历史短信集中的短信中的位置不连续，将多个字中的每个字确定为M个子特征中的第二子特征；将多个第一子特征和多个第二子特征按照历史短信集中的短信中的位置进行组合，得到第一特征码。

可选的，获取模块51还用于根据每个字的出现频次对所有字进行降序排序；将进行降序排序后的所有字中的前S个字确定为高频字集，其中，S为大于0的自然数，前S个字的出现频次均大于或者等于预设频次阈值；或者，根据每个字的出现频次对所有字进行升序排序；将进行升序排序后的所有字中的后S个字确定为高频字集，其中，S为大于0的自然数，后S个字的出现频次均大于或者等于预设频次阈值。

本实施例提供的短信识别装置，用于执行前述方法实施例中的短信识别方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

图6为本申请实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备600包括：

处理器611，存储器612，以及交互接口613；

存储器612用于存储处理器611可执行的可执行指令；

其中，处理器611配置为经由执行可执行指令来执行前述方法实施例提供的短信识别方法的技术方案。

在上述电子设备中，存储器612和处理器611之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器612中存储有实现重构系统的验证方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器611通过运行存储在存储器612内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该电子设备用于执行前述方法实施例提供的技术方案，其实现原理和技术效果与前述方法实施例中类似，在此不再赘述。

本申请实施例还提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现前述方法实施例提供的短信识别方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时用于实现前述方法实施例提供的短信识别方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种短信识别方法，其特征在于，包括：

获取第一特征码，其中，所述第一特征码包含M个子特征，所述M个子特征中每个子特征包含一个或多个字，所述每个子特征中的每个字在历史短信集中出现的频次大于预设频次阈值，且所述M个子特征包含的所有字包含于同一个历史短信中，所述M个子特征中包含多个字的子特征中的多个字在所述历史短信中的位置是连续的；

根据所述第一特征码识别短信集合中的垃圾短信，其中，所述垃圾短信包含所述M个子特征；

其中，所述根据所述第一特征码识别短信集合中的垃圾短信，包括：

将所述短信集合中与所述第一特征码匹配的短信识别为可疑短信，得到可疑短信集，其中，所述可疑短信包含所述M个子特征；

将所述可疑短信集中与第二特征码不匹配的短信确定为垃圾短信，其中，所述第二特征码包含N个子特征，所述N个子特征中每个子特征包含一个或多个字，所述N个子特征中的每个子特征中的每个字为汉字白名单中的字；

其中，所述获取第一特征码，包括：

获取所述历史短信集中所有短信的所有字的出现频次；

根据所述所有字中每个字的出现频次确定高频字集，其中，所述高频字集中包括M个出现频次大于或者等于所述预设频次阈值的字；

根据所述高频字集提取出所述第一特征码；

其中，所述根据所述高频字集提取出所述第一特征码，包括：

根据所述高频字集中的所有字匹配所述历史短信集中的短信；

若所述高频字集中的多个字在所述历史短信集中的短信中的位置连续，则将所述多个字确定为所述M个子特征中的第一子特征；

若所述高频字集中的多个字在所述历史短信集中的短信中的位置不连续，将所述多个字中的每个字确定为所述M个子特征中的第二子特征；

将多个所述第一子特征和多个所述第二子特征按照所述历史短信集中的短信中的位置进行组合，得到所述第一特征码。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征码识别短信集合中的垃圾短信，包括：

将所述短信集合划分为多个短信子集，其中，所述多个短信子集与多个可疑度等级一一对应；

按照所述多个短信子集的可疑度等级从高到低的顺序，根据所述第一特征码依次识别所述多个短信子集中的垃圾短信。

3.根据权利要求2所述的方法，其特征在于，所述将所述短信集合划分为多个短信子集，包括：

按照所述短信集合中的短信的内容相似度，将所述短信集合划分为多个短信子集，其中，所述多个短信子集中每个短信子集包含所述短信集合中内容相似的一个或多个短信，所述短信子集中的短信的内容相似度越高，所述短信子集的可疑度等级越高，和/或，所述短信子集中的短信数量越多，所述短信子集的可疑度等级越高。

4.根据权利要求1所述的方法，其特征在于，所述根据所述所有字中每个字的出现频次确定高频字集，包括：

根据所述每个字的出现频次对所述所有字进行降序排序；

将进行降序排序后的所述所有字中的前S个字确定为所述高频字集，其中，S为大于0的自然数，所述前S个字的出现频次均大于或者等于所述预设频次阈值；或者，

根据所述每个字的出现频次对所述所有字进行升序排序；

将进行升序排序后的所述所有字中的后S个字确定为高频字集，其中，S为大于0的自然数，所述后S个字的出现频次均大于或者等于所述预设频次阈值。

5.一种短信识别装置，其特征在于，包括：用于执行权利要求1至4任一项所述的短信识别方法的模块。

6.一种电子设备，其特征在于，包括：

处理器，存储器，交互接口；

所述存储器用于存储所述处理器可执行的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至4任一项所述的短信识别方法。

7.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的短信识别方法。