CN107748739A

CN107748739A - 一种短信文本模版的提取方法及相关装置

Info

Publication number: CN107748739A
Application number: CN201710980332.4A
Authority: CN
Inventors: 高金容; 杨俊欧; 李伟; 周小林; 黄云; 雷笑海; 周诺舟; 王路刚; 黄伟; 陆勇思
Original assignee: SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Current assignee: SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2018-03-02

Abstract

本申请公开了一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器，该方法包括：获取短信数据，对短信数据进行聚类，得到多个短信的分类集合；在聚类过程中记录并处理每条短信的公共文本部分，得到每个分类集合对应的公共文本；将分类集合中的每条短信与公共文本进行对比，得到每条短信的非公共文本部分；将所有非公共文本部分进行处理，得到模版变量的取值规则，将公共文本和模版变量的取值规则作为模版。通过提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的效率。

Description

一种短信文本模版的提取方法及相关装置

技术领域

本申请涉及信息处理领域，特别涉及一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器。

背景技术

在短信的业务中，随着客户的需求应用量越来越大。同时为了保证发送短信的内容的合法性，需要对短信的内容进行审核。一般情况下是需要人工对短信内容进行审核，但是面对巨量的短信，人工审核会导致错审、漏审等的问题。并且由于发送的短信中，有大量的相似短信，重复内容的短信，还需要人工审核去筛查，浪费了大量的人工成本。

因此，如何解决短信的审核速度的问题，是本领技术人员所关注的重点问题。

发明内容

本申请的目的是提供一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器，通过对短信内容的聚类整合提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的利用率。

为解决上述技术问题，本申请提供一种短信文本模版的提取方法，包括：

获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合；

在所述聚类过程中记录并处理每条短信的公共文本部分，得到每个所述分类集合对应的公共文本；

将所述分类集合中的每条所述短信与所述公共文本进行对比，得到每条所述短信的非公共文本部分；

将所有所述非公共文本部分进行处理，得到模版变量的取值规则，将所述公共文本和所述模版变量的所述取值规则作为模版。

可选的，所述获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合，包括：

将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比，得到多个匹配率；

判断所有所述匹配率是否低于预设匹配率；

若是，则将所述短信作为新的所述分类集合，并更新到所述内存中；

若否，则将所述短信加入到所述匹配率最高的所述分类集合中。

可选的，所述获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合，还包括：

当所有所述分类集合的数量大于预设数量时，将已有的所有所述分类集合进行分组，得到多个集合组；

将每个所述集合组分配一个线程，所有所述线程进行聚类处理。

可选的，所述将所有所述非公共文本部分进行处理，得到模版变量的取值规则，将所述公共文本和所述模版变量的所述取值规则作为模版，包括：

获取所有所述非公共文本部分的取值长度；

选择所述取值长度中的最短长度和最长长度，作为所述模版变量的取值长度范围；

将所述公共文本和所述模版变量的所述取值长度范围作为模版。

本申请还提供一种短信文本模版的提取装置，其特征在于，包括：

聚类处理模块，用于获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合；

公共文本获取模块，用于在所述聚类过程中记录并处理每条短信的公共文本部分，得到每个所述分类集合对应的公共文本；

非公共文本获取模块，用于将所述分类集合中的每条所述短信与所述公共文本进行对比，得到每条所述短信的非公共文本部分；

模版获取模块，用于将所有所述非公共文本部分进行处理，得到模版变量的取值规则，将所述公共文本和所述模版变量的所述取值规则作为模版。

可选的，所述聚类处理模块，包括：

对比处理单元，用于将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比，得到多个匹配率；

判断单元，用于判断所有所述匹配率是否低于预设匹配率；

新分类集合获取单元，用于将所述短信作为新的所述分类集合，并更新到所述内存中；

分类处理单元，用于将所述短信加入到所述匹配率最高的所述分类集合中。

可选的，所述聚类处理模块，还包括：

分组处理单元，用于当所有所述分类集合的数量大于预设数量时，将已有的所有所述分类集合进行分组，得到多个集合组；

线程分配单元，用于将每个所述集合组分配一个线程，所有所述线程进行聚类处理。

可选的，所述模版获取模块，包括：

取值长度获取单元，用于获取所有所述非公共文本部分的取值长度；

取值范围获取单元，用于选择所述取值长度中的最短长度和最长长度，作为所述模版变量的取值长度范围；

模版获取单元，用于将所述公共文本和所述模版变量的所述取值长度范围作为模版。

还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时，实现如下步骤：

本申请所提供的一种短信文本模版的提取方法，包括：获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合；在所述聚类过程中记录并处理每条短信的公共文本部分，得到每个所述分类集合对应的公共文本；将所述分类集合中的每条所述短信与所述公共文本进行对比，得到每条所述短信的非公共文本部分；将所有所述非公共文本部分进行处理，得到模版变量的取值规则，将所述公共文本和所述模版变量的所述取值规则作为模版。

通过对短信内容的聚类整合提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的利用率。

本申请还提供一种短信文本模版的提取装置、计算机可读存储介质及服务器，具有上述有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种短信文本模板的提取方法的流程图；

图2为本申请实施例所提供的一种短信文本模板的提取方法的聚类过程的流程图；

图3为本申请实施例所提供的一种短信文本模板的提取方法的聚类加速的流程图；

图4为本申请实施例所提供的一种短信文本模板的提取方法的获取模板的流程图；

图5为本申请实施例所提供的一种短信文本模版的提取装置的结构示意图。

具体实施方式

本申请的核心是提供一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器，通过对短信内容的聚类整合提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的利用率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种短信文本模板的提取方法的流程图。

本实施例提供了一种短信文本模板的提取方法，可以包括：

S101，获取短信数据，对短信数据进行聚类，得到多个短信的分类集合；

本步骤主要是将获取的短信数据进行分类得到多个分类集合。本技术方案主要是针对短信内容进行鉴别，因此需要通过短信的内容对短信数据进行聚类，得到多的分类集合。

其中，可以采用一般的聚类算法对短信进行聚类，也可以根据客户的需求自行设定短信的聚类方法，因此视具体的应用环境的需要选择合适的聚类方式，只要对短信数据进行聚类，得到多个适于解决模板提取问题的分类集合就可以，具体在此不做赘述。

S102，在聚类过程中记录并处理每条短信的公共文本部分，得到每个分类集合对应的公共文本；

在步骤S101的基础上，本步骤旨在上述的聚类方法中，记录并处理每条短信的公共文本部分，得到每个分类集合对应的公共文本。

在上述的聚类过程中，将每条短信与分类集合中的短信或者分类集合对应的公共文本进行对比是不可缺少的一个步骤。通过短信与同一分类集合中的短信进行对比就可以得到每条短信的公共文本部分。

将同一分类集合中的公共文本部分进行处理，就可以得到这个分类集合的公共文本。在上一步骤的聚类的基础上，短信按照相似性分类到各个分类集合，对于每个分类集合提取其对应的公共文本就可以得到这个分类集合独有的内容标识，就是说将每个分类集合的相似性显现出来，成为显性的公共文本。也就是每个公共文本代表了这独一类的短信内容。

需要说明的是，提取出每个分类集合的公共文本部分相当于是完成的模板提取的部分内容，即一个分类集合的模板中的不会变化的内容。

S103，将分类集合中的每条短信与公共文本进行对比，得到每条短信的非公共文本部分；

在步骤S102的基础上，本步骤旨在将每条短信与公共文本进行对比得到非公共文本部分。对于每个分类集合的短信来说，将其内容与每个分类集合的公共文本进行对比比较就可以得到每个短信的非公共文本的部分。

其中，获取非公共文本部分就相当于得到每条短信对于公共文本的变量部分，在后续步骤中，对于该变量部分进行统计处理就可以知道该变量部分的内容的规则、形式及范围。

S104，将所有非公共文本部分进行处理，得到模版变量的取值规则，将公共文本和模版变量的取值规则作为模版。

在步骤S103的基础上，本步骤旨在将得到的一个分类集合下的所有非公共文本部分进行解析处理得到这个分类集合的模板变量的取值规则，并将公共文本和取值规则合并处理得到分类集合的模板。

其中，基于一个分类集合的所有非公共文本部分可以在统计归纳出其具体的取值规则，即在这个分类集合中的模板变量的取值永远包含在这个规则范围内。

具体的，取值规则可以是变量的取值长度范围，因此对于非公共文本部分就要判断其长度的最大值和最小值，具体步骤在下述实施例进行说明，在此不做赘述。还可以对于其他的取值规则进行归纳，可以是取值的数值类型，还可以是取值的参数格式，应视具体的解决问题的环境选择不同的规则选取角度，也可以多个角度同时归纳，得到更全面的变量规则描述，在此不做赘述。

综上，本实施例提供的一种短信文本模板的提取方法，可以通过对短信内容的聚类整合提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的利用率。

请参考图2，图2为本申请实施例所提供的一种短信文本模板的提取方法的聚类过程的流程图。

结合上一实施例，本实施例主要是针对上一实施例中如何进行聚类操作做一个解释，其他部分大体与上一实施相同，相同部分可以参考上一实施例，在此不再做赘述。

本实施例可以包括：

S201，将短信的内容与内存中的分类集合的公共文本进行对比，得到多个匹配率；

本步骤旨在，将短信的内容与该分类集合的公共文本进行比较，得到匹配率。匹配率可以理解为相似度，即短信的内容与公共文本的相似程度。为了判断该短信应该归类为某一分类集合中，应该对于每个分类集合都做相似性的比较，得到多个匹配率。

其中，公共文本可以在聚类的过程中逐渐生成，并且根据分类集合中的短信变化而发生变化。

其中，集合表内存在了目前所有的分类集合，当某一个短信需要判断时，就将短信与集合表中的分类集合进行判断。

S202，判断所有匹配率是否低于预设匹配率；

在步骤S201的基础上，本步骤旨在判断求出的匹配率是否低于预设值。

其中，预设匹配率相当于是是否可以归类的一个临界值的判断。如果匹配率低于该临界值，则说明该短信的内容与分类集合对应的公共文本的内容相差较大，不适合作为同一个分类集合。

具体的，预设匹配率可以根据具体应用的环境和解决问题的具体内容在做设定，在此不做赘述。

S203，若是，则将短信作为新的分类集合，并更新到内存中；

在步骤S202的基础上，本步骤旨在，将低于预设匹配率的短信作为一个新的分类集合。也就是说，该短信与目前所有的分类集合的匹配率都低于临界值，即都不适合归于某一个分类集合中，因此将该短信的内容应该作为新的一个分类集合，并更新到内存中。

其中，内存是指一般的内存，由于程序在运行中需要把临时数据存放在内存中，加快数据的读取速度。因此，本步骤会将所有聚类得到分类集合存放在内存中。

S204，若否，则将短信加入到匹配率最高的分类集合中。

在步骤S202的基础上，本步骤旨在，将短信加入到匹配率最高的分类集合中。

其中，匹配率最高说明在所有分类集合中，与该短信的内容是最相似的。因此，将短信加入到该集合中是最合适的分类方法。

请参考图3，图3为本申请实施例所提供的一种短信文本模板的提取方法的聚类加速的流程图。

结合上一实施例，本实施例主要是针对上一实施例中如何进行聚类加速做一个扩充，其他部分大体与上一实施相同，相同部分可以参考上一实施例，在此不再做赘述。

本实施例可以包括：

S301，当所有分类集合的数量大于预设数量时，将已有的所有分类集合进行分组，得到多个集合组；

S302，将每个集合组分配一个线程，所有线程进行聚类处理。

其中，对于分类集合的分组可以是随机进行分配，也可以根据每个分类集合的体量平均进行分配，应视具体的应用环境选择合适的分组方式，在此不做赘述。

在聚类的过程中，通常使用串行方式将短信内容进行匹配，查找匹配率最高的类，但是会存在耗时较高的问题。因此，本实施例将每个分组分配一个线程，可以对短信的分类过程并行进行，同时匹配多个分类集合，提高了聚类的效率，解决了聚类的耗时问题。

请参考图4，图4为本申请实施例所提供的一种短信文本模板的提取方法的获取模板的流程图。

结合上一实施例，本实施例主要是针对上一实施例中如何进行模板获取做一个解释，其他部分大体与上一实施相同，相同部分可以参考上一实施例，在此不再做赘述。

本实施例可以包括：

S401，获取所有非公共文本部分的取值长度；

本步骤旨在获取所有的非公共文本部分的长度。在本实施例中主要是获取变量的长度规则，因此需要获取非公共文本部分的长度，用来获取变量的长度范围。

S402，选择取值长度中的最短长度和最长长度，作为模版变量的取值长度范围；

在步骤S401的基础上，本步骤旨在，获取非公共文本的最短长度和最长长度，用以获取变量长度的范围。对于非公共文本的取值长度范围，获取其最短的长度和最长长度就可以得到其取值的范围。

S403，将公共文本和模版变量的取值长度范围作为模版。

在步骤S402的基础上，本步骤旨在，将获取的长度范围和公共文本组合得到模板。

具体的，本实施例的操作可以例如，在一个分类集合中，公共文本为：“您的验证码是，谢谢惠顾”，聚类集合中包含3条短信：第一条“您的验证码是1234，谢谢惠顾”；第二条“您的验证码是567，谢谢惠顾”；第三条“您的验证码是123456，谢谢惠顾”。首先对第一条短信进行处理，用公共文本进行对比截取，截取后或得非公共文本1234，记录其长度为4，同样的方式获得第二、三条短信的非公共文本长度为3和6。取最短长度，和最长长度作为变量取值规则的长度范围，并与公共文本进行组合，得到该聚类提取出的模板：“您的验证码是{3,6}，谢谢惠顾”。

本申请实施例提供了一种短信文本模版的提取方法，可以通过对短信内容的聚类整合提取出含有变量规则的短信文本模版，可以使终端将短信与模版进行对比进行审核，当短信命中某一个模版后，就不需要继续进行人工审核，直接下发短信，极大的节约了审核的时间以及提高了人工审核的利用率。

下面对本申请实施例提供的一种短信文本模版的提取装置进行介绍，下文描述的一种短信文本模版的提取装置与上文描述的一种短信文本模版的提取方法可相互对应参照。

请参考图5，图5为本申请实施例所提供的一种短信文本模版的提取装置的结构示意图。

本实施例可以包括：

聚类处理模块100，用于获取短信数据，对短信数据进行聚类，得到多个短信的分类集合；

公共文本获取模块200，用于在聚类过程中记录并处理每条短信的公共文本部分，得到每个分类集合对应的公共文本；

非公共文本获取模块300，用于将分类集合中的每条短信与公共文本进行对比，得到每条短信的非公共文本部分；

模版获取模块400，用于将所有非公共文本部分进行处理，得到模版变量的取值规则，将公共文本和模版变量的取值规则作为模版。

可选的，聚类处理模块100包括：

对比处理单元，用于将短信的内容与内存中的分类集合的公共文本进行对比，得到多个匹配率；

判断单元，用于判断所有匹配率是否低于预设匹配率；

新分类集合获取单元，用于将短信作为新的分类集合，并更新到内存中；

分类处理单元，用于将短信加入到匹配率最高的分类集合中。

可选的，聚类处理模块100还可以包括：

分组处理单元，用于当所有分类集合的数量大于预设数量时，将已有的所有分类集合进行分组，得到多个集合组；

线程分配单元，用于将每个集合组分配一个线程，所有线程进行聚类处理。

可选的，模版获取模块400可以包括：

取值长度获取单元，用于获取所有非公共文本部分的取值长度；

取值范围获取单元，用于选择取值长度中的最短长度和最长长度，作为模版变量的取值长度范围；

模版获取单元，用于将公共文本和模版变量的取值长度范围作为模版。

本申请实施例还提一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现如下步骤：

获取短信数据，对短信数据进行聚类，得到多个短信的分类集合；

在聚类过程中记录并处理每条短信的公共文本部分，得到每个分类集合对应的公共文本；

将分类集合中的每条短信与公共文本进行对比，得到每条短信的非公共文本部分；

将所有非公共文本部分进行处理，得到模版变量的取值规则，将公共文本和模版变量的取值规则作为模版。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时，实现如下步骤：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明所提供的一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种短信文本模版的提取方法，其特征在于，包括：

2.根据权利要求1所述的提取方法，其特征在于，所述获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合，包括：

判断所有所述匹配率是否低于预设匹配率；

3.根据权利要求2所述的提取方法，其特征在于，所述获取短信数据，对所述短信数据进行聚类，得到多个短信的分类集合，还包括：

4.根据权利要求3所述的提取方法，其特征在于，所述将所有所述非公共文本部分进行处理，得到模版变量的取值规则，将所述公共文本和所述模版变量的所述取值规则作为模版，包括：

获取所有所述非公共文本部分的取值长度；

5.一种短信文本模版的提取装置，其特征在于，包括：

6.根据权利要求5所述的提取装置，其特征在于，所述聚类处理模块，包括：

判断单元，用于判断所有所述匹配率是否低于预设匹配率；

7.根据权利要求6所述的提取装置，其特征在于，所述聚类处理模块，还包括：

8.根据权利要求7所述的提取装置，其特征在于，所述模版获取模块，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述短信文本模版的提取方法的步骤。

10.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一想所述短信文本模版的提取方法的步骤。