CN107748739A - 一种短信文本模版的提取方法及相关装置 - Google Patents
一种短信文本模版的提取方法及相关装置 Download PDFInfo
- Publication number
- CN107748739A CN107748739A CN201710980332.4A CN201710980332A CN107748739A CN 107748739 A CN107748739 A CN 107748739A CN 201710980332 A CN201710980332 A CN 201710980332A CN 107748739 A CN107748739 A CN 107748739A
- Authority
- CN
- China
- Prior art keywords
- short message
- masterplate
- text
- classification set
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 abstract description 21
- 238000003860 storage Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器,该方法包括:获取短信数据,对短信数据进行聚类,得到多个短信的分类集合;在聚类过程中记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本;将分类集合中的每条短信与公共文本进行对比,得到每条短信的非公共文本部分;将所有非公共文本部分进行处理,得到模版变量的取值规则,将公共文本和模版变量的取值规则作为模版。通过提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的效率。
Description
技术领域
本申请涉及信息处理领域,特别涉及一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器。
背景技术
在短信的业务中,随着客户的需求应用量越来越大。同时为了保证发送短信的内容的合法性,需要对短信的内容进行审核。一般情况下是需要人工对短信内容进行审核,但是面对巨量的短信,人工审核会导致错审、漏审等的问题。并且由于发送的短信中,有大量的相似短信,重复内容的短信,还需要人工审核去筛查,浪费了大量的人工成本。
因此,如何解决短信的审核速度的问题,是本领技术人员所关注的重点问题。
发明内容
本申请的目的是提供一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器,通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
为解决上述技术问题,本申请提供一种短信文本模版的提取方法,包括:
获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
可选的,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,包括:
将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断所有所述匹配率是否低于预设匹配率;
若是,则将所述短信作为新的所述分类集合,并更新到所述内存中;
若否,则将所述短信加入到所述匹配率最高的所述分类集合中。
可选的,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,还包括:
当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
可选的,所述将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版,包括:
获取所有所述非公共文本部分的取值长度;
选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
将所述公共文本和所述模版变量的所述取值长度范围作为模版。
本申请还提供一种短信文本模版的提取装置,其特征在于,包括:
聚类处理模块,用于获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
公共文本获取模块,用于在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
非公共文本获取模块,用于将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
模版获取模块,用于将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
可选的,所述聚类处理模块,包括:
对比处理单元,用于将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断单元,用于判断所有所述匹配率是否低于预设匹配率;
新分类集合获取单元,用于将所述短信作为新的所述分类集合,并更新到所述内存中;
分类处理单元,用于将所述短信加入到所述匹配率最高的所述分类集合中。
可选的,所述聚类处理模块,还包括:
分组处理单元,用于当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
线程分配单元,用于将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
可选的,所述模版获取模块,包括:
取值长度获取单元,用于获取所有所述非公共文本部分的取值长度;
取值范围获取单元,用于选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
模版获取单元,用于将所述公共文本和所述模版变量的所述取值长度范围作为模版。
还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时,实现如下步骤:
获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
本申请所提供的一种短信文本模版的提取方法,包括:获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
本申请还提供一种短信文本模版的提取装置、计算机可读存储介质及服务器,具有上述有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种短信文本模板的提取方法的流程图;
图2为本申请实施例所提供的一种短信文本模板的提取方法的聚类过程的流程图;
图3为本申请实施例所提供的一种短信文本模板的提取方法的聚类加速的流程图;
图4为本申请实施例所提供的一种短信文本模板的提取方法的获取模板的流程图;
图5为本申请实施例所提供的一种短信文本模版的提取装置的结构示意图。
具体实施方式
本申请的核心是提供一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器,通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种短信文本模板的提取方法的流程图。
本实施例提供了一种短信文本模板的提取方法,可以包括:
S101,获取短信数据,对短信数据进行聚类,得到多个短信的分类集合;
本步骤主要是将获取的短信数据进行分类得到多个分类集合。本技术方案主要是针对短信内容进行鉴别,因此需要通过短信的内容对短信数据进行聚类,得到多的分类集合。
其中,可以采用一般的聚类算法对短信进行聚类,也可以根据客户的需求自行设定短信的聚类方法,因此视具体的应用环境的需要选择合适的聚类方式,只要对短信数据进行聚类,得到多个适于解决模板提取问题的分类集合就可以,具体在此不做赘述。
S102,在聚类过程中记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本;
在步骤S101的基础上,本步骤旨在上述的聚类方法中,记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本。
在上述的聚类过程中,将每条短信与分类集合中的短信或者分类集合对应的公共文本进行对比是不可缺少的一个步骤。通过短信与同一分类集合中的短信进行对比就可以得到每条短信的公共文本部分。
将同一分类集合中的公共文本部分进行处理,就可以得到这个分类集合的公共文本。在上一步骤的聚类的基础上,短信按照相似性分类到各个分类集合,对于每个分类集合提取其对应的公共文本就可以得到这个分类集合独有的内容标识,就是说将每个分类集合的相似性显现出来,成为显性的公共文本。也就是每个公共文本代表了这独一类的短信内容。
需要说明的是,提取出每个分类集合的公共文本部分相当于是完成的模板提取的部分内容,即一个分类集合的模板中的不会变化的内容。
S103,将分类集合中的每条短信与公共文本进行对比,得到每条短信的非公共文本部分;
在步骤S102的基础上,本步骤旨在将每条短信与公共文本进行对比得到非公共文本部分。对于每个分类集合的短信来说,将其内容与每个分类集合的公共文本进行对比比较就可以得到每个短信的非公共文本的部分。
其中,获取非公共文本部分就相当于得到每条短信对于公共文本的变量部分,在后续步骤中,对于该变量部分进行统计处理就可以知道该变量部分的内容的规则、形式及范围。
S104,将所有非公共文本部分进行处理,得到模版变量的取值规则,将公共文本和模版变量的取值规则作为模版。
在步骤S103的基础上,本步骤旨在将得到的一个分类集合下的所有非公共文本部分进行解析处理得到这个分类集合的模板变量的取值规则,并将公共文本和取值规则合并处理得到分类集合的模板。
其中,基于一个分类集合的所有非公共文本部分可以在统计归纳出其具体的取值规则,即在这个分类集合中的模板变量的取值永远包含在这个规则范围内。
具体的,取值规则可以是变量的取值长度范围,因此对于非公共文本部分就要判断其长度的最大值和最小值,具体步骤在下述实施例进行说明,在此不做赘述。还可以对于其他的取值规则进行归纳,可以是取值的数值类型,还可以是取值的参数格式,应视具体的解决问题的环境选择不同的规则选取角度,也可以多个角度同时归纳,得到更全面的变量规则描述,在此不做赘述。
综上,本实施例提供的一种短信文本模板的提取方法,可以通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
请参考图2,图2为本申请实施例所提供的一种短信文本模板的提取方法的聚类过程的流程图。
结合上一实施例,本实施例主要是针对上一实施例中如何进行聚类操作做一个解释,其他部分大体与上一实施相同,相同部分可以参考上一实施例,在此不再做赘述。
本实施例可以包括:
S201,将短信的内容与内存中的分类集合的公共文本进行对比,得到多个匹配率;
本步骤旨在,将短信的内容与该分类集合的公共文本进行比较,得到匹配率。匹配率可以理解为相似度,即短信的内容与公共文本的相似程度。为了判断该短信应该归类为某一分类集合中,应该对于每个分类集合都做相似性的比较,得到多个匹配率。
其中,公共文本可以在聚类的过程中逐渐生成,并且根据分类集合中的短信变化而发生变化。
其中,集合表内存在了目前所有的分类集合,当某一个短信需要判断时,就将短信与集合表中的分类集合进行判断。
S202,判断所有匹配率是否低于预设匹配率;
在步骤S201的基础上,本步骤旨在判断求出的匹配率是否低于预设值。
其中,预设匹配率相当于是是否可以归类的一个临界值的判断。如果匹配率低于该临界值,则说明该短信的内容与分类集合对应的公共文本的内容相差较大,不适合作为同一个分类集合。
具体的,预设匹配率可以根据具体应用的环境和解决问题的具体内容在做设定,在此不做赘述。
S203,若是,则将短信作为新的分类集合,并更新到内存中;
在步骤S202的基础上,本步骤旨在,将低于预设匹配率的短信作为一个新的分类集合。也就是说,该短信与目前所有的分类集合的匹配率都低于临界值,即都不适合归于某一个分类集合中,因此将该短信的内容应该作为新的一个分类集合,并更新到内存中。
其中,内存是指一般的内存,由于程序在运行中需要把临时数据存放在内存中,加快数据的读取速度。因此,本步骤会将所有聚类得到分类集合存放在内存中。
S204,若否,则将短信加入到匹配率最高的分类集合中。
在步骤S202的基础上,本步骤旨在,将短信加入到匹配率最高的分类集合中。
其中,匹配率最高说明在所有分类集合中,与该短信的内容是最相似的。因此,将短信加入到该集合中是最合适的分类方法。
请参考图3,图3为本申请实施例所提供的一种短信文本模板的提取方法的聚类加速的流程图。
结合上一实施例,本实施例主要是针对上一实施例中如何进行聚类加速做一个扩充,其他部分大体与上一实施相同,相同部分可以参考上一实施例,在此不再做赘述。
本实施例可以包括:
S301,当所有分类集合的数量大于预设数量时,将已有的所有分类集合进行分组,得到多个集合组;
S302,将每个集合组分配一个线程,所有线程进行聚类处理。
其中,对于分类集合的分组可以是随机进行分配,也可以根据每个分类集合的体量平均进行分配,应视具体的应用环境选择合适的分组方式,在此不做赘述。
在聚类的过程中,通常使用串行方式将短信内容进行匹配,查找匹配率最高的类,但是会存在耗时较高的问题。因此,本实施例将每个分组分配一个线程,可以对短信的分类过程并行进行,同时匹配多个分类集合,提高了聚类的效率,解决了聚类的耗时问题。
请参考图4,图4为本申请实施例所提供的一种短信文本模板的提取方法的获取模板的流程图。
结合上一实施例,本实施例主要是针对上一实施例中如何进行模板获取做一个解释,其他部分大体与上一实施相同,相同部分可以参考上一实施例,在此不再做赘述。
本实施例可以包括:
S401,获取所有非公共文本部分的取值长度;
本步骤旨在获取所有的非公共文本部分的长度。在本实施例中主要是获取变量的长度规则,因此需要获取非公共文本部分的长度,用来获取变量的长度范围。
S402,选择取值长度中的最短长度和最长长度,作为模版变量的取值长度范围;
在步骤S401的基础上,本步骤旨在,获取非公共文本的最短长度和最长长度,用以获取变量长度的范围。对于非公共文本的取值长度范围,获取其最短的长度和最长长度就可以得到其取值的范围。
S403,将公共文本和模版变量的取值长度范围作为模版。
在步骤S402的基础上,本步骤旨在,将获取的长度范围和公共文本组合得到模板。
具体的,本实施例的操作可以例如,在一个分类集合中,公共文本为:“您的验证码是,谢谢惠顾”,聚类集合中包含3条短信:第一条“您的验证码是1234,谢谢惠顾”;第二条“您的验证码是567,谢谢惠顾”;第三条“您的验证码是123456,谢谢惠顾”。首先对第一条短信进行处理,用公共文本进行对比截取,截取后或得非公共文本1234,记录其长度为4,同样的方式获得第二、三条短信的非公共文本长度为3和6。取最短长度,和最长长度作为变量取值规则的长度范围,并与公共文本进行组合,得到该聚类提取出的模板:“您的验证码是{3,6},谢谢惠顾”。
本申请实施例提供了一种短信文本模版的提取方法,可以通过对短信内容的聚类整合提取出含有变量规则的短信文本模版,可以使终端将短信与模版进行对比进行审核,当短信命中某一个模版后,就不需要继续进行人工审核,直接下发短信,极大的节约了审核的时间以及提高了人工审核的利用率。
下面对本申请实施例提供的一种短信文本模版的提取装置进行介绍,下文描述的一种短信文本模版的提取装置与上文描述的一种短信文本模版的提取方法可相互对应参照。
请参考图5,图5为本申请实施例所提供的一种短信文本模版的提取装置的结构示意图。
本实施例可以包括:
聚类处理模块100,用于获取短信数据,对短信数据进行聚类,得到多个短信的分类集合;
公共文本获取模块200,用于在聚类过程中记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本;
非公共文本获取模块300,用于将分类集合中的每条短信与公共文本进行对比,得到每条短信的非公共文本部分;
模版获取模块400,用于将所有非公共文本部分进行处理,得到模版变量的取值规则,将公共文本和模版变量的取值规则作为模版。
可选的,聚类处理模块100包括:
对比处理单元,用于将短信的内容与内存中的分类集合的公共文本进行对比,得到多个匹配率;
判断单元,用于判断所有匹配率是否低于预设匹配率;
新分类集合获取单元,用于将短信作为新的分类集合,并更新到内存中;
分类处理单元,用于将短信加入到匹配率最高的分类集合中。
可选的,聚类处理模块100还可以包括:
分组处理单元,用于当所有分类集合的数量大于预设数量时,将已有的所有分类集合进行分组,得到多个集合组;
线程分配单元,用于将每个集合组分配一个线程,所有线程进行聚类处理。
可选的,模版获取模块400可以包括:
取值长度获取单元,用于获取所有非公共文本部分的取值长度;
取值范围获取单元,用于选择取值长度中的最短长度和最长长度,作为模版变量的取值长度范围;
模版获取单元,用于将公共文本和模版变量的取值长度范围作为模版。
本申请实施例还提一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如下步骤:
获取短信数据,对短信数据进行聚类,得到多个短信的分类集合;
在聚类过程中记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本;
将分类集合中的每条短信与公共文本进行对比,得到每条短信的非公共文本部分;
将所有非公共文本部分进行处理,得到模版变量的取值规则,将公共文本和模版变量的取值规则作为模版。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时,实现如下步骤:
获取短信数据,对短信数据进行聚类,得到多个短信的分类集合;
在聚类过程中记录并处理每条短信的公共文本部分,得到每个分类集合对应的公共文本;
将分类集合中的每条短信与公共文本进行对比,得到每条短信的非公共文本部分;
将所有非公共文本部分进行处理,得到模版变量的取值规则,将公共文本和模版变量的取值规则作为模版。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种短信文本模版的提取方法、提取装置、计算机可读存储介质及服务器进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种短信文本模版的提取方法,其特征在于,包括:
获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
2.根据权利要求1所述的提取方法,其特征在于,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,包括:
将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断所有所述匹配率是否低于预设匹配率;
若是,则将所述短信作为新的所述分类集合,并更新到所述内存中;
若否,则将所述短信加入到所述匹配率最高的所述分类集合中。
3.根据权利要求2所述的提取方法,其特征在于,所述获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合,还包括:
当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
4.根据权利要求3所述的提取方法,其特征在于,所述将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版,包括:
获取所有所述非公共文本部分的取值长度;
选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
将所述公共文本和所述模版变量的所述取值长度范围作为模版。
5.一种短信文本模版的提取装置,其特征在于,包括:
聚类处理模块,用于获取短信数据,对所述短信数据进行聚类,得到多个短信的分类集合;
公共文本获取模块,用于在所述聚类过程中记录并处理每条短信的公共文本部分,得到每个所述分类集合对应的公共文本;
非公共文本获取模块,用于将所述分类集合中的每条所述短信与所述公共文本进行对比,得到每条所述短信的非公共文本部分;
模版获取模块,用于将所有所述非公共文本部分进行处理,得到模版变量的取值规则,将所述公共文本和所述模版变量的所述取值规则作为模版。
6.根据权利要求5所述的提取装置,其特征在于,所述聚类处理模块,包括:
对比处理单元,用于将所述短信的内容与内存中的所述分类集合的所述公共文本进行对比,得到多个匹配率;
判断单元,用于判断所有所述匹配率是否低于预设匹配率;
新分类集合获取单元,用于将所述短信作为新的所述分类集合,并更新到所述内存中;
分类处理单元,用于将所述短信加入到所述匹配率最高的所述分类集合中。
7.根据权利要求6所述的提取装置,其特征在于,所述聚类处理模块,还包括:
分组处理单元,用于当所有所述分类集合的数量大于预设数量时,将已有的所有所述分类集合进行分组,得到多个集合组;
线程分配单元,用于将每个所述集合组分配一个线程,所有所述线程进行聚类处理。
8.根据权利要求7所述的提取装置,其特征在于,所述模版获取模块,包括:
取值长度获取单元,用于获取所有所述非公共文本部分的取值长度;
取值范围获取单元,用于选择所述取值长度中的最短长度和最长长度,作为所述模版变量的取值长度范围;
模版获取单元,用于将所述公共文本和所述模版变量的所述取值长度范围作为模版。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述短信文本模版的提取方法的步骤。
10.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一想所述短信文本模版的提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980332.4A CN107748739A (zh) | 2017-10-19 | 2017-10-19 | 一种短信文本模版的提取方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980332.4A CN107748739A (zh) | 2017-10-19 | 2017-10-19 | 一种短信文本模版的提取方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107748739A true CN107748739A (zh) | 2018-03-02 |
Family
ID=61253515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710980332.4A Pending CN107748739A (zh) | 2017-10-19 | 2017-10-19 | 一种短信文本模版的提取方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107748739A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762898A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN110730270A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种短信分组方法、装置及计算机存储介质、电子设备 |
CN110852083A (zh) * | 2019-10-28 | 2020-02-28 | 深圳市梦网科技发展有限公司 | 一种短信模板的生成方法及装置 |
CN111597806A (zh) * | 2020-05-21 | 2020-08-28 | 上海创蓝文化传播有限公司 | 一种基于统计模型识别短信文本模版的方法、设备及介质 |
CN111914065A (zh) * | 2020-07-31 | 2020-11-10 | 中国工商银行股份有限公司 | 短信内容验证方法、装置、计算机系统和计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100075701A1 (en) * | 2007-03-16 | 2010-03-25 | Mingsheng Shang | Method and apparatus for pushing messages |
KR20110125500A (ko) * | 2010-05-13 | 2011-11-21 | 주식회사 하나은행 | 모바일 가계부 자동 갱신을 지원하기 위한 단문 메시지 변환 시스템 및 방법 |
US20140149107A1 (en) * | 2012-11-29 | 2014-05-29 | Frank Schilder | Systems and methods for natural language generation |
US20150379423A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Feature processing recipes for machine learning |
CN105516940A (zh) * | 2014-09-22 | 2016-04-20 | 中兴通讯股份有限公司 | 一种短信处理的方法及装置 |
CN106777245A (zh) * | 2016-12-27 | 2017-05-31 | 上海大汉三通通信股份有限公司 | 一种短信类型判别方法、系统及短信管理平台 |
CN107229638A (zh) * | 2016-03-24 | 2017-10-03 | 北京搜狗科技发展有限公司 | 一种文本信息处理方法及装置 |
-
2017
- 2017-10-19 CN CN201710980332.4A patent/CN107748739A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100075701A1 (en) * | 2007-03-16 | 2010-03-25 | Mingsheng Shang | Method and apparatus for pushing messages |
KR20110125500A (ko) * | 2010-05-13 | 2011-11-21 | 주식회사 하나은행 | 모바일 가계부 자동 갱신을 지원하기 위한 단문 메시지 변환 시스템 및 방법 |
US20140149107A1 (en) * | 2012-11-29 | 2014-05-29 | Frank Schilder | Systems and methods for natural language generation |
US20150379423A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Feature processing recipes for machine learning |
CN105516940A (zh) * | 2014-09-22 | 2016-04-20 | 中兴通讯股份有限公司 | 一种短信处理的方法及装置 |
CN107229638A (zh) * | 2016-03-24 | 2017-10-03 | 北京搜狗科技发展有限公司 | 一种文本信息处理方法及装置 |
CN106777245A (zh) * | 2016-12-27 | 2017-05-31 | 上海大汉三通通信股份有限公司 | 一种短信类型判别方法、系统及短信管理平台 |
Non-Patent Citations (1)
Title |
---|
双锴;李怡雯;吕志恒;韩静;刘建伟;: "基于归一化特征判别的日志模板挖掘算法", 北京邮电大学学报, no. 01 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762898A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN110730270A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种短信分组方法、装置及计算机存储介质、电子设备 |
CN110852083A (zh) * | 2019-10-28 | 2020-02-28 | 深圳市梦网科技发展有限公司 | 一种短信模板的生成方法及装置 |
CN111597806A (zh) * | 2020-05-21 | 2020-08-28 | 上海创蓝文化传播有限公司 | 一种基于统计模型识别短信文本模版的方法、设备及介质 |
CN111914065A (zh) * | 2020-07-31 | 2020-11-10 | 中国工商银行股份有限公司 | 短信内容验证方法、装置、计算机系统和计算机可读介质 |
CN111914065B (zh) * | 2020-07-31 | 2023-08-15 | 中国工商银行股份有限公司 | 短信内容验证方法、装置、计算机系统和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748739A (zh) | 一种短信文本模版的提取方法及相关装置 | |
CN103902570B (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
CN109598509A (zh) | 风险团伙的识别方法和装置 | |
CN107273861A (zh) | 一种主观题阅卷评分方法、装置及终端设备 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN110031761B (zh) | 电池筛选方法、电池筛选装置及终端设备 | |
CN104317784A (zh) | 一种跨平台用户识别方法和系统 | |
CN108600414A (zh) | 设备指纹的构建方法、装置、存储介质及终端 | |
CN109960719A (zh) | 一种文件处理方法和相关装置 | |
CN109033148A (zh) | 一种面向多分类的不平衡数据预处理方法、装置及设备 | |
CN103886077A (zh) | 短文本的聚类方法和系统 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN106202050B (zh) | 主题信息获取方法、装置和电子设备 | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN110472246A (zh) | 工单分类方法、装置及存储介质 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN107506407B (zh) | 一种文件分类、调用的方法及装置 | |
CN104298570B (zh) | 数据处理方法和装置 | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN108021713A (zh) | 一种文档聚类的方法和装置 | |
CN108596271A (zh) | 指纹构建算法的评估方法、装置、存储介质及终端 | |
CN106257449A (zh) | 一种信息确定方法和装置 | |
CN105630762A (zh) | 辨识机密数据的方法及电子装置 | |
CN106131238A (zh) | Ip地址的分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |