CN105791543A - 一种清理短信的方法、装置、客户端和系统 - Google Patents
一种清理短信的方法、装置、客户端和系统 Download PDFInfo
- Publication number
- CN105791543A CN105791543A CN201610099323.XA CN201610099323A CN105791543A CN 105791543 A CN105791543 A CN 105791543A CN 201610099323 A CN201610099323 A CN 201610099323A CN 105791543 A CN105791543 A CN 105791543A
- Authority
- CN
- China
- Prior art keywords
- note
- key word
- classification
- sample
- disaggregated models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000004140 cleaning Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 106
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000008878 coupling Effects 0.000 claims description 23
- 238000010168 coupling process Methods 0.000 claims description 23
- 238000005859 coupling reaction Methods 0.000 claims description 23
- 230000000977 initiatory effect Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 36
- 238000013507 mapping Methods 0.000 abstract description 9
- 238000013145 classification model Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 68
- 230000008569 process Effects 0.000 description 20
- 238000005259 measurement Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 229910052709 silver Inorganic materials 0.000 description 11
- 239000004332 silver Substances 0.000 description 11
- 238000012706 support-vector machine Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72436—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/27453—Directories allowing storage of additional subscriber data, e.g. metadata
- H04M1/27457—Management thereof, e.g. manual editing of data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种清理短信的方法、装置、服务器和系统,该方法包括:将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;展示分类得到的各类别短信的类别信息;响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。可见,在本方案中,服务器将多个短信样本作为训练样本,根据训练样本的特征和标签生成多分类模型,即找到特征与标签之间的映射关系,使得客户端可以通过映射关系获知移动终端中的短信所属的类别,通过对短信的分类并展示,简化了短信的展示方式、为用户梳理了短信的类别状态,使得用户直接根据类别批量删除短信,而无需逐条删除短信,提高了短信清理效率。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种清理短信的方法、装置、客户端和系统。
背景技术
随着移动互联网技术的不断发展,终端资费的进一步降低,用户使用短信服务的能力和频率都在大幅提高,不断涌现的终端应用和终端处理技术也催生出新的短信服务类型。随着用户需求的增长,各类型的短信服务已深入到日常生活中,移动终端的信箱中花样繁多的短信数量猛增,极大地消耗了移动终端的内存,导致移动终端运行速度变慢,而且垃圾短信更是给用户带来诸多困扰和不便,在现有技术中,用户只能选择将不需要的短信逐条进行删除,或者借用逐条标记再进行删除,这都导致了用户清理短信过程的极大不便,清理效率极低,难以满足用户的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的清理短信的方法、装置、客户端和系统。
依据本发明的一个方面,提供了一种清理短信的方法,该方法包括:
将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示分类得到的各类别短信的类别信息;
响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
可选地,所述将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类包括:
对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
可选地,所述根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量包括:
计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
可选地,所述计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重包括:
对该短信的文本进行单字切分,得到具有相应顺序的字串;
从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;
如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;
如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;
以此类推,直至剩余的字串的长度为零;
根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
可选地,所述多分类模型包括多个分类函数,每个分类函数对应于一个类别;
则所述将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别包括:将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
可选地,该方法进一步包括:
从服务器侧获取所述多分类模型和所述指定的N个关键词。
可选地,该方法进一步包括:
每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
依据本发明的另一个方面,提供了一种清理短信的方法,该方法包括:
收集多个短信样本;
将所述多个短信样本划分为多个类别;
从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
根据所述多个短信样本的类别信息和特征向量生成多分类模型;
将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
可选地,所述从所述多个短信样本的文本中提取出N个关键词包括:对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;
所述根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量包括:计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
可选地,所述根据所述多个短信样本的类别信息和特征向量生成多分类模型包括:
根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
可选地,该方法进一步包括:
每隔预设统计周期,
重新收集多个短信样本,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型。
依据本发明的又一个方面,提供了一种清理短信的装置,该装置包括:
分类单元,适于将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示单元,适于展示分类得到的各类别短信的类别信息;
清理单元,适于响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
可选地,所述分类单元,适于对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
可选地,所述分类单元,适于计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
可选地,所述分类单元,适于对该短信的文本进行单字切分,得到具有相应顺序的字串;从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;以此类推,直至剩余的字串的长度为零;
所述分类单元,适于根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
可选地,所述多分类模型包括多个分类函数,每个分类函数对应于一个类别;
所述分类单元,适于将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
可选地,该装置进一步包括:
获取单元,适于从服务器侧获取所述多分类模型和所述指定的N个关键词。
可选地,所述获取单元,进一步适于每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
依据本发明的再一个方面,提供了一种清理短信的服务器,该服务器包括:
样本收集单元,适于收集多个短信样本;
预处理单元,适于将所述多个短信样本划分为多个类别;从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
模型生成单元,适于根据所述多个短信样本的类别信息和特征向量生成多分类模型;
下发单元,适于将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
可选地,所述预处理单元,适于对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;
所述预处理单元,适于计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
可选地,所述模型生成单元,适于根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
可选地,所述样本收集单元,进一步适于每隔预设统计周期,重新收集多个短信样本;
所述预处理单元,进一步适于每隔预设统计周期,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型。
依据本发明的再一个方面,提供了一种清理短信的系统,该系统包括:如上任一项所述的清理短信的装置,以及,如上任一项所述的清理短信的服务器。
根据本发明的技术方案,可以将多个短信样本作为训练样本,根据训练样本的特征(短信样本的文本信息对应的特征向量)和标签(短信样本所属的诈骗类别)生成多分类模型,即找到特征(从N个维度描述的特征)与标签(短信的类别)之间的映射关系,将生成的多分类模型以及多应于N个维度的N个关键词下发到客户端,这样当客户端存在有特征而无标签的短信时,就可以通过特征与标签之间的映射关系找到该短信的标签,即获知该短信所属的类别,客户端通过对移动终端中的短信的分类并展示,将多个属于同一类别的短信以一个类别信息进行展示,极大地简化了短信的展示方式、为用户梳理了移动终端中所包含的短信的类别状态,使得用户直接根据短信所属的类别批量删除短信,而无需逐条删除短信,提高了短信清理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种清理短信的方法的示意图;
图2示出了根据本发明另一个实施例的一种清理短信的方法的流程图;
图3示出了根据本发明一个实施例的利用支持向量机方法生成二分类模型的示意图;
图4示出了根据本发明一个实施例的一种清理短信的装置的示意图;
图5示出了根据本发明另一个实施例的一种清理短信的装置的示意图;
图6示出了根据本发明一个实施例的一种清理短信的服务器的示意图;
图7示出了根据本发明一个实施例的一种清理短信的系统的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种清理短信的方法的示意图,从服务器侧说明清理短信的方案的实施过程。如图1所示,该方法包括:
步骤S110,收集多个短信样本。
步骤S120,将所述多个短信样本划分为多个类别。
步骤S130,从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量。
其中,N为大于1的正整数。本步骤中,从所述多个短信样本的文本中提取出N个关键词的意义是:对于所述多个短信样本来说,需从N个关键词代表的N个维度来进行描述,才能较为全面、均衡地描述所述多个短信样本的文本信息,保证所有短信样本的文本信息中携带的重要特征信息均可以被描述到;其中,对于每个短信样本,从N个关键词代表的N个维度来对该短信样本的文本信息进行描述,则得到该短信样本对应的N维特征向量,在该N维特征向量中,每一维度对应的值表征该维度表示的特征在该短信样本的文本信息中的重要程度。
步骤S140,根据所述多个短信样本的类别信息和特征向量生成多分类模型。
步骤S150,将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
上述过程中,收集多个短信样本作为训练样本,获取每个短信样本所属的类别作为该训练样本的标签,获取每个短信样本对应的N维特征向量作为该训练样本在N维空间中的特征,根据多个训练样本的特征和标签进行训练,生成多分类模型,该多分类模型反映了每种类别与其他类别之间的划分界限;将该多分类模型下发至客户端,使得客户端能够基于生成的多分类模型,对未知类别的短信进行分类。进一步地,由于所生成的多分类模型中建立的特征与标签的关系具体来说是从所述N个关键词对应的N个维度的特征与类别的对应关系,则在将多分类模型下发至客户端的同时,也将所述N个关键词下发至客户端,使得客户端根据该N个关键词从相应的N个维度描述需要分类的短信的特征,再基于多分类模型进行分类。
图2示出了根据本发明另一个实施例的一种清理短信的方法的流程图,从客户端侧说明清理短信的方案的实施过程。如图1所示,该方法包括:
步骤S210,将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类。
其中,所述预设时间周期可以依据实际情况适应性选择,例如一个月、一个星期,或者三天等。
步骤S220,展示分类得到的各类别短信的类别信息。
步骤S230,响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
在本发明的一个实施例中,上述步骤S210将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类包括:对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
其中,所述多分类模型和所述指定的N个关键词是从服务器侧获取的。
可见,图1-图2所示的方法中,服务器将多个短信样本作为训练样本,根据训练样本的特征(短信样本的文本信息对应的特征向量)和标签(短信样本所属的诈骗类别)生成多分类模型,即找到特征(从N个维度描述的特征)与标签(短信的类别)之间的映射关系,将生成的多分类模型以及多应于N个维度的N个关键词下发到客户端,这样当客户端存在有特征而无标签的短信时,就可以通过特征与标签之间的映射关系找到该短信的标签,即获知该短信所属的类别,客户端通过对移动终端中的短信的分类并展示,将多个属于同一类别的短信以一个类别信息进行展示,极大地简化了短信的展示方式、为用户梳理了移动终端中所包含的短信的类别状态,使得用户直接根据短信所属的类别批量删除短信,而无需逐条删除短信,提高了短信清理效率。
在本发明的一个实施例中,上述客户端侧基于多分类模型对移动终端中的短信进行分类时,对于每个短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量的过程可以是:计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
其中,计算所述指定的N个关键词中的每个关键词在一个短信的文本中对应的权重的过程可以是:先对该短信的文本进行分词处理,获得该短信对应的多个分词结果,同时获得每个分词结果在该短信的文本中出现的频次和/或语义重要性等方面的参数,进而能够根据这些参数计算出各分词结果在该短信的文本中对应的权重,将每个指定的关键词分别与多个分词结果进行匹配,如果匹配成功,则表示该关键词在该短信的文本中,且该关键词在该短信的文本中对应的权重等于相匹配的分词结果在该短信的文本中对应的权重,如果匹配不成功,则表示该关键词不在该短信的文本中,该关键词在该短信的文本中对应的权重为0。
具体的例子中,客户端侧可以基于字典对待分类的短信的文本进行分词处理,本例中的字典可以直接是由所述指定的N个关键词构成的,使得对短信的文本进行分词处理后,得到的分词结果全部是命中字典的词,即直接得到了分词结果与指定的关键词的匹配关系,进而能够确定各指定的关键词在短信的文本中对应的权重。具体地,所述计算所述指定的N个关键词中的每个关键词在一个短信的文本中对应的权重包括:
对该短信的文本进行单字切分,得到具有相应顺序的字串;从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;以此类推,直至剩余的字串的长度为零;根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
例如,一个短信的文本是:“网上银行开通了手机银行服务”,指定的5个关键词构成字典为{网上银行、手机、验证码、退订、开通},先对该短信的文本进行单字切分,得到{网,上,银,行,开,通,了,手,机,银,行,服,务}这13个字组成的字串,从该字串的首端开始,选取4个字的长度的字段“网上银行”,到字典中进行匹配,存在匹配的关键词,对“网上银行”这个关键词进行标记;再从匹配剩下的字串{开,通,了,手,机,银,行,服,务}的首端开始,选取4个字的长度的字段“开通了手”,到字典中进行匹配,不存在匹配的关键词,则再从字串{开,通,了,手,机,银,行,服,务}的首端开始,选取3个字的长度的字段“开通了”,到字典中进行匹配,不存在匹配的关键词,再从字串{开,通,了,手,机,银,行,服,务}的首端开始,选取2个字的长度的字段“开通”,到字典中进行匹配,存在匹配的关键词,对“开通”这个关键词进行标记;再从匹配剩下的字串{了,手,机,银,行,服,务}的首端开始,选取4个字的长度的字段”了手机银”,到字典中进行匹配,不存在匹配的关键词,则再从字串{了,手,机,银,行,服,务}的首端开始,选取3个字的长度的字段“了手机”,到字典中进行匹配,不存在匹配的关键词,再从字串{了,手,机,银,行,服,务}的首端开始,选取2个字的长度的字段“了手”,到字典中进行匹配,不存在匹配的关键词,则再从字串{了,手,机,银,行,服,务}的首端开始,选取1个字的长度的字段“了”,到字典中进行匹配,不存在匹配的关键词,说明这个字自身以及这个字跟之前和之后的字的组合均不命中字典,则跳过该字,再从匹配剩下的字串{手,机,银,行,服,务}的首端开始,选取4个字的长度的字段“手机银行”,到字典中进行匹配,……,以此类推,直至剩余的字串的长度为0。通过标记可以知道在分词过程中字典中的各关键词的匹配次数,在本例中,“网上银行”的匹配次数为1,“开通”的匹配次数为1,“手机”的匹配次数为1,“验证码”和“退订”的匹配次数为0,则计算出各关键词在该短信的文本中对应的权重。进而能够得到该短信对应的5维特征向量是:{1,1,0,0,1}。
在本发明的一个实施例中,上述服务器侧根据所述多个短信样本的类别信息和特征向量生成多分类模型包括:根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
则客户端侧在基于该多分类模型对短信进行分类时,将短信对应的N维特征向量输入到多分类模型中,计算得到该短信对应的类别包括:将该N维特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
通过一个例子来说明本方案的具体实施过程,在本实施例中,利用支持向量机(SupportVectorMachine,SVM)方法来对训练样本进行训练生成多分类模型,SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以获得最好的泛化能力。
由于二分类模型实质上是多分类模型的最简化的特例,此处首先介绍利用SVM方法生成二分类模型的原理,为后续推广到生成多分类模型打下基础。例如,假设目前短信的类别仅包括:理财类别和退订类别,收集多个短信样本作为训练样本,每个训练样本带有特征(文本信息对应的特征向量)和标签(所属的类别),在本例中,设定训练样本的特征为二维特征向量,训练样本的标签包括:理财类别和退订类别。为了形象地表示二分类模型的建立过程,图3示出了根据本发明一个实施例的利用支持向量机方法生成二分类模型的示意图,在二维平面中训练样本的分布如图3中所示,二维特征向量在二维平面中是点,其中以圆圈标示属于理财类别的短信样本的二维特征向量,以方框标示属于退订类别的短信样本的二维特征向量,在该二维平面中找到一条直线用来区分“理财类别”、“退订类别”两种类别,该直线则表示本例中的二分类模型,该二分类模型即为一个分类函数,可以将属于两种类别的短信样本完全分开。设该分类函数为g(x)=wx+b,其中,x表示训练样本(短信样本)的二维特征向量,w和b的选取原则是:寻找两条边界端或极端划分直线中间的最大间隔;如取g(x)=0作为分类阈值,则对于属于理财类别的短信样本的特征向量,wx+b>0,对于属于退订类别的短信样本的特征向量,wx+b<0。将该二分类模型下发至客户端,客户端基于该二分类模型对移动终端中的短信进行分类,对于每条待分类短信,将该未知短信的文本信息对应的二维特征向量输入到该分类函数中进行计算,如果g(x)>0,确定该短信属于理财类别,如果g(x)<0,确定该短信属于退订类别;进一步地,如果g(x)=0,说明该短信不属于这两类,是一个新的类别,可以将该短信上传至服务器作为短信样本的补充。该需要说明的是,从所有短信样本的文本中提取出的关键词的个数决定了短信样本的特征的描述维度,短信样本的特征的描述维度决定了待分类短信的特征的描述维度,本例提供的方案不局限于短信的特征从两个维度来描述的情况,当短信的文本信息需要从N个维度来描述时,此方案在N维空间中仍然适用,每条短信对应于一个N维特征向量,只不过分类函数不再表示一条直线,而是一个平面、甚至一个超平面来划分出空间的两个区域以对应两个不同的类别。
可见,利用SVM方法生成二分类模型的的过程本质上是找到一个用于区分两个不同类别的分类函数的过程,在此基础上,进一步地,当存在更多的类别时,利用SVM方法生成多分类模型的本质是找到多个用于区分每种类别和其他类别的分类函数。例如,假设目前已知的类别包括:理财类别、退订类别、新闻类别、支付类别,收集多个短信样本作为训练样本,每个训练样本带有特征(文本信息对应的特征向量)和标签(所属的诈骗类别),设定训练样本的特征为二维特征向量,则各短信样本对应的二维特征向量均可以在二维平面中以点表示出来,则在该二维平面中找到四条直线,第一条直线将属于理财类别的短信样本与属于其他三种类别的短信样本划分开来,第二条直线将属于退订类别的短信样本与属于其他三种类别的短信样本划分开来,第三条直线将属于新闻类别的短信样本与属于其他三种类别的短信样本划分开来,第四条直线将属于支付类别的短信样本与属于其他三种类别的短信样本划分开来,则这四条直线所表示的四个分类函数共同构成了本例生成的多分类模型,第一个分类函数对应于理财类别,第二个分类函数对应于退订类别,第三个分类函数对应于新闻类别,第四个分类函数对应于支付类别。设四个分类函数分别为:g1(x)=w1x+b1、g2(x)=w2x+b2、g3(x)=w3x+b3、g4(x)=w4x+b4,其中,x表示训练样本(短信样本)的二维特征向量,w1和b1、w2和b2、w3和b3、w4和b4的选取原则是:寻找两条边界端或极端划分直线中间的最大间隔;如取g1(x)=g2(x)=g3(x)=g4(x)=0作为四个诈骗类别的划分阈值,则对于属于理财类别的短信样本的二维特征向量,g1(x)>0,g2(x)<0,g3(x)<0,g4(x)<0;对于属于退订类别的短信样本的二维特征向量,g1(x)<0,g2(x)>0,g3(x)<0,g4(x)<0;对于属于新闻类别的短信样本的二维特征向量,g1(x)<0,g2(x)<0,g3(x)>0,g4(x)<0;对于属于支付类别的短信样本的二维特征向量,g1(x)<0,g2(x)<0,g3(x)<0,g4(x)>0。将该多分类模型下发到客户端,客户端对移动终端中的短信进行分类,对于每个待分类短信,将该待分类短信的文本信息对应的二维特征向量分别代入到四个分类函数中进行计算,比较四者的大小,选择最大的计算结果对应的分类函数,将该分类函数对应的诈骗类别作为该未知短信所属的诈骗类别。需要说明的是,从所有短信样本的文本中提取出的关键词的个数决定了短信样本的特征的描述维度,短信样本的特征的描述维度决定了待分类短信的特征的描述维度,本例提供的方案不局限于短信的特征从两个维度来描述的情况,当短信的文本信息需要从N个维度来描述时,此方案在N维空间中仍然适用,每条短信对应于一个N维特征向量,只不过四个分类函数不再表示四条直线,而是四个平面、甚至四个超平面来区分四种不同的诈骗类别;当然,当有更多的诈骗类别时,在建立多分类模型时需要找到对应于不同诈骗类别的更多的分类函数,这里不做限制。
可见,在本实施例中,根据短信样本的特征向量和类别,利用SVM方法生成多分类模型的过程实质上是找到对应于多个不同类别的分类函数的过程。上述过程是一个典型的有监督学习过程,由于训练样本的标签是经过细分后的标识不同短信的类别,通过对训练样本的训练能够获得较为高效、可泛化、小粒度地对短信的类别进行预测的机制。
进一步地,为了使得本方案中用于进行短信分类的多分类模型更为稳定,服务器侧通过训练多个短信样本生成多分类模型的方案进一步包括:每隔预设统计周期,重新收集多个短信样本,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型下发至客户端。具体地,存在如下两种情况:第一种,对于重新收集的多个短信样本,原有的N个关键词不足以对重新收集的多个短信样本进行全面地描述、原有的类别不足以覆盖重新收集的多个短信样本,将重新收集的多个短信样本以及原有的多个短信样本重新划分类别,从重新收集的多个短信样本以及原有的多个短信样本的文本中综合提取出M个关键词,M为大于1正整数,依据这M个关键词,获取各短信样本(包括重新收集的和原有的)对应的M维特征向量,根据各短信样本的M维特征向量和类别的对应关系生成更新后的多分类模型,将更新后的多分类模型和M个关键词下发至客户端。第二种,原有的N个关键词足以对重新收集的多个短信样本进行全面地描述、原有的类别足以覆盖重新收集的多个短信样本,根据原有的N个关键词获取重新收集的每个短信样本对应的N维特征向量,将重新收集的短信样本对应的N维特征向量输入到原有的多分类模型的分类函数中进行计算,通过比较计算结果和已知的该短信样本的类别,可以获知原有的分类函数的准确程度,当计算结果和已知的类别之间不一致时,需要对原有的分类函数进行调整校正,具体地,沿用上文中分类函数为g(x)=wx+b的例子,当将新增的训练样本代入到该分类函数中后,如果发现预测结果与已知的类别不一致,通过调整分类函数中w、b的取值,使得在加入新增的训练样本后,w、b的选取原则不被破坏,即在新增训练样本后,寻找两条边界端或极端划分直线中间的最大间隔,进而得到更新后的分类函数;将更新后的分类函数以及N个关键词下发到客户端。
则客户端侧每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
在本发明的一个实施例中,服务器侧从所述多个短信样本的文本中提取出N个关键词包括:对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;以及,服务器侧根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量包括:计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
图4示出了根据本发明一个实施例的一种清理短信的装置的示意图。如图4所示,该清理短信的装置400包括:
分类单元410,适于将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类。
展示单元420,适于展示分类得到的各类别短信的类别信息。
清理单元430,适于响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
可见,图4所示的装置提供了一种先对短信进行分类,再将分类得到的类别信息展示给用户,根据用户的选择将一个或多个类别的短信删除的方案,通过分类再展示类别信息的过程,将多个属于同一类别的短信以一个类别信息进行展示,极大地简化了短信的展示方式、为用户梳理了移动终端中所包含的短信的类别状态,使得用户直接根据短信所属的类别批量删除短信,而无需逐条删除短信,提高了短信清理效率。
在本发明的一个实施例中,分类单元410,适于对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
其中,分类单元410,适于计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
具体地,分类单元410,适于对该短信的文本进行单字切分,得到具有相应顺序的字串;从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;以此类推,直至剩余的字串的长度为零;再根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
在本发明的一个实施例中,多分类模型包括多个分类函数,每个分类函数对应于一个类别;上述分类单元410将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别是指:分类单元410将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
图5示出了根据本发明另一个实施例的一种清理短信的装置的示意图。如图5所示,该清理短信的装置500包括:获取单元510、分类单元520、展示单元530和清理单元540;其中,分类单元520、展示单元530、清理单元540分别具有与图4所示的分类单元410、展示单元420、清理单元430对应相同的功能,在此不再赘述。
获取单元510,适于从服务器侧获取所述多分类模型和所述指定的N个关键词。
在本发明的一个实施例中,获取单元510,进一步适于每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
图6示出了根据本发明一个实施例的一种清理短信的服务器的示意图。如图6所示,该清理短信的服务器600包括:
样本收集单元610,适于收集多个短信样本。
预处理单元620,适于将所述多个短信样本划分为多个类别;从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数。
模型生成单元630,适于根据所述多个短信样本的类别信息和特征向量生成多分类模型。
下发单元640,适于将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
可见,图6所示的服务器将多个短信样本作为训练样本,根据训练样本的特征(短信样本的文本信息对应的特征向量)和标签(短信样本所属的诈骗类别)生成多分类模型,即找到特征(从N个维度描述的特征)与标签(短信的类别)之间的映射关系,将生成的多分类模型以及多应于N个维度的N个关键词下发到客户端,这样当客户端存在有特征而无标签的短信时,就可以通过特征与标签之间的映射关系找到该短信的标签,即获知该短信所属的类别,上述过程是一个典型的有监督学习过程,由于训练样本的标签是经过细分后的标识不同短信的类别,通过对训练样本的训练能够获得较为高效、可泛化、小粒度地对短信的类别进行预测的机制。
在本发明的一个实施例中,预处理单元620,适于对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;然后,计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
在本发明的一个实施例中,模型生成单元630,适于根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
在本发明的一个实施例中,样本收集单元610,进一步适于每隔预设统计周期,重新收集多个短信样本;则预处理单元620,进一步适于每隔预设统计周期,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型。
需要说明的是,图4-图5所示装置以及图6所示服务器的各实施例与上文中图1-图3所示方法的各实施例对应相同,上文中已详细说明,在此不再赘述。
图7示出了根据本发明一个实施例的一种清理短信的系统的示意图。如图7所示,该清理短信的系统700包括:清理短信的装置710,以及,清理短信的服务器720。
其中,清理短信的装置710与上文所述的清理短信的装置400/500相同,清理短信的服务器720与上文所述的清理短信的服务器600相同,在此均不再赘述。
综上所述,在本发明提供的技术方案中,服务器侧将多个短信样本作为训练样本,根据训练样本的特征(短信样本的文本信息对应的特征向量)和标签(短信样本所属的诈骗类别)生成多分类模型,即找到特征(从N个维度描述的特征)与标签(短信的类别)之间的映射关系,将生成的多分类模型以及多应于N个维度的N个关键词下发到客户端,这样当客户端存在有特征而无标签的短信时,就可以通过特征与标签之间的映射关系找到该短信的标签,即获知该短信所属的类别,客户端通过对移动终端中的短信的分类并展示,将多个属于同一类别的短信以一个类别信息进行展示,极大地简化了短信的展示方式、为用户梳理了移动终端中所包含的短信的类别状态,使得用户直接根据短信所属的类别批量删除短信,而无需逐条删除短信,提高了短信清理效率。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的清理短信的装置、服务器和系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种清理短信的方法,其中,该方法包括:
将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示分类得到的各类别短信的类别信息;
响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
A2、如A1所述的方法,其中,所述将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类包括:
对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
A3、如A2所述的方法,其中,所述根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量包括:
计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
A4、如A3所述的方法,其中,所述计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重包括:
对该短信的文本进行单字切分,得到具有相应顺序的字串;
从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;
如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;
如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;
以此类推,直至剩余的字串的长度为零;
根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
A5、如A2所述的方法,其中,所述多分类模型包括多个分类函数,每个分类函数对应于一个类别;
则所述将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别包括:将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
A6、如A2所述的方法,其中,该方法进一步包括:
从服务器侧获取所述多分类模型和所述指定的N个关键词。
A7、如A6所述的方法,其中,该方法进一步包括:
每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
本发明还公开了B8、一种清理短信的方法,其中,该方法包括:
收集多个短信样本;
将所述多个短信样本划分为多个类别;
从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
根据所述多个短信样本的类别信息和特征向量生成多分类模型;
将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
B9、如B8所述的方法,其中,
所述从所述多个短信样本的文本中提取出N个关键词包括:对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;
所述根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量包括:计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
B10、如B8所述的方法,其中,所述根据所述多个短信样本的类别信息和特征向量生成多分类模型包括:
根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
B11、如B8所述的方法,其中,该方法进一步包括:
每隔预设统计周期,
重新收集多个短信样本,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型。
本发明还公开了C12、一种清理短信的装置,其中,该装置包括:
分类单元,适于将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示单元,适于展示分类得到的各类别短信的类别信息;
清理单元,适于响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
C13、如C12所述的装置,其中,
所述分类单元,适于对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
C14、如C13所述的装置,其中,
所述分类单元,适于计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
C15、如C14所述的装置,其中,
所述分类单元,适于对该短信的文本进行单字切分,得到具有相应顺序的字串;从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;以此类推,直至剩余的字串的长度为零;
所述分类单元,适于根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
C16、如C13所述的装置,其中,所述多分类模型包括多个分类函数,每个分类函数对应于一个类别;
所述分类单元,适于将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
C17、如C13所述的装置,其中,该装置进一步包括:
获取单元,适于从服务器侧获取所述多分类模型和所述指定的N个关键词。
C18、如C17所述的装置,其中,
所述获取单元,进一步适于每隔预设统计周期,从服务器侧获取更新后的多分类模型和更新后的指定的N个关键词,以代替前一次获取的多分类模型和前一次获取的指定的N个关键词。
本发明还公开了D19、一种清理短信的服务器,其中,该服务器包括:
样本收集单元,适于收集多个短信样本;
预处理单元,适于将所述多个短信样本划分为多个类别;从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
模型生成单元,适于根据所述多个短信样本的类别信息和特征向量生成多分类模型;
下发单元,适于将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
D20、如D19所述的服务器,其中,
所述预处理单元,适于对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;
所述预处理单元,适于计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
D21、如D19所述的服务器,其中,
所述模型生成单元,适于根据所述多个短信样本的类别信息和特征向量的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个类别。
D22、如D19所述的服务器,其中,
所述样本收集单元,进一步适于每隔预设统计周期,重新收集多个短信样本;
所述预处理单元,进一步适于每隔预设统计周期,根据重新收集到的多个短信样本和原有的短信样本,生成更新后的N个关键词和更新后的多分类模型。
本发明还公开了E23、一种清理短信的系统,其中,该系统包括:如C12-C18中任一项所述的清理短信的装置,以及,如D19-D22中任一项所述的清理短信的服务器。
Claims (10)
1.一种清理短信的方法,其中,该方法包括:
将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示分类得到的各类别短信的类别信息;
响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
2.如权利要求1所述的方法,其中,所述将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类包括:
对于前一预设时间周期内接收到的每条短信,根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量;将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别。
3.如权利要求2所述的方法,其中,所述根据该短信的文本信息,获取对应于指定的N个关键词的N维特征向量包括:
计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重,将所述指定的N个关键词对应的权重的集合作为该短信的N维特征向量。
4.如权利要求3所述的方法,其中,所述计算所述指定的N个关键词中的每个关键词在该短信的文本中对应的权重包括:
对该短信的文本进行单字切分,得到具有相应顺序的字串;
从所述字串的首端或尾端开始,选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配;
如果不存在匹配的关键词,将第一预设长度缩短为第二预设长度,从所述第一预设长度的字段起始端开始,选取第二预设长度的字段,将该第二预设长度的字段与所述指定的N个关键词进行匹配;如果不存在匹配的关键词,将第二预设长度缩短为第三预设长度,从所述第一预设长度的字段起始端开始,选取第三预设长度的字段,将该第三预设长度的字段与所述指定的N个关键词进行匹配;以此类推,直至存在匹配的关键词;
如果存在匹配的关键词,对该关键词进行标记;从剩余的字串的首端或尾端开始,重复上述选取第一预设长度的字段,将该第一预设长度的字段与所述指定的N个关键词进行匹配的操作;
以此类推,直至剩余的字串的长度为零;
根据所述指定的N个关键词中每个关键词的匹配次数,分别得到所述指定的N个关键词在该短信的文本中对应的权重。
5.如权利要求2所述的方法,其中,所述多分类模型包括多个分类函数,每个分类函数对应于一个类别;
则所述将该特征向量输入到所述多分类模型中,计算得到该短信对应的类别包括:将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的类别作为该短信对应的类别。
6.一种清理短信的方法,其中,该方法包括:
收集多个短信样本;
将所述多个短信样本划分为多个类别;
从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
根据所述多个短信样本的类别信息和特征向量生成多分类模型;
将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
7.如权利要求6所述的方法,其中,
所述从所述多个短信样本的文本中提取出N个关键词包括:对所述多个短信样本的文本进行分词处理,去重后得到多个分词结果;计算每个分词结果在全部短信样本的文本中对应的综合权重;选取综合权重高于预设阈值的N个分词结果作为N个关键词;
所述根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量包括:计算所述N个关键词中的每个关键词在该短信样本的文本中对应的权重,将所述N个关键词对应的权重的集合作为该短信样本的N维特征向量。
8.一种清理短信的装置,其中,该装置包括:
分类单元,适于将移动终端中的前一预设时间周期内接收到的短信,基于多分类模型进行分类;
展示单元,适于展示分类得到的各类别短信的类别信息;
清理单元,适于响应于用户选择一个或多个类别信息的操作,将所选择的一个或多个类别信息对应的短信删除。
9.一种清理短信的服务器,其中,该服务器包括:
样本收集单元,适于收集多个短信样本;
预处理单元,适于将所述多个短信样本划分为多个类别;从所述多个短信样本的文本中提取出N个关键词;对于每个短信样本,根据该短信样本的文本信息,获取对应于所述N个关键词的N维特征向量;其中,N为大于1的正整数;
模型生成单元,适于根据所述多个短信样本的类别信息和特征向量生成多分类模型;
下发单元,适于将所述N个关键词和所述多分类模型下发至客户端,使得客户端根据所述N个关键词和所述多分类模型对短信进行分类。
10.一种清理短信的系统,其中,该系统包括:如权利要求8所述的清理短信的装置,以及,如权利要求9所述的清理短信的服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610099323.XA CN105791543A (zh) | 2016-02-23 | 2016-02-23 | 一种清理短信的方法、装置、客户端和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610099323.XA CN105791543A (zh) | 2016-02-23 | 2016-02-23 | 一种清理短信的方法、装置、客户端和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105791543A true CN105791543A (zh) | 2016-07-20 |
Family
ID=56402892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610099323.XA Pending CN105791543A (zh) | 2016-02-23 | 2016-02-23 | 一种清理短信的方法、装置、客户端和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105791543A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105979089A (zh) * | 2016-05-06 | 2016-09-28 | 北京奇虎科技有限公司 | 一种清理短信的方法和装置 |
CN108491388A (zh) * | 2018-03-22 | 2018-09-04 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
CN108509508A (zh) * | 2018-02-11 | 2018-09-07 | 北京原点时空信息技术有限公司 | 基于Java技术的短信大数据查询和分析系统及其方法 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN110300222A (zh) * | 2019-05-29 | 2019-10-01 | 深圳市梦网科技发展有限公司 | 一种短信显示方法、系统及终端设备 |
CN112346643A (zh) * | 2020-11-16 | 2021-02-09 | 维沃移动通信有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
WO2022105858A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳市万普拉斯科技有限公司 | 一种清理短信的方法、装置、移动终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
US20120054132A1 (en) * | 2010-08-27 | 2012-03-01 | Douglas Aberdeen | Sorted Inbox with Important Message Identification Based on Global and User Models |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
CN103957516A (zh) * | 2014-05-13 | 2014-07-30 | 北京网秦天下科技有限公司 | 垃圾短信过滤方法及引擎 |
CN105138611A (zh) * | 2015-08-07 | 2015-12-09 | 北京奇虎科技有限公司 | 短信类别识别方法及装置 |
-
2016
- 2016-02-23 CN CN201610099323.XA patent/CN105791543A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
US20120054132A1 (en) * | 2010-08-27 | 2012-03-01 | Douglas Aberdeen | Sorted Inbox with Important Message Identification Based on Global and User Models |
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
CN103957516A (zh) * | 2014-05-13 | 2014-07-30 | 北京网秦天下科技有限公司 | 垃圾短信过滤方法及引擎 |
CN105138611A (zh) * | 2015-08-07 | 2015-12-09 | 北京奇虎科技有限公司 | 短信类别识别方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105979089A (zh) * | 2016-05-06 | 2016-09-28 | 北京奇虎科技有限公司 | 一种清理短信的方法和装置 |
CN110020420A (zh) * | 2018-01-10 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN108509508A (zh) * | 2018-02-11 | 2018-09-07 | 北京原点时空信息技术有限公司 | 基于Java技术的短信大数据查询和分析系统及其方法 |
CN108491388A (zh) * | 2018-03-22 | 2018-09-04 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
CN108491388B (zh) * | 2018-03-22 | 2021-02-23 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110300222A (zh) * | 2019-05-29 | 2019-10-01 | 深圳市梦网科技发展有限公司 | 一种短信显示方法、系统及终端设备 |
CN112346643A (zh) * | 2020-11-16 | 2021-02-09 | 维沃移动通信有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
WO2022105858A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳市万普拉斯科技有限公司 | 一种清理短信的方法、装置、移动终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105791543A (zh) | 一种清理短信的方法、装置、客户端和系统 | |
CN110569353B (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN112785397A (zh) | 一种产品推荐方法、装置及存储介质 | |
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN106959965B (zh) | 一种信息处理方法及服务器 | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN109344884A (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
CN111611488B (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN105915438A (zh) | 消息推送方法、装置及系统 | |
CN105117440A (zh) | 确定待推荐应用app的方法及装置 | |
CN112559764B (zh) | 一种基于领域知识图谱的内容推荐方法 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 | |
CN104462301A (zh) | 一种网络数据的处理方法和装置 | |
CN112231584A (zh) | 基于小样本迁移学习的数据推送方法、装置及计算机设备 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN104361037A (zh) | 微博分类方法及装置 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN110334180A (zh) | 一种基于评论数据的移动应用安全性评估方法 | |
CN113688232A (zh) | 招标文本分类方法、装置、存储介质及终端 | |
CN103049454B (zh) | 一种基于多标签分类的中英文搜索结果可视化系统 | |
CN113962199A (zh) | 文本识别方法、装置、设备、存储介质及程序产品 | |
CN105979089A (zh) | 一种清理短信的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |
|
RJ01 | Rejection of invention patent application after publication |