CN103500195A - 分类器更新方法、装置、系统及设备 - Google Patents

分类器更新方法、装置、系统及设备 Download PDF

Info

Publication number
CN103500195A
CN103500195A CN201310429960.5A CN201310429960A CN103500195A CN 103500195 A CN103500195 A CN 103500195A CN 201310429960 A CN201310429960 A CN 201310429960A CN 103500195 A CN103500195 A CN 103500195A
Authority
CN
China
Prior art keywords
refuse messages
feature
sorter
note
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310429960.5A
Other languages
English (en)
Other versions
CN103500195B (zh
Inventor
杜宁林
方流
罗爱宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201310429960.5A priority Critical patent/CN103500195B/zh
Publication of CN103500195A publication Critical patent/CN103500195A/zh
Application granted granted Critical
Publication of CN103500195B publication Critical patent/CN103500195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分类器更新方法、装置、系统及设备,属于计算机技术领域。所述设备控制方法包括:从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;根据获取到的所述更新信息更新垃圾短信分类器;根据所述垃圾短信分类器对接收到的短信进行分类。通过利用从服务器获取的更新信息更新垃圾短信分类器,根据该垃圾短信分类器对接收到的短信进行分类;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;达到了在很大程度上提高短信分类的准确率的效果。

Description

分类器更新方法、装置、系统及设备
技术领域
本公开涉及计算机技术领域,特别涉及一种分类器更新方法、装置、系统及设备。
背景技术
随着智能手机的发展,短信的存储条数几乎不再受限制,而大量的短信不便于用户进行管理和查找,因此需要分类器对短信进行分类。为了确保分类器能够较准确的对短信进行分类,还需要在使用的过程中更新分类器。
目前,分类器更新方法通常可以为:手机终端在接收到短信之后,根据分类器将垃圾短信放置在垃圾短信收件箱,将普通短信放置在普通短信收件箱中,当垃圾短信收件箱和普通短信收件箱中的短信累积到一定数量之后,手机终端会将垃圾短信收件箱和普通短信收件箱中的短信作为样本训练生成一个垃圾短信分类器。这样在接收到一个新的短信时,则可以根据该训练生成的垃圾短信分类器对该短信进行预测,当预测出该短信为垃圾短信时,会自动将该短信放置在垃圾短信收件箱中。
发明人在实现本公开的过程中,发现背景技术至少存在如下缺陷:由于手机终端中垃圾短信分类器的训练样本比较少,因此在对短信进行分类时准确率比较低。
发明内容
为了解决手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题,本公开提供了一种分类器更新方法、装置、系统及设备。所述技术方案如下:
第一方面,提供了一种分类器更新方法,所述方法,包括:
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
在第一方面的第一种可能的实现方式中,所述根据获取到的所述更新信息更新垃圾短信分类器,包括:
根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
基于第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,包括:
根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
根据过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
基于第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述方法还包括:
当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
当所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
基于第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式,在第四种可能的实现方式中,在第三种可能的实现方式中,所述方法还包括:
在所述根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新、且根据更新后的所述特征的权重训练所述垃圾短信分类器之后,根据训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
向所述服务器发送上传信息,所述上传信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
基于第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式,在第四种可能的实现方式中,在第五种可能的实现方式中,所述方法还包括:
当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述接收到的短信进行再次分类。
基于第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式、第一方面的第四种可能的实现方式第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述方法还包括:
从所述服务器获取另一版本的短信类别分类器;
根据获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信类别分类器的版本晚于当前存在的所述短信类别分类器的版本。
第二方面,提供了一种分类器更新方法,所述方法包括:
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
在第二方面的第一种可能的实现方式中,所述根据所述第一标定语料库和所述上传信息更新垃圾短信分类器,包括:
获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征;
根据与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
基于第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
根据所述第二标定语料库训练得到短信类别分类器;
向终端发送所述短信类别分类器。
第三方面,提供了一种分类器更新装置,所述装置包括:
更新信息获取模块,用于从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
第一更新模块,用于根据所述更新信息获取模块获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
在第三方面的第一种可能的实现方式中,所述第一更新模块,包括:
第一更新单元,用于根据所述更新信息获取模块获取到的所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重;
第一训练单元,用于根据所述第一更新单元更新后的所述特征的权重训练所述垃圾短信分类器。
基于第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述第一更新单元,包括:
过滤子单元,用于根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
更新子单元,用于根据所述过滤子单元过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
基于第三方面的第一种可能的实现方式或者第三方面的第二种可能的实现方式,在第三种可能的实现方式中,所述装置还包括:
累加模块,用于当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
特征获取模块,用于当所述累加模块累加的所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
第二更新模块,用于根据所述特征获取模块获取的所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
第一训练模块,用于根据所述第二更新模块更新后的所述特征的权重训练所述垃圾短信分类器。
基于第三方面的第一种可能的实现方式、第三方面的第二种可能的实现方式或者第三方面的第三种可能的实现方式,在第四种可能的实现方式中,所述装置还包括:
第一确定模块,用于根据所述第一训练模块训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
上传信息发送模块,用于向所述服务器发送上传信息,所述上传信息包括所述第一确定模块重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
基于第三方面的第一种可能的实现方式、第三方面的第二种可能的实现方式、第三方面的第三种可能的实现方式或者第三方面的第四种可能的实现方式,在第五种可能的实现方式中,所述装置还包括:
再次分类模块,用于当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述接收到的短信进行再次分类。
基于第三方面的第一种可能的实现方式、第三方面的第二种可能的实现方式、第三方面的第三种可能的实现方式、第三方面的第四种可能的实现方式或者第三方面的第五种可能的实现方式,在第六种可能的实现方式中,所述装置还包括:
第一获取模块,用于从所述服务器获取另一版本的短信类别分类器;
替换模块,用于根据所述第一获取模块获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信类别分类器的版本晚于当前存在的所述短信类别分类器的版本。
第四方面,提供了一种分类器更新装置,所述装置包括:
第二获取模块,用于获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
第三更新模块,用于根据所述第二获取模块获取到的所述第一标定语料库和所述上传信息更新垃圾短信分类器;
第二确定模块,用于根据所述第三更新模块更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
更新信息发送模块,用于向终端发送更新信息,所述更新信息包括所述第二确定模块重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
在第四方面的第一种可能的实现方式中,所述第三更新模块,包括:
获取单元,用于获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征;
第二更新单元,用于根据所述获取单元获取到的与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练垃圾短信分类器的特征的权重;
第二训练单元,用于根据所述第二更新单元更新后的所述特征的权重训练所述垃圾短信分类器。
基于第四方面的第一种可能的实现方式,在第四方面的第二种可能的实现方式中,所述装置还包括:
第三获取模块,用于获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
第二训练模块,用于根据所述第三获取模块获取到的所述第二标定语料库训练得到短信类别分类器;
发送模块,用于向终端发送所述第二训练模块训练得到所述短信类别分类器。
第五方面,提供了一种终端,所述终端包括第三方面所述的分类器更新装置。
第六方面,提供了一种服务器,所述服务器包括第四方面所述的分类器更新装置。
第七方面,提供了一种终端,所述终端包括:
一个或多个处理器;
存储器;和
一个或多个模块,所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行,所述一个或多个模块具有如下功能:
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
第八方面,提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储器;和
一个或多个模块,所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行,所述一个或多个模块具有如下功能:
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
第九方面,提供了一种分类器更新系统,所述系统包括服务器和至少一个终端,所述服务器通过有线网络方式或无线网络方式分别与所述各个终端连接;
所述服务器为第六方面或第八方面所述的服务器;
所述终端为第五方面或第七方面所述的终端。
本公开提供的技术方案的一些有益效果可以包括:
通过利用从服务器获取的包含有垃圾短信特征以及与垃圾短信特征对应的权重的更新信息更新垃圾短信分类器,该垃圾短信分类器可以用于对接收到的短信进行分类;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚地说明本公开的实施例,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开部分实施例中提供的分类器更新方法所涉及的实施环境的示例性示意图;
图2是本公开一个实施例中提供的分类器更新方法的示例性方法流程图;
图3是本公开另一个实施例中提供的分类器更新方法的示例性方法流程图;
图4是本公开再一个实施例中提供的分类器更新方法的示例性方法流程图;
图5是本公开再一个实施例中提供的分类器更新方法的示例性方法流程图;
图6是本公开一个实施例中提供的分类器更新装置的示例性结构示意图;
图7是本公开一个实施例中提供的分类器更新装置的示例性结构示意图;
图8是本公开一个实施例中提供的分类器更新装置的示例性结构示意图;
图9是本公开一个实施例中提供的分类器更新装置的示例性结构示意图;
图10是本公开部分实施例中提供的终端的示例性结构方框图;
图11是本公开部分实施例中提供的服务器的示例性结构示意图;
图12是本公开一个实施例中提供的分类器更新系统的示例性示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开的一部份举例,而不是全部的实施例。基于本公开,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
请参见图1所示,其示出了本公开部分实施例中提供的分类器更新方法所涉及的实施环境的示例性示意图。该实施环境可以包括服务器120和至少一个终端140,其中服务器120通过有线网络方式或无线网络方式分别与各个终端140连接。
服务器120可以获取网络上的数据,比如可以获取其他服务器中的数据,也可以接收终端140上传的数据。
终端140可以为手机或可收发短信的其他类型的电子设备。终端140可以通过有线网络方式或无线网络方式向服务器120上传数据,也可以从服务器120中获取或下载数据。
请参见图2所示,其示出了本公开一个实施例中提供的分类器更新方法的示例性方法流程图。本实施例以该分类器更新方法应用于图1所示的实施环境中的终端140中来举例说明。该分类器更新方法,可以包括如下步骤。
在步骤201中,从服务器获取更新信息,该更新信息中包含垃圾短信特征以及与该垃圾短信特征对应的权重。
这里的垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个。
垃圾短信特征为对用于确定一个短信为垃圾短信时的贡献比较大的特征。
垃圾短信关键词为用于确定短信为垃圾短信时贡献比较大的词,比如:“一居”、“户型”、“股票”、“出国”、“热线”或“咨询”等。
垃圾短信长度通常也可以在一定程度上确定一个短信为垃圾短信的概率。
垃圾短信规则可以包括:包含有网址、短信的发件人为手机号码等,垃圾短信规则也可以在一定程度上确定一个短信为垃圾短信的概率。
也就是说,垃圾短信关键词、垃圾短信长度以及垃圾短信规则均可以在一定程度上确定一个短信为垃圾短信。
与某一个垃圾短信特征对应的权重是指在所有的样本中该垃圾短信特征出现的次数与所有特征出现的次数总和的比值。
在步骤202中,根据获取到的更新信息更新垃圾短信分类器,该垃圾短信分类器用于对接收到的短信进行分类。
垃圾短信分类器为用于将接收的短信分类为垃圾短信或普通短信的分类器,该垃圾短信分类器可以是预先从服务器获取的垃圾短信分类器,也可以是预先在终端中生成的垃圾短信分类器,还可以是已经更新过的垃圾短信分类器。
在本实施例的第一种可能的实现方式中,根据获取到的更新信息更新垃圾短信分类器,包括:
根据更新信息中包含的垃圾短信特征以及与该垃圾短信特征对应的权重更新用于训练垃圾短信分类器的特征的权重。这里的特征可以包括垃圾短信特征和普通短信特征,其中普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种;
根据更新后的特征的权重训练垃圾短信分类器。
在本实施例的第二种可能的实现方式中,根据更新信息中包含的垃圾短信特征以及与垃圾短信特征对应的权重更新用于训练垃圾短信分类器的特征的权重,包括:
根据设定的垃圾短信特征过滤规则对更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
根据过滤后得到的垃圾短信特征以及与垃圾短信特征对应的权重更新用于训练垃圾短信分类器的特征权重。
在本实施例的第三种可能的实现方式中,该分类器更新方法还包括:
当接收到的短信被垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据垃圾短信分类器将短信判错为垃圾短信的次数;
当判错值达到预定判错阈值时,获取在判错值从起始值累加至预定判错阈值的时间段内接收的短信所对应的特征以及与特征对应的权重,起始值为判错值在从垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
根据特征以及与特征对应的权重对用于训练垃圾短信分类器的特征的权重进行更新;
根据更新后的特征的权重训练垃圾短信分类器。
在本实施例的第四种可能的实现方式中,该分类器更新方法还包括:
在根据特征以及与特征对应的权重对用于训练垃圾短信分类器的特征的权重进行更新、且根据更新后的特征的权重训练垃圾短信分类器之后,根据训练得到的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的频次;
向服务器发送上传信息,上传信息包括重新确定的垃圾短信特征以及与垃圾短信特征对应的频次。
在本实施例的第五种可能的实现方式中,该分类器更新方法还包括:
当接收到的短信被垃圾短信分类器分类为普通短信时,根据短信类别分类器对短信进行再次分类。
在本实施例的第六种可能的实现方式中,该分类器更新方法还包括:
从服务器获取另一版本的短信类别分类器;
根据获取到的另一版本的短信类别分类器替换当前存在的短信类别分类器,从服务器获取的短信类别分类器的版本晚于当前存在的短信类别分类器的版本。
综上所述,本公开中提供的分类器更新方法,通过利用从服务器获取的更新信息更新垃圾短信分类器,根据该垃圾短信分类器对接收到的短信进行分类;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图3所示,其示出了本公开另一个实施例中提供的分类器更新方法的示例性方法流程图。本实施例以该分类器更新方法应用于图1所示的实施环境中的服务器120中来举例说明。该分类器更新方法,可以包括如下步骤。
在步骤301中,获取第一标定语料库和至少一个终端发送的上传信息,第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,上传信息包括垃圾短信特征以及与垃圾短信特征对应的频次。这里的垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一种。
服务器可以从其他网络或服务器中获取以文本形式存在的短信,并对这些短信进行标记,比如将其中的一些短信标记为垃圾短信,将另一些短信标记为普通短信,当然,在从其他网络或服务器中获取短信时,获取的短信也可能是已经标记好的,最后将标记后的短信放入第一标定语料库中,此时第一标定预料库中则包含标定为垃圾短信的文本和标定为普通短信的文本。
垃圾短信特征为对用于确定一个短信为垃圾短信时的贡献比较大的特征。
垃圾短信关键词为用于确定短信为垃圾短信时贡献比较大的词,比如:“一居”、“户型”、“股票”、“出国”、“热线”或“咨询”等。
垃圾短信长度通常也可以在一定程度上确定一个短信为垃圾短信的概率。
垃圾短信规则可以包括:包含有网址、短信的发件人为手机号码等,垃圾短信规则也可以在一定程度上确定一个短信为垃圾短信的概率。
也就是说,垃圾短信关键词、垃圾短信长度以及垃圾短信规则均可以在一定程度上确定一个短信为垃圾短信。
上传信息为至少一个终端向服务器反馈的信息,该信息中通常包含垃圾短信特征以及与垃圾短信特征对应的频次。
在步骤302中,根据第一标定语料库和上传信息更新垃圾短信分类器。
在步骤303中,根据更新的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的权重。
与某一个垃圾短信特征对应的权重是指在所有的样本中该垃圾短信特征出现的次数在所有特征出现的次数中所占有的比重。
由于服务器中的垃圾短信特征对应的频次与终端的垃圾短信特征对应的频次不在同一个数量级,因此将服务器中的垃圾短信特征的频次发送给终端并没有太大意思,因此,需要在服务器中确定垃圾短信特征的权重,将该权重推送给终端。
在步骤304中,向终端发送更新信息,更新信息包括重新确定的垃圾短信特征以及与垃圾短信特征对应的权重。
在本实施例中的第一种可能的实现方式中,根据第一标定语料库和上传信息更新垃圾短信分类器,包括:
获取与第一标定语料库对应的特征以及与特征对应的频次,特征可以包括垃圾短信特征和普通短信特征,其中普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种;
根据与第一标定语料库对应的特征以及与特征对应的频次和上传信息中的垃圾短信特征以及与垃圾短信特征对应的频次更新用于训练垃圾短信分类器的特征的权重;
根据更新后的特征的权重训练垃圾短信分类器。
在本实施例中的第二种可能的实现方式中,该分类器更新方法还包括:
获取第二标定语料库,第二标定语料库中包含标定为非垃圾短信类别的文本;
根据第二标定语料库训练得到短信类别分类器;
向终端发送该短信类别分类器。
综上所述,本公开中提供的分类器更新方法,通过获取的第一标定语料库和从至少一个终端反馈的上传信息更新垃圾短信分类器,并向终端发送通过垃圾短信分类器重新确定的垃圾短信特征以及与垃圾短信特征对应的权重;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图4所示,其示出了本公开再一个实施例中提供的分类器更新方法的示例性方法流程图。本实施例以该分类器更新方法应用于图1所示的实施环境中来举例说明。该分类器更新方法,可以包括如下步骤。
在步骤401中,服务器获取第一标定语料库和至少一个终端发送的上传信息,第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,上传信息包括垃圾短信特征以及与垃圾短信特征对应的频次。这里的垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个。
服务器可以从其他网络或服务器中获取以文本形式存在的短信,并对这些短信进行标记,比如通过短信内容将其中的一些短信标记为垃圾短信,将另一些短信标记为普通短信,当然,服务器在从其他网络或服务器中获取短信时,获取到的短信也可能是已经标记好的;服务器将标记后的短信放入第一标定语料库中,此时第一标定预料库中则包含标定为垃圾短信的文本和标定为普通短信的文本。
上传信息为至少一个终端向服务器反馈的信息,该信息中通常包含垃圾短信特征以及与垃圾短信特征对应的频次。
垃圾短信特征为对用于确定一个短信为垃圾短信时的贡献比较大的特征。
垃圾短信关键词为用于确定短信为垃圾短信时贡献比较大的词,比如:“一居”、“户型”、“股票”、“出国”、“热线”或“咨询”等。
垃圾短信长度通常也可以在一定程度上确定一个短信为垃圾短信的概率。
垃圾短信规则可以包括:包含有网址、短信的发件人为手机号码等,垃圾短信规则也可以在一定程度上确定一个短信为垃圾短信的概率。
也就是说,垃圾短信关键词、垃圾短信长度以及垃圾短信规则均可以在一定程度上确定一个短信为垃圾短信。
在步骤402中,服务器根据第一标定语料库和上传信息更新垃圾短信分类器。
在步骤403中,服务器根据更新的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的权重。
与某一个垃圾短信特征对应的权重是指在所有的样本中该垃圾短信特征出现的次数在所有特征出现的次数总和中所占有的比重,也即在所有的样本中该垃圾短信特征出现的次数与所有特征出现的次数总和的比值。
由于服务器中获取的垃圾短信特征对应的频次可能会达到很大的数量级,而终端的垃圾短信特征所对应的频次通常会比较少,因此需要利用服务器获取垃圾短信特征对应的权重,并将该权重推送给终端;这样终端则可以根据垃圾短信特征的权重更新本地的特征的权重,进而可以根据更新后的特征的权重训练垃圾短信分类器。
在步骤404中,服务器向终端发送更新信息,更新信息包括重新确定的垃圾短信特征以及与垃圾短信特征对应的权重。
在步骤405中,终端从服务器获取该更新信息。
在步骤406中,终端根据获取到的更新信息更新垃圾短信分类器,垃圾短信分类器用于对接收到的短信进行分类。
在实际应用中,垃圾短信分类器可以采用贝叶斯(Bayes)分类器。由于Bayes分类器训练的计算量小、预测速度快,比较适用于计算能力弱而同时又需要实时预测的终端。Bayes分类器可以对垃圾短信和非垃圾短信样本进行学习,并在终端维护一个垃圾短信特征列表及与垃圾短信特征对应的频次,该垃圾短信特征列表中用于存放确定的垃圾短信特征。
Bayes分类器对短信进行分类的原理是利用Bayes方法将后验概率最大化,即计算短信属于某一分类的概率,选择具有最大后验概率的分类作为该短信所属的分类。当用于生成Bayes分类器的特征向量(f1,...,fn)中的特征项分别表示一个样本短信中的特征1...n出现的频次时,某一个短信在Bayes分类器下的分类就可以表示为:
arg max c p ( C = c ) Π i = 1 n p ( F i = f i | C = c )
其中,C表示该短信的分类,c即为垃圾短信或普通短信。
需要补充说明的是,步骤406中更新的垃圾短信分类器可以是从服务器中获取的初始的垃圾短信分类器,也可以是预存在终端中的。举例来讲,比如在冷启动的情况下,终端可以从服务器中获取初始的垃圾短信分类器,也可以根据接收到的样本进行训练得到初始的垃圾短信分类器。具体来讲,终端在接收到短信之后,用户可以根据该短信的内容将该短信移动至垃圾短信收件箱,此时终端后台会认定为该短信为垃圾短信,并将普通短信收件箱中的短信认定为普通短信,当认定的垃圾短信和普通短信达到预定数量之后,终端可以将这些数量的短信作为样本,对这些短信进行特征提取,并根据对每个短信提取的特征生成与该短信对应的特征向量,一个特征向量的特征项即为从一个短信提取的特征的频次,根据这组特征向量可以确定与这组特征向量对应的特征的权重,根据特征的权重即可训练生成一个垃圾短信分类器。
终端根据垃圾短信分类器可以对接收到的短信进行分类。举例来讲,当终端接收到一个短信时,首先对该短信进行分词,然后根据分词以及该短信的长度、该短信包含的数字、该短信包含的网址等特征进行特征向量建模,得到一个特征向量,根据该垃圾短信分类器对该特征向量进行预测,确定该短信是否为垃圾短信。在一个可能的实现方式中,在通过垃圾短信分类器在对短信所对应的特征向量进行预测之前,还可以首先依次通过设定的黑名单和白名单的规则对该短信进行过滤,如果通过黑名单确定该短信不为垃圾短信,则再通过白名单对该短信类型进行判断,如果白名单确定该短信不为普通短信时,则通过垃圾短信分类器对该短信进行预测。
值得指出的是,步骤401至步骤404可以实施成为以服务器为执行主体的分类器更新方法,步骤405至步骤406可以实施成为以终端为执行主体的分类器更新方法。
综上所述,本公开中提供的分类器更新方法,通过利用从服务器获取的更新信息更新垃圾短信分类器,根据该垃圾短信分类器对接收到的短信进行分类;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图5所示,其示出了本公开再一个实施例中提供的分类器更新方法的示例性方法流程图。本实施例以该分类器更新方法应用于图1所示的实施环境中来举例说明。该分类器更新方法,可以包括如下步骤。
在步骤501中,服务器获取第一标定语料库和至少一个终端发送的上传信息,第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,上传信息包括垃圾短信特征以及与垃圾短信特征对应的频次。这里的垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个。
服务器可以从其他网络或服务器中获取的以文本形式存在的短信,并对这些短信进行标记,比如通过短信内容将其中的一些短信标记为垃圾短信,将另一些短信标记为普通短信,当然,服务器在从其他网络或服务器中获取短信时,获取到的短信也可能是已经标记好的;服务器将标记后的短信放入第一标定语料库中,此时第一标定预料库中则包含标定为垃圾短信的文本和标定为普通短信的文本。
在上述的标记过程中,可以通过人工对短信进行标记,也可以通过预设好的规则对这些短信进行标记。
上传信息为至少一个终端向服务器反馈的信息,该信息中通常包含垃圾短信特征以及与垃圾短信特征对应的频次。
垃圾短信特征为对用于确定一个短信为垃圾短信时的贡献比较大的特征。
垃圾短信关键词为用于确定短信为垃圾短信时贡献比较大的词,比如:“一居”、“户型”、“股票”、“出国”、“热线”或“咨询”等。
垃圾短信长度通常也可以在一定程度上确定一个短信为垃圾短信的概率。
垃圾短信规则可以包括:包含有网址、短信的发件人为手机号码等,垃圾短信规则也可以在一定程度上确定一个短信为垃圾短信的概率。
也就是说,垃圾短信关键词、垃圾短信长度以及垃圾短信规则均可以在一定程度上确定一个短信为垃圾短信。
在步骤502中,服务器获取与第一标定语料库对应的特征以及与特征对应的频次,这些特征包括垃圾短信特征和普通短信特征,其中普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种。
在获取与第一标定语料库对应的特征时,首先需要对第一标定语料库中的所有短信文本进行分词,由于短信是由很多不同的词组成,如果把这些词都作为特征向量的特征项,则特征向量的维数过大,而有些词对区分普通短信或垃圾短信所起的贡献很小,完全可以忽略,因此相应的维数也可以减少,此时仅需要获取区分普通短信或垃圾短信时贡献比较大的关键词即可。
在实际应用中,首先需要对短信进行分词,然后筛选出一部分对确定短信为普通短信时贡献比较大的词作为普通短信关键词,筛选出另一部分对确定短信为垃圾短信时贡献比较大的词作为垃圾短信关键词,剩余一部分词可能对区分垃圾短信和普通短信时的贡献很小,比如“的”、“了”等,则可以直接舍弃这部分词。在实际应用中,通常可以根据词的信息熵增益或互信息来选取出普通短信关键词和垃圾短信关键词。
此外,在建立或更新与垃圾短信分类器对应的特征向量时,除了需要有垃圾短信关键词和普通短信关键词之外,还需要短信长度和规则等特征。其中短信长度可以包括垃圾短信长度和普通短信长度,规则可以包括垃圾短信规则和普通短信规则。
短信长度也可以在一定程度上确定短信是否为垃圾短信,据统计,短信所包含的字符越多,该短信为垃圾短信的概率越大,短信长度与该短信为普通短信的概率还是垃圾短信的概率的关系表可以参见表1。
表1
短信长度(字符) 普通短信 垃圾短信
0~10 49% 0%
10~20 26% 0%
20~30 15% 1%
30~40 5% 5%
40~50 1% 9%
50~60 1% 31%
60~70 3% 53%
70以上 0% 1%
由表1可知,短信长度也需要作为生成或更新特征向量的一个考虑因素。
这里所讲的特征中的规则也可以在一定程度上确定短信是否为垃圾短信或是否为普通短信。这些规则可以包括:短信包含有URL(Uniform ResourceLocator,统一资源定位符)、短信包含电话号码、短信的发送者号码为手机号等。
在步骤503中,服务器根据与第一标定语料库对应的特征以及与特征对应的频次和上传信息中的垃圾短信特征以及与垃圾短信特征对应的频次更新用于训练垃圾短信分类器的特征的权重。
特征向量是由一个样本短信的一组特征的频次组成的向量,其中每一个特征的频次作为该向量的一个特征项。
服务器在更新用于训练垃圾短信分类器的特征的权重时,如果某一个特征已经存在于用于训练垃圾短信分类器的特征中,则增加用于训练垃圾短信分类器的特征中该特征对应的权重;如果某一个特征不存在于用于训练垃圾短信分类器的特征中,则将该特征对应的权重添加至用于训练垃圾短信分类器的特征中。
在步骤504中,服务器根据更新后的特征的权重训练垃圾短信分类器。
在步骤505中,服务器根据更新的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的权重。
与某一个垃圾短信特征对应的权重是指在所有的样本中该垃圾短信特征出现的次数在所有特征出现的次数中所占有的比重,也即在所有的样本中该垃圾短信特征出现的次数与所有特征出现的次数总和的比值。
由于服务器中获取的垃圾短信特征对应的频次可能会达到很大的数量级,而终端的垃圾短信特征所对应的频次通常会比较少,因此需要利用服务器获取垃圾短信特征对应权重,并将该权重推送给终端,这样终端则可以根据垃圾短信特征的权重更新本地的特征的权重,进而可以根据更新后的特征的终端训练垃圾短信分类器。
在步骤506中,服务器向终端发送更新信息,更新信息包括重新确定的垃圾短信特征以及与垃圾短信特征对应的权重。
在实际应用中,由于服务器可以实时获取到其他终端反馈的上传信息以及第一标定语料库,因此服务器根据这些内容重新确定的垃圾短信特征以及与垃圾短信特征对应的权重更能准确反映出当前哪些短信为垃圾短信,所以当服务器重新确定出垃圾短信特征以及与垃圾短信特征对应的权重时,需要将这些内容推送给终端,以保证终端根据这些内容更新本地的垃圾短信分类器,进而可以更加准确地对接收到的短信进行分类。
在步骤507中,终端从服务器获取更新信息。
在步骤508中,终端根据更新信息中包含的垃圾短信特征以及与垃圾短信特征对应的权重更新用于训练垃圾短信分类器的特征的权重。
终端在更新用于垃圾短信分类器的特征的权重时,如果更新信息中某一个垃圾短信特征已经存在于用于训练垃圾短信分类器的特征中,则根据更新信息中与该垃圾短信特征对应的权重更新用于训练垃圾短信分类器的特征中该特征对应的权重;如果更新信息中的某一个垃圾短信特征不存于用于训练垃圾短信分类器的特征中,则将更新信息中与该垃圾短信特征对应的权重添加至用于训练垃圾短信分类器的特征中。
在步骤509中,终端根据更新后的特征的权重训练垃圾短信分类器。
上述在步骤501至步骤509中即完成了根据服务器发送的更新信息对终端的垃圾短信分类器进行更新的过程。
在实际应用中,随着用户对信息关注度的改变,之前确定为垃圾短信的短信可能慢慢被一些用户接受,因此这些短信可能被终端中的垃圾短信分类器确定为普通短信,此时通常还可以将该短信划分至具体的分类中,比如股票类、房产类、旅游类或商业广告类等,以便用户查看具体分类下的短信。
一般的,可以通过短信类别分类器对普通短信进行分类,由于短信类别分类器所需要的训练样本非常多,对训练短信类别分类器的设备的计算能力要求特别高,因此对于终端来讲,基本上不太可能完成对短信类别分类器的训练。而由于服务器的计算能力通常比较高,且服务器可以获取网络中大量的训练样本,因此可以将短信类别分类器的训练放置在服务器中进行,并将在服务器中训练后的短信类别分类器推送至终端,以便终端可以根据该短信类别分类器进行短信的分类。具体的请参见步骤510至步骤514中的内容。
在步骤510中,服务器获取第二标定语料库,第二标定语料库中包含标定为非垃圾短信类别的文本。
服务器可以从其他网络或其他服务器中获取大量文本,并可以对这些文本进行类别标记,比如将文本分别标记为股票类、旅游类、出国咨询类或外语学习类等,然后将标记后的文本存放至第二标定语料库中。也就是说,第二标定语料库中会包含有标记有类别的文本,这里需要说明的是,第二标定语料库中没有标记为垃圾短信类别的文本。
需要补充说明的是,第二标定预料库中的文本通常是从其他网络或其他服务器中获取的非短信类的文本,比如从微博、论坛中获取的文本,在实际应用中,为了能够尽可能地保证分类的准确性,还可以鼓励用户向服务器上传标记有类别的短信,但这时为了保证用户的隐私,首先需要对用户上传的短信进行去隐私化操作,然后将去隐私化的标记有类别的非垃圾短信存放至第二标定语料库中。
在步骤511中,服务器根据第二标定语料库训练得到短信类别分类器。
当服务器获取到具有比较新的内容的第二标定语料库时,可以根据该第二标定语料库训练得到一个较新版本的短信类别分类器。由于终端中的短信类别分类器均是由服务器推送的,因此服务器训练得到的短信类别分类器通常比终端中已经存在的短信类别分类器的版本新。
在步骤512中,服务器向终端发送短信类别分类器。
当服务器训练得到该较新版本的短信类别分类器之后,将较新版本的短信类别分类器发送给终端。
在步骤513中,终端从服务器获取另一版本的短信类别分类器。
从服务器获取的该另一版本的短信类别分类器的版本晚于当前存在的短信类别分类器的版本
在步骤514中,终端根据获取到的另一版本的短信类别分类器替换当前存在的短信类别分类器。
终端在接收到较新版本的短信类别分类器之后,会根据具有较新版本的短信类别分类器替换当前终端存在的短信类别分类器,很显然,根据510至513可知,从服务器中获取到的短信类别分类器的版本通常晚于终端当前存在的短信类别分类器。
在实际应用中,对于同一条短信,有些用户可能会认为是垃圾短信,而有些用户会认为是自己想要查看的非垃圾短信,因此,在不同的终端,还可以对垃圾短信分类器进行个性化更新。在终端对垃圾短信分类器进行个性化更新的过程可以参见步骤515至步骤519中的内容。
在步骤515中,终端根据垃圾短信分类器对接收到的短信进行分类。
很显然,这里所讲的垃圾短信分类器可以是终端根据509训练得到垃圾短信分类器,也可以是终端进行个性化更新时更新后的垃圾短信分类器,还可以是从服务器获取的垃圾短信分类器。
在步骤516中,当接收到的短信被垃圾短信分类器判错为垃圾短信时,终端累加判错值,判错值用于指示根据垃圾短信分类器将短信判错为垃圾短信的次数。
当终端接收到一个短信之后,根据垃圾短信分类器将该短信判定为垃圾短信,并放入至垃圾短信收件箱中,而用户在查看到该短信之后发现该短信是用户感兴趣的短信,此时用户可以将该垃圾短信从垃圾短信收件箱移动至普通短信收件箱,这种情况下,则将判错值加1。也就是说,当垃圾短信分类器被分类至垃圾短信收件箱之后,又被用户移动至普通短信收件箱中,则将认为接收到的短信被垃圾短信分类器判错为垃圾短信,此时,则将判错值加1。
在步骤517中,当判错值达到预定判错阈值时,终端获取在判错值从起始值累加至预定判错阈值的时间段内接收的短信所对应的特征以及与特征对应的权重,该起始值为判错值在从垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
通常来讲,当一个垃圾短信分类器被更新后,会将对应的判错值回归到起始值,该起始值可以为0,也可以为其他的自然数。
预定判错阈值可以根据实际情况进行设定,比如可以设定为起始值+500,还可以设定为起始值+1000,通常来讲,预定判错阈值设定的越高,根据个性化更新得到的垃圾短信分类器进行分类时会越符合该终端使用用户的要求。
在从判错值为起始值开始至判错值累加至预定判错阈值为止的时间段内,获取该时间段内接收到的所有短信所对应的特征以及与特征对应的频次。由于每接收到一个短信之后,总先对该短信的特征进行提取,因此可以获知上述时间段内接收到的所有短信所对应的特征以及与特征对应的频次,然后计算每个特征的频次与所有特征的频次的综合的比值,将该比值作为该特征的权重。即根据上述方式可以计算出上述时间段内接收到的所有短信所对应的特征的权重。
在步骤518中,终端根据获取的特征以及与特征对应的权重对用于训练垃圾短信分类器对应的特征的权重进行更新。
终端根据步骤517获取的特征以及与特征对应的权重可以重新更新经过509更新之后的垃圾短信分类器。
很显然,终端根据步骤517获取的特征以及与特征对应的权重可以重新更新终端内部目前存在的垃圾短信分类器。目前存在的垃圾短信分类器可以是刚从服务器获取的初始的垃圾短信分类器,也可以是根据从服务器获取的更新信息更新后的垃圾短信分类器,还可以是终端根据在一段时间段内接收到的短信进行的个性化更新的垃圾短信分类器。
在步骤519中,终端根据更新后的特征的权重训练垃圾短信分类器。
至此,上述在步骤515至步骤519中即完成了在终端进行的一次对垃圾短信分类器进行个性化更新的过程。
为了保证服务器可以获取到准确度比较高的垃圾短信分类器和比较新的垃圾短信特征以及与垃圾短信特征对应的权重,以便同步推送至其他的终端,终端还可以将本地获取到的较新的垃圾短信特征以及与垃圾短信特征对应的频次发送给服务器,具体过程可以参见步骤520至步骤521中的内容。
在步骤520中,终端根据训练得到的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的频次。
即终端根据步骤519训练得到的垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的频次。
在步骤521中,终端向服务器发送上传信息,上传信息包括重新确定的垃圾短信特征以及与垃圾短信特征对应的频次。
在步骤522中,当接收到的短信被垃圾短信分类器分类为普通短信时,根据短信类别分类器对该短信进行再次分类。
当终端接收到的一个短信被终端已存在的垃圾短信分类器分类为普通短信时,则根据短信类别分类器对该短信进行再次分类,比如将短信再次分类为股票类、出国资讯类或旅游类等。这里所讲的垃圾短信分类器和短信类别分类器分别是在接收到该短信时存在于终端的垃圾短信分类器和短信类别分类器。
值得指出的是,步骤501至步骤506以及步骤510至步骤512可以实施成为以服务器为执行主体的分类器更新方法,步骤507至步骤509以及步骤513至步骤522可以实施成为以终端为执行主体的分类器更新方法。
综上所述,本公开中提供的分类器更新方法,通过将终端和服务器之间的垃圾短信关键词以及与垃圾短信关键词对应的频次进行同步,进而确保终端能够具有较准确的垃圾短信分类器,并且终端可以实时地从服务器中获取较新版本的短信类别分类器以保证在终端对普通短信进行分类时的准确性;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,且用于生成短信类别分类器的第二标定语料库也是从各个网络中获取的大量较新的文本,因此在利用根据这些样本特征更新的垃圾短信分类器和短信类别分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图6所示,其示出了本公开一个实施例中提供的分类器更新装置的示例性结构示意图。本实施例以该分类器更新装置600应用于图1所示的实施环境中的终端140中来举例说明。该分类器更新装置600,可以包括:更新信息获取模块620和第一更新模块640。
更新信息获取模块620,可以用于从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一种;
第一更新模块640,可以用于根据所述更新信息获取模块620获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
综上所述,本公开实施例中提供的分类器更新装置,通过利用从服务器获取的包含有垃圾短信特征以及与垃圾短信特征对应的权重的更新信息更新垃圾短信分类器,根据该垃圾短信分类器对接收到的短信进行分类;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图7所示,其示出了本公开一个实施例中提供的分类器更新装置的示例性结构示意图。本实施例以该分类器更新装置700应用于图1所示的实施环境中的终端140中来举例说明。该分类器更新装置700,可以包括:更新信息获取模块701和第一更新模块702。
更新信息获取模块701,可以用于从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一种;
第一更新模块702,可以用于根据所述更新信息获取模块701获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
在本实施例的第一种可能的实现方式中,所述第一更新模块702,可以包括:第一更新单元702a和第一训练单元702b。
第一更新单元702a,可以用于根据所述更新信息获取模块获取到的所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种;
第一训练单元702b,可以用于根据所述第一更新单元702a更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,所述第一更新单元702a,可以包括:过滤子单元和更新子单元。
过滤子单元,可以用于根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
更新子单元,可以用于根据所述过滤子单元过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
在本实施例的第三种可能的实现方式中,所述分类器更新装置700,还可以包括:累加模块703、特征获取模块704、第二更新模块705和第一训练模块706。
累加模块703,可以用于当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
特征获取模块704,可以用于当所述累加模块703累加的所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
第二更新模块705,可以用于根据所述特征获取模块704获取的所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
第一训练模块706,可以用于根据所述第二更新模块705更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第四种可能的实现方式中,所述分类器更新装置700,还可以包括:第一确定模块707和上传信息发送模块708。
第一确定模块707,可以用于根据所述第一训练模块706训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
上传信息发送模块708,可以用于向所述服务器发送上传信息,所述上传信息包括所述第一确定模块707重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
在本实施例的第五种可能的实现方式中,所述分类器更新装置700,还可以包括:再次分类模块709。
再次分类模块709,可以用于当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述短信进行再次分类。
在本实施例的第五种可能的实现方式中,所述分类器更新装置700,还可以包括:第一获取模块710和替换模块711。
第一获取模块710,可以用于从所述服务器获取另一版本的短信类别分类器;
替换模块711,可以用于根据所述第一获取模块710获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信分类器的版本晚于当前存在的所述短信分类器的版本。
综上所述,本公开中提供的分类器更新装置,通过将终端和服务器之间的垃圾短信特征以及与垃圾短信特征对应的频次或权重进行同步,进而确保终端能够具有较准确的垃圾短信分类器,并且终端可以实时从服务器中获取较新版本的短信类别分类器以保证在终端对普通短信进行分类时的准确性;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;达到了在很大程度上提高短信分类的准确率的效果。
请参见图8所示,其示出了本公开一个实施例中提供的分类器更新装置的示例性结构示意图。本实施例以该分类器更新装置800应用于图1所示的实施环境中的服务器120中来举例说明。该分类器更新装置800,可以包括:第二获取模块820、第三更新模块840、第二确定模块860和更新信息发送模块880。
第二获取模块820,可以用于获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个;
第三更新模块840,可以用于根据所述第二获取模块820获取到的所述第一标定语料库和所述上传信息更新垃圾短信分类器;
第二确定模块860,可以用于根据所述第三更新模块840更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
更新信息发送模块880,可以用于向终端发送更新信息,所述更新信息包括所述第二确定模块860重新确定的所述垃圾短信特征以及与所述垃圾短信关特征对应的权重。
综上所述,本公开中提供的分类器更新装置,通过获取的第一标定语料库和从至少一个终端反馈的上传信息更新垃圾短信分类器,并向终端发送通过垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的权重;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
请参见图9所示,其示出了本公开一个实施例中提供的分类器更新装置的示例性结构示意图。本实施例以该分类器更新装置900应用于图1所示的实施环境中的服务器120中来举例说明。该分类器更新装置900,可以包括:第二获取模块901、第三更新模块902、第二确定模块903和更新信息发送模块904。
第二获取模块901,可以用于获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一种;
第三更新模块902,可以用于根据所述第二获取模块901获取到的所述第一标定语料库和所述上传信息更新垃圾短信分类器;
第二确定模块903,可以用于根据所述第三更新模块902更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
更新信息发送模块904,可以用于向终端发送更新信息,所述更新信息包括所述第二确定模块903重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
在本实施例的第一种可能的实现方式中,所述第三更新模块902,包括:获取单元902a、第二更新单元902b和第二训练单元902c。
获取单元902a,可以用于获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种;
第二更新单元902b,可以用于根据所述获取单元902a获取到的与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
第二训练单元902c,可以用于根据所述第二更新单元902b更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,所述分类器更新装置900,还可以包括:第三获取模块905、第二训练模块906和发送模块907。
第三获取模块905,可以用于获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
第二训练模块906,可以用于根据所述第三获取模块905获取到的所述第二标定语料库训练得到短信类别分类器;
第三发送模块907,可以用于向终端发送所述第二训练模块906训练得到的所述短信类别分类器。
综上所述,本公开中提供的分类器更新装置,通过获取的第一标定语料库和从至少一个终端反馈的上传信息更新垃圾短信分类器,并向终端发送通过垃圾短信分类器重新确定垃圾短信特征以及与垃圾短信特征对应的权重,并且将较新的短信类别分类器推送给终端;解决了手机终端中垃圾短信分类器的训练样本比较少,在对短信进行分类时准确率比较低的问题;由于服务器中得到的垃圾短信特征以及与垃圾短信特征对应的权重是通过大量的样本得到的样本特征,且用于生成短信类别分类器的第二标定语料库也是从各个网络中获取的大量较新的文本,因此在利用根据这些样本特征更新的垃圾短信分类器进行短信分类时,可以达到在很大程度上提高短信分类的准确率的效果。
需要说明的是:上述实施例提供的分类器更新装置在对分类器进行更新时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端和服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分类器更新装置与分类器更新方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参见图10所示,其示出了本公开部分实施例中提供的终端的示例性结构方框图。该终端1000用于实施上述实施例提供的分类器更新方法。本公开中的终端1000可以包括一个或多个如下组成部分:用于执行计算机程序指令以完成各种流程和方法的处理器,用于信息和存储程序指令随机接入存储器(RAM)和只读存储器(ROM),用于存储数据和信息的存储器,I/O设备,界面,天线等。具体来讲:
终端1000可以包括RF(Radio Frequency,射频)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、WiFi(wirelessfidelity,无线保真)模块1070、处理器1080、电源1082、摄像头1090等部件。本领域技术人员可以理解,图10中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对终端1000的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行终端1000的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1000的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与终端1000的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及终端1000的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现终端1000的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现终端1000的输入和输出功能。
终端1000还可包括至少一种传感器1050,比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在终端1000移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1000还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与终端1000之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一终端,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,终端1000通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于终端1000的必须构成,完全可以根据需要在不改变公开的本质的范围内而省略。
处理器1080是终端1000的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行终端1000的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
终端1000还包括给各个部件供电的电源1082(比如电池),优选的,电源可以通过电源管理系统与处理器1082逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
摄像头1090一般由镜头、图像传感器、接口、数字信号处理器、CPU、显示屏幕等组成。其中,镜头固定在图像传感器的上方,可以通过手动调节镜头来改变聚焦;图像传感器相当于传统相机的“胶卷”,是摄像头采集图像的心脏;接口用于把摄像头利用排线、板对板连接器、弹簧式连接方式与终端主板连接,将采集的图像发送给所述存储器1020;数字信号处理器通过数学运算对采集的图像进行处理,将采集的模拟图像转换为数字图像并通过接口发送给存储器1020。
尽管未示出,终端1000还可以包括蓝牙模块等,在此不再赘述。
终端1000除了包括一个或者多个处理器1080,还包括有存储器,以及一个或者多个模块,其中一个或者多个模块存储于存储器中,并被配置成由一个或者多个处理器执行。上述一个或者多个模块具有如下功能:
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一种;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
在本实施例的第一种可能的实现方式中,所述根据获取到的所述更新信息更新垃圾短信分类器,包括:
根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一种;
根据所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,所述根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,包括:
根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
根据过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
在本实施例的第三种可能的实现方式中,上述一个或者多个模块还具有如下功能:
当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
当所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第四种可能的实现方式中,上述一个或者多个模块还具有如下功能:
在所述根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新、且根据更新后的所述特征的权重训练所述垃圾短信分类器之后,根据训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
向所述服务器发送上传信息,所述上传信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
在本实施例的第五种可能的实现方式中,上述一个或者多个模块还具有如下功能:
当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述短信进行再次分类。
在本实施例的第六种可能的实现方式中,上述一个或者多个模块还具有如下功能:
从所述服务器获取另一版本的短信类别分类器;
根据获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信分类器的版本晚于当前存在的所述短信分类器的版本。
请参见图11所示,其示出了本公开部分实施例中提供的服务器的示例性结构示意图。该服务器1100用于实施上述实施例提供的分类器更新方法。所述服务器1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入/输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本公开的各种实施例,所述服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上中央处理单元1101执行。上述一个或者多个中央处理单元1101具有如下功能:
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
在本实施例的第一种可能的实现方式中,所述根据所述第一标定语料库和所述上传信息更新垃圾短信分类器,包括:
获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一个;
根据与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,上述一个或者多个中央处理单元1101具有如下功能:
获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
根据所述第二标定语料库训练得到短信类别分类器;
向终端发送所述短信类别分类器。
请参见图12所示,其示出了本公开一个实施例中提供的分类器更新系统的示例性示意图。本实施例以该分类器更新系统1200应用于图1所示的实施环境来举例说明。该分类器更新系统1200,可以包括服务器1220和至少一个终端1240,服务器1220可以通过有线网络方式或无线网络方式分别与终端1240连接。
终端1240可以包括图6或图7所描述的分类器更新装置,服务器1220可以包括图8或图9所描述的分类器更新装置。
终端1240还可以为图10中所描述的终端,服务器1220还可以为图11中所描述的服务器。
本公开还提供了一种计算机可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端中时,可以使得该电子设备执行如下步骤的指令(instructions):
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
在本实施例的第一种可能的实现方式中,所述根据获取到的所述更新信息更新垃圾短信分类器,包括:
根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一个;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,所述根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于所述垃圾短信分类器的特征的权重,包括:
根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
根据过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
在本实施例的第三种可能的实现方式中,所述一个或多个模块还可以执行如下步骤的指令:
当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
当所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第四种可能的实现方式中,所述一个或多个模块还可以执行如下步骤的指令:
在所述根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新、且根据更新后的所述特征的权重训练所述垃圾短信分类器之后,根据训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
向所述服务器发送上传信息,所述上传信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
在本实施例的第五种可能的实现方式中,所述一个或多个模块还可以执行如下步骤的指令:
当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述短信进行再次分类。
在本实施例的第六种可能的实现方式中,所述一个或多个模块还可以执行如下步骤的指令:
从所述服务器获取另一版本的短信类别分类器;
根据获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信分类器的版本晚于当前存在的所述短信分类器的版本。
本公开还提供了一种计算机可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在服务器中时,可以使得该电子设备执行如下步骤的指令(instructions):
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次,所述垃圾短信特征可以包括垃圾短信关键词、垃圾短信长度和垃圾短信规则中的至少一个;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
在本实施例的第一种可能的实现方式中,所述根据所述第一标定语料库和所述上传信息更新垃圾短信分类器,包括:
获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括垃圾所述垃圾短信特征和普通短信特征,所述普通短信特征可以包括普通短信关键词、普通短信长度和普通短信规则中的至少一个;
根据与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
在本实施例的第二种可能的实现方式中,所述一个或多个模块还可以执行如下步骤的指令:
获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
根据所述第二标定语料库训练得到短信类别分类器;
向终端发送所述短信类别分类器。
上述公开序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的部分实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (25)

1.一种分类器更新方法,其特征在于,所述方法包括:
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据获取到的所述更新信息更新垃圾短信分类器,包括:
根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
3.根据权利要求2所述的方法,其特征在于,所述根据所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,包括:
根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
根据过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
当所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述根据所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新、且根据更新后的所述特征的权重训练所述垃圾短信分类器之后,根据训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
向所述服务器发送上传信息,所述上传信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
6.根据权利要求1至3中任一所述的方法,其特征在于,所述方法还包括:
当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对所述接收到的短信进行再次分类。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从所述服务器获取另一版本的短信类别分类器;
根据获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信类别分类器的版本晚于当前存在的所述短信类别分类器的版本。
8.一种分类器更新方法,其特征在于,所述方法包括:
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一标定语料库和所述上传信息更新垃圾短信分类器,包括:
获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征;
根据与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
根据更新后的所述特征的权重训练所述垃圾短信分类器。
10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
根据所述第二标定语料库训练得到短信类别分类器;
向终端发送所述短信类别分类器。
11.一种分类器更新装置,其特征在于,所述装置包括:
更新信息获取模块,用于从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
第一更新模块,用于根据所述更新信息获取模块获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
12.根据权利要求11所述的装置,其特征在于,所述第一更新模块,包括:
第一更新单元,用于根据所述更新信息获取模块获取到的所述更新信息中包含的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重,所述特征包括所述垃圾短信特征和普通短信特征;
第一训练单元,用于根据所述第一更新单元更新后的所述特征的权重训练所述垃圾短信分类器。
13.根据权利要求12所述的装置,其特征在于,所述第一更新单元,包括:
过滤子单元,用于根据设定的垃圾短信特征过滤规则对所述更新信息中包含的垃圾短信特征进行过滤,获取过滤后的垃圾短信特征;
更新子单元,用于根据所述过滤子单元过滤后得到的所述垃圾短信特征以及与所述垃圾短信特征对应的权重更新用于训练所述垃圾短信分类器的特征的权重。
14.根据权利要求12或13所述的装置,其特征在于,所述装置还包括:
累加模块,用于当接收到的所述短信被所述垃圾短信分类器判错为垃圾短信时,累加判错值,所述判错值用于指示根据所述垃圾短信分类器将短信判错为垃圾短信的次数;
特征获取模块,用于当所述累加模块累加的所述判错值达到预定判错阈值时,获取在所述判错值从起始值累加至所述预定判错阈值的时间段内接收的短信所对应的特征以及与所述特征对应的权重,所述起始值为所述判错值在从所述垃圾短信分类器开始对接收到的第一个短信进行分类时所具有的值;
第二更新模块,用于根据所述特征获取模块获取的所述特征以及与所述特征对应的权重对用于训练所述垃圾短信分类器的特征的权重进行更新;
第一训练模块,用于根据所述第二更新模块更新后的所述特征的权重训练所述垃圾短信分类器。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于根据所述第一训练模块训练得到的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的频次;
上传信息发送模块,用于向所述服务器发送上传信息,所述上传信息包括所述第一确定模块重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的频次。
16.根据权利要求11至13中任一所述的装置,其特征在于,所述装置还包括:
再次分类模块,用于当接收到的所述短信被所述垃圾短信分类器分类为普通短信时,根据短信类别分类器对接收到的短信进行再次分类。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
第一获取模块,用于从所述服务器获取另一版本的短信类别分类器;
替换模块,用于根据所述第一获取模块获取到的另一版本的所述短信类别分类器替换当前存在的所述短信类别分类器,从所述服务器获取的所述短信类别分类器的版本晚于当前存在的所述短信类别分类器的版本。
18.一种分类器更新装置,其特征在于,所述装置包括:
第二获取模块,用于获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
第三更新模块,用于根据所述第二获取模块获取到的所述第一标定语料库和所述上传信息更新垃圾短信分类器;
第二确定模块,用于根据所述第三更新模块更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
更新信息发送模块,用于向终端发送更新信息,所述更新信息包括所述第二确定模块重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
19.根据权利要求18所述的装置,其特征在于,所述第三更新模块,包括:
获取单元,用于获取与所述第一标定语料库对应的特征以及与所述特征对应的频次,所述特征包括所述垃圾短信特征和普通短信特征;
第二更新单元,用于根据所述获取单元获取到的与所述第一标定语料库对应的所述特征以及与所述特征对应的频次和所述上传信息中的所述垃圾短信特征以及与所述垃圾短信特征对应的频次更新用于训练所述垃圾短信分类器的特征的权重;
第二训练单元,用于根据所述第二更新单元更新后的所述特征的权重训练所述垃圾短信分类器。
20.根据权利要求18或19所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取第二标定语料库,所述第二标定语料库中包含标定为非垃圾短信类别的文本;
第二训练模块,用于根据所述第三获取模块获取到的所述第二标定语料库训练得到短信类别分类器;
发送模块,用于向终端发送所述第二训练模块训练得到所述短信类别分类器。
21.一种终端,其特征在于,所述终端包括如权利要求11至17中任一所述的分类器更新装置。
22.一种服务器,其特征在于,所述服务器包括如权利要求18至20中任一所述的分类器更新装置。
23.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器;和
一个或多个模块,所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行,所述一个或多个模块具有如下功能:
从服务器获取更新信息,所述更新信息中包含垃圾短信特征以及与所述垃圾短信特征对应的权重;
根据获取到的所述更新信息更新垃圾短信分类器,所述垃圾短信分类器用于对接收到的短信进行分类。
24.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储器;和
一个或多个模块,所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行,所述一个或多个模块具有如下功能:
获取第一标定语料库和至少一个终端发送的上传信息,所述第一标定语料库中包含标定为垃圾短信的文本和标定为普通短信的文本,所述上传信息包括垃圾短信特征以及与所述垃圾短信特征对应的频次;
根据所述第一标定语料库和所述上传信息更新垃圾短信分类器;
根据更新的所述垃圾短信分类器重新确定垃圾短信特征以及与所述垃圾短信特征对应的权重;
向终端发送更新信息,所述更新信息包括重新确定的所述垃圾短信特征以及与所述垃圾短信特征对应的权重。
25.一种分类器更新系统,其特征在于,所述系统包括服务器和至少一个终端,所述服务器通过有线网络方式或无线网络方式分别与所述各个终端连接;
所述服务器为权利要求22或24所述的服务器;
所述终端为权利要求21或23所述的终端。
CN201310429960.5A 2013-09-18 2013-09-18 分类器更新方法、装置、系统及设备 Active CN103500195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310429960.5A CN103500195B (zh) 2013-09-18 2013-09-18 分类器更新方法、装置、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310429960.5A CN103500195B (zh) 2013-09-18 2013-09-18 分类器更新方法、装置、系统及设备

Publications (2)

Publication Number Publication Date
CN103500195A true CN103500195A (zh) 2014-01-08
CN103500195B CN103500195B (zh) 2016-08-17

Family

ID=49865406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310429960.5A Active CN103500195B (zh) 2013-09-18 2013-09-18 分类器更新方法、装置、系统及设备

Country Status (1)

Country Link
CN (1) CN103500195B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809236A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于微博的用户年龄分类方法及系统
CN105101124A (zh) * 2015-08-07 2015-11-25 北京奇虎科技有限公司 标注短信类别的方法及装置
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN105205079A (zh) * 2014-06-26 2015-12-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105282720A (zh) * 2014-07-23 2016-01-27 中国移动通信集团重庆有限公司 一种垃圾短信过滤方法及装置
CN105681178A (zh) * 2016-04-12 2016-06-15 上海斐讯数据通信技术有限公司 一种终端信息处理的系统和方法
CN105681170A (zh) * 2016-03-08 2016-06-15 北京小米移动软件有限公司 短信拦截方法及装置
CN105828306A (zh) * 2016-03-15 2016-08-03 中国联合网络通信集团有限公司 一种垃圾短信检测方法及装置
CN106933924A (zh) * 2015-12-31 2017-07-07 中国移动通信集团公司 一种信息识别方法及系统
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN107871130A (zh) * 2016-09-27 2018-04-03 顶级公司 图像处理
CN107977404A (zh) * 2017-11-15 2018-05-01 上海壹账通金融科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质
CN108268431A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 段落向量化的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN101472250A (zh) * 2007-12-29 2009-07-01 北京大唐高鸿数据网络技术有限公司 针对不良短消息的关键词防范方法
CN101645971A (zh) * 2009-05-18 2010-02-10 上海闻泰电子科技有限公司 一种手机短信分类规则的创建方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102547623A (zh) * 2010-12-08 2012-07-04 中国电信股份有限公司 垃圾短信处理方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101472250A (zh) * 2007-12-29 2009-07-01 北京大唐高鸿数据网络技术有限公司 针对不良短消息的关键词防范方法
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN101645971A (zh) * 2009-05-18 2010-02-10 上海闻泰电子科技有限公司 一种手机短信分类规则的创建方法
CN102547623A (zh) * 2010-12-08 2012-07-04 中国电信股份有限公司 垃圾短信处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴世竞: ""垃圾短信过滤系统的设计与实现"", 《CNKI中国优秀硕士学位论文全文数据库》 *
吴世竞: ""垃圾短信过滤系统的设计与实现"", 《CNKI中国优秀硕士学位论文全文数据库》, 15 August 2012 (2012-08-15) *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205079A (zh) * 2014-06-26 2015-12-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105282720A (zh) * 2014-07-23 2016-01-27 中国移动通信集团重庆有限公司 一种垃圾短信过滤方法及装置
CN105282720B (zh) * 2014-07-23 2018-12-04 中国移动通信集团重庆有限公司 一种垃圾短信过滤方法及装置
CN104809236A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于微博的用户年龄分类方法及系统
CN104809236B (zh) * 2015-05-11 2018-03-27 苏州大学 一种基于微博的用户年龄分类方法及系统
CN105101124A (zh) * 2015-08-07 2015-11-25 北京奇虎科技有限公司 标注短信类别的方法及装置
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN106933924A (zh) * 2015-12-31 2017-07-07 中国移动通信集团公司 一种信息识别方法及系统
CN105681170B (zh) * 2016-03-08 2019-04-16 北京小米移动软件有限公司 短信拦截方法及装置
CN105681170A (zh) * 2016-03-08 2016-06-15 北京小米移动软件有限公司 短信拦截方法及装置
CN105828306A (zh) * 2016-03-15 2016-08-03 中国联合网络通信集团有限公司 一种垃圾短信检测方法及装置
CN105681178A (zh) * 2016-04-12 2016-06-15 上海斐讯数据通信技术有限公司 一种终端信息处理的系统和方法
CN107871130A (zh) * 2016-09-27 2018-04-03 顶级公司 图像处理
CN107871130B (zh) * 2016-09-27 2023-04-18 Arm有限公司 图像处理
CN108268431A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 段落向量化的方法和装置
CN108268431B (zh) * 2016-12-30 2019-12-03 北京国双科技有限公司 段落向量化的方法和装置
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
US10762901B2 (en) 2017-08-23 2020-09-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for classifying voice-recognized text
CN107977404A (zh) * 2017-11-15 2018-05-01 上海壹账通金融科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质
WO2019095768A1 (zh) * 2017-11-15 2019-05-23 深圳壹账通智能科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质
CN107977404B (zh) * 2017-11-15 2020-08-28 深圳壹账通智能科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
CN103500195B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103500195A (zh) 分类器更新方法、装置、系统及设备
CN106528745B (zh) 在移动终端上推荐资源的方法、装置及移动终端
CN104123937B (zh) 提醒设置方法、装置和系统
WO2020207249A1 (zh) 通知消息的推送方法、装置、存储介质及电子设备
CN109783798A (zh) 文本信息添加图片的方法、装置、终端及存储介质
CN104239535A (zh) 一种为文字配图的方法、服务器、终端及系统
CN103870547A (zh) 联系人的分组处理方法及装置
CN105740263B (zh) 页面显示方法和装置
CN104123316A (zh) 资源收藏方法、装置和设备
CN105335398A (zh) 一种服务推荐方法及终端
CN103702297A (zh) 短信增强方法、装置及系统
CN110209810B (zh) 相似文本识别方法以及装置
CN103455582A (zh) 浏览器导航页的显示方法及移动终端
CN110309339B (zh) 图片标签生成方法及装置、终端及存储介质
CN103605656A (zh) 一种推荐音乐的方法、装置及一种移动终端
CN103402190A (zh) 网络选择方法、装置和终端
WO2014176750A1 (en) Reminder setting method, apparatus and system
CN103914502A (zh) 使用情形识别的智能搜索服务的方法及其终端
CN104951432A (zh) 一种对信息进行处理的方法及装置
CN107402808B (zh) 进程管理方法、装置、存储介质及电子设备
CN103533152A (zh) 一种移动终端的短信处理方法及系统
CN103501487A (zh) 分类器更新方法、装置、终端、服务器及系统
CN103401982A (zh) 信息显示方法、装置和移动终端
CN104093085A (zh) 信息显示方法和装置
CN106293738A (zh) 一种表情图像的更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant