CN105302877B - 用于短信领域分类的方法、短信领域识别方法及装置 - Google Patents

用于短信领域分类的方法、短信领域识别方法及装置 Download PDF

Info

Publication number
CN105302877B
CN105302877B CN201510650441.0A CN201510650441A CN105302877B CN 105302877 B CN105302877 B CN 105302877B CN 201510650441 A CN201510650441 A CN 201510650441A CN 105302877 B CN105302877 B CN 105302877B
Authority
CN
China
Prior art keywords
short message
field
template
message field
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510650441.0A
Other languages
English (en)
Other versions
CN105302877A (zh
Inventor
汪平仄
张涛
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510650441.0A priority Critical patent/CN105302877B/zh
Publication of CN105302877A publication Critical patent/CN105302877A/zh
Application granted granted Critical
Publication of CN105302877B publication Critical patent/CN105302877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种用于短信领域分类的方法、短信领域识别方法及装置。用于短信领域分类的方法包括:确定收集到的所有短信领域中每一短信领域对应的短信模板集合;根据所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;根据在设定时间段内统计到的每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定每一短信模板对应的用于训练分类器的次数;通过训练数据集以及短信模板集合中的每一短信模板对应的用于训练分类器的次数训练分类器。本公开技术方案可以避免相关技术中将所有的语义模板作为候选模板对接收到的短信进行匹配导致的计算负担,为短信内容的深度理解做了较好的铺垫。

Description

用于短信领域分类的方法、短信领域识别方法及装置
技术领域
本公开涉及文本分类领域,尤其涉及一种用于短信领域分类的方法、短信领域识别方法及装置。
背景技术
由于通知类短信的文本内容较短,但是知识点较为密集,例如,航班订单短信中,包含:航班号、起飞城市、到达城市、起飞机场、到达机场、起飞时间、到达时间、坐席、航空公司、票号等信息,对于如此密集的实体抽取,为了保证较高的准确率,相关技术通常采用基于词汇-句法模式的方法,在句法模式的表达上使用语义模板。由于语义模板的数量非常庞大,因此移动终端在接收到通知类短信后,如果将所有的语义模板均作为候选模板对接收到的短信进行匹配,对于移动终端的处理器而言将会是较大的计算负担。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种用于短信领域分类的方法、短信领域识别方法及装置,通过对短信进行领域分类从而方便对短信进行深度理解。
根据本公开实施例的第一方面,提供一种用于短信领域分类的方法,包括:
确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数;
通过所述训练数据集以及所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。
在一实施例中,所述根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集,可包括:
确定所述所有短信领域中的每一短信模板与所述每一短信领域的第一映射集合,所述第一映射集合为所述所有短信模板中的每一短信模板、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系;
确定所述第一映射集合中的每一短信模板中的关键字集合;
标注所述每一短信模板中的关键字集合,得到第二映射集合,所述第二映射集合为所述所有短信模板中的每一短信模板中的关键字集合、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系,将所述第二映射集合作为训练数据集。
在一实施例中,所述方法还可包括:
确定所述所有短信领域中每一短信领域对应的号码集合;
确定所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
确定所述频繁前缀集合与所述所有短信领域中每一短信领域的第三映射集合,以及确定所述频繁后缀集合与所述所有短信领域中每一短信领域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用于基于待分类短信的发送方号码确定所述待分类短信的候选短信领域,以便根据所述候选短信领域对应的分类器得到所述待分类短信的分类结果。
在一实施例中,所述确定所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合,可包括:
确定所述每一短信领域对应的号码集合中的每一发送方号码的前缀和所述每一发送方号码的后缀;
统计所述号码集合中的每一个前缀出现的第一次数和所述号码集合中的每一个后缀出现的第二次数;
将所述第一次数大于第一设定阈值的前缀确定为所述每一短信领域对应的号码集合对应的频繁前缀集合,将所述第二次数大于第二设定阈值的后缀确定为所述每一短信领域对应的号码集合对应的频繁后缀集合。
在一实施例中,所述方法还可包括:
将训练后的所述分类器、所述第三映射集合和所述第四映射集合发送给移动终端,以使所述移动终端根据所述第三映射集合、所述第四映射集合、所述分类器得到短信所属的短信领域。
根据本公开实施例的第二方面,提供一种短信领域识别方法,包括:
在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的短信领域集合;
如果所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容进行概率统计,得到两个以上的统计结果;
将所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的短信领域。
在一实施例中,所述根据所述短信的发送方号码确定所述短信对应的短信领域集合,可包括:
确定所述短信的发送方号码的前缀和后缀;
分别在第三映射集合和第四映射集合查询所述前缀和所述后缀,得到所述前缀和所述后缀分别对应的第一领域集合和第二领域集合,其中,所述第三映射集合和所述第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系;
通过所述第一领域集合和所述第二领域集合确定所述短信所属的短信领域。
在一实施例中,所述方法还可包括:
如果所述短信领域集合包括一个短信领域,将所述短信领域集合所包括的该短信领域确定为所述短信所属的短信领域。
根据本公开实施例的第三方面,提供一种数短信领域分类装置,包括:
第一确定模块,被配置为确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
第二确定模块,被配置为根据所述第一确定模块确定的所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
第三确定模块,被配置为根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器次数;
训练模块,被配置为通过所述第二确定模块确定的所述训练数据集以及所述第三确定模块确定的所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。
在一实施例中,所述第二确定模块可包括:
第一确定子模块,被配置为确定所述所有短信领域中的每一短信模板与所述每一短信领域的第一映射集合,所述第一映射集合为所述所有短信模板中的每一短信模板、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系;
第二确定子模块,被配置为确定所述第一确定子模块确定的所述第一映射集合中的每一短信模板中的关键字集合;
标注子模块,被配置为标注所述第二确定子模块确定的所述每一短信模板中的关键字集合,得到第二映射集合,所述第二映射集合为所述所有短信模板中的每一短信模板中的关键字集合、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系,将所述第二映射集合作为训练数据集。
在一实施例中,所述装置还可包括:
第四确定模块,被配置为确定所述所有短信领域中每一短信领域对应的号码集合;
第五确定模块,被配置为确定所述第四确定模块确定的所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
第六确定模块,被配置为确定所述第五确定模块确定的所述频繁前缀集合与所述所有短信领域中每一短信领域的第三映射集合,以及确定所述频繁后缀集合与所述所有短信领域中每一短信领域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用于基于待分类短信的发送方号码确定所述待分类短信的候选短信领域,以便根据所述候选短信领域对应的分类器得到所述待分类短信的分类结果。
在一实施例中,所述第五确定模块可包括:
第三确定子模块,被配置为确定所述每一短信领域对应的号码集合中的每一发送方号码的前缀和所述每一发送方号码的后缀;
统计子模块,被配置为统计所述第三确定子模块确定的所述号码集合中的每一个前缀出现的第一次数和所述号码集合中的每一个后缀出现的第二次数;
第四确定子模块,被配置为将所述统计子模块统计到的所述第一次数大于第一设定阈值的前缀确定为所述每一短信领域对应的号码集合对应的频繁前缀集合,将所述统计子模块统计到的所述第二次数大于第二设定阈值的后缀确定为所述每一短信领域对应的号码集合对应的频繁后缀集合。
在一实施例中,所述装置还可包括:
发送模块,被配置为将所述训练模块训练后的所述分类器、所述第六确定模块确定的所述第三映射集合和所述第四映射集合发送给移动终端,以使所述移动终端根据所述第三映射集合、所述第四映射集合、所述分类器得到短信所属的短信领域。
根据本公开实施例的第四方面,提供一种短信领域识别装置,包括:
第七确定模块,被配置为在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的短信领域集合;
统计模块,被配置为如果所述第七确定模块确定的所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容进行概率统计,得到两个以上的统计结果;
第八确定模块,被配置为将所述统计模块统计得到的所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的短信领域。
在一实施例中,所述第七确定模块可包括:
第五确定子模块,被配置为确定所述短信的发送方号码的前缀和后缀;
查询子模块,被配置为分别在第三映射集合和第四映射集合查询所述第五确定子模块确定的所述前缀和所述后缀,得到所述前缀和所述后缀分别对应的第一领域集合和第二领域集合,其中,所述第三映射集合和所述第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系;
第六确定子模块,被配置为通过所述查询子模块得到的所述第一领域集合和所述第二领域集合确定所述短信所述的短信领域集合。
在一实施例中,所述装置还可包括:
第九确定模块,被配置为如果所述第七确定模块确定的所述短信领域集合包括一个短信领域,将所述短信领域集合所包括的该短信领域确定为所述短信所属的短信领域。
根据本公开实施例的第五方面,提供一种数短信领域分类装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数;
通过所述训练数据集以及所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。
根据本公开实施例的第六方面,提供一种短信领域识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的短信领域集合;
如果所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容进行概率统计,得到两个以上的统计结果;
将所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的短信领域。
本公开的实施例提供的技术方案可以包括以下有益效果:通过所有短信领域中每一短信领域对应的每一个短信模板作为分类器的训练数据集,通过每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数,通过训练数据集和短信模板集合中的每一短信模板对应的用于训练所述分类器的次数对分类器进行训练,从而使训练后的分类器能够通过对短信领域进行分类,进而可以使移动终端通过分类器对接收到的短信进行领域识别,避免相关技术中将所有的语义模板作为候选模板对接收到的短信进行匹配导致的计算负担;此外,由于短信领域是短信深度理解的必要步骤,本实施例通过对短信领域进行分类,为短信内容的深度理解做了较好的铺垫。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的用于短信领域分类的方法的流程图。
图2是根据一示例性实施例一示出的用于短信领域分类的方法的流程图。
图3是根据一示例性实施例二示出的用于短信领域分类的方法的流程图。
图4A是根据一示例性实施例示出的短信领域识别方法的流程图。
图4B是根据一示例性实施例示出的短信领域识别方法的场景图。
图5是根据一示例性实施例一示出的短信领域识别方法的流程图。
图6是根据一示例性实施例二示出的短信领域识别方法的流程图。
图7是根据一示例性实施例示出的一种用于短信领域分类的装置的框图。
图8是根据一示例性实施例示出的另一种用于短信领域分类的装置的框图。
图9是根据一示例性实施例示出的一种短信领域识别装置的框图。
图10是根据一示例性实施例示出的另一种短信领域识别装置的框图。
图11是根据一示例性实施例示出的一种适用于用于短信领域分类的装置的框图。
图12是根据一示例性实施例示出的一种适用于短信领域识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的用于短信领域分类的方法的流程图;该短信领域分类方法可以应用在云服务器上,该云服务器可以收集用户通过移动终端上传的短信,如图1所示,该用于短信领域分类的方法包括以下步骤S101-S104:
在步骤S101中,确定收集到的所有短信领域中每一短信领域对应的短信模板集合。
例如,定义“去哪儿网航班预订”短信领域为D1,“去哪儿网酒店预订”短信领域为D2,“去哪儿网火车票预订”短信领域为D3,“铁路客服火车票预订”短信领域为D4,…;其中,第i个短信领域Di对应的短信模板集合为:{Pi1,Pi2,…,Pij,…,Pim},在该短信模板集合中,共有m个短信模板,m为正整数,Pij为Di的第j个模板。
在步骤S102中,根据所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集。
在一实施例中,所有短信领域D的所有模板集合Q={{P11,P12,…,P1m},{P21,…,P22,…,P2n},…,{Pt1,Pt2,…,Ptk}}训练分类器,其中,所有短信领域D中共有t个短信领域,每个短信领域对应的短信模板集合中包括不同个数的短信模板,例如,第t个短信领域对应的短信模板集合中共有k个短信模板,由此可知,所有短信领域D的所有模板集合中共有(m+n+…+k)个短信模板,可以将该(m+n+…+k)个短信模板作为分类器的训练数据集。在一实施例中,分类器可以为朴素贝叶斯分类器,通过朴素贝叶斯分类器可以对短信领域的分类具有较佳的分类效果,当然,还可以为其它能够对短信领域进行分类的分类器。
在步骤S103中,根据在设定时间段内统计到的每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定每一短信模板对应的用于训练所述分类器的次数。
在步骤S104中,通过训练数据集训以及短信模板集合中的每一短信模板对应的用于训练分类器的次数训练分类器,分类器用于得到相应短信领域的分类结果。
在一实施例中,以设定时间段为一个月为例第i个短信领域Di对应的短信模板集合进行示例性说明,短信领域Di对应的短信模板集合为:{Pi1,Pi2,…,Pij,…,Pim},该第i个短信领域Di对应的短信模板匹配短信的频次依次为{Fi1,Fi2…,Fij,…,Fim},可替换地,可以将短信模板与对应的频次以二元组的方式记录为:{<Pi1,Fi1>,<Pi2,Fi2>,…,<Pij,Fij>,…,<Pim,Fim>}。
本实施例中,通过所有短信领域中每一短信领域对应的每一个短信模板作为分类器的训练数据集,通过每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数,通过训练数据集和短信模板集合中的每一短信模板对应的用于训练所述分类器的次数对分类器进行训练,从而使训练后的分类器能够通过对短信领域进行分类,进而可以使移动终端通过分类器对接收到的短信进行领域识别,避免相关技术中将所有的语义模板作为候选模板对接收到的短信进行匹配导致的计算负担;此外,由于短信领域是短信深度理解的必要步骤,本实施例通过对短信领域进行分类,为短信内容的深度理解做了较好的铺垫。
在一实施例中,根据所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集,可包括:
确定所有短信领域中的每一短信模板与每一短信领域的第一映射集合,第一映射集合为所有短信模板中的每一短信模板、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系:
确定第一映射集合中的每一短信模板中的关键字集合;
标注每一短信模板中的关键字集合,得到第二映射集合,第二映射集合为所有短信模板中的每一短信模板中的关键字集合、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系,将第二映射集合作为训练数据集。
在一实施例中,方法还可包括:
确定所有短信领域中每一短信领域对应的号码集合;
确定每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
确定频繁前缀集合与所有短信领域中每一短信领域的第三映射集合,以及确定频繁后缀集合与所有短信领域中每一短信领域的第四映射集合,其中,第三映射集合和第四映射集合用于基于待分类短信的发送方号码确定待分类短信的候选短信领域,以便根据候选短信领域对应的分类器得到待分类短信的分类结果。
在一实施例中,确定每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合,可包括:
确定每一短信领域对应的号码集合中的每一发送方号码的前缀和每一发送方号码的后缀;
统计号码集合中的每一个前缀出现的第一次数和号码集合中的每一个后缀出现的第二次数;
将第一次数大于第一设定阈值的前缀确定为每一短信领域对应的号码集合对应的频繁前缀集合,将第二次数大于第二设定阈值的后缀确定为每一短信领域对应的号码集合对应的频繁后缀集合。
在一实施例中,方法还可包括:
将训练后的分类器、第三映射集合和第四映射集合发送给移动终端。
具体如何对短信进行领域分类的,请参考后续实施例。
至此,本公开实施例提供的上述方法,可以使训练后的分类器能够对短信领域进行分类,进而可以使移动终端通过分类器对接收到的短信进行领域识别,避免相关技术中将所有的语义模板作为候选模板对接收到的短信进行匹配导致的计算负担;此外,通过对短信领域进行分类,为短信内容的深度理解做了较好的铺垫。
下面以具体实施例来说明本公开实施例提供的技术方案。
图2是根据一示例性实施例一示出的用于短信领域分类的方法的流程图;本实施例利用本公开实施例提供的上述方法,以分类器具体为朴素贝叶斯分类器以及如何确定朴素贝叶斯分类器的训练数据集为例进行示例性说明,如图2所示,包括如下步骤:
在步骤S201中,确定所有短信领域中的每一短信模板与每一短信领域的第一映射集合,第一映射集合为所有短信模板中的每一短信模板、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系。
在一实施例中,通过对所有短信领域中的每一短信模板所属的短信领域进行统计,得到第一映射集合,其中,第一映射集合G为:
其中,<P1m,F1m>→D1表示短信模板P1m在一个月内匹配到的短信数量为F1m,短信模板P1m属于短信领域D1
在步骤S202中,确定第一映射集合中的每一短信模板中的关键字集合。
在步骤S203中,标注每一短信模板中的关键字集合,得到第二映射集合,第二映射集合为所有短信模板中的每一短信模板中的关键字集合、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系,将第二映射集合作为训练数据集。
在一实施例中,可以提取短信模板Pij中的关键字,对关键字进行分词,由第一映射集合得到对关键字标注好的第二映射集合T:
例如:短信领域Di的第j个短模板为Pij=“成功预订<#时间#>至<#时间#><#酒店名#>酒店<#数字#>间豪华标准间-优惠价。入住人:<#人名#>”,可以得到如下关键字:
<Wij1,Wij2,…,Wijk>=<成功,预订,至,酒店,间,豪华,标准间,优惠价,入住,人>。
本实施例中,通过对所有短信领域中的每一短信模板所属的短信领域进行统计,得到第一映射集合,进而由第一映射集合得到对关键字标注好的第二映射集合,从而可以使短信模板中的关键字与短信领域进行准确对应,避免将错误的训练数据集对朴素贝叶斯分类器进行训练,确保朴素贝叶斯分类器的精准分类。
图3是根据一示例性实施例二示出的用于短信领域分类的方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何通过短信模板对应的发送方号码对短信领域进行分类为例进行示例性说明,如图3所示,包括如下步骤:
在步骤S301中,确定所有短信领域中每一短信领域对应的号码集合。
在步骤S302中,确定每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合。
在步骤S303中,确定频繁前缀集合与所有短信领域中每一短信领域的第三映射集合,以及确定频繁后缀集合与所有短信领域中每一短信领域的第四映射集合,其中,第三映射集合和第四映射集合用于基于待分类短信的发送方号码确定待分类短信的候选短信领域,以便根据候选短信领域对应的分类器得到待分类短信的分类结果。
在一实施例中,可以对每一个短信领域中的每一短信模板的发送方号码进行统计得到每一个短信领域的发送方号码对应的号码集合,以短信领域Di为例进行示例性说明,短信领域Di的发送方号码对应的号码集合{Numi1,Numi2,…,Numin},提取号码集合{Numi1,Numi2,…,Numin}中每一发送方号码的前缀和每一个发送方号码的后缀,统计得到号码集合中的每一个前缀出现的第一次数和每一个后缀出现的第二次数,分别统计第一次数大于第一设定阈值的前缀和第二次数大于第二设定阈值的后缀,可以得到频繁前缀集合Prei={Prei1,Prei2,…,Preia}和频繁后缀集合Sufi={Sufi1,Sufi2,…,Sufib}。在一实施例中,第一设定阈值和第二设定阈值可以相同,也可以不同,可以根据实际的统计结果来确定第一设定阈值和第二设定阈值。
例如,号码集合为:{106955555,106966666,106977777,106988888,106500000,106511111,106522222},预设阈值λ=3,前缀为发送方号码的前四位,后缀为发送方号码的后四位,由此可以得到号码集合中的前缀为{1069,1069,1069,1069,1065,1065,1065},号码集合中的后缀为{5555,6666,7777,8888,0000,1111,2222},由此可以得到1069对应第一次数为4,1065对应第一次数为3,后缀对应的第二次数均为1。由此可以统计得到频繁前缀集合为{1069,1065},频繁后缀集合为空。
通过上述的过程,可以对所有短信领域D的所有前缀集合构建前缀到短信领域集合的第三映射集合为:Prexy->{Di,Dj,…,Dk};对所有短信领域D的所有后缀集合构建后缀到短信领域集合的第四映射集合为:Sufxy->{Di,Dj,…Dk},通过发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系,可以对发送方号码所属的短信领域进行初步的分类。
本实施例中,通过统计发送方号码的频繁前缀集合和频繁后缀集合,构建号码前到短信领域的第三映射集合和号码后缀到短信领域的第四映射集合,由于短信的发送发号码与短信领域密切相关,因此通过第三映射集合和第四映射集合可以使对短信领域的分类更加精准。
在上述实施例的基础上,在一实施例中,本公开还可以包括:
将训练后的分类器、第三映射集合和第四映射集合发送给移动终端,从而可以使移动终端对接收到的短信进行领域识别,以使移动终端根据第三映射集合、第四映射集合、分类器得到短信所属的短信领域,移动终端具体如何实现对接收到的短信进行领域识别的,请参见下述实施例,在此先不详述。
在另一实施例中,还可以接收移动终端接收到的短信以及发送方号码,通过训练后的分类器、第三映射集合和第四映射集对短信的领域进行识别,将识别结果返回至移动终端,从而避免移动终端对短信领域进行识别,减轻移动终端的计算负担。
此外,可以通过上述图1和图3的结合或者图2和图3的结合实现对短信模板进行分类,从而可以结合发送方号码的第三映射集合、第四映射集合以及分类器对短信模板进行分类,达到了对短信模板进行双重分类的目的,使短信领域的分类结果达到最佳。
图4A是根据一示例性实施例示出的短信领域识别方法的流程图,图4B是根据一示例性实施例示出的短信领域识别方法的场景图;该短信领域识别方法可以应用在能够收发短信的移动终端上,该移动终端上安装有短信应用程序或者短信软件,如图4A所示,该短信领域识别方法包括以下步骤S401-S403:
在步骤S401中,在短信应用程序接收到短信后,根据短信的发送方号码确定短信对应的短信领域集合。
在一实施例中,当移动终端接收到短信SMS=<Num,Body>后,其中,Num为发送方号码,Body为短信内容,可以先根据发送方号码Num对短信所属的短信领域进行粗识别,得到短信对应的短信领域集合。
在步骤S402中,如果短信领域集合包括两个以上的短信领域,通过分类器对短信的内容进行概率统计,得到两个以上的统计结果。
在步骤S403中,将两个以上的统计结果中的最大值对应的短信领域确定为短信所属的短信领域。
在一实施例中,若发送方号码Num对应的短信领域集合{Da,Db,…,De},通过上述实施例中已训练的分类器对短信的文本内容进行概率计算,将概率最大的短信领域Dj作为该短信所属的短信领域。
作为一个示例性场景,如图4B所示,以服务器为云服务器为例进行示例性说明,该云服务器可以由网站提供商或者设备提供商提供,如图4B所示,云服务器41可以通过上述图1-图3所示实施例的方法得到训练后的分类器、第三映射集合以及第四映射集合,从而对短信领域进行分类,云服务器41可以将训练后的分类器、第三映射集合以及第四映射集合发送给移动终端42,移动终端42在接收到短信后,通过本实施例的方法对接收到的短信进行领域识别。
本实施例中,由于第三映射集合和第四映射集合结合了发送方号码,因此通过第三映射集合、第四映射集合以及分类器对短信模板进行领域识别,达到了对短信模板进行双重识别的目的,使对短信的领域识别更加精准;此外,通过对短信领域进行领域识别,为短信内容的深度理解做了较好的铺垫。
在一实施例中,根据短信的发送方号码确定短信对应的短信领域集合,可包括:
确定短信的发送方号码的前缀和后缀;
分别在第三映射集合和第四映射集合查询前缀和后缀,得到前缀和后缀分别对应的第一领域集合和第二领域集合;
通过第一领域集合和第二领域集合确定短信所属的短信领域集合。
在一实施例中,方法还可包括:
如果短信领域集合包括一个短信领域,将短信领域集合所包括的该短信领域确定为短信所属的短信领域。
具体如何对短信进行领域识别的,请参考后续实施例。
至此,本公开实施例提供的上述方法,可以达到了对短信模板进行双重识别的目的,使对短信的领域识别更加精准;此外,通过对短信领域进行领域识别,为短信内容的深度理解做了较好的铺垫。
下面以具体实施例来说明本公开实施例提供的技术方案。
图5是根据一示例性实施例一示出的短信领域识别方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何通过短信的发送方号码确定短信对应的短信领域集合为例进行示例性说明,如图5所示,包括如下步骤:
在步骤S501中,确定短信的发送方号码的前缀和后缀。
在一实施例中,前缀和后缀的位数可以与上述图3所示实施例的位数相一致。
在步骤S502中,分别在第三映射集合和第四映射集合查询前缀和后缀,得到前缀和后缀分别对应的第一领域集合和第二领域集合,其中,第三映射集合和第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系。
在一实施例中,第三映射集合和第四映射集合可以通过上述图3所示实施例的方法得到,移动终端可以从云服务器处获取到。
在步骤S503中,通过第一领域集合和第二领域集合确定短信所属的短信领域。
例如,通过上述图3所示实施例得到的第三映射集合和第四映射集合得到该发送方号码Num对应的短信领域集合{Da,Db,…,De},短信领域集合{Da,Db,…,De}属于所有短信领域D中的子集,其中,Da、Db、…、De分别为短信领域D的第a个、第b个、…、第e个短信领域。
本实施例中,通过发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系对移动终端接收到的短信所属的短信领域进行粗识别,进而通过第一领域集合和第二领域集合对发送方号码所属的短信领域进行精细的分类,可以缩小短信领域的识别范围,降低移动终端对短信进行领域识别的复杂度。
图6是根据一示例性实施例二示出的短信领域识别方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何通过发送方号码对应的短信领域集合识别短信领域为例进行示例性说明,如图6所示,包括如下步骤:
在步骤S601中,当接收到短信时,根据短信的发送方号码确定短信的前缀映射和后缀映射,确定发送方号码对应的短信领域集合。
步骤S601的描述可以参见上述图5所示实施例的相关描述,在此不再详述。
在步骤S602中,确定短信领域集合是否为空,如果为空,流程结束,表示该短信不在已分类的短信领域中;如果不为空,执行步骤S603。
在一实施例中,可以通过统计短信领域集合中的元素个数来确定短信领域集合是否为空,如果短信领域集合中的元素个数为0,表示短信领域集合为空。
在步骤S603中,确定短信领域集合中的元素个数是否为两个以上,如果元素个数为两个以上,执行步骤S604,如果元素个数为一个,将该短信领域集合所包含的短信领域作为短信的领域。
如果短信领域集合中的元素个数为一个,由于第三映射集合和第四映射集合是通过上述图3所示实施例统计训练得到的,因此当元素个数为1时,该短信领域集中的短信领域即可以作为短信的领域。
在步骤S604中,通过分类器对短信的内容进行概率统计,得到两个以上的统计结果。
在步骤S605中,将两个以上的统计结果中的最大值对应的短信领域确定为短信所属的短信领域。
步骤S604和步骤S605的描述可以参见上述图4A所示实施例的相关描述,在此不再详述。
本实施例中,通过对接收到的短信进行发送方号码和短信的文本内容的双重识别,实现对短信的领域识别,由于发送方号码与文本内容均能够准确的表示短信所属的短信领域,因此双重识别的方式对短信领域的识别达到了较好的识别效果。
图7是根据一示例性实施例示出的一种短信领域分类装置的框图,可以应用在云服务器上,如图7所示,短信领域分类装置包括:
第一确定模块71,被配置为确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
第二确定模块72,被配置为根据第一确定模块71确定的所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
第三确定模块73,被配置为根据在设定时间段内统计到的每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定每一短信模板对应的用于训练所述分类器次数;
训练模块74,被配置为通过第二确定模块72确定的训练数据集以及第三确定模块74确定的短信模板集合中的每一短信模板对应的用于训练分类器的次数分类器,分类器用于得到相应短信领域对应的分类结果。
图8是根据一示例性实施例示出的另一种短信领域分类装置的框图,如图8所示,在上述图7所示实施例的基础上,在一实施例中,第二确定模块72可包括:
第一确定子模块721,被配置为确定所有短信领域中的每一短信模板与每一短信领域的第一映射集合,第一映射集合为所有短信模板中的每一短信模板、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系;
第二确定子模块722,被配置为确定第一确定子模块721确定的第一映射集合中的每一短信模板中的关键字集合;
标注子模块723,被配置为标注第二确定子模块722确定的每一短信模板中的关键字集合,得到第二映射集合,第二映射集合为所有短信模板中的每一短信模板中的关键字集合、每一短信模板在设定时间段内统计到的频次与每一短信领域的对应关系,将第二映射集合作为训练数据集。
在一实施例中,装置还可包括:
第四确定模块75,被配置为确定所有短信领域中每一短信领域对应的号码集合;
第五确定模块76,被配置为确定第四确定模块75确定的每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
第六确定模块77,被配置为确定第五确定模块76确定的频繁前缀集合与所有短信领域中每一短信领域的第三映射集合,以及确定频繁后缀集合与所有短信领域中每一短信领域的第四映射集合,其中,第三映射集合和第四映射集合用于基于待分类短信的发送方号码确定待分类短信的候选短信领域,以便根据候选短信领域对应的分类器得到待分类短信的分类结果。
在一实施例中,第五确定模块76可包括:
第三确定子模块761,被配置为确定每一短信领域对应的号码集合中的每一发送方号码的前缀和每一发送方号码的后缀;
统计子模块762,被配置为统计第三确定子模块761确定的号码集合中的每一个前缀出现的第一次数和号码集合中的每一个后缀出现的第二次数;
第四确定子模块763,被配置为将统计子模块762统计到的第一次数大于第一设定阈值的前缀确定为每一短信领域对应的号码集合对应的频繁前缀集合,将统计子模块762统计到的第二次数大于第二设定阈值的后缀确定为每一短信领域对应的号码集合对应的频繁后缀集合。
在一实施例中,装置还可包括:
发送模块78,被配置为将训练模块74训练后的分类器、第六确定模块77确定的第三映射集合和第四映射集合发送给移动终端,以使移动终端根据第三映射集合、第四映射集合、分类器得到短信所属的短信领域。
图9是根据一示例性实施例示出的一种短信领域识别装置的框图,可以应用在移动终端上,如图9所示,短信领域识别装置包括:
第七确定模块91,被配置为在短信应用程序接收到短信后,根据短信的发送方号码确定短信对应的短信领域集合;
统计模块92,被配置为如果第七确定模块91确定的短信领域集合包括两个以上的短信领域,通过分类器对短信的内容进行概率统计,得到两个以上的统计结果;
第八确定模块93,被配置为将统计模块92统计得到的两个以上的统计结果中的最大值对应的短信领域确定为短信所属的短信领域。
图10是根据一示例性实施例示出的另一种短信领域识别装置的框图,可以应用在移动终端上,如图10所示,在上述图9所示实施例的基础上,在一实施例中,第七确定模块91可包括:
第五确定子模块911,被配置为确定短信的发送方号码的前缀和后缀;
查询子模块912,被配置为分别在第三映射集合和第四映射集合查询第五确定子模块911确定的前缀和后缀,得到前缀和后缀分别对应的第一领域集合和第二领域集合,其中,第三映射集合和第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系;
第六确定子模块913,被配置为通过查询子模块912得到的第一领域集合和第二领域集合确定短信所属的短信领域集合。
在一实施例中,装置还可包括:
第九确定模块94,被配置为如果第七确定模块91确定的短信领域集合包括一个短信领域,将短信领域集合所包括的该短信领域确定为短信所属的短信领域。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种适用于用于短信领域分类的装置的框图。例如,装置1100可以被提供为一服务器。参照图11装置1100包括处理组件1122,其进一步包括一个或多个处理器,以及由存储器1132所代表的存储器资源,用于存储可由处理部件1122的执行的指令,例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1122被配置为执行指令,以执行上述用于短信领域分类的方法。
装置1100还可以包括一个电源组件1126被配置为执行装置1100的电源管理,一个有线或无线网络接口1150被配置为将装置1100连接到网络,和一个输入输出(I/O)接口1158。装置1100可以操作基于存储在存储器1132的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1132,上述指令可由装置1100的处理组件1122执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图12是根据一示例性实施例示出的一种适用于短信领域识别装置的框图。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图12,装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1210,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1206为装置1200的各种组件提供电力。电力组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1210为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种用于短信领域分类的方法,其特征在于,所述方法包括:
确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器的次数;
通过所述训练数据集以及所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集,包括:
确定所述所有短信领域中的每一短信模板与所述每一短信领域的第一映射集合,所述第一映射集合为所述所有短信模板中的每一短信模板、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系;
确定所述第一映射集合中的每一短信模板中的关键字集合;
标注所述每一短信模板中的关键字集合,得到第二映射集合,所述第二映射集合为所述所有短信模板中的每一短信模板中的关键字集合、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系,将所述第二映射集合作为训练数据集。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述所有短信领域中每一短信领域对应的号码集合;
确定所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
确定所述频繁前缀集合与所述所有短信领域中每一短信领域的第三映射集合,以及确定所述频繁后缀集合与所述所有短信领域中每一短信领域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用于基于待分类短信的发送方号码确定所述待分类短信的候选短信领域,以便根据所述候选短信领域对应的分类器得到所述待分类短信的分类结果。
4.根据权利要求3所述的方法,其特征在于,所述确定所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合,包括:
确定所述每一短信领域对应的号码集合中的每一发送方号码的前缀和所述每一发送方号码的后缀;
统计所述号码集合中的每一个前缀出现的第一次数和所述号码集合中的每一个后缀出现的第二次数;
将所述第一次数大于第一设定阈值的前缀确定为所述每一短信领域对应的号码集合对应的频繁前缀集合,将所述第二次数大于第二设定阈值的后缀确定为所述每一短信领域对应的号码集合对应的频繁后缀集合。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将训练后的所述分类器、所述第三映射集合和所述第四映射集合发送给移动终端,以使所述移动终端根据所述第三映射集合、所述第四映射集合、所述分类器得到短信所属的短信领域。
6.一种短信领域识别方法,其特征在于,所述方法包括:
在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的短信领域集合;
如果所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容进行概率统计,得到两个以上的统计结果;
将所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的短信领域;
所述根据所述短信的发送方号码确定所述短信对应的短信领域集合,包括:
确定所述短信的发送方号码的前缀和后缀;
分别在第三映射集合和第四映射集合查询所述前缀和所述后缀,得到所述前缀和所述后缀分别对应的第一领域集合和第二领域集合,其中,所述第三映射集合和所述第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系;
通过所述第一领域集合和所述第二领域集合确定所述短信所属的短信领域。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
如果所述短信领域集合包括一个短信领域,将所述短信领域集合所包括的该短信领域确定为所述短信所属的短信领域。
8.一种用于短信领域分类的装置,其特征在于,所述装置包括:
第一确定模块,被配置为确定收集到的所有短信领域中每一短信领域对应的短信模板集合;
第二确定模块,被配置为根据所述第一确定模块确定的所述所有短信领域中每一短信领域对应的短信模板集合确定分类器的训练数据集;
第三确定模块,被配置为根据在设定时间段内统计到的所述每一短信领域对应的短信模板集合中的每一短信模板各自对应的频次确定所述每一短信模板对应的用于训练所述分类器次数;
训练模块,被配置为通过所述第二确定模块确定的所述训练数据集以及所述第三确定模块确定的所述短信模板集合中的每一短信模板对应的用于训练所述分类器的次数训练所述分类器,所述分类器用于得到相应短信领域的分类结果。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块包括:
第一确定子模块,被配置为确定所述所有短信领域中的每一短信模板与所述每一短信领域的第一映射集合,所述第一映射集合为所述所有短信模板中的每一短信模板、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系;
第二确定子模块,被配置为确定所述第一确定子模块确定的所述第一映射集合中的每一短信模板中的关键字集合;
标注子模块,被配置为标注所述第二确定子模块确定的所述每一短信模板中的关键字集合,得到第二映射集合,所述第二映射集合为所述所有短信模板中的每一短信模板中的关键字集合、所述每一短信模板在所述设定时间段内统计到的频次与所述每一短信领域的对应关系,将所述第二映射集合作为训练数据集。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四确定模块,被配置为确定所述所有短信领域中每一短信领域对应的号码集合;
第五确定模块,被配置为确定所述第四确定模块确定的所述每一短信领域对应的号码集合对应的频繁前缀集合和频繁后缀集合;
第六确定模块,被配置为确定所述第五确定模块确定的所述频繁前缀集合与所述所有短信领域中每一短信领域的第三映射集合,以及确定所述频繁后缀集合与所述所有短信领域中每一短信领域的第四映射集合,其中,所述第三映射集合和所述第四映射集合用于基于待分类短信的发送方号码确定所述待分类短信的候选短信领域,以便根据所述候选短信领域对应的分类器得到所述待分类短信的分类结果。
11.根据权利要求10所述的装置,其特征在于,所述第五确定模块包括:
第三确定子模块,被配置为确定所述每一短信领域对应的号码集合中的每一发送方号码的前缀和所述每一发送方号码的后缀;
统计子模块,被配置为统计所述第三确定子模块确定的所述号码集合中的每一个前缀出现的第一次数和所述号码集合中的每一个后缀出现的第二次数;
第四确定子模块,被配置为将所述统计子模块统计到的所述第一次数大于第一设定阈值的前缀确定为所述每一短信领域对应的号码集合对应的频繁前缀集合,将所述统计子模块统计到的所述第二次数大于第二设定阈值的后缀确定为所述每一短信领域对应的号码集合对应的频繁后缀集合。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
发送模块,被配置为将所述训练模块训练后的所述分类器、所述第六确定模块确定的所述第三映射集合和所述第四映射集合发送给移动终端,以使所述移动终端根据所述第三映射集合、所述第四映射集合、所述分类器得到短信所属的短信领域。
13.一种短信领域识别装置,其特征在于,所述装置包括:
第七确定模块,被配置为在短信应用程序接收到短信后,根据所述短信的发送方号码确定所述短信对应的短信领域集合;
统计模块,被配置为如果所述第七确定模块确定的所述短信领域集合包括两个以上的短信领域,通过分类器对所述短信的内容进行概率统计,得到两个以上的统计结果;
第八确定模块,被配置为将所述统计模块统计得到的所述两个以上的统计结果中的最大值对应的短信领域确定为所述短信所属的短信领域;所述第七确定模块包括:
第五确定子模块,被配置为确定所述短信的发送方号码的前缀和后缀;
查询子模块,被配置为分别在第三映射集合和第四映射集合查询所述第五确定子模块确定的所述前缀和所述后缀,得到所述前缀和所述后缀分别对应的第一领域集合和第二领域集合,其中,所述第三映射集合和所述第四映射集合分别用于表示发送方号码的前缀与短信领域的第一对应关系和发送方号码的后缀与短信领域的第二对应关系;
第六确定子模块,被配置为通过所述查询子模块得到的所述第一领域集合和所述第二领域集合确定所述短信所述的短信领域集合。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第九确定模块,被配置为如果所述第七确定模块确定的所述短信领域集合包括一个短信领域,将所述短信领域集合所包括的该短信领域确定为所述短信所属的短信领域。
CN201510650441.0A 2015-10-09 2015-10-09 用于短信领域分类的方法、短信领域识别方法及装置 Active CN105302877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510650441.0A CN105302877B (zh) 2015-10-09 2015-10-09 用于短信领域分类的方法、短信领域识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510650441.0A CN105302877B (zh) 2015-10-09 2015-10-09 用于短信领域分类的方法、短信领域识别方法及装置

Publications (2)

Publication Number Publication Date
CN105302877A CN105302877A (zh) 2016-02-03
CN105302877B true CN105302877B (zh) 2019-03-08

Family

ID=55200147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510650441.0A Active CN105302877B (zh) 2015-10-09 2015-10-09 用于短信领域分类的方法、短信领域识别方法及装置

Country Status (1)

Country Link
CN (1) CN105302877B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547738B (zh) * 2016-11-02 2019-05-07 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法
CN106658446B (zh) * 2016-12-29 2020-04-24 江西博瑞彤芸科技有限公司 短消息的统计分析方法
CN106792593B (zh) * 2016-12-29 2019-11-19 江西博瑞彤芸科技有限公司 短消息的统计分析方法
CN107819936B (zh) * 2017-10-20 2020-05-05 维沃移动通信有限公司 一种短信分类方法、移动终端和存储介质
CN108763199A (zh) * 2018-05-14 2018-11-06 浙江口碑网络技术有限公司 文本反馈信息的排查方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN103957516A (zh) * 2014-05-13 2014-07-30 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2941344A1 (fr) * 2009-01-22 2010-07-23 St Nxp Wireless France Procede perfectionne de traitement de minimessages (sms) et appareil de communication sans fil permettant un tel traitement.

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN103957516A (zh) * 2014-05-13 2014-07-30 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎

Also Published As

Publication number Publication date
CN105302877A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
TWI736230B (zh) 圖像處理方法、電子設備和儲存媒體
CN105302877B (zh) 用于短信领域分类的方法、短信领域识别方法及装置
CN105094814B (zh) 通知消息展示方法和装置
CN104584513B (zh) 选择用于内容分享操作的装置的设备和方法
CN105426515B (zh) 视频归类方法及装置
CN104035995B (zh) 群标签生成方法及装置
CN104615655B (zh) 信息推荐方法和装置
CN104239566B (zh) 视频搜索的方法及装置
CN109389162B (zh) 样本图像筛选方法和装置、电子设备及存储介质
TWI761851B (zh) 圖像處理方法、圖像處理裝置、電子設備和電腦可讀儲存媒體
CN107944447B (zh) 图像分类方法及装置
CN106331761A (zh) 直播列表显示方法及装置
CN105162984B (zh) 电话号码识别方法及装置
CN104636164B (zh) 启动页面生成方法及装置
CN103927545B (zh) 聚类方法及相关装置
CN104160734A (zh) 测量与移动装置关联的体验质量
CN103944804A (zh) 推荐联系人的方法及装置
CN107230137A (zh) 商品信息获取方法及装置
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
CN110019676A (zh) 一种在查询信息中识别核心词的方法、装置和设备
CN106204097A (zh) 信息推送方法、装置和移动终端
TWI785267B (zh) 影像處理方法、電子設備和儲存介質
CN109819288A (zh) 广告投放视频的确定方法、装置、电子设备及存储介质
CN108804440A (zh) 提供视频搜索结果的方法和装置
CN105635795A (zh) 电视用户行为信息采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant