CN102572744A

CN102572744A - 识别特征库获取方法、装置及短消息识别方法、装置

Info

Publication number: CN102572744A
Application number: CN2010106022631A
Authority: CN
Inventors: 万狄飞
Original assignee: China Mobile Group Design Institute Co Ltd
Current assignee: China Mobile Group Design Institute Co Ltd
Priority date: 2010-12-13
Filing date: 2010-12-13
Publication date: 2012-07-11
Anticipated expiration: 2030-12-13
Also published as: CN102572744B

Abstract

本发明提供一种识别特征库获取方法、装置及短消息识别方法、装置，该识别特征库获取方法，包括：利用多个来自用户且消息类型预先确定的短消息形成样本集合；对样本集合中的每个短消息进行字符串抽取，得到第一字符串集合；所述第一字符串集合中的每个字符串均不同；针对所述第一字符串集合中的每一个字符串，统计所述样本集合的短消息中包括该字符串的短消息数量；根据统计结果计算字符串对应于短消息类别的互信息；按照互信息从大到小的顺序，从所述第一字符串集合中选择部分或全部字符串形成识别特征库。本发明提高了短消息识别的效率。

Description

识别特征库获取方法、装置及短消息识别方法、装置

技术领域

本发明涉及通信网络的短消息识别技术，特别是一种识别特征库获取方法、装置及短消息识别方法、装置。

背景技术

国家工信部一直对垃圾短信治理高度关注，要求各运营商在全国范围内有针对性地开展自查自纠，切实规范经营行为，坚决制止各类违法违规和侵害用户权益的行为。对运营商及管理部门来说治理垃圾短信除严格管理外，技术手段也是必须的。

对于垃圾短信的定义，仁者见仁，智者见智，除了反党反国家，影响国家、人民安定团结，情色有伤社会风化的短信内容一定是垃圾短信外，相同内容的短信，在不同人的眼里对其内容判定是否为垃圾短信是不定的，特别是用于商业促销的广告短信。

现有技术中，在运营商侧进行的垃圾短信拦截，只能对内容上反党反国家，影响国家、人民安定团结，情色有伤社会风化的短信，以及主送号码流量上超过门限的垃圾短信进行拦截。无法从手机个人用户的角度去进行，有特色的，个性化的垃圾短信拦截，而如果使用统一的标准来处理，对某些用户而言，或者会产生误删除，或者会产生没有删除的效果，导致处理效率低下，举例说明如下。

假定对于用户A而言，其极端不喜欢某个艺人X，而对于用户B而言，其极端喜欢X，如果此时有一条关于X的新闻需要以短消息方式推送到用户，在这种情况下，如果设置统一的判别标准，或者该新闻被判别为垃圾短消息不会发送，这样会误删除B想要的消息，或者该新闻被发送到A和B，但在A看来这就是垃圾短消息，两种方式都存在效率低下的缺点。

发明内容

本发明的目的是提供一种识别特征库获取方法、装置及短消息识别方法、装置，提高短消息识别的效率。

为了实现上述目的，本发明实施例提供了一种识别特征库获取方法，包括：

利用多个来自用户且消息类型预先确定的短消息形成样本集合；

对样本集合中的每个短消息进行字符串抽取，得到第一字符串集合；所述第一字符串集合中的每个字符串均不同；

针对所述第一字符串集合中的每一个字符串，统计所述样本集合的短消息中包括该字符串的短消息数量；

根据统计结果计算字符串对应于短消息类别的互信息；

按照互信息从大到小的顺序，从所述第一字符串集合中选择部分或全部字符串形成识别特征库。

为了实现上述目的，本发明实施例提供了一种识别特征库获取装置，包括：

样本集合生成模块，用于利用多个来自用户且消息类型预先确定的短消息形成样本集合；

第一字符串抽取模块，用于对样本集合中的每个短消息进行字符串抽取，得到第一字符串集合；所述第一字符串集合中的每个字符串均不同；

统计模块，用于针对所述第一字符串集合中的每一个字符串，统计所述样本集合的短消息中包括该字符串的短消息数量；

互信息计算模块，用于根据统计结果计算字符串对应于短消息类别的互信息；

字符串选择模块，用于按照互信息从大到小的顺序，从所述第一字符串集合中选择部分或全部字符串形成识别特征库。

上述的所述字符串对应于短消息类别的互信息MI如下：

MI (t_{m}, c_{i}) = Σ_{i = 1}^{n} P (t_{m}, c_{i}) \log \frac{P (t_{m}, c_{i})}{P (t_{m}) P (c_{i})}

其中：

t_m表示第一字符串集合中的第m个字符串，m＝1，...，L，L为所述第一字符串集合中记录的字符串的数量；

c_i表示预定义的短消息类别中的第i个类别；

MI(t_m，c_i)表示t_m和类别c_i之间的互信息；

P(t_m)表示所述样本集合的短消息中包括该字符串t_m的短消息的数量与样本集合中的短消息数量的比值；

P(c_i)表示所述样本集合的短消息中类别为c_i的短消息的数量与样本集合中的短消息数量的比值；

P(t_m，c_i)表示所述样本集合中包括该字符串t_m，且类别为c_i的短消息的数量与样本集合包括的短消息的数量的比值。

为了实现上述目的，本发明实施例提供了一种上述识别特征库的短消息识别方法，包括：

获取一待判别短消息，并对待判别短消息进行字符串抽取，得到第二字符串集合；

从所述识别特征库中选择包括于所述第二字符串集合中的字符串组成第三字符串集合；

根据样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(x，y)；所述第一短消息为所述样本集合中包括所述第三字符串集合中的字符串的短消息；

根据所述坐标(x，y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息；所述标准直线根据所述样本集合中的短消息的类型信息以及第二短消息的消息类型分布情况确定，所述第二短消息为所述样本集合中包括所述特征库中的字符串的短消息。

上述的短消息识别方法，其中，所述标准直线为：x-y+Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

P{c₁}表示：样本集合中消息类型被预先确定为垃圾短消息的短消息数量与样本集合中短消息数量的比值；

P{c₂}表示：样本集合中消息类型被预先确定为正常短消息的短消息数量与样本集合中短消息数量的比值；

p_k1表示：样本集合中，包括识别特征库中的第k个特征的短消息属于垃圾短消息的概率；

p_k2表示：样本集合中，包括识别特征库中的第k个特征的短消息属于正常短消息的概率；

k＝1，...，M，M为所述识别特征库中记录的字符串的数量。

上述的短消息识别方法，其中，所述标准直线包括第一标准直线和第二标准直线，所述第一标准直线为：x-y+Con＝0，所述第二标准直线为：α*x-y+β*Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量；

所述α为旋转因子，所述β为平移因子；

所述根据所述坐标(x，y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息具体包括：

判断所述坐标点(x，y)是否位于不可靠区域内；所述不可靠区域为到所述第一标准直线的距离在预定区间范围内的坐标点组成的区域；

在所述坐标点(x，y)位于不可靠区域内时，根据所述坐标(x，y)与所述第二标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息，否则所述坐标(x，y)与所述第一标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息。

上述的短消息识别方法，其中，

F＝(μ+1)·PR/(μP+R)；

P＝A/B；

R＝A/C；

A为样本集合中利用所述第二标准直线进行判别时被正确识别为垃圾短消息的短消息数量，B为样本集中利用所述第二标准直线进行判别时被识别为垃圾短消息的短消息数量，C为样本集中被预先定义为垃圾短消息的短消息数量；

μ为重要性调整因子，所述μ大于或等于0；

所述α和β的取值为使得所述F最大的取值。

上述的短消息识别方法，其中，在获取所述待判别短消息后还包括：

判断所述待判别短消息的主叫号码是否存在于联系人列表或黑名单列表中；

所述待判别短消息的主叫号码是否存在于联系人列表时，直接保存所述待判别短消息到收件箱后结束；

所述待判别短消息的主叫号码存在于黑名单列表时，直接保存所述待判别短消息到垃圾箱后结束；

所述待判别短消息的主叫号码既不存在于联系人列表，也不存在于黑名单列表时，进入所述对待判别短消息进行字符串抽取的步骤。

为了实现上述目的，本发明实施例提供了一种上述识别特征库的短消息识别装置，包括：

第二字符串抽取模块，用于获取一待判别短消息，并对待判别短消息进行字符串抽取，得到第二字符串集合；

集合生成模块，用于从所述识别特征库中选择包括于所述第二字符串集合中的字符串组成第三字符串集合；

坐标确定模块，用于根据样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(x，y)；所述第一短消息为所述样本集合中包括所述第三字符串集合中的字符串的短消息；

识别处理模块，用于根据所述坐标(x，y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息；所述标准直线根据所述样本集合中的短消息的类型信息以及第二短消息的消息类型分布情况确定，所述第二短消息为所述样本集合中包括所述特征库中的字符串的短消息。

上述的短消息识别装置，其中，所述标准直线为：x-y+Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量。

上述的短消息识别装置，其中，所述标准直线包括第一标准直线和第二标准直线，所述第一标准直线为：x-y+Con＝0，所述第二标准直线为：α*x-y+β*Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量；

所述α为旋转因子，所述β为平移因子；所述识别处理模块具体包括：

判断单元，判断所述坐标点(x，y)是否位于不可靠区域内；所述不可靠区域为到所述第一标准直线的距离在预定区间范围内的坐标点组成的区域；

分类识别单元，用于在所述坐标点(x，y)位于不可靠区域内时，根据所述坐标(x，y)与所述第二标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息，否则所述坐标(x，y)与所述第一标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息。

上述的短消息识别装置，其中：

F＝(μ+1)·PR/(μP+R)；

P＝A/B；

R＝A/C；

μ为重要性调整因子，所述μ大于或等于0；

所述α和β的取值为使得所述F最大的取值。

本发明实施例具有以下的有益效果：

本发明实施例中，对于待判别的短消息在一坐标系中的坐标根据样本集合中的消息来判别，而由于样本集合中的短消息来自用户，且消息类型(即是否为垃圾短消息)由用户预先确定，所以本发明实施例能够满足不同的个人用户，能提供个性化的垃圾短信拦截，因此能够提高短消息识别的效率。

附图说明

图1为本发明实施例的识别特征库获取方法的流程示意图；

图2为本发明实施例的短消息识别方法的流程示意图；

图3为不可靠区域的示意图。

具体实施方式

本发明实施例的识别特征库获取方法、装置及短消息识别方法、装置中，利用用户上报的类型确定的短信形成分析样本集，并基于该分析样本集得到用户对应的垃圾短信特征库，然后利用朴素贝叶斯模型对待鉴别短消息进行判别，由于垃圾短信特征库是基于用户上报的类型确定的短信分析得到，因此能够为个人用户提供有特色的个性化垃圾短信拦截。

如图1所示，本发明实施例的识别特征库获取方法包括：

步骤11，利用多个来自用户且消息类型预先确定的短消息形成样本集合；

步骤12，对样本集合中的每个短消息进行字符串抽取，得到第一字符串集合；所述第一字符串集合中的每个字符串均不同；

步骤13，针对所述第一字符串集合中的每一个字符串，统计所述样本集合的短消息中包括该字符串的短消息数量；

步骤14，根据统计结果计算字符串对应于短消息类别的互信息；

步骤15，按照互信息从大到小的顺序，从所述第一字符串集合中选择部分或全部字符串形成识别特征库。

在本发明的具体实施例中，需要根据统计结果计算字符串对应于短消息类别的互信息MI，其具体计算公式如下：

MI (t_{m}, c_{i}) = Σ_{i = 1}^{n} P (t_{m}, c_{i}) \log \frac{P (t_{m}, c_{i})}{P (t_{m}) P (c_{i})}

其中：

c_i表示预定义的短消息类别中的第i个类别；如垃圾短消息以及正常短消息两种类型；

MI(t_m，c_i)表示t_m和类别c_i之间的互信息；

P(t_m)表示所述样本集合的短消息中包括该字符串t_m的短消息的数量与样本集合中的短消息数量的比值；如假定样本集合中有5条短消息，而字符串“XX”在3条短消息中出现，则P(t_m)为3/5；

P(c_i)表示所述样本集合的短消息中类别为c_i的短消息的数量与样本集合中的短消息数量的比值；如假定样本集合中有5条短消息，而预先被定义为垃圾类型c₁的短消息数量为3条，则P(c₁)为3/5；

P(t_m，c_i)表示所述样本集合中包括该字符串t_m，且类别为c_i的短消息的数量与样本集合包括的短消息的数量的比值。如假定样本集合中有5条短消息，而包括该字符串t_k的短消息为3条，这3条短消息中又属于垃圾类型c₁的短消息为1条，则P(t_m，c₁)为1/5。

本发明实施例的识别特征库获取装置包括：

字符串抽取模块，用于对样本集合中的每个短消息进行字符串抽取，得到第一字符串集合；所述第一字符串集合中的每个字符串均不同；

在本发明的具体实施例中，考虑到分类能力随着识别特征库中的字符串的数量的增加而增加，但分类能力与字符串的数量之间并不是线性递增的关系，在字符串的总体数量较少时，随着字符串的数量的增加，分类能力能够明显增强，但在字符串的总体数量超过一定门限时，随着字符串的数量的增加，分类能力并不会显著增强，但字符串的数量的增加会带来分类处理的计算量加大，因此，在本发明具体实施例中，识别特征库中的字符串(特征)会限制在一定规模。

如在一定字符串的数量增加所带来的分类能力(如分类准确率)增加低于一个预设的门限时，则不再增加识别特征库中的字符串数量。

当然，如果要求识别能力最大化，或者不考虑处理计算量的情况下，也可以不控制识别特征库中的字符串数量。

本发明实施例的识别特征库获取装置可以单独以服务器的方式存在，也可以运行于手机端。

在得到上述的识别特征库后，即可利用上述得到的识别特征库进行短消息识别，如图2所示，本发明实施例的短消息识别方法包括：

步骤21，获取一待判别短消息，并对待判别短消息进行字符串抽取，得到第二字符串集合；

步骤22，从所述特征库中选择包括于所述第二字符串集合中的字符串组成第三字符串集合；所述特征库中的字符串为从样本集合中的短消息通过字符串抽取得到的字符串根据字符串与消息类型之间的互信息选择得到；所述样本集合包括多个来自用户且消息类型预先确定的短消息；

步骤23，根据所述样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(x，y)；所述第一短消息为所述样本集合中包括所述第三字符串集合中的字符串的短消息；

步骤24，根据所述坐标(x，y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息；所述标准直线根据所述样本集合中的短消息的类型信息以及第二短消息的消息类型分布情况确定，所述第二短消息为所述样本集合中包括所述特征库中的字符串的短消息。

本发明具体实施例中，对于待判别的短消息在一坐标系中的坐标根据样本集合中的消息来判别，而由于样本集合中的短消息来自用户，且消息类型(即是否为垃圾短消息)由用户预先确定，所以本发明实施例的短消息识别方法能够满足不同的个人用户，能提供个性化的垃圾短信拦截。

步骤12和21均需要对待判别短消息进行字符串抽取，在本发明的具体实施例中，采用N元字符串抽取，N取值范围为2～4，以2元字符串抽取为例说明如下。

假定待判别短消息的文字内容如下：团购南山倒计时！蓝光十里蓝山，本周末95折团购南山森林花园洋房最后机会，另有特别户型专享惊喜折扣，详询62586969，则采用N元字符串抽取得到的结果如下：

团购、购南、南山、山倒、倒计...。

在本发明的具体实施例中，对待判别短消息进行字符串抽取后，以识别特征库中包括M个字符串为例，可以得到如下的文本向量：

d＝(W₁，W₂，...，W_M)

其中，W_i＝0或者1，如果识别特征库中的第i个特征出现在待识别短消息中，W_i＝1，否则W_i＝0。

设置待识别短消息的判断参数f(d)如下：

f (d) = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})} + Σ_{k = 1}^{M} W_{k} \log \frac{p_{k 1}}{1 - p_{k 1}} - Σ_{k = 1}^{M} W_{k} \log \frac{p_{k 2}}{1 - p_{k 2}}

其中：

p_ki(k＝1，...，M)表示：样本集合中，包括识别特征库中的第k个特征的短消息属于第i类型的短消息的概率；

在本发明的具体实施例中，该i＝1，2，其中，i＝1时，短消息为垃圾短消息，i＝2时，短消息为正常短消息。

步骤23中，根据所述样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(x，y)，其中：

x = Σ_{k = 1}^{M} W_{k} \log \frac{p_{k 1}}{1 - p_{k 1}}

y = Σ_{k = 1}^{M} W_{k} \log \frac{p_{k 2}}{1 - p_{k 2}}

该x代表根据特征估算出来的待识别短消息属于第一类型的短消息(垃圾短消息)的测度；y表示根据特征估算出来的待识别短消息属于第二类型的短消息(正常短消息)的测度。

在坐标确定之后，由于需要根据所述坐标(x，y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息，因此需要确定一标准直线，在本发明的具体实施例中，标准直线可以是多种形式的直线，分别说明如下。

在方式一中，该标准直线如下：x-y+Con＝0

其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

可以发现，在样本确定的情况下，上述的Con为一常量。

标准直线确定的情况下，可以根据下式是否成立判断：

x-y+Con≥0

在上式成立时，表明f(d)大于或等于0，待判别短消息为垃圾短消息，否则待判别短消息为正常短消息。

在方式一中，该标准直线为x-y+Con＝0，此时将样本集中的一部分短消息计算坐标，并根据短消息的坐标与x-y+Con＝0之间的位置关系来判断，能够得到样本集中的短消息的判别结果，通过分析可以发现，样本集中的部分短消息的判别结果(是否为垃圾短消息)与预先确定的消息类型不同，虽然数量不多，但总之还是存在判别结果不准确的情况。

相比较正确分类的短消息而言，被错误分类的短消息在坐标系中的位置到分割直线的距离比较近。根据观察，可将由X和Y构成的二维平面分成可靠和不可靠两个区域，其中：

其中如图3所示，不可靠区域为到x-y+Con＝0的距离

在预定区间范围[dist2，dist1]内的坐标点组成的区域(即虚线所处的区域)，而其他区域则为可靠区域。

在本发明的具体实施例中，该预定区间范围[dist2，dist1]可以通过如下方式来获取，说明如下：

利用x-y+Con＝0这条直线作为评判标准，将样本集合中的每个短消息投影到坐标系中，然后根据投影点和直线之间的位置关系得到评判结果，然后分析评判错误(与预先确定的消息类型不一致)的投影点的分布状况来决定[dist2，dist1]，如：

dist2为评判错误且投影点位于x-y+Con＝0的第一侧的短消息中，投影点与x-y+Con＝0之间的最大距离，而dist1为评判错误且投影点位于x-y+Con＝0的另一侧的短消息中，投影点与x-y+Con＝0之间的最大距离。

或者

依据短消息识别准确率来设置[dist2，dist1]，如图3所示，设置[dist2，dist1]，保证投影点位于虚线之外的区域所对应的短消息被正确识别的短消息的几率大于预设门限(如95％)即可。

为了提高判别的准确性，当待判别短消息在坐标系中的位置处于不可靠区域时，则利用标准直线的另一种方式进行判别，如下：

α*X-Y+β*Con＝0

上述的α为旋转因子，而β为平移因子；

上述标准直线为x-y+Con＝0经过旋转和平移得到，引入α和β的目的在于提高判别的准确度，下面就β和α两个参数的获取过程进行详细说明。

β用于对原有分割直线x-y+Con＝0进行平移，而α用于对直线x-y+Con＝0进行旋转。

在本发明的具体实施例中可以通过遗传算法在文本分布的不可靠区域对参数β和α的搜索来确定最优分割直线。

阈值β和α的取值范围与二维文本空间中不可靠的区域的范围有关，在本发明具体实施例中，具体的β的取值范围如下：

当Con大于0时，

β &Element; (1 - \sqrt{2} * \frac{| Dist 2 |}{Con}, 1 + \sqrt{2} * \frac{| Dist 1 |}{Con});

当Con小于0时，

β &Element; (1 + \sqrt{2} * \frac{| Dist 2 |}{Con}, 1 - \sqrt{2} * \frac{| Dist 1 |}{Con});

当Con等于0时，β＝0。

在二维文本空间不可靠的区域内，文本分割线与X轴夹角的范围理论上可取0度到90度，在本发明的具体实施例中，α的较佳取值范围为0.36到2.75之间。

遗传算法(GA)是一种基于自然选择和遗传变异等生物进化机制的全局性概率搜索算法。与基于导数的解析方法和其他启发式搜索方法(如爬山方法，模拟退火方法，Monte Carlo方法)一样，遗传算法(GA)在形式上也是一种迭代方法。

它从选定的初始解出发，通过不断迭代逐步改进当前解，直到最后搜索到最优解或满意解；在进化计算中，迭代计算过程采用了模拟生物体的进化机制，从一组解(群体)出发，采用类似于自然选择和有性繁殖的方式，在继承原有优良基因的基础上，生成具有更好性能指标的下一代解的群体。

生成子代种群时，首先把当代种群的染色体从优到劣进行排序，然后选择一定比例的下位个体淘汰掉，淘汰比例可以设为40％，在上位个体中实行均匀交叉，生成的子个体填补到种群中，以保持种群规模不变，最后按照设定的变异概率实行变异操作，生成子代种群。

由于GA在问题空间搜索最优值所表现的优良特性，在本发明具体实施例中将GA引入到基于最优朴素贝叶斯分类模型中以确定阈值β和α。

β和α是取值在一定范围之内的实数，可以视为遗传算法的表现型形式，从表现型到基因型的映射称为编码。我们采用二进制编码形式，将β和α变量值代表的个体表示为一个{0，1}二进制串，当然，串长取决于求解的精度。例如：求解的精度精确到3位小数，区间长度为0.5，必须将区间分为0.5×10³等份。因为256＝2⁸＜0.5×10³＜2⁹＝512，所以编码的二进制串长至少需要9位。

短消息分类中有三个主要的性能、效率评估指标：精确率P、召回率R和F-measure，其中：

P＝A/B

其中，A为样本集合中利用所述第二标准直线进行判别时被正确识别为垃圾短消息的短消息数量，B为样本集中利用所述第二标准直线进行判别时被识别为垃圾短消息的短消息数量，P定义了分类结果的准确程度，即分类结果中有多少是正确的。

R＝A/C

其中，C为样本集中被预先定义为垃圾短消息的短消息数量，R描述了正确分类的能力，即分类结果中有多少分类是正确的。

对于一次测试，准确率和召回率一般是成反比的。提高准确率，召回率会下降；提高召回率，准确率会下降。F-measure综合了P和R两个指标，可以对分类器进行整体评价，如下：

F = \frac{(μ + 1) \cdot PR}{μP + R}

其中：μ大于或等于0，是调节P和R相对重要程度的常数，μ越大，R的重要程度越高，当μ＝0时，F＝P，为准确率；

由于F可以演化为如下的表达方式：

F = \frac{(μ + 1) \cdot PR}{μP + R} = \frac{\frac{μ + 1}{μ} \cdot PR}{P + R / u}

而当μ→∞时，F＝R，为召回率。

在本发明的具体实施例中，在μ选定的情况下，本发明实施例中变成计算如下：

\underset{(α, β)}{\arg \max} \frac{(μ + 1) \cdot PR}{μP + R}

也就是说计算使得F最大的α和β。

在通常情况下，如果对P和R平等看待，则取μ＝1，这时得到最常用的F(简称F1)，如下：

F_{1} = \frac{2 \times P \times R}{P + R}

由于β和α是取值在一定范围之内的实数，可以视为遗传算法的表现型形式，因此可以利用遗传算法来计算使得F最大的α和β。

当然，也可以将α和β在进行等分，然后对每一种α和β等分的组合，将样本集合中的每个短消息投影到坐标系中，然后根据投影点和直线之间的位置关系得到评判结果，然后依据评判结果计算P和R，然后利用P和R来计算F：

最后选择使得F最大的α和β作为最终的结果。

举例说明如下。

假定α和β分别取值为[0.36，2.75]以及[-1，3]，此时将[0.36，2.75]以及[-1，3]分别100等分，得到10000种可能的组合。

然后对这10000种可能的情况分别对样本集合进行识别处理，每一种组合对应于一个F，最后选择使得F最大的α和β作为最终的结果即可。

当然，还可以通过其他现有的算法来计算使得F最大的α和β的值，在此不一一详细描述。

由于每一次短消息判别都需要消耗终端的处理能力，如待判别短消息的主叫号码存在于联系人列表时，表明该短消息是用户认识的人发送的，此时不必要进行识别，而当主叫号码存在于黑名单列表时，表明该短消息是用户不想接收的短消息，也不需要进行识别，因此，为了提高处理效率，本发明具体实施例中，在获取所述待判别短消息后还包括：

本发明实施例的短消息识别装置，包括：

上述的短消息识别装置，所述标准直线为：x-y+Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量。

上述的短消息识别装置，所述标准直线还可以是包括第一标准直线和第二标准直线，所述第一标准直线为：x-y+Con＝0，所述第二标准直线为：α*x-y+β*Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量；

所述α和β分别为旋转因子和平移因子；

所述识别处理模块具体包括：

上述的短消息识别装置，其中：

F＝(μ+1)·PR/(μP+R)；

P＝A/B；

R＝A/C；

μ为重要性调整因子，所述μ大于或等于0。

所述α和β的取值为使得所述F最大的取值。

当认为P和R同等重要时，μ取1；此时，所述α和β的取值为使得2PR/(P+R)最大的取值。

本发明具体实施例中，当识别特征库获取装置以服务器方式存在时，需要用户上传消息类型确定的短消息，而同时，终端也需要从服务器同步服务器计算得到的识别特征库以及α和β的取值，以便在本地进行短消息识别。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种识别特征库获取方法，其特征在于，包括：

根据统计结果计算字符串对应于短消息类别的互信息；

2.根据权利要求1所述的识别特征库获取方法，其特征在于，所述字符串对应于短消息类别的互信息MI如下：

MI (t_{m}, c_{i}) = Σ_{i = 1}^{n} P (t_{m}, c_{i}) \log \frac{P (t_{m}, c_{i})}{P (t_{m}) P (c_{i})}

其中：

c_i表示预定义的短消息类别中的第i个类别；

MI(t_m，c_i)表示t_m和类别c_i之间的互信息；

3.一种识别特征库获取装置，其特征在于，包括：

4.根据权利要求3所述的识别特征库获取装置，其特征在于，所述字符串对应于短消息类别的互信息MI如下：

MI (t_{m}, c_{i}) = Σ_{i = 1}^{n} P (t_{m}, c_{i}) \log \frac{P (t_{m}, c_{i})}{P (t_{m}) P (c_{i})}

其中：

c_i表示预定义的短消息类别中的第i个类别；

MI(t_m，c_i)表示t_m和类别c_i之间的互信息；

5.一种利用权利要求1或2所述识别特征库获取方法得到的识别特征库的短消息识别方法，其特征在于，包括：

6.根据权利要求5所述的短消息识别方法，其特征在于，所述标准直线为：x-y+Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k=1，...，M，M为所述识别特征库中记录的字符串的数量。

7.根据权利要求5所述的短消息识别方法，其特征在于，所述标准直线包括第一标准直线和第二标准直线，所述第一标准直线为：x-y+Con＝0，所述第二标准直线为：α*x-y+β*Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量；

所述α为旋转因子，所述β为平移因子；

8.根据权利要求7所述的短消息识别方法，其特征在于：

F＝(μ+1)·PR/(μP+R)；

P＝A/B；

R＝A/C；

μ为重要性调整因子，所述μ大于或等于0；

所述α和β的取值为使得所述F最大的取值。

9.根据权利要求5-8中任意一项所述的短消息识别方法，其特征在于，在获取所述待判别短消息后还包括：

10.一种利用权利要求1或2所述识别特征库获取方法得到的识别特征库的短消息识别装置，其特征在于，包括：

11.根据权利要求10所述的短消息识别装置，其特征在于，所述标准直线为：x-y+Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量。

12.根据权利要求10所述的短消息识别装置，其特征在于，所述标准直线包括第一标准直线和第二标准直线，所述第一标准直线为：x-y+Con＝0，所述第二标准直线为：α*x-y+β*Con＝0，其中：

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

Con = \log \frac{P {c_{1}}}{P {c_{2}}} + Σ_{k = 1}^{M} \frac{\log (1 - p_{k 1})}{\log (1 - p_{k 2})}

k＝1，...，M，M为所述识别特征库中记录的字符串的数量；

13.根据权利要求12所述的短消息识别装置，其特征在于：

F＝(μ+1)·PR/(μP+R)；

P＝A/B；

R＝A/C；

μ为重要性调整因子，所述μ大于或等于0；

所述α和β的取值为使得所述F最大的取值。