CN109873755A - 一种基于变体词识别技术的垃圾短信分类引擎 - Google Patents

一种基于变体词识别技术的垃圾短信分类引擎 Download PDF

Info

Publication number
CN109873755A
CN109873755A CN201910157774.8A CN201910157774A CN109873755A CN 109873755 A CN109873755 A CN 109873755A CN 201910157774 A CN201910157774 A CN 201910157774A CN 109873755 A CN109873755 A CN 109873755A
Authority
CN
China
Prior art keywords
text
short message
character
word
conjugation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910157774.8A
Other languages
English (en)
Other versions
CN109873755B (zh
Inventor
毛华阳
江舟
聂传阳
古元
华仲锋
于龙
林飞
王娜
熊翱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asia Century Technology Development Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing Asia Century Technology Development Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asia Century Technology Development Co Ltd, Beijing University of Posts and Telecommunications filed Critical Beijing Asia Century Technology Development Co Ltd
Priority to CN201910157774.8A priority Critical patent/CN109873755B/zh
Publication of CN109873755A publication Critical patent/CN109873755A/zh
Application granted granted Critical
Publication of CN109873755B publication Critical patent/CN109873755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于变体词识别技术的垃圾短信分类引擎涉及信息安全技术领域。本发明由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;本发明利用字符结合度的“交叉结合度”分词模块提高了短信文本分词后的文本特征的质量,结合变体词识别技术的短信分类引擎模块可以很好地解决含有生僻字、同音字、象形字、火星文等变体词的垃圾短信分类问题,分类效果较一般分类引擎而言,准确率更高。

Description

一种基于变体词识别技术的垃圾短信分类引擎
技术领域
本发明涉及信息技术领域,尤其是信息安全技术领域。
背景技术
随着手机等便携式移动终端的普及,短信由于其发送畅通、操作简便而被广泛应用,逐渐成为用户基础最为广泛的移动增值业务之一。然而,短信在方便人们的同时,伴随而来的是日趋泛滥的广告短信、诈骗短信等垃圾短信,这影响了用户的正常工作和生活,甚至给用户带来了经济损失。这些短信严重地损害了用户的切身利益,如何应对这些垃圾短信逐渐成为了困扰运营商和手机用户的严重问题。故为了解决上述问题,对用户收到的短信进行分类以便对垃圾短信进行过滤的方法也应运而生。
目前,主要有以下两种短信分类的技术手段,一种是基于人工提炼的关键词来进行匹配以分类,另一种是基于机器学习等算法来对短信文本内容进行识别和分类:
基于人工提炼的关键词来进行匹配以分类大致包括:首先由人工提炼生成一个敏感关键词列表,并对每个关键词配以不同的权重,然后让短信文本和关键词进行匹配,若匹配关键词的最终权重总和超过一定的阈值则认为当前短信为垃圾短信。这种方法虽然简单、处理效率较高,但是分类效果却不太理想,主要是因为这种方式不能识别短信文本内容,垃圾短信可以通过添加一些特殊字符来躲避关键词的匹配,如“赌*博”,因此对垃圾短信的拦截率较低;此外,该方法存在对正常短信误拦截,如正常用户的短信可能也存在一些敏感关键词,如“你不要赌博”,就有可能被判为垃圾短信而被拦截。
基于机器学习等算法来对短信文本内容进行识别和分类已有较多的研究,方法也有很多种,如K-均值、层次聚类等聚类算法和朴素贝叶斯、SVM等分类算法。它们利用分词工具来对训练样本集分词而得到一系列的特征词,然后利用这些特征词来学习最终得到分类器以识别垃圾短信。这些算法准确率比较高,可以较好地完成短信分类的任务,但是违规短信的发送者为了防止所发短信被识别拦截,常使用各种生僻字、同音字、象形字、火星文、拆分字、特殊符号等表达违规违法信息,而一般短信文本内容本来就较短,还添加了这些干扰信息会使传统分词手段几乎失去了作用,割裂了原有的语义,导致得到的特征词毫无意义,由此训练得到的分类器也无法很好地识别垃圾短信。因此为了提高分词的准确性,较好地还原文本原语义,针对垃圾短信分类的分词技术手段是值得研究的。
短信的分类技术主要是依据对构成短信的文字本身进行判断,目前主要采用基于关键词或基于机器学习等算法的垃圾短信分类方法。
基于关键词的垃圾短信分类是设置一些敏感关键词,并对关键词配以不同的权重,然后让短信文本和关键词进行匹配,若匹配关键词的最终权重总和超过一定的阈值则认为当前短信为垃圾短信,这种方法存在漏判或误判等缺陷,准确率不高。
基于机器学习等算法的垃圾短信分类是采用文本分类的方法把短信自动分为正常短信和垃圾短信。基于算法的垃圾短信分类与基于关键词的垃圾短信分类相比,其准确率更高,但违规短信的发送者为了防止所发短信被识别拦截,常使用各种生僻字、同音字、象形字、火星文、拆分字、特殊符号等表达违规违法信息,这导致文本分词后的特征向量偏少且含义变得无意义,影响了文本分类算法的效果。
因此一种基于变体词识别技术的垃圾短信分类引擎正被应用于解决上述问题。本发明提出了一种新的变体词识别技术,优化了短信文本的特征处理过程,解决了传统分词方法提取特征质量低下的问题,此外,本发明采用了支持向量机来对文本进行分类,可以很好地保证分类的效率和准确率,克服了传统短信分类的不足。
共有技术
停用词是指文本中出现频率很高,但实际意义不大的,或者对分类结果造成干扰的词。停用词包括:a)独立呈现无意义且只有放在上下文环境中才有一定意义和作用的词,包括语气助词、副词、介词等,如“的”、“和”等;b)使用频繁,广泛用于各种语境的词,如“我”,“他”等。大量停用词会影响分词效果,降低分词效率。
乱码是指短信在传播和采集的过程中产生的部分或所有字符无法被阅读的一系列字符,这些字符会严重影响分类的准确性,需要在预处理的时候去除掉。正常的中文字符的编码集在U+4E00~U+9FCC之间,无法识别的乱码字符在这个之外,所以用正则表达式"/[\x{4e00}-\x{9fc2}]/iu"就可以去除乱码字符。
短链接是嵌在短信文本中的网站地址,这类字符对分类引擎而言是噪音干扰,因此在文本预处理阶段也要过滤掉。可以通过正则表达式匹配来去除链接。
语料库的定义为按照某种标准收集的特殊文本材料,在本发明中,语料库即指的是所有短信样本的文本内容数据的总和。国家语委现代汉语语料库是一个大规模的平衡语料库,语料选材类别广泛,时间跨度大。
随着时代的发展,为了应对一般的垃圾短信过滤系统,垃圾短信的内容越来越变化莫测。垃圾短信的发送者常使用各种生僻字、同音字、象形字、火星文、特殊符号等表达违规违法信息。采用通常的分词手段不能将这些变体词进行符合人们理解的语义而切分,这对后续算法的识别造成了不利的影响,故本发明提出了一种基于字符结合度的“交叉结合度”分词算法,该方案能结合更多的语境来消除因变体词产生的歧义进而增加分词算法的鲁棒性。具体的,在自然语言处理中,互信息(Mutual Information,MI)用来衡量两个字符之间的结合度,MI越高,即两字符在语料库(语料库也即短信样本数据集)中共同出现的概率也就越高,则基于传统的统计分词法也就会大概率将其分为一个词。但通过将“赌博”改为“赌傅”,这一对词在垃圾短信中传达了相同的意思,但可以使传统的分词手段失效,从而丢失了对分类很关键的特征词,而大量垃圾短信的半结构化特征的特点是这些相似变体的上下文信息通常是相同或相近的,也即“赌博”语义的形式是多变的,但其上下文要表达的意思却大体相同。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
发明内容
为克服现有技术的不足,实现本发明的本发明的一种基于变体词识别技术的垃圾短信分类引擎由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;实现本发明的具体步骤包括:
1)文本预处理;
由文本预处理模块去除初始短信文本中的停用词、乱码、短链接,生成文本预处理后的短信文本并将文本预处理后的短信文本发送给分词模块;去除停用词所用的停用词表由哈工大停用词库加四川大学机器学习智能实验室停用词库加百度停用词表经过整合去重后得到;
2)交叉结合度分词,输出词组;
分词模块接收文本预处理后的短信文本,并将文本预处理后的短信文本加入到语料库中;语料库由不断加入的文本预处理后的短信文本加上在先收集的短信文本集合组成;
使用下列公式:
其中,wi-1wiwi+1wi+2表示短信文本中连续的4个字符;
表示语料库中,含有字符wi的总短信条数;
Nall表示语料库中,所有短信数据的总条数;
表示语料库中,含有字符串wiwi+1的总短信条数;
p(wi)表示字符wi在语料库中的经验概率,为含有字符wi的总短信条数占短信数据条数总和的比例;
p(wiwi+1)表示字符串wiwi+1在语料库中的经验概率,为含有字符串wiwi+1的总短信条数占短信数据条数总和的比例;
Ii(wi;wi+1)表示两个连续字符wi和wi+1之间的字符结合度;
表示间隔wi的wi-1和wi+1之间的字符结合度;
表示间隔wi+1的wi和wi+2之间的字符结合度;
表示间隔wi和wi+1的wi-1和wi+2之间的字符结合度;
分词模块对文本预处理后的短信文本中的连续字符依次计算相邻字符结合度Ii(wi;wi+1);
分词模块对文本预处理后的短信文本中的连续字符依次计算Icrossi(wi-1;wi+1),设定交叉字符结合度
分词模块引入Sigmoid函数进行正规化,使Ii(wi;wi+1)和Ri域转化为(0,1),即计算综合结合度综合结合度根据的大小动态调整它们的占比,始终受中的较大值影响较大;
当综合结合度的值大于阈值时,分词模块将生成的字符组成词组,输出分词结果;
3)特征选择模块采用TF-IDF方法生成最终的分类特征;
4)垃圾短信分类器模块采用向量机模型根据最终的分类特征对文本预处理后的短信文本进行分类,输出短信类别;向量机模型称作SVM;
向量机模型的原理如下:
训练样本集其中xi为样本点,yi∈{1,-1}为类别标签,i=1,...,l,l为训练样本个数。若训练样本是线性可分的,SVM找到w,b,使对任意i=1,...,l,有
wTxi+b>0,若yi=1
wTxi+b<0,若yi=-1
此时称wTx+b=0为分类超平面,求解w,b可通过如下优化模型得出:
s.t.yi(wTxi+b)≥1,i=1,2,...,l
上式是一个凸二次优化问题,可求得最优解(w*,b*),可得分类超平面为(w*)Tx+b*=0,最终得分类决策函数为:
f(x)=sgn((w*)Tx+b*);
向量机模型分类的伪代码是:
for each message msgi in data do
label(msgi)←SVM_Classifier(msgi)
end for
msgi代表经过文本处理和特征选择后的文本特征向量;
SVM_Classifier(msgi)代表对特征文本msgi使用SVM分类器得到的结果;
label(msgi)代表特征文本msgi对应的短信被分为的类别。
有益效果
1)利用字符结合度的“交叉结合度”分词模块提高了短信文本分词后的文本特征的质量;
2)结合变体词识别技术的短信分类引擎模块可以很好地解决含有生僻字、同音字、象形字、火星文等变体词的垃圾短信分类问题,分类效果较一般分类引擎而言,准确率更高。
附图说明
图1是本发明的系统结构图;
图2是本发明的分词模块的分词流程图。
具体实现方式
参看图1和图2,本发明的一种基于变体词识别技术的垃圾短信分类引擎由文本预处理模块1,分词模块2,特征选择模块3,垃圾短信分类器模块4组成;实现本发明的具体步骤包括:
1)文本预处理;
由文本预处理模块1去除初始短信文本01中的停用词、乱码、短链接,生成文本预处理后的短信文本03并将文本预处理后的短信文本03发送给分词模块2;去除停用词所用的停用词表由哈工大停用词库加四川大学机器学习智能实验室停用词库加百度停用词表经过整合去重后得到;
2)交叉结合度分词,输出词组;
步骤S01,分词模块2接收文本预处理后的短信文本03,并将文本预处理后的短信文本03加入到语料库中;语料库由不断加入的文本预处理后的短信文本03加上在先收集的短信文本集合组成;
使用下列公式:
其中,wi-1wiwi+1wi+2表示短信文本中连续的4个字符;
表示语料库中,含有字符wi的总短信条数;
Nall表示语料库中,所有短信数据的总条数;
表示语料库中,含有字符串wiwi+1的总短信条数;
p(wi)表示字符wi在语料库中的经验概率,为含有字符wi的总短信条数占短信数据条数总和的比例;
p(wiwi+1)表示字符串wiwi+1在语料库中的经验概率,为含有字符串wiwi+1的总短信条数占短信数据条数总和的比例;
Ii(wi;wi+1)表示两个连续字符wi和wi+1之间的字符结合度;
表示间隔wi的wi-1和wi+1之间的字符结合度;
表示间隔wi+1的wi和wi+2之间的字符结合度;
表示间隔wi和wi+1的wi-1和wi+2之间的字符结合度;
步骤S02,分词模块2对文本预处理后的短信文本03中的连续字符依次计算相邻字符结合度Ii(wi;wi+1);
步骤S03,分词模块2对文本预处理后的短信文本03中的连续字符依次计算设定交叉字符结合度
步骤S04,分词模块2引入Sigmoid函数进行正规化,使Ii(wi;wi+1)和Ri域转化为(0,1),即计算综合结合度综合结合度根据的大小动态调整它们的占比,始终受中的较大值影响较大;
步骤S05,当综合结合度的值大于阈值时,分词模块2将生成的字符组成词组,输出分词结果04;
3)特征选择模块3采用TF-IDF方法生成最终的分类特征;
4)垃圾短信分类器模块4采用向量机模型根据最终的分类特征对文本预处理后的短信文本进行分类,输出短信类别02;向量机模型称作SVM;
向量机模型的原理如下:
训练样本集其中xi为样本点,yi∈{1,-1}为类别标签,i=1,...,l,l为训练样本个数。若训练样本是线性可分的,SVM找到w,b,使对任意i=1,...,l,有
wTxi+b>0,若yi=1
wTxi+b<0,若yi=-1
此时称wTx+b=0为分类超平面,求解w,b可通过如下优化模型得出:
s.t.yi(wTxi+b)≥1,i=1,2,...,l
上式是一个凸二次优化问题,可求得最优解(w*,b*),可得分类超平面为(w*)Tx+b*=0,最终得分类决策函数为:
f(x)=sgn((w*)Tx+b*);
向量机模型分类的伪代码是:
for each message msgi in data do
label(msgi)←SVM_Classifier(msgi)
end for
msgi代表经过文本处理和特征选择后的文本特征向量;
SVM_Classifier(msgi)代表对特征文本msgi使用SVM分类器得到的结果;label(msgi)代表特征文本msgi对应的短信被分为的类别。

Claims (1)

1.一种基于变体词识别技术的垃圾短信分类引擎,其特征在于由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;实现本发明的具体步骤包括:
1)文本预处理;
由文本预处理模块去除初始短信文本中的停用词、乱码、短链接,生成文本预处理后的短信文本并将文本预处理后的短信文本发送给分词模块;去除停用词所用的停用词表由哈工大停用词库加四川大学机器学习智能实验室停用词库加百度停用词表经过整合去重后得到;
2)交叉结合度分词,输出词组;
分词模块接收文本预处理后的短信文本,并将文本预处理后的短信文本加入到语料库中;语料库由不断加入的文本预处理后的短信文本加上在先收集的短信文本集合组成;
使用下列公式:
其中,wi-1wiwi+1wi+2表示短信文本中连续的4个字符;
表示语料库中,含有字符wi的总短信条数;
Nall表示语料库中,所有短信数据的总条数;
表示语料库中,含有字符串wiwi+1的总短信条数;
p(wi)表示字符wi在语料库中的经验概率,为含有字符wi的总短信条数占短信数据条数总和的比例;
p(wiwi+1)表示字符串wiwi+1在语料库中的经验概率,为含有字符串wiwi+1的总短信条数占短信数据条数总和的比例;
Ii(wi;wi+1)表示两个连续字符wi和wi+1之间的字符结合度;
表示间隔wi的wi-1和wi+1之间的字符结合度;
表示间隔wi+1的wi和wi+2之间的字符结合度;
表示间隔wi和wi+1的wi-1和wi+2之间的字符结合度;
分词模块对文本预处理后的短信文本中的连续字符依次计算相邻字符结合度Ii(wi;wi+1);
分词模块对文本预处理后的短信文本中的连续字符依次计算 设定交叉字符结合度
分词模块引入Sigmoid函数进行正规化,使Ii(wi;wi+1)和Ri域转化为(0,1),即计算综合结合度综合结合度根据的大小动态调整它们的占比,始终受中的较大值影响较大;
当综合结合度的值大于阈值时,分词模块将生成的字符组成词组,输出分词结果;
3)特征选择模块采用TF-IDF方法生成最终的分类特征;
4)垃圾短信分类器模块采用向量机模型根据最终的分类特征对文本预处理后的短信文本进行分类,输出短信类别;向量机模型称作SVM;
向量机模型的原理如下:
训练样本集其中xi为样本点,yi∈{1,-1}为类别标签,i=1,...,l,l为训练样本个数。若训练样本是线性可分的,SVM找到w,b,使对任意i=1,...,l,有
wTxi+b>0,若yi=1
wTxi+b<0,若yi=-1
此时称wTx+b=0为分类超平面,求解w,b可通过如下优化模型得出:
s.t.yi(wTxi+b)≥1,i=1,2,...,l
上式是一个凸二次优化问题,可求得最优解(w*,b*),可得分类超平面为(w*)Tx+b*=0,最终得分类决策函数为:
f(x)=sgn((w*)Tx+b*);
向量机模型分类的伪代码是:
for each message msgi in data do
label(msgi)←SVM_Classifier(msgi)
end for
msgi代表经过文本处理和特征选择后的文本特征向量;
SVM_Classifier(msgi)代表对特征文本msgi使用SVM分类器得到的结果;
label(msgi)代表特征文本msgi对应的短信被分为的类别。
CN201910157774.8A 2019-03-02 2019-03-02 一种基于变体词识别技术的垃圾短信分类引擎 Active CN109873755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910157774.8A CN109873755B (zh) 2019-03-02 2019-03-02 一种基于变体词识别技术的垃圾短信分类引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910157774.8A CN109873755B (zh) 2019-03-02 2019-03-02 一种基于变体词识别技术的垃圾短信分类引擎

Publications (2)

Publication Number Publication Date
CN109873755A true CN109873755A (zh) 2019-06-11
CN109873755B CN109873755B (zh) 2021-01-01

Family

ID=66919687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910157774.8A Active CN109873755B (zh) 2019-03-02 2019-03-02 一种基于变体词识别技术的垃圾短信分类引擎

Country Status (1)

Country Link
CN (1) CN109873755B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112492606A (zh) * 2020-11-10 2021-03-12 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462115A (zh) * 2013-09-17 2015-03-25 中兴通讯股份有限公司 垃圾短信的识别方法及装置
US20160072749A1 (en) * 2014-09-04 2016-03-10 International Business Machines Corporation Automated spam filter updating by tracking user navigation
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN106161209A (zh) * 2016-07-21 2016-11-23 康佳集团股份有限公司 一种基于深度自学习的垃圾短信过滤方法及系统
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107908716A (zh) * 2017-11-10 2018-04-13 国网山东省电力公司电力科学研究院 基于词向量模型的95598工单文本挖掘方法和装置
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462115A (zh) * 2013-09-17 2015-03-25 中兴通讯股份有限公司 垃圾短信的识别方法及装置
US20160072749A1 (en) * 2014-09-04 2016-03-10 International Business Machines Corporation Automated spam filter updating by tracking user navigation
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN106161209A (zh) * 2016-07-21 2016-11-23 康佳集团股份有限公司 一种基于深度自学习的垃圾短信过滤方法及系统
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107908716A (zh) * 2017-11-10 2018-04-13 国网山东省电力公司电力科学研究院 基于词向量模型的95598工单文本挖掘方法和装置
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张永军,刘金玲: "基于特征词的垃圾短信分类器模型", 《计算机应用》 *
李润川等: "基于多特征融合的垃圾短信识别", 《山东大学学报》 *
王文霞: "短信文本分类技术的研究", 《计算机技术与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112287684B (zh) * 2020-10-30 2024-06-11 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112492606A (zh) * 2020-11-10 2021-03-12 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN112492606B (zh) * 2020-11-10 2024-05-17 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109873755B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN109960799B (zh) 一种面向短文本的优化分类方法
Faguo et al. Research on short text classification algorithm based on statistics and rules
Ning et al. Spam message classification based on the Naïve Bayes classification algorithm
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN105335352A (zh) 基于微博情感的实体识别方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
Liliana et al. Indonesian news classification using support vector machine
CN107483420B (zh) 信息审核装置及方法
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN109873755A (zh) 一种基于变体词识别技术的垃圾短信分类引擎
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
KR101291076B1 (ko) 스팸 문서 판단 방법 및 그 판단 장치
CN114662486B (zh) 一种基于机器学习的突发事件敏感词检测方法
CN109947932B (zh) 一种推送信息分类方法及系统
CN113408286B (zh) 一种面向机械化工领域的中文实体识别方法和系统
Yin et al. An improved bayesian algorithm for filtering spam e-mail
Vejendla et al. Score based Support Vector Machine for Spam Mail Detection
CN106713108B (zh) 一种结合用户关系与贝叶斯理论的邮件分类方法
Hong et al. The adaptive SPAM mail detection system using clustering based on text mining
He et al. Similar language identification for Uyghur and Kazakh on short spoken texts
Kumar et al. Real and Fake News Classification Using Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant