CN101227435A - 基于Logistic回归的中文垃圾邮件过滤方法 - Google Patents
基于Logistic回归的中文垃圾邮件过滤方法 Download PDFInfo
- Publication number
- CN101227435A CN101227435A CNA2008100596029A CN200810059602A CN101227435A CN 101227435 A CN101227435 A CN 101227435A CN A2008100596029 A CNA2008100596029 A CN A2008100596029A CN 200810059602 A CN200810059602 A CN 200810059602A CN 101227435 A CN101227435 A CN 101227435A
- Authority
- CN
- China
- Prior art keywords
- text message
- logistic
- speech
- mails
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001914 filtration Methods 0.000 title claims abstract description 23
- 238000007477 logistic regression Methods 0.000 title claims description 14
- 239000000284 extract Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000005489 dwarf bean Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- JEYCTXHKTXCGPB-UHFFFAOYSA-N Methaqualone Chemical compound CC1=CC=CC=C1N1C(=O)C2=CC=CC=C2N=C1C JEYCTXHKTXCGPB-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于Logistic回归的中文垃圾邮件过滤方法。其步骤如下:1)对邮件进行解析,提取邮件标题、邮件主体及附件相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中词条的词频,利用TF-IDF公式计算词的权重,将邮件表示成加权的特征向量;4)利用LIBLINEAR工具包对邮件样本进行训练得到Logistic回归模型;5)利用Logistic回归模型对新的邮件进行分类,得到邮件是否为垃圾邮件的概率值。本发明利用了Logistic回归模型具有模型简单、参数数量少,以及在样本数目和特征数目都很巨大的数据集中具有分类准确度高的优点,通过维数约简和改进的特征值计算方法,提高了垃圾邮件过滤的准确率和效率,同时,还有效解决了垃圾邮件过滤中所面临的模型训练参数选择问题。
Description
技术领域
本发明涉及垃圾邮件过滤方法,尤其涉及一种基于Logistic回归的中文垃圾邮件过滤方法。
背景技术
随着垃圾邮件的泛滥,各种垃圾邮件过滤技术应运而生。当前,基于内容的智能邮件过滤方法已成为主流技术,其中,支持向量机(SVM)、动态马尔可夫建模(DMM)、Winnow等机器学习方法都已成功应用于邮件分类领域。这些方法的基本思路是,将垃圾邮件过滤看成一个两类问题,研究从样本邮件出发寻找分类器,利用分类器对未知邮件进行预测。
通常,可将机器学习技术划分为区分模型(Discriminative Model,如Logistic回归、SVM)和生成模型(Generative Model,如Bayes)两类。实践证明,在PU-1垃圾邮件语料库上,区分模型的邮件分类效果要好于生成模型。然而,对于不同的区分模型,其性能也有差异。例如,国际上有人(Hsu、Chang和Lin)将Logistic回归应用于文本分类,在大数据集上取得了较线性C-SVM更优的精确率;国外学者(Lynam和Cormack、Goodman和Yih)将Logistic回归应用于英文垃圾邮件分类,在TREC(Text Retrieval Conference)垃圾邮件语料库上进行了验证,效果较好。
经专利查新统计,国内外有不少与中文垃圾邮件过滤相关的专利,例如,基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法(200510135603.3)、用于阻止垃圾邮件的源/目的地的特征和列表(200410063953.9)、社会网络电子邮件过滤(200510070053.1)、垃圾电子邮件过滤方法和系统(200510087762.0)、增量反垃圾邮件查找与更新服务(200510082282.5)、外发垃圾邮件的阻止(200410063149.0)、在系统中为紧急或重要情况使用成批电子邮件过滤器用于分类消息(200410063950.5),等等。以上专利中所采用的垃圾邮件过滤技术,均未涉及基于Logistic回归的中文垃圾邮件过滤方法。
发明内容
本发明的目的是提供一种基于Logistic回归的中文垃圾邮件过滤方法。
基于Logistic回归的中文垃圾邮件过滤方法包括如下步骤:
1)利用JavaMail和HTMLParser的应用程序接口对邮件进行解析,提取邮件标题、邮件文本、邮件字符集、邮件附件标题的文本信息;
2)对提取的文本信息进行分词;
3)统计文本信息中的词条的词频,利用TF-IDF公式计算词的权重,将邮件文本信息表示成加权特征向量,重复步骤1)~步骤3)得到加权特征向量集;
4)利用LIBLINEAR工具包对邮件样本的加权特征向量集进行训练得到Logistic回归模型;
5)利用得到的Logistic回归模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值。
所述的对邮件进行解析,提取邮件标题、邮件文本、邮件附件标题的文本信息:利用RFC2822,RFC2045,RFC2046邮件标准和MIME格式标准,对邮件进行解码、解析,提取邮件标题、邮件文本、邮件附件标题的文本信息,若提取的文本信息已通过Base64和Quoted Printable编码方式进行过编码,则采用与其对应的解码方式进行解码,对html格式的邮件主体进行解析。
所述的对提取的文本信息进行分词:对解码后的邮件文本信息进行分词,以得到经过分词后的文本信息。
所述的统计文本信息中的词条的词频,利用TF-IDF公式计算词的权重,将邮件文本信息表示成加权特征向量,重复步骤1)~步骤3)得到加权特征向量集:对于经过分词后的文本信息,首先统计其中每个词的词频和邮件样本集中该词出现的词频,使用TF-IDF公式计算词的权重,将邮件样本集中所有的词组成一个特征空间,每封邮件可以映射成该特征空间的一个加权特征向量,重复步骤1)~步骤3),得到加权特征向量集。
本发明与现有技术相比具有的有益效果:
1)Logistic回归模型具有较少的调节参数,能够在中文垃圾邮件过滤应用中取得很好的分类效果。与SVM方法相比,无论是在ROC(Receiver OperatingCharacteristics)分类指标上,还是在运行效率上,Logistic回归模型都要优于后者。
2)提出一种中文、非中文混合文本的分词方法,避免了直接采用第三方分词系统引起的效率低下问题。
3)提出一种改进的特征值计算方法,引入了权重因子,通过改变一些特殊词(如用户自定义的词、参与构建邮件主题的词、黄色或暴力等敏感词)的权重因子,可以获得更好的分类效果。
4)提出一种以词频为特征选择依据实施维数约简的方法,有效减小了特征空间的大小,提高了运行效率和分类效果。
5)提出一种以ROC选择模型训练参数的方法,避免了用单一的正常邮件误判率或垃圾邮件误判率进行衡量的局限性。
附图说明
图1是基于Logistic回归的中文垃圾邮件过滤方法的流程图;
图2是本发明的邮件解析流程图;
图3是本发明的分词流程图;
图4是Logistic分类器的训练流程图;
图5是Logistic分类器的分类流程图。
具体实施方式
本发明的主要原理如下:
1)在邮件的预处理阶段,包括邮件解析和分词过程。利用JavaMail将邮件的标题、正文文本内容,以及所包含的附件、图片、音频、视频等信息抽取出来;依据标点、空格等自然切分标志对非中文文本进行切分,采用最大匹配法对中文文本进行切分。
2)在特征层面,将邮件样本集中所有的词组成一个特征空间,每封邮件可以映射成该特征空间的一个向量;采用改善的特征值计算方法,引入了权重因子,体现了邮件的文本特征;以词频为特征选择依据实施维数约简,减小了特征空间的大小。
3)在模型层面,利用Logistic进行训练和分类,通过训练得到一个Logistic分类模型,即估算出Logistic回归模型的权向量,对用向量表示的邮件进行分类预测的过程就是求出该邮件属于某一类的后验概率。
4)ROC是评价模型分类性能的重要指标,将其运用于Logistic回归模型训练参数的选择,避免了用单一的正常邮件误判率或垃圾邮件误判率进行衡量的局限性。
5)Hash表数据结构能够提供高效的访问,将其运用于中文分词字典、词—词频索引表,提高了数据搜索的效率。
基于Logistic回归的中文垃圾邮件过滤方法包括如下步骤:
1)利用JavaMail和HTMLParser的应用程序接口(API)对邮件进行解析,提取邮件标题、邮件文本、邮件附件标题的文本信息;
利用RFC2822,RFC2045,RFC2046邮件标准和MIME格式标准,利用JavaMail和HTMLParser的应用程序接口对邮件进行解码、解析,提取邮件标题、邮件文本、邮件附件标题的文本信息,若提取的文本信息已通过Base64和QuotedPrintable编码方式进行过编码,则采用与其对应的解码方式进行解码,对html格式的邮件主体进行解析。
邮件文本报文的格式由RFC822、RFC2045、RFC2046和RFC2047定义,可根据邮件编码方式对邮件进行解码,提取邮件标题、邮件文本、邮件附件标题的文本信息。本发明使用JavaMail和HTMLParser的API对邮件进行解析,具体步骤如下:
a)将邮件实例化MimeMessage类的对象,通过getSubject()方法提取邮件的主题;用getContent()方法返回一个MultiPartEncryped对象,对该对象使用tostring()方法得到ASCII或ISO8859格式的文本主体,使用getContent()、getFileName()方法得到MimeMultipart等类型的文本主体和图像(Image)、应用程序(Application)的文件名。
b)对html格式的邮件文本主体,需将此邮件文本主体实例化Parser类的对象,通过visitAllNodesWith()方法调用一个StringBean类的对象,实现html邮件文本主体的解析,纯文本内容的邮件文本主体可使用StringBean类的getStrings()方法得到。详细的邮件预处理流程如图2所示。
2)对提取的文本信息进行分词;
对于解码后的邮件文本信息进行分词,以得到经过分词后的文本信息。
使用标点、空格等自然切分标志对邮件进行预处理,实现英文等非中文字符的切分,同时将邮件切分为更小的单位——句子,然后采用最大匹配法对预处理后的句子进行切分。为提高分词效率,字典的加载使用了Hash表。本发明采用北大天网分词字典。详细的分词流程如图3所示。
3)统计文本信息中的词条的词频,利用TF-IDF公式计算词的权重,将邮件文本信息表示成加权特征向量,重复步骤1)~步骤3)得到加权特征向量集;
对于经过分词后的文本信息,首先统计其中每个词的词频和邮件样本集中该词出现的词频,使用TF-IDF公式计算词的权重,将邮件样本集中所有的词组成一个特征空间,每封邮件可以映射成该特征空间的一个加权特征向量,重复步骤1)~步骤3),得到加权特征向量集。
得到加权特征向量集的具体步骤如下:
a)统计邮件样本集的文本信息中所有的词及其出现的频率,以此为基础建立一个词—词频索引表。邮件样本集的文本信息中所有的词构成一个特征空间,每一个邮件映射为该特征空间中的一个向量。
b)建立词—词频索引表之后,分别扫描每封邮件的文本信息,并统计每封邮件文本信息中词的词频,使用TF-IDF公式计算词的权重。每封邮件文本信息映射成一个特征向量,其特征值的计算公式如下:
其中,#(tk,ej)为词tk在邮件ej中出现的次数;#Ts(tk)为训练集Ts出现词tk的邮件个数,|Ts|为训练集Ts中邮件的个数,wm为权重因子。
c)权重因子wm体现了邮件的文本特征。通过改变一些特殊词(如用户自定义的词、参与构建邮件主题的词、黄色或暴力等敏感词)的权重因子,可以获得更好的分类效果。实验结果表明,当这些特殊词的权重因子wm等于3时,可获得最好的分类效果。
d)维数约简可以减小特征空间的大小,减少计算量,提高运行效率。本发明通过移除在词—词频索引表中词频为1和2的词来进行降维,大大提高了分类的准确性。
4)利用LIBLINEAR工具包对邮件样本的加权特征向量集进行训练得到Logistic回归模型,训练方法如下:
train[options]training_set_file[model_file]
其中,training_set_file为向量表示的训练集,[options]为训练参数选项。
本发明使用到的训练参数选项如下:
-s type:设置slover类型;
-c cost:设置平衡参数C;
-wi weight:设置类间权重因子wi。
训练得到Logistic回归模型的具体步骤如下:
a)设置train子程序的slover类型为L2-regularized Logistic回归。
b)调整train子程序的平衡参数C和类间权重因子wi,得到不同的Logistic回归模型,本发明通过ROC曲线,选择使Logistic模型分类效果相对最优时的平衡参数C和类间权重因子wi。
Logistic分类器的训练流程如图4所示。
5)利用得到的Logistic回归模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值。
利用LIBLINEAR工具包中的predict子程序,把新的邮件向量和步骤4)中获得的Logistic分类器模型作为参数输入,并选择支持概率估计的选项进行预测,即可获得该邮件是否为垃圾邮件的概率值。
Logistic分类器的分类流程如图5所示。
Logistic回归模型的也可采用Trust Region Newton method方法求解,具体步骤如下:
对步骤3)得到的加权特征向量xi求解,使满足
其中,yi代表第i封邮件是否垃圾邮件,yi取值为1或-1;xi是第i封邮件经过前3步之后所得到的加权特征向量;C是一个用来调节等式前后两项平衡的参数;w即为所求结果。
Trust Region Newton method方法的具体步骤如下:
a)初始化w0;
b)若wk的梯度f(wk)=0,则结束;
c)求解子问题
并满足‖s‖≤□k;
其中,qk(s)为二次方程式,s为迭代方向(direction),T表示矩阵转置,‖·‖表示矢量长度,为信任区域(trust region),2f(wk)为赫森(Hessian)矩阵。
d)计算ρk
e)更新wk+1
f)更新Δk+1
Δk+1=max[σ1min{‖sk‖,Δk},σ2Δk],ifρk≤η1
Δk+1=max[σ1Δk,σ3Δk],ifρk∈(η1,η2)
Δk+1=max[Δk,σ3Δk],ifρk≥η2
其中,σ1,σ2,σ3均为常数,且σ1<σ2<1<σ3;η0,η1,η2均为常数,且η0>0,η1<η2<1。
返回步骤b),反复迭代,从而收敛到一个全局最优解。
Logistic模型预测:对新的待判定邮件,首先,重复步骤1)~步骤3),把需要分类的邮件映射成文本向量x,判定是否为垃圾邮件的概率计算公式如下:
其中,p为概率值,y取值为1(表示正常邮件)或-1(表示垃圾邮件),x为邮件文本向量,w为利用Trust Region Newton method方法求解的结果,T表示矩阵转置。
Claims (4)
1.一种基于Logistic回归的中文垃圾邮件过滤方法,包括如下步骤:
1)利用JavaMail和HTMLParser的应用程序接口对邮件进行解析,提取邮件标题、邮件文本、邮件字符集、邮件附件标题的文本信息;
2)对提取的文本信息进行分词;
3)统计文本信息中的词条的词频,利用TF-IDF公式计算词的权重,将邮件文本信息表示成加权特征向量,重复步骤1)~步骤3)得到加权特征向量集;
4)利用LIBLINEAR工具包对邮件样本的加权特征向量集进行训练得到Logistic回归模型;
5)利用得到的Logistic回归模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值。
2.根据权利要求1所述的一种基于Logistic回归的中文垃圾邮件过滤方法,其特征在于所述的对邮件进行解析,提取邮件标题、邮件文本、邮件字符集、邮件附件标题的文本信息:利用RFC2822,RFC2045,RFC2046邮件标准和MIME格式标准,对邮件进行解码、解析,提取邮件标题、邮件文本、邮件字符集、邮件附件标题的文本信息,若提取的文本信息已通过Base64和Quoted Printable编码方式进行过编码,则采用与其对应的解码方式进行解码,对html格式的邮件主体进行解析。
3.根据权利要求1所述的一种基于Logistic回归的中文垃圾邮件过滤方法,其特征在于所述的对提取的文本信息进行分词:对于解码后的文本信息进行分词,以得到经过分词后的文本信息。
4.根据权利要求1所述的一种基于Logistic回归的中文垃圾邮件过滤方法,其特征在于所述的统计文本信息中的词条的词频,利用TF-IDF公式计算词的权重,将邮件文本信息表示成加权特征向量,重复步骤1)~步骤3)得到加权特征向量集:对于经过分词后的文本信息,首先统计其中每个词的词频和邮件样本集中该词出现的词频,使用TF-IDF公式计算词的权重,将邮件样本集中所有的词组成一个特征空间,每封邮件可以映射成该特征空间的一个加权特征向量,重复步骤1)~步骤3),得到加权特征向量集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100596029A CN101227435A (zh) | 2008-01-28 | 2008-01-28 | 基于Logistic回归的中文垃圾邮件过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100596029A CN101227435A (zh) | 2008-01-28 | 2008-01-28 | 基于Logistic回归的中文垃圾邮件过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101227435A true CN101227435A (zh) | 2008-07-23 |
Family
ID=39859195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100596029A Pending CN101227435A (zh) | 2008-01-28 | 2008-01-28 | 基于Logistic回归的中文垃圾邮件过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101227435A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908055A (zh) * | 2010-03-05 | 2010-12-08 | 黑龙江工程学院 | 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN101794378B (zh) * | 2010-01-26 | 2012-02-29 | 浙江大学 | 基于图片编码的垃圾图片过滤方法 |
CN102377690A (zh) * | 2011-10-10 | 2012-03-14 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN102521505A (zh) * | 2011-12-08 | 2012-06-27 | 杭州电子科技大学 | 用于控制意图识别的脑电和眼电信号决策融合方法 |
CN102035753B (zh) * | 2009-10-02 | 2012-07-11 | 青岛理工大学 | 一种基于过滤器动态集成的垃圾邮件过滤方法 |
CN103095644A (zh) * | 2011-10-28 | 2013-05-08 | 中国移动通信集团公司 | 一种数据内容解析方法及装置 |
WO2013097327A1 (zh) * | 2011-12-29 | 2013-07-04 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN103441924A (zh) * | 2013-09-03 | 2013-12-11 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN101699432B (zh) * | 2009-11-13 | 2015-01-21 | 黑龙江工程学院 | 基于排序策略的信息过滤系统 |
CN104699717A (zh) * | 2013-12-10 | 2015-06-10 | 中国银联股份有限公司 | 数据挖掘方法 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN104834640A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 网页的识别方法及装置 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
CN105760965A (zh) * | 2016-03-15 | 2016-07-13 | 北京百度网讯科技有限公司 | 预估模型参数的训练方法、服务质量预估方法及对应装置 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN101540017B (zh) * | 2009-04-28 | 2016-08-03 | 黑龙江工程学院 | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 |
CN105843856A (zh) * | 2016-03-16 | 2016-08-10 | 中国联合网络通信集团有限公司 | 垃圾信息处理方法、装置和系统 |
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN106850415A (zh) * | 2017-03-17 | 2017-06-13 | 盐城工学院 | 邮件分类方法及装置 |
CN107194260A (zh) * | 2017-04-20 | 2017-09-22 | 中国科学院软件研究所 | 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法 |
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN109241013A (zh) * | 2018-09-18 | 2019-01-18 | 北京工业大学 | 一种共享图书系统中图书内容审核的方法 |
CN109299266A (zh) * | 2018-10-16 | 2019-02-01 | 中国搜索信息科技股份有限公司 | 一种用于中文新闻突发事件的文本分类与抽取方法 |
CN110019763A (zh) * | 2017-12-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN110457694A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN112990852A (zh) * | 2021-02-23 | 2021-06-18 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN113112007A (zh) * | 2021-06-11 | 2021-07-13 | 平安科技(深圳)有限公司 | 神经网络中序列长度选择方法、装置、设备及存储介质 |
CN114629870A (zh) * | 2020-12-11 | 2022-06-14 | 李天明 | 一种垃圾邮件过滤方法、装置、系统及存储介质 |
CN116308237A (zh) * | 2023-05-25 | 2023-06-23 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
CN117474510A (zh) * | 2023-12-25 | 2024-01-30 | 彩讯科技股份有限公司 | 一种基于特征选择的垃圾邮件过滤方法 |
CN117633659A (zh) * | 2024-01-25 | 2024-03-01 | 成都工业职业技术学院 | 一种基于计算机的邮件分类方法及装置 |
-
2008
- 2008-01-28 CN CNA2008100596029A patent/CN101227435A/zh active Pending
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540017B (zh) * | 2009-04-28 | 2016-08-03 | 黑龙江工程学院 | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 |
CN102035753B (zh) * | 2009-10-02 | 2012-07-11 | 青岛理工大学 | 一种基于过滤器动态集成的垃圾邮件过滤方法 |
CN101699432B (zh) * | 2009-11-13 | 2015-01-21 | 黑龙江工程学院 | 基于排序策略的信息过滤系统 |
CN101794378B (zh) * | 2010-01-26 | 2012-02-29 | 浙江大学 | 基于图片编码的垃圾图片过滤方法 |
CN101908055B (zh) * | 2010-03-05 | 2013-02-13 | 黑龙江工程学院 | 一种信息过滤系统 |
CN101908055A (zh) * | 2010-03-05 | 2010-12-08 | 黑龙江工程学院 | 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN102377690B (zh) * | 2011-10-10 | 2014-09-17 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN102377690A (zh) * | 2011-10-10 | 2012-03-14 | 网易(杭州)网络有限公司 | 反垃圾邮件网关系统及方法 |
CN103095644B (zh) * | 2011-10-28 | 2015-10-07 | 中国移动通信集团公司 | 一种数据内容解析方法及装置 |
CN103095644A (zh) * | 2011-10-28 | 2013-05-08 | 中国移动通信集团公司 | 一种数据内容解析方法及装置 |
CN102521505A (zh) * | 2011-12-08 | 2012-06-27 | 杭州电子科技大学 | 用于控制意图识别的脑电和眼电信号决策融合方法 |
WO2013097327A1 (zh) * | 2011-12-29 | 2013-07-04 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN103441924A (zh) * | 2013-09-03 | 2013-12-11 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
WO2015032120A1 (zh) * | 2013-09-03 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
CN103441924B (zh) * | 2013-09-03 | 2016-06-08 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
CN104699717A (zh) * | 2013-12-10 | 2015-06-10 | 中国银联股份有限公司 | 数据挖掘方法 |
WO2015085916A1 (zh) * | 2013-12-10 | 2015-06-18 | 中国银联股份有限公司 | 数据挖掘方法 |
US10482093B2 (en) | 2013-12-10 | 2019-11-19 | China Unionpay Co., Ltd. | Data mining method |
CN104834640A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 网页的识别方法及装置 |
US10452725B2 (en) | 2014-02-10 | 2019-10-22 | Tencent Technology (Shenzhen) Company Limited | Web page recognizing method and apparatus |
CN103902673B (zh) * | 2014-03-19 | 2017-11-24 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
CN105447505B (zh) * | 2015-11-09 | 2018-12-18 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN105760965A (zh) * | 2016-03-15 | 2016-07-13 | 北京百度网讯科技有限公司 | 预估模型参数的训练方法、服务质量预估方法及对应装置 |
CN105843856A (zh) * | 2016-03-16 | 2016-08-10 | 中国联合网络通信集团有限公司 | 垃圾信息处理方法、装置和系统 |
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN107688576A (zh) * | 2016-08-04 | 2018-02-13 | 中国科学院声学研究所 | 一种cnn‑svm模型的构建及倾向性分类方法 |
CN107688576B (zh) * | 2016-08-04 | 2020-06-16 | 中国科学院声学研究所 | 一种cnn-svm模型的构建及倾向性分类方法 |
CN106850415B (zh) * | 2017-03-17 | 2021-01-05 | 盐城工学院 | 邮件分类方法及装置 |
CN106850415A (zh) * | 2017-03-17 | 2017-06-13 | 盐城工学院 | 邮件分类方法及装置 |
CN107194260A (zh) * | 2017-04-20 | 2017-09-22 | 中国科学院软件研究所 | 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法 |
CN110019763A (zh) * | 2017-12-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN110019763B (zh) * | 2017-12-27 | 2022-04-12 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN109241013A (zh) * | 2018-09-18 | 2019-01-18 | 北京工业大学 | 一种共享图书系统中图书内容审核的方法 |
CN109299266B (zh) * | 2018-10-16 | 2019-11-12 | 中国搜索信息科技股份有限公司 | 一种用于中文新闻突发事件的文本分类与抽取方法 |
CN109299266A (zh) * | 2018-10-16 | 2019-02-01 | 中国搜索信息科技股份有限公司 | 一种用于中文新闻突发事件的文本分类与抽取方法 |
CN110457694B (zh) * | 2019-07-29 | 2023-09-22 | 腾讯科技(上海)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN110457694A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN114629870A (zh) * | 2020-12-11 | 2022-06-14 | 李天明 | 一种垃圾邮件过滤方法、装置、系统及存储介质 |
CN112990852A (zh) * | 2021-02-23 | 2021-06-18 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN112990852B (zh) * | 2021-02-23 | 2024-03-29 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN113112007A (zh) * | 2021-06-11 | 2021-07-13 | 平安科技(深圳)有限公司 | 神经网络中序列长度选择方法、装置、设备及存储介质 |
CN116308237B (zh) * | 2023-05-25 | 2023-08-25 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
CN116308237A (zh) * | 2023-05-25 | 2023-06-23 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
CN117474510A (zh) * | 2023-12-25 | 2024-01-30 | 彩讯科技股份有限公司 | 一种基于特征选择的垃圾邮件过滤方法 |
CN117633659A (zh) * | 2024-01-25 | 2024-03-01 | 成都工业职业技术学院 | 一种基于计算机的邮件分类方法及装置 |
CN117633659B (zh) * | 2024-01-25 | 2024-04-26 | 成都工业职业技术学院 | 一种基于计算机的邮件分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101227435A (zh) | 基于Logistic回归的中文垃圾邮件过滤方法 | |
CN107943941B (zh) | 一种可迭代更新的垃圾文本识别方法和系统 | |
KR101708508B1 (ko) | 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
KR101716905B1 (ko) | 개체의 유사성을 계산하는 방법 | |
EP2486470B1 (en) | System and method for inputting text into electronic devices | |
CN101540017B (zh) | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 | |
CN103425777B (zh) | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN101345720B (zh) | 基于部分匹配预测的垃圾邮件分类方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN101106539A (zh) | 基于支持向量机的垃圾邮件过滤方法 | |
CN102404249B (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
Almeida et al. | Facing the spammers: A very effective approach to avoid junk e-mails | |
CN113112239A (zh) | 一种便捷式岗位人才筛选方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
Samsudin et al. | Mining opinion in online messages | |
CN116644339A (zh) | 一种信息归类方法及系统 | |
CN106649338A (zh) | 信息过滤策略生成方法及装置 | |
CN105354184A (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
CN107483420A (zh) | 信息审核装置及方法 | |
CN105337842B (zh) | 一种与内容无关的垃圾邮件过滤方法 | |
CN101329668A (zh) | 一种信息规则生成方法及装置、信息类型判断方法及系统 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080723 |