CN110175221A - 利用词向量结合机器学习的垃圾短信识别方法 - Google Patents

利用词向量结合机器学习的垃圾短信识别方法 Download PDF

Info

Publication number
CN110175221A
CN110175221A CN201910411018.3A CN201910411018A CN110175221A CN 110175221 A CN110175221 A CN 110175221A CN 201910411018 A CN201910411018 A CN 201910411018A CN 110175221 A CN110175221 A CN 110175221A
Authority
CN
China
Prior art keywords
short message
term vector
vector
refuse messages
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910411018.3A
Other languages
English (en)
Other versions
CN110175221B (zh
Inventor
刘发强
黄远
高圣翔
沈亮
林格平
万辛
洪永婷
吉立妍
宋东力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chang'an Communication Technology Co ltd
Xinxun Digital Technology Hangzhou Co ltd
National Computer Network and Information Security Management Center
Original Assignee
CHANGAN COMMUNICATION TECHNOLOGY Co Ltd
National Computer Network and Information Security Management Center
Hangzhou Dongxin Beiyou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANGAN COMMUNICATION TECHNOLOGY Co Ltd, National Computer Network and Information Security Management Center, Hangzhou Dongxin Beiyou Information Technology Co Ltd filed Critical CHANGAN COMMUNICATION TECHNOLOGY Co Ltd
Priority to CN201910411018.3A priority Critical patent/CN110175221B/zh
Publication of CN110175221A publication Critical patent/CN110175221A/zh
Application granted granted Critical
Publication of CN110175221B publication Critical patent/CN110175221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

利用词向量结合机器学习的垃圾短信识别方法,所述方法包括下列操作步骤:(1)根据短信特征对垃圾短信进行第一步识别;(2)根据关键词对垃圾短信进行第二步识别;(3)计算短信的短信文本向量,使用支持向量机的方法对垃圾短信进行第三步识别;(4)计算短信的静态词向量矩阵,利用卷积神经网络对垃圾短信进行第四步识别;(5)计算短信的每一个分词的动态词向量,利用卷积神经网络对垃圾短信进行第五步识别。本发明方法采用无监督和有监督相结合的垃圾短信识别方法,能大幅度提高垃圾短信的识别准确率。

Description

利用词向量结合机器学习的垃圾短信识别方法
技术领域
本发明涉及一种利用词向量结合机器学习的垃圾短信识别方法,属于信息技术领域,特别是属于基于机器学习的垃圾短信识别的技术领域。
背景技术
垃圾短信是目前困扰广大移动通信用户的问题之一。虽然已经有很多垃圾短信的识别方法被提出来,但是这些方法由于主要是基于传统的模式识别理论,普遍存在识别率不高、漏判、错判等问题。
近几年,基于机器学习的人工智能技术得到快速的发展,在许多领域获得非常好的应用成果。如何把机器学习技术应用到垃圾短信的识别领域,提高垃圾短信的识别率成为目前移动通信技术领域急需解决的一个技术难题。
发明内容
有鉴于此,本发明的目的是发明一种方法,在传统模式识别理论的基础上,结合利用机器学习技术,实现垃圾短信的高准确率识别。
为了达到上述目的,本发明提出了利用词向量结合机器学习的垃圾短信识别方法,所述方法包括下列操作步骤:
(1)根据短信特征对垃圾短信进行第一步识别,把符合设定条件的短信筛出;所述的短信特征包括但不限于:标点符号种类数目、短信字符数目、特殊字符、是否包含统一资源定位符URL;
(2)根据关键词对垃圾短信进行第二步识别,内容是:基于词向量模型,通过词共现分析和词相似度计算,建立关键词库;对短信进行分词处理,通过命中计算,如果该短信中命中超过设定数目的关键词,则把该短信筛出;所述的关键词库中的每一个关键词,同时包括该关键词的词向量和拼音;短信分词处理后,对得到的每一个分词进行转拼音处理;所述的命中计算既进行词向量命中计算也进行拼音命中计算;
(3)计算短信的短信文本向量,用所得到的短信文本向量构造特征向量,使用支持向量机的方法对垃圾短信进行第三步识别;
(4)计算短信的静态词向量矩阵embedding_matrix,以该静态词向量矩阵作为输入,利用卷积神经网络对垃圾短信进行第四步识别;所述的静态词向量矩阵是通过计算所述短信的每一个分词的静态词向量组合而成;
(5)计算短信的每一个分词的动态词向量,以所述动态词向量作为输入,利用卷积神经网络对垃圾短信进行第五步识别。
所述步骤(1)的具体内容包括如下子操作步骤:
(1.1)统计短信中包含的标点符号种类,除去“。”和“,”之外,把标点符号种类数目大于等于3的短信筛出,识别为垃圾短信;
(1.2)统计短信中包含的字符数目,除去标点符号之外,把字符数目大于等于80的短信筛出,识别为垃圾短信;
(1.3)匹配常用词库,把包含特殊字符的短信筛出,识别为垃圾短信;
(1.4)把内容中包含URL的短信筛出,识别为垃圾短信。
所述步骤(2)的具体内容包括如下子操作步骤:
(2.1)把标准中文语料库中的词转化为词向量;
(2.2)基于词向量模型,对短信样本中的词进行词共现分析和词相似度计算,得到短信样本中近似的关联词组,实现短信内的关联和短信间的关联关系,组建关键词网即关键词库,并把关键词库中的关键词转拼音处理;
(2.3)对短信进行分词处理,得到分词权重排名前三的分词,然后对所述的三个分词进行命中计算,如果该短信中命中不少于两个的关键词,则把该短信筛出;所述的命中计算既进行词向量命中计算也进行拼音命中计算;
所述步骤(2.1)中,所述的标准中文语料库为维基wiki中文语料库,所述的把标准中文语料库中的词转化为词向量的具体内容是:基于连续词袋模型CBOW或者Skip-Gram模型把词转化为词向量;所述的把标准中文语料库中的词转化为词向量的具体方法是使用Word2Vec工具进行转化;所述步骤(2.2)中,使用N_Gram模型进行所述的词共现分析;使用Word2Vec工具进行词相似度计算;所述步骤(2.3)中,利用python中jieba模块对短信进行分词处理。
步骤(3)中所述的计算短信的短信文本向量的具体内容是:对短信进行分词处理,得到该短信的短信分词,然后计算每个短信分词的词向量,最后根据短信分词的词向量组合计算得到所述短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:把所述短信的所有短信分词的词向量直接累加求和获得该短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:根据词性,对所述短信分词中的名词、动词、专有名词的词向量权重设为1,其他词的词向量权重设为0,然后加权求和得到所述短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:利用TextRank算法计算所得到的短信分词的权重,然后加权求和得到所述短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:首先把所述短信的所有短信分词的词向量直接累加求和,获得第一个向量;然后计算所述短信的词频-逆文件频率TFIDF向量,获得第二个向量,最后把所述的这两个向量前后连接起来,作为所述短信的短信文本向量。
步骤(3)中所述的用所得到的短信文本向量构造特征向量的具体内容是:用所得到的一种短信文本向量直接作为特征向量;或者用所得到的两种以上的短信文本向量顺序连接构造特征向量;或者用所得到的两种以上的短信文本向量加权求和构造特征向量。
步骤(4)的具体内容是:
对所述短信进行分词处理,使用Word2Vec工具计算各个短信分词的静态词向量,不删除停用词,把各个静态词向量顺序排列起来构成所述的静态词向量矩阵embedding_matrix;
所述短信的静态词向量矩阵embedding_matrix作为所述卷积神经网络的输入;
使用多个不同尺寸的卷积核来构造所述卷积神经网络的卷积层,以便捕捉短信的N-Gram信息;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算。
步骤(4)所述的卷积神经网络为TextCNN。
步骤(5)的具体内容是:
对所述短信进行分词处理,计算各个短信分词的动态词向量即ELMo动态词向量VEMLo;所述ELMo动态词向量VEMLo按照下式进行计算:
VEMLo=k1·Vchar_c+k2·VLf+k3·VLb
上式中,Vchar_c是根据char-CNN模型计算得到的所述短信分词的原始词向量,VLf和VLb分别是根据biLM模型计算所述短信分词的原始词向量的第一中间词向量和第二中间词向量,k1、k2和k3是权重系数,此处分别取值为:k1=0.2,k,2=0.4,k3=0.4;
所述短信的动态词向量作为所述卷积神经网络的输入;
使用bi-LSTM设计所述卷积神经网络的隐藏层,以所述短信的关键语义特征作为所述卷积神经网络卷积层的输入,使用一个卷积核来构造所述卷积神经网络的卷积层;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算;
步骤(5)所述的卷积神经网络为长短期记忆循环神经网络和卷积神经网络的融合模型LSTM_CNN。
前面所述的短信丰富度f(x)的定义如下式所示:
上式中,m表示主体词性的种类数目,主体词性的种类包括:形容词、名词、其他专名、动词、副动词和动名词;ai(x)表示短信x包含的第i种主体词性种类的数目,b(x)表示短信x的长度,h1和h2是权重系数。
本发明的有益效果在于:本发明的方法首先采用无监督的垃圾短信识别方法,即分别从短信特征和关键词两个方面进行垃圾短信识别,然后再采用有监督的垃圾短信识别方法,即利用词向量先后结合传统机器学习方法和深度学习方法进行垃圾短信识别,从而使得垃圾短信识别准确率得到很大的提高。
附图说明
图1是本发明提出的利用词向量结合机器学习的垃圾短信识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明提出的利用词向量结合机器学习的垃圾短信识别方法,所述方法包括下列操作步骤:
(1)根据短信特征对垃圾短信进行第一步识别,把符合设定条件的短信筛出;所述的短信特征包括但不限于:标点符号种类数目、短信字符数目、特殊字符、是否包含统一资源定位符URL;
(2)根据关键词对垃圾短信进行第二步识别,内容是:基于词向量模型,通过词共现分析和词相似度计算,建立关键词库;对短信进行分词处理,通过命中计算,如果该短信中命中超过设定数目的关键词,则把该短信筛出;所述的关键词库中的每一个关键词,同时包括该关键词的词向量和拼音;短信分词处理后,对得到的每一个分词进行转拼音处理;所述的命中计算既进行词向量命中计算也进行拼音命中计算;
(3)计算短信的短信文本向量,用所得到的短信文本向量构造特征向量,使用支持向量机的方法对垃圾短信进行第三步识别;实施例中,我们采用了sklearn中的svm支持向量机模块。在机器学习应用中,sklearn(scikit-learn)是一个功能强大的python包。
(4)计算短信的静态词向量矩阵embedding_matrix,以该静态词向量矩阵作为输入,利用卷积神经网络对垃圾短信进行第四步识别;所述的静态词向量矩阵是通过计算所述短信的每一个分词的静态词向量组合而成;
(5)计算短信的每一个分词的动态词向量,以所述动态词向量作为输入,利用卷积神经网络对垃圾短信进行第五步识别。
所述步骤(1)的具体内容包括如下子操作步骤:
(1.5)统计短信中包含的标点符号种类,除去“。”和“,”之外,把标点符号种类数目大于等于3的短信筛出,识别为垃圾短信;发明人经试验,此步垃圾短信的识别准确率在80%以上。
(1.6)统计短信中包含的字符数目,除去标点符号之外,把字符数目大于等于80的短信筛出,识别为垃圾短信;发明人经试验,此步垃圾短信的识别准确率在95%以上。
(1.7)匹配常用词库,把包含特殊字符的短信筛出,识别为垃圾短信;发明人经试验,此步垃圾短信的识别准确率在60%以上。
(1.8)把内容中包含URL的短信筛出,识别为垃圾短信。发明人经试验,此步垃圾短信的识别准确率在95%以上。
所述步骤(2)的具体内容包括如下子操作步骤:
(2.1)把标准中文语料库中的词转化为词向量;
(2.2)基于词向量模型,对短信样本中的词进行词共现分析和词相似度计算,得到短信样本中近似的关联词组,实现短信内的关联和短信间的关联关系,组建关键词网即关键词库,并把关键词库中的关键词转拼音处理;
(2.3)对短信进行分词处理,得到分词权重排名前三的分词,然后对所述的三个分词进行命中计算,如果该短信中命中不少于两个的关键词,则把该短信筛出;所述的命中计算既进行词向量命中计算也进行拼音命中计算;
所述步骤(2.1)中,所述的标准中文语料库为维基wiki中文语料库,所述的把标准中文语料库中的词转化为词向量的具体内容是:基于连续词袋模型CBOW(Continuous Bagof Words)或者Skip-Gram模型把词转化为词向量;所述的把标准中文语料库中的词转化为词向量的具体方法是使用Word2Vec工具进行转化;所述步骤(2.2)中,使用N_Gram模型进行所述的词共现分析;使用Word2Vec工具进行词相似度计算;所述步骤(2.3)中,利用Python中jieba模块对短信进行分词处理。
本发明中,Word2Vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造,在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2Vec这一款用于训练词向量的软件工具。Word2Vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。
jieba(结巴)是Python的一个中文分词组件。
步骤(3)中所述的计算短信的短信文本向量的具体内容是:对短信进行分词处理,得到该短信的短信分词,然后计算每个短信分词的词向量,最后根据短信分词的词向量组合计算得到所述短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:把所述短信的所有短信分词的词向量直接累加求和获得该短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:根据词性,对所述短信分词中的名词、动词、专有名词的词向量权重设为1,其他词的词向量权重设为0,然后加权求和得到所述短信的短信文本向量。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:利用TextRank算法计算所得到的短信分词的权重,然后加权求和得到所述短信的短信文本向量。
所述的TextRank算法是一种文本排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词。
所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:首先把所述短信的所有短信分词的词向量直接累加求和,获得第一个向量;然后计算所述短信的词频-逆文件频率TFIDF向量,获得第二个向量,最后把所述的这两个向量前后连接起来,作为所述短信的短信文本向量。
步骤(3)中所述的用所得到的短信文本向量构造特征向量的具体内容是:用所得到的一种短信文本向量直接作为特征向量;或者用所得到的两种以上的短信文本向量顺序连接构造特征向量;或者用所得到的两种以上的短信文本向量加权求和构造特征向量。
步骤(4)的具体内容是:
对所述短信进行分词处理,使用Word2Vec工具计算各个短信分词的静态词向量,不删除停用词,把各个静态词向量顺序排列起来构成所述的静态词向量矩阵embedding_matrix;
所述短信的静态词向量矩阵embedding_matrix作为所述卷积神经网络的输入;
使用多个不同尺寸的卷积核来构造所述卷积神经网络的卷积层,以便捕捉短信的N-Gram信息;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算。
步骤(4)所述的卷积神经网络为TextCNN,TextCNN是利用卷积神经网络对文本进行分类的算法,2014年由Yoon Kim在“Convolutional Neural Networks for SentenceClassification”一文中提出。
步骤(5)的具体内容是:
对所述短信进行分词处理,计算各个短信分词的动态词向量即ELMo(Embeddingsfrom Language Models)动态词向量VEMLo;所述ELMo动态词向量VEMLo按照下式进行计算:
VEMLo=k1·Vchar_c+k2·VLf+k3·VLb
上式中,Vchar_c是根据char-CNN模型计算得到的所述短信分词的原始词向量,VLf和VLb分别是根据双向语言模型biLM计算所述短信分词的原始词向量的第一中间词向量和第二中间词向量,k1、k2和k3是权重系数,此处分别取值为:k1=0.2,k,2=0.4,k3=0.4;
char-CNN模型参见文献Character-level Convoutional Networks for TextClassification,https://arxiv.org/pdf/1509.01626.pdf。
所述短信的动态词向量作为所述卷积神经网络的输入;
使用双向长短期记忆网络bi-LSTM设计所述卷积神经网络的隐藏层,以所述短信的关键语义特征作为所述卷积神经网络卷积层的输入,使用一个卷积核来构造所述卷积神经网络的卷积层;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算;
步骤(5)所述的卷积神经网络为长短期记忆循环神经网络和卷积神经网络的融合模型LSTM_CNN。
前面所述的短信丰富度f(x)的定义如下式所示:
上式中,m表示主体词性的种类数目,主体词性的种类包括:形容词、名词、其他专名、动词、副动词和动名词;ai(x)表示短信x包含的第i种主体词性种类的数目,b(x)表示短信x的长度,h1和h2是权重系数,在实施例中,我们取h1=0.6和h2=0.4。
发明人对本发明所述方法在真实的网络环境中进行了大量的实验,获得了满意的实验结果,证明本发明的方法是有效可行的。

Claims (15)

1.利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述方法包括下列操作步骤:
(1)根据短信特征对垃圾短信进行第一步识别,把符合设定条件的短信筛出;所述的短信特征包括但不限于:标点符号种类数目、短信字符数目、特殊字符、是否包含统一资源定位符URL;
(2)根据关键词对垃圾短信进行第二步识别,内容是:基于词向量模型,通过词共现分析和词相似度计算,建立关键词库;对短信进行分词处理,通过命中计算,如果该短信中命中超过设定数目的关键词,则把该短信筛出;所述的关键词库中的每一个关键词,同时包括该关键词的词向量和拼音;短信分词处理后,对得到的每一个分词进行转拼音处理;所述的命中计算既进行词向量命中计算也进行拼音命中计算;
(3)计算短信的短信文本向量,用所得到的短信文本向量构造特征向量,使用支持向量机的方法对垃圾短信进行第三步识别;
(4)计算短信的静态词向量矩阵embedding_matrix,以该静态词向量矩阵作为输入,利用卷积神经网络对垃圾短信进行第四步识别;所述的静态词向量矩阵是通过计算所述短信的每一个分词的静态词向量组合而成;
(5)计算短信的每一个分词的动态词向量,以所述动态词向量作为输入,利用卷积神经网络对垃圾短信进行第五步识别。
2.根据权利要求1所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述步骤(1)的具体内容包括如下子操作步骤:
(1.1)统计短信中包含的标点符号种类,除去“。”和“,”之外,把标点符号种类数目大于等于3的短信筛出,识别为垃圾短信;
(1.2)统计短信中包含的字符数目,除去标点符号之外,把字符数目大于等于80的短信筛出,识别为垃圾短信;
(1.3)匹配常用词库,把包含特殊字符的短信筛出,识别为垃圾短信;
(1.4)把内容中包含URL的短信筛出,识别为垃圾短信。
3.根据权利要求1所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述步骤(2)的具体内容包括如下子操作步骤:
(2.1)把标准中文语料库中的词转化为词向量;
(2.2)基于词向量模型,对短信样本中的词进行词共现分析和词相似度计算,得到短信样本中近似的关联词组,实现短信内的关联和短信间的关联关系,组建关键词网即关键词库,并把关键词库中的关键词转拼音处理;
(2.3)对短信进行分词处理,得到分词权重排名前三的分词,然后对所述的三个分词进行命中计算,如果该短信中命中不少于两个的关键词,则把该短信筛出;所述的命中计算既进行词向量命中计算也进行拼音命中计算。
4.根据权利要求3所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述步骤(2.1)中,所述的标准中文语料库为维基wiki中文语料库,所述的把标准中文语料库中的词转化为词向量的具体内容是:基于连续词袋模型CBOW或者Skip-Gram模型把词转化为词向量;所述的把标准中文语料库中的词转化为词向量的具体方法是使用Word2Vec工具进行转化;所述步骤(2.2)中,使用N_Gram模型进行所述的词共现分析;使用Word2Vec工具进行词相似度计算;所述步骤(2.3)中,利用python中jieba模块对短信进行分词处理。
5.根据权利要求1所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:步骤(3)中所述的计算短信的短信文本向量的具体内容是:对短信进行分词处理,得到该短信的短信分词,然后计算每个短信分词的词向量,最后根据短信分词的词向量组合计算得到所述短信的短信文本向量。
6.根据权利要求5所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:把所述短信的所有短信分词的词向量直接累加求和获得该短信的短信文本向量。
7.根据权利要求5所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:根据词性,对所述短信分词中的名词、动词、专有名词的词向量权重设为1,其他词的词向量权重设为0,然后加权求和得到所述短信的短信文本向量。
8.根据权利要求5所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:利用TextRank算法计算所得到的短信分词的权重,然后加权求和得到所述短信的短信文本向量。
9.根据权利要求5所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述根据短信分词的词向量组合计算得到所述短信的短信文本向量的具体内容是:首先把所述短信的所有短信分词的词向量直接累加求和,获得第一个向量;然后计算所述短信的词频-逆文件频率TFIDF向量,获得第二个向量,最后把所述的这两个向量前后连接起来,作为所述短信的短信文本向量。
10.根据权利要求1或6或7或8或9所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:步骤(3)中所述的用所得到的短信文本向量构造特征向量的具体内容是:用所得到的一种短信文本向量直接作为特征向量;或者用所得到的两种以上的短信文本向量顺序连接构造特征向量;或者用所得到的两种以上的短信文本向量加权求和构造特征向量。
11.根据权利要求1所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:步骤(4)的具体内容是:
对所述短信进行分词处理,使用Word2Vec工具计算各个短信分词的静态词向量,不删除停用词,把各个静态词向量顺序排列起来构成所述的静态词向量矩阵embedding_matrix;
所述短信的静态词向量矩阵embedding_matrix作为所述卷积神经网络的输入;
使用多个不同尺寸的卷积核来构造所述卷积神经网络的卷积层,以便捕捉短信的N-Gram信息;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算。
12.根据权利要求11所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述的卷积神经网络为TextCNN。
13.根据权利要求1所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:步骤(5)的具体内容是:
对所述短信进行分词处理,计算各个短信分词的动态词向量即ELMo动态词向量VEMLo;所述ELMo动态词向量VEMLo按照下式进行计算:
VEMLo=k1·Vchar_c+k2·VLf+k3·VLb
上式中,Vchar_c是根据char-CNN模型计算得到的所述短信分词的原始词向量,VLf和VLb分别是根据biLM模型计算所述短信分词的原始词向量的第一中间词向量和第二中间词向量,k1、k2和k3是权重系数,此处分别取值为:k1=0.2,k,2=0.4,k3=0.4;
所述短信的动态词向量作为所述卷积神经网络的输入;
使用bi-LSTM设计所述卷积神经网络的隐藏层,以所述短信的关键语义特征作为所述卷积神经网络卷积层的输入,使用一个卷积核来构造所述卷积神经网络的卷积层;
利用最大n信息熵n_max_entropy作为所述卷积神经网络的池化层pooling层的输出,以便保留短信的主要信息,提高短信的识别度;其中参数n为一个自然数,按照下式进行计算
n=[f(x)]
上式中,x表示所述短信,f(x)表示所述短信的短信丰富度,[]表示取整运算。
14.根据权利要求13所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述的卷积神经网络为长短期记忆循环神经网络和卷积神经网络的融合模型LSTM_CNN。
15.根据权利要求11或13所述的利用词向量结合机器学习的垃圾短信识别方法,其特征在于:所述的短信丰富度f(x)的定义如下式所示:
上式中,m表示主体词性的种类数目,主体词性的种类包括:形容词、名词、其他专名、动词、副动词和动名词;ai(x)表示短信x包含的第i种主体词性种类的数目,b(x)表示短信x的长度,h1和h2是权重系数。
CN201910411018.3A 2019-05-17 2019-05-17 利用词向量结合机器学习的垃圾短信识别方法 Active CN110175221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411018.3A CN110175221B (zh) 2019-05-17 2019-05-17 利用词向量结合机器学习的垃圾短信识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411018.3A CN110175221B (zh) 2019-05-17 2019-05-17 利用词向量结合机器学习的垃圾短信识别方法

Publications (2)

Publication Number Publication Date
CN110175221A true CN110175221A (zh) 2019-08-27
CN110175221B CN110175221B (zh) 2021-04-20

Family

ID=67691453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411018.3A Active CN110175221B (zh) 2019-05-17 2019-05-17 利用词向量结合机器学习的垃圾短信识别方法

Country Status (1)

Country Link
CN (1) CN110175221B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112492606A (zh) * 2020-11-10 2021-03-12 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112818697A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于自然语言处理和语义相似任务的元嵌入系统
CN112860849A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 异常文本识别方法、装置、计算机设备及存储介质
CN114866966A (zh) * 2022-07-08 2022-08-05 安徽创瑞信息技术有限公司 一种基于大数据的短信用户管理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159277A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Target based indexing of micro-blog content
US20130282627A1 (en) * 2012-04-20 2013-10-24 Xerox Corporation Learning multiple tasks with boosted decision trees
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN107515873A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种垃圾信息识别方法及设备
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
CN108966158A (zh) * 2018-08-21 2018-12-07 平安科技(深圳)有限公司 短信发送方法、系统、计算机设备和存储介质
CN109299251A (zh) * 2018-08-13 2019-02-01 同济大学 一种基于深度学习算法的异常垃圾短信识别方法及系统
CN109743732A (zh) * 2018-12-20 2019-05-10 重庆邮电大学 基于改进的cnn-lstm的垃圾短信判别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159277A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Target based indexing of micro-blog content
US20130282627A1 (en) * 2012-04-20 2013-10-24 Xerox Corporation Learning multiple tasks with boosted decision trees
CN107515873A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种垃圾信息识别方法及设备
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
CN109299251A (zh) * 2018-08-13 2019-02-01 同济大学 一种基于深度学习算法的异常垃圾短信识别方法及系统
CN108966158A (zh) * 2018-08-21 2018-12-07 平安科技(深圳)有限公司 短信发送方法、系统、计算机设备和存储介质
CN109743732A (zh) * 2018-12-20 2019-05-10 重庆邮电大学 基于改进的cnn-lstm的垃圾短信判别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于政: "《基于深度学习的文本向量化研究与应用》", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112492606A (zh) * 2020-11-10 2021-03-12 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN112492606B (zh) * 2020-11-10 2024-05-17 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112507866B (zh) * 2020-12-03 2021-07-13 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112860849A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 异常文本识别方法、装置、计算机设备及存储介质
CN112818697A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于自然语言处理和语义相似任务的元嵌入系统
CN114866966A (zh) * 2022-07-08 2022-08-05 安徽创瑞信息技术有限公司 一种基于大数据的短信用户管理方法
CN114866966B (zh) * 2022-07-08 2022-09-06 安徽创瑞信息技术有限公司 一种基于大数据的短信用户管理方法

Also Published As

Publication number Publication date
CN110175221B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法
Li et al. News text classification based on improved Bi-LSTM-CNN
WO2022227207A1 (zh) 文本分类方法、装置、计算机设备和存储介质
Song et al. Research on text classification based on convolutional neural network
CN108763213A (zh) 主题特征文本关键词提取方法
CN103226580B (zh) 一种面向交互文本的话题识别方法
CN110532328B (zh) 一种文本概念图构造方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
Wang et al. Chinese text sentiment analysis using LSTM network based on L2 and Nadam
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN109325114A (zh) 一种融合统计特征与Attention机制的文本分类算法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Munshi et al. Towards an automated islamic fatwa system: Survey, dataset and benchmarks
Kang et al. A short texts matching method using shallow features and deep features
Hua et al. A character-level method for text classification
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
Shi et al. Attention-based bidirectional hierarchical LSTM networks for text semantic classification
Ma et al. Hybrid answer selection model for non-factoid question answering
Rosid et al. Pre-trained word embeddings for sarcasm detection in indonesian tweets: A comparative study
Liu et al. Product related information sentiment-content analysis based on convolutional neural networks for the Chinese micro-blog
Luo et al. Research on civic hotline complaint text classification model based on word2vec
CN112445887B (zh) 基于检索的机器阅读理解系统的实现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100029 Beijing city Chaoyang District Yumin Road No. 3

Patentee after: NATIONAL COMPUTER NETWORK AND INFORMATION SECURITY MANAGEMENT CENTER

Patentee after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Patentee after: CHANG'AN COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100029 Beijing city Chaoyang District Yumin Road No. 3

Patentee before: NATIONAL COMPUTER NETWORK AND INFORMATION SECURITY MANAGEMENT CENTER

Patentee before: EB Information Technology Ltd.

Patentee before: CHANG'AN COMMUNICATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder