CN110309304A - 一种文本分类方法、装置、设备及存储介质 - Google Patents
一种文本分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110309304A CN110309304A CN201910479226.7A CN201910479226A CN110309304A CN 110309304 A CN110309304 A CN 110309304A CN 201910479226 A CN201910479226 A CN 201910479226A CN 110309304 A CN110309304 A CN 110309304A
- Authority
- CN
- China
- Prior art keywords
- feature
- word
- long
- sentence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 100
- 238000012549 training Methods 0.000 claims abstract description 96
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000003066 decision tree Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012550 audit Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 238000002347 injection Methods 0.000 claims description 5
- 239000007924 injection Substances 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 16
- 238000013461 design Methods 0.000 description 11
- 238000007637 random forest analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000002834 transmittance Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及文本分类领域,提供一种文本分类方法、装置、设备及存储介质,方法包括:获取训练文本,将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;将所述特征向量输入RNN模型,对句子进行建模,捕捉所述训练文本中各句子的长距离依赖特征;将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
Description
技术领域
本申请涉及文本分类领域,尤其涉及一种文本分类方法、装置、设备及存储介质。
背景技术
文本分类是自然语言处理中的关键任务,能够帮助用户从海量数据中发掘有用信息,文本分类主要应用于垃圾邮件识别、情感分析、问答系统、翻译等方面。句子模型目的是学习文本特征对句子进行表征,是文本分类的关键模型。
在入侵检测系统中WebShell的检测也属于一种文本分类。目前的文本分类大多基于统计学和机器学习。统计学的方法采用拆分句子,基于语料库,统计相邻的字组成的词语出现的概率,相邻的词出现的次数多,就出现的概率大,按照概率值进行分词,所以一个完整的语料库很重要。机器学习方法采用获取TF-IDF算法计算文本特征,然后使用logisticregression、SVM、随机森林等分类器对文本进行分类。但是这些方式费时费力,而且泛化能力很差、误报率较高。
发明内容
本申请提供了一种文本分类方法、装置、设备及存储介质,能够解决现有技术中文本分类的准确率较差的问题。
第一方面,本申请提供一种文本分类方法,该方法包括:
获取训练文本;
将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;
将所述特征向量输入RNN模型,对句子进行建模,捕捉所述训练文本中各句子的长距离依赖特征;其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖;
将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;
在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;
将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
在一种可能的设计中,所述捕捉所述训练文本中各句子的长距离依赖特征,包括:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系;
所述方法还包括:
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
在一种可能的设计中,所述训练文本为演讲语言、歌词或论文中的任一项连续数据时,所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,包括:
通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息,以从所述连续数据中捕获所述长距离依赖特征。
在一种可能的设计中,所述通过所述分类器对所述训练文本进行分类处理之前,所述方法还包括:
向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量;
将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征;
将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征;
将所述多个特征向量输入池化层,以对这些特征向量进行降维处理;
将降维处理得到的特征向量输入所述分类器。
在一种可能的设计中,所述将降维处理得到的特征向量输入所述分类器之前,所述方法还包括:
为所述分类器预先设置一个阈值;
若所述分类器的输出大于所述阈值,则表示是WebShell;当分类器的输出小于预设阈值,则表示不是WebShell;
所述通过所述分类器对所述训练文本进行分类处理,得到分类后的文本,包括:
设置所述分类器中决策树N的大小,进行Bootstrap抽样得到N个数据集;
学习N颗决策树中每颗决策树的参数θn;
采用并行训练的方式训练每颗决策树,在单颗决策树训练完成后,统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出;其中,CNN-RF模型的最终输出的一种表示方式为:
其中,Ti(x)为树i对样本x的分类结果,c*为样本对应最终类别,N为所述分类器中决策树的数目。
在一种可能的设计中,所述训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境;所述获取训练文本,包括以下实现方式之一:
利用搜索引擎来查找互联网上公开的通用漏洞,如果目标站点并没有进行修复,则获取WebShell;
通过代码审计策略对开源的CMS进行代码审计,从所述CMS中挖掘代码漏洞,以获取WebShell;
采用上传漏洞获取WebShell;
利用SQL注入攻击获取WebShell;
或者,利用数据库备份获取WebShell。
第二方面,本申请提供一种文本分类装置,具有实现对应于上述第一方面提供的文本分类方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
一种可能的设计中,所述文本分类装置包括:
输入输出模块,用于获取训练文本;
处理模块,用于将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;将所述特征向量输入RNN模型,对句子进行建模;
采集模块,用于捕捉所述训练文本中各句子的长距离依赖特征;其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖;
所述输入输出模块还用于将所述采集模块捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;
所述处理模块还用于在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;通过所述输入输出模块将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
一种可能的设计中,所述采集模块具体用于:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系;
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
一种可能的设计中,所述训练文本为演讲语言、歌词或论文中的任一项连续数据时,所述处理模块具体用于:
通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息,以从所述连续数据中捕获所述长距离依赖特征。
在一种可能的设计中,所述处理模块在通过所述分类器对所述训练文本进行分类处理之前,还用于:
通过所述输入输出模块向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量;
通过所述输入输出模块将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征;
通过所述输入输出模块将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征;
通过所述输入输出模块将所述多个特征向量输入池化层,以对这些特征向量进行降维处理;
通过所述输入输出模块将降维处理得到的特征向量输入所述分类器。
在一种可能的设计中,所述处理模块在将降维处理得到的特征向量输入所述分类器之前,还用于:
为所述分类器预先设置一个阈值;
若所述分类器的输出大于所述阈值,则表示是WebShell;当分类器的输出小于预设阈值,则表示不是WebShell;
设置所述分类器中决策树N的大小,进行Bootstrap抽样得到N个数据集;
学习N颗决策树中每颗决策树的参数θn;
采用并行训练的方式训练每颗决策树,在单颗决策树训练完成后,统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出;其中,CNN-RF模型的最终输出的一种表示方式为:
其中,Ti(x)为树i对样本x的分类结果,c*为样本对应最终类别,N为所述分类器中决策树的数目。
在一种可能的设计中,所述训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境;所述输入输出模块执行以下操作之一获取WebShell:
利用搜索引擎来查找互联网上公开的通用漏洞,如果目标站点并没有进行修复,则获取WebShell;
通过代码审计策略对开源的CMS进行代码审计,从所述CMS中挖掘代码漏洞,以获取WebShell;
采用上传漏洞获取WebShell;
利用SQL注入攻击获取WebShell;
或者,利用数据库备份获取WebShell。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请提供的方案中,与现有技术相比,本申请中,先利用RNN模型处理长期信息的特点捕获长距离依赖特征,这样能够准确的判断相关性较强的上下文向量,以及避免信号在传递过程中损失大量信息,然后利用CNN模型对局部特征的感知特点提取局部特征,最后再将CNN模型的输出输入到分类其中进行分类处理,由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征,所以能够有效的提升不同长度句子的分类效果,以及提高所述神经网络模型识别文本的准确性。
附图说明
图1为本申请实施例中文本分类方法的一种流程示意图;
图2a为本申请实施例中文本分类方法的一种流程示意图;
图2b为本申请实施例对fudan、微博和MR进行分类的准确率对比示意表;
图2c为本申请实施例文本分类方法的另一种流程示意图;
图3为本申请实施例中文本分类的一种结构示意图;
图4为本申请实施例中计算机设备的一种结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。
本申请提供一种文本分类方法、装置、设备及存储介质,可用于对新闻、论文、帖子、邮件等文本进行分类,本申请不对文本分类的应用场景作限定。
为解决上述技术问题,本申请主要提供以下技术方案:
利用深度学习中卷积神经网络(Convolutional Neural Networks,CNN)模型擅长抽取位置不变的局部特征的特性,以及利用循环神经网络(Recurrent Neural Network,RNN)模型则擅长对整个句子进行建模的特性,结合CNN模型和RNN模型实现既能捕捉长距离依赖信息,又可以很好地抽取关键短语信息的目的,通过入侵检测系统项目实践验证,达到比单独使用CNN模型或者RNN模型更高的准确性。本申请的神经网络模型包括CNN模型和RNN模型,所述神经网络模型的一种结构示意图如图1所示。
图1中,所述神经网络模型的编码层包括RNN模型和CNN模型,所述神经网络模型的输入为所述RNN模型的输入,所述RNN模型的输出为所述CNN模型的输入,所述CNN模型的输出为所述神经网络模型的输出。
请参照图2a,以下介绍本申请实施例中的一种文本分类方法,所述方法包括:
201、获取训练文本。
其中,所述训练文本包括多个句子,每个句子包括多个词。本申请中的训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门。黑客在入侵了一个网站后,通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起,然后使用浏览器来访问asp或者php后门,得到一个命令执行环境,以达到控制网站服务器的目的。
所述训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境。
一些实施方式中,可以采用内容管理系统(Content Management System,CMS)获取Webshell,可采用以下实现方式之一获取所述训练文本:
(1)可以采用内容管理系统(Content Management System,CMS)获取Webshell,例如利用公开漏洞途径即利用搜索引擎来查找互联网上公开的通用漏洞,如果目标站点并没有进行修复,则获取WebShell。
(2)通过代码审计策略对开源的CMS进行代码审计,从所述CMS中挖掘代码漏洞,以获取WebShell。
(3)采用上传漏洞获取WebShell。
(4)利用SQL注入攻击获取WebShel。
(5)利用数据库备份获取WebShell。
本申请不对获取训练文本的方式和来源作限定。
202、将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量。
其中,所述特征向量是指向量空间模型的文本表示,通过词向量的表示方式,把文本数据从高纬度高稀疏的神经网络难处理的方式,变为类似图像、语音的的连续稠密数据。
203、将所述特征向量输入RNN模型,对句子进行建模,捕捉所述训练文本中各句子的长距离依赖特征。
其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖。
一些实施方式中,所述捕捉所述训练文本中各句子的长距离依赖特征,包括:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系。
一些实施方式中,所述RNN模型可采用长短时记忆网络(Long Short-TermMemory,LSTM)模型,通过该LSTM模型在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率。具体来说,通过该LSTM模型在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率,包括以下步骤:
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
一些实施方式中,考虑到所述训练文本可能为连续的数据,例如为演讲语言、歌词或论文等,可以采用循环操作从这类连续数据中捕获长距离依赖信息,以保证信号能够不断地传播。具体来说,所述训练文本为演讲语言、歌词或论文中的任一项连续数据时,所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,包括:
通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息,以从所述连续数据中捕获所述长距离依赖特征。
204、将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型。
205、在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量。
其中,局部特征是指所述特征向量中的局部相关性,也可以称为所述特征向量中类似n-gram的关键信息。
一些实施方式中,为进一步提高分类器的泛化能力和文本分类的准确率,CNN模型可采用CNN-RF模型。下表为采用NB模型、CART模型、RF模型、CNN模型和CNN-RF模型对3类文本(fudan、微博和MR)进行分类的准确率对比示意表(如图2b所示)。
206、将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
本申请实施例中,所述神经网络模型包括分类器,分类器的输入为所述CNN模型的输出。在所述神经网络模型中该分类器对所述特征向量进行训练,直至所述分类器收敛。
一些实施方式中,还可为所述分类器预先设置一个阈值,若所述分类器的输出大于所述阈值,则表示是WebShell;当SoftMax的输出小于thredshold,则表示不是WebShell。
与现有机制相比,本申请实施例中,先利用RNN模型处理长期信息的特点捕获长距离依赖特征,这样能够准确的判断相关性较强的上下文向量,以及避免信号在传递过程中损失大量信息,然后利用CNN模型对局部特征的感知特点提取局部特征,最后再将CNN模型的输出输入到分类其中进行分类处理,由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征,所以能够有效的提升不同长度句子的分类效果,以及提高所述神经网络模型识别文本的准确性。此外,结合CNN模型的特征提取能力与随机森林的泛化能力,泛化能力可以从以下三个方面分析:
第一方面,从统计角度来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等水准的性能,此时若使用单一决策树可能因为误选而导致泛化能力不佳。
第二方面,从特征提取角度分析,双重词向量分别从两个角度刻画词语的含义,丰富了短文本信息,相对于单一词向量来说扩充了特征信息。
第三方面,从表示方面来看,某些学习任务的真实假设可能不在当前决策树算法所处的假设空间之内,若使用单一分类方法,则会导致搜索不到既定的假设空间。并且随机森林采用Bootstrap抽样可以降低机器学习模型对数据的依赖能力,以及降低模型的方差,使得RNN模型拥有更好的泛化能力。
可选的,在本申请的一些实施例中,所述通过所述分类器对所述训练文本进行分类处理之前,所述方法还包括:
向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量;
将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征;
将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征;
将所述多个特征向量输入池化层,以对这些特征向量进行降维处理;
将降维处理得到的特征向量输入所述分类器。
可选的,在本申请的一些实施例中,所述将降维处理得到的特征向量输入所述分类器之前,所述方法还包括:
为所述分类器预先设置一个阈值;
若所述分类器的输出大于所述阈值,则表示是WebShell;当分类器的输出小于预设阈值,则表示不是WebShell;
所述通过所述分类器对所述训练文本进行分类处理,得到分类后的文本,包括:
设置所述分类器中决策树N的大小,进行Bootstrap抽样得到N个数据集;
学习N颗决策树中每颗决策树的参数θn;
采用并行训练的方式训练每颗决策树,在单颗决策树训练完成后,统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出;其中,CNN-RF模型的最终输出的一种表示方式为:
其中,Ti(x)是树i对样本x的分类结果,即投票法,c*即为样本对应最终类别,N为所述分类器中决策树的数目。
本申请实施例中,分类器可采用随机森林模型或Softmax模型,采用随机森林模型时,可将全连接层特征Cfinal送入随机森林模型进行训练。
由于随机森林的全连接层特征Cfinal通常维度不大,一般数据集种均有m×s<103,所以建立随机森林模型的开销非常小。
为便于理解,以下以一具体的应用场景为例。如图2c所示,向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量(例如h1、h2、…和h9),将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征(例如y1、y2、…y9),将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,这些特征向量分别具备长距离依赖特征和位置不变的局部特征。然后将所述多个特征向量输入池化层,以对这些特征向量进行降维处理。将降维处理得到的特征向量输入分类器(例如Softmax),该分类器预先设置一个阈值(threshold),当SoftMax的输出大于thredshold,则表示是WebShell;当SoftMax的输出小于thredshold,则表示不是WebShell。
上述图1至图2c中任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图3和图4所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种文本分类方法进行说明,以下对执行上述文本分类方法的装置进行描述。
如图3所示的一种文本分类装置30的结构示意图,其可应用于对新闻、论文、帖子、邮件等文本进行分类。本申请实施例中的文本分类装置30能够实现对应于上述图1所对应的实施例中所执行的文本分类方法的步骤。文本分类装置30实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述文本分类装置30可包括输入输出模块301、处理模块302和采集模块303,所述输入输出模块301、所述处理模块302和所述采集模块303的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。所述处理模块302可用于控制所述收入输出模块301的输入输出操作,以及控制所述采集模块303的采集操作。
一些实施方式中,所述输入输出模块301可用于获取训练文本;
所述处理模块302可用于将所述输入输出模块301获取的所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;将所述特征向量输入RNN模型,对句子进行建模;
所述采集模块303可用于捕捉所述训练文本中各句子的长距离依赖特征;其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖;
所述输入输出模块301还用于将所述采集模块捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;
所述处理模块302还用于在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;通过所述输入输出模块将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
本申请实施例中,先利用RNN模型处理长期信息的特点捕获长距离依赖特征,这样能够准确的判断相关性较强的上下文向量,以及避免信号在传递过程中损失大量信息,然后利用CNN模型对局部特征的感知特点提取局部特征,最后再将CNN模型的输出输入到分类其中进行分类处理,由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征,所以能够有效的提升不同长度句子的分类效果,以及提高所述神经网络模型识别文本的准确性。
一些实施方式中,所述采集模块302具体用于:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系;
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
一些实施方式中,所述训练文本为演讲语言、歌词或论文中的任一项连续数据时,所述处理模块302具体用于:
通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息,以从所述连续数据中捕获所述长距离依赖特征。
一些实施方式中,所述处理模块302在通过所述分类器对所述训练文本进行分类处理之前,还用于:
通过所述输入输出模块301向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量;
通过所述输入输出模块301将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征;
通过所述输入输出模块301将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征;
通过所述输入输出模块301将所述多个特征向量输入池化层,以对这些特征向量进行降维处理;
通过所述输入输出模块301将降维处理得到的特征向量输入所述分类器。
一些实施方式中,所述处理模块302在将降维处理得到的特征向量输入所述分类器之前,还用于:
为所述分类器预先设置一个阈值;
若所述分类器的输出大于所述阈值,则表示是WebShell;当分类器的输出小于预设阈值,则表示不是WebShell;
设置所述分类器中决策树N的大小,进行Bootstrap抽样得到N个数据集;
学习N颗决策树中每颗决策树的参数θn;
采用并行训练的方式训练每颗决策树,在单颗决策树训练完成后,统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出;其中,CNN-RF模型的最终输出的一种表示方式为:
其中,Ti(x)是树i对样本x的分类结果,即投票法,c*即为样本对应最终类别,N为所述分类器中决策树的数目。
一些实施方式中,所述训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境;所述输入输出模块301执行以下操作之一获取WebShell:
利用搜索引擎来查找互联网上公开的通用漏洞,如果目标站点并没有进行修复,则获取WebShell;
通过代码审计策略对开源的CMS进行代码审计,从所述CMS中挖掘代码漏洞,以获取WebShell;
采用上传漏洞获取WebShell;
利用SQL注入攻击获取WebShell;
或者,利用数据库备份获取WebShell。
图3中所示的输入输出模块301对应的实体设备为图4所示的输入输出单元,该输入输出单元能够实现获取模块1部分或全部的功能,或者实现与输入输出模块301相同或相似的功能。图3中所示的采集模块303对应的实体设备为图4所示的采集设备。
图3中所示的处理模块302对应的实体设备为图4所示的处理器,该处理器能够实现处理模块302部分或全部的功能,或者实现与处理模块302相同或相似的功能。
上面从模块化功能实体的角度分别介绍了本申请实施例中的文本分类装置30,以下从硬件角度介绍一种计算机设备,如图4所示,其包括:处理器、存储器、输入输出单元(也可以是收发器,图4中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施例中文本分类方法对应的程序。例如,当计算机设备实现如图3所示的文本分类装置30的功能时,所述处理器执行所述计算机程序时实现上述图3所对应的实施例中由文本分类装置30执行的文本分类方法中的各步骤;或者,所述处理器执行所述计算机程序时实现上述图3所对应的实施例的文本分类装置30中各模块的功能。又例如,该计算机程序可以为图1所对应的实施例中文本分类方法对应的程序。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述收发器也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为收发器。该收发器可以为输入输出单元。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取训练文本,所述训练文本包括多个句子,每个句子包括多个词;
将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;
将所述特征向量输入RNN模型,对句子进行建模,捕捉所述训练文本中各句子的长距离依赖特征;其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖;
将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;
在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;
将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
2.根据权利要求1所述的方法,其特征在于,所述捕捉所述训练文本中各句子的长距离依赖特征,包括:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系;
所述方法还包括:
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
3.根据权利要求2所述的方法,其特征在于,所述训练文本为演讲语言、歌词或论文中的任一项连续数据时,所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,包括:
通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息,以从所述连续数据中捕获所述长距离依赖特征。
4.根据权利要求3所述的方法,其特征在于,所述通过所述分类器对所述训练文本进行分类处理之前,所述方法还包括:
向所属神经网络模型输入多个句子,对各句子进行词向量化,得到多个词向量;
将各词向量输入LSTM模型或者GRU模型,提取长距离依赖特征;
将所述长距离依赖特征输入CNN模型,抽取位置不变的局部特征,最终得到多个特征向量,每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征;
将所述多个特征向量输入池化层,以对这些特征向量进行降维处理;
将降维处理得到的特征向量输入所述分类器。
5.根据权利要求4所述的方法,其特征在于,所述将降维处理得到的特征向量输入所述分类器之前,所述方法还包括:
为所述分类器预先设置一个阈值;
若所述分类器的输出大于所述阈值,则表示是WebShell;当分类器的输出小于预设阈值,则表示不是WebShell;
所述通过所述分类器对所述训练文本进行分类处理,得到分类后的文本,包括:
设置所述分类器中决策树N的大小,进行Bootstrap抽样得到N个数据集;
学习N颗决策树中每颗决策树的参数θn;
采用并行训练的方式训练每颗决策树,在单颗决策树训练完成后,统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出;其中,CNN-RF模型的最终输出的一种表示方式为:
其中,Ti(x)为树i对样本x的分类结果,c*为样本对应最终类别,N为所述分类器中决策树的数目。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述训练文本为Webshell,Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境;所述获取训练文本,包括以下实现方式之一:
利用搜索引擎来查找互联网上公开的通用漏洞,如果目标站点并没有进行修复,则获取WebShell;
通过代码审计策略对开源的CMS进行代码审计,从所述CMS中挖掘代码漏洞,以获取WebShell;
采用上传漏洞获取WebShell;
利用SQL注入攻击获取WebShell;
或者,利用数据库备份获取WebShell。
7.一种文本分类装置,其特征在于,所述文本分类装置包括:
输入输出模块,用于获取训练文本,所述训练文本包括多个句子,每个句子包括多个词;
处理模块,用于将所述训练文本输入神经网络模型的编码层,在所述编码层对所述训练文本进行词向量化,得到与所述训练文本对应的特征向量;将所述特征向量输入RNN模型,对句子进行建模;
采集模块,用于捕捉所述训练文本中各句子的长距离依赖特征;其中,所述长距离依赖特征是指文本的上下文向量,且上下文向量在时域上长期依赖;
所述输入输出模块还用于将所述采集模块捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型;
所述处理模块还用于在所述CNN模型中从所述特征向量中提取局部特征,得到目标特征向量;其中,局部特征是指所述特征向量中的局部相关性;通过所述输入输出模块将所述目标特征向量输入到所述分类器,通过所述分类器对所述训练文本进行分类处理,得到分类后的文本。
8.根据权利要求7所述的装置,其特征在于,所述采集模块具体用于:
通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征,其中,特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系;
依序计算各个词的语义结构特征,特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构;
将每个词的长距离依赖特征和语义结构特征组合,以得到句子中的各个词的词特征;
基于各个词特征计算句子中的各个词的概率。
9.一种计算机设备,其特征在于,所述设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-6中任一项所述的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479226.7A CN110309304A (zh) | 2019-06-04 | 2019-06-04 | 一种文本分类方法、装置、设备及存储介质 |
PCT/CN2019/102464 WO2020244066A1 (zh) | 2019-06-04 | 2019-08-26 | 一种文本分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910479226.7A CN110309304A (zh) | 2019-06-04 | 2019-06-04 | 一种文本分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309304A true CN110309304A (zh) | 2019-10-08 |
Family
ID=68075283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910479226.7A Pending CN110309304A (zh) | 2019-06-04 | 2019-06-04 | 一种文本分类方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110309304A (zh) |
WO (1) | WO2020244066A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN111538840A (zh) * | 2020-06-23 | 2020-08-14 | 基建通(三亚)国际科技有限公司 | 一种文本分类方法及装置 |
CN111865960A (zh) * | 2020-07-15 | 2020-10-30 | 北京市燃气集团有限责任公司 | 一种网络入侵场景分析处理方法、系统、终端及存储介质 |
CN111930938A (zh) * | 2020-07-06 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN112118225A (zh) * | 2020-08-13 | 2020-12-22 | 紫光云(南京)数字技术有限公司 | 一种基于RNN的Webshell检测方法及装置 |
CN112148943A (zh) * | 2020-09-27 | 2020-12-29 | 北京天融信网络安全技术有限公司 | 网页分类方法、装置、电子设备及可读存储介质 |
CN112491891A (zh) * | 2020-11-27 | 2021-03-12 | 杭州电子科技大学 | 物联网环境下基于混合深度学习的网络攻击检测方法 |
CN112686315A (zh) * | 2020-12-31 | 2021-04-20 | 山西三友和智慧信息技术股份有限公司 | 一种基于深度学习的非自然地震分类方法 |
CN112699964A (zh) * | 2021-01-13 | 2021-04-23 | 成都链安科技有限公司 | 模型构建方法、系统、装置、介质、交易身份识别方法 |
CN113010740A (zh) * | 2021-03-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN113032534A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团四川有限公司 | 对话文本的分类方法和电子设备 |
CN114050908A (zh) * | 2020-07-24 | 2022-02-15 | 中国移动通信集团浙江有限公司 | 防火墙策略自动审核的方法、装置及计算设备计算机存储介质 |
CN115359867A (zh) * | 2022-09-06 | 2022-11-18 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN116226702A (zh) * | 2022-09-09 | 2023-06-06 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699944B (zh) * | 2020-12-31 | 2024-04-23 | 中国银联股份有限公司 | 退单处理模型训练方法、处理方法、装置、设备及介质 |
CN112784601B (zh) * | 2021-02-03 | 2023-06-27 | 中山大学孙逸仙纪念医院 | 关键信息提取方法、装置、电子设备和存储介质 |
CN112950313A (zh) * | 2021-02-25 | 2021-06-11 | 北京嘀嘀无限科技发展有限公司 | 订单处理方法、装置、电子设备和可读存储介质 |
CN113221537A (zh) * | 2021-04-12 | 2021-08-06 | 湘潭大学 | 一种基于截断循环神经网络和临近加权卷积的方面级情感分析方法 |
CN113239192B (zh) * | 2021-04-29 | 2024-04-16 | 湘潭大学 | 一种基于滑动窗口和随机离散采样的文本结构化技术 |
CN113190154B (zh) * | 2021-04-29 | 2023-10-13 | 北京百度网讯科技有限公司 | 模型训练、词条分类方法、装置、设备、存储介质及程序 |
CN113468872B (zh) * | 2021-06-09 | 2024-04-16 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及系统 |
CN115249017B (zh) * | 2021-06-23 | 2023-12-19 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN113486347B (zh) * | 2021-06-30 | 2023-07-14 | 福州大学 | 一种基于语义理解的深度学习硬件木马检测方法 |
CN113822019A (zh) * | 2021-09-22 | 2021-12-21 | 科大讯飞股份有限公司 | 文本规整方法、相关设备及可读存储介质 |
CN114021651B (zh) * | 2021-11-04 | 2024-03-29 | 桂林电子科技大学 | 一种基于深度学习的区块链违法信息感知方法 |
CN114169443B (zh) * | 2021-12-08 | 2024-02-06 | 西安交通大学 | 词级文本对抗样本检测方法 |
CN114510576A (zh) * | 2021-12-21 | 2022-05-17 | 一拓通信集团股份有限公司 | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 |
CN114499944B (zh) * | 2021-12-22 | 2023-08-08 | 天翼云科技有限公司 | 一种检测WebShell的方法、装置和设备 |
CN116453385B (zh) * | 2023-03-16 | 2023-11-24 | 中山市加乐美科技发展有限公司 | 一种跨时空盘学机 |
CN116227495B (zh) * | 2023-05-05 | 2023-07-21 | 公安部信息通信中心 | 一种实体分类的数据处理系统 |
CN117201733B (zh) * | 2023-08-22 | 2024-03-12 | 杭州中汇通航航空科技有限公司 | 一种实时无人机监控分享系统 |
CN116958752B (zh) * | 2023-09-20 | 2023-12-15 | 国网湖北省电力有限公司经济技术研究院 | 一种基于ipkcnn-svm的电网基建建筑归档方法、装置及设备 |
CN117093996B (zh) * | 2023-10-18 | 2024-02-06 | 湖南惟储信息技术有限公司 | 嵌入式操作系统的安全防护方法及系统 |
CN117623735B (zh) * | 2023-12-01 | 2024-05-14 | 广东雅诚德实业有限公司 | 高强度抗污日用陶瓷的生产方法 |
CN117668562B (zh) * | 2024-01-31 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练和使用方法、装置、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108334499A (zh) * | 2018-02-08 | 2018-07-27 | 海南云江科技有限公司 | 一种文本标签标注设备、方法和计算设备 |
US20180268298A1 (en) * | 2017-03-15 | 2018-09-20 | Salesforce.Com, Inc. | Deep Neural Network-Based Decision Network |
CN108694163A (zh) * | 2017-04-06 | 2018-10-23 | 富士通株式会社 | 计算句子中的词的概率的方法、装置和神经网络 |
CN109743732A (zh) * | 2018-12-20 | 2019-05-10 | 重庆邮电大学 | 基于改进的cnn-lstm的垃圾短信判别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6868411B2 (en) * | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
CN102141978A (zh) * | 2010-02-02 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及系统 |
CN104572892B (zh) * | 2014-12-24 | 2017-10-03 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN107103754B (zh) * | 2017-05-10 | 2020-05-22 | 华南师范大学 | 一种道路交通状况预测方法及系统 |
CN108829818B (zh) * | 2018-06-12 | 2021-05-25 | 中国科学院计算技术研究所 | 一种文本分类方法 |
-
2019
- 2019-06-04 CN CN201910479226.7A patent/CN110309304A/zh active Pending
- 2019-08-26 WO PCT/CN2019/102464 patent/WO2020244066A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268298A1 (en) * | 2017-03-15 | 2018-09-20 | Salesforce.Com, Inc. | Deep Neural Network-Based Decision Network |
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN108694163A (zh) * | 2017-04-06 | 2018-10-23 | 富士通株式会社 | 计算句子中的词的概率的方法、装置和神经网络 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108334499A (zh) * | 2018-02-08 | 2018-07-27 | 海南云江科技有限公司 | 一种文本标签标注设备、方法和计算设备 |
CN109743732A (zh) * | 2018-12-20 | 2019-05-10 | 重庆邮电大学 | 基于改进的cnn-lstm的垃圾短信判别方法 |
Non-Patent Citations (2)
Title |
---|
JIABAO WANG ET AL: "Evaluating CNN and LSTM for Web Attack Detection", 《ICMLC 2018: PROCEEDINGS OF THE 2018 10TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND COMPUTING》, pages 283 - 287 * |
JIARUI ZHANG ET AL: "LSTM-CNN Hybrid Model for Text Classification", 《IEEE XPLORE》, pages 1675 - 1680 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032534A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团四川有限公司 | 对话文本的分类方法和电子设备 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN111538840A (zh) * | 2020-06-23 | 2020-08-14 | 基建通(三亚)国际科技有限公司 | 一种文本分类方法及装置 |
CN111930938A (zh) * | 2020-07-06 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN111865960A (zh) * | 2020-07-15 | 2020-10-30 | 北京市燃气集团有限责任公司 | 一种网络入侵场景分析处理方法、系统、终端及存储介质 |
CN114050908B (zh) * | 2020-07-24 | 2023-07-21 | 中国移动通信集团浙江有限公司 | 防火墙策略自动审核的方法、装置、计算设备及计算机存储介质 |
CN114050908A (zh) * | 2020-07-24 | 2022-02-15 | 中国移动通信集团浙江有限公司 | 防火墙策略自动审核的方法、装置及计算设备计算机存储介质 |
CN112118225A (zh) * | 2020-08-13 | 2020-12-22 | 紫光云(南京)数字技术有限公司 | 一种基于RNN的Webshell检测方法及装置 |
WO2022032917A1 (zh) * | 2020-08-13 | 2022-02-17 | 紫光云(南京)数字技术有限公司 | 一种基于RNN的Webshell检测方法及装置 |
CN112148943A (zh) * | 2020-09-27 | 2020-12-29 | 北京天融信网络安全技术有限公司 | 网页分类方法、装置、电子设备及可读存储介质 |
CN112491891B (zh) * | 2020-11-27 | 2022-05-17 | 杭州电子科技大学 | 物联网环境下基于混合深度学习的网络攻击检测方法 |
CN112491891A (zh) * | 2020-11-27 | 2021-03-12 | 杭州电子科技大学 | 物联网环境下基于混合深度学习的网络攻击检测方法 |
CN112686315A (zh) * | 2020-12-31 | 2021-04-20 | 山西三友和智慧信息技术股份有限公司 | 一种基于深度学习的非自然地震分类方法 |
CN112699964A (zh) * | 2021-01-13 | 2021-04-23 | 成都链安科技有限公司 | 模型构建方法、系统、装置、介质、交易身份识别方法 |
CN113010740A (zh) * | 2021-03-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN113010740B (zh) * | 2021-03-09 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
CN115359867A (zh) * | 2022-09-06 | 2022-11-18 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN115359867B (zh) * | 2022-09-06 | 2024-02-02 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN116226702A (zh) * | 2022-09-09 | 2023-06-06 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020244066A1 (zh) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309304A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN107612893B (zh) | 短信的审核系统和方法以及构建短信审核模型方法 | |
Yu et al. | Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN110569377B (zh) | 一种媒体文件的处理方法和装置 | |
CN112989035B (zh) | 基于文本分类识别用户意图的方法、装置及存储介质 | |
CN111274365B (zh) | 基于语义理解的智能问诊方法、装置、存储介质及服务器 | |
Ramanathan et al. | phishGILLNET—phishing detection methodology using probabilistic latent semantic analysis, AdaBoost, and co-training | |
US11762990B2 (en) | Unstructured text classification | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
Ismail et al. | Efficient E-mail spam detection strategy using genetic decision tree processing with NLP features | |
CN109635296A (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
US20200125836A1 (en) | Training Method for Descreening System, Descreening Method, Device, Apparatus and Medium | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN109800304A (zh) | 案件笔录的处理方法、装置、设备及介质 | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN111597803A (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
US20230032728A1 (en) | Method and apparatus for recognizing multimedia content | |
CN111222316A (zh) | 文本检测方法、装置及存储介质 | |
CN113965377A (zh) | 一种攻击行为检测方法及装置 | |
BOUIJIJ et al. | Machine learning algorithms evaluation for phishing urls classification | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN111538998B (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN116723005A (zh) | 多态隐藏下的恶意代码隐式情报追踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |