CN111475642A - 一种文本分类方法、装置及模型训练方法 - Google Patents
一种文本分类方法、装置及模型训练方法 Download PDFInfo
- Publication number
- CN111475642A CN111475642A CN202010132631.4A CN202010132631A CN111475642A CN 111475642 A CN111475642 A CN 111475642A CN 202010132631 A CN202010132631 A CN 202010132631A CN 111475642 A CN111475642 A CN 111475642A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- text
- word
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 106
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000000306 recurrent effect Effects 0.000 claims description 30
- 238000013145 classification model Methods 0.000 claims description 23
- 230000002457 bidirectional effect Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 abstract description 9
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000012550 audit Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 80
- 238000010586 diagram Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本分类方法、装置及模型训练方法。本发明使用一种混合结构的深度学习神经网络模型,结合了卷积神经网络和多层循环神经网络的各自优点,利用卷积神经网络学习输入文本的局部特征,利用循环神经网络学习文本序列之间的上下文语义信息,同时引入注意力机制,突出关键词语以优化特征提取的过程。将本发明应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景,能够提高这些场景下的文本分类的准确性和时效性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分类方法、装置及模型训练方法。
背景技术
随着计算机网络的不断发展和完善,信息化已经成为了当今社会发展的大趋势,信息系统与信息网络在社会各领域奠定了广泛的基础。在信息社会给人们的生活和沟通带来方便的同时,信息安全问题越来越成为人们关注的焦点。
在公共网络空间里,一些不法分子可能会利用网络传播有害甚至违法的信息,普通用户也可能有意无意的转发、传播一些未经核实的新闻信息等,危害了公共网络空间安全和秩序。企事业网络同样面临着信息网络安全的威胁,随着企业的信息化建设的快速发展,网络宽带与硬件条件的大幅度提高,各种各样的信息系统开发与应用,企业的安全管理与信息化管理水平逐步提高。但是,企业的网络安全防御管理重点投入在外部网络的攻击与威胁,往往忽略了来自内部网络的安全问题。在企事业网络中,由于经常通过Web浏览器与外部网络进行数据交换,工作期间,员工通常需要利用公司的电脑进行资料的查询,比如技术博客,论文等。但是,一些员工可能经常会搜索浏览一些与工作内容无关的事情和存在安全威胁的网页,比如购物,娱乐八卦新闻,游戏相关的内容,甚至包含病毒的不健康网站,不仅大大降低了工作效率,造成公司资源的严重浪费,甚至对公司的网络环境与信息安全造成破坏,产生潜在的威胁。
在公共网络空间及企事业网络空间中,对于用户的网络行为,例如论坛留言、网络站点的访问等行为,进行妥善的监管和审计,现有的基于关键词的监管审计工具或人工审核的方法效率低、时效性差。
发明内容
本发明提供一种文本分类方法、装置及模型训练方法,用于提高文本分类的准确性和应用场景下的时效性。
基于本发明实施例,提供给了一种文本分类方法,该方法使用文本分类模型,该文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层,该方法包括:
输入层对输入的文本进行分词后得到输入序列S;
嵌入层将输入序列S中的每个词转换为词向量后输出句子矩阵E;
特征提取层使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C,再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H;
输出层通过分类器对总特征向量V进行分类后得到分类结果。
进一步地,所述输入层使用分词工具对输入的文本进行分词到输入序列S;所述嵌入层使用词嵌入工具将输入序列S中的每个词转换为词向量。
进一步地,所述特征提取层使用的卷积神经网络为文本卷积神经网络Text-CNN。
进一步地,特征提取层使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。
基于本发明实施例,还提供一种文本分类模型的训练方法,该文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层,所述训练方法包括:
输入层对输入的样本进行分词后得到输入序列Si;
嵌入层将输入序列Si中的每个词转换为词向量后输出词向量序列Ei;
在特征提取层中,使用卷积神经网络模型抽取句子矩阵Ei的局部特征得到局部特征向量Ci,然后使用多层循环神经网络抽取局部特征向量Ci中的上下文语义特征,输出全局特征向量Hi;
输出层通过分类器对总特征向量Vi进行分类后得到分类结果;
其中,i表示与第i个样本。
进一步地,所述训练方法还包括:
所述输出层使用的分类器为SoftMax分类器,在对所述文本分类模型进行训练的反向传播过程中,损失函数设定为真实类别标签y的负对数似然值,采用梯度下降优化算法,初始化时将损失函数最小化;
在每次或批量输出预测结果后,计算前向传播的结果和实际标签的误差,同时利用TensorFlow自动反向传播方法,对网络参数进行更新,当达到模型设置的迭代次数时,停止所述文本分类模型的训练,同时保存训练好的模型文件。
基于本发明实施例,还提供一种文本分类装置,该装置包括:
输入层模块,用于对输入的文本进行分词后得到输入序列S;
嵌入层模块,用于将输入序列S中的每个词转换为词向量后输出句子矩阵E;
特征提取层模块,用于使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C,再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H;
输出层模块,用于通过分类器对总特征向量V进行分类后得到分类结果。
本发明使用一种混合结构的深度学习神经网络模型,结合了卷积神经网络和多层循环神经网络的各自优点,利用卷积神经网络学习输入文本的局部特征,利用循环神经网络学习文本序列之间的上下文语义信息,同时引入注意力机制,突出关键词语以优化特征提取的过程。将本发明应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景,能够提高这些场景下的文本分类的准确性和时效性。
附图说明
为了更加清楚地说明本发明实施例或者现有技术中的技术方案,下面将对本发明实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本发明实施例的这些附图获得其他的附图。
图1为本发明实施例提供的文本分类模型结构示意图;
图2为本发明一实施例提供文本分类方法的步骤流程示意图;
图3为本发明一实施例提供的文本分类模型进行训练流程图;
图4为本发明一实施例提供的Text-CNN和双向简单循环神经网络BiSRU的混合模型结构示意图;
图5为本发明一实施例中对句子矩阵提取局部特征的示意图;
图6为本发明一实施例中使用的SRU神经网络结构图示意图;
图7为本发明一实施例中使用的双向简单循环神经网络的网络结构示意图;
图8为本发明一实施例使用的集成多层的双向简单循环神经网络结构的示意图;
图9为本发明一实施例提供的文本分类设备的结构示意图;
图10为本发明一实施例提供的文本分类装置的结构示意图。
具体实施方式
在本发明实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本发明实施例。本发明实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明提出一种文本分类方法,该方法使用一种混合结构的深度学习神经网络模型(简称为文本分类模型),该文本分类模型结合了卷积神经网络和多层循环神经网络的各自优点,利用卷积神经网络学习输入文本的局部特征,利用循环神经网络学习文本序列之间的上下文语义信息,同时引入注意力机制,突出关键词语以优化特征提取的过程。将该文本分类模型应用于网络用户网络访问行为的审计、新闻分类、智能客服等场景,能够提高这些场景下的文本分类的准确性和时效性。
如图1所示,本发明一实施例提供的文本分类模型结构示意图,包括5层,分别为:输入层、嵌入层、特征提取层、注意力层、输出层。
图2为本发明一实施例提供文本分类方法的步骤流程示意图,该方法使用本发明提供的文本分类模型,当该模型训练好后,在实际的应用场景下,给该模型输入一个待分类文本,例如企业员工的网络行为日志文本,经过模型处理后即可输出针对输入文本的分类结果,例如员工所访问的网站是否与工作有关等,在应用场景下,该方法包括:
步骤201.输入层对输入的文本进行分词后得到输入序列S。
输入到模型的待分类文本、网络行为日志文本或自然语言句子都可统称为文本或语料。输入层对输入的文本进行预处理后调用分词工具对文本进行分词处理后得到输入序列S,序列的元素即为文本中包含的词。
步骤202.嵌入层将输入序列S中的每个词转换为词向量后输出句子矩阵E。
在嵌入层使用词嵌入工具将输入序列中的每个词转化为向量形式,从而输出词向量序列,也可称为句子矩阵。
步骤203.特征提取层使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C,再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H。
步骤205.输出层通过分类器对总特征向量V进行分类后得到分类结果。
以下结合附图3,对本发明一实施例提供的文本分类模型进行训练的过程进行说明。在训练过程中,需要使用大量经过标注的训练样本对文本分类模型进行训练,还需要使用测试样本对训练后的模型进行分类效果的测试,在分类效果达到预定效果后即可终止训练过程,保存模型文件用于应用场景下的文本分类。模型的训练可采用现有的训练框架,例如TensorFlow深度学习框架,在训练结束后,模型各层的参数及注意力矩阵都会作为模型文件的一部分保持固定。在本发明一实施例中,该训练过程包括;
步骤301.输入层对输入的样本进行分词后得到输入序列Si,其中Si表示与第i个样本对应的输入序列。
文本分类模型的输入层用于对输入的样本进行预处理和分词获得输入序列Si,i表示第i个样本,Si代表第i个样本对应的输入序列。假设给定一个样本,首先利用分词工具,例如jieba、HanLP、THULAC、NLPR等,进行分词得到分词后的序列s={x1,x2,...,xn},序列的长度为n,经文本分类模型分类后的输出称为样本分类标签y,例如假设y的取值共有2种,可以分别用数字0,1来表示。
步骤302.嵌入层将输入序列Si中的每个词转换为词向量后输出词向量序列Ei,其中i用于标识第i个样本,Ei用于表示与第i个样本对应的词向量序列。
嵌入层用于使用词嵌入工具将输入序列Si中的每个词转化为向量形式,从而输出词向量序列。例如,嵌入层可以使用word2vec、Glove等词嵌入工具,将每个词映射到低维向量。用深度学习来处理自然语言的各项任务时,需要将文本数据用数学的形式表示出来,即转换为向量的形式,以便机器来处理。
大多数单词嵌入的方法都是以单词作为基本单元,根据单词的外部情境学习嵌入,忽略单词的内部结构。但是对于中文来说,一个句子通常由多个词组成,并且包含丰富的内部结构信息,所以本发明一实施例中使用由word2vec工具训练好的中文词向量来进行词嵌入处理。
例如给出一个句子s={x1,x2,...,xn},使用word2vec工具将原始数据中的每一个单词xi都转换成实数向量ei,由词向量构成的序列记作词向量序列E={e1、e2、…、en},其中et∈Rd,d表示每个特征表示的向量长度,t=1,2,…,n。输入序列Si经过嵌入层后得到的词向量序列即句子矩阵Ei。
步骤303.在特征提取层中,使用卷积神经网络模型抽取句子矩阵Ei的局部特征得到局部特征向量Ci,然后使用多层循环神经网络抽取局部特征向量Ci中的上下文语义特征,输出全局特征向量Hi,其中i用于标识第i个样本,Hi代表与第i个样本对应的全局特征向量。
特征提取层用于使用由卷积神经网络和多层循环神经网络构成的混合神经网络模型提取当前训练样本对应的句子矩阵Ei的局部特征和上下文语义特征,从而获得当前训练样本对应的全局特征向量Hi。
在本发明一实施例中,特征提取层所使用的卷积神经网络可以为文本卷积神经网络(Text-Convolutional Neural Network,Text-CNN),Text-CNN为卷积神经网络的一种变体,擅长于处理文本问题。
在本发明一实施例中,特征提取层使用的循环神经网络可以为长短期记忆网络(Long-Short Term Memory,LSTM)、双向长短记忆网络BiLSTM、简单循环单元(SimpleRecurrent Unit,SRU)或称为简单循环神经网络、双向简单循环单元BiSRU或称为双向简单循环神经网络等。本发明不限定卷积神经网络和循环神经网络的具体种类,只要其组合能够实现局部特征和上下文语义特征的提取即可。
在本发明一实施例中采用如图4所示的Text-CNN和双向简单循环神经网络BiSRU的混合模型结构,以下结合这两种模型说明特征提取的过程。
卷积神经网络可以学习局部特征,但是无法学习序列之间的联系,循环神经网络无法学到类似卷积神经网络的局部特征。Text-CNN是一种擅长对文本进行处理的简易卷积神经网络,网络结构为单层卷积+池化操作或者直接进行单层卷积处理,从而得到文本特征表示向量。
嵌入层输出的词向量序列构成句子矩阵Ei,作为Text-CNN的输入向量,假设Text-CNN卷积层接收大小为n×d的句子矩阵E,矩阵中包含n个词,词向量维度为d。句子矩阵E中的每一行为句子中一个词的词向量。选取尺寸为m×d的卷积核k∈Rm×d对输入矩阵E进行卷积操作获得特征值gi。m为卷积计算滑动窗口的大小,即卷积核的高度。该实施例中使用“same”模式进行卷积,即获得和输入矩阵规模相同的输出,卷积过程如公式所示:
ci=f(k×Ei:i+m-1+b)
其中,f表示激活函数(Rectified Linear Units,ReLU)激活函数,进行非线性变换,k表示滤波器或者卷积核。为了加快训练收敛速度,这里使用ReLu激活函数,b表示偏至项。Ei:i-m+1表示在E的第i行到i-m+1行范围内抽取的局部特征,随着滤波器依靠步长为1从上往下进行滑动,走过整个矩阵E,得到局部特征向量C:
C={c1,c2,...,cn-m+1}
图5为本发明一实施例中对句子矩阵提取局部特征的示意图,假定输入句子经过词向量层处理得到向量表示{e1,e2,...,e8},然后映射为二维矩阵E,经过卷积处理得到特征向量C,流程如下所示:
循环神经网络(Recurrent Neural Network,RNN)常用于文本分类、时间序列数据的处理等,但RNN对于距离较远的信息,学习能力较弱。长短期记忆网络LSTM是一种改进的循环神经网络结构,是为了解决长期依赖问题而专门设计出来的。LSTM拥有一个精密设计的结构,这种结构包含很多门,这些门控制着流向隐层状态的信息的数量,使得神经网络能记住较长时间的信息。由于LSTM网络结构比较复杂,训练时间长,每一个时刻的计算都要依赖于上一时刻的输出,所以造成训练时间较长。简单循环单元SRU是RNN的一种变体,通过改变循环体内部状态的计算方式来提高模型的速度,将原来依赖上一时刻的输出转变成只依赖于当前时刻的输入,使得其结构更加简单,训练速度得到大幅度的提升。
图6为本发明一实施例中使用的SRU神经网络结构图示意图,SRU的整个计算过程如下所示:
ft=σ(Wfxt+bf)
rt=σ(Wrxt+br)
ht=rt⊙g(ct)+(1-rt)⊙xt
其中W,Wr,Wf为SRU中的参数矩阵,bf,br为偏置单元向量。
在单向的神经网络结构中,状态总是从前向后输出的。然而,在文本特征提取过程中,如果当前时刻的输出能与前一时刻的状态和后一时刻的状态都产生联系,更有利于文本深层次特征的提取,这就需要双向循环神经网络来建立这种联系。双向简单循环单元BiSRU或称为双向简单循环神经网络是由单向的、方向相反的、输出由这两个简单循环神经网络的状态共同决定的简单循环神经网络组成的神经网络模型。在每一时刻。输入会同时提供两个方向相反的简单循环神经网络,而输出则由这两个单向简单循环神经网络共同决定。
图7为本发明一实施例中使用的双向简单循环神经网络的网络结构示意图。
双向的SRU神经网络模型即BiSRU包含左右两个序列上下文的两个子网络,分别是前向和后向传递。双向SRU神经网络的输出是基于元素的和来组合正向和反向的结果,公式如下:
为了更好地提取上下文语义特征,仅仅依靠单个的双向循环神经网络模型并不能全面地提取其特征,所以本发明一实施例中采用了一种基于集成多层的双向简单循环神经网络结构,即将多层的双向简单循环神经网络堆叠在一起,以达到更好的提取训练样本的上下文信息的目的,堆叠的层数可基于想达到的效果来定,通常可堆叠3-6层,图8为本发明一实施例使用的集成多层的双向简单循环神经网络结构的示意图。
本发明一实施例中,特征提取层将Text-CNN输出的局部特征向量C作为集成多层的双向简单循环神经网络模块的输入,经过多层BiSRU的计算得到最终的全局特征向量H={h1,h2,...,hn-m+1}。
本发明提出在循环神经网络层之上同时应用注意力机制提升句子分类的效果。特征提取模块的输出的全局特征向量为H={h1,h2,…,hk,…hn-m+1},其中hk表示每一时刻的输出状态,k∈[1,n-m+1]。引入注意力机制的数学表达即计算每一时刻输出即hk与整个特征向量的匹配得分占总体的百分比(注意力概率分布)ai:
其中:w,u为权值矩阵,b为偏置项,ReLU为激活函数。该比重值越大说明了该时刻输入的文本信息注意力值越大。得到每一时刻的概率分布值后,对所有时刻的输出进行求和再平均,得到总特征向量V:
注意力机制的引入,使得模型在处理上下文信息时,能够体现出每一时刻输出序列信息的不同权重,可以强化序列信息的有效组合。
步骤305.输出层通过分类器对总特征向量Vi进行分类后得到分类结果。
本发明一实施例中,将经过了注意力机制得到的总特征向量V通过softmax分类器,从而得出最终的关系分类结果。本发明不限定所使用的分类器类型。
使用softmax分类器从句子S的离散集合类Y中预测标签y。
p(y|s)=soft max(W(s)V+b(s))
在模型训练的反向传播过程中,损失函数设定为真实类别标签y的负对数似然值:
其中,t是使用One-Hot表示的真实值,y是使用softmax函数估计每个类别的概率,λ是L2正则化参数,采用随机梯度下降算法进行参数优化。
在本发明一实施例中,反向传播过程根据梯度下降优化算法,首先最小化损失函数,计算前向传播的结果和实际标签的误差,同时利用TensorFlow自动反向传播方法,对网络参数进行更新,当达到模型设置的迭代次数(比如,steps=10000)时,停止训练,同时保存训练好的模型文件,以供实际应用时调用。
请参考图9,基于本发明上述实施例,本发明一实施例提供还提出一种文本分类设备,如图9所示该文本分类设备硬件结构示意图,该设备包括:诸如中央处理单元(CPU)的处理器901、内部总线902、网络接口903以及非暂时性存储介质904。其中,处理器901、网络接口903以及非暂时性存储介质904可以通过内部总线902相互通信。非暂时性存储介质904可存储有实现本发明提供的文本分类方法的可执行指令。基于本发明提供的文本分类方法,本发明一实施例还提供了一种文本分类装置,该文本分类装置的各组成单元所实现的功能分别与文本分类方法的各步骤对应。处理器901读取并执行非暂时性存储介质904中存储的文本分类装置所对应的机器可执行指令,可以实现文本分类装置的各个模块的功能。
图10为本发明一实施例提供的文本分类装置的示意图,该文本分类装置1000包括:
输入层模块1001,用于对输入的文本进行分词后得到输入序列S;
嵌入层模块1002,用于将输入序列S中的每个词转换为词向量后输出句子矩阵E;
特征提取层模块1003,用于使用卷积神经网络模型抽取句子矩阵E的局部特征得到局部特征向量C,再使用多层循环神经网络抽取局部特征向量C中的上下文语义特征输出全局特征向量H;
输出层模块1005,用于通过分类器对总特征向量V进行分类后得到分类结果。
在本发明一实施例中,特征提取层模块1003使用的卷积神经网络为文本卷积神经网络Text-CNN。
在本发明一实施例中,特征提取层模块1003使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。
在本发明一实施例中,将本发明提供的文本分类方法应用在企业用户网络行为的审计当中,以对员工的网络访问行为进行审计管理,提出了一种网络行为审计方法,在使用本发明提供的文本分类模型之前,首选需要从企业网络管理系统中获取用户网络访问日志数据,例如提取如表1所示的某个时间段内的企业用户的网络访问日志,其中包括用户名、源地址、目的地址、源端口、目的端口、应用名称、搜索内容、系统,终端MAC地址,时间等字段信息等,其中类别字段在训练阶段可由人工进行标注,例如0表示工作相关,1表示工作无关,分别对应模型的输出类别标签。
表1
用于训练模型的样本可仅包括表1中的部分字段,例如应用名称和内容字段组合作为模型输入训练样本,可训练样本集的80%用于训练,20%用于测试模型分类效果,训练完成后可保存模型文件用于未分类语料的分类识别。
在模型训练完成后,即可将模型文件罐装到设备中应用于实际的应用场景中,例如从一条用户网络行为日志中提取出待分类文本输入到本发明提供的文本分类模型中,通过模型分类即可知道用户是否在浏览与工作有关的内容。同时,还可以结合用户名,终端MAC地址,时间等日志信息,定位到具体的用户及计算机终端,从而更好地进行管控和引导。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
2.根据权利要求1所述的方法,其特征在于,
所述输入层使用分词工具对输入的文本进行分词到输入序列S;
所述嵌入层使用词嵌入工具将输入序列S中的每个词转换为词向量。
3.根据权利要求1所述的方法,其特征在于,
所述特征提取层使用的卷积神经网络为文本卷积神经网络Text-CNN。
4.根据权利要求1或3所述的方法,其特征在于,
特征提取层使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。
5.一种文本分类模型的训练方法,其特征在于,所述文本分类模型包括输入层、嵌入层、特征提取层、注意力层、输出层,所述训练方法包括:
输入层对输入的样本进行分词后得到输入序列Si;
嵌入层将输入序列Si中的每个词转换为词向量后输出词向量序列Ei;
在特征提取层中,使用卷积神经网络模型抽取句子矩阵Ei的局部特征得到局部特征向量Ci,然后使用多层循环神经网络抽取局部特征向量Ci中的上下文语义特征,输出全局特征向量Hi;
输出层通过分类器对总特征向量Vi进行分类后得到分类结果;
其中,i表示与第i个样本。
6.根据权利要求5所述的训练方法,其特征在于,
所述特征提取层使用的卷积神经网络为文本卷积神经网络Text-CNN。
7.根据权利要求5或6所述的训练方法,其特征在于,
特征提取层使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。
8.根据权利要求5所述的训练方法,其特征在于,所述训练方法还包括:
所述输出层使用的分类器为SoftMax分类器,在对所述文本分类模型进行训练的反向传播过程中,损失函数设定为真实类别标签y的负对数似然值,采用梯度下降优化算法,初始化时将损失函数最小化;
在每次或批量输出预测结果后,计算前向传播的结果和实际标签的误差,同时利用TensorFlow自动反向传播方法,对网络参数进行更新,当达到模型设置的迭代次数时,停止所述文本分类模型的训练,同时保存训练好的模型文件。
10.根据权利要求9所述的装置,其特征在于,
所述特征提取层模块使用的卷积神经网络为文本卷积神经网络Text-CNN;
所述特征提取层模块使用的循环神经网络为双向长短期记忆网络BiLSTM、双向简单循环单元BiSRU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132631.4A CN111475642A (zh) | 2020-02-29 | 2020-02-29 | 一种文本分类方法、装置及模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132631.4A CN111475642A (zh) | 2020-02-29 | 2020-02-29 | 一种文本分类方法、装置及模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475642A true CN111475642A (zh) | 2020-07-31 |
Family
ID=71748032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132631.4A Pending CN111475642A (zh) | 2020-02-29 | 2020-02-29 | 一种文本分类方法、装置及模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475642A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
CN112464931A (zh) * | 2020-11-06 | 2021-03-09 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN112528020A (zh) * | 2020-12-02 | 2021-03-19 | 中国电子进出口有限公司 | 一种文本分类方法及装置 |
CN112631139A (zh) * | 2020-12-14 | 2021-04-09 | 山东大学 | 智能家居指令合理性实时检测系统及方法 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113515625A (zh) * | 2021-05-18 | 2021-10-19 | 中国工商银行股份有限公司 | 测试结果分类模型训练方法、分类方法及装置 |
CN113536780A (zh) * | 2021-06-29 | 2021-10-22 | 华东师范大学 | 一种基于自然语言处理的企业破产案件智能辅助判案方法 |
CN113779236A (zh) * | 2021-08-11 | 2021-12-10 | 齐维维 | 一种基于人工智能的问题分类的方法及装置 |
CN114513351A (zh) * | 2022-02-08 | 2022-05-17 | 中国人民解放军海军军医大学 | 一种偏远地区信息加密传输方法、系统及可存储介质 |
CN116108171A (zh) * | 2022-12-19 | 2023-05-12 | 中国邮政速递物流股份有限公司广东省分公司 | 基于ai循环神经网络深度学习技术的司法材料处理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
-
2020
- 2020-02-29 CN CN202010132631.4A patent/CN111475642A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
CN112115253B (zh) * | 2020-08-17 | 2023-02-03 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
CN112464931A (zh) * | 2020-11-06 | 2021-03-09 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN113342970A (zh) * | 2020-11-24 | 2021-09-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN112528020A (zh) * | 2020-12-02 | 2021-03-19 | 中国电子进出口有限公司 | 一种文本分类方法及装置 |
CN112528020B (zh) * | 2020-12-02 | 2024-05-21 | 中国电子进出口有限公司 | 一种文本分类方法及装置 |
CN112631139B (zh) * | 2020-12-14 | 2022-04-22 | 山东大学 | 智能家居指令合理性实时检测系统及方法 |
CN112631139A (zh) * | 2020-12-14 | 2021-04-09 | 山东大学 | 智能家居指令合理性实时检测系统及方法 |
CN113515625A (zh) * | 2021-05-18 | 2021-10-19 | 中国工商银行股份有限公司 | 测试结果分类模型训练方法、分类方法及装置 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
CN113536780A (zh) * | 2021-06-29 | 2021-10-22 | 华东师范大学 | 一种基于自然语言处理的企业破产案件智能辅助判案方法 |
CN113378567B (zh) * | 2021-07-05 | 2022-05-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113779236A (zh) * | 2021-08-11 | 2021-12-10 | 齐维维 | 一种基于人工智能的问题分类的方法及装置 |
CN114513351A (zh) * | 2022-02-08 | 2022-05-17 | 中国人民解放军海军军医大学 | 一种偏远地区信息加密传输方法、系统及可存储介质 |
CN116108171A (zh) * | 2022-12-19 | 2023-05-12 | 中国邮政速递物流股份有限公司广东省分公司 | 基于ai循环神经网络深度学习技术的司法材料处理系统 |
CN116108171B (zh) * | 2022-12-19 | 2023-10-31 | 中国邮政速递物流股份有限公司广东省分公司 | 基于ai循环神经网络深度学习技术的司法材料处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475642A (zh) | 一种文本分类方法、装置及模型训练方法 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111061856B (zh) | 一种基于知识感知的新闻推荐方法 | |
Luo et al. | Online learning of interpretable word embeddings | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN112069811A (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112528029A (zh) | 文本分类模型处理方法、装置、计算机设备及存储介质 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN115587594A (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN110795410A (zh) | 一种多领域文本分类方法 | |
Du et al. | Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
Zhang et al. | Grammar guided embedding based Chinese long text sentiment classification | |
CN115730237A (zh) | 垃圾邮件检测方法、装置、计算机设备及存储介质 | |
CN114724167A (zh) | 一种营销文本识别方法及系统 | |
Cheng et al. | Negative emotion diffusion and intervention countermeasures of social networks based on deep learning | |
CN113076741A (zh) | 一种基于多语言文本数据分析方法 | |
Wu et al. | A Text Emotion Analysis Method Using the Dual‐Channel Convolution Neural Network in Social Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200731 |
|
WD01 | Invention patent application deemed withdrawn after publication |