CN113033212B - 文本数据处理方法及装置 - Google Patents
文本数据处理方法及装置 Download PDFInfo
- Publication number
- CN113033212B CN113033212B CN202110350842.XA CN202110350842A CN113033212B CN 113033212 B CN113033212 B CN 113033212B CN 202110350842 A CN202110350842 A CN 202110350842A CN 113033212 B CN113033212 B CN 113033212B
- Authority
- CN
- China
- Prior art keywords
- text data
- characteristic sequence
- circulation unit
- gating
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000015654 memory Effects 0.000 description 28
- 230000008451 emotion Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请公开了一种文本数据处理方法及装置。该方法包括:获取文本数据对应的词向量表示;采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定。通过本申请,解决了相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种文本数据处理方法及装置。
背景技术
情感分析主要是指分析情感的极性,例如正面、负面,或者极性更多,非常正面、正面、中性、负面、非常负面等,现有的对文本进行情感分析方法主要基于以下几类:
通过构建情感词典进行情感分析:情感词典包含情绪极性和情感强度,再计算文本对应的情绪分数,按照通用性有两类情感词典,一类是适用于所有领域的情感词典;一类是适用于特定领域的专业情感词典。但是,构建情感词典需要耗费大量的人力物力,针对一些专业性比较强的领域门槛比较高,而且情感词典的好坏对于最后模型结果影响较大。
通过传统的机器学习算法进行情感分析:从文本中挖掘结构化信息构建特征变量,包括N-gram、POS、TF-IDF等,再进行特征选择,最后运用SVM(Support Vectormachines,支持向量机)、朴素贝叶斯等机器学习算法进行分类。但是,传统的机器学习模型没有考虑词与词之间的相对关系和上下文语境,并且构建的特征变量比较稀疏,没有深层次挖掘语义间的关系。
通过深度学习算法进行情感分析:基于word2vec算法将文本转化为向量或者矩阵,再利CNN(convolutional neural network,卷积神经网络)、RNN(Recurrent NeuralNetwork,递归神经网络)等深度学习算法进行训练。但是,CNN模型缺乏学习上下文语义关系的能力,RNN模型能够学习上下文语义关系,但维数过高造成参数过多,训练难度增大,也容易造成梯度消失和梯度爆炸。
针对相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种文本数据处理方法及装置,以解决相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题。
根据本申请的一个方面,提供了一种文本数据处理方法。该方法包括:获取文本数据对应的词向量表示;采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定。
可选地,采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果包括:通过卷积层提取文本数据的第一特征序列;通过双向门控循环单元对第一特征序列进行处理,得到文本数据的第二特征序列;基于文本数据的第一特征序列以及第二特征序列确定目标权重;通过分类器基于目标权重对第二特征序列进行分类,得到分类结果。
可选地,文本数据对应的词向量表示为词矩阵,通过卷积层提取文本数据的第一特征序列包括:通过在词矩阵上移动滤波器对应的窗口,构造多个第一特征,其中,滤波器为卷积层中的滤波器;由多个第一特征构成第一特征序列。
可选地,双向门控循环单元包括正向门循环单元和逆向门循环单元,通过双向门控循环单元对第一特征序列进行处理,得到文本数据的第二特征序列包括:通过正向门控循环单元对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;通过逆向门控循环单元对第二特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列;由正向门控循环单元的隐藏层输出的特征序列和逆向门控循环单元的隐藏层输出的特征序列构成第二特征序列。
可选地,通过正向门控循环单元对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列包括:确定正向门控循环单元的更新门和重置门,并通过正向门控循环单元的更新门和重置门对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;通过逆向门控循环单元对第二特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列包括:确定逆向门控循环单元的更新门和重置门,并通过逆向门控循环单元的更新门和重置门对第一特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列。
可选地,基于文本数据的第一特征序列以及第二特征序列确定目标权重包括:基于正向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第一权重矩阵确定第一权重;基于逆向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第二权重矩阵确定第二权重;对第一权重和第二权重进行相加,得到目标权重。
可选地,在采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果之前,该方法还包括:采用已标注的输入数据和已标注的输出数据训练预设模型,得到初始目标分类模型;通过初始目标分类模型对未标注的输入数据进行处理,得到预测输出数据;由已标注的输入数据、已标注的输出数据、未标注的输入数据以及预测输出数据构成训练集数据;从训练集数据中抽取多组数据,得到目标训练集数据,并采用目标训练集数据训练预设模型,得到目标分类模型。
可选地,获取文本数据对应的词向量表示包括:对文本数据对应的词向量进行预处理,得到多个词汇;对多个词汇进行编码后得到初始词矩阵;计算初始词矩阵与嵌入式矩阵的乘积,得到文本数据对应的词向量表示。
可选地,分类器对应的损失函数为交叉熵损失函数。
根据本申请的另一方面,提供了一种文本数据处理装置。该装置包括:获取单元,用于获取文本数据对应的词向量表示;处理单元,用于采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种文本数据处理方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种文本数据处理方法。
通过本申请,采用以下步骤:获取文本数据对应的词向量表示;采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定,解决了相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题。通过包括卷积层、双向门控循环单元以及分类器对文本数据对应的词向量表示进行处理,进而达到了高效准确的获取分类结果的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文本数据处理方法的流程图;
图2是根据本申请实施例提供的文本数据处理方法的示意图;
图3是根据本申请实施例提供的文本数据处理方法中目标分类模型的训练示意图;以及
图4是根据本申请实施例提供的文本数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了解决相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题,相关技术中出现了以下方法:
基于通用的语料库,首先采用Word2Vec向量化,利用CNN模型的卷积层提取特征,再利用双向LSTM(Long Short-Term Memory,长短期记忆网络)模型结合注意力机制,添加softmax分类器进行情感分类。但是,该方法存在以下问题:
一方面,基于一个通用语料库去训练,语料库往往数量级比较大,需要耗费大量的时间和资源,并且针对一些专业性比较强的场景,往往训练效果不佳,场景的适用性不强。另一方面,双向LSTM模型参数比较多,训练耗费的时间和成本比较高,也容易过拟合。再一方面,注意力机制主要用于提取模型隐藏层的关键信息,对外部信息依赖比较大。
基于此,本申请希望提供一种能够解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
CNN:convolutional neural network,卷积神经网络。
GRU:Gate Recurrent Unit,门控循环单元。
根据本申请的实施例,提供了一种文本数据处理方法。
图1是根据本申请实施例的文本数据处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S102,获取文本数据对应的词向量表示。
例如,文本数据可以为评论数据、新闻等。
可选地,在本申请实施例提供的文本数据处理方法中,获取文本数据对应的词向量表示包括:对文本数据对应的词向量进行预处理,得到多个词汇;对多个词汇进行编码后得到初始词矩阵;计算初始词矩阵与嵌入式矩阵的乘积,得到文本数据对应的词向量表示。
具体地,对文本进行预处理可以包括分词、去除停用词等步骤,预处理后得到多个词汇。
进一步的,再通过Word2vec中的Skip-gram技术确定文本数据对应的词向量表示,具体地,先对多个词汇进行独热编码处理,得到初始词矩阵Rm,Rm是一个M×D的矩阵,M代表词汇量大小,D代表词嵌入的维度(D越大,词嵌入表达能力越强),再通过下式确定Rm的词向量化表示xm:
xm=WeRm (1)
其中,We是嵌入矩阵。
通过本实施例,采用Word2vec中的Skip-gram技术获取文本数据对应的词向量表示,词向量能反映词语之间的语义关系,将其映射到更高维的向量空间上,每个词代表向量空间上的点,点之间的方向和距离等反映词语之间的相互关系。
步骤S104,采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定。
具体地,目标分类模型的分类结果根据训练集数据的标注的不同而不同,例如,目标分类模型可以为情感分类模型,则目标分类模型用于对文件数据进行情感分类,得到情感分类结果。
目标分类模型是基于自注意力机制的CNN和双向GRU的融合模型,可选地,在本申请实施例提供的文本数据处理方法中,采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果包括:通过卷积层提取文本数据的第一特征序列;通过双向门控循环单元对第一特征序列进行处理,得到文本数据的第二特征序列;基于文本数据的第一特征序列以及第二特征序列确定目标权重;通过分类器基于目标权重对第二特征序列进行分类,得到分类结果。
具体地,CNN的卷积层对文本数据对应的词向量表示进行降维,降低了模型训练难度和时间,而且相较于直接降维,能够捕捉原始文本的低维抽象语义信息。
而GRU模型是LSTM模型的变种,相较于传统的RNN模型,能够解决RNN模型的梯度爆炸和梯度消失问题,而且能够保存时序较长的状态信息。双向GRU模型结合正向传播和逆向传播的隐藏层,不仅能捕捉文本上下文语义关系,通过双向GRU获取的特征信息更反映真实的语义关系,而且较LSTM模型更精简,参数更少,训练耗费的时间和资源更少。
此外,结合自注意力机制,通过设置不同的权重强调关键信息,避免词之间的互相干扰,同时能够自适应地调整当前输入的权重,忽略词之间的距离直接计算依赖关系,有利于学习特征间潜在的依赖信息,减少对外部信息的依赖。
因而,本实施例中的基于注意力机制的CNN和双向GRU融合模型,能减少对外部信息的依赖,学习特征间潜在的依赖信息,显著提升分类效果,并且降低模型训练参数和时间。
本申请实施例提供的文本数据处理方法,通过获取文本数据对应的词向量表示;采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定,解决了相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题。通过包括卷积层、双向门控循环单元以及分类器对文本数据对应的词向量表示进行处理,进而达到了高效准确的获取分类结果的效果。
卷积层主用于获取文本局部信息并降维,可选地,在本申请实施例提供的文本数据处理方法中,文本数据对应的词向量表示为词矩阵,通过卷积层提取文本数据的第一特征序列包括:通过在词矩阵上移动滤波器对应的窗口,构造多个第一特征,其中,滤波器为卷积层中的滤波器;由多个第一特征构成第一特征序列。
具体地,如图2所示,将词矩阵xm中的词向量x1-xt输入卷积层,卷积层的卷积核为n,滤波器为k,Skip-gram算法上下移动的窗口k对词矩阵xm进行遍历,构造词矩阵xm对应的新的词向量xi:i+k-1,其中,i为词矩阵xm中的第i个词向量,并由多个新的词向量构成第一特征序列Ln:
Ln=σ(Wcxi:i+k-1+b) (2)
其中,Wc代表权重矩阵,b代表偏差向量,σ代表激活函数。
通过本实施例,通过卷积层提取文本数据的第一特征序列,能获取文本数据的局部信息并能显著降低特征维度。
需要说明的是,卷积层并没有包含语序信息,而双向GRU模型能够在卷积层降维的基础上捕捉更深的语义间的信息,因而,将文本数据的第一特征序列输入双向GRU模型进行处理。
可选地,在本申请实施例提供的文本数据处理方法中,双向门控循环单元包括正向门循环单元和逆向门循环单元,通过双向门控循环单元对第一特征序列进行处理,得到文本数据的第二特征序列包括:通过正向门控循环单元对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;通过逆向门控循环单元对第二特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列;由正向门控循环单元的隐藏层输出的特征序列和逆向门控循环单元的隐藏层输出的特征序列构成第二特征序列。
可选地,在本申请实施例提供的文本数据处理方法中,通过正向门控循环单元对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列包括:确定正向门控循环单元的更新门和重置门,并通过正向门控循环单元的更新门和重置门对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;通过逆向门控循环单元对第二特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列包括:确定逆向门控循环单元的更新门和重置门,并通过逆向门控循环单元的更新门和重置门对第一特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列。
具体地,正向GRU模型的具体公式如下所示:
其中,Wr、WZ、代表权重矩阵,tanh和σ代表激活函数,ht-1代表在t-1时刻GRU的隐藏层输出特征,/>代表在t时刻GRU的隐藏层输出特征的中间状态,ht代表在t时刻GRU的隐藏层输出特征,zt和rt分别表示更新门和重置门,更新门用于控制前一时刻的状态被带入当前状态的程度,更新门的值越大,代表前一状态被带入的信息越多;重置门控制前一状态被写入的程度,重置门越小,前一状态被写入的信息越小,Lnt代表由在t时刻卷积层生成的第一特征序列。
需要说明的是,双向GRU模型结合了正向传播的隐藏层和逆向传播的隐藏层/>用以挖掘上下文的语义关系,逆向GPU模型的具体公式与正向GPU模型的具体公式同理,双向GPU模型可以看作文本的两种不同方式,能够同时考虑正向和逆向的文本,因此能够考虑上下文的语义关系,获取的特征信息能够反映真实的语义关系,且较LSTM模型更精简,参数更少,训练耗费的时间和资源更少。
双向GRU的隐藏层输出特征还用于构建分类时使用的权重,可选地,在本申请实施例提供的文本数据处理方法中,基于文本数据的第一特征序列以及第二特征序列确定目标权重包括:基于正向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第一权重矩阵确定第一权重;基于逆向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第二权重矩阵确定第二权重;对第一权重和第二权重进行相加,得到目标权重。
具体地,目标权重ft的计算如下:
ft=σ(Wa tanh(Wtht+WlLnt+bt)+ba) (4)
其中,Wa、Wt、Wl代表权重矩阵,σ代表Sigmoid激活函数,bt和ba代表偏差,Lnt代表t时刻由卷积层生成的特征序列。
需要说明的是,自注意力机制通过各个权重矩阵对于双向GRU模型的隐藏层实施不同的权重,通过不同的权重强调关键信息,使其能捕捉更关键的信息,避免互相干扰,同时能够自适应地调整当前输入的权重,忽略词之间的距离直接计算依赖关系,有利于学习句子内部的结构,减少对外部信息的依赖,学习特征间潜在的依赖信息。
可选地,在本申请实施例提供的文本数据处理方法中,分类器对应的损失函数为交叉熵损失函数。
具体地吗,分类器可以为softmax分类器,采用交叉熵损失函数作为softmax分类器的损失函数,同时运用Adam算法(Adaptive moment estimation,自适应矩估计)最优化损失函数,
此外,可以在模型中加dropout层,dropout的作用是在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,从而避免模型过拟合。
为了提高目标分类模型的适用场景,可选地,在本申请实施例提供的文本数据处理方法中,在采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果之前,该方法还包括:采用已标注的输入数据和已标注的输出数据训练预设模型,得到初始目标分类模型;通过初始目标分类模型对未标注的输入数据进行处理,得到预测输出数据;由已标注的输入数据、已标注的输出数据、未标注的输入数据以及预测输出数据构成训练集数据;从训练集数据中抽取多组数据,得到目标训练集数据,并采用目标训练集数据训练预设模型,得到目标分类模型。
具体地,实际场景中大部分数据并没有被标注,针对专业性比较强的场景,用通用语料库去训练往往达不到预想的效果,而部分标注数据适用于更多场景,尤其是专业性比较强的领域,而且能提升模型效果,同时通用语料库数量量级一般都比较大,采用小部分标注数据和更大规模未标注数据训练模型的方法能有效降低耗费的资源和时间成本,因而,本实施例采用半监督学习的方法进行模型训练。
具体地,如图3所示,半监督学习主要将数据分为两类,训练集和测试集,其中训练集数据由一小部分标注数据和大部分未标注数据组成,测试集仅仅包含标注数据。训练集的训练包含三个过程,首先利用带有标注的训练集数据训练基于注意力机制的CNN、双向GRU融合的初始分类模型,然后基于第一个训练过程得到的初始分类模型预测训练集未标注数据,最后第二个过程所有预测值结合标注数据再随机取样一定比例进行分类模型训练,得到最终的目标分类模型,然后用于测试集,对模型进行评估。
本实施例采用半监督学习模型的方法一方面能适用于更多的场景,另一方面能增强分类的效果,相对于通用语料库数量量级,能有效减少耗费的资源和时间。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本数据处理装置,需要说明的是,本申请实施例的文本数据处理装置可以用于执行本申请实施例所提供的用于文本数据处理方法。以下对本申请实施例提供的文本数据处理装置进行介绍。
图4是根据本申请实施例的文本数据处理装置的示意图。如图4所示,该装置包括:获取单元10和处理单元20。
具体地,获取单元10,用于获取文本数据对应的词向量表示。
处理单元20,用于采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定。
本申请实施例提供的文本数据处理装置,通过获取单元10获取文本数据对应的词向量表示;处理单元20采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果,其中,目标分类模型包括卷积层、双向门控循环单元以及分类器,卷积层用于提取文本数据的第一特征序列,双向门控循环单元用于基于第一特征序列提取文本数据的第二特征序列,分类器用于基于目标权重对第二特征序列进行分类,得到分类结果,其中,目标权重由文本数据的第一特征序列和第二特征序列确定,解决了相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题,通过包括卷积层、双向门控循环单元以及分类器对文本数据对应的词向量表示进行处理,进而达到了高效准确的获取分类结果的效果。
可选地,在本申请实施例提供的文本数据处理装置中,处理单元20包括:提取模块,用于通过卷积层提取文本数据的第一特征序列;处理模块,用于通过双向门控循环单元对第一特征序列进行处理,得到文本数据的第二特征序列;确定模块,用于基于文本数据的第一特征序列以及第二特征序列确定目标权重;分类模块,用于通过分类器基于目标权重对第二特征序列进行分类,得到分类结果。
可选地,在本申请实施例提供的文本数据处理装置中,文本数据对应的词向量表示为词矩阵,提取模块包括:第一构造子模块,用于通过在词矩阵上移动滤波器对应的窗口,构造多个第一特征,其中,滤波器为卷积层中的滤波器;第二构造子模块,用于由多个第一特征构成第一特征序列。
可选地,在本申请实施例提供的文本数据处理装置中,双向门控循环单元包括正向门循环单元和逆向门循环单元,处理模块包括:第一处理子模块,用于通过正向门控循环单元对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;第二处理子模块,用于通过逆向门控循环单元对第二特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列;第三构造子模块,用于由正向门控循环单元的隐藏层输出的特征序列和逆向门控循环单元的隐藏层输出的特征序列构成第二特征序列。
可选地,在本申请实施例提供的文本数据处理装置中,第一处理子模块用于确定正向门控循环单元的更新门和重置门,并通过正向门控循环单元的更新门和重置门对第一特征序列进行处理,得到正向门控循环单元的隐藏层输出的特征序列;第二处理子模块用于确定逆向门控循环单元的更新门和重置门,并通过逆向门控循环单元的更新门和重置门对第一特征序列进行处理,得到逆向门控循环单元的隐藏层输出的特征序列。
可选地,在本申请实施例提供的文本数据处理装置中,确定模块包括:第一确定子模块,用于基于正向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第一权重矩阵确定第一权重;第二确定子模块,用于基于逆向门控循环单元的隐藏层输出的特征序列、第一特征序列以及多个第二权重矩阵确定第二权重;第三确定子模块,用于对第一权重和第二权重进行相加,得到目标权重。
可选地,在本申请实施例提供的文本数据处理装置中,该方法还包括:第一训练单元,用于在采用目标分类模型对词向量表示进行处理,得到文本数据所对应的分类结果之前,采用已标注的输入数据和已标注的输出数据训练预设模型,得到初始目标分类模型;预测单元,用于通过初始目标分类模型对未标注的输入数据进行处理,得到预测输出数据;构成单元,用于由已标注的输入数据、已标注的输出数据、未标注的输入数据以及预测输出数据构成训练集数据;第二训练单元,用于从训练集数据中抽取多组数据,得到目标训练集数据,并采用目标训练集数据训练预设模型,得到目标分类模型。
可选地,在本申请实施例提供的文本数据处理装置中,获取单元10包括:预处理模块,用于对文本数据对应的词向量进行预处理,得到多个词汇;编码模块,用于对多个词汇进行编码后得到初始词矩阵;计算模块,用于计算初始词矩阵与嵌入式矩阵的乘积,得到文本数据对应的词向量表示。
可选地,在本申请实施例提供的文本数据处理装置中,分类器对应的损失函数为交叉熵损失函数。
所述文本数据处理装置包括处理器和存储器,上述获取单元10、处理单元20等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中对文本进行分类的时,难以高效准确的获取分类结果的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种文本数据处理方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种文本数据处理方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种文本数据处理方法,其特征在于,包括:
获取文本数据对应的词向量表示;
采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果,其中,所述目标分类模型包括卷积层、双向门控循环单元以及分类器,所述卷积层用于提取所述文本数据的第一特征序列,所述双向门控循环单元用于基于所述第一特征序列提取所述文本数据的第二特征序列,所述分类器用于基于目标权重对所述第二特征序列进行分类,得到所述分类结果,其中,所述目标权重由所述文本数据的所述第一特征序列和所述第二特征序列确定;
其中,所述双向门控循环单元包括正向门控循环单元和逆向门控循环单元,由所述正向门控循环单元的隐藏层输出的特征序列和所述逆向门控循环单元的隐藏层输出的特征序列构成所述第二特征序列;基于所述正向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第一权重矩阵确定第一权重;基于所述逆向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第二权重矩阵确定第二权重;对所述第一权重和所述第二权重进行相加,得到所述目标权重;
其中,所述获取文本数据对应的词向量表示包括:对所述文本数据对应的词向量进行预处理,得到多个词汇;对所述多个词汇进行编码后得到初始词矩阵;计算所述初始词矩阵与嵌入式矩阵的乘积,得到所述文本数据对应的词向量表示。
2.根据权利要求1所述的方法,其特征在于,所述文本数据对应的词向量表示为词矩阵,通过所述卷积层提取所述文本数据的第一特征序列包括:
通过在所述词矩阵上移动滤波器对应的窗口,构造多个第一特征,其中,所述滤波器为所述卷积层中的滤波器;
由所述多个第一特征构成第一特征序列。
3.根据权利要求1所述的方法,其特征在于,通过所述双向门控循环单元对所述第一特征序列进行处理,得到所述文本数据的第二特征序列包括:
通过所述正向门控循环单元对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列;
通过所述逆向门控循环单元对所述第一特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列;
由所述正向门控循环单元的隐藏层输出的特征序列和所述逆向门控循环单元的隐藏层输出的特征序列构成所述第二特征序列。
4.根据权利要求3所述的方法,其特征在于,
所述通过所述正向门控循环单元对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列包括:
确定所述正向门控循环单元的更新门和重置门,并通过所述正向门控循环单元的更新门和重置门对所述第一特征序列进行处理,得到所述正向门控循环单元的隐藏层输出的特征序列;
所述通过所述逆向门控循环单元对所述第一特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列包括:
确定所述逆向门控循环单元的更新门和重置门,并通过所述逆向门控循环单元的更新门和重置门对所述第一特征序列进行处理,得到所述逆向门控循环单元的隐藏层输出的特征序列。
5.根据权利要求1所述的方法,其特征在于,在所述采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果之前,所述方法还包括:
采用已标注的输入数据和已标注的输出数据训练预设模型,得到初始目标分类模型;
通过所述初始目标分类模型对未标注的输入数据进行处理,得到预测输出数据;
由所述已标注的输入数据、所述已标注的输出数据、所述未标注的输入数据以及所述预测输出数据构成训练集数据;
从所述训练集数据中抽取多组数据,得到目标训练集数据,并采用所述目标训练集数据训练所述预设模型,得到所述目标分类模型。
6.根据权利要求1所述的方法,其特征在于,所述分类器对应的损失函数为交叉熵损失函数。
7.一种文本数据处理装置,其特征在于,包括:
获取单元,用于获取文本数据对应的词向量表示;
处理单元,用于采用目标分类模型对所述词向量表示进行处理,得到所述文本数据所对应的分类结果,其中,所述目标分类模型包括卷积层、双向门控循环单元以及分类器,所述卷积层用于提取所述文本数据的第一特征序列,所述双向门控循环单元用于基于所述第一特征序列提取所述文本数据的第二特征序列,所述分类器用于基于目标权重对所述第二特征序列进行分类,得到所述分类结果,其中,所述目标权重由所述文本数据的所述第一特征序列和所述第二特征序列确定;
其中,所述双向门控循环单元包括正向门控循环单元和逆向门控循环单元,由所述正向门控循环单元的隐藏层输出的特征序列和所述逆向门控循环单元的隐藏层输出的特征序列构成所述第二特征序列;所述装置还包括:第一确定子模块,用于基于所述正向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第一权重矩阵确定第一权重;第二确定子模块,用于基于所述逆向门控循环单元的隐藏层输出的特征序列、所述第一特征序列以及多个第二权重矩阵确定第二权重;第三确定子模块,用于对所述第一权重和所述第二权重进行相加,得到所述目标权重;
其中,所述获取单元包括:预处理模块,用于对所述文本数据对应的词向量进行预处理,得到多个词汇;编码模块,用于对所述多个词汇进行编码后得到初始词矩阵;计算模块,用于计算所述初始词矩阵与嵌入式矩阵的乘积,得到所述文本数据对应的词向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110350842.XA CN113033212B (zh) | 2021-03-31 | 2021-03-31 | 文本数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110350842.XA CN113033212B (zh) | 2021-03-31 | 2021-03-31 | 文本数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033212A CN113033212A (zh) | 2021-06-25 |
CN113033212B true CN113033212B (zh) | 2024-04-30 |
Family
ID=76453167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110350842.XA Active CN113033212B (zh) | 2021-03-31 | 2021-03-31 | 文本数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033212B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776572A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称识别方法 |
CN110674291A (zh) * | 2019-08-22 | 2020-01-10 | 昆明理工大学 | 一种基于多元神经网络融合的中文专利文本效应类别分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
CN111881260A (zh) * | 2020-07-31 | 2020-11-03 | 安徽农业大学 | 基于方面注意力和卷积记忆神经网络情感分析方法及装置 |
-
2021
- 2021-03-31 CN CN202110350842.XA patent/CN113033212B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776572A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称识别方法 |
CN110674291A (zh) * | 2019-08-22 | 2020-01-10 | 昆明理工大学 | 一种基于多元神经网络融合的中文专利文本效应类别分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
CN111881260A (zh) * | 2020-07-31 | 2020-11-03 | 安徽农业大学 | 基于方面注意力和卷积记忆神经网络情感分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113033212A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
Kaymak et al. | A brief survey and an application of semantic image segmentation for autonomous driving | |
KR102532749B1 (ko) | 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치 | |
CN111294646B (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN113039555B (zh) | 在视频剪辑中进行动作分类的方法、系统及存储介质 | |
CN113158554B (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
CN113837370A (zh) | 用于训练基于对比学习的模型的方法和装置 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN114091594A (zh) | 模型训练方法及装置、设备、存储介质 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
CN112527959B (zh) | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN110019952B (zh) | 视频描述方法、系统及装置 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
CN112749557A (zh) | 文本处理模型的构建方法和文本处理方法 | |
CN113033212B (zh) | 文本数据处理方法及装置 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN115700555A (zh) | 模型训练方法、预测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |