CN116561592B - 文本情感识别模型的训练方法和文本情感识别方法及装置 - Google Patents
文本情感识别模型的训练方法和文本情感识别方法及装置 Download PDFInfo
- Publication number
- CN116561592B CN116561592B CN202310845160.5A CN202310845160A CN116561592B CN 116561592 B CN116561592 B CN 116561592B CN 202310845160 A CN202310845160 A CN 202310845160A CN 116561592 B CN116561592 B CN 116561592B
- Authority
- CN
- China
- Prior art keywords
- feature
- recognition
- vector
- text
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000012549 training Methods 0.000 title claims abstract description 89
- 239000013598 vector Substances 0.000 claims abstract description 372
- 230000008451 emotion Effects 0.000 claims abstract description 200
- 230000004927 fusion Effects 0.000 claims abstract description 186
- 230000009466 transformation Effects 0.000 claims description 58
- 239000011159 matrix material Substances 0.000 claims description 50
- 230000003044 adaptive effect Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 230000000873 masking effect Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 6
- 238000004148 unit process Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 22
- 239000004973 liquid crystal related substance Substances 0.000 description 19
- 239000002131 composite material Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开关于一种文本情感识别模型的训练方法和文本情感识别方法及装置,其中训练方法包括:基于输入文本数据集通过BERT模型获得局部语义特征向量,全局语义特征向量和方面词语义特征向量;通过特征融合层获得方面词局部语义特征向量和方面词全局语义特征向量;将方面词全局语义特征向量输入到方面词识别网络中,获得方面词识别序列;将方面词局部语义特征向量和方面词全局语义特征向量输入到情感极性识别网络中,获得情感极性识别序列;基于获得的方面词识别序列和情感极性识别序列,以及方面词识别序列和情感极性识别序列分别对应的真实值计算损失;基于计算的损失调整文本情感识别模型中的参数,对文本情感识别模型进行训练。
Description
技术领域
本公开涉及自然语言处理领域,更具体地说,涉及一种文本情感识别模型的训练方法和装置,文本情感识别方法和装置,电子设备,及存储介质。
背景技术
针对情感分析的相关技术中,基于机器学习的技术需要大量的特征提取工作,而特征工程往往会消耗大量的人力,且特征工程对后续模型的训练效果影响极大,加之机器学习算法速度较慢,若有大量数据进行训练,时间成本和情感分析的难度都很高;而基于知识增强的方法需要提前针对某领域的数据集进行一定的搜集、扩充,增强后的先验知识表示会主观性地对该数据进行一个提前判断,并不有利于情感极性的识别;另外,基于序列神经网络RNN的方法由于复杂网络太多,而BERT(Bidirectional Encoder Representationsfrom Transformers,一种预训练语言模型)已经学习到了上下文长文本的关系,再次使用BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)等RNN(Recurrent Neural Network,循环神经网络)模型会增加时间成本,同时由于内部参数增多,当数据量较小时,很可能会给模型带来过拟合的风险,降低准确率。
发明内容
本公开提供一种文本情感识别模型的训练方法和装置,文本情感识别方法和装置,电子设备,及存储介质,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种文本情感识别模型的训练方法,所述文本情感识别模型包括文本嵌入网络、特征融合层、方面词识别网络和情感极性识别网络,所述训练方法包括:基于输入文本数据集构建局部语义输入序列和全局语义输入序列;所述局部语义输入序列和所述全局语义输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得局部语义特征向量和全局语义特征向量;基于所述输入文本数据集中的方面词数据集构建方面词语义序列;将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过所述文本嵌入网络中的平均池化层获得方面词语义特征向量;将所述局部语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词局部语义特征向量;将所述全局语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词全局语义特征向量;将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列;将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列;基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失;基于计算的损失调整所述文本情感识别模型中的参数,对所述文本情感识别模型进行训练。
可选的,所述特征融合层对输入的特征向量进行处理的步骤包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用所述文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
可选的,所述将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列,包括:将所述方面词全局语义特征向量使用所述文本情感识别模型中对应的参数组进行特征转化,获得特征转化向量,其中,所述特征转化向量的维度数与预设标签集合中的标签数相同;将所述特征转化向量输入到条件随机场层中,获得所述方面词识别序列。
可选的,所述将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列,包括:所述情感极性识别网络包括自适应局部语义理解层,所述特征融合层以及情感预测层;其中,所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;将所述方面词局部语义特征向量输入到所述自适应局部语义理解层中,获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵; 将所述方面词全局语义特征向量与所述自适应上下文动态掩码矩阵和所述自适应上下文动态加权矩阵输入到所述特征融合层中,获得特征融合向量;将所述特征融合向量输入到所述情感预测层中,获得所述情感极性识别序列;其中,所述情感预测层包括平均池化层,线性变换层和激活层。
可选的,所述自适应文本语义阈值基于以下公式进行定义:,其中,所述/>指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
可选的,所述基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失,包括:基于获得的所述方面词识别序列以及对应的真实值计算第一损失;基于获得的所述情感极性识别序列以及对应的真实值计算第二损失;对第一损失和第二损失进行动态加权处理,得到所述文本情感识别模型的损失。
可选的,所述文本情感识别模型的损失基于下面的公式计算得到:其中,所述/>指所述第一损失,所述/>指所述第二损失,所述/>指在所述文本情感识别模型的训练过程中进行学习的参数。
根据本公开实施例的第二方面,提供一种文本情感识别方法,所述识别方法基于上述任意一种训练方法训练得到的文本情感识别模型执行,所述识别方法包括:基于待识别文本数据集构建第一输入序列和第二输入序列;将所述第一输入序列和所述第二输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得第一特征向量和第二特征向量;基于所述待识别文本数据集中的方面词数据集构建第三输入序列;将所述第三输入序列输入到所述文本嵌入网络中的BERT模型中,经过平均池化层获得第三特征向量;将所述第一特征向量和所述第三特征向量输入到特征融合层中,获得第一特征融合向量;将所述第二特征向量和所述第三特征向量输入到所述特征融合层中,获得第二特征融合向量;将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列。
可选的,所述特征融合层对输入的特征向量进行处理的步骤包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用所述文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
可选的,所述识别方法还包括:将所述第二特征融合向量使用所述文本情感识别模型中对应的参数组进行特征转化,获得第一特征转化向量,其中,所述第一特征转化向量的维度数与第一预设标签集合中的标签数相同;将所述第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。
可选的,所述将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列,包括:将所述第一特征融合向量输入到自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;将所述第二特征融合向量与所述第一掩码矩阵和所述第一加权矩阵输入到所述特征融合层中,获得第三特征融合向量;将所述第三特征融合向量输入到所述情感预测层中,获得所述情感极性第一识别序列。
可选的,所述自适应文本语义阈值基于以下公式进行定义:,其中,所述/>指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
根据本公开实施例的第三方面,提供一种文本情感识别模型的训练装置,所述文本情感识别模型包括文本嵌入网络、特征融合层、方面词识别网络和情感极性识别网络,所述训练装置包括:文本嵌入单元,被配置为:基于输入文本数据集构建局部语义输入序列和全局语义输入序列;将所述局部语义输入序列和所述全局语义输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得局部语义特征向量和全局语义特征向量;基于所述输入文本数据集中的方面词数据集构建方面词语义序列;将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过所述文本嵌入网络中的平均池化层获得方面词语义特征向量;特征融合单元,被配置为:将所述局部语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词局部语义特征向量;将所述全局语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词全局语义特征向量;方面词识别单元,被配置为:将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列;情感极性识别单元,被配置为:将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列;参数调整单元,被配置为:基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失;基于计算的损失调整所述文本情感识别模型中的参数,对所述文本情感识别模型进行训练。
可选的,特征融合单元中所述特征融合层对输入的特征向量进行处理的步骤被配置为:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用所述文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
可选的,方面词识别单元被配置为:将所述方面词全局语义特征向量使用所述文本情感识别模型中对应的参数组进行特征转化,获得特征转化向量,其中,所述特征转化向量的维度数与预设标签集合中的标签数相同;将所述特征转化向量输入到条件随机场层中,获得所述方面词识别序列。
可选的,情感极性识别单元被配置为:将所述方面词局部语义特征向量输入到自适应局部语义理解层中,获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵;将所述方面词全局语义特征向量与所述自适应上下文动态掩码矩阵和所述自适应上下文动态加权矩阵输入到所述特征融合层中,获得特征融合向量;将所述特征融合向量输入到情感预测层中,获得所述情感极性识别序列;其中,所述情感极性识别单元包括自适应局部语义理解层、所述特征融合层以及情感预测层;所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;所述情感预测层包括平均池化层,线性变换层和激活层。
可选的,情感极性识别单元中的所述自适应文本语义阈值基于以下公式进行定义:,其中,所述/>指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
可选的,参数调整单元被配置为:基于获得的所述方面词识别序列以及对应的真实值计算第一损失;基于获得的所述情感极性识别序列以及对应的真实值计算第二损失;对第一损失和第二损失进行动态加权处理,得到所述文本情感识别模型的损失。
可选的,参数调整单元中所述文本情感识别模型的损失基于下面的公式计算得到:,其中,所述/>指所述第一损失,所述/>指所述第二损失,所述/>指在所述文本情感识别模型的训练过程中进行学习的参数。
基于本公开实施例的第四方面,提供一种文本情感识别装置,所述识别装置基于上述任意一种训练方法训练得到的文本情感识别模型执行,所述识别装置包括:文本嵌入单元,被配置为:基于待识别文本数据集构建第一输入序列和第二输入序列;将所述第一输入序列和所述第二输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得第一特征向量和第二特征向量;基于所述待识别文本数据集中的方面词数据集构建第三输入序列;将所述第三输入序列输入到所述文本嵌入网络中的BERT模型中,经过平均池化层获得第三特征向量;特征融合单元,将所述第一特征向量和所述第三特征向量输入到特征融合层中,获得第一特征融合向量;将所述第二特征向量和所述第三特征向量输入到所述特征融合层中,获得第二特征融合向量;情感极性识别单元,被配置为:将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列。
可选的,特征融合单元中所述特征融合层对输入的特征向量进行处理的步骤被配置为:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用所述文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
可选的,所述识别装置还包括:方面词识别单元,被配置为:将所述第二特征融合向量使用所述文本情感识别模型中对应的参数组进行特征转化,获得第一特征转化向量,其中,所述第一特征转化向量的维度数与第一预设标签集合中的标签数相同;将所述第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。
可选的,情感极性识别单元被配置为:将所述第一特征融合向量输入到自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;将所述第二特征融合向量与所述第一掩码矩阵和所述第一加权矩阵输入到所述特征融合层中,获得第三特征融合向量;将所述第三特征融合向量输入到所述情感预测层中,获得所述情感极性第一识别序列。
可选的,情感极性识别单元中的所述自适应文本语义阈值基于以下公式进行定义:,其中,所述/>指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
根据本公开的第五方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行上述任意一种文本情感识别模型的训练方法或上述任意一种文本情感识别方法。
根据本公开的第六方面,提供一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行上述任意一种文本情感识别模型的训练方法或上述任意一种文本情感识别方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述任意一种文本情感识别模型的训练方法或上述任意一种文本情感识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开提供的文本情感识别模型的训练方法和装置,文本情感识别方法和装置,电子设备,及存储介质,能够在情感识别与分析中完成同时提取语料方面词及对应的情感极性复合任务的同时,通过获得的方面词语义特征向量对局部语义特征向量和全局语义特征向量进行特征融合,以实现语义增强;另外通过语义增强后的方面词全局语义特征向量完成方面词识别任务,能够显著提升方面词识别任务的鲁棒性。
此外,通过将特征向量在预设维度上进行拼接的方式进行特征向量的特征融合,以实现对特征向量的语义增强,结合多头自注意力层可以实现对语义增强后的特征向量进行特征信息汇聚与压缩。
此外,在对情感极性识别任务进行训练时,通过定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法对语义增强后的方面词局部语义特征向量进行处理,能够通过自适应文本语义阈值让每个句子都具有适合自己的语义阈值,使得对局部上下文进行语义聚焦时将学习的关注点聚焦在方面词附近。
此外,在对文本情感识别模型进行训练的过程中,将方面词识别任务的第一损失和情感极性识别任务的第二损失进行动态加权计算整体损失,能够在每个批次的学习过程中平衡复合任务的损失权重,避免复合任务模型陷入局部最优解的情形。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出本公开示例性实施例的文本情感识别模型的结构原理图;
图2示出本公开示例性实施例的文本情感识别模型的训练方法的流程图;
图3示出本公开示例性实施例的文本情感识别方法的流程图;
图4示出本公开示例性实施例的文本情感识别模型的具体结构示意图;
图5示出本公开示例性实施例的文本情感识别模型的训练装置的示意图;
图6示出本公开示例性实施例的文本情感识别装置的示意图;
图7示出本公开示例性实施例的电子设备框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
复合情感分析任务可分为:Aspect-Opinion Pair Extraction (AOPE)、AspectCategory Sentiment Analysis (ACSA)、Aspect Target Sentiment Classification(ATSC)。AOPE成对提取aspect和opinion术语,以便清晰地描述方面词实体(译为aspecttarget或aspect entity)是什么、对应的意见表达是什么,ACSA联合检测所讨论的方面词实体所属类别及其对应的情感极性,ATSC包含Aspect Term Extraction(ATE,方面词提取或方面词识别)和Aspect Sentiment Classification(ASC,方面词情感分类)两种子任务,提取文本中的情感信息对(方面词实体,情感极性)。在后续的描述中,将“方面词实体”简化称为“方面词”。
针对情感分析的现有技术中,使用k-means(k-means clustering algorithm,k均值聚类算法)和朴素贝叶斯算法根据前期收集的数据得到每条评论的情感类别概率,达到情感分析的目的时,存在如下问题:基于机器学习的技术需要大量的特征提取工作,而特征工程往往会消耗大量的人力,对后续模型的训练效果影响极大,且机器学习算法速度较慢,若有大量数据进行训练,时间成本增加,加大了对情感分析任务的难度;基于先验知识的方法中,通过增加预设的情感词典,增加知识增强表示向量,与语义特征相结合,获得语句的情感分析结果的方案,存在如下问题:基于知识增强的方法需要提前针对某领域的数据集进行一定的搜集、扩充,增强后的先验知识表示会主观性地对该数据进行一个提前判断,并不有利于情感极性的判断;基于循环神经网络RNN的方法中,通过BERT+BiLSTM+Attention(注意力机制)模型进行粗粒度情感分析,得到全局特征,通过BERT+GRU(Gated RecurrentUnit,门控循环单元)+Attention进行粗粒度情感分析,得到局部特征,将优化后的全局特征和局部特征进行融合,得到最终的文本情感特征表示,最终得到整个句子的情感倾向,这一方案存在如下问题:基于循环神经网络RNN的方法由于复杂网络太多,而BERT已经学习得到了上下文长文本的关系,再次使用BiLSTM等RNN模型会增加时间成本,同时由于内部参数增多,而数据量不变,很可能会给模型带来过拟合的风险,降低准确率。
情感分析任务分为篇章级情感分析、句子级情感分析、方面级情感分析,方面级情感分析的目的是从非结构化评论中提取结构化意见(方面词和观点术语),并确定其情感极性(正面、负面或中性)。例如,在评论“Boot time is superfast, around anywhere from35 seconds to 1 minute.”中,客户意见可以概括为<Boottime ,fast> ,它的情绪极性为正面。方面词提取旨在从评论文本中找出意见目标,即“Boottime”,它描述了计算机“operating system”的属性,而“fast”是它的观点术语。
而上述现有技术的方案中大多基于情感分析这一单独任务,可真正的情感分析任务应该做到:找出语料中出现的方面词及其对应的情感极性。但现有技术中,复合任务往往会导致深度学习模型反向传播时出现陷入局部最优解的情况,且无法识别出复合任务中的各个单独任务的损失值对于模型整体训练的贡献度。
为了解决上述问题,本公开提供了一种文本情感识别模型的训练方法和装置,文本情感识别方法和装置,电子设备,及存储介质,能够在情感识别与分析中完成同时提取语料方面词及对应的情感极性复合任务的同时,通过获得的方面词语义特征向量对局部语义特征向量和全局语义特征向量进行特征融合,以实现语义增强;另外通过语义增强后的方面词全局语义特征向量完成方面词识别任务,能够显著提升方面词识别任务的鲁棒性;此外,通过将特征向量在预设维度上进行拼接的方式进行特征向量的特征融合,以实现对特征向量的语义增强,结合多头自注意力层可以实现对语义增强后的特征向量进行特征信息汇聚与压缩;此外,在对情感极性识别任务进行训练时,通过定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法对语义增强后的方面词局部语义特征向量进行处理,能够通过自适应文本语义阈值让每个句子都具有适合自己的语义阈值,使得对局部上下文进行语义聚焦时将学习的关注点聚焦在方面词附近;此外,在对文本情感识别模型进行训练的过程中,将方面词识别任务的第一损失和情感极性识别任务的第二损失进行动态加权计算整体损失,能够在每个批次的学习过程中平衡复合任务的损失权重,避免复合任务模型陷入局部最优解的情形。
下面,将参照图1至图7具体描述本公开示例性实施例的文本情感识别模型的训练方法和装置,文本情感识别方法和装置,电子设备,及存储介质。
图1示出本公开示例性实施例的文本情感识别模型的结构原理图。
参照图1,根据本公开示例性的实施例,文本情感识别模型可以包括文本嵌入网络101、特征融合层102、方面词识别网络103和情感极性识别网络104。文本嵌入网络101用于对输入的文本序列进行特征学习,特征融合层102用于对学习到的语义特征进行融合,以进行语义增强,方面词识别网络103用于根据语义增强后的文本数据进行方面词识别,情感极性识别网络104用于根据语义增强后的数据进行情感极性识别。具体的,例如,文本嵌入网络101可以通过BERT模型对输入的文本序列进行训练,以学习局部语义特征、全局语义特征及方面词语义特征,接着,可以通过特征融合层102对局部语义特征和方面词语义特征进行融合,以得到方面词局部语义特征,对全局语义特征和方面词语义特征进行融合,以得到方面词全局语义特征;在方面词识别网络103中,例如,可以对获得的方面词全局语义特征进行特征转化以调整维度,后运用条件随机场层(CRF模型)获得方面词的识别结果;在情感极性识别网络104中,例如,可以对获得的方面词局部语义特征通过自适应局部语义理解层获得适宜每个句子的语义范围,接着可以通过特征融合层102和情感预测层对自适应局部语义理解层处理后的特征和方面词全局语义特征进行进一步处理,以去除冗余的情感噪声并获得情感极性的识别结果;可以理解的是,针对每个批次(batch)的学习,可以通过方面词识别网络103和情感极性识别网络104中的损失函数计算文本情感识别模型的损失,并通过反向传播调整文本情感识别模型中的参数,以对文本情感识别模型进行训练,以在训练完成后将方面词识别序列和情感极性识别序列作为模型的输出。
在根据本公开示例性的实施例的文本情感模型中,能够在情感识别与分析中完成同时提取语料方面词及对应的情感极性复合任务的同时,通过对语义特征进行特征融合以实现语义增强的效果;另外通过语义增强后的方面词全局语义特征完成方面词识别任务,能够显著提升方面词识别任务的鲁棒性;通过获得适宜每个句子的语义范围,并通过进一步的特征融合层对情感极性进行识别,可以更准确地去除冗余的情感噪声并获得更精确的情感极性的识别结果。
图2示出本公开示例性实施例的文本情感识别模型的训练方法的流程图。
参照图2,在步骤S201,可以基于输入文本数据集构建局部语义输入序列和全局语义输入序列。
根据本公开示例性的实施例,用于模型训练的输入文本数据集可以是但不限于各种非结构化的评论形式的语料库;在文本嵌入的学习过程中,可以采用BERT模型作为语义学习的架构;对于语义特征的学习,可以将输入文本数据集中的句子/>按照如下形式构建局部语义输入序列:“[CLS]+句子+[SEP]+方面词+[SEP]”,以及按照如下形式构建全局语义输入序列:“[CLS]+句子+[SEP]”;在BERT模型输入中,“[CLS]”代表分类任务的特殊标识,标识句子的开头,“[SEP]”为句子的分隔符标识。
在步骤S202,可以将局部语义输入序列和全局语义输入序列分别输入到文本嵌入网络中的BERT模型中,获得局部语义特征向量和全局语义特征向量。
根据本公开示例性的实施例,具体的,可以设BERT模型中每个token的隐藏层维度为,每句话有/>个token(可以理解的是,“token”表示模型输入基本单元,比如在中文BERT模型中,token可以是一个字,也可以是一个单词、一个词组、一个标点符号、一个字符等,取决于文本处理的需求和方法。此处可以用token表示一个字),可以用表示使用学习全局语义BERT模型中的隐藏层参数,对于基于输入文本数据集/>构建的全局语义输入序列,输入到BERT模型中后,可以获得全局语义特征向量/>,每个句向量可以用/>表示,计算过程可以如下公式(1)所示:
(1)
对于局部语义特征的学习,可以以同样的方式将局部语义输入序列输入到另一个BERT模型中;具体的,可设定Local表示使用学习局部语义BERT模型中的隐藏层参数,将局部语义输入序列输入到BERT模型中可以得到局部语义特征向量/>,其中每个句向量可以用/>表示,计算过程可以如下公式(2)所示:
(2)
在步骤S203,可以基于输入文本数据集中的方面词数据集构建方面词语义序列。
根据本公开示例性的实施例,可以通过来学习方面词数据集/>中每个/>的语义表示,具体的,可以将来自输入文本数据集中的方面词数据集/>按照如下形式构建方面词语义序列:“[CLS]+方面词+[SEP]”。
在步骤S204,可以将方面词语义序列输入到文本嵌入网络中的BERT模型中,经过文本嵌入网络中的平均池化层获得方面词语义特征向量。
根据本公开示例性的实施例,可以用表示每个句子中方面词的token数量,用表示使用学习方面词语义BERT模型的隐藏层参数,将方面词语义序列输入到BERT模型(此时使用的BERT模型与学习全局语义时使用的相同)中可以获得序列/>,计算过程可以如下公式(3)所示:
(3)
接着,可以运用一个平均池化层来构建方面词的平均语义向量集合,也就是方面词语义特征向量/>,/>表示使用平均池化层的隐藏层参数,计算过程可以如下公式(4)所示:
(4)
可以理解的是,步骤S201~步骤S204用于执行文本嵌入,执行顺序并不限于上述顺序,其他能够实现类似功能的执行顺序也在本公开的保护范围之内。
在步骤S205,可以将局部语义特征向量和方面词语义特征向量输入到特征融合层中,获得方面词局部语义特征向量。
根据本公开示例性的实施例,特征融合层102对输入的特征向量进行处理的步骤可以包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层(可以简称为自注意力层)中,获得特征融合后的特征向量。
根据本公开示例性的实施例,具体的,在局部语义特征交互学习中,可以将局部语义特征向量和方面词语义特征向量/>输入到特征融合层102中,以在此处首先对局部语义特征向量/>和方面词语义特征向量/>进行每个第二维的拼接,得到特征向量/>,计算过程可以如下公式(5)所示:
(5)
之后可以通过线性层的参数,/>对信息进行压缩融合,计算过程可以如下公式(6)所示:
(6)
接着可以通过多头自注意力层(multi-head self-attention)来汇聚信息压缩增强后的/>,以得到具有方面词的语义增强效果的方面词局部语义特征向量/>,计算过程可以如下公式(7)所示。
(7)
可以理解的是,“进行每个第二维的拼接”表示将每个方面词与其对应句子的每个单词进行向量拼接,也就是在局部语义特征向量的第二维进行拼接,具体的:当局部语义特征向量/>的维度为[a,b,c],方面词语义特征向量/>的维度为[a,e]时,进行每个第二维的拼接得到的特征向量/>的维度为[a,b,c+e]。
在步骤S206,将全局语义特征向量和方面词语义特征向量输入到特征融合层中,获得方面词全局语义特征向量。
根据本公开示例性的实施例,具体的,在全局语义特征交互学习中,可以将全局语义特征向量和方面词语义特征向量/>输入到特征融合层102中,以在此处首先对全局语义特征向量/>和方面词语义特征向量/>进行每个第二维的拼接,得到特征向量/>,计算过程可以如下公式(8)所示:/>
(8)
之后可以通过线性层的参数,/>对信息进行压缩融合,计算过程可以如下公式(9)所示:
(9)
接着可以通过多头自注意力层来汇聚信息压缩增强后的/>,以得到具有方面词的语义增强效果的方面词全局语义特征向量/>,,计算过程可以如下公式(10)所示:
(10)
可以理解的是,步骤S205~步骤S206用于执行特征融合,以实现 语义增强,执行顺序并不限于上述顺序,其他能够实现类似功能的执行顺序也在本公开的保护范围之内。
在步骤S207中,可以将方面词全局语义特征向量输入到方面词识别网络中,获得方面词识别序列。
根据本公开示例性的实施例,可以设置标签集合,/>表示方面词的初始token,/>表示内部和尾部方面词的token,O标签表示句中除了方面词以外的其他token,0标签表示句子的填充部分。可以将方面词全局语义特征向量/>使用文本情感识别模型中对应的参数组进行特征转化,也就是使用线性参数/>,/>进行特征转化,获得特征转化向量/>,计算过程可以如下公式(11)所示:
(11)
使得特征转化向量的维度数与预设标签集合中的标签数相同,此时特征转化向量/>的维度数与预设标签集合中的标签数都为6;接着将特征转化向量/>输入到条件随机场层(conditional random field algorithm,CRF)中,获得方面词识别序列。
可以理解的是,条件随机场层包括如下的主要算法步骤:
给定一句子序列,若预测标签序列为,在经过CRF层时可以得到预测序列的各个标签的分数,计算过程可以如下公式(12)所示:/>
(12)
其中表示第/>个token标记为/>的概率分数,/>表示标签/>转移到/>的概率分数,再对序列进行归一化处理后,得到预测序列,计算过程可以如下公式(13)所示:
(13)
其中表示真实的标签值,/>表示所有可能出现的标签集合;最终可以使用维特比算法的动态规划算法来求解概率分数的最优方面词识别序列/>,计算过程可以如下公式(14)所示:
(14)
在步骤S208中,可以将方面词局部语义特征向量和方面词全局语义特征向量输入到情感极性识别网络中,获得情感极性识别序列。
根据本公开示例性的实施例,情感极性识别网络104可以包括自适应局部语义理解层,特征融合层102以及情感预测层;其中,自适应性局部语义理解指的是能够根据不同长度的文本适应性地聚焦于理解局部情感语义的机制;自适应局部语义理解层可以基于定义的自适应文本语义阈值结合上下文动态掩码算法(context dynamic mask,CDM)和上下文动态加权算法(context dynamic weighting,CDW)获得,将方面词局部语义特征向量输入到自适应局部语义理解层中,可以获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵/>,具体的:
可以用语义相对距离(Semantic-relative Distance,SRD)对局部上下文进行语义聚焦,的计算公式可以如公式(15)所示:
(15)
其中,表示句子中第/>个token的SRD值,/>表示token在句中位置的索引,表示方面词中心位置索引,/>表示方面词的长度。
为了将学习的关注点聚焦于句子中的方面词附近,去除冗余噪声情感数据,可以通过自适应文本语义阈值来确定模型的聚焦范围,使得每个句子具有合适自己的语义阈值。根据本公开示例性的实施例,上述自适应文本语义阈值可以基于但不限于通过以下公式(16)进行定义:(16)
可以指句子中方面词的单词个数,/>可以指句子中的单词个数,/>可以指方面词的中心词在句子中的索引位置。
使用自适应文本语义阈值结合上下文动态掩码算法(context dynamicmask,CDM)和上下文动态加权算法(context dynamic weighting,CDW)后可以获得动态的语义范围计算公式:自适应上下文动态掩码算法(Adaptive context dynamic mask,ACDM)和自适应上下文动态加权算法(Adaptive context dynamic weighted,ACDW):
ACDM设置初始值为0的矩阵表示一个句子的掩码,其中每个/>都需要通过式子中的O和/>分别表示全为0和全为1的向量来计算,/>表示逐一数乘,得到自适应上下文动态掩码矩阵/>,计算过程可以如公式(17)~(19)所示:
(17)
(18)
(19)
ACDW采取了按照SRD的权重逐级递减的方案,设置向量矩阵,其中每个/>都需要通过式子来计算,/>表示逐一数乘,得到自适应上下文动态加权矩阵/>,计算过程可以如公式(20)~(22)所示:
(20)
(21)
(22)
获得的ACDM对具有较长阈值范围的数据能更好地降低噪声语义带来的干扰;ACDW对具有较短阈值范围的数据能兼顾排除冗余语义及保证主体语义的完整。
根据本公开示例性的实施例,为了丰富模型所需的语义特征信息,可以将方面词全局语义特征向量与自适应上下文动态掩码矩阵/>和自适应上下文动态加权矩阵/>输入到特征融合层102中,以实现自适应性全局-局部-方面词注意力机制,具体的,可以首先通过拼接获得特征向量/>,计算过程可以如公式(23)所示:
(23)
接着可以使用隐藏层参数和/>得到特征向量/>,计算过程可以如公式(24)所示:
(24)
最后可以使用多头自注意力层MHSA进行整体语义的汇聚,获得特征融合向量,计算过程可以如公式(25)所示:
(25)
根据本公开示例性的实施例,可以将特征融合向量输入到情感预测层中,具体的,情感预测层可以包括平均池化层,线性变换层和激活层,特征融合向量通过平均池化层求出/>个平均向量,计算过程可以如公式(26)所示:
(26)
然后可以在线性变换后使用函数进行激活,计算过程可以如公式(27)~(28)所示:
(27)
(28)
其中,为池化层得到的向量,/>,/>为隐藏层的参数,/>为线性层得到的向量,/>为情感极性的类别数量,/>是一组包含所有情感极性信息的向量,表示在给定情感表示/>的情况下得到情感极性的预测概率,进而就可以根据情感极性的预测概率获得情感极性的识别序列,例如,将对每个句子的预测概率最高的情感极性类别作为句子对应的最终情感极性,以得到包含每个句子的情感极性的识别序列。
可以理解的是,步骤S207~步骤S208用于分别执行方面词识别及情感极性识别,执行顺序并不限于上述顺序,其他能够实现类似功能的执行顺序也在本公开的保护范围之内。
在步骤209中,可以基于获得的方面词识别序列和情感极性识别序列,以及方面词识别序列和情感极性识别序列分别对应的真实值计算损失。
根据本公开示例性的实施例,可以基于获得的方面词识别序列以及对应的真实值计算第一损失;可以基于获得的情感极性识别序列以及对应的真实值计算第二损失;可以对第一损失和第二损失进行动态加权处理,得到文本情感识别模型的损失。
根据本公开示例性的实施例,对于文本情感识别模型中的方面词识别任务的训练过程可以用条件随机场层(CRF模型)的损失公式计算第一损失,例如,但不限于,通过下面的公式(29)来计算第一损失:
(29)
其中,表示句子序列,例如,/>,/>表示对应的预测标签序列,例如/>,/>表示得到预测序列的各个标签的分数,/>表示真实的标签值,/>表示所有可能出现的标签集合。
根据本公开示例性的实施例,对于文本情感识别模型中的文本情感识别任务的训练过程可以采用交叉熵损失函数来计算第二损失,例如,但不限于,通过下面的公式(30)来计算第二损失:
(30)
其中,是预测值,/>是真实值,/>表示情感极性的种类数量,/>是/>正则化的一个超参数,/>表示情感极性分类任务用到的所有参数。
根据本公开示例性的实施例,为了在训练过程中平衡两个任务各自损失值的贡献度,文本情感识别模型的损失可以但不限于基于下面的动态加权平均策略公式计算得到,例如,但不限于,通过下面的公式(31)来计算文本情感识别模型的损失:
(31)
其中,指第一损失,/>指第二损失,/>指在文本情感识别模型的训练过程中进行学习的参数;对于每个批次(batch)的学习,可以通过一个可随着梯度变换不断学习的参数/>进行动态加权平均,以实现动态地计算两个任务的损失值的平均值;在本公开一个示例性的实施例中,/>需在每个批次的学习中通过函数保证它映射到0-1范围内。
在步骤S210中,可以基于计算的损失调整文本情感识别模型中的参数,对文本情感识别模型进行训练。
根据本公开示例性的实施例,可以基于计算的损失通过反向传播调整文本情感识别模型中的参数,以实现对文本情感识别模型的训练。
根据本公开示例性的实施例,还可提供一种文本情感识别方法,上述文本情感识别方法基于上述任意一种文本情感识别模型的训练方法训练得到的文本情感识别模型执行。
图3示出本公开示例性实施例的文本情感识别方法的流程图。
参照图3,在步骤S301,可以基于待识别文本数据集构建第一输入序列和第二输入序列。
根据本公开示例性的实施例,可以结合参照图4对上述文本情感识别方法进行描述,图4示出本公开示例性实施例的文本情感识别模型的具体结构示意图,可以理解的是,图4仅是上述文本情感识别模型的一种示例性结构,上述文本情感识别模型的具体结构并不限于图4所示。参照图4,上述文本情感识别模型的输入可以为基于待识别文本分别构建的文本序列,以及来自待识别文本的方面词构成的序列;在文本嵌入部分,可以进行语义特征的学习,LocalBERT可以表示对对应的文本序列通过BERT模型进行局部语义特征的学习,GlobalBERT可以表示对对应的文本序列通过BERT模型进行全局语义特征的学习,AspectBERT可以表示对方面词序列通过BERT模型进行全局语义特征的学习,以获得方面词嵌入的结果,与方面词嵌入相连接的池化层可以用于构建方面词的平均语义;在特征融合部分,可以将全局语义特征和局部语义特征分别与语义平均后的方面词语义进行特征融合,也就是图示4中的“全局-方面词语义融合”以及“局部-方面词语义融合”;在方面词识别部分,可以包括自注意力层、转换层(特征转换)以及CRF模型,以对全局-方面词语义融合后的特征进行处理以获得方面词识别的结果;在情感极性的识别部分,可以包括自适应局部语义理解(主要为ACDM和ACDW算法)层、特征融合层、自注意力层以及池化层,以通过自适应局部语义理解层对局部-方面词语义融合后的特征进行处理,并将处理后的特征与来自方面词识别部分自注意力层的特征进行融合,最后将融合后的特征通过情感极性识别部分的自注意力层和池化层获得情感极性的识别结果。
根据本公开示例性的实施例,返回参照图3,可进行文本情感识别的待识别文本数据集可以是但不限于各种非结构化的评论形式的语句数据集;在文本嵌入的过程中,可以采用BERT模型;为获取局部语义特征,可以将待识别文本数据集中的句子按照如下形式构建第一输入序列:“[CLS]+句子+[SEP]+方面词+[SEP]”,为获取全局语义特征,可以按照如下形式构建第二输入序列:“[CLS]+句子+[SEP]”。
步骤S302,可以将第一输入序列和第二输入序列分别输入到文本嵌入网络中的BERT模型中,获得第一特征向量和第二特征向量。
步骤S303,基于待识别文本数据集中的方面词数据集构建第三输入序列。
根据本公开示例性的实施例,为了获取方面词数据集中每个方面词的全局语义表示,可以按照如下形式构建方面词语义序列:“[CLS]+方面词+[SEP]”。
步骤S304,可以将第三输入序列输入到文本嵌入网络中的BERT模型中,经过平均池化层获得第三特征向量。
可以理解的是,步骤S301~步骤S304用于执行文本嵌入,执行顺序并不限于上述顺序,其他能够实现类似功能的执行顺序也在本公开的保护范围之内,且步骤S301~步骤S304与步骤S201~步骤S204中各示例性实施例对应且大致相同,在此不重复描述。
步骤S305,将第一特征向量和第三特征向量输入到特征融合层中,获得第一特征融合向量。
根据本公开示例性的实施例,特征融合层102对输入的特征向量进行处理的步骤可以包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
根据本公开示例性的实施例,在局部语义特征的交互中,可以将代表局部语义特征的第一特征向量和代表方面词语义特征的第三特征向量输入到特征融合层102中,以在此处首先对局部语义特征和方面词语义特征进行每个第二维的拼接,再将拼接后的向量经过对应的线性层参数对信息进行压缩融合,最后通过多头自注意力层获得具有方面词的语义增强效果的方面词-局部语义特征,也就是第一特征融合向量。
步骤S306,将第二特征向量和第三特征向量输入到特征融合层中,获得第二特征融合向量。
根据本公开示例性的实施例,在全局语义特征的交互中,可以将代表全局语义特征的第二特征向量和代表方面词语义特征的第三特征向量输入到特征融合层102中,以在此处首先对全局语义特征和方面词语义特征进行每个第二维的拼接,再将拼接后的向量经过对应的线性层参数对信息进行压缩融合,最后通过多头自注意力层获得具有方面词的语义增强效果的方面词-全局语义特征,也就是第二特征融合向量。
可以理解的是,步骤S305~步骤S306用于执行特征融合,以实现语义增强,执行顺序并不限于上述顺序,其他能够实现类似功能的执行顺序也在本公开的保护范围之内,且步骤S305~步骤S306与步骤S205~步骤S206中各示例性实施例对应且大致相同,在此不重复描述。
根据本公开示例性的实施例,上述文本情感识别方法还可以包括以下步骤:可以将第二特征融合向量使用文本情感识别模型中对应的参数组进行特征转化,获得第一特征转化向量,其中,第一特征转化向量的维度数与第一预设标签集合中的标签数相同;可以将第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。可以理解的是,本示例性的实施例与步骤S207对应且执行细节大致相同,在此不重复描述。
步骤S307,可以将第一特征融合向量和第二特征融合向量输入到情感极性识别网络中,获得情感极性第一识别序列。
根据本公开示例性的实施例,可以将第一特征融合向量输入到自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;可以将第二特征融合向量与第一掩码矩阵和第一加权矩阵输入到特征融合层102中,获得第三特征融合向量;将第三特征融合向量输入到情感预测层中,获得情感极性第一识别序列。
根据本公开示例性的实施例,自适应文本语义阈值基于以下公式(32)进行定义:(32)
其中,指句子中方面词的单词个数,/>指句子中的单词个数,/>指方面词的中心词在句子中的索引位置。
可以理解的是,步骤S307与步骤S208中各示例性实施例对应且执行细节大致相同,在此不重复描述。
图5示出本公开示例性实施例的文本情感识别模型的训练装置的示意图。
文本情感识别模型可以包括文本嵌入网络101、特征融合层102、方面词识别网络103和情感极性识别网络104,参照图5,文本情感识别模型的训练装置可以包括:文本嵌入单元501,特征融合单元502,方面词识别单元503,情感极性识别单元504以及参数调整单元505。
文本嵌入单元501可以基于输入文本数据集构建局部语义输入序列和全局语义输入序列;将局部语义输入序列和全局语义输入序列分别输入到文本嵌入网络101中的BERT模型中,获得局部语义特征向量和全局语义特征向量;基于输入文本数据集中的方面词数据集构建方面词语义序列;将方面词语义序列输入到文本嵌入网络101中的BERT模型中,经过文本嵌入网络101中的平均池化层获得方面词语义特征向量。
特征融合单元502可以将局部语义特征向量和方面词语义特征向量输入到特征融合层102中,获得方面词局部语义特征向量;将全局语义特征向量和方面词语义特征向量输入到特征融合层102中,获得方面词全局语义特征向量。
根据本公开示例性的实施例,特征融合单元502中特征融合层102对输入的特征向量进行处理的步骤可以包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
方面词识别单元503可以将方面词全局语义特征向量输入到方面词识别网络103中,获得方面词识别序列。
根据本公开示例性的实施例,方面词识别单元503可以将方面词全局语义特征向量使用文本情感识别模型中对应的参数组进行特征转化,获得特征转化向量,其中,特征转化向量的维度数与预设标签集合中的标签数相同;接着可以将特征转化向量输入到条件随机场层中,获得方面词识别序列。
情感极性识别单元504可以将方面词局部语义特征向量和方面词全局语义特征向量输入到情感极性识别网络104中,获得情感极性识别序列。
根据本公开示例性的实施例,情感极性识别单元504可以将方面词局部语义特征向量输入到自适应局部语义理解层中,获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵;接着可以将方面词全局语义特征向量与自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵输入到特征融合层102中,获得特征融合向量;并且可以将特征融合向量输入到情感预测层中,获得情感极性识别序列;其中,情感极性识别单元504可以包括自适应局部语义理解层、特征融合层102以及情感预测层;自适应局部语义理解层可以基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;情感预测层可以包括平均池化层,线性变换层和激活层。
根据本公开示例性的实施例,情感极性识别单元504中的自适应文本语义阈值可以基于以下公式(33)进行定义:
(33)
其中,可以指句子中方面词的单词个数,/>可以指句子中的单词个数,/>可以指方面词的中心词在句子中的索引位置。
参数调整单元505可以基于获得的方面词识别序列和情感极性识别序列,以及方面词识别序列和情感极性识别序列分别对应的真实值计算损失;并可以基于计算的损失调整文本情感识别模型中的参数,对文本情感识别模型进行训练。
根据本公开示例性的实施例,参数调整单元505可以基于获得的方面词识别序列以及对应的真实值计算第一损失;可以基于获得的情感极性识别序列以及对应的真实值计算第二损失;可以对第一损失和第二损失进行动态加权处理,得到文本情感识别模型的损失。
根据本公开示例性的实施例,参数调整单元505中文本情感识别模型的损失可以基于下面的公式(34)计算得到:
(34)
其中,可以指第一损失,/>可以指第二损失,/>可以指在文本情感识别模型的训练过程中进行学习的参数。
可以理解的是,本公开文本情感识别模型的训练装置中各单元的执行功能与步骤S201~步骤S210以及其中的各示例性实施例对应且大致相同,在此不重复描述。
图6示出本公开示例性实施例的文本情感识别装置的示意图。
上述文本情感识别装置基于上述任意一种训练方法训练得到的文本情感识别模型执行,参照图6,识别装置可以包括:文本嵌入单元601,特征融合单元602以及情感极性识别单元603。
文本嵌入单元601可以基于待识别文本数据集构建第一输入序列和第二输入序列;可以将第一输入序列和第二输入序列分别输入到文本嵌入网络101中的BERT模型中,获得第一特征向量和第二特征向量;可以基于待识别文本数据集中的方面词数据集构建第三输入序列;可以将第三输入序列输入到文本嵌入网络101中的BERT模型中,经过平均池化层获得第三特征向量。
特征融合单元602可以将第一特征向量和第三特征向量输入到特征融合层102中,获得第一特征融合向量;可以将第二特征向量和第三特征向量输入到特征融合层102中,获得第二特征融合向量。
根据本公开示例性的实施例,特征融合单元602中特征融合层102对输入的特征向量进行处理的步骤可以包括:将输入的至少两个特征向量在预设维度上进行拼接;将拼接得到的特征向量使用文本情感识别模型中对应的参数组进行处理;将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
根据本公开示例性的实施例,上述文本情感识别装置还可以包括:方面词识别单元604,可以将第二特征融合向量使用文本情感识别模型中对应的参数组进行特征转化,获得第一特征转化向量,其中,第一特征转化向量的维度数与第一预设标签集合中的标签数相同;可以将第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。
情感极性识别单元603可以将第一特征融合向量和第二特征融合向量输入到情感极性识别网络104中,获得情感极性第一识别序列。
根据本公开示例性的实施例,情感极性识别单元603可以将第一特征融合向量输入到自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;可以将第二特征融合向量与第一掩码矩阵和第一加权矩阵输入到特征融合层102中,获得第三特征融合向量;可以将第三特征融合向量输入到情感预测层中,获得情感极性第一识别序列。
根据本公开示例性的实施例,情感极性识别单元603中的自适应文本语义阈值可以基于以下公式(35)进行定义:
(35)
其中,可以指句子中方面词的单词个数,/>可以指句子中的单词个数,/>可以指方面词的中心词在句子中的索引位置。
可以理解的是,本公开文本情感识别装置中各单元的执行功能与步骤S301~步骤S307以及其中的各示例性实施例对应且大致相同,在此不重复描述。
图7示出本公开示例性实施例的电子设备框图。
参照图7,电子设备700包括至少一个处理器701和至少一个存储器702,上述至少一个存储器702中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器701执行时,执行根据本公开示例性实施例的文本情感识别模型的训练方法或文本情感识别方法。
作为示例,电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备700并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备700中,处理器701可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器701可运行存储在存储器702中的指令或代码,其中,存储器702还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
处理器701可与存储器702集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器702可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。处理器701和存储器702可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器701能够读取存储在存储器中的文件。
此外,电子设备700还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的文本情感识别模型的训练方法或文本情感识别方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。
根据本公开的文本情感识别模型的训练方法和训练装置以及文本情感识别方法和语音增强装置,能够在情感识别与分析中完成同时提取语料方面词及对应的情感极性复合任务的同时,通过获得的方面词语义特征向量对局部语义特征向量和全局语义特征向量进行特征融合,以实现语义增强;另外通过语义增强后的方面词全局语义特征向量完成方面词识别任务,能够显著提升方面词识别任务的鲁棒性。
此外,通过将特征向量在预设维度上进行拼接的方式进行特征向量的特征融合,以实现对特征向量的语义增强,结合多头自注意力层可以实现对语义增强后的特征向量进行特征信息汇聚与压缩。
此外,在对情感极性识别任务进行训练时,通过定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法对语义增强后的方面词局部语义特征向量进行处理,能够通过自适应文本语义阈值让每个句子都具有适合自己的语义阈值,使得对局部上下文进行语义聚焦时将学习的关注点聚焦在方面词附近。
此外,在对文本情感识别模型进行训练的过程中,将方面词识别任务的第一损失和情感极性识别任务的第二损失进行动态加权计算整体损失,能够在每个批次的学习过程中平衡复合任务的损失权重,避免复合任务模型陷入局部最优解的情形。
根据本公开示例性的实施例可以看出,本公开将方面级情感分析任务中的单独任务进行同步训练、联合研究,针对ATSC这一复合任务,设计了高效、高性能的模型,除去了前期复杂的数据特征工程操作,也舍去了使模型复杂度提升的RNN循环神经网络,避免了先验知识对数据的主观性增强,优化了复合任务的联合训练过程,实现了ATE任务(对应于本公开的方面词识别任务)和ASC任务(对应于本公开的情感极性识别任务)性能的同步稳定提升。具体的,本公开扩充了语料库中的单一情感句子,使得语料全部包含多重情感语义,以实现对文本的情感语义增强;并且,在复合情感分析任务的训练中,可以实现对提取方面词(方面词识别)及其对应的情感极性识别(分类)的同时训练,使得训练高效、稳定,同步提升该复合任务中的单独任务性能。针对ATE任务,本公开将方面词语义增强与Attention层(多头自注意力层)和CRF结合,增加了该实体识别任务鲁棒性。针对ASC任务,设计了动态的语义范围计算公式,并设计了自适应性全局-局部-方面词注意力机制,针对不同句子长度能做出自适应性的注意力范围调整。针对联合训练模式,设计了独特的动态加权平均策略,使得在模型训练的过程中,能够调整两任务对训练的损失值权重。
相比于基于机器学习的方法,无需前期工作所需要的大量人工特征工程,避免特征工程的质量对后续算法的性能与效率的影响,在同样的特征工程可能根据机器学习算法呈现出不同的效果,且机器学习难以通过后期的工作提升准确率,上限较低的情况下,本公开的文本情感识别模型的训练过程省略了人工的特征工程,加快了进度,且对于相同量级的数据下,本公开的文本情感识别模型由于属于深度学习模型,处理效率会高于基于机器学习的方法。
相比于基于先验知识的方法,虽然基于先验知识的方法抛去了特征工程,但前期同样需要大量的先验知识准备工作,且先验知识的增加,会对原始数据带来主观性特征,因而大大降低模型训练时的泛化能力。而本公开的文本情感识别模型只针对现有的数据做方面词语义特征增强的步骤,加上CRF层能够对实体序列进行规范,能够出色的完成ATE任务。
相比于基于循环神经网络RNN的方法,基于循环神经网络RNN的方法训练速度慢,且对于长序列文本的信息融合效果不如BERT模型。本公开的文本情感识别模型抛去循环神经网络RNN,提升模型的整体效率同时也保证性能的提升。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (26)
1.一种文本情感识别模型的训练方法,其特征在于,所述文本情感识别模型包括文本嵌入网络、特征融合层、方面词识别网络和情感极性识别网络,所述训练方法包括:
基于输入文本数据集构建局部语义输入序列和全局语义输入序列;
将所述局部语义输入序列和所述全局语义输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得局部语义特征向量和全局语义特征向量;
基于所述输入文本数据集中的方面词数据集构建方面词语义序列;
将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过所述文本嵌入网络中的平均池化层获得方面词语义特征向量;
将所述局部语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词局部语义特征向量;
将所述全局语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词全局语义特征向量;
将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列;
将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列;
基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失;
基于计算的损失调整所述文本情感识别模型中的参数,对所述文本情感识别模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述特征融合层对输入的特征向量进行处理的步骤包括:
将输入的至少两个特征向量在预设维度上进行拼接;
将拼接得到的特征向量使用所述文本情感识别模型中对应的线性参数组进行压缩融合处理;
将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
3.如权利要求1所述的训练方法,其特征在于,所述将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列,包括:
将所述方面词全局语义特征向量使用所述文本情感识别模型中对应的线性参数组进行特征转化,获得特征转化向量,其中,所述特征转化向量的维度数与预设标签集合中的标签数相同;
将所述特征转化向量输入到条件随机场层中,获得所述方面词识别序列。
4.如权利要求1所述的训练方法,其特征在于,所述将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列,包括:
所述情感极性识别网络包括自适应局部语义理解层,所述特征融合层以及情感预测层;其中,所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;
将所述方面词局部语义特征向量输入到所述自适应局部语义理解层中,获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵;
将所述方面词全局语义特征向量与所述自适应上下文动态掩码矩阵和所述自适应上下文动态加权矩阵输入到所述特征融合层中,获得特征融合向量;
将所述特征融合向量输入到所述情感预测层中,获得所述情感极性识别序列;其中,所述情感预测层包括平均池化层,线性变换层和激活层。
5.如权利要求4所述的训练方法,其特征在于,所述自适应文本语义阈值基于以下公式进行定义:
其中,所述指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
6.如权利要求1所述的训练方法,其特征在于,所述基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失,包括:
基于获得的所述方面词识别序列以及对应的真实值计算第一损失;
基于获得的所述情感极性识别序列以及对应的真实值计算第二损失;
对第一损失和第二损失进行动态加权处理,得到所述文本情感识别模型的损失。
7.如权利要求6所述的训练方法,其特征在于,所述文本情感识别模型的损失基于下面的公式计算得到:
其中,所述指所述第一损失,所述/>指所述第二损失,所述指在所述文本情感识别模型的训练过程中进行学习的参数。
8.一种文本情感识别方法,其特征在于,所述识别方法基于如权利要求1-6中任意一项的训练方法训练得到的文本情感识别模型执行,所述识别方法包括:
基于待识别文本数据集构建局部语义序列和全局语义序列;
将所述局部语义序列和所述全局语义序列分别输入到所述文本嵌入网络中的BERT模型中,获得第一特征向量和第二特征向量;
基于所述待识别文本数据集中的方面词数据集构建方面词语义序列;
将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过平均池化层获得第三特征向量;
将所述第一特征向量和所述第三特征向量输入到特征融合层中,获得第一特征融合向量;
将所述第二特征向量和所述第三特征向量输入到所述特征融合层中,获得第二特征融合向量;
将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列。
9.如权利要求8所述的识别方法,其特征在于,所述特征融合层对输入的特征向量进行处理的步骤包括:
将输入的至少两个特征向量在预设维度上进行拼接;
将拼接得到的特征向量使用所述文本情感识别模型中对应的线性参数组进行压缩融合处理;
将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
10.如权利要求8所述的识别方法,其特征在于,所述识别方法还包括:
将所述第二特征融合向量使用所述文本情感识别模型中对应的线性参数组进行特征转化,获得第一特征转化向量,其中,所述第一特征转化向量的维度数与第一预设标签集合中的标签数相同;
将所述第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。
11.如权利要求8所述的识别方法,其特征在于,所述将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列,包括:
所述情感极性识别网络包括自适应局部语义理解层,所述特征融合层以及情感预测层;其中,所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;
将所述第一特征融合向量输入到所述自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;
将所述第二特征融合向量与所述第一掩码矩阵和所述第一加权矩阵输入到所述特征融合层中,获得第三特征融合向量;
将所述第三特征融合向量输入到所述情感预测层中,获得所述情感极性第一识别序列。
12.如权利要求11所述的识别方法,其特征在于,所述自适应文本语义阈值基于以下公式进行定义:
其中,所述指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
13.一种文本情感识别模型的训练装置,其特征在于,所述文本情感识别模型包括文本嵌入网络、特征融合层、方面词识别网络和情感极性识别网络,所述训练装置包括:
文本嵌入单元,被配置为:基于输入文本数据集构建局部语义输入序列和全局语义输入序列;将所述局部语义输入序列和所述全局语义输入序列分别输入到所述文本嵌入网络中的BERT模型中,获得局部语义特征向量和全局语义特征向量;基于所述输入文本数据集中的方面词数据集构建方面词语义序列;将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过所述文本嵌入网络中的平均池化层获得方面词语义特征向量;
特征融合单元,被配置为:将所述局部语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词局部语义特征向量;将所述全局语义特征向量和所述方面词语义特征向量输入到所述特征融合层中,获得方面词全局语义特征向量;
方面词识别单元,被配置为:将所述方面词全局语义特征向量输入到所述方面词识别网络中,获得方面词识别序列;
情感极性识别单元,被配置为:将所述方面词局部语义特征向量和所述方面词全局语义特征向量输入到所述情感极性识别网络中,获得情感极性识别序列;
参数调整单元,被配置为:基于获得的所述方面词识别序列和所述情感极性识别序列,以及所述方面词识别序列和所述情感极性识别序列分别对应的真实值计算损失;基于计算的损失调整所述文本情感识别模型中的参数,对所述文本情感识别模型进行训练。
14.如权利要求13所述的训练装置,其特征在于,特征融合单元中所述特征融合层对输入的特征向量进行处理的步骤被配置为:
将输入的至少两个特征向量在预设维度上进行拼接;
将拼接得到的特征向量使用所述文本情感识别模型中对应的线性参数组进行压缩融合处理;
将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
15.如权利要求13所述的训练装置,其特征在于,方面词识别单元被配置为:
将所述方面词全局语义特征向量使用所述文本情感识别模型中对应的线性参数组进行特征转化,获得特征转化向量,其中,所述特征转化向量的维度数与预设标签集合中的标签数相同;
将所述特征转化向量输入到条件随机场层中,获得所述方面词识别序列。
16.如权利要求13所述的训练装置,其特征在于,情感极性识别单元被配置为:
将所述方面词局部语义特征向量输入到自适应局部语义理解层中,获得自适应上下文动态掩码矩阵和自适应上下文动态加权矩阵;
将所述方面词全局语义特征向量与所述自适应上下文动态掩码矩阵和所述自适应上下文动态加权矩阵输入到所述特征融合层中,获得特征融合向量;
将所述特征融合向量输入到情感预测层中,获得所述情感极性识别序列;
其中,所述情感极性识别单元包括自适应局部语义理解层、所述特征融合层以及情感预测层;所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;所述情感预测层包括平均池化层,线性变换层和激活层。
17.如权利要求16所述的训练装置,其特征在于,所述自适应文本语义阈值基于以下公式进行定义:
其中,所述指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
18.如权利要求13所述的训练装置,其特征在于,参数调整单元被配置为:
基于获得的所述方面词识别序列以及对应的真实值计算第一损失;
基于获得的所述情感极性识别序列以及对应的真实值计算第二损失;
对第一损失和第二损失进行动态加权处理,得到所述文本情感识别模型的损失。
19.如权利要求18所述的训练装置,其特征在于,参数调整单元中所述文本情感识别模型的损失基于下面的公式计算得到:
其中,所述指所述第一损失,所述/>指所述第二损失,所述指在所述文本情感识别模型的训练过程中进行学习的参数。
20.一种文本情感识别装置,其特征在于,所述识别装置基于如权利要求1-6中任意一项所述的训练方法训练得到的文本情感识别模型执行,所述识别装置包括:
文本嵌入单元,被配置为:基于待识别文本数据集构建局部语义序列和全局语义序列;将所述局部语义序列和所述全局语义序列分别输入到所述文本嵌入网络中的BERT模型中,获得第一特征向量和第二特征向量;基于所述待识别文本数据集中的方面词数据集构建方面词语义序列;将所述方面词语义序列输入到所述文本嵌入网络中的BERT模型中,经过平均池化层获得第三特征向量;
特征融合单元,被配置为:将所述第一特征向量和所述第三特征向量输入到特征融合层中,获得第一特征融合向量;将所述第二特征向量和所述第三特征向量输入到所述特征融合层中,获得第二特征融合向量;
情感极性识别单元,被配置为:将所述第一特征融合向量和所述第二特征融合向量输入到所述情感极性识别网络中,获得情感极性第一识别序列。
21.如权利要求20所述的识别装置,其特征在于,特征融合单元中所述特征融合层对输入的特征向量进行处理的步骤被配置为:
将输入的至少两个特征向量在预设维度上进行拼接;
将拼接得到的特征向量使用所述文本情感识别模型中对应的线性参数组进行压缩融合处理;
将处理后的特征向量输入到多头自注意力层中,获得特征融合后的特征向量。
22.如权利要求20所述的识别装置,其特征在于,所述识别装置还包括:
方面词识别单元,被配置为:将所述第二特征融合向量使用所述文本情感识别模型中对应的线性参数组进行特征转化,获得第一特征转化向量,其中,所述第一特征转化向量的维度数与第一预设标签集合中的标签数相同;将所述第一特征转化向量输入到条件随机场层中,获得方面词第一识别序列。
23.如权利要求20所述的识别装置,其特征在于,情感极性识别单元被配置为:
所述情感极性识别网络包括自适应局部语义理解层,所述特征融合层以及情感预测层;其中,所述自适应局部语义理解层基于定义的自适应文本语义阈值结合上下文动态掩码算法和上下文动态加权算法获得;将所述第一特征融合向量输入到所述自适应局部语义理解层中,获得第一掩码矩阵和第一加权矩阵;
将所述第二特征融合向量与所述第一掩码矩阵和所述第一加权矩阵输入到所述特征融合层中,获得第三特征融合向量;
将所述第三特征融合向量输入到所述情感预测层中,获得所述情感极性第一识别序列。
24.如权利要求23所述的识别装置,其特征在于,所述自适应文本语义阈值基于以下公式进行定义:
其中,所述指句子中方面词的单词个数,所述/>指句子中的单词个数,所述/>指方面词的中心词在句子中的索引位置。
25.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的文本情感识别模型的训练方法或如权利要求8到12中的任一权利要求所述的文本情感识别方法。
26.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的文本情感识别模型的训练方法或如权利要求8到12中的任一权利要求所述的文本情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845160.5A CN116561592B (zh) | 2023-07-11 | 2023-07-11 | 文本情感识别模型的训练方法和文本情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845160.5A CN116561592B (zh) | 2023-07-11 | 2023-07-11 | 文本情感识别模型的训练方法和文本情感识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561592A CN116561592A (zh) | 2023-08-08 |
CN116561592B true CN116561592B (zh) | 2023-09-29 |
Family
ID=87493288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310845160.5A Active CN116561592B (zh) | 2023-07-11 | 2023-07-11 | 文本情感识别模型的训练方法和文本情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561592B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579707A (zh) * | 2022-03-07 | 2022-06-03 | 桂林旅游学院 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
CN114648031A (zh) * | 2022-03-30 | 2022-06-21 | 重庆邮电大学 | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 |
CN115017916A (zh) * | 2022-06-28 | 2022-09-06 | 华南师范大学 | 方面级情感分析方法、装置、电子设备及存储介质 |
CN115169429A (zh) * | 2022-04-14 | 2022-10-11 | 西安邮电大学 | 一种轻量化方面级文本情感分析方法 |
CN115186677A (zh) * | 2022-08-04 | 2022-10-14 | 江西理工大学 | 基于多头注意力语义聚焦和语义增强的分析方法及装置 |
CN115269847A (zh) * | 2022-08-02 | 2022-11-01 | 广西师范大学 | 基于知识增强句法异构图的方面级情感分类方法 |
CN115293170A (zh) * | 2022-08-12 | 2022-11-04 | 桂林电子科技大学 | 一种基于协同注意力融合的方面级多模态情感分析方法 |
CN116205222A (zh) * | 2023-05-06 | 2023-06-02 | 南京邮电大学 | 一种基于多通道注意力融合的方面级情感分析系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680159B (zh) * | 2020-06-11 | 2023-08-29 | 华东交通大学 | 数据处理方法、装置及电子设备 |
-
2023
- 2023-07-11 CN CN202310845160.5A patent/CN116561592B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579707A (zh) * | 2022-03-07 | 2022-06-03 | 桂林旅游学院 | 一种基于bert神经网络与多语义学习的方面级情感分析方法 |
CN114648031A (zh) * | 2022-03-30 | 2022-06-21 | 重庆邮电大学 | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 |
CN115169429A (zh) * | 2022-04-14 | 2022-10-11 | 西安邮电大学 | 一种轻量化方面级文本情感分析方法 |
CN115017916A (zh) * | 2022-06-28 | 2022-09-06 | 华南师范大学 | 方面级情感分析方法、装置、电子设备及存储介质 |
CN115269847A (zh) * | 2022-08-02 | 2022-11-01 | 广西师范大学 | 基于知识增强句法异构图的方面级情感分类方法 |
CN115186677A (zh) * | 2022-08-04 | 2022-10-14 | 江西理工大学 | 基于多头注意力语义聚焦和语义增强的分析方法及装置 |
CN115293170A (zh) * | 2022-08-12 | 2022-11-04 | 桂林电子科技大学 | 一种基于协同注意力融合的方面级多模态情感分析方法 |
CN116205222A (zh) * | 2023-05-06 | 2023-06-02 | 南京邮电大学 | 一种基于多通道注意力融合的方面级情感分析系统及方法 |
Non-Patent Citations (2)
Title |
---|
Modelling Context and Syntactical Features for Aspect-based Sentiment Analysis;Minh Hieu Phan 等;Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics;3211-3220 * |
一种融合位置特征的方面级情感分析方法;翟社平 等;计算机技术与发展;第33卷(第5期);167-172 * |
Also Published As
Publication number | Publication date |
---|---|
CN116561592A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Application of convolutional neural network in natural language processing | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN112805715A (zh) | 识别实体属性关系 | |
CN110750646A (zh) | 一种旅店评论文本的属性描述提取方法 | |
Wu et al. | AI for online customer service: Intent recognition and slot filling based on deep learning technology | |
CN116150613A (zh) | 信息抽取模型训练方法、信息抽取方法及装置 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
He et al. | Deep learning in natural language generation from images | |
US20220165257A1 (en) | Neural sentence generator for virtual assistants | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN113051910A (zh) | 一种用于预测人物角色情绪的方法和装置 | |
Chan et al. | Optimization of language models by word computing | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
KR102455747B1 (ko) | 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |