CN115544260A - 用于文本情感分析的对比优化编解码模型及方法 - Google Patents

用于文本情感分析的对比优化编解码模型及方法 Download PDF

Info

Publication number
CN115544260A
CN115544260A CN202211545575.2A CN202211545575A CN115544260A CN 115544260 A CN115544260 A CN 115544260A CN 202211545575 A CN202211545575 A CN 202211545575A CN 115544260 A CN115544260 A CN 115544260A
Authority
CN
China
Prior art keywords
text
model
vector
loss
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211545575.2A
Other languages
English (en)
Other versions
CN115544260B (zh
Inventor
熊曙初
吴佳妮
李轩
孟晗
殷琪
段金焱
方诺基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202211545575.2A priority Critical patent/CN115544260B/zh
Publication of CN115544260A publication Critical patent/CN115544260A/zh
Application granted granted Critical
Publication of CN115544260B publication Critical patent/CN115544260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了用于文本情感分析的对比优化编解码模型及方法,包括:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析;实现一文多义文本的语义分离、有效提升文本分析精确度。

Description

用于文本情感分析的对比优化编解码模型及方法
技术领域
本发明涉及文本情感分析技术领域,具体涉及一种用于文本情感分析的对比优化编解码模型及方法。
背景技术
文本情感分析为自然语言处理中的关键任务之一,其目的是利用模型提取文本感情倾向,为后续的处理、研判和决策提供支撑。传统文本情感分析方法主要分为基于规则模版与基于机器学习两种:基于规则模版的方法需要针对特定任务构建规则模版,泛化性较差且可移植性较低:基于机器学习的方法需要构造合适的特征与分类器,可以获得较好的灵活性与精准度。但该方法需要构造高质量的特征工程,特征选取质量直接决定最终效果,需要较高的成本与精力。
针对传统方法的不足,现阶段主要采用深度学习方法进行文本情感分析。通过构建大规模深度神经网络,可以获得更强的特征学习与上下文语义感知能力。但由于中文文本存在一文多义与语义模糊,现阶段主流的深度学习模型无法准确分离一文多义文本的情感倾向;且目前的方法忽视了整体语义关系与词元原始特征的结合,只关注整体语义关系或词元原始特征,限制了语义模糊文本的特征提取;同时无法将上下文语义关系进行有效互补与融合,影响了文本情感分析的准确度。
发明内容
因此,本发明为了解决现有技术中的以上缺陷,提供一种用于文本情感分析的对比优化编解码模型与方法,以实现一文多义文本的语义分离,同时增强整体语义与词元特征的结合,以及提高模型对模糊语义的捕捉能力。
一方面,本发明提供一种用于文本情感分析的对比优化编解码模型,包括:
编码对比层:通过预处理分词模块对文本进行预处理分词,将通过自注意力模块和前馈编码模块将预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化层:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;
解码输出层;将特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失;以及
优化分析层:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
其中,所述自注意力模块将向量
Figure 428800DEST_PATH_IMAGE001
作为输入,计算文本序列中上下文语义之间 关联程度,得到注意力序列
Figure 448446DEST_PATH_IMAGE002
,其中
Figure 370265DEST_PATH_IMAGE003
Figure 152277DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 134139DEST_PATH_IMAGE005
为序列字 符长度,
Figure 142546DEST_PATH_IMAGE006
为词向量维度。
进一步,所述前馈编码模块将注意力序列
Figure 366592DEST_PATH_IMAGE007
作为输入,进行维度转化与随机丢弃; 根据不同的丢弃率
Figure 878476DEST_PATH_IMAGE008
对同一注意力序列
Figure 296819DEST_PATH_IMAGE007
进行两次编码得到序列表征向量
Figure 385998DEST_PATH_IMAGE009
Figure 649620DEST_PATH_IMAGE010
另一发明,本发明提供一种用于文本情感分析的对比优化编解码方法,包括:
数据集构建阶段:构建待分析文本的文本分类数据集并进行标签化;
编码对比阶段:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化阶段:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;
解码输出阶段:对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,
优化分析阶段:监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
与现有技术相比,本发明的有益效果是:
本发明通过中文文本索引字典对信息文本进行分词和数字索引转化处理;进而使用注意力机制与前馈编码模块将数字索引转化为相应的的序列表征向量;随后通过构建正负样本对实施有监督对比学习,计算有监督对比学习损失;接着将序列表征向量输入至自适应特征强化层从左至右、从右至左分别进行特征强化与提取得到局部特征向量,将两个局部特征向量进行自适应加权求和,得到特征强化向量送至解码输出层;然后解码输出层通过特征降维与归一化指数计算得到最终分类结果;接着使用交叉熵函数计算分类损失;随后通过联合损失与小批量随机梯度下降优化模型各项参数;最后优化完毕后冻结参数不再更新,用模型对输入的信息文本进行分析。
本发明利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于文本情感分析的对比优化编解码方法流程示意图;
图2为本发明的用于文本情感分析的对比优化编解码模型示意图;
图3为本发明的自注意力模块示意图;
图4为本发明的前馈编码模块示意图;
图5为本发明的实验效果图,其中(a)为普通编码模型与本发明提供的用于文本情感分析的对比优化编解码模型的测试精度对比图,(b)为普通编码模型与本发明提供的用于文本情感分析的对比优化编解码模型的训练损失对比图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
如图1所示,本实施例提供一种用于文本情感分析的对比优化编解码方法,其包括:
数据集构建:构建待分析文本的文本分类数据集并进行标签化;
编码对比阶段:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化阶段:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;
解码输出阶段:对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,
优化分析阶段:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
在本实施例中,利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;并通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
具体地,所述数据集构建包括:
S0:构建待分析文本的文本分类数据集,并进行标签化:将消极情绪文本标注为0,积极情绪文本标注为1;将标签设置完毕的数据集按比例划分为训练集、验证集与测试集,具体地,训练集:验证集:测试集=7:2:1,训练集用于模型训练优化各项参数,验证集用于训练阶段评估训练效果,测试集用于对模型进行测试检验。
所述预处理分词阶段包括:
S1: 通过预处理分词模块对文本进行预处理分词得到文本序列;所述预处理分词为:选取同一批量大小中最长的文本长度作为本批量的固定长度,将其他不足固定长度的文本补0至固定长度。在本实施例中,优选批量最大长度为512个字,若超出最大长度则舍弃多余部分文本。
进一步地,在所述编码对比阶段,编码对比层用于将文本编码为序列表征向量
Figure 875065DEST_PATH_IMAGE011
,以及对向量语义空间进行对比优化,其中
Figure 697265DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 414686DEST_PATH_IMAGE005
为序列 字符长度,
Figure 341053DEST_PATH_IMAGE006
为词向量维度,具体包括:
S2.1:将文本映射为词向量
Figure 827529DEST_PATH_IMAGE012
、编码向量
Figure 587675DEST_PATH_IMAGE013
、句间分隔向量
Figure 759768DEST_PATH_IMAGE014
,将上 述三种向量相加得到最终输入向量
Figure 489827DEST_PATH_IMAGE001
Figure 565230DEST_PATH_IMAGE015
S2.2:将输入向量
Figure 355332DEST_PATH_IMAGE001
传输至自注意力模块,计算文本序列中上下文语义之间关 联程度,得到注意力序列
Figure 516186DEST_PATH_IMAGE002
Figure 925301DEST_PATH_IMAGE016
其中,
Figure 979845DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 314749DEST_PATH_IMAGE005
为序列字符长度,
Figure 87533DEST_PATH_IMAGE006
为词向量维度,
Figure 34760DEST_PATH_IMAGE017
Figure 943811DEST_PATH_IMAGE018
Figure 216660DEST_PATH_IMAGE019
为注意力权重矩阵,与
Figure 352106DEST_PATH_IMAGE001
相乘得到注意力权重变量
Figure 227659DEST_PATH_IMAGE020
Figure 896275DEST_PATH_IMAGE021
Figure 808867DEST_PATH_IMAGE022
为向量
Figure 962768DEST_PATH_IMAGE023
的维度;
S2.3:将注意力序列
Figure 642011DEST_PATH_IMAGE007
传输至前馈编码模块,进行维度转化与随机丢弃;根据不同 的丢弃率
Figure 666599DEST_PATH_IMAGE008
对同一注意力序列
Figure 779786DEST_PATH_IMAGE007
进行两次编码得到序列表征向量
Figure 155404DEST_PATH_IMAGE009
Figure 513704DEST_PATH_IMAGE024
Figure 923957DEST_PATH_IMAGE025
Figure 473625DEST_PATH_IMAGE026
为具有单隐藏层的全连接层;其中,丢弃率大小依据经验设置;
具体地,同一文本序列经过丢弃率不同的前馈编码模块,得到的序列表征向量会 存在细微不同,例如表1的
Figure 70959DEST_PATH_IMAGE009
Figure 826426DEST_PATH_IMAGE010
示例,其中丢弃率分别设置为
Figure 560026DEST_PATH_IMAGE027
Figure 516481DEST_PATH_IMAGE028
Figure 194587DEST_PATH_IMAGE029
Figure 393225DEST_PATH_IMAGE030
表1 同一序列使用不同丢弃率的编码示例
Figure 105966DEST_PATH_IMAGE031
S2.4:将序列表征向量
Figure 967743DEST_PATH_IMAGE032
Figure 539670DEST_PATH_IMAGE033
及批量大小
Figure 636939DEST_PATH_IMAGE034
中具有相同标签
Figure 345132DEST_PATH_IMAGE035
Figure 502443DEST_PATH_IMAGE036
共同组成 正样本对
Figure 794622DEST_PATH_IMAGE037
,剩余样本构成负样本对
Figure 570948DEST_PATH_IMAGE038
计算有监督对比学习
Figure 523861DEST_PATH_IMAGE039
Figure 993019DEST_PATH_IMAGE040
其中,
Figure 8380DEST_PATH_IMAGE041
是数据集样本总数,
Figure 447452DEST_PATH_IMAGE042
为超参数,
Figure 628772DEST_PATH_IMAGE043
计算公式如下:
Figure 268832DEST_PATH_IMAGE044
进一步地,在所述自适应特征强化阶段,所述自适应特征强化层对序列表征向量
Figure 896122DEST_PATH_IMAGE032
进行局部语义抽取与强化,得到相应的特征强化向量
Figure 279830DEST_PATH_IMAGE020
,具体包括:
S3.1:将隐藏状态
Figure 941756DEST_PATH_IMAGE045
与细胞状态
Figure 752717DEST_PATH_IMAGE046
初始化为0,当前时刻输入为
Figure 975626DEST_PATH_IMAGE032
Figure 287658DEST_PATH_IMAGE032
此时为从左 至右遍历
Figure 679456DEST_PATH_IMAGE047
取得的文本表征向量,通过运算得到
Figure 661319DEST_PATH_IMAGE048
Figure 997622DEST_PATH_IMAGE049
Figure 723133DEST_PATH_IMAGE050
Figure 94071DEST_PATH_IMAGE051
四种候选状态:
Figure 745370DEST_PATH_IMAGE052
其中,
Figure 975494DEST_PATH_IMAGE053
为相应的权重系数矩阵,
Figure 98171DEST_PATH_IMAGE054
为上一时刻的隐藏状态,
Figure 730141DEST_PATH_IMAGE055
S3.2:根据
Figure 53806DEST_PATH_IMAGE048
Figure 4182DEST_PATH_IMAGE049
Figure 930550DEST_PATH_IMAGE050
Figure 151447DEST_PATH_IMAGE051
四种候选状态得到传输状态
Figure 911592DEST_PATH_IMAGE056
Figure 975363DEST_PATH_IMAGE057
与局部特征向量
Figure 580788DEST_PATH_IMAGE058
Figure 709323DEST_PATH_IMAGE059
其中,
Figure 233845DEST_PATH_IMAGE060
为权重系数矩阵,
Figure 660278DEST_PATH_IMAGE061
为哈德玛积;
S3.3:将隐藏状态
Figure 69394DEST_PATH_IMAGE062
与细胞状态
Figure 389517DEST_PATH_IMAGE063
初始化为0,当前时刻输入为
Figure 225886DEST_PATH_IMAGE033
Figure 638150DEST_PATH_IMAGE033
为从右至 左遍历
Figure 710011DEST_PATH_IMAGE047
取得的文本表征向量,按照公式(10)-(16)计算得到局部特征向量
Figure 760007DEST_PATH_IMAGE064
S3.4:对局部特征向量
Figure 767277DEST_PATH_IMAGE065
Figure 27357DEST_PATH_IMAGE064
进行自适应加权求和得到特征强化向量
Figure 778276DEST_PATH_IMAGE020
,
Figure 181313DEST_PATH_IMAGE066
其中,
Figure 749698DEST_PATH_IMAGE067
为自适应系数,由模型优化学习得到。
进一步地,在所述解码输出阶段时,所述解码输出层用于将特征强化向量
Figure 638019DEST_PATH_IMAGE068
进行解码,得到解码结果
Figure 927049DEST_PATH_IMAGE069
,其中,其中
Figure 951637DEST_PATH_IMAGE070
Figure 690923DEST_PATH_IMAGE004
为信息文本批量大 小,
Figure 299496DEST_PATH_IMAGE071
为序列字符长度,
Figure 392217DEST_PATH_IMAGE006
为词向量维度,
Figure 395945DEST_PATH_IMAGE072
为信息文本标签类别数量;在本实施例中优选
Figure 181499DEST_PATH_IMAGE072
为2,并优选
Figure 778833DEST_PATH_IMAGE006
为768,最终输出模型判定的文本情感类别:
S4.1:使用最大池化操作在dim=1维度上将
Figure 439360DEST_PATH_IMAGE068
降维成
Figure 438540DEST_PATH_IMAGE073
S4.2:线性投影将
Figure 988470DEST_PATH_IMAGE074
解码映射为
Figure 338680DEST_PATH_IMAGE069
Figure 38782DEST_PATH_IMAGE075
其中,
Figure 656583DEST_PATH_IMAGE076
为投影权重系数矩阵,
Figure 783939DEST_PATH_IMAGE077
为投影偏差;
S4.3:将
Figure 214921DEST_PATH_IMAGE078
输入至归一化指数函数,输出模型判定的信息文本情感类别
Figure 453135DEST_PATH_IMAGE079
Figure 161328DEST_PATH_IMAGE080
S4.4:对模型判定的信息文本情感类别
Figure 584219DEST_PATH_IMAGE081
与数据集标签
Figure 876398DEST_PATH_IMAGE082
进行损失计算, 得到分类损失
Figure 918303DEST_PATH_IMAGE083
Figure 605637DEST_PATH_IMAGE084
其中
Figure 74795DEST_PATH_IMAGE085
Figure 355735DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 794806DEST_PATH_IMAGE072
为数据集大小,
Figure 976127DEST_PATH_IMAGE086
为当前计算的样本;
进一步地,在所述优化分析阶段时,包括:
S5.1:计算模型联合优化损失
Figure 350608DEST_PATH_IMAGE087
,其为有监督对比学习损失
Figure 243477DEST_PATH_IMAGE088
与分类损失
Figure 627185DEST_PATH_IMAGE083
的联合损失,
Figure 898898DEST_PATH_IMAGE089
S5.2:通过模型联合优化损失
Figure 834493DEST_PATH_IMAGE087
与小批量随机梯度下降方法更新模型各项参数矩 阵
Figure 588560DEST_PATH_IMAGE047
与自适应系数
Figure 510379DEST_PATH_IMAGE067
S5.3:冻结更新优化完毕的模型参数,使用模型对输入的信息文本进行情感分析。
在本实施例中,当接收到待分析文本后,首先使用待分析文本的训练集对该对比优化编解码参数进优选,优化后冻结更新优化完毕的模型参数,使用具有该优化模型参数的对比优化编解码对接收到待分析文本的测试集进行测试分析,可知本发明的模型在实现文本情感分析的同时通过自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力。
也就是说,该用于文本情感分析的对比优化编解码方法,通过中文文本索引字典对信息文本进行分词和数字索引转化处理,使用自注意力模块与前馈编码模块将数字索引转化为相应的的序列表征向量,随后通过构建正负样本对实施有监督对比学习,计算有监督对比学习损失;接着将序列表征向量输入至自适应特征强化层从左至右、从右至左分别进行特征强化与提取得到局部特征向量,将两个局部特征向量进行自适应加权求和,得到特征强化向量送至解码输出层;然后解码输出层通过特征降维与归一化指数计算得到最终分类结果,再使用交叉熵函数计算分类损失;通过联合损失与小批量随机梯度下降优化模型各项参数;最后优化完毕后冻结参数不再更新,用模型对输入的信息文本进行分析。
实施例2
如图2所示,本实施例提供一种用于文本情感分析的对比优化编解码模型,其包括:
编码对比层:通过预处理分词模块对文本进行预处理分词,将通过自注意力模块和前馈编码模块将预处理后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化层:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;以及
解码输出层;将特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失;
优化分析层:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
具体地,所述编码对比层包括:构建待分析文本的文本分类数据集并进行标签化,对文本进行预处理分词得到文本序列的预处理分词阶段;以及将预处理后的文本编码为序列表征向量,并计算有监督对比学习损失的编码对比阶段;
其中,所述编码对比阶段包括:
S2.1:将待分析文本映射为词向量
Figure 26811DEST_PATH_IMAGE090
、编码向量
Figure 743095DEST_PATH_IMAGE091
、句间分隔向量
Figure 485923DEST_PATH_IMAGE092
,三种向量相加得到输入向量
Figure 336067DEST_PATH_IMAGE093
Figure 80907DEST_PATH_IMAGE015
S2.2:将输入向量
Figure 233671DEST_PATH_IMAGE093
传输至自注意力模块,计算文本序列中上下文语义之间关 联程度,得到注意力序列
Figure 588429DEST_PATH_IMAGE094
Figure 586472DEST_PATH_IMAGE016
其中,
Figure 952862DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 401161DEST_PATH_IMAGE005
为序列字符长度,
Figure 351537DEST_PATH_IMAGE006
为词向量维度,
Figure 418850DEST_PATH_IMAGE095
Figure 764381DEST_PATH_IMAGE096
Figure 258947DEST_PATH_IMAGE097
为注意力权重矩阵,与
Figure 198084DEST_PATH_IMAGE093
相乘得到注意力权重变量
Figure 928143DEST_PATH_IMAGE020
Figure 767661DEST_PATH_IMAGE098
Figure 292183DEST_PATH_IMAGE099
为向量
Figure 718616DEST_PATH_IMAGE023
的维度;
S2.3:将注意力序列
Figure 127732DEST_PATH_IMAGE007
传输至前馈编码模块,进行维度转化与随机丢弃;根据不同 的丢弃率
Figure 323221DEST_PATH_IMAGE100
对同一注意力序列
Figure 284224DEST_PATH_IMAGE007
进行两次编码得到序列表征向量
Figure 696488DEST_PATH_IMAGE032
Figure 643716DEST_PATH_IMAGE033
Figure 818345DEST_PATH_IMAGE101
其中,
Figure 825616DEST_PATH_IMAGE102
为具有单隐藏层的全连接层;
S2.4:将序列表征向量
Figure 226641DEST_PATH_IMAGE032
Figure 836614DEST_PATH_IMAGE033
及批量大小
Figure 505230DEST_PATH_IMAGE034
中具有相同标签
Figure 808036DEST_PATH_IMAGE035
Figure 430778DEST_PATH_IMAGE036
共同组成 正样本对
Figure 985387DEST_PATH_IMAGE037
,剩余样本构成负样本对
Figure 9975DEST_PATH_IMAGE038
计算有监督对比学习
Figure 483682DEST_PATH_IMAGE039
Figure 92255DEST_PATH_IMAGE103
其中,
Figure 184976DEST_PATH_IMAGE041
是数据集样本总数,
Figure 188704DEST_PATH_IMAGE042
为超参数,
Figure 974258DEST_PATH_IMAGE043
计算公式如下:
Figure 571592DEST_PATH_IMAGE044
具体地,如图3所示,所述自注意力模块将向量
Figure 592638DEST_PATH_IMAGE093
作为输入,计算文本序列中上 下文语义之间关联程度,得到注意力序列
Figure 559195DEST_PATH_IMAGE094
,其中
Figure 515649DEST_PATH_IMAGE104
Figure 724914DEST_PATH_IMAGE004
为信息文本批量大 小,
Figure 291197DEST_PATH_IMAGE005
为序列字符长度,
Figure 269517DEST_PATH_IMAGE006
为词向量维度。
计算过程如公式(2)-(5)所示。其中,
Figure 131294DEST_PATH_IMAGE095
Figure 703221DEST_PATH_IMAGE096
Figure 941435DEST_PATH_IMAGE097
为注意力权重矩阵,与
Figure 39841DEST_PATH_IMAGE093
相乘得到注意力权重变量
Figure 305475DEST_PATH_IMAGE020
Figure 364698DEST_PATH_IMAGE105
Figure 531237DEST_PATH_IMAGE106
Figure 93937DEST_PATH_IMAGE099
为向量
Figure 563095DEST_PATH_IMAGE023
的维度。
进一步,如图4所示,所述前馈编码模块将注意力序列
Figure 703090DEST_PATH_IMAGE007
作为输入,进行维度转化 与随机丢弃;根据不同的丢弃率(
Figure 312800DEST_PATH_IMAGE100
)对同一注意力序列
Figure 730006DEST_PATH_IMAGE007
进行两次编码得到序列表 征向量
Figure 370066DEST_PATH_IMAGE032
Figure 262936DEST_PATH_IMAGE033
,计算如公式(6)-(7)所示。其中
Figure 646644DEST_PATH_IMAGE102
为具有单隐藏层的全连接 层,丢弃率大小依据经验设置,本实施例优选设置丢弃率为
Figure 682471DEST_PATH_IMAGE107
Figure 352486DEST_PATH_IMAGE108
进一步地,所述自适应特征强化层对输入的序列表征向量
Figure 14543DEST_PATH_IMAGE032
进行局部语义抽取与 强化,得到相应的特征强化向量
Figure 60997DEST_PATH_IMAGE020
,包括:
S3.1:将隐藏状态
Figure 452795DEST_PATH_IMAGE062
与细胞状态
Figure 933192DEST_PATH_IMAGE046
初始化为0,当前时刻输入为
Figure 800654DEST_PATH_IMAGE032
Figure 260586DEST_PATH_IMAGE032
此时为从左 至右遍历
Figure 772469DEST_PATH_IMAGE047
取得的文本表征向量,运算得到
Figure 784288DEST_PATH_IMAGE048
Figure 748833DEST_PATH_IMAGE049
Figure 776569DEST_PATH_IMAGE050
Figure 267594DEST_PATH_IMAGE051
四种候选状态:
Figure 325679DEST_PATH_IMAGE109
其中
Figure 43100DEST_PATH_IMAGE110
为相应的权重系数矩阵,
Figure 235047DEST_PATH_IMAGE054
为上一时刻的隐藏状态,
Figure 190364DEST_PATH_IMAGE055
S3.2:根据
Figure 809564DEST_PATH_IMAGE048
Figure 247237DEST_PATH_IMAGE049
Figure 118241DEST_PATH_IMAGE050
Figure 52699DEST_PATH_IMAGE051
四种候选状态得到传输状态
Figure 983746DEST_PATH_IMAGE056
Figure 144600DEST_PATH_IMAGE057
与局部特征向量
Figure 678349DEST_PATH_IMAGE065
Figure 372374DEST_PATH_IMAGE059
其中,
Figure 208742DEST_PATH_IMAGE060
为权重系数矩阵,
Figure 981526DEST_PATH_IMAGE061
为哈德玛积;
S3.3:将隐藏状态
Figure 194333DEST_PATH_IMAGE062
与细胞状态
Figure 244329DEST_PATH_IMAGE063
初始化为0,当前时刻输入
Figure 376233DEST_PATH_IMAGE111
其中
Figure 275793DEST_PATH_IMAGE112
为信息文本批量大小,
Figure 761132DEST_PATH_IMAGE005
为序列字符长度,
Figure 55848DEST_PATH_IMAGE006
为词向量 维度
Figure 968440DEST_PATH_IMAGE113
此时为从右至左遍历
Figure 856762DEST_PATH_IMAGE047
取得的文本表征向量,按照公式(10)-(16)计算得到局部 特征
Figure 536005DEST_PATH_IMAGE114
S3.4:对局部特征向量
Figure 59128DEST_PATH_IMAGE065
Figure 408200DEST_PATH_IMAGE064
进行自适应加权求和得到特征强化向量
Figure 642873DEST_PATH_IMAGE020
Figure 735594DEST_PATH_IMAGE066
其中,
Figure 614688DEST_PATH_IMAGE067
为自适应系数,由模型优化学习得到。
所述解码输出层的解码输出阶段包括:
S4.1:使用最大池化操作在dim=1维度上,将特征强化向量
Figure 259296DEST_PATH_IMAGE068
降维成
Figure 89586DEST_PATH_IMAGE073
S4.2:通过线性投影将
Figure 985998DEST_PATH_IMAGE115
解码
Figure 109812DEST_PATH_IMAGE116
Figure 800687DEST_PATH_IMAGE075
其中,
Figure 885318DEST_PATH_IMAGE072
为信息文本标签类别数量,
Figure 444475DEST_PATH_IMAGE076
为投影权重系数矩阵,
Figure 531118DEST_PATH_IMAGE077
为投影偏差
Figure 658474DEST_PATH_IMAGE117
S4.3:将
Figure 89455DEST_PATH_IMAGE078
输入至归一化指数函数,输出模型判定的信息文本情感类别
Figure 327670DEST_PATH_IMAGE081
Figure 35863DEST_PATH_IMAGE080
S4.4:对模型判定的信息文本情感类别
Figure 193174DEST_PATH_IMAGE081
与数据集标签
Figure 750933DEST_PATH_IMAGE082
进行损失计算, 得到分类损失
Figure 527259DEST_PATH_IMAGE118
Figure 480171DEST_PATH_IMAGE084
其中,
Figure 683751DEST_PATH_IMAGE085
Figure 964690DEST_PATH_IMAGE004
为信息文本批量大小,
Figure 934920DEST_PATH_IMAGE086
为当前计算的样本
Figure 850661DEST_PATH_IMAGE119
所述优化分析包括:
S5.1:模型联合优化损失
Figure 490721DEST_PATH_IMAGE087
为有监督对比学习损失
Figure 383591DEST_PATH_IMAGE088
与分类损失
Figure 501720DEST_PATH_IMAGE083
的联合损 失,
Figure 39011DEST_PATH_IMAGE089
S5.2:通过模型联合优化损失
Figure 974606DEST_PATH_IMAGE087
与小批量随机梯度下降方法更新模型各项参数矩 阵
Figure 728674DEST_PATH_IMAGE047
与自适应系数
Figure 650493DEST_PATH_IMAGE067
S5.3:冻结更新优化完毕的模型参数,使用模型对输入的信息文本进行情感分析
本实施例所述的用于文本情感分析的对比优化编解码模型用于实现实施例1所述的用于文本情感分析的对比优化编解码方法,本分析模型利用单字级特征作为模型输入,有效避免分词错误带来的不利影响;通过有监督对比优化模型编码能力,实现一文多义文本的语义分离;同时通过设计一种自适应提取序列前后特征的长短期记忆网络进行局部特征强化与上下文语义关系融合,增强整体语义与词元特征的结合,提高模型对模糊语义的捕捉能力,有效提升信息文本分析精确度。
对比例
如图5(a)所示,该图为测试精度实验结果示意图,其中,横坐标为训练轮次,纵坐标为精准度,连续线条为本发明所述的用于文本情感分析的对比优化编解码模型的实验结果,断点线条为现有技术中的普通编解码模型的实验结果;如图5(b)所示,该图为训练损失实验结果示意图,其中,横坐标为训练轮次,纵坐标为损失值,连续线条为本发明所述的用于文本情感分析的对比优化编解码模型的实验结果,断点线条为现有技术中的普通编解码模型的实验结果。对比可知,本发明提供的用于文本情感分析的对比优化编解码模型的精确度和损失要明显优于普通编解码模型;实验证明本发明的用于文本情感分析的对比优化编解码模型具有更好的语义提取与分析能力。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.用于文本情感分析的对比优化编解码模型,其特征在于,包括:
编码对比层:通过预处理分词模块对文本进行预处理分词,通过自注意力模块和前馈编码模块将预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化层:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;
解码输出层;将特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失;以及
优化分析层:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
2.根据权利要求1所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述编码对比层包括:对文本进行预处理分词得到文本序列的预处理分词阶段;以及将预处理后的文本编码为序列表征向量,并计算有监督对比学习损失的编码对比阶段;
其中,所述编码对比阶段包括:
S2.1:将待分析文本映射为词向量
Figure 851602DEST_PATH_IMAGE001
、编码向量
Figure 99044DEST_PATH_IMAGE002
、句间分隔向量
Figure 169768DEST_PATH_IMAGE003
,三 种向量相加得到输入向量
Figure 160858DEST_PATH_IMAGE004
Figure 638DEST_PATH_IMAGE005
S2.2:将输入向量
Figure 418981DEST_PATH_IMAGE004
传输至自注意力模块,计算文本序列中上下文语义之间关联程 度,得到注意力序列
Figure 147640DEST_PATH_IMAGE006
Figure 4738DEST_PATH_IMAGE007
其中,
Figure 636707DEST_PATH_IMAGE008
为信息文本批量大小,
Figure 225952DEST_PATH_IMAGE009
为序列字符长度,
Figure 271268DEST_PATH_IMAGE010
为词向量维度,
Figure 604161DEST_PATH_IMAGE011
Figure 589172DEST_PATH_IMAGE012
Figure 677214DEST_PATH_IMAGE013
为注 意力权重矩阵,与
Figure 881930DEST_PATH_IMAGE004
相乘得到注意力权重变量
Figure 815251DEST_PATH_IMAGE014
Figure 421813DEST_PATH_IMAGE015
Figure 680756DEST_PATH_IMAGE016
为向量
Figure 107189DEST_PATH_IMAGE017
的维度;
S2.3:将注意力序列
Figure 545998DEST_PATH_IMAGE018
传输至前馈编码模块,进行维度转化与随机丢弃;根据不同的丢 弃率
Figure 69384DEST_PATH_IMAGE019
对同一注意力序列
Figure 171332DEST_PATH_IMAGE018
进行两次编码得到序列表征向量
Figure 412957DEST_PATH_IMAGE020
Figure 891343DEST_PATH_IMAGE021
Figure 269235DEST_PATH_IMAGE022
其中,
Figure 807664DEST_PATH_IMAGE023
为具有单隐藏层的全连接层;
S2.4:将序列表征向量
Figure 707224DEST_PATH_IMAGE020
Figure 51618DEST_PATH_IMAGE021
及批量大小
Figure 487278DEST_PATH_IMAGE024
中具有相同标签
Figure 993346DEST_PATH_IMAGE025
Figure 147247DEST_PATH_IMAGE026
共同组成正样 本对
Figure 967435DEST_PATH_IMAGE027
,剩余样本构成负样本对
Figure 319919DEST_PATH_IMAGE028
计算有监督对比学习
Figure 433107DEST_PATH_IMAGE029
Figure 808724DEST_PATH_IMAGE030
其中,
Figure 494920DEST_PATH_IMAGE031
是数据集样本总数,
Figure 639594DEST_PATH_IMAGE032
为超参数,
Figure 753044DEST_PATH_IMAGE033
计算公式如下:
Figure 615957DEST_PATH_IMAGE034
3.根据权利要求2所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述 自注意力模块将向量
Figure 276484DEST_PATH_IMAGE004
作为输入,计算文本序列中上下文语义之间关联程度,得到注意 力序列
Figure 603560DEST_PATH_IMAGE006
,其中
Figure 825594DEST_PATH_IMAGE035
Figure 972541DEST_PATH_IMAGE008
为信息文本批量大小,
Figure 938223DEST_PATH_IMAGE009
为序列字符长度,
Figure 57489DEST_PATH_IMAGE010
为词向量 维度。
4.根据权利要求3所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述 前馈编码模块将注意力序列
Figure 948959DEST_PATH_IMAGE018
作为输入,进行维度转化与随机丢弃;根据不同的丢弃率
Figure 848782DEST_PATH_IMAGE019
对同一注意力序列
Figure 352576DEST_PATH_IMAGE018
进行两次编码得到序列表征向量
Figure 388665DEST_PATH_IMAGE020
Figure 952501DEST_PATH_IMAGE021
5.根据权利要求2所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述 自适应特征强化层对输入的序列表征向量
Figure 11724DEST_PATH_IMAGE020
进行局部语义抽取与强化,得到相应的特征强 化向量
Figure 381526DEST_PATH_IMAGE014
,包括:
S3.1:将隐藏状态
Figure 973919DEST_PATH_IMAGE036
与细胞状态
Figure 770974DEST_PATH_IMAGE037
初始化为0,当前时刻输入为
Figure 317493DEST_PATH_IMAGE038
Figure 163089DEST_PATH_IMAGE038
此时为从左至右 遍历
Figure 173770DEST_PATH_IMAGE039
取得的文本表征向量,运算得到
Figure 79409DEST_PATH_IMAGE040
Figure 635197DEST_PATH_IMAGE041
Figure 346801DEST_PATH_IMAGE042
Figure 415251DEST_PATH_IMAGE043
四种候选状态:
Figure 554109DEST_PATH_IMAGE044
其中,
Figure 809640DEST_PATH_IMAGE045
为相应的权重系数矩阵,
Figure 262619DEST_PATH_IMAGE046
为上一时刻的隐藏状态,
Figure 247892DEST_PATH_IMAGE047
S3.2:根据
Figure 993869DEST_PATH_IMAGE040
Figure 799014DEST_PATH_IMAGE041
Figure 790104DEST_PATH_IMAGE042
Figure 567567DEST_PATH_IMAGE043
四种候选状态得到传输状态
Figure 48227DEST_PATH_IMAGE048
Figure 543930DEST_PATH_IMAGE049
与局部特征向量
Figure 571667DEST_PATH_IMAGE050
Figure 531532DEST_PATH_IMAGE051
其中,
Figure 120777DEST_PATH_IMAGE052
为权重系数矩阵,
Figure 838197DEST_PATH_IMAGE053
为哈德玛积;
S3.3:将隐藏状态
Figure 171089DEST_PATH_IMAGE054
与细胞状态
Figure 985462DEST_PATH_IMAGE055
初始化为0,当前时刻输入
Figure 244142DEST_PATH_IMAGE056
其中
Figure 448859DEST_PATH_IMAGE057
为信息文本批量大小,
Figure 647759DEST_PATH_IMAGE009
为序列字符长度,
Figure 254321DEST_PATH_IMAGE010
为词向量维度,
Figure 247685DEST_PATH_IMAGE058
此时为 从右至左遍历
Figure 939697DEST_PATH_IMAGE039
取得的文本表征向量,按照公式(10)-(16)计算得到局部特征
Figure 378506DEST_PATH_IMAGE059
S3.4:对局部特征向量
Figure 901892DEST_PATH_IMAGE050
Figure 3840DEST_PATH_IMAGE060
进行自适应加权求和得到特征强化向量
Figure 245465DEST_PATH_IMAGE014
,
Figure 723851DEST_PATH_IMAGE061
其中,
Figure 39426DEST_PATH_IMAGE062
为自适应系数,由模型优化学习得到。
6.根据权利要求5所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述解码输出层的解码输出阶段包括:
S4.1:使用最大池化操作在dim=1维度上,将特征强化向量
Figure 640172DEST_PATH_IMAGE063
降维成
Figure 539732DEST_PATH_IMAGE064
S4.2:通过线性投影将
Figure 821809DEST_PATH_IMAGE065
解码映射为
Figure 991890DEST_PATH_IMAGE066
Figure 763537DEST_PATH_IMAGE067
其中,
Figure 651859DEST_PATH_IMAGE068
为信息文本标签类别数量,
Figure 970582DEST_PATH_IMAGE069
为投影权重系数矩阵,
Figure 323066DEST_PATH_IMAGE070
为投影偏 差;
S4.3:将
Figure 203298DEST_PATH_IMAGE071
输入至归一化指数函数,输出模型判定的信息文本情感类别
Figure 578915DEST_PATH_IMAGE072
Figure 265112DEST_PATH_IMAGE073
S4.4:对模型判定的信息文本情感类别
Figure 409785DEST_PATH_IMAGE072
与数据集标签
Figure 959453DEST_PATH_IMAGE074
进行损失计算,得到 分类损失
Figure 884684DEST_PATH_IMAGE075
Figure 46675DEST_PATH_IMAGE076
其中,
Figure 311434DEST_PATH_IMAGE077
Figure 267889DEST_PATH_IMAGE008
为信息文本批量大小,
Figure 680415DEST_PATH_IMAGE078
为当前计算的样本。
7.根据权利要求6所述的用于文本情感分析的对比优化编解码模型,其特征在于,所述优化分析包括:
S5.1:模型联合优化损失
Figure 144633DEST_PATH_IMAGE079
为有监督对比学习损失
Figure 263898DEST_PATH_IMAGE080
与分类损失
Figure 656834DEST_PATH_IMAGE075
的联合损失,
Figure 228760DEST_PATH_IMAGE081
S5.2:通过模型联合优化损失
Figure 794871DEST_PATH_IMAGE079
与小批量随机梯度下降方法更新模型各项参数矩阵
Figure 532757DEST_PATH_IMAGE039
与自适应系数
Figure 96594DEST_PATH_IMAGE062
S5.3:冻结更新优化完毕的模型参数,使用模型对输入的信息文本进行情感分析。
8.用于文本情感分析的对比优化编解码方法,其特征在于,包括
数据集构建阶段:构建待分析文本的文本分类数据集并进行标签化;
编码对比阶段:将通过预处理分词模块预处理分词后的文本编码为序列表征向量,并计算有监督对比学习损失;
自适应特征强化阶段:对序列表征向量进行局部语义抽取与强化,得到相应的特征强化向量;
解码输出阶段:对特征强化向量进行解码,得到解码结果并最终输出模型判定的文本情感类别,并对模型判定的文本情感类别与数据集标签计算分类损失,
优化分析阶段:有监督对比学习损失和分类损失的联合损失为模型联合优化损失,通过模型联合优化损失与小批量随机梯度下降方法更新模型各项参数矩阵与自适应系数后,使用优化模型对输入的文本进行情感分析。
CN202211545575.2A 2022-12-05 2022-12-05 用于文本情感分析的对比优化编解码方法 Active CN115544260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211545575.2A CN115544260B (zh) 2022-12-05 2022-12-05 用于文本情感分析的对比优化编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211545575.2A CN115544260B (zh) 2022-12-05 2022-12-05 用于文本情感分析的对比优化编解码方法

Publications (2)

Publication Number Publication Date
CN115544260A true CN115544260A (zh) 2022-12-30
CN115544260B CN115544260B (zh) 2023-04-25

Family

ID=84721722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211545575.2A Active CN115544260B (zh) 2022-12-05 2022-12-05 用于文本情感分析的对比优化编解码方法

Country Status (1)

Country Link
CN (1) CN115544260B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633239A (zh) * 2024-01-23 2024-03-01 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法
CN118277575A (zh) * 2024-06-04 2024-07-02 湖南工商大学 一种用于文本情感分析的集成对比方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN112765358A (zh) * 2021-02-23 2021-05-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
US20210326660A1 (en) * 2020-04-21 2021-10-21 Google Llc Supervised Contrastive Learning with Multiple Positive Examples
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN114358201A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114529758A (zh) * 2022-01-25 2022-05-24 哈尔滨工业大学 基于对比学习和多头自注意力机制的多模态情感分析方法
CN114925205A (zh) * 2022-06-09 2022-08-19 西北工业大学 基于对比学习的gcn-gru文本分类方法
CN115034228A (zh) * 2022-06-29 2022-09-09 苏州思萃人工智能研究所有限公司 一种用于情感分析模型的优化方法
US20220343139A1 (en) * 2021-04-15 2022-10-27 Peyman PASSBAN Methods and systems for training a neural network model for mixed domain and multi-domain tasks
CN115391520A (zh) * 2022-07-22 2022-11-25 浙江树人学院 一种文本情感分类方法、系统、装置及计算机介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
US20210326660A1 (en) * 2020-04-21 2021-10-21 Google Llc Supervised Contrastive Learning with Multiple Positive Examples
CN112765358A (zh) * 2021-02-23 2021-05-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
US20220343139A1 (en) * 2021-04-15 2022-10-27 Peyman PASSBAN Methods and systems for training a neural network model for mixed domain and multi-domain tasks
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN114358201A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114529758A (zh) * 2022-01-25 2022-05-24 哈尔滨工业大学 基于对比学习和多头自注意力机制的多模态情感分析方法
CN114925205A (zh) * 2022-06-09 2022-08-19 西北工业大学 基于对比学习的gcn-gru文本分类方法
CN115034228A (zh) * 2022-06-29 2022-09-09 苏州思萃人工智能研究所有限公司 一种用于情感分析模型的优化方法
CN115391520A (zh) * 2022-07-22 2022-11-25 浙江树人学院 一种文本情感分类方法、系统、装置及计算机介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENGYAN LI;YICHENG ZOU: "Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training", 《PROCEEDINGS OF THE 2021 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
程艳;尧磊波等: "基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633239A (zh) * 2024-01-23 2024-03-01 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法
CN117633239B (zh) * 2024-01-23 2024-05-17 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法
CN118277575A (zh) * 2024-06-04 2024-07-02 湖南工商大学 一种用于文本情感分析的集成对比方法及装置
CN118277575B (zh) * 2024-06-04 2024-08-20 湖南工商大学 一种用于文本情感分析的集成对比方法及装置

Also Published As

Publication number Publication date
CN115544260B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN112214599B (zh) 基于统计学和预训练语言模型的多标签文本分类方法
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
AU2020100710A4 (en) A method for sentiment analysis of film reviews based on deep learning and natural language processing
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110717334A (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN115544260A (zh) 用于文本情感分析的对比优化编解码模型及方法
CN110502626B (zh) 一种基于卷积神经网络的方面级情感分析方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN113723083B (zh) 基于bert模型的带权消极监督文本情感分析方法
CN114372465A (zh) 基于Mixup和BQRNN的法律命名实体识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN107967337B (zh) 一种基于情感极性增强语义的跨领域情感分析方法
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
Chen et al. Learning a general clause-to-clause relationships for enhancing emotion-cause pair extraction
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
WO2023159759A1 (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN115730067A (zh) 基于短文本与复杂语义符号的多通道情感分类方法及设备
CN114692610A (zh) 关键词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant