CN114676695A - 基于情感分析的文本语句处理方法、装置以及设备 - Google Patents

基于情感分析的文本语句处理方法、装置以及设备 Download PDF

Info

Publication number
CN114676695A
CN114676695A CN202210595568.7A CN202210595568A CN114676695A CN 114676695 A CN114676695 A CN 114676695A CN 202210595568 A CN202210595568 A CN 202210595568A CN 114676695 A CN114676695 A CN 114676695A
Authority
CN
China
Prior art keywords
sentence
sample
sequence
word
quadruple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210595568.7A
Other languages
English (en)
Other versions
CN114676695B (zh
Inventor
熊浩良
薛云
燕泽昊
庞士冠
卢国钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202210595568.7A priority Critical patent/CN114676695B/zh
Publication of CN114676695A publication Critical patent/CN114676695A/zh
Application granted granted Critical
Publication of CN114676695B publication Critical patent/CN114676695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及情感分析领域,特别涉及一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。

Description

基于情感分析的文本语句处理方法、装置以及设备
技术领域
本发明涉及情感分析领域,特别涉及是一种基于情感分析的文本语句处理方法、装置、设备以及存储介质。
背景技术
作为一项细粒度的情感分析任务,基于方面级的情感分析目前已受到广泛的关注。任务的核心主要是给定包含方面词的句子,抽取其中的方面词、观点词以及相应的情感极性,以精确识别其中的情绪信息。
然而,现有的技术方案是单独获取每一个候选词对的方面词类别以及情感极性进行分析,获取相应的分析数据,若其中任意一种分析数据出现误差时,在识别情绪信息时会便会放大其误差,导致识别情绪信息结果不准确,效率低下。
发明内容
基于此,本发明的目的在于,提供一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
第一方面,本申请实施例提供了一种基于情感分析的文本语句处理方法,包括以下步骤:
获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列,根据所述正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
第二方面,本申请实施例提供了一种基于情感分析的文本语句处理装置,包括:
第一获取模块,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
第二获取模块,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
第一损失值计算模块,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
第二损失值计算模块,用于基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列,根据所述正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
第三损失值计算模块,用于将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
训练模块,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
分析模块,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述基于情感分析的文本语句处理方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于情感分析的文本语句处理方法的步骤。
在本申请实施例中,提供一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请一个实施例提供的基于情感分析的文本语句处理方法的流程示意图;
图2为本申请一个实施例提供的基于情感分析的文本语句处理方法中S2的流程示意图;
图3为本申请一个实施例提供的基于情感分析的文本语句处理方法中S3的流程示意图;
图4为本申请一个实施例提供的基于情感分析的文本语句处理方法中S4的流程示意图;
图5为本申请一个实施例提供的基于情感分析的文本语句处理方法中S5的流程示意图;
图6为本申请一个实施例提供的基于情感分析的文本语句处理方法中S6的流程示意图;
图7为本申请一个实施例提供的基于情感分析的文本语句处理装置的结构示意图;
图8为本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本申请一个实施例提供的基于情感分析的文本语句处理方法的流程示意图,所述方法包括如下步骤:
S1:获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息。
所述基于情感分析的文本语句处理方法的执行主体为基于情感分析的文本语句处理方法的分析设备(以下简称分析设备),在一个可选的实施例中,所述分析设备可以是一台计算机设备可以是服务器,或是多台计算机设备联合而成的服务器机群。
所述样本语句包括若干个单词,所述单词为句子中所描述的某一实体,可以是名词、形容词等等,所述单词包括方面词以及观点词;
所述四元组标签信息包括与所述样本语句相关联的特定词以及标记词,所述特定词包括特定方面词以及特定观点词,标记词包括方面词种类以及情感极性;
在本实施例中,分析设备可以获取用户输入的样本语句以及与所述样本语句的相关联的若干组四元组标签信息,也可以在预设的数据库中,获取与所述样本语句的相关联的若干组四元组标签信息。
S2:获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列。
所述样本语句的初始句子序列为:
Figure 840414DEST_PATH_IMAGE001
式中,X为所述样本语句的初始句子序列,
Figure 754144DEST_PATH_IMAGE002
为所述样本语句中的词对应的初始向量;
在本实施例中,分析设备获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列。
请参阅图2,图2为本申请一个实施例提供的基于情感分析的文本语句处理方法中S2的流程示意图,包括步骤S201~S203,具体如下:
S201:对于每一组四元组标签信息,根据所述特定词在所述样本语句的初始句子序列上的位置索引,获取特定词索引向量。
所述特定词索引信息包括方面词索引向量以及观点词索引向量,其中,所述方面词索引向量以及观点词索引向量均包括相应的起点索引向量以及终点索引向量;
在本实施例中,对于每一组四元组标签信息,分析设备根据所述四元组标签信息中的特定方面词,获取所述样本语句的初始句子序列中与所述特定方面词相同的方面词的位置,从而获取所述特定方面词在所述样本语句的初始句子序列上的位置索引,即获取所述方面词索引向量;
根据所述四元组标签信息中的特定观点词,获取所述样本语句的初始句子序列中与所述特定观点词相同的观点词的位置,从而获取所述特定观点词在所述样本语句的初始句子序列上的位置索引,即获取所述观点词索引向量。
S202:根据所述标记词在预设的映射表上的相应列表的索引,获取标记词索引向量。
所述标记词索引向量包括方面词种类索引向量以及情感极性索引向量;
所述映射表如下所示:
Figure DEST_PATH_IMAGE003
其中,T为所述映射表,n为所述初始句子序列X的长度。
Figure 685060DEST_PATH_IMAGE004
为所述标记词在相应列表的索引,其中,所述列表包括长度为o的特定方面词类别列表
Figure DEST_PATH_IMAGE005
以及预设长度为l的情感极性列表
Figure 453164DEST_PATH_IMAGE006
,特定方面词类别列表C中每一个元素代表一种特定方面词类别,情感极性列表S中每一个元素代表一种情感极性,如消极、中性、积极;
在本实施例中,对于每一组四元组标签信息,分析设备根据所述四元组标签信息中的方面词种类,获取在所述映射表的特定方面词类别列表C中,与所述方面词种类相同的元素的位置,从而获取所述方面词种类在所述映射表的特定方面词类别列表C上的位置索引,即获取所述方面词种类索引向量;
根据所述四元组标签信息中的情感极性,获取在所述映射表的情感极性列表S中,与所述情感极性相同的元素的位置,从而获取所述情感极性在所述映射表的情感极性列表S上的位置索引,即获取所述情感极性索引向量。
S203:将所述特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行组合,构建所述样本语句的四元组标签序列。
在本实施例中,分析设备同一组四元组标签信息对应的特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行编码组合,构建所述样本语句的四元组标签序列,实现了对四元组标签信息的初始化,其中,所述四元组标签表示为:
Figure DEST_PATH_IMAGE007
式中,
Figure 444123DEST_PATH_IMAGE008
为所述第i个四元组标签表示,
Figure DEST_PATH_IMAGE009
为所述方面词索引向量的起点索引向量,
Figure 300608DEST_PATH_IMAGE010
为所述方面词索引向量的终点索引向量,
Figure DEST_PATH_IMAGE011
为所述观点词索引向量的起点索引向量,
Figure 35215DEST_PATH_IMAGE012
为所述观点词索引向量的终点索引向量,
Figure DEST_PATH_IMAGE013
为所述方面词种类索引向量,
Figure 657826DEST_PATH_IMAGE014
为所述情感极性索引向量;
所述四元组标签序列为:
Figure DEST_PATH_IMAGE015
式中,Y为所述四元组标签序列。
S3:将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值。
所述词嵌入模型可以采用BART(Bidirectional and Auto-RegressiveTransformers)模型,所述BART模型包括嵌入层以及隐藏层,所述嵌入层用于进行词表示转换,所述BART模型还包括分类模块以及监督对比模块,所述分类模块以及监督对比模块均包括编码器以及解码器,所述分类模块以及监督对比模块共享权重;
在本实施例中,分析设备将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型的分类模块输出的第一损失值。
请参阅图3,图3为本申请一个实施例提供的基于情感分析的文本语句处理方法中S3的流程示意图,包括步骤S301~S304,具体如下:
S301:获取所述样本语句的初始句子序列对应的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述样本语句的多维句子序列。
在本实施例中,分析设备将所述样本语句的初始句子序列输入至所述词嵌入模型的嵌入层中进行词表示的转换,获取所述词嵌入表示
Figure 304839DEST_PATH_IMAGE016
,将所述词嵌入表示
Figure 442428DEST_PATH_IMAGE016
送入至所述分类模块的编码器中进行编码,获取d维的所述样本语句的多维句子序列,具体如下:
Figure DEST_PATH_IMAGE017
式中,
Figure 718076DEST_PATH_IMAGE018
为所述样本语句的多维句子序列,
Figure DEST_PATH_IMAGE019
为所述样本语句的词对应的多维向量。
S302:确定所述四元组标签序列的各个四元组标签表示的对应的目标词,获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,并获取所述目标标签序列对应的词嵌入表示。
在本实施例中,分析设备需要对编码后的四元组标签序列进行解码和输出。具体的,对解码过程的第t个时间步,需要将所述四元组标签序列Y中第t个位置的特定词或标记词作为输入,因此需要将所述四元组标签序列Y中的每一组四元组标签
Figure 195194DEST_PATH_IMAGE008
逆转换为其对应的特定词或标记词,具体如下:
获取所述四元组序列的索引向量
Figure 809846DEST_PATH_IMAGE020
,即所述四元组标签表示
Figure 434731DEST_PATH_IMAGE008
在所述四元组序列上的位置索引;
Figure 324190DEST_PATH_IMAGE020
小于或者等于所述样本语句的初始句子序列的长度n,则将所述四元组标签表示对应的目标词设置为特定词,获取所述四元组标签表示对应的特定词的位置索引,即特定词索引向量;若
Figure 718131DEST_PATH_IMAGE020
大于所述样本语句的初始句子序列的长度n,则将所述四元组标签表示对应的目标词设置为标记词,获取所述四元组标签表示对应的标记词的位置索引,即标记词索引向量;
获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,其中,所述目标标签序列为:
Figure DEST_PATH_IMAGE021
式中,所述
Figure 224723DEST_PATH_IMAGE022
为目标标签序列,
Figure DEST_PATH_IMAGE023
为前t-1个时刻的目标词的索引向量;
并获取所述目标标签序列对应的词嵌入表示,其中,所述目标标签序列对应的词嵌入表示包括目标词为方面词种类对应的词嵌入表示
Figure 274588DEST_PATH_IMAGE024
以及目标词为情感极性对应的词嵌入表示
Figure DEST_PATH_IMAGE025
S303:根据所述样本语句的多维句子序列以及四元组标签序列对应的目标标签序列,获取所述样本语句的状态表示。
在本实施例中,分析设备将所述样本语句的多维句子序列及四元组标签序列对应的目标标签序列输入至所述分类模块的解码器中,获取所述分类模块的解码器的隐藏层输出的,在t时间步的d维的样本语句的状态表示
Figure 889109DEST_PATH_IMAGE026
S304:根据所述样本语句的词嵌入表示、多维句子序列、多维状态表示、所述目标标签序列对应的词嵌入表示以及预设的第一损失值计算算法,获取所述第一损失值。
所述第一损失值计算算法包括以下公式,具体为:
Figure DEST_PATH_IMAGE027
式中,
Figure 340819DEST_PATH_IMAGE028
为所述样本语句的多维句子序列;
Figure DEST_PATH_IMAGE029
Figure 764452DEST_PATH_IMAGE028
经所述词嵌入模型的线性层的输出;
Figure 583503DEST_PATH_IMAGE030
为所述样本语句的词嵌入表示;
Figure DEST_PATH_IMAGE031
为所述线性层的权重矩阵;
Figure 1715DEST_PATH_IMAGE032
为概率分布;
Figure DEST_PATH_IMAGE033
为所述目标词为方面词种类对应的词嵌入表示;
Figure 573511DEST_PATH_IMAGE034
为所述目标词为情感极性对应的词嵌入表示;
Figure 966446DEST_PATH_IMAGE026
为所述样本语句的状态表示;
Figure DEST_PATH_IMAGE035
为所述第一损失值;m为所述目标标签序列的长度,
Figure 256482DEST_PATH_IMAGE036
为所述四元组序列的索引向量,X为所述样本语句的初始句子序列,t为时间步进,
Figure DEST_PATH_IMAGE037
为归一化函数;
在本实施例中,分析设备将所述样本语句的词嵌入表示以及多维句子序列输入至所述词嵌入模型的线性层中,获取所述线性层输出的参数
Figure 215735DEST_PATH_IMAGE029
,将所述
Figure 438775DEST_PATH_IMAGE029
、目标词为方面词种类对应的词嵌入表示
Figure 268191DEST_PATH_IMAGE033
、目标词为情感极性对应的词嵌入表示
Figure 576681DEST_PATH_IMAGE034
、状态表示
Figure 884166DEST_PATH_IMAGE026
输入至所述归一化函数
Figure 227291DEST_PATH_IMAGE037
中,获取与所述样本语句、方面词类别以及情感极性的索引相关联的概率分布,根据所述第一损失值计算算法中相应的公式,获取所述第一损失值。
S4:基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列。
所述正例查询语句序列为基于所述样本语句的四元组标签序列转换得到的包含正确四元组标签的语句序列;
所述负例查询语句序列为基于所述正确四元组标签转换得到的包含错误四元组标签的语句序列。
在本实施例中,分析设备基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列。
请参阅图4,图4为本申请一个实施例提供的基于情感分析的文本语句处理方法中S4的流程示意图,包括步骤S401~S403,具体如下:
S401:结合预设的上下文信息,以及所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,构建所述样本语句的若干个正例语句表示。
在本实施例中,分析设备将获取到的所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,与预设的上下文信息进行组合,构建所述样本语句的若干个正例语句表示
Figure 962029DEST_PATH_IMAGE038
,如下所示:
Figure DEST_PATH_IMAGE039
式中,
Figure 698428DEST_PATH_IMAGE040
表示所述上下文信息,
Figure 793292DEST_PATH_IMAGE041
代表所述四元组标签表示对应的目标词的索引,可以是
Figure 741656DEST_PATH_IMAGE009
Figure 912875DEST_PATH_IMAGE010
Figure 195957DEST_PATH_IMAGE011
Figure 690917DEST_PATH_IMAGE012
Figure 759367DEST_PATH_IMAGE013
以及
Figure 85175DEST_PATH_IMAGE014
S402:获取任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示。
在本实施例中,分析设备将获取到的任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示
Figure 340707DEST_PATH_IMAGE042
,如下所示:
Figure 308532DEST_PATH_IMAGE043
式中,
Figure 231489DEST_PATH_IMAGE044
为所述样本语句的一个单词对应的索引向量。
S403:将所述样本语句的初始句子序列分别与每个正例语句表示、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。
在本实施例中,分析设备将所述样本语句的初始句子序列分别与每个正例语句、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。
具体的,本发明将初始句子序列X分别与每个正例语句表示
Figure 728198DEST_PATH_IMAGE038
或负例语句表示
Figure 736605DEST_PATH_IMAGE042
连接为相应的查询语句序列:"
Figure 727695DEST_PATH_IMAGE045
",其中
Figure 745637DEST_PATH_IMAGE046
Figure 163980DEST_PATH_IMAGE047
分别代表解码器的分割标记。
然后将所述查询语句序列经所述词嵌入模型的嵌入层转换成相应的词表示后,送入所述词嵌入模型的监督对比模块中的编码器和解码器中,获取若干组正例查询语句序列
Figure 908951DEST_PATH_IMAGE048
以及负例查询语句序列
Figure 438152DEST_PATH_IMAGE049
S5:将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述各组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值。
在所述样本语句中,方面词与观点词之间的组合可能包括不同的显式或隐式情感,因此,在本实施例中,分析设备将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,其中,所述类型包括显式方面词&显式观点词、隐式方面词&显式观点词、显式方面词&隐式观点词和隐式方面词&隐式观点词。
在本实施例中,分析设备将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述各组正例查询语句序列对应的样本查询语句序列,将所述样本正例查询语句序列输入至所述词嵌入模型的监督对比模块中,获取所述词嵌入模型的监督对比模块输出的第二损失值。
请参阅图5,图5为本申请一个实施例提供的基于情感分析的文本语句处理方法中S5的流程示意图,还包括步骤S501~S502,具体如下:
S501:根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集。
在本实施例中,为了提高运算效率,分析设备根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集,其中,所述样本正例查询语句序列训练集包括若干组样本正例查询语句序列。
S502:根据所述若干个样本正例查询语句序列训练集以及预设的第二损失值计算算法,获取所述各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值。
所述第二损失值计算算法为:
Figure 850548DEST_PATH_IMAGE050
式中,
Figure 439792DEST_PATH_IMAGE051
为当前样本正例查询语句序列训练集中索引为j的样本正例查询语句序列和索引为c的样本正例查询语句序列之间的第二损失值,h为样本正例查询语句序列,jkc为所述样本正例查询语句序列的第一索引参数、第二索引参数以及第三索引参数,
Figure 406480DEST_PATH_IMAGE052
为与
Figure 739372DEST_PATH_IMAGE053
属于同种类型的样本正例查询语句序列,
Figure 9204DEST_PATH_IMAGE054
为全部样本正例查询语句序列;若
Figure 769350DEST_PATH_IMAGE055
Figure 223334DEST_PATH_IMAGE056
,反之
Figure 625496DEST_PATH_IMAGE057
Figure 481326DEST_PATH_IMAGE058
为温度参数;
Figure 677952DEST_PATH_IMAGE059
为内积函数;N
Figure 369964DEST_PATH_IMAGE060
Figure 559506DEST_PATH_IMAGE053
相同类型的样本正例查询语句序列的数目,
Figure 286154DEST_PATH_IMAGE061
表示
Figure 640299DEST_PATH_IMAGE060
Figure 85187DEST_PATH_IMAGE053
的类型相同的样本正例查询语句序列的数目,B为训练批次。
在本实施例中,分析设备根据所述若干个样本正例查询语句序列训练集,将所述样本正例查询语句序列训练集对应的样本正例查询语句序列输入至所述词嵌入模型的监督对比模块中,根据所述第二损失值计算算法,通过拉近所述正例查询语句序列之间的距离,从而拉远负例查询语句序列之间的距离,强化所述方面词及观点词显式存在或者隐式存在的特征表示,计算对比损失,获取所述各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值。
S6:将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值。
由于所述正例查询语句序列以及负例查询语句序列可能与所述上下文信息不相关,在本实施例中,分析设备将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示
Figure 812840DEST_PATH_IMAGE062
Figure 128415DEST_PATH_IMAGE063
获取标签训练集,其中,所述标签训练集包括所述各个四元组表示对应的真实标签值,并将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,进行二分类任务的判别,实现判断相应的表示属于正例查询语句还是属于负例查询语句,最终得到二分类任务的结果,计算回顾学习损失,作为所述全连接网络输出的第三损失值。
请参阅图6,图6为本申请一个实施例提供的基于情感分析的文本语句处理方法中S6的流程示意图,包括步骤S601~S603,具体如下:
S601:根据所述四元组表示以及预设的预测标签值计算算法,获取所述各个四元组表示对应的预测标签值。
所述预测标签值计算算法为:
Figure 916112DEST_PATH_IMAGE064
式中,
Figure 317137DEST_PATH_IMAGE065
为所述预测标签值,W为所述全连接网络的权重参数,
Figure 848481DEST_PATH_IMAGE062
为所述四元组表示,
Figure 284142DEST_PATH_IMAGE066
,其中,
Figure 245669DEST_PATH_IMAGE067
为所述正例查询语句序列,
Figure 133991DEST_PATH_IMAGE068
为所述负例查询语句序列,b为所述全连接网络的偏置参数;
在本实施例中,分析设备根据所述四元组表示以及预设的预测标签值计算算法,获取所述各个四元组表示对应的预测标签值。
S602:根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集。
所述四元组表示训练集包括若干个四元组表示。
为了提高训练效率,在本实施例中,分析设备根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集。
S603:根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,获取所述各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值。
所述第三损失值计算算法为:
Figure 203447DEST_PATH_IMAGE069
式中,
Figure 493614DEST_PATH_IMAGE070
为当前四元组表示训练集的第三损失值,
Figure 623113DEST_PATH_IMAGE071
为当前四元组表示训练集中第q个四元组表示对应的属于p类别的真实标签值,其中,p类别包括正例类别以及负例类别,用于区分所述四元组表示属于正例表示还是负例表示;
Figure 998730DEST_PATH_IMAGE072
为当前四元组表示训练集中第q个四元组表示对应的属于p类别的预测标签值。
在本实施例中,分析设备根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,将所述四元组表示的预测标签值分别与正例类别以及负例类别对应的四元组表示的真实标签值进行对比,实现判断相应的四元组表示属于正例还是属于负例,最终得到二分类任务的结果并计算回顾学习损失,作为所述各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值。
S7:根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型。
在本实施例中,分析设备根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,具体如下:
Figure 888189DEST_PATH_IMAGE073
式中,
Figure 282130DEST_PATH_IMAGE074
为所述损失函数,
Figure 333263DEST_PATH_IMAGE075
以及
Figure 194513DEST_PATH_IMAGE076
分别为第一超参数以及第二超参数,代表相应损失的权重值。
重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型。
S8:获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
在本实施例中,分析设备获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句对应的概率分布
Figure 622084DEST_PATH_IMAGE032
,根据所述概率分布
Figure 136110DEST_PATH_IMAGE032
以及预设的情感分析阈值,获取所述待测样本语句的情感分析结果,其中,所述情感分析结果包括积极结果、中性结果以及消极结果。
请参考图7,图7为本申请一个实施例提供的基于情感分析的文本语句处理装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于情感分析的文本语句处理装置的全部或一部分,该装置7包括:
第一获取模块71,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
第二获取模块72,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
第一损失值计算模块73,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
查询语句构建模块74,用于基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;
第二损失值计算模块75,用于将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述各组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
第三损失值计算模块76,用于将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
训练模块77,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
分析模块78,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
在本实施例中,通过第一获取模块,获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;通过第二获取模块,获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;通过第一损失值计算模块,将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;通过查询语句构建模块,用于基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;通过第二损失值计算模块,用于将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述各组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;通过第三损失值计算模块,将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;通过训练模块,根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;通过分析模块,获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
请参考图8,图8为本申请一个实施例提供的计算机设备的结构示意图,计算机设备7包括:处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83;计算机设备可以存储有多条指令,指令适用于由处理器81加载并执行上述实施例一至实施例四的方法步骤,具体执行过程可以参见实施例一至实施例四的具体说明,在此不进行赘述。
其中,处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器82内的指令、程序、代码集或指令集,以及调用存储器82内的数据,执行基于情感分析的文本语句处理装置7的各种功能和处理数据,可选的,处理器81可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrambleLogic Array,PLA)中的至少一个硬件形式来实现。处理器81可集成中央处理器81(CentralProcessing Unit,CPU)、图像处理器81(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器81中,单独通过一块芯片进行实现。
其中,存储器82可以包括随机存储器82(Random Access Memory,RAM),也可以包括只读存储器82(Read-Only Memory)。可选的,该存储器82包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。
本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行上述实施例一至实施例四的方法步骤,具体执行过程可以参见实施例一至实施例四的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种基于情感分析的文本语句处理方法,其特征在于,包括以下步骤:
获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;
将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述各组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
2.根据权利要求1所述的基于情感分析的文本语句处理方法,其特征在于:所述样本语句包括若干个单词,所述单词包括方面词以及观点词,所述四元组标签信息包括与所述样本语句相关联的特定词以及标记词,所述特定词包括特定方面词以及特定观点词,标记词包括方面词种类以及情感极性。
3.根据权利要求1所述的基于情感分析的文本语句处理方法,其特征在于,所述获根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列,包括步骤:
对于每一组四元组标签信息,根据所述特定词在所述样本语句的初始句子序列上的位置索引,获取特定词索引向量,其中,所述特定词索引信息包括方面词索引向量以及观点词索引向量;
根据所述标记词在预设的映射表上的相应列表的索引,获取标记词索引向量,其中,所述标记词索引向量包括方面词种类索引向量以及情感极性索引向量;
将所述特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行组合,构建所述样本语句的四元组标签序列。
4.根据权利要求3所述的基于情感分析的文本语句处理方法,其特征在于,所述将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值,包括步骤:
获取所述样本语句的初始句子序列对应的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述样本语句的多维句子序列;
确定所述四元组标签序列的各个四元组标签表示的对应的目标词,获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,并获取所述目标标签序列对应的词嵌入表示,其中,所述目标标签序列对应的词嵌入表示包括目标词为方面词种类对应的词嵌入表示以及目标词为情感极性对应的词嵌入表示;
根据所述样本语句的多维句子序列以及四元组标签序列对应的目标标签序列,获取所述样本语句的状态表示;
根据所述样本语句的词嵌入表示、多维句子序列、多维状态表示、所述目标标签序列对应的词嵌入表示以及预设的第一损失值计算算法,获取所述第一损失值,其中,所述第一损失值计算算法为:
Figure 387408DEST_PATH_IMAGE001
式中,
Figure 361180DEST_PATH_IMAGE002
为所述样本语句的多维句子序列;
Figure 267012DEST_PATH_IMAGE003
Figure 857393DEST_PATH_IMAGE002
经所述词嵌入模型的线性层的输出;
Figure 430457DEST_PATH_IMAGE004
为所述样本语句的词嵌入表示;
Figure 39162DEST_PATH_IMAGE005
为所述线性层的权重矩阵;
Figure 773899DEST_PATH_IMAGE006
为概率分布;
Figure 100844DEST_PATH_IMAGE007
为所述目标词为方面词种类对应的词嵌入表示;
Figure 212020DEST_PATH_IMAGE008
为所述目标词为情感极性对应的词嵌入表示;
Figure 425964DEST_PATH_IMAGE009
为所述样本语句的状态表示;
Figure 112029DEST_PATH_IMAGE010
为所述第一损失值;m为所述目标标签序列的长度,
Figure 411423DEST_PATH_IMAGE011
为所述四元组序列的索引向量,X为所述样本语句的初始句子序列,t为时间步进,
Figure 60710DEST_PATH_IMAGE012
为归一化函数。
5.根据权利要求4所述的基于情感分析的文本语句处理方法,其特征在于,所述构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列,包括步骤:
结合预设的上下文信息,以及所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,构建所述样本语句的若干个正例语句表示;
获取任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示;
将所述样本语句的初始句子序列分别与每个正例语句表示、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。
6.根据权利要求5所述的基于情感分析的文本语句处理方法,其特征在于,所述根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值,包括步骤:
根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集,其中,所述样本正例查询语句序列训练集包括若干组样本正例查询语句序列;
根据所述若干个样本正例查询语句序列训练集以及预设的第二损失值计算算法,获取所述各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值,其中,所述第二损失值计算算法为:
Figure 646937DEST_PATH_IMAGE013
式中,
Figure 254636DEST_PATH_IMAGE014
为当前样本正例查询语句序列训练集中索引为j的样本正例查询语句序列和索引为c的样本正例查询语句序列之间的第二损失值,h为样本正例查询语句序列,jkc为所述样本正例查询语句序列的第一索引参数、第二索引参数以及第三索引参数,
Figure 41326DEST_PATH_IMAGE015
为与
Figure 743572DEST_PATH_IMAGE016
属于同种类型的样本正例查询语句序列,
Figure 932108DEST_PATH_IMAGE017
为全部样本正例查询语句序列;若
Figure 710708DEST_PATH_IMAGE018
Figure 233962DEST_PATH_IMAGE019
,反之
Figure 490631DEST_PATH_IMAGE020
Figure 782941DEST_PATH_IMAGE021
为温度参数;
Figure 466863DEST_PATH_IMAGE022
为内积函数;N
Figure 228146DEST_PATH_IMAGE023
Figure 540703DEST_PATH_IMAGE016
相同类型的样本正例查询语句序列的数目,
Figure 438252DEST_PATH_IMAGE024
表示
Figure 27496DEST_PATH_IMAGE023
Figure 525342DEST_PATH_IMAGE016
的类型相同的样本正例查询语句序列的数目,B为训练批次。
7.根据权利要求6所述的基于情感分析的文本语句处理方法,其特征在于,所述将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值,包括步骤:
根据所述四元组表示以及预设的预测标签值计算算法,获取所述各个四元组表示对应的预测标签值,其中,所述预测标签值计算算法为:
Figure 389393DEST_PATH_IMAGE025
式中,
Figure 141448DEST_PATH_IMAGE026
为所述预测标签值,W为所述全连接网络的权重参数,
Figure 682020DEST_PATH_IMAGE027
为所述四元组表示,
Figure 417895DEST_PATH_IMAGE028
,其中,
Figure 554478DEST_PATH_IMAGE029
为所述正例查询语句序列,
Figure 675887DEST_PATH_IMAGE030
为所述负例查询语句序列,b为所述全连接网络的偏置参数;
根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集,其中,所述四元组表示训练集包括若干个四元组表示;
根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,获取所述各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值,其中,所述第三损失值计算算法为:
Figure 138092DEST_PATH_IMAGE031
式中,
Figure 95684DEST_PATH_IMAGE032
为当前四元组表示训练集的第三损失值,
Figure 553735DEST_PATH_IMAGE033
为当前四元组表示训练集中第q个四元组表示对应的属于p类别的真实标签值,其中,p类别包括正例类别以及负例类别,用于区分所述四元组表示属于正例表示还是负例表示;
Figure 280382DEST_PATH_IMAGE034
为当前四元组表示训练集中第q个四元组表示对应的属于p类别的预测标签值。
8.一种基于情感分析的文本语句处理装置,其特征在于,包括:
第一获取模块,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
第二获取模块,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
第一损失值计算模块,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
第二损失值计算模块,用于基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列,根据所述正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
第三损失值计算模块,用于将所述对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述各个四元组表示对应的真实标签值,将所述若干个四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
训练模块,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
分析模块,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于情感分析的文本语句处理方法的步骤。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于情感分析的文本语句处理方法的步骤。
CN202210595568.7A 2022-05-30 2022-05-30 基于情感分析的文本语句处理方法、装置以及设备 Active CN114676695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210595568.7A CN114676695B (zh) 2022-05-30 2022-05-30 基于情感分析的文本语句处理方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210595568.7A CN114676695B (zh) 2022-05-30 2022-05-30 基于情感分析的文本语句处理方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN114676695A true CN114676695A (zh) 2022-06-28
CN114676695B CN114676695B (zh) 2022-09-02

Family

ID=82079912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210595568.7A Active CN114676695B (zh) 2022-05-30 2022-05-30 基于情感分析的文本语句处理方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114676695B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115712726A (zh) * 2022-11-08 2023-02-24 华南师范大学 基于双词嵌入的情感分析方法、装置以及设备
CN115906863A (zh) * 2022-10-25 2023-04-04 华南师范大学 基于对比学习的情感分析方法、装置、设备以及存储介质
CN116151263A (zh) * 2023-04-24 2023-05-23 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116562305A (zh) * 2023-07-10 2023-08-08 江西财经大学 方面情感四元组预测方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
US20160171386A1 (en) * 2014-12-15 2016-06-16 Xerox Corporation Category and term polarity mutual annotation for aspect-based sentiment analysis
US20170109633A1 (en) * 2015-10-15 2017-04-20 Sap Se Comment-comment and comment-document analysis of documents
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111191428A (zh) * 2019-12-27 2020-05-22 北京百度网讯科技有限公司 评论信息处理方法、装置、计算机设备和介质
CN112800184A (zh) * 2021-01-13 2021-05-14 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114091478A (zh) * 2021-11-30 2022-02-25 复旦大学 基于有监督对比学习与回复生成辅助的对话情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
US20160171386A1 (en) * 2014-12-15 2016-06-16 Xerox Corporation Category and term polarity mutual annotation for aspect-based sentiment analysis
US20170109633A1 (en) * 2015-10-15 2017-04-20 Sap Se Comment-comment and comment-document analysis of documents
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111191428A (zh) * 2019-12-27 2020-05-22 北京百度网讯科技有限公司 评论信息处理方法、装置、计算机设备和介质
CN112800184A (zh) * 2021-01-13 2021-05-14 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114091478A (zh) * 2021-11-30 2022-02-25 复旦大学 基于有监督对比学习与回复生成辅助的对话情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGJIE CAI ET AL.: "Aspect-Category-Opinion-Sentiment Quadruple Extraction Aspect-Category-Opinion-Sentiment Quadruple Extraction", 《PROCEEDINGS OF THE 59TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 11TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
王连喜: "基于"属性-情感词"汽车本体的文本情感分析", 《计算机技术与发展》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906863A (zh) * 2022-10-25 2023-04-04 华南师范大学 基于对比学习的情感分析方法、装置、设备以及存储介质
CN115906863B (zh) * 2022-10-25 2023-09-12 华南师范大学 基于对比学习的情感分析方法、装置、设备以及存储介质
CN115712726A (zh) * 2022-11-08 2023-02-24 华南师范大学 基于双词嵌入的情感分析方法、装置以及设备
CN115712726B (zh) * 2022-11-08 2023-09-12 华南师范大学 基于双词嵌入的情感分析方法、装置以及设备
CN116151263A (zh) * 2023-04-24 2023-05-23 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116562305A (zh) * 2023-07-10 2023-08-08 江西财经大学 方面情感四元组预测方法与系统
CN116562305B (zh) * 2023-07-10 2023-09-12 江西财经大学 方面情感四元组预测方法与系统

Also Published As

Publication number Publication date
CN114676695B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114676695B (zh) 基于情感分析的文本语句处理方法、装置以及设备
CN110826335B (zh) 一种命名实体识别的方法和装置
CN110569846A (zh) 图像文字识别方法、装置、设备及存储介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN115204183B (zh) 基于知识增强的双通道情感分析方法、装置以及设备
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN112687328B (zh) 确定临床描述信息的表型信息的方法、设备和介质
CN115269882B (zh) 基于语义理解的知识产权检索系统及其方法
CN108205524B (zh) 文本数据处理方法和装置
CN115168592B (zh) 基于方面类别的语句情感分析方法、装置以及设备
CN115587597B (zh) 基于子句级关系图的方面词的情感分析方法以及装置
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113761843A (zh) 语音编辑方法、电子设备及计算机可读存储介质
Yu et al. IPPF-FE: an integrated peptide and protein function prediction framework based on fused features and ensemble models
CN115827878B (zh) 语句情感分析方法、装置以及设备
CN115618884B (zh) 基于多任务学习的言论分析方法、装置以及设备
CN115906863B (zh) 基于对比学习的情感分析方法、装置、设备以及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114722806A (zh) 文本处理方法、装置及设备
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN113255292B (zh) 基于预训练模型的端到端文本生成方法及相关设备
CN114238663A (zh) 一种材料数据用知识图谱分析方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant