CN111859957A - 情感原因子句标签的抽取方法、装置、设备及存储介质 - Google Patents

情感原因子句标签的抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111859957A
CN111859957A CN202010673630.0A CN202010673630A CN111859957A CN 111859957 A CN111859957 A CN 111859957A CN 202010673630 A CN202010673630 A CN 202010673630A CN 111859957 A CN111859957 A CN 111859957A
Authority
CN
China
Prior art keywords
emotional
description
cause
emotion
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010673630.0A
Other languages
English (en)
Other versions
CN111859957B (zh
Inventor
刘晶
孟凯
覃俊
李子茂
宋中山
夏梦
廖立婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202010673630.0A priority Critical patent/CN111859957B/zh
Publication of CN111859957A publication Critical patent/CN111859957A/zh
Application granted granted Critical
Publication of CN111859957B publication Critical patent/CN111859957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及计算机深度学习技术领域,公开了一种情感原因子句标签的抽取方法、装置、设备及存储介质,所述方法包括:获取目标文档的候选情感原因子句和情感描述子句,并基于候选情感原因子句和情感描述子句生成对应的情感原因特征和情感描述特征,将情感原因特征和情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,获取候选情感原因子句的相邻子句对应的目标相邻特征,对情感原因自注意力信息、情感描述自注意力信息以及目标相邻特征进行连接,获得特征连接信息,并对特征连接信息进行分类处理,获得情感原因子句标签以实现充分考虑文档中情感原因子句的特征信息,提高情感原因抽取的准确率。

Description

情感原因子句标签的抽取方法、装置、设备及存储介质
技术领域
本发明涉及计算机深度学习技术领域,尤其涉及一种情感原因子句标签的抽取方法、装置、设备及存储介质。
背景技术
随着计算机深度学习技术的发展,情感原因抽取越来越成为业内的研究重点,如某公司在收集到用户对公司产品和服务所给出的评价的感情倾向后,分析产生该评价的情感原因,可以帮助该公司更好的改进产品、改善用户体验,以及进一步地对用户进行个性化推荐。又如,通过收集公众对某热点事件的评价,分析产生该评价的情感原因,可为预防和平息公众负面情绪提供有力的决策依据。相应地,也对情感原因抽取提出了越来越高的要求,而现有技术在进行情感原因抽取时,未充分考虑文档中情感原因子句的特征信息,且情感原因抽取的工作量过大,抽取过程繁琐,导致抽取的情感原因子句的准确度和效率堪忧,因此,如何提高情感原因抽取的准确度和效率,成为一个亟待解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种情感原因子句标签的抽取方法、装置、设备及存储介质,旨在解决如何提高情感原因抽取的准确度和效率的技术问题。
为实现上述目的,本发明提供了一种情感原因子句标签的抽取方法,所述方法包括以下步骤:
获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
优选地,所述获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集的步骤之前,还包括:
从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,并获取所述相对位置对应的位置特征;
相应地,所述获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集的步骤,具体包括:
基于所述位置特征获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集。
优选地,所述从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,并获取所述相对位置对应的位置特征的步骤,具体包括:
从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,通过位置嵌入矩阵将所述相对位置转换为位置向量;
将所述位置向量通过线性整流函数进行非线性变换,获得非线性数据;
对所述非线性数据进行线性变换,获得对应的位置特征。
优选地,所述将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征的步骤,具体包括:
通过Word2vec模型将所述情感原因词汇集映射为情感原因向量;
将所述情感原因向量输入至预设双向长短期记忆网络中进行编码处理,以获得正向情感原因向量和反向情感原因向量;
基于所述正向情感原因向量、所述反向情感原因向量以及所述位置特征生成情感原因特征;
通过所述Word2vec模型将所述情感描述词汇集映射为情感描述向量;
将所述情感描述向量输入至所述预设双向长短期记忆网络中进行编码处理,以获得正向情感描述向量和反向情感描述向量;
基于所述正向情感描述向量和所述反向情感描述向量生成情感描述特征。
优选地,所述将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息的步骤,具体包括:
将所述情感原因特征输入至预设自注意力模型中分别与查询矩阵、键值矩阵以及值矩阵相乘,获得对应的情感原因查询向量、情感原因键值向量以及情感原因值向量,并将所述情感描述特征输入至所述预设自注意力模型中分别与所述查询矩阵、所述键值矩阵以及所述值矩阵相乘,获得对应的情感描述查询向量、情感描述键值向量以及情感描述值向量;
将所述情感原因查询向量、所述情感原因键值向量以及所述情感描述键值向量输入至softmax层中进行评分,获得情感原因评分结果,并将所述情感描述查询向量、所述情感描述键值向量以及所述情感原因键值向量输入至所述softmax层中进行评分,获得情感描述评分结果;
基于所述情感原因评分结果和所述情感原因值向量生成情感原因自注意力信息,并基于所述情感描述评分结果和所述情感描述值向量生成情感描述自注意力信息。
优选地,所述获取所述候选情感原因子句的相邻子句对应的目标相邻特征的步骤,具体包括:
获取所述候选情感原因子句的相邻子句,并将所述相邻子句输入至卷积神经网络中进行分词,获得目标相邻词汇集;
通过Word2vec模型将所述目标相邻词汇集映射为目标相邻向量;
对所述目标相邻向量进行卷积操作,获得相邻卷积结果;
对所述相邻卷积结果进行池化操作,获得相邻池化结果;
将所述相邻池化结果通过全连接层进行连接,获得相邻连接结果;
对所述相邻连接结果进行线性变换,获得目标相邻特征。
优选地,所述对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签的步骤,具体包括:
对所述情感原因自注意力信息、所述情感描述自注意力信息、所述情感原因特征以及所述情感描述特征进行特征融合,获得融合特征;
将所述融合特征和所述目标相邻特征通过全连接层进行连接,获得特征连接信息;
将所述特征连接信息输入至softmax层中进行分类处理,获得情感原因子句标签。
此外,为实现上述目的,本发明还提出一种情感原因子句标签的抽取装置,所述装置包括以下步骤:
词汇集获取模块,用于获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
情感特征获取模块,用于将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
自注意力信息获取模块,用于将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
目标相邻特征获取模块,用于获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
情感原因标签获取模块,用于对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
此外,为实现上述目的,本发明还提出一种情感原因子句标签的抽取设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情感原因子句标签的抽取程序,所述情感原因子句标签的抽取程序配置为实现如上文所述的情感原因子句标签的抽取方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有情感原因子句标签的抽取程序,所述情感原因子句标签的抽取程序被处理器执行时实现如上文所述的情感原因子句标签的抽取方法的步骤。
本发明获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集,将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征,将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,获取所述候选情感原因子句的相邻子句对应的目标相邻特征,对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。通过预设双向长短期记忆网络分别获取所述情感原因词汇集对应的情感原因特征和所述情感描述词汇集对应的情感描述特征以提高所述情感原因特征和所述情感描述特征的获取精度和获取效率,进一步地,也提高了情感原因子句的抽取效率,通过将情感原因特征和情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,再将情感原因自注意力信息和情感描述自注意力信息与目标相邻特征进行特征连接以实现充分融合文档中情感原因子句的特征信息,提高情感原因抽取的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的情感原因子句标签的抽取设备的结构示意图;
图2为本发明情感原因子句标签的抽取方法第一实施例的流程示意图;
图3为本发明情感原因子句标签的抽取方法第二实施例的流程示意图;
图4为本发明情感原因子句标签的抽取装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的情感原因子句标签的抽取设备结构示意图。
如图1所示,该情感原因子句标签的抽取设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对情感原因子句标签的抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及情感原因子句标签的抽取程序。
在图1所示的情感原因子句标签的抽取设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明情感原因子句标签的抽取设备中的处理器1001、存储器1005可以设置在情感原因子句标签的抽取设备中,所述情感原因子句标签的抽取设备通过处理器1001调用存储器1005中存储的情感原因子句标签的抽取程序,并执行本发明实施例提供的情感原因子句标签的抽取方法。
本发明实施例提供了一种情感原因子句标签的抽取方法,参照图2,图2为本发明情感原因子句标签的抽取方法第一实施例的流程示意图。
本实施例中,所述情感原因子句标签的抽取方法包括以下步骤:
步骤S10:获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
易于理解的是,在获取目标文档的候选情感原因子句和情感描述子句之前,可先从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置P,所述预设数据集为用以存储预设情感原因子句和预设情感描述子句的数据集,所述预设原因子句为在所述预设数据集中用以表明情感产生原因的子句,所述预设情感描述子句为在所述预设数据集中用以描述情感状态的子句,然后通过位置嵌入矩阵(Position Embedding,PE)将所述相对位置P转换为位置向量Pe,即Pe=PE(P),接着对所述位置向量Pe进行线性变换(Linear),获得线性数据Pel,即Pel=Linear(Pe),然后通过线性整流函数(RectifiedLinear Unit,ReLU)对线性数据Pel进行非线性变换,获得非线性数据Per,即Per=ReLU(Pel),接着对所述非线性数据Per进行线性变换,获得对应的位置特征Pf,即Pf=Linear(Per)。所述预设数据集为存储有所述相对位置P的训练集,所述相对位置P基于预设数据集中的预设情感原因子句和预设情感描述子句统计获得,所述预设情感原因子句和所述预设情感描述子句为从供以训练的预设文档数据中提取的子句,然后对所述预设情感原因子句和所述预设情感描述子句进行情感原因抽取训练,并统计所述预设情感原因子句和所述预设情感描述子句之间的位置关系,即为相对位置P。
在具体实现中,在获得所述位置特征Pf后,可基于所述位置特征Pf获取目标文档的候选情感原因子句和情感描述子句,所述目标文档为需要进行情感原因子句标签抽取的文档,所述候选情感原因子句为在所述目标文档中情感原因子句的候选子句,所述情感原因子句可为用以表明目标文档所记载的某一事件中情感产生原因的子句,所述情感描述子句为所述目标文档所记载的某一事件中用以描述情感状态的子句,如获取到某一事件为:X1小明考了满分,X2所以很开心,X3回家路上都蹦蹦跳跳的,则可以获取到X2为情感描述子句,X1、X3为候选情感原因子句。然后获取所述候选情感原因子句和所述情感描述子句之间的实际相对位置,并通过所述实际相对位置对所述位置特征Pf进行实时修正和更新。然后对所述候选情感原因子句和情感描述子句进行去符号处理、表情符号转文字处理、错别字更正处理等,接着对经上述处理后的情感原因子句进行分词处理,获得情感原因词汇集,对经上述处理后的情感描述子句进行分词处理,获得情感描述词汇集。
步骤S20:将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
需要说明的是,在获得所述情感原因词汇集和所述情感描述词汇集后,可通过Word2vec(word to vector)模型将所述情感原因词汇集映射为情感原因向量,将所述情感描述词汇集映射为情感描述向量,然后将所述情感原因向量和所述情感描述向量输入至预设双向长短期记忆网络中进行编码处理,获取所述情感原因向量对应的情感原因特征hc和所述情感描述向量对应的情感描述特征hd,所述预设双向长短期记忆网络基于双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)建立,然后根据本实施例所述的情感原因向量和情感描述向量进行适应性更改,以提高对所述情感原因向量和所述情感描述向量的识别度,进一步地,也提高了基于所述情感原因向量生成的情感原因特征和基于所述情感描述向量生成的情感描述特征的准确度。
在具体实现中,在获得所述情感原因词汇集后,可通过Word2vec模型将所述情感原因词汇集映射为情感原因向量,再将所述情感原因向量输入至预设双向长短期记忆网络中进行编码处理,以获得正向情感原因向量
Figure BDA0002585806370000081
和反向情感原因向量
Figure BDA0002585806370000082
然后基于所述正向情感原因向量
Figure BDA0002585806370000083
反向情感原因向量
Figure BDA0002585806370000084
以及位置特征Pf生成情感原因特征hc,即
Figure BDA0002585806370000085
在获得所述情感描述词汇集后,可通过Word2vec模型将所述情感描述词汇集映射为情感描述向量,再将所述情感描述向量输入至所述预设双向长短期记忆网络中进行编码处理,以获得正向情感描述向量
Figure BDA0002585806370000086
和反向情感描述向量
Figure BDA0002585806370000087
然后基于所述正向情感描述向量
Figure BDA0002585806370000088
和反向情感描述向量
Figure BDA0002585806370000089
生成情感描述特征hd,即
Figure BDA00025858063700000810
步骤S30:将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
易于理解的是,在获得所述情感原因特征hc和所述情感描述特征hd后,可将所述情感原因特征和所述情感描述特征输入至预设自注意力模型中进行计算,获得对应的情感原因自注意力信息zc和情感描述自注意力信息zd,具体计算过程可参见本发明情感原因子句标签的抽取方法第二实施例,本实施例在此不予赘述。所述预设自注意力模型基于自注意力神经网络建立,然后根据本实施例所述的情感原因特征和情感描述特征进行适应性更改,以提高对所述情感原因特征和所述情感描述特征的识别度,进一步地,也提高了基于所述情感原因特征计算获得的情感原因自注意力信息和基于所述情感描述特征计算获得的情感描述自注意力信息的准确度。
步骤S40:获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
需要说明的是,在获取到所述候选情感原因子句的情感原因特征时,还可获取所述候选情感原因子句的相邻子句,并将所述相邻子句输入至卷积神经网络中进行分词,获得目标相邻词汇集,然后通过Word2vec模型将所述目标相邻词汇集映射为目标相邻向量,再对所述目标相邻向量分别做三次卷积操作,获得对应的相邻卷积结果C1、C2、C3,接着对所述相邻卷积结果C1、C2、C3通过线性整流函数(Rectified Linear Unit,ReLU)进行非线性变换,然后对非线性变换后的C1、C2、C3进行池化操作(MaxPool),获得相邻池化结果F1、F2、F3,即F1=MaxPool(ReLU(C1)),F2=MaxPool(ReLU(C2)),F3=MaxPool(ReLU(C3)),再将所述相邻池化结果F1、F2、F3通过全连接层进行连接(concat),获得相邻连接结果,最后对所述相邻连接结果进行线性变换(Linear),获得目标相邻特征F,即F=Linear(concat(F1,F2,F3))。
步骤S50:对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
易于理解的是,在获得所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征时,可对所述情感原因自注意力信息zc和情感原因特征hc进行特征融合,获得情感原因融合特征rc,即rc=zc+hc,并对所述所述情感描述自注意力信息zd和情感描述特征hd进行特征融合,获得情感描述融合特征rd,即rd=zd+hd,然后将情感原因融合特征rc,情感描述特征hd和目标相邻特征F通过所述全连接层进行连接,获得特征连接信息fcd,即fcd=concat(rc,rd,F),再对所述特征连接信息fcd进行线性变换,并将线性变换后的特征连接信息fcd输入至所述softmax层中进行分类处理,可理解为通过归一化指数函数(即softmax函数)进行分类处理,获得情感原因子句标签y,即y=softmax(Linear(fcd))。如,某文档在拆分为子句后,对应的7个子句为:C1对于鲁女士遇见老人跌倒立刻出手相助,C2还陪着老人一起等民警的行为,C3周围路过的多位居民都对她表示了赞扬,C4出警的民警表示,C5跌倒的老人真的需要有人帮助,C6否则可能会发生二次事故,C7毕竟因扶老人而被讹的概率是极低的。其中,C3子句因检测到“赞扬”这一词汇,可被定义为情感描述子句,在抽取情感原因子句时,可根据该情感描述子句C3通过上述方法获得特征连接信息,再将所述特征连接信息输入至所述softmax层中进行分类处理,获得所述情感原因子句标签为C1,也可通过softmax函数获取其他子句(C1,C2,C4,C5,C6,C7)成为情感原因子句的概率,选出概率最大的子句作为C3对应的情感原因子句标签,即C1。
本实施例获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集,将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征,将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,获取所述候选情感原因子句的相邻子句对应的目标相邻特征,对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。通过预设双向长短期记忆网络分别获取所述情感原因词汇集对应的情感原因特征和所述情感描述词汇集对应的情感描述特征以提高所述情感原因特征和所述情感描述特征的获取精度和获取效率,进一步地,也提高了情感原因子句的抽取效率,通过将情感原因特征和情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,再将情感原因自注意力信息和情感描述自注意力信息与目标相邻特征进行特征连接以实现充分融合文档中情感原因子句的特征信息,提高情感原因抽取的准确率。
参考图3,图3为本发明情感原因子句标签的抽取方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S30包括:
步骤S301:将所述情感原因特征输入至预设自注意力模型中分别与查询矩阵、键值矩阵以及值矩阵相乘,获得对应的情感原因查询向量、情感原因键值向量以及情感原因值向量,并将所述情感描述特征输入至所述预设自注意力模型中分别与所述查询矩阵、所述键值矩阵以及所述值矩阵相乘,获得对应的情感描述查询向量、情感描述键值向量以及情感描述值向量;
需要说明的是,在获得所述情感原因特征hc后,可将所述目标情感原因特征hc输入至预设自注意力模型中分别与查询矩阵WQ、键值矩阵WK以及值矩阵WV相乘,并将获得的乘积分别通过线性整流函数(Rectified Linear Unit,ReLU)进行非线性变换,获得对应的情感原因查询向量qc、情感原因键值向量kc以及情感原因值向量vc,即qc=ReLU(hcWQ),kc=ReLU(hcWk),vc=ReLU(hcWv);
相应地,在获得所述情感描述特征hd后,可将所述目标情感描述特征hd输入至预设自注意力模型中分别与查询矩阵WQ、键值矩阵WK以及值矩阵WV相乘,并将获得的乘积分别通过线性整流函数进行非线性变换,获得对应的情感描述查询向量qd、情感描述键值向量kd以及情感描述值向量vd,即qd=ReLU(hdWQ),kd=ReLU(hdWk),vd=ReLU(hdWv)。
步骤S302:将所述情感原因查询向量、所述情感原因键值向量以及所述情感描述键值向量输入至softmax层中进行评分,获得情感原因评分结果,并将所述情感描述查询向量、所述情感描述键值向量以及所述情感原因键值向量输入至所述softmax层中进行评分,获得情感描述评分结果;
步骤S303:基于所述情感原因评分结果和所述情感原因值向量生成情感原因自注意力信息,并基于所述情感描述评分结果和所述情感描述值向量生成情感描述自注意力信息。
易于理解的是,在获得情感原因查询向量qc、情感原因键值向量kc、情感原因值向量vc、情感描述查询向量qd、情感描述键值向量kd以及情感描述值向量vd后,可将所述情感原因查询向量qc、所述情感原因键值向量kc以及所述情感描述键值向量kd输入至softmax层中进行评分,获得情感原因评分结果βc,即
Figure BDA0002585806370000111
接着,基于所述情感原因评分结果βc和所述情感原因值向量vc生成情感原因自注意力信息zc,即zc=βc*vc
相应地,在获得情感原因查询向量qc、情感原因键值向量kc、情感原因值向量vc、情感描述查询向量qd、情感描述键值向量kd以及情感描述值向量vd后,可将所述情感描述查询向量qd、所述情感描述键值向量kd以及所述情感原因键值向量kc输入至softmax层中进行评分,获得情感描述评分结果βd,即
Figure BDA0002585806370000121
接着,基于所述情感描述评分结果βd和所述情感描述值向量vd生成情感描述自注意力信息zd,即zd=βd*vd
本实施例将所述情感原因特征输入至预设自注意力模型中分别与查询矩阵、键值矩阵以及值矩阵相乘,获得对应的情感原因查询向量、情感原因键值向量以及情感原因值向量,并将所述情感描述特征输入至所述预设自注意力模型中分别与所述查询矩阵、所述键值矩阵以及所述值矩阵相乘,获得对应的情感描述查询向量、情感描述键值向量以及情感描述值向量,将所述情感原因查询向量、所述情感原因键值向量以及所述情感描述键值向量输入至softmax层中进行评分,获得情感原因评分结果,并将所述情感描述查询向量、所述情感描述键值向量以及所述情感原因键值向量输入至所述softmax层中进行评分,获得情感描述评分结果,基于所述情感原因评分结果和所述情感原因值向量生成情感原因自注意力信息,并基于所述情感描述评分结果和所述情感描述值向量生成情感描述自注意力信息。通过预设自注意力模型将所述情感原因特征和所述情感描述特征对应转换成情感原因自注意力信息和情感描述自注意力信息,以提高所述情感原因自注意力信息和所述情感描述自注意力信息的生成效率和生成精度,进一步地,也提高了后续基于所述情感原因自注意力信息和所述情感描述自注意力信息抽取情感原因子句标签时的准确度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有情感原因子句标签的抽取程序,所述情感原因子句标签的抽取程序被处理器执行时实现如上文所述的情感原因子句标签的抽取方法的步骤。
参照图4,图4为本发明情感原因子句标签的抽取装置第一实施例的结构框图。
如图4所示,本发明实施例提出的情感原因子句标签的抽取装置包括:
词汇集获取模块10,用于获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
情感特征获取模块20,用于将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
自注意力信息获取模块30,用于将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
目标相邻特征获取模块40,用于获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
情感原因标签获取模块50,用于对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
本实施例获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集,将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征,将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,获取所述候选情感原因子句的相邻子句对应的目标相邻特征,对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。通过预设双向长短期记忆网络分别获取所述情感原因词汇集对应的情感原因特征和所述情感描述词汇集对应的情感描述特征以提高所述情感原因特征和所述情感描述特征的获取精度和获取效率,进一步地,也提高了情感原因子句的抽取效率,通过将情感原因特征和情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息,再将情感原因自注意力信息和情感描述自注意力信息与目标相邻特征进行特征连接以实现充分考虑文档中情感原因子句的特征信息,提高了情感原因抽取的准确率。
本发明情感原因子句标签的抽取装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种情感原因子句标签的抽取方法,其特征在于,所述方法包括以下步骤:
获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
2.如权利要求1所述的方法,其特征在于,所述获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集的步骤之前,还包括:
从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,并获取所述相对位置对应的位置特征;
相应地,所述获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集的步骤,具体包括:
基于所述位置特征获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集。
3.如权利要求2所述的方法,其特征在于,所述从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,并获取所述相对位置对应的位置特征的步骤,具体包括:
从预设数据集中提取预设情感原因子句和预设情感描述子句之间的相对位置,通过位置嵌入矩阵将所述相对位置转换为位置向量;
将所述位置向量通过线性整流函数进行非线性变换,获得非线性数据;
对所述非线性数据进行线性变换,获得对应的位置特征。
4.如权利要求2所述的方法,其特征在于,所述将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征的步骤,具体包括:
通过Word2vec模型将所述情感原因词汇集映射为情感原因向量;
将所述情感原因向量输入至预设双向长短期记忆网络中进行编码处理,以获得正向情感原因向量和反向情感原因向量;
基于所述正向情感原因向量、所述反向情感原因向量以及所述位置特征生成情感原因特征;
通过所述Word2vec模型将所述情感描述词汇集映射为情感描述向量;
将所述情感描述向量输入至所述预设双向长短期记忆网络中进行编码处理,以获得正向情感描述向量和反向情感描述向量;
基于所述正向情感描述向量和所述反向情感描述向量生成情感描述特征。
5.如权利要求1所述的方法,其特征在于,所述将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息的步骤,具体包括:
将所述情感原因特征输入至预设自注意力模型中分别与查询矩阵、键值矩阵以及值矩阵相乘,获得对应的情感原因查询向量、情感原因键值向量以及情感原因值向量,并将所述情感描述特征输入至所述预设自注意力模型中分别与所述查询矩阵、所述键值矩阵以及所述值矩阵相乘,获得对应的情感描述查询向量、情感描述键值向量以及情感描述值向量;
将所述情感原因查询向量、所述情感原因键值向量以及所述情感描述键值向量输入至softmax层中进行评分,获得情感原因评分结果,并将所述情感描述查询向量、所述情感描述键值向量以及所述情感原因键值向量输入至所述softmax层中进行评分,获得情感描述评分结果;
基于所述情感原因评分结果和所述情感原因值向量生成情感原因自注意力信息,并基于所述情感描述评分结果和所述情感描述值向量生成情感描述自注意力信息。
6.如权利要求1所述的方法,其特征在于,所述获取所述候选情感原因子句的相邻子句对应的目标相邻特征的步骤,具体包括:
获取所述候选情感原因子句的相邻子句,并将所述相邻子句输入至卷积神经网络中进行分词,获得目标相邻词汇集;
通过Word2vec模型将所述目标相邻词汇集映射为目标相邻向量;
对所述目标相邻向量进行卷积操作,获得相邻卷积结果;
对所述相邻卷积结果进行池化操作,获得相邻池化结果;
将所述相邻池化结果通过全连接层进行连接,获得相邻连接结果;
对所述相邻连接结果进行线性变换,获得目标相邻特征。
7.如权利要求1所述的方法,其特征在于,所述对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签的步骤,具体包括:
对所述情感原因自注意力信息、所述情感描述自注意力信息、所述情感原因特征以及所述情感描述特征进行特征融合,获得融合特征;
将所述融合特征和所述目标相邻特征通过全连接层进行连接,获得特征连接信息;
将所述特征连接信息输入至softmax层中进行分类处理,获得情感原因子句标签。
8.一种情感原因子句标签的抽取装置,其特征在于,所述装置包括以下步骤:
词汇集获取模块,用于获取目标文档的候选情感原因子句和情感描述子句,并分别对所述候选情感原因子句和所述情感描述子句进行分词,获得对应的情感原因词汇集和情感描述词汇集;
情感特征获取模块,用于将所述情感原因词汇集和所述情感描述词汇集输入至预设双向长短期记忆网络中进行编码处理,以获得情感原因特征和情感描述特征;
自注意力信息获取模块,用于将所述情感原因特征和所述情感描述特征输入至预设自注意力模型,以获得情感原因自注意力信息和情感描述自注意力信息;
目标相邻特征获取模块,用于获取所述候选情感原因子句的相邻子句对应的目标相邻特征;
情感原因标签获取模块,用于对所述情感原因自注意力信息、所述情感描述自注意力信息以及所述目标相邻特征进行连接,获得特征连接信息,并对所述特征连接信息进行分类处理,获得情感原因子句标签。
9.一种情感原因子句标签的抽取设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情感原因子句标签的抽取程序,所述情感原因子句标签的抽取程序配置为实现如权利要求1至7中任一项所述的情感原因子句标签的抽取方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有情感原因子句标签的抽取程序,所述情感原因子句标签的抽取程序被处理器执行时实现如权利要求1至7任一项所述的情感原因子句标签的抽取方法的步骤。
CN202010673630.0A 2020-07-15 2020-07-15 情感原因子句标签的抽取方法、装置、设备及存储介质 Active CN111859957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010673630.0A CN111859957B (zh) 2020-07-15 2020-07-15 情感原因子句标签的抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010673630.0A CN111859957B (zh) 2020-07-15 2020-07-15 情感原因子句标签的抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111859957A true CN111859957A (zh) 2020-10-30
CN111859957B CN111859957B (zh) 2023-11-07

Family

ID=72984680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010673630.0A Active CN111859957B (zh) 2020-07-15 2020-07-15 情感原因子句标签的抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111859957B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095085A (zh) * 2021-03-30 2021-07-09 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113486657A (zh) * 2021-07-26 2021-10-08 刘德喜 一种基于知识辅助的情感-原因对抽取系统
CN114357164A (zh) * 2021-12-29 2022-04-15 武汉大学 情感-原因对抽取方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209824A (zh) * 2019-06-13 2019-09-06 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110287326A (zh) * 2019-07-03 2019-09-27 上海冰鉴信息科技有限公司 一种带背景描述的企业情感分析方法
CN110427490A (zh) * 2019-07-03 2019-11-08 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111382565A (zh) * 2020-03-09 2020-07-07 南京理工大学 基于多标签的情绪-原因对抽取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209824A (zh) * 2019-06-13 2019-09-06 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110287326A (zh) * 2019-07-03 2019-09-27 上海冰鉴信息科技有限公司 一种带背景描述的企业情感分析方法
CN110427490A (zh) * 2019-07-03 2019-11-08 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111382565A (zh) * 2020-03-09 2020-07-07 南京理工大学 基于多标签的情绪-原因对抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋婷;陈战伟;: "基于方面情感的层次化双注意力网络", 信息技术与网络安全, no. 06, pages 28 - 34 *
颜孝为;肖化;: "基于注意力编码网络的细粒度文本情感分析研究", 网络安全技术与应用, no. 01, pages 53 - 55 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095085A (zh) * 2021-03-30 2021-07-09 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113095085B (zh) * 2021-03-30 2024-04-19 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113486657A (zh) * 2021-07-26 2021-10-08 刘德喜 一种基于知识辅助的情感-原因对抽取系统
CN114357164A (zh) * 2021-12-29 2022-04-15 武汉大学 情感-原因对抽取方法、装置、设备及可读存储介质
CN114357164B (zh) * 2021-12-29 2024-09-10 武汉大学 情感-原因对抽取方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN111859957B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN109522557B (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
JP2019114239A (ja) 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別
CN112507125A (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
CN111859957A (zh) 情感原因子句标签的抽取方法、装置、设备及存储介质
US20200004815A1 (en) Text entity detection and recognition from images
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
JP2014170539A (ja) 単一セル中の画像データ及びシンボルデータによるテーブルのソート及びフィルタリング
CN112380870A (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
US11599727B2 (en) Intelligent text cleaning method and apparatus, and computer-readable storage medium
CN112668341B (zh) 文本正则化方法、装置、设备和可读存储介质
CN110765765A (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN114359582B (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN113094538A (zh) 图像的检索方法、装置和计算机可读存储介质
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN112884009A (zh) 一种分类模型训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant