CN115203412B - 情感观点信息分析方法、装置、存储介质及电子设备 - Google Patents
情感观点信息分析方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115203412B CN115203412B CN202210800301.7A CN202210800301A CN115203412B CN 115203412 B CN115203412 B CN 115203412B CN 202210800301 A CN202210800301 A CN 202210800301A CN 115203412 B CN115203412 B CN 115203412B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- emotion
- text
- emotion polarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 311
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 230000003993 interaction Effects 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 128
- 238000005516 engineering process Methods 0.000 description 31
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000001364 causal effect Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000005251 gamma ray Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了情感观点信息分析方法、装置、存储介质及电子设备,可以应用于人工智能领域。上述方法包括:对语句文本进行特征提取,得到语句特征信息;对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,上述语句文本所包括的词中任意两个形成一个词对,上述情感极性信息基于对象和原因确定;根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,上述情感要素类别包括对象、原因或情感极性。本申请可显著提升情感观点信息提取的准确度。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及情感观点信息分析方法、装置、存储介质及电子设备。
背景技术
文本信息中可能存在可以反映用户对特定对象的兴趣倾向、情感倾向、情绪观点等的高价值信息,这些信息有助于持续对该特定对象进行优化,或者挖掘更深层次的服务方向。因此,对文本信息进行分析挖掘是十分重要的研究方向。以情感观点信息分析为例,相关技术对文本信息中的情感观点信息的分析方法较多的依赖于模式匹配或者单一的神经网络,情感观点信息的提取能力较弱,准确度也不高。
发明内容
为了解决上述至少一个技术问题,本申请实施例提供情感观点信息分析方法、装置、存储介质及电子设备。
一方面,本申请实施例提供了一种情感观点信息分析方法,所述方法包括:
对语句文本进行特征提取,得到语句特征信息;
对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息;
对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,所述语句文本所包括的词中任意两个形成一个词对,所述情感极性信息基于对象和原因确定;
根据所述各词分别对应的第一词信息和所述各词对分别对应的情感极性信息,预测所述语句文本中各词分别对应的情感要素类别,所述情感要素类别包括对象、原因或情感极性。
另一方面,本申请实施例提供一种情感观点信息分析装置,所述装置包括:
语句文本提取模块,用于对语句文本进行特征提取,得到语句特征信息;
序列信息提取模块,用于对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息;
情感极性提取模块,用于对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,所述语句文本所包括的词中任意两个形成一个词对,所述情感极性信息基于对象和原因确定;
预测模块,用于根据所述各词分别对应的第一词信息和所述各词对分别对应的情感极性信息,预测所述语句文本中各词分别对应的情感要素类别,所述情感要素类别包括对象、原因或情感极性。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种情感观点信息分析方法。
另一方面,本申请实施例提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种情感观点信息分析方法。
另一方面,本申请实施例提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述的一种情感观点信息分析方法。
本申请实施例提供一种情感观点信息的分析方法,该方案通过对于“对象”“原因”二元素进行文本序列信息提取,对于“情感极性”进行情感极性信息提取,从而对情感三元素中不同的元素进行分别关注和分别的信息提取,在文本序列信息提取和情感极性信息提取过程中进行双向信息交互,从而可以使得完整的情感观点信息的提取过程中充分考虑到“对象”和“原因”二元素与“情感极性”单元素之间存在的逻辑因果关系,从而显著提升情感观点信息提取的准确度。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案和优点,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本说明书实施例提供的情感观点信息分析方法的一种可行的实施框架示意图;
图2是本申请实施例提供的一种情感观点信息分析方法的流程示意图;
图3是本申请实施例提供的包含词对的表格的示意图;
图4是本申请实施例提供的基于从二元素到单元素的信息交互的情感极性信息预测的方法流程图;
图5是本申请实施例提供的根据第一词信息和情感极性信息预测情感要素类别的方法流程图;
图6是本申请实施例提供的由第一网络和第二网络构成的模型的架构示意图;
图7是本申请实施例提供的信息双向交互示意图;
图8是本申请实施例提供的情感观点信息分析装置的框图;
图9是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:
云技术(Cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
智能交通系统(Intelligent Traffic System,ITS)又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
智能车路协同系统(Intelligent Vehicle Infrastructure CooperativeSystems,IVICS),简称车路协同系统,是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同,保证交通安全,提高通行效率,从而形成的安全、高效和环保的道路交通系统。
BERT(Bidirectional Encoder Representation from Transformers,基于转换模型的双向编码表示模型),是大规模文本预训练模型,BERT用12层的transformerencoder(转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量),经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识,提供更精准的文本特征。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替。
情感三元素:包括对象、原因和情感极性三个元素,表征了一个完整的情感观点信息链路。以情感三元素(对象1,原因1,情感极性1)为例,该情感三元素表征出于原因1的考量,用户对对象1持有情感极性1。比如,以情感三元素(沙发、贵、不喜欢)为例,该情感三元素表征因为沙发贵,用户对沙发持有的情感极性是不喜欢。
目前,相关技术中可以依赖于模式匹配或者单一的神经网络对文本信息,比如,用户的评论信息进行情感观点信息提取。以模式匹配为例,这种类型的技术方案可以基于规则匹配的方法,匹配出评论数据中表示情绪或者兴趣等信息的敏感词,从而得到情感观点信息。这种类型的技术方案局限性很大,不灵活,敏感词也容易通过各种手段规避,因此情感观点信息提取准确度也较差。基于神经网络进行信息挖掘是一个新的研究趋势,但是,相关技术中较多的是从情感三元素的角度考虑,训练单一神经网络直接预测得到情感观点信息。这一类的技术方案,目前较多的是一步到位的提取情感三元素,或者,也可以分别独立地提取情感三元组的三个元素,但是目前的相关技术中忽视了情感三元组中三个要素之间的逻辑因果联系,或者说,在基于神经网络抽取三个要素的场景中,没有将逻辑因果联系体现在神经网络的建模中,导致神经网络对情感观点信息的提取准确度受限。
事实上,情感三元素中的对象和原因,与,情感极性之间是具备逻辑因果关系的,即因为“对象”和“原因”,才得到“情感极性”。也就是说,“对象”和“原因”二元素与“情感极性”单元素之间存在信息交互,而对于这种信息交互,相关技术并没有在神经网络的建模过程中给与充分考量。
基于此,本申请实施例提供一种情感观点信息的分析方法,该方案通过对于“对象”“原因”二元素进行文本序列信息提取,对于“情感极性”进行情感极性信息提取,从而对情感三元素中不同的元素进行分别关注和分别的信息提取,在文本序列信息提取和情感极性信息提取过程中进行双向信息交互,从而可以使得完整的情感观点信息的提取过程中充分考虑到“对象”和“原因”二元素与“情感极性”单元素之间存在的逻辑因果关系,从而显著提升情感观点信息提取的准确度。
本申请实施例可以被应用于公有云、私有云或混合云场景之中,比如,本申请中的语句文本可以被存储于上述公有云、私有云或者混合云之中。私有云(Private Cloud)是将云基础设施与软硬件资源创建在防火墙内,以供机构或企业内各部门共享数据中心内的资源。公有云(Public Cloud)通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过Internet使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。这种云有许多实例,可在当今整个开放的公有网络中提供服务。混合云(Hybrid Cloud)融合了公有云(Public Cloud)和私有云(Private Cloud),是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。
请参阅图1,图1是本说明书实施例提供的情感观点信息分析方法的一种可行的实施框架示意图,如图1所示,该实施框架可以至少包括客户端10、情感观点信息分析处理器20,客户端10和情感观点信息分析处理器20通过网络30通信。情感观点信息分析处理器20可以对客户端10中被选择的文本信息,比如评论等进行情感观点分析,并将分析结果反馈至客户端10。本发明实施例的上述框架可以提供各种场景下的应用所需的情感观点信息分析能力,该应用包括但不限于云技术、云游戏、云渲染、人工智能、智慧交通、辅助驾驶、视频媒体、智能社区、即时通信等。该框架中各组件可以是终端设备或服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
以下介绍本申请实施例的一种情感观点信息分析方法,图2示出了本申请实施例提供的一种情感观点信息分析方法的流程示意图。本申请实施例提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境),上述方法可以包括:
S101.对语句文本进行特征提取,得到语句特征信息。
本申请实施例并不对语句文本的来源进行限定,其可以来自于用户针对某些特定对象的评论,也可以来源于一些公开的网站中的用户之间交流的数据,还可以来源于进行用户随访得到的数据。本申请实施例中所使用的与用户有关的数据都是经过用户的授权,在符合法律法规的前提下得到的。
本申请实施例并不对进行语句文本的特征提取的方法进行限定,比如,其可以使用卷积神经网络、编解码器或者深度学习网络等神经网络实施,在一个具体的实施方式中,可以使用基础编码器来执行步骤S101,给定一个含有N个单词的语句文本w={wi},1≤i≤N,其中wi表示语句文本中的第i个词,N为大于1的正整数。基础编码器将wi转换为其对应的已训练好的GloVe词向量表示xi,这样就可以将整个语句文本经过基础编码器得到语句特征信息,记为x={xi},1≤i≤N,x∈RN*d,其中,N表示语句文本中包含的词数量,d为词向量的向量维度,R表示实数集。其中,GloVe的全称是Global Vectors for WordRepresentation,它是一个基于全局词频统计的词表征工具,可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性、类比性等。通过对词向量的运算,比如欧几里得距离或者余弦相似度,可以计算出两个单词之间的语义相似性。
S102.对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息。
本申请实施例中使用文本序列信息提取来执行对象原因检测任务,也就是前文提到的“对象”“原因”二元素的检测任务。本申请实施例并不限定文本序列信息的具体提取方法,其只要能够对于语句特征信息进行序列敏感的特征提取即可,比如,可以依赖于编解码器(Transformer)、循环神经网络或者基于门循环单元((Gated Recurrent Unit,GRU)进行文本序列信息提取。
在一个可行的实施例中,可以使用序列编码器执行上述序列信息提取,具体地,可以将各词分别对应的文本特征依次输入上述序列编码器;对于当前输入词对应的文本特征,根据上述序列编码器记录的上述当前输入词之前的其他输入词的文本特征,对上述当前输入词对应的文本特征进行编码,得到上述当前输入词对应的第一词信息。
以门循环单元为例,本申请实施例可以使用门循环单元(GRU)作为序列编码器,通过序列编码器对前文得到的语句特征信息x进行进一步编码:
概要来说,该序列编码器通过下述四个主要公式对语句特征信息x进行进一步编码:
公式一:zt=σ(Wzxt+Uzht-1)
公式二:rt=σ(Wzxt+Utht-1)
公式三:
公式四:
其中,除去xt之外,其他参数比如Wz,Uz,W,U为该序列编码器的参数。xt表示x中的第t个元素。
语句特征信息可以包括语句文本中每个词对应的文本特征,依次将各个词对应的文本特征输入该序列编码器即可得到各词分别对应的第一词信息。根据当前的文本特征xt,和该序列编码器处理完上一个文本特征文本特征xt-1之后得到的隐状态ht-1,其中,ht-1包含了该语句特征信息中在文本特征xt之前的文本特征的相关信息。结合x_t和h_t-1,GRU会得到下一个隐状态ht。对于第一个输入的文本特征x1,可以创建一个可学习的表示h0,h0也属于该序列编码器的参数,该序列编码器的参数都可以通过对该序列编码器进行训练得到。在依次输入该语句特征信息中各个词的文本特征过后,即可得到各词分别对应的第一词信息,可以将其记为S’=[s’_1,s’_2,…,s’_N]。
S103.对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,上述语句文本所包括的词中任意两个形成一个词对,上述情感极性信息基于对象和原因确定。
本申请实施例中词对的含义为语句文本所包括的词中任意两个形成一个词对,以语句文本包括4个词为例,则任意两个相组合即可得到4*4=16个词对。在一个实施例中,可以通过表格表示词对,以语句文本为“nicebut expensive sofa”为例,其包括四个词,分别为“nice”、“but”、“expensive”、“sofa”,设置一个表格,表格横向依次分布这四个词,表格纵向也依次分布这四个词,则该表格包括16个格子,每个格子都表示一个词对。以图3为例,其示出一个包含词对的表格的示意图。以该表格中左上角为例,左上角格子对应于“nice”和“nice”构成的词对。
基于这种表格,可以在表格的格子中填写情绪极性信息,从而可以得到一个情感极性预测表,本申请实施例中可以通过情感极性预测表表示对于情感极性信息的预测结果。本申请实施例中可以通过表格编码器来执行步骤S103,从而得到情感极性预测表。
在一个实施例中,根据上述语句特征信息初始化情感极性预测表,由上述表格编码器对上述情感极性预测表进行编码更新。具体来说,表格编码器可以首先根据语句特征信息进行初始化,得到一个初始化状态的情感极性预测表T‘∈RN*N*d,其中,T‘m,n=ReLU([xm;xn]W‘+b‘),其中,T‘m,n中m和n分别表示词对中的词在语句文本中的序号,以前文“nicebut expensive sofa”为例,图3中左上角格子对应的词对中m和n就均为1。T‘m,n表示词对的情绪极性信息,W‘和b‘都是用于进行情绪极性信息提取的神经网络的参数,本申请实施例并不对该神经网络进行限定,只要其能够进行表格信息提取即可,比如,其可以是卷积神经网络、深度神经网络、门循环单元构成的神经网络或者多维门单元构成的神经网络(MDGRU)。ReLU是一种激活函数,本申请不限定激活函数的选择,也可以使用相关技术中其他的激活函数。
在一些实施例中,还可以基于该表格编码器对情感极性预测表进行进一步地编码,以增强词对之间的交互。以多维门循环单元(MDGRU)构成的表格编码器为例,本申请实施例对于MDGRU的基本原理进行下述说明:
MDGRU是GRU的扩展,对于每一个输入x,MDGRU可以接受3个前一时间步的状态(相当于每一步有4个信息输入到MDGRU中),然后得到当前时间步的一个输出h_t,这一原理可以通过下述公式表征:
公式五:其中,MDGRU表示多循环门单元的总映射。
对于MDGRU的具体计算原理,本申请实施例不做赘述,仅给出核心公式以做参考:
公式六:h_t=z⊙h~+(1-z)⊙h~ t-1
公式七:h~=tanh(xW'x+r⊙(h_t-1W'P)+b'h)
公式八:
公式九:γ1,γ2,γ3=softmax(γ1 ~,γ2 ~,γ3 ~)
公式十:γm ~=[x;h_t-1]w'γ m+b'γ m),m取值为1、2、3
公式十一:r=σ'([x;h_t-1]W'r+b'r)
公式十二:z=σ'([x;h_t-1]W'z+b'z)
公式十三:h_t-1=([h_t-1 1;h_t-1 2;h_t-1 3]
上述公式六到公式十三中涉及到的参数都是MDGRU的内部参数,具体含义可以参考MDGRU相关文献,其中,tanh和softmax分别表示激活函数和归一化函数,其他参数被记录在MDGRU内部,可以根据训练过程调整,并且在实际的情感极性信息预测中根据输入进行适应性变动,对此,本申请实施例不做赘述。
在编码过程中,可以针对每一词对,确定上述词对在上述情感极性预测表中对应的目标位置,以及获取上述目标位置关联的两个参考位置。进一步地,获取上述词对对应的交互信息,上述交互信息通过上述序列编码器的输出确定。最终,根据上述情感极性预测表在上述目标位置的更新前的值、在上述两个参考位置的最新更新值和上述交互信息,得到上述情感极性预测表在上述目标位置的最新更新值。
具体来说,可以根据下述公式来表示上述情感极性信息的编码更新过程:
公式十四:Tm,n=ReLU(T‘m,n,S‘m,n,Tm-1,n,Tm,n-1),当然,ReLU也可以使用其他激活函数代替。
其中,T‘m,n表示情感极性预测表在上述目标位置的更新前的值,该目标位置通过参数m和n确定,m和n表示该目标位置在情感极性预测表中横向和纵向的位置。
Tm-1,n,Tm,n-1表示情感极性预测表在上述两个参考位置的最新更新值。S‘m,n表示的是基于m和n确定的交互信息,对于该交互信息的确定方法在下文详述。
为了对于情感三元素中的二元素(“对象”、“原因”),与,另一单元素“情感极性”之间的逻辑因果关系进行建模,本申请实施例中基于上述交互信息来更新情感极性预测表,从而体现从前文的二元素到另一单元素的信息交互。
在一个实施例中,请参考图4,其示出基于从二元素到单元素的信息交互的情感极性信息预测方法流程图,该方法包括:
S201.针对每一词对,确定上述词对关联的两个词分别对应的第一词信息。
具体来说,以前文为例,可以将m对应的词和n对应的词分别对应的第一词信息作为步骤S201的确定结果。
S202.对上述两个词分别对应的第一词信息进行线性聚合,得到上述词对对应的交互信息。
本申请实施例并不限定这一线性聚合的具体方法,比如,可以加权,其中的权值可以基于用于进行信息聚合的神经网络的参数确定,在一个可行的实施例中,交互信息S‘m,n=ReLU([S‘m,S‘n])Ws+bs,其中,Ws和bs都是可以通过训练得到的神经网络内部参数,ReLU也可以被替换为其他激活函数,S‘m,S‘n分别为步骤S201确定出的第一词信息。
S203.根据各上述词对对应的交互信息进行情感极性信息预测,得到上述各词对分别对应的情感极性信息。
根据交互信息进行情感极性信息预测过程前文有述,该过程在表格编码器中被实施,对此,本申请实施例不做赘述。
S104.根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,上述情感要素类别包括对象、原因或情感极性。
本申请实施例可以对每一词对应的第一词信息和情感极性信息进行融合,对融合结果进行类别预测,从而判断出该每一词的情感要素类别,这一过程基于具备信息融合能力和分类能力的神经网络即可实施,对此,本申请实施例不做赘述。
在一个实施方式中,还考虑到从单元素向二元素的信息流通,即通过情感极性信息优化第一词信息,根据优化结果来进行情感要素类别的预测。也就是说,本申请实施例通过引入基于表格的注意力机制可以实现从单元素向二元素的信息流通,因为本申请实施例中的情感极性信息记录在情感极性预测表中。第一词信息是基于序列编码器得到的,而序列编码器的编码过程是顺序编码,但是本申请认定排序靠后的信息对前面的信息也是有效的,因此,本申请实施例设计出基于情感极性预测表聚合相关第一词信息,从而实现第一词信息优化的方案,从而显著提升基于优化结果进行情感要素类别识别的准确度。
在一个实施例中,上述根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,如图5所示,包括:
S301.针对每一目标词,确定上述语句文本中各相邻其他词相对于上述目标词的信息重要度;针对每一上述相邻其他词,上述信息重要度通过上述相邻其他词和上述目标词所构成的词对的情感极性信息确定,上述目标词为上述语句文本中任一词。
本申请实施例并不限定通过情感极性信息确定信息重要度的方式,比如,信息重要度可以跟情感极性信息的绝对值正相关,但是具体如何相关可以根据实际情况进行设计,比如、正比、正方比均可,本申请实施例不做限定。
S302.根据各上述相邻其他词对应的信息重要度,对各上述相邻其他词的第一词信息进行聚合。
S303.根据聚合结果更新上述目标词对应的第一词信息,得到第二词信息。
具体来说,可以以信息重要度为权重通过加权的方式聚合各相邻其他词的第一词信息,在与目标词的第一词信息融合,得到第二词信息。
S304.根据各目标词分别对应的第二词信息,预测上述语句文本中各词分别对应的情感要素类别。
本申请实施例并不限定预测方法,任一类别预测网络都可以实施该步骤S304。举个例子,在一个实施例中可以根据来预测情感要素类别,其中S'表示的是有关的第一词信息,Tv是与第一词信息有关的情感极性信息,W和d是可以被训练的参数,S与预测结果一一对应。
本申请实施例进一步公开一种神经网络训练方法,该训练方法可以联合训练第一网络和第二网络,其中,通过第一网络执行下述步骤:
对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;以及,预测上述语句文本中各词分别对应的情感要素类别;
通过第二网络执行下述步骤:
对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息;
上述第一网络和上述第二网络之间进行信息交互。
上述第一网络和上述第二网络通过下述方法训练得到:
S401.获取样本语句文本以及上述样本语句文本对应的标注信息,上述标注信息包括情感要素标注序列和情感极性标注表,上述情感要素标注序列中包括上述样本语句文本中每一词对应的情感要素类别,上述情感极性标注表记录上述样本语句文本中各词对分别对应的情感极性信息。
本申请实施例中情感要素标注序列中包括上述样本语句文本中每一词对应的情感要素类别,本申请实施例对于情感要素标注序列的标注方式不做限定,可以使用其他相关技术,也可以使用BIO标签标注法,下面对BIO标签标注法进行解释:
BIO标签标注法包括三类标签,B表示起始,I表示中间或者结束,0表示其他,P表示原因,TA表示对象。
以样本语句文本“nice but expensive sofa”为例,其含有一个“对象”(<sofa>),还有两个“原因”(<nice>和<expensive>)。采用BIO标签标注发可以得到下述情感极性标注序列:“B-OP O B-OP B-TA”。
情感极性标注表可以参考图3,图3中每个格子设置好标注即可以作为一个情感极性标注表,本申请实施例设定每一个格的标签都对应一个单词对,如果一个单词对的每个单词分别由“对象”和“原因”的单词组成,且涉及到的“原因”反映了该“对象”的“情感极性”,那么它的标签就是对应的“情感极性”,否则就为N/A,也就是没有关系。请参考图6,其示出由第一网络和第二网络构成的模型的架构示意图,该图中的表格即为以“nice butexpensive sofa”作为样本语句文本所得到的情感极性标注表。
S402.基于上述第一网络和上述第二网络对上述样本语句文本进行处理,得到上述第一网络输出的情感要素类别预测结果,以及得到上述第二网络输出的情感极性信息预测结果。
本申请实施例中第一网络可以用于得到前文的第一词信息、第二词信息、以及预测情感要素类别,第二网络可以用于预测情感极性信息,第一网络包括前文的序列编码器,第二网络包括前文的表格编码器,在一些实施例中,第一网络还可以包括前文的基础编码器。
图6中样本语句文本输入基础编码器后可以得到语句特征信息,该语句特征信息可以被分别输送至序列编码器和表格编码器,前者进行序列信息文本序列信息提取,后者进行情感极性信息提取,序列编码器和表格编码器之间还进行双向的信息交互,最终序列编码器可以输出情感要素类别预测结果,表格编码器可以输出情感极性信息预测结果,该情感极性信息预测结果是以表格形式表达的。
请参考图7,其示出信息双向交互示意图,对于信息的双向交互前文已经详述,也可以参考前文。在图7中,序列编码器输出的第一词信息通过线性聚合的方式影响到表格编码器的预测输出,而表格编码器的预测结果也可以传递给序列编码器从而触发该序列编码器对第一词信息进行更新,得到第二词信息。以m=2,n=4为例,对第二个和第四个词的第一词信息进行线性聚合,然后根据聚合结果可以影响对应的词对的情感极性信息,然后该词对附近的相邻其他词对的情感极性信息又可以反过来优化第一词信息,从而得到第二词信息。
S403.根据上述情感要素标注序列和上述情感要素类别预测结果,得到第一损失。
本申请实施例可以通过序列编码器得到第二词信息S∈RN*d,通过表格编码器得到对样本语句文本的情感极性预测表T∈RN*N*d。在一个实施例中,可以使用第二词信息去预测样本语句文本中第i个词的BIO标签,p(yi|Si)=softmax(SiWi+bi),Wi,bi为第一网络中的内部参数,Si对应第i个词的第二词信息,yi表示BIO分类结果中每一要素对应的概率,将概率最大的作为情感要素类别预测结果。本申请实施例并不限定第一损失的确定方法,具体来说,可以使用交叉熵损失函数确定上述第一损失。
S404.根据上述情感极性标注表和上述情感极性信息预测结果,得到第二损失。
在一个实施例中,情感极性信息预测结果可以根据P(ym,n|Tm,n)=softmax(Tm,nWi‘+bi’)得到,其中,bi’和Wi‘分别表示第二网络中的内部参数。Tm,n是根据前文中的方法基于语句样本信息计算出的情感极性信息,ym,n表示根据m和n唯一确定的格子对应的情感极性信息预测结果。
情感极性信息预测结果s可以被表达为其中,/>
当然,第二损也可以也使用交叉熵函数来确定,对此,不做赘述。
S405.根据上述第一损失和上述第二损失,调整上述第一网络和上述第二网络的参数。
本申请实施例可以根据第一损失和第二损失的线性叠加计算总损失,根据总损失调整第一网络和第二网络的参数。
本申请实施例中,可以通过情感观点三元组抽取语句文本中的所有“对象”,用户对特定对象的“情感极性”,以及“原因”。情感观点三元组抽取能够自动从语句文本中提取出用户对对象评价的结构化信息。基于这些大量结构化信息,可以进一步进行数据分析。最终,数据分析结果可以被广泛地应用在对象对应的产品的迭代过程中。为了可以取得较好的情感观点信息抽取效果,本申请实施例对三元组的三个核心元素进行了详细分析,总结了情感三元组的多个特点。第一,更符合认知地,需要先知道“对象”和“原因”,才能知道“情感极性”。第二,情感三元组的各个元素之间关系紧密。针对第一个特点,本申请实施例设计了信息交互,也就是设计了序列编码器和表格编码器,序列编码器用来处理“对象”和“原因”的抽取,而表格编码器则基于序列编码器抽取结果进行“情感极性”的分类。针对第二个特点,本申请实施例设计了序列编码器和表格编码器具体的信息交互方法,从而取得了较好的情感观点信息提取效果,显著提升了信息提取的准确度。
请参考图8,其示出本实施例中一种情感观点信息分析装置的框图,上述装置包括:
语句文本提取模块101,用于对语句文本进行特征提取,得到语句特征信息;
序列信息提取模块102,用于对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;
情感极性提取模块103,用于对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,上述语句文本所包括的词中任意两个形成一个词对,上述情感极性信息基于对象和原因确定;
预测模块104,用于根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,上述情感要素类别包括对象、原因或情感极性。
在一个实施例中,上述情感极性提取模块用于执行下述操作:
针对每一词对,确定上述词对关联的两个词分别对应的第一词信息;
对上述两个词分别对应的第一词信息进行线性聚合,得到上述词对对应的交互信息;
根据各上述词对对应的交互信息进行情感极性信息预测,得到上述各词对分别对应的情感极性信息。
在一个实施例中,上述预测模块用于执行下述操作:
针对每一目标词,确定上述语句文本中各相邻其他词相对于上述目标词的信息重要度;针对每一上述相邻其他词,上述信息重要度通过上述相邻其他词和上述目标词所构成的词对的情感极性信息确定,上述目标词为上述语句文本中任一词;
根据各上述相邻其他词对应的信息重要度,对各上述相邻其他词的第一词信息进行聚合;
根据聚合结果更新上述目标词对应的第一词信息,得到第二词信息;
根据各目标词分别对应的第二词信息,预测上述语句文本中各词分别对应的情感要素类别。
在一个实施例中,通过第一网络执行下述步骤:
对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;以及,预测上述语句文本中各词分别对应的情感要素类别;
通过第二网络执行下述步骤:
对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息;
上述第一网络和上述第二网络之间进行信息交互。
在一个实施例中,还包括训练模块,上述训练模块用于执行下述操作:
获取样本语句文本以及上述样本语句文本对应的标注信息,上述标注信息包括情感要素标注序列和情感极性标注表,上述情感要素标注序列中包括上述样本语句文本中每一词对应的情感要素类别,上述情感极性标注表记录上述样本语句文本中各词对分别对应的情感极性信息;
基于上述第一网络和上述第二网络对上述样本语句文本进行处理,得到上述第一网络输出的情感要素类别预测结果,以及得到上述第二网络输出的情感极性信息预测结果;
根据上述情感要素标注序列和上述情感要素类别预测结果,得到第一损失;
根据上述情感极性标注表和上述情感极性信息预测结果,得到第二损失;
根据上述第一损失和上述第二损失,调整上述第一网络和上述第二网络的参数。
在一个实施例中,上述语句特征信息包括上述语句文本中每一词对应的文本特征,上述第一网络包括序列编码器,上述训练模块,上述训练模块用于执行下述操作:
将各词分别对应的文本特征依次输入上述序列编码器;
对于当前输入词对应的文本特征,根据上述序列编码器记录的上述当前输入词之前的其他输入词的文本特征,对上述当前输入词对应的文本特征进行编码,得到上述当前输入词对应的第一词信息。
在一个实施例中,上述第二网络包括表格编码器,上述训练模块,上述训练模块用于执行下述操作:
根据上述语句特征信息初始化情感极性预测表,由上述表格编码器对上述情感极性预测表进行下述编码更新:
针对每一词对,确定上述词对在上述情感极性预测表中对应的目标位置;
获取上述目标位置关联的两个参考位置;
获取上述词对对应的交互信息,上述交互信息通过上述序列编码器的输出确定;
根据上述情感极性预测表在上述目标位置的更新前的值、在上述两个参考位置的最新更新值和上述交互信息,得到上述情感极性预测表在上述目标位置的最新更新值。
本申请实施例中装置部分与方法实施例基于相同发明构思,在此不做赘述。
进一步地,图9示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图,上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图9所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中上述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种情感观点信息分析方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请实施例中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述存储介质中的指令可以执行一种情感观点信息分析方法,上述方法包括:
对语句文本进行特征提取,得到语句特征信息;
对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;
对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,上述语句文本所包括的词中任意两个形成一个词对,上述情感极性信息基于对象和原因确定;
根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,上述情感要素类别包括对象、原因或情感极性。
在一个实施例中,上述对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,包括:
针对每一词对,确定上述词对关联的两个词分别对应的第一词信息;
对上述两个词分别对应的第一词信息进行线性聚合,得到上述词对对应的交互信息;
根据各上述词对对应的交互信息进行情感极性信息预测,得到上述各词对分别对应的情感极性信息。
在一个实施例中,上述根据上述各词分别对应的第一词信息和上述各词对分别对应的情感极性信息,预测上述语句文本中各词分别对应的情感要素类别,包括:
针对每一目标词,确定上述语句文本中各相邻其他词相对于上述目标词的信息重要度;针对每一上述相邻其他词,上述信息重要度通过上述相邻其他词和上述目标词所构成的词对的情感极性信息确定,上述目标词为上述语句文本中任一词;
根据各上述相邻其他词对应的信息重要度,对各上述相邻其他词的第一词信息进行聚合;
根据聚合结果更新上述目标词对应的第一词信息,得到第二词信息;
根据各目标词分别对应的第二词信息,预测上述语句文本中各词分别对应的情感要素类别。
在一个实施例中,通过第一网络执行下述步骤:
对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息;以及,预测上述语句文本中各词分别对应的情感要素类别;
通过第二网络执行下述步骤:
对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息;
上述第一网络和上述第二网络之间进行信息交互。
在一个实施例中,上述第一网络和上述第二网络通过下述方法训练得到:
获取样本语句文本以及上述样本语句文本对应的标注信息,上述标注信息包括情感要素标注序列和情感极性标注表,上述情感要素标注序列中包括上述样本语句文本中每一词对应的情感要素类别,上述情感极性标注表记录上述样本语句文本中各词对分别对应的情感极性信息;
基于上述第一网络和上述第二网络对上述样本语句文本进行处理,得到上述第一网络输出的情感要素类别预测结果,以及得到上述第二网络输出的情感极性信息预测结果;
根据上述情感要素标注序列和上述情感要素类别预测结果,得到第一损失;
根据上述情感极性标注表和上述情感极性信息预测结果,得到第二损失;
根据上述第一损失和上述第二损失,调整上述第一网络和上述第二网络的参数。
在一个实施例中,上述语句特征信息包括上述语句文本中每一词对应的文本特征,上述第一网络包括序列编码器:
上述对上述语句特征信息进行文本序列信息提取,得到上述语句文本中各词分别对应的第一词信息,包括:
将各词分别对应的文本特征依次输入上述序列编码器;
对于当前输入词对应的文本特征,根据上述序列编码器记录的上述当前输入词之前的其他输入词的文本特征,对上述当前输入词对应的文本特征进行编码,得到上述当前输入词对应的第一词信息。
在一个实施例中,上述第二网络包括表格编码器;
上述对上述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,包括:
根据上述语句特征信息初始化情感极性预测表,由上述表格编码器对上述情感极性预测表进行下述编码更新:
针对每一词对,确定上述词对在上述情感极性预测表中对应的目标位置;
获取上述目标位置关联的两个参考位置;
获取上述词对对应的交互信息,上述交互信息通过上述序列编码器的输出确定;
根据所述情感极性预测表在所述目标位置的更新前的值、在所述两个参考位置的最新更新值和所述交互信息,得到所述情感极性预测表在所述目标位置的最新更新值。
以上上述仅为本申请实施例的较佳实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (11)
1.一种情感观点信息分析方法,其特征在于,所述方法包括:
对语句文本进行特征提取,得到语句特征信息;
对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息;
对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,所述语句文本所包括的词中任意两个形成一个词对,所述情感极性信息基于对象和原因确定;
根据所述各词分别对应的第一词信息和所述各词对分别对应的情感极性信息,预测所述语句文本中各词分别对应的情感要素类别,所述情感要素类别包括对象、原因或情感极性。
2.根据权利要求1所述的方法,其特征在于,所述对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,包括:
针对每一词对,确定所述词对关联的两个词分别对应的第一词信息;
对所述两个词分别对应的第一词信息进行线性聚合,得到所述词对对应的交互信息;
根据各所述词对对应的交互信息进行情感极性信息预测,得到所述各词对分别对应的情感极性信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各词分别对应的第一词信息和所述各词对分别对应的情感极性信息,预测所述语句文本中各词分别对应的情感要素类别,包括:
针对每一目标词,确定所述语句文本中各相邻其他词相对于所述目标词的信息重要度;针对每一所述相邻其他词,所述信息重要度通过所述相邻其他词和所述目标词所构成的词对的情感极性信息确定,所述目标词为所述语句文本中任一词;
根据各所述相邻其他词对应的信息重要度,对各所述相邻其他词的第一词信息进行聚合;
根据聚合结果更新所述目标词对应的第一词信息,得到第二词信息;
根据各目标词分别对应的第二词信息,预测所述语句文本中各词分别对应的情感要素类别。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
通过第一网络执行下述步骤:
对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息;以及,预测所述语句文本中各词分别对应的情感要素类别;
通过第二网络执行下述步骤:
对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息;
所述第一网络和所述第二网络之间进行信息交互。
5.根据权利要求4所述的方法,其特征在于,所述第一网络和所述第二网络通过下述方法训练得到:
获取样本语句文本以及所述样本语句文本对应的标注信息,所述标注信息包括情感要素标注序列和情感极性标注表,所述情感要素标注序列中包括所述样本语句文本中每一词对应的情感要素类别,所述情感极性标注表记录所述样本语句文本中各词对分别对应的情感极性信息;
基于所述第一网络和所述第二网络对所述样本语句文本进行处理,得到所述第一网络输出的情感要素类别预测结果,以及得到所述第二网络输出的情感极性信息预测结果;
根据所述情感要素标注序列和所述情感要素类别预测结果,得到第一损失;
根据所述情感极性标注表和所述情感极性信息预测结果,得到第二损失;
根据所述第一损失和所述第二损失,调整所述第一网络和所述第二网络的参数。
6.根据权利要求4所述的方法,其特征在于,所述语句特征信息包括所述语句文本中每一词对应的文本特征,所述第一网络包括序列编码器:
所述对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息,包括:
将各词分别对应的文本特征依次输入所述序列编码器;
对于当前输入词对应的文本特征,根据所述序列编码器记录的所述当前输入词之前的其他输入词的文本特征,对所述当前输入词对应的文本特征进行编码,得到所述当前输入词对应的第一词信息。
7.根据权利要求6所述的方法,其特征在于,所述第二网络包括表格编码器;
所述对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,包括:
根据所述语句特征信息初始化情感极性预测表,由所述表格编码器对所述情感极性预测表进行下述编码更新:
针对每一词对,确定所述词对在所述情感极性预测表中对应的目标位置;
获取所述目标位置关联的两个参考位置;
获取所述词对对应的交互信息,所述交互信息通过所述序列编码器的输出确定;
根据所述情感极性预测表在所述目标位置的更新前的值、在所述两个参考位置的最新更新值和所述交互信息,得到所述情感极性预测表在所述目标位置的最新更新值。
8.一种情感观点信息分析装置,其特征在于,所述装置包括:
语句文本提取模块,用于对语句文本进行特征提取,得到语句特征信息;
序列信息提取模块,用于对所述语句特征信息进行文本序列信息提取,得到所述语句文本中各词分别对应的第一词信息;
情感极性提取模块,用于对所述各词分别对应的第一词信息进行情感极性信息提取,得到各词对分别对应的情感极性信息,所述语句文本所包括的词中任意两个形成一个词对,所述情感极性信息基于对象和原因确定;
预测模块,用于根据所述各词分别对应的第一词信息和所述各词对分别对应的情感极性信息,预测所述语句文本中各词分别对应的情感要素类别,所述情感要素类别包括对象、原因或情感极性。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至7中任一项所述的一种情感观点信息分析方法。
10.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1至7中任一项所述的一种情感观点信息分析方法。
11.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现权利要求1至7中任一项所述的一种情感观点信息分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800301.7A CN115203412B (zh) | 2022-07-06 | 2022-07-06 | 情感观点信息分析方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800301.7A CN115203412B (zh) | 2022-07-06 | 2022-07-06 | 情感观点信息分析方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115203412A CN115203412A (zh) | 2022-10-18 |
CN115203412B true CN115203412B (zh) | 2024-02-20 |
Family
ID=83579557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210800301.7A Active CN115203412B (zh) | 2022-07-06 | 2022-07-06 | 情感观点信息分析方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203412B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628168B (zh) * | 2023-06-12 | 2023-11-14 | 深圳市逗娱科技有限公司 | 基于大数据的用户个性分析处理方法、系统及云平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
CN113779245A (zh) * | 2021-08-24 | 2021-12-10 | 北京理工大学 | 一种评论情感原因三元组抽取方法 |
-
2022
- 2022-07-06 CN CN202210800301.7A patent/CN115203412B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
WO2021051598A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本情感分析模型训练方法、装置、设备及可读存储介质 |
CN113779245A (zh) * | 2021-08-24 | 2021-12-10 | 北京理工大学 | 一种评论情感原因三元组抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115203412A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784092A (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN111932386B (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
Naitali et al. | Wiener–Hammerstein system identification–an evolutionary approach | |
CN115203412B (zh) | 情感观点信息分析方法、装置、存储介质及电子设备 | |
CN116303558A (zh) | 查询语句生成方法、数据查询方法及生成模型训练方法 | |
CN113869377A (zh) | 训练方法、装置及电子设备 | |
CN117540221A (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN115631008A (zh) | 商品推荐方法、装置、设备及介质 | |
Zhang et al. | ORCANet: Differentiable multi‐parameter learning for crowd simulation | |
Karimi et al. | Relevant question answering in community based networks using deep lstm neural networks | |
CN111814044A (zh) | 一种推荐方法、装置、终端设备及存储介质 | |
CN116956996A (zh) | 数据处理方法、装置、介质及设备 | |
CN110020379B (zh) | 一种基于深度动态网络嵌入表示模型的链路预测方法 | |
CN115545833A (zh) | 一种基于用户社交信息的推荐方法及系统 | |
Fu | [Retracted] A Research on the Realization Algorithm of Internet of Things Function for Smart Education | |
Xu et al. | Integration of Mixture of Experts and Multimodal Generative AI in Internet of Vehicles: A Survey | |
CN116932873A (zh) | 视频账号的推荐方法、装置、设备、存储介质及程序产品 | |
Li et al. | Semantic analysis of literary vocabulary based on microsystem and computer aided deep research | |
Rama Satish et al. | A framework for big data pre-processing and search optimization using HMGA-ACO: a hierarchical optimization approach | |
Wei | A Semantic Model of Internet of Things for Intelligent Translation and Learning | |
WO2024113665A1 (zh) | 媒体内容处理方法、装置、存储介质以及电子设备 | |
CN116050508B (zh) | 神经网络训练方法以及装置 | |
Guo et al. | Two‐stage partial image‐text clustering (TPIT‐C) | |
CN118013060B (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN116737756B (zh) | 一种数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |