CN116976354A - 情感分析方法、装置、设备及计算机可读存储介质 - Google Patents

情感分析方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116976354A
CN116976354A CN202310621230.9A CN202310621230A CN116976354A CN 116976354 A CN116976354 A CN 116976354A CN 202310621230 A CN202310621230 A CN 202310621230A CN 116976354 A CN116976354 A CN 116976354A
Authority
CN
China
Prior art keywords
emotion
text
information
analyzed
aspect information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310621230.9A
Other languages
English (en)
Inventor
宋建恒
代勇
刘星言
陈万顺
程鹏宇
张玉律
杜楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310621230.9A priority Critical patent/CN116976354A/zh
Publication of CN116976354A publication Critical patent/CN116976354A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种情感分析方法、装置、设备、计算机程序产品及计算机可读存储介质;方法包括:获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;基于方面信息对应的至少一个目标情绪标签和各个目标情绪标签对应的情感强度,确定情感分析结果。通过本申请,能够提高情感分析结果的全面性和准确性。

Description

情感分析方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种情感分析方法、装置、设备及计算机可读存储介质。
背景技术
随着直播的普及,越来越多的观众会在直播平台上发布弹幕和评论,表达他们对直播内容的体验和感受。这些弹幕和评论包含了丰富的情感信息,如对主播的喜爱、对直播内容的认同或者不满,对直播品质的评价等等。
在直播行业愈发火热的现状下,直播舆情分析变得越来越重要。通过对弹幕和评论进行情感分析,可以更好地了解观众对直播体验的态度和情感,帮助直播运营商更好地维护直播的良好氛围,改进直播内容和服务,提高观众的观赏性和满意度,避免出现不良行为。同时,直播舆情分析也可以为广告主和投资人提供有价值的参考,从而更好地了解直播市场和用户需求。相关技术中在对情感表达复杂多样的弹幕文本或评论文本进行舆情分析时,往往难以准确、全面进行情感识别和分类。
发明内容
本申请实施例提供一种情感分析方法、装置及计算机可读存储介质,能够更全面确定出待分析文本中各个方面信息的多种情感和情感强度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种情感分析方法,所述方法包括:
获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;
基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;
基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;
基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
本申请实施例提供一种情感分析装置,包括:
信息抽取模块,用于获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;
第一确定模块,用于基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;
第二确定模块,用于基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;
第三确定模块,用于基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的情感分析方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机程序或计算机可执行指令,用于被处理器执行时实现本申请实施例提供的情感分析方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的情感分析方法。
本申请实施例具有以下有益效果:
在获取到待分析文本之后,首先从待分析文本抽取出方面信息和方面信息对应的观点信息,然后基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签,并基于待分析文本、方面信息、方面信息对应的观点信息和方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度,最后基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果,在本申请实施例中,由于从待分析文本中抽取出的是方面级观点信息,并基于方面级观点信息,情感分析粒度更加精细,之后识别出方面信息对应的多种情绪分类结果,并且进一步对每个情绪进行强度分类,从而能够更加准确、全面的进行舆情分析,从而提高情感分析结果的全面性和准确性。
附图说明
图1是本申请实施例提供的直播系统100的网络架构示意图;
图2是本申请实施例提供的服务器400的结构示意图;
图3A是本申请实施例提供的情感分析方法的一种实现流程示意图;
图3B是本申请实施例提供的对待分析文本进行信息抽取的实现流程示意图;
图3C是本申请实施例提供的抽取待分析文本中的方面信息的实现流程示意图;
图4A是本申请实施例提供的确定方面信息对应的至少一个目标情绪标签的一种实现流程示意图;
图4B是本申请实施例提供的确定方面信息对应的至少一个目标情绪标签的另一种实现流程示意图;
图4C是本申请实施例提供的确定各个目标情绪标签对应的情感强度的实现流程示意图;
图4D是本申请实施例提供的利用情感强度分类器确定各个目标情绪标签对应的情感强度的实现流程示意图;
图5A是本申请实施例提供的确定情感分析结果的实现流程示意图;
图5B是本申请实施例提供的情感分析方法的另一种实现流程示意图;
图6是本申请实施例提供的游戏直播的界面示意图;
图7是本申请实施例提供的情感分析方法的再一种实现流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)方面级情感分析(Aspect-based Sentiment Analysis,ABSA),它可以自动识别文本中与特定方面相关的情感。该技术被广泛应用于社交媒体、产品评论和在线问答等领域。
2)方面(Aspect),指的是文本中被描述或评论的实体或事物,在通用领域例如一部电影、一款手机或一家餐厅等,在游戏领域可以指主播、英雄、技能、队伍等。
3)观点(Opinion),指的是文本中关于Aspect的观点表述,本文中所指的Opinion均带有一定的情感倾向。
4)主播,或者称为主播用户,是指在直播业务中进行表演并将表演分享的用户。
5)直播观众,直播业务中主播用户的表演的受众。
6)直播数据流,主播用户采集的视频和音频进行编码形成的适用于在网络中传输的码流,支持被接收端即时解码播放而不必等待接收全部数据。
7)直播间,与主播用户对应,直播平台中供主播用户发布不同直播业务的应用。
8)直播业务,直播间中主播用户发布的所表演的视频和/或音频内容,根据直播平台的业务规则,直播业务存在时间长度、容量等方面的限制。
9)弹幕,是指在网络上观看视频时弹出的评论性字幕。
目前,舆情分析领域使用最多的方法是方面级情感分析(ABSA)技术。ABSA技术主要集中在对实体/方面(Aspect)和观点(Opinion)的抽取以及<实体,观点>对的情感分析。相关技术中,主要有管线(Pipeline)和joint两种方案来实现。
Pipeline方法是指先进行方面信息和观点的抽取,再进行情感分析。这种方法需要两个模型,第一个模型用于抽取方面信息和对应的观点,第二个模型用于情感分析。即首先抽取游戏文本中的实体和观点,再对这些实体和观点进行情感分析。一些经典的基于Pipeline的方法比如面向目标的观点词抽取(Target-Oriented Opinion WordsExtraction,TOWE)方法、基于注意力的方面抽取(Attention-Based Aspect Extraction,ABAE)。
Joint方法是指使用一个统一的模型同时处理方面信息与观点的抽取和情感分析两个任务。这种方法相对于Pipeline方法,具有更高的效率和更好的性能,但需要更大的计算资源和更多的数据,对于模型的复杂度也存在一定的要求。一些经典的Joint方法比如交互注意力网络(Interactive Attention Network,IAN)、多粒度注意力网络(Multi-Granularity Attention Network,MGAN)等。
直播中的弹幕和评论文本中充满了复杂的情感表达,这对于情感分析来说是一个巨大的难点。现有的技术方案通常只能区分正面、中立、负面三种情感分类,无法处理弹幕领域的细粒度情感。此外,在一对方面信息和观点中存在多种情绪的情况下,现有的技术方案无法对其进行准确的分析。此外,情感强度也是影响直播舆情分析的重要因素,但是现有技术方案对此并未考虑。
本申请实施例提供一种情感分析方法、装置、设备、计算机可读存储介质和计算机程序产品,能够更全面确定出待分析文本中各个方面信息的多种情感和情感强度,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑、平板电脑,台式计算机、机顶盒、移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能手机、智能音箱、智能手表、智能电视、车载终端等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参见图1,图1是本申请实施例提供的直播系统100的网络架构示意图,如图1所示,该直播系统100中包括观众终端200、网络300、服务器400和主播终端500,其中,观众终端200、主播终端500分别通过网络300连接服务器400,网络300可以是广域网或者局域网,又或者是二者的组合。
在观众终端200中可以安装有能够观看或收听直播的应用程序(Applicatio n,App),该App可以是专门的直播App,还可以是一些具备直播功能的App,例如可以是即时通讯App。用户可以通过该App,呈现直播间入口界面,当观众终端200接收到针对某一直播间入口的触控操作,进入该直播间,观看或者收听直播内容。
主播终端500中也可以安装有直播App,主播终端500可以在开始直播后,将直播数据流发送至服务器400,服务器400将接收到直播数据流推送至进入主播终端500对应直播间的观众终端200,观众终端200在观看直播过程中,可以对直播内容发表评论或弹幕,观众终端200在获取到编辑好的评论或弹幕后,响应于接收到的发送指令,将评论文本或弹幕文本发送至服务器400,服务器400会将接收到的评论文本或弹幕文本下发至直播间的所有观众终端。在本申请实施例中,服务器400在接收到评论文本或弹幕文本后,会将评论文本或弹幕文本确定为待分析文本,并对待分析文本进行信息抽取,得到待分析文本中的方面信息和所述方面信息对应的观点信息;基于待分析文本、方面信息和所述方面信息对应的观点信息进行情绪分类,得到方面信息对应的至少一个目标情绪标签;再基于待分析文本、方面信息、方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;之后,服务器400还可以统计预设时长内接收到的评论文本或弹幕文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度进行统计,得到所述预设时长内的情感分析结果,确定所述情感分析结果对应的处理策略,并将处理策略发送至主播终端500,以使得主播终端500基于处理策略进行直播内容调整。
在本申请实施例中,由于从待分析文本中抽取出的是方面级观点信息,并基于方面级观点信息,情感分析粒度更加精细,之后识别出方面信息对应的多种情绪分类结果,并且进一步对每个情绪进行强度分类,从而能够更加准确、全面的对直播数据进行舆情分析,另外还能够帮助主播更好地了解观众对直播体验的态度和情感,从而改进直播内容和服务,提高用户满意度。
在一些实施例中,服务器400可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。观众终端200、主播终端500可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的服务器400的结构示意图,图2所示的服务器400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(Random Access Memory,RA M)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的情感分析装置455,其可以是程序和插件等形式的软件,包括以下软件模块:信息提取模块4551、第一确定模块4552、第二确定模块4553和第三确定模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的情感分析方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific Integ rated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、可编程逻辑器件(Programmable Logic Device,PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Progr ammable Gate Array,FPGA)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的情感分析方法。
下面,说明本申请实施例提供的情感分析方法,如前所述,实现本申请实施例的图像处理方法的电子设备可以是服务器。因此下文中不再重复说明各个步骤的执行主体。
需要说明的是,下文中的情感分析的示例中,是以待分析文本为直播场景中的评论文本为例说明的,本领域技术人员根据对下文的理解,可以将本申请实施例提供的情感分析方法应用于对其他场景下的评论文本的情感分析。
参见图3A,图3A是本申请实施例提供的情感分析方法的流程示意图,将结合图3A示出的步骤进行说明,图3A步骤的主体是服务器。
在步骤101中,获取待分析文本,对待分析文本进行信息抽取,得到待分析文本中的方面信息和方面信息对应的观点信息。
在一些实施例中,待分析文本可以是针对直播内容的评论文本、弹幕文本,还可以是针对影视视频的评论文本或弹幕文本,针对短视频的评论文本或弹幕文本,也可以是针对文章、新闻的评论文本。获取待分析文本可以是服务器获取终端发送的待分析文本。待分析文本中包括针对一个或多个实体(方面)的观点信息。示例性地,待分析文本可以是“这个衣服很好看”,还可以是“这个主播太逗了!”。方面可以理解为是评论文本中最细粒度的评价对象,也是表达观点的词所指向的最小对象。
在一些实施例中,参见图3B,步骤101中的“对待分析文本进行信息抽取,得到待分析文本中的方面信息和方面信息对应的观点信息”可以通过下述的步骤1011至步骤1014实现,下面具体说明。
在步骤1011中,获取方面信息抽取对应的第一任务提示信息,将所述待分析文本和所述第一任务提示信息进行拼接,得到第一拼接后文本。
在一些实施例中,方面信息提取和观点信息提取对应有不同的任务提示信息,用于指示信息抽取器进行方面信息提取或观点信息提取。在对待分析文本进行信息抽取时,先抽取方面信息,因此,首先获取方面信息抽取对应的第一任务提示信息,然后将待分析文本和第一任务提示信息进行拼接,得到第一拼接后文本。在将待分析文本和第一任务提示信息进行拼接时,可以将第一任务提示信息拼接至待分析文本之前,也可以将第一任务提示信息拼接至待分析文本之后。
在步骤1012中,利用信息抽取器对所述第一拼接后文本进行信息抽取,得到所述待分析文本中的方面信息。
信息提取器可以为朴素贝叶斯模型、支持向量机、人工神经网络模型等等。在本申请实施例中,以信息提取模型为人工神经网络模型为例进行说明,该人工神经网络模型可以是指针网络模型,指针网络模型是一种序列到序列模型,利用指针案网络模型可以动态地计算输入序列中每个位置的注意力权重,并使用这些权重来生成输出序列。该指针网络模型中包括编码器和解码器。
在一些实施例中,参见图3C,步骤1012,可以通过下述的步骤121至步骤124实现,下面具体说明。
在步骤121中,对所述待分析文本进行分词处理,得到输入序列。
其中,输入序列中包括待分析文本的多个输入分词。在一些实施例中,当待分析文本为中文文本,在对待分析文本进行分词处理时,是将每个字符确定为一个分词,当待分析文本为英文文本或其他语言文本,在对待分析文本进行分词处理时,是将每个单词确定为一个分词。
示例性地,待分析文本为“这个主播太逗了”,那么输入序列为:这、个、主、播、太、逗、了。待分析文本为“She is so funny”,那么输入序列为:She、is、so、funny。
在步骤122中,对所述输入序列进行编码处理,得到所述输入序列中各个输入分词的隐向量表示。
在一些实施例中,利用信息抽取器中的编码器对输入序列进行编码处理,得到输入序列中各个输入分词的隐向量表示。其中,编码器可以是循环神经网络结构,也可以是其他神经网络模型结构,例如编码器为ERNIE3.0结构,以提高方面级观点抽取器的信息抽取能力。ERNIE3.0是一种基于Transformer结构的预训练模型,通过大量信息抽取数据的预训练,具备了较强的信息抽取能力,利用ERNIE3.0对输入序列进行编码处理,能够提高方面级观点抽取器的信息抽取能力。
通过对输入序列进行编码处理,能够将输入序列中的各个输入分词编码为一个固定长度的隐向量表示,这些隐向量表示捕捉了输入序列的语义信息和上下文信息。
在步骤123中,获取当前已生成输出序列中各个输出分词的隐向量表示。
在一些实施例中,信息抽取器的输出为输出序列中各个输出分词的位置索引,那么为了获取当前已生成输出序列中各个输出分词的隐向量表示,首先获取当前已生成输出序列中各个输出分词的位置索引,然后基于各个输出分词的位置索引,获取各个输出分词的隐向量表示。
如果当前已生成输出序列为空,那么此时获取到的是预设的开始分词(sta rttoken)对应的隐向量表示。
在步骤124中,对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,确定所述待分析文本中的方面信息。
在一些实施例中,对所述各个输入分词的隐向量表示和所述当前已生成输出序列中i-1个输出分词的隐向量表示进行解码处理,得到第i个输出分词的隐向量表示,i为大于1且小于M的整数,M为输出分词总个数;基于所述各个输入分词的隐向量表示和所述第i个输出分词的隐向量表示,确定所述第i个输出分词对所述各个输入分词的注意力权重;对所述第i个输出分词对所述各个输入分词的注意力权重进行归一化,得到所述第i个输出分词对应的条件概率分布;利用所述第i个输出分词对应的条件概率分布从所述输入序列中,确定所述第i个输出分词。
在一些实施例中,利用信息抽取器中的解码器对各个输入分词的隐向量表示和所述当前已生成输出序列中i-1个输出分词的隐向量表示进行解码处理,得到第i个输出分词的隐向量表示,之后可以基于公式(1-1)确定所述第i个输出分词对所述各个输入分词的注意力权重:
其中,vT和W1、W2都是可学习的模型参数,ej表示输入序列第j个输入分词的隐向量表示,di表示解码器的第i个输出分词的隐向量表示,对应着编码到第i个位置时对输入序列第j个位置的注意力分数,也即第i个输出分词对第j个输入分词的注意力权重。
之后利用归一化函数(例如softmax函数)对所述第i个输出分词对所述各个输入分词的注意力权重进行归一化,得到第i个输出分词对应的条件概率分布;该条件概率分布表征在已知输入序列和已生成输出序列的条件下,第i个输出分词是输入序列中各个输入分词的概率,因此,可以将第i个输出分词对应的条件概率分布中确定出最高概率,并确定最高概率对应的位置索引,从而将输入序列中最高概率对应的位置索引对应的输入分词确定为第i个输出分词。
示例性地,待分析文本为“这个主播太逗了”,输入序列为:这、个、主、播、太、逗、了,当前已生成输出序列为:主,也即当前已生成一个输出分词,本次解码得到第二个输出分词,假设第二个输出分词对应的条件概率分布为[0.08,0.02,0.2,0.6,0.01,0.03,0.07],由于该条件概率分布中,最高概率的位置索引为4,因此将输入序列中,第4个位置对应的输入分词,确定为第二个输出分词,也即将“播”确定为第二输出分词。
在上述步骤1012中,利用信息抽取器从待分析文本中抽取方面信息时,首先对待分析文本进行分词处理,得到输入序列,然后对所述输入序列进行编码处理,得到所述输入序列中各个输入分词的隐向量表示,并获取当前已生成输出序列中各个输出分词的隐向量表示,最后对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,确定所述待分析文本中的方面信息,如此能够从待分析文本中准确抽取出方面信息。在一些实施例中,方面信息为待分析文本中的部分文本。
继续参见图3B,接续上文的步骤1012进行说明。
在步骤1013中,获取观点信息抽取对应的第二任务提示信息,将待分析文本、第二任务提示信息和方面信息进行拼接,得到第二拼接后文本。
在一些实施例中,第二任务提示信息用于指示信息抽取器本次进行观点信息抽取,在对待分析文本、所述第二任务提示信息和所述方面信息进行拼接时,可以是按照待分析文本、第二任务提示信息、方面信息的顺序进行拼接,得到第二拼接后文本,还可以是按照第二任务提示信息、方面信息、待分析文本的顺序进行拼接,得到第二拼接后文本。
在进行观点信息提取时,每次针对一个方面信息进行一次观点信息提取,当待分析文本中包括多个方面信息时,可以通过多次信息提取,分别得到各个方面信息对应的观点信息。在一些实施例中,在进行观点信息提取时,也可以针对待分析文本中包括的各个方面信息进行观点信息提取。
在步骤1014中,利用信息抽取器对所述第二拼接后文本进行信息抽取,得到所述方面信息对应的观点信息。
在一些实施例中,步骤1014的实现过程与步骤1012的实现过程是类似的,首先对第二拼接后文本进行编码处理,得到输入序列中各个输入分词的隐向量表示,并获取当前已生成输出序列中各个输出分词的隐向量表示,之后对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,从而准确地确定出方面信息对应的观点信息。
在上述步骤1011至步骤1014中,利用指针网络模型作为信息抽取器,结合了信息抽取和注意力机制的优势,能够有效地抽取待分析文本中的方面信息和方面信息对应的观点信息。
继续参见图3A,接续上文的步骤101进行说明。
在步骤102中,基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签。
在一些实施例中,如图4A所示,步骤102可以通过下述的步骤1021至步骤1022实现,下面具体说明。
在步骤1021中,基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本。
其中,预处理后的待分析文本中包括所述方面信息的方面标识符和所述方面信息对应的观点信息的观点标识符。其中,方面标识符包括方面起始标识符和方面结束标识符,观点标识符可以包括观点起始标识符和观点结束标识符。
在一些实施例中,将方面信息和待分析文本进行字符串匹配,从而确定出方面信息在待分析文本中的方面起始位置以及方面结束位置,之后在方面起始位置之前的第一个位置插入方面起始标识符,在方面结束位置之后第一个位置插入方面结束标识符。
将方面信息对应的观点信息与待分析文本进行字符串匹配,确定出方面信息对应的观点信息在待分析文本中的观点起始位置和观点结束位置。之后在观点起始位置之前的第一个位置插入观点起始标识符,在观点结束位置之后第一个位置插入观点结束标识符。
示例性地,待分析文本为“这个主播太逗了”,方面信息为“主播”,观点信息为“太逗了”,方面起始标识符为[ASP],方面结束标识符为[/ASP],观点起始标识符为[OP],观点结束标识符为[/OP],因此,预处理后的待分析文本为:“这个[ASP]主播[/ASP][OP]太逗了[/OP]”。
在步骤1022中,利用多标签情感分类器,对预处理后的待分析文本进行分类处理,得到所述方面信息对应的至少一个目标情绪标签。
在一些实施例中,多标签情感分类器可以为人工神经网络模型,例如可以是卷积神经网络模型、循环神经网络模型、Transformer模型等。多标签情感分类器中可以包括编码器和输出层。
在一些实施例中,参见图4B,步骤1022可以通过下述的步骤221至步骤223实现,下面具体说明。
在步骤221中,利用所述多标签情感分类器中的编码器对所述预处理后的待分析文本进行编码处理,得到第一编码结果。
在一些实施例中,首先对预处理后的待分析文本进行分词处理,得到预处理后的输入序列,然后再确定预处理后的输入序列的词嵌入向量表示,之后经过编码器中的多个编码层,对预处理后的输入序列的词嵌入向量表示进行编码处理,得到第一编码结果,其中,第一编码结果可以为预处理后的输入序列的隐向量表示。
在步骤222中,利用多标签情感分类器中输出层,对第一编码结果进行预测处理,得到所述方面信息为各个预设情绪标签的第一概率。
在一些实施例中,由于多标签分类器的输出为非互斥类别,也即可以输出多个目标情绪标签,因此多标签情感分类器中的输出层的激活函数为sigmoid函数,sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,常被用作神经网络的激活函数,用于将变量映射到0,1之间。在本申请实施例中,利用sigmoid函数能够对第一编码结果进行归一化处理,得到方面信息为各个预设情绪标签的第一概率,该第一概率在0到1之间。
在一些实施例中,预设情绪标签可以有多个,例如可以有10个、20个甚至更多。预设情绪标签可以包括:有利、不利、喜欢、开心、难过、激动、惊讶、愤怒、担忧、疑惑等。
在步骤223中,将第一概率大于预设阈值的预设情绪标签,确定为所述方面信息对应的目标情绪标签。
在一些实施例中,为了实现多标签情感分类,在步骤223中,将第一概率大于预设阈值的预设情绪标签,均确定为方面信息对应的目标情绪标签。目标情绪标签用于表征待分析文本的发出对象对方面信息的情感倾向信息或对方面信息的情感分类信息。
示例性地,待分析文本为“这个主播太逗了”,方面信息为“主播”,预设阈值为0.5,其中,上述举例的预设情绪标签中,开心对应的第一概率为0.6、喜欢对应的第一概率为0.7,那么开心和喜欢均确定为方面信息“主播”对应的目标情绪标签。也即“主播”对应的目标情绪标签为“开心”和“喜欢”。
在抽取出待分析文本中的方面信息和方面信息对应的观点信息后,在步骤102中,利用多标签情感分类器,基于待分析文本中的方面信息和方面信息对应的观点信息,确定出针对方面信息的多个情感分类信息(目标情绪标签),而不是仅仅给出正面、负面、中性中的一个情感分类信息,如此能够确定出对方面信息的多种情感分类,实现对复杂情感的分类与识别。
继续参见图3A,接续上文的步骤102进行说明。
在步骤103中,基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度。
在一些实施例中,参见图4C,步骤103可以通过下述的步骤1031至步骤1033实现,下面具体说明。
在步骤1031中,基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本。
在一些实施例中,步骤1031的实现过程与步骤1021的实现过程是相同的,在实现时可以参考步骤1021的实现过程。预处理后的待分析文本中同样包括所述方面信息的方面标识符和所述方面信息对应的观点信息的观点标识符。
在步骤1032中,将所述预处理后的待分析文本和所述方面信息对应的目标情绪标签进行组合,得到组合文本。
在一些实施例中,在将预处理后的待分析文本和方面信息对应的目标情绪标签进行组合时,是将方面信息对应的情感分类信息拼接在预处理后的待分析文本之后,并且会在预处理后的待分析文本和方面信息对应的目标情绪标签之间增加情绪标识符。
示例性地,预处理后的待分析文本为:“这个[ASP]主播[/ASP][OP]太逗了[/OP]”,针对“主播”这一方面信息的目标情绪标签为:喜欢和开心,那么组合文本为:“这个[ASP]主播[/ASP][OP]太逗了[/OP][SEP]喜欢开心”。
在步骤1033中,利用情绪强度分类器,对所述组合文本进行预测处理,得到所述目标情绪标签对应的情感强度。
在一些实施例中,情绪轻度分类器可以为人工神经网络模型,例如可以是卷积神经网络模型、循环神经网络模型、Transformer模型等。情绪强度分类器中可以包括编码器和输出层。
在一些实施例中,参见图4D,步骤1033可以通过下述的步骤331至步骤333实现,下面具体说明。
在步骤331中,利用情绪强度分类器中的编码器,对所述组合文本进行编码处理,得到所述组合文本的第二编码结果。
在一些实施例中,首先对组合文本进行分词处理,得到组合文本对应的输入序列,然后再确定组合文本对应的输入序列的词嵌入向量表示,之后经过编码器中的多个编码层,对组合文本对应的输入序列的词嵌入向量表示进行编码处理,得到第二编码结果,其中,第二编码结果可以为组合文本对应的输入序列的隐向量表示。
在步骤332中,利用情绪强度分类器中输出层,对第二编码结果进行预测处理,得到目标情绪标签对应的各个预设情感强度的第二概率。
由于情绪强度分类器的输出为互斥类别,也即只能选择一个类别作为输出,因此在情绪强度分类器的输出层,采用的激活函数为softmax函数。解决只有唯一正确答案的问题时,用softmax函数处理各个原始输出值。softmax函数的分母综合了原始输出值的所有因素,这意味着,softmax函数得到的不同概率之间相互关联。在一些实施例中,利用softmax函数对第二编码结果进行归一化处理,从而得到目标情绪标签对应的各个预设情感强度的第二概率,第二概率为0到1之间的实数,并且各个预设情感强度的第二概率之和为1。
示例性地,有3个预设情感强度,分别为强、中、弱。
在步骤333中,将最高第二概率对应的预设情感强度,确定为所述目标情绪标签对应的情感强度。
在一些实施例中,由于情绪强度分类器只会选择一个预设强度作为目标情绪标签对应的情感强度,因此在步骤333中,是将最高第二概率对应的预设情感强度,确定为目标情绪标签对应的情感强度。
示例性地,目标情绪标签为喜欢,对应三个预设情感强度的第二概率分别为0.3、0.5、0.2,那么喜欢这一目标情绪标签对应的情感强度为中等。
通过上述步骤103,在得到方面信息对应的多个目标情绪标签之后,还进一步利用情绪强度分类器,对方面信息对应的多个目标情绪标签进行了情绪强度分类,为后续进行舆情分析提供了更多维度的数据,从而能够得到更加准确的舆情分析结果。
继续参见图3A,接续上文的步骤103进行说明。
在步骤104中,基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
在一些实施例中,参见图5A,步骤104可以通过下述的步骤1041至步骤1043实现,下面具体说明。
在步骤1041中,获取预设时长内接收到多条评论文本。
在一些实施例中,预设时长可以是5分钟、10分钟、1分钟等。多条评论文本是针对同一评论对象的文本,评论对象可以是直播视频、文章、影视视频等。
在步骤1042中,将各条评论文本分别确定为各条所述待分析文本。
在步骤1043中,对各条所述待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度进行统计,得到所述预设时长内的情感分析结果。
在一些实施例中,可以将各个目标情绪标签和各个目标情绪标签对应的情感强度进行聚类,将相同目标情绪标签聚为一个情绪聚类簇,然后再统计每个情绪聚类簇中,目标情绪标签对应的各个情感强度的数量,将数量最多的情感强度,确定为该目标情绪标签的目标情感强度,并统计每个情绪聚类簇中目标情绪标签的数量。将情绪聚类簇按照目标情绪标签的数量从高到低进行排序,获取排序后的情绪聚类簇中的前N个情绪聚类簇对应的目标情绪标签,以及前N个情绪聚类簇对应的目标情绪标签的目标情感强度;将前N个情绪聚类簇对应的目标情绪标签,以及前N个情绪聚类簇对应的目标情绪标签的目标情感强度确定为情感分析结果。
示例性地,假设预设时长内,目标情绪标签有5个,分别为喜欢、开心、惊讶、愤怒、疑惑,通过聚类处理,得到5个情绪聚类簇:喜欢情绪聚类簇、开心情绪聚类簇、惊讶情绪聚类簇、愤怒情绪聚类簇、疑惑情绪聚类簇,其中,各个情绪聚类簇对应的各个情感强度的数量如表1所示:
表1、各个情绪聚类簇对应的各个情感强度的数量
由表1可以得出,喜欢情绪聚类簇对应的目标情感强度为强、开心情绪聚类簇对应的目标情感强度为强、惊讶情绪聚类簇对应的目标情感强度为中、愤怒情绪聚类簇对应的目标情感强度为弱、疑惑情绪聚类簇对应的目标情感强度为强。
通过表1也可以得出,喜欢情绪聚类簇中的目标情绪标签数量为42,开心情绪聚类簇中的目标情绪标签数量为97,惊讶情绪聚类簇中的目标情绪标签数量为11,愤怒情绪聚类簇中的目标情绪标签数量为5,疑惑情绪聚类簇中的目标情绪标签数量为20。假设N为2,那么将喜欢—目标情感强度为强,开心—目标情感强度为强,确定为情绪分析结果。
在一些实施例中,还可以将相同情感强度的目标情绪标签聚为一个聚类簇,然后再统计情感强度为强的强度聚类簇中,各个目标情绪标签的数量,将情感强度为强的强度聚类簇中的目标情绪标签按照数量从高到低的顺序进行排序,将排序后的目标情绪标签中的前M个目标情绪标签,确定为情感分析结果。
继续以表1为例,情感强度为强的强度聚类簇中包括喜欢、开心、疑惑,这三个目标情绪标签的数量分别为27、73、18,按照从高到低进行排序,得到排序后的目标情绪标签为开心、喜欢、疑惑。假设M为2,那么将开心和喜欢确定为情感分析结果。
在本申请实施例提供的情感分析方法中,在获取到待分析文本之后,首先从待分析文本抽取出方面信息和方面信息对应的观点信息,然后基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签,并基于待分析文本、方面信息、方面信息对应的观点信息和方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度,最后输出所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,在本申请实施例中,由于从待分析文本中抽取出的是方面级观点信息,并基于方面级观点信息,情感分析粒度更加精细,之后识别出方面信息对应的多种情绪分类结果,并且进一步对每个情绪进行强度分类,从而能够更加准确、全面的进行舆情分析。
本申请实施例提供的情感分析方法可以是对直播过程中的评论或弹幕进行情感分析,还可以对影视视频播放过程中的弹幕或评论进行情感分析,另外还可以对针对文章或者新闻的评论进行情感分析。以下以本申请实施例提供的情感分析方法应用于直播场景为例进行说明,图5B为本申请实施例提供的情感分析方法的另一种实现流程示意图,下面结合图5B进行说明。
在步骤201中,主播终端响应于启动直播App的操作指令,呈现直播业务的直播窗口,接收主播用户针对即将初始化的直播业务的设定。
在本申请实施例中,直播业务未初始化之前的直播窗口用于接收主播用户添加在主播用户的直播间中新建直播业务的名称和备注等信息,便于主播用户后续查找。
在步骤202,主播终端向服务器发送直播业务初始化数据。
这里,主播终端向服务器提交直播间中待建立直播间的标识和主播用户的标识等用于初始化直播业务。
在步骤203,主播终端响应于针对主播终端开始直播的启动操作,呈现直播播放界面,并获取待上传的媒体数据。
这里,当启动的是视频直播时,媒体数据包括图像数据和音频数据。在该步骤中待上传的媒体数据可以是通过主播终端的图像采集装置实时采集到的,还可以是从与主播终端建立有通信连接的其他设备传输至主播终端的。例如可以是新闻直播、电视剧转播等等。
在步骤204中,主播终端将待上传的媒体数据进行编码得到直播数据流,并将直播数据流发送至服务器。
在步骤205中,观众终端基于启动直播客户端的操作指令,初始化客户端,并初始化播放器参数。
这里,观众终端中播放器程序是以单个实例的方式运行的,也就是说只要客户端在运行状态时,播放器程序是一直运行的,不会被停止运行。在初始化客户端时,并初始化播放器参数。
在步骤206中,观众终端向服务器发送直播数据流获取请求。
在该直播数据流获取请求中携带有目标直播间的标识,用于请求获取该目标直播间的直播数据流。
在步骤207中,服务器获取目标直播间对应的直播数据流,并将直播数据流发送至观众终端。
在步骤208中,观众终端基于该直播数据流进行直播播放。
在步骤209中,观众终端响应于接收到的评论输入操作,获取待发送评论文本。
在步骤210中,观众终端响应于接收到的发送指令,将所述待发送评论文本发送至服务器。
在步骤211中,服务器获取预设时长内接收到的针对直播视频的多条评论文本,将各条评论文本分别确定为待分析文本。
在一些实施例中,预设时长可以是5分钟、10分钟、1分钟等。
在步骤212中,服务器获取所述各条待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度。
在一些实施例中,服务器利用上述步骤101至步骤103,获取各条待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度。
在步骤213中,服务器对各条评论文本中包括的方面信息对应的至少一个目标情绪标签和各个目标情绪标签对应的情感强度进行统计,得到预设时长内的情感分析结果。
在一些实施例中,步骤213的实现过程与步骤1043的实现过程是类似的,可以参考步骤1043的实现过程。
在步骤214中,服务器确定所述情感分析结果对应的处理策略。
在一些实施例中,首先获取情感分析结果中目标情绪标签的极性,其中目标情绪标签的极性为正面、负面和中性,然后基于目标情绪标签的极性确定处理策略。
示例性,当前直播为购物直播,如果目标情绪标签的极性为正面,那么处理策略可以是呈现虚拟主播,该虚拟主播用于进一步提升直播间气氛,例如虚拟主播可以呼吁直播观众点点关注,多多下单等等。如果目标情绪标签的极性为负面,那么处理策略可以是呈现虚拟主播,该虚拟主播用于播放轻松愉快的直播内容,例如可以讲一个笑话等。
在步骤215中,服务器将处理策略发送至主播终端。
在步骤216中,主播终端呈现处理策略。
在一些实施例中,主播终端在呈现处理策略时,可以是将呈现输出虚拟主播的提示信息,并呈现是否执行处理策略的选择控件。
在步骤217中,主播终端响应于接收到的执行处理策略的操作指令,执行处理策略。
在一些实施例中,主播终端接收到确定执行处理策略的选择控件的触控操作,确定接收到执行处理策略的操作指令,执行处理策略。
在本申请实施例提供的情感分析方法中,主播终端在完成针对直播业务的设定并开始进行直播后,向服务器发送直播数据流,服务器在获取到主播终端上传的直播数据流之后,向直播间内观众终端推送直播数据流,观众终端在接收到直播数据流后,播放直播数据流,并且可以在观看直播过程中编辑评论文本,并发送至服务器,服务器获取预设时长内接收到的多条评论文本,并将各条评论文本确定为待分析文本,从而对各条所述待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度进行统计,得到所述预设时长内的情感分析结果,之后可以确定所述预设时长内的情感分析结果对应的处理策略,并将将所述所述处理策略发送至所述直播视频对应的主播终端,以使得主播终端执行处理策略,如此,可以能够帮助主播更好地了解直播观众对直播内容和直播体验的态度和情感,从而改进直播内容和服务,提高用户满意度以及转化率。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供的情感分析方法,可以用于对直播间或者游戏视频的弹幕或评论进行舆情分析。以直播间为例,可以利用本申请实施例提供的情感分析方法分析最近5秒内所有观众发出的弹幕或评论,从而根据所有情绪的总量来确定当下直播间的主流情绪。在这个过程中,利用了方面级观点抽取器、多情绪分类器和情感强度分类器三个模块,能够精确地抽取游戏文本中的实体和观点,并且识别多种情绪和复合情绪,进一步对每个情绪进行强度分类,从而更好地分析直播的舆情变化。
图6是本申请实施例提供的游戏直播的界面示意图,在游戏直播界面中,如图6所示,显示有多条弹幕,并且弹幕中蕴含有复杂的情绪。本申请实施例提供的情感分析方法,除了能够对直播间整体情绪进行分析,还能够细化到对每条弹幕级别的情感分析,分析每一条弹幕描述的角度和观点、复杂情绪、情绪强度等。例如,当弹幕中包含“我喜欢这个游戏的画风,但是玩法不太好,”在本申请实施例中,可以将其分为两个方面:游戏画风和游戏玩法,分别分析它们的情感表达和情感强度,以及它们之间的复合情绪。又如,“这个主播虽然有点菜,但真的贼有趣!,”利用本申请实施例提供的情感分析方法,可以识别出“主播”这个实体,以及“反感”和“喜欢”这两种情绪,同时还可以对它们的情感强度进行分类,在这个例子中“反感”的强度为低,而“喜欢”的强度为高。
表2示例性示出了不同的情绪分类和强度分类。
表2、情绪及强度分类表
本申请实施例提供的情感分析方法可以对直播间或者游戏视频的舆情进行细粒度的情感分析,包括整体情绪的分析和弹幕级别的情感分析,能够帮助游戏主播更好地了解玩家和观众对游戏内容和直播体验的态度和情感,从而改进游戏内容和服务,提高用户满意度。同时,利用本申请实施例提供的情感分析方法还可以为广告主和投资人提供有价值的参考,帮助他们更好地了解游戏市场和玩家需求。
本申请实施例提供的情感分析方法,能够进行多情绪带强度的方面级游戏文本情感分析。通过方面级观点抽取器、多标签情绪分类器和情感强度分类器三个模块实现情感分析。方面级观点抽取器主要基于指针网络实现对游戏文本中实体和情感观点的抽取;多标签情绪分类器使用多标签任务的学习方法实现对游戏文本中的多种情绪进行检测;情感强度分类器则采用Transformer架构的分类器对每种情绪在文本中的强度进行分类。利用本申请实施例提供的情感分析方法,能够分析游戏文本中的多种情感、情感指向实体、情感强度,便于更好的监测游戏直播的舆情变化。
图7是本申请实施例提供的情感分析方法的再一种实现流程示意图,下面结合图7对各个步骤进行说明。
在步骤401中,获取弹幕或评论中的游戏文本。
在步骤402中,通过方面级观点抽取器提取文本中的方面信息和观点。
方面级观点抽取器主要目的是抽取游戏文本中的实体和对应的情感观点。为了实现这一目标,在本申请实施例中,采用指针网络(pointer network)作为基础架构。指针网络是一种序列到序列(seq2seq)模型,其可以动态地计算输入序列中每个位置的注意力权重,并使用这些权重来生成输出序列。在方面级观点抽取器中,指针网络的输入为游戏文本,输出为游戏文本中的实体和对应的情感观点。
指针网络的核心思想是在生成输出序列时,引入一个指针机制,该机制可以让模型在输入序列中动态地选择某个位置的信息作为输出。在本申请实施例中,采用了指针网络的两个主要组成部分:编码器和解码器。编码器将输入序列中的每个位置都表示为一个固定长度的向量,这些向量捕捉了输入序列的语义信息。解码器则根据输入序列的向量表示以及当前已经生成的输出序列,动态计算注意力权重,并使用这些权重来生成下一个输出位置的向量表示。以下公式(1-1)和(1-2)为指针网络最主要的计算方法:
其中,与注意力机制类似,当前解码器解码至第i个位置,在公式(1-1)中,vT和W1、W2都是可学习的参数,ej表示输入序列第j个token的编码器隐向量表示,di表示d解码器的第i个输出的隐向量表示,对应着编码到第i个位置时对输入序列第j个位置的注意力分数。通过公式(1-2)表示通过soft max函数对/>至/>做一个归一化处理,得到当前输出Ci的条件概率分布。
在本申请实施例中,可以利用ERNIE3.0作为指针网络的预训练模型,以提高方面级观点抽取器的信息抽取能力。ERNIE3.0是一种基于Transformer结构的预训练模型,其通过大量信息抽取数据的预训练,具备了较强的信息抽取能力。在方面级观点抽取器中,将ERNIE3.0作为指针网络的编码器,用于提取游戏文本中的语义信息,并将其传递给指针网络的解码器。
总的来说,方面级观点抽取器采用了指针网络和ERNIE3.0作为基础架构,结合了信息抽取和注意力机制的优势,能够有效地抽取游戏文本中的实体和对应的情感观点。
在步骤403中,将游戏文本通过特殊字符标记方面信息和观点后,输入到多标签情感分类器,识别文本中存在情感。
在本申请实施例中,多标签情感分类器的输入数据为游戏文本、方面信息和观点,其中方面信息和观点对应的是利用上述方面级观点抽取器抽取出来的方面信息和对应的情感观点。
在将输入数据输入至多标签情感分类器前,需要对输入进行一定的预处理。首先通过字符串匹配的方式找到文本中方面信息和情感观点的起始位置,并在方面信息文本的前后添加[ASP]和[/ASP]特殊字符,然后在观点文本前后添加[OP]和[/OP]特殊字符,以便于模型更好地识别方面信息和情绪观点。修改后的输入Xs如公式(1-3)所示:
Xs=[x1,...,[ASP],a1,...,am,[/ASP],...,[OP],o1,...,on,[/OP],...,xz](1-3);
其中xi表示除了方面信息和观点之外的其他游戏文本的第i个token,z表示这些文本的长度;同理ai表示方面信息文本的第i个token,m为方面信息文本的总长度,oi表示观点文本的第i个token,n为观点文本的总长度。
在多标签情感分类器的模型基础架构方面,同样采用了ERNIE3.0预训练模型,但使用了多标签分类任务。与传统的单标签分类不同,多标签分类器可以同时输出多种情绪分类结果。在最后一层,使用sigmoid激活函数替代soft max层,对于大于阈值0.5的分类进行输出,得到多种情绪输出。
在多标签模型中,每个标签的预测都是独立的,模型预测的每个标签都可以被认为是一个二元分类任务。sigmoid函数将每个标签的预测映射到0到1的范围内,得到一个概率分布。若该标签的概率值大于阈值0.5,则认为该标签存在;否则认为该标签不存在。如此可以同时预测文本中的多种情绪分类结果。
多标签情感分类器的目标是最小化每个标签上的交叉熵损失。其损失函数定义为:
其中,N表示训练样本的数量,M表示标签的数量,yi,j表示第i个样本在第j个标签上的真实值,表示模型在第i个样本上对第j个标签的预测值。通过训练模型,可以得到对游戏文本中各个方面信息和观点的情感分类结果,方便后续情感强度的分类和多种情绪的检测。
在步骤404中,将识别出的情感、方面信息和观点输入至情绪强度分类器,输出情绪强度。
情感强度分类器是将情感分为低、中、高三种强度,情感强度分类器的输入数据包括多标签情感分类器的输入数据和需要进行强度分类的情感。如此可以对每种情感的强度进行分类,更好地分析游戏直播的舆情变化。情感强度分类器的输入XI如公式(1-5)所示:
XI=[Xs,[SEP],s1,...,sm] (1-5);
其中,Xs表示多标签情感分类器的输入数据,si表示要进行强度分类的情感的第i个token,m表示情感的长度。
在模型基础架构方面,采用基于Transformer架构的分类器。Transformer是目前自然语言处理领域中最先进的模型之一,它通过自注意力机制,克服了传统的循环神经网络和卷积神经网络中存在的长距离依赖和计算效率低的问题。在本发明中,将文本输入到Transformer模型中,经过一系列的编码和解码过程后,得到了每个单词对应的上下文表示向量。在模型输出的最后一层,添加了一个线性分类层用于分类情感强度。将上下文表示向量输入到线性分类层中,得到每个情感强度分类的概率分布。通过对概率分布进行解码,可以得到对每种情感强度的分类结果。
本申请实施例提出了一种多情绪带强度的方面级游戏文本情感分析方法,能够应用于游戏直播舆情分析以及其他直播的舆情分析,能够更全面地分析游戏文本中的多种情感、情感指向实体、情感强度,提高了情感分析的准确性和实用性。利用本申请实施例提供的方面级观点抽取器、多标签情感分类器和情感强度分类器,能够更好地对游戏文本中的实体、观点和情感进行抽取、分类和预测,进一步提高了情感分析的细粒度和准确性,从而为游戏直播领域的舆情分析和管理提供重要的支持。
可以理解的是,在本申请实施例中,涉及到用户信息、弹幕文本、评论文本等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的情感分析装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的情感分析装置455中的软件模块可以包括:
信息抽取模块4551,用于获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;
第一确定模块4552,用于基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;
第二确定模块4553,用于基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;
第三确定模块4554,用于基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
在一些实施例中,该信息抽取模块4551还用于:
获取方面信息抽取对应的第一任务提示信息,将所述待分析文本和所述第一任务提示信息进行拼接,得到第一拼接后文本;
利用信息抽取器对所述第一拼接后文本进行信息抽取,得到所述待分析文本中的方面信息;
获取观点信息抽取对应的第二任务提示信息,将所述待分析文本、所述第二任务提示信息和所述方面信息进行拼接,得到第二拼接后文本;
利用信息抽取器对所述第二拼接后文本进行信息抽取,得到所述方面信息对应的观点信息。
在一些实施例中,该信息抽取模块4551还用于:
对所述待分析文本进行分词处理,得到输入序列,所述输入序列中包括待分析文本的多个输入分词;
对所述输入序列进行编码处理,得到所述输入序列中各个输入分词的隐向量表示;
获取当前已生成输出序列中各个输出分词的隐向量表示;
对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,确定所述待分析文本中的方面信息。
在一些实施例中,所述当前已生成输出序列包括i-1个输出分词,该信息抽取模块4551还用于:
对所述各个输入分词的隐向量表示和所述当前已生成输出序列中i-1个输出分词的隐向量表示进行解码处理,得到第i个输出分词的隐向量表示,i为大于1且小于M的整数,M为输出分词总个数;
基于所述各个输入分词的隐向量表示和所述第i个输出分词的隐向量表示,确定所述第i个输出分词对所述各个输入分词的注意力权重;
对所述第i个输出分词对所述各个输入分词的注意力权重进行归一化,得到所述第i个输出分词对应的条件概率分布;
利用所述第i个输出分词对应的条件概率分布从所述输入序列中,确定所述第i个输出分词。
在一些实施例中,该第一确定模块4552还用于:
基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本,所述预处理后的待分析文本中携带有所述方面信息的方面标识符和所述方面信息对应的观点信息的观点标识符;
利用多标签情感分类器,对预处理后的待分析文本进行分类处理,得到所述方面信息对应的至少一个目标情绪标签。
在一些实施例中,该第一确定模块4552还用于:
利用所述多标签情感分类器中的编码器对所述预处理后的待分析文本进行编码处理,得到第一编码结果;
利用所述多标签情感分类器中输出层,对所述第一编码结果进行预测处理,得到所述方面信息为各个预设情绪标签的第一概率;
将第一概率大于预设阈值的预设情绪标签,确定为所述方面信息对应的目标情绪标签。
在一些实施例中,该第二确定模块4553还用于:
基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本;
将所述预处理后的待分析文本和所述方面信息对应的目标情绪标签进行组合,得到组合文本;
利用情绪强度分类器,对所述组合文本进行预测处理,得到所述目标情绪标签对应的情感强度。
在一些实施例中,该第二确定模块4553还用于:
利用情绪强度分类器中的编码器,对所述组合文本进行编码处理,得到所述组合文本的第二编码结果;
利用所述情绪强度分类器中输出层,对所述第二编码结果进行预测处理,得到所述目标情绪标签对应的各个预设情感强度的第二概率;
将最高第二概率对应的预设情感强度,确定为所述目标情绪标签对应的情感强度。
在一些实施例中,该第三确定模块4554还用于:
获取预设时长内接收到多条评论文本;
将各条评论文本分别确定为各条所述待分析文本;
对各条所述待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度进行统计,得到所述预设时长内的情感分析结果。
在一些实施例中,所述评论文本为针对直播视频的评论文本,所述装置还包括:
第四确定模块,用于确定所述预设时长内的情感分析结果对应的处理策略;
策略发送模块,用于将所述所述处理策略发送至所述直播视频对应的主播终端。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的情感分析方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的情感分析方法,例如,如图3A及图5示出的情感分析方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (14)

1.一种情感分析方法,其特征在于,所述方法包括:
获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;
基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;
基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;
基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
2.根据权利要求1中所述的方法,其特征在于,所述对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息,包括:
获取方面信息抽取对应的第一任务提示信息,将所述待分析文本和所述第一任务提示信息进行拼接,得到第一拼接后文本;
利用信息抽取器对所述第一拼接后文本进行信息抽取,得到所述待分析文本中的方面信息;
获取观点信息抽取对应的第二任务提示信息,将所述待分析文本、所述第二任务提示信息和所述方面信息进行拼接,得到第二拼接后文本;
利用信息抽取器对所述第二拼接后文本进行信息抽取,得到所述方面信息对应的观点信息。
3.根据权利要求2中所述的方法,其特征在于,所述利用信息抽取器对所述第一拼接后文本进行信息抽取,得到所述待分析文本中的方面信息,包括:
对所述待分析文本进行分词处理,得到输入序列,所述输入序列中包括待分析文本的多个输入分词;
对所述输入序列进行编码处理,得到所述输入序列中各个输入分词的隐向量表示;
获取当前已生成输出序列中各个输出分词的隐向量表示;
对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,确定所述待分析文本中的方面信息。
4.根据权利要求3中所述的方法,其特征在于,所述当前已生成输出序列包括i-1个输出分词,所述对所述各个输入分词的隐向量表示和所述当前已生成输出序列中各个输出分词的隐向量表示进行解码处理,确定所述待分析文本中的方面信息,包括:
对所述各个输入分词的隐向量表示和所述当前已生成输出序列中i-1个输出分词的隐向量表示进行解码处理,得到第i个输出分词的隐向量表示,i为大于1且小于M的整数,M为输出分词总个数;
基于所述各个输入分词的隐向量表示和所述第i个输出分词的隐向量表示,确定所述第i个输出分词对所述各个输入分词的注意力权重;
对所述第i个输出分词对所述各个输入分词的注意力权重进行归一化,得到所述第i个输出分词对应的条件概率分布;
利用所述第i个输出分词对应的条件概率分布从所述输入序列中,确定所述第i个输出分词。
5.根据权利要求1中所述的方法,其特征在于,所述基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一目标情绪标签,包括:
基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本,所述预处理后的待分析文本中携带有所述方面信息的方面标识符和所述方面信息对应的观点信息的观点标识符;
利用多标签情感分类器,对预处理后的待分析文本进行分类处理,得到所述方面信息对应的至少一个目标情绪标签。
6.根据权利要求5中所述的方法,其特征在于,所述利用多标签情感分类器,对预处理后的待分析文本进行分类处理,得到所述方面信息对应的至少一个目标情绪标签,包括:
利用所述多标签情感分类器中的编码器对所述预处理后的待分析文本进行编码处理,得到第一编码结果;
利用所述多标签情感分类器中输出层,对所述第一编码结果进行预测处理,得到所述方面信息为各个预设情绪标签的第一概率;
将第一概率大于预设阈值的预设情绪标签,确定为所述方面信息对应的目标情绪标签。
7.根据权利要求1中所述的方法,其特征在于,所述基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的目标情绪标签,确定所述目标情绪标签对应的情感强度,包括:
基于所述方面信息和所述方面信息对应的观点信息,对所述待分析文本进行预处理,得到预处理后的待分析文本;
将所述预处理后的待分析文本和所述方面信息对应的目标情绪标签进行组合,得到组合文本;
利用情绪强度分类器,对所述组合文本进行预测处理,得到所述目标情绪标签对应的情感强度。
8.根据权利要求7中所述的方法,其特征在于,所述利用情绪强度分类器,对所述组合文本进行预测处理,得到所述目标情绪标签对应的情感强度,包括:
利用情绪强度分类器中的编码器,对所述组合文本进行编码处理,得到所述组合文本的第二编码结果;
利用所述情绪强度分类器中输出层,对所述第二编码结果进行预测处理,得到所述目标情绪标签对应的各个预设情感强度的第二概率;
将最高第二概率对应的预设情感强度,确定为所述目标情绪标签对应的情感强度。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果,包括:
获取预设时长内接收到多条评论文本;
将各条评论文本分别确定为各条所述待分析文本;
对各条所述待分析文本中包括的方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度进行统计,得到所述预设时长内的情感分析结果。
10.根据权利要求9中所述的方法,其特征在于,所述评论文本为针对直播视频的评论文本,所述方法还包括:
确定所述预设时长内的情感分析结果对应的处理策略;
将所述所述处理策略发送至所述直播视频对应的主播终端。
11.一种情感分析装置,其特征在于,所述装置包括:
信息抽取模块,用于获取待分析文本,对所述待分析文本进行信息抽取,得到所述待分析文本中的方面信息和所述方面信息对应的观点信息;
第一确定模块,用于基于所述待分析文本、所述方面信息和所述方面信息对应的观点信息,确定所述方面信息对应的至少一个目标情绪标签;
第二确定模块,用于基于所述待分析文本、所述方面信息、所述方面信息对应的观点信息和所述方面信息对应的至少一个目标情绪标签,确定各个目标情绪标签对应的情感强度;
第三确定模块,用于基于所述方面信息对应的至少一个目标情绪标签和所述各个目标情绪标签对应的情感强度,确定情感分析结果。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至10任一项所述的情感分析方法。
13.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至10任一项所述的情感分析方法。
14.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至10任一项所述的情感分析方法。
CN202310621230.9A 2023-05-29 2023-05-29 情感分析方法、装置、设备及计算机可读存储介质 Pending CN116976354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310621230.9A CN116976354A (zh) 2023-05-29 2023-05-29 情感分析方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310621230.9A CN116976354A (zh) 2023-05-29 2023-05-29 情感分析方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116976354A true CN116976354A (zh) 2023-10-31

Family

ID=88477466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310621230.9A Pending CN116976354A (zh) 2023-05-29 2023-05-29 情感分析方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116976354A (zh)

Similar Documents

Publication Publication Date Title
CN110557659B (zh) 视频推荐方法、装置、服务器及存储介质
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
CN113766299B (zh) 一种视频数据播放方法、装置、设备以及介质
Chen et al. Fine-grained video attractiveness prediction using multimodal deep learning on a large real-world dataset
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN116166827B (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN114339285A (zh) 知识点的处理方法、视频处理方法、装置及电子设备
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
CN113573128B (zh) 一种音频处理方法、装置、终端以及存储介质
CN115840796A (zh) 一种事件整合方法、装置、设备及计算机可读存储介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
CN113407778A (zh) 标签识别方法及装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN117216185A (zh) 分发内容的评论生成方法、装置、设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN116976354A (zh) 情感分析方法、装置、设备及计算机可读存储介质
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication