CN113434631B - 基于事件的情感分析方法、装置、计算机设备及存储介质 - Google Patents

基于事件的情感分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113434631B
CN113434631B CN202110712428.9A CN202110712428A CN113434631B CN 113434631 B CN113434631 B CN 113434631B CN 202110712428 A CN202110712428 A CN 202110712428A CN 113434631 B CN113434631 B CN 113434631B
Authority
CN
China
Prior art keywords
text
emotion
trained
event
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110712428.9A
Other languages
English (en)
Other versions
CN113434631A (zh
Inventor
周骏红
彭琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110712428.9A priority Critical patent/CN113434631B/zh
Publication of CN113434631A publication Critical patent/CN113434631A/zh
Priority to PCT/CN2022/072045 priority patent/WO2022267460A1/zh
Application granted granted Critical
Publication of CN113434631B publication Critical patent/CN113434631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于事件的情感分析方法、装置、计算机设备及存储介质,其中所述方法包括若接收到情感分析请求,解析所述情感分析请求以获取初始文本;对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本;将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件;将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。本发明可以有效提取文本中的论元从而准确确定情感标签,提高了用户的使用体验度,还能应用于智慧政务等场景中,从而推动智慧城市的建设。

Description

基于事件的情感分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种基于事件的情感分析方法、装置、计算机设备及存储介质。
背景技术
目前已经发展出很多技术来判断一段文本的情感倾向。如最初的无监督学习法,其通过抽取句子中的情感触发词,并结合句法语法判断情感得分,但是由于语言的复杂性,这种方法的准确率和泛化能力都有限。随着Word Embedding的提出,对文本包含的信息可以用词向量矩阵表示,这使得端到端的监督学习法成为了可能,如以文本的词向量矩阵为神经网络输入,以情感得分为输出的学习神经网络模型,该方法的效果一开始受限于词向量矩阵对文本语义的提取能力,而随着近年来ELMo、GPT以及Bert等提取语义信息能力很强的模型的出现,监督学习法成为了情感分析的主流。
又最初的情感分析任务是指对一段文本判断其情感得分,但是对于涉及多个主体、多个事件的文本,不同主体的不同事件的情感可能都是不同的,故针对不同主体不同事件的细粒度情感分析任务(ABSA)被提出来,而实现该任务的一种思路是输入一段文本,同时输出主体、事件和对应的情感得分,这种方法由于既要识别主体、事件,又要进行情感分析,准确率不高;另一种思路是事先给定好事件体系,输入文本,输出文本主体在事件体系中的不同事件上的情感得分。上述两种思路存在两方面问题,第一,没有体现出不同事件情感的表述方式的差异,如“利润上升/负债上升”情感触发词都是上升,情感倾向却截然不同;第二,在ABSA任务中,找出主体、事件、情感触发词的对应关系不够明确,故上述两种情感分析的思路所输出对应关系比较草率。总体来说,现有的情感分析的方法在实践中的效果还不够理想,有待优化改进。
发明内容
本发明实施例提供一种基于事件的情感分析方法、装置、计算机设备及存储介质,能够有效提取文本中的论元从而准确确定情感标签,提高了用户的使用体验度。
第一方面,本发明实施例提供了一种基于事件的情感分析方法,该方法包括:
若接收到情感分析请求,解析所述情感分析请求以获取初始文本;
对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件;
将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词;
将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。
第二方面,本发明实施例还提供了一种基于事件的情感分析装置,该装置包括:
请求解析单元,用于若接收到情感分析请求,解析所述情感分析请求以获取初始文本;
预处理单元,用于对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件;
论元提取单元,用于将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词;
情感确定单元,用于将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种基于事件的情感分析方法、装置、计算机设备及存储介质。其中,所述方法包括:若接收到情感分析请求,解析所述情感分析请求以获取初始文本;对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本;将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件;将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。本发明实施例由于通过论元提取模型来确定情感触发词、主体以及事件,可实现提高确定对不同主体在相应的情感触发词下,所属事件的情感标签的准确性,以及提高用户使用体验度,同时,本实施例的方法还能应用于智慧政务等场景中,从而推动智慧城市的建设的效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于事件的情感分析方法的流程示意图;
图1a是本发明实施例提供的一种基于事件的情感分析方法的应用场景示意图;
图2是本发明另一实施例提供的一种基于事件的情感分析方法的流程示意图;
图3是本发明另一实施例提供的一种基于事件的情感分析方法的子流程示意图;
图4是本发明另一实施例提供的一种基于事件的情感分析方法的子流程示意图;
图5是本发明另一实施例提供的一种基于事件的情感分析方法的子流程示意图;
图6是本发明另一实施例提供的一种基于事件的情感分析方法的流程示意图;
图7是本发明实施例提供的一种基于事件的情感分析装置的示意性框图;
图8是本发明另一实施例提供的一种基于事件的情感分析装置的示意性框图;
图9是本发明另一实施例提供的一种基于事件的情感分析装置的数据获取单元的示意性框图;
图10是本发明另一实施例提供的一种基于事件的情感分析装置的文本分割单元的示意性框图;
图11是本发明另一实施例提供的一种基于事件的情感分析装置的第一训练单元的示意性框图;
图12是本发明另一实施例提供的一种基于事件的情感分析装置的示意性框图;
图13是本发明实施例提供的一种计算机设备结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1和图1a,图1是本申请实施例提供的一种基于事件的情感分析方法的示意流程图,图1a是本申请实施例中基于事件的情感分析方法的场景示意图。该基于事件的情感分析方法应用于管理服务器10中。该管理服务器10根据基于事件的情感分析方法对初始文本进行预处理,从而得到多个包括事件关键词的待分析短文本,并将该待分析短文本输入论元提取模型20得到确定每个待分析短文本的情感触发词、主体和事件,随后再确定情感触发词、主体和事件的论元提取模型输入情感确定模型30,从而得到与待分析文本相应的情感标签,本实施例的方法极大地提高了确定文本的情感标签的准确性。以下将以管理服务器10的角度详细地介绍该基于事件的情感分析方法的各个步骤。
如图1所示,该基于事件的情感分析方法的步骤具体可以包括步骤S101~S104。
步骤S101,若接收到情感分析请求,解析所述情感分析请求以获取初始文本。
在本实施例中,管理服务器若接收到情感分析请求,可以对该情感分析请求进行解析,从而得到初始文本。该初始文本可以是预先存储在数据库中的文本,也可以是通过网络爬虫从外部服务器爬取的文本。例如,初始文本可以是企业的舆情信息,该舆情信息可以包括相关的主体、事件以及情感触发词,通过对不同主体和事件、情感关键词等的分析,能够准确区分相同情感触发词所对应得不同情感。
为了进行情感分析,通常需要确定情感关键词以及事件,管理服务器可以对事件进行定义。如,对于事件体系而言,企业的舆情事件一般都与企业运营逻辑紧密相关,从而形成一个完整的事件体系,针对企业舆情中事件的相似性、关联性、相似性,可以设计跟舆情情感相关的三级事件体系。其中,第一级可以包括财务、人员、经营、资本事件、人员、合规、信用、其他共八个方面,每个方面包含一系列具体的事件从而形成二级标签,对二级标签进一步细分后可形成包含共计110个的具体的事件。
对于情感体系而言,可以包括重大负面、一般负面、中性、一般正面、重大正面等的情感标签。进一步针对具体的事件,可以总结相关的情感触发词,并设计不同方向的情感触发词到情感标签体系的映射关系,例如“个股市场表现”这一事件,可以总结出情感触发词集合{“上涨”、“暴涨”、“下跌”、“暴跌”…},并同时相关的情感标签体系可以映射为{“上涨”:一般正面、“暴跌”:重大负面…}。
步骤S102,对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件。
在本实施例中,管理服务器还能够对所获取得初始文本进行预处理。由于管理服务器所获取的初始文本可以是包括多个事件的跟企业舆情相关的新闻稿件,该新闻稿件的内容可以是很长的,而且往往会涉及大量与目标事件无关的句子,故需要对该初始文本进行相应的预处理,如将初始文本分割成若干个短文本,通过筛选,能够将无多余跟事件相关的信息的短文本可以被排除,只有包括事件关键词的短文本被确定为待分析短文本,即所有的确定的待分析短文本是可以包括事件关键词等。
通常,不同的事件可以关联有不同的事件关键词,具体的可以根据当前的网络新闻中的文本信息总结每个事件所包含的事件关键词,一个事件可以关联有一个事件关键词,也可以关联有多个事件关键词。
步骤S103,将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词。
在本实施例中,管理服务器能够将所有的待分析短文本输入到预先设置的论元提取模型中,该预设的论元提取模型能够将待分析文本中的情感触发词、主体以及事件均进行精准的识别,即通过该论元提取模型的分析,能够使得待分析短文中的相关关键信息被确定。当然,作为可选的实施例,通过该论元提取模型,还能够将待分析短文本中所包括的时间、地点等要素点区分确定出来,以便于更为精确地确定待分析短文本的情感标签。
其中,预设的论元提取模型可以是神经网络通过训练数据进行训练后得到的模型,能够提高待分析文本的情感触发词、主体和事件的确定的效率和准确度,更能有效分析具有多个主体以及多个事件的待分析文本。
步骤S104,将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。
在本实施例中,管理服务器能够将确定了情感触发词、主体和事件后的待分析短文本输入到情感确定模型中,从而得到与每个待分析短文本的主体相应的情感标签。例如,A公司现在的股价是**元,股价大涨,该文本的主体是A公司,股价是事件,大涨是情感触发词,可知该文本所对应的情感标签对应的可以为一般正面。又例如,B公司现在的年度亏损是**元,年度亏损下降,该文本的主体是B公司,年度亏损是事件,下降是一般正面。其中,预设的情感确定模型可以是通过训练数据训练神经网络而得到的模型,能够更为精准的确定待分析文本的情感标签。
故可知,通过预设的论元提取模型以及预设的情感确定模型能够对待分析文本进行准确高效的情感标签的标志,提高了用户的使用体验度。
如图2所示,在一实施例中,所述方法的步骤S101之前,还包括步骤S201~S204。
步骤S201,通过网络爬虫爬取原始文本。
其中,为了能够实现对文本的情感标签的快速标准,管理服务器能够获取并处理相关训练数据来训练相关的神经网络从而得到用于进行情感标签标注的相关模型。同行,管理服务器可以通过网络爬虫从相关的新闻网站提取大量的跟企业舆情相关的新闻,即所得到的新闻即可以是待处理的原始文本。
步骤S202,对所获取的原始文本进行预处理,以得到多个包括事件关键词的待训练短文本,并将所得到的待训练短文本作为训练集存储至预设数据库中。
其中,管理服务器还能够对所获取的原始文本进行预处理,即对原始文本进行分割,从而得到多个短文本,通过确认短文本是否包括有事件关键词,从而可以确定有事件关键词的短文本即为待训练短文本。为了能够对待训练短文本进行管理和利用,可以将待训练短文本作为一个训练集存储到预设数据库中,以便调用。
如图3所示,在一实施例中,所述步骤S202可以包括:步骤S301~S302。
步骤S301,根据预设的文本分割函数以及预设的事件关键词对所述原始文本进行分割,以得到多个包括事件关键词的待训练短文本。
其中,预设的文本分割函数可以是cut_text,通过该文本分割函数以及预设的事件关键词,能够将原始文本进行分割,使得尽可能的降相关信息划分到同一短文本中,同时还需要将包括有预设的事件关键词的短文本作为待训练短文本。
如图4所示,在一实施例中,所述步骤S301可以包括步骤S401~S403。
步骤S401,根据预设的文本分割函数对所述原始文本进行分割,以得到多个原始子文本。
其中,具体的,管理服务器能够根据预设的文本分割函数来对该原始文本进行分割,从而得到多个较短的原始子文本。由于原始文本可能较长,包括较多无用信息,故需要对原始子文本进行区分和识别。
步骤S402,判断所述原始子文本是否包括预设事件关键词。
其中,管理服务器可以判断所述原始子文本是否包括预设事件关键词,即来实现对原始子文本的筛选和确定。
步骤S403,若所述原始子文本包括预设事件关键词,将该原始子文本确定为待训练短文本。
其中,管理服务器能够在原始子文本包括预设事件关键词的情况下,将该原始子文本确定为待训练短文本,从而实现对原始文本的分类分割。
再者,管理服务器还能够根据事件关键词来确定该待训练短文本所述的事件,以便于后续的处理。
在进一步的实施例中,所述步骤S301还包括以下步骤:
步骤S404,若所述原始子文本不包括预设事件关键词,删除该原始子文本。
其中,若原始子文本不包括预设事件关键词,可以将该原始子文本进行删除,从而来确定更为准确的训练数据,即确定更为合理的待训练短文本。
步骤S302,将所得到的待训练短文本作为训练集存储至预设数据库中。
其中,为了便于查找利用,管理服务器可以将所得到的待训练短文本作为训练集存储至预设数据库中。
步骤S203,若接收到模型训练指令,从所述预设数据库中调取待训练短文本进行标注,以确定每个待训练文本所包括的情感触发词、主体和事件。
其中,管理服务器若接收到用户发送的模型训练指令,可以从预设数据库中调取待训练短文本来进行标注,从而确定每个待训练文本所包括的情感触发词、主体和事件。上述标注可以通过人工标注进行,也可以根据相关的标注指令来进行自动标注,具体的在本实施例中并不作限定。
步骤S204,通过已标注的待训练文本训练预设的第一神经网络以得到论元提取模型。
其中,管理服务器能够获取已标注的待训练文本,并利用已标注的待训练文本来实现对第一神经网络的训练,从而得到一个训练完成的论元提取模型。
如图5所示,在一实施例中,所述步骤S204可以包括步骤S501~S502。
步骤S501,利用Bert编码得到已标注的待训练文本的向量。
其中,管理服务器还能够利用Bert编码,从而得到已标注的待训练文本的向量,以便于进行后续的训练步骤。
步骤S502,将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络进行训练以得到论元提取模型。
其中,管理服务器可以将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络中,以对第一神经网络进行训练,通过训练第一神经网络就能够得到一个论元提取模型。
如图6所示,若每个事件均预先通过所关联的情感触发词映射有相应的情感标签,所述方法的步骤S101之前还包括步骤S601~S603。
步骤S601,获取已标注的待训练文本所包括的情感触发词、主体和事件。
其中,管理服务器能够获取已标注好的待训练文本所包括的情感触发词、主体和事件。
步骤S602,根据所获取的情感触发词和事件确定与所述待训练文本的情感标签。
其中,每个事件均预先有关联情感触发词,同时对于不同的事件,不同的情感触发词所映射的情感标签是不相同的。故管理服务器可以根据所获取的情感触发词和事件确定与所述待训练文本的情感标签。
步骤S603,通过已确定情感标签以及已标注的待训练文本训练第二神经网络以得到情感确定模型。
其中,管理服务器能够通过已确定的情感标签以及已标注的待训练文本来实现对第二神经网络的训练,从而得到情感确定模型。
综上,本发明实施例能有效提取文本中的论元从而准确确定情感标签,提高了用户的使用体验度,还能应用于智慧政务等场景中,从而推动智慧城市的建设。
本领域技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
请参阅图7,对应上述一种基于事件的情感分析方法,本发明实施例还提出一种基于事件的情感分析装置,该装置100包括:请求解析单元101、预处理单元102、论元提取单元103以及情感确定单元104。
请求解析单元101,用于若接收到情感分析请求,解析所述情感分析请求以获取初始文本。
在本实施例中,管理服务器若接收到情感分析请求,可以对该情感分析请求进行解析,从而得到初始文本。该初始文本可以是预先存储在数据库中的文本,也可以是通过网络爬虫从外部服务器爬取的文本。
为了进行情感分析,通常需要确定情感关键词以及事件,管理服务器可以对事件进行定义。如,对于事件体系而言,企业的舆情事件一般都与企业运营逻辑紧密相关,从而形成一个完整的事件体系,针对企业舆情中事件的相似性、关联性、相似性,可以设计跟舆情情感相关的三级事件体系。其中,第一级可以包括财务、人员、经营、资本事件、人员、合规、信用、其他共八个方面,每个方面包含一系列具体的事件从而形成二级标签,对二级标签进一步细分后可形成包含共计110个的具体的事件。
对于情感体系而言,可以包括重大负面、一般负面、中性、一般正面、重大正面等的情感标签。进一步针对具体的事件,可以总结相关的情感触发词,并设计不同方向的情感触发词到情感标签体系的映射关系,例如“个股市场表现”这一事件,可以总结出情感触发词集合{“上涨”、“暴涨”、“下跌”、“暴跌”…},并同时相关的情感标签体系可以映射为{“上涨”:一般正面、“暴跌”:重大负面…}。
预处理单元102,用于对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件。
在本实施例中,管理服务器还能够对所获取得初始文本进行预处理。由于管理服务器所获取的初始文本可以是包括多个事件的跟企业舆情相关的新闻稿件,该新闻稿件的内容可以是很长的,而且往往会涉及大量与目标事件无关的句子,故需要对该初始文本进行相应的预处理,如将初始文本分割成若干个短文本,通过筛选,能够将无多余跟事件相关的信息的短文本可以被排除,只有包括事件关键词的短文本被确定为待分析短文本,即所有的确定的待分析短文本是可以包括事件关键词等。
通常,不同的事件可以关联有不同的事件关键词,具体的可以根据当前的网络新闻中的文本信息总结每个事件所包含的事件关键词,一个事件可以关联有一个事件关键词,也可以关联有多个事件关键词。
论元提取单元103,用于将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词。
在本实施例中,管理服务器能够将所有的待分析短文本输入到预先设置的论元提取模型中,该预设的论元提取模型能够将待分析文本中的情感触发词、主体以及事件均进行精准的识别,即通过该论元提取模型的分析,能够使得待分析短文中的相关关键信息被确定。当然,作为可选的实施例,通过该论元提取模型,还能够将待分析短文本中所包括的时间、地点等要素点区分确定出来,以便于更为精确地确定待分析短文本的情感标签。
其中,预设的论元提取模型可以是神经网络通过训练数据进行训练后得到的模型,能够提高待分析文本的情感触发词、主体和事件的确定的效率和准确度,更能有效分析具有多个主体以及多个事件的待分析文本。
情感确定单元104,用于将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签。
在本实施例中,管理服务器能够将确定了情感触发词、主体和事件后的待分析短文本输入到情感确定模型中,从而得到与每个待分析短文本的主体相应的情感标签。例如,A公司现在的股价是**元,股价大涨,该文本的主体是A公司,股价是事件,大涨是情感触发词,可知该文本所对应的情感标签对应的可以为一般正面。又例如,B公司现在的年度亏损是**元,年度亏损下降,该文本的主体是B公司,年度亏损是事件,下降是一般正面。其中,预设的情感确定模型可以是通过训练数据训练神经网络而得到的模型,能够更为精准的确定待分析文本的情感标签。
故可知,通过预设的论元提取模型以及预设的情感确定模型能够对待分析文本进行准确高效的情感标签的标志,提高了用户的使用体验度。
如图8所示,在一实施例中,所述装置100的请求解析单元101之前,还包括文本爬取单元201、数据获取单元202、数据标注单元203以及第一训练单元204。
其中,文本爬取单元201,用于通过网络爬虫爬取原始文本。
其中,为了能够实现对文本的情感标签的快速标准,管理服务器能够获取并处理相关训练数据来训练相关的神经网络从而得到用于进行情感标签标注的相关模型。同行,管理服务器可以通过网络爬虫从相关的新闻网站提取大量的跟企业舆情相关的新闻,即所得到的新闻即可以是待处理的原始文本。
数据获取单元202,用于对所获取的原始文本进行预处理,以得到多个包括事件关键词的待训练短文本,并将所得到的待训练短文本作为训练集存储至预设数据库中。
其中,管理服务器还能够对所获取的原始文本进行预处理,即对原始文本进行分割,从而得到多个短文本,通过确认短文本是否包括有事件关键词,从而可以确定有事件关键词的短文本即为待训练短文本。为了能够对待训练短文本进行管理和利用,可以将待训练短文本作为一个训练集存储到预设数据库中,以便调用。
如图9所示,在一实施例中,所述数据获取单元202可以包括:文本分割单元301以及文本存储单元302。
文本分割单元301,用于根据预设的文本分割函数以及预设的事件关键词对所述原始文本进行分割,以得到多个包括事件关键词的待训练短文本。
其中,预设的文本分割函数可以是cut_text,通过该文本分割函数以及预设的事件关键词,能够将原始文本进行分割,使得尽可能的降相关信息划分到同一短文本中,同时还需要将包括有预设的事件关键词的短文本作为待训练短文本。
如图10所示,在一实施例中,所述文本分割单元301可以包括文本处理单元401、文本判断单元402以及文本确定单元403。
文本处理单元401,用于根据预设的文本分割函数对所述原始文本进行分割,以得到多个原始子文本。
其中,具体的,管理服务器能够根据预设的文本分割函数来对该原始文本进行分割,从而得到多个较短的原始子文本。由于原始文本可能较长,包括较多无用信息,故需要对原始子文本进行区分和识别。
文本判断单元402,用于判断所述原始子文本是否包括预设事件关键词。
其中,管理服务器可以判断所述原始子文本是否包括预设事件关键词,即来实现对原始子文本的筛选和确定。
文本确定单元403,用于若所述原始子文本包括预设事件关键词,将该原始子文本确定为待训练短文本。
其中,管理服务器能够在原始子文本包括预设事件关键词的情况下,将该原始子文本确定为待训练短文本,从而实现对原始文本的分类分割。
再者,管理服务器还能够根据事件关键词来确定该待训练短文本所述的事件,以便于后续的处理。
在进一步的实施例中,所述文本分割单元301还包括以下单元:
文本删除单元404,用于若所述原始子文本不包括预设事件关键词,删除该原始子文本。
其中,若原始子文本不包括预设事件关键词,可以将该原始子文本进行删除,从而来确定更为准确的训练数据,即确定更为合理的待训练短文本。
文本存储单元302,用于将所得到的待训练短文本作为训练集存储至预设数据库中。
其中,为了便于查找利用,管理服务器可以将所得到的待训练短文本作为训练集存储至预设数据库中。
数据标注单元203,用于若接收到模型训练指令,从所述预设数据库中调取待训练短文本进行标注,以确定每个待训练文本所包括的情感触发词、主体和事件。
其中,管理服务器若接收到用户发送的模型训练指令,可以从预设数据库中调取待训练短文本来进行标注,从而确定每个待训练文本所包括的情感触发词、主体和事件。上述标注可以通过人工标注进行,也可以根据相关的标注指令来进行自动标注,具体的在本实施例中并不作限定。
第一训练单元204,用于通过已标注的待训练文本训练预设的第一神经网络以得到论元提取模型。
其中,管理服务器能够获取已标注的待训练文本,并利用已标注的待训练文本来实现对第一神经网络的训练,从而得到一个训练完成的论元提取模型。
如图11所示,在一实施例中,所述第一训练单元204可以包括向量确定单元501、第一模型训练单元502。
向量确定单元501,用于利用Bert编码得到已标注的待训练文本的向量。
其中,管理服务器还能够利用Bert编码,从而得到已标注的待训练文本的向量,以便于进行后续的训练步骤。
第一模型训练单元502,用于将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络进行训练以得到论元提取模型。
其中,管理服务器可以将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络中,以对第一神经网络进行训练,通过训练第一神经网络就能够得到一个论元提取模型。
如图12所示,若每个事件均预先通过所关联的情感触发词映射有相应的情感标签,所述装置100的请求解析单元101之前,还包括特征获取单元601、标签确定单元602、第二训练单元603。
特征获取单元601,用于获取已标注的待训练文本所包括的情感触发词、主体和事件。
其中,管理服务器能够获取已标注好的待训练文本所包括的情感触发词、主体和事件。
标签确定单元602,用于根据所获取的情感触发词和事件确定与所述待训练文本的情感标签。
其中,每个事件均预先有关联情感触发词,同时对于不同的事件,不同的情感触发词所映射的情感标签是不相同的。故管理服务器可以根据所获取的情感触发词和事件确定与所述待训练文本的情感标签。
第二训练单元603,用于通过已确定情感标签以及已标注的待训练文本训练第二神经网络以得到情感确定模型。
其中,管理服务器能够通过已确定的情感标签以及已标注的待训练文本来实现对第二神经网络的训练,从而得到情感确定模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于事件的情感分析装置100和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
由以上可见,在硬件实现上,以上请求解析单元101、预处理单元102、论元提取单元103以及情感确定单元104等可以以硬件形式内嵌于或独立于基于事件的情感分析装置中,也可以以软件形式存储于基于事件的情感分析装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述基于事件的情感分析装置可以实现为一种计算机程序的形式,计算机程序可以在如图13所示的计算机设备上运行。
图13为本发明一种计算机设备的结构组成示意图。该设备可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参照图13,该计算机设备700包括通过系统总线701连接的处理器702、存储器、内存储器704和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。
该非易失性存储介质703可存储操作系统7031和计算机程序7032,该计算机程序7032被执行时,可使得处理器702执行一种基于事件的情感分析方法。
该处理器702用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行一种基于事件的情感分析方法。
该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器702用于运行存储在存储器中的计算机程序7032,以实现如上所述的基于事件的情感分析方法中的步骤。
应当理解,在本申请实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如上所述的基于事件的情感分析方法中的步骤。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于事件的情感分析方法,其特征在于,所述方法包括:
通过网络爬虫爬取原始文本;
对所获取的原始文本进行预处理,以得到多个包括事件关键词的待训练短文本,并将所得到的待训练短文本作为训练集存储至预设数据库中;
若接收到模型训练指令,从所述预设数据库中调取待训练短文本进行标注,以确定每个待训练文本所包括的情感触发词、主体和事件;
通过已标注的待训练文本训练预设的第一神经网络以得到论元提取模型;
若接收到情感分析请求,解析所述情感分析请求以获取初始文本;
对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件;
将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词;
将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签;
其中,所述通过已标注的待训练文本训练预设的第一神经网络以得到论元提取模型,包括:
利用Bert编码得到已标注的待训练文本的向量;
将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络进行训练以得到论元提取模型。
2.如权利要求1所述的方法,其特征在于,所述对所获取的原始文本进行预处理,以得到多个包括事件关键词的待训练短文本,并将所得到的待训练短文本作为训练集存储至预设数据库中的步骤,包括:
根据预设的文本分割函数以及预设的事件关键词对所述原始文本进行分割,以得到多个包括事件关键词的待训练短文本;
将所得到的待训练短文本作为训练集存储至预设数据库中。
3.如权利要求2所述的方法,其特征在于,所述根据预设的文本分割函数以及预设的事件关键词对所述原始文本进行分割,以得到多个包括事件关键词的待训练短文本的步骤,包括:
根据预设的文本分割函数对所述原始文本进行分割,以得到多个原始子文本;
判断所述原始子文本是否包括预设事件关键词;
若所述原始子文本包括预设事件关键词,将该原始子文本确定为待训练短文本。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若所述原始子文本不包括预设事件关键词,删除该原始子文本。
5.如权利要求1所述的方法,其特征在于,若每个事件均预先通过所关联的情感触发词映射有相应的情感标签,所述方法还包括:
获取已标注的待训练文本所包括的情感触发词、主体和事件;
根据所获取的情感触发词和事件确定与所述待训练文本的情感标签;
通过已确定情感标签以及已标注的待训练文本训练第二神经网络以得到情感确定模型。
6.一种基于事件的情感分析装置,其特征在于,所述装置包括:
文本爬取单元,用于通过网络爬虫爬取原始文本;
数据获取单元,用于对所获取的原始文本进行预处理,以得到多个包括事件关键词的待训练短文本,并将所得到的待训练短文本作为训练集存储至预设数据库中;
数据标注单元,用于若接收到模型训练指令,从所述预设数据库中调取待训练短文本进行标注,以确定每个待训练文本所包括的情感触发词、主体和事件;
第一训练单元,用于通过已标注的待训练文本训练预设的第一神经网络以得到论元提取模型;
请求解析单元,用于若接收到情感分析请求,解析所述情感分析请求以获取初始文本;
预处理单元,用于对所获取的初始文本进行预处理,以得到多个包括事件关键词的待分析短文本,其中,不同的事件关键词关联相应的事件;
论元提取单元,用于将所有的待分析短文本输入预设的论元提取模型,以确定每个待分析短文本的情感触发词、主体和事件,其中,不同的事件关联有不同的情感触发词;
情感确定单元,用于将所确定的每个待分析短文本的情感触发词、主体和事件输入预设的情感确定模型,以得到与每个待分析短文本的主体相应的情感标签;
其中,所述第一训练单元还包括:
向量确定单元,用于利用Bert编码得到已标注的待训练文本的向量;
第一模型训练单元,用于将已标注的待训练文本的向量以及已标注的待训练文本所包括的情感触发词、主体和事件输入预设的第一神经网络进行训练以得到论元提取模型。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-5中任一项所述的方法。
CN202110712428.9A 2021-06-25 2021-06-25 基于事件的情感分析方法、装置、计算机设备及存储介质 Active CN113434631B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110712428.9A CN113434631B (zh) 2021-06-25 2021-06-25 基于事件的情感分析方法、装置、计算机设备及存储介质
PCT/CN2022/072045 WO2022267460A1 (zh) 2021-06-25 2022-01-14 基于事件的情感分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110712428.9A CN113434631B (zh) 2021-06-25 2021-06-25 基于事件的情感分析方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113434631A CN113434631A (zh) 2021-09-24
CN113434631B true CN113434631B (zh) 2023-10-13

Family

ID=77754534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110712428.9A Active CN113434631B (zh) 2021-06-25 2021-06-25 基于事件的情感分析方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN113434631B (zh)
WO (1) WO2022267460A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434631B (zh) * 2021-06-25 2023-10-13 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
CN114065763A (zh) * 2021-11-24 2022-02-18 深圳前海环融联易信息科技服务有限公司 一种基于事件抽取的舆情分析方法、装置及相关组件

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、系统、计算机终端及存储介质
WO2020253042A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 情感智能判断方法、装置及计算机可读存储介质
CN112632225A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112784580A (zh) * 2021-01-25 2021-05-11 中国工商银行股份有限公司 基于事件抽取的金融数据分析方法及装置
CN112860852A (zh) * 2021-01-26 2021-05-28 北京金堤科技有限公司 信息分析方法及装置、电子设备和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
US10956678B2 (en) * 2018-08-24 2021-03-23 S&P Global Inc. Sentiment analysis
CN113434631B (zh) * 2021-06-25 2023-10-13 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253042A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 情感智能判断方法、装置及计算机可读存储介质
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、系统、计算机终端及存储介质
CN112632225A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112784580A (zh) * 2021-01-25 2021-05-11 中国工商银行股份有限公司 基于事件抽取的金融数据分析方法及装置
CN112860852A (zh) * 2021-01-26 2021-05-28 北京金堤科技有限公司 信息分析方法及装置、电子设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
广义文本情感分析综述;杨开漠;吴明芬;陈涛;;计算机应用(第S2期);第11-19页 *

Also Published As

Publication number Publication date
CN113434631A (zh) 2021-09-24
WO2022267460A1 (zh) 2022-12-29

Similar Documents

Publication Publication Date Title
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN111222305B (zh) 一种信息结构化方法和装置
CN113434631B (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111522915A (zh) 中文事件的抽取方法、装置、设备及存储介质
CN111832318B (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
US11397756B2 (en) Data archiving method and computing device implementing same
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN111444703A (zh) 语句压缩方法、装置、设备及计算机可读存储介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN111914859A (zh) 一种服务复用方法、计算设备及计算机可读存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN113724738B (zh) 语音处理方法、决策树模型训练方法、装置、设备及存储介质
CN116090450A (zh) 一种文本处理方法及计算设备
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN110502741B (zh) 中文文本的识别方法及装置
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055414

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant