CN114003694A - 实体情感分析方法、系统、存储介质及电子设备 - Google Patents

实体情感分析方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN114003694A
CN114003694A CN202111283577.4A CN202111283577A CN114003694A CN 114003694 A CN114003694 A CN 114003694A CN 202111283577 A CN202111283577 A CN 202111283577A CN 114003694 A CN114003694 A CN 114003694A
Authority
CN
China
Prior art keywords
entity
predicted
public opinion
public
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111283577.4A
Other languages
English (en)
Inventor
赵子恒
沈剑峰
徐菊婷
王晓旭
钟浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111283577.4A priority Critical patent/CN114003694A/zh
Publication of CN114003694A publication Critical patent/CN114003694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种实体情感分析方法、系统、存储介质及电子设备,实体情感分析方法包括:获取步骤:通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;识别步骤:从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;情感极性获取步骤:构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。本发明通过将用户行为+微信生态开放数据+业务数据+会话数据做用户数据打通,提供用户在多触点以及在企微触点会话中的关键节点。

Description

实体情感分析方法、系统、存储介质及电子设备
技术领域
本发明属于实体情感分析领域,具体涉及一种实体情感分析方法、系统、存储介质及电子设备。
背景技术
现代产业园区随着经济环境的发展逐步发展起来,但随着经济的不断变化,主要依托于投资环境评估报告、招商手册、招商宣传片等线下的面对面交流与传播的传统招商模式,时间限制大、覆盖面小、成本高等诸多缺点限制已经不能满足产业园招商需求,招商模式急需转型。智慧招商是当下各地政府、园区积极探索的招商引资新模式。智慧招商是将大数据与互联网技术运用到园区招商的实践经验中,利用大数据和云计算等现代高新技术手段为园区解决招商运营难、为企业解决投资入园难的问题,突破了时间与地域的限制,提高了招商效率,节省了大量人力物力成本。
在智慧招商的过程中,主要是关注企业的相关动态。在新闻舆情中,能够获取到大量企业相关动态,因此它也成为业务人员寻找决策参考信息的重要来源。然而,信息爆炸式增长使得从中获取有用信息的难度显著加大。例如在同一篇新闻文本中,针对不同的公司可能会存在不同的情感极性。然而如何判断同一篇新闻舆情中的不同企业的情感极性是一个急需解决的技术问题。然而在目前的智慧招商项目中,还缺少针对新闻舆情中的企业实体的情感分析的相关方案。
目前的智慧招商任务中,关于新闻舆情的情感分析仅仅是停留在篇章级别和句子级别。篇章级和句子级情感分析的方法仅仅是处理对象文本的长度的差异。它们假设一段文本只有一种情感,并对给定文本进行分析并判断其整体的情感极性是正面、负面或者中性等。根据整篇新闻舆情的情感极性和当前文本中存在得公司实体,进一步推断出舆情新闻中得公司的情感极性。目前,针对文本整体进行情感分析的研究技术已经相对成熟,达到了较好的性能。
然而,针对智慧招商中,对文本进行整体情感分析的方法,会掩盖舆情新闻中的具体细节。且整体的舆情新闻的情感并不能反映出在文本中的企业的情感极性,目前的推断方法会导致企业的情感极性出现较大的误差。如果只关注舆情整体的情感极性,而忽略了出现在舆情中公司实体的情感极性,可能会使业务人员的决策出现较大的错误。因此,为了获得更加准确的公司情感极性,找到每一篇新闻舆情中的每一个公司实体,并确定该公司在当前舆情中情感极性是一个更加可靠的方法。
发明内容
本申请实施例提供了一种实体情感分析方法、系统、存储介质及电子设备,以至少解决现有的实体情感分析方法在智慧招商项目中的新闻舆情情感分析的粒度较大的问题。
本发明提供了一种实体情感分析方法,其中,包括:
获取步骤:通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别步骤:从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取步骤:构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
上述实体情感分析方法,其中,所述识别步骤包括:读取所述数据库中的数据获取所述待预测舆情文本信息,通过所述实体识别模型识别出所述待预测舆情实体名称,通过企业工商库中的实体名称对所述待预测舆情实体名称进行过滤获得最终的所述待预测舆情实体名称。
上述实体情感分析方法,其中,所述情感极性获取步骤包括:
训练数据获取步骤:对舆情数据进行预处理后将所述舆情数据转化为设定格式的训练数据;
模型构建步骤:通过所述训练数据对AlBert模型进行训练后,形成所述实体情感分析模型;
模型处理步骤:通过所述实体情感分析模型基于mask机制对所述待预测舆情实体名称及所述待预测舆情文本信息,获得对应每一所述待预测舆情实体名称的实体情感极性并保存。
上述实体情感分析方法,其中,所述待预测舆情实体名称及所述实体名称均包括企业全称和企业简称。
上述实体情感分析方法,其中,所述训练数据获取步骤包括:
对所述舆情数据进行去除冗余以及规范化处理后,根据标注规则对舆情数据进行数据标注,将标注后的所述舆情数据转化为所述训练数据。
上述实体情感分析方法,其中,所述模型处理步骤包括:
确定所述待预测舆情实体名称在所述待预测舆情文本信息中的位置后;根据模型设定的输入文本长度从所述待预测舆情文本信息中截取上下文信息;通过mask机制对所述上下文信息其他实体名称进行遮挡;计算所述待预测舆情实体名称在所述上下文信息中的坐标后,将带有坐标的所述上下文信息以及所述待预测舆情实体名称输入所述实体情感分析模型,获得对应每一所述待预测舆情实体名称的实体情感极性。
上述实体情感分析方法,其中,所述模型处理步骤中还包括:通过统一符号对其他实体名称进行遮挡。
本发明还提供了一种实体情感分析系统,其中,包括:
获取模块,所述获取模块通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别模块,所述识别模块从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取模块,所述情感极性获取模块构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述任一所述的实体情感分析方法。
本发明还提供了一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述任一所述的实体情感分析方法。
本发明的有益效果在于:
本发明属于深度学习技术中的自然语言处理领域。本发明是使用基于AlBert加上mask的实体级别的情感分析,该发明根据当前公司实体的上下文对公司的情感极性进行判断,从更小的粒度出发,更加能够从舆情新闻中挖掘出更多的信息,避免了关注整体情感而忽略了舆情文本细节的问题。使业务人员获得了更多的信息,能够做出更加合理的决策。此外,本发明也取得了十分显著的预测性能,模型的准确率高达89%,和舆情情感分类的模型相比,准确率也获得了提升。因此,该方法无论是从情感状态的识别粒度上来说,还是从情感状态的预测性能来说,都得到了显著提高,都更加有利于业务人员在智慧招商工作中进行决策,提高了业务人员的工作效率,节省了成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
在附图中:
图1是本发明的实体情感分析方法的流程图;
图2是本发明的处理步骤S3的流程图;
图3是公司实体情感分析的部分框架图;
图4是基于实体级别的情感分析的方案设计图;
图5是本发明的实体情感分析系统的结构示意图;
图6是根据本发明实施例的电子设备的框架图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
实施例一:
本发明针对智慧招商项目中的新闻舆情情感分析的粒度较大的问题,提出了一种更小粒度的基于公司实体的情感分析模型。该方法能够从新闻舆情中挖掘到更多的有效信息,通过判断出每一篇新闻中出现的所有公司实体的情感极性,能够更加准确的判断公司的相关动态是否对于招商工作存在影响。同时,本发明基于实体级别的情感分析获得了较好的预测性能,提高了模型的准确率,能够更加准确的判断当前公司的情感极性对于招商工作的影响情况,能够帮助业务人员做出更加合理的决策。
请参照图1,图1是实体情感分析方法的流程图。如图1所示,本发明的实体情感分析方法包括:
获取步骤S1:通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别步骤S2:从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取步骤S3:构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
其中,所述识别步骤包括:读取所述数据库中的数据获取所述待预测舆情文本信息,通过所述实体识别模型识别出所述待预测舆情实体名称,通过企业工商库中的实体名称对所述待预测舆情实体名称进行过滤获得最终的所述待预测舆情实体名称。
请参照图2,图2是实体情感分析方法的流程图。如图2所示,所述情感极性获取步骤S3包括:
训练数据获取步骤S31:对舆情数据进行预处理后将所述舆情数据转化为设定格式的训练数据;
模型构建步骤S32:通过所述训练数据对AlBert模型进行训练后,形成所述实体情感分析模型;
模型处理步骤S33:通过所述实体情感分析模型基于mask机制对所述待预测舆情实体名称及所述待预测舆情文本信息,获得对应每一所述待预测舆情实体名称的实体情感极性并保存。
其中,所述待预测舆情实体名称及所述实体名称均包括企业全称和企业简称。
其中,所述训练数据获取步骤S31包括:
对所述舆情数据进行去除冗余以及规范化处理后,根据标注规则对舆情数据进行数据标注,将标注后的所述舆情数据转化为所述训练数据。
其中,所述模型处理步骤S33包括:
确定所述待预测舆情实体名称在所述待预测舆情文本信息中的位置后;根据模型设定的输入文本长度从所述待预测舆情文本信息中截取上下文信息;通过mask机制对所述上下文信息其他实体名称进行遮挡;计算所述待预测舆情实体名称在所述上下文信息中的坐标后,将带有坐标的所述上下文信息以及所述待预测舆情实体名称输入所述实体情感分析模型,获得对应每一所述待预测舆情实体名称的实体情感极性。
上述实体情感分析方法,其中,所述模型处理步骤中还包括:通过统一符号对其他实体名称进行遮挡。
具体地说,针对智慧招商的新闻舆情中,公司实体情感分析的部分框架如图3所示:该框架中,主要涉及到两方面,第一部分是数据的获取,第二部分是使用模型对数据进行处理。数据的获取是通过爬虫脚本从各个公司的官网,以及各个第三方平台进行爬取,目前涉及到的一百多个网站的新闻爬取工作,将舆情新闻爬取保存在数据库中,以便后续对新闻舆情进行处理。舆情中的实体情感分析首先读取数据库中的舆情新闻,然后需要使用实体识别模型识别出舆情文本中的公司全称和公司简称,根据实体关联模块,将能和企业工商库中的企业匹配上的企业全称和企业简称保存,接着将关联到的公司关键词和整个舆情文本输入到实体情感分析的模型当中,最后将生成的每一个公司关键词对应的情感极性保存到数据表中。最后业务人员根据计算出的公司情感极性中是否存在负面信息来判断当前公司是否存在风险,结合其他数据进行分析,判断当前企业是否可以作为一个招商目标。
进一步,本发明基于实体级别的情感分析的方案设计如图4所示,主要由三部分构成:新闻舆情数据的标注、实体情感模型的训练以及模型在生产环境提供服务等。这三部分如下所示:
1.首先需要收集原始的舆情数据,对舆情数据进行预处理,减少数据的冗余以及进行规范化;其次,根据数据的标注规则,对预处理过的脚本进行数据标注;最后将标注好的数据转化为所需要的特定格式的训练数据。
2.准备好训练数据之后,要使用AlBert模型加载训练数据,然后对模型进行训练,将生成的模型保存下来用于提供模型服务。
3.第三部分首先需要使用其他的实体识别模型将舆情文本中的公司实体识别出来,然后将识别出来的公司实体和企业工商库中的公司实体进行匹配,最后将匹配上的出现在舆情新闻中的公司保存下来,通过模型服务来预测实体情感倾向。
再进一步,本发明的细节之处在于AlBert+mask机制,通过构造指定格式的输入样本来预测文本中存在的实体情感极性。首先使用实体识别模型传入待预测的公司实体,然后找到这些待预测的公司实体在舆情文本中的位置,由于模型设定的输入文本长度在128,所以在公司实体的前后各截取一半的文本,作为上下文信息传入到模型中,最后通过mask机制,用一个统一的符号“[unused3]”对文本中出现的其他实体进行遮挡,以便避免其他实体对当前待预测的实体造成影响,将构造完成的输入文本再重新计算待预测公司实体在当前文本中的坐标,然后将构造的文本、索引以及待预测的公司一起输入到模型当中去,从而能够进一步提高模型的预测效果。
实施例二:
请参照图5,图5是本发明的实体情感分析系统的结构示意图。如图5所示本发明的一种实体情感分析系统,其中,包括:
获取模块11,所述获取模块11通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别模块12,所述识别模块12从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取模块13,所述情感极性获取模块13构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
实施例三:
结合图6所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种实体情感分析方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以基于实体情感分析,从而实现结合图1-图3描述的实体情感分析方法。
另外,结合上述实施例中实体情感分析,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种实体情感分析方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本公开提供了本发明是使用基于AlBert加上mask的实体级别的情感分析,该发明根据当前公司实体的上下文对公司的情感极性进行判断,从更小的粒度出发,更加能够从舆情新闻中挖掘出更多的信息,避免了关注整体情感而忽略了舆情文本细节的问题。使业务人员获得了更多的信息,能够做出更加合理的决策。此外,本发明也取得了十分显著的预测性能,模型的准确率高达89%,和舆情情感分类的模型相比,准确率也获得了提升。因此,该方法无论是从情感状态的识别粒度上来说,还是从情感状态的预测性能来说,都得到了显著提高,都更加有利于业务人员在智慧招商工作中进行决策,提高了业务人员的工作效率,节省了成本。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本发明的保护范围应以所附权利要求的保护范围为准。

Claims (10)

1.一种实体情感分析方法,其特征在于,包括:
获取步骤:通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别步骤:从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取步骤:构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
2.如权利要求1所述的实体情感分析方法,其特征在于,所述识别步骤包括:读取所述数据库中的数据获取所述待预测舆情文本信息,通过所述实体识别模型识别出所述待预测舆情实体名称,通过企业工商库中的实体名称对所述待预测舆情实体名称进行过滤获得最终的所述待预测舆情实体名称。
3.如权利要求1所述的实体情感分析方法,其特征在于,所述情感极性获取步骤包括:
训练数据获取步骤:对舆情数据进行预处理后将所述舆情数据转化为设定格式的训练数据;
模型构建步骤:通过所述训练数据对AlBert模型进行训练后,形成所述实体情感分析模型;
模型处理步骤:通过所述实体情感分析模型基于mask机制对所述待预测舆情实体名称及所述待预测舆情文本信息,获得对应每一所述待预测舆情实体名称的实体情感极性并保存。
4.如权利要求2所述的实体情感分析方法,其特征在于,所述待预测舆情实体名称及所述实体名称均包括企业全称和企业简称。
5.如权利要求3所述的实体情感分析方法,其特征在于,所述训练数据获取步骤包括:
对所述舆情数据进行去除冗余以及规范化处理后,根据标注规则对舆情数据进行数据标注,将标注后的所述舆情数据转化为所述训练数据。
6.如权利要求3所述的实体情感分析方法,其特征在于,所述模型处理步骤包括:
确定所述待预测舆情实体名称在所述待预测舆情文本信息中的位置后;根据模型设定的输入文本长度从所述待预测舆情文本信息中截取上下文信息;通过mask机制对所述上下文信息其他实体名称进行遮挡;计算所述待预测舆情实体名称在所述上下文信息中的坐标后,将带有坐标的所述上下文信息以及所述待预测舆情实体名称输入所述实体情感分析模型,获得对应每一所述待预测舆情实体名称的实体情感极性。
7.如权利要求6所述的实体情感分析方法,其特征在于,所述模型处理步骤中还包括:通过统一符号对其他实体名称进行遮挡。
8.一种实体情感分析系统,其特征在于,包括:
获取模块,所述获取模块通过爬虫脚本从网站中获取舆情信息,并将所述舆情信息存储到数据库中;
识别模块,所述识别模块从所述数据库中获取待预测舆情文本信息,使用实体识别模型对所述待预测舆情文本信息进行识别,得到至少一待预测舆情实体名称;
情感极性获取模块,所述情感极性获取模块构建并使用实体情感分析模型对所述待预测舆情实体名称及所述待预测舆情文本信息进行处理,获得对应每一所述待预测舆情实体名称的实体情感极性并保存到数据表中。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的实体情感分析方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的实体情感分析方法。
CN202111283577.4A 2021-11-01 2021-11-01 实体情感分析方法、系统、存储介质及电子设备 Pending CN114003694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111283577.4A CN114003694A (zh) 2021-11-01 2021-11-01 实体情感分析方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111283577.4A CN114003694A (zh) 2021-11-01 2021-11-01 实体情感分析方法、系统、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114003694A true CN114003694A (zh) 2022-02-01

Family

ID=79926192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111283577.4A Pending CN114003694A (zh) 2021-11-01 2021-11-01 实体情感分析方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114003694A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112307212A (zh) * 2020-11-11 2021-02-02 上海昌投网络科技有限公司 一种用于广告投放的投放舆情监测方法
CN112711705A (zh) * 2020-11-30 2021-04-27 泰康保险集团股份有限公司 舆情数据处理方法、设备及存储介质
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112749269A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 实体舆情计算方法及系统
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749269A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 实体舆情计算方法及系统
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112307212A (zh) * 2020-11-11 2021-02-02 上海昌投网络科技有限公司 一种用于广告投放的投放舆情监测方法
CN112711705A (zh) * 2020-11-30 2021-04-27 泰康保险集团股份有限公司 舆情数据处理方法、设备及存储介质
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方英兰;孙吉祥;韩兵;: "基于BERT的文本情感分析方法的研究", 信息技术与信息化, no. 02, 28 February 2020 (2020-02-28) *

Similar Documents

Publication Publication Date Title
CN107102993B (zh) 一种用户诉求分析方法和装置
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN113282955A (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN113657773A (zh) 话术质检方法、装置、电子设备及存储介质
CN113360895A (zh) 站群检测方法、装置及电子设备
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN109918661B (zh) 同义词获取方法及装置
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
CN105786929B (zh) 一种信息监测方法及装置
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN116108776A (zh) 一种提高芯片验证测试计划完备性的方法
CN114003694A (zh) 实体情感分析方法、系统、存储介质及电子设备
CN113255368B (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN115393034A (zh) 基于自然语言处理技术对企业账户进行风险识别的方法
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination