CN112749269A - 实体舆情计算方法及系统 - Google Patents

实体舆情计算方法及系统 Download PDF

Info

Publication number
CN112749269A
CN112749269A CN201911054560.4A CN201911054560A CN112749269A CN 112749269 A CN112749269 A CN 112749269A CN 201911054560 A CN201911054560 A CN 201911054560A CN 112749269 A CN112749269 A CN 112749269A
Authority
CN
China
Prior art keywords
current
text
value
event category
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911054560.4A
Other languages
English (en)
Other versions
CN112749269B (zh
Inventor
崔志伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201911054560.4A priority Critical patent/CN112749269B/zh
Publication of CN112749269A publication Critical patent/CN112749269A/zh
Application granted granted Critical
Publication of CN112749269B publication Critical patent/CN112749269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种实体舆情计算方法及系统,属于计算机技术领域。包括:获取指定实体以及与所述指定实体的舆情相关的当前文本、以及用于示出当前文本的情感倾向状态的情感数值;根据预设定的分类模型,获取当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中分类模型被配置为以文本为输入,并以词频为输出;基于所获取的当前词频,计算当前文本与当前事件类别集中的每一当前事件类别的当前相关性数值;以及基于当前文本对应的当前事件类别集、每一当前事件类别的当前相关性数值以及情感数值,计算用于示出指定实体的舆情状态的舆情数值。本发明获得的结果可以反映公司的真实舆情状态。

Description

实体舆情计算方法及系统
技术领域
本发明涉及计算机技术领域,具体地涉及实体舆情计算方法及系统。
背景技术
对于很多实体,例如公司,确定其舆情状态的是重要的任务之一。在相关技术中,一般通过对文本进行处理来确定公司的舆情状态,其中,对于文本的处理包括简单地识别所述文本中的当前公司及判断所述文本的情感。然而,一旦发生突发性事件,采用上述相关技术所确定的舆情状态的舆情数值受到突发事件的影响较大。例如,一个公司每天正常情况下会有10篇新闻文本,但是发生了某个突发事件后,新闻文本总量激增到了30,导致舆情状态里事件的影响会被夸大,从而并不能精准反映公司的真实舆情状态。
发明内容
本发明实施例的目的是提供一种实体舆情计算方法及系统,该实体舆情计算方法及系统所计算的舆情数值考虑了所有事件类型的影响,可以反映公司的真实舆情状态。
为了实现上述目的,本发明实施例提供一种实体舆情计算方法,所述实体舆情计算方法包括:获取指定实体以及与所述指定实体的舆情相关的当前文本,以及获取用于示出所述当前文本的情感倾向状态的情感数值;根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值;以及基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
优选地,所述获取与所述指定实体的舆情相关的当前文本指定实体包括:获取指定实体对应的匹配标识文本及排除标识文本;以及获取存在所述匹配标识文本且不存在排除标识文本的当前文本。
优选地,所述获取用于示出所述当前文本的情感倾向状态的情感数值包括:根据预设定的深度学习情感模型,获取用于示出所述当前文本的情感倾向状态的情感数值;其中,所述深度学习情感模型被配置为以文本为输入,并以示出所输入的所述文本的情感倾向状态的情感数值为输出。
优选地,所述根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频包括:建立分类模型;获取历史数据,其中所述历史数据包括与指定实体的舆情相关的各历史文本、与每一历史文本对应的事件类别集及用于示出其中每一事件类别的词频;基于所述历史数据训练所述分类模型,得到训练后的分类模型;以及将所述当前文本输入所述训练后的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
优选地,所述计算所述当前文本用于示出所述指定实体的舆情状态的舆情数值包括:根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;以及将所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值乘积相叠加后乘以所述情感数值得到所述指定实体的所述舆情数值。
优选地,在所述计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值之后,该实体舆情计算方法还包括:针对每一当前事件类别的当前相关性数值,执行:若所述当前相关性数值大于预设定阈值且所述当前文本中存在预设定的减分词组,则根据预设定的各第一相关性数值区间与用于修正舆情数值的修正值的第一对应关系,确定与所述当前相关性数值所在的第一相关性数值区间对应的当前修正值,其中所述各第一相关性数值区间被配置为每一区间内的相关性数值大于预设定阈值的各区间;以及若所述当前相关性数值小于或等于所述预设定阈值且所述当前文本对应的当前事件类别集中存在预设定的特殊事件类别,则根据预设定的各第二相关性数值区间与修正值的第二对应关系,确定与所述当前相关性数值所在第二相关性数值区间对应的当前修正值,其中所述第二相关性数值区间被配置为每一区间内的相关性数值小于或等于预设定阈值;并且,所述计算用于示出所述指定实体的舆情状态的舆情数值包括:基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值、以及所述当前修正值,计算所述舆情数值。
优选地,所述基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值以及所述当前修正值,计算所述当前文本用于示出所述指定实体的舆情状态的舆情数值包括:根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;以及通过公式Func(CSeq,RSeq)*S-F,计算得到所述当前文本用于示出所述指定实体的舆情状态的舆情数值;其中,所述Func(CSeq,RSeq)为叠加所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值的乘积的公式,所述Cseq为所有当前权重的集合,所述Rseq为所有当前相关性数值的集合,所述S为所述情感数值,所述F为所述当前修正值。
另外,本发明提供一种实体舆情计算系统,所述实体舆情计算系统包括:文本数值获取单元,用于获取指定实体与指定实体的舆情相关的当前文本、以及用于示出所述当前文本的情感倾向状态的情感数值;类别词频获取单元,用于根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;相关性计算单元,用于基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值;以及舆情计算单元,用于基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
另外,本发明还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述的实体舆情计算方法。
另外,本发明还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行:如上述的实体舆情计算方法。
另外,本发明还提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的实体舆情计算方法。
另外,本发明还提供一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述的实体舆情计算方法。
通过上述技术方案,获取到当前文本及其情感倾向状态的情感数值,根据预设定的分类模型可以根据输入的当前文本直接获得其输出的当前文本对应的时间类别集及每一当前事件类别的词频,其中所述每一当前事件类别的词频用于计算当前文本与每一当前事件类别的当前相关性数值,再根据已经分类的当前事件类别集、每一当前事件类别的当前相关性数值及上述的当前文本的情感倾向状态的数值综合计算舆情数值,该舆情数值充分考虑了事件类别对于舆情状态的影响,避免了突发事件造成的所计算的舆情状态的数值不能准确反映指定实体真实的舆情状态的问题,面对突发事件,可以更准确地反映指定实体的舆情状态。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是实施例1的一种实体舆情计算方法的流程图;
图2是实施例2的一种实体舆情计算方法的流程图;
图3是实施例3的一种实体舆情计算系统的模块连接图;以及
图4是实施例4的一种执行上述的实体舆情计算方法的设备的示意图。
附图标记说明
1、文本数值获取单元 2、类别词频获取单元
21、模型建立模块 22、历史数据获取模块
23、训练模块 24、输入输出模块
3、相关性计算单元 4、修正值确定单元
5、舆情计算单元 51、权重确定模块
52、第一舆情计算模块 53、第二舆情计算模块
40、设备 401、处理器
402、存储器 403、总线
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
实施例1
图1是实施例1的一种实体舆情计算方法的流程图。
如图1所示,一种实体舆情计算方法包括:
S101,获取指定实体以及与所述指定实体的舆情相关的当前文本,以及获取用于示出所述当前文本的情感倾向状态的情感数值。
其中,所述指定实体包括公司,其中,优选为上市公司,对于上市公司而言,其具有较多的与舆情相关的文本。所述文本包括微博、论坛、微信文章、网页新闻等内容,且所述文本可以通过在网络上爬取、从第三方进行购买,或者通过人工录入等方式获取。
其中,在步骤S101中,所述获取与指定实体的舆情相关的当前文本可以包括:
A1)获取指定实体对应的匹配标识文本及排除标识文本;以及A2)获取存在所述匹配标识文本且不存在排除标识文本的当前文本。
其中,所述匹配标识文本为包含有多个匹配词的“匹配词词典”,匹配词可以是指定实体即公司的全程、公司简称或别名与代码同时出现在新闻中(包括内容和标题);所述排除标识文本为包含有多个排除词的“排除词词典”。举例而言,所述“匹配词词典”包括名家汇,所述“排除词词典”包括名家汇集。当所述当前文本为“中国商业地产行业发展论坛年会举行名家汇集探讨热点”,其中该当前文本中存在名家汇集,则认定其不是指定实体;当所述当前文本为“名家汇稳步推进‘一核两翼’战略”,其中该当前文本中存在“名家汇”且不存在“名家汇集”,则认定其为指定实体,确定获取当前文本。其中,匹配方式可以采用AC自动机算法,AC自动机算法为较为常规的一种算法,在此不再赘述。
其中,所述情感数值主要用于表示当前文本的情感倾向状态,简单划分可以包括正面、负面、中性等,数值的大小与情感倾向相关。
进一步优选地,在步骤S101中,获取情感数值的方式可以包括:根据预设定的深度学习情感模型,获取所述情感数值。
其中,所述深度学习情感模型被配置为以文本为输入,并以示出所输入的所述文本的情感倾向状态的情感数值为输出。所述深度学习情感模型基于通用的神经语言程序学(NLP,Neuro-Linguistic Programming)情感识别算法。其中,对所述深度学习情感模型进行训练的历史数据包括多个文本集以及示出所述多个文本集中的文本的情感倾向状态的数值。在使用该深度学习情感模型时,直接输入当前文本即可得到该模型直接输出的用于示出所述当前文本的情感倾向状态的数值。
S102,根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
其中,所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出。
其中,所述分类模型可以使用长短期记忆网络(LSTM,Long Short-Term Memory)加Attention模型,即LSTM+Attention文本分类模型,该模型其实模拟的是人脑的注意力模型,该模型建立方式包括下述的过程。
B1)建立分类模型,其中所述分类模型以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;
B2)获取历史数据,其中所述历史数据包括与指定实体的舆情相关的各历史文本、与每一历史文本对应的事件类别集及用于示出其中每一事件类别的词频。
B3)基于所述历史数据训练所述分类模型,得到训练后的分类模型。
B4)将所述当前文本输入所述训练后的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
其中,在该文本分类模型中,所采用的历史数据为历史文本、与每一历史文本对应的事件类别集及用于示出其中每一事件类别的词频,从而可以在向所述分类模型中输入当前文本时,获得所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
其中,在该步骤中,以上市公司为例,所述事件类别可以包括对外投资、购买理财、出售资产、财务资助、股份质押、股份回购、股份冻结、担保、关联交易等。
对于步骤S102,举个例子来说,当输入所述分类模型中的当前文本为“xxx公司出售部分设备,并申请财务资助”,则获得所述当前文本对应的当前事件类别集包括“出售资产、财务资助”。
S103,基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值。
其中,所述当前词频实际为所述分类模型的一个输出值,其可以为与当前事件类别对应的多组关键词的出现频率。
其中,通过公式Y=a+b*X来计算当前相关性数值,其中,a、b可以是预设定的数值,a是一个常量,b是一个系数,例如可以是a可以为4,b可以为0.06。所述X为当前词频,所述Y为当前相关性数值。
S104,基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
其中,所计算的舆情数值与所述当前事件类别、当前相关性数值及情感数值相关。
进一步地,计算用于示出所述指定实体的舆情状态的舆情数值可以包括:C1)根据预设定的每一事件类别与示出其影响力权重的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;C2)将所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值乘积相叠加后乘以所述情感数值得到所述指定实体舆情数值。
其中,所述示出其影响力权重的权重为预设定的,例如,当前事件类别集中每一当前事件类别对应的当前权重可以采用CSeq=[Ca,Cb,Cc,Cd,Ce]来进行表示,其中,Cseq表示为所有当前权重的集合,Ca,Cb,Cc,Cd,Ce分别表示为每一当前事件类别对应的当前权重或类别号。
所述当前相关性数值可以采用RSeq=[Ra,Rb,Rc,Rd,Re]来进行表示,其中,所述RSeq表示为所有当前相关性数值的集合,Ra,Rb,Rc,Rd,Re分别表示每一当前事件类别的当前相关性数值。
其中,基于上述参数,步骤C2)可表示为以下公式:
RS=Func(Cseq,RSeq)*S;
Func(Cseq,RSeq)=Ca*Ra+Cb*Rb+Cc*Rc+Cd*Rd+Ce*Re;
其中,所述RS表示为所述指定实体舆情数值,所述S表示为情感数值。
通过上述的实施例,将当前文本进行事件类别的划分,并根据不同的事件类别计算出与其影响力权重值相关的舆值数据,将文本对应出的事件类别参与到舆情状态的判断中,从而使得公司的舆值数据不会被突发事件影响,使得舆值数据能够真实反映公司的舆情状态。另外,在提取当前文本时,可以将不相关的新闻忽略,过滤出所需的针对当前指定公司的文本。例如,一个公司每天正常情况下会有10篇新闻文本,但是发生了某个突发事件后,新闻文本总量量激增到了30,利用本实施例的方式区分了事件类别之后,我们会把多出来的20篇分为一类,从事件的角度来看,可以认为只是在某个事件上舆情数值产生了变化,可以更真实地反映舆情状态,比如这个事件不是很重要,那么多出来的20篇新闻可能会对公司整体舆情影响很小。
实施例2
图2是说明本发明的一种实体舆情计算方法的流程图。
如图2所示,所述实体舆情计算方法包括:
S201,获取指定实体与指定实体的舆情相关的当前文本、以及用于示出所述当前文本的情感倾向状态的情感数值。
S202,根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
其中,所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出。
S203,基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值。
S204,针对每一当前事件类别的当前相关性数值,执行:若所述当前相关性数值大于预设定阈值且所述当前文本中存在预设定的减分词组,则根据预设定的各第一相关性数值区间与用于修正舆情数值的修正值的第一对应关系,确定与所述当前相关性数值所在第一相关性数值区间对应的当前修正值,其中所述各第一相关性数值区间被配置为每一区间内的相关性数值大于预设定阈值;若所述当前相关性数值小于或等于所述预设定阈值且所述当前文本对应的当前事件类别集中存在预设定的特殊事件类别,则根据预设定的各第二相关性数值区间与修正值的第二对应关系,确定与所述当前相关性数值所在第二相关性数值区间对应的当前修正值,其中所述第二相关性数值区间被配置为每一区间内的相关性数值小于或等于预设定阈值。
其中,所述修正值用于修正所述指定实体的舆情状态的舆情数值。以上市公司为例,所述减分词组包括:说明书、摘要、公告、会议资料、补充通知、预案、草案、章程、关于、制度、报告;所述特殊事件类别包括:并购重组、破产、退市、恢复上市等类别。
举例而言,所述预设定阈值为5,所述第一相关性数值区间与当前修正值的关系如下表1所示:
表1
第一相关性数值区间 修正值
(8,9] 1
(9,10] 2
所述第二相关性数值区间与当前修正值的关系如下表2所示:
表2
第二相关性数值区间 修正值
[1,2] -5
(2,3] -4
(3,,4] -3
(4,5] -2
若当前事件类别的当前相关性数值为9,且所述当前文本中存在“摘要”的词组,则由于当前相关性数值大于预设定阈值并存在减分词组,则根据表1中的对应关系对应出当前修正值为1;若当前事件类别的当前相关性数值为4,且所述当前文本对应的当前事件类别集中存在“破产”的特殊事件类别,则根据表2中的对应关系对应出当前修正值为-3。
S205,基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值、以及所述当前修正值,计算所述用于示出所述指定实体的舆情状态的舆情数值。
其中,所计算的舆情数值与所述当前事件类别、当前相关性数值、情感数值及所述当前修正值相关。
进一步地,计算用于示出所述指定实体的舆情状态的舆情数值可以包括:D1)根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;C2)通过公式Func(CSeq,RSeq)*S-F,计算得到所述当前文本用于示出所述指定实体的舆情状态的数值。
其中,所述Func(CSeq,RSeq)为叠加所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值的乘积的公式,所述Cseq为所有所述当前权重的集合,所述Rseq为所有所述当前相关性数值的集合,所述S为所述情感数值,所述F为所述当前修正值。
其中,所述示出其影响力权重的权重为预设定的,例如,当前事件类别集中每一当前事件类别对应的当前权重可以采用CSeq=[Ca,Cb,Cc,Cd,Ce]来进行表示,其中,Cseq表示为所有当前权重的集合,Ca,Cb,Cc,Cd,Ce分别表示为每一当前事件类别对应的当前权重或类别号。
所述当前相关性数值可以采用RSeq=[Ra,Rb,Rc,Rd,Re]来进行表示,其中,所述RSeq表示为所有当前相关性数值的集合,Ra,Rb,Rc,Rd,Re分别表示每一当前事件类别的当前相关性数值。
其中,D2)的公式为:
RS=Func(Cseq,RSeq)*S-F;
Func(Cseq,RSeq)=Ca*Ra+Cb*Rb+Cc*Rc+Cd*Rd+Ce*Re。
利用上述的计算方式,可以对所计算的指定实体舆情数值进行修正,且该修正的修正值基于当前事件分类是否存在特殊事件类别及事件相关性数值获取。修正之后的计算得到的舆情状态的舆情数值综合了当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值、以及所述当前修正值可以反映出公司的真实舆情状态。
实施例3
图3是实施例3的一种实体舆情计算系统的模块框图。
如图3所示,所述实体舆情计算系统包括:文本数值获取单元1,用于获取指定实体以及与所述指定实体的舆情相关的当前文本、以及获取用于示出所述当前文本的情感倾向状态的情感数值;类别词频获取单元2,用于根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;相关性计算单元3,用于基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值;以及舆情计算单元4,用于基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
优选地,所述文本数值获取单元1用于获取指定实体与指定实体的舆情相关的当前文本包括:第一获取模块11,用于获取指定实体对应的匹配标识文本及排除标识文本;以及第二获取模块12,用于获取存在所述匹配标识文本且不存在排除标识文本的当前文本。
优选地,所述文本数值获取单元1用于示出所述当前文本的情感倾向状态的情感数值包括:所述文本数值获取单元1用于根据预设定的深度学习情感模型,获取用于示出所述当前文本的情感倾向状态的情感数值;其中,所述深度学习情感模型被配置为以文本为输入,并以示出所输入的所述文本的情感倾向状态的情感数值为输出
优选地,所述类别词频获取单元2包括:模型建立模块21,用于建立分类模型;历史数据获取模块22,用于获取历史数据,其中所述历史数据包括与指定实体的舆情相关的各历史文本、与每一历史文本对应的事件类别集及用于示出其中每一事件类别的词频;训练模块23,用于基于所述历史数据训练所述分类模型,得到训练后的分类模型;以及输入输出模块24,用于将所述当前文本输入所述训练后的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
优选地,所述舆情计算单元5包括:权重确定模块51,用于根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;第一舆情计算模块52,用于将所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值乘积相叠加后乘以所述情感数值得到所述指定实体的所述舆情数值。
优选地,该实体舆情计算系统还包括:修正值确定单元5,用于在所述计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值之后,针对每一当前事件类别的当前相关性数值,执行:若所述当前相关性数值大于预设定阈值且所述当前文本中存在预设定的减分词组,则根据预设定的各第一相关性数值区间与用于修正舆情数值的修正值的第一对应关系,确定与所述当前相关性数值所在的第一相关性数值区间对应的当前修正值,其中所述各第一相关性数值区间被配置为每一区间内的相关性数值包括大于预设定阈值;以及若所述当前相关性数值小于或等于所述预设定阈值且所述当前文本对应的当前事件类别集中存在预设定的特殊事件类别,则根据预设定的各第二相关性数值区间与修正值的第二对应关系,确定与所述当前相关性数值所在第二相关性数值区间对应的当前修正值,其中所述第二相关性数值区间被配置为每一区间内的相关性数值小于或等于预设定阈值;并且,所述舆情计算单元4用于计算用于示出所述指定实体的舆情状态的舆情数值包括:基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值以及所述当前修正值,计算所述舆情数值。
优选地,所述舆情计算单元4包括:权重确定模块41,用于根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;第二舆情计算模块43,用于通过公式Func(CSeq,RSeq)*S-F,计算得到所述当前文本用于示出所述指定实体的舆情状态的数值;其中,所述Func(CSeq,RSeq)为叠加所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值的乘积的公式,所述Cseq为所有当前权重的集合,所述Rseq为所有当前相关性数值的集合,所述S为所述情感数值,所述F为所述当前修正值。
其中,实施例3与现有技术相比能够具有与实施例1、2相同的技术特征及技术效果,在此不再赘述。
所述舆情计算系统包括处理器和存储器,上述文本数值获取单元、类别词频获取单元、相关性计算单元、舆情计算单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现实体舆情的计算。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述实体舆情计算的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述实体舆情计算的方法。
本发明实施例提供了一种设备40,如图4所示,设备包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403;其中,处理器401、存储器402通过总线403完成相互间的通信;处理器401用于调用存储器402中的程序指令,以执行上述的实体舆情计算方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:实施例1、2中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种实体舆情计算方法,其特征在于,所述实体舆情计算方法包括:
获取指定实体以及与所述指定实体的舆情相关的当前文本,以及获取用于示出所述当前文本的情感倾向状态的情感数值;
根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;
基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值;以及
基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
2.根据权利要求1所述的实体舆情计算方法,其特征在于,所述获取与所述指定实体的舆情相关的当前文本包括:
获取指定实体对应的匹配标识文本及排除标识文本;以及
获取存在所述匹配标识文本且不存在排除标识文本的当前文本。
3.根据权利要求1所述的实体舆情计算方法,其特征在于,所述获取用于示出所述当前文本的情感倾向状态的情感数值包括:
根据预设定的深度学习情感模型,获取用于示出所述当前文本的情感倾向状态的情感数值;其中,所述深度学习情感模型被配置为以文本为输入,并以示出所输入的所述文本的情感倾向状态的情感数值为输出。
4.根据权利要求1所述的实体舆情计算方法,其特征在于,所述根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频包括:
建立分类模型;
获取历史数据,其中所述历史数据包括与指定实体的舆情相关的各历史文本、与每一历史文本对应的事件类别集及用于示出其中每一事件类别的词频;
基于所述历史数据训练所述分类模型,得到训练后的分类模型;以及
将所述当前文本输入所述训练后的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频。
5.根据权利要求1所述的实体舆情计算方法,其特征在于,所述计算所述当前文本用于示出所述指定实体的舆情状态的舆情数值包括:
根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;以及
将所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值乘积相叠加后乘以所述情感数值得到所述指定实体的所述舆情数值。
6.根据权利要求1所述的实体舆情计算方法,其特征在于,
在所述计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值之后,该实体舆情计算方法还包括:
针对每一当前事件类别的当前相关性数值,执行:若所述当前相关性数值大于预设定阈值且所述当前文本中存在预设定的减分词组,则根据预设定的各第一相关性数值区间与用于修正舆情数值的修正值的第一对应关系,确定与所述当前相关性数值所在的第一相关性数值区间对应的当前修正值,其中所述各第一相关性数值区间被配置为每一区间内的相关性数值大于预设定阈值;以及
若所述当前相关性数值小于或等于所述预设定阈值且所述当前文本对应的当前事件类别集中存在预设定的特殊事件类别,则根据预设定的各第二相关性数值区间与修正值的第二对应关系,确定与所述当前相关性数值所在第二相关性数值区间对应的当前修正值,其中所述第二相关性数值区间被配置为每一区间内的相关性数值小于或等于预设定阈值;
并且,所述计算用于示出所述指定实体的舆情状态的舆情数值包括:
基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值以及所述当前修正值,计算所述舆情数值。
7.根据权利要求6所述的实体舆情计算方法,其特征在于,所述基于所述当前文本对应的当前事件类别集及其中每一当前事件类别的当前相关性数值、所述情感数值以及所述当前修正值,计算所述当前文本用于示出所述指定实体的舆情状态的舆情数值包括:
根据预设定的每一事件类别与示出其对舆情状态的影响程度的权重的对应关系,确定所述当前文本对应的当前事件类别集中每一当前事件类别对应的当前权重;以及
通过公式Func(CSeq,RSeq)*S-F,计算得到所述当前文本用于示出所述指定实体的舆情状态的舆情数值;其中,所述Func(CSeq,RSeq)为叠加所述当前事件类别集中每一当前事件类别对应的当前权重与其当前相关性数值的乘积的公式,所述Cseq为所有当前权重的集合,所述Rseq为所有当前相关性数值的集合,所述S为所述情感数值,所述F为所述当前修正值。
8.一种实体舆情计算系统,其特征在于,所述实体舆情计算系统包括:
文本数值获取单元,用于获取指定实体以及与所述指定实体的舆情相关的当前文本、以及获取用于示出所述当前文本的情感倾向状态的情感数值;
类别词频获取单元,用于根据预设定的分类模型,获取所述当前文本对应的当前事件类别集及用于示出其中每一当前事件类别的当前词频,其中所述分类模型被配置为以文本为输入,并以所述文本对应的事件类别集及用于示出其中每一事件类别的词频为输出;
相关性计算单元,用于基于所获取的当前词频,计算所述当前文本与所述当前事件类别集中的每一当前事件类别的当前相关性数值;以及
舆情计算单元,用于基于所述当前文本对应的当前事件类别集、所述每一当前事件类别的所述当前相关性数值以及所述情感数值,计算用于示出所述指定实体的舆情状态的舆情数值。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的实体舆情计算方法。
10.一种电子设备,其特征在于,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1-7中任一项所述的实体舆情计算方法。
CN201911054560.4A 2019-10-31 2019-10-31 实体舆情计算方法及系统 Active CN112749269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911054560.4A CN112749269B (zh) 2019-10-31 2019-10-31 实体舆情计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911054560.4A CN112749269B (zh) 2019-10-31 2019-10-31 实体舆情计算方法及系统

Publications (2)

Publication Number Publication Date
CN112749269A true CN112749269A (zh) 2021-05-04
CN112749269B CN112749269B (zh) 2024-06-21

Family

ID=75645609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911054560.4A Active CN112749269B (zh) 2019-10-31 2019-10-31 实体舆情计算方法及系统

Country Status (1)

Country Link
CN (1) CN112749269B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003694A (zh) * 2021-11-01 2022-02-01 北京明略软件系统有限公司 实体情感分析方法、系统、存储介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572877A (zh) * 2014-12-22 2015-04-29 网易(杭州)网络有限公司 游戏舆情的检测方法及系统
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109145215A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109408804A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 舆情分析方法、系统、设备和存储介质
CN109472018A (zh) * 2018-09-26 2019-03-15 深圳壹账通智能科技有限公司 企业舆情监测方法、装置、计算机设备和存储介质
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN109977300A (zh) * 2019-02-22 2019-07-05 深圳壹账通智能科技有限公司 企业舆情获取方法、装置、终端及计算机存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572877A (zh) * 2014-12-22 2015-04-29 网易(杭州)网络有限公司 游戏舆情的检测方法及系统
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN107016107A (zh) * 2017-04-12 2017-08-04 四川九鼎瑞信软件开发有限公司 舆情分析方法及系统
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109145215A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109145216A (zh) * 2018-08-29 2019-01-04 中国平安保险(集团)股份有限公司 网络舆情监控方法、装置及存储介质
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109408804A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 舆情分析方法、系统、设备和存储介质
CN109472018A (zh) * 2018-09-26 2019-03-15 深圳壹账通智能科技有限公司 企业舆情监测方法、装置、计算机设备和存储介质
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN109977300A (zh) * 2019-02-22 2019-07-05 深圳壹账通智能科技有限公司 企业舆情获取方法、装置、终端及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
习海旭;蒋红芬;程志凡;何胜;: "特定事件下网络舆情的情感分析与可视化方法", 情报理论与实践, no. 09 *
连芷萱;兰月新;夏一雪;刘茉;张双狮;: "面向大数据的网络舆情多维动态分类与预测模型研究", 情报杂志, no. 05, 17 April 2018 (2018-04-17) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003694A (zh) * 2021-11-01 2022-02-01 北京明略软件系统有限公司 实体情感分析方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN112749269B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN109559221A (zh) 基于用户数据的催收方法、装置和存储介质
CN106940705A (zh) 一种用于构建用户画像的方法与设备
CN110874491B (zh) 基于机器学习的隐私数据处理方法、装置及电子设备
CN108596410B (zh) 一种风控事件自动处理方法及装置
CN111091350A (zh) 业务数据的审核处理方法、装置、设备及存储介质
CN109118316B (zh) 线上店铺真实性的识别方法和装置
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
US10678821B2 (en) Evaluating theses using tree structures
CN113159901B (zh) 融资租赁业务会话的实现方法和装置
CN114860941A (zh) 一种基于数据大脑的行业数据治理方法及系统
CN115953021A (zh) 一种基于机器学习的供应商风险分析方法及装置
US10237226B2 (en) Detection of manipulation of social media content
CN109598513B (zh) 一种风险识别方法和装置
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
CN112749269A (zh) 实体舆情计算方法及系统
CN110163470B (zh) 事件评估方法及装置
CN110969473A (zh) 一种用户标签生成方法及装置
CN110458581B (zh) 商户业务周转异常的识别方法及装置
CN112950359A (zh) 一种用户识别方法和装置
CN112949963A (zh) 员工服务质量的评估方法、装置、存储介质和智能设备
CN111177093A (zh) 一种科技资源的共享方法及设备、介质
CN111275071A (zh) 预测模型训练、预测方法、装置及电子设备
CN114969523A (zh) 基于用户行为数据的标签及推送策略的管理方法及设备、介质
CN112465509A (zh) 签约合同的预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant