CN109508373A - 企业舆情指数的计算方法、设备及计算机可读存储介质 - Google Patents

企业舆情指数的计算方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109508373A
CN109508373A CN201811350087.XA CN201811350087A CN109508373A CN 109508373 A CN109508373 A CN 109508373A CN 201811350087 A CN201811350087 A CN 201811350087A CN 109508373 A CN109508373 A CN 109508373A
Authority
CN
China
Prior art keywords
news
enterprise
public opinion
source
target enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811350087.XA
Other languages
English (en)
Other versions
CN109508373B (zh
Inventor
蔡远航
郑少杰
付勇
林文聪
范增虎
江旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201811350087.XA priority Critical patent/CN109508373B/zh
Publication of CN109508373A publication Critical patent/CN109508373A/zh
Application granted granted Critical
Publication of CN109508373B publication Critical patent/CN109508373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种企业舆情指数的计算方法,包括:获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集;根据权威度值,计算场景新闻集中的每篇新闻与目标企业之间的内容相关度;对场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算正面新闻集和负面新闻集中的所有新闻与目标企业之间的情感度,进而计算目标企业的舆情指数。本发明还公开了一种企业舆情指数的计算设备和一种计算机可读存储介质。本发明能够提高企业舆情指数计算结果的真实性和准确性。

Description

企业舆情指数的计算方法、设备及计算机可读存储介质
技术领域
本发明涉及网络技术领域,尤其涉及企业舆情指数的计算方法、设备及计算机可读存储介质。
背景技术
企业舆情指数反映了一段时间内社会整体对于该企业的情感态度,根据舆情指数的变化,企业可以完成社会新闻引导,同时也可以快速了解竞品在互联网上的品牌传播情况。
在企业舆情指数的传统计算方式中,首先是找出一段时间内所有提及目标企业的新闻集,然后通过情感模型对该新闻集进行情感分类,得到正面新闻集和负面新闻集,其中正面新闻集中新闻的数量占总新闻数量的比例就是该企业在这段时间内的舆情指数,该指数越接近0表示情感越消极,越接近1表示情感越积极。
上述计算方法仅考虑了新闻数量的影响,且所有新闻在计算过程中的权重是一致的,而事实上,不同发布源和不同内容的新闻,其真实性和价值度是完全不同的,且不同领域下会有不同的权重标准。因而,现有的企业舆情指数计算方法会导致计算得到的企业舆情指数不够真实和准确。
发明内容
本发明的主要目的在于提出一种企业舆情指数的计算方法、设备及计算机可读存储介质,旨在提高企业舆情指数计算结果的真实性和准确性。
为实现上述目的,本发明提供一种企业舆情指数的计算方法,所述企业舆情指数的计算方法包括如下步骤:
获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集;
根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度;
对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度;
根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数。
优选地,所述获取不同类型新闻发布源在目标企业所属领域的权威度值的步骤包括:
获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值;
根据所述领域专业度值和所述领域影响力值,以及预设的不同类型新闻发布源的基础专业度值,计算不同类型新闻发布源在目标企业所属领域的权威度。
优选地,所述获取不同类型新闻发布源在目标企业所属领域的权威度值的步骤之前,还包括:
将新闻发布源划分为若干个不同的类型,并为划分的不同类型的新闻发布源设置对应的基础专业度。
优选地,所述对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集的步骤包括:
对于所述场景新闻集中的每篇新闻,将新闻标题输入预设的情感分类模型中,得到对应的情感值ξ;
根据所述情感值ξ对所述场景新闻集中的每篇新闻进行归类,得到正面新闻集和负面新闻集。
优选地,所述获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值的步骤包括:
获取所述第一预设时长内不同类型新闻发布源所发布的第一全量新闻,并获取所述第一全量新闻中的每篇新闻的正文向量;
获取目标企业所属领域的领域向量;
分别计算所述第一全量新闻中的每篇新闻的正文向量与所述领域向量的皮尔逊相关系数,将皮尔逊相关系数大于预设阈值的新闻标记为领域新闻;
对于每个新闻发布源,统计其所发布的每篇领域新闻在预设时间段内的转发次数,将转发次数大于或等于预设次数的领域新闻数量与预设数量的比值作为所述新闻发布源在目标企业所属领域的领域专业度值,同时,对于每个新闻发布源,统计其在所述第一预设时长内发布的领域新闻的数量,将统计的数量与标记的领域新闻总数量的比值作为所述新闻发布源在目标企业所属领域的领域影响力值。
优选地,所述获取目标企业所属领域的领域向量的步骤包括:
获取第二预设时长内不同类型新闻发布源所发布的第二全量新闻;
对所述第二全量新闻的正文进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,得到所述第二全量新闻的正文词向量集合;
从所述正文词向量集合中提取预设的目标企业所属领域的领域词汇所对应的词向量,对提取到的所述词向量做向量加法,得到目标企业所属领域的领域向量。
优选地,所述根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度的步骤包括:
对于所述场景新闻集中的每篇新闻,获取新闻正文中所有包含目标企业名称的语句,计算每条语句的句向量,并计算各句向量与所述领域向量之间的皮尔逊相关系数λ;
计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度σ:
σ=α×β×γ×lg(Σλ),
其中,α为新闻发布源的基础专业度值,β为新闻发布源的领域专业度值,γ为新闻发布源的领域影响力值,α×β×γ为新闻发布源在目标企业所属领域的权威度值,Σλ为各句向量与所述领域向量之间的皮尔逊相关系数之和。
优选地,所述根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数的步骤包括:
根据:情感度=Σ(σ×|ξ-0.5|),计算正面新闻集中所有新闻与目标企业之间的情感度A,以及负面新闻集中所有新闻与目标企业之间的情感度B;
根据:企业舆情指数=A/(A+B),计算目标企业的舆情指数。
此外,为实现上述目的,本发明还提供一种企业舆情指数的计算设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情指数的计算程序,所述企业舆情指数的计算程序被所述处理器执行时实现如上所述的企业舆情指数的计算方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有企业舆情指数的计算程序,所述企业舆情指数的计算程序被处理器执行时实现如上所述的企业舆情指数的计算方法的步骤。
本发明提出的企业舆情指数的计算方法,首先获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集,然后,根据权威度值,计算场景新闻集中的每篇新闻与目标企业之间的内容相关度,之后,对场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算正面新闻集和负面新闻集中的所有新闻与目标企业之间的情感度,并最终计算得到目标企业的舆情指数。本发明通过结合新闻发布源的权威度、新闻发布源所发布的新闻与目标企业之间的内容相关度,以及新闻的情感倾向这三种与新闻真实性和准确性密切相关的因素计算目标企业的舆情指数,提高了企业舆情指数计算结果的真实性和准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明企业舆情指数的计算方法第一实施例的流程示意图;
图3为本发明实施例中企业舆情指数的决定因素示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集;根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度;对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度;根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数。
在企业舆情指数的传统计算方式中,仅考虑了新闻数量的影响,且所有新闻在计算过程中的权重是一致的,而事实上,不同发布源和不同内容的新闻,其真实性和价值度是完全不同的,且不同领域下会有不同的权重标准。因而,现有的企业舆情指数计算方法会导致计算得到的企业舆情指数不够真实和准确。
本发明通过结合新闻发布源的权威度、新闻发布源所发布的新闻与目标企业之间的内容相关度,以及新闻的情感倾向这三种与新闻真实性和准确性密切相关的因素计算目标企业的舆情指数,提高了企业舆情指数计算结果的真实性和准确性。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例企业舆情指数的计算设备可以是PC机或服务器。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及企业舆情指数的计算程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的企业舆情指数的计算程序,并执行下述企业舆情指数的计算方法实施例中的操作。
基于上述硬件结构,提出本发明企业舆情指数的计算方法实施例。
参照图2,图2为本发明企业舆情指数的计算方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集;
在本实施例中,参照图3,图3为本发明实施例中企业舆情指数的决定因素示意图,企业舆情指数主要由以下三个因素决定:
1、新闻发布源的权威度。新闻发布源的权威度反映了舆论内容的可靠性和真实性,而新闻发布源的权威度可以由其专业度和领域影响力决定,比如人民网的专业度要高于新浪微博,虎扑社区在体育领域的领域影响力要高于新华网。
2、新闻发布源所发布的新闻与目标企业之间的内容相关度。考虑到一篇新闻有可能是全篇讨论某个企业,也可能是仅某几句话提及了该企业,因此可以采用内容相关度这一量化指标来描述新闻与该企业的相关程度。
3、新闻的情感倾向。反映新闻所表达的情感状态,如消极、积极等。
具体地,上述步骤S10中,获取不同类型新闻发布源在目标企业所述领域的权威度值的步骤可以进一步包括:
获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值;根据所述领域专业度值和所述领域影响力值,以及预设的不同类型新闻发布源的基础专业度值,计算不同类型新闻发布源在目标企业所属领域的权威度。
在本实施例中,新闻发布源在目标企业所属领域的权威度值由三个因素决定:新闻发布源的基础专业度值、新闻发布源在目标企业所属领域的领域专业度值和领域影响力值。其中,基础专业度值可以看做是新闻发布源的基础权值,其可以预先灵活设置,比如网络媒体的基础专业度就会比微博的基础专业度要高;领域专业度反映了一个新闻发布源在特定领域下的权威度,新闻发布源发布的领域内容越多,内容被转载的次数越多,那么该新闻发布源在本领域下的权威度就会越高;在特定领域内,一个新闻发布源发布的新闻数量占领域新闻集的比例越高,其领域影响力就越高。
需要说明的是,本实施例对权威度值的具体计算方式不作限定,比如可以为基础专业度值、领域专业度值和领域影响力值三者之积,或者在三者之积的基础上乘以预设的调整系数等,具体实施时可灵活设置。
进一步地,在上述步骤S10之前,还可以包括:将新闻发布源划分为若干个不同的类型,并为划分的不同类型的新闻发布源设置对应的基础专业度。
比如,可以将新闻发布源划分为8个类别:网媒,纸媒,APP,论坛,博客,微信,微博,视频,并设置各类新闻发布源的基础专业度分别为1.0,1.0,0.8,0.6,0.6,0.6,0.2和0.2。通过划分新闻发布源的类型并设置对应的基础专业度,为后续企业舆情指数的计算提供了前提保证。
除权威度值外,本实施例中,还需获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,以形成场景新闻集。其中,第一预设时长可灵活设置,比如最近3个月、最近6个月等,预设的相关条件也可以灵活设置,比如设置为新闻标题和/或新闻正文中需包含目标企业名称等。
步骤S20,根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度;
该步骤中,场景新闻集中的每篇新闻与目标企业之间的内容相关度由新闻发布源在目标企业所属领域的权威度值决定,其中内容相关度的具体计算方式可灵活设置,比如可以统计一篇新闻中基于目标企业所属领域的关键词出现的频率,将权威度值乘以该频率,得到内容相关度,又如,可以获取新闻正文中所有包含目标企业名称的语句,计算每条语句的句向量,并计算各句向量与预设领域向量之间的相关系数,然后根据该相关系数和权威度值计算内容相关度,该相关系数可以是两个向量之间的皮尔逊相关系数,也可以是两个向量之间的夹角值或余弦值。
步骤S30,对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度;
该步骤中,对上述场景新闻集进行情感分类,以得到正面新闻集和负面新闻集。具体地分类方式可以为:将场景新闻集输入预设的情感分类模型中,以将场景新闻集划分为正面新闻集和负面新闻集,其中,情感分类模型可以通过对大量的新闻文本以及对应的情感倾向信息进行训练而得到。
之后,计算正面新闻集中的所有新闻与目标企业之间的情感度,以及负面新闻集中的所有新闻与目标企业之间的情感度。
步骤S40,根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数。
该步骤中,根据上述计算得到的正面新闻集和负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数。这里不妨设正面新闻集中的所有新闻与目标企业之间的情感度为A,负面新闻集中的所有新闻与目标企业之间的情感度为B,则目标企业的舆情指数可以为A/(A+B),此时指数越接近0表示情感越消极,越接近1表示情感越积极,当然目标企业的舆情指数也可以为B/(A+B),此时指数越接近0表示情感越积极,越接近1表示情感越消极,具体的计算方式可根据实际评价标准进行灵活设置。
本实施例通过结合新闻发布源的权威度、新闻发布源所发布的新闻与目标企业之间的内容相关度,以及新闻的情感倾向这三种与新闻真实性和准确性密切相关的因素计算目标企业的舆情指数,提高了企业舆情指数计算结果的真实性和准确性。
进一步地,基于上述第一实施例,提出本发明企业舆情指数的计算方法第二实施例。
在本实施例中,所述获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值的步骤可以进一步包括:
获取所述第一预设时长内不同类型新闻发布源所发布的第一全量新闻,并获取所述第一全量新闻中的每篇新闻的正文向量;
获取目标企业所属领域的领域向量;
分别计算所述第一全量新闻中的每篇新闻的正文向量与所述领域向量的皮尔逊相关系数,将皮尔逊相关系数大于预设阈值的新闻标记为领域新闻;
对于每个新闻发布源,统计其所发布的每篇领域新闻在预设时间段内的转发次数,将转发次数大于或等于预设次数的领域新闻数量与预设数量的比值作为所述新闻发布源在目标企业所属领域的领域专业度值,同时,对于每个新闻发布源,统计其在所述第一预设时长内发布的领域新闻的数量,将统计的数量与标记的领域新闻总数量的比值作为所述新闻发布源在目标企业所属领域的领域影响力值。
具体地,首先获取第一预设时长内不同类型新闻发布源所发布的第一全量新闻,其中全量新闻即所有新闻,其既包括与目标企业相关的新闻,也包括与目标企业无关的新闻;然后,将该第一全量新闻的的正文进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,从而可以得到第一全量新闻中的每篇新闻的正文向量。
之后,获取目标企业所属领域的领域向量。该步骤具体可以包括:获取第二预设时长内不同类型新闻发布源所发布的第二全量新闻;对所述第二全量新闻的正文进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,得到所述第二全量新闻的正文词向量集合;从所述正文词向量集合中提取预设的目标企业所属领域的领域词汇所对应的词向量,对提取到的所述词向量做向量加法,得到目标企业所属领域的领域向量。
具体地,首先需通过样本训练的方式得到一个词向量转换模型,训练步骤可以为:以最近半年的全量新闻正文作为训练集,通过分词工具对所有新闻正文进行分词,去掉分词结果中的停用词,然后利用word2vec(一种词向量转换工具)工具进行模型训练,得到词向量转换模型。
上述第二预设时长可灵活设置,比如最近3个月、最近6个月等,在获取到第二预设时长内不同类型新闻发布源所发布的第二全量新闻后,对该第二全量新闻的正文进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,从而可以得到第二全量新闻的正文词向量集合,之后再从该正文词向量集合中提取预设的目标企业所属领域的领域词汇所对应的词向量,并对提取到的词向量做向量加法,即可得到目标企业所属领域的领域向量。
以目标企业为某银行进行举例,该银行属于金融领域,可以预设对应的领域词汇为:金融,财经,股市,市场,货币,银行,基金,证券,保险,信托;从正文词向量集合中提取这些领域词汇对应的词向量并做向量加法,即可得到金融领域的领域向量。
至此,得到了第一全量新闻中的每篇新闻的正文向量以及目标企业所属领域的领域向量。
之后,分别计算第一全量新闻中的每篇新闻的正文向量与领域向量的皮尔逊相关系数,并将皮尔逊相关系数大于预设阈值的新闻标记为领域新闻。其中,皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,皮尔逊相关系数越接近1,代表两个变量之间的相关程度越大,其具体的计算公式可参照现有技术,此处不作赘述,预设阈值可以灵活设置,比如可以为0.4。
之后,对于每个新闻发布源,统计其所发布的每篇领域新闻在预设时间段内的转发次数,并将转发次数大于或等于预设次数的领域新闻数量与预设数量的比值作为所述新闻发布源在目标企业所属领域的领域专业度值。其计算依据在于:新闻发布源所发布的领域新闻被转发的次数越多,那么新闻发布源在该领域下的权威度就会越高。其中预设次数可灵活设置,比如10次;预设数量也可灵活设置,比如100。需要说明的是,将转发次数大于或等于预设次数的领域新闻数量与预设数量的比值作为新闻发布源在目标企业所属领域的领域专业度值的原因在于:因为内容相关度的计算是多个参数的乘积,基础专业度的取值范围介于0~1之间,如果领域专业度的取值过大(转发量大于10的领域新闻数量通常在50~200左右),那么最后内容相关度的值就会主要取决于领域专业度的大小,为了削弱领域专业度对结果的影响,这里需要将转发次数大于或等于预设次数的领域新闻数量除以一个预设数量。
对于每个新闻发布源,统计其在第一预设时长内发布的领域新闻的数量,将统计的数量与标记的领域新闻总数量的比值作为该新闻发布源在目标企业所属领域的领域影响力值,其计算依据在于:新闻发布源所发布的领域新闻的数量越多,那么新闻发布源在该领域下的权威度就会越高。
在本实施例中,通过结合现实依据计算不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值,保证了计算结果的真实性和准确性。
进一步地,基于上述第二实施例,提出本发明企业舆情指数的计算方法第三实施例。
在本实施例中,所述根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度的步骤可以进一步包括:
对于所述场景新闻集中的每篇新闻,获取新闻正文中所有包含目标企业名称的语句,计算每条语句的句向量,并计算各句向量与所述领域向量之间的皮尔逊相关系数λ;
计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度σ:
σ=α×β×γ×lg(Σλ),
其中,α为新闻发布源的基础专业度值,β为新闻发布源的领域专业度值,γ为新闻发布源的领域影响力值,α×β×γ为新闻发布源在目标企业所属领域的权威度值,Σλ为各句向量与所述领域向量之间的皮尔逊相关系数之和。
具体地,在计算内容相关度时,对于场景新闻集中的每篇新闻,首先对新闻正文按照句号问号和感叹号进行分句,然后找出新闻正文中所有包含目标企业名称的语句,对于每条语句进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,从而可以得到每条语句的句向量;之后,计算各句向量与所述领域向量之间的皮尔逊相关系数λ,进而根据公式:σ=α×β×γ×lg(Σλ),可以计算得到场景新闻集中的每篇新闻与目标企业之间的内容相关度σ。
进一步地,在本实施例中,所述对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集的步骤可以包括:
对于所述场景新闻集中的每篇新闻,将新闻标题输入预设的情感分类模型中,得到对应的情感值ξ;根据所述情感值ξ对所述场景新闻集中的每篇新闻进行归类,得到正面新闻集和负面新闻集。
具体地,首先需通过样本训练的方式得到一个情感分类模型,训练步骤可以如下:
a)归集最近半年的全量新闻标题,通过分词工具对所有新闻正文进行分词,去掉分词结果中的停用词后,对剩余所有词汇对应的词向量做向量加法,得到标题向量;
b)标题向量标注:根据标题内容对样本进行手工标注正面和负面情感,归为两类样本集;
c)通过xgboost模型(eXtreme Gradient Boosting,极端梯度提升)训练一个分类模型,该模型即为情感分类模型。
上述情感分类模型为一个二分类模型,且模型将情感值小于0.5的新闻归入负面新闻集,将情感值大于等于0.5的新闻归入正面新闻集。
进一步地,所述根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数的步骤包括:
根据:情感度=Σ(σ×|ξ-0.5|),计算正面新闻集中所有新闻与目标企业之间的情感度A,以及负面新闻集中所有新闻与目标企业之间的情感度B;根据:企业舆情指数=A/(A+B),计算目标企业的舆情指数。
不难理解,根据上述公式计算得到的企业舆情指数越接近0表示情感越消极,越接近1表示情感越积极。
本实施例通过结合新闻发布源的权威度、新闻发布源所发布的新闻与目标企业之间的内容相关度,以及新闻的情感倾向这三种与新闻真实性和准确性密切相关的因素计算目标企业的舆情指数,提高了企业舆情指数计算结果的真实性和准确性。
本发明还提供一种企业舆情指数的计算设备。
本发明企业舆情指数的计算设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情指数的计算程序,所述企业舆情指数的计算程序被所述处理器执行时实现如上所述的企业舆情指数的计算方法的步骤。
其中,在所述处理器上运行的企业舆情指数的计算程序被执行时所实现的方法可参照本发明企业舆情指数的计算方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有企业舆情指数的计算程序,所述企业舆情指数的计算程序被处理器执行时实现如上所述的企业舆情指数的计算方法的步骤。
其中,在所述处理器上运行的企业舆情指数的计算程序被执行时所实现的方法可参照本发明企业舆情指数的计算方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种企业舆情指数的计算方法,其特征在于,所述企业舆情指数的计算方法包括如下步骤:
获取不同类型新闻发布源在目标企业所属领域的权威度值,并获取第一预设时长内不同类型新闻发布源所发布的所有与目标企业符合预设相关条件的新闻,形成场景新闻集;
根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度;
对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集,分别计算所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度;
根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数。
2.如权利要求1所述的企业舆情指数的计算方法,其特征在于,所述获取不同类型新闻发布源在目标企业所属领域的权威度值的步骤包括:
获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值;
根据所述领域专业度值和所述领域影响力值,以及预设的不同类型新闻发布源的基础专业度值,计算不同类型新闻发布源在目标企业所属领域的权威度。
3.如权利要求2所述的企业舆情指数的计算方法,其特征在于,所述获取不同类型新闻发布源在目标企业所属领域的权威度值的步骤之前,还包括:
将新闻发布源划分为若干个不同的类型,并为划分的不同类型的新闻发布源设置对应的基础专业度。
4.如权利要求2所述的企业舆情指数的计算方法,其特征在于,所述对所述场景新闻集进行情感分类,得到正面新闻集和负面新闻集的步骤包括:
对于所述场景新闻集中的每篇新闻,将新闻标题输入预设的情感分类模型中,得到对应的情感值ξ;
根据所述情感值ξ对所述场景新闻集中的每篇新闻进行归类,得到正面新闻集和负面新闻集。
5.如权利要求2或4所述的企业舆情指数的计算方法,其特征在于,所述获取不同类型新闻发布源在目标企业所属领域的领域专业度值和领域影响力值的步骤包括:
获取所述第一预设时长内不同类型新闻发布源所发布的第一全量新闻,并获取所述第一全量新闻中的每篇新闻的正文向量;
获取目标企业所属领域的领域向量;
分别计算所述第一全量新闻中的每篇新闻的正文向量与所述领域向量的皮尔逊相关系数,将皮尔逊相关系数大于预设阈值的新闻标记为领域新闻;
对于每个新闻发布源,统计其所发布的每篇领域新闻在预设时间段内的转发次数,将转发次数大于或等于预设次数的领域新闻数量与预设数量的比值作为所述新闻发布源在目标企业所属领域的领域专业度值,同时,对于每个新闻发布源,统计其在所述第一预设时长内发布的领域新闻的数量,将统计的数量与标记的领域新闻总数量的比值作为所述新闻发布源在目标企业所属领域的领域影响力值。
6.如权利要求5所述的企业舆情指数的计算方法,其特征在于,所述获取目标企业所属领域的领域向量的步骤包括:
获取第二预设时长内不同类型新闻发布源所发布的第二全量新闻;
对所述第二全量新闻的正文进行分词和去停用词处理,并将处理结果输入预设的词向量转换模型中,得到所述第二全量新闻的正文词向量集合;
从所述正文词向量集合中提取预设的目标企业所属领域的领域词汇所对应的词向量,对提取到的所述词向量做向量加法,得到目标企业所属领域的领域向量。
7.如权利要求5所述的企业舆情指数的计算方法,其特征在于,所述根据所述权威度值,计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度的步骤包括:
对于所述场景新闻集中的每篇新闻,获取新闻正文中所有包含目标企业名称的语句,计算每条语句的句向量,并计算各句向量与所述领域向量之间的皮尔逊相关系数λ;
计算所述场景新闻集中的每篇新闻与目标企业之间的内容相关度σ:
σ=α×β×γ×lg(Σλ),
其中,α为新闻发布源的基础专业度值,β为新闻发布源的领域专业度值,γ为新闻发布源的领域影响力值,α×β×γ为新闻发布源在目标企业所属领域的权威度值,Σλ为各句向量与所述领域向量之间的皮尔逊相关系数之和。
8.如权利要求7所述的企业舆情指数的计算方法,其特征在于,所述根据计算得到的所述正面新闻集和所述负面新闻集中的所有新闻与目标企业之间的情感度,计算目标企业的舆情指数的步骤包括:
根据:情感度=Σ(σ×|ξ-0.5|),计算正面新闻集中所有新闻与目标企业之间的情感度A,以及负面新闻集中所有新闻与目标企业之间的情感度B;
根据:企业舆情指数=A/(A+B),计算目标企业的舆情指数。
9.一种企业舆情指数的计算设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业舆情指数的计算程序,所述企业舆情指数的计算程序被所述处理器执行时实现如权利要求1至8中任一项所述的企业舆情指数的计算方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有企业舆情指数的计算程序,所述企业舆情指数的计算程序被处理器执行时实现如权利要求1至8中任一项所述的企业舆情指数的计算方法的步骤。
CN201811350087.XA 2018-11-13 2018-11-13 企业舆情指数的计算方法、设备及计算机可读存储介质 Active CN109508373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811350087.XA CN109508373B (zh) 2018-11-13 2018-11-13 企业舆情指数的计算方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811350087.XA CN109508373B (zh) 2018-11-13 2018-11-13 企业舆情指数的计算方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109508373A true CN109508373A (zh) 2019-03-22
CN109508373B CN109508373B (zh) 2021-08-06

Family

ID=65748390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811350087.XA Active CN109508373B (zh) 2018-11-13 2018-11-13 企业舆情指数的计算方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109508373B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648070A (zh) * 2019-09-26 2020-01-03 精硕科技(北京)股份有限公司 一种企业形象的评估方法、评估装置及可读存储介质
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN111859074A (zh) * 2020-07-29 2020-10-30 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN111881382A (zh) * 2020-07-30 2020-11-03 北京百度网讯科技有限公司 由计算机系统实现的信息显示方法和装置、系统和介质
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113837630A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 基于文本识别的区域内esg指数确定方法及相关产品
WO2023273295A1 (zh) * 2021-07-02 2023-01-05 平安科技(深圳)有限公司 基于聚类技术的企业esg指数确定方法及相关产品
CN111881382B (zh) * 2020-07-30 2024-05-14 北京百度网讯科技有限公司 由计算机系统实现的信息显示方法和装置、系统和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098671A (ko) * 2005-03-03 2006-09-19 주식회사 휘닉스커뮤니케이션즈 사이버 여론조사 시스템 및 그 방법
US20150066585A1 (en) * 2013-09-05 2015-03-05 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN104346425B (zh) * 2014-07-28 2017-10-31 中国科学院计算技术研究所 一种层次化的互联网舆情指标体系的方法及系统
CN108229806A (zh) * 2017-12-27 2018-06-29 中国银行股份有限公司 一种分析企业风险的方法以及系统
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098671A (ko) * 2005-03-03 2006-09-19 주식회사 휘닉스커뮤니케이션즈 사이버 여론조사 시스템 및 그 방법
US20150066585A1 (en) * 2013-09-05 2015-03-05 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
CN104346425B (zh) * 2014-07-28 2017-10-31 中国科学院计算技术研究所 一种层次化的互联网舆情指标体系的方法及系统
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN108229806A (zh) * 2017-12-27 2018-06-29 中国银行股份有限公司 一种分析企业风险的方法以及系统
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648070A (zh) * 2019-09-26 2020-01-03 精硕科技(北京)股份有限公司 一种企业形象的评估方法、评估装置及可读存储介质
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN111859074A (zh) * 2020-07-29 2020-10-30 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN111859074B (zh) * 2020-07-29 2023-12-29 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN111881382A (zh) * 2020-07-30 2020-11-03 北京百度网讯科技有限公司 由计算机系统实现的信息显示方法和装置、系统和介质
CN111881382B (zh) * 2020-07-30 2024-05-14 北京百度网讯科技有限公司 由计算机系统实现的信息显示方法和装置、系统和介质
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113689299B (zh) * 2021-05-10 2023-10-20 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
WO2023273295A1 (zh) * 2021-07-02 2023-01-05 平安科技(深圳)有限公司 基于聚类技术的企业esg指数确定方法及相关产品
CN113837630A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 基于文本识别的区域内esg指数确定方法及相关产品
WO2023050652A1 (zh) * 2021-09-28 2023-04-06 平安科技(深圳)有限公司 基于文本识别的区域内esg指数确定方法及相关产品

Also Published As

Publication number Publication date
CN109508373B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US10810499B2 (en) Method and apparatus for recommending social media information
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US11138250B2 (en) Method and device for extracting core word of commodity short text
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
CN103150367B (zh) 一种中文微博的情感倾向分析方法
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN107704495A (zh) 主题分类器的训练方法、装置及计算机可读存储介质
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN107526800A (zh) 信息推荐的装置、方法及计算机可读存储介质
CN106105096A (zh) 用于连续社交通信的系统和方法
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN110263009A (zh) 日志分类规则的生成方法、装置、设备及可读存储介质
CN107797982A (zh) 用于识别文本类型的方法、装置和设备
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111309864B (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN108563655A (zh) 基于文本的事件识别方法和装置
WO2021114936A1 (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN108304509A (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant