CN111027322A - 基于情感词典的财经新闻中细粒度实体的情感分析方法 - Google Patents

基于情感词典的财经新闻中细粒度实体的情感分析方法 Download PDF

Info

Publication number
CN111027322A
CN111027322A CN201911282362.3A CN201911282362A CN111027322A CN 111027322 A CN111027322 A CN 111027322A CN 201911282362 A CN201911282362 A CN 201911282362A CN 111027322 A CN111027322 A CN 111027322A
Authority
CN
China
Prior art keywords
emotion
words
financial news
fine
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911282362.3A
Other languages
English (en)
Inventor
张明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN201911282362.3A priority Critical patent/CN111027322A/zh
Publication of CN111027322A publication Critical patent/CN111027322A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及情感词典分析技术领域,具体地说,涉及基于情感词典的财经新闻中细粒度实体的情感分析方法。其方法包括如下步骤:分析大量的财经新闻;对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;由S2中得到的上市公司句子集合;对S3中过滤到的分词后的情感句;对每个上市公司由S4中得到所有情感句的情感分数进行加权求和;对情感分数进行极性划分。该基于情感词典的财经新闻中细粒度实体的情感分析方法中,采用情感词典的方法对新闻中每个上市公司进行情感分析和计算,对财经新闻中涉及到的每个上市公司进行情感分析,能够得到每篇文章每个上市公司的情感极性。

Description

基于情感词典的财经新闻中细粒度实体的情感分析方法
技术领域
本发明涉及情感词典分析技术领域,具体地说,涉及基于情感词典的财经新闻中细粒度实体的情感分析方法。
背景技术
现有基于情感词典的情感分析方法,主要解决新闻文本整体情感极性,其核心思想是通过对新闻文本进行分词,找出文本中的情感词、否定词以及程度副词,然后判断每个情感词之前是否有否定词和程度副词,将它之前的否定词和程度副词划分为一个组,最后将所有组的得分加起来,大于0的归于正向,小于0的归于负向。但现有的情感词典的情感分析方法未考虑情感词的实体归属问题,特别对于上市公司来说,当新闻中有多个实体且实体的情感倾向不一致时,无法对每个实体的情感极性有准确的分析和表述。
发明内容
本发明的目的在于提供基于情感词典的财经新闻中细粒度实体的情感分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
S6、对情感分数进行极性划分。
作为优选,所述S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
作为优选,所述S1中,所述否定词的构建方法为:通过分析中文句法中常用的否定形式构建,如未能、而不是、决不等。
作为优选,所述S1中,程度副词的构建方法为:通过分析中文句法中常用的程度词并根据其不同程度定义5档程度分,如极其、百分百等定义为5分,更加、进一步等定义为4分,格外、很等定义为3分,多多少少、略微等定义为2分,一丁点儿、稍微等定义为1分。
作为优选,所述S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
作为优选,所述S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
作为优选,所述S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置,最终分别得到3个map集合(情感map、否定map、程度词map)。在此过程中同时获取该句中上市公式实体及其所在的下标位置。根据情感词的位置分配该词属于距离其最近的上市公司实体,计算该实体在该句的情感分如下:sum(情感词分*否定词*程度副词)。
作为优选,所述情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
作为优选,所述构建具有情感倾向的种子词集合包括正向种子词(如领涨、跑赢大盘、扭亏为盈等)、负向种子词(如暴雷、炒冷饭、跳水、乌龙指等)。
作为优选,所述对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差,若差为正则为正向,若差为负则为负向,重复语料库中词的互信息之差,最后选取分数高的分别组成相应的正向情感词典和负向情感词典。
与现有技术相比,本发明的有益效果:该基于情感词典的财经新闻中细粒度实体的情感分析方法中,采用情感词典的方法对新闻中每个上市公司进行情感分析和计算,采用增量式工程量计算方法,建模的同时进行工程量的计算,对财经新闻中涉及到的每个上市公司进行情感分析,能够得到每篇文章每个上市公司的情感极性,对上市公司的舆情研究而言更具有实际参考意义。
附图说明
图1为本发明的传统财经新闻情感分析计算方法框图;
图2为本发明的财经新闻中细粒度实体情感分析计算方法框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2所示,本发明提供一种技术方案:
本发明提供基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
S6、对情感分数进行极性划分。
S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
S1中,否定词的构建方法为:通过分析中文句法中常用的否定形式构建,如未能、而不是、决不等。
本实施例中,S1中,程度副词的构建方法为:通过分析中文句法中常用的程度词并根据其不同程度定义5档程度分,如极其、百分百等定义为5分,更加、进一步等定义为4分,格外、很等定义为3分,多多少少、略微等定义为2分,一丁点儿、稍微等定义为1分。
进一步的,S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
具体的,S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
此外,S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置,最终分别得到3个map集合(情感map、否定map、程度词map)。在此过程中同时获取该句中上市公式实体及其所在的下标位置。根据情感词的位置分配该词属于距离其最近的上市公司实体,计算该实体在该句的情感分如下:sum(情感词分*否定词*程度副词)。
除此之外,情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
值得说明的是,构建具有情感倾向的种子词集合包括正向种子词(如领涨、跑赢大盘、扭亏为盈等)、负向种子词(如暴雷、炒冷饭、跳水、乌龙指等)。
再进一步的,对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差,若差为正则为正向,若差为负则为负向,重复语料库中词的互信息之差,最后选取分数高的分别组成相应的正向情感词典和负向情感词典。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
S6、对情感分数进行极性划分。
2.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
3.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,所述否定词的构建方法为:通过分析中文句法中常用的否定形式构建。
4.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,程度副词的构建方法为:通过分析中文句法中的程度词并根据其不同程度定义5档程度分。
5.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
6.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
7.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置。
8.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
9.根据权利要求2所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述构建具有情感倾向的种子词集合包括正向种子词、负向种子词。
10.根据权利要求9所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差。
CN201911282362.3A 2019-12-13 2019-12-13 基于情感词典的财经新闻中细粒度实体的情感分析方法 Pending CN111027322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911282362.3A CN111027322A (zh) 2019-12-13 2019-12-13 基于情感词典的财经新闻中细粒度实体的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911282362.3A CN111027322A (zh) 2019-12-13 2019-12-13 基于情感词典的财经新闻中细粒度实体的情感分析方法

Publications (1)

Publication Number Publication Date
CN111027322A true CN111027322A (zh) 2020-04-17

Family

ID=70208684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911282362.3A Pending CN111027322A (zh) 2019-12-13 2019-12-13 基于情感词典的财经新闻中细粒度实体的情感分析方法

Country Status (1)

Country Link
CN (1) CN111027322A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216524A1 (en) * 2008-02-26 2009-08-27 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
CN105095190A (zh) * 2015-08-25 2015-11-25 众联数据技术(南京)有限公司 一种基于中文语义结构和细分词库结合的情感分析方法
CN109325238A (zh) * 2018-10-31 2019-02-12 北京国信云服科技有限公司 一种长文本中多实体情感分析的方法
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216524A1 (en) * 2008-02-26 2009-08-27 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
CN105095190A (zh) * 2015-08-25 2015-11-25 众联数据技术(南京)有限公司 一种基于中文语义结构和细分词库结合的情感分析方法
CN109325238A (zh) * 2018-10-31 2019-02-12 北京国信云服科技有限公司 一种长文本中多实体情感分析的方法
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN112711941B (zh) * 2021-01-08 2022-12-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN113343714B (zh) * 2021-07-02 2022-06-07 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备

Similar Documents

Publication Publication Date Title
CN111027322A (zh) 基于情感词典的财经新闻中细粒度实体的情感分析方法
CN112836052B (zh) 一种汽车评论文本观点挖掘方法、设备及存储介质
Haleblian The problem of contextualization
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104731770A (zh) 基于规则和统计模型的中文微博情感分析方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN103605694A (zh) 一种相似文本检测装置和方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN112241458A (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN113806483B (zh) 数据处理方法、装置、电子设备及计算机程序产品
Bajestan et al. DErivCELEX: Development and evaluation of a German derivational morphology lexicon based on CELEX
CN107480126B (zh) 一种工程材料类别智能识别方法
CN111984790B (zh) 一种实体关系抽取方法
CN113297365A (zh) 一种用户意向判定方法、装置、设备及存储介质
CN111985223A (zh) 一种基于长短记忆网络和情感词典结合的情感计算方法
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN109325159A (zh) 一种微博热点事件挖掘方法
KR20200127555A (ko) 뉴스 기사의 감성 정보 레이블링 프로그램
CN109344397A (zh) 文本特征词语的提取方法及装置、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination