CN109992661A - 一种面向证券行业的智能舆情监控方法及系统 - Google Patents
一种面向证券行业的智能舆情监控方法及系统 Download PDFInfo
- Publication number
- CN109992661A CN109992661A CN201910170344.XA CN201910170344A CN109992661A CN 109992661 A CN109992661 A CN 109992661A CN 201910170344 A CN201910170344 A CN 201910170344A CN 109992661 A CN109992661 A CN 109992661A
- Authority
- CN
- China
- Prior art keywords
- event
- main body
- public sentiment
- tag
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 101
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000002996 emotional effect Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000007477 logistic regression Methods 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 230000009897 systematic effect Effects 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 5
- 238000002156 mixing Methods 0.000 abstract description 4
- 230000007423 decrease Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 2
- 238000010009 beating Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向证券行业的智能舆情监控方法及系统,所述方法包括:采集面向证券行业内发行主体维度的新闻舆情数据,进行数据去重,得到新闻舆情信息;对新闻舆情信息进行摘要提取和情感分类,生成篇章摘要和篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息及主体行业标签和主体地区标签;根据事件标签体系和事件分类算法对主体信息进行主体事件识别得到主体事件标签及其对应的情感标签;根据主体信息、主体事件标签及情感标签组成三元组,将所有主体对应的三元组进行汇总生成篇章级别的三元组。本发明能够多维度提取舆情信息,通过事件标签体系和融合算法提高系统分类的准确率和效率,实现精准高效舆情监控的效果。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种面向证券行业的智能舆情监控方法及系统。
背景技术
互联网的普及带来了信息的快速无壁垒传播。而证券行业的舆情信息来源众多,包括:公司公告、政府公告、研究报告、工商行政处罚信息、海量的新闻以及社交媒体信息等等,舆情信息规模庞大而且来源丰富。因此对于证券市场的参与者,无论个人投资者和专业投资经理,还是研究人员或风险管理人员每天都需要阅读大量舆情信息并从中获取有用信息。
但是,在对现有技术的研究与实践过程中,本发明的发明人发现,一方面不仅需要快速捕捉并适应市场的快速变化,另一方面,还需要面对海量舆情数据的处理,如果仍然依靠传统的纯人工搜集、处理、监控的方式,不但需要耗费大量的时间而且容易忽视关键信息,显然已无法满足需求。近年来,随着大数据及人工智能等技术的快速发展,为此打开了突破口。因此,如何快速、全面且精准地监控这些舆情信息并发现其中价值,已经成为投资研究、资产配置和风险管理等金融活动的重要组成部分,并以此提高在证券行业中的核心竞争力。
发明内容
本发明要解决的技术问题在于,本发明提供的一种面向证券行业的智能舆情监控方法及系统,能够全面、精准高效地进行证券舆情监控。
为解决上述问题,本发明的一个实施例提供的一种面向证券行业的智能舆情监控方法,包括如下步骤:
采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
进一步地,所述面向证券行业的智能舆情监控方法,还包括:
根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
进一步地,所述情感标签包括正面、中性和负面。
进一步地,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
进一步地,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
进一步地,所述事件标签体系包括9个一级事件标签、59个二级事件标签、213个三级事件标签和102个四级事件标签。
本发明的一个实施例还提供了一种面向证券行业的智能舆情监控系统,包括:
采集模块,用于采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
预处理模块,用于对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
识别模块,用于基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
分类模块,用于根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
汇总模块,用于根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
进一步地,所述面向证券行业的智能舆情监控系统,还包括:
应用模块,用于根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
进一步地,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
进一步地,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
实施本发明实施例,具有如下有益效果:本发明的实施例提供的一种面向证券行业的智能舆情监控方法及系统,所述方法包括:采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。本发明能够多维度提取舆情信息,通过完善全面的事件标签体系和融合算法提高系统分类的准确率和效率,实现精准高效舆情监控的效果。
附图说明
图1是本发明的一个实施例提供的面向证券行业的智能舆情监控方法的流程示意图;
图2是本发明的一个实施例提供的新闻处理的流程示意图;
图3是本发明的一个实施例提供的事件分类算法框架图;
图4是本发明的一个实施例提供的事件标签体系的示意图;
图5是本发明的另一个实施例提供的面向证券行业的智能舆情监控系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先介绍本发明可以提供的应用场景,如提供基于面向证券行业的智能舆情监控方法,全面、精准高效地进行证券舆情监控。
现有的舆情监控技术,从舆情数据中所提取信息维度不够丰富,情感分类标签、舆情事件分类标签识别粒度较粗,无法精准关联主体形成进一步的分析及预警;舆情事件分类标签体系建设不够完善,缺乏层次;舆情数据信息提取均为机器初筛加上人工校验的半自动模式,造成成本高且效率低的问题。
请参阅图1-4。
如图1所示,本发明实施例提供的一种面向证券行业的智能舆情监控方法,包括如下步骤:
S101、采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
S102、对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
S103、基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
S104、根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
S105、根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
具体的,对于步骤S104和步骤S105,根据识别出来的主体,进一步识别出新闻中每个主体发生的事件以及该事件对应的情感倾向(即Aspect-Level Sentiment Analysis),情感标签包括:正面、中性、负面三类。在识别主体发生的事件时,会利用新闻本身的文本信息,以及主体的文本信息和位置信息等特征,输入至分类算法中进行事件识别;在识别主体的情感标签时,同样利用了新闻和主体两者的文本特征。最后,将主体、事件、情感三者挂钩起来,形成三元组;并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
在优选的实施例中,所述面向证券行业的智能舆情监控方法,还包括:
S106、根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
具体的,对于步骤S106,每篇新闻将会提取出数个主体、事件、情感相联合的三元组,以及篇章情感标签、主体行业及地区标签,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送、舆情趋势分析等应用,满足用户对舆情监控的需求。
如图2所示,本实施例还提供了另一种面向证券行业的智能舆情监控方法,详细步骤如下:获取面向行业内发行主体维度的新闻舆情数据;对新闻进行去重判断,并对该新闻进行摘要提取;进行新闻整体的情感判断(即Document-Level Sentiment Analysis),情感标签包括:正面、中性、负面三类;进行主体识别:识别数据中提到的发行主体(例如:新沂市交通投资有限公司、泰禾集团股份有限公司等),对于数据中仅提及了债券、股票,而没有明显提及发行主体的情况,需要进行映射到对应的发行主体;根据识别出来的主体,利用金融行业的专业词典,进行主体行业及地区识别;根据识别出来的主体,进一步识别出新闻中每个主体发生的事件以及该事件对应的情感倾向(即Aspect-Level Sentiment Analysis),情感标签包括:正面、中性、负面三类。在识别主体发生的事件时,会利用新闻本身的文本信息,以及主体的文本信息和位置信息等特征,输入至分类算法中进行事件识别;在识别主体的情感标签时,同样利用了新闻和主体两者的文本特征。最后,将主体、事件、情感三者挂钩起来,形成三元组;并将所有主体对应的三元组进行汇总,生成篇章级别的三元组;经过上述处理后,每篇新闻将会提取出数个主体、事件、情感相联合的三元组,以及篇章情感标签、主体行业及地区标签,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送、舆情趋势分析等应用,满足用户对舆情监控的需求。
以下为举例说明正文如下的新闻及其提取出对应的标签,此处略去去重字段和摘要提取字段;
新闻标题:建溢集团(00638)中期股东应占溢利同比降33.03%至5480.3万港元;
新闻正文:智通财经讯,建溢集团(00638)公告,截至2018年9月30日止6个月中期,公司实现收益21.1亿港元,同比增长43.1%,公司权益持有人应占溢利5480.3万港元,同比下降33.03%,每股盈利12.49港仙,中期股息每股普通股3.0港仙。营业额增长主要来自电器及电子产品,以及摩打业务分类的贡献。溢利倒退,主要归因于劳工及原材料成本上涨,致使集团制造业务毛利率下降。劳工短缺引致超时工作而产生加班费,以及因应市场需求及客户订单而出现产品组合变动,亦为毛利率下降原因之一。
提取内容:
篇章情感标签:负面;
三元组标签(主体、事件标签、情感标签):(建溢集团有限公司,业绩披露,负面);(建溢集团有限公司,成本变动,负面);
主体行业及地区:(建溢集团有限公司,耐用品与服饰,深圳市)。
在优选的实施例中,所述情感标签包括正面、中性和负面。
在优选的实施例中,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
在优选的实施例中,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
具体的,如图3所示,在对篇章进行主体粒度的事件标签分类时,我们采用了机器学习算法与规则相结合的方法,充分利用了业务专家的先验知识,同时又节省了很多人工总结的成本,保证算法具备很强的可拓展性。具体地,我们通过测试集统计归纳得到各个算法所擅长识别的事件,根据结果将事件分配给各个算法。机器学习算法中,我们使用了经典机器学习算法逻辑回归(LR)、支持向量机(SVM),以及现阶段学术界最新的双向编码表示算法(BERT);规则算法则是由业务专家根据先验知识总结出各个事件对应的条件和规则,最终实现成通过配置词典就可以更改和优化的规则算法;此外,我们还将规则算法与全文搜索引擎(ELASTIC SEARCH)进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。通过机器学习算法、规则算法、搜索引擎算法多种算法相结合的形式,大大提高了事件分类的准确率,从而省去了人工审核的成本,同时提高了系统的整体效率。
在优选的实施例中,所述事件标签体系包括9个一级事件标签、59个二级事件标签、213个三级事件标签和102个四级事件标签。
具体的,如图4所示,本实施例提供了一个针对发行主体的事件标签体系,共9个一级事件标签,59个二级事件标签,213个三级事件标签,102个四级事件标签。该事件标签体系形成了一套完整的、全面的体系,能够完美贴合业务方用户关注的事件标签分布,覆盖了发行主体在证券市场中活动的全生命周期,可以进行更加全面的舆情监控分析应用。
本实施例提供的一种面向证券行业的智能舆情监控方法,所述方法包括:采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。本发明能够多维度提取舆情信息,通过完善全面的事件标签体系和融合算法提高系统分类的准确率和效率,实现精准高效舆情监控的效果。
如图5所示,本发明另一实施例还提供了一种面向证券行业的智能舆情监控系统,包括:
采集模块100,用于采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
预处理模块200,用于对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
识别模块300,用于基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
分类模块400,用于根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
汇总模块500,用于根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
具体的,对于分类模块400和汇总模块500,根据识别出来的主体,进一步识别出新闻中每个主体发生的事件以及该事件对应的情感倾向(即Aspect-Level SentimentAnalysis),情感标签包括:正面、中性、负面三类。在识别主体发生的事件时,会利用新闻本身的文本信息,以及主体的文本信息和位置信息等特征,输入至分类算法中进行事件识别;在识别主体的情感标签时,同样利用了新闻和主体两者的文本特征。最后,将主体、事件、情感三者挂钩起来,形成三元组;并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
在优选的实施例中,所述面向证券行业的智能舆情监控系统,还包括:
应用模块600,用于根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
具体的,对于应用模块600,每篇新闻将会提取出数个主体、事件、情感相联合的三元组,以及篇章情感标签、主体行业及地区标签,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送、舆情趋势分析等应用,满足用户对舆情监控的需求。
如图2所示,本实施例还提供了另一种面向证券行业的智能舆情监控方法,详细步骤如下:获取面向行业内发行主体维度的新闻舆情数据;对新闻进行去重判断,并对该新闻进行摘要提取;进行新闻整体的情感判断(即Document-Level Sentiment Analysis),情感标签包括:正面、中性、负面三类;进行主体识别:识别数据中提到的发行主体(例如:新沂市交通投资有限公司、泰禾集团股份有限公司等),对于数据中仅提及了债券、股票,而没有明显提及发行主体的情况,需要进行映射到对应的发行主体;根据识别出来的主体,利用金融行业的专业词典,进行主体行业及地区识别;根据识别出来的主体,进一步识别出新闻中每个主体发生的事件以及该事件对应的情感倾向(即Aspect-Level Sentiment Analysis),情感标签包括:正面、中性、负面三类。在识别主体发生的事件时,会利用新闻本身的文本信息,以及主体的文本信息和位置信息等特征,输入至分类算法中进行事件识别;在识别主体的情感标签时,同样利用了新闻和主体两者的文本特征。最后,将主体、事件、情感三者挂钩起来,形成三元组;并将所有主体对应的三元组进行汇总,生成篇章级别的三元组;经过上述处理后,每篇新闻将会提取出数个主体、事件、情感相联合的三元组,以及篇章情感标签、主体行业及地区标签,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送、舆情趋势分析等应用,满足用户对舆情监控的需求。
以下为举例说明正文如下的新闻及其提取出对应的标签,此处略去去重字段和摘要提取字段;
新闻标题:建溢集团(00638)中期股东应占溢利同比降33.03%至5480.3万港元;
新闻正文:智通财经讯,建溢集团(00638)公告,截至2018年9月30日止6个月中期,公司实现收益21.1亿港元,同比增长43.1%,公司权益持有人应占溢利5480.3万港元,同比下降33.03%,每股盈利12.49港仙,中期股息每股普通股3.0港仙。营业额增长主要来自电器及电子产品,以及摩打业务分类的贡献。溢利倒退,主要归因于劳工及原材料成本上涨,致使集团制造业务毛利率下降。劳工短缺引致超时工作而产生加班费,以及因应市场需求及客户订单而出现产品组合变动,亦为毛利率下降原因之一。
提取内容:
篇章情感标签:负面;
三元组标签(主体、事件标签、情感标签):(建溢集团有限公司,业绩披露,负面);(建溢集团有限公司,成本变动,负面);
主体行业及地区:(建溢集团有限公司,耐用品与服饰,深圳市)。
在优选的实施例中,所述情感标签包括正面、中性和负面。
在优选的实施例中,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
在优选的实施例中,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
具体的,如图3所示,在对篇章进行主体粒度的事件标签分类时,我们采用了机器学习算法与规则相结合的方法,充分利用了业务专家的先验知识,同时又节省了很多人工总结的成本,保证算法具备很强的可拓展性。具体地,我们通过测试集统计归纳得到各个算法所擅长识别的事件,根据结果将事件分配给各个算法。机器学习算法中,我们使用了经典机器学习算法逻辑回归(LR)、支持向量机(SVM),以及现阶段学术界最新的双向编码表示算法(BERT);规则算法则是由业务专家根据先验知识总结出各个事件对应的条件和规则,最终实现成通过配置词典就可以更改和优化的规则算法;此外,我们还将规则算法与全文搜索引擎(ELASTIC SEARCH)进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。通过机器学习算法、规则算法、搜索引擎算法多种算法相结合的形式,大大提高了事件分类的准确率,从而省去了人工审核的成本,同时提高了系统的整体效率。
在优选的实施例中,所述事件标签体系包括9个一级事件标签、59个二级事件标签、213个三级事件标签和102个四级事件标签。
具体的,如图4所示,本实施例提供了一个针对发行主体的事件标签体系,共9个一级事件标签,59个二级事件标签,213个三级事件标签,102个四级事件标签。该事件标签体系形成了一套完整的、全面的体系,能够完美贴合业务方用户关注的事件标签分布,覆盖了发行主体在证券市场中活动的全生命周期,可以进行更加全面的舆情监控分析应用。
本实施例提供的一种面向证券行业的智能舆情监控系统,所述系统包括:采集模块,用于采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;预处理模块,用于对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;识别模块,用于基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;分类模块,用于根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;汇总模块,用于根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。应用模块,用于根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。本发明能够多维度提取舆情信息,通过完善全面的事件标签体系和融合算法提高系统分类的准确率和效率,实现精准高效舆情监控的效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReaD-Only Memory,ROM)或随机存储记忆体(RanDom AccessMemory,RAM)等。
Claims (10)
1.一种面向证券行业的智能舆情监控方法,其特征在于,包括如下步骤:
采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
2.根据权利要求1所述的面向证券行业的智能舆情监控方法,其特征在于,还包括:
根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
3.根据权利要求1所述的面向证券行业的智能舆情监控方法,其特征在于,所述情感标签包括正面、中性和负面。
4.根据权利要求1所述的面向证券行业的智能舆情监控方法,其特征在于,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
5.根据权利要求1所述的面向证券行业的智能舆情监控方法,其特征在于,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
6.根据权利要求1所述的面向证券行业的智能舆情监控方法,其特征在于,所述事件标签体系包括9个一级事件标签、59个二级事件标签、213个三级事件标签和102个四级事件标签。
7.一种面向证券行业的智能舆情监控系统,其特征在于,包括:
采集模块,用于采集面向证券行业内发行主体维度的新闻舆情数据,并进行数据去重处理,得到新闻舆情信息;
预处理模块,用于对所述新闻舆情信息进行摘要提取以及情感分类,分别生成篇章摘要和对应的篇章情感标签,并对所述新闻舆情数据进行主体识别,得到对应的主体信息;
识别模块,用于基于金融行业的专业词典对所述主体信息进行主体行业及地区识别,得到对应的主体行业标签和主体地区标签;
分类模块,用于根据事件标签体系和事件分类算法对所述主体信息进行主体事件识别,得到主体事件标签及其对应的情感标签;
汇总模块,用于根据所述主体信息、主体事件标签及其对应的情感标签组成三元组,并将所有主体对应的三元组进行汇总,生成篇章级别的三元组。
8.根据权利要求7所述的面向证券行业的智能舆情监控系统,其特征在于,还包括:
应用模块,用于根据所述篇章级别的三元组,通过匹配用户的关注点,进行舆情分类检索、舆情预警推送和舆情趋势分析。
9.根据权利要求7所述的面向证券行业的智能舆情监控系统,其特征在于,所述事件分类算法还包括双向编码算法、逻辑回归算法、支持向量机算法、全文搜索引擎以及规则算法。
10.根据权利要求7所述的面向证券行业的智能舆情监控系统,其特征在于,所述主体事件识别,具体步骤包括:
对新闻主体和主体信息进行文本切词处理,得到对应的词向量、单词组、双词组和三词组;
根据所述双向编码算法对所述词向量进行计算,根据所述逻辑回归算法、支持向量机算法和全文搜索引擎对所述单词组、双词组、三词组进行计算,得到对应的事件标签;
根据所述规则算法与全文搜索引擎进行结合,召回与当前文本相似的已标注文本,其对应的事件标签作为当前文本事件标签的候选集,进一步过滤其他算法识别出的事件标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910170344.XA CN109992661A (zh) | 2019-03-05 | 2019-03-05 | 一种面向证券行业的智能舆情监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910170344.XA CN109992661A (zh) | 2019-03-05 | 2019-03-05 | 一种面向证券行业的智能舆情监控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109992661A true CN109992661A (zh) | 2019-07-09 |
Family
ID=67129328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910170344.XA Pending CN109992661A (zh) | 2019-03-05 | 2019-03-05 | 一种面向证券行业的智能舆情监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992661A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN111160019A (zh) * | 2019-12-30 | 2020-05-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN112199583A (zh) * | 2020-09-22 | 2021-01-08 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN107357860A (zh) * | 2017-06-30 | 2017-11-17 | 中山大学 | 一种基于新闻数据的个股情绪汇聚方法 |
CN107992478A (zh) * | 2017-11-30 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 确定热点事件的方法和装置 |
CN108628994A (zh) * | 2018-04-28 | 2018-10-09 | 广东亿迅科技有限公司 | 一种舆情数据处理系统 |
-
2019
- 2019-03-05 CN CN201910170344.XA patent/CN109992661A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN107357860A (zh) * | 2017-06-30 | 2017-11-17 | 中山大学 | 一种基于新闻数据的个股情绪汇聚方法 |
CN107992478A (zh) * | 2017-11-30 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 确定热点事件的方法和装置 |
CN108628994A (zh) * | 2018-04-28 | 2018-10-09 | 广东亿迅科技有限公司 | 一种舆情数据处理系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN110489543B (zh) * | 2019-08-14 | 2020-09-15 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN111160019A (zh) * | 2019-12-30 | 2020-05-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111160019B (zh) * | 2019-12-30 | 2023-08-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN111695033B (zh) * | 2020-04-29 | 2023-06-27 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN112199583A (zh) * | 2020-09-22 | 2021-01-08 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及系统 |
CN112199583B (zh) * | 2020-09-22 | 2021-11-23 | 黑龙江省网络空间研究中心 | 基于多规则关联分析的网络舆情信息智能处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241300B (zh) | 舆情预警以及风险传播分析方法、系统、设备及存储介质 | |
CN109992661A (zh) | 一种面向证券行业的智能舆情监控方法及系统 | |
Kordonis et al. | Stock price forecasting via sentiment analysis on Twitter | |
Huang et al. | A multilabel text classification algorithm for labeling risk factors in SEC form 10-K | |
Liu et al. | Combining enterprise knowledge graph and news sentiment analysis for stock price prediction | |
Mahajan et al. | Mining financial news for major events and their impacts on the market | |
CN107403375A (zh) | 一种基于深度学习的上市公司公告分类及摘要生成方法 | |
CN108733748B (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
Chen | Classifying credit ratings for Asian banks using integrating feature selection and the CPDA-based rough sets approach | |
CN111950932A (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
Zhu et al. | Firm risk identification through topic analysis of textual financial disclosures | |
CN109344174A (zh) | 金融分析方法和系统 | |
Liu et al. | Application of hierarchical clustering in tax inspection case-selecting | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Sashida et al. | Stock return prediction with ssestm model using quarterly japanese company handbook | |
Aue et al. | Predicting Companies' ESG Ratings from News Articles Using Multivariate Timeseries Analysis | |
Yao et al. | Using social media information to predict the credit risk of listed enterprises in the supply chain | |
CN110222180A (zh) | 一种文本数据分类与信息挖掘方法 | |
KR20210001625A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치 | |
KR20210001649A (ko) | 기업 부실 예측 프로그램 | |
CN115952282A (zh) | 基于nlp技术的银行客户投诉智能分流处置方法和系统 | |
Huang | Exploring the information contents of risk factors in SEC form 10-K: A multi-label text classification application | |
Islam et al. | Stock market prediction of Bangladesh using multivariate long short-term memory with sentiment identification. | |
Dey et al. | Document clustering for event identification and trend analysis in market news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190709 |