CN115759104B - 基于实体识别的金融领域舆情分析方法与系统 - Google Patents
基于实体识别的金融领域舆情分析方法与系统 Download PDFInfo
- Publication number
- CN115759104B CN115759104B CN202310024477.2A CN202310024477A CN115759104B CN 115759104 B CN115759104 B CN 115759104B CN 202310024477 A CN202310024477 A CN 202310024477A CN 115759104 B CN115759104 B CN 115759104B
- Authority
- CN
- China
- Prior art keywords
- financial
- text
- public opinion
- entity
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 61
- 230000015654 memory Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000012549 training Methods 0.000 description 11
- 238000002372 labelling Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 229910052711 selenium Inorganic materials 0.000 description 3
- 239000011669 selenium Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091027981 Response element Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 235000015067 sauces Nutrition 0.000 description 1
- 238000012106 screening analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体公开了一种基于实体识别的金融领域舆情分析方法及系统,方法包括:获取金融领域相关文本数据,并进行预处理;获取单一金融实体的金融相关文本集;基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到单一金融实体的当日舆情特征;提取设定日期范围内的行业相关政策特征以及单一金融实体的财报特征,并提取两者的综合特征;将单一金融实体的当日舆情特征与所述综合特征进行拼接;利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到单一金融实体的舆情分析结果。本发明能够准确识别出单一的金融实体,充分利用不同类型的文本价值,实现对金融领域舆情的准确分析。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于实体识别的金融领域舆情分析方法与系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
通过基于金融相关的媒体正文和社区评论来捕获金融市场的舆情倾向是非常有价值的。
传统的舆情分析方法需要遍历大量的金融市场相关文本,需要耗费大量精力、时间,然而金融市场瞬息万变,耗时的信息浏览极可能会错过稍纵即逝的金融市场重大变化。针对庞大的金融领域文本信息,实现自动抽取文本并根据领域进行高效且精确的筛选分析是很有必要的。
随着针对文本的预训练模型的问世,现阶段对于文本预处理、分析舆情的技术愈发成熟。预训练模型即通过大量的数据集训练得出的一个网络,使用者可针对自己的数据集进行微调,其本质上是一种迁移学习。通过大量优质金融文本数据集进行训练的金融领域预训练模型也随之诞生,因而在金融领域内的自然语言处理得到了一定的发展。针对舆情倾向分析、实体识别抽取等技术在精确度上也得到了一定的提升。
然而当前阶段针对金融文本的处理技术尚未成熟,针对不同文本的金融实体识别、舆情倾向分析、事件影响判定并没有形成完整的评估流程。在金融文本舆情分析方面,由于缺少金融领域实体(比如:企业名称、企业代码等)抽取领域优质数据集,现阶段在多数包含不同主体的长文本文档中无法识别金融主体,导致在进行该金融实体市场舆情判断时往往将市场中大部分文本的舆情倾向作为该实体的舆情倾向,这种做法会造成严重的误判。
另外,在金融领域,行业政策、公司财报、突发事件等不同领域的金融文本对于金融市场的影响不能够单一而论,主流媒体、社区舆论等不同渠道的文本对于金融市场的影响也不能统一处理。并且金融文本在发布后的后续影响大小对金融市场也会产生不同程度的影响。而现阶段针对金融市场舆情分析并没有考虑不同金融文本发布领域、发布渠道、传播效果,仅仅将所有文本简单送入文本处理模型,做加权处理。在金融市场舆情分析阶段不能够忽视金融文本自身价值。
综上,目前的金融领域舆情分析主要面临如下技术问题:
(1)金融领域对于新闻的时效性至关重要,但是当前阶段金融文本难以进行及时的抽取和筛选。
(2)无法在金融领域的长文本中准确识别出金融实体,由于忽视文本结构信息差异化导致在金融长文本中舆情倾向分析效果较差。
(3)当前阶段金融市场舆情判断仅仅依靠金融门户网站文本或与社区舆论进行简单的结合去判断金融市场状态,并没有将市场状态与社区舆论进行有效的结合。
发明内容
为了解决上述问题,本发明提出了一种基于实体识别的金融领域舆情分析方法与系统,能够准确识别出单一的金融实体,同时考虑不同金融文本发布领域、发布渠道、传播效果,充分利用不同类型的文本价值,实现对金融领域舆情的准确分析。
在一些实施方式中,采用如下技术方案:
一种基于实体识别的金融领域舆情分析方法,包括:
获取金融领域相关文本数据,并进行预处理;
对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
所述单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到所述单一金融实体的当日舆情特征;
提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;
将所述单一金融实体的当日舆情特征与所述综合特征进行拼接;
利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到所述单一金融实体的舆情分析结果。
在另一些实施方式中,采用如下技术方案:
一种基于实体识别的金融领域舆情分析系统,包括:
数据获取模块,用于获取金融领域相关文本数据,并进行预处理;
金融实体提取模块,用于对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
舆情特征提取模块,用于在所述单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到所述单一金融实体的当日舆情特征;提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;将所述单一金融实体的当日舆情特征与所述综合特征进行拼接;
舆情分析模块,用于利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到所述单一金融实体的舆情分析结果。
与现有技术相比,本发明的有益效果是:
(1)本发明方法针对金融新闻正文文本命名主体识别困难的问题,使用弱监督方法生成优质的金融领域命名实体识别(NER)数据集,设计了双向长短期记忆网络(Bi-LSTM)+卷积神经网络(CNN)+条件随机场(CRF)+实体相似度计算(ESC)的组合模型,抽取金融实体以及确定其相关文本。使用卷积神经网络(CNN)能够更好地提取语义特征,使用了前向的长短期记忆网络(LSTM)与反向的长短期记忆网络相结合的双向长短期记忆网络(Bi-LSTM),预测数据由前面输入和后面输入共同决定,提高数据预测准确率;使用条件随机场(CRF)能够寻求最优路径,给预测结果增加约束,降低错误的预测序列出现概率。
(2)本发明针对金融新闻正文文本中信息差异结构化的特点,对不同位置信息分别进行训练预测并进行结合;同时分析了金融实体的专业报道以及社区舆论,并挖掘时序关系进行有效合并;在金融市场舆情分析时针对行业政策、公司财报、普通新闻、社区舆论等不同类型的文本,赋予不同的价值;提高了舆情预测的准确性。
本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
图1为本发明实施例中的基于实体识别的金融领域舆情分析方法流程图;
图2为本发明实施例中的金融新闻正文文本提取金融实体的过程示意图;
图3为本发明实施例中的卷积计算过程示意图;
图4为本发明实施例中的金融新闻正文文本特征与金融社区舆论特征融合过程示意图;
图5为本发明实施例中的单一金融实体的当日舆情特征与综合特征进行拼接的过程示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于实体识别的金融领域舆情分析方法,结合图1,具体包括如下过程:
(1)获取金融领域相关文本数据,并进行预处理;
本实施例中,金融领域相关文本数据至少包括金融新闻正文文本、金融舆论文本、行业政策文本和公司财报文本。
基于文本抓取工具实现对金融文本的高效自动化抽取,可以针对行业政策、财报、突发金融事件等不同发布领域的金融文本以及来自金融门户网站媒体报道、金融社区网民舆论信息等不同发布渠道的金融领域文本进行实时监测抓取。
本实施例基于模拟登录网站工具(selenium)+解析网站工具内容工具(beautifulsoup)+线程库(threading)搭建文本抓取工具;beautifulsoup借助网页的属性和结构等特性能够快速地解析网站,通常用来解析静态网站;selenium是一个自动化测试工具,能够对任何浏览器都有很好的支持,可以利用selenium模拟用户在网站上的任何操作,包括抓取内容,点击扩展页面展示更多内容等。采用beautifulsoup解析静态网站页面以及使用selenium解析动态加载的网站页面,抓取发布金融文本的标题、文本内容、发布时间,以及部分网站含有的评论数、点赞数等。采用分钟为单位固定频率运行抓取脚本,同时针对数十个金融文本来源进行抓取的情况下,为缩短时间,采用线程库threading对数据抓取模块进行优化,threading是专门提供用来做多线程编程的模块,保证了抓取工作的并发执行。
当然,本领域技术人员也可以采用其他方法实现文本抓取;需要说明的是,本实施例中的数据抓取过程是在符合相关法律法规的前提下合法进行的。
针对抓取的金融文本存在大量无用信息的情况,对于已获取的金融文本,首先对乱码进行了处理。针对金融门户网站所获得的数据,去除广告、其他信息等无关文本,但并不去处不同文本来源的相似金融文本信息,该目的是评估金融文本传播效果,更多的重复的文本生成的重复特征更能说明该金融事件的影响较广。
针对金融社区抓取的文本,无关的表情、重复性的垃圾文本等较多,清洗工作较为复杂,因此统计了网络流行词语、网络常用表情、停用词等整合为停用词表,并使用该表对金融社区文本进行清洗。
(2)对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
本实施例中,利用BERT模型进行金融实体的提取;BERT是一种预训练模型,它强调了不再像以往采用传统的单向语言模型或将模型进行简单的拼接,而是可以综合文本语义特征,生成综合全文特征的语义向量。通过BERT可根据输入文本输出特征向量,支撑后续的工作。
普通的命名实体识别模型在金融领域由于缺乏优质的金融领域数据集以及模型的跨领域缺乏泛用型,应用于金融文本并没有取得好的效果。
本实施例首先针对数据集问题,采用手工标注的方法对金融文本进行手工标注,命名实体识别数据集格式中标注实体为组织(ORG)、人名(PER)或国家(COUN)等不同类型的金融实体,金融实体的主要信息,比如:公司财报中出现的学历(EDU)、职位(TITLE)等;突发金融事件中存在的行业分类(CLASS)以及无意义词语标注为O。而对于每个字符,按照其在标注实体中的位置,分为Begin(B)、Middle(M)、End(E),例如表1中所示。
表1命名实体识别标注案例
X | X | 的 | 公 | 司 | 由 | X | X | X | X | 间 | 接 | 全 | 资 | 控 | 股 |
B- PER | E- PER | o | o | o | o | B- ORG | M- ORG | M- ORG | E- ORG | o | o | o | o | o | o |
针对金融社区舆论文本,由于社区中针对不同金融实体都设置有独立的讨论区域,因此抓取的金融社区舆论文本可根据抓取目标默认标记实体。
少量人工标注数据集样本并不足以完成模型的训练过程,因此首先利用弱监督学习标注方法生成标注样本,具体的流程为:利用当前阶段较高精度的双向长短期记忆网络+条件随机场以及长短期记忆网络+条件随机场以及当前阶段已标注的数据集训练多个初始模型,利用训练好的模型对未标注的金融文本分别进行标注,采用投票以及人工修正的方法进行综合性选择,最终生成优质的金融领域命名实体识别文本数据集,利用该数据集对金融领域命名实体识别模型进行训练。
金融领域文本的显著特点在于文本内容的结构化,文章的头部、中段、尾部等所表达的内容具有不同的文本结构,每一部分信息较为独立,在金融领域的长文本中尤为突出,长文本即文章篇幅较长的文本,一般金融网站的新闻正文都属于长文本。由于篇幅较长,传统的双向长短期记忆网络模型虽然能够在一定程度上解决梯度问题,然而对于长文本来说并不能够结合全文的语义信息。另外,金融新闻的长文本中包含了不同的金融实体,包括了主体以及与其领域相关的客体,会造成出现识别多个金融实体而无法确定主体的现象。在稀释语义信息、实体混乱的情况下单纯的双向长短期记忆网络(Bi-LSTM)并不能够在金融新闻正文文本取得很好的效果。
本实施例中,设计了双向长短期记忆网络(Bi-LSTM)+卷积神经网络(CNN)+条件随机场(CRF)+实体相似度计算(ESC)的模型结构,结合图2,针对一篇金融新闻正文文本,分解为词序列[w 1,w 2,…,w t ,…,w n ](w t为单个字符, n为序列长度),使用BERT模型转换成词向量序列[E 1,E 2,…,E t ,…,E n ](E t为单个字符经BERT处理后的向量特征,n为序列长度)后,对于单词而言其纬度为[768,L](L为该单词其包含字符长度),使用卷积神经网络(CNN)能够更好地提取语义特征,卷积神经网络分为卷积与池化两个步骤,卷积计算过程如图3所示;通过确定核(也称滤波器),若定义卷积核的大小为2*2,则在输入矩阵中不断遍历,以图中为例,输入矩阵通过窗口得到2*2大小矩阵与核对应元素相乘后相加(0*0+1*0+0*4+3*1)作为输出,在规定步长后将阴影部分向右滑动规定步长,向右遍历完成后再向下划动规定步长重复上述操作,直至遍历完整个输入矩阵,得到结果矩阵。这种做法可以有效的综合特征。当卷积核尺寸大于1时,不可避免的是输出尺度会小于输入尺度,因此通过填充的方式保证输入与输出的维度一致,即将输入外围用0来进行填充,保证卷积操作后输入与输出维度一致。
然后通过平均池化的操作,将词向量矩阵每行做平均,即将[1,L]( L为该单词其包含字符长度)的向量所有元素取平均值代替向量的方法,最终得到长度为768的向量从而在保留词向量特征的情况下缩减数据维度,生成的特征向量记为x t。
在经过卷积操作后,将提取到的序列特征[x 1,x 2,…,x t ,…,x n ](x t为单个字符的向量特征,n为序列长度)输入长短期记忆网络层(LSTM)。LSTM的设计非常适合对例如文本数据等时序数据的建模。LSTM由输入、细胞状态、临时细胞状态、隐层状态、遗忘门、记忆门以及输出门组成。其内部工作主要有三个阶段,第一个阶段对上一个节点的输入进行选择性遗忘,去除不重要的信息;第二阶段通过记忆门进行有选择的记忆,最终通过输出门决定输出哪些信息。具体公式如下:
其中,第一个忘记门层会读取上一个细胞的输出以及由卷积神经网络输出的
词向量x t ,在与权重矩阵W f (公式中W f ,W i ,W C ,W O 同为权重矩阵,都经过同样的随机初始化方
法生成,初始化后值不同)相乘后,与偏移向量b f (公式中b f ,b i ,b C ,b O 同为偏移向量,都是经
过同样的随机初始化方法生成,初始化后值不同)相加,通过sigmod函数(一种非线性函数,
能够将任意的实数映射到0-1之间,能够捕捉非线性关系,公式中简写为)生成一个向量,
每一个元素都位于[0-1],被叫做遗忘门f t ,它代表了上一个词向量有哪些特征要用于当
前。
表示细胞状态更新值,是由输入的x t 与得到,为输出门,也是所有元素
都在0到1的向量,计算过程与遗忘门f t 一致。遗忘门f t 与输出门i t 和细胞状态更新值构
成了最核心的本细胞状态C t ,贯穿了整个长短期记忆网络模型。计算出的本细胞状态C t 代表
着更新了本细胞状态。通过一个sigmod函数确定将当前的输入x t 对应的哪些细胞状态进行
输出,o t 即为确定要输出的内容,并使用tanh对本细胞状态C t 处理后与o t 相乘,确定了本细
胞的输出h t ,用于作为下一细胞的输入以及用作输出信息。
上述为词向量x t 在前向长短期记忆网络,通过门控制单元选择遗忘、保留的信息。
而这种信息传递是单向的,仅仅可以依据前一时刻的时序信息来预测下一时刻的输出,但
有时预测可能需要由前面若干输入和后面若干输入共同决定,因此本实施例使用了前向长
短期记忆网络与反向长短期记忆网络相结合的双向长短期记忆网络,前向长短期记忆网络
与反向长短期记忆网络在细胞结构上并无不同,仅仅是模拟从文本末尾开始逐步将信息传
递到文本开始,输入仍然是词向量x t 。输出为综合全文本特征的,最终双向长短期记忆网
络的输出为前向长短期记忆网络的输出与反向长短期记忆网络的输出的拼接,最终
得到结果向量H[H 1,H 2,…,H t ,…,H n ] (H t 代表该词向量结合全文信息的特征向量,n为输入
序列长度)。
该文本特征通过下一个线性层后得到的输出信息是每一个单词对应的各个类别的分数,为一个M*N矩阵(M为标注种类个数,N为序列长度),虽然选择每类得分最高的可以直接作为结果,但导致预测的序列中出现无约束,预测序列混乱的问题。因此本实施例增加了条件随机场(CRF)。由于每个词向量都会存在一组对应某一分类的得分,因此每个词向量选择一个分类就会形成一条路径,条件随机场(CRF)的存在是为了寻求最优路径,给预测结果增加约束,降低错误的预测序列出现概率。
其公式如下:
其中,条件随机场存在A矩阵,代表着标签转移概率,P矩阵为Bi-LSTM预测结果,代表标签转移到的概率,表示映射到的概率。对给定的一组序列H[H 1,H 2,…,H t ,…,H n ]的预测标签序列y [y 1,y 2,…,y i ,…,y n ], y i 为预测标签,n为输入序列长
度,s(H,y)为其预测后定义的得分。对于每个序列y,优化对数损失函数,调整矩阵A的值,当
模型完成训练后,通过动态维特比算法来寻求最优路径,最终找出最优序列。最终根据标
注金融实体的标签寻找到金融实体。
在标注实体完成后进行实体相似度计算(ESC),为确保识别实体为金融实体,使用爬虫抓取了新浪财经中金融市场中金融实体名称,金融实体代码等相关信息,并按照领域进行分类,构建了基础的金融市场金融实体字典。
通过分词库进行分词,针对单一金融社区文本分词后,使用词向量生成方法生成词向量,并使用相似度计算函数(similarity函数)计算该金融实体与各个词语之间的余弦相似度,利用人工识别的方法在相似度评分高于0.9的词语中选取金融实体的别名,构建了最终的金融实体名称字典。
在得到条件随机场(CRF)的输出结果后,将输出结果在字典中进行查询,确定已识别的实体是否有效。
而对于金融社区舆论文本,由于社区中针对不同金融实体都设置有独立的讨论区域,根据抓取目标默认标记金融实体即可。
(3)在单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到单一金融实体的当日舆情特征;
金融新闻正文文本有着明显的结构信息差异,金融新闻正文文本中开端部分往往是带有该事件总结性质的发言,然后针对某种现象进行问题的分析以及相关现象的论述,最终在文章结尾进行展望或另一总结性质发言。并且单纯某一部分的舆情强烈倾向并不能够决定整篇文章对该金融实体的倾向分析。根据这一结构化特征,对于金融文本正文文本进行结构拆分,通过对首段、尾段的截取将金融文本分割为头部、中间、尾部三部分。由于其三部分所含信息价值不同,将简短的头部、尾部文本送入经过金融文本舆情分类数据集微调过后的BERT模型即使用头部信息微调的BERT模型、使用尾部信息微调的BERT模型,分别得到头部总结特征和尾部展望特征。
本实施例中,针对蕴含分析、细节等较多内容的中部文本,由于BERT模型等对于长文本处理效果不佳,先使用切片方法将金融新闻正文文本切为符合BERT模型要求的510 个字节若干个,再经过BERT模型后使用池化的方法对文本局部特征进行提取后,将文本特征缩减为预训练模型可接受的规模。池化方法即将一个区域内最重要的特征替代整个区域的特征,从而实现数据降维。本项目池化操作采用最大池化操作,最大程度保留特征,得到中间说明特征;最终将三部分特征值进行拼接,形成金融新闻正文文本的特征值。
针对金融社区舆论文本,该文本具有简短、数目多、舆情强烈的特点。在统计中无价值的文本占多数,因此对于某一金融实体的当日评论,根据热度(评论数*10+点赞数)筛选出该时间段具有价值的文本,通常选取热度最高的前20%的文本作为当日金融社区舆论代表文本,然后送入针对金融社区舆论微调(训练)过后的BERT模型获得该时间段每条舆论的特征。
对于普通新闻的金融新闻正文与社区舆论文本之间的关系,简单的合并并不能够真正反映金融市场中该实体的舆论倾向。金融新闻正文文本能够影响金融社区舆论信息,而金融舆论的信息反映了投资者对金融市场的意愿一定程度上影响了下一阶段的金融市场,从而影响下一阶段的金融新闻正文舆情,循环往复,在时序上存在一定影响。
因此,本实施例将基于每十分钟的金融新闻正文文本、社区舆论文本提取得到的文本特征,选用注意力机制提取综合特征,具体过程如图4所示。
注意力机制,是让模型对于重要信息进行学习的技术,并不算一种模型。计算公式如下:
其中,在一天当中按照10分钟一个时间段,共有144个时间段,x表示一天当中的某一个时间段,即x取值区间为[0,144];i表示在某一个时间段内,对应存在的文本数目。
分别针对金融新闻正文文本与社区舆论文本,首先计算出一个时间段(比如10分
钟)内每一个文本的列向量与所有文本向量矩阵的乘积,得到该文本与每个文本向量的
关系向量,代表了该向量与其他向量的相关性,然后对进行归一化操作,得到该文本占
其所在时间段内所有文本的权重值。最终通过一个时间段内的每一个文本的特征向量与
其权重值的加权求和,得到一个时间段内所有文本的向量,即为综合特征向量。
将经过文本特征处理得到的金融长文本特征序列[n1,n2,n3,…,nn]以及通过金融社区舆论[评论1,评论2,…,评论n]得到的文本特征的序列[c1,c2,c3,…,cn]按照注意力机制提取特征后,将基于金融新闻正文与社区舆论文本提取的特征进行拼接操作,该输出特征即代表十分钟内整个金融市场中该金融实体的舆情特征,按照时间顺序将当日所有十分段文本进行处理,共得到144个代表十分钟内金融文本的特征向量的序列[M1,M2,…,M144],将特征向量输入长短期记忆网络模型中提取综合舆情特征,最终得到单个实体的当日舆情特征。
其中,c1,c2,c3,…,cn分别表示文本特征,M1,M2,…,M144分别表示金融文本的特征向量。
(4)提取设定日期范围内的行业相关政策特征以及单一金融实体的财报特征,并提取两者的综合特征;
虽然在得到特征与舆情倾向标签的情况下,可通过多层神经网络训练得到用于进行金融文本舆情倾向分类的模型,但这种情况下并没有考虑文本自身的价值,不同文本所代表的金融事件对于市场的影响并不能够视作同等大小。
金融文本所包含的价值在以往的工作中也没有得到很好的体现,行业政策、公司自身的财报以及领域变动、日常的金融事件等都会对金融市场产生不同程度的影响,在本次试验中对金融类事件进行了分类,在金融领域,行业政策、公司财报、领域重大变动事件等与日常的金融事件对金融市场造成的影响不能够认作一致的。比如加息减息等政策对于金融市场的影响可以持续几日甚至数月,公司的财报对公司的也有持续影响,然而像普通的财经新闻对金融市场的影响仅仅有些许的波动作用。
因此,本实施例将通过专家标记的行业政策、公司财报分别送入BERT模型进行微调(训练),提取近一个月内所有的行业相关政策以及该金融实体公司一年内财报的特征,分别通过注意力机制提取综合特征得到行业政策文本特征hv、公司财报文本特征gv,代表着该金融实体在市场中所处状态的特征。
(6)将单一金融实体的当日舆情特征与上述综合特征进行拼接;利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到单一金融实体的舆情分析结果。
结合图5,将行业政策文本特征hv、公司财报文本特征gv再与该金融实体当日的舆情倾向特征向量fv进行拼接操作生成代表当日舆情特征的金融特征向量,代表着该金融实体的舆情特征,这样做的方法是为了通过加重行业政策等主要新闻的权重最大程度保留整个金融市场的状态特征。
本实施例中,对于金融领域舆情分析模型的训练过程具体如下:
针对单一金融实体每日的市场舆情文本,使用专家标注方法进行标注,获得优质的标注金融文本数据集,送入多层感知机,训练得到能够完成针对单个金融实体的舆情倾向分析任务的模型。
舆情倾向分析任务的模型采用了二分类交叉熵作为损失函数,公式如下:
其中,代表该样本的标签,代表预测为积极的概率,N为样本数量。优化器选择
AdaMax算法,AdaMax算法是梯度优化算法的扩展,它进一步对偏向于0进行了校正。
将单一金融实体的当日舆情特征与上述综合特征进行拼接后的特征,输入至训练好的金融领域舆情分析模型中,得到单一金融实体的舆情分析结果;舆情分析结果包括积极或消极,将近5年来所有代标注文本送入模型后,将所有文本舆情得分取平均值。得到的单一金融实体的舆情分析结果大于平均值时视为积极,反之则为消极。
实施例二
在一个或多个实施方式中,公开了一种基于实体识别的金融领域舆情分析系统,包括:
数据获取模块,用于获取金融领域相关文本数据,并进行预处理;
金融实体提取模块,用于对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
舆情特征提取模块,用于在所述单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到所述单一金融实体的当日舆情特征;提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;将所述单一金融实体的当日舆情特征与所述综合特征进行拼接;
舆情分析模块,用于利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到所述单一金融实体的舆情分析结果。
需要说明的是,上述各模块的具体实施方式已经在实施例一中进行了详细的说明,此处与实施例一中相同,不再详述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (5)
1.一种基于实体识别的金融领域舆情分析方法,其特征在于,包括:
获取金融领域相关文本数据,并进行预处理;所述金融领域相关文本数据至少包括金融新闻正文文本、金融舆论文本、行业政策文本和公司财报文本;
对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
所述单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到所述单一金融实体的当日舆情特征;
提取金融新闻正文文本特征的过程为:
对金融新闻正文文本结构拆分为头部文本、中间文本和尾部文本三部分;
对于头部文本和尾部文本,分别经过训练好的BERT 模型得到头部总结特征和尾部展望特征;对于中间文本,使用切片方法将中间文本切为若干个切片,每一个切片经过训练好的 BERT 模型得到相对应的特征,所有特征经过最大池化操作得到中间说明特征;
将头部总结特征、中间说明特征和尾部展望特征进行拼接,得到金融新闻正文文本特征;
提取金融社区舆论特征的过程为:
对于某一金融实体的当日评论,根据热度筛选出设定时间段内有价值的代表文本,经过训练好的 BERT 模型得到金融社区舆论特征;所述热度定义为评论数*n+点赞数,n 为设定值;
得到所述单一金融实体的当日舆情特征的具体过程为:
将设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,采用
注意力机制提取综合特征向量;
按照时间顺序将当日所有设定时间段的文本分别进行处理,得到m 个特征向量;m基于设定时间段的取值计算得到;
将m个特征向量输入训练好的长短期记忆网络提取综合舆情特征,最终得到单一金融实体的当日舆情特征;
提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;
将所述单一金融实体的当日舆情特征与所述综合特征进行拼接;
利用拼接后的特征,以及训练好的金融领域舆情分析模型, 得到所述单一金融实体的舆情分析结果;
其中,对于预处理后的金融领域相关文本数据,提取金融实体,具体过程如下:
对于金融新闻正文文本,首先使用BERT 模型转换为词向量,然后使用卷积神经网络提取语义特征;将卷积神经网络提取到的序列特征输入双向长短期记忆网络,双向长短期记忆网络的输出经过条件随机场,得到金融实体;将得到的金融实体与相应的金融实体名称字典进行匹配,确定得到的金融实体是否有效;
对于金融社区舆论文本,根据抓取目标默认标记金融实体。
2.如权利要求1 所述的一种基于实体识别的金融领域舆情分析方法,其特 征在于,所述金融实体名称字典的构建过程为:
获取金融市场中金融实体名称和金融实体代码信息,并按照领域进行分类, 构建基础的金融实体字典;
对单一金融社区文本进行分词,生成词向量;
计算单一金融社区文本对应的金融实体与各个词向量之间的余弦相似度,基于相似度值的大小选取所述金融实体的别名,构建单一金融实体名称字典。
3.如权利要求1 所述的一种基于实体识别的金融领域舆情分析方法,其特 征在于,采用注意力机制提取综合特征向量,具体过程为:
分别计算每一个设定时间段的文本的特征向量nxi与其余文本特征向量矩阵的乘积,得到该文本的特征向量与每一个文本的特征向量的关系向量zxi;
对所有的关系向量进行归一化操作,得到该文本占其所在时间段内所有文本的权重值txi;
通过一个时间段内的每一个文本的特征向量与其权重值的加权求和, 得到该时间段内所有文本的向量sx,即为综合特征向量。
4.如权利要求 1 所述的一种基于实体识别的金融领域舆情分析方法,其特征 在于,提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;具体过程为:
获取设定日期范围内的行业政策和公司财报文本数据,使用训练好的 BERT 模型提取行业相关政策特征以及单一金融实体的财报特征;
通过注意力机制提取两者的综合特征。
5.一种基于实体识别的金融领域舆情分析系统,其特征在于,包括:
数据获取模块,用于获取金融领域相关文本数据,并进行预处理;所述金融领域相关文本数据至少包括金融新闻正文文本、金融舆论文本、行业政策文
本和公司财报文本;
金融实体提取模块,用于对于预处理后的金融领域相关文本数据,提取金融实体,获取单一金融实体的金融相关文本集;
舆情特征提取模块,用于在所述单一金融实体的金融相关文本集中,基于设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,得到所述单一金融实体的当日舆情特征;提取设定日期范围内的行业相关政策特征以及所述单一金融实体的财报特征,并提取两者的综合特征;将所述单一金融实体的当日舆情特征与所述综合特征进行拼接;
提取金融新闻正文文本特征的过程为:
对金融新闻正文文本结构拆分为头部文本、中间文本和尾部文本三部分;
对于头部文本和尾部文本,分别经过训练好的BERT 模型得到头部总结特征和尾部展望特征;对于中间文本,使用切片方法将中间文本切为若干个切片,每一个切片经过训练好的 BERT 模型得到相对应的特征,所有特征经过最大池化操作得到中间说明特征;
将头部总结特征、中间说明特征和尾部展望特征进行拼接,得到金融新闻正文文本特征;
提取金融社区舆论特征的过程为:
对于某一金融实体的当日评论,根据热度筛选出设定时间段内有价值的代表文本,经过训练好的 BERT 模型得到金融社区舆论特征;所述热度定义为评论数*n+点赞数,n 为设定值;
得到所述单一金融实体的当日舆情特征的具体过程为:
将设定时间段内提取的金融新闻正文文本特征与金融社区舆论特征,采用
注意力机制提取综合特征向量;
按照时间顺序将当日所有设定时间段的文本分别进行处理,得到m 个特征向量;m基于设定时间段的取值计算得到;
将m个特征向量输入训练好的长短期记忆网络提取综合舆情特征,最终得到单一金融实体的当日舆情特征;
舆情分析模块,用于利用拼接后的特征,以及训练好的金融领域舆情分析模型,得到所述单一金融实体的舆情分析结果;
其中,对于预处理后的金融领域相关文本数据,提取金融实体,具体过程如下:
对于金融新闻正文文本,首先使用BERT 模型转换为词向量,然后使用卷积神经网络提取语义特征;将卷积神经网络提取到的序列特征输入双向长短期记忆网络,双向长短期记忆网络的输出经过条件随机场,得到金融实体;将得到的金融实体与相应的金融实体名称字典进行匹配,确定得到的金融实体是否有效;
对于金融社区舆论文本,根据抓取目标默认标记金融实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024477.2A CN115759104B (zh) | 2023-01-09 | 2023-01-09 | 基于实体识别的金融领域舆情分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024477.2A CN115759104B (zh) | 2023-01-09 | 2023-01-09 | 基于实体识别的金融领域舆情分析方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115759104A CN115759104A (zh) | 2023-03-07 |
CN115759104B true CN115759104B (zh) | 2023-09-22 |
Family
ID=85348418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310024477.2A Active CN115759104B (zh) | 2023-01-09 | 2023-01-09 | 基于实体识别的金融领域舆情分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759104B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952291B (zh) * | 2023-03-14 | 2023-07-18 | 山东大学 | 基于多头自注意力及lstm的金融舆情分类方法及系统 |
CN116522165B (zh) * | 2023-06-27 | 2024-04-02 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配系统及方法 |
CN118035468A (zh) * | 2024-02-29 | 2024-05-14 | 海南神州希望网络有限公司 | 基于深度学习的等保测评结果记录知识图谱抽取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990590A (zh) * | 2019-12-20 | 2020-04-10 | 北京大学 | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 |
CN111966878A (zh) * | 2020-08-04 | 2020-11-20 | 厦门大学 | 基于机器学习的舆情事件反转检测方法 |
CN112100344A (zh) * | 2020-08-18 | 2020-12-18 | 淮阴工学院 | 一种基于知识图谱的金融领域知识问答方法 |
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN115098634A (zh) * | 2022-06-27 | 2022-09-23 | 重庆大学 | 一种基于语义依存关系融合特征的舆情文本情感分析方法 |
CN115438195A (zh) * | 2022-10-19 | 2022-12-06 | 中国农业银行股份有限公司 | 一种金融标准化领域知识图谱的构建方法及装置 |
-
2023
- 2023-01-09 CN CN202310024477.2A patent/CN115759104B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990590A (zh) * | 2019-12-20 | 2020-04-10 | 北京大学 | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 |
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN111966878A (zh) * | 2020-08-04 | 2020-11-20 | 厦门大学 | 基于机器学习的舆情事件反转检测方法 |
CN112100344A (zh) * | 2020-08-18 | 2020-12-18 | 淮阴工学院 | 一种基于知识图谱的金融领域知识问答方法 |
CN115098634A (zh) * | 2022-06-27 | 2022-09-23 | 重庆大学 | 一种基于语义依存关系融合特征的舆情文本情感分析方法 |
CN115438195A (zh) * | 2022-10-19 | 2022-12-06 | 中国农业银行股份有限公司 | 一种金融标准化领域知识图谱的构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115759104A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115759104B (zh) | 基于实体识别的金融领域舆情分析方法与系统 | |
US20210294974A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
Bauer et al. | Quantitive evaluation of Web site content and structure | |
CN112434720B (zh) | 一种基于图注意力网络的中文短文本分类方法 | |
CN103020289B (zh) | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 | |
Wang et al. | The effect of online environmental news on green industry stocks: The mediating role of investor sentiment | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
Ao | Sentiment analysis based on financial tweets and market information | |
US8165987B2 (en) | System and method of machine-aided information extraction rule development | |
CN116050408A (zh) | 一种土木规范领域知识图谱构建方法及构建系统 | |
Wang et al. | Textual sentiment of Chinese microblog toward the stock market | |
Palmer et al. | Induction of a sentiment dictionary for financial analyst communication: a data-driven approach balancing machine learning and human intuition | |
Cooper et al. | Text-mining 10-K (annual) reports: a guide for B2B marketing research | |
de Aquino Silva et al. | An improved NER methodology to the Portuguese language | |
CN115391559A (zh) | 一种基于实时流数据的实体和关系提取方法 | |
Hutchison et al. | Application of latent semantic analysis in accounting research | |
CN112133308B (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
CN114969564A (zh) | 一种小学课外图书分级阅读评价和推荐方法及系统 | |
Susmitha et al. | Information extraction with two-layered ODNN and semantic analysis for opinion mining | |
Han et al. | Characterizing peer review comments of academic articles in multiple rounds | |
Zhang | Modelling the lexical complexity of homogenous texts: a time series approach | |
Changxin | Cultivation of college students' employment and entrepreneurship ability of agriculture and forestry engineering major under the background of internet plus | |
Abbaskhani et al. | Predicting going concern of companies using the tone of auditor reporting | |
CN109657180B (zh) | 一种智能化网页内容自动模糊抽取系统 | |
CN118520174B (zh) | 基于数据分析的客户行为特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |