CN113495959B - 一种基于文本数据的金融舆情识别方法及系统 - Google Patents

一种基于文本数据的金融舆情识别方法及系统 Download PDF

Info

Publication number
CN113495959B
CN113495959B CN202110551833.7A CN202110551833A CN113495959B CN 113495959 B CN113495959 B CN 113495959B CN 202110551833 A CN202110551833 A CN 202110551833A CN 113495959 B CN113495959 B CN 113495959B
Authority
CN
China
Prior art keywords
news
vector
text data
comment
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110551833.7A
Other languages
English (en)
Other versions
CN113495959A (zh
Inventor
刘卫国
徐博瑞
张桐
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110551833.7A priority Critical patent/CN113495959B/zh
Publication of CN113495959A publication Critical patent/CN113495959A/zh
Application granted granted Critical
Publication of CN113495959B publication Critical patent/CN113495959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于文本数据的金融舆情识别方法及系统,获取新闻文本数据以及评论文本数据;对获取的文本数据进行预处理;根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;根据得到的表征向量集合和预设DE‑Former模型,得到舆情分类结果;本公开通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现了对于金融市场舆论情感的更准确判断。

Description

一种基于文本数据的金融舆情识别方法及系统
技术领域
本公开涉及文本自然语言处理技术领域,特别涉及一种基于文本数据的金融舆情识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
伴随着5G时代的到来,来自于互联网的信息也与日俱增,越来越多的人选择在微博、推特等社交平台或股吧、同花顺等专业金融社区上表达自己的观点和情感。这些网民之间,互动交流所产生的网络舆论蕴含着非常丰富并且主观的民众意愿和网民情绪,深入挖掘这些隐藏在互联网中的潜在信息有利于各个行业的发展。在金融领域中,固步自封已不再成为可能,只有与时俱进,才能有利于自身的发展。社交平台上人们互相交换信息,汲取对自己有利的金融信息,完善自己的投资决策,实现了信息互补,更是推动了整个金融业的发展。
在早期,社交平台还未兴起之时,人们只能通过仅有的渠道进行信息交换,故投资者在信息交换过程中所表达出的情感是非常有限的。能够被利用的情感表达少之又少,通过金融舆情来进行股票投资决策的网民则更在少数。随着网络的发展,社交平台的兴起,人们更多的倾向于将主观情感融入到信息中,将这些信息发送到社交平台上与其他金融投资者进行交流。交流信息的这些主观语句中蕴含着情感,情感是金融投资者观点更强烈的表达。在金融投资领域当中,越来越多的投资者选择在互联网中获取与股票相关的有用的信息,并且在各种社区平台上发表自己的独特见解,随着越来越多的网民不断的参与进来,网民之间的相互情绪感染和互相模仿,会形成一种具有群体性以及代表性的投资者情绪,这种投资者情绪对股票市场的影响力非常大,股票市场归根结底是离不开人的参与的,因此通过基于金融相关的网络舆论和新闻来捕获投资者的情绪对金融舆情进行判断是非常有价值的。
发明人发现,通过互联网上的信息,来捕获投资者情绪的研究,只是使用了新闻的标题,不关注真正体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容的处理和分析。造成这一现象的原因是在自然语言处理问题领域之前的语言模型都是单向的,建模的时候只考虑了语言单个方向上的依赖关系,这极大地限制了预训练中可选的网络结构,没有深入到文本的语义层面;同时,相比于新闻标题或者评论标题,新闻或评论的具体内容中杂质较多,提取有效的内容信息存在难度。
发明内容
为了解决现有技术的不足,本公开提供了一种基于文本数据的金融舆情识别方法及系统,通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现了对于金融市场舆论情感的更准确判断。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于文本数据的金融舆情识别方法。
一种基于文本数据的金融舆情识别方法,包括以下过程:
获取新闻文本数据以及评论文本数据;
对获取的文本数据进行预处理;
根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
进一步的,通过网络爬虫收集金融相关的客观新闻文本数据以及评论文本数据。
进一步的,对获取的文本数据进行清洗、过滤和筛选预处理。
进一步的,采用attention机制以天为单位获取每天新闻文本数据和评论文本数据相对应的总的特征向量表示。
进一步的,预设DE-Former模型中,采用交叉熵作为损失函数,损失函数为:
Figure BDA0003075805890000031
其中,y是训练样本的标签,
Figure BDA0003075805890000032
是模型输出的训练样本属于正例的概率。
进一步的,预设DE-Former模型中,采用Adam算法进行模型优化。
进一步的,预设DE-Former模型中,新闻文本数据和评论文本数据中的表征向量通过Encoder层完成特征提取之后,在Merger层中完成两者以天为单位的融合。
本公开第二方面提供了一种基于文本数据的金融舆情识别系统。
一种基于文本数据的金融舆情识别系统,包括:
数据获取模块,被配置为:获取新闻文本数据以及评论文本数据;
预处理模块,被配置为:对获取的文本数据进行预处理;
向量提取模块,被配置为:根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
舆情分类模块,被配置为:根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于文本数据的金融舆情识别方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于文本数据的金融舆情识别方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现对于金融市场舆论情感的更准确判断。
2、本公开所述的方法、系统、介质或电子设备,针对DE-Former模型采用简化的交叉熵作为损失函数,同时采用Adam算法进行模型优化,进一步的提高了识别准确度。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的DE-Former模型总体结构示意图。
图2为本公开实施例1提供的Encoder结构示意图。
图3为本公开实施例1提供的DE-Former模型训练的流程图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如背景技术中所述,现阶段网民主要是通过互联网上大量的新闻浏览、评论参考等来获取金融领域信息、判断金融市场舆情。然而这需要繁琐枯燥地去逐条遍历分析、结合诸多要素才能合理准确判断市场舆情。
有鉴于此,本公开实施例1提供了一种基于文本数据的金融舆情识别方法,采用了基于深度学习的方法进行文本挖掘和金融舆情分析,基于深度学习模型的金融舆论分析判别模型(DE-Former模型),通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现对于金融市场舆论情感的准确判断,具体的包括以下过程:
S1:通过多并发爬虫框架抓取网页中的新闻以及评论文本,对数据进行清洗、过滤、筛选等预处理操作;
S2:利用预训练好的Bert模型提取新闻和评论的每日表征向量集合;
S3:将S2处理好的数据送入DE-Former模型得到输出结果;
S4:根据输出结果判断当前的金融舆论情感,数值超过0.5判别为1,即整体处于积极状态;小于0.5判别为0,即整体处于消极状态。
金融舆情识别结果可以用于后续的大数据舆情分析,也可以将舆情的识别结果及时的通过站内消息、短信、邮件方式发送给控制终端或者移动终端,或者当出现消极状态的舆情时,生成告警数据并将告警数据发送给控制终端或者移动终端。
S1中,进行数据预处理
通过网络爬虫收集金融领域相关文本,客观新闻报道以及社区论坛等信息,实现数据的自动化抽取。由于所获取的数据并不能直接使用,对数据进行了无用文本去除,非法字符过滤,不同网站数据统一格式化等处理操作。具体细节如下:
S1.1:爬虫阶段选取结构化新闻网站,新浪财经,金融界,cnstock等。新闻数据包含三列,分别为[标题,正文,发布时间]。用户舆论部分获取东方财富网旗下股吧的历史评论信息,评论数据包含8列,分别为[发帖标题,发帖时间,正文,阅读量,文章点赞数,评论数,评论内容,评论时间]。爬虫采用了BeautifulSoup解析网页结构,获取相应标签中的文本内容。应用了gevent(高性能的python并发框架)自动切换协程,保证总有greenlet在运行,而并不会在IO等待上耗费时间。
S1.2:获取的文本数据并不能直接应用在模型输入,需要对金融文本数据进行预处理转换为所需要的数据。获取的数据并非全是有用数据,根据标题去除仅含有股价升降的公告信息,根据关键词信息去除新闻后无关的网站中的无效文本、广告,去除从各个网站抽取的重复文本数据。过滤掉抓去文本转换为utf8格式后产生的乱码。由于深度模型对于长文本处理效果不如短文本,因此过滤掉较长文本,得到高质量的金融文本集。
S1.3:由于模型训练需要具有标注的数据集当日文本数量过多,根据阅读量选取每日前列的文本代表当日的新闻文本集以及评论集。处理过后的文本集通过金融专家进行标注,根据近五日的数据综合当前的舆论情感进行标注(+1代表正向情绪,0代表负向情绪),获得具有标注的金融领域文本数据集。
S2中,利用预训练好的Bert模型提取新闻和评论的每日表征向量集合
Bert是应用自然语言处理(Natural Language Processing,NLP)的深度学习模型。该模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出当时的最佳成绩。Bert模型的提出极大的推动了NLP中各个方向的发展。因此本实施例所提出的金融舆情分类方法便是利用Bert对输入数据进行处理来获得模型的输入向量。在本实施例中,选用了在大量金融文本上预训练的Bert模型和利用评论情感分类数据集微调后的Bert模型作为我们本文转化的特征提取工具。
S3中,将S2处理好的数据送入DE-Former模型得到输出结果
S3.1:模型总体结构
模型总体结构如图1所示,模型的输入是经过筛选后t天的内每一天Top-K的新闻文本与评论。对于新闻本文数据,使用在大量金融文本上预训练的Bert作为新闻本文的特征提取器,而对于评论文本数据,则使用利用评论情感分类数据集微调后的Bert模型作为特征提取器。在获取到每条新闻和评论的表征向量之后,由于不是所有的新闻和评论都能发挥同样的作用,因此采用attention机制以天为单位获取每天新闻和评论相对应的总的特征向量表示,公式如下所示:
uti=sigmod(Wnnti+bn)
Figure BDA0003075805890000071
Figure BDA0003075805890000081
为了获得不同新闻(评论)在当天所有新闻文本(评论文本)中占据的影响力,首先将提取到的每篇新闻(评论)的特征向量nti送入一层网络得到相对应的注意力值uti,之后利用sofmax函数将所有的注意力值标准化为对应新闻(评论)的权重值sti,最终结合权重和对应的表征向量得到一天的新闻以及评论的向量表示at。因此最终得到的DE-Fomer模型的输入向量D=[atn,atc],t∈[1,N]。其中N表示输入序列的长度,atn表示一天新闻文本的向量,atc表示一天评论文本的向量。
之后将得到的每天分别基于新闻文本和评论文本的特征向量序列送入到对应的encoder结构中。Encoder结构如图2所示。Encoder中最主要的结构是自注意力层,相关计算公式如下:
Figure BDA0003075805890000082
其中,Q是查询向量,K是键向量,V是值向量,dK是键向量的维数。计算过程中Q、K、V均为每天的新闻或评论的表征向量。新闻文本和评论文本向量在完成Encoder层特征提取之后,在Merger层中完成两者以天为单位的融合。具体公式如下所示:
zi=concatenate(oin,oic)
mi=tanh(Wizi+bi)
其中,oin和oic分别表示第i天新闻文本和评论文本向量经过encoder后的输出向量,zi是它们简单拼接后的结果,之后zi经过一层网络得到第i天融合了新闻信息和评论信息的表征向量。考虑到不同时间天数的对当前舆论情感状态的影响程度也会有所不同,例如某一天发生了一件重大事件即使距离当天已经有一段时间,影响力也可能大于最近几天的新闻和评论所产生的舆论情感。因此融合了新闻信息和评论信息的表征向量再次通过Attention层来获取不同时间阶段的影响权重,得到融合了当前一段时间的新闻和评论的表征向量。之后表征向量通过判别层输出最终的舆论情感判断结果,判别层由多层感知机构成。输出结果是0-1的小数,如果结果小于0.5则认为整体处于消极氛围,如果结果大于等于0.5则认为整体处于积极氛围。
S3.2:模型优化
本实施例中,主要是针对新闻和评论的文本内容进行学习进而输出舆论情感的分类结果,所以总的来说这是一个二分类任务模型。因此针对DE-Former采用简化的交叉熵作为损失函数,函数表达式如下:
Figure BDA0003075805890000091
其中,y是训练样本的标签,
Figure BDA0003075805890000092
是模型输出的训练样本属于正例(即舆论情感是积极的)的概率。同时为了更好的训练模型,本发明使用的优化算法为Adam算法,该算法是一种不同参数自适应不同学习率的方法,使用了“动量”的概念,改善了SGD每次更新时方向偏移太大的缺点,能更容易的对模型进行训练。DE-Former模型训练的流程图如图3所示。
实施例2:
本公开实施例2提供了一种基于文本数据的金融舆情识别系统,包括:
数据获取模块,被配置为:获取新闻文本数据以及评论文本数据;
预处理模块,被配置为:对获取的文本数据进行预处理;
向量提取模块,被配置为:根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
舆情分类模块,被配置为:根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
所述系统的工作方法与实施例1提供的基于文本数据的金融舆情识别方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于文本数据的金融舆情识别方法中的步骤,所述步骤为:
获取新闻文本数据以及评论文本数据;
对获取的文本数据进行预处理;
根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
详细步骤与实施例1提供的基于文本数据的金融舆情识别方法相同,这里不再赘述。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于文本数据的金融舆情识别方法中的步骤,所述步骤为:
获取新闻文本数据以及评论文本数据;
对获取的文本数据进行预处理;
根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
详细步骤与实施例1提供的基于文本数据的金融舆情识别方法相同,这里不再赘述。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种基于文本数据的金融舆情识别方法,其特征在于:包括以下过程:
获取新闻文本数据以及评论文本数据;
对获取的文本数据进行预处理;
根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果;具体过程包括:
将预处理好的数据送入DE-Former模型得到输出结果,模型的输入是经过筛选后t天的内每一天Top-K的新闻文本与评论;对于新闻本文数据,使用在大量金融文本上预训练的Bert作为新闻本文的特征提取器,而对于评论文本数据,则使用利用评论情感分类数据集微调后的Bert模型作为特征提取器;在获取到每条新闻和评论的表征向量之后,采用attention机制以天为单位获取每天新闻和评论相对应的总的特征向量表示,公式如下所示:
uti=sigmod(Wnnti+bn)
Figure FDA0003657261450000011
Figure FDA0003657261450000012
首先将提取到的每篇新闻或评论的特征向量nti送入一层网络得到相对应的注意力值uti,之后利用sofmax函数将所有的注意力值标准化为对应新闻或评论的权重值sti,最终结合权重和对应的表征向量得到一天的新闻以及评论的向量表示at;因此最终得到的DE-Fomer模型的输入向量D=[atn,atc],t∈[1,N],其中N表示输入序列的长度,atn表示一天新闻文本的向量,atc表示一天评论文本的向量;
之后将得到的每天分别基于新闻文本和评论文本的特征向量序列送入到对应的encoder结构中;Encoder中最主要的结构是自注意力层,相关计算公式如下:
Figure FDA0003657261450000021
其中,Q是查询向量,K是键向量,V是值向量,dK是键向量的维数,计算过程中Q、K、V均为每天的新闻或评论的表征向量;新闻文本和评论文本向量在完成Encoder层特征提取之后,在Merger层中完成两者以天为单位的融合,具体公式如下所示:
zi=concatenate(oin,oic)
mi=tanh(Wizi+bi)
其中,oin和oic分别表示第i天新闻文本和评论文本向量经过encoder后的输出向量,zi是它们简单拼接后的结果。
2.如权利要求1所述的金融舆情识别方法,其特征在于:包括以下过程:
通过网络爬虫收集金融相关的客观新闻文本数据以及评论文本数据。
3.如权利要求1所述的金融舆情识别方法,其特征在于:包括以下过程:
对获取的文本数据进行清洗、过滤和筛选预处理。
4.如权利要求1所述的金融舆情识别方法,其特征在于:包括以下过程:
采用attention机制以天为单位获取每天新闻文本数据和评论文本数据相对应的总的特征向量表示。
5.如权利要求1所述的金融舆情识别方法,其特征在于:
预设DE-Former模型中,采用交叉熵作为损失函数,损失函数为:
Figure FDA0003657261450000022
其中,y是训练样本的标签,
Figure FDA0003657261450000023
是模型输出的训练样本属于正例的概率。
6.如权利要求1所述的金融舆情识别方法,其特征在于:包括以下过程:
预设DE-Former模型中,采用Adam算法进行模型优化。
7.一种基于文本数据的金融舆情识别系统,其特征在于:包括:
数据获取模块,被配置为:获取新闻文本数据以及评论文本数据;
预处理模块,被配置为:对获取的文本数据进行预处理;
向量提取模块,被配置为:根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
舆情分类模块,被配置为:根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果;具体过程包括:
将预处理好的数据送入DE-Former模型得到输出结果,模型的输入是经过筛选后t天的内每一天Top-K的新闻文本与评论;对于新闻本文数据,使用在大量金融文本上预训练的Bert作为新闻本文的特征提取器,而对于评论文本数据,则使用利用评论情感分类数据集微调后的Bert模型作为特征提取器;在获取到每条新闻和评论的表征向量之后,采用attention机制以天为单位获取每天新闻和评论相对应的总的特征向量表示,公式如下所示:
uti=sigmod(Wnnti+bn)
Figure FDA0003657261450000031
Figure FDA0003657261450000032
首先将提取到的每篇新闻或评论的特征向量nti送入一层网络得到相对应的注意力值uti,之后利用sofmax函数将所有的注意力值标准化为对应新闻或评论的权重值sti,最终结合权重和对应的表征向量得到一天的新闻以及评论的向量表示at;因此最终得到的DE-Fomer模型的输入向量D=[atn,atc],t∈[1,N],其中N表示输入序列的长度,atn表示一天新闻文本的向量,atc表示一天评论文本的向量;
之后将得到的每天分别基于新闻文本和评论文本的特征向量序列送入到对应的encoder结构中;Encoder中最主要的结构是自注意力层,相关计算公式如下:
Figure FDA0003657261450000041
其中,Q是查询向量,K是键向量,V是值向量,dK是键向量的维数,计算过程中Q、K、V均为每天的新闻或评论的表征向量;新闻文本和评论文本向量在完成Encoder层特征提取之后,在Merger层中完成两者以天为单位的融合,具体公式如下所示:
zi=concatenate(oin,oic)
mi=tanh(Wizi+bi)
其中,oin和oic分别表示第i天新闻文本和评论文本向量经过encoder后的输出向量,zi是它们简单拼接后的结果。
8.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的金融舆情识别方法中的步骤。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的金融舆情识别方法中的步骤。
CN202110551833.7A 2021-05-20 2021-05-20 一种基于文本数据的金融舆情识别方法及系统 Active CN113495959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110551833.7A CN113495959B (zh) 2021-05-20 2021-05-20 一种基于文本数据的金融舆情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110551833.7A CN113495959B (zh) 2021-05-20 2021-05-20 一种基于文本数据的金融舆情识别方法及系统

Publications (2)

Publication Number Publication Date
CN113495959A CN113495959A (zh) 2021-10-12
CN113495959B true CN113495959B (zh) 2022-09-09

Family

ID=77997854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110551833.7A Active CN113495959B (zh) 2021-05-20 2021-05-20 一种基于文本数据的金融舆情识别方法及系统

Country Status (1)

Country Link
CN (1) CN113495959B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065763A (zh) * 2021-11-24 2022-02-18 深圳前海环融联易信息科技服务有限公司 一种基于事件抽取的舆情分析方法、装置及相关组件
CN114386433A (zh) * 2022-01-12 2022-04-22 中国农业银行股份有限公司 基于情感分析的数据处理方法、装置、设备及存储介质
CN115809334B (zh) * 2022-11-22 2023-11-10 北京百度网讯科技有限公司 事件关联性分类模型的训练方法、文本处理方法及装置
CN115952291B (zh) * 2023-03-14 2023-07-18 山东大学 基于多头自注意力及lstm的金融舆情分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750622A (zh) * 2019-09-17 2020-02-04 南京理工大学 基于大数据的金融事件发现方法
CN112347254A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 新闻文本的分类方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025299B (zh) * 2017-04-24 2018-02-27 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN108984775B (zh) * 2018-07-24 2020-05-22 南京新贝金服科技有限公司 一种基于商品评论的舆情监控方法及系统
CN109857862B (zh) * 2019-01-04 2024-04-19 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN111191096B (zh) * 2019-12-06 2021-08-03 浙江工业大学 全网爱国舆情事件识别及流行度跟踪方法
CN111639183B (zh) * 2020-05-19 2023-11-28 民生科技有限责任公司 一种基于深度学习算法的金融同业舆情分析方法及系统
CN112417098A (zh) * 2020-11-20 2021-02-26 南京邮电大学 基于CNN-BiMGU模型的短文本情感分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750622A (zh) * 2019-09-17 2020-02-04 南京理工大学 基于大数据的金融事件发现方法
CN112347254A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 新闻文本的分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113495959A (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
CN113495959B (zh) 一种基于文本数据的金融舆情识别方法及系统
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109522556B (zh) 一种意图识别方法及装置
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN111581376B (zh) 一种知识图谱自动构建系统及方法
CN110276054B (zh) 一种保险文本结构化实现方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN107038154A (zh) 一种文本情感识别方法和装置
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
Zamani et al. Sentiment analysis: determining people’s emotions in Facebook
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN104731874A (zh) 一种评价信息生成方法和装置
CN105975497A (zh) 微博话题自动推荐方法及装置
CN112784878A (zh) 一种中文议论文智能批改方法及系统
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN106599824A (zh) 一种基于情感对的gif动画情感识别方法
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN107305555A (zh) 数据处理方法及装置
CN105760502A (zh) 一种基于大数据文本挖掘的商品质量情感词典构建系统
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
CN110990587A (zh) 基于主题模型的企业关系发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant