CN111639183B - 一种基于深度学习算法的金融同业舆情分析方法及系统 - Google Patents

一种基于深度学习算法的金融同业舆情分析方法及系统 Download PDF

Info

Publication number
CN111639183B
CN111639183B CN202010424186.9A CN202010424186A CN111639183B CN 111639183 B CN111639183 B CN 111639183B CN 202010424186 A CN202010424186 A CN 202010424186A CN 111639183 B CN111639183 B CN 111639183B
Authority
CN
China
Prior art keywords
event
model
main body
news
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010424186.9A
Other languages
English (en)
Other versions
CN111639183A (zh
Inventor
李振
鲍东岳
张刚
尹正
刘昊霖
张雨枫
徐超
陈厚霖
马圣楠
傅佳美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minsheng Science And Technology Co ltd
Original Assignee
Minsheng Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minsheng Science And Technology Co ltd filed Critical Minsheng Science And Technology Co ltd
Priority to CN202010424186.9A priority Critical patent/CN111639183B/zh
Publication of CN111639183A publication Critical patent/CN111639183A/zh
Application granted granted Critical
Publication of CN111639183B publication Critical patent/CN111639183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及舆情分析技术领域,提供了一种基于深度学习算法的金融同业舆情分析方法及系统,所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现,得到特定事件及特定领域范围内的舆情状况;其中,性质分析的结果包括三个类别:正向、中性、负向;事件分类用以得到新闻类型判断结果;事件主体发现用以发现同业新闻文本的主体,并将主体与事件进行对应。所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块。本发明在三个模型的基础上结合中文以及新闻文本的特殊性做了模型的训练及改进,能最大限度优化模型判断结果提升计算效率,实现定时处理舆情判断。

Description

一种基于深度学习算法的金融同业舆情分析方法及系统
技术领域
本发明涉及舆情分析技术领域,特别涉及一种基于深度学习算法的金融同业舆情分析方法及系统。
背景技术
随着我国互联网的迅速发展,网民数量及互联网信息呈现爆发性增长,在如此大量的信息中,如何进行甄别,挑选出实际性的信息以及关联人,是非常重要的。从舆情监控的角度来说,我们每天的信息中,涵盖着各类舆情信息,而各种舆情信息汇总后,如何在更短的事件、更有效的进行识别、更好的得出所需的结果,是舆情分析的关键。
从传统的舆情监控系统来看,主要以关键词为主,可根据地域、来源、分类等筛选,按期提供舆情监测报告。但无法对大量新闻内各主体及对应关系进行自动识别,仍然需要人工进行判断。
现有的舆情系统大多是建立在微博、论坛、博客等评论文本基础上,通过热词抽取和文本聚类抓取当前的舆情热点,但是现有的文章来源与处理方法应用到金融行业存在着较大弊端。首先,评论文本存在着大量注水数据以及不真实评论,相对于正式的同业新闻文本而言评论文本的影响力以及可信度都较小,参考度较低;其次进行热词抽取以及文章聚类会导致文章类型以及描述主题的确认偏差或者无法明确真实的描述主体事件,导致舆情的判断出现错误。
发明内容
本发明的目的是克服现有技术的不足,提供了一种基于深度学习算法的金融同业舆情分析方法及系统,相较于传统方法做了较大的改变,本发明旨在对同业新闻语料进行舆情分析,对于近期热点事件以及相应的企业、个人以及其它组织,结合网络上群众的价值取向以及社会态度进行科学直观的归纳总结;通过对每篇文章的情感取向和事件种类的判定,结合描述主体的输出,给出对应时间段内的金融相关舆情总结,使得相关人员在不需要阅读海量文本的前提下,快速了解大量信息,并通过对新闻中出现的事件类别以及特定主体的情感倾向性总结对热点事件有一个直观的认识。
本发明采用如下技术方案:
一种基于深度学习算法的金融同业舆情分析方法,所述方法对经过预处理的同业新闻文本数据依次进行性质分析(情感分析)、事件分类及事件主体发现,得到特定事件及特定领域范围内的舆情状况;其中,所述性质分析的结果包括三个类别:正向、中性、负向;所述事件分类用以得到新闻类型判断结果;所述事件主体发现用以发现同业新闻文本的主体,并将主体与事件进行对应。
进一步的,所述方法具体包括:
S1、对同业新闻文本数据进行预处理;
S2、经过步骤S1预处理的同业新闻文本数据输入XLNET性质分析模型,得到性质分析的判断结果;
S3、经过步骤S1预处理的同业新闻文本数据输入BERT分类模型,得到新闻类型判断结果;
S4、将经过步骤S1预处理的同业新闻文本数据及经过步骤S3处理得到的新闻类型判断结果输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;
S5、将步骤S4得到的“主体-事件”的对应表示按照情感方向进行归纳,根据出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况。
进一步的,步骤S1中,对同业新闻文本数据进行预处理具体方法为:
S1.1利用网页爬虫系统爬取规定时间段以及地域范围内的同业新闻文本数据,抓取得到的网页爬虫数据仅保留网页文章正文和标题部分以及论坛文字的评论部分;
S1.2将经步骤S1.1处理后得到的同业文本数据中的无效信息删除,所述无效信息包括特殊字符、网页引导和超链接;
S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码,对应的字符编码格式作为后续模型输入。
进一步的,步骤S2中,使用性质分析模型进行性质分析的方法为:
S2.1经过步骤S1处理后的同业文本数据划分为训练数据和实际数据;
S2.2将训练数据及对应情感标签导入到XLNET的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S2.3将编码格式的实际数据传入到训练后的XLNET性质分析模型中,得到文章的情感判断结果。
进一步的,步骤S3中,新闻类型判断的方法为:
S3.1将训练集数据以及对应类别标签导入到BERT的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S3.2将编码格式的实际数据传入到训练后的BERT文本分类模型中,得到文章的新闻类型结果。
进一步的,步骤S4中,事件主体发现的具体方法为:
S4.1将训练集数据以及对应主体标签的对应表示导入到事件主体发现模型中,进行模型训练,储存模型为二进制编码的.m格式;所述事件主体发现模型为基于注意力机制的序列标注模型;
S4.2将编码格式的实际数据传入到训练后的事件主体发现模型中,得到文章的主体——事件的抽取结果。
进一步的,步骤S5的具体方法为:
S5.1计算主体之间的Jaccard系数,如果数值小于0.9则认为是同一主体;同一主体的相同事件次数进行累加,不同事件按照事件出现频率进行排序;
S5.2对同一主体的事件情感倾向进行统计,得到该主体的情感分布。
一种基于深度学习算法的金融同业舆情分析系统,所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块;
所述预处理模块,对同业新闻文本数据进行处理,保留网页文章正文和标题部分以及论坛文字的评论部分,删除无效信息,并将同业新闻文本数据转换为字符与编码;
所述性质分析模块,将所述预处理模块处理后的同业新闻文本数据,输入XLNET性质分析模型,得到性质分析的判断结果;
所述事件分类模块,将所述预处理模块处理后的同业新闻文本数据,输入BERT分类模型,得到新闻类型判断结果;
所述事件主体发现模块,将所述预处理模块处理后的同业新闻文本数据,及所述事件分类模块处理后得到的新闻类型判断结果,输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;将所述“主体-事件”的对应表示按照情感方向进行归纳,根据主体出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况。
一种实现上述基于深度学习算法的金融同业舆情分析方法的计算机程序。
一种实现上述基于深度学习算法的金融同业舆情分析方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于深度学习算法的金融同业舆情分析方法。
本发明的有益效果为:本发明运用多种目前领先的基于深度学习模型的自然语言处理方法,对同业新闻文本数据进行了性质分析、事件分类以及事件主体发现三项处理。其中性质分析和事件分类运用到了两种分类模型,分别是BERT模型的中文应用和XLNET模型。事件发现运用到了建立在注意力机制基础上的序列标注模型。本发明在这三个模型的基础上结合中文以及新闻文本的特殊性做了模型的训练以及改进,能够最大限度的优化模型判断结果提升计算效率,实现了一个可以定时处理的舆情判断方法及系统。
附图说明
图1所示为本发明实施例一种基于深度学习算法的金融同业舆情分析方法的流程示意图。
图2所示为实施例中同业新闻文本数据预处理的流程示意图。
图3所示为实施例中事件主体发现的流程示意图。
具体实施方式
下文将结合具体附图详细描述本发明具体实施例。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。
如图1所示,本发明实施例一种基于深度学习算法的金融同业舆情分析方法,所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现,得到特定事件及特定领域范围内的舆情状况;其中,所述性质分析的结果包括三个类别:正向、中性、负向;所述事件分类用以得到新闻类型判断结果;所述事件主体发现用以发现同业新闻文本的主体,并将主体与事件进行对应;具体包括如下步骤:
S1、对同业新闻文本数据进行预处理;下述为一种优选的数据预处理方法,如图2所示:
S1.1利用现有网页爬虫系统爬取规定时间段以及地域范围内的同业新闻数据,抓取得到的网页爬虫数据仅保留网页文章正文和标题部分以及论坛文字的评论部分;
S1.2将经步骤S1.1处理后得到的同业文本数据中的无效信息删除,所述无效信息包括特殊字符、网页引导和超链接等;
S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码,对应的字符编码格式作为后续模型输入;例如:“将上海华信主体信用等级……”,转换为[1,2,3,4,5,6,7,8,9,10,……]的形式储存到数据库中;
优选的,对原始语料做如下处理:
S1.3.1将原始标注数据的主体标注转换为字符标注的形式,例如,主体标注形式如下:将/N上/B_entity海/M_entity华/M_entity信/E_entity主/N体/N信/N用/N等/N级/N……。性质分析以及事件分类标签仍然以文章为单位;
S1.3.2建立一个word2id词典,把每个汉字转换为id。我们习惯性按照数据集中每个汉字出现的顺序排序进行编码,id从1开始;word2id词典格式举例如下:{“将”:1,“上”:2,“海”:3,“华”:4,“信”:5,“主”:6,“体”:7,……};
S1.3.3建立一个tag2id词典,把每一个字标注的类型转换为id;tag2id词典格式举例如下:{“N”:1,“B_entity”:2,“M_entity”:3,“E_entity”:4,……};
S1.3.4按照一一对应的顺序,把汉字和标签转换成id,分别存在两个数组里面,一起保存到文件中,方便后续不同模型直接调用;优选的,本实施例系统中我们将一篇文章的输入长度固定为500个字符长度,若文章过长就将后文舍弃,文章过短就在文章结尾补0;
S2、经过步骤S1预处理的同业新闻文本数据输入XLNET性质分析模型,得到性质分析的判断结果;性质分析模型的判断结果包括三个类别,分别为正向、中性、负向,例如:模型计算结果表述如下:将上海华信主体信用等级由BBB+下调至B—负向;
下述为一种优选的性质分析方法:
S2.1经过步骤S1处理后的同业文本数据划分为训练数据和实际数据;
S2.2将训练数据及对应情感标签导入到XLNET的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S2.3将编码格式的实际数据传入到训练后的XLNET性质分析模型中,得到文章的情感判断结果。
S3、经过步骤S1预处理的同业新闻文本数据输入BERT分类模型,得到新闻类型判断结果;新闻类型模型的判断结果包括不能履职、涉嫌非法集资、失联跑路、评级调整等多个类别,例如,计算结果表述如下:将上海华信主体信用等级由BBB+下调至B—评级调整;
下述为一种优选的分类方法:
S3.1将训练集数据以及对应类别标签导入到BERT的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S3.2将编码格式的实际数据传入到训练后的BERT文本分类模型中,得到文章的新闻类型结果。
S4、将经过步骤S1预处理的同业新闻文本数据及经过步骤S3处理得到的新闻类型判断结果输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;例如:上海华信——评级调整;
下述为一种优选的事件主体发现方法:
S4.1将训练集数据以及对应主体标签的对应表示导入到事件主体发现模型中,进行模型训练,储存模型为二进制编码的.m格式;所述事件主体发现模型为基于注意力机制的序列标注模型;
S4.2将编码格式的实际数据传入到训练后的事件主体发现模型中,得到文章的主体——事件的抽取结果。
注意力机制的使用如图3所示;在Attention is all you need模型的基础上,我们在Decoder的过程中增加了CRF层。事件主体发现模型的计算流程表述如下:
S4.2.1将语料中出现的文字与编号一一对应,在本实施例模型中Embedding过程增加了位置信息成为Position Embedding作为特征集使用,标签的处理方法同上;
S4.2.2将Position Embedding进行编码,过程如下:计算Attention,将输入的Position Embedding做线性变换,得到Quer,Key和Value;计算相似度,将Quer与Key做点乘,得到一个注意力矩阵;增加Mask,对上述序列以及矩阵中人工填充的部分进行屏蔽;将Attention相似度矩阵与Value相乘,得到Attention的加权结果;
S4.2.3解码过程与上述过程相似,解码的输出会经过一层全连接网络以及一层Softmax,在Softmax处理结束后我们会得到每个位置的主体标注概率值,这里我们增加了一个CRF层,利用特征之间的顺序相关性得到优化后的主体标注结果;
S5、将步骤S4得到的“主体-事件”的对应表示按照情感方向进行归纳,根据出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况;
优选的,具体步骤为:
S5.1计算主体之间的Jaccard系数,如果数值小于0.9则认为是同一主体;同一主体的相同事件次数进行累加,不同事件按照事件出现频率进行排序;
S5.2对同一主体的事件情感倾向进行统计,得到该主体的情感分布。
本发明的几个技术点说明如下:
1、CRF
CRF的中文名称叫做条件随机场,是一种条件概率分布模型,表示的是给定一组输入变量的条件下另一组输出随机变量的马尔可夫随机场。也就是说输出变量会受到它相邻位置的变量信息的影响,用主体标注问题来举例说明,在一个句子中,不可能有两个相邻位置的字符被标注为主体开始字符(B-entity)或者主体结束字符(E-entity)。
由于Softmax层的输出相互独立,虽然Attention机制考虑了特征的位置信息,但是在解码的过程中,即输出相互之间并没有考虑到位置的影响,它只是在每一步挑选一个最大概率值的Label输出。这样就会导致如B-entity后再接一个B-entity的相似的问题出现,而CRF的处理过程中有转移特征,即它会考虑输出Label之间的顺序性,所以使用CRF做最终输出层会得到更好的效果。
2、模型判断标准
分类模型以及命名主体识别的准确度判断有三个值:准确率、召回率和f值。
准确率=交集/模型抽取出的主体
召回率=交集/数据集中的所有主体
F值=2×(准确率×召回率)/(准确率+召回率)。
3、Jaccard系数
Jaccard系数,又称为Jaccard相似系数,用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。Jaccard系数公式表示如下:
本发明实施例一种基于深度学习算法的金融同业舆情分析系统,其特征在于,所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块;
所述预处理模块,对同业新闻文本数据进行处理,保留网页文章正文和标题部分以及论坛文字的评论部分,删除无效信息,并将同业新闻文本数据转换为字符与编码;
所述性质分析模块,将所述预处理模块处理后的同业新闻文本数据,输入XLNET性质分析模型,得到性质分析的判断结果;
所述事件分类模块,将所述预处理模块处理后的同业新闻文本数据,输入BERT分类模型,得到新闻类型判断结果;
所述事件主体发现模块,将所述预处理模块处理后的同业新闻文本数据,及所述事件分类模块处理后得到的新闻类型判断结果,输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;将所述“主体-事件”的对应表示按照情感方向进行归纳,根据主体出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况。
本发明方法可以利用计算机程序实现,储存该程序的计算机介质,包括指令,均应涵盖于本发明的保护范围内。
本文虽然已经给出了本发明的几个实施例,但是本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。

Claims (5)

1.一种基于深度学习算法的金融同业舆情分析方法,其特征在于,所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现,得到特定事件及特定领域范围内的舆情状况;其中,所述性质分析的结果包括三个类别:正向、中性、负向;所述事件分类用以得到新闻类型判断结果;所述事件主体发现用以发现同业新闻文本的主体,并将主体与事件进行对应;
所述方法具体包括:
S1、对同业新闻文本数据进行预处理,具体方法为;
S1.1利用网页爬虫系统爬取规定时间段以及地域范围内的同业新闻文本数据,抓取得到的网页爬虫数据仅保留网页文章正文和标题部分以及论坛文字的评论部分;
S1.2将经步骤S1.1处理后得到的同业文本数据中的无效信息删除,所述无效信息包括特殊字符、网页引导和超链接;
S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码,对应的字符编码作为后续模型输入;
S2、经过步骤S1预处理的同业新闻文本数据输入XLNET性质分析模型,得到性质分析的判断结果;
S3、经过步骤S1预处理的同业新闻文本数据输入BERT分类模型,得到新闻类型判断结果;
S4、将经过步骤S1预处理的同业新闻文本数据及经过步骤S3处理得到的新闻类型判断结果输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;
事件主体发现方法具体为:
S4.1将训练集数据以及对应主体标签的对应表示导入到事件主体发现模型中,进行模型训练,储存模型为二进制编码的.m格式;所述事件主体发现模型为基于注意力机制的序列标注模型;
S4.2将编码格式的实际数据传入到训练后的事件主体发现模型中,得到文章的主体——事件的抽取结果;
注意力机制的使用;在Attention is all you need模型的基础上,在Decoder的过程中增加了CRF层,事件主体发现模型的计算流程表述如下:
S4.2.1将语料中出现的文字与编号一一对应,在模型中Embedding过程增加了位置信息成为Position Embedding作为特征集使用,标签的处理方法同上;
S4.2.2将Position Embedding进行编码,过程如下:计算Attention,将输入的Position Embedding做线性变换,得到Quer,Key和Value;计算相似度,将Quer与Key做点乘,得到一个注意力矩阵;增加Mask,对上述序列以及矩阵中人工填充的部分进行屏蔽;将Attention相似度矩阵与Value相乘,得到Attention的加权结果;
S4.2.3解码的输出经过一层全连接网络以及一层Softmax,在Softmax处理结束后得到每个位置的主体标注概率值,这里增加了一个CRF层,利用特征之间的顺序相关性得到优化后的主体标注结果;
S5、将步骤S4得到的“主体-事件”的对应表示按照情感方向进行归纳,根据出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况;
步骤S5的具体方法为:
S5.1计算主体之间的Jaccard系数,如果数值小于0.9则认为是同一主体;同一主体的相同事件次数进行累加,不同事件按照事件出现频率进行排序;
S5.2对同一主体的事件情感倾向进行统计,得到该主体的情感分布。
2.如权利要求1所述的基于深度学习算法的金融同业舆情分析方法,其特征在于,步骤S2中,使用性质分析模型进行性质分析的方法为:
S2.1经过步骤S1处理后的同业文本数据划分为训练数据和实际数据;
S2.2将训练数据及对应情感标签导入到XLNET的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S2.3将编码格式的实际数据传入到训练后的XLNET性质分析模型中,得到文章的情感判断结果。
3.如权利要求2所述的基于深度学习算法的金融同业舆情分析方法,其特征在于,步骤S3中,新闻类型判断的方法为:
S3.1将训练集数据以及对应类别标签导入到BERT的文本分类预训练模型中,进行模型训练,储存模型为二进制编码的.m格式;
S3.2将编码格式的实际数据传入到训练后的BERT文本分类模型中,得到文章的新闻类型结果。
4.一种基于深度学习算法的金融同业舆情分析系统,采用如权利要求1-3任一项所述的基于深度学习算法的金融同业舆情分析方法,其特征在于,所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块;
所述预处理模块,对同业新闻文本数据进行处理,保留网页文章正文和标题部分以及论坛文字的评论部分,删除无效信息,并将同业新闻文本数据转换为字符与编码;
所述性质分析模块,将所述预处理模块处理后的同业新闻文本数据,输入XLNET性质分析模型,得到性质分析的判断结果;
所述事件分类模块,将所述预处理模块处理后的同业新闻文本数据,输入BERT分类模型,得到新闻类型判断结果;
所述事件主体发现模块,将所述预处理模块处理后的同业新闻文本数据,及所述事件分类模块处理后得到的新闻类型判断结果,输入注意力机制的事件主体发现模型,得到“主体-事件”的对应表示;将所述“主体-事件”的对应表示按照情感方向进行归纳,根据主体出现频率以及相似度计算,罗列出近期的热点主体、热点事件以及相互对应关系,得到特定事件以及领域范围内的舆情状况。
5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的基于深度学习算法的金融同业舆情分析方法。
CN202010424186.9A 2020-05-19 2020-05-19 一种基于深度学习算法的金融同业舆情分析方法及系统 Active CN111639183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010424186.9A CN111639183B (zh) 2020-05-19 2020-05-19 一种基于深度学习算法的金融同业舆情分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010424186.9A CN111639183B (zh) 2020-05-19 2020-05-19 一种基于深度学习算法的金融同业舆情分析方法及系统

Publications (2)

Publication Number Publication Date
CN111639183A CN111639183A (zh) 2020-09-08
CN111639183B true CN111639183B (zh) 2023-11-28

Family

ID=72329633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010424186.9A Active CN111639183B (zh) 2020-05-19 2020-05-19 一种基于深度学习算法的金融同业舆情分析方法及系统

Country Status (1)

Country Link
CN (1) CN111639183B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651555A (zh) * 2020-12-25 2021-04-13 平安科技(深圳)有限公司 价值预测信息反馈方法及装置
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN112528028A (zh) * 2020-12-28 2021-03-19 北京华彬立成科技有限公司 投融资信息挖掘方法、装置、电子设备和存储介质
CN113495959B (zh) * 2021-05-20 2022-09-09 山东大学 一种基于文本数据的金融舆情识别方法及系统
CN114065763A (zh) * 2021-11-24 2022-02-18 深圳前海环融联易信息科技服务有限公司 一种基于事件抽取的舆情分析方法、装置及相关组件
CN116340511B (zh) * 2023-02-16 2023-09-15 深圳市深弈科技有限公司 结合深度学习与语言逻辑推理的舆情分析方法
CN116611514B (zh) * 2023-07-19 2023-10-10 中国科学技术大学 一种基于数据驱动的价值取向评估体系构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110377696A (zh) * 2019-06-19 2019-10-25 新华智云科技有限公司 一种商品期货新闻舆情分析方法及系统
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110990564A (zh) * 2019-11-19 2020-04-10 北京信息科技大学 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111144575A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 舆情预警模型的训练方法、预警方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN108052586A (zh) * 2017-12-11 2018-05-18 上海壹账通金融科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110377696A (zh) * 2019-06-19 2019-10-25 新华智云科技有限公司 一种商品期货新闻舆情分析方法及系统
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110990564A (zh) * 2019-11-19 2020-04-10 北京信息科技大学 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111144575A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 舆情预警模型的训练方法、预警方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张海涛 ; 王丹 ; 徐海玲 ; 孙思阳 ; .基于卷积神经网络的微博舆情情感分类研究.情报学报.2018,(第07期),全文. *
陈天翔 ; .基于注意力机制的金融文本情感分析研究.信息技术与信息化.2020,(第01期),全文. *

Also Published As

Publication number Publication date
CN111639183A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111639183B (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
Tran et al. Understanding what the users say in chatbots: A case study for the Vietnamese language
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111581376A (zh) 一种知识图谱自动构建系统及方法
CN114595344A (zh) 面向农作物品种管理的知识图谱构建方法及装置
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111813874B (zh) 太赫兹知识图谱构建方法及系统
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
Zhang et al. A hybrid neural network approach for fine-grained emotion classification and computing
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN116843162B (zh) 一种矛盾调解方案推荐与评分系统及方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
CN111737475A (zh) 一种无监督的网络舆情垃圾长文本识别方法
CN115392251A (zh) 一种互联网金融业务的实体实时识别方法
CN113569575A (zh) 一种基于象形-语义双特征空间映射的评审专家推荐方法
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN112287072A (zh) 一种多维互联网文本风险数据识别方法
Wu et al. Research on entity recognition and alignment methods in knowledge graph construction of multi-source tourism data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant