CN111639183A

CN111639183A - 一种基于深度学习算法的金融同业舆情分析方法及系统

Info

Publication number: CN111639183A
Application number: CN202010424186.9A
Authority: CN
Inventors: 李振; 鲍东岳; 张刚; 尹正; 刘昊霖; 张雨枫; 徐超; 陈厚霖; 马圣楠; 傅佳美
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-08
Anticipated expiration: 2040-05-19
Also published as: CN111639183B

Abstract

本发明涉及舆情分析技术领域，提供了一种基于深度学习算法的金融同业舆情分析方法及系统，所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现，得到特定事件及特定领域范围内的舆情状况；其中，性质分析的结果包括三个类别：正向、中性、负向；事件分类用以得到新闻类型判断结果；事件主体发现用以发现同业新闻文本的主体，并将主体与事件进行对应。所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块。本发明在三个模型的基础上结合中文以及新闻文本的特殊性做了模型的训练及改进，能最大限度优化模型判断结果提升计算效率，实现定时处理舆情判断。

Description

一种基于深度学习算法的金融同业舆情分析方法及系统

技术领域

本发明涉及舆情分析技术领域，特别涉及一种基于深度学习算法的金融同业舆情分析方法及系统。

背景技术

随着我国互联网的迅速发展，网民数量及互联网信息呈现爆发性增长，在如此大量的信息中，如何进行甄别，挑选出实际性的信息以及关联人，是非常重要的。从舆情监控的角度来说，我们每天的信息中，涵盖着各类舆情信息，而各种舆情信息汇总后，如何在更短的事件、更有效的进行识别、更好的得出所需的结果，是舆情分析的关键。

从传统的舆情监控系统来看，主要以关键词为主，可根据地域、来源、分类等筛选，按期提供舆情监测报告。但无法对大量新闻内各主体及对应关系进行自动识别，仍然需要人工进行判断。

现有的舆情系统大多是建立在微博、论坛、博客等评论文本基础上，通过热词抽取和文本聚类抓取当前的舆情热点，但是现有的文章来源与处理方法应用到金融行业存在着较大弊端。首先，评论文本存在着大量注水数据以及不真实评论，相对于正式的同业新闻文本而言评论文本的影响力以及可信度都较小，参考度较低；其次进行热词抽取以及文章聚类会导致文章类型以及描述主题的确认偏差或者无法明确真实的描述主体事件，导致舆情的判断出现错误。

发明内容

本发明的目的是克服现有技术的不足，提供了一种基于深度学习算法的金融同业舆情分析方法及系统，相较于传统方法做了较大的改变，本发明旨在对同业新闻语料进行舆情分析，对于近期热点事件以及相应的企业、个人以及其它组织，结合网络上群众的价值取向以及社会态度进行科学直观的归纳总结；通过对每篇文章的情感取向和事件种类的判定，结合描述主体的输出，给出对应时间段内的金融相关舆情总结，使得相关人员在不需要阅读海量文本的前提下，快速了解大量信息，并通过对新闻中出现的事件类别以及特定主体的情感倾向性总结对热点事件有一个直观的认识。

本发明采用如下技术方案：

一种基于深度学习算法的金融同业舆情分析方法，所述方法对经过预处理的同业新闻文本数据依次进行性质分析(情感分析)、事件分类及事件主体发现，得到特定事件及特定领域范围内的舆情状况；其中，所述性质分析的结果包括三个类别：正向、中性、负向；所述事件分类用以得到新闻类型判断结果；所述事件主体发现用以发现同业新闻文本的主体，并将主体与事件进行对应。

进一步的，所述方法具体包括：

S1、对同业新闻文本数据进行预处理；

S2、经过步骤S1预处理的同业新闻文本数据输入XLNET性质分析模型，得到性质分析的判断结果；

S3、经过步骤S1预处理的同业新闻文本数据输入BERT分类模型，得到新闻类型判断结果；

S4、将经过步骤S1预处理的同业新闻文本数据及经过步骤S3处理得到的新闻类型判断结果输入注意力机制的事件主体发现模型，得到“主体-事件”的对应表示；

S5、将步骤S4得到的“主体-事件”的对应表示按照情感方向进行归纳，根据出现频率以及相似度计算，罗列出近期的热点主体、热点事件以及相互对应关系，得到特定事件以及领域范围内的舆情状况。

进一步的，步骤S1中，对同业新闻文本数据进行预处理具体方法为：

S1.1利用网页爬虫系统爬取规定时间段以及地域范围内的同业新闻文本数据，抓取得到的网页爬虫数据仅保留网页文章正文和标题部分以及论坛文字的评论部分；

S1.2将经步骤S1.1处理后得到的同业文本数据中的无效信息删除，所述无效信息包括特殊字符、网页引导和超链接；

S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码，对应的字符编码格式作为后续模型输入。

进一步的，步骤S2中，使用性质分析模型进行性质分析的方法为：

S2.1经过步骤S1处理后的同业文本数据划分为训练数据和实际数据；

S2.2将训练数据及对应情感标签导入到XLNET的文本分类预训练模型中，进行模型训练，储存模型为二进制编码的.m格式；

S2.3将编码格式的实际数据传入到训练后的XLNET性质分析模型中，得到文章的情感判断结果。

进一步的，步骤S3中，新闻类型判断的方法为：

S3.1将训练集数据以及对应类别标签导入到BERT的文本分类预训练模型中，进行模型训练，储存模型为二进制编码的.m格式；

S3.2将编码格式的实际数据传入到训练后的BERT文本分类模型中，得到文章的新闻类型结果。

进一步的，步骤S4中，事件主体发现的具体方法为：

S4.1将训练集数据以及对应主体标签的对应表示导入到事件主体发现模型中，进行模型训练，储存模型为二进制编码的.m格式；所述事件主体发现模型为基于注意力机制的序列标注模型；

S4.2将编码格式的实际数据传入到训练后的事件主体发现模型中，得到文章的主体——事件的抽取结果。

进一步的，步骤S5的具体方法为：

S5.1计算主体之间的Jaccard系数，如果数值小于0.9则认为是同一主体；同一主体的相同事件次数进行累加，不同事件按照事件出现频率进行排序；

S5.2对同一主体的事件情感倾向进行统计，得到该主体的情感分布。

一种基于深度学习算法的金融同业舆情分析系统，所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块；

所述预处理模块，对同业新闻文本数据进行处理，保留网页文章正文和标题部分以及论坛文字的评论部分，删除无效信息，并将同业新闻文本数据转换为字符与编码；

所述性质分析模块，将所述预处理模块处理后的同业新闻文本数据，输入XLNET性质分析模型，得到性质分析的判断结果；

所述事件分类模块，将所述预处理模块处理后的同业新闻文本数据，输入BERT分类模型，得到新闻类型判断结果；

所述事件主体发现模块，将所述预处理模块处理后的同业新闻文本数据，及所述事件分类模块处理后得到的新闻类型判断结果，输入注意力机制的事件主体发现模型，得到“主体-事件”的对应表示；将所述“主体-事件”的对应表示按照情感方向进行归纳，根据主体出现频率以及相似度计算，罗列出近期的热点主体、热点事件以及相互对应关系，得到特定事件以及领域范围内的舆情状况。

一种实现上述基于深度学习算法的金融同业舆情分析方法的计算机程序。

一种实现上述基于深度学习算法的金融同业舆情分析方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于深度学习算法的金融同业舆情分析方法。

本发明的有益效果为：本发明运用多种目前领先的基于深度学习模型的自然语言处理方法，对同业新闻文本数据进行了性质分析、事件分类以及事件主体发现三项处理。其中性质分析和事件分类运用到了两种分类模型，分别是BERT模型的中文应用和XLNET模型。事件发现运用到了建立在注意力机制基础上的序列标注模型。本发明在这三个模型的基础上结合中文以及新闻文本的特殊性做了模型的训练以及改进，能够最大限度的优化模型判断结果提升计算效率，实现了一个可以定时处理的舆情判断方法及系统。

附图说明

图1所示为本发明实施例一种基于深度学习算法的金融同业舆情分析方法的流程示意图。

图2所示为实施例中同业新闻文本数据预处理的流程示意图。

图3所示为实施例中事件主体发现的流程示意图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。

如图1所示，本发明实施例一种基于深度学习算法的金融同业舆情分析方法，所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现，得到特定事件及特定领域范围内的舆情状况；其中，所述性质分析的结果包括三个类别：正向、中性、负向；所述事件分类用以得到新闻类型判断结果；所述事件主体发现用以发现同业新闻文本的主体，并将主体与事件进行对应；具体包括如下步骤：

S1、对同业新闻文本数据进行预处理；下述为一种优选的数据预处理方法，如图2所示：

S1.1利用现有网页爬虫系统爬取规定时间段以及地域范围内的同业新闻数据，抓取得到的网页爬虫数据仅保留网页文章正文和标题部分以及论坛文字的评论部分；

S1.2将经步骤S1.1处理后得到的同业文本数据中的无效信息删除，所述无效信息包括特殊字符、网页引导和超链接等；

S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码，对应的字符编码格式作为后续模型输入；例如：“将上海华信主体信用等级……”,转换为[1,2,3,4,5,6,7,8,9,10,……]的形式储存到数据库中；

优选的，对原始语料做如下处理：

S1.3.1将原始标注数据的主体标注转换为字符标注的形式，例如，主体标注形式如下：将/N上/B_entity海/M_entity华/M_entity信/E_entity主/N体/N信/N用/N等/N级/N……。性质分析以及事件分类标签仍然以文章为单位；

S1.3.2建立一个word2id词典，把每个汉字转换为id。我们习惯性按照数据集中每个汉字出现的顺序排序进行编码，id从1开始；word2id词典格式举例如下：{“将”:1,“上”:2,“海”:3,“华”:4,“信”:5,“主”:6,“体”:7,……}；

S1.3.3建立一个tag2id词典，把每一个字标注的类型转换为id；tag2id词典格式举例如下：{“N”:1,“B_entity”:2,“M_entity”:3,“E_entity”:4,……}；

S1.3.4按照一一对应的顺序，把汉字和标签转换成id，分别存在两个数组里面，一起保存到文件中，方便后续不同模型直接调用；优选的，本实施例系统中我们将一篇文章的输入长度固定为500个字符长度，若文章过长就将后文舍弃，文章过短就在文章结尾补0；

S2、经过步骤S1预处理的同业新闻文本数据输入XLNET性质分析模型，得到性质分析的判断结果；性质分析模型的判断结果包括三个类别，分别为正向、中性、负向，例如：模型计算结果表述如下：将上海华信主体信用等级由BBB+下调至B—负向；

下述为一种优选的性质分析方法：

S3、经过步骤S1预处理的同业新闻文本数据输入BERT分类模型，得到新闻类型判断结果；新闻类型模型的判断结果包括不能履职、涉嫌非法集资、失联跑路、评级调整等多个类别，例如，计算结果表述如下：将上海华信主体信用等级由BBB+下调至B—评级调整；

下述为一种优选的分类方法：

S4、将经过步骤S1预处理的同业新闻文本数据及经过步骤S3处理得到的新闻类型判断结果输入注意力机制的事件主体发现模型，得到“主体-事件”的对应表示；例如：上海华信——评级调整；

下述为一种优选的事件主体发现方法：

注意力机制的使用如图3所示；在Attention is all you need模型的基础上，我们在Decoder的过程中增加了CRF层。事件主体发现模型的计算流程表述如下：

S4.2.1将语料中出现的文字与编号一一对应，在本实施例模型中Embedding过程增加了位置信息成为Position Embedding作为特征集使用，标签的处理方法同上；

S4.2.2将Position Embedding进行编码，过程如下：计算Attention，将输入的Position Embedding做线性变换，得到Quer，Key和Value；计算相似度，将Quer与Key做点乘，得到一个注意力矩阵；增加Mask，对上述序列以及矩阵中人工填充的部分进行屏蔽；将Attention相似度矩阵与Value相乘，得到Attention的加权结果；

S4.2.3解码过程与上述过程相似，解码的输出会经过一层全连接网络以及一层Softmax，在Softmax处理结束后我们会得到每个位置的主体标注概率值，这里我们增加了一个CRF层，利用特征之间的顺序相关性得到优化后的主体标注结果；

S5、将步骤S4得到的“主体-事件”的对应表示按照情感方向进行归纳，根据出现频率以及相似度计算，罗列出近期的热点主体、热点事件以及相互对应关系，得到特定事件以及领域范围内的舆情状况；

优选的，具体步骤为：

本发明的几个技术点说明如下：

1、CRF

CRF的中文名称叫做条件随机场，是一种条件概率分布模型，表示的是给定一组输入变量的条件下另一组输出随机变量的马尔可夫随机场。也就是说输出变量会受到它相邻位置的变量信息的影响，用主体标注问题来举例说明，在一个句子中，不可能有两个相邻位置的字符被标注为主体开始字符(B-entity)或者主体结束字符(E-entity)。

由于Softmax层的输出相互独立，虽然Attention机制考虑了特征的位置信息，但是在解码的过程中，即输出相互之间并没有考虑到位置的影响，它只是在每一步挑选一个最大概率值的Label输出。这样就会导致如B-entity后再接一个B-entity的相似的问题出现，而CRF的处理过程中有转移特征，即它会考虑输出Label之间的顺序性，所以使用CRF做最终输出层会得到更好的效果。

2、模型判断标准

分类模型以及命名主体识别的准确度判断有三个值：准确率、召回率和f值。

准确率＝交集/模型抽取出的主体

召回率＝交集/数据集中的所有主体

F值＝2×(准确率×召回率)/(准确率+召回率)。

3、Jaccard系数

Jaccard系数，又称为Jaccard相似系数，用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。Jaccard系数公式表示如下：

本发明实施例一种基于深度学习算法的金融同业舆情分析系统，其特征在于，所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块；

本发明方法可以利用计算机程序实现，储存该程序的计算机介质，包括指令，均应涵盖于本发明的保护范围内。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于深度学习算法的金融同业舆情分析方法，其特征在于，所述方法对经过预处理的同业新闻文本数据依次进行性质分析、事件分类及事件主体发现，得到特定事件及特定领域范围内的舆情状况；其中，所述性质分析的结果包括三个类别：正向、中性、负向；所述事件分类用以得到新闻类型判断结果；所述事件主体发现用以发现同业新闻文本的主体，并将主体与事件进行对应。

2.如权利要求1所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，所述方法具体包括：

S1、对同业新闻文本数据进行预处理；

3.如权利要求2所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，步骤S1中，对同业新闻文本数据进行预处理的具体方法为：

S1.3经步骤S1.2处理后的清洁同业新闻文本数据转换为字符与编码，对应的字符编码作为后续模型输入。

4.如权利要求3所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，步骤S2中，使用性质分析模型进行性质分析的方法为：

5.如权利要求4所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，步骤S3中，新闻类型判断的方法为：

6.如权利要求4所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，步骤S4中，事件主体发现的具体方法为：

S4.2将编码格式的实际数据传入到训练后的事件主体发现模型中，得到文章的“主体—事件”的抽取结果。

7.如权利要求5所述的基于深度学习算法的金融同业舆情分析方法，其特征在于，步骤S5的具体方法为：

8.一种基于深度学习算法的金融同业舆情分析系统，其特征在于，所述系统包括同业新闻文本数据预处理模块、性质分析模块、事件分类模块及事件主体发现模块；

9.一种实现如权利要求1-7所述基于深度学习算法的金融同业舆情分析方法的计算机程序。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的基于深度学习算法的金融同业舆情分析方法。