CN114138942A

CN114138942A - 基于文本情感倾向的违规检测方法

Info

Publication number: CN114138942A
Application number: CN202111502220.0A
Authority: CN
Inventors: 张熠; 李维萍; 周晓文; 雷万保; 徐阳
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-04

Abstract

本发明基于建立适用的情感词典提取文本特征数据，提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法，该方法包括如下步骤：构建情感词典、进一步提取文本特征、对长短期记忆网络LSTM做数学建模以及文本检测及结果输出；有效检测年报文本中的具有情感倾向的文本，从情感的角度发现上市公司违规，解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题，有效克服现有的不足；同时本方法通过设置多方位评估指标，有效提高了上市公司违规检测的效率和准确性。

Description

基于文本情感倾向的违规检测方法

技术领域

本发明涉及金融与计算机科学领域，尤其涉及一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法。

背景技术

目前，使用上市公司年报分析该公司是否违规成为一种趋势，在现有技术中，通过量化年报或管理层讨论与分析部分文本建立机器学习模型，而这种做法并没有考虑管理层情感因素，当公司违规时，管理层会加大使用积极词以此来掩盖公司真实的经营状况，但是现有技术的方法由于在从上市公司年报查找违规时没有考虑文本特征的情感因素，因此使得传统的机器学习方法查找违规的结果并不好，同时评估模型预测能力的指标不够全面。因此，亟待发明一种基于文本情感倾向的违规检测方法，从情感的角度发现上市公司违规。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的。

为实现上述目的，本发明基于建立适用的情感词典提取文本特征数据，提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法，该方法可以很好识别上市公司违规。

具体采用了如下技术方案：

一种基于文本情感倾向的违规检测方法，包括如下步骤：

S1：构建情感词典：获取上市公司年报文本，并利用该文本构建合适情感词典；

S2：进一步提取文本特征：计算基于情感词典的TF-IDF值，然后利用变分自编码器VAE进一步做文本特征提取；

S3：对长短期记忆网络LSTM做数学建模：使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型；

S4：文本检测及结果输出：通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析，基于分析出的数据结果输出年报文本为违规或者正常。

优选地，在S1步骤的构建情感词典的具体步骤如下：

S1-1：从上市公司信息披露网站上下载上市公司年度报告；

S1-2：将年报转换成Html格式；

S1-3：解析年报，使用python解析年报，清理成文本，将年报中的年报标题以及表格中数字占总字数的比例大于25％的表格；

S1-4：提取文本，利用python的jieba库自定义字典功能，选用金融类词典对文本进行分词；

S1-5：参照中文停用词库，手动添加特殊字符，去除停用词；

S1-6：年报保存上述处理的词为.TXT格式，根据保存的年报分词数据建立上市公司的积极和消极词汇词典。

优选地，在步骤S2中，TF-IDF为词频-逆文档频率，是一种统计方法，具体公式如下：

其中，N表示年报总数，tf_i,j表示第j个年报中出现第i个词的次数之比，df_i表示包含第i个词的年报数。

优选地，在步骤S2中，变分自编码器包括编码、采样和解码，使用神经网络编码，提取数据特征，再解码生成数据。

优选地，在S3步骤中的长短期记忆网络模型如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中x_t是输入向量，i_t是时间步长t中的输入状态，f_t是时间步长t中的遗忘状态，o_t是时间步长t中的输出状态，h_t-1和C_t-1是时间步长t-1中的隐藏状态和单元状态，以tanh和sigmoid激活函数σ的形式添加非线性，W_f、W_i、W_C、W_o分别代表遗忘门、输入门、记忆单元和输出门的权值向量，b_f、b_i、b_C、b_o分别代表遗忘门、输入门、记忆单元和输出门的损坏变量，*是矩阵的Hadamard积。

优选地，在S4步骤中，所述VAE-LSTM预测模型内设有多方位评估指标；通过建立多方位评估指标，使所构建的评估模型的预测能力的指标更全面。

优选地，S4步骤中的所述多方位评估指标包括：准确率、敏感度和特异度、综合指标F_β-score以及假阳性率和真阳性率之间的曲线下覆盖的面积AUC。

优选地，准确率的计算公式为：

敏感度的计算公式为：

特异度的计算公式为：

综合指标F_β-score的计算公式为：

优选地，所述AUC的值越大，越能区分年报违规与正常。

与现有技术相比，本发明的有益效果为：提供一种基于变分自编码器的长短期记忆网络模型，有效检测年报文本中的具有情感倾向的文本，从情感的角度发现上市公司违规，解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题，有效克服现有的不足；同时提出了一种新的数据类型，通过情感词典的统计特征作为数据，最后能够很好的区分违规上市公司；本方法通过设置多方位评估指标，有效提高了上市公司违规检测的效率和准确性。

附图说明

图1为本发明的一种基于文本情感倾向的违规检测方法的流程图；

图2为本发明的一种基于文本情感倾向的违规检测方法的长短期记忆网络模型的原理图。

具体实施方式

为使对本发明的目的、构造、特征、及其功能有进一步的了解，兹配合实施例详细说明如下。

请结合参照图1和图2，本发明提供了一种基于文本情感倾向的违规检测方法，包括如下步骤：

S2：进一步提取文本特征：计算基于情感词典的TF-IDF(词频-逆文档频率)值，然后利用变分自编码器VAE进一步做文本特征提取；

其中TF-IDF是一种统计方法，能够综合计算这个文档词的重要程度，变分自编码器是使用神经网络编码，提取数据特征，再解码生成数据。

本发明基于现有的方法没有考虑文本情感因素，本方法首先构建适合的情感词典，从巨潮网下载银行业年报，使用python解析年报，清理成文本，分词，Word2Vec训练年报语料库得到200维词向量，计算LM情感词典相似度提取积极、消极词汇，结合中文情感词典，以此来构建银行业情感词典。

所谓词向量又叫Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。词向量的维数即指向量在分量的个数。

优选地，在S1步骤的构建情感词典的具体步骤如下：

S1-1：从上市公司信息披露网站上下载上市公司年度报告；

S1-2：将年报转换成Html格式；

S1-5：参照中文停用词库，手动添加特殊字符，去除停用词；

优选地，在步骤S2中，TF-IDF为词频-逆文档频率，是一种统计方法，能够综合计算这个文档词的重要程度，具体公式如下：

建立预测模型，使用变分自编码器的长短期记忆网络，传统的机器学习模型不能处理复杂数据，深度学习可以模拟人脑分析复杂数据，本方法选用长短期记忆网络深度学习方法，该方法主要设计的公式如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_f[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

由于现有技术中的评估指标不够全面的评估模型性能，在违规检测中，违规数据与正常数据之间是不平衡的，这时准确率已不能很好的评估模型，应重点关注AUC、召回率、特异度、F2值，评估指标详细介绍如下：

准确率是一种经验性衡量标准，并不能区分不同类别的正确标签的数量，特别是样本不均衡时。

准确率的计算公式为：

敏感度(或召回率)和特异度是不同类别区分正确标签的度量，敏感度(真阳性率)是在所有真实违规的样本中有多少被预测为违规，特异度(真阴性率)是在所有正常的数量中有多少被预测为正常。

敏感度的计算公式为：

特异度的计算公式为：

Fβ-score是衡量模型的综合指标，β＝1时，如式(11)，F1值是精确度和敏感度的调和平均，同时它们的权重是均匀的，β＝2时，如式(12)，敏感度的权重高于精确度。

综合指标F_β-score的计算公式为：

β＝1时，

β＝2时，

ROC是假阳性率(FPR＝1-specificity)和真阳性率(TPR)之间的曲线，AUC代表ROC曲线下的面积，是很好的衡量模型的预测能力，它不依赖模型选择的阈值，对类别不平衡有很好的鲁棒性，AUC值越大，越能区分违规与正常。

本方法的一实施例的具体内容如下：

步骤1：处理年报文本构建合适情感词典

文本预处理过程：

1.巨潮网(中国证监会指定的上市公司信息披露网站)下载215份pdf格式上市银行2010-2019年度报告

2.利用可转换文本格式的第三方软件将所有年报转换成Html格式，方便处理标题、表格、页码等，例如提取标题和表格直接定位<tittle></tittle>和<table></table>两个标签即可。

3.解析年报。年报标题是编写年报的固定格式，通常不含有情感倾向文本，进行删除；通过仔细查看年报表格内容，发现并非所有表格都是财务报表，不能武断全部删除，文本表格与财务报表之间的区别：财务报表数字占比要比其他表格大，表格中数字占总字数的比例大于25％删除，否则保留。标题与表格删除使用Python的BeautifulSoup库实现。

4.提取文本，使用jieba库自定义字典功能，搜狗财经与清华财经是金融类词典，本文用它们作为分词的词典，可以有效避免银行年报分词错误，提高分词准确率，利于后面构建情感词典、计算语调、提取文本特征。

5.哈工大停用词库，手动添加特殊字符(包括银行名称、数字、英文大小写等)，去除停用词。

6.年报保存上述处理的词为.TXT。

根据保存的年报分词数据建立上市银行的积极、消极词汇词典LH，其中用到的基础情感词典包括LM英文翻译的词典和清华大学李军中文褒义词典，这两个情感词典不是专业金融领域的词典，故使用Word2Vec对银行年报语料库进行训练，得到200维词向量，计算LM词典前三十积极词和消极词的相似度最高的前3个词，去重合并得到LH情感词典，以此建立适合银行类情感词典，LH词典包括积极词5488，消极词5477。

步骤2：计算基于情感词典的TF-IDF值，然后变分自编码器做特征提取

TF-IDF是一种统计方法，能够综合计算这个文档词的重要程度，公式如下：

其中N表示年报总数，tfi,j表示第j个年报中出现第i个词的次数之比，dfi表示包含第i个词的年报数。

变分自编码器模型提取特征过程如下：变分自编码器主要由编码、采样和解码三部分组成，通过输入的样本X生成X’，其中隐变量Z的分布是未知的，可以通过神经网络将简单正态分布映射为隐变量的分布，μ和δ分别是隐变量Z的均值和标准差，编码器和解码器分别要用到近似后验分布Q(Z|X)和真实后验分布P(X|Z)的条件分布。Q(Z|X)与P(Z|X)尽量近似，可以通过KL散度(式(2))最小化来衡量：

D[Q(Z|X)||P(Z|X)]＝E_Z～Q[logQ(Z|X)-logP(Z|X) (2)

使用贝叶斯公式P(Z|X)展开得到式(3)

D[Q(Z|X)||P(Z|X)]＝E_Z～Q[logQ(Z|X)-logP(X|Z)-logP(Z)]+logP(X) (3)

转化形式得到变分自编码器的核心公式如式(4)：

logP(X)-D[Q(Z|X)||P(Z|X)]＝E_Z～Q[logP(X|Z)-D[Q(Z|X)||P(Z)]] (4)

最小化式(4)来达到Q(Z|X)与P(Z|X)尽量近似的目的。

模型VAE训练过程就是输入样本X，使式(4)的损失函数达到最优时，得到的隐变量Z就是后面计算真实分布的深度特征分布，使用解码生成深度特征数据X’。

步骤3：对长短期记忆网络LSTM做数学建模

如图2所示，长短期记忆网络模型原理如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f) (5)

i_t＝σ(W_f[h_t-1,x_t]+b_i) (6)

o_t＝σ(W_o[h_t-1,x_t]+b_o) (9)

h_t＝o_t*tanh(C_t) (10)

步骤4：其他机器学习模型与VAE-LSTM模型结果比较

评估指标如下：

F_β-score是衡量模型的综合指标，β＝1时，如式(15)，F1值是精确度和敏感度的调和平均，同时它们的权重是均匀的，β＝2时，如式(16)，敏感度的权重高于精确度。

本数据年报下载自巨潮网215份上市银行2010-2019年度，其中违规35条，正常180条，使用的违规数据由CSMAR国泰安和CCER经济金融数据库下载，经过手工合并得到，在上一年度上市银行发布年报后和下一年发布年报前出现至少一次违规事件则变量IsViolated标记1，否则标记0。

表1模型结果对比

其中，LR是逻辑回归，Ada、GBDT、XBG分别是AdaBoost、梯度下降树、XGBoost它们都是集成树模型，DNN是深度神经网络，LSTM是长短期记忆网络，VAE-LSTM是基于变分自编码器特征提取的长短期记忆网络。

从表1可以看出，VAE-LSTM模型的AUC最高达到80.48％，F2也是最高的，说明基于变分自编码器的长短期记忆网络模型可以克服现有的不足。

由上所述，本发明的一种基于文本情感倾向的违规检测方法，提供一种基于变分自编码器的长短期记忆网络模型，有效检测年报文本中的具有情感倾向的文本，从情感的角度发现上市公司违规，解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题，有效克服现有的不足；同时提出了一种新的数据类型，通过情感词典的统计特征作为数据，最后能够很好的区分违规上市公司；本方法通过设置多方位评估指标，有效提高了上市公司违规检测的效率和准确性。

本发明已由上述相关实施例加以描述，然而上述实施例仅为实施本发明的范例。必需指出的是，已揭露的实施例并未限制本发明的范围。相反地，在不脱离本发明的精神和范围内所作的更动与润饰，均属本发明的专利保护范围。