CN114138942A - 基于文本情感倾向的违规检测方法 - Google Patents

基于文本情感倾向的违规检测方法 Download PDF

Info

Publication number
CN114138942A
CN114138942A CN202111502220.0A CN202111502220A CN114138942A CN 114138942 A CN114138942 A CN 114138942A CN 202111502220 A CN202111502220 A CN 202111502220A CN 114138942 A CN114138942 A CN 114138942A
Authority
CN
China
Prior art keywords
text
annual
word
newspaper
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111502220.0A
Other languages
English (en)
Inventor
张熠
李维萍
周晓文
雷万保
徐阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202111502220.0A priority Critical patent/CN114138942A/zh
Publication of CN114138942A publication Critical patent/CN114138942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于建立适用的情感词典提取文本特征数据,提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法,该方法包括如下步骤:构建情感词典、进一步提取文本特征、对长短期记忆网络LSTM做数学建模以及文本检测及结果输出;有效检测年报文本中的具有情感倾向的文本,从情感的角度发现上市公司违规,解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题,有效克服现有的不足;同时本方法通过设置多方位评估指标,有效提高了上市公司违规检测的效率和准确性。

Description

基于文本情感倾向的违规检测方法
技术领域
本发明涉及金融与计算机科学领域,尤其涉及一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法。
背景技术
目前,使用上市公司年报分析该公司是否违规成为一种趋势,在现有技术中,通过量化年报或管理层讨论与分析部分文本建立机器学习模型,而这种做法并没有考虑管理层情感因素,当公司违规时,管理层会加大使用积极词以此来掩盖公司真实的经营状况,但是现有技术的方法由于在从上市公司年报查找违规时没有考虑文本特征的情感因素,因此使得传统的机器学习方法查找违规的结果并不好,同时评估模型预测能力的指标不够全面。因此,亟待发明一种基于文本情感倾向的违规检测方法,从情感的角度发现上市公司违规。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的。
为实现上述目的,本发明基于建立适用的情感词典提取文本特征数据,提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法,该方法可以很好识别上市公司违规。
具体采用了如下技术方案:
一种基于文本情感倾向的违规检测方法,包括如下步骤:
S1:构建情感词典:获取上市公司年报文本,并利用该文本构建合适情感词典;
S2:进一步提取文本特征:计算基于情感词典的TF-IDF值,然后利用变分自编码器VAE进一步做文本特征提取;
S3:对长短期记忆网络LSTM做数学建模:使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型;
S4:文本检测及结果输出:通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析,基于分析出的数据结果输出年报文本为违规或者正常。
优选地,在S1步骤的构建情感词典的具体步骤如下:
S1-1:从上市公司信息披露网站上下载上市公司年度报告;
S1-2:将年报转换成Html格式;
S1-3:解析年报,使用python解析年报,清理成文本,将年报中的年报标题以及表格中数字占总字数的比例大于25%的表格;
S1-4:提取文本,利用python的jieba库自定义字典功能,选用金融类词典对文本进行分词;
S1-5:参照中文停用词库,手动添加特殊字符,去除停用词;
S1-6:年报保存上述处理的词为.TXT格式,根据保存的年报分词数据建立上市公司的积极和消极词汇词典。
优选地,在步骤S2中,TF-IDF为词频-逆文档频率,是一种统计方法,具体公式如下:
Figure BDA0003402204950000021
其中,N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
优选地,在步骤S2中,变分自编码器包括编码、采样和解码,使用神经网络编码,提取数据特征,再解码生成数据。
优选地,在S3步骤中的长短期记忆网络模型如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure BDA0003402204950000031
Figure BDA0003402204950000032
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是输入向量,it是时间步长t中的输入状态,ft是时间步长t中的遗忘状态,ot是时间步长t中的输出状态,ht-1和Ct-1是时间步长t-1中的隐藏状态和单元状态,以tanh和sigmoid激活函数σ的形式添加非线性,Wf、Wi、WC、Wo分别代表遗忘门、输入门、记忆单元和输出门的权值向量,bf、bi、bC、bo分别代表遗忘门、输入门、记忆单元和输出门的损坏变量,*是矩阵的Hadamard积。
优选地,在S4步骤中,所述VAE-LSTM预测模型内设有多方位评估指标;通过建立多方位评估指标,使所构建的评估模型的预测能力的指标更全面。
优选地,S4步骤中的所述多方位评估指标包括:准确率、敏感度和特异度、综合指标Fβ-score以及假阳性率和真阳性率之间的曲线下覆盖的面积AUC。
优选地,准确率的计算公式为:
Figure BDA0003402204950000033
敏感度的计算公式为:
Figure BDA0003402204950000041
特异度的计算公式为:
Figure BDA0003402204950000042
综合指标Fβ-score的计算公式为:
Figure BDA0003402204950000043
优选地,所述AUC的值越大,越能区分年报违规与正常。
与现有技术相比,本发明的有益效果为:提供一种基于变分自编码器的长短期记忆网络模型,有效检测年报文本中的具有情感倾向的文本,从情感的角度发现上市公司违规,解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题,有效克服现有的不足;同时提出了一种新的数据类型,通过情感词典的统计特征作为数据,最后能够很好的区分违规上市公司;本方法通过设置多方位评估指标,有效提高了上市公司违规检测的效率和准确性。
附图说明
图1为本发明的一种基于文本情感倾向的违规检测方法的流程图;
图2为本发明的一种基于文本情感倾向的违规检测方法的长短期记忆网络模型的原理图。
具体实施方式
为使对本发明的目的、构造、特征、及其功能有进一步的了解,兹配合实施例详细说明如下。
请结合参照图1和图2,本发明提供了一种基于文本情感倾向的违规检测方法,包括如下步骤:
S1:构建情感词典:获取上市公司年报文本,并利用该文本构建合适情感词典;
S2:进一步提取文本特征:计算基于情感词典的TF-IDF(词频-逆文档频率)值,然后利用变分自编码器VAE进一步做文本特征提取;
其中TF-IDF是一种统计方法,能够综合计算这个文档词的重要程度,变分自编码器是使用神经网络编码,提取数据特征,再解码生成数据。
S3:对长短期记忆网络LSTM做数学建模:使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型;
S4:文本检测及结果输出:通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析,基于分析出的数据结果输出年报文本为违规或者正常。
本发明基于现有的方法没有考虑文本情感因素,本方法首先构建适合的情感词典,从巨潮网下载银行业年报,使用python解析年报,清理成文本,分词,Word2Vec训练年报语料库得到200维词向量,计算LM情感词典相似度提取积极、消极词汇,结合中文情感词典,以此来构建银行业情感词典。
所谓词向量又叫Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。词向量的维数即指向量在分量的个数。
优选地,在S1步骤的构建情感词典的具体步骤如下:
S1-1:从上市公司信息披露网站上下载上市公司年度报告;
S1-2:将年报转换成Html格式;
S1-3:解析年报,使用python解析年报,清理成文本,将年报中的年报标题以及表格中数字占总字数的比例大于25%的表格;
S1-4:提取文本,利用python的jieba库自定义字典功能,选用金融类词典对文本进行分词;
S1-5:参照中文停用词库,手动添加特殊字符,去除停用词;
S1-6:年报保存上述处理的词为.TXT格式,根据保存的年报分词数据建立上市公司的积极和消极词汇词典。
优选地,在步骤S2中,TF-IDF为词频-逆文档频率,是一种统计方法,能够综合计算这个文档词的重要程度,具体公式如下:
Figure BDA0003402204950000061
其中,N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
优选地,在步骤S2中,变分自编码器包括编码、采样和解码,使用神经网络编码,提取数据特征,再解码生成数据。
建立预测模型,使用变分自编码器的长短期记忆网络,传统的机器学习模型不能处理复杂数据,深度学习可以模拟人脑分析复杂数据,本方法选用长短期记忆网络深度学习方法,该方法主要设计的公式如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wf[ht-1,xt]+bi)
Figure BDA0003402204950000062
Figure BDA0003402204950000071
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是输入向量,it是时间步长t中的输入状态,ft是时间步长t中的遗忘状态,ot是时间步长t中的输出状态,ht-1和Ct-1是时间步长t-1中的隐藏状态和单元状态,以tanh和sigmoid激活函数σ的形式添加非线性,Wf、Wi、WC、Wo分别代表遗忘门、输入门、记忆单元和输出门的权值向量,bf、bi、bC、bo分别代表遗忘门、输入门、记忆单元和输出门的损坏变量,*是矩阵的Hadamard积。
优选地,在S4步骤中,所述VAE-LSTM预测模型内设有多方位评估指标;通过建立多方位评估指标,使所构建的评估模型的预测能力的指标更全面。
优选地,S4步骤中的所述多方位评估指标包括:准确率、敏感度和特异度、综合指标Fβ-score以及假阳性率和真阳性率之间的曲线下覆盖的面积AUC。
由于现有技术中的评估指标不够全面的评估模型性能,在违规检测中,违规数据与正常数据之间是不平衡的,这时准确率已不能很好的评估模型,应重点关注AUC、召回率、特异度、F2值,评估指标详细介绍如下:
准确率是一种经验性衡量标准,并不能区分不同类别的正确标签的数量,特别是样本不均衡时。
准确率的计算公式为:
Figure BDA0003402204950000072
敏感度(或召回率)和特异度是不同类别区分正确标签的度量,敏感度(真阳性率)是在所有真实违规的样本中有多少被预测为违规,特异度(真阴性率)是在所有正常的数量中有多少被预测为正常。
敏感度的计算公式为:
Figure BDA0003402204950000081
特异度的计算公式为:
Figure BDA0003402204950000082
Fβ-score是衡量模型的综合指标,β=1时,如式(11),F1值是精确度和敏感度的调和平均,同时它们的权重是均匀的,β=2时,如式(12),敏感度的权重高于精确度。
综合指标Fβ-score的计算公式为:
Figure BDA0003402204950000083
β=1时,
Figure BDA0003402204950000084
β=2时,
Figure BDA0003402204950000085
ROC是假阳性率(FPR=1-specificity)和真阳性率(TPR)之间的曲线,AUC代表ROC曲线下的面积,是很好的衡量模型的预测能力,它不依赖模型选择的阈值,对类别不平衡有很好的鲁棒性,AUC值越大,越能区分违规与正常。
本方法的一实施例的具体内容如下:
步骤1:处理年报文本构建合适情感词典
文本预处理过程:
1.巨潮网(中国证监会指定的上市公司信息披露网站)下载215份pdf格式上市银行2010-2019年度报告
2.利用可转换文本格式的第三方软件将所有年报转换成Html格式,方便处理标题、表格、页码等,例如提取标题和表格直接定位<tittle></tittle>和<table></table>两个标签即可。
3.解析年报。年报标题是编写年报的固定格式,通常不含有情感倾向文本,进行删除;通过仔细查看年报表格内容,发现并非所有表格都是财务报表,不能武断全部删除,文本表格与财务报表之间的区别:财务报表数字占比要比其他表格大,表格中数字占总字数的比例大于25%删除,否则保留。标题与表格删除使用Python的BeautifulSoup库实现。
4.提取文本,使用jieba库自定义字典功能,搜狗财经与清华财经是金融类词典,本文用它们作为分词的词典,可以有效避免银行年报分词错误,提高分词准确率,利于后面构建情感词典、计算语调、提取文本特征。
5.哈工大停用词库,手动添加特殊字符(包括银行名称、数字、英文大小写等),去除停用词。
6.年报保存上述处理的词为.TXT。
根据保存的年报分词数据建立上市银行的积极、消极词汇词典LH,其中用到的基础情感词典包括LM英文翻译的词典和清华大学李军中文褒义词典,这两个情感词典不是专业金融领域的词典,故使用Word2Vec对银行年报语料库进行训练,得到200维词向量,计算LM词典前三十积极词和消极词的相似度最高的前3个词,去重合并得到LH情感词典,以此建立适合银行类情感词典,LH词典包括积极词5488,消极词5477。
步骤2:计算基于情感词典的TF-IDF值,然后变分自编码器做特征提取
TF-IDF是一种统计方法,能够综合计算这个文档词的重要程度,公式如下:
Figure BDA0003402204950000101
其中N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
变分自编码器模型提取特征过程如下:变分自编码器主要由编码、采样和解码三部分组成,通过输入的样本X生成X’,其中隐变量Z的分布是未知的,可以通过神经网络将简单正态分布映射为隐变量的分布,μ和δ分别是隐变量Z的均值和标准差,编码器和解码器分别要用到近似后验分布Q(Z|X)和真实后验分布P(X|Z)的条件分布。Q(Z|X)与P(Z|X)尽量近似,可以通过KL散度(式(2))最小化来衡量:
D[Q(Z|X)||P(Z|X)]=EZ~Q[logQ(Z|X)-logP(Z|X) (2)
使用贝叶斯公式P(Z|X)展开得到式(3)
D[Q(Z|X)||P(Z|X)]=EZ~Q[logQ(Z|X)-logP(X|Z)-logP(Z)]+logP(X) (3)
转化形式得到变分自编码器的核心公式如式(4):
logP(X)-D[Q(Z|X)||P(Z|X)]=EZ~Q[logP(X|Z)-D[Q(Z|X)||P(Z)]] (4)
最小化式(4)来达到Q(Z|X)与P(Z|X)尽量近似的目的。
模型VAE训练过程就是输入样本X,使式(4)的损失函数达到最优时,得到的隐变量Z就是后面计算真实分布的深度特征分布,使用解码生成深度特征数据X’。
步骤3:对长短期记忆网络LSTM做数学建模
如图2所示,长短期记忆网络模型原理如下:
ft=σ(Wf[ht-1,xt]+bf) (5)
it=σ(Wf[ht-1,xt]+bi) (6)
Figure BDA0003402204950000111
Figure BDA0003402204950000112
ot=σ(Wo[ht-1,xt]+bo) (9)
ht=ot*tanh(Ct) (10)
其中xt是输入向量,it是时间步长t中的输入状态,ft是时间步长t中的遗忘状态,ot是时间步长t中的输出状态,ht-1和Ct-1是时间步长t-1中的隐藏状态和单元状态,以tanh和sigmoid激活函数σ的形式添加非线性,Wf、Wi、WC、Wo分别代表遗忘门、输入门、记忆单元和输出门的权值向量,bf、bi、bC、bo分别代表遗忘门、输入门、记忆单元和输出门的损坏变量,*是矩阵的Hadamard积。
步骤4:其他机器学习模型与VAE-LSTM模型结果比较
评估指标如下:
准确率是一种经验性衡量标准,并不能区分不同类别的正确标签的数量,特别是样本不均衡时。
Figure BDA0003402204950000113
敏感度(或召回率)和特异度是不同类别区分正确标签的度量,敏感度(真阳性率)是在所有真实违规的样本中有多少被预测为违规,特异度(真阴性率)是在所有正常的数量中有多少被预测为正常。
Figure BDA0003402204950000121
Figure BDA0003402204950000122
Fβ-score是衡量模型的综合指标,β=1时,如式(15),F1值是精确度和敏感度的调和平均,同时它们的权重是均匀的,β=2时,如式(16),敏感度的权重高于精确度。
Figure BDA0003402204950000123
Figure BDA0003402204950000124
Figure BDA0003402204950000125
ROC是假阳性率(FPR=1-specificity)和真阳性率(TPR)之间的曲线,AUC代表ROC曲线下的面积,是很好的衡量模型的预测能力,它不依赖模型选择的阈值,对类别不平衡有很好的鲁棒性,AUC值越大,越能区分违规与正常。
本数据年报下载自巨潮网215份上市银行2010-2019年度,其中违规35条,正常180条,使用的违规数据由CSMAR国泰安和CCER经济金融数据库下载,经过手工合并得到,在上一年度上市银行发布年报后和下一年发布年报前出现至少一次违规事件则变量IsViolated标记1,否则标记0。
表1模型结果对比
Figure BDA0003402204950000131
其中,LR是逻辑回归,Ada、GBDT、XBG分别是AdaBoost、梯度下降树、XGBoost它们都是集成树模型,DNN是深度神经网络,LSTM是长短期记忆网络,VAE-LSTM是基于变分自编码器特征提取的长短期记忆网络。
从表1可以看出,VAE-LSTM模型的AUC最高达到80.48%,F2也是最高的,说明基于变分自编码器的长短期记忆网络模型可以克服现有的不足。
由上所述,本发明的一种基于文本情感倾向的违规检测方法,提供一种基于变分自编码器的长短期记忆网络模型,有效检测年报文本中的具有情感倾向的文本,从情感的角度发现上市公司违规,解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题,有效克服现有的不足;同时提出了一种新的数据类型,通过情感词典的统计特征作为数据,最后能够很好的区分违规上市公司;本方法通过设置多方位评估指标,有效提高了上市公司违规检测的效率和准确性。
本发明已由上述相关实施例加以描述,然而上述实施例仅为实施本发明的范例。必需指出的是,已揭露的实施例并未限制本发明的范围。相反地,在不脱离本发明的精神和范围内所作的更动与润饰,均属本发明的专利保护范围。

Claims (8)

1.一种基于文本情感倾向的违规检测方法,其特征在于:包括如下步骤:
S1:构建情感词典:获取上市公司年报文本,并利用该文本构建合适情感词典;
S2:进一步提取文本特征:计算基于情感词典的TF-IDF值,然后利用变分自编码器VAE进一步做文本特征提取;
S3:对长短期记忆网络LSTM做数学建模:使用变分自编码器VAE的长短期记忆网络LSTM构建出VAE-LSTM预测模型;
S4:文本检测及结果输出:通过VAE-LSTM预测模型对S2步骤中提取的特征数据进行检测分析,基于分析出的数据结果输出年报文本为违规或者正常。
2.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S1步骤的构建情感词典的具体步骤如下:
S1-1:从上市公司信息披露网站上下载上市公司年度报告;
S1-2:将年报转换成Html格式;
S1-3:解析年报,使用python解析年报,清理成文本,将年报中的年报标题以及表格中数字占总字数的比例大于25%的表格;
S1-4:提取文本,利用python的jieba库自定义字典功能,选用金融类词典对文本进行分词;
S1-5:参照中文停用词库,手动添加特殊字符,去除停用词;
S1-6:年报保存上述处理的词为.TXT格式,根据保存的年报分词数据建立上市公司的积极和消极词汇词典。
3.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在步骤S2中,TF-IDF为词频-逆文档频率,是一种统计方法,具体公式如下:
Figure FDA0003402204940000021
其中,N表示年报总数,tfi,j表示第j个年报中出现第i个词的次数之比,dfi表示包含第i个词的年报数。
4.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在步骤S2中,变分自编码器包括编码、采样和解码,使用神经网络编码,提取数据特征,再解码生成数据。
5.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S3步骤中的长短期记忆网络模型如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure FDA0003402204940000022
Figure FDA0003402204940000023
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是输入向量,it是时间步长t中的输入状态,ft是时间步长t中的遗忘状态,ot是时间步长t中的输出状态,ht-1和Ct-1是时间步长t-1中的隐藏状态和单元状态,以tanh和sigmoid激活函数σ的形式添加非线性,Wf、Wi、WC、Wo分别代表遗忘门、输入门、记忆单元和输出门的权值向量,bf、bi、bC、bo分别代表遗忘门、输入门、记忆单元和输出门的损坏变量,*是矩阵的Hadamard积。
6.如权利要求1所述的基于文本情感倾向的违规检测方法,其特征在于:在S4步骤中,所述VAE-LSTM预测模型内设有多方位评估指标;所述多方位评估指标包括:准确率、敏感度和特异度、综合指标Fβ-score以及假阳性率和真阳性率之间的曲线下覆盖的面积AUC。
7.如权利要求6所述的基于文本情感倾向的违规检测方法,其特征在于:准确率的计算公式为:
Figure FDA0003402204940000031
敏感度的计算公式为:
Figure FDA0003402204940000032
特异度的计算公式为:
Figure FDA0003402204940000033
综合指标Fβ-score的计算公式为:
Figure FDA0003402204940000034
8.如权利要求6所述的基于文本情感倾向的违规检测方法,其特征在于:所述AUC的值越大,越能区分年报违规与正常。
CN202111502220.0A 2021-12-09 2021-12-09 基于文本情感倾向的违规检测方法 Pending CN114138942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111502220.0A CN114138942A (zh) 2021-12-09 2021-12-09 基于文本情感倾向的违规检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111502220.0A CN114138942A (zh) 2021-12-09 2021-12-09 基于文本情感倾向的违规检测方法

Publications (1)

Publication Number Publication Date
CN114138942A true CN114138942A (zh) 2022-03-04

Family

ID=80385562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111502220.0A Pending CN114138942A (zh) 2021-12-09 2021-12-09 基于文本情感倾向的违规检测方法

Country Status (1)

Country Link
CN (1) CN114138942A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759088A (zh) * 2023-01-10 2023-03-07 中国测绘科学研究院 一种评论信息的文本分析方法及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086357A (zh) * 2018-07-18 2018-12-25 深圳大学 基于变分自动编码器的情感分类方法、装置、设备及介质
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN110020623A (zh) * 2019-04-04 2019-07-16 中山大学 基于条件变分自编码器的人体活动识别系统及方法
CN110737952A (zh) * 2019-09-17 2020-01-31 太原理工大学 一种结合AE和bi-LSTM的机械设备关键零部件剩余寿命预测方法
CN111931461A (zh) * 2020-08-24 2020-11-13 中国计量大学 一种用于文本生成的变分自编码器
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112598111A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 异常数据的识别方法和装置
CN113158659A (zh) * 2021-02-08 2021-07-23 银江股份有限公司 一种基于司法文本的涉案财物计算方法
CN113423118A (zh) * 2021-06-23 2021-09-21 河南工业大学 一种ads-b报文异常监测方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086357A (zh) * 2018-07-18 2018-12-25 深圳大学 基于变分自动编码器的情感分类方法、装置、设备及介质
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN110020623A (zh) * 2019-04-04 2019-07-16 中山大学 基于条件变分自编码器的人体活动识别系统及方法
CN110737952A (zh) * 2019-09-17 2020-01-31 太原理工大学 一种结合AE和bi-LSTM的机械设备关键零部件剩余寿命预测方法
CN111931461A (zh) * 2020-08-24 2020-11-13 中国计量大学 一种用于文本生成的变分自编码器
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112598111A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 异常数据的识别方法和装置
CN113158659A (zh) * 2021-02-08 2021-07-23 银江股份有限公司 一种基于司法文本的涉案财物计算方法
CN113423118A (zh) * 2021-06-23 2021-09-21 河南工业大学 一种ads-b报文异常监测方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
常吉亮 等: "基于VAE-LSTM模型的航迹异常检测算法", 《交通信息与安全》 *
李少波 等: "《大数据技术原理与实践》", 31 October 2020 *
葛东旭: "《数据挖掘原理与应用》", 30 April 2020 *
郭奉琦 等: "基于变分自编码器的谣言立场分类算法", 《计算机工程》 *
陈平平 等: "基于机器学习的文本情感倾向性分析", 《计算机与现代化》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759088A (zh) * 2023-01-10 2023-03-07 中国测绘科学研究院 一种评论信息的文本分析方法及存储介质

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN110704598B (zh) 一种语句信息的抽取方法、抽取装置及可读存储介质
CN108874768B (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111221939B (zh) 评分方法、装置和电子设备
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN107229610A (zh) 一种情感数据的分析方法及装置
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN107368542B (zh) 一种涉密数据的涉密等级评定方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110377731A (zh) 投诉文本处理方法、装置、计算机设备及存储介质
CN108090099B (zh) 一种文本处理方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106372640A (zh) 一种字频文本分类方法
CN112015862A (zh) 基于层级多通道注意力的用户异常评论检测方法及系统
CN111966944A (zh) 一种多层级用户评论安全审核的模型构建方法
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
CN114138942A (zh) 基于文本情感倾向的违规检测方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN113139061B (zh) 一种基于词向量聚类的案件特征提取方法
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN114969334A (zh) 异常日志检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220304