CN115526174A - 一种针对财经文本情感倾向分类的深度学习模型融合方法 - Google Patents

一种针对财经文本情感倾向分类的深度学习模型融合方法 Download PDF

Info

Publication number
CN115526174A
CN115526174A CN202211256290.7A CN202211256290A CN115526174A CN 115526174 A CN115526174 A CN 115526174A CN 202211256290 A CN202211256290 A CN 202211256290A CN 115526174 A CN115526174 A CN 115526174A
Authority
CN
China
Prior art keywords
text
financial
classification
dictionary
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211256290.7A
Other languages
English (en)
Inventor
武畅
王宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211256290.7A priority Critical patent/CN115526174A/zh
Publication of CN115526174A publication Critical patent/CN115526174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对财经文本情感倾向分类的深度学习模型融合方法,包括以下步骤:S1:获取新闻直播网站发布的历史财经新闻信息;S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;S3:用新构建的财经词典,建立新的财经新闻数据集;S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。本发明通过自主采集财经新闻信息,构建新的财经词典,建立新的财经文本数据集,集成训练三个神经网络模型,完成集成多模型财经文本情感倾向分类器的构建工作。

Description

一种针对财经文本情感倾向分类的深度学习模型融合方法
技术领域
本发明属于自然语言处理领域,具体涉及一种针对财经文本情感倾向分类的深度学习模型融合方法。
背景技术
目前,作为自然语言处理(NLP)的基础问题之一,文本分类中的情感倾向分析成为了一大研究热点并吸引了众多学者的关注。
主流的文本情感倾向性分析方法主要有两种,分别为机器学习方法和情感词典方法。前者一般采用的是监督学习方法,主要分成以下几个步骤:首先人工标注数据集,再通过统计学方法发掘文本特征,将文本转化为向量,将数据集传入机器学习模型训练测试,不断优化参数得到最终的分类模型;而后者需提前准备相应的情感词典,相比于上者分析算法较为简单直接,通过在文本中查找情感词并通过一定的算法对情感词赋予一定的情感倾向参数,最终计算出整个文本的情感分值,以此为依据进行文本情感倾向的划分评定。
但是这两种方法都有各自的不足之处。前者效果很大程度上取决于数据集的质量,在前期数据的准备和标注工作上也往往会耗费大量的人力物力;而后者,情感词典方法的分类效果则十分依赖于情感词典,若文本超出情感词典范围,则会对文本的情感分值评定产生最直接的影响,另外中文表达的多样性,使制作并维护一份高质量的情感词典较为困难。
发明内容
本发明的目的是为了解决财经文本情感倾向分类的问题,综合机器学习和情感词典方法,提出了一种集成多模型财经文本情感倾向分类器。
本发明的技术方案是:一种集成多模型财经文本情感倾向分类器包括以下步骤:
S1:获取新闻直播网站发布的历史财经新闻信息;
S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;
S3:用新构建的财经词典,建立新的财经新闻数据集;
S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;
S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。
进一步地,步骤S1包括以下子步骤:
S11:将网络爬虫页面page初值赋为0,用于构造请求;将网络爬虫终止条件值outtag初赋为True,用于结束爬虫循环;
S12:如果终止条件值为False,则完成爬虫程序输出,进入S2步骤;如果终止条件值为True,则网络爬虫页面值递增:page+=1,构造请求头:headers和请求的URL:base_URL并进入S13步骤;
S13:通过get_json_data函数得到响应体,获取到含有新闻内容的json文件,返回json文件中蕴含的多条新闻内容;提取保存新闻内容的关键信息;
S14:休眠3到5秒后,判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件,则将outtage赋为False,回到步骤S11。
进一步地,步骤S2包括以下子步骤:
S21:将步骤S1得到的特定领域语料库(这里特指金融领域)采用Jieba分词工具,完成分词和去停用词处理,形成处理后的语料库;将已有情感词典经过融合和去重处理后,形成融合后的情感词典;
S22:调用Word2Vec算法对S1中处理后的语料库处理,实现对原语料库的词向量表达,获得词向量模型;
S23:由基础财经情感词典和S22得到的词向量模型,构建带有情感标签的词向量集合,以此为样本,训练得到情感词的分类模型;
S24:以基础词典中的词语为种子词,在词向量模型中,从与种子词的词向量余弦相似度最高的前100词中挑选出相似度超过0.65的词,作为候选情感词,从而获得候选情感词集合;
S25:将候选情感词传入S23得到的情感词分类模型,即可得到待扩充的情感词。
进一步地,步骤S3包括以下子步骤:
S31:调用情感分析工具,本文使用senta(百度智能云情感分析API),对获取到的部分财经文本数据进行情感倾向分析。得到senta四种对文本的分类结果如下:
Figure BDA0003886259910000031
S32:根据财经情感词典进行文本情感倾向分析,计算出财经文本正负情感倾向的分值:
Figure BDA0003886259910000032
用labeldictionary表示词典匹配方式对文本的分类判决标签:
Figure BDA0003886259910000033
S33:将结合senta的分类结果和情感词典的分类结果,对获取到的财经文本数据进行初步情感倾向标注:
在置信度较低时,认为labelsenta分类结果几乎不可信,将label初步置为labeldictionary。然而这种情况下文本一般不具有明显情感倾向,需要按照negprob和posprob的差值范围进行后续的判决纠正,对于仅含有单一情感倾向词的文本,将二者差值较小的文本标注为中性;对于不含情感词或者含有正负两种情感倾向词的文本,当二者差值较大时则认为labelsenta分类结果更为合理;
在中等置信度情况下,当negprob和posprob的差值足够大或着文本中不含情感倾向词时,将label初始置为labelsenta,否则置为labeldictionary。若是文中仅含有单一情感倾向词,将label值纠正为labeldictionary
在置信度较高时,认为labelsenta分类结果基本可信,且文本的情感倾向较为明显,则将label初步置为labelsenta。在这种情况下对标签进行纠正需靠考虑两方面,若文本中仅含有单一情感倾向词,将label值纠正为labeldictionary;否则考虑negprob和posprob的差值范围,若二者差值足够小即认为文本为中性;
S34:综合形成包含24.5万条财经文本数据、带情感标签的金融财经情感数据集。
进一步地,步骤S4包括以下子步骤:
S41:采用Word2vec算法预训练词嵌入模型,对超过最大文本长度(这里设置为150)的文本进行截断,反之则将文本进行补齐至最大长度。
S42:对于TextCNN模型,将分词处理后的文本送入三条通道,采用64个卷积核,其中三个通道的卷积核(convolutionkernel)大小分别设置为5×5,4×4,3×3;
S43:当文本经过三条通道卷积后,通过ReLU激活函数后,进行最大池化(MaxPooling)操作;
S44:在文本完成池化(Pooling)操作后,将三条通道的输出结果经flatten操作后形成序列;经过Dropout操作后,输入给全连接层(FC),改变维度后,由Softmax得到归一化后的分类结果。由此形成TextCNN的模型构建;
S45:对于LSTM和Bi-LSTM,设置隐状态为128;选取LSTM模型最后时刻的隐状态作为文本的特征传入全连接层获取分类输出;选取双向的LSTM最后输出的隐状态进行拼接后传入全连接层获取分类输出;
这里采用LSTM和Bi-LSTM网络进行训练,
主要考虑是以LSTM机制的输入门:it=σ(Wi·[ht-1,xt]+bi)
遗忘门:
Figure BDA0003886259910000051
输出门:ot=σ(Wo·[ht-1,xt]+bO)
从而实现两种记忆机制:
长记忆:
Figure BDA0003886259910000052
短记忆:ht=ot*tanh(Ct)
S46:采用交叉熵损失函数:Lossi=-∑jti,jlog(pi,j)
Figure BDA0003886259910000053
对于S42中的TextCNN以及S45中的LSTM和Bi-LSTM都采用交叉熵损失进行训练。
进一步地,步骤S5包括以下子步骤:
S51:将训练数据集进行切分成三等份,每个子分类器选取其中两份作为训练集,剩下的一份作为测试集成神经网络分类模型的性能;
S52:在子模型训练完毕后,将数据集样本传入分类模型,通过结合多个模型的分类结果再次进行分类判决,对数据集标签进行更新;在结合分类模型时,使用投票法对三个分类器的返回结果进行统计,取最高票数的分类结果考虑到三分类可能出现的平票现象,出现平票现象的样本被视为无效判决样本;
S53:对于S52中的无效判决样本,将其作为长文本进行分句,并计算得到原文短句列表的情感评分Score(sentence)
Figure BDA0003886259910000061
其中Qi为第i个短句的权重
Qi=func(i)=2-i-1
而T(clsi)为第i个短句的情感倾向
Figure BDA0003886259910000062
S54:根据Score(sentence)的分类结果,可以计算得到文本最终分类结果。本文的分类结果如下,根据得分所处的区间,来判断最终的分类结果。
Figure BDA0003886259910000063
附图说明
图1为集成多模型财经文本情感倾向分类的流程图;
图2为使用爬虫程序捕获财经新闻文本;
图3为使用金融语料库扩充现存金融情感词典;
图4为结合财经情感词典和开源工具进行标注;
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种针对财经文本情感倾向分类的深度学习模型融合方法,包括以下步骤:
本发明的技术方案是:一种集成多模型财经文本情感倾向分类器包括以下步骤:
S1:获取新闻直播网站发布的历史财经新闻信息;
S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;
S3:用新构建的财经词典,建立新的财经新闻数据集;
S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;
S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。
进一步地,步骤S1包括以下子步骤:
S11:将网络爬虫页面page初值赋为0,用于构造请求;将网络爬虫终止条件值outtag初赋为True,用于结束爬虫循环,如图2所示;
S12:如果终止条件值为False,则完成爬虫程序输出,进入S2步骤;如果终止条件值为True,则网络爬虫页面值递增:page+=1,构造请求头:headers和请求的URL:base_URL并进入S13步骤;
S13:通过get_json_data函数得到响应体,获取到含有新闻内容的json文件,返回json文件中蕴含的多条新闻内容;提取保存新闻内容的关键信息;
S14:休眠3到5秒后,判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件,则将outtage赋为False,回到步骤S11。
进一步地,步骤S2包括以下子步骤:
S21:将步骤S1得到的特定领域语料库(这里特指金融领域)采用Jieba工具,完成分词和去停用词处理,形成处理后的语料库;将已有情感词典经过融合和去重处理后,形成融合后的情感词典;
S22:调用Word2Vec算法对S1中处理后的语料库处理,实现对原语料库的词向量表达,获得词向量模型;
S23:由基础财经情感词典和S22得到的词向量模型,构建带有情感标签的词向量集合,以此为样本,训练得到情感词的分类模型;
S24:以基础词典中的词语为种子词,在词向量模型中,从与种子词的词向量余弦相似度最高的前100词中挑选出相似度超过0.65的词,作为候选情感词,从而获得候选情感词集合;
S25:将候选情感词传入S23得到的情感词分类模型,即可得到待扩充的情感词,如图3所示。
进一步地,步骤S3包括以下子步骤:
S31:调用情感分析工具,本文使用senta(百度智能云情感分析API),对获取到的部分财经文本数据进行情感倾向分析。得到senta四种对文本的分类结果如下:
Figure BDA0003886259910000081
S32:根据财经情感词典进行文本情感倾向分析,计算出财经文本正负情感倾向的分值:
Figure BDA0003886259910000091
用labeldictionary表示词典匹配方式对文本的分类判决标签:
Figure BDA0003886259910000092
S33:将结合senta的分类结果和情感词典的分类结果,对获取到的财经文本数据进行初步情感倾向标注,如图4所示:
在置信度较低时,认为labelsenta分类结果几乎不可信,将label初步置为labeldictionary。然而这种情况下文本一般不具有明显情感倾向,需要按照negprob和posprob的差值范围进行后续的判决纠正,对于仅含有单一情感倾向词的文本,将二者差值较小的文本标注为中性;对于不含情感词或者含有正负两种情感倾向词的文本,当二者差值较大时则认为labelsenta分类结果更为合理;
在中等置信度情况下,当negprob和posprob的差值足够大或着文本中不含情感倾向词时,将label初始置为labelsenta,否则置为labeldictionary。若是文中仅含有单一情感倾向词,将label值纠正为labeldictionary
在置信度较高时,认为labelsenta分类结果基本可信,且文本的情感倾向较为明显,则将label初步置为labelsenta。在这种情况下对标签进行纠正需靠考虑两方面,若文本中仅含有单一情感倾向词,将label值纠正为labeldictionary;否则考虑negprob和posprob的差值范围,若二者差值足够小即认为文本为中性;
S34:综合形成包含24.5万条财经文本数据、带情感标签的金融财经情感数据集。
进一步地,步骤S4包括以下子步骤:
S41:采用Word2vec算法预训练词嵌入模型,对超过最大文本长度(这里设置为150)的文本进行截断,反之则将文本进行补齐至最大长度;
S42:对于TextCNN模型,将分词处理后的文本送入三条通道,采用64个卷积核,其中三个通道的卷积核(convolutionkernel)大小分别设置为5×5,4×4,3×3;
S43:当文本经过三条通道卷积后,通过ReLU激活函数后,进行最大池化(MaxPooling)操作;
S44:在文本完成池化(Pooling)操作后,将三条通道的输出结果经flatten操作后形成序列;经过Dropout操作后,输入给全连接层(FC),改变维度后,由Softmax得到归一化后的分类结果。由此形成TextCNN的模型构建;
S45:对于LSTM和Bi-LSTM,设置隐状态为128;选取LSTM模型最后时刻的隐状态作为文本的特征传入全连接层获取分类输出;选取双向的LSTM最后输出的隐状态进行拼接后传入全连接层获取分类输出;
S46:采用交叉熵损失函数:Lossi=-∑jti,jlog(pi,j)
Figure BDA0003886259910000101
对于S42中的TextCNN以及S45中的LSTM和Bi-LSTM都采用交叉熵损失进行训练。
进一步地,步骤S5包括以下子步骤:
S51:将训练数据集进行切分成三等份,每个子分类器选取其中两份作为训练集,剩下的一份作为测试集成神经网络分类模型的性能;
S52:在子模型训练完毕后,将数据集样本传入分类模型,通过结合多个模型的分类结果再次进行分类判决,对数据集标签进行更新;在结合分类模型时,使用投票法对三个分类器的返回结果进行统计,取最高票数的分类结果考虑到三分类可能出现的平票现象,出现平票现象的样本被视为无效判决样本;
S53:对于S52中的无效判决样本,将其作为长文本进行分句,并计算得到原文短句列表的情感评分Score(sentence)
Figure BDA0003886259910000111
其中Qi为第i个短句的权重
Qi=func(i)=2-i-1
而T(clsi)为第i个短句的情感倾向
Figure BDA0003886259910000112
S54:根据Score(sentence)的分类结果,可以计算得到文本最终分类结果;本文的分类结果如下,根据得分所处的区间,来判断最终的分类结果。
Figure BDA0003886259910000113
S55:为了衡量最终模型的分类性能,在验证集上对多模型分类器和单个子分类器进行性能对比,如表1所示:
表1
Figure BDA0003886259910000114
为了衡量最终的财经文本情感分类模型的泛化能力,采用人工标注的财经文本数据集,对现有的情感分析工具和本文提出的多模型分类器的分类性能进行测试对比,如表2所示。本文选取了三种现有的通用情感分析工具,分别是百度智能云情感分析工具,SnowNLP中文情感分析工具,Hanlp情感分析接口。
表2
Figure BDA0003886259910000121
通过对比,本专利提出的多模型融合情感倾向分类器可以有效地对中文财经文本的情感倾向进行分类,在中文财经文本情感倾向分类问题上准确率相比于现有的通用中文开源情感分析工具提升了20%以上。

Claims (6)

1.一种针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,包括以下步骤:
S1:获取新闻直播网站发布的历史财经新闻信息;
S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;
S3:用新构建的财经词典,建立新的财经新闻数据集;
S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;
S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。
2.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S1包括以下子步骤:
S11:将网络爬虫页面page初值赋为0,用于构造请求;将网络爬虫终止条件值outtag初赋为True,用于结束爬虫循环;
S12:如果终止条件值为False,则完成爬虫程序输出,进入S2步骤;如果终止条件值为True,则网络爬虫页面值递增:page+=1,构造请求头:headers和请求的URL:base_URL并进入S13步骤;
S13:通过get_json_data函数得到响应体,获取到含有新闻内容的json文件,返回json文件中蕴含的多条新闻内容;提取保存新闻内容的关键信息;
S14:休眠3到5秒后,判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件,则将outtage赋为False,回到步骤S11。
3.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S2包括以下子步骤:
S21:将步骤S1得到的特定领域语料库(这里特指金融领域)采用中文分词工具,完成分词和去停用词处理,形成处理后的语料库;将已有情感词典经过融合和去重处理后,形成融合后的情感词典;
S22:调用Word2Vec算法对S1中处理后的语料库处理,实现对原语料库的词向量表达,获得词向量模型;
S23:由基础财经情感词典和S22得到的词向量模型,构建带有情感标签的词向量集合,以此为样本,训练得到情感词的分类模型;
S24:以基础词典中的词语为种子词,在词向量模型中,按照一定的规则,挑选出与种子词的词向量余弦相似度满足一定条件的词,作为候选情感词,从而获得候选情感词集合;
S25:将候选情感词传入S23得到的情感词分类模型,即可得到待扩充的情感词。
4.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S3包括以下子步骤:
S31:利用文本情感分类工具,对获取到的部分财经文本数据进行情感倾向分析。得到对文本的分类结果如下:
Figure FDA0003886259900000021
S32:根据财经情感词典进行文本情感倾向分析,计算出财经文本正负情感倾向的分值:
Figure FDA0003886259900000022
用labeldictionary表示词典匹配方式对文本的分类判决标签:
Figure FDA0003886259900000031
S33:将结合文本情感分类结果和情感词典的分类结果,对获取到的财经文本数据进行初步情感倾向标注:
在置信度较低时,认为labelsenta分类结果几乎不可信,将label初步置为labeldictionary。然而这种情况下文本一般不具有明显情感倾向,需要按照negprob和posprob的差值范围进行后续的判决纠正,对于仅含有单一情感倾向词的文本,将二者差值较小的文本标注为中性;对于不含情感词或者含有正负两种情感倾向词的文本,当二者差值较大时则认为labelsenta分类结果更为合理;
在中等置信度情况下,当negprob和posprob的差值足够大或文本中不含情感倾向词时,将label初始置为labelsenta,否则置为labeldictionary。若是文中仅含有单一情感倾向词,将label值纠正为labeldictionary
在置信度较高时,认为labelsenta分类结果基本可信,且文本的情感倾向较为明显,则将label初步置为labelsenta。在这种情况下对标签进行纠正需靠考虑两方面,若文本中仅含有单一情感倾向词,将label值纠正为labeldictionary;否则考虑negprob和posprob的差值范围,若二者差值足够小即认为文本为中性;
S34:综合上述的方法,处理大量的财经文本数据,获得带情感标签的金融财经情感数据集。
5.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S4包括以下子步骤:
S41:采用Word2vec算法预训练词嵌入模型,对超过最大文本长度的文本进行截断,反之则将文本进行补齐至最大长度;
S42:对于TextCNN模型,将分词处理后的文本送入三条通道,采用64个卷积核,其中三个通道的卷积核(convolution kernel)大小分别设置为5×5,4×4,3×3;
S43:当文本经过三条通道卷积后,通过ReLU激活函数后,进行最大池化(MaxPooling)操作;
S44:在文本完成池化(Pooling)操作后,将三条通道的输出结果经flatten操作后形成序列;经过Dropout操作后,输入给全连接层(FC),改变维度后,由Softmax得到归一化后的分类结果。由此形成TextCNN的模型构建;
S45:对于LSTM和Bi-LSTM,设置隐状态为128;选取LSTM模型最后时刻的隐状态作为文本的特征传入全连接层获取分类输出;选取双向的LSTM最后输出的隐状态进行拼接后传入全连接层获取分类输出;
S46:采用交叉熵损失函数:Lossi=-∑jti,jlog(pi,j)
Figure FDA0003886259900000041
对于S42中的TextCNN以及S45中的LSTM和Bi-LSTM都采用交叉熵损失进行训练。
6.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S5包括以下子步骤:
S51:将S34得到的数据集进行切分成三等份,每个子分类器选取其中两份作为训练集,剩下的一份作为测试集成神经网络分类模型的性能;
S52:在子模型训练完毕后,将数据集样本传入分类模型,通过结合多个模型的分类结果再次进行分类判决,对数据集标签进行更新;在结合分类模型时,使用投票法对三个分类器的返回结果进行统计,取最高票数的分类结果考虑到三分类可能出现的平票现象,出现平票现象的样本被视为无效判决样本;
S53:对于S52中的无效判决样本,将其作为长文本进行分句,并计算得到原文短句列表的情感评分Score(sentence)
Figure FDA0003886259900000051
其中Qi为第i个短句的权重
Qi=func(i)=2-i-1
而T(clsi)为第i个短句的情感倾向,可以设定对应的规则,本专利选取了较为简单的权重赋值方式:
Figure FDA0003886259900000052
S54:根据Score(sentence)的分类结果,可以计算得到文本最终分类结果。
CN202211256290.7A 2022-10-12 2022-10-12 一种针对财经文本情感倾向分类的深度学习模型融合方法 Pending CN115526174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211256290.7A CN115526174A (zh) 2022-10-12 2022-10-12 一种针对财经文本情感倾向分类的深度学习模型融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256290.7A CN115526174A (zh) 2022-10-12 2022-10-12 一种针对财经文本情感倾向分类的深度学习模型融合方法

Publications (1)

Publication Number Publication Date
CN115526174A true CN115526174A (zh) 2022-12-27

Family

ID=84702026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256290.7A Pending CN115526174A (zh) 2022-10-12 2022-10-12 一种针对财经文本情感倾向分类的深度学习模型融合方法

Country Status (1)

Country Link
CN (1) CN115526174A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108859A (zh) * 2023-03-17 2023-05-12 美云智数科技有限公司 情感倾向确定、样本构建、模型训练方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108859A (zh) * 2023-03-17 2023-05-12 美云智数科技有限公司 情感倾向确定、样本构建、模型训练方法、装置及设备

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113806547A (zh) 一种基于图模型的深度学习多标签文本分类方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN112541083A (zh) 一种基于主动学习混合神经网络的文本分类方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN112269874A (zh) 一种文本分类方法及系统
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN115526174A (zh) 一种针对财经文本情感倾向分类的深度学习模型融合方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN117034921B (zh) 一种基于用户数据的提示学习训练方法、装置和介质
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination