CN112948541B - 基于图卷积网络的金融新闻文本情感倾向分析方法 - Google Patents
基于图卷积网络的金融新闻文本情感倾向分析方法 Download PDFInfo
- Publication number
- CN112948541B CN112948541B CN202110135244.0A CN202110135244A CN112948541B CN 112948541 B CN112948541 B CN 112948541B CN 202110135244 A CN202110135244 A CN 202110135244A CN 112948541 B CN112948541 B CN 112948541B
- Authority
- CN
- China
- Prior art keywords
- text
- phrase
- list
- matrix
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图卷积网络的金融新闻文本情感倾向分析方法,步骤如下:确定数据源获取金融文本数据;对金融文本数据进行预处理,得到清洁文本列表;对清洁文本列表进行采样得到样本列表;对样本列表进行人工标注;使用清洁文本列表建立异质图;对异质图进行特征提取得到特征矩阵、标签矩阵和邻接矩阵;以特征矩阵为输入,标签矩阵为监督信息,邻接矩阵为图卷积操作的支持矩阵,建立四层图卷积网络;通过迭代训练得到样本列表的分类准确率和清洁文本列表的分类结果。本方法在异质图中引入无标注数据,并可以在没有先验词嵌入知识的情况下进行学习,摆脱web环境下情感词典难以构建、维护的困境和对有标签数据比例和词嵌入效果的强依赖。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于图卷积网络的金融新闻文本情感倾向分析方法。
背景技术
文本情感倾向分析是通过分析对给定文本给予一个情感倾向的评价。在金融文本领域,情感分析被用于财务危机预测研究,金融新闻或评论可以反映民众对上市公司的评价;也被用于投资分析,金融新闻可以较好地反映市场情绪。同时,随着信息网络的不断发展,web信息所能提供的实时准确、全面覆盖的特性,也使得相关任务的落地实施成为可能。
文本情感倾向分析的方法,可以区分为基于语义分析的和基于机器学习方法的两类。其中基于语义分析的方法,主要通过情感词的倾向性计算得到文本的倾向性分数,或通过建立语义模式库进行模式匹配来得到情感倾向值。吴江等人在《基于语义规则的Web金融文本情感分析》提出了一种基于语义规则的web金融证券域文本情感分析方法,用于投资者情感变化与股票市场之间的联动关系展开分析。另一方面,基于机器学习的方法,如经典的深度模型CNN、RNN、LSTM等都在文本信息表示、文本分类任务上取得了一定的成果;同时,基于单词嵌入的模型也在很大程度上促进了该类型任务的发展,一些学者将无监督的单词嵌入聚合为文档嵌入,然后将这些文档嵌入输入分类器,具体见参考文献“Joulin A,GraveE,Bojanowski P,et al.Bag of Tricks for Efficient Text Classification[J].2016”。另一些学者同时学习单词文档和文档标签嵌入,具体见参考文献“Wang,Guoyin,Li,Chunyuan,Wang,Wenlin,Joint Embedding of Words and Labels for TextClassification[J]”。而另一参考文献“Yao L,Mao C,Luo Y.Graph ConvolutionalNetworks for Text Classification[J].2018”提出使用图卷积网络,不必先进行单词嵌入的学习,而是同时学习单词和文档嵌入并进行文本分类。
上述方法中,基于语义分析的方法,需要构建情感词典、语义规则,这在web信息多变的语义环境下去实现和维护是人工成本非常高的方法;而基于机器学习的方法,很多依赖于单词嵌入的效果,或者需要大量的有标签数据进行训练。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于图卷积网络的金融新闻文本情感倾向分析方法。该方法通过网络获取金融新闻数据,构建包含文本和词组的异质图,在异质图中引入无标签数据,通过卷积进行文档标签信息的二步传播,达到使用大量无标签数据提高有标签数据的标签学习的目的;使用图卷积网络进行训练,不依赖于单词嵌入效果,摆脱对有标签数据比例的强依赖,可以在金融新闻的情感倾向分类中获得较好的效果。
本发明的目的可以通过采取如下技术方案达到:
一种基于图卷积网络的金融新闻文本情感倾向分析方法,所述的金融新闻文本情感倾向分析方法包括以下步骤:
S1、确定金融文本数据的来源,选择开源接口或设计网络爬虫来获取稳定的金融文本数据;
S2、文本预处理,对获取的金融文本数据进行去杂项、分词的预处理,得到清洁文本列表;
S3、对清洁文本列表进行采样得到样本列表,并对样本列表进行人工标注,得到标注数据;
S4、使用清洁文本列表建立文本和词组的异质图,异质图以词组和文本作为结点,结点的连边包括以下两种情况:词组-词组连边、词组-文本连边,其中,所述的词组-词组连边根据词组的共现信息建立,所述的词组-文本连边是根据词组频率和词组的文本频率建立;
S5、对异质图进行预处理,分别得到:特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵;
S6、使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层的图卷积网络;
S7、对图卷积网络进行迭代训练,得到在真实训练集上和验证集上的准确率以及最终的分类结果。
进一步地,所述的步骤S1中获取金融文本数据的过程如下:
S101、选取新浪财经实时资讯接口作为开源数据接口,根据开源接口的需求搭建所需开发环境;
S102、通过开源数据接口获取金融文本数据,并将金融文本数据保存为文本列表,若数据源有金融文本对应的发布时间,则存储的文本列表按发布时间从早到晚排序,作为图卷积网络的训练数据;同时,实现实时数据的定时获取功能,定时获取文本列表用于进行当期金融新闻情感倾向的分析。
进一步地,所述的步骤S2中文本预处理的过程如下:
S201、使用正则表达式匹配的方式,去除文本列表中冗余项、乱码符号、特殊符号,得到清洁文本列表D=(D1,D2,...,Di,...,Ddnum),dnum为文本列表的长度,即文本个数,Di表示第i条文本;
S202、使用文本分析工具THULAC或jieba,对清洁文本列表D中的每项进行分词处理,将文本转化为词组列表Di=(Wi1,Wi2,...,Wij,...,Wiwnum),wnum为第i个词组列表的长度,即第i条文本的词组个数,Wij表示第i条文本中的第j个词组。
进一步地,所述的步骤S3中数据采样及标记的过程如下:
S301、若获得的清洁文本列表无对应的发布时间,则对清洁文本列表按比例随机采样;若所获得的清洁文本列表有对应的发布时间,则按照发布时间对每日的数据分别按比例随机采样,得到样本列表Ds,其中,采样比例根据清洁文本列表的长度及标注人员的数量确定;
S302、对样本列表Ds进行人工标注,由专业金融人员对文本的情感倾向进行分类标注,使得每条文本对应一个标注NTi∈(0,1,2),其中,0表示文本的情感倾向消极,1表示文本无明显情感倾向,2表示文本的情感倾向积极。
进一步地,所述的步骤S4中异质图构建的过程如下:
S401、经过步骤S1、S2和S3获得的文本数据为一个清洁文本列表D=(D1,D2,...,Di,...,Ddnum),第i条文本Di对应已分词处理的词组列表(Wi1,Wi2,...,Wij,...,Wiwnum),样本列表Ds为有标注数据,样本列表Ds中的每条文本有一个对应的标注NTi∈(0,1,2),确定数据划分比例,将样本列表Ds按比例划分为总训练集和测试集,总训练集中随机采样10%作为验证集,其余作为真实训练集;
S402、构建词组表和词组-文本表,其中,词组表记录词频,词组-文本表记录词组的文本频率,具体过程如下:
S4021、遍历清洁文本列表D,构建词组表,其中,词组表为记录所有词组和对应出现次数的键值对列表;
S4022、遍历清洁文本列表D,构建词组-文本表,其中,词组-文本表记录词组的文本频率信息,形式为{词组,出现该词组的词组列表,该词组列表的长度}的列表;
S403、构建异质图的结点,包括构建文本结点和构建词组结点,先确定词嵌入的维数,并据此构建文本向量与词组向量来表示文本结点和词组结点,过程如下:
S4031、构建文本结点,即构建与样本列表Ds对应的文本向量列表,构建过程为:遍历样本列表Ds,计算并记录文本向量,文本向量初始化为0,通过计算文本中所有词组的词向量的平均值,作为文本向量的最终值,其中,词向量引入先进的词向量表示或者使用初始化值进行学习;
S4032、构建词组结点,即构建与词组表对应的词组向量列表,构建过程为:遍历词组表,在设定向量值范围内随机初始化为以词嵌入维数为维度的词组向量,使用的词组向量引入先进的词向量表示或者使用初始化值进行学习;
S404、构建异质图的连边,包括构建词组-词组连边和构建词组-文本连边,其中,词组-词组连边的值通过计算两个词组的互信息PMI求得,词组-文本连边的值通过计算词组的词频-逆文本频率指数TF-IDF求得,具体过程如下:
S4041、构建词组-词组连边,通过互信息计算求得词组-词组连边的值,计算公式为:在清洁文本列表D上使用一个固定大小的滑动窗口来收集共现统计信息,首先确定滑动窗口大小,然后将清洁文本列表D按滑动窗口大小划分为对应的滑动窗口列表,公式中,W(k)为出现第k个词组的滑动窗口个数,W(k,l)为同时出现第k个词组和第l个词组的滑动窗口个数,W为数据全集的滑动窗口个数,p(k)为第k个词组出现的概率,p(k,l)为第k个词组和第l个词组同时出现的概率,求得的PMI(k,l)值为正表示两个词组的语义相关性很高,求得的PMI(k,l)值为负则表示语义相关性很小或没有,只将正的PMI值加入到词组-词组连边中;
S4042、构建词组-文本连边,通过词频-逆文本频率指数TF-IDF计算求得词组-文本连边的值,计算公式为: 其中,TFm,n为第m个词组在第n个文本中出现的频率,IDFm为第m个词组的逆向文本频率,nm,n为第m个词组在第n个文本中出现的次数;K为词组表的长度,即所有词组的数量,为第n个文本中所有词组的数量,|D|为清洁文本列表D的长度,|Dm|为出现第m个词组的文本的数量,记录在词组表中。
进一步地,所述的步骤S5中异质图的预处理的过程如下:
S501、对异质图进行预处理,得到特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵,其中,
所述的特征矩阵由步骤S403中表示异质图结点的向量构成,特征矩阵每行对应一个词组向量或文本向量,特征矩阵的列对应词嵌入维数;
所述的邻接矩阵由步骤S404中表示异质图连边的值构成,即异质图的邻接矩阵,邻接矩阵的行和列均对应所有的词组及文本;
所述的标签矩阵由步骤S401中表示样本列表标注的值构成,使用独热编码代替标注的值,标签矩阵每行对应一个文本标注,标签矩阵的列对应独热编码的维数;
所述的归一化邻接矩阵通过对邻接矩阵进行归一化得到;
S502、对邻接矩阵进行处理,设adjp,q为邻接矩阵第p行、第q列的元素,比较所有对称元素adjp,q和adjq,p的值并使较小数取较大数的值,即adjp,q=adjq,p=max(adjp,q,adjq,p),使得邻接矩阵为对称矩阵。
进一步地,所述的步骤S6中图卷积网络的构建过程如下:
使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层图卷积网络,该四层图卷积网络的结构为依次顺序连接的输入层、第一隐层、第二隐层、输出层,其中,所述的输入层输入由异质图结点构成的特征矩阵;
所述的第一隐层和第二隐层的结构相同,输出Hx与输入Hx-1的关系为Hx=σ(AHx- 1Wx-1),其中,x表示层数,A为归一化邻接矩阵,Wx-1为隐层第x层的卷积权值矩阵,σ为隐层使用的激活函数,第一隐层的激活函数选用线性整流函数ReLU,则第一隐层的输出H1=ReLu(AH0W0),其中,H0为特征矩阵,W0为第一隐层的卷积权值矩阵,第二隐层的激活函数选用归一化指数函数softmax,则第二隐层的输出H2=softmax(A ReLu(AH0W0)W1),其中,W1为第二隐层的卷积权值矩阵;
输出层的输入为H2,即每个文本的标签概率向量组成的矩阵,将输入矩阵中每一行的最大值置为1,其余值置为0,得到输出层的输出,由此得到的最终输出为一个独热编码构成的矩阵。
进一步地,所述的步骤S7中迭代训练过程如下:
S701、确定训练的迭代次数以及验证集测试时提前结束训练的训练步数,即早停步,对第一隐层、第二隐层的卷积权值矩阵进行随机初始化;
S702、根据步骤S601中输入层、第一隐层、第二隐层、输出层的表示公式计算输出层的输出,然后计算损失,损失函数定义如下 其中d为文本编号,F为目标分类的类别数,Ydf表示第d个文本是否属于类别f,若是属于则取值为1,否则取值为0,Zdf表示第d个文本属于类别f的概率,根据损失对每一个隐层的卷积权值矩阵进行优化;使用验证集数据的预测结果及标签信息,计算其分类的准确度来评估模型的分类效果;
S703、重复步骤S702中的训练过程直到达到预设的训练次数或者在损失回升时提前终止。
本发明相对于现有技术具有如下的优点及效果:
1、本发明针对金融新闻文本分析领域的特征,在异质图中引入历史无标签数据,通过卷积进行文档标签信息的二步传播,达到利用大量无标签的历史文本信息提高有标签数据的标签学习的目的。
2、相较于语义分析的方法,本发明可以逃脱web环境下情感词典等难以构建和维护的困境。相较于其他的机器学习方法,本发明不需要依赖单词嵌入的效果,且能摆脱对有标签数据比例的强依赖。
附图说明
图1是本发明公开的基于图卷积网络的金融新闻文本情感倾向分析方法的流程图;
图2是本发明实施例中文本词组异质图的示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例公开了一种基于图卷积网络的金融新闻文本情感倾向分析方法,包括以下步骤:数据获取、数据清洗、数据采样、人工标注、构造异质图、图卷积神经网络(简称GCN)训练、获得文本分析结果。具体如下:
步骤S1、使用新浪财经实时资讯接口作为金融文本数据的来源,根据接口编码获取金融文本数据;该步骤S1过程如下:
步骤S101、数据范围选用新浪财经数据源。根据接口需求搭建所需开发环境。
步骤S102、编码实现数据获取,并将金融文本数据保存为文本列表。新浪财经资讯数据有金融文本对应的发布时间,所以存储的文本列表按新闻的发布时间从早到晚排序,作为图卷积网络的训练数据,同时,实现实时数据的定时获取功能,定时获取文本列表用于进行当期金融新闻情绪倾向的分析。在实验过程中,实时获取了最新的400条新闻文本和非最近一周数据中的10000条新闻文本作为文本列表。
步骤S2、文本预处理。对获取的金融文本数据进行去杂项、分词的预处理得到清洁后的文本列表;该步骤S2过程如下:
步骤S201、使用正则表达式匹配的方式,去除文本列表中包含的冗余项、乱码符号、特殊符号,得到清洁文本列表D=(D1,D2,...,Di,...,Ddnum),dnum为文本列表的长度,即文本个数,Di表示第i条文本,例如:去除文本标题的特殊括弧符号,源数据中文本标题以[]括弧;去除编码格式错误出现的乱码文本,获取的数据部分因网络抓取的原因存在编码错误;去除重复数据,获取数据中存在部分数据项重复;
步骤S202、使用THULAC工具对清洁后的文本列表D中的每项进行分词处理,将每一条文本转化为词组列表Di=(Wi1,Wi2,...,Wij,...,Wiwnum),wnum为第i个词组列表的长度,即第i条文本的词组个数,Wij表示第i条文本中的第j个词组,如实验过程中,D1为“广东省政府工作报告:争取国家支持筹建创新型期货交易所、创业板注册制改革、创新横琴分线管理制度等重大事项,积极争取自贸试验区扩区”,获取的词组列表为:“广东 省政府 工作 报告争取 国家 支持 筹建 创新型期货 交易所 创业板 注册制 改革 创新 横琴 分线 管理制度 等 重大事项 积极 争取 自贸 试验区 扩区”。
步骤S3、对清洁后的文本列表进行采样得到样本列表,并对采样列表进行人工标注,得到标注数据;该步骤S3过程如下:
步骤S301、按照发布时间对每日的数据分别按比例随机采样,采样比例为24%,获得采样后的样本列表Ds为2400条新闻文本的列表。
步骤S302、对样本列表Ds进行人工标注,由熟悉金融文本的人员对文本的情感倾向进行分类标注,使得每条文本有一个对应的标注NTi∈(0,1,2),其中,0表示文本的情感倾向消极,1表示文本无明显情感倾向,2表示文本的情感倾向积极。
步骤S4、使用清洁后的文本列表建立文本和词组的异质图,异质图以词组和文本作为结点,结点的连边包括两种情况:词组-词组连边、词组-文本连边,其中,所述的词组-词组连边根据词组的共现信息建立,所述的词组-文本连边是根据词组频率和词组的文本频率建立的,如图2所示,图中方形节点为词组节点,椭圆节点为文本节点,异质图的构建工作,主要是构建结点的值以及结点连边的值。该步骤S4过程如下:
步骤S401、前置步骤获得的文本数据为一个文本列表D=(D1,D2,...,Di,...,Ddnum),第i条文本Di对应已分词处理的词组列表(Wi1,Wi2,...,Wij,...,Wiwnum),其中,样本列表Ds为有标注数据,Ds中的每条文本有一个对应的标注NTi∈(0,1,2),选取数据划分比例,将样本列表Ds按比例划分为总训练集和测试集,总训练集中随机采样10%作为验证集,其余作为真实训练集;
步骤S402、构建词组表和词组-文本表,其中,词组表记录词频,词组-文本表记录词组的文本频率,具体过程如下:遍历文本列表D,构建词组表,其中,词组表为记录所有词组和对应出现次数的键值对列表;遍历文本列表D,构建词组-文本表,其中,词组-文本表记录词组的文本频率信息,形式为{词组,出现该词组的词组列表,该词组列表的长度}的列表;
步骤S403、构建异质图的结点,包括构建文本结点和构建词组结点,先确定词嵌入的维数为300,并据此构建文本向量与词组向量来表示文本结点和词组结点。本实施例中,步骤S403过程如下:
步骤S4031、构建文本结点,即构建与样本列表Ds对应的文本向量列表,构建过程为:遍历样本列表Ds,计算并记录文本向量,文本向量初始化为0,通过计算文本中所有词组的词向量的平均值,作为文本向量的最终值,其中,词向量可以引入先进的词向量表示,也可以使用初始化值进行学习;该计算过程中所使用的词向量可以引入先进的词向量表示作为先验知识,但本发明的方法在未引入预先训练的单词嵌入或外部知识时,可以自动学习单词和文档嵌入,同样可以取得较好的效果。
步骤S4032、构建词组结点,即构建与词组表对应的词组向量列表,构建过程为:遍历词组表,在设定向量值范围内随机初始化为300维的词组向量,使用的词向量可以引入先进的词向量表示,也可以使用初始化值进行学习;
步骤S404、构建异质图的连边,包括构建词组-词组连边和构建词组-文本连边,其中,词组-词组连边的值通过计算两个词组的互信息求得,词组-文本连边的值通过计算词组的词频-逆文本频率指数求得,具体过程如下:
步骤S4041、构建词组-词组连边,通过互信息计算求得词组-词组连边的值,求得的值为正表示两个词组的语义相关性很高,而为负则表示语义相关性很小或没有,只将正的值加入到词组-词组连边中;
步骤S4042、构建词组-文本连边,通过词频-逆文本频率指数TF-IDF计算求得词组-文本连边的值。
步骤S5、对异质图进行预处理,得到特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵,构造过程如下:
S501、对异质图进行预处理,得到特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵,其中,
所述的特征矩阵由步骤S403中表示异质图结点的向量构成,特征矩阵每行对应一个词组向量或文本向量,特征矩阵的列对应词嵌入维数;
所述的邻接矩阵由步骤S404中表示异质图连边的值构成,即异质图的邻接矩阵,邻接矩阵的行和列均对应所有的词组及文本;
所述的标签矩阵由步骤S401中表示样本列表标注的值构成,使用独热编码代替标注的值,标签矩阵每行对应一个文本标注,标签矩阵的列对应独热编码的维数;
所述的归一化邻接矩阵通过对邻接矩阵进行归一化得到;
S502、对邻接矩阵进行处理,设adjp,q为邻接矩阵第p行、第q列的元素,比较所有对称元素adjp,q和adjq,p的值并使较小数取较大数的值,即adjp,q=adjq,p=max(adjp,q,adjq,p),使得邻接矩阵为对称矩阵。
步骤S6、使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层图卷积网络,各层依次为:输入层、第一隐层、第二隐层、输出层,具体结构如下:
输入层输入由异质图结点构成的特征矩阵。
第一隐层和第二隐层结构相同,输出Hx与输入Hx-1的关系为Hx=σ(AHx-1Wx-1),其中,x表示层数,A为归一化邻接矩阵,Wx-1为第x层的卷积权值矩阵,σ为该层使用的激活函数。第一隐层的激活函数选用线性整流函数ReLu,则第一隐层的输出H1=ReLU(AH0W0),其中,H0为特征矩阵,W0为第一隐层的卷积权值矩阵。第二隐层的激活函数选用归一化指数函数softmax,则第二隐层的输出H2=softmax(A ReLu(AH0W0)W1),其中,W1为第二隐层的卷积权值矩阵。
输出层的输入为H2,即每个文本的标签概率向量组成的矩阵,将输入矩阵中每一行的最大值置为1,其余值置为0,得到输出层的输出,由此得到的最终输出为一个独热编码构成的矩阵,例如,H2某一行的向量为[0.2,0,0.8]则表示该文本的情感倾向有20%的可能是积极的,0%的可能性为中立,80%的可能为消极的,本实施例选定较高概率的情感倾向作为最终预测的情感倾向,即判定该文本的情感倾向为消极的,结果为[0,0,1]。
步骤S7、对图卷积网络进行迭代训练,得到在真实训练集上和验证集上的准确率以及最终的分类结果。步骤S7过程如下:
步骤S701、设置早停步s和最大训练次数t,其中s<t,该实施例中设置s=800,t=1000,但不限于此。随机初始化第一隐层、第二隐层的卷积权值矩阵梯度下降算法的更新步长θ负责调整模型训练时权重矩阵更新的比例,该实例中设置θ=0.01;
步骤S702、根据步骤S6中各层公式计算输出层的输出,然后计算损失,损失函数定义如下其中d为文本编号,F为目标分类的类别数,Ydf表示第d个文本是否属于类别f(是则为1,否则为0),Zdf表示第d个文本属于类别f的概率,根据损失对每一个隐层的卷积权值矩阵进行优化;使用验证集数据的预测结果及标签信息,计算其分类的准确度来评估模型的分类效果;
步骤S703、重复步骤S702中的训练过程直到达到预设的训练次数或者在损失回升时提前终止,在训练次数超过设定的早停步后,判断此次验证集损失是否超过早停步之后验证集的平均损失,若超过则代表损失回升,训练提前终止。
对金融新闻文本进行情感倾向分类,即分析为积极情感、消极情感、中性情感三种情感倾向。该方法的人工依赖小、分类准确率高。该实例中,整体准确率为83.36%,消极情感文本中,准确率为93.20%,召回率为70.07%,F1分数为80.00%。积极情感文件中,准确率为88.93%,召回率为94.92%,F1分数为94.14%。相较于其他金融新闻文本情感倾向分析方法,本方法摆脱了需要构建情感词典、语义规则导致的难实现和维护成本高的问题;同时通过在异质图中引入历史无标签数据,实现了利用大量无标签的历史文本信息提高有标签数据的标签学习的目的,从而摆脱对大量数据标注的依赖;在此基础上,本方法可以实现高效的金融新闻文本的情感倾向分类,能够对财务危机预测、投资情绪分析等工作提供有力的支持。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的金融新闻文本情感倾向分析方法包括以下步骤:
S1、确定金融文本数据的来源,选择开源接口或设计网络爬虫来获取稳定的金融文本数据;
S2、文本预处理,对获取的金融文本数据进行去杂项、分词的预处理,得到清洁文本列表;
S3、对清洁文本列表进行采样得到样本列表,并对样本列表进行人工标注,得到标注数据;
S4、使用清洁文本列表建立文本和词组的异质图,异质图以词组和文本作为结点,结点的连边包括以下两种情况:词组-词组连边、词组-文本连边,其中,所述的词组-词组连边根据词组的共现信息建立,所述的词组-文本连边是根据词组频率和词组的文本频率建立;
S5、对异质图进行预处理,分别得到:特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵;
S6、使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层的图卷积网络;
S7、对图卷积网络进行迭代训练,得到在真实训练集上和验证集上的准确率以及最终的分类结果。
2.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S1中获取金融文本数据的过程如下:
S101、选取新浪财经实时资讯接口作为开源数据接口,根据开源接口的需求搭建所需开发环境;
S102、通过开源数据接口获取金融文本数据,并将金融文本数据保存为文本列表,若数据源有金融文本对应的发布时间,则存储的文本列表按发布时间从早到晚排序,作为图卷积网络的训练数据;同时,实现实时数据的定时获取功能,定时获取文本列表用于进行当期金融新闻情感倾向的分析。
3.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S2中文本预处理的过程如下:
S201、使用正则表达式匹配的方式,去除文本列表中冗余项、乱码符号、特殊符号,得到清洁文本列表D=(D1,D2,...,Di,...,Ddnum),dnum为文本列表的长度,即文本个数,Di表示第i条文本;
S202、使用文本分析工具THULAC或jieba,对清洁文本列表D中的每项进行分词处理,将文本转化为词组列表Di=(Wi1,Wi2,...,Wij,...,Wiwnum),wnum为第i个词组列表的长度,即第i条文本的词组个数,Wij表示第i条文本中的第j个词组。
4.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S3中数据采样及标记的过程如下:
S301、若获得的清洁文本列表无对应的发布时间,则对清洁文本列表按比例随机采样;若所获得的清洁文本列表有对应的发布时间,则按照发布时间对每日的数据分别按比例随机采样,得到样本列表Ds,其中,采样比例根据清洁文本列表的长度及标注人员的数量确定;
S302、对样本列表Ds进行人工标注,由专业金融人员对文本的情感倾向进行分类标注,使得每条文本对应一个标注NTi∈(0,1,2),其中,0表示文本的情感倾向消极,1表示文本无明显情感倾向,2表示文本的情感倾向积极。
5.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S4中异质图构建的过程如下:
S401、经过步骤S1、S2和S3获得的文本数据为一个清洁文本列表D=(D1,D2,...,Di,...,Ddnum),第i条文本Di对应已分词处理的词组列表(Wi1,Wi2,...,Wij,...,Wiwnum),样本列表Ds为有标注数据,样本列表Ds中的每条文本有一个对应的标注NTi∈(0,1,2),确定数据划分比例,将样本列表Ds按比例划分为总训练集和测试集,总训练集中随机采样10%作为验证集,其余作为真实训练集;
S402、构建词组表和词组-文本表,其中,词组表记录词频,词组-文本表记录词组的文本频率,具体过程如下:
S4021、遍历清洁文本列表D,构建词组表,其中,词组表为记录所有词组和对应出现次数的键值对列表;
S4022、遍历清洁文本列表D,构建词组-文本表,其中,词组-文本表记录词组的文本频率信息,形式为{词组,出现该词组的词组列表,该词组列表的长度}的列表;
S403、构建异质图的结点,包括构建文本结点和构建词组结点,先确定词嵌入的维数,并据此构建文本向量与词组向量来表示文本结点和词组结点,过程如下:
S4031、构建文本结点,即构建与样本列表Ds对应的文本向量列表,构建过程为:遍历样本列表Ds,计算并记录文本向量,文本向量初始化为0,通过计算文本中所有词组的词向量的平均值,作为文本向量的最终值,其中,词向量引入先进的词向量表示或者使用初始化值进行学习;
S4032、构建词组结点,即构建与词组表对应的词组向量列表,构建过程为:遍历词组表,在设定向量值范围内随机初始化为以词嵌入维数为维度的词组向量,使用的词组向量引入先进的词向量表示或者使用初始化值进行学习;
S404、构建异质图的连边,包括构建词组-词组连边和构建词组-文本连边,其中,词组-词组连边的值通过计算两个词组的互信息PMI求得,词组-文本连边的值通过计算词组的词频-逆文本频率指数TF-IDF求得,具体过程如下:
S4041、构建词组-词组连边,通过互信息计算求得词组-词组连边的值,计算公式为:在清洁文本列表D上使用一个固定大小的滑动窗口来收集共现统计信息,首先确定滑动窗口大小,然后将清洁文本列表D按滑动窗口大小划分为对应的滑动窗口列表,公式中,W(k)为出现第k个词组的滑动窗口个数,W(k,l)为同时出现第k个词组和第l个词组的滑动窗口个数,W为数据全集的滑动窗口个数,p(k)为第k个词组出现的概率,p(k,l)为第k个词组和第l个词组同时出现的概率,求得的PMI(k,l)值为正表示两个词组的语义相关性很高,求得的PMI(k,l)值为负则表示语义相关性很小或没有,只将正的PMI值加入到词组-词组连边中;
6.根据权利要求5所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S5中异质图的预处理的过程如下:
S501、对异质图进行预处理,得到特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵,其中,
所述的特征矩阵由步骤S403中表示异质图结点的向量构成,特征矩阵每行对应一个词组向量或文本向量,特征矩阵的列对应词嵌入维数;
所述的邻接矩阵由步骤S404中表示异质图连边的值构成,即异质图的邻接矩阵,邻接矩阵的行和列均对应所有的词组及文本;
所述的标签矩阵由步骤S401中表示样本列表标注的值构成,使用独热编码代替标注的值,标签矩阵每行对应一个文本标注,标签矩阵的列对应独热编码的维数;
所述的归一化邻接矩阵通过对邻接矩阵进行归一化得到;
S502、对邻接矩阵进行处理,设adjp,q为邻接矩阵第p行、第q列的元素,比较所有对称元素adjp,q和adjq,p的值并使较小数取较大数的值,即adjp,q=adjq,p=max(adjp,q,adjq,p),使得邻接矩阵为对称矩阵。
7.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S6中图卷积网络的构建过程如下:
使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层图卷积网络,该四层图卷积网络的结构为依次顺序连接的输入层、第一隐层、第二隐层、输出层,其中,所述的输入层输入由异质图结点构成的特征矩阵;
所述的第一隐层和第二隐层的结构相同,输出Hx与输入Hx-1的关系为Hx=σ(AHx-1Wx-1),其中,x表示层数,A为归一化邻接矩阵,Wx-1为隐层第x层的卷积权值矩阵,σ为隐层使用的激活函数,第一隐层的激活函数选用线性整流函数ReLU,则第一隐层的输出H1=ReLu(AH0W0),其中,H0为特征矩阵,W0为第一隐层的卷积权值矩阵,第二隐层的激活函数选用归一化指数函数softmax,则第二隐层的输出H2=softmax(AReLu(AH0W0)W1),其中,W1为第二隐层的卷积权值矩阵;
输出层的输入为H2,即每个文本的标签概率向量组成的矩阵,将输入矩阵中每一行的最大值置为1,其余值置为0,得到输出层的输出,由此得到的最终输出为一个独热编码构成的矩阵。
8.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S7中迭代训练过程如下:
S701、确定训练的迭代次数以及验证集测试时提前结束训练的训练步数,即早停步,对第一隐层、第二隐层的卷积权值矩阵进行随机初始化;
S702、根据步骤S601中输入层、第一隐层、第二隐层、输出层的表示公式计算输出层的输出,然后计算损失,损失函数定义如下 其中d为文本编号,F为目标分类的类别数,Ydf表示第d个文本是否属于类别f,若是属于则取值为1,否则取值为0,Zdf表示第d个文本属于类别f的概率,根据损失对每一个隐层的卷积权值矩阵进行优化;使用验证集数据的预测结果及标签信息,计算其分类的准确度来评估模型的分类效果;
S703、重复步骤S702中的训练过程直到达到预设的训练次数或者在损失回升时提前终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110135244.0A CN112948541B (zh) | 2021-02-01 | 2021-02-01 | 基于图卷积网络的金融新闻文本情感倾向分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110135244.0A CN112948541B (zh) | 2021-02-01 | 2021-02-01 | 基于图卷积网络的金融新闻文本情感倾向分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948541A CN112948541A (zh) | 2021-06-11 |
CN112948541B true CN112948541B (zh) | 2022-09-20 |
Family
ID=76240495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110135244.0A Active CN112948541B (zh) | 2021-02-01 | 2021-02-01 | 基于图卷积网络的金融新闻文本情感倾向分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948541B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345590B (zh) * | 2021-06-29 | 2022-12-16 | 安徽大学 | 一种基于异质图的用户心理健康监测方法及系统 |
CN113569480B (zh) * | 2021-07-27 | 2024-02-27 | 同济大学 | 基于图卷积网络的滑环摩擦副镀层材料可靠性分析方法 |
CN113990353B (zh) * | 2021-10-27 | 2024-05-07 | 北京百度网讯科技有限公司 | 识别情绪的方法、训练情绪识别模型的方法、装置及设备 |
CN114742071B (zh) * | 2022-05-12 | 2024-04-23 | 昆明理工大学 | 基于图神经网络的汉越跨语言观点对象识别分析方法 |
CN117909993B (zh) * | 2024-03-01 | 2024-06-21 | 典基网络科技(上海)有限公司 | 一种物联网设备漏洞检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
CN111680225A (zh) * | 2020-04-26 | 2020-09-18 | 国家计算机网络与信息安全管理中心 | 基于机器学习的微信金融消息分析方法及系统 |
CN111858939A (zh) * | 2020-07-27 | 2020-10-30 | 上海五节数据科技有限公司 | 一种基于上下文信息和卷积神经网络的文本情感分类方法 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112035661A (zh) * | 2020-08-24 | 2020-12-04 | 北京大学深圳研究生院 | 基于图卷积网络的文本情感分析方法、系统和电子装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437871B2 (en) * | 2015-08-12 | 2019-10-08 | Hithink Royalflush Information Network Co., Ltd. | Method and system for sentiment analysis of information |
US10810472B2 (en) * | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
-
2021
- 2021-02-01 CN CN202110135244.0A patent/CN112948541B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
CN111680225A (zh) * | 2020-04-26 | 2020-09-18 | 国家计算机网络与信息安全管理中心 | 基于机器学习的微信金融消息分析方法及系统 |
CN111858939A (zh) * | 2020-07-27 | 2020-10-30 | 上海五节数据科技有限公司 | 一种基于上下文信息和卷积神经网络的文本情感分类方法 |
CN112035661A (zh) * | 2020-08-24 | 2020-12-04 | 北京大学深圳研究生院 | 基于图卷积网络的文本情感分析方法、系统和电子装置 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
Non-Patent Citations (1)
Title |
---|
图卷积神经网络综述;徐冰冰等;《计算机学报》;20200531(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112948541A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948541B (zh) | 基于图卷积网络的金融新闻文本情感倾向分析方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110807328A (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN112419096B (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN109325112A (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
Yang et al. | Automatic academic paper rating based on modularized hierarchical convolutional neural network | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN114492327A (zh) | 一种公文智能写作方法 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111897961A (zh) | 一种宽度神经网络模型的文本分类方法及相关组件 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Mishev et al. | Forecasting corporate revenue by using deep-learning methodologies | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN112464669A (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN109325243B (zh) | 字符级基于序列模型的蒙古文切词方法及其切词系统 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN114201583A (zh) | 一种基于图注意力网络的中文金融事件自动抽取方法及系统 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN111581386A (zh) | 多输出文本分类模型的构建方法、装置、设备及介质 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |