CN115619443A

CN115619443A - 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统

Info

Publication number: CN115619443A
Application number: CN202110801389.XA
Authority: CN
Inventors: 王建东; 宁竞莜; 沈玉龙; 李嘉辉; 徐凤明; 白铮
Original assignee: Cetc Qingdao Computing Technology Research Institute Co ltd; Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology; Xidian University
Current assignee: Cetc Qingdao Computing Technology Research Institute Co ltd; Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology; Xidian University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-17

Abstract

本发明公开了一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统。本方案利用数据获取模块从web上批量下载所需要的进行情感分析的上市公司年度报告；文本预处理模块将报告进行预处理后变成文本材料；分词提取模块文本进行断句处理，变为词组集合的形式储存；匹配处理模块将使用特定的匹配算法进行处理和分析，展示系统模块将结果进行排序分类展示，系统自学习模块将本次分析预测后的结果与公司下一年的资产收益率进行对比，来达到对于之后的分析预测能够更加精准。本发明具有分析速度快、准确率高、操作方便、系统自学习等特点，能够从网上公开的上市公司年度报告的文本信息里进行数据挖掘，提取其中的感情倾向，并且进行分类。

Description

一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统

技术领域

本发明涉及一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统，属于自然语言处理、机器学习和数据挖掘领域。

技术背景

随着互联网以及信息技术的高速发展，中国互联网的信息量获得了前所未有的增长，越来越多的机构以及个人可以在社交媒体上以各种方式发表自己对于各种事务的观点和态度，如新闻网站、新浪微博、以及其他社交网站等等。海量的信息对于市场预测、战略投资等各个方向都有着巨大的潜在商用价值以及深远的未来影响。因此，对于web金融文本分析以及上市公司年度或半年度报告分析来预测公司经营状况的研究逐步火热起来。

现有的研究表明，管理层正(负)面语调与公司后一年年业绩显著正(负)相关。这些结果说明，在控制了若干年公司业绩等因素之后，业绩说明会上的管理层语调仍能够提供关于公司未来业绩的增量信息，也从事后验证的角度表明管理层语调具有较好的可信度。因此，在中国这种高度依赖语境的文化背景下，如何挖掘和解读上市公司公开报告对于投资者在投资战略方面具有重要的意义。

不同于网络媒体可能报道出来的小道新闻可能具有的难以确定的可信度，上市公司的公开财务报告具有公开、强制性或半强制性、客观现实的特点。对上市公司年度报告进行情感分析的公司经营预测是具有十分强烈的实际参考意义的。

在我国，文本分析应用于金融领域的方法还较少，主要因为：(1)中国基于情感分析的文本分析系统开始较晚。(2)中国是一种高语境传播社会，人们在表达感情和传递信息时间接含蓄，用词隐晦，更难以量化分析。(3)用于情感分析的词库在金融领域可能表现出不适应性，金融领域情感分析和普通领域的情感分析的词库有所不同，需要修改和适配。(4)本方法涉及的知识方面广，在机器学习、NLP(自然语言处理)、计算机技术、金融领域的相关知识均需要有所了解。综上所述，研究一种基于上市公司公开报告来预测公司经营状况的方法势在必行。

发明内容

为了给投资者进行市场分析、战略投资提供更好的帮助和参考，本发明设计了一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统。采用不同于普通语境专门用于金融领域的情感词典和极性词典，采用现有成熟的中文分词技术，对所需要分析的上市公司年度报告进行预处理、分词处理、匹配算法、结果展示和系统自学习等过程，来提供一种对市场分析、战略投资的帮助和参考。

一种基于上市公司年度报告进行情感分析的公司经营预测方法，包括以下步骤：

步骤1：构建情感词典。金融领域情感词典不同于普通语境的情感词典，为了对于金融文本有好的准确率和可信度，需要构建专有的情感词典，其中包括正向情感倾向词语、负面倾向词语，本文所用的情感词典基于语调来进行情感分析的词典，是对于文本感情倾向的一种匹配机制。举个例子，积极词语是当撰写年报的管理层人员对公司的前景持有乐观态度时，会更高频率出现的词语，反之亦然。正向情感倾向词语即为拥有正向情感倾向的词语，例如赢、实现、成功等词语；负面倾向词语即为拥有负面情感倾向的词语，例如错误、慢、消失、否定等，所有词汇本系统内的权值的初始值默认为1，也可由从事金融相关有丰富工作经历经验的人进行更加贴切的赋值，取值范围为[0,2]。系统初期可以主动去下载一些随机年报数据，先让系统进行自学习一些样本来保证更高的准确率。

步骤2：数据的批量获取。选择所需要分析的数据以及数据来源，设计多线程网络爬虫对所需数据进行批量下载。将所需要获取的文本数据链接用自动生成系统生成所需的URL链接，调用数据获取模块的功能将所需数据进行下载并将路径存入到数据库当中在存储的过程中如果已经存在相同的数据，则跳过该条数据的存储。

步骤3：文本预处理模块对数据格式进行预处理。获取到的年报数据是PDF格式或者其他无法直接方便读取格式，需要将数据进行格式的转换，并且进行设置关键字的搜索功能，例如在年度报告中，分析的重点应该放在公司经营状况讨论与分析部分，则在转换后将主要部分的文字以特殊标记留下来，传递给分词提取模块。

步骤4：分词提取模块对格式处理过后的文本进行分词。首先，需要检测格式转换后可能带来的内容错误的部分并基于删除和记录。其次，通过现有的分词框架技术，对于确认没有格式错误的句子逐句进行短句，将断句产生后的词语组成一个集合并以文件的形式记录下来，将文件路径放到数据库存储记录，并传递给匹配算法模块。

步骤5：词典匹配模块对分词结果与金融情感词典进行匹配。将所有的分词结果后的单词与金融情感词典中的单词进行匹配，并统计在每个年报中出现的词语和出现次数，以及积极词汇总数和消极词汇总数，将这些信息都记录在数据库并传递到结果展示模块。

步骤6：结果展示模块将用户所需要预测的数据以Web页面的形式呈现给用户，用户用各种排序、搜索和联想的功能来对结果进行分类和统计。

步骤7：系统自学习模块对于本次用户所需要预测的新样本的预测结果和公司下一年资产收益率进行对比，利用系统预测的偏差值来使系统进行监督学习，修正本系统情感词典中每个单词的权值，以达到本系统自学习的功能，使每个情感词的极性(权值)得到更精准赋值，从而使以后的预测变得更加精准。

优选的，所述的构建专用于本系统的金融情感词典并对于其中的词语权值进行赋值初始化，包括选则合适的金融类情感词典，其中包含正向(积极)情感词汇和负面(消极)情感词汇，并对每个情感词的极性赋予权值，并通过初始样本对于高频情感词的权值进行初始化(取值区间为[0，2])，低频词汇默认权值为1。

优选的，所述的文本预处理模块应当包含格式转换、内容提取和去除无效文本的步骤。

优选的，所述的系统自学习模块获取本次样本中出现次数超过特定值的词组，利用机器学习中监督学习的思想，将预测值与实际指标进行对比，将加权计算后的平均差值以预测公式的逆公式进行推到，从而改变情感词典中该词组的极性(权值)，从而来实现系统的自学习。

本发明还提供一种基于上市公司年度报告进行情感分析的公司经营预测系统，包括：

数据批量获取模块，用于从web下载情感分析的公司年度报告并统计结果；

文件预处理模块，用于对所述数据批量获取模块的统计结果进行预处理；

分词提取模块，用于对所述文件预处理模块的与处理结果进行提取；

词典匹配模块，用于对所述分词提取模块生成的词组集合进行记录和匹配；结果显示模块，用于显示所述词典匹配模块的匹配结果

系统自学习模块，用于对新样本的预测结果与公司下一年资产收益率进行对比，从而修正本系统的各项权值。

优选的，所述词典匹配模块内置金融情感词典，并提取其中的正负面词语并汉化为本系统的初始情感词典

与相关技术相比，本申请具有分析速度快、准确率高、操作方便、系统自学习等特点，能够从网上公开的上市公司年度报告的文本信息里进行数据挖掘，提取其中的感情倾向，并且进行分类，对于用户进行市场预测、战略投资、寻找合作伙伴等方面有着非常重要的帮助与指导意义。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的基于上市公司年度报告进行感情分析的公司经营预测系统的流程图。

图2是本系统自学习功能的实现的流程图。

具体实施方式

下面结合具体实施实例，来进一步说明本发明的思想和内容，应理解这些实施仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明各种等价形式的修改均落于本申请所附专利要求所限定的范围。

如图1所示，本发明设计的一种基于上市公司年度报告进行情感分析的公司经营预测系统，具体包括以下步骤：

步骤一、构建初始情感词典。如果已经进行了该步骤则跳过。为了提高在金融领域情感分析的精准度，可将初始情感词典使用为Loughran&McDonald的2018情感词典，该词典是国外对于金融领域分析的权威词典，受到国际的广泛认可并使用，也可以采用台湾大学NTUSD词典以及其他情感词典。提取其中的正负面词语并汉化为本系统的初始情感词典，权值可以由相关有经验的人进行赋值或者默认为1，取值为[0,2]。下载5000份上市公司年报并用本系统情感分析的机器学习，对于所有情感词典的词语的出现频率进行排序，由高到低，并将出现频率高于1000的词汇进行权值调整。

举个例子，拿正面词汇来说，具体思路是本系统预测的样本公司的加权平均值小于样本公司实际的加权资产收益率(这里权指的是每个词汇出现的频率)，则用算法计算并提高该词汇的权值，如果大于样本公司实际的加权资产收益率，则用算法计算并降低该词汇的权值。

同时，利用5000份样本的情感分析结果，建立与公司下一年的发展趋势(可参考用资产收益率)建立线性回归模型，之后的预测基于情感分析，得到情感分析的结果后，可转换为公司下一年发展趋势的数据。

步骤二、数据的批量获取。将所需要进行预测分析的上市公司数据和数据库中已有的数据进行比对，如果没有则利用网络爬虫从相应的证券交易所的网站上利用Python网络爬虫多线程下载。同时应当对于不同于普通上市公司的样本进行抛弃或者不进行系统学习模块的处理，例如金融类上市公司和ST类公司。

步骤三、对于上市公司年报数据的预处理,具体方法为：

S1、将PDF文件转换为HTML文件,利用格式转换软件(Solid Converter PDF)将PDF格式的年报文件批量转换为HTML格式。

S2、利用Perl的HTML模板，整理年报文本,其中包含以下步骤：

(1).删除所有图片(HTMLtag为“img”)。

(2).针对表格(HTMLtag为“td”)，逐一对单元格进行判断，如果单元格内包含句子符号(包括“，”，“。”，“；”等)或者包含15个及以上中文字符，则保留单元格内信息，否则删除单元格。

(3).段落处理。

(4).删除不包含任何中文字符的字段，多为未标记“td”的表格或者页码行

(5).删除数字及空格字符占段落总字符数大于30％的段落，多为未标记“td”的表格。

(6).删除年报固定格式行；如√适用□不适用、(元)、(股)等。

S3、去除所有HTML的tag，输出纯文本。

步骤四、将文本进行分词处理。可以借助建议中文分词系统SCWS(Simple ChineseWord Segmentation)对年报文字信息进行分词，也可以采取Python的“结巴”分词技术对于预处理过的文本进行分词，返回词语的集合。

步骤五、算法匹配模块。将分词后的词语集合与本系统现有的情感词典进行匹配，并统计在每个年报中出现的词语和它们出现次数，以及积极词汇总数和消极词汇总数，将这些信息都记录在数据库并进入到下一步。

步骤六、将用户所需要预测的数据以Web页面的形式呈现给用户。用户可以用各种排序、搜索和联想的功能来对结果进行分类和统计。可采用任何形式的Web技术均能很容易实现。

将每个公司年度报告的结果中的积极词语总数和消极词语总数记为POS和NEG，POSi和NEGi分别代表某个具体的积极(或消极)词汇在某个年报中出现的次数，并且引入变量TONE代表文本的情感取向，定义如下：

(n代表所有在单个样本中所有出现的情感词语，ω_i代表对应词语的极性和权值)_i

再通过初始化情感词典时得出的资产收益率W与语调TONE之间的线性回归公式，简写为：

W预计＝f(TONE)

并将上市公司前几年的年度报告预测的资产收益率结果与实际资产收益率结果进行对比，得到单个公司情感分析样本可能存在的语调偏差ε，ε的计算如下：

(其中n为公司能统计到的年报数据样本数)

从而得到预测的公司下年资产收益率的计算公式：

W预计＝f(TONE)+ε

最后将计算的结果批量返回到Web界面，供用户进行使用。

步骤七、系统自学习功能。如图2所示，后台建立机器学习模型，对于每次新加入样本后总累计词频超过一定次数的词汇(这里举例1000次)进行监督学习，对于样本预测的下一年资产收益率与实际资产收益率进行比较，将其中的偏差用于反向加权修改情感词典中特定单词的权值，来达到系统自学习的功能。

提供以下公式仅供用于每个情感词语极性(权值)的调整的参考：

w_i修改后＝w_i修改前+Δω

其中，Δω代表某个词语的权值修改幅度，n代表所有出现过该词语的样本总数，μ代表调整幅度，一般取值[0.5,0.8]，w_i实际和w_i预计分别代表实际的公司下一年资产收益率和预测的公司下一年资产收益率，Vi代表待该词语在某个样本中出现的次数，Ti代表该某个样本中所有情感词语的总数。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上市公司年度报告进行情感分析的公司经营预测方法，其特征是所述方法包括：

步骤一构建专用于本系统的金融情感词典并对于其中的所有情感词语权值进行赋值初始化；

步骤二所述数据批量获取模块将所需要进行情感分析的公司年度报告从Web下载到本地并进行数据库的录入，并将下载后的结果统计并传递给文本预处理模块；

步骤三所述文本预处理模块对上市公司年度报告文本进行格式的转换并提取需要感情分析的关键部分，形成系统可直接读取的文本并传递给分词提取模块；

步骤四所述分词提取模块使用分词技术将有效文本转换为词组的集合，并将结果传递给词典匹配模块；

步骤五所述词典匹配模块将每个公司年度报告分词后的结果与本系统特有的金融情感词典进行匹配，统计出每个公司年度报告的情感倾向，并以此来预测公司后一年的经营状况和资产收益率，之后将结果记录到数据库当中并传递给结果展示模块；

步骤六所述结果展示模块将反馈的结果以Web页面的形式呈现给用户，用户用各种排序、搜索和联想的功能来对结果进行分类和统计；

步骤七所述系统自学习模块对本次分析过程中的预测值与公司后一年的资产收益率进行对比。对于高频出现的词汇，将差值使用数学逆公式来修正每个单词的权值，来达到系统的自学习，达到之后的预测变得更加精准的目的。

2.根据权力要求1所述的一种基于上市公司年度报告进行情感分析的公司经营预测方法，其特征在于，所述的构建专用于本系统的金融情感词典并对于其中的词语权值进行赋值初始化，包括选择合适的金融类情感词典，其中包含正向(积极)情感词汇和负面(消极)情感词汇，并对每个情感词的极性赋予权值，并通过初始样本对于高频情感词的权值进行初始化(取值区间为[0，2])，低频词汇默认权值为1。

3.根据权力要求1所述的一种基于上市公司年度报告进行情感分析的公司经营预测方法，其特征在于，所述的文本预处理模块包含格式转换、内容提取和去除无效文本的步骤。

4.根据权力要求1所述的一种基于上市公司年度报告进行情感分析的公司经营预测方法，其特征在于，所述的系统自学习模块获取本次样本中出现次数超过特定值的词组，利用机器学习中监督学习的思想，将预测值与实际指标进行对比，将加权计算后的平均差值以预测公式的逆公式进行推到，从而改变情感词典中该词组的极性(权值)，从而来实现系统的自学习。

5.一种基于上市公司年度报告进行情感分析的公司经营预测系统，其特征在于，包括：

词典匹配模块，用于对所述分词提取模块生成的词组集合进行记录和匹配；

结果显示模块，用于显示所述词典匹配模块的匹配结果；

6.根据权力要求1所述的一种基于上市公司年度报告进行情感分析的公司经营预测系统，其特征在于，所述词典匹配模块内置金融情感词典，并提取其中的正负面词语并汉化为本系统的初始情感词典。