CN113361262A

CN113361262A - 一种企业经营业绩预测先行指标筛选方法及系统

Info

Publication number: CN113361262A
Application number: CN202110620532.5A
Authority: CN
Inventors: 周纯葆; 王彦棡; 王珏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07

Abstract

本发明提供一种企业经营业绩预测先行指标筛选方法，包括：获取目标企业的研报图表和营业收入，并从所述研报图表中提取研报关键词并计算研报关键词向量；从行业数据库中获取所述目标企业所属行业的宏观指标和产业指标的指标关键词，并计算得到指标词向量和指标值；确定研报关键词向量与指标词向量的逻辑相关性；确定所述指标值与所述营业收入的数学相关性；根据所述逻辑相关性和数学相关性确定各指标的综合相关性，并得到相关指标列表；根据相关指标列表得到目标企业的前瞻指标。通过基于逻辑相关性与数学相关性融合的前瞻因子筛选，可以将该企业的前瞻指标进行排序，获得相关性较高的指标，以提高对企业经营业绩预测的准确性。

Description

一种企业经营业绩预测先行指标筛选方法及系统

技术领域

本发明涉及指标筛选技术领域,尤其涉及一种企业经营业绩预测先行指标筛选方法及系统。

背景技术

在预测上市公司业绩时，往往需要用到宏观指标、行业数据指标，市场上可以采购到的宏观指标和行业数据指标数量级庞大(几十万条，甚至上百万条)，传统人工筛选的方法需要消耗大量的人力，并且需要筛选的人员对上市公司业务情况及宏观、行业指标有非常深入的研究和了解，但受限于人注意力和精力有限，因此在筛选时往往可能漏掉很多高价值的宏观、行业先行指标；或者随着时间推移和上市公司经营范围的变化，上市公司经营业绩的先行指标也会发生变化，因此需要一种新型的利用计算机高效、相对准确的筛选上市公司经营业绩预测先行指标的筛选方法。

发明内容

有鉴于此，本申请实施例提供了一种企业经营业绩预测先行指标筛选方法。

第一方面，本申请实施例提供了一种企业经营业绩预测先行指标筛选方法，包括：

获取目标企业的研报图表和营业收入，并从所述研报图表中提取研报关键词，对所述研报关键词进行计算得到所述研报关键词向量；

从行业数据库中获取所述目标企业所属行业的宏观指标和产业指标；并从所述宏观指标和产业指标中获取指标关键词，对所述指标关键词进行计算得到指标词向量；

确定所述研报关键词向量与所述指标词向量的逻辑相关性；

获取所述宏观指标和产业指标的指标值，并确定所述指标值与所述营业收入的数学相关性；

根据所述逻辑相关性和数学相关性确定各指标的综合相关性，并根据所述综合相关性确定相关指标列表；

对所述相关指标列表中的指标进行去共线性分析，得到所述目标企业的前瞻指标。

可选地，所述从所述研报文件中提取研报关键词包括：

通过字符识别技术得到所述研报图表中的文字信息；

针对所述研报图表中的文字信息，通过分词、词频统计和词性分析得到所述研报图表中的关键词。

可选地，通过字符识别技术得到所述研报图表中的文字信息包括：

针对目标企业的研报图表，通过OCR技术，得到所述目标企业研报图表中的文字信息，其中判定标准为识别准确率大于等99.9％。

可选地，所述对所述研报关键词进行计算得到研报关键词向量包括：

获取所述研报关键词在所有研报图表中的出现频率和上下文的共现频率；

根据所述出现频率和上下文的共现频率确定所述研报关键词向量。

可选地，所述对所述指标关键词进行计算得到指标词向量包括：

获取所述关键词在所述指标文件中的出现频率和在所述指标文件中的上下文的共现频率；

根据所述出现频率和所述共现频率确定所述指标词向量。

可选地，所述根据所述综合相关性确定相关指标列表包括：

将所述宏观指标和所述产业指标按照综合相关性由大到小的顺序进行排序，并选取排名前N个指标组成相关指标列表，其中N为大于等于1的自然数。

可选地，所述对所述相关指标列表中的指标进行去共线性分析包括：差分法、逐步回归分析、主成份分析、单因素方差分析中的至少一种。

第二方面，本申请实施例提供了一种企业经营业绩预测先行指标筛选系统，其特征在于，包括：

采集单元，用于采集目标企业的研报图表和营业收入以及采集所述目标企业所属的行业数据库中的宏观指标和产业指标；

处理单元，用于从所述研报图表中提取研报关键词以及从所述宏观指标和产业指标中提取指标关键词，并对所述研报关键词进行计算得到研报关键词向量，对所述指标关键词进行计算得到指标词向量；确定所述研报关键词向量与所述指标词向量的逻辑相关性；

所述处理单元，还用于根据所述宏观指标和产业指标确定所述宏观指标和产业指标的指标值，并确定所述指标值与所述营业收入的数学相关性；根据所述逻辑相关性和数学相关性确定指标的综合相关性，将所述宏观指标和产业指标按照所述指标相关性排序，得到相关指标列表；对所述相关指标列表中的指标进行去共线性分析，得到所述目标企业的前瞻指标。

本申请实施例提供一种企业经营业绩预测先行指标筛选方法，通过基于逻辑相关性与数学相关性融合的前瞻因子筛选，可以将该企业的前瞻指标进行排序，获得相关性较高的指标，以提高对企业经营业绩预测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种企业经营业绩预测先行指标筛选系统的结构示意图；

图2为本申请实施例提供的一种企业经营业绩预测先行指标筛选方法的流程图；

图3为本申请实施例提供的又一种企业经营业绩预测先行指标筛选方法的流程图；

图4为采用Word2Vec模型获取关键词的词向量的流程图；

图5为基于逻辑相关性与数学相关性融合的前瞻因子筛选结果示意；

图6基于逻辑相关性与数学相关性融合的前瞻因子筛选去共线性结果示意。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明申请实施例提供的一种企业经营业绩预测先行指标筛选系统的结构示意图，如图1所示，包括：采集单元101、处理单元102、存储单元103、显示单元104。这些元件可以连接到内部总线，也可以通过单独的布线彼此连接。

采集单元101用于根据用户输入的企业名称获取该企业的研报图表和营业收入。以及根据用户输入的企业名称确定该企业所属的行业，并获取该行业数据库中中的宏观指标和行业指标。然后将获取的研报图表、营业收入、宏观指标和产业指标存储在存储单元103中，以供处理单元102调用。

处理单元102用于根据采集单元101采集的研报图表提取研报关键词以及根据宏观指标和产业指标提取指标关键词，并对该研报关键词进行计算得到研报关键词向量，对该指标关键词进行计算得到指标词向量；然后计算所研报关键词向量与指标词向量的逻辑相关性。

进一步地，处理单元102还用于根据宏观指标和产业指标确定宏观指标和产业指标的指标值，并计算该指标值与营业收入的数学相关性。然后根据逻辑相关性和数学相关性确定指标的综合相关性，并将宏观指标和产业指标按照综合相关性排序，得到相关指标列表。最后对相关指标列表中的指标进行去共线性分析，得到目标企业的前瞻指标。并通过显示单元104展示给用户。

图2、图3均为本发明申请实施例提供的一种企业经营业绩预测先行指标筛选方法的流程图，如图3所示，包括以下步骤：

步骤S301：获取目标企业的研报图表和营业收入，并从该研报图表中提取关键词，对关键词进行计算得到关键词词向量；

根据目标企业的企业名称来获取目标企业的研报图表和营业收入。其中，可以根据该目标企业的企业名称搜索其官网，在目标企业的官方网站上下载该目标企业的研报图表和营业收入。

在下载目标企业的研报图表时，选取的标准为大于20页的研报图表为高质量的研报图表并进行下载。

由于下载的研报图表多为图像文件，因此还需要从下载的研报图表中提取出文件信息。具体地，可以通过光学字符识别(Optical Character Recognition,OCR)对下载的图像文件进行分析识别处理，获取文字及版面信息。

针对研报图表中的文字信息，通过分词、词频统计和词性分析得到该图该研报图表中的关键词。然后根据该关键词在所有研报图表中的出现频率以及在上下文的共现频率，确定该关键词的词向量。

在一个可能的示例中，还可以通过Word2Vec模型来获取研报图表中的关键词的词向量。Word2Vec是从大量文本中学习语义知识的一种模型，采用无监督的方式。简单来说就是通过训练大量文本，将文本中的词用向量形式表示。图4为采用Word2Vec模型获取关键词的词向量的流程图。主要步骤包括：使用Skip-Gram或者CBOW获得(输入词，输出词)对。使用one-hot编码将输入词、输出词进行编码。前面这两步得到模型的训练样本。最后将编码过的输入词、输出词带入神经网络进行训练，输入矩阵乘输入-隐层权重矩阵结果即为输入词的词向量结果。

步骤S302，根据目标企业从行业数据库中获取目标企业所属行业的宏观指标和产业指标；并从宏观指标和产业指标中获取指标关键词，对指标关键词进行计算得到指标词向量；

从目标企业所属行业的行业数据库中获取宏观指标和产业指标，并根据获得的宏观指标和产业指标提取指标关键字，并确定获得的关键词的词向量

其中，获得指标关键词的方法与步骤S101中获取关键词的方法相同，在此，不再赘述。

步骤S303，计算所述关键词词向量与所述指标词向量的逻辑相关性；

步骤S304，获取所述宏观指标和产业指标的指标值，并计算所述指标值与所述营业收入的数学相关性；

其中，每一个指标都对应了一个指标值，获取的指标值是指存储在数据库中的时间序列数据，可以通过数据库操作进行提取。

步骤S305，根据逻辑相关性和数学相关性确定指标的综合相关性，并将宏观指标和产业指标按照综合相关性排序，得到相关指标列表；

在根据各指标与关键词的逻辑相关性以及各指标与营业收入的数学相关性确定各指标的相关性时，逻辑相关性和数学相关性的比例可以根据用户的需求进行调整。当用户更关注逻辑相关性时，可以提高逻辑相关性的权重，当用户更关注数学相关性时，可以提高数学相关性的权重。

步骤S306，对相关指标列表中的指标进行去共线性分析，得到目标企业的前瞻指标。

在一个可能的示例中，可以通过单因素方差分析法、差分法、逐步回归分词、主成分分析中的至少一种对得到的相关性列表进行去共线性分析。

在本发明申请实施例中，通过逻辑相关性和数学相关性融合的前瞻因子筛选，可以将企业的前瞻指标进行排序，获得相关性较高的指标，以提高对企业经营业绩的预测准确率。

在一个可能的实施例中，以A公司为例，通过基于逻辑相关性与数学相关性融合的前瞻因子筛选得到相关性较高的宏观指标和产业指标如图5所示。在对相关性较高的宏观指标和产业指标进行去共线性分析以后，得到最终的企业前瞻因子，如图6所示。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种企业经营业绩预测先行指标筛选方法，其特征在于，包括：

确定所述研报关键词向量与所述指标词向量的逻辑相关性；

2.根据权利要求1所述的方法，其特征在于，所述从所述研报文件中提取研报关键词包括：

通过字符识别技术得到所述研报图表中的文字信息；

3.根据权利要求2所述的方法，其特征在于，通过字符识别技术得到所述研报图表中的文字信息包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述研报关键词进行计算得到研报关键词向量包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述指标关键词进行计算得到指标词向量包括：

根据所述出现频率和所述共现频率确定所述指标词向量。

6.根据权利要求1所述的方法，其特征在于，所述根据所述综合相关性确定相关指标列表包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述相关指标列表中的指标进行去共线性分析包括：差分法、逐步回归分析、主成份分析、单因素方差分析中的至少一种。

8.一种企业经营业绩预测先行指标筛选系统，其特征在于，包括：