CN111476030B

CN111476030B - 一种基于深度学习的前瞻因子筛选方法

Info

Publication number: CN111476030B
Application number: CN202010382568.XA
Authority: CN
Inventors: 周纯葆; 张博尧; 王彦棡; 曹荣强; 王珏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-03-15
Anticipated expiration: 2040-05-08
Also published as: CN111476030A

Abstract

本发明涉及一种基于深度学习的前瞻因子筛选方法,包括：通过分词，词频统计和词性分析得到因子数据库中的各个因子关键字，并建立因子黑名单；在行业数据库中查询得到行业的时间序列数据；在图表数据库中查询得到该行业的研报图表；通过字符识别技术，得到行业研报图表中的文字信息；通过分词、词频统计和词性分析得到行业研报图表中的关键字，并建立研报黑名单；逐条将行业研报图表关键字和因子关键字进行匹配，得到与该行业相关的因子数据；针对行业数据和因子数据，通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表；针对得到的列表，通过单因素方差分析进行去共线性分析，筛选因子列表得到该行业的前瞻因子。

Description

一种基于深度学习的前瞻因子筛选方法

技术领域

本发明涉及前瞻因子筛选技术，特别涉及一种基于深度学习的前瞻因子筛选方法。

背景技术

在经济系统中，因子的关系错综复杂，前瞻因子对未来行业发展和股价变化具有重要的预测功能。针对结构化数据，在大量的因子(包括：宏观经济学因子，产业因子等)中进行前瞻因子的查找是非常耗时的过程，并且单纯利用时间序列相关性分析很难得到令人满意的结果，存在大量没有内在逻辑关系的因子。行业研报中包含分析师对该行业深度调研后总结的重要信息，可量化的因子往往通过图表展示。非结构化数据中包含了大量有价值的信息，唯有通过自然语言处理(NLP)，才能够快速寻找出真正存在内在逻辑关系的前瞻因子。

发明内容

本发明的目的在于，通过结构化数据和非结构化数据结合，因子选择与相关性分析相结合，得到具有内在逻辑的前瞻因子。

为实现上述目的，本发明提供了一种基于深度学习的前瞻因子筛选方法,该方法包括以下步骤：

通过分词，词频统计和词性分析得到因子数据库中的各个因子关键字，并建立因子黑名单，剔除无效关键字；

通过给定的行业，在行业数据库中查询得到行业的时间序列数据；在图表数据库中查询得到该行业的研报图表；

针对行业研报图表，通过字符识别技术，得到行业研报图表中的文字信息；

针对行业研报图表中的文字信息，通过分词、词频统计和词性分析得到行业研报图表中的关键字，并建立研报黑名单，剔除无效关键字；

按照模糊匹配原则，逐条将行业研报图表关键字和因子关键字进行匹配，得到与该行业相关的因子数据；

针对行业数据和因子数据，通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表，并按照相关性排序；

针对得到的因子列表，通过单因素方差分析进行去共线性分析，筛选因子列表得到该行业的前瞻因子。

本发明通过结构化数据和非结构化数据结合，因子选择与相关性分析相结合，可以得到具有内在逻辑的前瞻因子。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明实施例提供的一种基于深度学习的前瞻因子筛选方法流程示意图；

图2为图1所示前瞻因子筛选示例；

图3为图1中三种滑动窗口时差相关系数计算流程示意图。

具体实施方式

图1为本发明实施例提供的一种基于深度学习的前瞻因子筛选方法流程示意图。

在本实施例中，需要建立三个数据库和两个衍生数据库；其中，三个数据库包括行业数据库、研报数据库和因子信息库。其中，行业数据库中包含了行业的时间序列数据，如营收数据、价格数据、指数数据等；研报数据库包含了分析师的行业研报；因子信息库包含了经济学因子(宏观经济学因子、行业因子等)的信息和时间序列数据。两个衍生数据库包括图表数据库和因子数据库，其中，图表数据库包含了从研报数据库中通过研报图表提取得到的图表；因子数据库包含了从因子信息库中通过文字信息提取得到的因子关键信息和相关的时间序列数据。

本实施例方法步骤为：

通过分词，词频统计和词性分析得到因子数据库中的各个因子关键字，并建立因子黑名单，剔除无效关键字。其中，因子黑名单，包括如资产负债表、利润表、现金流量表、所有者权益变动表等。

通过给定的行业，在行业数据库中查询得到行业的时间序列数据，在图表数据库中查询得到该行业的研报图表。

针对行业研报图表，通过光学字符识别(OCR)技术，得到行业研报图表中的文字信息，判定标准为识别准确率大于等于99.9％。

针对行业研报图表中的文字信息，通过分词、词频统计和词性分析得到行业研报图表中的关键字，并建立研报黑名单，剔除无效关键字。

按照模糊匹配原则，如采用行业关键字和因子关键字模糊互匹配(允许关键字拆分匹配)算法，逐条将行业研报图表关键字和因子关键字进行匹配，得到与该行业相关的因子数据。

针对行业数据和因子数据，通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表，并按照相关性排序。滑动窗口时差相关系数均值计算公式如下：

公式中，N为窗口数量，N’为窗口长度，通过相关系数排序得到行业相关的因子列表，依次将列表中因子进行单因素方差分析排除列表中与待考察因子具有共线性的因子，最终获得因子列表。

针对得到的行业相关因子和最优先行阶数列表，进行标准化处理(最大最小值标准化)，通过单因素方差分析进行去共线性分析，筛选因子列表得到该行业的前瞻因子。图2呈现了前瞻因子筛选示例。

图3为图1中三种滑动窗口时差相关系数计算流程示意图。如图3所示，

实施例一：

第一幅图和第二幅图为第一种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同，窗口大小、先行与滞后范围、最小时间序列长度设置不同)，计算流程如下：

设置先行与滞后范围为1、行业数据的起始和终止时间、窗口大小为12。

因子数据向前错位对齐于行业数据，表明因子数据先于行业数据产生，为先行因子，方框线区域为相关系数计算区域，涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据。

判断行业数据和因子数据长度，不满足最小时间序列长度，则退出计算，否则继续进行计算。

从起始位置开始，以步长1移动窗口，计算窗口中行业数据和因子数据的相关系数，得到相关系数均值。

实施例二：

第三幅图和第四幅图为第二种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同，窗口大小、先行与滞后范围、最小时间序列长度设置不同)，计算流程如下：

因子数据向后错位对齐于行业数据，表明因子数据后于行业数据产生，为滞后因子，方框线区域为相关系数计算区域，涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据。

从起始位置开始，以步长1移动窗口(如窗口2)，计算窗口中行业数据和因子数据的相关系数，得到相关系数均值。

实施例三：

第五幅图和第六幅图为第三种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同，窗口大小、先行与滞后范围、最小时间序列长度设置不同)，计算流程如下：

因子数据直接对齐于行业数据，表明因子数据和行业数据同时产生，为同步因子，方框线区域为相关系数计算区域，涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据。

通过相关系数均值的绝对值排序，得到相关性最高的先行和同步因子列表。

本发明实施例通过结构化数据和非结构化数据结合，因子选择与相关性分析相结合，可以得到具有内在逻辑的前瞻因子。

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于深度学习的前瞻因子筛选方法,其特征在于，

针对得到的因子列表，通过单因素方差分析进行去共线性分析，筛选因子列表得到该行业的前瞻因子；

所述通过滑动窗口时差相关系数均值计算步骤包括：

设定窗口大小为12、先行与滞后范围为1、最小时间序列长度为12；计算流程如下：

设置先行与滞后范围为1、行业数据的起始和终止时间、窗口大小为12；

因子数据向前错位对齐于行业数据，表明因子数据先于行业数据产生，为先行因子；如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据；

判断行业数据和因子数据长度，不满足最小时间序列长度，则退出计算，否则继续进行计算；

从起始位置开始，以步长1移动窗口，计算窗口中行业数据和因子数据的相关系数，得到相关系数均值；或

所述通过滑动窗口时差相关系数均值计算步骤包括：

因子数据向后错位对齐于行业数据，表明因子数据后于行业数据产生，为滞后因子；如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据；

所述通过滑动窗口时差相关系数均值计算步骤包括：

因子数据直接对齐于行业数据，表明因子数据和行业数据同时产生，为同步因子；如果出现两种数据均缺失或某一种数据缺失的情况，该时间节点的数据均不参与计算，得到待计算的因子数据和行业数据；

从起始位置开始，以步长1移动窗口，计算窗口中行业数据和因子数据的相关系数，得到相关系数均值；

2.根据权利要求1所述的方法，其特征在于，建立三个数据库，包括行业数据库、研报数据库和因子信息库；其中，行业数据库中包含了行业的时间序列数据；研报数据库包含了分析师的行业研报；因子信息库包含了经济学因子，经济学因子包括宏观经济学因子、行业因子的信息和时间序列数据。

3.根据权利要求1所述的方法，其特征在于，建立两个衍生数据库，包括图表数据库和因子数据库；其中，图表数据库包含了从研报数据库中研报通过图表提取得到的图表；因子数据库包含了从因子信息库中通过文字信息提取得到的因子关键信息和相关的时间序列数据。

4.根据权利要求1所述的方法，其特征在于，所述针对行业研报图表，通过字符识别技术，得到行业研报图表中的文字信息步骤具体为：

5.根据权利要求1所述的方法，其特征在于，针对得到的行业相关因子和最优先行阶数列表，进行标准化处理，所述标准化处理为最大最小值标准化。