CN111476030B - 一种基于深度学习的前瞻因子筛选方法 - Google Patents

一种基于深度学习的前瞻因子筛选方法 Download PDF

Info

Publication number
CN111476030B
CN111476030B CN202010382568.XA CN202010382568A CN111476030B CN 111476030 B CN111476030 B CN 111476030B CN 202010382568 A CN202010382568 A CN 202010382568A CN 111476030 B CN111476030 B CN 111476030B
Authority
CN
China
Prior art keywords
data
factor
industry
research
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010382568.XA
Other languages
English (en)
Other versions
CN111476030A (zh
Inventor
周纯葆
张博尧
王彦棡
曹荣强
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202010382568.XA priority Critical patent/CN111476030B/zh
Publication of CN111476030A publication Critical patent/CN111476030A/zh
Application granted granted Critical
Publication of CN111476030B publication Critical patent/CN111476030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度学习的前瞻因子筛选方法,包括:通过分词,词频统计和词性分析得到因子数据库中的各个因子关键字,并建立因子黑名单;在行业数据库中查询得到行业的时间序列数据;在图表数据库中查询得到该行业的研报图表;通过字符识别技术,得到行业研报图表中的文字信息;通过分词、词频统计和词性分析得到行业研报图表中的关键字,并建立研报黑名单;逐条将行业研报图表关键字和因子关键字进行匹配,得到与该行业相关的因子数据;针对行业数据和因子数据,通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表;针对得到的列表,通过单因素方差分析进行去共线性分析,筛选因子列表得到该行业的前瞻因子。

Description

一种基于深度学习的前瞻因子筛选方法
技术领域
本发明涉及前瞻因子筛选技术,特别涉及一种基于深度学习的前瞻因子筛选方法。
背景技术
在经济系统中,因子的关系错综复杂,前瞻因子对未来行业发展和股价变化具有重要的预测功能。针对结构化数据,在大量的因子(包括:宏观经济学因子,产业因子等)中进行前瞻因子的查找是非常耗时的过程,并且单纯利用时间序列相关性分析很难得到令人满意的结果,存在大量没有内在逻辑关系的因子。行业研报中包含分析师对该行业深度调研后总结的重要信息,可量化的因子往往通过图表展示。非结构化数据中包含了大量有价值的信息,唯有通过自然语言处理(NLP),才能够快速寻找出真正存在内在逻辑关系的前瞻因子。
发明内容
本发明的目的在于,通过结构化数据和非结构化数据结合,因子选择与相关性分析相结合,得到具有内在逻辑的前瞻因子。
为实现上述目的,本发明提供了一种基于深度学习的前瞻因子筛选方法,该方法包括以下步骤:
通过分词,词频统计和词性分析得到因子数据库中的各个因子关键字,并建立因子黑名单,剔除无效关键字;
通过给定的行业,在行业数据库中查询得到行业的时间序列数据;在图表数据库中查询得到该行业的研报图表;
针对行业研报图表,通过字符识别技术,得到行业研报图表中的文字信息;
针对行业研报图表中的文字信息,通过分词、词频统计和词性分析得到行业研报图表中的关键字,并建立研报黑名单,剔除无效关键字;
按照模糊匹配原则,逐条将行业研报图表关键字和因子关键字进行匹配,得到与该行业相关的因子数据;
针对行业数据和因子数据,通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表,并按照相关性排序;
针对得到的因子列表,通过单因素方差分析进行去共线性分析,筛选因子列表得到该行业的前瞻因子。
本发明通过结构化数据和非结构化数据结合,因子选择与相关性分析相结合,可以得到具有内在逻辑的前瞻因子。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明实施例提供的一种基于深度学习的前瞻因子筛选方法流程示意图;
图2为图1所示前瞻因子筛选示例;
图3为图1中三种滑动窗口时差相关系数计算流程示意图。
具体实施方式
图1为本发明实施例提供的一种基于深度学习的前瞻因子筛选方法流程示意图。
在本实施例中,需要建立三个数据库和两个衍生数据库;其中,三个数据库包括行业数据库、研报数据库和因子信息库。其中,行业数据库中包含了行业的时间序列数据,如营收数据、价格数据、指数数据等;研报数据库包含了分析师的行业研报;因子信息库包含了经济学因子(宏观经济学因子、行业因子等)的信息和时间序列数据。两个衍生数据库包括图表数据库和因子数据库,其中,图表数据库包含了从研报数据库中通过研报图表提取得到的图表;因子数据库包含了从因子信息库中通过文字信息提取得到的因子关键信息和相关的时间序列数据。
本实施例方法步骤为:
通过分词,词频统计和词性分析得到因子数据库中的各个因子关键字,并建立因子黑名单,剔除无效关键字。其中,因子黑名单,包括如资产负债表、利润表、现金流量表、所有者权益变动表等。
通过给定的行业,在行业数据库中查询得到行业的时间序列数据,在图表数据库中查询得到该行业的研报图表。
针对行业研报图表,通过光学字符识别(OCR)技术,得到行业研报图表中的文字信息,判定标准为识别准确率大于等于99.9%。
针对行业研报图表中的文字信息,通过分词、词频统计和词性分析得到行业研报图表中的关键字,并建立研报黑名单,剔除无效关键字。
按照模糊匹配原则,如采用行业关键字和因子关键字模糊互匹配(允许关键字拆分匹配)算法,逐条将行业研报图表关键字和因子关键字进行匹配,得到与该行业相关的因子数据。
针对行业数据和因子数据,通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表,并按照相关性排序。滑动窗口时差相关系数均值计算公式如下:
Figure GDA0003470846100000031
公式中,N为窗口数量,N’为窗口长度,通过相关系数排序得到行业相关的因子列表,依次将列表中因子进行单因素方差分析排除列表中与待考察因子具有共线性的因子,最终获得因子列表。
针对得到的行业相关因子和最优先行阶数列表,进行标准化处理(最大最小值标准化),通过单因素方差分析进行去共线性分析,筛选因子列表得到该行业的前瞻因子。图2呈现了前瞻因子筛选示例。
图3为图1中三种滑动窗口时差相关系数计算流程示意图。如图3所示,
实施例一:
第一幅图和第二幅图为第一种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同,窗口大小、先行与滞后范围、最小时间序列长度设置不同),计算流程如下:
设置先行与滞后范围为1、行业数据的起始和终止时间、窗口大小为12。
因子数据向前错位对齐于行业数据,表明因子数据先于行业数据产生,为先行因子,方框线区域为相关系数计算区域,涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据。
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算。
从起始位置开始,以步长1移动窗口,计算窗口中行业数据和因子数据的相关系数,得到相关系数均值。
实施例二:
第三幅图和第四幅图为第二种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同,窗口大小、先行与滞后范围、最小时间序列长度设置不同),计算流程如下:
因子数据向后错位对齐于行业数据,表明因子数据后于行业数据产生,为滞后因子,方框线区域为相关系数计算区域,涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据。
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算。
从起始位置开始,以步长1移动窗口(如窗口2),计算窗口中行业数据和因子数据的相关系数,得到相关系数均值。
实施例三:
第五幅图和第六幅图为第三种滑动窗口时差相关系数计算流程示意图。窗口1大小为12、先行与滞后范围为1、最小时间序列长度为12(根据月度数据、季度数据、年度数据不同,窗口大小、先行与滞后范围、最小时间序列长度设置不同),计算流程如下:
因子数据直接对齐于行业数据,表明因子数据和行业数据同时产生,为同步因子,方框线区域为相关系数计算区域,涉及到数据的补齐。如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据。
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算。
从起始位置开始,以步长1移动窗口(如窗口2),计算窗口中行业数据和因子数据的相关系数,得到相关系数均值。
通过相关系数均值的绝对值排序,得到相关性最高的先行和同步因子列表。
本发明实施例通过结构化数据和非结构化数据结合,因子选择与相关性分析相结合,可以得到具有内在逻辑的前瞻因子。
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims (5)

1.一种基于深度学习的前瞻因子筛选方法,其特征在于,
通过分词,词频统计和词性分析得到因子数据库中的各个因子关键字,并建立因子黑名单,剔除无效关键字;
通过给定的行业,在行业数据库中查询得到行业的时间序列数据;在图表数据库中查询得到该行业的研报图表;
针对行业研报图表,通过字符识别技术,得到行业研报图表中的文字信息;
针对行业研报图表中的文字信息,通过分词、词频统计和词性分析得到行业研报图表中的关键字,并建立研报黑名单,剔除无效关键字;
按照模糊匹配原则,逐条将行业研报图表关键字和因子关键字进行匹配,得到与该行业相关的因子数据;
针对行业数据和因子数据,通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表,并按照相关性排序;
针对得到的因子列表,通过单因素方差分析进行去共线性分析,筛选因子列表得到该行业的前瞻因子;
所述通过滑动窗口时差相关系数均值计算步骤包括:
设定窗口大小为12、先行与滞后范围为1、最小时间序列长度为12;计算流程如下:
设置先行与滞后范围为1、行业数据的起始和终止时间、窗口大小为12;
因子数据向前错位对齐于行业数据,表明因子数据先于行业数据产生,为先行因子;如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据;
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算;
从起始位置开始,以步长1移动窗口,计算窗口中行业数据和因子数据的相关系数,得到相关系数均值;或
所述通过滑动窗口时差相关系数均值计算步骤包括:
设定窗口大小为12、先行与滞后范围为1、最小时间序列长度为12;计算流程如下:
因子数据向后错位对齐于行业数据,表明因子数据后于行业数据产生,为滞后因子;如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据;
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算;
从起始位置开始,以步长1移动窗口,计算窗口中行业数据和因子数据的相关系数,得到相关系数均值;或
所述通过滑动窗口时差相关系数均值计算步骤包括:
设定窗口大小为12、先行与滞后范围为1、最小时间序列长度为12;计算流程如下:
因子数据直接对齐于行业数据,表明因子数据和行业数据同时产生,为同步因子;如果出现两种数据均缺失或某一种数据缺失的情况,该时间节点的数据均不参与计算,得到待计算的因子数据和行业数据;
判断行业数据和因子数据长度,不满足最小时间序列长度,则退出计算,否则继续进行计算;
从起始位置开始,以步长1移动窗口,计算窗口中行业数据和因子数据的相关系数,得到相关系数均值;
通过相关系数均值的绝对值排序,得到相关性最高的先行和同步因子列表。
2.根据权利要求1所述的方法,其特征在于,建立三个数据库,包括行业数据库、研报数据库和因子信息库;其中,行业数据库中包含了行业的时间序列数据;研报数据库包含了分析师的行业研报;因子信息库包含了经济学因子,经济学因子包括宏观经济学因子、行业因子的信息和时间序列数据。
3.根据权利要求1所述的方法,其特征在于,建立两个衍生数据库,包括图表数据库和因子数据库;其中,图表数据库包含了从研报数据库中研报通过图表提取得到的图表;因子数据库包含了从因子信息库中通过文字信息提取得到的因子关键信息和相关的时间序列数据。
4.根据权利要求1所述的方法,其特征在于,所述针对行业研报图表,通过字符识别技术,得到行业研报图表中的文字信息步骤具体为:
针对行业研报图表,通过光学字符识别(OCR)技术,得到行业研报图表中的文字信息,判定标准为识别准确率大于等于99.9%。
5.根据权利要求1所述的方法,其特征在于,针对得到的行业相关因子和最优先行阶数列表,进行标准化处理,所述标准化处理为最大最小值标准化。
CN202010382568.XA 2020-05-08 2020-05-08 一种基于深度学习的前瞻因子筛选方法 Active CN111476030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010382568.XA CN111476030B (zh) 2020-05-08 2020-05-08 一种基于深度学习的前瞻因子筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010382568.XA CN111476030B (zh) 2020-05-08 2020-05-08 一种基于深度学习的前瞻因子筛选方法

Publications (2)

Publication Number Publication Date
CN111476030A CN111476030A (zh) 2020-07-31
CN111476030B true CN111476030B (zh) 2022-03-15

Family

ID=71763042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010382568.XA Active CN111476030B (zh) 2020-05-08 2020-05-08 一种基于深度学习的前瞻因子筛选方法

Country Status (1)

Country Link
CN (1) CN111476030B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312497A (zh) * 2021-06-01 2021-08-27 中国科学院计算机网络信息中心 一种基于知识图谱的前瞻因子筛选方法及其系统
CN113360600A (zh) * 2021-06-03 2021-09-07 中国科学院计算机网络信息中心 一种基于信号衰减的企业业绩预测指标筛选方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930155A (zh) * 2012-10-30 2013-02-13 国网能源研究院 获取电力需求的预警参数的方法及装置
CN103797755A (zh) * 2013-11-04 2014-05-14 华为技术有限公司 一种网络关键性绩效指标的评估方法及装置
CN105825290A (zh) * 2016-01-29 2016-08-03 江苏省电力公司电力经济技术研究院 一种基于产业链产品产量的电量预测方法
CN105913366A (zh) * 2016-04-08 2016-08-31 国网安徽省电力公司经济技术研究院 一种基于工业电力大数据的区域工业景气指数构建方法
CN106022525A (zh) * 2016-05-24 2016-10-12 中国南方电网有限责任公司电网技术研究中心 基于景气指数指标的电力规划方案确定方法及装置
CN106557835A (zh) * 2016-10-24 2017-04-05 南方电网科学研究院有限责任公司 基于景气指数的用电量预测方法和系统
CN106600310A (zh) * 2016-11-04 2017-04-26 重庆邮电大学 一种基于网络搜索指数进行销量预测的方法和系统
CN107590289A (zh) * 2017-10-16 2018-01-16 山东浪潮云服务信息科技有限公司 一种人口数据分析方法以及装置
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法
CN110032591A (zh) * 2018-12-28 2019-07-19 国网浙江省电力有限公司信息通信分公司 一种资产大数据智能分析方法
CN110781229A (zh) * 2018-07-12 2020-02-11 律商联讯风险解决方案公司 用于实体网络分析的系统和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255583B2 (en) * 2007-05-01 2019-04-09 Oracle International Corporation Nested hierarchical rollups by level using a normalized table
US9789423B2 (en) * 2009-02-26 2017-10-17 Liquid Automation Ltd. Filtration apparatus and method for treating granular filtration medium
CN105321113A (zh) * 2014-08-04 2016-02-10 同济大学 一种基于宏观因子的压力测试客户端
CN105809289A (zh) * 2016-03-11 2016-07-27 郑州师范学院 基于大数据的电子商务行业景气度指数系统和方法
US20180165724A1 (en) * 2016-12-13 2018-06-14 International Business Machines Corporation Method and system for contextual business intelligence report generation and display
CN108363709A (zh) * 2017-06-08 2018-08-03 国云科技股份有限公司 一种基于用户使用主成分的图表推荐系统及方法
CN108334591A (zh) * 2018-01-30 2018-07-27 天津中科智能识别产业技术研究院有限公司 基于聚焦爬虫技术的行业分析方法及系统
CN110889291B (zh) * 2019-11-21 2023-06-27 山东浪潮科学研究院有限公司 一种基于深度学习和区块链的研报评价方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930155A (zh) * 2012-10-30 2013-02-13 国网能源研究院 获取电力需求的预警参数的方法及装置
CN103797755A (zh) * 2013-11-04 2014-05-14 华为技术有限公司 一种网络关键性绩效指标的评估方法及装置
CN105825290A (zh) * 2016-01-29 2016-08-03 江苏省电力公司电力经济技术研究院 一种基于产业链产品产量的电量预测方法
CN105913366A (zh) * 2016-04-08 2016-08-31 国网安徽省电力公司经济技术研究院 一种基于工业电力大数据的区域工业景气指数构建方法
CN106022525A (zh) * 2016-05-24 2016-10-12 中国南方电网有限责任公司电网技术研究中心 基于景气指数指标的电力规划方案确定方法及装置
CN106557835A (zh) * 2016-10-24 2017-04-05 南方电网科学研究院有限责任公司 基于景气指数的用电量预测方法和系统
CN106600310A (zh) * 2016-11-04 2017-04-26 重庆邮电大学 一种基于网络搜索指数进行销量预测的方法和系统
CN107590289A (zh) * 2017-10-16 2018-01-16 山东浪潮云服务信息科技有限公司 一种人口数据分析方法以及装置
CN110781229A (zh) * 2018-07-12 2020-02-11 律商联讯风险解决方案公司 用于实体网络分析的系统和方法
CN110032591A (zh) * 2018-12-28 2019-07-19 国网浙江省电力有限公司信息通信分公司 一种资产大数据智能分析方法
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国主要金融市场的风险测量、传染路径及预警研究;赵雪瑾;《中国优秀博硕士学位论文全文数据库(博士)经济与管理科学辑》;20190115(第12期);正文第108-109页 *
基于大数据方法的经济研究_前沿进展与研究综述;李华杰;《经济学家》;20180630;第96-104页 *

Also Published As

Publication number Publication date
CN111476030A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN111476030B (zh) 一种基于深度学习的前瞻因子筛选方法
US10387805B2 (en) System and method for ranking news feeds
CN109063921B (zh) 客户风险预警的优化处理方法、装置、计算机设备和介质
CN105022825A (zh) 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN106372956B (zh) 一种基于用户搜索日志进行意图实体识别的方法和系统
CN109783633B (zh) 数据分析服务流程模型推荐方法
CN105069647A (zh) 一种改进的抽取中文商品评论中评价对象的方法
CN117236324A (zh) 基于tf-idf的关键词提取方法
Maguluri et al. An Efficient Stock Market Trend Prediction Using the Real-Time Stock Technical Data and Stock Social Media Data.
KR101671890B1 (ko) 거래관계 분석 장치 및 방법
CN118096452A (zh) 一种案件辅助审判方法、装置、终端设备及介质
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
CN109460895A (zh) 构建社会单位画像的方法及系统
CN112949322A (zh) 线上文本评论驱动的电商意见挖掘推荐系统
CN112102069A (zh) 一种个人房产按揭贷款信息录入分析系统
KR102514993B1 (ko) 클러스터링을 활용한 입찰 경쟁업체의 투찰금액 예측 방법
CN115935081A (zh) 一种基于用户画像和内容协同过滤的专家推荐方法
Akyol Clustering hotels and analyzing the importance of their features by machine learning techniques
CN114153968A (zh) 基于词属性位置关系与贝叶斯的少样本金融文本分类系统
CN114595379A (zh) 一种数据标准的智能推荐方法及装置
CN112559862A (zh) 一种基于邻近词相似度的产品特征聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant