CN106897797A

CN106897797A - 一种基于社会网络聚类的股票指数跟踪预测方法及系统

Info

Publication number: CN106897797A
Application number: CN201710100466.2A
Authority: CN
Inventors: 刘海飞; 许金涛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2017-06-27

Abstract

本发明公开了一种基于社会网络聚类的股票指数跟踪预测方法，首先从第三方数据库中采集上月和当月的指数以及成份股数据，并对数据进行清洗，得到能用于研究的样本内数据和样本外数据；然后，用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池,并用指数跟踪优化模型实现股票池股票对标的指数的最优跟踪，确定指数跟踪的最优权重；最后，将样本内训练得到的股票池和最优权重运用于样本外数据的指数跟踪，得到预测的指数。本发明还提出一种股票指数跟踪预测系统，构建的股票池相关性低、跟踪误差较小、复制结果稳定性好，实现了对指数的精确跟踪。

Description

一种基于社会网络聚类的股票指数跟踪预测方法及系统

技术领域

本发明涉及一种证券数据分析处理方法及系统，尤其涉及一种基于社会网络聚类的指数复制模型构建技术，属于数据分析及预测技术领域。

背景技术

股票价格指数是通过对股票市场上一些有代表性的公司发行的股票价格进行平均计算和动态对比后得出的数值。股票价格指数能综合考察股票市场的动态变化过程，反映股票市场的价格水平，为社会公众提供股票投资和合法的股票增值活动的参考依据，这些有代表性的公司股票被笼统的称为成份股。比如，上证180指数和深证100指数就是沪、深股市中两个具有典型代表性的指数，而构成上述指数的股票就分别称为上证180指数成份股和深圳100指数成份股。成份股的选择主要考虑两条标准：一是成份股的市价总值要占在交易所上市的全部股票市价总值的相当部分；二是成份股价格变动趋势必须能反映股票市场价格变动的总趋势。

期现套利涉及股指期货市场和证券现货市场，能间接反映市场的有效性和成熟度，对提高两个市场的流动性和增强两个市场的价格发现功能具有重要意义。期现套利主要是对股指期货与现货之间基差进行套利。股指期货与对应现货间理论上具有稳定的均衡关系，但是现实中由于信息不对称、投资者情绪、市场波动等因素会出现股指期货价格相对于现货价格被高估或者低估的不平衡现象，而呈现动态均衡关系。可见，想要实现期现套利，主要取决于以下两个条件：一是股指期货的标的指数跟踪效果良好；二是指数基金流动性好，股指期货与现货的基差动态均衡。所以，指数复制(跟踪预测指数涨跌)是规避风险和套利投机中必不可少的操作手段。

目前的指数复制技术主要包括以下几种：

基于市值排序方法的指数复制：市值排序法是对标的指数(如沪深300指数)成份股按照日均市值降序排序，依次选取一定数量股票构建股票池，利用二次指数跟踪模型确定最优投资权重，进行标的指数的复制。

基于权重排序方法的指数复制：权重排序法是对标的指数成份股按照日均权重均值降序，依次选取一定数量股票构建股票池，利用二次指数跟踪模型确定最优投资权重，进行标的指数的复制。

现有基于成份股的指数复制技术，过多考虑的是市值因素和权重因素等，忽视了一些小市值股票在指数构成中的作用；选股的股票所属行业单一，分散化程度低；没有考虑股票间的关联性，股票的相关性较高。

发明内容

本发明所要解决的技术问题是：提出一种新的基于社会网络聚类的指数跟踪预测方法，在全面考虑个股间的关联性的条件下，通过聚类分析提取相关性较低且具有代表性的股票构建股票池进行指数复制研究。

本发明为解决上述技术问题采用以下技术方案：

一种基于社会网络聚类的股票指数跟踪预测方法，包括以下步骤：

(1)、从第三方数据库中采集上月和当月的指数以及成份股数据，并对数据进行清洗，得到能用于研究的样本内数据和样本外数据；所述样本内数据为指数及其成份股上月的前复权1分钟收盘价数据，所述样本外数据为指数及其成份股当月的前复权1分钟收盘价数据；

(2)、根据样本内数据构建训练模型，对成份股采用社会网络聚类模型构建股票池，并用指数跟踪优化模型确定最优权重；

(3)、将样本内训练得到的股票池和最优权重运用于样本外数据的指数跟踪，得到预测的指数。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，在步骤(1)中，对所有收盘价数据进行数据清洗，包括：剔除缺失严重的股票、删除第一天和最后一天停市或数据缺失的股票、删除所有股票和指数及期货缺失超过一半的时刻、对缺失数据进行线性插值补全、再次对首末存在缺失的时刻进行删除，最终得到研究的样本内、样本外数据。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，在步骤(2)中，是从成份股中提取相关性低且具有代表性的股票构建股票池，具体流程包括：用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，在步骤(2)中，所述指数跟踪优化模型是通过最优化模型实现股票池股票对标的指数的最优跟踪，具体为：用股票池股票的线性组合得到跟踪指数，以跟踪指数与标的指数的跟踪误差最小为目标，进行二次优化模型求解股票的最优线性组合，确定最优权重。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，在步骤(2)中，用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池，具体如下：

A、计算研究样本的对数收益率r_i(t)，r_i(t)＝lnp_i(t)-lnp_i(t-1)，得到指数以及成份股的对数收益率序列；其中，p_i(t)表示第i只成分股在第t时间的前复权收盘价；

B、基于对数收益率序列，计算任意两只股票i和j在观测时间内股价波动的线性相关系数ρ_ij，其中E(r_i)表示第i只股票在样本内的平均对数收益率，t₁表示样本内总交易天数；

C、根据任意两只股票间的相关系数构建相应的相关系数矩阵C，其中C为对角线为1的对称矩阵；

D、将相关系数ρ_ij转化为对应的度量距离d_ij，将相关系数矩阵C转化为距离矩阵D，以距离矩阵D表示任意两只股票间的度量距离，得到成份股间的社会网络，其中D为对角线为0的对称矩阵；

E、对成份股间的社会网络进行自适应仿射传播AAP聚类，通过不断调整偏向参数值确定一系列包含不同簇的聚类结果，并提取每一组聚类结果的每簇的聚类中心分别构建股票池。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，在步骤(2)中，针对每组聚类结果，通过二次指数跟踪优化模型确定最优权重，并引入跟踪误差TE度量指数跟踪效果的好坏。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，所述二次指数跟踪优化模型为：

minε′ε＝(R_I-R_Xw)′(R_I-R_Xw)

其中，ε代表指数跟踪优化模型的跟踪误差，ε＝R_I-R_Xw，R_I表示指数的收益率向量，R_X＝(R₁,R₂,…R_N)为股票的收益率矩阵，w＝(w₁,w₂,…,w_N)′为股票权重向量，N代表聚类中心股票的数量；

所述跟踪误差：

当跟踪误差最小时，可以确定指数跟踪的最优权重。

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，当得到的权重需要进行修正时，修正方法如下：

a)计算投资使用的资金总量：依据实际投资需求或相应期货价格，确定投资自己可使用总量M；

b)计算各股票的最优投资量：每只股票的最优投资量为：

n_i＝w_i×M/P_i(t₁)

其中：P_i(t₁)表示第i只股票第一个月最后一个交易日的收盘价；

c)计算各股票的实际投资量：对n_i取2位整数，得到实际投资量

d)计算各股票真实的权重：利用实际投资量和股票价格P_i(t₁)，计算各股票的真实权重公式如下：

同时，利用真实权重计算真实的跟踪误差，即：

进一步，本发明的基于社会网络聚类的股票指数跟踪预测方法，利用各股票的实际投资量及第一个月每分钟的收盘价可计算复制的指数价格P_X(t)，定义为：

通过对每组聚类结果分别计算真实跟踪误差并绘制跟踪误差随聚类结果数变化曲线图，通过对曲线图的走势分析确定既定最终的股票个数及最优的投资权重；将股票池以及最优权重带入样本外，即可得到样本的跟踪指数。

本发明还提出一种基于社会网络聚类的股票指数跟踪预测系统方法，具体包括：

数据处理模块，用于从第三方数据库中采集上月和当月的指数以及成份股数据，并对数据进行清洗，得到能用于研究的样本内数据和样本外数据；所述样本内数据为上月的指数及其成份股前复权1分钟收盘价数据，所述样本外数据为当月的指数及其成份股前复权1分钟收盘价数据；

训练模块，用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池,并用指数跟踪优化模型实现股票池股票对标的指数的最优跟踪，确定指数跟踪的最优权重；

预测模块，将样本内训练得到的股票池和最优权重运用于样本外数据的指数跟踪，得到预测的指数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明构建的股票池相关性低、跟踪误差较小、复制结果稳定性好，可以与股指期货结合进行期现套利。相对于已有指数复制模型，本发明取得了对指数的精确跟踪。

附图说明

图1是本发明的指数复制系统结构图。

图2是本发明的社会网络聚类模块流程图。

图3是本发明的指数跟踪优化模块流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明，通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，图中列出了本发明的指数复制系统结构图。主要可分为数据源，训练集和测试集三个部分。

其中，数据源主要涉及数据的采集与处理等内容，即从第三方数据库(如万得数据库等)中采集指数以及成份股上月和当月的1分钟前复权收盘价数据，并从股票停盘、数据缺失等方面对数据进行清洗，得到可以用于研究的样本内数据(上月数据)和样本外数据(当月数据)。

训练集用于训练模型，得到可用于指数复制的股票池和最优权重，即对成份股进行社会网络聚类模型提取股票池，并用指数跟踪优化模型确定最优权重。

测试集用于样本外的预测研究，即将样本内训练得到的股票池和最优权重运用于样本外的指数复制，得到跟踪指数。

特别地，社会网络聚类模型和指数跟踪优化模型可继续深入展开，具体如图2和图3。

图2列出了社会网络聚类模型的流程图，主要功能是从指数成份股中提取相关性低且具有代表性的股票用于构建股票池。主要流程包括，用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类(AAP聚类)算法对网络进行聚类，提取每簇的聚类中心形成股票池。

图3列出了指数跟踪优化模型的流程图，主要是通过最优化模型实现股票池股票对标的指数的最优跟踪，确定复制的最优权重。用股票池股票的线性组合得到跟踪指数，以跟踪指数与标的指数的跟踪误差最小为目标，进行二次优化模型求解股票的最优线性组合，确定最优权重。

本发明的目的是提供一种新的指数复制模型，模型在考虑个股差异性的同时，综合考虑股票间的关联性，经社会网络聚类筛选中心股票构建股票池进行标的指数精确跟踪。

一、系统组成

本发明系统由数据源、测试集和训练集等构成。本发明以上月和当月指数以及成份股的1分钟收盘价数据为输入源，通过对上月数据的训练得到股票池和最优权重，用于当月的指数复制。

二、核心模块

本发明系统包含两个核心模块：即社会网络聚类模块和指数跟踪优化模块，分别用于确定股票池和最优权重。

(1)社会网络聚类模块

社会网络聚类模型主要利用自适应仿射传播聚类(AAP聚类)算法对成份股间的社会网络进行聚类分析，提出中心股票用于构建股票池，流程图如图2所示。

成份股的社会网络构建主要通过成份股间的相关系数转化为度量距离，以度量距离为标准形成成份股网络。设p_it表示第i只成分股在第t(样本内)时间的前复权收盘价，其对数收益率定义为：

r_i(t)＝lnp_i(t)-lnp_i(t-1)

这样，可得到每只股票的对数收益率序列。根据对数收益率序列可计算任意两只股票i和j在观测时间内股价波动的线性相关系数ρ_ij，即：

其中：E(r_i)表示第i只股票在样本内的平均对数收益率，t₁表示样本内总交易天数。可根据任意两只股票间的相关系数构建相应的相关系数矩阵C，其中C为对角线为1的对称矩阵。

由于相关系数集合不满足度量空间的条件，为便于进一步研究股票间的内在性质，需要将相关系数ρ_ij转化为对应的度量距离d_ij，即

式中：随着股票i与j间的相关性越高，ρ_ij越大，相应的d_ij越小。此时d_ij集合已满足度量空间的基本条件。此时，相关系数矩阵C可转化为距离矩阵D，D为对角线为0的对称阵。以度量矩阵D表示任意两只股票间的距离，可以张成成份股的社会网络。

自适应仿射传播(Adaptive Affinity Propagation,AAP)聚类算法是仿射传播(AffinityPropagation,AP)聚类的改进算法，因其高效的运算速度与准确度，外加AP聚类自有的少量信息需求等特点，而被认定为较为有效的聚类算法。AP聚类算法无需实现确定聚类数目，而将所有节点都作为潜在的聚类中心。AP算法包含两种信息传递：吸引度R(i,k)(Responsibility，称为节点k对i的吸引度)和归属度A(i,k)(Availability，称为节点i对k的归属度)。R(i,k)和A(i,k)值越大，节点k成为聚类中心的可能性越大。AP算法有两个信息传递的参数：偏向参数p和阻尼因子l_am。其中，p表示节点成为聚类中心的倾向性，l_am表示R(i,k)和A(i,k)更新的权重。p将决定最终的聚类数目，值越大得到的聚类数越多，默认为所有节点相似度的中值。p与R、A和S之间的关系如下：

其中：S表示相似度矩阵，可表示为S(i,j)＝-d_ij。由上述关系可知，当p(k)增大时，使得R(k,k)增加，进而A(i,k)变大，从而使得股票k成为聚类中心的倾向性增大。故增大或降低p值，可以有效增加或减少最终的聚类数目。

在传统的AP算法迭代中，吸引度和归属度需要与上一步结果通过阻尼因子l_am进行加权更新：

R_old(i,k)＝(1-l_am)·R(i,k)+l_am·R_old(i,k)

A_new(i,k)＝(1-l_am)·A(i,k)+l_am·A_old(i,k)

其中：阻尼因子l_am∈[0,1]，默认为0.5。当l_am过小时，算法运行速度加快，但可能出现震荡不收敛现象；当l_am过大时，虽可避免震荡，但算法运行速度会变慢。如何在效率与准确率之间合理权衡是一个亟需解决的问题。

因此可以发现，传统AP算法存在如下缺陷：一是很难确定偏向参数p的取值，使算法能够产生最优的聚类数；二是当迭代出现震荡时，算法不能自动消除并趋于收敛。为此，王开军等人提出了AAP聚类算法，以改善AP聚类算法的缺陷。主要通过以下技术实现：自适应扫描，逐步减小p值直至收敛，将会产生不同聚类数目的聚类结果；自适应阻尼，当震荡发生时，逐步增加阻尼因子l_am直至消除震荡；自适应逃离，当阻尼效果不佳时，降低p值直至摆脱震荡。AAP聚类算法通过不断调整偏向参数p值，快速产生一系列聚类结果，人们可以依据需求选择包含既定簇数的聚类结果进行研究。本文将从初始值开始逐步减小p值直至得到簇数为2终止，可以得到一系列包含不同簇数的聚类结果。选取包含不少于N的最大簇数聚类结果，并提取每簇的中心节点所代表的股票构建股票池用于接下来的研究。

(2)指数跟踪优化模块

指数跟踪优化模型主要通过二次优化模型求解股票池股票的线性组合与标的指数间跟踪误差最小化，确定最优的跟踪权重，流程图如图3所示。设有N只中心股票，R_I表示指数的收益率向量，R_X＝(R₁,R₂,…R_N)为股票的收益率矩阵，w＝(w₁,w₂,…,w_N)′为股票权重向量，则指数跟踪模型的跟踪误差定义为：

ε＝R_I-R_Xw

则二次指数跟踪优化模型可定义为：

minε′ε＝(R_I-R_Xw)′(R_I-R_Xw)

为进一步衡量指数跟踪的效果，可引入跟踪误差(Tracking Error，TE)评价指标，定义为

当跟踪误差最小时，可以确定指数跟踪的最优权重。

三、模型算法流程

本节将对基于社会网络聚类的指数复制模型的算法进行详细介绍，算法对应的流程图如1所示。具体算法如下：

(1)以股票交易时间为准，从数据库(如万得数据库等)中下载指数(如沪深300指数和中证500指数等)及其成份股上月和当月(此两个月是按照期货交易时间算的，即从当月期货最后交割日之后的交易日到两个月后的最后交割日)的前复权1分钟收盘价数据(每天交易时间为9:30～11:30，13:00～15:00，而在1分钟数据中，只有9:30～11:29，13:00～14:59，共240个交易分钟时间)。其中，由于指数成份股调整(中证指数专家委员会一般在每年5月和11月的下旬开会审核沪深300指数样本股，样本股调整实施时间分别是每年6月和12月的第二个星期五收盘后的下一交易日)，若所选时间段有6月或12月，则以第一个月最后一个交易日指数的成份股为准，否则无需调整。

(2)对所有收盘价数据进行数据清洗，包括：剔除缺失严重的股票、删除第一天和最后一天停市或数据缺失的股票、删除所有股票和指数及期货缺失超过一半的“时刻”(分钟)、对缺失数据进行线性插值补全、再次对首末存在缺失的“时刻”进行删除，最终得到研究的样本(包含指数及其成份股数据)；

(3)计算研究样本的对数收益率，即：r_i(t)＝lnP_i(t)-lnP_i(t-1)，得到指数以及成份股的对数收益率序列；

(4)基于对数收益率序列，对第一个月(t∈[1,t₁])的成份股构建社会网络并进行AAP聚类，通过调节p值确定一系列包含不同簇的聚类结果(每组聚类结果包含2，3，4，……等个簇)，并提取每一组聚类结果的每簇的聚类中心(又称作簇的类代表)分别构建股票池；

(5)针对每组聚类结果，通过二次指数跟踪优化模型确定最优权重w＝(w₁,w₂,…,w_N)′，并引入跟踪误差TE度量指数跟踪效果的好坏；

(6)因股票最低手数和资金量等限制，上述求解的权重w非真正投资时的下单权重，故需要对上述权重进行修正，修正方法如下：

b)计算各股票的最优投资量：每只股票的最优投资量为

n_i＝w_i×M/P_i(t₁)

c)计算各股票的实际投资量：由于股票每次至少买一手即100股，故需要对n_i取2位整数，得到实际投资量

d)计算各股票真实的权重：利用实际投资量和股票价格P_i(t₁)可计算各股票的真实权重公式如下：

同时，利用真实权重可计算真实的跟踪误差，即

(7)利用各股票的实际投资量及第一个月每分钟的收盘价可计算复制的指数价格P_X(t)，定义为：

(8)通过对每组聚类结果分别计算真实跟踪误差并绘制跟踪误差随聚类结果数变化曲线图，通过对曲线图的走势分析确定既定最终的股票个数及最优的投资权重。特别的，研究发现一般50只股票即可满足要求。将股票池以及最优权重带入样本外，即可得到样本的跟踪指数。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于社会网络聚类的股票指数跟踪预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，在步骤(1)中，对所有收盘价数据进行数据清洗，包括：剔除缺失严重的股票、删除第一天和最后一天停市或数据缺失的股票、删除所有股票和指数及期货缺失超过一半的时刻、对缺失数据进行线性插值补全、再次对首末存在缺失的时刻进行删除，最终得到研究的样本内、样本外数据。

3.根据权利要求1所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，在步骤(2)中，是从成份股中提取相关性低且具有代表性的股票构建股票池，具体流程包括：用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池。

4.根据权利要求1所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，在步骤(2)中，所述指数跟踪优化模型是通过最优化模型实现股票池股票对标的指数的最优跟踪，具体为：用股票池股票的线性组合得到跟踪指数，以跟踪指数与标的指数的跟踪误差最小为目标，进行二次优化模型求解股票的最优线性组合，确定最优权重。

5.根据权利要求3所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，在步骤(2)中，用成份股间的相关系数计算度量距离，构建成份股间的社会网络，用自适应仿射传播聚类算法对网络进行聚类，提取每簇的聚类中心形成股票池，具体如下：

6.根据权利要求5所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，在步骤(2)中，针对每组聚类结果，通过二次指数跟踪优化模型确定最优权重，并引入跟踪误差TE度量指数跟踪效果的好坏。

7.根据权利要求6所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，所述二次指数跟踪优化模型为：

minε′ε＝(R_I-R_Xw)′(R_I-R_Xw)

s . t . \{\begin{matrix} Σ_{i = 1}^{N} w_{i} = 1 \\ 0 \leq w_{i} \leq 1, i = 1, 2 ..., N \end{matrix}

所述跟踪误差：

当跟踪误差最小时，可以确定指数跟踪的最优权重。

8.根据权利要求7所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，当得到的权重需要进行修正时，修正方法如下：

b)计算各股票的最优投资量：每只股票的最优投资量为：

n_i＝w_i×M/P_i(t₁)

{\tilde{w}}_{i} = \frac{{\tilde{n}}_{i} \times P_{i} (t_{1})}{Σ_{i = 1}^{N} {\tilde{n}}_{i} \times P_{i} (t_{1})}

同时，利用真实权重计算真实的跟踪误差，即：

\tilde{T E} = \frac{1}{t_{1}} \sqrt{{(R_{I} - R_{X} \tilde{w})}^{'} (R_{I} - R_{X} \tilde{w})} .

9.根据权利要求8所述的基于社会网络聚类的股票指数跟踪预测方法，其特征在于，利用各股票的实际投资量及第一个月每分钟的收盘价可计算复制的指数价格P_X(t)，定义为：

P_{X} (t) = Σ_{i = 1}^{N} {\tilde{n}}_{i} \times P_{i} (t),

10.一种基于社会网络聚类的股票指数跟踪预测系统，其特征在于，包括：