CN109034545A

CN109034545A - 基于聚类与平均熵差群的股市投资者情绪指标选择方法

Info

Publication number: CN109034545A
Application number: CN201810701883.7A
Authority: CN
Inventors: 曹亚男; 任海龙; 欧阳美辰; 马佳旭; 夏舒然; 武亚茹; 陈景
Original assignee: Jining Chuangqi Information Technology Co Ltd
Current assignee: Jining Chuangqi Information Technology Co Ltd
Priority date: 2018-06-30
Filing date: 2018-06-30
Publication date: 2018-12-18

Abstract

本发明是一种基于聚类与平均熵差群的股市投资者情绪指标选择方法，涉及股市投资者情绪测度领域，包括:指标海选，任何与股票市场或投资者有关的指标均可纳入到备选指标库；初选，剔除数据不可得或数据不连续的无效指标；筛选，通过无关分析剔除无关指标；遴选，通过相关分析和聚类分析删除冗余信息量大于阈值的指标；优选，计算多种状态下的信息熵与平均熵之差，获得集群，结合聚类分析图谱留选显著性最高的指标。本发明开放式选择指标，设计合理，经过一系列的量化分析，得到更科学、更包容、更广泛的投资者情绪测度的代理指标。

Description

基于聚类与平均熵差群的股市投资者情绪指标选择方法

技术领域

本发明属于投资者情绪测度领域，尤其涉及一种基于聚类与平均熵差群的股市投资者情绪指标选择方法。

背景技术

维护股票市场的稳定有赖于投资者情绪的稳定，现阶段很多行为金融研究都是建立在投资者情绪的基础上，其中，投资者情绪的测度是投资者情绪研究中的关键问题，科学合理选择投资者情绪代理指标是测度的基础。

关于情绪测度指标的研究主要有以下两个特点：

第一，测度指标众多，尚无理论依据和规范方法来优选这些指标。当前关于投资者情绪的涵义、投资者决策的情绪过程的作用机理、投资者情绪的测度方法等没有一个可以统驭全局的系统性论述，关于情绪测度没有专门提出其理论依据，学者们从各个微观视角，建立了各具特色的单项情绪测度指标——多达上百个(大量文献，不再赘述)，丰富了该研究，但这些指标随机零散，莫衷一是，良莠不齐，对于如何更为规范地选取情绪测度指标，尚缺乏科学、统一、标准的方法。

第二，测度指标的选择具有主观性与从众性。学者们构建的众多情绪测度指标，哪些需要剔除、哪些更重要、哪些更有效，需要通过规范的方法来优选。投资者情绪的测度不应该只主观随意地偏向于某一个或几个指标因素，而应采用一定的方法首先对所有指标进行优选，去芜存精，去伪存真，而学界当前恰好缺乏这样一套规范的方法。

综上可见，亟需完善关于投资者情绪测度的基础理论，创建一套投资者情绪测度指标优选的规范方法，以得到更好的情绪测度指标。这将为投资者情绪的综合测度奠定可靠基础，并将丰富投资者情绪的理论，同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

发明内容

(一)解决的技术问题

本发明要解决的技术问题是克服上述缺陷，提供一种基于聚类与平均熵差群的股市投资者情绪指标选择方法，提供了一套科学、开放、可行的系统优选方法，使得选择的代理指标更有效、更简便，为投资者情绪综合测度的研究奠定坚实的基础，同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

(二)技术方案

为解决上述问题，本发明所采用的技术方案是：基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述方法包括：

海选模块，任何与股市或投资者有关的指标均可纳入到备选指标库；

初选模块，剔除数据不可得或数据不连续的无效指标；

筛选模块，通过无关分析剔除无关指标，计算各指标与股市大盘指数和股市收益率的相关系数，可以得到无关程度与显著性检验值，剔除显著性较差的指标；

遴选模块，通过相关分析和聚类分析删除冗余信息量大于阈值的指标，计算各指标之间的相关系数，将相关系数大于阈值的指标进行归类，删除信息重叠指标；

优选模块，通过计算多种状态下的信息熵与平均熵之差，获得集群，结合聚类分析的树状分类图谱与指标数量复杂度，最终留选显著性最高的指标。

作为优选，海选模块的任何指标可以是当期指标，也可以是提前p期的衍生指标，即为{A_n,A_n-1,A_n-2...A_n-p}，其中p为大于1的正整数。

作为优选，筛选模块无关程度相关性系数为0.3及以下。

作为优选，筛选模块显著性值为t统计量，该统计量服从n-2个自由度的t分布，概率界限可选择1％至5％。

作为优选，遴选模块的阈值为0.9及以上。

作为优选，优选模块的显著性可以使用表示信息量的信息熵与平均熵之差来判别，选择信息含量大于平均信息含量的指标，即为信息熵与平均熵之差大于零的指标

式中，p_i为离散型系统状态的概率，i为系统状态数，m为系统状态最大值，且定义当概率为0时，熵为零；H为指标的信息熵值；为平均熵；D为判定指标，信息熵与平均熵之差。

作为优选，所述优选模块的多种状态的信息熵的状态数目u，2≤u≤100w，w应大于单个指标的样本数目；集群数量为u-1次的计算结果。

作为优选，优选模块复杂度可以根据人为经验与需求留选指标，应在聚类分析图谱中，由大类到小类进行分类，在每个类别中均衡选择指标，分类的数量可以人为决策。

(三)有益效果

本发明提供了一种基于聚类与平均熵差群的股市投资者情绪指标选择方法，与现有技术相比，具备以下有益效果：

本发明设计合理，开放式选择指标，进一步扩大指标的选择范围，提高指标选择代表性，为得到更包容、更广泛的投资者情绪测度的代理指标做好基础。

经过一系列的无关分析、相关分析、聚类分析、显著性分析，进一步优化指标的选择、量化选择标准，避免了以往指标筛选中的信息重叠与共线性，更均衡地选择指标，使得留选指标冗余信息更少，减少测度系统的复杂程度与盲目性；同时，将指标的选择过程完全可视化，黑箱过程透明化，使得优选过程更加明确、更加科学；为投资者情绪综合测度的研究奠定坚实的基础，同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

附图说明

图1股市投资者情绪测度代理指标选择流程图

图2筛选22指标聚类树状图谱、相关系数与信息熵与平均熵之差图

图3各指标999次计算结果柱状图

具体实施方式

对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

选取了2005年1月到2015年12月的时间作为样本区间，共搜集到了60个潜在指标。

海选模块：搜集得到60个指标，得到60x132阶矩阵；

初选模块：考虑到信息搜集成本与数据的可得性、连续性，同时也考虑到指标的客观性，剔除数据不可得或数据不连续的无效指标后，保留了33个指标，得到一个33x132阶的原始矩阵；

筛选模块：计算33个指标与上证综指相关系数及伴随概率，再计算与上证综指收益率的相关系数及伴随概率，可以使用SPSS软件计算得到相关系数表，如下表1所示：

表1

按照相关系数0.3以下与伴随概率大于1％标准剔除显著性较差的指标，可以综合留选22个指标，删除11个无关指标。

遴选模块：为删除冗余信息量大于阈值的指标，通过相关聚类分析，得到系统树状图谱，根据图谱明确了22个指标的亲疏关系，如图2。遴选模块的相关系数阈值选为1，剔除冗余信息最大的指标，并将相关系数标记在22指标聚类图谱中，如图2所示相关系数列。需要说明的是，相关系数为1，意味着其地位相同，可以相互代表，只需留选1个指标。22个指标中，有6个相关系数为1，故缩减为16个指标。为了更好地说明本技术方案，在下一步仍然按照22个指标进行计算分析。

优选模块：计算22个待选指标的信息熵与平均熵之差集群

式中，p_i为离散型系统状态的概率，i为系统状态数，m为系统状态最大值，且定义当概率为0时，熵为零；H为指标的信息熵值；为平均熵；D为判定指标，信息熵与平均熵之差。集群状态u从2种到1000种，集群大小为999个。将信息熵标记在22个待选指标中，如表2、表3、图2、图3。

由于有999个计算结果，无法用表格完整表达，为了更好的说明本方法，表2与表3中的信息熵、平均熵、信息熵与平均熵之差仅选取了1种状态，u为13状态计算得到。将每个指标的999个计算结果用柱状图表示，可以根据图像综合判断，指标在不同状态下的显著程度与趋势。

信息熵越大，则说明指标的信息含量越大，具有更显著的信息特征，具有更强的代表性。反之，信息熵越小，则指标信息含量越小，甚至不具有代表性。在选择指标时，应有信息含量的下界限值。信息熵的下限值应大于该系统状态下的平均值，才能达到满意的信息含量，才能够具有较强的代表性。此处的下界限值即为平均信息熵。

平均熵的大小只与系统状态的最大值有关，且与其它指标的信息熵大小没有关系。针对本发明的开放式指标选择方法，无疑是最佳选择。无论有多少个待选指标进入指标库，都不会影响信息含量特征的识别。因此，信息熵与平均熵之差作为优选模块的显著性判别是切实可行的。

通过聚类分析图谱结合信息熵与平均熵之差，在所分的大类中，把信息熵与平均熵之差大于零作为选择前提，选择信息熵最大的作为留选指标。留选个数可以结合经验与复杂程度确定。事实上，可以将22个指标分为2类、3类、4类甚至22类。留选指标个数越多，描述情绪的精确度会相应增加，且符合边际递减效应，但系统复杂度也会相应提升。

如图2聚类图谱右半部分所示，从右至左，类别数量逐渐增多，虚线与图谱交点数量逐渐增多，其中，交点数量即为分类数量。本文按照分3大类与6大类举例说明，为了使表述更加清晰，在图2中，已经作出2条分类虚线。

若将22个指标分为3大类，则可按图2中最右侧虚线分为A1、A2、A3共三类。其中22个指标的类别归属情况如表2、图2所示。

在A1、A2、A3各类中，分别选择信息熵与平均熵之差大于零的最大指标作为留选指标。如在A1类的18个指标中，应选择信息熵与平均熵之差大于零且最大的“投资指数CICSI”作为此类留选指标。在A2类的1个指标中，应选择信息熵与平均熵之差大于零且最大的“居民消费价格指数”作为此类留选指标。在A3类的3个指标中，应选择信息熵与平均熵之差大于零且最大的“换手率一阶差分”作为此类留选指标。最终，在分3类的情形下，可以得到3个投资者情绪代理指标。

表2

若将22个指标分为6大类，则可按图2中右侧虚线分为B1、B2、B3、B4、B5、B6共六类。其中22个指标的类别归属情况如表3、图2所示。

在B1、B2、B3、B4、B5、B6类中，分别选择信息熵与平均熵之差大于零的最大指标作为留选指标。如在B1类的5个指标中，应选择信息熵与平均熵之差大于零且最大的“投资指数CICSI”作为此类留选指标。在B2类的2个指标中，2个指标均小于零，此类中无指标留选。在B3类的11个指标中，应选择信息熵与平均熵之差大于零且最大的“上月开户数对数”作为此类留选指标。在B4类的1个指标中，应选择信息熵与平均熵之差大于零且最大的“居民消费价格指数”作为此类留选指标。在B5类的2个指标中，应选择信息熵与平均熵之差最大的“换手率一阶差分”作为此类留选指标。在B6类的1个指标中，只有一个指标，且小于零，此类中无指标留选。最终，在分6类的情形下，可以得到4个投资者情绪代理指标。

表3

事实上，可以根据实际需求来确定代理指标的数量，随着图2中的虚线从右向左移动，类别数逐渐增加，指标系统复杂度增加。

综上所述，建立了投资者情绪测度指标的筛选标准，使得指标筛选更规范合理；开放式系统，提高了筛选范围，使得指标更具有代表性；经过一系列无关分析、相关分析、聚类分析、显著性分析的系统量化分析，使得筛选更科学，同时，过程完全可视化，为人为决策提供依据；为投资者情绪综合测度的研究奠定了坚实的基础，同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

Claims

1.一种基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述方法包括：

初选模块，剔除数据不可得或数据不连续的无效指标；

2.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述海选模块的任何指标可以是当期指标，也可以是提前p期的衍生指标，即为{A_n,A_n-1,A_n-2...A_n-p}，其中p为大于1的正整数。

3.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述筛选模块无关程度相关性系数为0.3及以下。

4.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述筛选模块显著性值为t统计量，该统计量服从n-2个自由度的t分布，概率界限可选择1％至5％。

5.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述遴选模块的阈值为0.9及以上。

6.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述聚类分析的距离为相关系数距离。

7.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述优选模块的显著性可以使用表示信息量的信息熵与平均熵之差来判别，选择信息含量大于平均信息含量的指标，即为信息熵与平均熵之差大于零的指标

8.根据权利要求1所述基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述优选模块的多种状态的信息熵的状态数目u，2≤u≤100w，w应大于单个指标的样本数目；集群数量为u-1次的计算结果。

9.根据权利要求1所述的基于聚类与平均熵差群的股市投资者情绪指标选择方法，其特征在于，所述优选模块复杂度可以根据人为经验与需求留选指标，应在聚类分析图谱中，由大类到小类进行分类，在每个类别中均衡选择指标，分类的数量可以人为决策。