CN109410046A

CN109410046A - 目标股票选择方法、装置及存储介质

Info

Publication number: CN109410046A
Application number: CN201811014097.6A
Authority: CN
Inventors: 毛小豪
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-03-01

Abstract

本发明涉及一种人工智能技术，公开了一种采用长短期记忆循环网络，基于舆情因子的目标股票选择方法、装置及存储介质。本发明通过获取待处理的各股票在第一预设数量个连续的预设时间点的舆情因子观测值及收益率，得到各股票在各连续时间点的第一相关系数，并输入预测模型得到各股票在下一时间点的第二相关系数，再基于第二相关系数和舆情因子观测值，计算得到各所述股票的评分，基于评分的高低，选择一定数量的股票作为目标股票。相较于现有技术，本发明采用了长短期记忆循环网络模型，与人工预测相比，可减小人工操作失误的可能性并提高预测效率。相比于普通的循环神经网络，可提高模型训练的效率及第二相关系数的精准度。

Description

目标股票选择方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种基于舆情因子的，采用长短期记忆循环网络作为预测模型的目标股票选择方法、电子装置及计算机可读存储介质。

背景技术

股市可以说是被称为国民经济的晴雨表，这是由于舆情因子一定程度上可以表达为该股票的市场潜在能量。舆情因子可包括新闻热度因子，通常的表现形式为社会对个股的新闻舆论，以及情绪因子，通常的表现形式为大众对个股相应新闻的态度。舆情因子的影响通常被认为是有传递性和连续性的，正如个人对一个公司的印象应当理解为此时刻之前所有印象的总和。当某股票的新闻热度观测值越高，则该股票的未来收益可能会越高；当大众对某股票的情绪观测值的绝对值越高，则表示正面或负面的情感越强烈，从而对该股票的未来收益存在越强烈的正面或负面的影响。

如今业内对于股票的投资选择策略一般是预先设定阀值，再对满足阀值的股票进行等权重投资。或者根据专业投资人员的历史经验，对相应股票设定投资策略，这种方式对做投资决策的投资人员的专业技能要求较高，不仅投资策略的设定很容易出错，且这种方式没有考虑到时序性因素，也就是一段连续时间内新闻舆论对股票收益的连续性影响，因此也会增加误操作的风险。

发明内容

本发明的主要目的是提供一种基于舆情因子的，采用长短期记忆循环网络作为预测模型的目标股票选择方法、电子装置及计算机可读存储介质。旨在采用长短期记忆循环网络(Long-Short Term Memory，以下简称为LSTM)来替代人工预测和普通神经网络模型。与人工预测相比，可减小人工操作失误的可能性并提高预测效率。相比于普通的循环神经网络，由于长短期记忆循环网络的结构适用于处理具有时序相关性的数据，因而可提高模型训练的效率，以及相关系数预测的准确度。

为实现上述目的，本发明提出的一种目标股票选择方法，包括如下步骤：

获取步骤：获取待处理的各股票在第一预设数量个连续预设时间点的舆情因子观测值及收益率；

计算步骤：基于所述舆情因子观测值、所述收益率及预设计算规则，计算得到各所述股票的第一相关系数；

预测步骤：将各所述第一相关系数输入预先基于长短期记忆循环网络建立的预测模型，得到所述预测模型输出的各第二相关系数；

评分步骤：基于各所述第二相关系数、所述舆情因子观测值及预设评分规则，对各所述股票进行评分处理，得到各所述股票的评分；

选股步骤：将各所述评分按照从高到低顺序进行排序，选择排序靠前的第二预设数量的股票，作为所述目标股票。

优选的，本发明的目标股票选择方法中，所述预设计算规则为：

其中，所述RankIC为t时刻的第一相关系数，为t-1时刻各所述股票的舆情因子f观测值的排名，为t时刻各所述股票的收益率排名。

优选的，本发明的目标股票选择方法中，所述评分步骤包括：

根据预先确定的赋权规则，对所述第二相关系数进行设置得到权值；

将所述权值进行归一化处理得到权重；

基于所述权重和所述舆情因子观测值计算得到各所述股票的评分。

优选的，本发明的目标股票选择方法中，所述评分的计算公式为：

S＝Σω_i*X_i

其中，S为所述评分，i为各所述股票的舆情因子，ω_i为所述舆情因子i的权重，X_i为t时刻所述舆情因子i的观测值。

此外，为实现上述目的，本发明的目标股票选择方法中，所述预测步骤之前，该方法还包括：

采集各样本股票在预设时间区间内各连续时间点的舆情因子观测值及收益率，根据各所述样本股票在所述各连续时间点的舆情因子观测值、收益率及所述预设计算规则，计算得到各所述样本股票在所述各连续时间点的第一相关系数，按时间先后顺序排序形成各所述股票的第一相关系数集合；

将每个所述第一相关系数集合划分为训练集、评估集和测试集，在所述训练集中随机抽取所述第一预设数量个连续的第一相关系数作为一个样本，共抽取第三预设数量次，得到第三预设数量个样本；

将所述第三预设数量个样本输入初始模型，得到所述初始模型输出的预测相关系数集合，采用反向传播法进行模型训练，得到训练模型；

将所述评估集中的样本输入所述训练模型进行预测准确率验证，当所述预测准确率达到预设阙值时，得到验证模型；

将所述测试集中的样本输入所述验证模型进行预测准确率测试，当所述预测准确率达到所述预设阙值时，得到所述预测模型。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器上存储有目标股票选择程序，所述处理器执行所述基于舆情因子的投资选组合选择程序时包括：

获取模块：获取待处理的各股票在第一预设数量个连续的预设时间点的舆情因子观测值及收益率；

计算模块：基于所述舆情因子观测值、所述收益率及预设计算规则，计算得到各所述预设时间点的第一相关系数，按照时间先后排列形成各所述股票的第一相关系数列；

预测模块：将各所述第一相关系数列输入预先基于长短期记忆循环网络建立的预测模型，得到所述预测模型输出的各股票的第二相关系数；

评分模块：基于各所述第二相关系数、所述舆情因子观测值及预设评分规则，对各所述股票进行评分处理，得到各所述股票的评分；

选股模块：将各所述评分按照从高到低顺序进行排序，选择排序靠前的第二预设数量的股票，作为所述目标股票。

优选的，本发明的电子装置中，所述预设计算规则为：

优选的，本发明的电子装置中，所述评分步骤包括：

将所述权值进行归一化处理得到权重；

S＝Σω_i*X_i

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有所述目标股票选择程序，所述目标股票选择程序被处理器执行时实现如上述任一项所述的目标股票选择方法的步骤。

相较于现有技术，本发明提出的一种基于舆情因子的，采用长短期记忆循环网络作为预测模型的目标股票选择方法、电子装置及计算机可读存储介质，通过获取某各时间点的各舆情因子(新闻热度因子和情绪因子)的观测值和收益率，计算各舆情因子的第一相关系数，利用第一相关系数和经预先基于长短期记忆循环网络(LSTM)建立的模型预测得到的各舆情因子的第二相关系数，反应各舆情因子对股票未来收益的预测能力；根据该第二相关系数及舆情因子的正负方向，对各舆情因子进行动态赋权得到各舆情因子的权重，提高了舆情因子的可靠性；根据各舆情因子观测值和相应的权重，按预设评分规则对各股票进行评分计算，进一步可挑选评分较高的股票作为目标投资股票，直观展示了舆情因子观测值对股票未来收益的影响，提高了选择目标股票的可靠性，有助于投资人员控制控制投资风险，提高投资收益。另外，本发明还提出了上述采用长短期记忆循环网络的预测模型的训练方法，通过获取各股票的各舆情因子(新闻热度因子和情绪因子)大量连续观测值以及相应的收益率，进一步计算得到新闻热度因子和情绪因子的历史相关系数集合，并从中挑选第三预设数量的连续时间点的相关系数形成样本后，训练上述的长短期记忆循环网络模型。由于长短期记忆循环网络对处理具有时间相关性的数据有结构性的优势，因而这种训练方法可以通过对一连串历史数据的结合，从舆情因子重要性及正负方向的角度提高舆情因子权重的计算精准度。与人工预测相比，可减小人工操作失误的可能性并提高预测效率。相比于普通的循环神经网络，由于长短期记忆循环网络的结构适用于处理具有时序相关性的数据，因而可提高模型训练的效率，以及相关系数预测的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明电子装置一实施例的示意图；

图2为本发明的目标股票选择程序一实施例的程序模块图；

图3为本发明的目标股票选择方法一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供一种电子装置1。参照图1所示，为本发明电子装置1较佳实施例的示意图。

在本实施例中，该电子装置1包括存储器11、处理器12，网络接口13及通信总线(图中未标出)。其中，通信总线用于实现这些组件之间的连接通信。

网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的目标股票选择程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行目标股票选择程序10等。

图1仅示出了具有组件11-13以及目标股票选择程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选的，该电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中包括目标股票选择程序10，处理器12执行存储器11中存储的目标股票选择程序10时包括以下模块：获取模块110、计算模块120、预测模块130、评分模块140及选股模块150。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中目标股票选择程序的程序模块图。

在本实施例中，目标股票选择程序10可以包括：

获取模块：用于获取待处理的各股票在第一预设数量个连续预设时间点的舆情因子观测值及收益率。

更具体的，上述待进行分析和预测处理的各股票为用户预先确定的多只股票，例如，可选取上一期投资组合中的M只股票作为需进行分析预测的多只股票。上述的连续预设时间点为在一个预设的时间段内连续的时间点的集合。上述预设的时间段可以是任选的时间段，在本发明中，为了能够预测并选择下期可进行投资的股票，用户可选择当前时间点(设为T时刻)之前的一段时间作为该预设的时间段。该预设的时间段可包含第一预设数量个联系的时间点。更具体的，用户可设定第一预设数量为n，则该预设的时间段可包含n个连续的时间点，构成一个按照时间先后排序的时间点集合(T-n+1,T-n+2…,T-1,T)。由于股票的交易日以自然日作为单位，因此该集合中每个相邻时间点之间的间隔至少设定为一天。本发明不限定相邻时间点之间设定的间隔，该间隔应可由用户根据实际分析预测的需要而设定。更具体的，根据实际分析预测的需要，所有相邻的时间点之间，比如当前时间点与上一时间点、当前时间点与下一时间点之间的间隔可以设定是以天计的一天至一个月，优选为一天、两天、三天、一周、两周等。更优选的，所有相邻的时间点之间的间隔可以是一天或一周。上述的舆情因子至少可包括新闻热度因子及情绪因子。在本发明中，用户可分别获取待处理的各股票在预设的时间段内(T-n+1,T-n+2…,T-1,T)时间点的舆情因子观测值和收益率。

在本实施例中，用户可选取上一期投资组合中的M只股票作为需进行分析预测的股票；用户可选取两种舆情因子，分别为新闻热度因子A和情绪因子B，作为本实施例中所采用的舆情因子；用户可设定所有相邻的时间点之间的间隔为一天；并将第一预设数量n设为4，将当前时间点(设为T时刻)及之前的3天作为预设的时间段；最终获取各股票在(T-3,T-2,T-1,T)时刻的各舆情因子观测值和相应的收益率。

具体地，在获取数据时，鉴于目前对股票的相关新闻、公告、舆论等信息进行统计、处理并进行数值化已经有现成的较成熟的技术，因此，本发明中可直接从一些网站上手动提取，或者通过程序对外接口直接提取新闻热度因子观测值及情绪因子观测值，而不需要另外收集并处理各只股票相关的舆情因子信息。

在本实施例中，用户通过从通联数据或新浪股吧分别提取各只待处理的股票在(T-3,T-2,T-1,T)时刻的新闻热度因子观测值、情绪因子观测值及收益率。

更具体的，上述收益率应当是某个时间点相对于上一时间点的相对收益率。即，收益率应当是将经数据获取所得的股票的收盘价格代入收益率公式所计算得到的相对收益率。具体地，计算公式为：

R＝(P_t-P_t-1)/P_t-1

其中，R为股票在t时刻的收益率，P_t为股票在t时刻的收盘价，P_t-1为股票在t-1时刻的收盘价。

当设定一周为相邻时间点之间的间隔时，计算所得的收益率实际上为周相对收益率；当设定一天为相邻时间点之间的间隔时，则公式中计算所得的收益率实际上为日相对收益率。

在本实施例中，用户设定了相邻时间点之间的间隔为一天，则所得的收益率实际上为日相对收益率。

计算模块：基于各股票的舆情因子观测值、收益率及预设计算规则，计算得到各预设时间点的第一相关系数，按照时间先后排列形成各股票的第一相关系数列。

更具体的，基于多只待处理的股票中某一只股票的在各预设时间点(T-n+1,T-n+2…,T-1,T)的舆情因子观测值、相对收益率及斯皮尔曼相关系数计算公式，计算得到各预设时间点的第一IC(information correlation)值IC_i＝[IC_A,IC_B]，按照时间先后排列形成第一IC值列：{[IC_A(T-n+1),IC_B(T-n+1)],[IC_A(T-n+2),ICB(T-n+2)],…[IC_A(T-1),IC_B(T-1)],[IC_A(T),IC_B(T)]}，M只股票共得到M个第一IC值列。

上述的第一IC值即为第一相关系数，其是全部所选股票在某时间点的上一时间点(t-1时刻)基于某舆情因子观测值的排序与在上述的某时间点(t时刻)基于相对收益率的排序之间的相关系数，每个第一IC值分别包括t时刻新闻热度因子A及情绪因子B对应的IC值IC_A和IC_B。

上述预设的计算规则采用斯皮尔曼相关系数计算公式即RankIC计算公式，用以计算相关系数，即IC值。t时刻的RankIC，即全部所选股票在t-1时刻基于某舆情因子观测值的排序与t时刻基于相对收益率的排序之间的相关系数，计算公式为：

其中，Rank IC为第一IC值，为在t-1时刻，各股票依据舆情因子f的观测值的排名，为在t时刻，各股票基于相对收益率的排名。

在本实施例中，由M只股票中某一只股票的在各预设时间点(T-3,T-2,T-1,T)的舆情因子观测值、相对收益率及斯皮尔曼相关系数计算公式，计算得到各预设时间点的第一IC值[IC_A,IC_B]，按照时间先后排列形成第一IC值列：{[IC_A(T-3),IC_B(T-3)],[IC_A(T-2),IC_B(T-2)],[IC_A(T-1),IC_B(T-1)],[IC_A(T),IC_B(T)]}，M只股票共得到M个第一IC值列。

IC值能够很好地反映各舆情因子的预测能力，IC越高，就表明该舆情因子在该期对股票收益的预测能力越强、越可靠。因此，通过预测下一时间点(t+1时刻)M只股票各舆情因子的IC值，可以进一步了解到各舆情因子对于各股票的未来收益预测能力。上述的第二相关系数即为预测得到的t+1时刻M只股票各舆情因子的预测IC值。

更具体的，将上述的第一IC值列{[IC_A(T-n+1),IC_B(T-n+1)],[IC_A(T-n+2),IC_B(T-n+2)],…[IC_A(T-1),IC_B(T-1)],[IC_A(T),IC_B(T)]}输入预先基于长短期记忆循环神经网络建立的预测模型，得到各舆情因子在T+1时刻(即下一时间点)的预测IC值{IC_A(T+1),IC_B(T+1)}。该预测IC值{IC_A(T+1),IC_B(T+1)}包括在T+1时刻新闻热度因子及情绪因子所对应的IC值IC_A(T+1)和IC_B(T+1)。

在本实施例中，将M只股票的各第一IC值列{[IC_A(T-3),IC_B(T-3)],[IC_A(T-2),IC_B(T-2)],[IC_A(T-1),IC_B(T-1)],[IC_A(T),IC_B(T)]}输入模型，分别得到M只股票的新闻热度因子和情绪因子T+1时刻的预测IC值IC_i(t+1)＝{IC_A(T+1),IC_B(T+1)}。

更具体的，这里的舆情因子观测值指的是T时刻各舆情因子观测值，即基于所述第二相关系数、T时刻的舆情因子观测值数据及预设评分规则，对各所述股票进行评分处理，得到各所述股票的评分。上述的评分处理可细化为以下步骤：

在确定各舆情因子的权值之前，需判断各舆情因子的因子种类，并进一步判断该舆情因子的正负方向。舆情因子种类包括正向因子和负向因子。具体地，新闻热度因子为正向因子，其表示当股票的新闻热度观测值越高，该股票的未来收益会越高；情绪因子既可能是正向因子又可能是负向因子，需要说明的是，情绪因子观测值的取值范围为[-1,1]，情绪因子观测值的绝对值越高，表示正面或负面的情感越强烈。当某只股票的情绪因子观测值为负时，则表示其对该股票的未来收益存在负面影响，此时，情绪因子为负向因子；相反，当某只股票的情绪因子观测值为正时，对该股票的未来收益存在正面影响，此时，情绪因子为正向因子。

上述的赋权规则包括如下：

当舆情因子为正向因子时，当上述第二相关系数>0，上述权值为上述第二相关系数，当上述第二相关系数<0，上述舆情因子失效，上述权值为0。

或者，当舆情因子为负向因子时，当上述第二相关系数<0，上述权值为上述第二相关系数，当上述第二相关系数>0，上述舆情因子失效，上述权值为0。

或者，当所有上述舆情因子都失效时，所有上述权值分别为1/2。更具体的，当所有舆情因子都失效时，可采用因子等权策略，所有舆情因子的权值都为1/2。

更具体的，在本实施例中，对T+1时刻的预测IC值IC_i(T+1)的赋权规则如下，

1)当该舆情因子为正向因子时，当IC_i(T+1)>0时，则权值w_i(T+1)＝IC_i(T+1)，当IC_i(T+1)<0时，则认为该舆情因子在未来一期失效，权值w_i(T+1)＝0；

2)当该舆情因子为负向因子时，当IC_i(T+1)<0时，则权值w_i(T+1)＝-IC_i(T+1)，当IC_i(T+1)>0时，则认为该舆情因子在未来一期失效，权值w_i(T+1)＝0；

3)当两个舆情因子都失效时，w_i(T+1)＝1/2。

随后，将所述权值进行归一化处理得到权重；

更具体的，对经上述赋权规则处理所得的各舆情因子权值w_i(T+1)进行归一化，使其加起来等于1，得到各舆情因子的相应权重。

在本实施例中，利用上述步骤确定新闻热度因子、情绪因子对应的权值分别为w_A()、w_B(T+1)，作为计算股票评分时两个因子对应的权重为ω_A、ω_B。ω_A、ω_B的计算公式为：

ω_A＝w_A(T+1)/(w_A(T+1)+w_B(T+1))

ω_B＝w_B(T+1)/(w_A(T+1)+w_B(T+1))

进一步的，基于所述权重和所述舆情因子观测值数据计算得到各所述股票的评分。上述的舆情因子观测值指的是T时刻舆情因子观测值。

在其他实施例中，为了防止所有的舆情因子都失效，即所有因子对应的权重均为0的情况，在对各舆情因子的权值进行归一化之前，也可采用smoothing的方法，在每个舆情因子的权值基础上加上ω₀，然后再进行归一化处理。此时，ω_A、ω_B的计算公式为：

ω_A＝(w_A(t+1)+w₀)/(w_A(t+1)+w_B(t+1)+1)

ω_B＝(w_B(t+1)+w₀)/(w_A(t+1)+w_B(t+1)+1)

w₀＝1/c

其中，c为舆情因子总数。本实施例中的舆情因子只有两个，新闻热度因子及情绪因子，故ω₀＝1/2。也就是说，当舆情热度因子、舆情情感因子都失效时，采用的就是因子等权策略，即每个因子对应的权值都相同。

然后，基于所述权重和所述舆情因子观测值计算得到各所述股票的评分。

更具体的，当经上述赋权规则和归一化处理分别得到T+1时刻各舆情因子的权重后，基于T时刻的各舆情因子观测值，对各上述股票进行评分计算，得到各上述股票的评分。评分计算公式为：

S＝Σω_i*X_i

其中，S为某个股票的评分，i为某个股票的舆情因子，ω_i为t+1时刻该舆情因子i的权重，X_i为t时刻各舆情因子的观测值。

在本实施例中，经赋权规则和归一化处理分别得到T+1时刻新闻热度因子和情绪因子的权重ω_A和ω_B后，根据T时刻的新闻热度因子观测值和情绪因子观测值，利用上述的评分计算公式计算各股票的评分。其中，舆情因子i＝{A,B}，ω_i为股票的舆情因子i在T+1时刻对应的权重，ω_i＝{ω_A,ω_B}，X_i为t时刻股票的各舆情因子观测值，X_i＝{X_A,X_B}。

更具体的，基于各股票评分的高低，按照从高到低依次将各股票进行排序，选择第一预设数量的排在前列评分最高的股票，作为目标股票。利用上述步骤计算得到的股票的评分，在一定程度上可以反映出股票在未来收益的走势，股票的评分越高，其未来收益可能越高。本发明对于所选的最高评分的股票的第一预设数量没有限定，只要不高于初始目标股票中所有股票数量的总和，都在本发明的选择范围里。

在本实施例中，在得到M只股票的评分后，按照评分从高到低的顺序对M只股票的评分进行排序，从M只股票中选出评分最高的N只股票，作为待投资的目标股票。

随后，将这部分目标股票按照预设比例买入。

更具体的，确定了待投资的目标股票后，还需要分别确定这部分目标股票中各股票的投资比例。本发明对各目标股票的投资比例没有限定。在一些实施例中，对目标股票进行等权投资。在另外一些实施例中，根据各股票的评分高低确定相应的比重，评分高的股票所占比重较大，评分低的股票所占比重较小)，具体操作可根据投资者的实际需求进行设置。

在本实施例中，对作为目标股票的N只股票进行等权投资，即等比例买入。

可选地，在其他的实施例中，目标股票选择程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器12所执行，以完成本发明。

此外，本发明还提供一种目标股票选择方法。参照图3所示，为本发明目标股票选择方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于舆情因子的投资选股方法包括：步骤S1-S5。

步骤S1、获取待处理的各股票在第一预设数量个连续的预设时间点的舆情因子观测值及收益率。

上述待进行分析和预测处理的各股票为用户预先确定的多只股票，例如，可选取上一期投资组合中的M只股票作为需进行分析预测的多只股票。上述的连续预设时间点为在一个预设的时间段内连续的时间点的集合。上述预设的时间段可以是任选的时间段，在本发明中，为了能够预测并选择下期可进行投资的股票，用户可选择当前时间点(设为T时刻)之前的一段时间作为该预设的时间段。该预设的时间段可包含第一预设数量个联系的时间点。更具体的，用户可设定第一预设数量为n，则该预设的时间段可包含n个连续的时间点，构成一个按照时间先后排序的时间点集合(T-n+1,T-n+2…,T-1,T)。

更具体的，上述收益率应当是某个时间点相对于上一时间点的相对收益。即，收益率应当是将经数据获取所得的股票的收盘价格代入收益率公式所计算得到的相对收益。具体地，计算公式为：

R＝(P_t-P_t-1)/P_t-1

步骤S2、基于所述舆情因子观测值、所述收益率及预设计算规则，计算得到各所述预设时间点的第一相关系数，按照时间先后排列形成各所述股票的第一相关系数列。

IC值的计算公式采用斯皮尔曼相关系数计算公式即RankIC计算公式。t时刻的RankIC，即全部所选股票在t-1时刻基于某舆情因子观测值的排序与t时刻基于相对收益率的排序之间的相关系数，计算公式为：

步骤S3、将各所述第一相关系数列输入预先基于长短期记忆循环网络建立的预测模型，得到所述预测模型输出的各股票的第二相关系数。

上述的第二相关系数即为预测得到的t+1时刻M只股票各舆情因子的预测IC值。

更具体的，将上述的第一IC值列{[IC_A(T-n+1),IC_B(T-n+1)],[IC_A(T-n+2),ICB(T-n+2)],…[IC_A(T-1),IC_B(T-1)],[IC_A(T),IC_B(T)]}输入预先基于长短期记忆循环神经网络建立的预测模型，得到各舆情因子在T+1时刻(即下一时间点)的预测IC值{IC_A(T+1),IC_B(T+1)}。该预测IC值{IC_A(T+1),IC_B(T+1)}包括在T+1时刻新闻热度因子及情绪因子所对应的IC值IC_A(T+1)和IC_B(T+1)。。

步骤S4、基于各所述第二相关系数、所述舆情因子观测值及预设评分规则，对各所述股票进行评分处理，得到各所述股票的评分。

根据预先确定的赋权规则，对所述第二相关系数进行设置得到权值。

上述的赋权规则包括如下：

3)当两个舆情因子都失效时，w_i(T+1)＝1/2。

随后，将所述权值进行归一化处理得到权重；

在本实施例中，利用上述步骤确定新闻热度因子、情绪因子对应的权值分别为w_A(T+1)、w_B(T+1)，作为计算股票评分时两个因子对应的权重为ω_A、ω_B。ω_A、ω_B的计算公式为：

ω_A＝w_A(T+1)/(w_A(T+1)+w_B(T+1))

ω_B＝w_B(T+1)/(w_A(T+1)+w_B(T+1))

ω_A＝(w_A(t+1)+w₀)/(w_A(t+1)+w_B(t+1)+1)

ω_B＝(w_B(t+1)+w₀)/(w_A(t+1)+w_B(t+1)+1)

w₀＝1/c

进一步的，基于所述权重和所述舆情因子观测值计算得到各所述股票的评分。

S＝Σω_i*X_i

步骤S5、将各所述评分按照从高到低顺序进行排序，选择排序靠前的第二预设数量的股票，作为所述目标股票。

更具体的，基于各股票评分的高低，按照从高到低依次将各股票进行排序，选择第一预设数量的排在前列评分最高的股票，作为目标股票。利用上述步骤计算得到的股票的评分，在一定程度上可以反映出股票在未来收益的走势，股票的评分越高，其未来收益可能越高。本发明对于最高评分的股票的数量没有限定，只要不高于初始目标股票中所有股票数量的总和，都在本发明的选择范围里。

随后，将这部分目标股票按照预设比例买入。

进一步的，上述预测模型采用长短期记忆循环网络。由于长短期记忆循环网络对处理具有时间相关性的数据有结构性的优势，因而这种训练方法可以通过对一连串历史数据的结合，从舆情因子重要性及正负方向的角度提高舆情因子权重的计算精准度。与人工预测相比，可减小人工操作失误的可能性并提高预测效率。相比于普通的循环神经网络，由于长短期记忆循环网络的结构适用于处理具有时序相关性的数据，因而可提高模型训练的效率，以及相关系数预测的准确度。

为实现上述目的，在将第一相关系数输入预测模型得到模型输出的第二相关系数之前需对该模型进行训练，该训练方法包括如下步骤：

采集各样本股票在预设时间区间内各连续时间点的舆情因子观测值及收益率，根据各所述样本股票在所述各连续时间点的舆情因子观测值、收益率及所述预设计算规则，计算得到各所述样本股票在所述各连续时间点的第一相关系数，按时间先后顺序排序形成各所述股票的第一相关系数集合。

其中，本发明对上述的预设时间区间的范围没有限定，时间长短可依据模型训练的实际需求而定，较长的时间范围将有利于修正更准确的模型参数。优选的，预设时间区间可以是最近的一至三年等。更优选的，预设时间区间可选为最近二年。

此外，本发明对预设时间区间内所采集的所述股票的各舆情因子观测值及收益率的各时间点之间的间隔也没有限定，该间隔应当根据实际分析预测的需要而定。由于股票的交易日以自然日作为单位，因此相邻时间点之间的间隔至少设定为一天。更具体的，根据实际分析预测的需要，在选取数据的过程中，所有相邻的时间点之间，比如当前时间点与上一时间点、下一时间点之间的间隔可以设定是以天计的一天至一个月，优选为一天、两天、三天、一周、两周等。更优选的，所有相邻的时间点之间的间隔可以是一天或一周。

将经上述数据采集过程所得到的数据通过RankIC公式计算各股票的各舆情因子在各时间点相应的第一相关系数(即第一IC值)，按照时间先后顺序排列，形成第一相关系数集合。

在本实施例中，获取训练数据的过程如下：

将预设时间区间设为最近两年，将各时间点之间的间隔设为一天，获取两年内每天的新闻热度因子观测值和情绪因子观测值，及每天的收益率，并根据相对收益率计算公式计算得到每天的相对收益。将经上述数据采集过程所得到的舆情因子观测值数据和相对收益数据通过RankIC公式计算各股票的各舆情因子在各时间点相应的第一IC值，按照时序性排列，形成第一IC值集合，每个股票都具有一个第一IC值集合。

进一步，将每个所述第一相关系数集合划分为训练集、评估集和测试集，在所述训练集中随机抽取所述第一预设数量个连续的第一相关系数作为一个样本，共抽取第三预设数量次，得到第三预设数量个样本。

为了保证训练效果，防止模型过拟合，需将“获取数据”步骤中获得的相关系数集合划分为训练集(train_set)，评估集(valid_set)和测试集(test_set)。训练集和评估集中的数据用于参与模型训练和模型验证，将训练集中的样本输入模型，对模型进行训练，并初步确定模型参数，并经评估集中的样本验证该模型参数；而测试集则由一部分完全不参与训练的数据组成，其仅仅用来对模型的准确率进行测试，即对模型预测的效果进行观测，从而相对客观的判断这些模型参数对不参与训练的样本的符合程度。将所述测试集中的样本输入上述训练得到的模型中，以对训练得到的模型进行预测准确率测试，当训练得到的模型满足预设验证条件(例如，模型预测准确率大于或等于小于预设阈值)，则该相关系数预测模型训练完成。在一些实施例中，将80％的样本用以划分训练集和评估集(其中70％的样本作为训练集，10％的样本作为评估集)，20％的样本作为测试集。

上述划分数据集的过程采用交叉验证(cross-validation)的方法。更具体的，从相关系数集合中划分出训练集和评估集是采用K折交叉验证的方法(K-fold cross-validation)，即在从相关系数集合中去除随机抽取的测试集数据后，将剩余的数据分割成K个子样本集合，其中，将一个单独的子样本集合中的数据来验证评估模型，而其他K-1个子样本集合的数据则用来进行模型训练。上述的K个子样本集合交叉验证重复K次，即每个子样本集合都作为评估集来验证评估模型1次，并作为训练集来进行模型训练K-1次。平均上述K次的训练结果或者使用其它任意可采用的方式对训练结果进行处理，最终得到一个单一的模型参数估测值。优选的，上述划分数据集的方法采用10折交叉验证，即将参与训练的数据划分为10个子样本集合进行10次交叉验证。

在本实施例中，划分数据集的过程如下：

在由最近两年内共450个时间点的IC值所组成的第一IC值集合中，随机抽取50个数据作为测试集，剩余的400个数据参与训练。将上述参与训练的400个数据划分为10个子样本集合，组成以下集合，进行10次交叉验证：({k₁,k₂…k₈,k₉}{k₁₀},{k₂,k₃…k₉,k₁₀}{k₁}…{k₉,k₁₀…k₆,k₇}{k₈},{k₁₀,k₁…k₇,k₈}{k₉})。例如，{k₁,k₂…k₈,k₉}{k₁₀}中，{k₁,k₂…k₈,k₉}即为一个训练集，{k₁₀}即为相应的评估集。

用户可根据实际需求来设定第二预设数量和第三预设数量的数值，从而从所述训练集中抽取相应的第二预设数量个连续时间点的相关系数，作为一个样本，共抽取第三预设数量次，得到第三预设数量个样本。更具体的，从上述K个之一的训练集的历史IC值中随机抽取连续的q-n至q+1时间点的IC值，q-n至q时间点的连续IC值数据(训练用IC值列)作为模型输入部分，q+1时间点的IC值是预测时间点的真实值，作为真实IC值与预测IC值进行误差对比，上述两部分组成一个样本。

上述的数据随机抽取过程重复m次，共形成m个样本。这是由于在实际训练中，不会只输入一个样本进行训练，而是将从上述所有的参与训练的样本中随机抽取第三预设数量个样本形成一个样本集合(称为batch)一起输入模型进行训练，这样训练效果将更快更好。本发明对上述所选取的样本的数量没有限定，可以自选。优选的，所选取的样本集合的样本数量为1024。每个样本的形式如下：({Y_q-n+1,Y_q-n+2,…Y_q-1,Y_q}{Y_q+1})。其中，在每个样本中，每个q-n+1至q时间点连续的IC值数据{Y_q-n+1,Y_q-n+2,…Y_q-1,Y_q}(即训练用IC值列)为模型输入部分，每个下一时间点的IC值{Y_q+1}实际上是预测时间点的真实值，用于与预测IC值进行误差对比。其中，每个时间点的IC值Y都包括了新闻热度因子的IC值及情绪因子的IC值。

在本实施例中，选取训练数据的过程如下：

如上所述，n设定为4。在上述得到的10个训练集中的1个训练集中随机抽取1024个样本组成一个样本集合。每个样本的形式如下：({Y₁,Y₂,Y₃,Y₄}{Y₅})。其中，在每个样本中，每个q-1至q时间点连续的IC值数据{Y₁,Y₂,Y₃,Y₄}(即训练用IC值列)为模型输入部分，每个下一时间点的IC值{Y₅}(即对比IC值)实际上是下一时间点的真实值，实际上是预测时间点的真实值，用于与预测IC值进行误差对比。

在另一个实施例中，用于模型训练的样本的具体形成如下：

有连续10天的舆情因子IC值为{A,B,C,D,E,F,G,H,J,K}，将其作为一个训练集，设定通过连续的4个(即4天)的IC值来预测下一个时间点的IC值，在训练集共抽取6次，则样本可以是：

{A,B,C,D}{E}

{B,C,D,E}{F}

{D,E,F,G}{H}

{G,H,I,J}{K}

{I,J,K,A}{B}

{J,K,A,B}{C}

其中，每一行即一个样本，由一个输入模型部分(如{A,B,C,D})和下一时间点的真实值(如{E})组成。其中连续的{A,B,C,D}作为用于数据训练的IC值列，每个IC值都是包含了新闻热度因子IC值及情绪因子IC值的一个组合，而E作为下一时间点的真实IC值，其是包含了新闻热度因子的下一时间点真实IC值以及情绪因子下一时间点真实IC值的一个组合。

进一步，将所述第三预设数量个样本输入初始模型，得到初始模型输出的预测相关系数集合，采用反向传播法进行模型训练，得到训练模型。

更具体的，将第三预设数量设为m，将上述含有m个样本的样本集合输入初始化模型，得到初始模型输出的预测相关系数(即预测IC值)集合。

本发明中采用的长短期记忆循环网络模型输入输出形式如下：设定新闻热度因子(A)IC值为a，情绪因子(B)IC值为b,将n个连续时间点的{a_t-n,a_t-n+1,…a_t-1,a_t}{b_t-n,b_t-n+1,…b_t-1,b_t}作为一个训练用IC值列输入模型，输入模型的可以是一个样本或由多个(此处设为m个)样本组成的小样本集合。当输入一个样本{a’}{b’}＝{a_t-n,a_t-n+1,…a_t-1,a_t}{b_t-n,b_t-n+1,…b_t-1,b_t}后,模型输出的是{c}{d}，其中{a_t-n,a_t-n+1,…a_t-1,a_t}{b_t-n,b_t-n+1,…b_t-1,b_t}分别是新闻热度因子和情绪因子在n个连续时间点的连续IC值列，而{c}{d}分别是预测的新闻热度因子和情绪因子在下一时间点t+1的IC值。当向模型输入一个含有m个样本的样本IC值集合({a’₁}{b’₁},{a’₂}{b’₂}…{a’_m-1}{b’_m-1},{a’_m}{b’_m})，则模型相应输出m个与每个样本所对应的第二相关系数形成第二相关系数集合({c₁}{d₁},{c₂}{d₂}…{c_m-1}{d_m-1},{c_m}{d_m})。

在本实施例中，模型输入和输出的过程如下，

如上所述，m设为1024。将上述选取的1024个样本的模型输入部分({a’₁}{b’₁},{a’₂}{b’₂}…{a’₁₀₂₃}{b’₁₀₂₃},{a’₁₀₂₄}{b’₁₀₂₄})输入模型进行训练，则模型相应输出1024个与每个样本所对应的第二相关系数形成第二相关系数集合({c₁}{d₁},{c₂}{d₂}…{c₁₀₂₃}{d₁₀₂₃},{c₁₀₂₄}{d₁₀₂₄})。

具体的模型训练过程可细化为以下步骤：

计算上述的预测相关系数集合中m个预测相关系数(即预测IC值)与相应真实相关系数(即真实IC值)的误差。

由于数据获取频率通常为周频或日频之间，模型预测周期较短，风格因子具有一定的动量效应，为了增加模型的泛化能力和防止过拟合，因此在每次的第二相关系数上将加上一个随机的noise，例如，将标准正态分布的采样值乘以0.01来作为noise值；再通过最小二乘法来描述观测值(即真实IC值)与预测IC值(加noise)之间的误差，以将误差最小化。

随后，通过反向传播法，调整上述误差直至该误差收敛且损失函数的值低于预设阈值，结束模型训练。

当训练模型的输出值(即预测IC值)与真实值(即真实IC值)之间的误差较大且损失函数的值大于或等于预设阈值时，通过反向传播法调整超参数(例如，隐藏层的节点数、学习率、训练轮数等)，并继续进行模型训练直至训练模型的输出值与真实值之间的误差收敛且损失函数的值低于预设阈值，结束模型训练。

反向传播算法(Backpropagation)是目前用来训练人工神经网络(ArtificialNeural Network，ANN)的最常用且最有效的算法。其主要过程是：

1)将训练数据输入到人工神经网络的输入层，经过隐藏层，最后达到输出层并输出训练结果，为人工神经网络的前向传播过程；

2)由于人工神经网络的输出结果与真实结果存在误差，则计算该输出结果与真实值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层；

3)在反向传播的过程中，根据误差调整各种参数的值；不断迭代上述过程，直至收敛。

在另一个实施例中，将模型输出的预测相关系数集合({c₁}{d₁},{c₂}{d₂}…{c₁₀₂₃}{d₁₀₂₃},{c₁₀₂₄}{d₁₀₂₄})与其各相对应的各真实IC值进行误差对比，再通过反向传播法来调整模型的参数。

进一步，将所述评估集中的样本输入所述训练模型进行预测准确率验证，当所述预测准确率达到预设阙值时，得到验证模型。

更具体的，将上述所得到的模型参数代入模型后，需将所述训练集所对应评估集中的样本输入该模型，来验证模型的预测准确率，当所述的预测准确率达到预设的验证条件，如所设的阙值或其他条件时，则得到验证模型。

当采用K折交叉验证时，上述的训练和验证过程将重复K次，所得到K组经验证的模型参数，将上述K组的模型参数进行平均，或者采用其它任意可采用的方式对K组模型参数进行处理，最终得到一个单一的验证模型参数估测值。

进一步，将所述测试集中的样本输入所述验证模型进行预测准确率测试，当所述预测准确率达到所述预设阙值时，得到所述预测模型。

更具体的，当经K折交叉验证得到上述验证模型后，需将测试集中的样本输入该验证模型进行预测准确率测试，当所测试的结果达到预设的测试条件，如所设的阙值或其他条件时，可认为预测模型已训练完毕。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有目标股票选择程序，所述目标股票选择程序被处理器执行时实现如下操作：

获取步骤：获取待处理的各股票在第一预设数量个连续的预设时间点的舆情因子观测值及收益率；

计算步骤：基于所述舆情因子观测值、所述收益率及预设计算规则，计算得到各所述预设时间点的第一相关系数，按照时间先后排列形成各所述股票的第一相关系数列；

预测步骤：将各所述第一相关系数列输入预先基于长短期记忆循环网络建立的预测模型，得到所述预测模型输出的各股票的第二相关系数；

本发明之计算机可读存储介质的具体实施方式与上述基于舆情因子的投资选股方法的具体实施方式大致相同，在此不再赘述。

与现有技术相比，本实施例的电子装置提供了一种目标股票选择方法，通过获取某各时间点的各舆情因子(新闻热度因子和情绪因子)的观测值和收益率，计算各舆情因子的第一相关系数，利用第一相关系数和经预先基于长短期记忆循环网络(LSTM)建立的模型预测得到的各舆情因子的第二相关系数，反应各舆情因子对股票未来收益的预测能力；根据该第二相关系数及舆情因子的正负方向，对各舆情因子进行动态赋权得到各舆情因子的权重，提高了舆情因子的可靠性；根据各舆情因子观测值和相应的权重，按预设评分规则对各股票进行评分计算，进一步可挑选评分较高的股票作为目标投资股票，直观展示了舆情因子观测值对股票未来收益的影响，提高了选择目标股票的可靠性，有助于投资人员控制控制投资风险，提高投资收益。

另外，本实施例还提供了上述采用长短期记忆循环网络的预测模型的训练方法，通过获取各股票的各舆情因子(新闻热度因子和情绪因子)大量连续观测值以及相应的收益率，进一步计算得到新闻热度因子和情绪因子的历史相关系数集合，并从中挑选第三预设数量的连续时间点的相关系数形成样本后，训练上述的长短期记忆循环网络模型。由于长短期记忆循环网络对处理具有时间相关性的数据有结构性的优势，因而这种训练方法可以通过对一连串历史数据的结合，从舆情因子重要性及正负方向的角度提高舆情因子权重的计算精准度。与人工预测相比，可减小人工操作失误的可能性并提高预测效率。相比于普通的循环神经网络，由于长短期记忆循环网络的结构适用于处理具有时序相关性的数据，因而可提高模型训练的效率，以及相关系数预测的准确度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标股票选择方法，其特征在于，包括如下步骤：

2.如权利要求1所述的目标股票选择方法，其特征在于，所述预设计算规则为：

3.如权利要求2中所述的目标股票选择方法，其特征在于，所述评分步骤包括：

将所述权值进行归一化处理得到权重；

4.如权利要求3中所述的目标股票选择方法，其特征在于，所述评分的计算公式为：

S＝∑ω_i*X_i

5.如权利要求1至4中任意一项所述的目标股票选择方法，其特征在于，所述预测步骤之前，该方法还包括：

6.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器上存储有目标股票选择程序，所述处理器执行所述基于舆情因子的投资选组合选择程序时包括：

7.根据权利要求6所述的电子装置，其特征在于，所述预设计算规则为：

8.根据权利要求7所述的电子装置，其特征在于，所述评分步骤包括：

将所述权值进行归一化处理得到权重；

9.根据权利要求8所述的电子装置，其特征在于，所述评分的计算公式为：

S＝∑ω_i*X_i

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有所述目标股票选择程序，所述目标股票选择程序被处理器执行时实现如权利要求1至5中任意一项所述的目标股票选择方法的步骤。