CN108710994A - 基于舆情因子的投资选股方法、装置及存储介质 - Google Patents
基于舆情因子的投资选股方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108710994A CN108710994A CN201810382311.7A CN201810382311A CN108710994A CN 108710994 A CN108710994 A CN 108710994A CN 201810382311 A CN201810382311 A CN 201810382311A CN 108710994 A CN108710994 A CN 108710994A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- factor
- stock
- stocks
- information coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 21
- 238000010187 selection method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 6
- 230000008451 emotion Effects 0.000 description 36
- 238000003062 neural network model Methods 0.000 description 13
- 230000005484 gravity Effects 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 6
- 230000003442 weekly effect Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于舆情因子的投资选股方法,该方法包括:获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;利用所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;分别计算所述多只股票的评分;及,根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。本发明还提出一种电子装置及存储介质。本发明通过计算股票评分,直观地展示舆情因子对股票未来收益的影响。
Description
技术领域
本发明涉及金融大数据挖掘领域,尤其涉及一种基于舆情因子的投资选股方法、电子装置及计算机可读存储介质。
背景技术
股票的舆情因子(例如,新闻热度及大众对相应新闻的情绪态度)在一定程度上可以表达为该股票的市场潜在能量,当一只股票的舆情因子异常(例如,当一只股票有重大负面新闻出现或者获得新一轮投资)时,需要即时更改该股票的投资策略。一般都是预先为股票的某个指标设置阈值,然后等权重投资指标满足阈值条件的股票,或者根据专业投资人员市场经验对相应股票设定投资策略。这种方式对做决策投资人员的专业技能要求较高,很容易出错,可能会增加误操作的风险。
发明内容
本发明提供一种基于舆情因子的投资选股方法、电子装置及计算机可读存储介质,其主要目的在于通过计算股票评分,直观地展示舆情因子对股票未来收益的影响,选择评分高的股票作为目标投资股票,减小投资风险、提高投资收益。
为实现上述目的,本发明提供一种基于舆情因子的投资选股方法,该方法包括:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被所述处理器执行时实现如下步骤:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被处理器执行时实现如上所述的基于舆情因子的投资选股方法的步骤。
相较于现有技术,本发明提出的基于舆情因子的投资选股方法、电子装置及计算机可读存储介质,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中基于舆情因子的投资选股程序的程序模块图;
图3为本发明基于舆情因子的投资选股方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种电子装置1。参照图1所示,为本发明电子装置1较佳实施例的示意图。
在本实施例中,该电子装置1包括存储器11、处理器12,网络接口13及通信总线14。其中,通信总线14用于实现这些组件之间的连接通信。
网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于舆情因子的投资选股程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于舆情因子的投资选股程序10等。
图1仅示出了具有组件11-14以及基于舆情因子的投资选股程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选的,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中包括基于舆情因子的投资选股程序10,处理器12执行存储器11中存储的基于舆情因子的投资选股程序10时实现以下步骤:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
在本实施例中,股票的舆情因子包括舆情热度因子及舆情情感因子,故各只股票的舆情因子观测值即为第一预设时间内的舆情热度观测值及舆情情感观测值。
假设有预先确定的M只股票,用户可根据需要设置第一预设时间及第二预设时间。可以理解的是,从预先约定的M只股票中选择N只目标股票,作为下一期投资的对象,选股频率可以是每隔一周进行一次,也可以是每隔一个月进行一次,在本实施例中为每隔一周进行一次。假设选股时间为t时刻,相应地,例如,第一预设时间可以设置为t-1时刻(即,选股当期的上一期),第二预设时间可以设置为t时刻(即,选股当期),每两期之间的时间间隔为一周。
需要说明的是,在获取第一预设时间内的各舆情因子观测值及第二预设时间内的收益率时,对于舆情因子观测值而言,不需要通过收集、处理各只股票相关的舆情信息,而是直接从一些网站上手动提取,或者通过程序对外接口直接提取,例如,从通联数据或新浪股吧提取预先确定的M只股票在第一预设时间内的舆情热度观测值及舆情情感观测值。
对于收益率而言,则需要通过计算得到。在本实施例中,M只股票在第二预设时间内对应的收益率为周收益率,在计算周收益率时,采用的是M只股票的以一周为时间间隔的收盘价,具体地,计算公式为:
R=(Pt-Pt-1)/Pt-1
其中,R为股票在t时刻(当期)的周收益率,Pt为股票在t时刻(当期)的收盘价,Pt-1为股票在t-1时刻(上一期)的收盘价。
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
为了直观地展示出各舆情因子对股票收益的预测能力,需根据M只股票在第一预设时间内的各舆情因子观测值及第二预设时间内的收益率,计算M只股票的各舆情因子在第二预设时间对应的信息系数(Information Coefficient,IC)。具体地,上述第一信息系数指在t时刻(当期)股票各舆情因子的信息系数。
在本实施例中,将斯皮尔曼相关系数(Rank IC)作为股票的各舆情因子的信息系数。Rank IC,即在某时刻,全部股票在某因子上的排序与下一期全部股票收益的排序之间的截面相关系数,计算公式为:
其中,为t-1时刻(上一期)各股票的舆情因子f的观测值排名,X为t-1时刻(上一期)舆情因子f的观测值;为t时刻(当期)各股票的收益率排名,Y为t时刻(当期)股票的收益率。
利用上述步骤,分别计算M只股的舆情热度因子及舆情情感因子在t时刻(当期)的IC值,即第一IC值。
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
可以理解的是,各舆情因子的IC值能够很好地反映各舆情因子的预测能力,IC值越大,就说表明该因子其在该期对股票收益的预测能力越强。鉴于本发明的目的在于选择下一期的目标股票,则需要了解各舆情因子在下一期对股票收益的预测能力,也就是各舆情因子在下一期的IC值。具体地,上述第二信息系数指股票的各舆情因子在t+1时刻(下一期)的IC值。
在确定M只股票的舆情热度因子及舆情情感因子的第一IC值后,将M只股票的舆情热度因子及舆情情感因子的第一IC值输入预先确定的信息系数预测模型中,预测M只股票的舆情热度因子及舆情情感因子在t+1时刻(下一期)的IC值,即第二IC值。
具体地,假设M只股票的舆情热度因子及舆情情感因子的第一IC值分别为ICAt、ICBt,将其以[ICAt,ICBt]的形式输入信息系数预测模型中,模型输出的结果为[ICA(t+1),ICB(t+1)],其中,ICA(t+1)、ICB(t+1)分别为该M只股票的舆情热度因子及舆情情感因子的第二IC值。
在本实施例中,所述预先确定的信息系数预测模型通过训练神经网络得到。鉴于模型的输入数据只是各舆情因子在某个时刻的IC值,数据形式比较简单,故选用用含有一层隐藏层的三层前馈神经网络进行训练。具体地,该信息系数预测模型的训练步骤包括:
在计算得到预先确定的第二预设数量(例如,3000只)的股票的各舆情因子在第三预设时间(两年)内的每个时刻对应的信息系数后,确定样本数据[IK,IK+1],其中,IK表示各舆情因子在K时刻对应的IC值,IK+1表示各舆情因子在K+1时刻对应的IC值(即,后面提到的实际值)。
具体地,每两个时刻之间的时间间隔可以为一天,也可以为一周。例如,当两个时刻之间的时间间隔为一天时,则样本数据为各舆情因子在每一天的IC值;当两个时刻之间的时间间隔为一周时,则样本数据需要采集的是时间间隔为一周的数据,该数据可以是各舆情因子在连续一周的五个交易日的IC值的平均值,也可以是取连续一周的五个交易日中最后一个交易日的IC值。
基于交叉验证法(cross-validation)将样本数据划分为训练集、评估集和测试集(例如,70%的样本数据作为训练集,10%的样本数据作为评估集,20%的样本数据作为测试集)。
将训练集的样本数据输入至三层前馈神经网络模型,对模型进行训练,初步确定模型参数;所述测试集用于在训练过程中对三层前馈神经网络模型的准确率进行测试,将所述测试集的样本数据输入训练得到的所述三层前馈神经网络模型中,以对训练得到的所述三层前馈神经网络模型进行测试,当训练得到的所述三层前馈神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于小于预设阈值),则训练完成,将训练完成的三层前馈神经网络模型设置为信息系数预测模型。
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;
具体地,该步骤可以细化为以下步骤:
根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。
在t时刻,利用信息系数预测模型预测得到M只股票的舆情热度因子、舆情情感因子未来一期的信息系数分别为ICA(t+1)、ICB(t+1)后,需要确定舆情热度因子、舆情情感因子在计算股票评分时分别对应的权重。
在确定各舆情因子对应的权重之前,需判断各舆情因子的因子种类,其中,因子种类包括:正向因子和负向因子。具体地,舆情热度因子为正向因子,表示股票的舆情热度观测值越高,该股票的未来收益会比较高;舆情情感因子既可能是正向因子,又可能是负向因子,需要说明的是,舆情情感观测值的取值范围为[-1,1],舆情情感观测值的绝对值越高,正面(负面)的情感越强烈,当某只股票的舆情情感观测值为负时,对该股票的未来收益存在负面影响,此时,舆情情感因子为负向因子;相反,当某只股票的舆情情感观测值为正时,对该股票的未来收益存在正面影响,此时,舆情情感因子为正向因子。
具体地,对于正向因子,当ICi(t+1)>0时,该因子i对应的第一权重ωi1=ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效;对于负向因子,当ICi(t+1)<0时,该因子i对应的第一权重ωi1=-ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效。
利用上述步骤确定舆情热度因子、舆情情感因子对应的第一权重分别为ωA1、ωB1,为了便于后续计算股票对应的评分,对股票的舆情热度因子及舆情情感因子对应的第一权重进行归一化,根据归一化结果确定股票的两个因子对应的第二权重ωA2、ωB2,作为计算股票评分时两个因子对应的权重ωA、ωB。在本实施例中,ωA、ωB的计算公式为:
ωA=ωA2=ωA1/(ωA1+ωB1)
ωB=ωB2=ωB1/(ωA1+ωB1)
分别获取M只股票的舆情热度观测值XA、舆情情感观测值XB、舆情热度因子A对应的权重ωA及舆情情感因子B对应的权重ωB,根据预设的计算公式,计算M只股票的评分。具体地,股票的评分的计算公式为:
S=Σωi*Xi
其中,i为股票的舆情因子,i={A,B},ωi为股票的舆情因子i对应的权重,ωi={ωA,ωB},Xi为t时刻股票的各舆情因子的观测值,Xi={XA,XB}。
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
可以理解的是,利用上述步骤计算得到的股票的评分,在一定程度上可以反映出股票在未来收益的走势,股票的评分越高,其未来收益可能越高。因此,在得到M只股票中的每只股票评分后,按照评分高低顺序对M只股票进行排序,从M只股票中筛选出评分最高的第一预设数量(例如,N只)的股票,作为待投资的目标股票。
在其他实施例中,确定包含待投资的目标股票的投资组合后,还需要分别确定各只目标股票占投资总额的比重,例如,对目标股票进行等权投资,或者,根据目标股票的评分确定相应的比重,评分高的股票对应的比重较大,评分低的股票对应的比重较小),具体操作可根据投资者的实际需求进行设置。最后,根据目标股票及目标股票对应的比重确定最终投资组合。
上述实施例提出的电子装置,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。
可选地,在其他的实施例中,基于舆情因子的投资选股程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于舆情因子的投资选股程序的程序模块图。在本实施例中,基于舆情因子的投资选股程序10可以被分割为:获取模块110、信息系数计算模块120、预测模块130、评分计算模块140及选股模块150。所述模块110-150所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
获取模块110,用于获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
信息系数计算模块120,用于根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
预测模块130,用于分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
评分计算模块140,用于根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
选股模块150,用于根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
此外,本发明还提供一种基于舆情因子的投资选股方法。参照图3所示,为本发明基于舆情因子的投资选股方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于舆情因子的投资选股方法包括:步骤S1-S5。
S1、获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
在本实施例中,股票的舆情因子包括舆情热度因子及舆情情感因子,故各只股票的舆情因子观测值即为第一预设时间内的舆情热度观测值及舆情情感观测值。
假设有预先确定的M只股票,用户可根据需要设置第一预设时间及第二预设时间。可以理解的是,从预先约定的M只股票中选择N只目标股票,作为下一期投资的对象,选股频率可以是每隔一周进行一次,也可以是每隔一个月进行一次,在本实施例中为每隔一周进行一次。假设选股时间为t时刻,相应地,例如,第一预设时间可以设置为t-1时刻(即,选股当期的上一期),第二预设时间可以设置为t时刻(即,选股当期),每两期之间的时间间隔为一周。
需要说明的是,在获取第一预设时间内的各舆情因子观测值及第二预设时间内的收益率时,对于舆情因子观测值而言,不需要通过收集、处理各只股票相关的舆情信息,而是直接从一些网站上手动提取,或者通过程序对外接口直接提取,例如,从通联数据或新浪股吧提取预先确定的M只股票在第一预设时间内的舆情热度观测值及舆情情感观测值。
对于收益率而言,则需要通过计算得到。在本实施例中,M只股票在第二预设时间内对应的收益率为周收益率,在计算周收益率时,采用的是M只股票的以一周为时间间隔的收盘价,具体地,计算公式为:
R=(Pt-Pt-1)/Pt-1
其中,R为股票在t时刻(当期)的周收益率,Pt为股票在t时刻(当期)的收盘价,Pt-1为股票在t-1时刻(上一期)的收盘价。
S2、根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
为了直观地展示出各舆情因子对股票收益的预测能力,需根据M只股票在第一预设时间内的各舆情因子观测值及第二预设时间内的收益率,计算M只股票的各舆情因子在第二预设时间对应的信息系数(Information Coefficient,IC)。具体地,上述第一信息系数指在t时刻(当期)股票各舆情因子的信息系数。
在本实施例中,将斯皮尔曼相关系数(Rank IC)作为股票的各舆情因子的信息系数。Rank IC,即在某时刻,全部股票在某因子上的排序与下一期全部股票收益的排序之间的截面相关系数,计算公式为:
其中,为t-1时刻(上一期)各股票的舆情因子f的观测值排名,X为t-1时刻(上一期)舆情因子f的观测值;为t时刻(当期)各股票的收益率排名,Y为t时刻(当期)股票的收益率。
利用上述步骤,分别计算M只股的舆情热度因子及舆情情感因子在t时刻(当期)的IC值,即第一IC值。
S3、分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
可以理解的是,各舆情因子的IC值能够很好地反映各舆情因子的预测能力,IC值越大,就说表明该因子其在该期对股票收益的预测能力越强。鉴于本发明的目的在于选择下一期的目标股票,则需要了解各舆情因子在下一期对股票收益的预测能力,也就是各舆情因子在下一期的IC值。具体地,上述第二信息系数指股票的各舆情因子在t+1时刻(下一期)的IC值。
在确定M只股票的舆情热度因子及舆情情感因子的第一IC值后,将M只股票的舆情热度因子及舆情情感因子的第一IC值输入预先确定的信息系数预测模型中,预测M只股票的舆情热度因子及舆情情感因子在t+1时刻(下一期)的IC值,即第二IC值。
具体地,假设M只股票的舆情热度因子及舆情情感因子的第一IC值分别为ICAt、ICBt,将其以[ICAt,ICBt]的形式输入信息系数预测模型中,模型输出的结果为[ICA(t+1),ICB(t+1)],其中,ICA(t+1)、ICB(t+1)分别为该M只股票的舆情热度因子及舆情情感因子的第二IC值。
在本实施例中,所述预先确定的信息系数预测模型通过训练神经网络得到。鉴于模型的输入数据只是各舆情因子在某个时刻的IC值,数据形式比较简单,故选用用含有一层隐藏层的三层前馈神经网络进行训练。具体地,该信息系数预测模型的训练步骤包括:
分别采集预先确定的第二预设数量的股票在第三预设时间内各舆情因子在每个时刻的历史观测值、及各只股票在每个时刻的历史收益率,计算各舆情因子在每个时刻对应的信息系数,以获取样本数据;及
将样本数据划分为训练集、评估集和测试集,并利用训练集的样本数据对神经网络进行训练,得到信息系数预测模型,利用测试集的样本数据对信息系数预测模型的准确率进行测试,得到最终的信息系数预测模型。
同理,根据Rank IC的计算公式计算得到预先确定的第二预设数量(例如,3000只)的股票的各舆情因子在第三预设时间(两年)内的每个时刻对应的信息系数后,确定样本数据[IK,IK+1],其中,IK表示各舆情因子在K时刻对应的IC值,IK+1表示各舆情因子在K+1时刻对应的IC值(即,后面提到的实际值)。
具体地,每两个时刻之间的时间间隔可以为一天,也可以为一周。例如,当两个时刻之间的时间间隔为一天时,则样本数据为各舆情因子在每一天的IC值;当两个时刻之间的时间间隔为一周时,则样本数据需要采集的是时间间隔为一周的数据,该数据可以是各舆情因子在连续一周的五个交易日的IC值的平均值,也可以是取连续一周的五个交易日中最后一个交易日的IC值。
基于交叉验证法(cross-validation)将样本数据划分为训练集、评估集和测试集(例如,70%的样本数据作为训练集,10%的样本数据作为评估集,20%的样本数据作为测试集)。
将训练集的样本数据输入至三层前馈神经网络模型,对模型进行训练,初步确定模型参数;所述测试集用于在训练过程中对三层前馈神经网络模型的准确率进行测试,将所述测试集的样本数据输入训练得到的所述三层前馈神经网络模型中,以对训练得到的所述三层前馈神经网络模型进行测试,当训练得到的所述三层前馈神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于小于预设阈值),则训练完成,将训练完成的三层前馈神经网络模型设置为信息系数预测模型。
鉴于反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法,因此,本实施例中,基于反向传播法对三层前馈神经网络模型进行训练,具体包括:
将训练集数据输入到模型的输入层,经过隐藏层,最后达到输出层并输出结果;计算模型输出的预测值与样本数据中的实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
需要说明的是,为了提高模型训练速度,在训练过程中输入数据时,不会每次只输入一个时刻的数据进行训练,而是每次固定输入batch size=k的样本数据进行训练,其中,k的大小可以根据需要设置,在本实施例中可设置为1024。
优选地,在模型训练过程中,为了增加模型的泛化能力和防止过拟合,例如,将K时刻的IC值的实际值输入三层前馈网络模型中,输出K+1时刻的IC值的预测值时,在K+1时刻的IC值的预测值的基础上增加一个随机噪声值(例如,用从标准正态分布的采样值乘以0.01来当作噪声值)。进一步地,在计算K+1时刻的IC值的预测值(含噪声值)与实际值之间的误差时,利用最小二乘法来最小化预测值(含噪声值)与实际值之间的误差。
需要注意的是,上述基于交叉验证法将样本数据划分为训练集、评估集和测试集的步骤可替换为:基于交叉验证法将样本数据划分为训练集和测试集。且训练集、评估集和测试集中样本数据的数量可根据需要设置,并不限于上述例举的方案。
S4、根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;
具体地,该步骤可以细化为以下步骤:
根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;及
根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。
在t时刻,利用信息系数预测模型预测得到M只股票的舆情热度因子、舆情情感因子未来一期的信息系数分别为ICA(t+1)、ICB(t+1)后,需要确定舆情热度因子、舆情情感因子在计算股票评分时分别对应的权重。
在确定各舆情因子对应的权重之前,需判断各舆情因子的因子种类,其中,因子种类包括:正向因子和负向因子。具体地,舆情热度因子为正向因子,表示股票的舆情热度观测值越高,该股票的未来收益会比较高;舆情情感因子既可能是正向因子,又可能是负向因子,需要说明的是,舆情情感观测值的取值范围为[-1,1],舆情情感观测值的绝对值越高,正面(负面)的情感越强烈,当某只股票的舆情情感观测值为负时,对该股票的未来收益存在负面影响,此时,舆情情感因子为负向因子;相反,当某只股票的舆情情感观测值为正时,对该股票的未来收益存在正面影响,此时,舆情情感因子为正向因子。
具体地,对于正向因子,当ICi(t+1)>0时,该因子i对应的第一权重ωi1=ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效;对于负向因子,当ICi(t+1)<0时,该因子i对应的第一权重ωi1=-ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效。
利用上述步骤确定舆情热度因子、舆情情感因子对应的第一权重分别为ωA1、ωB1,为了便于后续计算股票对应的评分,对股票的舆情热度因子及舆情情感因子对应的第一权重进行归一化,根据归一化结果确定股票的两个因子对应的第二权重ωA2、ωB2,作为计算股票评分时两个因子对应的权重ωA、ωB。在本实施例中,ωA、ωB的计算公式为:
ωA=ωA2=ωA1/(ωA1+ωB1)
ωB=ωB2=ωB1/(ωA1+ωB1)
在其他实施例中,为了防止所有的因子都失效,即所有因子对应的权重均为0的情况,在对各因子的第一权重进行归一化之前,采用smoothing的方法,在每个因子的第一权重的基础上加上ω0,然后再进行归一化处理。此时,ωA、ωB的计算公式为:
ωA=ωA2=(ωA1+ω0)/(ωA1+ωB1+1)
ωB=ωB2=(ωB1+ω0)/(ωA1+ωB1+1)
ω0=1/c
其中,c为因子总数。在本实施例中,考虑的舆情因子只有两个:舆情热度因子及舆情情感因子,故ω0=1/2。
也就是说,当舆情热度因子、舆情情感因子都失效时,采用的就是因子等权重策略,即每个因子对应的权重都相同。
分别获取M只股票的舆情热度观测值XA、舆情情感观测值XB、舆情热度因子A对应的权重ωA及舆情情感因子B对应的权重ωB,根据预设的计算公式,计算M只股票的评分。具体地,股票的评分的计算公式为:
S=∑ωi*Xi
其中,i为股票的舆情因子,i={A,B},ωi为股票的舆情因子i对应的权重,ωi={ωA,ωB},Xi为t时刻股票的各舆情因子的观测值,Xi={XA,XB}。
S5、根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
可以理解的是,利用上述步骤计算得到的股票的评分,在一定程度上可以反映出股票在未来收益的走势,股票的评分越高,其未来收益可能越高。因此,在得到M只股票中的每只股票评分后,按照评分高低顺序对M只股票进行排序,从M只股票中筛选出评分最高的第一预设数量(例如,N只)的股票,作为待投资的目标股票。
在其他实施例中,确定包含待投资的目标股票的投资组合后,还需要分别确定各只目标股票占投资总额的比重,例如,对目标股票进行等权投资,或者,根据目标股票的评分确定相应的比重,评分高的股票对应的比重较大,评分低的股票对应的比重较小),具体操作可根据投资者的实际需求进行设置。最后,根据目标股票及目标股票对应的比重确定最终投资组合。
需要说明的是,本发明的方案还适用于对已有投资组合进行优化,分别计算已有投资组合中各股票的评分,选择评分较高的股票作为目标股票,并对目标股票所占的比重进行调整,得到优化后的投资组合。
上述实施例提出的基于舆情因子的投资选股方法,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被处理器执行时实现如下操作:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
本发明之计算机可读存储介质的具体实施方式与上述基于舆情因子的投资选股方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于舆情因子的投资选股方法,应用于电子装置,其特征在于,该方法包括:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
2.根据权利要求1所述的基于舆情因子的投资选股方法,其特征在于,所述第一信息系数的计算公式为:
其中,为t-1时刻各股票的舆情因子f的观测值排名,为t时刻各股票的收益率排名。
3.根据权利要求2所述的基于舆情因子的投资选股方法,其特征在于,所述“根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分”的步骤包括:
根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;及
根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。
4.如权利要求3所述的基于舆情因子的投资选股方法,其特征在于,所述各只股票的评分的计算公式为:
S=Σωi*Xi
其中,i为股票的舆情因子,ωi为股票的舆情因子i对应的权重,Xi为t时刻股票的各舆情因子的观测值。
5.根据权利要求1至4中任意一项所述的基于舆情因子的投资选股方法,其特征在于,所述预先确定的信息系数预测模型的训练步骤包括:
分别采集预先确定的第二预设数量的股票在第三预设时间内各舆情因子在每个时刻的历史观测值、及各只股票在每个时刻的历史收益率,计算各舆情因子在每个时刻对应的信息系数,以获取样本数据;及
将样本数据划分为训练集、评估集和测试集,并利用训练集的样本数据对神经网络进行训练,得到信息系数预测模型,利用测试集的样本数据对信息系数预测模型的准确率进行测试,得到最终的信息系数预测模型。
6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被所述处理器执行时实现以下步骤:
获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;
根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;
分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;
根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及
根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。
7.根据权利要求6所述的电子装置,其特征在于,所述第一信息系数的计算公式为:
其中,为t-1时刻各股票的舆情因子f的观测值排名,为t时刻各股票的收益率排名。
8.根据权利要求7所述的电子装置,其特征在于,所述“根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分”的步骤包括:
根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;及
根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。
9.根据权利要求8所述的电子装置,其特征在于,所述各只股票的评分的计算公式为:
S=Σωi*Xi
其中,i为股票的舆情因子,ωi为股票的舆情因子i对应的权重,Xi为t时刻股票的各舆情因子的观测值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被处理器执行时实现如权利要求1至5中任意一项所述的基于舆情因子的投资选股方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382311.7A CN108710994A (zh) | 2018-04-26 | 2018-04-26 | 基于舆情因子的投资选股方法、装置及存储介质 |
PCT/CN2018/102127 WO2019205378A1 (zh) | 2018-04-26 | 2018-08-24 | 基于舆情因子的投资选股方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382311.7A CN108710994A (zh) | 2018-04-26 | 2018-04-26 | 基于舆情因子的投资选股方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108710994A true CN108710994A (zh) | 2018-10-26 |
Family
ID=63867391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810382311.7A Pending CN108710994A (zh) | 2018-04-26 | 2018-04-26 | 基于舆情因子的投资选股方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108710994A (zh) |
WO (1) | WO2019205378A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584076A (zh) * | 2018-12-06 | 2019-04-05 | 平安科技(深圳)有限公司 | 股票因子收益分析方法、装置、计算机设备以及存储介质 |
CN116522917A (zh) * | 2023-03-06 | 2023-08-01 | 北京麦克斯泰科技有限公司 | 舆情信息热度评分方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373853A (zh) * | 2015-11-18 | 2016-03-02 | 百度在线网络技术(北京)有限公司 | 股票舆情指数预测方法以及装置 |
CN106022522A (zh) * | 2016-05-20 | 2016-10-12 | 南京大学 | 一种基于互联网公开的大数据预测股票的方法及系统 |
CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
-
2018
- 2018-04-26 CN CN201810382311.7A patent/CN108710994A/zh active Pending
- 2018-08-24 WO PCT/CN2018/102127 patent/WO2019205378A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584076A (zh) * | 2018-12-06 | 2019-04-05 | 平安科技(深圳)有限公司 | 股票因子收益分析方法、装置、计算机设备以及存储介质 |
CN116522917A (zh) * | 2023-03-06 | 2023-08-01 | 北京麦克斯泰科技有限公司 | 舆情信息热度评分方法、装置、计算机设备和存储介质 |
CN116522917B (zh) * | 2023-03-06 | 2024-01-26 | 北京麦克斯泰科技有限公司 | 舆情信息热度评分方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019205378A1 (zh) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991048B1 (en) | Curated sentiment analysis in multi-layer, machine learning-based forecasting model using customized, commodity-specific neural networks | |
Shah et al. | A comprehensive review on multiple hybrid deep learning approaches for stock prediction | |
Tashiro et al. | Encoding of high-frequency order information and prediction of short-term stock price by deep learning | |
Bothos et al. | Using social media to predict future events with agent-based markets | |
CN108133013A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
US20130304623A1 (en) | Stock ranking & price prediction based on neighborhood model | |
Misund | Financial ratios and prediction on corporate bankruptcy in the Atlantic salmon industry | |
CN110415036B (zh) | 用户等级的确定方法、装置、计算机设备和存储介质 | |
CN107679987A (zh) | 资产配置策略获取方法、装置、计算机设备和存储介质 | |
US20200082945A1 (en) | Scoring and mitigating health risks | |
CN108596765A (zh) | 一种金融电子资源推荐方法和装置 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
AU2022424925A1 (en) | Processing sequences of multi-modal entity features using convolutional neural networks | |
EP2610810A1 (en) | Score fusion based on the displaced force of gravity | |
WO2016016719A2 (en) | Online trading systems and methods | |
CN109035025A (zh) | 评价股票评论可靠性的方法和装置 | |
CN108710994A (zh) | 基于舆情因子的投资选股方法、装置及存储介质 | |
CN109584086B (zh) | 基于预测模型预测住院合理性的方法及相关产品 | |
US20130097059A1 (en) | Predictive initial public offering analytics | |
CN117541401A (zh) | 信息推送方法、装置、电子设备和存储介质 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
CN116756419A (zh) | 基于人工智能的信用卡权益推荐方法、装置、设备及介质 | |
US20160171608A1 (en) | Methods and systems for finding similar funds | |
CN110110885A (zh) | 信息预测方法、装置、计算机设备和存储介质 | |
CN109300030A (zh) | 实现股票投资推荐的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181026 |
|
RJ01 | Rejection of invention patent application after publication |