CN109300030A - 实现股票投资推荐的方法和装置 - Google Patents
实现股票投资推荐的方法和装置 Download PDFInfo
- Publication number
- CN109300030A CN109300030A CN201810942583.8A CN201810942583A CN109300030A CN 109300030 A CN109300030 A CN 109300030A CN 201810942583 A CN201810942583 A CN 201810942583A CN 109300030 A CN109300030 A CN 109300030A
- Authority
- CN
- China
- Prior art keywords
- stock
- probability
- comment data
- viewpoint
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims description 64
- 230000000630 rising effect Effects 0.000 claims description 59
- 238000010801 machine learning Methods 0.000 claims description 57
- 238000012552 review Methods 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 39
- 238000012706 support-vector machine Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 5
- 230000008961 swelling Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 20
- 241001123248 Arma Species 0.000 description 12
- 238000009826 distribution Methods 0.000 description 11
- 238000013145 classification model Methods 0.000 description 8
- 238000005065 mining Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003892 spreading Methods 0.000 description 5
- 230000007480 spreading Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241000791900 Selene vomer Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种实现股票投资推荐的方法和装置,该方法包括:获取给定的股票集合;对于股票集合中的每支股票计算涨跌概率;根据股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议,方便快捷,准确度高,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。
Description
技术领域
本发明涉及人工智能和大数据领域,具体涉及一种实现股票投资推荐的方法、装置、电子设备和计算机可读存储介质。
背景技术
投资者通常会利用搜索引擎寻找相关价值信息帮助其最终决策,而这些决策过程大部分是依靠人的分析判断以及经验。事实上,互联网中的股票评论数据包含了丰富且有价值的语义信息,能够帮助投资者理解市场走势以及股票动态。已有的股票评论分析方法通常仅仅聚焦在捕获股票评论的情感极性,从而理解股票评论对于市场走势的宏观作用。然而,互联网中的股票评论往往包含了大量的噪声,如水军以及个人主观倾向从众心理等,从而严重地影响投资者的判断。因此利用人工智能技术对股票评论信息进行细粒度权威性分析,进而自动地为股民和股票分析师从海量信息中精选优质股票是非常有意义的。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实现股票投资推荐的方法、装置、电子设备和计算机可读存储介质。
依据本发明的一个方面,提供了一种实现股票投资推荐的方法,该方法包括:
获取给定的股票集合;
对于所述股票集合中的每支股票计算涨跌概率;
根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。
根据本发明的另一个方面,提供了一种实现股票投资推荐的装置,该装置包括:
股票集合获取单元,适于获取给定的股票集合;
涨跌概率计算单元,适于对于所述股票集合中的每支股票计算涨跌概率;
股票投资推荐单元,适于根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。
根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器,以及存储有可在处理器上运行的计算机程序的存储器;
其中,所述处理器,用于在执行所述存储器中的计算机程序时执行上述任一项所述的方法。
根据本发明的又一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的方法。
根据本发明的技术方案,通过获取给定的股票集合;对于股票集合中的每支股票计算涨跌概率;根据股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议,方便快捷,准确度高,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种实现股票投资推荐的方法流程图;
图2为一条股票评论数据信息示意图;
图3为一条股票评论数据信息的另一表示方式示意图;
图4为原始股票评论数据量和清洗后的股票评论数据量示意图;
图5为采用智能选股方法c选择股票后的盈利情况示意图;
图6示出了根据本发明一个实施例的一种实现股票投资推荐的装置示意图;
图7示出了根据本发明一个实施例的另一种实现股票投资推荐的装置示意图;
图8示出了根据本发明一个实施例的又一种实现股票投资推荐的装置示意图;
图9是本发明实施例中的电子设备的结构示意图;
图10是本发明实施例中的一种计算机可读存储介质的结构示意图。
具体实施方式
本发明出现的名词解释:
FM:Factorization Machine,因子分解机,是一种公知算法,由Steffen Rendle提出的一种基于矩阵分解的机器学习算法,被广泛的应用于分类及预估模型中。
SVM:Support Vector Machine,支持向量机,是一种公知算法,为一种常见的判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
ARMA:Auto Regressive Moving Average,自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法,适用于很大一类实际问题。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能。
OSRatio:Opinion Shift Ratio,观点改变比率,用于表征股票评论员对同一股票改变观点的可能性。
TSRatio:the Ratio of True-then-Shift,改变正确观点比率,用于表征股票评论员对股票评论观点正确前提下改变观点的可能性。
FSRatio:the Ratio of False-then-Shift,改变错误观点比率,用于表针股票评论员对股票评论观点错误前提下改变观点的可能性。
TCTRatio:the Reliability Ratio of True-then-Constant,一致正确观点可靠比率,用于表征股票评论员对股票评论观点正确前提下仍保持该观点的可靠性。
TSTRatio:the Reliability Ratio of True-then-Shift,改变正确观点可靠比率,用于表征股票评论员对股票评论观点正确前提下改变观点的可靠性。
FCTRatio:the Reliability Ratio of False-then-Constant,一致错误观点可靠比率,用于表征股票评论员对股票评论观点错误前提下仍保持该观点的可靠性。
FSTRatio:the Reliability Ratio of False-then-Shift,改变错误观点可靠比率,用于表征股票评论员对股票评论观点错误前提下改变观点的可靠性。
BIC准则:Bayesian Information Criterion,贝叶斯信息准则。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种实现股票投资推荐的方法流程图,如图1所示,该方法包括:
步骤S11:获取给定的股票集合;
步骤S12:对于股票集合中的每支股票计算涨跌概率;
步骤S13:根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。该步骤包括:
根据股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议包括如下中的一种或多种:
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择平均加权的方式;
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择平均加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支或多支涨且涨的概率最高的股票,在各板块之间选择平均加权方式,在选取的每个板块的股票之间择按照涨的概率加权的方式。
在本发明的一个实施例中,根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议包括如下中的一种或多种:
获取针对同一支股票sj的股票评论数据集
根据如下公式计算该支股票的涨跌概率cf(sj):
其中,表示股票评论数据集中的股票评论数据数量,ci表示一条股票评论数据,为该条股票评论数据的观点极性,为该条股票评论数据的可靠性指数,rυ(ci)为对该条股票评论数据进行可靠性分类的准确值;
当cf(sj)≥0时,股票sj涨,且涨的概率是|cf(sj)|;
当cf(sj)<0时,股票sj跌,且跌的概率是|cf(sj)|。
通过获取给定的股票集合;对于股票集合中的每支股票计算涨跌概率;根据股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议,方便快捷,准确度高,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。
在本发明的一个实施例中,图1所示实施例根据如下方法确定一条股票评论数据的观点极性
获取由股票评论数据组成的训练集和验证集,并为训练集和验证集中的每条股票评论数据标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对学习模型的效果进行评测,得到训练后的机器学习模型;
将待预测的股票评论数据的相关信息输入到训练后的机器学习模型,得到该机器学习模型输出的该股票评论数据的观点极性分类信息,并根据该观点极性分类信息确定该股票评论数据的观点极性。
在本发明的一个实施例中,根据如下公式确定一条股票评论数据的可靠性指数
其中,代表日期,是的股票价格,是后一天的股票价格,是股票评论观点极性
在本发明的一个实施例中,图1所示实施例根据如下方式确定对一条股票评论数据进行可靠性分类的准确值rυ(ci):
基于股票评论数据集和股价序列集提取特征向量;
利用所提取的特征向量训练基于径向基核函数的支持向量机SVM模型;
利用股价序列集训练用于预测股价的机器学习模型;
集成SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型
则rυ(ci)的值越大,表示对股票评论可靠性的分类结果越可靠。
在本发明的一个实施例中,图1所示实施例中基于股票评论数据集和股价序列集提取特征向量包括:
基于股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:
该条股票评论数据的看涨或看跌的观点极性信息;
在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;
从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第二预设长度时间内的股票s的价格序列;
用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;
从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio中的一种或多种;
其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。
在本发明的一个实施例中,图1所示实施例中利用所提取的特征向量训练基于径向基核函数的SVM模型包括:
令径向基核函数为:
SVM模型为:
其中,x1和x2是两个特征向量,Y是径向基核函数的参数;函数φ(·)将原始特征映射到高维内核空间,以便进行最优决策超平面的计算;
通过优化如下的目标函数来计算SVM模型的参数ω和b:
s.r.yi(ωTφ(ci)+b)≥l-ξi,
ξi≥0,i=1,…,N
其中,C是训练样本中噪声与简化超平面分类的权衡参数,yi是股票评论观点是否正确的标签。
在本发明的一个实施例中,图1所示实施例中利用股价序列集训练用于预测股价的机器学习模型包括:
确定作为模型训练集和测试集的股票价格序列数据,其中训练集或测试集中的每一条数据包括:用于输入模型的连续若干天的股票收盘价,以及作为标签的后一天的股票收盘价;
基于训练集训练ARMA模型,并基于验证集验证模型的预测效果
在本发明的一个实施例中,集成SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型包括:
基于用于预测股价的机器学习模型的股价预测结果,构建如下的分类方程:
其中,是时间的股价,是用于预测股价的机器学习模型预测的后一天的股票价格,是股票评论观点极性,err(ci)是用于预测股价的机器学习模型输出的当前股票预测价格的标准差;
集成SVM模型和用于预测股价的机器学习模型:其中,u∈[0,1];
最终的用于评价股票评论可靠性的分类模型为:
其中,h(ci)为1时,表示股评可靠;h(ci)为-1时,表示股评不可靠
在本发明的一个实施例中,图1所示实施例通过如下方式确定该条股票评论数据的看涨或看跌的观点极性信息:
获取由股票评论数据组成的训练集和验证集,并为训练集和验证集中的每条股票评论数据标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对学习模型的效果进行评测,得到训练后的用于预测股票评论数据观点极性的机器学习模型;
将该条股票评论数据输入到用于预测股票评论数据观点极性的机器学习模型,得到该模型输出的该股票评论数据的观点极性分类信息
在本发明的一个实施例中,图1所示实施例基于如下方法确定股票评论员a的观点极性分布信息:
基于股票评论员a对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;
基于提取的股评数据对,确定该股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio。
本发明提出的对股票评论数据进行可靠性建模的解决方案,该方案为一个统一的框架,融合了多种异构信息源,例如股票价格时序、股票评论文本内容以及发表股票评论的股票评论员的历史行为,可以有效过滤噪声,筛选出有价值、可靠的股票评论信息,供投资者或股市分析员使用;不仅可应用于股票评论信息可靠性分析,还可应用于金融领域其他方面,如经济形势分析、股票精准推荐、投资组合管理和自动交易等。具体实现方案如下:
一、股票评论数据清洗处理,通过数据清洗可以初步清洗掉互联网得到的股票评论数据的噪声,包括:
(1)删除观点极性为中立的股票评论数据。
(2)删除长度小于5的股票评论序列所对应的序列数据及股票评论数据。
图2为一条股票评论数据信息示意图,如图2所示,一条股票评论文本包括股评员201(allan)、时间202(8days ago)、观点极性203(BUY,Bullish)、目标股票204(IBM)、评论内容205(I think there is a support at 173.11)等信息。
其中,因观点极性为中立时,很难被自动识别,即删除观点极性为中立的股票评论数据需要人工去筛选。“长度小于5的股票评论序列”是指同一股票评论人对同一股票的评论次数小于5。
图3为一条股票评论数据信息的另一表示方式示意图,从图中可以看出,目标股票分类为A股,提问者对是否买进sh60000,股票评论员柳岸林对此进行了回答,评论时间为2016-12-29,观点极性为看涨,包含观点极性的内容为:股价遇到年线支撑,可以考虑买入,观点供参考。
图4为原始股票评论数据量和清洗后的股票评论数据量示意图,该数据来源为新浪理财师网站。从图中可以看出,清洗后的数量大大减少,清除掉了大量股票评论数据噪声,进而减小了后续数据处理的计算量。
二、股票评论员观点极性及可靠性分布模式挖掘,可以通过股票评论员历史股票评论信息挖掘其股票评论极性倾向及可靠性分布,包括:
(1)通过股票评论员历史股票评论信息统计该股票评论员的股票评论极性分布,即发布看涨及看跌概率分布。挖掘股票评论员的观点极性分布信息包括四种模式中一种或多种,简单概括为:一对一、一对多、多对一和多对多,具体为:
基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。
(2)通过股票评论员历史股票评论信息统计该股票评论员的股票评论可靠性分布,即股票评论可靠及不可靠概率分布。
三、股票评论员观点一致性模式挖掘,通过股票评论员历史股票评论序列数据挖掘其观点一致性概率分布,包括:
(1)基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对,即2-gram数据对,该数据对为包含观点极性的股票评论数据对;
(2)基于提取的股票评论数据对,统计该股票评论员保持观点的概率和改变观点的概率。
例如,同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据为:看涨、看跌、看跌、看涨、看涨,基于上述数据,得到观点极性的2-gram数据对,分别为:看涨、看跌;看跌、看跌;看跌、看涨;看涨、看涨。基于上述2-gram数据对,统计出该股票评论员保持观点的概率,即观点一致的概率为0.5,改变观点的概率为0.5。
四、股票评论员观点改变模式挖掘,通过股票评论员历史股票评论序列数据挖掘其观点改变模式,包括:
(1)基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对,即利用股票评论员对同一股票的评论序列数据,提取观点极性和观点正确与否两种2-gram数据对;
(2)基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下改变观点的概率TSRatio,以及确定该股票评论员在观点错误的前提下改变观点的概率FSRatio,即根据观点极性数据对统计在观点正确前提下改变观点的概率TSRatio、观点错误前提下改变观点的概率FSRatio;
(3)基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的观点正确的概率TCTRatio,以及确定该股票评论员在观点正确的前提下改变观点,且改变的观点正确的概率TSTRatio,即根据数据对统计观点正确前提下保持观点的可靠性TCTRatio(即股票评论员前一时刻观点正确、下一时刻仍然保持该观点且正确)、观点正确前提下改变观点的可靠性TSTRatio;
(4)基于提取的股票评论数据对,确定该股票评论员在观点错误的前提下保持观点,且保持的观点正确的概率FCTRatio,以及确定该股票评论员在观点错误的前提下改变观点,且改变的观点正确的概率FSTRatio,即根据数据对统计观点错误前提下保持观点的可靠性FCTRatio(即股票评论员前一时刻观点错误、下一时刻仍然保持该观点且正确)、观点错误前提下改变观点的可靠性FSTRatio。
例如,同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据为:看涨、看跌、看跌、看涨、看涨,基于上述数据,得到观点极性的2-gram数据对,分别为:看涨、看跌;看跌、看跌;看跌、看涨;看涨、看涨,同时得到观点正确与否的2-gram数据对,对应分别为:正确、正确;错误、正确;正确、错误;正确,正确。
根据观点极性数据对统计在观点正确前提下改变观点的概率TSRatio为0.5,观点错误前提下改变观点的概率FSRatio为0;根据数据对统计观点正确前提下保持观点的可靠性TCTRatio为0.25,观点正确前提下改变观点的可靠性TSTRatio为0.25;根据数据对统计观点错误前提下保持观点的可靠性FCTRatio为0.25,观点错误前提下改变观点的可靠性FSTRatio为0。
五、股票评论观点极性检测(o(ci)),利用收集的历史股票评论文本数据训练FM模型,基于训练好的FM模型对股票评论数据进行观点极性分类预测,其中,FM模型即机器学习模型,为一种现有的算法模型,但本发明对其进行了特殊处理,应用于股票观点极性检测,具体包括:
(1)获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性,即确定训练集、开发集和测试集股票评论文本,其中开发集和测试集类似,统称为验证集。其中,开发集用于在训练过程中对模型参数进行优化,得到最优模型,测试集用于训练后对模型的效果进行测试;观点极性的标注为人工标注,即人工标注训练集和测试集中每条股票评论文本的情感极性(看涨或看跌)。
(2)对训练集文本进行分词处理,统计得到词典,例如,“我认为明天股票会涨”,可分词为:“我”、“认为”、“明天”、“股票”、“会”、“涨”,类似该分词方法,统计得到词典。
(3)基于该词典,确定训练集中的每条股票评论文本的TF-IDF特征,该特征为词典尺寸大小的向量,每个维度为相应词基于该文本的TF-IDF值。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
简单来说,训练集中出现的一些其他文档中经常出现的常用词,例如“的”、“了”等,这些词的重要性比较低,而在股票评论文本中出现的“看涨”、“看跌”之类的观点极性词,重要性较高。TF-IDF就是评价词典中每个词的重要性的特征。
关于该TF-IDF特征为词典尺寸大小的向量,每个维度为相应词基于该文本的TF-IDF值的理解,举例来说,100个句子中一共含有1000个词,那么每个句子的向量为1000维,比如该初始向量为[1,0,0,……1],其中1代表目标词在句子中出现,0代表目标词在句子中没有出现,初始向量中的1和0都要乘以该股票评论文本的TF-IDF值,即乘以该词的权重,得到股票评论文本的TF-IDF特征。
(4)从训练集的股票评论文本中提取特征,以提取的特征作为机器学习模型的输入,以股票评论文本的观点极性分类信息作为机器学习模型的输出;即将训练集股票评论文本的TF-IDF特征作为模型输入特征,股票评论情感极性为输出,即输出看涨还是看跌,也即输出1还是0。
(5)基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,计算机器学习模型的损失,并基于计算出的损失学习机器学习模型的参数;即基于训练集,使用自适应正则化的随机梯度下降法学习FM模型参数,利用交叉验证的方式优化调整FM模型中超参数k的值,其中超参数k的值为人工给定的值。
(6)基于验证集,评测FM模型效果,具体为:从验证集的股票评论文本中提取特征,将提取的特征输入到机器学习模型中,得到机器学习模型输出的股票评论文本的观点极性分类信息;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,评测机器学习模型的效果。
(7)重复(5)、(6)和(7),直到FM效果满足要求(如准确率大于95%),则完成FM模型训练。
(8)基于训练好的FM模型,对股票评论文本进行观点极性分类,得到o(ci)属性。
(9)根据(式1)计算每一条股票评论的可靠性r(ci):
其中,代表日期,为的股票价格,为第二天的股票价格,为0或1。
(10)为股票评论文本生成相应的结构化数据,该结构化数据包括:股票评论员标识、评论时间、目标股票、观点极性和可靠性指数,即构建股票评论单元数据ci={d(ci),a(ci),s(ci),t(ci),o(ci),r(ci)},其中,d(ci)为评论内容,a(ci)为股票评论员标识,s(ci)为目标股票,t(ci)为评论时间,o(ci),为观点极性,r(ci)为可靠性指数。
六、股评信息可靠性打分方法,即对某一个股票评论员的某一条股评信息的可靠性打分。从股评序列、股价序列和股评员历史行为数据中提取关键特征,基于分类模型和时间序列分析模型的集成学习框架对股评信息的可靠性进行打分,具体包括:
(1)基于股票评论数据集和股价序列集提取特征向量,首先,基于股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:
该条股票评论数据的看涨或看跌的观点极性信息;关于如何确定该条股票评论数据的看涨或看跌的观点极性信息,在步骤五中已经作了详细阐述,在此不再赘述。
在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;
从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第二预设长度时间内的股票s的价格序列;
用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;
从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio中的一种或多种;
其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。
关于如何确定股票评论员a的观点极性分布信息,在步骤三中已经作了详细阐述,在此不再赘述。
举例来说,从股评序列、股价序列和股评员历史行为数据中提取关键特征,该关键特征包括:观点极性、历史股票状态、价格时序和股票评论员历史行为。其中,观点极性为当前评论的看涨或看跌;历史股票状态包括两种情况:第一为不考虑时间,当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;第二为过去7天内的股票评论中所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;价格时序包括:过去25天内股票s的的价格序列以及用ARMA模型预测的第二天的价格和输出的标准差;股评员历史行为包括:某个股评员a在过去7/30/90天内作出的看涨/看跌/正确/错误的股票评论数目;某个股评员对当前股票在过去7/30/90天内作出的看涨/看跌/正确/错误的股票评论数量;基于某个股评员a在过去7/30/90天发布的股票评论序列确定的OSRatio、TSRatio、FSRatio、TCTRatio、TSTRatio中的一种或多种。
(2)利用所提取的特征向量训练基于径向基核函数(式2)的支持向量机SVM模型:
令径向基核函数为:
其中,x1和x2是两个特征向量,也可以成为变量;Y是径向基核函数的参数,一般设置为1除以特征的总数,例如10000个特征,那么r就设置为0.0001;φ(·)将原始特征映射到高维内核空间,以便于进行最优决策超平面(式3)的计算;
SVM模型为:
SVM的原理是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。输入是一些特征样本点,模型在学习一个超平面,这个超平面能够确定两个事情:1、所有数据点被完美地分成两类,第一类的输出是1(对应靠谱股评),第二类的输出是0(对应不靠谱股评)2、所有数据点离超平面距离越远越好。
如果特征样本点在原来的空间中是线性不可分的(绝大多数情况下都是线性不可分),那么我们希望通过一种映射把他映射到高维空间里使问题变得线性可分,用到的映射就是核函数。
(3)通过优化(式4)计算参数ω和b:
s.t.yi(ωTφ(ci)+b)≥1-ξi,
ξi≥0,i=1,…,N,(式4)
其中C是训练样本中噪声与简化超平面分类的权衡参数,yi是股票评论观点是否正确的标签。ω,b,ξ这三个参数都是需要模型训练学习得到的参数,其中ω和b是SVM模型在预测时要用到的两个参数;s.t.代表后面的是前面的约束条件,即后两行是第一行目标函数的约束条件。yi是目标函数的边界,这个边界要越大越好。
(4)利用股价序列集训练用于预测股价的机器学习模型,如ARMA模型,包括:
a.确定训练集和测试集股票价格序列数据,输入数据为连续若干的股票收盘价,输出为后一天股票收盘价;即确定作为模型训练集和测试集的股票价格序列数据,其中训练集或测试集中的每一条数据包括:用于输入模型的连续若干天的股票收盘价,以及作为标签的后一天的股票收盘价;
b.基于训练集训练ARMA模型,并基于验证集验证模型的预测效果;即基于训练集、使用最大似然估计训练ARMA模型参数,基于BIC准则对参数p和q进行调优,基于训练好的ARMA模型,利用某股票的历时股价数据预测后一天的股价,基于验证集验证该预测效果。
总的来说,基于时间序列分析模型的股价预测,利用股票历史价格序列,训练ARMA模型,基于训练好的ARMA模型预测股票后一天的价格。
(5)集成SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型;即基于股价预测结果构建分类方程,如下式5:
其中,是时间的股价,是第二天股价的预测值,是股评观点情感极性,err(ci)是股价序列数据的标准差,即模型当前输出的股价预测值的误差或者说是置信度值。
(6)集成SVM模型和ARMA模型,得到最终的分类函数,如下式6:
h(ci)为1时,表示股评可靠;h(ci)为-1时,表示股评不可靠。其中计算公式如下式7:
式7中u∈[0,1],是SVM和ARMA模型预测结果的加权系数,通过实验确定u=0.59效果最好。
股评可靠性分类准确值可根据下式8计算得到:
当rυ(ci)越高时,对股评分类结果越可靠。(式8)是(式7)的输出结果的绝对值。
七、股票涨或跌的概率计算,通过股评可靠性度量过程中提取的相关特征及度量结果,计算股票涨或跌的概率,包括:
(1)根据下式9计算该支股票的涨跌概率cf(sj):
其中,表示股票评论数据集中的股票评论数据数量,即所有股票评论数目的总和,ci表示一条股票评论数据,为该条股票评论数据的观点极性,为该条股票评论数据的可靠性指数,rυ(ci)为对该条股票评论数据进行可靠性分类的准确值。
(2)根据下式10预测股票涨跌:
(3)根据下式11计算股票涨或跌的概率:
w(sj)=|cf(sj)|.(式11)
当cf(sj)≥0时,w(sj)的值越大,说明股票涨的概率较大,当cf(sj)<0时,w(sj)的值越大,说明股票跌的概率较大。
八、股评可靠性模型完成,当接收关于股票评论员的指定观点信息查询请求,即可输出与该查询请求对应的结果数据。
九、基于股评可靠性模型度量的股票投资,基于股评数据可靠性模型筛选可靠股评,并依此进行投资,包括:
(1)对股票池中所有股票计算股票涨或跌的概率w(sj),其中sj为单个股票;
(2)多种智能选股方法:
a.选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择平均加权的方式;即筛选涨幅指数最高的的K个股票作为投资建议,且投资权重选择平均加权的方式,即每只股票平均投资G/K元,其中G为总投资金额;
b.选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择按照涨的概率加权的方式;即筛选涨幅指数最高的的K个股票作为投资建议,且投资权重选择按照涨幅指数加权的方式,即股票sj投资元
c.从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择平均加权的方式;即每个版块中选出一只涨幅指数最高的股票作为投资建议,一共M(M=10)个板块(见下表1),且投资权重选择平均加权的方式,即每只股票投资G/M元。
Table 1:Sectors of stock symbols
表1为股票版块信息,Category代表版块名,#Covered Symbols代表版块中股票数目。
d.从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择按照涨的概率加权的方式;即每个版块中选出一只涨幅指数最高的股票作为投资建议,一共M(M=10)个板块,且投资权重选择平均加权的方式,即每只股票sj投资
e.从每个股票板块中选取一支或多支涨且涨的概率最高的股票,在各板块之间选择平均加权方式,在选取的每个板块的股票之间择按照涨的概率加权的方式;即上述选股方法的组合,例如首先从每个版块中各选择Km个涨幅最高的股票,然后用平均加权或者按照涨幅指数加权的方式,对各个股票进行投资。其中对各个版块的总投资也可以按照平均加权或者按照涨幅指数加权的方式。
图5为采用智能选股方法c选择股票后的盈利情况示意图,在2016年1月到2016年12月选择智能选股方法c进行模拟投资,每个交易日选取K个股票投资,盈利情况如图5所示,一共投资10000元,K=M,每只股票10000/M。
图6示出了根据本发明一个实施例的一种实现股票投资推荐的装置示意图,其中,该装置600包括:
股票集合获取单元601,适于获取给定的股票集合;
涨跌概率计算单元602,适于对于所述股票集合中的每支股票计算涨跌概率;
股票投资推荐单元603,适于根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。
在本发明的一个实施例中,股票投资推荐单元,适于按照如下方式中的一种或多种进行股票投资推荐:
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择平均加权的方式;
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择平均加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支或多支涨且涨的概率最高的股票,在各板块之间选择平均加权方式,在选取的每个板块的股票之间择按照涨的概率加权的方式。
图7示出了根据本发明一个实施例的另一种实现股票投资推荐的装置示意图,该装置70包括:股票集合获取单元601、涨跌概率计算单元602和股票投资推荐单元603。其中,涨跌概率计算单元602包括:
获取单元701,适于获取针对同一支股票sj的股票评论数据集
计算单元702,适于根据如下公式计算该支股票的涨跌概率cf(sj):
其中,表示股票评论数据集中的股票评论数据数量,ci表示一条股票评论数据,为该条股票评论数据的观点极性,为该条股票评论数据的可靠性指数,rυ(ci)为对该条股票评论数据进行可靠性分类的准确值;
当cf(sj)≥0时,股票sj涨,且涨的概率是|cf(sj)|;
当cf(sj)<0时,股票sj跌,且涨的概率是|cf(sj)|。
图8示出了根据本发明一个实施例的又一种实现股票投资推荐的装置示意图,该装置80包括:股票集合获取单元601、涨跌概率计算单元602和股票投资推荐单元603。其中,涨跌概率计算单元602包括:获取单元701和计算单元702,其中,计算单元702包括观点极性预测单元801、股评可靠性确定单元802、股评可靠性分类单元803。
观点极性预测单元801适于根据如下方法确定一条股票评论数据的观点极性
获取由股票评论数据组成的训练集和验证集,并为训练集和验证集中的每条股票评论数据标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对学习模型的效果进行评测,得到训练后的机器学习模型;
将待预测的股票评论数据的相关信息输入到训练后的机器学习模型,得到该机器学习模型输出的该股票评论数据的观点极性分类信息,并根据该观点极性分类信息确定该股票评论数据的观点极性
股评可靠性确定单元802,适于根据如下公式确定一条股票评论数据的可靠性指数
其中,代表日期,是的股票价格,是后一天的股票价格,是股票评论观点。
股评可靠性分类单元803,适于根据如下方式确定对一条股票评论数据进行可靠性分类的准确值rυ(ci):
基于股票评论数据集和股价序列集提取特征向量;
利用所提取的特征向量训练基于径向基核函数的支持向量机SVM模型;
利用股价序列集训练用于预测股价的机器学习模型;
集成SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型
则rυ(ci)的值越大,表示对股票评论可靠性的分类结果越可靠。
股评可靠性分类单元803,适于基于股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:
该条股票评论数据的看涨或看跌的观点极性信息;
在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;
从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第二预设长度时间内的股票s的价格序列;
用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;
从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio中的一种或多种;
其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。
股评可靠性分类单元803利用所提取的特征向量训练基于径向基核函数的SVM模型具体为:
令径向基核函数为:
SVM模型为:
其中,x1和x2是两个特征向量,γ是径向基核函数的参数;函数φ(·)将原始特征映射到高维内核空间,以便进行最优决策超平面的计算;
通过优化如下的目标函数来计算SVM模型的参数ω和b:
s.t.yi(ωTφ(ci)+b)≥1-ξi,
ξi≥0,i=1,…,N,
其中,C是训练样本中噪声与简化超平面分类的权衡参数,yi是股票评论观点是否正确的标签。
股评可靠性分类单元803利用股价序列集训练用于预测股价的机器学习模型具体为:
确定作为模型训练集和测试集的股票价格序列数据,其中训练集或测试集中的每一条数据包括:用于输入模型的连续若干天的股票收盘价,以及作为标签的后一天的股票收盘价;
基于训练集训练ARMA模型,并基于验证集验证模型的预测效果
股评可靠性分类单元803集成SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型具体为:
基于用于预测股价的机器学习模型的股价预测结果,构建如下的分类方程:
其中,是时间的股价,是用于预测股价的机器学习模型预测的后一天的股票价格,是股票评论观点极性,err(ci)是用于预测股价的机器学习模型输出的当前股票预测价格的标准差;
集成SVM模型和用于预测股价的机器学习模型:其中,u∈[0,1];
最终的用于评价股票评论可靠性的分类模型为:
其中,h(ci)为1时,表示股评可靠;h(ci)为-1时,表示股评不可靠
股评可靠性分类单元803,适于通过如下方式确定该条股票评论数据的看涨或看跌的观点极性信息:
获取由股票评论数据组成的训练集和验证集,并为训练集和验证集中的每条股票评论数据标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对学习模型的效果进行评测,得到训练后的用于预测股票评论数据观点极性的机器学习模型;
将该条股票评论数据输入到用于预测股票评论数据观点极性的机器学习模型,得到该模型输出的该股票评论数据的观点极性分类信息。
股评可靠性分类单元803,适于基于如下方法确定股票评论员a的观点极性分布信息:
基于股票评论员a对同一股票的股票评论序列中的各相邻股票评论数据,提取股评数据对;
基于提取的股评数据对,确定该股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio。
综上所述,通过获取给定的股票集合;对于股票集合中的每支股票计算涨跌概率;根据股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。本发明对现有的机器学习模型进行特殊处理及训练,对股票评论数据进行观点极性分类预测,使得待预测的股票评论文本的相关信息输入到训练后的机器学习模型后即可得到该机器学习模型输出的该股票评论文本的观点极性分类信息,计算股票涨跌概率,根据股票涨跌概率来进行股票投资,方便快捷,准确度高,并且融合了多种异构信息源,例如股票价格时序、股票评论文本内容以及发表股票评论的股票评论员的历史行为,基于该多源异构大数据,借助数据挖掘技术深入分析并提取关键特征,利用这些特征进行股票评论可靠性度量,可以有效过滤噪声,从海量信息中筛选出有价值、可靠的股票评论信息,精选出优质股票,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。该方法不仅可应用于股票评论信息可靠性分析,还可应用于金融领域其他方面,如经济形势分析、股票精准推荐、投资组合管理和自动交易等。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字内容的拍照录入装置、电子设备和计算机可读存储介质中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图9是本发明实施例中的电子设备的结构示意图。该电子设备900包括:处理器910,以及存储有可在所述处理器910上运行的计算机程序的存储器920。处理器910,用于在执行所述存储器920中的计算机程序时执行本发明中方法的各步骤。存储器920可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器920具有存储用于执行上述方法中的任何方法步骤的计算机程序931的存储空间930。计算机程序931可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图10所述的计算机可读存储介质。
图10是本发明实施例中的一种计算机可读存储介质的结构示意图。该计算机可读存储介质1000存储有用于执行根据本发明的方法步骤的计算机程序931,可以被电子设备900的处理器910读取,当计算机程序931由电子设备900运行时,导致该电子设备900执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算程序931可以执行上述任一实施例中示出的方法。计算机程序931可以以适当形式进行压缩。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种实现股票投资推荐的方法,其中,该方法包括:
获取给定的股票集合;
对于所述股票集合中的每支股票计算涨跌概率;
根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。
2.如权利要求1所述的方法,其中,所述根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议包括如下中的一种或多种:
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择平均加权的方式;
选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择平均加权的方式;
从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择按照涨的概率加权的方式;
从每个股票板块中选取一支或多支涨且涨的概率最高的股票,在各板块之间选择平均加权方式,在选取的每个板块的股票之间择按照涨的概率加权的方式。
3.如权利要求1所述的方法,其中,所述对于所述股票集合中的每支股票计算涨跌概率包括:
获取针对同一支股票sj的股票评论数据集
根据如下公式计算该支股票的涨跌概率cf(sj):
其中,表示股票评论数据集中的股票评论数据数量,si表示一条股票评论数据,为该条股票评论数据的观点极性,为该条股票评论数据的可靠性指数,rυ(ci)为对该条股票评论数据进行可靠性分类的准确值;
当cf(sj)≥0时,股票sj涨,且涨的概率是|cf(sj)|;
当cf(sj)<0时,股票sj跌,且跌的概率是|cf(sj)|。
4.如权利要求3所述的方法,其中,根据如下方法确定一条股票评论数据的观点极性
获取由股票评论数据组成的训练集和验证集,并为训练集和验证集中的每条股票评论数据标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;
将待预测的股票评论数据的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论数据的观点极性分类信息,并根据该观点极性分类信息确定该股票评论数据的观点极性。
5.如权利要求3所述的方法,其中,根据如下公式确定一条股票评论数据的可靠性指数
其中,代表日期,是的股票价格,是后一天的股票价格,是股票评论观点极性。
6.如权利要求3所述的方法,其中,根据如下方式确定对一条股票评论数据进行可靠性分类的准确值rυ(ci):
基于股票评论数据集和股价序列集提取特征向量;
利用所提取的特征向量训练基于径向基核函数的支持向量机SVM模型;
利用股价序列集训练用于预测股价的机器学习模型;
集成所述SVM模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型
则rυ(ci)的值越大,表示对股票评论可靠性的分类结果越可靠。
7.如权利要求6所述的方法,其中,所述基于股票评论数据集和股价序列集提取特征向量包括:
基于所述股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:
该条股票评论数据的看涨或看跌的观点极性信息;
在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;
从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第二预设长度时间内的股票s的价格序列;
所述用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;
从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;
基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率OSRatio、观点正确的前提下改变观点的概率TSRatio、观点错误的前提下改变观点的概率FSRatio、观点正确的前提下保持观点且保持的观点正确的概率TCTRatio、观点正确的前提下改变观点且改变的观点正确的概率TSTRatio、观点错误的前提下保持观点且保持的观点正确的概率FCTRatio以及观点错误的前提下改变观点且改变的观点正确的概率FSTRatio中的一种或多种;
其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。
8.一种实现股票投资推荐的装置,其中,该装置包括:
股票集合获取单元,适于获取给定的股票集合;
涨跌概率计算单元,适于对于所述股票集合中的每支股票计算涨跌概率;
股票投资推荐单元,适于根据所述股票集合中的各支股票的涨跌概率,选取一支或多支股票进行投资建议。
9.一种电子设备,其特征在于,所述电子设备包括:处理器,以及存储有可在处理器上运行的计算机程序的存储器;
其中,所述处理器,用于在执行所述存储器中的计算机程序时执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810942583.8A CN109300030A (zh) | 2018-08-17 | 2018-08-17 | 实现股票投资推荐的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810942583.8A CN109300030A (zh) | 2018-08-17 | 2018-08-17 | 实现股票投资推荐的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109300030A true CN109300030A (zh) | 2019-02-01 |
Family
ID=65165219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810942583.8A Pending CN109300030A (zh) | 2018-08-17 | 2018-08-17 | 实现股票投资推荐的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300030A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503550A (zh) * | 2019-07-23 | 2019-11-26 | 周奕 | 一种股票数据分析系统 |
WO2021103571A1 (zh) * | 2019-11-25 | 2021-06-03 | 华泰证券股份有限公司 | 资产投资建议信息的生成方法、装置和可读存储介质 |
-
2018
- 2018-08-17 CN CN201810942583.8A patent/CN109300030A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503550A (zh) * | 2019-07-23 | 2019-11-26 | 周奕 | 一种股票数据分析系统 |
WO2021103571A1 (zh) * | 2019-11-25 | 2021-06-03 | 华泰证券股份有限公司 | 资产投资建议信息的生成方法、装置和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
Juhász et al. | The who, what, when, and how of industrial policy: A text-based approach | |
CN109299252A (zh) | 基于机器学习的股票评论的观点极性分类方法和装置 | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN109035025A (zh) | 评价股票评论可靠性的方法和装置 | |
Yang et al. | Automatic academic paper rating based on modularized hierarchical convolutional neural network | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
KR20170009692A (ko) | 주가 등락 예측 방법 및 서버 | |
CN111738856A (zh) | 一种股票舆情投资决策分析方法及装置 | |
EP4044094A1 (en) | System and method for determining and managing reputation of entities and industries through use of media data | |
Addepalli et al. | A proposed framework for measuring customer satisfaction and product recommendation for ecommerce | |
CN109300030A (zh) | 实现股票投资推荐的方法和装置 | |
CN112434862B (zh) | 上市企业财务困境预测方法及装置 | |
CN109300031A (zh) | 基于股票评论数据的数据挖掘方法和装置 | |
Gu et al. | Stock prediction based on news text analysis | |
Ekaputri et al. | Financial News Sentiment Analysis using Modified VADER for Stock Price Prediction | |
Karim et al. | Classification of Google Play Store Application Reviews Using Machine Learning | |
Lubis et al. | Improving course review helpfulness Prediction through sentiment analysis | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining | |
CN109242160A (zh) | 计算股票涨跌概率的方法和装置 | |
AlZaabi | Correlating Sentiment in Reddit’s Wallstreetbets with the Stock Market Using Machine Learning Techniques | |
CN110442862A (zh) | 基于招聘信息的数据处理方法及装置 | |
Denanti et al. | The Correlation of Headline News Sentiment and Stock Return During Dividend Period | |
Arief et al. | Hybrid Approach with VADER and Multinomial Logistic Regression for Multiclass Sentiment Analysis in Online Customer Review. | |
Solberg et al. | The predictive power of earnings conference calls: predicting stock price movement with earnings call transcripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190201 |
|
RJ01 | Rejection of invention patent application after publication |