CN110309508A - 一种基于投资者情绪的vwap量化交易系统及方法 - Google Patents
一种基于投资者情绪的vwap量化交易系统及方法 Download PDFInfo
- Publication number
- CN110309508A CN110309508A CN201910537143.9A CN201910537143A CN110309508A CN 110309508 A CN110309508 A CN 110309508A CN 201910537143 A CN201910537143 A CN 201910537143A CN 110309508 A CN110309508 A CN 110309508A
- Authority
- CN
- China
- Prior art keywords
- sentiment
- investor
- vwap
- word
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013139 quantization Methods 0.000 title claims abstract description 30
- 238000012706 support-vector machine Methods 0.000 claims abstract description 58
- 238000005065 mining Methods 0.000 claims abstract description 18
- 238000000513 principal component analysis Methods 0.000 claims abstract description 11
- 230000003068 static effect Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000036651 mood Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 230000010415 tropism Effects 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于投资者情绪的VWAP量化交易系统及方法。首先,通过结合Hownet中文基础情感词典、以BCC为语料金融领域词典和文本挖掘的东方财富网股吧来构建个股投资者情绪指标;然后,通过对若干投资者情绪代理变量的主成分分析,得到市场投资者情绪指标;最后,引入文本挖掘出的个股投资者情绪指标,建立了支持向量机(SVM)模型预测模型,并将市场投资者情绪指标作为影响因子加入到传统VWAP量化交易策略概率测度的更新迭代中,得到适应性交易曲线,以实现动态交易策略的执行,从而获得基于投资者情绪改进的VWAP动态交易策略。本发明实现了投资者情绪和算法交易的结合,相较于传统交易策略有利于降低交易成本,提高交易收益,具有较强的适用性和推广性。
Description
技术领域
本发明涉及一种VWAP策略的量化交易系统及方法,尤其涉及一种基于投资者情绪的VWAP动态交易策略构建技术,属于量化交易技术领域。
背景技术:
投资者情绪主要分为直接情绪指标和间接情绪指标两个方面。直接情绪指标通过直接调查参与市场的投资者,来统计投资者对市场长势的态度,从而获取市场悲观或者乐观情绪指标,有研究表明直接情绪指标在实证意义上与市场收益率显著相关。间接情绪指标通过研究间接影响投资者对股市预期估价的指标得到,往往由市场代理变量代替度量,基于交易量、IPO数量、首日收益率、股利收益、股票发行比例及封闭式基金折价率等六个指标,构造度量投资者情绪的BW复合指数。文本挖掘技术的兴起,让学界和业界意识到利用这项技术可以挖掘有关投资者情绪和观念的大量信息,大量研究已经运用文本挖掘技术证明了金融文本中投资者情绪的存在性和对交易的显著影响。金融文本分析是构建投资者情绪指标的重要技术难关。常用的金融文本分析技术包括机器学习和语义分析两类。机器学习方面,引入机器学习算法分析股吧投资者的发帖、评论等文本信息,设计投资者情绪指标并发现其变化,实现对市场运动方向的刻画和预测。语义分析方面,可以运用基于语义规则的文本分析方法或者根据情感词典对金融文本数据进行分析量化。
算法交易最早产自美国,表示利用计算机自动完成的交易过程。算法交易的产生主要基于通讯技术和电子交易系统的发展。上世纪70年代以来市场委托指令流开始出现计算机化的趋势,新兴市场大都采用前沿的电子交易系统,以手动输入为主的传统交易所也渐渐转向电子化交易,为算法交易的产生奠定了根基。VWAP(Volume Weighted AveragePrice,成交量加权平均价)策略是一种拆分大额委托单,在约定时间段内分批执行,以期使得最终买入或卖出成交均价尽量接近该段时间内整个市场成交均价的算法交易策略。VWAP策略的主要功能是通过拆分订单降低市场冲击成本,越接近日内成交量分布结构的拆单策略所造成的冲击成本越小是VWAP策略研究者的共识。制定VWAP策略的核心问题是对成交量日内分布进行预测,能否更精准的预测日内成交量的分布结构直接关系到VWAP策略的执行结果。预测成交量的主流方式都是先进行分解,再分别预测,将成交量分解有两种模式,一种是用证券自身历史数据建模分解;另一种是利用证券所在的市场成交量因素进行分解。
目前,VWAP交易策略的改进主要在以下几个方面:
(1)基于均值-方差效用函数的VWAP算法交易模型,提出不同流动性条件下的最优交易策略;
(2)运用主成分分析法和因子模型分解成交量,采用ARMA模型和SETAR模型对特殊部分建模,提出动态调整的VWAP策略;
(3)运用历史均值分解成交量,并通过收益率的变动对特殊部分进行动态调整,提出基于收益率调整的VWAP-VAR策略;
(4)将市场内的交易信号与传统交易曲线相结合,构造出适应性VWAP策略,即利用函数对静态交易策略进行调整,当上一个时间段内的动态策略执行效果优于静态时,增大下一个时间段的执行量的权重;
现有的对于投资者情绪和VWAP策略的研究存在以下不足;一般对投资者情绪多为定性研究,往往止步于投资者情绪的存在性证明及其对股票市场的影响,未充分发挥投资者情绪的定量价值。现有VWAP策略的优化都未考虑投资者情绪对于策略的影响,投资者情绪和算法交易策略结合还几乎是业界的空白。
发明内容
本发明要解决的技术问题是:提出一种新的基于投资者情绪的VWAP量化交易方法,通过文本挖掘技术与主成分分析方法构建投资者情绪指标,建立支持向量机(SVM)模型预测模型,并将市场投资者情绪指标作为影响因子加入到传统VWAP量化交易策略概率测度的更新迭代中,获得基于投资者情绪改进的VWAP动态交易策略。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种新的基于投资者情绪的VWAP量化交易方法,包括以下步骤:
(1)、通过结合Hownet中文基础情感词典、以BCC为语料金融领域词典和文本挖掘的东方财富网股吧来构建个股投资者情绪指标;
(2)、通过对若干投资者情绪代理变量的主成分分析,得到市场投资者情绪指标;
(3)、引入文本挖掘出的个股投资者情绪指标,建立了支持向量机(SVM)模型预测模型,并将市场投资者情绪指标作为影响因子加入到传统VWAP量化交易策略概率测度的更新迭代中,从而获得基于投资者情绪改进的VWAP动态交易策略。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(1)中,在步骤(1)中,构建个股投资者情绪指标,具体流程包括:采用计算点互信息PMI的方法构建金融领域情感词典,利用金融领域情感词典,对东方财富网个股评论进行语义分析,基于BSI指数建立投资者情绪指数SEN。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(1)中,所述PMI(Pointwise Mutual Information),即点互信息,通过考虑两个元素间的共现概率来计算它们的关联程度。应用到文本中,两个词语之间的点间互信息值公式为:
其中,P(word1&word2)表示两个词语在同一文本中的共现概率,P(wordi)表示该词语在文本中出现的概率。共现概率越高,表明两个词语在同一文本中越有可能一起出现,因而可以认为这两个词具有一定的相关性。PMI值越大,两者相关性越高。将PMI运用在情感倾向性分析,可以判断词语极性,即计算SO-PMI(Semantic Orientation using PointwiseMutual Information)。SO-PMI是在PMI值基础上做进一步的计算,获得文本的极性。
其中,positive和negtive分别为预先设定的积极种子词库和消极种子词库。基于公式,分别计算该词与积极种子词的PMI值总和、与消极种子词的PMI值总和,二者之差为SO-PMI值。当SO-PMI值为正时,该词与积极种子词相关性更高,可以认为该词更有可能是积极的;当SO-PMI值为负时,该词与消极种子词相关性更高,可以认为该词更有可能是消极的。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(1)中,采用计算点互信息PMI的方法构建金融领域情感词典,利用金融领域情感词典,对东方财富网个股评论进行语义分析,基于BSI指数建立投资者情绪指数SEN。具体如下:
A、结合Hownet基础情感词典,选取常用的金融词语作为积极与消极的种子词,构成positive和negtive集合;
B、采用北京语言大学语料库(BCC)中的语料和微博语料,对其进行分词,并计算各词与种子词的PMI值,根据设定PMI阈值并结合人工筛选,初步筛选出一些待分类词语;
C、计算初步筛选出待分类词语的SO-PMI值,结合计算SO-PMI值的结果和人工筛选,得到新扩展的金融领域词语及其极性;
D、以东方财富网的股吧发言为对象,对于每只个股的评论发言,使用python的BeautifulSoup进行文本挖掘,结合SnowNLP包进行分词,由此得到分词后的个股股吧评论文本。综合Hownet基础词典和金融领域情感词典,将东方财富网个股评论分词后的结果与情感词典进行匹配,当匹配为积极词时,看涨词语增加1,当匹配为消极词时,看跌词语增加1;
E、考虑看涨词与看跌词所占比例,基于BSI指数进行投资者情绪指数设计:
SEN即为本发明所构造的个股投资者情绪指标。SEN值越大,目前股民情绪越热烈,对该股未来走势越看强;SEN越小,股民情绪越低落,对该股越不看好。特别地,当SEN超过0.5时,投资者对该股总体上是看涨的,当SEN低于0.5时,投资者对该股总体上是看跌的。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(2)中,通过对6个投资者情绪代理变量:封闭式基金折价率、新开户数、新上市公司数、换手率、成交量和消费者信心指数进行标准化处理,并通过主成分分析得到市场投资者情绪指标SENT。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(3)中,所述支持向量机(SVM)模型的构建与求解为:
设有训练样本集(xi,xj),i=1,2...,n样本集的估计因变量为f(x),其形式为:
表示该样本集具有ε相似性。
基于统计学理论,利用核函数方法,可以求得SVM回归函数为:
其中,参数ai,b可以根据KKT优化条件求得。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(3)中,所述传统VWAP量化交易策略,具体如下:
A、将交易区间[0,T]分割为N份间隔,显然这中间有N+1个时间点:
B、设投资者有一个交易量为V的大额订单需要在一定时间内完成,可以有交易量出清序列:
其中,vn为每个时间区间内投资者的交易量;
C、设定:(wn)n=1,2,...,N为每个时间区间内的市场VWAP(价格);
D、建立相应的概率测度:
E、对于某交易日内的某只股票订单而言,(wn)n=1,2,...,N即市场VWAP是固定的。则当日VWAP定义为市场VWAP,且交易曲线的函数为:
如果交易指令是买入,投资者的目标是要最小化W(p);反之如果交易是要卖出,则需要最大化W(p)。而不论交易方向如何,投资者都需要选出最优的交易曲线,因此静态的最佳交易策略可以被视为在开盘前选定最佳交易曲线。
进一步,本发明的基于投资者情绪的VWAP量化交易方法,在步骤(3)中,所述传统VWAP量化交易策略概率测度的更新迭代,具体如下:
A、引入价格信号,对于分割后的各个时间段定义价格信号(sn)n=1,2,...,N为下一阶段市场的价格水平。具体定义为:
因为价格对于买入和卖出策略对价格变动的反应恰好相反,这之间刚好相差一个符号。具体而言,对于卖出策略,价格信号的定义为
而买入策略的价格信号为
B、运用机器学习方法,利用支持向量机(SVM)模型预测模型,静态预测交易量,动态预测价格。静态预测交易量是指运用前5天,同一时段的三个指标(交易量、价格、个股情绪指标),进行预测。而动态预测价格是指运用前3天,同一时段的指标,和当天该时段之前三个交易区间的指标进行预测;
C、利用预测结果对于VWAP量化交易策略概率测度进行更新迭代,每5分钟都会对成交量的概率测度进行实时更新,从而交易曲线函数W(P)也实现实时更新,以实现动态交易。
首次迭代,采用静态交易曲线
当2≤n≤N的第n次迭代:
最后一次,即第N次迭代:
其中δ为市场情绪指标,大于0的表示市场情绪高涨;小于0的表示投资者情绪低落。
本发明还提出一种基于投资者情绪的VWAP量化交易系统,具体包括:
文本数据挖掘模块,以东方财富网的股吧发言为对象,对于每只个股的评论发言,使用python的BeautifulSoup进行文本挖掘,结合SnowNLP包进行分词,得到分词后的个股股吧评论文本;
投资者情绪量化模块,投资者情绪由个股与市场投资者情绪指标刻画:个股投资者情绪指标通过结合Hownet中文基础情感词典、以BCC为语料金融领域词典和文本挖掘的东方财富网股吧文本数据,计算点互信息PMI的方法来构建;市场投资者情绪指标通过对若干投资者情绪代理变量的进行主成分分析的方法来构建;
支持向量机(SVM)模型预测模块,根据支持向量机中的非线性回归理论,构建支持向量机(SVM)模型,利用机器学习方法,运用前5天,同一时段的三个指标(交易量、价格、个股情绪指标),静态预测交易量;运用前3天,同一时段的指标,和当天该时段之前三个交易区间的指标动态预测股票价格;
VWAP交易策略动态更新模块,利用SVM预测结果对于VWAP量化交易策略概率测度进行更新迭代,对每个时刻的成交量比例做出动态调整,进而优化整个静态交易曲线,最终得到适应性交易曲线,以实现动态交易策略的执行。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明相对于已有的量化交易策略,对市场环境有极大的容忍性。引入投资者情绪后,VWAP策略有更好的执行效果,且引入投资者情绪的VWAP算法主体执行成本波动较小,可以在中国市场的不同环境中为投资者降低交易成本。
附图说明
图1是VWAP量化交易系统结构图。
图2是投资者情绪量化模块流程图。
图3是支持向量机(SVM)模型预测模块流程图。
图4是VWAP交易策略动态更新模块流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明,通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,图中列出了本发明的VWAP量化交易系统结构图。主要可分为数据源、指标集以及交易集三个部分。
其中,数据源主要涉及文本数据、交易数据的采集与处理等内容,即从微博、东方财富网等平台运用文本挖掘技术采集与股票评论相关的文本数据,同时从CCER(中国经济金融数据库)、CSMAR(国泰安数据库)以及Wind数据库中采集投资者情绪代理变量的相关数据和历史交易数据,用于投资者情绪的分析与交易曲线的预测。
指标集用于投资者情绪量化分析,得到个股投资者情绪和市场投资者情绪,即建立金融领域情感词典,并通过对股吧文本数据进行语义分析,构造个股投资者情绪指标;对采集的投资者情绪代理变量进行主成分分析,提取主要影响因素,构造市场投资者情绪指标。
交易集用于预测交易量和交易数据,并实现VWAP量化交易策略的动态更新,即利用历史交易数据和实时交易数据,通过支持向量机(SVM)预测模型进行未来交易量和交易价格的预测,利用SVM预测结果对于VWAP量化交易策略概率测度进行更新迭代,以实现动态交易策略的执行。
特别地,投资者情绪量化模块、支持向量机(SVM)模型预测模块和VWAP交易策略动态更新模块可以继续深入展开,具体如图2,图3和图4。
图2列出了投资者情绪量化模块的流程图,主要功能是对投资者情绪进行量化分析,得到个股投资者情绪和市场投资者情绪的相关指标。主要流程包括,利用从微博、股吧等平台通过数据挖掘获取的文本数据,在Hownet基础情感词典基础上运用PMI方法构造金融领域情感词典,并在此基础上对文本数据进行分词,对分词后的结果与情感词典进行匹配,基于基于BSI指数构造个股投资者情绪指数SEN;对投资者情绪的代理变量进行主成分分析,提取主要影响因素,构造市场投资者情绪指标SENT。
图3列出了支持向量机(SVM)模型预测模块的流程图,主要功能是利用SVM模型对交易数据进行预测。主要流程包括,构造支持向量机理论模型,利用历史交易数据,通过机器学习的方法,对理论模型进行训练,得到SVM回归函数,并利用市场交易数据,对未来的交易量和交易价格进行预测。
图4列出了VWAP交易策略动态更新模块的流程图,主要功能是对静态VWAP交易曲线实现动态迭代更新,优化交易结果。主要流程包括,利用历史交易数据预测初始交易量和交易价格,得到VWAP初始静态交易曲线,并进行首次交易。根据实时交易数据,利用SVM预测模型在交易过程中持续对交易价格进行预测,更新价格信号,实现交易概率测度的动态迭代更新,得到动态交易曲线。
本发明的目的是提供一种新的VWAP量化交易模型,模型在考虑历史交易量,交易价格等信息数据的同时,通过投资者情绪量化模型引入了投资者情绪指标,并通过支持向量机(SVM)模型实时预测未来交易量和交易价格,进行交易曲线的动态优化。
一、系统组成
本发明系统由数据源、指标集和交易集等构成。本发明以股吧文本数据、市场交易数据等信息数据为输入源,通过对投资者情绪量化得到投资者情绪指标,并利用情绪指标、交易数据实现未来交易量、交易价格的实时预测,得到VWAP动态优化交易曲线。
二、核心模块
本发明系统包含三个核心模块:即投资者情绪量化模块、支持向量机(SVM)模型预测模块和VWAP交易策略动态更新模块,分别用于构造投资者情绪指标、未来交易数据预测和交易曲线动态优化。
(1)投资者情绪量化模块
投资者情绪量化模型主要对投资者情绪进行量化分析,得到个股投资者情绪和市场投资者情绪的相关指标,流程图如图2所示。
以Hownet基础情感词典为基础情感词典。Hownet中文词典具有词量大、分类细、极性较为准确等优点,常用来作为语义分析的基础词典。Hownet中文词典具体包含3730个正面评价词、836个正面情感词、3116个负面评价词、1254个负面情感词、219个程度级别用词和38个主张用词。仅Hownet基础情感词典无法满足分析金融文本的要求,采用计算点互信息PMI的方法,针对金融领域词汇扩建金融领域情感词典,在原有词典中添加已有极性的金融领域词。
PMI(Pointwise Mutual Information),即点互信息,通过考虑两个元素间的共现概率来计算它们的关联程度。应用到文本中,两个词语之间的点间互信息值公式为:
其中,P(word1&word2)表示两个词语在同一文本中的共现概率,P(wordi)表示该词语在文本中出现的概率。共现概率越高,表明两个词语在同一文本中越有可能一起出现,因而可以认为这两个词具有一定的相关性。PMI值越大,两者相关性越高。将PMI运用在情感倾向性分析,可以判断词语极性,即计算SO-PMI(Semantic Orientation using PointwiseMutual Information)。SO-PMI是在PMI值基础上做进一步的计算,获得文本的极性。
其中,positive和negtive分别为预先设定的积极种子词库和消极种子词库。基于公式,分别计算该词与积极种子词的PMI值总和、与消极种子词的PMI值总和,二者之差为SO-PMI值。当SO-PMI值为正时,该词与积极种子词相关性更高,可以认为该词更有可能是积极的;当SO-PMI值为负时,该词与消极种子词相关性更高,可以认为该词更有可能是消极的。
采用北京语言大学语料库(BCC)中的语料,并结合下载下来的10000条微博语料,对其分词,并计算各词与种子词的PMI值。设定PMI阈值为1.5,当PMI值不超过阈值时,认为该词与种子词不相关,再结合人工筛选,排除一些经常出现的主语、助动词等无用词,初步筛选出待分类词语,然后计算这些词的SO-PMI值。结合计算SO-PMI值的结果和人工筛选,得到新扩展的金融领域词语及其极性,
东方财富网作为国内主要的金融门户网站,拥有可观的用户量和活跃度。本发明以东方财富网的股吧发言为对象,对于每只个股的评论发言,使用python的BeautifulSoup进行文本挖掘,结合SnowNLP包进行分词,由此得到分词后的个股股吧评论文本。综合Hownet基础词典和金融领域情感词典,对东方财富网个股评论进行语义分析。具体地,本文将东方财富网个股评论分词后的结果与情感词典进行匹配,当匹配为积极词时,看涨词语增加1,当匹配为消极词时,看跌词语增加1。考虑看涨词与看跌词所占比例,基于BSI指数进行投资者情绪指数设计。
SEN即为本发明所构造的个股投资者情绪指标。SEN值越大,目前股民情绪越热烈,对该股未来走势越看强;SEN越小,股民情绪越低落,对该股越不看好。特别地,当SEN超过0.5时,投资者对该股总体上是看涨的,当SEN低于0.5时,投资者对该股总体上是看跌的。
考虑中国市场实情,本发明挑选了6个投资者的情绪代理变量:封闭式基金折价率、新开户数、新上市公司数、换手率、成交量和消费者信心指数,并从CCER(中国经济金融数据库)、CSMAR(国泰安数据库)以及Wind数据库中采集历史数据。
首先对数据进行标准化处理,得到Z-DCEF,Z-TURN,Z-NIA,Z-CCI,Z-TOR,Z-IPON,接着对以上6个变量进行主成分分析,采用正交化旋转并严格遵守λ>1的标准,最终提取了2个主成分,它们的方差解释率达到70%。第一主成分主要和月新增开户数、换手率加权以及交易量有较大的相关性,而第二主成分主要是和新上市公司数以及消费者信心指数有较大的相关性。最后,用每个主成分的方差解释力代替权重,对2大主成分加权平均,得到SENT的表达式。
(2)支持向量机(SVM)模型预测模块
支持向量机(SVM)模型预测模型主要构造支持向量机理论模型,利用历史交易数据,通过机器学习的方法,对理论模型进行训练,得到SVM回归函数,并利用市场交易数据,对未来的交易量和交易价格进行预测,流程图如图3所示。
支持向量机是在统计学习理论根基上衍生而来的机器学习方式,SVM不仅用结构风险最小化原则替代了经验风险最小化原则,且结合了统计学习、机器学习和神经网络等方面的技术,在解决小样本、非线性和高维的机器学习问题中体现出了许多特有的优势。由于股票序列是典型的非线性时间序列,且又是对其进行回归预测,因此本发明主要运用了支持向量机中的非线性回归理论
设有训练样本集(xi,xj),i=1,2...,n,样本集的估计因变量为f(x),其形式为:
表示该样本集具有ε相似性。
对于估计函数f(x)的求解,可以基于统计学习理论,进行转化:
其中,C为惩罚因子;ξi,ξj表示松弛因子;b为偏置量;i=1,…,n。ε为损失函数。其表达式为:
根据对偶理论,利用二次规划方法,上式可转化为:
定义为核函数。参数ai,b可以根据KKT优化条件求得,则最后可以总结出SVM回归函数:
运用机器学习技术实现交易量静态预测和交易价格动态预测。交易量静态预测是指运用前5天,同一时段的三个指标(交易量、价格、个股情绪指标),进行预测;而交易价格动态预测是指运用前3天,同一时段的指标,和当天该时段之前三个交易区间的指标进行预测。
(3)VWAP交易策略动态更新模块
VWAP交易策略动态更新模型主要利用SVM预测结果对静态VWAP交易曲线实现动态迭代更新,优化交易结果。
引入价格信号,对于分割后的各个时间段定义价格信号(sn)n=1,2,...,N为下一阶段市场的价格水平。具体定义为:
因为价格对于买入和卖出策略对价格变动的反应恰好相反,这之间刚好相差一个符号。具体而言,对于卖出策略,价格信号的定义为
而买入策略的价格信号为
利用历史交易数据预测初始交易量和交易价格,得到VWAP初始静态交易曲线。根据实时和历史交易数据,通过SVM模型预测未来交易数据,利用预测结果对于VWAP量化交易策略概率测度进行更新迭代,每5分钟都会对成交量的概率测度进行实时更新,从而交易曲线函数W(P)也实现实时更新,以实现动态交易。
首次迭代,采用静态交易曲线
当2≤n≤N的第n次迭代:
最后一次,即第N次迭代:
其中6为市场情绪指标,大于0的表示市场情绪高涨;小于0的表示投资者情绪低落。
三、模型算法流程
本节将对基于投资者情绪的VWAP量化交易模型算法进行详细介绍,算法对应的流程图如1所示。具体算法如下:
(1)从微博、东方财富网等平台运用文本挖掘技术采集与股票评论相关的文本数据;
(2)从Wind等数据库中采集投资者情绪代理变量的相关数据和历史交易数据;
(3)在Hownet基础情感词典基础上运用PMI方法构造金融领域情感词典,对文本数据进行分词,对分词后的结果与情感词典进行匹配,基于基于BSI指数构造个股投资者情绪指数SEN;
(4)对投资者情绪的代理变量进行主成分分析,提取主要影响因素,构造市场投资者情绪指标SENT;
(5)构造支持向量机理论模型,利用历史交易数据,通过机器学习的方法,对理论模型进行训练,得到SVM回归函数;
(6)利用历史交易数据预测初始交易量和交易价格,得到VWAP初始静态交易曲线,并进行首次交易;
(7)根据实时交易数据,利用SVM预测模型在交易过程中持续对交易价格进行预测,更新价格信号,实现交易概率测度的动态迭代更新,得到动态交易曲线。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于投资者情绪的VWAP量化交易方法,其特征在于,包括以下步骤:
(1)、通过结合Hownet中文基础情感词典、以BCC为语料金融领域词典和文本挖掘的东方财富网股吧来构建个股投资者情绪指标;
(2)、通过对若干投资者情绪代理变量的主成分分析,得到市场投资者情绪指标;
(3)、引入文本挖掘出的个股投资者情绪指标,建立了支持向量机(SVM)模型预测模型,并将市场投资者情绪指标作为影响因子加入到传统VWAP量化交易策略概率测度的更新迭代中,从而获得基于投资者情绪改进的VWAP动态交易策略。
2.根据权利要求1所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(1)中,构建个股投资者情绪指标,具体流程包括:采用计算点互信息PMI的方法构建金融领域情感词典,利用金融领域情感词典,对东方财富网个股评论进行语义分析,基于BSI指数建立投资者情绪指数SEN。
3.根据权利要求2所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(1)中,所述PMI(Pointwise Mutual Information),即点互信息,通过考虑两个元素间的共现概率来计算它们的关联程度。应用到文本中,两个词语之间的点间互信息值公式为:
其中,P(word1&word2)表示两个词语在同一文本中的共现概率,P(wordi)表示该词语在文本中出现的概率。共现概率越高,表明两个词语在同一文本中越有可能一起出现,因而可以认为这两个词具有一定的相关性。PMI值越大,两者相关性越高。将PMI运用在情感倾向性分析,可以判断词语极性,即计算SO-PMI(Semantic Orientation using PointwiseMutual Information)。SO-PMI是在PMI值基础上做进一步的计算,获得文本的极性。
其中,positive和negtive分别为预先设定的积极种子词库和消极种子词库。基于公式,分别计算该词与积极种子词的PMI值总和、与消极种子词的PMI值总和,二者之差为SO-PMI值。当SO-PMI值为正时,该词与积极种子词相关性更高,可以认为该词更有可能是积极的;当SO-PMI值为负时,该词与消极种子词相关性更高,可以认为该词更有可能是消极的。
4.根据权利要求2所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(1)中,采用计算点互信息PMI的方法构建金融领域情感词典,利用金融领域情感词典,对东方财富网个股评论进行语义分析,基于BSI指数建立投资者情绪指数SEN。具体如下:
A、结合Hownet基础情感词典,选取常用的金融词语作为积极与消极的种子词,构成positive和negtive集合;
B、采用北京语言大学语料库(BCC)中的语料和微博语料,对其进行分词,并计算各词与种子词的PMI值,根据设定PMI阈值并结合人工筛选,初步筛选出一些待分类词语;
C、计算初步筛选出待分类词语的SO-PMI值,结合计算SO-PMI值的结果和人工筛选,得到新扩展的金融领域词语及其极性;
D、以东方财富网的股吧发言为对象,对于每只个股的评论发言,使用python的BeautifulSoup进行文本挖掘,结合SnowNLP包进行分词,由此得到分词后的个股股吧评论文本。综合Hownet基础词典和金融领域情感词典,将东方财富网个股评论分词后的结果与情感词典进行匹配,当匹配为积极词时,看涨词语增加1,当匹配为消极词时,看跌词语增加1;
E、考虑看涨词与看跌词所占比例,基于BSI指数进行投资者情绪指数设计:
SEN即为本发明所构造的个股投资者情绪指标。SEN值越大,目前股民情绪越热烈,对该股未来走势越看强;SEN越小,股民情绪越低落,对该股越不看好。特别地,当SEN超过0.5时,投资者对该股总体上是看涨的,当SEN低于0.5时,投资者对该股总体上是看跌的。
5.根据权利要求1所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(2)中,通过对6个投资者情绪代理变量:封闭式基金折价率、新开户数、新上市公司数、换手率、成交量和消费者信心指数进行标准化处理,并通过主成分分析得到市场投资者情绪指标SENT。
6.根据权利要求1所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(3)中,所述支持向量机(SVM)模型的构建与求解为:
设有训练样本集(xi,xj),i=1,2...,n样本集的估计因变量为f(x),其形式为:
表示该样本集具有ε相似性。
基于统计学理论,利用核函数方法,可以求得SVM回归函数为:
其中,参数ai,b可以根据KKT优化条件求得。
7.根据权利要求1所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(3)中,所述传统VWAP量化交易策略,具体如下:
A、将交易区间[0,T]分割为N份间隔,显然这中间有N+1个时间点:
B、设投资者有一个交易量为V的大额订单需要在一定时间内完成,可以有交易量出清序列:
其中,vn为每个时间区间内投资者的交易量;
C、设定:(wn)n=1,2,…,N为每个时间区间内的市场VWAP(价格);
D、建立相应的概率测度:
E、对于某交易日内的某只股票订单而言,(wn)n=1,2,…,N即市场VWAP是固定的。则当日VWAP定义为市场VWAP,且交易曲线的函数为:
如果交易指令是买入,投资者的目标是要最小化W(p);反之如果交易是要卖出,则需要最大化W(p)。而不论交易方向如何,投资者都需要选出最优的交易曲线,因此静态的最佳交易策略可以被视为在开盘前选定最佳交易曲线。
8.根据权利要求1所述的基于投资者情绪的VWAP量化交易方法,其特征在于,在步骤(3)中,所述传统VWAP量化交易策略概率测度的更新迭代,具体如下:
A、引入价格信号,对于分割后的各个时间段定义价格信号(sn)n=1,2,…,N为下一阶段市场的价格水平。具体定义为:
因为价格对于买入和卖出策略对价格变动的反应恰好相反,这之间刚好相差一个符号。具体而言,对于卖出策略,价格信号的定义为
而买入策略的价格信号为
B、运用机器学习方法,利用支持向量机(SVM)模型预测模型,静态预测交易量,动态预测价格。静态预测交易量是指运用前5天,同一时段的三个指标(交易量、价格、个股情绪指标),进行预测。而动态预测价格是指运用前3天,同一时段的指标,和当天该时段之前三个交易区间的指标进行预测;
C、利用预测结果对于VWAP量化交易策略概率测度进行更新迭代,每5分钟都会对成交量的概率测度进行实时更新,从而交易曲线函数W(P)也实现实时更新,以实现动态交易。
首次迭代,采用静态交易曲线
当2≤n≤N的第n次迭代:
最后一次,即第N次迭代:
其中δ为市场情绪指标,大于0的表示市场情绪高涨;小于0的表示投资者情绪低落。
9.一种基于投资者情绪的VWAP量化交易系统,其特征在于,包括:
文本数据挖掘模块,以东方财富网的股吧发言为对象,对于每只个股的评论发言,使用python的BeautifulSoup进行文本挖掘,结合SnowNLP包进行分词,得到分词后的个股股吧评论文本;
投资者情绪量化模块,投资者情绪由个股与市场投资者情绪指标刻画:个股投资者情绪指标通过结合Hownet中文基础情感词典、以BCC为语料金融领域词典和文本挖掘的东方财富网股吧文本数据,计算点互信息PMI的方法来构建;市场投资者情绪指标通过对若干投资者情绪代理变量的进行主成分分析的方法来构建;
支持向量机(SVM)模型预测模块,根据支持向量机中的非线性回归理论,构建支持向量机(SVM)模型,利用机器学习方法,运用前5天,同一时段的三个指标(交易量、价格、个股情绪指标),静态预测交易量;运用前3天,同一时段的指标,和当天该时段之前三个交易区间的指标动态预测股票价格;
VWAP交易策略动态更新模块,利用SVM预测结果对于VWAP量化交易策略概率测度进行更新迭代,对每个时刻的成交量比例做出动态调整,进而优化整个静态交易曲线,最终得到适应性交易曲线,以实现动态交易策略的执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537143.9A CN110309508A (zh) | 2019-06-20 | 2019-06-20 | 一种基于投资者情绪的vwap量化交易系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537143.9A CN110309508A (zh) | 2019-06-20 | 2019-06-20 | 一种基于投资者情绪的vwap量化交易系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309508A true CN110309508A (zh) | 2019-10-08 |
Family
ID=68077455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910537143.9A Pending CN110309508A (zh) | 2019-06-20 | 2019-06-20 | 一种基于投资者情绪的vwap量化交易系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309508A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732866A (zh) * | 2020-12-29 | 2021-04-30 | 北京航空航天大学 | 投资者情绪指数构建方法、异质性主体市场模拟方法、设备及介质 |
CN113393321A (zh) * | 2021-07-11 | 2021-09-14 | 北京天仪百康科贸有限公司 | 一种基于区块链的金融风控方法 |
CN114119233A (zh) * | 2021-12-01 | 2022-03-01 | 北京航空航天大学 | 股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、装置及设备 |
CN114417821A (zh) * | 2022-03-29 | 2022-04-29 | 南昌华梦达航空科技发展有限公司 | 基于云平台的金融文本核查分析系统 |
CN115271816A (zh) * | 2022-08-02 | 2022-11-01 | 北京信息科技大学 | 一种基于情绪指数的大宗商品价格预测方法及装置 |
CN116151984A (zh) * | 2023-04-17 | 2023-05-23 | 深圳市泰铼科技有限公司 | 一种基于深度学习的金融产品交易监测方法及系统 |
CN116611696A (zh) * | 2023-07-19 | 2023-08-18 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
CN118657619A (zh) * | 2024-08-22 | 2024-09-17 | 深圳市艾德网络科技发展有限公司 | 基于社交网络集散的投资行为分析系统 |
-
2019
- 2019-06-20 CN CN201910537143.9A patent/CN110309508A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732866A (zh) * | 2020-12-29 | 2021-04-30 | 北京航空航天大学 | 投资者情绪指数构建方法、异质性主体市场模拟方法、设备及介质 |
CN113393321A (zh) * | 2021-07-11 | 2021-09-14 | 北京天仪百康科贸有限公司 | 一种基于区块链的金融风控方法 |
CN114119233A (zh) * | 2021-12-01 | 2022-03-01 | 北京航空航天大学 | 股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、装置及设备 |
CN114417821A (zh) * | 2022-03-29 | 2022-04-29 | 南昌华梦达航空科技发展有限公司 | 基于云平台的金融文本核查分析系统 |
CN115271816A (zh) * | 2022-08-02 | 2022-11-01 | 北京信息科技大学 | 一种基于情绪指数的大宗商品价格预测方法及装置 |
CN115271816B (zh) * | 2022-08-02 | 2023-12-22 | 北京信息科技大学 | 一种基于情绪指数的大宗商品价格预测方法及装置 |
CN116151984A (zh) * | 2023-04-17 | 2023-05-23 | 深圳市泰铼科技有限公司 | 一种基于深度学习的金融产品交易监测方法及系统 |
CN116611696A (zh) * | 2023-07-19 | 2023-08-18 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
CN116611696B (zh) * | 2023-07-19 | 2024-01-26 | 北京大学 | 一种基于时间序列分析的数字资产市场风险预测系统 |
CN118657619A (zh) * | 2024-08-22 | 2024-09-17 | 深圳市艾德网络科技发展有限公司 | 基于社交网络集散的投资行为分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309508A (zh) | 一种基于投资者情绪的vwap量化交易系统及方法 | |
Lee et al. | Global stock market investment strategies based on financial network indicators using machine learning techniques | |
US11645522B2 (en) | Method and system using machine learning for prediction of stocks and/or other market instruments price volatility, movements and future pricing by applying random forest based techniques | |
Li et al. | Media-aware quantitative trading based on public Web information | |
Cao et al. | A neural network approach to understanding implied volatility movements | |
CN108694476A (zh) | 一种结合财经新闻的卷积神经网络股票价格波动预测方法 | |
CN110297915A (zh) | 一种基于投资者情绪的is量化交易系统及方法 | |
Ma et al. | Quantitative stock portfolio optimization by multi-task learning risk and return | |
Caylor et al. | Analysts' qualitative statements and the profitability of favorable investment recommendations | |
Brown et al. | Financial statement adequacy and firms’ MD&A disclosures | |
Khattak et al. | A systematic survey of AI models in financial market forecasting for profitability analysis | |
Elena | Predicting the movement direction of omxs30 stock index using xgboost and sentiment analysis | |
Caliñgo et al. | Prediction Model of the Stock Market Index Using Twitter Sentiment Analysis | |
Gu et al. | Stock prediction based on news text analysis | |
Ruan et al. | Deep Learning Based on Hierarchical Self‐Attention for Finance Distress Prediction Incorporating Text | |
Dua | Macroeconomic modelling and bayesian methods | |
Karmanov et al. | Price indices simulation for the purpose of managing the quality of consumer behavior | |
Liu et al. | How informative is question-and-answer similarity to financial analysts? Evidence from Chinese earnings communication conferences | |
Cui et al. | Investor sentiment-aware prediction model for P2P lending indicators based on LSTM | |
Nagaraj et al. | Automated stock price prediction using LSTM-ANN | |
CN113570455A (zh) | 股票推荐方法及装置、计算机设备、存储介质 | |
Sundaram | Sentiment analysis of major mutual fund related news articles in India AMID the COVID-19 outbreak, to obtain investor sentiment in mutual funds & to forecast assets under management (AUM), a mutual fund market indicator | |
Shi et al. | Futures Price Forecasting Based on LSTM Model Using Public Opinion Sentiment Analysis | |
Singh et al. | Portfolio Optimization Using Novel EW-MV Method in Conjunction with Asset Preselection | |
Mitra et al. | Predicting Indian basket crude prices through machine learning models-a comparative approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |
|
RJ01 | Rejection of invention patent application after publication |