CN110222864A - 基于支持向量机的新闻极性对股票价格变化趋势预测的方法 - Google Patents

基于支持向量机的新闻极性对股票价格变化趋势预测的方法 Download PDF

Info

Publication number
CN110222864A
CN110222864A CN201910342420.0A CN201910342420A CN110222864A CN 110222864 A CN110222864 A CN 110222864A CN 201910342420 A CN201910342420 A CN 201910342420A CN 110222864 A CN110222864 A CN 110222864A
Authority
CN
China
Prior art keywords
stock
news
vector machine
money
machine model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910342420.0A
Other languages
English (en)
Inventor
赵澄
童川
王万良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910342420.0A priority Critical patent/CN110222864A/zh
Publication of CN110222864A publication Critical patent/CN110222864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

基于支持向量机的新闻极性对股票价格变化趋势预测的方法,包括:从网上获取金融股票交易数据与相关股票的金融新闻数据;进行金融新闻数据的清洗,并对股票交易数据进行标准化、对金融新闻数据进行极性标签标注的预处理操作;使用卡方检验提取金融新闻中的特征词;利用特征词将新闻文本向量化,输入改进的嵌入支持向量机模型中进行模型的循环训练;对每次训练得到的支持向量机模型进行评估并保存评价最佳支持向量机模型;判断是否达到预设的预测精度,如果没有达到则继续上述操作,直到达到预设的预测精度以得到精确度最优的支持向量机模型。

Description

基于支持向量机的新闻极性对股票价格变化趋势预测的方法
技术领域
本发明涉及对股票价格变化趋势预测的方法。
技术背景
股票市场的预测可以帮助投资者进行投资决策,为他们提供关于股票市场行为的深刻见解以规避投资风险。然而,股票市场的预测并不是一件易事,因为股票市场数据的性质是可变的、非线性的、不稳定的、接近随机游走的;同时,影响股市的因素有很多,如经济状况、政治事件、新闻报道、投资者情绪等。按照传播学的议程设置理论,新闻媒体虽然不能直接决定人们对某一事件的具体看法和观点,但可以通过提供信息和调整议题来有效左右人们对一些事实和意见的关注次序,进而间接影响人的观点和决策。金融新闻对股票市场有很大的影响,投资者经常依赖金融新闻信息来决定买卖,即投资者根据市场参与者可获得的信息做出投资决策。行为金融学的最新研究发现,股票投资者的情绪冲动会影响股价。由于新闻报道给市场带来了与上市公司有关的新信息新的信息,其中包含关于一家公司的新闻、它所涉及的活动、它的基本面以及市场参与者对其未来价格变动的预期,这些信息会对股票投资者的情绪带来影响,从而影响投资者的决策,进一步改变市场状态,这使新闻报道成为金融预测的重要数据来源。如果新闻情绪是积极的,那么股价上涨的可能性就更大;如果新闻情绪是消极的,那么股价可能会下跌。
机器学习策略因具有较高的计算精度和较快的计算速度,已成为新兴的算法交易策略,被应用于新闻对股票影响的研究中。其中,支持向量机(SVM)方法被认为是最有前途的文本分类机器学习技术,首次引入于1979年,已被证明是一种用于数据分类、回归和预测的有用技术。SVM算法旨在学习一种决策函数,该函数将具有不同类标签的实例划分为不同的类。基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题求解问题(Quadratic Programming,QP)。它可以表示原始空间中的线性或非线性决策边界。
SVM在金融市场预测中具有广泛的适用性,但存在一些不足之处:1、训练过程都不存在迭代操作,属于“一次线性模型”,存在过拟合及无法找到最优解的风险。2、在特征提取时没有突出重要特征的作用。3、没有综合考虑高维输入参数和噪声数据对模型的影响。
发明内容
本发明要克服现有技术的上述缺点,提供基于支持向量机的新闻极性对股票价格变化趋势预测的方法。
本发明的基于支持向量机的新闻极性对股票价格变化趋势预测的方法,包括以下步骤:
1)、从网上获取金融股票交易数据与相关股票的金融新闻数据;
2)、进行金融新闻数据的清洗,并对股票交易数据进行标准化、对金融新闻数据进行极性标签标注的预处理操作;
3)、使用卡方检验提取金融新闻中的特征词;
4)、利用特征词将新闻文本向量化,输入改进的嵌入支持向量机模型中进行模型的循环训练;
5)、对每次训练得到的支持向量机模型进行评估并保存评价最佳支持向量机模型;
6)、判断是否达到预设的预测精度,如果没有达到则继续上述操作,直到达到预设的预测精度以得到精确度最优的支持向量机模型。
进一步,步骤2)中考虑到股票市场大环境以及不同股票之间的相互影响,自定义股票预测对象及与其相关股票的价格变动综合指数,使极性标签标准化,其中该综合指数指的是股票预测对象及与其相关股票的平均股价变动率(上涨则为正,下降则为负),假设αi表示第i只股票的股价变动率,n表示股票预测对象及与其相关股票的总数,那么综合指数β为:
与第i只股票相关新闻的极性标签li为:
其中-1表示该新闻为负面新闻,1表示该新闻为正面新闻。
本发明在传统SVM基础上分别进行了改进:1、通过随机分配语料并循环进行训练,使用评估函数找到最优解,完善了“一次线性模型”的不足之处。2、只将具有较大权重的重要特征而不是所有特征作为输入,降低噪音特征对研究结果的影响。3、通过对比不同类型的核函数以及数量不等的特征空间,从而综合优化SVM的预测性能。
本发明的优点在于:通过增加关键短语的权重,对股票交易数据进行标准化、对金融新闻数据进行极性标签标注的预处理操作,在传统SVM模型中嵌入循环,提出了一种改进的SVM模型,将语料随机分配生成不同的训练语料集合与测试语料集合,进行训练,使用评估函数找到最优解,从而改善了在中概股方面关于新闻对股票影响与预测的研究,可以帮助投资者分析新闻的极性,有效地规避风险从而获得更好的收益。
附图说明
图1是本发明的流程图。
具体实施方式
参照附图,进一步说明本发明的技术方案:
一种基于支持向量机的新闻极性对股票价格变化趋势预测的方法,包括以下步骤:
1)、从网上获取金融股票交易数据与相关股票的金融新闻数据;
2)、进行金融新闻数据的清洗,并对股票交易数据进行标准化、对金融新闻数据进行极性标签标注的预处理操作;
3)、使用卡方检验提取金融新闻中的特征词;
4)、利用特征词将新闻文本向量化,输入改进的嵌入支持向量机模型中进行模型的循环训练;
5)、对每次训练得到的支持向量机模型进行评估并保存评价最佳支持向量机模型;
6)、判断是否达到预设的预测精度,如果没有达到则继续上述操作,直到达到预设的预测精度以得到精确度最优的支持向量机模型。
步骤2)中考虑到股票市场大环境以及不同股票之间的相互影响,自定义股票预测对象及与其相关股票的价格变动综合指数,使极性标签标准化,其中该综合指数指的是股票预测对象及与其相关股票的平均股价变动率(上涨则为正,下降则为负),假设αi表示第i只股票的股价变动率,n表示股票预测对象及与其相关股票的总数,那么综合指数β为:
与第i只股票相关新闻的极性标签li为:
其中-1表示该新闻为负面新闻,1表示该新闻为正面新闻。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.基于支持向量机的新闻极性对股票价格变化趋势预测的方法,包括以下步骤:
1)、从网上获取金融股票交易数据与相关股票的金融新闻数据;
2)、进行金融新闻数据的清洗,并对股票交易数据进行标准化、对金融新闻数据进行极性标签标注的预处理操作;
3)、使用卡方检验提取金融新闻中的特征词;
4)、利用特征词将新闻文本向量化,输入改进的嵌入支持向量机模型中进行模型的循环训练;
5)、对每次训练得到的支持向量机模型进行评估并保存评价最佳支持向量机模型;
6)、判断是否达到预设的预测精度,如果没有达到则继续上述操作,直到达到预设的预测精度以得到精确度最优的支持向量机模型。
2.如权利要求1所述的一种基于支持向量机的新闻极性对股票价格变化趋势预测的方法,其特征在于:步骤2)中考虑到股票市场大环境以及不同股票之间的相互影响,自定义股票预测对象及与其相关股票的价格变动综合指数,使极性标签标准化,其中该综合指数指的是股票预测对象及与其相关股票的平均股价变动率,上涨则为正,下降则为负,假设αi表示第i只股票的股价变动率,n表示股票预测对象及与其相关股票的总数,那么综合指数β为:
与第i只股票相关新闻的极性标签li为:
其中-1表示该新闻为负面新闻,1表示该新闻为正面新闻。
CN201910342420.0A 2019-04-26 2019-04-26 基于支持向量机的新闻极性对股票价格变化趋势预测的方法 Pending CN110222864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342420.0A CN110222864A (zh) 2019-04-26 2019-04-26 基于支持向量机的新闻极性对股票价格变化趋势预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342420.0A CN110222864A (zh) 2019-04-26 2019-04-26 基于支持向量机的新闻极性对股票价格变化趋势预测的方法

Publications (1)

Publication Number Publication Date
CN110222864A true CN110222864A (zh) 2019-09-10

Family

ID=67819956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342420.0A Pending CN110222864A (zh) 2019-04-26 2019-04-26 基于支持向量机的新闻极性对股票价格变化趋势预测的方法

Country Status (1)

Country Link
CN (1) CN110222864A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386433A (zh) * 2022-01-12 2022-04-22 中国农业银行股份有限公司 基于情感分析的数据处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MINH DANG,DUC DUONG: "Improvement Methods for Stock Market Prediction using Financial News Articles", 《2016 3RD NATIONAL FOUNDATION FOR SCIENCE AND TECHNOLOGY DEVELOPMENT CONFERENCE ON INFORMATION AND COMPUTER SCIENCE》 *
张世军: "基于网络舆情的SVM股票价格预测研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *
黄润鹏 等: "基于微博情绪信息的股票市场预测", 《管理工程学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386433A (zh) * 2022-01-12 2022-04-22 中国农业银行股份有限公司 基于情感分析的数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Lim et al. Cluster-based dynamic scoring model
EP2885756A2 (en) System and method for forming predictions using event-based sentiment analysis
Cao et al. The asymmetric effect of oil price uncertainty on corporate investment in China: Evidence from listed renewable energy companies
Nurdiani Integrating marketing and finance to increase company performance in VUCA world: a case study on banking state-owned enterprise in Indonesia (MANDIRI, BRI, BTN, BNI)
CN110222864A (zh) 基于支持向量机的新闻极性对股票价格变化趋势预测的方法
Hájek et al. Predicting abnormal bank stock returns using textual analysis of annual reports–a neural network approach
CN108776652A (zh) 一种基于新闻语料的行情预测方法
Ghosh Small business, lending relationships and crisis: evidence from Indian micro data
Crouzille et al. How did the Asian stock markets react to bank mergers after the 1997 financial crisis?
Rush The Life of Australian Banknotes| Bulletin–September 2015
Zhao et al. Innovative mechanism of rural finance: Risk assessment methods and impact factors of agricultural loans based on personal emotion and artificial intelligence
Dong et al. Evaluating service quality in insurance customer complaint handling throught text categorization
Devi et al. Semantic enhanced social media sentiments for stock market prediction
Ren et al. Industrial robots and jobs turnover: Evidence from Chinese firm level data
Arian et al. A novel classification approach for credit scoring based on Gaussian mixture models
CN110335152A (zh) 基于标签组合的股市分析方法
Aam et al. Financial inclusion leads to export market penetration: A panel study on Asian and African countries
Wang Credit card fraud detection using supervised machine learning methods
CN115496062B (zh) 企业选址意愿识别方法、系统、计算机设备以及存储介质
Ma et al. Online mining in unstructured financial information: An empirical study in bulletin news
Williams et al. The impacts of globalization in a developing economy (A vector autoregression analysis)
Guotai et al. Research on Default Prediction Based on Loan Description
Thongkairat et al. How Does Economic Policy Uncertainty Affect Stock Market Returns: Evidence from a Markov-Switching Model with Mixture Distribution Regimes
Kaakeh et al. Leading Indicators of Turkey’s Financial Crises
Szczerba et al. Credit risk handling in telecommunication sector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910

RJ01 Rejection of invention patent application after publication