CN107679680A - 一种金融走势预测方法、装置、设备及存储介质 - Google Patents

一种金融走势预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107679680A
CN107679680A CN201711163763.8A CN201711163763A CN107679680A CN 107679680 A CN107679680 A CN 107679680A CN 201711163763 A CN201711163763 A CN 201711163763A CN 107679680 A CN107679680 A CN 107679680A
Authority
CN
China
Prior art keywords
vocabulary
daily
days
financial
economics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711163763.8A
Other languages
English (en)
Inventor
李强
万月亮
王梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201711163763.8A priority Critical patent/CN107679680A/zh
Publication of CN107679680A publication Critical patent/CN107679680A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例公开了一种金融走势预测方法、装置、设备及存储介质,其中,该方法包括:获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量;根据所述预设天数内每天的词频特征向量与其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;按照所述预设时间段获取预测日的目标财经文本,输入所述金融走势预测模型,得到预测日的金融指数涨跌信息。为金融走势的预测提供了一种新方法,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。

Description

一种金融走势预测方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种金融走势预测方法、装置、设备及存储介质。
背景技术
金融股市与国民经济息息相关,也是国家宏观经济发展的重要表现,然而金融股市是不断变化的,其主要影响因素有国家的相关政策、财经新闻以及股民对股市的情绪等,因此,如何了解、读懂以及准确预测股市的金融走势至关重要。
目前,常用的预测金融走势的方法是股民通过分析一段时间内金融股市中的K线图走势,凭借个人经验以及相关算法通过人工预测未来金融股市的涨跌情况。这种预测方法受人为主观因素的影响比较大,对专业性要求较高,对于普通的股民来说很难通过K线图准确判断出金融股市未来的走势,容易出现误判给股民造成较大的经济损失。
发明内容
本发明的目的在于,提供一种金融走势预测方法、装置、设备及存储介质,可以根据当天的目标财经文本为股民提供当天金融走势的准确预测,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
为达此目的,本发明采用以下技术方案:
第一方面,本发明实施例提供了一种金融走势预测方法,包括:
获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;
根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量;
根据所述预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;
按照所述预设时间段获取预测日的目标财经文本,输入所述金融走势预测模型,得到预测日的金融指数涨跌信息。
第二方面,本发明实施例提供了一种金融走势预测装置,包括:
信息获取模块,用于获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;
特征向量确定模块,根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量;
模型训练模块,用于根据所述预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;
模型预测模块,用于按照所述预设时间段获取预测日的目标财经文本,输入所述金融走势预测模型,得到预测日的金融指数涨跌信息。
第三方面,本发明实施例提供了一种金融走势预测设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的金融走势预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的金融走势预测方法。
本发明实施例提供了一种金融走势预测方法、装置、设备及存储介质,通过获取目标财经文本和金融指数跌涨信息,由目标财经文本确定词频特征向量,用确定的词频特征向量与其对应的金融指数跌涨信息来训练金融走势预测模型,将预测日的目标财经文本输入到训练好的预测模型中可以得到预测日的金融指数跌涨信息,为金融走势的预测提供了一种新方法,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种金融走势预测方法的流程图;
图2是本发明实施例二提供的一种金融走势预测方法中根据目标财经文本确定词频特征向量的流程图;
图3是本发明实施例三提供的一种金融走势预测方法中训练金融走势预测模型的流程图;
图4是本发明实施例四提供的一种金融走势预测装置的结构框图;
图5是本发明实施例五提供的一种金融走势预测设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1为本发明实施例一提供的一种金融走势预测方法的流程图,本实施例可适用于对股市中金融走势进行预测的情况,该方法可以由本发明实施例提供的金融走势预测装置/设备/存储介质来执行,该装置可采用硬件和/或软件的方式实现,如图1所示,该金融走势预测方法包括如下步骤:
步骤S101:获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息。
其中,要通过训练模型预测金融走势,获取多而精准的学习数据至关重要,预设天数是为了获取大量的学习数据预先设置的,预设天数设置的越多,训练的模型预测效果越好,优选的,可以将预设天数设置为一年。预设时间段是为了保证每天在同样的时间获取学习数据,从而保证了学习数据的准确性,优选的,可以将预设时间段设置为每天凌晨零点到中午十二点。目标财经文本和金融指数涨跌信息即为获取的学习数据,学习数据的份数和预设天数相关,且每天的目标财经文本和当天的金融指数涨跌信息相对应,用于训练模型预测金融走势。
优选的,目标财经文本是由每天预设时间段内网络上的所有金融领域的新闻文本组成的,例如,可以是在每天的预设时间段内通过网络爬虫获取网络上所有金融领域的新闻,并将其保存在一个文本中,作为目标财经文本。优选的,金融领域的新闻不仅仅只是金融股市方面的新闻,它包括了所有和财经相关的新闻,例如,可以包括经济发展政策的新闻。
优选的,金融指数涨跌信息是用于反应每天金融股市的走势,例如,可以是用来反应金融股市中的上证指数,金融指数涨跌信息可以用字母、数字或汉字的形式来表示,例如:当股市中的金融指数上涨时,金融指数涨跌信息用1表示,当股市中的金融指数下跌时,金融指数涨跌信息用0表示。
步骤S102:根据获取的目标财经文本确定预设天数内每天的词频特征向量。
其中,词频特征向量是根据目标财经文本中关键词汇(即特征词汇)的频次(即出现次数)得到的向量。将步骤S101中获取的目标财经文本经分词、统计频次值、计算权重值后筛选出特征词汇,再由特征词汇每天出现的次数构成每天的词频特征向量。由于步骤S101中每天获取一个目标财经文本,一个目标财经文本确定一个特征向量,因此最终确定的词频特征向量的个数和预设天数有关。例如,当预设天数为365天时,步骤S101中就获取365个目标财经文本,将每一个目标财经文本进行分词,算出分词后的每一个词汇在该目标财经文本中出现的频次值,根据出现的频次值算出每个词汇的权重值,筛选出权重值高的词汇作为特征词汇,再统计特征词汇在每天的目标财经文本中出现的频次,构成每天的词频特征向量,因为目标财经文本有365个,所以,最终得到的词频特征向量也有365个。
步骤S103:根据预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型。
其中,每天的词频特征向量与当天的金融指数涨跌信息是对应的,用获取的预设天数的词频向量和每天对应的金融指数涨跌信息去训练预设模型,使得预设模型建立起词频特征向量和金融指数涨跌信息之间的关系,从而得到金融走势预测模型,该模型可以通过词频特征向量完成对金融走势进行预测。具体的,表示上涨的金融指数涨跌信息及其对应的特征向量,作为正样本;表示下跌的金融指数涨跌信息及其对应的特征向量,作为负样本。
步骤S104:按照预设时间段获取预测日的目标财经文本,输入金融走势预测模型,得到预测日的金融指数涨跌信息。
其中,当股民用步骤S103训练的金融走势预测模型进行金融走势预测时,首先需要获取预测日预设时间段内的目标财经文本,并将其输入到金融走势预测模型中,该模型会对输入的目标财经文本进行分析,确定出该目标财经文本对应的词频特征向量,再通过训练时建立的词频特征向量与金融指数涨跌信息之间的关系,预测出输入的目标财经文本对应的金融指数跌涨信息。例如,用户想预测今天收盘时金融走势情况,可以通过网络爬虫获取当天凌晨零点到中午十二点的金融领域的所有新闻作为目标财经文本输入到金融预测模型中,模型就会通过分析,预测出今日收盘时金融走势是涨还是跌,并显示给股民,股民可以通过预测情况来决定自己在收盘前是买入还是卖出,从而获取利益。
本实施例提供了一种金融走势预测方法,通过获取目标财经文本和金融指数跌涨信息,由目标财经文本确定词频特征向量,用确定的词频特征向量及其对应的金融指数跌涨信息来训练金融走势预测模型,将预测日的目标财经文本输入到训练好的预测模型中可以得到预测日的金融指数跌涨信息,为金融走势的预测提供了一种新方法,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
实施例二
本实施例在实施例一的基础上,提供了一种根据目标财经文本确定词频特征向量的方法,图2为本发明实施例二提供的一种金融走势预测方法中根据目标财经文本确定词频特征向量的流程图,如图2所示,包括如下步骤:
步骤S201:对预设天数内每天的目标财经文本进行分词,得到多个词汇,并统计预设天数内各词汇每天的频次值。
其中,想要从获取的目标财经文本中提取到用于预测金融走势的信息,就要对获取到的目标财经文本进行分词,首先通过文本分词技术将当天获取的目标财经文本分成一个个的词汇,然后再统计每一个词汇在当天的目标财经文本中出现的频次值。由于预设天数内每天都要获取目标财经文本,所以每天都要对当天获取的目标财经文本进行分词和各词汇频次值的统计。
步骤S202:根据预设天数内各词汇每天的频次值,计算各词汇的权重值。
其中,根据频次值计算词汇权重值的方法有很多,例如,可以按预设天数内各词汇出现的频率值进行排序,出现的频率值越大,该词汇的权重值越大。
优选的,可以计算词汇的TF-IDF值作为该词汇的权重值。TF-IDF值是由TF(TermFrequency词频)值和IDF(Inverse Document Frequency逆向文件频率)值构成。其中,TF值表示词汇在目标财经文本中出现的频率,由于预设天数内各词汇每天都有一个频次值,因此计算词汇的TF值时,要针对多个词汇中的每个词汇,将该词汇在预设天数内每天的频次值求和,得到该词汇的总频次值,作为该词汇的TF值;IDF值为包含该词汇的目标财经文本在预设天数内出现的频率值;计算词汇的总频次值和逆向文件频率值的乘积,得到该词汇的权重值。示例性的,以众多词汇中的一个词为例,这个词汇在预设天数内每天都会有一个频次值,假设预设天数为365天,将会产生365个频次值,将365个频次值求和得到该词汇总的频次值,作为该词汇的TF值;而在365天内出现过该词汇的目标财经文本数与总天数365的比值作为词汇的IDF值;将求出的TF值与IDF值相乘即得到该词汇的权重值。
优选的,在步骤S201中分词后,不难发现有一些词汇,例如:股权、期货等金融领域的专有词汇,在目标财经文本中出现的频率可能不是最大,但是它确是影响金融指数跌涨信息的重要词汇。而有些词汇,例如:的、和、中等在目标文本中出现的频率可能超过百分之八十,但是它对金融指数跌涨信息影响微乎其微。因此,在计算词汇的权重值时,可以设定需要满足的两个条件:
(1)一个词汇预测金融指数跌涨能力越强,权重就越大,反之,权重就越小;
(2)可删除词汇的权重值设置为零。
针对条件(1)所说的词汇指的是金融领域内的专有词汇,对金融指数跌涨信息影响非常大的重要词汇;而针对条件(2)所说的词汇指的是一些助词、代词等对金融指数跌涨信息影响不大,但出现频次又比较高的词汇。
步骤S203:根据各词汇的权重值筛选出特征词汇。
筛选特征词汇的方法有很多,例如,可以预先设定一个阈值,将权重值大于设定阈值的词汇设定为特征词汇,该阈值可以是在训练金融走势预测模型的过程中,结合训练出来的模型预测准确度而设定的。
优选的,筛选特征词汇的方法还可以是:将各词汇按所述权重值排序,在排序结果中从权重值最大的词汇开始,依次选取预定个数的词汇,作为特征词汇。按权重值排序,可以是按权重值从大到小进行排序,也可以是从小到大进行排序。
其中,预定个数的确定可以是根据分词后词汇的总个数预先设置多个,通过对训练模型的准确度进行拟合,从而确定出合适的预定个数。示例性的,假设分词后的词汇总个数为3000个,按500依次递增,设置多个预定个数,分别选择500、1000、1500、2000、2500、3000作为预定个数,进行金融走势预测模型的训练,并计算模型的准确度进行拟合,假设当预定个数为1000时准确度为60%,预定个数为1500时准确度为90%,预定个数为2000时准确度为91%,此时选择1500作为预定个数,在保证准确的前提下,提高了预测效率。
步骤S204:根据特征词汇确定预设天数内每天的词频特征向量。
其中,特征向量的确定方法具体是:针对预设天数内的每一天,根据特征词汇在当天的频次值,生成当天的词频特征向量。以预设天数内的第一天为例,假设步骤S203中筛选的是权重值大的前5个词汇为特征词汇,依次是“资金”、“股权”、“期货”、“贷款”、“货币”,第一天中“资金”出现了23次,“股权”出现了16次,“期货”出现了8次,“借贷”出现了56次,“货币”出现了19次,则第一天的词频特征向量为(23,16,8,56,19)。优选的,在实际金融走势预测方法中,特征词汇的个数可以是成千上万个,所以确定的词频特征向量的维度也是成千上万。优选的,如果预设天数内的某一天某个特征词汇没有出现,则该词汇的当天的频次值为0。
本实施例提供的根据目标财经文本确定词频特征向量的流程,通过将目标财经文本进行分词,统计各词汇的频次值,计算出各词汇的权重值,根据权重值筛选出特征词汇,进而确定词汇的特征向量,用来训练金融走势预测模型。为金融走势的预测提供了一种新方法,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
实施例三
本实施例在上述各实施例的基础上,提供了训练金融走势预测模型的流程,图3为本实施例三提供的一种金融走势预测方法中训练金融走势预测模型的流程图,如图3所示,包括如下步骤:
步骤S301:获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息。
步骤S302:根据获取的目标财经文本确定预设天数内每天的词频特征向量。
步骤S303:根据预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,通过交叉验证法对预设模型进行机器学习训练,得到验证样本对应的预测结果。
其中,为了得到稳定可靠的金融走势预测模型,选择交叉验证法对预设模型进行机器学习训练。交叉验证法是指将获取的预设天数内的词频特征向量和其对应的金融指数涨跌信息,取大部分进行训练预设模型,留小部分用于对建立的金融走势预测模型进行预测结果的检测。例如,可以选用5轮交叉验证法来训练预设模型,将获取的数据分为5份,其中4份用于金融走势预测模型的训练,最后1份作为验证样本,得到经过训练的金融走势预测模型的预测结果。
步骤S304:根据预测结果及验证样本对应的实际金融指数涨跌信息,确定金融走势预测模型的准确度。
其中,把验证样本中的目标财经文本输入到训练好的金融走势预测模型中,得到预测结果,将其与验证样本中实际的金融指数涨跌信息进行比对,从而确定该金融走势预测模型的准确度。
优选的,可以根据预设公式计算金融走势预测模型的准确率、召回率和F1值,来确定金融走势预测模型的准确度。
其中,正确率是指金融走势预测模型预测结果正确的个数与预测出来的总个数之间的比值;召回率是指金融走势预测模型预测结果正确的个数与验证样本中的总个数之间的比值;
示例性的,验证样本的个数为500个,其中金融走势预测模型预测出来了480个金融指数跌涨信息,其中正确的是400个,错误的是80个。此时,
本实施例提供的训练金融走势预测模型的流程,通过获取目标财经文本和金融指数跌涨信息,由目标财经文本确定词频特征向量,通过交叉验证法训练金融走势预测模型,并对训练好的模型的准确度进行验证,保证了金融走势预测模型的准确性和可靠性,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
实施例四
图4为本发明实施例四提供的一种金融走势预测装置的结构框图,该装置可执行本发明任意实施例所提供的金融走势预测方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置包括:
信息获取模块401,用于获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;
特征向量确定模块402,根据获取的目标财经文本确定预设天数内每天的词频特征向量;
模型训练模块403,用于根据预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;
模型预测模块404,用于按照预设时间段获取预测日的目标财经文本,输入金融走势预测模型,得到预测日的金融指数涨跌信息。
本实施例提供了一种金融走势预测装置,通过获取目标财经文本和金融指数跌涨信息,由目标财经文本确定词频特征向量,用确定的词频特征向量与其对应的金融指数跌涨信息来训练金融走势预测模型,将预测日的目标财经文本输入到训练好的预测模型中可以得到预测日的金融指数跌涨信息,为金融走势的预测提供了一种新方法,使得普通股民不用再凭借经验盲目的人工预测金融走势,即可准确掌握股市的动态,并依据此进行股市的操作,进而增加股民的收益。
进一步地,上述特征向量确定模块402包括:
频次值统计单元,用于对预设天数内每天的目标财经文本进行分词,得到多个词汇,并统计预设天数内各词汇每天的频次值;
权重值计算单元,用于根据预设天数内各词汇每天的频次值,计算各词汇的权重值;
词汇筛选单元,用于根据各词汇的权重值筛选出特征词汇;
特征向量确定单元,用于根据特征词汇确定预设天数内每天的词频特征向量。
其中,权重值计算单元包括:
总频次计算子单元,针对多个词汇中的每个词汇,将词汇在预设天数内每天的频次值求和,得到词汇的总频次值;
权重值计算子单元,用于计算词汇的总频次值和逆向文件频率值的乘积,得到词汇的权重值,其中,逆向文件频率值为包含词汇的目标财经文本在预设天数内出现的频率值。
词汇筛选单元具体用于:将各词汇按权重值排序,在排序结果中从权重值最大的词汇开始,依次选取预定个数的词汇,作为特征词汇。
特征向量确定单元具体用于:针对预设天数内的每一天,根据特征词汇在当天的频次值,生成当天的词频特征向量。
进一步地,上述模型训练模块403包括:
模型训练单元,用于通过交叉验证法对预设模型进行机器学习训练,得到验证样本对应的预测结果;
准确度验证单元,用于根据预测结果及验证样本对应的实际金融指数涨跌信息,确定金融走势预测模型的准确度。
其中,准确度验证单元具体用于:根据预设公式计算所述金融走势预测模型的准确率、召回率和F1值,来确定所述金融走势预测模型的准确度。
值得注意的是,上述金融走势预测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;例如,该装置可以仅包括采集模块和控制模块,采集模块实现目标财经文本及金融指数涨跌信息的获取;控制模块实现计算、训练、预测、统计、筛选等相关的功能。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例五
图5为本发明实施例五提供的一种金融走势预测设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,该设备12以通用计算设备的形式表现。该设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的金融走势预测方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例中任一的金融走势预测方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种金融走势预测方法,其特征在于,包括:
获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;
根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量;
根据所述预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;
按照所述预设时间段获取预测日的目标财经文本,输入所述金融走势预测模型,得到预测日的金融指数涨跌信息。
2.根据权利要求1所述的方法,其特征在于,根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量,包括:
对所述预设天数内每天的目标财经文本进行分词,得到多个词汇,并统计所述预设天数内各词汇每天的频次值;
根据所述预设天数内各词汇每天的频次值,计算所述各词汇的权重值;
根据所述各词汇的权重值筛选出特征词汇;
根据所述特征词汇确定所述预设天数内每天的词频特征向量。
3.根据权利要求2所述的方法,其特征在于,计算所述各词汇的权重值,包括:
针对所述多个词汇中的每个词汇,将所述词汇在所述预设天数内每天的频次值求和,得到所述词汇的总频次值;
计算所述词汇的总频次值和逆向文件频率值的乘积,得到所述词汇的权重值,其中,所述逆向文件频率值为包含所述词汇的目标财经文本在所述预设天数内出现的频率值。
4.根据权利要求2所述的方法,其特征在于,根据所述各词汇的权重值筛选出特征词汇,包括:
将所述各词汇按所述权重值排序,在排序结果中从所述权重值最大的词汇开始,依次选取预定个数的词汇,作为所述特征词汇。
5.根据权利要求2所述的方法,其特征在于,根据所述特征词汇确定所述预设天数内每天的词频特征向量,包括:
针对所述预设天数内的每一天,根据所述特征词汇在当天的频次值,生成当天的词频特征向量。
6.据权利要求1所述的方法,其特征在于,对预设模型进行机器学习训练,得到金融走势预测模型,包括:
通过交叉验证法对所述预设模型进行机器学习训练,得到验证样本对应的预测结果;
根据所述预测结果及所述验证样本对应的实际金融指数涨跌信息,确定所述金融走势预测模型的准确度。
7.据权利要求6所述的方法,其特征在于,确定所述金融走势预测模型的准确度,包括:
根据预设公式计算所述金融走势预测模型的准确率、召回率和F1值,来确定所述金融走势预测模型的准确度。
8.一种金融走势预测装置,其特征在于,包括:
信息获取模块,用于获取预设天数内每天预设时间段内的目标财经文本及每天的金融指数涨跌信息;
特征向量确定模块,根据获取的所述目标财经文本确定所述预设天数内每天的词频特征向量;
模型训练模块,用于根据所述预设天数内每天的词频特征向量及其对应的金融指数涨跌信息,对预设模型进行机器学习训练,得到金融走势预测模型;
模型预测模块,用于按照所述预设时间段获取预测日的目标财经文本,输入所述金融走势预测模型,得到预测日的金融指数涨跌信息。
9.一种金融走势预测设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的金融走势预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的金融走势预测方法。
CN201711163763.8A 2017-11-21 2017-11-21 一种金融走势预测方法、装置、设备及存储介质 Pending CN107679680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711163763.8A CN107679680A (zh) 2017-11-21 2017-11-21 一种金融走势预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711163763.8A CN107679680A (zh) 2017-11-21 2017-11-21 一种金融走势预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN107679680A true CN107679680A (zh) 2018-02-09

Family

ID=61149030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711163763.8A Pending CN107679680A (zh) 2017-11-21 2017-11-21 一种金融走势预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107679680A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108876604A (zh) * 2018-05-25 2018-11-23 平安科技(深圳)有限公司 股市风险预测方法、装置、计算机设备及存储介质
CN109166041A (zh) * 2018-08-29 2019-01-08 北京京东金融科技控股有限公司 股市走势预测方法及系统、计算机系统和可读存储介质
CN109657071A (zh) * 2018-12-13 2019-04-19 北京锐安科技有限公司 词汇预测方法、装置、设备和计算机可读存储介质
CN109919357A (zh) * 2019-01-30 2019-06-21 阿里巴巴集团控股有限公司 一种数据确定方法、装置、设备及介质
TWI692735B (zh) * 2018-10-12 2020-05-01 台北富邦商業銀行股份有限公司 企業財務曝險管理系統

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
CN105808615A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种基于分词权重的文档索引生成方法和装置
CN106502986A (zh) * 2016-10-21 2017-03-15 天津海量信息技术股份有限公司 新闻传播力预测方法
CN107274007A (zh) * 2017-05-25 2017-10-20 上海拜富网络科技股份有限公司 基于人工神经网络的金融数据预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808615A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种基于分词权重的文档索引生成方法和装置
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
CN106502986A (zh) * 2016-10-21 2017-03-15 天津海量信息技术股份有限公司 新闻传播力预测方法
CN107274007A (zh) * 2017-05-25 2017-10-20 上海拜富网络科技股份有限公司 基于人工神经网络的金融数据预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647828A (zh) * 2018-05-15 2018-10-12 中山大学 一种结合新闻语料和股市交易数据的股票预测方法
CN108876604A (zh) * 2018-05-25 2018-11-23 平安科技(深圳)有限公司 股市风险预测方法、装置、计算机设备及存储介质
CN109166041A (zh) * 2018-08-29 2019-01-08 北京京东金融科技控股有限公司 股市走势预测方法及系统、计算机系统和可读存储介质
TWI692735B (zh) * 2018-10-12 2020-05-01 台北富邦商業銀行股份有限公司 企業財務曝險管理系統
CN109657071A (zh) * 2018-12-13 2019-04-19 北京锐安科技有限公司 词汇预测方法、装置、设备和计算机可读存储介质
CN109919357A (zh) * 2019-01-30 2019-06-21 阿里巴巴集团控股有限公司 一种数据确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107679680A (zh) 一种金融走势预测方法、装置、设备及存储介质
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN111340616B (zh) 线上贷款的审批方法、装置、设备及介质
CN111210335B (zh) 用户风险识别方法、装置及电子设备
US11182447B2 (en) Customized display of emotionally filtered social media content
US20240046399A1 (en) Machine learning modeling for protection against online disclosure of sensitive data
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN110751326A (zh) 一种光伏日前功率预测方法、装置以及存储介质
CN112184304A (zh) 一种辅助决策的方法、系统、服务器和存储介质
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN111179055B (zh) 授信额度调整方法、装置和电子设备
CN111210336A (zh) 用户风险模型生成方法、装置及电子设备
CN110781428A (zh) 评论展示方法、装置、计算机设备及存储介质
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
CN111046184B (zh) 文本的风险识别方法、装置、服务器和存储介质
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116720946A (zh) 基于循环神经网络的信贷风险预测方法、装置和存储介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
Han et al. Prediction of Investor-Specific Trading Trends in South Korean Stock Markets Using a BiLSTM Prediction Model Based on Sentiment Analysis of Financial News Articles
CN114298825A (zh) 还款积极度评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209