CN108776652B - 一种基于新闻语料的行情预测方法 - Google Patents

一种基于新闻语料的行情预测方法 Download PDF

Info

Publication number
CN108776652B
CN108776652B CN201810488261.0A CN201810488261A CN108776652B CN 108776652 B CN108776652 B CN 108776652B CN 201810488261 A CN201810488261 A CN 201810488261A CN 108776652 B CN108776652 B CN 108776652B
Authority
CN
China
Prior art keywords
news
information
feature tensor
value
market
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810488261.0A
Other languages
English (en)
Other versions
CN108776652A (zh
Inventor
曹一新
徐照晔
吴小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baibao Shanghai Technology Co ltd
Shanghai Zhongan Information Technology Service Co ltd
Original Assignee
Baibao Shanghai Technology Co ltd
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baibao Shanghai Technology Co ltd, Zhongan Information Technology Service Co Ltd filed Critical Baibao Shanghai Technology Co ltd
Priority to CN201810488261.0A priority Critical patent/CN108776652B/zh
Publication of CN108776652A publication Critical patent/CN108776652A/zh
Application granted granted Critical
Publication of CN108776652B publication Critical patent/CN108776652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于新闻语料的行情预测方法,包括以下步骤:S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率行情。通过本技术方案,能够提高市场情绪计算效率和准确率,从而实现更准确的行情预测。

Description

一种基于新闻语料的行情预测方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于新闻语料的行情预测方法。
背景技术
在金融投资市场,行情的涨落由参与其中的每个交易者的买卖决策左右,交易者的买卖决策与其自身对金融标的的价值判断、全体交易者营造的市场情绪、市场资金流动性等因素息息相关。而对于一些炒作频繁的市场或价值不明朗的新兴市场,金融标的的内在价值可能经常背离市场价格,甚至其内在价值本身很难被准确估计,而新闻舆情主导的市场情绪往往会加剧价格的剧烈波动。现有的一些基于量价信息的技术分析手段和基于财报等数据的基本面分析无法对市场情绪主导的波动做出预测。
目前利用自然语言处理对新闻舆情进行情绪判断的研究越来越多,目前主要的判断算法有以下几种:一、根据语料的全部词汇(或词干词汇)及词频构建特征张量,利用一部分历史语料和人工标记的情绪指标训练有监督机器学习模型(例如朴素贝叶斯,逻辑回归,支持向量机,随机森林等等),将未判断语料带入训练好的模型给出情绪指标。二、利用情绪词典,即对单个词汇赋予情绪量化值的词典,识别语料中相应词汇并赋予情绪值,对整个句子给出一个综合情绪判断。但这些现有技术存在以下缺点:一方面,传统的金融市场投资方法缺乏对市场情绪的量化测量,缺乏利用市场情绪因子来预测市场未来走势的手段。另一方面,市场情绪量化度量的方法发展缓慢,现有的语料情绪判断方法中,可能由于特征张量是非常庞大的稀疏矩阵,导致运算起来速度很慢,并且对复杂信息的情绪特征提取能力比较弱,无法有效地排除一些噪音。或者在反映特定的市场情绪方面还不够灵活。
因此,如何能够利用新闻语料,结合考虑特定市场的宏观影响维度,提高情绪计算效率和预测准确度,在此基础上对市场行情走势进行短期预判,是相关领域需要解决的技术问题之一。
发明内容
为了克服现有技术的不足,本发明所解决的技术问题是提供一种能够利用新闻语料的处理,提高市场情绪计算效率和准确率,从而实现行情预测的方法。
为解决上述技术问题,本发明所采用的技术方案内容具体如下:
一种基于新闻语料的行情预测方法,包括以下步骤:
S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;
S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;
S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;
S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。
在本技术方案中,发明人一方面通过包括新闻主体和主体态度的新闻语料信息构建第一特征张量;另一方面对于构建第一特征张量利用关键词等处理方法得到第二特征张量,再形成情绪信息;通过这两方面可以使得新闻语料的处理以及市场情绪计算效率和准确率得到提高,还可以达到提高预测准确率的进一步技术目的。
优选地,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。
需要说明的是,所述关键词词典可以通过预设的方式实现,可以提高后续判断处理步骤的效率,在一些具体的实施方式中,关键词的输入可以是利用历史语料获取形成或者是人工输入形成。
优选地,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。
需要说明的是,在一些实施方式中,通过对分词词典和/或干扰词词典和/或关键词词典进行更新,可以使得处理准确率更高。
优选地,所述S1中的预处理步骤按顺序包括:
S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;
S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;
S13:对所述新闻语料信息进行分词;
S14:依据所述干扰词词典中的词语排除干扰词。
需要说明的是,在上述步骤中:
删除重复字符串,可以减少干扰,提高后续运算的速度;
通过对所述新闻语料信息进行分词,能够进一步提高后续处理的效率,提高计算效率;
通过对所述新闻语料进行繁简、大小写统一,可以提高分词效率,避免语义相同的词汇由于格式问题被区分对待。
依据所述干扰词词典中的词语排除干扰词,可以进一步提高本技术方案处理的准确率,提高计算准确率;
繁简转换和大小写同一转换,同样可以便于后续的匹配和处理,提高运算速度。
需要说明的是,先对比去重再进行后续步骤,可以第一时间排除重复信息,减少重复计算,提高计算效率;在分词之前进行繁简、大小写统一可以提高分词效率,对繁简、大小写不加以区分,避免语义相同的词汇由于格式问题被区分对待;排除干扰词必须在分词之后才能进行。
优选地,所述S1中的S11之前或之后还包括:S10:去除空白及干扰字符。
优选地,所述S1中的S14之前或之后还包括:S15:去除停止词。
需要说明的是,在一些实施方式中,还可以利用以上一种或多种方式对新闻语料信息进行处理,这些方式均能够为后续处理步骤提高效率和准确率。
优选地,所述第一特征张量的构建方法包括:
获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;
构建所述第一特征张量为
Figure BDA0001667341700000031
其中D1=[d11,d12,...,d1i]表示新闻主体向量,
Figure BDA0001667341700000032
表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度;
此过程还包括建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。
需要说明的是,将新闻语料信息划分成新闻主体和主体态度,具有将分析师结合市场宏观背景的思考逻辑融入特征提取以提高预测准确度和应对不同市场环境的灵活性的有益效果;另外,构建第一特征张量,其有益效果在于降低信息熵,提高计算效率。
进一步地,建立主体态度之间的矛盾关系和层级关系。矛盾关系是指相关词汇是否存在语义相反的关系。层级关系由反映同一类态度的情绪程度高低决定,代表了相似语义不同程度的关系。
在一些实施方式中,所述关键词词典包括若干组“关键词+从属词汇”,使得所述第一特征张量中的每一个元素d都能在所述关键词词典中找到唯一的一组对应“关键词+从属词汇”。
需要说明的是,在每一组中,所述关键词代表所述第一特征张量中的一个新闻主体或主体态度,所述从属词汇指可以用来识别该新闻主体或主体态度的词汇。
更优选地,所述第二特征张量的构建方法包括:
从预设的关键词词典中获取关键词,并对向量中的每一个元素d分别判断其是否含有关键词中的任意一个;若是则对该元素赋值1,否则对该元素赋值0;得到一个由0,1构成的二维特征张量。
需要说明的是,通过对元素进行1,0的赋值,使得二维特征张量由0,1构成,这个方案的有益技术效果在于提高计算效率。
进一步地,所述第二特征张量的构建方法还包括干扰消除:
找到所述第一特征张量中D1中每个元素d1i在M1中包含的[d2*],判断[d2*]中是否至少有一个元素值为1,若都为0,则将所述d1i赋值为0;
找到所述第一特征张量中D2中每个元素d2j在M2中包含的[d1*],判断[d1*]中是否至少有一个元素值为1,若都为0,则将所述d2j赋值为0。
需要说明的是,可能存在一些干扰情况,即一段语料识别出某一个新闻主体,但没有对应的主体态度;或者识别出某一种主体态度,但无法识别新闻主体,排除不存在对应的主体态度(或新闻主体)的干扰新闻主体(或主体态度)。
在一些优选的实施方式中,通过干扰消除步骤,可以使得所得第二特征张量更加贴合新闻语料内容,使得第二特征张量的表示更加准确,从而可以提高后续计算效率和准确率。
进一步地,所述第二特征张量的构建方法还包括矛盾消除:
对D1中的每个值为1的元素d1i(d1i=1)进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在矛盾关系,则将所述d1i赋值为0。
需要说明的是,存在一种矛盾情况,一个“新闻主体”识别出两个或两个以上矛盾的“主体态度”,此时排除这个“新闻主体”。
在一些优选的实施方式中,通过干扰消除步骤,可以进一步地使得所得第二特征张量更加贴合新闻语料内容,使得第二特征张量的表示更加准确,从而可以进一步地提高后续计算效率和准确率。
进一步地,所述第二特征张量的构建方法还包括同义消除:
对D1中的每个值为1的元素d1i(d1i=1)进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在层级关系,则保留层级最高的主体态度对应元素d2j值为1,其余赋值为0。
需要说明的是,存在一种情况,一段语料识别出某一新闻主体和两个或两个以上不矛盾的主体态度,即主体态度均代表正面(或负面),但主体态度的程度存在差别,例如同时出现“悲观”和“禁止”的主体态度,保留“禁止”对应的元素为1,“悲观”对应的元素赋值为0。通过同义消除,可以将情绪特征根据程度细分,提高情绪表征的精度和预测准确度。
优选地,所述S3的具体方法是:
根据所述第二特征张量提取k条情绪信息,每一条所述情绪信息对应一种确定的市场情绪,对某时刻的新闻语料信息(例如N天内)统计每一种情绪信息的计数,用nk表示,k代表第k种信息;
根据每条情绪信息对应的市场情绪对其赋予态度权重Wk,看空赋予负值,看多赋予正值,统计看多新闻语料信息占新闻语料信息总数的比例作为舆情因子α,即:
Figure BDA0001667341700000051
其中,
Figure BDA0001667341700000052
是阶跃函数。
需要说明的是,利用上述步骤所得的第二特征张量提取里面的若干条情绪信息,并结合一段时间内的情绪信息的比值形成舆情因子,这相比于对新闻进行逐条情绪提取并预测的方式具有减少噪音,对市场进行综合情绪判断的优点。
优选地,所述S4的具体方法是:
计算一段时间内的舆情因子及对应的滞后T期收益率RT,假设最新一期的舆情因子α*,统计历史舆情因子在区间α1≤α*≤α21∈[0.5α*,0.9α*],α2∈[1.1α*,1.5α*])内时对应收益率RT的平均值、最小值、最大值、RT为正值的比例λ1、RT为负值的比例λ2等数据,作为预测未来收益率行情的依据。
与现有技术相比,本发明的有益效果在于:
1、本发明的基于新闻语料的行情预测方法,通过包括新闻主体和主体态度的新闻语料信息构建第一特征张量;另一方面对于构建第一特征张量利用关键词等处理方法得到第二特征张量,再形成情绪信息;可以使得新闻语料的处理以及市场情绪计算效率和准确率得到提高,对新闻主体和主体态度的选取可以有效地融入针对特定市场宏观背景的思考逻辑,达到提高预测准确率和应对市场灵活性的进一步技术目的;
2、本发明的基于新闻语料的行情预测方法,通过对所述新闻语料信息进行分词,能够进一步提高后续处理的效率,提高计算效率;依据所述干扰词词典中的词语排除干扰词,可以进一步提高本技术方案处理的准确率,提高计算准确率;
3、本发明的基于新闻语料的行情预测方法,所述关键词词典可以通过预设的方式实现,可以提高后续判断处理步骤的效率;
4、本发明的基于新闻语料的行情预测方法,通过干扰消除和矛盾消除步骤,可以进一步地使得所得第二特征张量更加贴合新闻语料内容,使得第二特征张量的表示更加准确,从而可以进一步地提高后续计算效率和准确率;
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明基于新闻语料的行情预测方法的一种优选实施方式的流程示意图;
图2为本发明基于新闻语料的行情预测方法的一种优选实施方式中舆情因子的时间变化示意图;
图3为图2中舆情因子的预测情况分布示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
实施例1
如图1所示是本发明一种基于新闻语料的行情预测方法一种基础实施方式的流程示意图,所述方法包括以下步骤:
S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;
S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量;
S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;
S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。
在本技术方案中,发明人一方面通过包括新闻主体和主体态度的新闻语料信息构建第一特征张量;另一方面对于构建第一特征张量利用关键词等处理方法得到第二特征张量,再形成情绪信息;通过这两方面可以使得新闻语料的处理以及市场情绪计算效率和准确率得到提高,还可以达到提高预测准确率的进一步技术目的。
实施例2
本实施例是在上述实施例1的基础之上的优选实施方式的若干列举,以下实施方式可以单独或结合实施。
在一些实施方式中,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。所述关键词词典可以通过预设的方式实现,可以提高后续判断处理步骤的效率,在一些具体的实施方式中,关键词的输入可以是利用历史语料获取形成或者是人工输入形成。
例如,在一些实际操作当中,在对语料进行情绪分析时,需要对语料提取K阶特征张量
Figure BDA0001667341700000081
该特征张量的维数K及每一维度的元素值根据情绪分析模块采用的算法确定。关键词词典用于存储提取特征张量的逻辑算法中所需的关键词及关键词之间的逻辑关系。具体地,特征张量F可以表示为:
F=[D1,D2,KDK];
的每个维度Dk,k∈{1,2,KK}是一个长度为Jk的向量(不同Dk的长度Jk可以不同),即
Figure BDA0001667341700000082
该向量的每个元素dkj,j∈{1,2,KJk}都指向一个符合某种定义的关键词词组
dkj→Wkj=[w1,w2,Kwi,K];
这些关键词词组则构成了一个关键词词典。举个简单的例子:特征张量可能有两个维度,D1代表新闻发布方,D2代表新闻观点,D1包含若干个元素,其中d11,d12分别代表“政府”,“券商”,那么W11包含的词组可能为[“证监会”,“银监会”,“中央银行”,...],W12包含的词组可能为[“中信证券”,“国泰君安”,“西部证券”,...]。
在一些实施方式中,所述S1中的预处理步骤包括:
S10:去除空白及干扰字符。
S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;
S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;
S13:对所述新闻语料信息进行分词;
S14:依据所述干扰词词典中的词语排除干扰词。
S15:去除停止词。
利用以上一种或多种方式对新闻语料信息进行处理,这些方式均能够为后续处理步骤提高效率和准确率。在一些优选的实施方式中,上述S11~S14是优选步骤,S10和S15是进一步优选的步骤。
在一些更具体的实施方式中,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。
例如,在一些实际操作当中,针对中文语料,可采用jieba分词包分词,对于英文语料,采用Natural Language Toolkit。根据不同的金融市场,特别是一些新兴市场,可能会有一些新兴词汇无法被默认词典识别,需要人工分析识别,并加入自定义词典,例如针对数字货币市场,“数字货币”、“区块链”等词汇就被加入了“金色财经”等数字货币媒体源的自定义词典中。
在一些实施方式中,通过对分词词典和/或干扰词词典进行更新,使得处理准确率更高。
例如,在一些实际操作当中,当一些特定的干扰词出现后,表明这是一条“垃圾语料”,例如将一些“荐股”、“选股”等推广信息的词汇加入干扰词词典,用于识别并排除这些“垃圾语料”。
实施例3
本实施例是在上述实施例的基础之上的优选实施方式的若干列举,以下实施方式可以单独或结合实施。
在一些实施方式中,所述第一特征张量的构建方法包括:
获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;
构建所述第一特征张量为
Figure BDA0001667341700000091
其中D1=[d11,d12,...,d1i]表示新闻主体向量,
Figure BDA0001667341700000092
表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度。
此过程还包括建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。
在一些实施方式中,所述第二特征张量的构建方法包括:
从预设的关键词词典中获取关键词,并对向量中的每一个元素d分别判断其是否含有关键词中的任意一个;若是则对该元素赋值1,否则对该元素赋值0;得到一个由0,1构成的二维特征张量。通过对元素进行1,0的赋值,使得二维特征张量由0,1构成,
在一些更具体的实施方式中,所述第二特征张量的构建方法还包括干扰消除:
找到所述第一特征张量中D1中每个元素d1i在M1中包含的[d2*],判断[d2*]中是否至少有一个元素值为1,若都为0,则将所述d1i赋值为0;
找到所述第一特征张量中D2中每个元素d2j在M2中包含的[d1*],判断[d1*]中是否至少有一个元素值为1,若都为0,则将所述d2j赋值为0。
可能存在一些干扰情况,即一段语料识别出某一个新闻主体,但没有对应的主体态度;或者识别出某一种主体态度,但无法识别新闻主体,排除不存在对应的主体态度(或新闻主体)的干扰新闻主体(或主体态度)。
在一些优选的实施方式中,通过干扰消除步骤,可以使得所得第二特征张量更加贴合新闻语料内容,使得第二特征张量的表示更加准确,从而可以提高后续计算效率和准确率。
在一些更具体的实施方式中,所述第二特征张量的构建方法还包括矛盾消除:
对D1中的每个值为1的元素d1i(d1i=1)进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在矛盾关系,则将所述d1i赋值为0。
存在一种矛盾情况,一个“新闻主体”识别出两个或两个以上矛盾的“主体态度”,此时排除这个“新闻主体”。
在一些优选的实施方式中,通过干扰消除步骤,可以进一步地使得所得第二特征张量更加贴合新闻语料内容,使得第二特征张量的表示更加准确,从而可以进一步地提高后续计算效率和准确率。
在一些更具体的实施方式中,所述第二特征张量的构建方法还包括同义消除:
对D1中的每个值为1的元素d1i(d1i=1)进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在层级关系,则保留层级最高的主体态度对应元素d2j值为1,其余赋值为0。
存在一种情况,一段语料识别出某一新闻主体和两个或两个以上不矛盾的主体态度,即主体态度均代表正面(或负面),但主体态度的程度存在差别,例如同时出现“悲观”和“禁止”的主体态度,保留“禁止”对应的元素为1,“悲观”对应的元素赋值为0。
实施例4
本实施例是在上述实施例的基础之上的优选实施方式的若干列举,以下实施方式可以单独或结合实施。
在一些实施方式中,所述S3的具体方法是:
根据所述第二特征张量提取k条情绪信息,每一条所述情绪信息对应一种确定的市场情绪,对某时刻的新闻语料信息(例如N天内)统计每一种情绪信息的计数,用nk表示,k代表第k种信息;
根据每条情绪信息对应的市场情绪对其赋予态度权重Wk,看空赋予负值,看多赋予正值,统计看多新闻语料信息占新闻语料信息总数的比例作为舆情因子α,即:
Figure BDA0001667341700000111
其中,
Figure BDA0001667341700000112
是阶跃函数。
利用上述步骤所得的第二特征张量提取里面的若干条情绪信息,并结合一段时间内的情绪信息的比值形成舆情因子。
在一些实施方式中,所述S4的具体方法是:
计算一段时间内的舆情因子及对应的滞后T期收益率RT,假设最新一期的舆情因子α*,统计历史舆情因子在区间α1≤α*≤α21∈[0.5α*,0.9α*],α2∈[1.1α*,1.5α*])内时对应收益率RT的平均值、最小值、最大值、RT为正值的比例λ1、RT为负值的比例λ2等数据,作为预测未来收益率波动范围的依据。
例如,在一些实际的操作当中,通过建立算法提取舆情因子和市场行情(开盘价、最高价、最低价、收盘价、成交量、成交额等)的相关性,根据历史数据统计预测未来收益波动范围,给出投资建议或买卖信号。利用量化的舆情信号辅助投资策略,具体的做法包括但不限于:
策略一:计算历史一段时间内(例如3个月内)的舆情因子α及对应的滞后T期收益率RT(例如滞后10天收益率),计算α1≤α≤α21∈[0.5α,0.9α],α2∈[1.1α,1.5α])时RT为正的概率λ,若λ>r1(r1∈[0.7,1]),买入做多,T期后平仓。若λ<r2(r2∈[0,0.3]),卖出做空,T期后平仓。
策略二:计算历史一段时间内(例如3个月内)的舆情因子α及三个对应的价格数据:滞后T期收益率RT(例如滞后10天收益率),滞后T期内的最大回撤LT、滞后T期内的最大盈利HT,计算α1≤α≤α21∈[0.5α,0.9α],α2∈[1.1α,1.5α])区间内RT为正的概率λ,及平均值<LT>,<HT>。若λ>r1(r1∈[0.7,1]),买入做多,盈利达到<HT>时平仓,未达到<HT>则在T期后平仓。若λ<r2(r2∈[0,0.3]),卖出做空,价格下跌比例达到<LT>时平仓,未达到<LT>则在T期后平仓。
实施例5
本实施例举出一具体的实施方式以说明上述实施例中的工作流程,但不代表保护范围仅限于本实施例中所提到的具体实施方式。
(1)在获取新闻语料信息步骤中,我们选择从相关新闻网站爬取从2017年8月23日起至UTC 2018年4月13日0:00a.m.共20563条有关数字货币和区块链的新闻。
在一些具体的操作中,我们可以通过设置爬虫模块,从而实现从多个媒体源爬取并存储原始信息。
利用爬虫模块获取新闻语料信息,在更具体的操作中,结合不同模块设置方式,还可以有以下特点:
a.可扩展。爬虫模块将针对各个媒体源的子代码封装成统一的爬虫函数CrawAPI(source_name,interval...),可灵活调用一个或并行多个媒体源爬虫函数,可通过更新子代码或新增子代码,应对媒体源的更新迭代和扩充。
b.整合型。对不同媒体源爬取数据的同时,将获得数据以统一的格式存储到数据库,使之具有统一的数据维度(更新日期、发布日期、短标题、详细内容、媒体源......),若某一媒体源无相应维度数据,设置为None。同时赋予媒体源对应的市场类型(A股、港股、美股、期货、期权、外汇、数字货币等),并以一个媒体源对多个市场类型的关系形式存储到数据库,以便后续调用媒体数据时能够灵活选择。
c.时效性。对于具有实时开放API接口(如Twitter)或能够实施实时更新的媒体源,进行实时更新CrawAPI(source_name=’Twitter’,interval=’0’...);对于不能实时更新的媒体源(如金色财经),设定一个时间间隔(如10min间隔)进行定时采集更新CrawAPI(source_name=’金色财经’,interval=’10min’...)。
d.独立性。爬虫模块与后续实现各个步骤中所可能采用的预处理模块、情绪判断模块、舆情因子计算模块、交易模块独立运行,一方面避免其他模块发生错误导致的干扰,另一方面提前准备好媒体数据有助于提高后续模块的计算效率。
(2)我们可以预设一个包含新闻主体和主体态度标签的关键词词典,例如:
D1=[d11->政府:全国人大、常委、财经委、国税局、央行......
d12->企业:IBM、阿里、腾讯、京东、开发商......
d13->个人:V神、李笑来、合伙人、教授、总监......
d14->市场:交易量、成交量、总市值、报价......
d15->个币:瑞波币、波场、星云链......
d16->交易所:币安、火币、OKEX......]
D2=[d21->态度乐观:成功、鼓励、良药、吸引、允许......
d22->态度悲观:打击、担心、防范、风险、揭露......
d23->政策监管:取缔、整顿、征税、惩治、监督......
d24->违法违规:操作、传销、犯罪、非法、逃税......
d25->积极发展:打造、促进、发行、落地、推动......
d26->获得投资:A轮、B轮、筹集、天使轮、募集......
d27->行情乐观:火热、止跌回升、升值、反弹、上涨......
d28->行情悲观:跌破、回落、回调、下跌、熊市......
d29->行情暴涨:飙升、大涨、新高、暴涨......
d210->行情暴跌:暴跌、崩盘、重挫、跳水......
d211->清退下架:下架、退币、清退、叫停......
d212->盗窃攻击:被盗、盗窃、黑客、攻击......]
(3)
利用jieba结巴中文分词开源包对每一条新闻进行分词,获得独立的词汇,进行预处理去除干扰信息。例如以下两条示例:
Figure BDA0001667341700000131
Figure BDA0001667341700000141
然后根据关键词词典识别每一条新闻的新闻主体和主体态度,构建特征张量:
Figure BDA0001667341700000142
利用一些逻辑判断去掉干扰和矛盾信息,最终从新闻语料提取16种信息维度。为了验证这种自动提取信息维度的准确率,我们对2017年8月23日至2017年10月22日的1000条新闻进行人工判断,并和自动判断结果对比得到准确率如下表:
新闻自动分类遗漏率和准确率(1000条样本统计结果)
Figure BDA0001667341700000143
Figure BDA0001667341700000151
由上述表格可知,大部分情况下利用本方案进行提取情绪信息,准确率均在90%以上。由此可知,利用本技术方案能够有效提高市场情绪计算效率和准确率。
(4)舆情因子计算:
利用所得情绪信息,进一步将政府政策监管、政府违法违规、清退、盗窃、悲观、市场行情悲观、市场行情暴跌、个币行情悲观、个币行情暴跌定义为利空新闻并赋予权重-1,乐观、发展、投资、市场行情乐观、市场行情暴涨、个币行情乐观、个币行情暴涨定义为利多新闻并赋予权重1,按定义计算新闻舆情因子。
图2给出了分别用历史1天、3天、5天、7天、10天的新闻统计得到的舆情因子IDXnews_nday随时间的变化图。
接下来通过舆情因子和比特币价格的相关性给出行情预测。采用coinmarketcap.com上的比特币K线数据收盘价计算每期收益率。在2018年1月1日以来的时间段内,利用过去N天的舆情因子对未来3天以上的收益具有明显的预测效应,在所选参数中,过去10天的舆情因子IDXnews_10day对未来10天收益的预测效应最好(综合考虑准确度和平均收益)。
通过舆情因子和未来收益的历史数据,可以统计出当某天舆情因子属于某一范围时对未来收益率的预测数据。举个例子,假设某天IDXnews_10day=0.57,我们关注未来10天收益如何,那么,我们可以考察历史数据中0.56<IDXnews_10day<0.58对应的return_10day的分布(如图3中黑色实心数据点),发现有6个点为正值,10个点为负值,那么预测未来10天收益率为负的概率是62.5%,平均负收益率为-9.2%,波动范围-20%~37%,这种情况很难进行买卖决策,则不建议进行买卖操作。但是如果某天IDXnews_10day=0.62,历史波动范围为-40%~0%,可以认为未来10天大概率会跌,建议卖出;而当IDXnews_10day=0.54,未来10天大概率会涨,建议买入。
基于此,我们也可构建一个初步的投资策略。假设我们关注未来10天的收益,那么我们可以将资金分成10等份,每天操作一份资金。然后每天计算舆情因子和未来10天收益的统计数据,如果预测结果认为80%(阈值可调)以上概率会跌,那么减仓或做空,10天后补回仓位或平空仓;如果预测结果认为80%(阈值可调)以上概率会涨,那么做多,10天后平仓。通过此项预测完成投资者操作。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (12)

1.一种基于新闻语料的行情预测方法,其特征在于,包括以下步骤:
S1:获取新闻语料信息,并对所述新闻语料信息进行预处理;
S2:根据S1处理所得的新闻语料信息,采用包括新闻主体和主体态度的二维信息维度的形式构建第一特征张量,并结合预设的关键词词典,获得第二特征张量,所述第一特征张量的构建方法包括:
获取所述新闻语料信息,并将所述新闻语料信息划分成新闻主体和主体态度;
构建所述第一特征张量为
Figure FDA0003509098230000011
其中D1=[d11,d12,...,d1i]表示新闻主体向量,
Figure FDA0003509098230000012
表示主体态度向量,向量中的每个元素d代表一个新闻主体或者主体态度;
所述关键词词典包括若干组“关键词+从属词汇”,使得所述第一特征张量中的每一个元素d都能在所述关键词词典中找到唯一的一组对应“关键词+从属词汇”,所述第二特征张量的构建方法包括:
从预设的关键词词典中获取关键词及对应的从属词汇,并对向量中的每一个元素d分别判断其是否含有对应关键词的从属词汇中的任意一个;若是则对该元素赋值1,否则对该元素赋值0;得到一个由0、1构成的二维特征张量;
S3:根据所述第二特征张量提取情绪信息,然后通过若干条情绪信息计算舆情因子α;
S4:根据所得的舆情因子α获取其对应的滞后T期收益率RT,预测未来收益率的波动范围。
2.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述关键词词典的建立方式是利用历史语料或人工操作获取形成。
3.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S1还包括词典更新步骤,所述词典更新步骤包括:更新分词词典、干扰词词典、关键词词典中的至少一种。
4.如权利要求3所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的预处理步骤按顺序包括:
S11:对比去重,利用字符串相似度算法测量最近一定时间内两个字符串的相似度,若所述相似度大于预设阈值,则视为重复,删除其中一字符串;
S12:将所述新闻语料信息中的中文字统一转换成简体中文或繁体中文;将所述新闻语料信息中的英文字符统一转换成大写或小写;
S13:对所述新闻语料信息进行分词;
S14:依据所述干扰词词典中的词语排除干扰词。
5.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S11之前或之后还包括:
S10:去除空白及干扰字符。
6.如权利要求4所述的基于新闻语料的行情预测方法,其特征在于,所述S1中的S14之前或之后还包括:
S15:去除停止词。
7.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述第一特征张量的构建方法中还包括:
建立新闻主体和主体态度的对应关系M1={d1i:[d2*]}和M2={d2j:[d1*]},其中d2*表示D2中的一个或多个元素;d1*表示D1中的一个或多个元素;即一个新闻主体可以包含一个或若干个主体态度,一个主体态度可以属于一个或若干个新闻主体。
8.如权利要求7所述的基于新闻语料的行情预测方法,其特征在于,所述第二特征张量的构建方法还包括干扰消除:
找到所述第一特征张量中D1中每个元素d1i在M1中包含的[d2*],判断[d2*]中是否至少有一个元素值为1,若都为0,则将所述d1i赋值为0;
找到所述第一特征张量中D2中每个元素d2j在M2中包含的[d1*],判断[d1*]中是否至少有一个元素值为1,若都为0,则将所述d2j赋值为0。
9.如权利要求7所述的基于新闻语料的行情预测方法,其特征在于,所述第二特征张量的构建方法还包括矛盾消除:
对D1中的每个值为1的元素d1i进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在矛盾关系,则将所述d1i赋值为0。
10.如权利要求7所述的基于新闻语料的行情预测方法,其特征在于,所述第二特征张量的构建方法还包括同义消除:
对D1中的每个值为1的元素d1i进行判断,找到d1i在M1中包含的[d2*],剔除其中值为0的d2*;若剔除0值后的[d2*]包含两个或两个以上代表主体态度的元素,且主体态度存在层级关系,则保留层级最高的主体态度对应元素d2j值为1,其余赋值为0。
11.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S3的具体方法是:
根据所述第二特征张量提取k条情绪信息,每一条所述情绪信息对应一种确定的市场情绪,对N天内的新闻语料信息统计每一种情绪信息的计数,用nk表示,k代表第k种信息;
根据每条情绪信息对应的市场情绪对其赋予态度权重Wk,看空赋予负值,看多赋予正值,统计看多新闻语料信息占新闻语料信息总数的比例作为舆情因子α,即:
Figure FDA0003509098230000031
其中,
Figure FDA0003509098230000032
是阶跃函数。
12.如权利要求1所述的基于新闻语料的行情预测方法,其特征在于,所述S4的具体方法是:
计算任意一段历史时间内的舆情因子及对应的滞后T期收益率RT,假设最新一期的舆情因子α*,统计历史舆情因子在区间α1≤α*≤α2内时对应收益率RT的平均值、最小值、最大值、RT为正值的比例λ1以及RT为负值的比例λ2,作为预测未来收益率行情的依据,其中,α1∈[0.5α*,0.9α*],α2∈[1.1α*,1.5α*]。
CN201810488261.0A 2018-05-21 2018-05-21 一种基于新闻语料的行情预测方法 Active CN108776652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810488261.0A CN108776652B (zh) 2018-05-21 2018-05-21 一种基于新闻语料的行情预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810488261.0A CN108776652B (zh) 2018-05-21 2018-05-21 一种基于新闻语料的行情预测方法

Publications (2)

Publication Number Publication Date
CN108776652A CN108776652A (zh) 2018-11-09
CN108776652B true CN108776652B (zh) 2022-04-01

Family

ID=64027281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810488261.0A Active CN108776652B (zh) 2018-05-21 2018-05-21 一种基于新闻语料的行情预测方法

Country Status (1)

Country Link
CN (1) CN108776652B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902230A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种新闻数据的处理方法及装置
CN112883734B (zh) * 2021-01-15 2023-01-10 成都链安科技有限公司 区块链安全事件舆情监测方法及系统
CN115965161B (zh) * 2023-02-14 2023-06-13 联通(四川)产业互联网有限公司 一种基于人工智能和历史数据的农作物产量预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN105022825A (zh) * 2015-07-22 2015-11-04 中国人民解放军国防科学技术大学 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9772996B2 (en) * 2015-08-04 2017-09-26 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for applying role based association to entities in textual documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN105022825A (zh) * 2015-07-22 2015-11-04 中国人民解放军国防科学技术大学 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Using Twitter to Predict the Stock Market;Michael Nofer et al.;《Business & information system engineering》;20150609;第229-242页 *
投资者情绪特征对股票价格行为的影响研究;文凤华 等;《管理科学学报》;20140331;第17卷(第3期);第60-69页 *

Also Published As

Publication number Publication date
CN108776652A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
Minh et al. Deep learning approach for short-term stock trends prediction based on two-stream gated recurrent unit network
Cao et al. Stock price forecasting model based on modified convolution neural network and financial time series analysis
Stevenson et al. The value of text for small business default prediction: A deep learning approach
Vargas et al. Deep learning for stock market prediction from financial news articles
Day et al. Deep learning for financial sentiment analysis on finance news providers
Liu et al. Combining enterprise knowledge graph and news sentiment analysis for stock price prediction
CN111897963B (zh) 一种基于文本信息和机器学习的商品分类方法
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
CN108776652B (zh) 一种基于新闻语料的行情预测方法
Petropoulos et al. Can central bank speeches predict financial market turbulence? Evidence from an adaptive NLP sentiment index analysis using XGBoost machine learning technique
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
US11790210B1 (en) Heirarchical prediction models for unstructured transaction data
CN112419029A (zh) 类金融机构风险监控方法、风险模拟系统及存储介质
WO2021060967A1 (en) A system and method for predictive analytics of articles
Wei et al. [Retracted] Analysis and Risk Assessment of Corporate Financial Leverage Using Mobile Payment in the Era of Digital Technology in a Complex Environment
CN111427880A (zh) 数据处理的方法、装置、计算设备以及介质
Ma et al. A novel distributed representation of news (drnews) for stock market predictions
Gillmann et al. Quantification of Economic Uncertainty: a deep learning approach
CN110750622A (zh) 基于大数据的金融事件发现方法
Reddy Particle Swarm Optimized Neural Network for Predicting Customer Behaviour in Digital Marketing
KR20230169538A (ko) 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램
Jishtu et al. Prediction of the stock market based on machine learning and sentiment analysis
CN113836244A (zh) 样本获取方法、模型训练方法、关系预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210913

Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Applicant after: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Applicant after: Baibao (Shanghai) Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240227

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Patentee after: Baibao (Shanghai) Technology Co.,Ltd.

Address before: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China

Patentee before: Baibao (Shanghai) Technology Co.,Ltd.

TR01 Transfer of patent right