CN104573003A - 基于新闻主题信息检索的金融时间序列预测方法 - Google Patents

基于新闻主题信息检索的金融时间序列预测方法 Download PDF

Info

Publication number
CN104573003A
CN104573003A CN201510008836.0A CN201510008836A CN104573003A CN 104573003 A CN104573003 A CN 104573003A CN 201510008836 A CN201510008836 A CN 201510008836A CN 104573003 A CN104573003 A CN 104573003A
Authority
CN
China
Prior art keywords
time series
news
term
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510008836.0A
Other languages
English (en)
Other versions
CN104573003B (zh
Inventor
蔡青林
陈岭
孙建伶
陈蕾英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510008836.0A priority Critical patent/CN104573003B/zh
Publication of CN104573003A publication Critical patent/CN104573003A/zh
Application granted granted Critical
Publication of CN104573003B publication Critical patent/CN104573003B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征,并以新闻数据对金融时间序列的实时影响作为标记,训练支持向量机分类器作为预测模型;通过构建词频时间序列,有效度量词汇特征与时间序列的相关度,继而实现新闻主题与时间序列的相关度计算,由此查询与金融时间序列相关的新闻主题;通过对查询出的新闻数据提取词汇组合特征并输入预测模型,得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响,帮助人们理解和把握两类数据之间的信息传递;在金融交易市场中,为投资者做舆情分析和投资决策提供了准确的指导。

Description

基于新闻主题信息检索的金融时间序列预测方法
技术领域
本发明涉及数据库、数据挖掘、信息检索等领域,尤其涉及时间序列数据、文本数据的分析和挖掘。
背景技术
在机器学习与数据挖掘领域,基于新闻数据预测金融时间序列的波动趋势,实质是对新闻文本基于内容的自动分类问题。针对该问题,现有的预测方法大多包含两个重要环节:特征提取与模型训练,即通过提取文本特征采集信息,用于机器学习方法训练分类器,作为金融时间序列的预测模型。
用于文本分类的机器学习技术比较成熟,如人工神经网络、支持向量机、朴素贝叶斯分类器、kNN分类器等,现有的基于新闻数据的金融预测模型大多基于这些分类器构建。人工神经网络是由大量处理单元互联组成的非线性模型,通过调整内部节点的互联关系,分析掌握输入输出数据之间的潜在规律,实现为新数据推算结果。该方法具有较强的自学习和自适应能力,但缺少对推理过程的解释能力。支持向量机是在高维空间中寻找一个最优超平面,在保证分类精度的前提下,使超平面两侧的空白间距最大化。理论上支持向量机可对线性可分数据做最优划分,但是却只能处理二分类问题。朴素贝叶斯分类器是基于贝叶斯公式,利用对象的先验概率计算其所属类别的后验概率而实现分类。虽然该方法的理论简单,操作性较强,但是要保证较高的准确度,需要采用大规模训练集训练模型。kNN分类器是一种基于距离度量的方法,它通过在训练集中查找对象的k个距离最小的近邻,并选择其中较多的类别作为结果实现分类。虽然该方法具有很好的可解释性和易操作性,但是面对大规模训练集,分类过程具有很高的时间开销。尽管众多分类器的工作原理各不相同,但是通过对众多预测模型的广泛比较发现,预测模型的准确度并不依赖于其采用的分类器方法,而是由文本表示方法与特征提取方法决定的。
现有的基于新闻数据的金融预测方法大多采用简单的文本表示。其中,最常用的方法是词袋模型,该方法将文本看作无序的词汇集合,采用单词汇特征表示文本。很明显,这种简单的特征表示缺乏表达能力,无法捕捉文本数据的基本语义信息。为了改进这一缺陷,有的预测模型采用表达能力较强的组合词汇特征表示文本,并基于文本语料库的词频统计(如TF-IDF打分)或更简单的最小出现次数提取特征。很明显,这些特征提取方法只注重特征词汇在文本语料库内部的表达能力,而忽略了特征词汇与金融时间序列的相关性,因此,所提取的许多特征都缺乏对金融时间序列的预测性能。另外,在预测阶段,现有的预测方法所提取的特征来自于文本语料库的全部新闻数据,包括预测时间段内与金融时间序列波动无关的新闻,这使得用于预测的数据信息缺乏针对性,很容易混入大量噪声影响预测结果的准确性。
发明内容
本发明要解决的问题是如何基于大量的实时新闻数据,实现对金融时间序列波动趋势的预测。为了解决该问题,本发明提出了基于新闻主题信息检索的金融时间序列预测方法。
本发明的目的是通过以下技术方案实现的:基于新闻主题信息检索的金融时间序列预测方法,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;
(1.2)依次读取新闻数据库News_base的每个新闻文本Di
(1.3)对Di解析并分词;
(1.4)除去Di中所有停用词,并以Di的发布时间作为时间戳t对其标记;
(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x1,t1),(x2,t2),...,(xi,ti),...,(xn,tn)};
(1.6)比较x1与xn的大小,标记Di对T的作用类型effect,并根据effect选择将Di加入Rise_set或Drop_set;
(1.7)以时间戳t作为索引项,对文本数据库构建B+-树索引I;
(2)预测模型构建,具体包括以下子步骤:
(2.1)从新闻数据库News_base中提取2-词汇组合特征F,构建特征集合FS={F1,F2,...,Fi,...,FN},并构建特征矩阵RFM与DFM,分别存储特征Fi在Rise_set与Drop_set的出现次数,包括以下子步骤:
(2.1.1)提取News_base中出现的所有不同词汇term,构建词汇集合Term={term1,...,termi,...,termj,...,termn},以各种2-词汇组合Fi=<termi,termj>为元素构建特征集合FS={F1,F2,...,Fi,...,FN};
(2.1.2)构建上涨特征矩阵RFM与下跌特征矩阵DFM,并初始化;
(2.1.3)分别统计2-词汇组合特征Fi在Rise_set与Drop_set的出现次数,并分别记入RFM与DFM的对应单元;
(2.2)基于二元正态分离(BNS)统计方法,从特征集合FS中选择具有显著预测性能的2-词汇组合特征,并构建特征向量FV=[F1,F2,...,Fm],包括以下子步骤:
(2.2.1)基于BNS统计方法,为Fi计算预测性能分值score;
(2.2.2)基于BNS分布的假设检验方法计算p-值,筛选2-词汇组合特征Fi,构建特征向量FV;
(2.3)基于tf-idf表示方法,以FV的特征元素作为基本维度,为各新闻文本计算特征向量的tf-idf表示,包括以下子步骤:
(2.3.1)依次读取News_base的每个新闻文本Di
(2.3.2)基于Lucene全文检索开源框架,依次计算FV的每个元素Fj在Di中的tf-idf分值,为Di构造特征向量的tf-idf表示,包括以下子步骤:
(2.3.2.1)构建特征向量
(2.3.2.2)统计Fj在Di的词频;
(2.3.2.3)统计News_base中包含特征Fj的所有文本数目;
(2.3.2.4)计算Fj在Di中的tf-idf分值vj,并加入fvi
(2.4)以News_base中所有新闻文本的tf-idf特征向量集合,及各新闻文本的作用类型effect集合作为训练集,基于统计学习理论训练支持向量机,作为金融时间序列的预测模型Φ;
(3)时序相关新闻主题查询,具体包括以下子步骤:
(3.1)设金融时间序列的最新采样值及采样时刻为(xe,te),以该时刻为终点,以te-L+1时刻为起点,截取长度为L的金融时间序列作为查询时间序列Q,不失一般性,将Q表示为Q={(x1,t1),(x2,t2),...,(xL,tL)};
(3.2)词汇相关性度量,具体包括以下子步骤:
(3.2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为ti的文本集合Ci,构造Q的相关文本集合C={C1,C2,...,Ci,...,Cn};
(3.2.2)对每个文本子集Ci统计词频分布,为C的各词汇元素termj构造词频时间序列TF_Sequej,包括以下子步骤:
(3.2.2.1)分别计算Ci中各词汇termj在时间戳ti的词频TFij
(3.2.2.2)将词汇termj在所有时间戳的词频依次连接,为其构造词频时间序列TF_Sequej={(TF1j,t1),(TF2j,t2),...,(TFnj,tn)};
(3.2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_Sequej与查询时间序列Q的相似度,作为相应词汇termj与Q的相关度term_corrj,并构造词汇相关度表table,包括以下子步骤:
(3.2.3.1)构建词汇相关度表对查询时间序列Q做z-规范化处理,得到Q'={(x'1,t1),(x'2,t2),...,(x'i,ti),...,(x'n,tn)};
(3.2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Sequej,并作z-规范化处理,得到TF_Seque'j={(TF'1j,t1),(TF'2j,t2),...,(TF'nj,tn)};
(3.2.3.3)创建动态规划表Tab并初始化;
(3.2.3.4)依次计算Q'的第1个元素与TF_Seque'j的n个元素之间的差的绝对值,并存入Tab第1行;
(3.2.3.5)依次计算TF_Seque'j的第1个元素与Q'的n个元素之间的差的绝对值,并存入Tab第1列;
(3.2.3.6)利用动态规划方法,依次扫描Q'的第2到第n个元素和TF_Seque'j的第2到第n个元素,计算Tab(2:n,2:n)的每个单元值,包括以下子步骤;
(3.2.3.6.1)顺序扫描Q',依次计算其第i个元素与TF_Seque'j的各元素之差的绝对值;
(3.2.3.6.2)根据先行后列的顺序扫描Tab(2:n,2:n),在每个单元Tab(i,l)中,首先比较Tab(i-1,l)、Tab(i,l-1)和Tab(i-1,l-1)的大小,选择最小值记为min,然后计算|x'i-TF'lj|+min的值赋予Table(i,l);
(3.2.3.7)对Tab(n,n)的值取倒数,作为termj的词汇相关度,加入词汇相关度表table。
(3.3)文本主题相关性度量,具体包括以下子步骤:
(3.3.1)依次读取文本集合C的每个新闻文本Di,计算其主题信息与查询时间序列Q的相关度topic_corri,包括以下子步骤:
(3.3.1.1)查询词汇相关度表table,获取Di中各词汇termj与Q的相关度term_corrj
(3.3.1.2)根据词汇相关度,对Di的所有词汇按照由大到小的顺序排列,保留前θ个词汇作为主题词汇集S;
(3.3.1.3)计算S中所有词汇相关度的平均值,作为文本Di的主题信息与查询时间序列Q的相关度topic_corr;
(3.3.2)根据文本主题相关度topic_corr,对C的所有新闻文本按照由大到小的顺序排列,保留前k个文本作为查询结果Result;
(4)金融时间序列预测,具体包括以下子步骤:
(4.1)构建预测集合
(4.2)依次读取Result的每个新闻文本Di
(4.3)根据步骤(2.3)的特征表示方法,将Di表示为tf-idf特征向量fvi
(4.4)将fvi输入预测模型Φ,输出Di的作用类型effecti,加入Predict;
(4.5)分别统计Predict中各种effect的数目,选择较多的作用类型作为最终预测结果。
本发明的有益效果是:
1、在预测模型构建阶段,采用BNS统计检验方法选择特征,可有效利用金融交易市场对实时新闻的反馈信息,保证了新闻数据特征具有较强的表达能力和预测能力。
2、采用支持向量机作为基本预测模型,保证了二分类预测过程具有较高的准确度。
3、通过查询与金融时间序列波动相关的新闻主题作为预测模型的输入数据,可滤除大量无关的新闻信息,保证了预测信息的针对性和表达性,提高了预测结果的准确度。
附图说明
图1为基于新闻主题信息检索的金融时间序列预测方法流程图;
图2为数据预处理流程图;
图3为构建预测模型流程图;
图4为查询时序相关新闻主题流程图;
图5为基于动态时间弯曲距离计算词汇相关度流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明基于新闻主题信息检索的金融时间序列预测方法,包括以下步骤:
(1)数据预处理,如图2所示,具体包括以下子步骤:
(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;
(1.2)依次读取新闻数据库News_base的每个新闻文本Di
(1.3)若Di是中文新闻,基于集成Paoding中文分词库的Lucene全文检索开源框架,对Di解析并分词;若Di是英文新闻,直接对其解析并分词;
(1.4)除去Di中所有停用词,并以Di的发布时间作为时间戳t对其标记;
(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x1,t1),(x2,t2),...,(xi,ti),...,(xn,tn)};
(1.6)比较x1与xn的大小,若x1<xn,则将Di对T的作用类型effect标记为0,并将Di加入Rise_set;若x1>xn,则将Di对T的作用类型effect标记为1,并将Di加入Drop_set;
(1.7)以时间戳t作为索引项,对文本数据库构建B+-树索引I;
(2)预测模型构建,如图3所示,具体包括以下子步骤:
(2.1)从新闻数据库News_base提取2-词汇组合特征F,构建特征集合FS={F1,F2,...,Fi,...,FN},并构建特征矩阵RFM与DFM,分别存储特征Fi在Rise_set与Drop_set的出现次数,具体为:
(2.1.1)提取News_base中出现的所有不同词汇term,构建词汇集合Term={term1,...,termi,...,termj,...,termn},以各种2-词汇组合Fi=<termi,termj>为元素构建特征集合FS={F1,F2,...,Fi,...,FN};
(2.1.2)构建上涨特征矩阵RFM=cell(n,n)与下跌特征矩阵DFM=cell(n,n),并初始化矩阵元素为0;
(2.1.3)分别统计2-词汇组合特征Fi=<termi,termj>在Rise_set与Drop_set中的出现次数Oi和O'i,并分别记入RFM与DFM的对应单元cell(i,j);在统计过程中,需要保证termi与termj在新闻文本D中的位置间距小于5;
(2.2)基于二元正态分离(BNS)统计方法,从特征集合FS中选择具有显著预测性能的2-词汇组合特征,并构建特征向量FV=[F1,F2,...,Fm],具体为:
(2.2.1)分别从RFM与DFM中读取2-词汇组合特征Fi的出现次数Oi和O'i,基于BNS统计方法,根据公式(1)为Fi计算预测性能分值score;其中,F-1(·)是标准正态分布函数的逆累积函数,numrise和numdrop分别是上涨文本集合Rise_set与下跌文本集合Drop_set的元素数目;
score = F - 1 ( Q i num rise ) - F - 1 ( O &prime; i num drop ) - - - ( 1 )
(2.2.2)基于BNS分布的假设检验方法,计算p-值为5%的边界阈值ε,选择所有score>ε(即落在置信度为95%的置信区间内)的2-词汇组合特征Fi,构建特征向量FV=[F1,F2,...,Fi,...,Fm];
(2.3)基于tf-idf表示方法,以FV的特征元素作为基本维度,为各新闻文本计算特征向量的tf-idf表示,具体为:
(2.3.1)依次读取News_base的每个新闻文本Di
(2.3.2)基于Lucene全文检索开源框架,依次计算FV的每个元素Fj在Di中的tf-idf分值vj,为Di构造特征向量fvi=[v1,v2,...,vj,...,vm],包括以下子步骤:
(2.3.2.1)构建特征向量
(2.3.2.2)统计Fj在Di的词频tf(Fj,Di);
(2.3.2.3)统计News_base中包含特征Fj的所有文本数目num(Fj);
(2.3.2.4)根据公式(2),计算Fj在Di中的tf-idf分值vj,并加入fvi;其中,H表示News_base中的所有文本数目;
v j = tf ( F j , D i ) &CenterDot; log H 1 + num ( F j ) - - - ( 2 )
(2.4)以News_base中所有新闻文本的tf-idf特征向量集合{fv1,fv2,...,fvH},及各新闻文本的作用类型集合{effect1,effect2,...,effectH}作为训练集,基于统计学习理论训练支持向量机,作为金融时间序列的预测模型Φ;
(3)时序相关新闻主题查询,如图4所示,具体包括以下子步骤:
(3.1)设金融时间序列的最新采样值及采样时刻为(xe,te),以该时刻为终点,以te-L+1时刻为起点,截取长度为L的金融时间序列作为查询时间序列Q,即Q={(xe-L+1,te-L+1),(xe-L+2,te-L+2),...,(xe,te)},不失一般性,将Q表示为Q={(x1,t1),(x2,t2),...,(xL,tL)};
(3.2)词汇相关性度量,具体包括以下子步骤:
(3.2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为ti的文本集合Ci,构造Q的相关文本集合C={C1,C2,...,Ci,...,Cn};
(3.2.2)对每个文本子集Ci统计词频分布,为C中各词汇构造词频时间序列TF_Seque,具体为:
(3.2.2.1)分别计算Ci中各词汇termj的出现次数,并作为termj在时间戳ti的词频TFij,表示为(TFij,ti);
(3.2.2.2)将词汇termj在所有时间戳的词频(TFij,ti)依次连接,为termj构造词频时间序列TF_Sequej={(TF1j,t1),(TF2j,t2),...,(TFnj,tn)};
(3.2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_Sequej与查询时间序列Q的相似度,作为相应词汇termj与Q的相关度term_corrj,如图5所示,并构造词汇相关度表table={(term1,term_corr1);(term2,term_corr2);...;(termτ,term_corrτ)},具体为:
(3.2.3.1)创建词汇相关度表计算时间序列Q所有采样点的平均值m和标准差σ,根据公式(3)对Q做z-规范化处理,得到规范化的时间序列Q'={(x'1,t1),(x'2,t2),...,(x'i,ti),...,(x'n,tn)};
x &prime; i = x i - m &sigma; - - - ( 3 )
(3.2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Sequej,并根据公式(1)作z-规范化处理,得到规范化的词频时间序列TF_Seque'j={(TF'1j,t1),(TF'2j,t2),...,(TF'nj,tn)};
(3.2.3.3)创建动态规划表Tab=cell(n,n);
(3.2.3.4)依次计算Q'的第1个元素x'1与TF_Seque'j的n个元素TF'1j~TF'nj之间的差的绝对值{|x'1-TF'1j|,...,|x'1-TF'nj|},并存入Tab第1行Tab(1,1:n);
(3.2.3.5)依次计算TF_Seque'j的第1个元素TF'1j与Q'的n个元素x'1~x'n之间的差的绝对值{|x'1-TF'1j|,...,|x'n-TF'1j|},并存入Tab第1列Table(1:n,1);
(3.2.3.6)利用动态规划方法,依次扫描Q'的第2到第n个元素x'2~x'n和TF_Seque'j的第2到第n个元素TF'2j~TF'nj,计算Tab(2:n,2:n)的每个单元值,该过程包括以下子步骤:
(3.2.3.6.1)顺序扫描x'2~x'n,对于Q'的第i个元素x'i,依次计算它与TF'2j~TF'nj之间的差的绝对值{|x'i-TF'2j|,...,|x'i-TF'nj|};
(3.2.3.6.2)根据先行后列的顺序扫描Tab(2:n,2:n),在每个单元Tab(i,l)中,首先比较Tab(i-1,l)、Tab(i,l-1)和Tab(i-1,l-1)的大小,选择最小值记为min,然后计算|x'i-TF'lj|+min的值赋予Table(i,l);
(3.2.3.7)对Tab(n,n)的值取倒数,作为termj与Q的相关度term_corrj,将(termj,term_corrj加入词汇相关度表table;
(3.3)文本主题相关性度量,具体包括以下子步骤:
(3.3.1)依次读取文本集合C的每个新闻文本Di,计算其主题信息与查询时间序列Q的相关度topic_corri,具体为:
(3.3.1.1)查询词汇相关度表table,获取Di中各词汇termj与Q的相关度term_corrj
(3.3.1.2)根据词汇相关度,对Di的所有词汇按照由大到小的顺序排列,保留前θ个词汇作为主题词汇集S={term1,term2,...,termθ};
(3.3.1.3)根据公式(4)计算S中所有词汇相关度的平均值,作为文本Di的主题信息与查询时间序列Q的相关度topic_corr;
topic _ corr = 1 &theta; &Sigma; i = 1 &theta; term _ corr i - - - ( 4 )
(3.3.2)根据文本主题相关度topic_corr,对C的所有新闻文本按照由大到小的顺序排列,保留前k个文本作为查询结果Result;
(4)金融时间序列预测,具体包括以下子步骤:
(4.1)构建预测集合
(4.2)依次读取Result的每个新闻文本Di
(4.3)根据步骤(2.3)的特征表示方法,将Di表示为tf-idf特征向量fvi
(4.4)将fvi输入预测模型Φ,输出Di的作用类型effecti,加入Predict;
(4.5)分别统计Predict中0和1的数目,选择数目较多的作用类型作为最终预测结果。
本发明针对金融时间序列的预测问题,提出了基于新闻主题信息检索的金融时间序列预测方法,可有效提取新闻数据特征,用于金融时间序列的分析和预测,为投资者提供了有力的投资指导和决策支持。

Claims (7)

1.一种基于新闻主题信息检索的金融时间序列预测方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set;
(1.2)依次读取新闻数据库News_base的每个新闻文本Di
(1.3)对Di解析并分词;
(1.4)除去Di中所有停用词,并以Di的发布时间作为时间戳t对其标记;
(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T={(x1,t1),(x2,t2),...,(xi,ti),...,(xn,tn)};
(1.6)比较x1与xn的大小,标记Di对T的作用类型effect,并根据effect选择将Di加入Rise_set或Drop_set;
(1.7)以时间戳t作为索引项,对文本数据库构建B+-树索引I;
(2)预测模型构建,具体包括以下子步骤:
(2.1)从新闻数据库News_base中提取2-词汇组合特征F,构建特征集合FS={F1,F2,...,Fi,...,FN},并构建特征矩阵RFM与DFM,分别存储特征Fi在Rise_set与Drop_set的出现次数;
(2.2)基于二元正态分离(BNS)统计方法,从特征集合FS中选择具有显著预测性能的2-词汇组合特征,并构建特征向量FV=[F1,F2,...,Fm];
(2.3)基于tf-idf表示方法,以FV的特征元素作为基本维度,为各新闻文本计算特征向量的tf-idf表示;
(2.4)以News_base中所有新闻文本的tf-idf特征向量集合,及各新闻文本的作用类型effect集合作为训练集,基于统计学习理论训练支持向量机,作为金融时间序列的预测模型Φ;
(3)时序相关新闻主题查询,具体包括以下子步骤:
(3.1)设金融时间序列的最新采样值及采样时刻为(xe,te),以该时刻为终点,以te-L+1时刻为起点,截取长度为L的金融时间序列作为查询时间序列Q,不失一般性,将Q表示为Q={(x1,t1),(x2,t2),...,(xL,tL)};
(3.2)词汇相关性度量,具体包括以下子步骤:
(3.2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为ti的文本集合Ci,构造Q的相关文本集合C={C1,C2,...,Ci,...,Cn};
(3.2.2)对每个文本子集Ci统计词频分布,为C的各词汇元素termj构造词频时间序列TF_Sequej
(3.2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_Sequej与查询时间序列Q的相似度,作为相应词汇termj与Q的相关度term_corrj,并构造词汇相关度表table;
(3.3)文本主题相关性度量,具体包括以下子步骤:
(3.3.1)依次读取文本集合C的每个新闻文本Di,计算其主题信息与查询时间序列Q的相关度topic_corri
(3.3.2)根据文本主题相关度topic_corr,对C的所有新闻文本按照由大到小的顺序排列,保留前k个文本作为查询结果Result;
(4)金融时间序列预测,具体包括以下子步骤:
(4.1)构建预测集合
(4.2)依次读取Result的每个新闻文本Di
(4.3)根据步骤(2.3)的特征表示方法,将Di表示为tf-idf特征向量fvi
(4.4)将fvi输入预测模型Φ,输出Di的作用类型effecti,加入Predict;
(4.5)分别统计Predict中各种effect的数目,选择较多的作用类型作为最终预测结果。
2.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤2.1包括以下子步骤:
(2.1.1)提取News_base中出现的所有不同词汇term,构建词汇集合Term={term1,...,termi,...,termj,...,termn},以各种2-词汇组合Fi=<termi,termj>为元素构建特征集合FS={F1,F2,...,Fi,...,FN};
(2.1.2)构建上涨特征矩阵RFM与下跌特征矩阵DFM,并初始化;
(2.1.3)分别统计2-词汇组合特征Fi在Rise_set与Drop_set中的出现次数,并分别记入RFM与DFM的对应单元。
3.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤2.2包括以下子步骤:
(2.2.1)基于BNS统计方法,为Fi计算预测性能分值score;
(2.2.2)基于BNS分布的假设检验方法计算p-值,筛选2-词汇组合特征Fi,构建特征向量FV。
4.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤2.3包括以下子步骤:
(2.3.1)依次读取News_base的每个新闻文本Di
(2.3.2)基于Lucene全文检索开源框架,依次计算FV的每个元素Fj在Di中的tf-idf分值,为Di构造特征向量的tf-idf表示,包括以下子步骤:
(2.3.2.1)构建特征向量
(2.3.2.2)统计Fj在Di的词频;
(2.3.2.3)统计News_base中包含特征Fj的所有文本数目;
(2.3.2.4)计算Fj在Di中的tf-idf分值vj,并加入fvi
5.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤3.2.2包括以下子步骤:
(3.2.2.1)分别计算Ci中各词汇termj在时间戳ti的词频TFij
(3.2.2.2)将词汇termj在所有时间戳的词频依次连接,为其构造词频时间序列TF_Sequej={(TF1j,t1),(TF2j,t2),...,(TFnj,tn)}。
6.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤3.2.3包括以下子步骤:
(3.2.3.1)构建词汇相关度表对查询时间序列Q做z-规范化处理,得到Q'={(x'1,t1),(x'2,t2),...,(x'i,ti),...,(x'n,tn)};
(3.2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Sequej,并作z-规范化处理,得到TF_Seque'j={(TF'1j,t1),(TF'2j,t2),...,(TF'nj,tn)};
(3.2.3.3)创建动态规划表Tab并初始化;
(3.2.3.4)依次计算Q'的第1个元素与TF_Seque'j的n个元素之间的差的绝对值,并存入Tab第1行;
(3.2.3.5)依次计算TF_Seque'j的第1个元素与Q'的n个元素之间的差的绝对值,并存入Tab第1列;
(3.2.3.6)利用动态规划方法,依次扫描Q'的第2到第n个元素和TF_Seque'j的第2到第n个元素,计算Tab(2:n,2:n)的每个单元值,包括以下子步骤;
(3.2.3.6.1)顺序扫描Q',依次计算其第i个元素与TF_Seque'j的各元素之差的绝对值;
(3.2.3.6.2)根据先行后列的顺序扫描Tab(2:n,2:n),在每个单元Tab(i,l)中,首先比较Tab(i-1,l)、Tab(i,l-1)和Tab(i-1,l-1)的大小,选择最小值记为min,然后计算|x'i-TF'lj|+min的值赋予Table(i,l);
(3.2.3.7)对Tab(n,n)的值取倒数,作为termj的词汇相关度,加入词汇相关度表table。
7.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法,其特征在于,所述步骤3.3.1包括以下子步骤:
(3.3.1.1)查询词汇相关度表table,获取Di中各词汇termj与Q的相关度term_corrj
(3.3.1.2)根据词汇相关度,对Di的所有词汇按照由大到小的顺序排列,保留前θ个词汇作为主题词汇集S;
(3.3.1.3)计算S中所有词汇相关度的平均值,作为文本Di的主题信息与查询时间序列Q的相关度topic_corr。
CN201510008836.0A 2015-01-08 2015-01-08 基于新闻主题信息检索的金融时间序列预测方法 Expired - Fee Related CN104573003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510008836.0A CN104573003B (zh) 2015-01-08 2015-01-08 基于新闻主题信息检索的金融时间序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510008836.0A CN104573003B (zh) 2015-01-08 2015-01-08 基于新闻主题信息检索的金融时间序列预测方法

Publications (2)

Publication Number Publication Date
CN104573003A true CN104573003A (zh) 2015-04-29
CN104573003B CN104573003B (zh) 2017-11-10

Family

ID=53089065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510008836.0A Expired - Fee Related CN104573003B (zh) 2015-01-08 2015-01-08 基于新闻主题信息检索的金融时间序列预测方法

Country Status (1)

Country Link
CN (1) CN104573003B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573984A (zh) * 2015-12-18 2016-05-11 小米科技有限责任公司 社会经济指标的识别方法及装置
CN109598380A (zh) * 2018-12-03 2019-04-09 郑州云海信息技术有限公司 一种多元实时时序数据预测的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5877753A (en) * 1994-10-17 1999-03-02 Sharp Kabushiki Kaisha Electronic apparatus having a schedule management function
JP2002092017A (ja) * 2000-09-13 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
CN103258034A (zh) * 2013-05-14 2013-08-21 江苏名通信息科技有限公司 一种基于社交媒体的经济金融行为分析系统模型
CN104182460A (zh) * 2014-07-18 2014-12-03 浙江大学 基于倒排索引的时间序列相似性查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5877753A (en) * 1994-10-17 1999-03-02 Sharp Kabushiki Kaisha Electronic apparatus having a schedule management function
JP2002092017A (ja) * 2000-09-13 2002-03-29 Nippon Telegr & Teleph Corp <Ntt> 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
CN103258034A (zh) * 2013-05-14 2013-08-21 江苏名通信息科技有限公司 一种基于社交媒体的经济金融行为分析系统模型
CN104182460A (zh) * 2014-07-18 2014-12-03 浙江大学 基于倒排索引的时间序列相似性查询方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573984A (zh) * 2015-12-18 2016-05-11 小米科技有限责任公司 社会经济指标的识别方法及装置
CN105573984B (zh) * 2015-12-18 2019-01-04 小米科技有限责任公司 社会经济指标的识别方法及装置
CN109598380A (zh) * 2018-12-03 2019-04-09 郑州云海信息技术有限公司 一种多元实时时序数据预测的方法和系统

Also Published As

Publication number Publication date
CN104573003B (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
Jain et al. Application of machine learning techniques to sentiment analysis
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
Al Qadi et al. Arabic text classification of news articles using classical supervised classifiers
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN107977362B (zh) 一种用于中文文本定级以及计算中文文本难度评分的方法
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN104392006B (zh) 一种事件查询处理方法及装置
CN108304502B (zh) 基于海量新闻数据的快速热点检测方法及系统
CN109145260A (zh) 一种文本信息自动提取方法
CN104899230A (zh) 舆情热点自动监测系统
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
Çakir et al. Text mining analysis in Turkish language using big data tools
Monisha et al. Classification of bengali questions towards a factoid question answering system
Hussain et al. Design and analysis of news category predictor
Mukherjee et al. Analyzing large news corpus using text mining techniques for recognizing high crime prone areas
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
CN104573003A (zh) 基于新闻主题信息检索的金融时间序列预测方法
Medagoda et al. Keywords based temporal sentiment analysis
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法
Sudha Semi supervised multi text classifications for telugu documents
Agrawal et al. Cyberbullying detection and hate speech identification using machine learning techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171110

Termination date: 20200108