CN104573003A

CN104573003A - 基于新闻主题信息检索的金融时间序列预测方法

Info

Publication number: CN104573003A
Application number: CN201510008836.0A
Authority: CN
Inventors: 蔡青林; 陈岭; 孙建伶; 陈蕾英
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-01-08
Filing date: 2015-01-08
Publication date: 2015-04-29
Anticipated expiration: 2035-01-08
Also published as: CN104573003B

Abstract

本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征，并以新闻数据对金融时间序列的实时影响作为标记，训练支持向量机分类器作为预测模型；通过构建词频时间序列，有效度量词汇特征与时间序列的相关度，继而实现新闻主题与时间序列的相关度计算，由此查询与金融时间序列相关的新闻主题；通过对查询出的新闻数据提取词汇组合特征并输入预测模型，得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响，帮助人们理解和把握两类数据之间的信息传递；在金融交易市场中，为投资者做舆情分析和投资决策提供了准确的指导。

Description

基于新闻主题信息检索的金融时间序列预测方法

技术领域

本发明涉及数据库、数据挖掘、信息检索等领域，尤其涉及时间序列数据、文本数据的分析和挖掘。

背景技术

在机器学习与数据挖掘领域，基于新闻数据预测金融时间序列的波动趋势，实质是对新闻文本基于内容的自动分类问题。针对该问题，现有的预测方法大多包含两个重要环节：特征提取与模型训练，即通过提取文本特征采集信息，用于机器学习方法训练分类器，作为金融时间序列的预测模型。

用于文本分类的机器学习技术比较成熟，如人工神经网络、支持向量机、朴素贝叶斯分类器、kNN分类器等，现有的基于新闻数据的金融预测模型大多基于这些分类器构建。人工神经网络是由大量处理单元互联组成的非线性模型，通过调整内部节点的互联关系，分析掌握输入输出数据之间的潜在规律，实现为新数据推算结果。该方法具有较强的自学习和自适应能力，但缺少对推理过程的解释能力。支持向量机是在高维空间中寻找一个最优超平面，在保证分类精度的前提下，使超平面两侧的空白间距最大化。理论上支持向量机可对线性可分数据做最优划分，但是却只能处理二分类问题。朴素贝叶斯分类器是基于贝叶斯公式，利用对象的先验概率计算其所属类别的后验概率而实现分类。虽然该方法的理论简单，操作性较强，但是要保证较高的准确度，需要采用大规模训练集训练模型。kNN分类器是一种基于距离度量的方法，它通过在训练集中查找对象的k个距离最小的近邻，并选择其中较多的类别作为结果实现分类。虽然该方法具有很好的可解释性和易操作性，但是面对大规模训练集，分类过程具有很高的时间开销。尽管众多分类器的工作原理各不相同，但是通过对众多预测模型的广泛比较发现，预测模型的准确度并不依赖于其采用的分类器方法，而是由文本表示方法与特征提取方法决定的。

现有的基于新闻数据的金融预测方法大多采用简单的文本表示。其中，最常用的方法是词袋模型，该方法将文本看作无序的词汇集合，采用单词汇特征表示文本。很明显，这种简单的特征表示缺乏表达能力，无法捕捉文本数据的基本语义信息。为了改进这一缺陷，有的预测模型采用表达能力较强的组合词汇特征表示文本，并基于文本语料库的词频统计(如TF-IDF打分)或更简单的最小出现次数提取特征。很明显，这些特征提取方法只注重特征词汇在文本语料库内部的表达能力，而忽略了特征词汇与金融时间序列的相关性，因此，所提取的许多特征都缺乏对金融时间序列的预测性能。另外，在预测阶段，现有的预测方法所提取的特征来自于文本语料库的全部新闻数据，包括预测时间段内与金融时间序列波动无关的新闻，这使得用于预测的数据信息缺乏针对性，很容易混入大量噪声影响预测结果的准确性。

发明内容

本发明要解决的问题是如何基于大量的实时新闻数据，实现对金融时间序列波动趋势的预测。为了解决该问题，本发明提出了基于新闻主题信息检索的金融时间序列预测方法。

本发明的目的是通过以下技术方案实现的：基于新闻主题信息检索的金融时间序列预测方法，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set；

(1.2)依次读取新闻数据库News_base的每个新闻文本D_i；

(1.3)对D_i解析并分词；

(1.4)除去D_i中所有停用词，并以D_i的发布时间作为时间戳t对其标记；

(1.5)从时间序列数据库Series_base中读取时间戳t所在日期的金融时间序列T＝{(x₁,t₁),(x₂,t₂),...,(x_i,t_i),...,(x_n,t_n)}；

(1.6)比较x₁与x_n的大小，标记D_i对T的作用类型effect，并根据effect选择将D_i加入Rise_set或Drop_set；

(1.7)以时间戳t作为索引项，对文本数据库构建B⁺-树索引I；

(2)预测模型构建，具体包括以下子步骤：

(2.1)从新闻数据库News_base中提取2-词汇组合特征F，构建特征集合FS＝{F₁,F₂,...,F_i,...,F_N}，并构建特征矩阵RFM与DFM，分别存储特征F_i在Rise_set与Drop_set的出现次数，包括以下子步骤：

(2.1.1)提取News_base中出现的所有不同词汇term，构建词汇集合Term＝{term₁,...,term_i,...,term_j,...,term_n}，以各种2-词汇组合F_i＝<term_i,term_j>为元素构建特征集合FS＝{F₁,F₂,...,F_i,...,F_N}；

(2.1.2)构建上涨特征矩阵RFM与下跌特征矩阵DFM，并初始化；

(2.1.3)分别统计2-词汇组合特征F_i在Rise_set与Drop_set的出现次数，并分别记入RFM与DFM的对应单元；

(2.2)基于二元正态分离(BNS)统计方法，从特征集合FS中选择具有显著预测性能的2-词汇组合特征，并构建特征向量FV＝[F₁,F₂,...,F_m]，包括以下子步骤：

(2.2.1)基于BNS统计方法，为F_i计算预测性能分值score；

(2.2.2)基于BNS分布的假设检验方法计算p-值，筛选2-词汇组合特征F_i，构建特征向量FV；

(2.3)基于tf-idf表示方法，以FV的特征元素作为基本维度，为各新闻文本计算特征向量的tf-idf表示，包括以下子步骤：

(2.3.1)依次读取News_base的每个新闻文本D_i；

(2.3.2)基于Lucene全文检索开源框架，依次计算FV的每个元素F_j在D_i中的tf-idf分值，为D_i构造特征向量的tf-idf表示，包括以下子步骤：

(2.3.2.1)构建特征向量

(2.3.2.2)统计F_j在D_i的词频；

(2.3.2.3)统计News_base中包含特征F_j的所有文本数目；

(2.3.2.4)计算F_j在D_i中的tf-idf分值v_j，并加入fv_i；

(2.4)以News_base中所有新闻文本的tf-idf特征向量集合，及各新闻文本的作用类型effect集合作为训练集，基于统计学习理论训练支持向量机，作为金融时间序列的预测模型Φ；

(3)时序相关新闻主题查询，具体包括以下子步骤：

(3.1)设金融时间序列的最新采样值及采样时刻为(x_e,t_e)，以该时刻为终点，以t_e-L+1时刻为起点，截取长度为L的金融时间序列作为查询时间序列Q，不失一般性，将Q表示为Q＝{(x₁,t₁),(x₂,t₂),...,(x_L,t_L)}；

(3.2)词汇相关性度量，具体包括以下子步骤：

(3.2.1)按照查询时间序列Q的时间戳顺序，依次从索引I中查询时间戳为t_i的文本集合C_i，构造Q的相关文本集合C＝{C₁,C₂,...,C_i,...,C_n}；

(3.2.2)对每个文本子集C_i统计词频分布，为C的各词汇元素term_j构造词频时间序列TF_Seque_j，包括以下子步骤：

(3.2.2.1)分别计算C_i中各词汇term_j在时间戳t_i的词频TF_ij；

(3.2.2.2)将词汇term_j在所有时间戳的词频依次连接，为其构造词频时间序列TF_Seque_j＝{(TF_1j,t₁),(TF_2j,t₂),...,(TF_nj,t_n)}；

(3.2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque_j与查询时间序列Q的相似度，作为相应词汇term_j与Q的相关度term_corr_j，并构造词汇相关度表table，包括以下子步骤：

(3.2.3.1)构建词汇相关度表对查询时间序列Q做z-规范化处理，得到Q'＝{(x'₁,t₁),(x'₂,t₂),...,(x'_i,t_i),...,(x'_n,t_n)}；

(3.2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Seque_j，并作z-规范化处理，得到TF_Seque'_j＝{(TF'_1j,t₁),(TF'_2j,t₂),...,(TF'_nj,t_n)}；

(3.2.3.3)创建动态规划表Tab并初始化；

(3.2.3.4)依次计算Q'的第1个元素与TF_Seque'_j的n个元素之间的差的绝对值，并存入Tab第1行；

(3.2.3.5)依次计算TF_Seque'_j的第1个元素与Q'的n个元素之间的差的绝对值，并存入Tab第1列；

(3.2.3.6)利用动态规划方法，依次扫描Q'的第2到第n个元素和TF_Seque'_j的第2到第n个元素，计算Tab(2:n,2:n)的每个单元值，包括以下子步骤；

(3.2.3.6.1)顺序扫描Q'，依次计算其第i个元素与TF_Seque'_j的各元素之差的绝对值；

(3.2.3.6.2)根据先行后列的顺序扫描Tab(2:n,2:n)，在每个单元Tab(i,l)中，首先比较Tab(i-1,l)、Tab(i,l-1)和Tab(i-1,l-1)的大小，选择最小值记为min，然后计算|x'_i-TF'_lj|+min的值赋予Table(i,l)；

(3.2.3.7)对Tab(n,n)的值取倒数，作为term_j的词汇相关度，加入词汇相关度表table。

(3.3)文本主题相关性度量，具体包括以下子步骤：

(3.3.1)依次读取文本集合C的每个新闻文本D_i，计算其主题信息与查询时间序列Q的相关度topic_corr_i，包括以下子步骤：

(3.3.1.1)查询词汇相关度表table，获取D_i中各词汇term_j与Q的相关度term_corr_j；

(3.3.1.2)根据词汇相关度，对D_i的所有词汇按照由大到小的顺序排列，保留前θ个词汇作为主题词汇集S；

(3.3.1.3)计算S中所有词汇相关度的平均值，作为文本D_i的主题信息与查询时间序列Q的相关度topic_corr；

(3.3.2)根据文本主题相关度topic_corr，对C的所有新闻文本按照由大到小的顺序排列，保留前k个文本作为查询结果Result；

(4)金融时间序列预测，具体包括以下子步骤：

(4.1)构建预测集合

(4.2)依次读取Result的每个新闻文本D_i；

(4.3)根据步骤(2.3)的特征表示方法，将D_i表示为tf-idf特征向量fv_i；

(4.4)将fv_i输入预测模型Φ，输出D_i的作用类型effect_i，加入Predict；

(4.5)分别统计Predict中各种effect的数目，选择较多的作用类型作为最终预测结果。

本发明的有益效果是：

1、在预测模型构建阶段，采用BNS统计检验方法选择特征，可有效利用金融交易市场对实时新闻的反馈信息，保证了新闻数据特征具有较强的表达能力和预测能力。

2、采用支持向量机作为基本预测模型，保证了二分类预测过程具有较高的准确度。

3、通过查询与金融时间序列波动相关的新闻主题作为预测模型的输入数据，可滤除大量无关的新闻信息，保证了预测信息的针对性和表达性，提高了预测结果的准确度。

附图说明

图1为基于新闻主题信息检索的金融时间序列预测方法流程图；

图2为数据预处理流程图；

图3为构建预测模型流程图；

图4为查询时序相关新闻主题流程图；

图5为基于动态时间弯曲距离计算词汇相关度流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明基于新闻主题信息检索的金融时间序列预测方法，包括以下步骤：

(1)数据预处理，如图2所示，具体包括以下子步骤：

(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set；

(1.2)依次读取新闻数据库News_base的每个新闻文本D_i；

(1.3)若D_i是中文新闻，基于集成Paoding中文分词库的Lucene全文检索开源框架，对D_i解析并分词；若D_i是英文新闻，直接对其解析并分词；

(1.6)比较x₁与x_n的大小，若x₁<x_n，则将D_i对T的作用类型effect标记为0，并将D_i加入Rise_set；若x₁>x_n，则将D_i对T的作用类型effect标记为1，并将D_i加入Drop_set；

(1.7)以时间戳t作为索引项，对文本数据库构建B⁺-树索引I；

(2)预测模型构建，如图3所示，具体包括以下子步骤：

(2.1)从新闻数据库News_base提取2-词汇组合特征F，构建特征集合FS＝{F₁,F₂,...,F_i,...,F_N}，并构建特征矩阵RFM与DFM，分别存储特征F_i在Rise_set与Drop_set的出现次数，具体为：

(2.1.2)构建上涨特征矩阵RFM＝cell(n,n)与下跌特征矩阵DFM＝cell(n,n)，并初始化矩阵元素为0；

(2.1.3)分别统计2-词汇组合特征F_i＝<term_i,term_j>在Rise_set与Drop_set中的出现次数O_i和O'_i，并分别记入RFM与DFM的对应单元cell(i,j)；在统计过程中，需要保证term_i与term_j在新闻文本D中的位置间距小于5；

(2.2)基于二元正态分离(BNS)统计方法，从特征集合FS中选择具有显著预测性能的2-词汇组合特征，并构建特征向量FV＝[F₁,F₂,...,F_m]，具体为：

(2.2.1)分别从RFM与DFM中读取2-词汇组合特征F_i的出现次数O_i和O'_i，基于BNS统计方法，根据公式(1)为F_i计算预测性能分值score；其中，F^-1(·)是标准正态分布函数的逆累积函数，num_rise和num_drop分别是上涨文本集合Rise_set与下跌文本集合Drop_set的元素数目；

score = F^{- 1} (\frac{Q_{i}}{{num}_{rise}}) - F^{- 1} (\frac{{O^{'}}_{i}}{{num}_{drop}}) - - - (1)

(2.2.2)基于BNS分布的假设检验方法，计算p-值为5％的边界阈值ε，选择所有score>ε(即落在置信度为95％的置信区间内)的2-词汇组合特征F_i，构建特征向量FV＝[F₁,F₂,...,F_i,...,F_m]；

(2.3)基于tf-idf表示方法，以FV的特征元素作为基本维度，为各新闻文本计算特征向量的tf-idf表示，具体为：

(2.3.1)依次读取News_base的每个新闻文本D_i；

(2.3.2)基于Lucene全文检索开源框架，依次计算FV的每个元素F_j在D_i中的tf-idf分值v_j，为D_i构造特征向量fv_i＝[v₁,v₂,...,v_j,...,v_m]，包括以下子步骤：

(2.3.2.1)构建特征向量

(2.3.2.2)统计F_j在D_i的词频tf(F_j,D_i)；

(2.3.2.3)统计News_base中包含特征F_j的所有文本数目num(F_j)；

(2.3.2.4)根据公式(2)，计算F_j在D_i中的tf-idf分值v_j，并加入fv_i；其中，H表示News_base中的所有文本数目；

v_{j} = tf (F_{j}, D_{i}) \cdot \log \frac{H}{1 + num (F_{j})} - - - (2)

(2.4)以News_base中所有新闻文本的tf-idf特征向量集合{fv₁,fv₂,...,fv_H}，及各新闻文本的作用类型集合{effect₁,effect₂,...,effect_H}作为训练集，基于统计学习理论训练支持向量机，作为金融时间序列的预测模型Φ；

(3)时序相关新闻主题查询，如图4所示，具体包括以下子步骤：

(3.1)设金融时间序列的最新采样值及采样时刻为(x_e,t_e)，以该时刻为终点，以t_e-L+1时刻为起点，截取长度为L的金融时间序列作为查询时间序列Q，即Q＝{(x_e-L+1,t_e-L+1),(x_e-L+2,t_e-L+2),...,(x_e,t_e)}，不失一般性，将Q表示为Q＝{(x₁,t₁),(x₂,t₂),...,(x_L,t_L)}；

(3.2)词汇相关性度量，具体包括以下子步骤：

(3.2.2)对每个文本子集C_i统计词频分布，为C中各词汇构造词频时间序列TF_Seque，具体为：

(3.2.2.1)分别计算C_i中各词汇term_j的出现次数，并作为term_j在时间戳t_i的词频TF_ij，表示为(TF_ij,t_i)；

(3.2.2.2)将词汇term_j在所有时间戳的词频(TF_ij,t_i)依次连接，为term_j构造词频时间序列TF_Seque_j＝{(TF_1j,t₁),(TF_2j,t₂),...,(TF_nj,t_n)}；

(3.2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque_j与查询时间序列Q的相似度，作为相应词汇term_j与Q的相关度term_corr_j，如图5所示，并构造词汇相关度表table＝{(term₁,term_corr₁)；(term₂,term_corr₂)；...；(term_τ,term_corr_τ)}，具体为：

(3.2.3.1)创建词汇相关度表计算时间序列Q所有采样点的平均值m和标准差σ，根据公式(3)对Q做z-规范化处理，得到规范化的时间序列Q'＝{(x'₁,t₁),(x'₂,t₂),...,(x'_i,t_i),...,(x'_n,t_n)}；

{x^{'}}_{i} = \frac{x_{i} - m}{σ} - - - (3)

(3.2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Seque_j，并根据公式(1)作z-规范化处理，得到规范化的词频时间序列TF_Seque'_j＝{(TF'_1j,t₁),(TF'_2j,t₂),...,(TF'_nj,t_n)}；

(3.2.3.3)创建动态规划表Tab＝cell(n,n)；

(3.2.3.4)依次计算Q'的第1个元素x'₁与TF_Seque'_j的n个元素TF'_1j～TF'_nj之间的差的绝对值{|x'₁-TF'_1j|,...,|x'₁-TF'_nj|}，并存入Tab第1行Tab(1,1:n)；

(3.2.3.5)依次计算TF_Seque'_j的第1个元素TF'_1j与Q'的n个元素x'₁～x'_n之间的差的绝对值{|x'₁-TF'_1j|,...,|x'_n-TF'_1j|}，并存入Tab第1列Table(1:n,1)；

(3.2.3.6)利用动态规划方法，依次扫描Q'的第2到第n个元素x'₂～x'_n和TF_Seque'_j的第2到第n个元素TF'_2j～TF'_nj，计算Tab(2:n,2:n)的每个单元值，该过程包括以下子步骤：

(3.2.3.6.1)顺序扫描x'₂～x'_n，对于Q'的第i个元素x'_i，依次计算它与TF'_2j～TF'_nj之间的差的绝对值{|x'_i-TF'_2j|,...,|x'_i-TF'_nj|}；

(3.2.3.7)对Tab(n,n)的值取倒数，作为term_j与Q的相关度term_corr_j，将(term_j,term_corr_j加入词汇相关度表table；

(3.3)文本主题相关性度量，具体包括以下子步骤：

(3.3.1)依次读取文本集合C的每个新闻文本D_i，计算其主题信息与查询时间序列Q的相关度topic_corr_i，具体为：

(3.3.1.2)根据词汇相关度，对D_i的所有词汇按照由大到小的顺序排列，保留前θ个词汇作为主题词汇集S＝{term₁,term₂,...,term_θ}；

(3.3.1.3)根据公式(4)计算S中所有词汇相关度的平均值，作为文本D_i的主题信息与查询时间序列Q的相关度topic_corr；

topic_corr = \frac{1}{θ} Σ_{i = 1}^{θ} term_{corr}_{i} - - - (4)

(4)金融时间序列预测，具体包括以下子步骤：

(4.1)构建预测集合

(4.2)依次读取Result的每个新闻文本D_i；

(4.5)分别统计Predict中0和1的数目，选择数目较多的作用类型作为最终预测结果。

本发明针对金融时间序列的预测问题，提出了基于新闻主题信息检索的金融时间序列预测方法，可有效提取新闻数据特征，用于金融时间序列的分析和预测，为投资者提供了有力的投资指导和决策支持。

Claims

1.一种基于新闻主题信息检索的金融时间序列预测方法，其特征在于，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)构建上涨文本集合Rise_set与下跌文本集合Drop_set；

(1.2)依次读取新闻数据库News_base的每个新闻文本D_i；

(1.3)对D_i解析并分词；

(1.7)以时间戳t作为索引项，对文本数据库构建B⁺-树索引I；

(2)预测模型构建，具体包括以下子步骤：

(2.1)从新闻数据库News_base中提取2-词汇组合特征F，构建特征集合FS＝{F₁,F₂,...,F_i,...,F_N}，并构建特征矩阵RFM与DFM，分别存储特征F_i在Rise_set与Drop_set的出现次数；

(2.2)基于二元正态分离(BNS)统计方法，从特征集合FS中选择具有显著预测性能的2-词汇组合特征，并构建特征向量FV＝[F₁,F₂,...,F_m]；

(2.3)基于tf-idf表示方法，以FV的特征元素作为基本维度，为各新闻文本计算特征向量的tf-idf表示；

(3)时序相关新闻主题查询，具体包括以下子步骤：

(3.2)词汇相关性度量，具体包括以下子步骤：

(3.2.2)对每个文本子集C_i统计词频分布，为C的各词汇元素term_j构造词频时间序列TF_Seque_j；

(3.2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque_j与查询时间序列Q的相似度，作为相应词汇term_j与Q的相关度term_corr_j，并构造词汇相关度表table；

(3.3)文本主题相关性度量，具体包括以下子步骤：

(3.3.1)依次读取文本集合C的每个新闻文本D_i，计算其主题信息与查询时间序列Q的相关度topic_corr_i；

(4)金融时间序列预测，具体包括以下子步骤：

(4.1)构建预测集合

(4.2)依次读取Result的每个新闻文本D_i；

2.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤2.1包括以下子步骤：

(2.1.2)构建上涨特征矩阵RFM与下跌特征矩阵DFM，并初始化；

(2.1.3)分别统计2-词汇组合特征F_i在Rise_set与Drop_set中的出现次数，并分别记入RFM与DFM的对应单元。

3.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤2.2包括以下子步骤：

(2.2.1)基于BNS统计方法，为F_i计算预测性能分值score；

(2.2.2)基于BNS分布的假设检验方法计算p-值，筛选2-词汇组合特征F_i，构建特征向量FV。

4.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤2.3包括以下子步骤：

(2.3.1)依次读取News_base的每个新闻文本D_i；

(2.3.2.1)构建特征向量

(2.3.2.2)统计F_j在D_i的词频；

(2.3.2.3)统计News_base中包含特征F_j的所有文本数目；

(2.3.2.4)计算F_j在D_i中的tf-idf分值v_j，并加入fv_i。

5.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤3.2.2包括以下子步骤：

(3.2.2.1)分别计算C_i中各词汇term_j在时间戳t_i的词频TF_ij；

(3.2.2.2)将词汇term_j在所有时间戳的词频依次连接，为其构造词频时间序列TF_Seque_j＝{(TF_1j,t₁),(TF_2j,t₂),...,(TF_nj,t_n)}。

6.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤3.2.3包括以下子步骤：

(3.2.3.3)创建动态规划表Tab并初始化；

7.根据权利要求1所述基于新闻主题信息检索的金融时间序列预测方法，其特征在于，所述步骤3.3.1包括以下子步骤：

(3.3.1.3)计算S中所有词汇相关度的平均值，作为文本D_i的主题信息与查询时间序列Q的相关度topic_corr。