CN104572888A

CN104572888A - 一种时间序列关联的信息检索方法

Info

Publication number: CN104572888A
Application number: CN201410814851.XA
Authority: CN
Inventors: 蔡青林; 陈岭; 孙建伶; 陈蕾英
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-12-23
Filing date: 2014-12-23
Publication date: 2015-04-29
Anticipated expiration: 2034-12-23
Also published as: CN104572888B

Abstract

本发明公开了一种时间序列关联的信息检索方法，首先按照时间顺序统计文本数据库的词频分布，为各词汇构建词频时间序列；然后基于相似性度量方法，计算各词汇与时间序列的相关度。对于每个文本文件，基于各词汇相关度计算文本主题与查询时间序列的相关度，实现文本筛选及相关文本主题信息的查询，最终可为时间序列的波动模式提供合理的解释。本发明可实现时间序列与文本数据库的交互查询，从文本数据的角度分析和挖掘时间序列的波动模式；在大数据时代可发挥重要作用，如在金融领域的电子化交易市场中，根据股票价格的显著性波动模式，查询与其相关的新闻、政策或法令信息，帮助投资者执行准确的舆情分析，以深入挖掘市场价格的影响因素。

Description

一种时间序列关联的信息检索方法

技术领域

本发明涉及数据库、数据挖掘、信息检索等领域，尤其涉及时间序列数据分析和挖掘。

背景技术

对于时间序列在文本数据库中的主题信息检索问题，目前还没有公开的解决方法。尽管如此，工业界已经提出了针对时间序列与文本数据的联合分析方法。比如，通过提取文本表达式概括时间序列，可以有效利用时间序列的结构化特征实现时间序列的相似性检索；基于单词动态时间变化性质的相似性分析，能够在较大程度上改进语义相关词汇的查找方法；另外，最新提出的方法通过使用基于词汇时间动态性质计算的权重，可以很好地改进文本检索的质量。但是，以上方法的缺陷在于它们无法实现词汇的动态选择，而导致查询结果对不同时间序列查询的针对性不强。

另外一类最新的联合分析方法是因果主题挖掘方法。该类方法基于概率主题模式，对与输入时间序列有因果关系的文本主题自动建模。然而，该类方法具有复杂的参数评价过程，需要用户具备一定的专家知识，这在实际应用中难以保证。

在金融领域，基于文本数据(如新闻)的股票价格预测方法也被提出。该类方法的主要目标是从文本数据中查找具有预测意义的词汇，并根据它们在出现最频繁的时间段内对股票价格的影响进行标记，进而实现金融时间序列的预测。这类方法大多基于回归和分类的初始化，难以用于解决时间序列在文本数据库的相关主题查询问题。

发明内容

本发明要解决的问题是如何以时间序列作为输入，从文本数据库查询出与其相关的文本主题信息。为了解决该问题，本发明提出了时间序列关联的信息检索方法。

本发明的目的是通过以下技术方案实现的：一种时间序列关联的信息检索方法，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)依次读取文本数据库的每个文本文件d；

(1.2)除去文本文件d中所有停用词，并以d的发布时间作为时间戳t对其标记；

(1.3)以时间戳t作为索引项，对文本数据库构建B⁺-树索引I；

(2)词汇相关性度量，具体包括以下子步骤：

(2.1)按照查询时间序列Q的时间戳顺序，依次从索引I中查询时间戳为t_i的文本集合C_i，构造Q的相关文本集合C；

(2.2)对每个文本子集C_i统计词频分布，分别为各词汇term_j构造词频时间序列TF_Seque_j；

(2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque_j与查询时间序列Q的相似度，作为相应词汇term_j与Q的相关度term_corr_j，并构造词汇相关度表table；

(3)文本主题相关性度量，具体包括以下子步骤：

(3.1)查询词汇相关度表table，获取d_i中各词汇与Q的相关度；根据词汇相关度，对d_i的所有词汇按照由大到小的顺序排列，保留前N个词汇作为主题词汇集S；计算S中所有词汇相关度的平均值作为文本d_i的主题相关度。

(3.2)根据文本主题相关度，对C的所有文本文件按照由大到小的顺序排列，保留前k个文本作为查询结果予以返回。

进一步地，所述步骤2.2包括以下子步骤：

(2.2.1)分别计算C_i中各词汇term_j的出现次数，并作为term_j在时间戳t_i的词频；

(2.2.2)将词汇term_j在所有时间戳的词频依次相连，为其构造词频时间序列。

进一步地，所述步骤2.3包括以下子步骤：

(2.3.1)初始化词汇相关度表table，对查询时间序列Q做z-规范化处理，得到Q'＝{(x'₁,t₁),(x'₂,t₂),...,(x'_i,t_i),...,(x'_n,t_n)}；

(2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Seque_j，并作z-规范化处理，得到TF_Seque'_j＝{(TF'_1j,t₁),(TF'_2j,t₂),...,(TF'_nj,t_n)}；

(2.3.3)创建动态规划表Tab并对其进行初始化；

(2.3.4)依次计算Q'的第1个元素值与TF_Seque'_j的n个元素值之间的差的绝对值，并存入Tab第1行；

(2.3.5)依次计算TF_Seque'_j的第1个元素值与Q'的n个元素值之间的差的绝对值，并存入Tab第1列；

(2.3.6)利用动态规划方法，依次扫描Q'的第2到第n个元素值和TF_Seque'_j的第2到第n个元素值，计算Tab(2:n,2:n)的每个单元值，包括以下子步骤；

(2.3.6.1)顺序扫描Q'，依次计算其第i个元素值与TF_Seque'_j的各元素值之差的绝对值；

(2.3.6.2)根据先行后列的顺序扫描Tab(2:n,2:n)，在每个单元Tab(i,l)中，首先比较Tab(i-1,l)、Tab(i,l-1)和Tab(i-1,l-1)的大小，选择最小值记为min，然后计算|x'_i-TF'_lj|+min的值赋予Table(i,l)；

(2.3.7)对Tab(n,n)的值取倒数，作为term_j的词汇相关度，加入词汇相关度表table。

本发明的有益效果是：

1、有效解决了时序数据与文本数据的交互查询问题，基于文本主题信息为时间序列波动模式提供了合理的解释，在时序数据与文本数据的联合分析与挖掘任务中具有重要作用。

2、在词汇相关性度量步骤中，基于动态时间弯曲距离的度量方法，可有效克服词频时间序列与查询时间序列在时间轴上的局部伸缩和相位偏移，从而充分考虑了时间序列波动模式与影响因素的因果关系。

3、在文本主题相关度计算步骤中，只基于最相关的若干词汇进行计算，保证了本发明对文本主题信息的敏感性及相关度判断的准确性。

附图说明

图1为时间序列关联的信息检索方法流程图；

图2基于动态时间弯曲距离计算词汇相关度流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明一种时间序列关联的信息检索方法，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)依次读取文本数据库D的每个文本文件d；

(1.3)以时间戳t作为索引项，对文本数据库D的所有文本文件构建B⁺-树索引I；

(2)词汇相关性度量，具体包括以下子步骤：

(2.1)按照查询时间序列Q＝{(x₁,t₁),(x₂,t₂),...,(x_i,t_i),...,(x_n,t_n)}的时间戳顺序，依次从索引I中查询时间戳为t_i的文本集合C_i，构造Q的相关文本集合C＝{C₁,C₂,...,C_i,...,C_n}；

(2.2)对每个文本子集C_i统计词频分布，为C中各词汇构造词频时间序列TF_Seque，具体为：

(2.2.1)分别计算C_i中各词汇term_j的出现次数，并作为term_j在时间戳t_i的词频TF_ij，表示为(TF_ij,t_i)；

(2.2.2)将词汇term_j在所有时间戳的词频(TF_ij,t_i)依次连接，为term_j构造词频时间序列TF_Seque_j＝{(TF_1j,t₁),(TF_2j,t₂),...,(TF_nj,t_n)}；

(2.3)基于动态时间弯曲距离，分别计算各词频时间序列TF_Seque_j与查询时间序列Q的相似度，作为相应词汇term_j与Q的相关度term_corr_j，如图2所示，并构造词汇相关度表table＝{(term₁,term_corr₁)；(term₂,term_corr₂)；...；(term_τ,term_corr_τ)}，具体为：

(2.3.1)初始化词汇相关度表计算时间序列Q所有采样点的平均值m和标准差σ，根据公式(1)对Q做z-规范化处理，得到规范化的时间序列Q'＝{(x'₁,t₁),(x'₂,t₂),...,(x'_i,t_i),...,(x'_n,t_n)}；

{x^{'}}_{i} = \frac{x_{i} - m}{σ} - - - (1)

(2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Seque_j，并根据公式(1)作z-规范化处理，得到规范化的词频时间序列TF_Seque'_j＝{(TF'_1j,t₁),(TF'_2j,t₂),...,(TF'_nj,t_n)}；

(2.3.3)初始化动态规划表Tab＝cell(n,n)；

(2.3.4)依次计算Q'的第1个元素值x'₁与TF_Seque'_j的n个元素值TF'_1j～TF'_nj之间的差的绝对值{|x'₁-TF'_1j|,...,|x'₁-TF'_nj|}，并存入Tab第1行Tab(1,1:n)；

(2.3.5)依次计算TF_Seque'_j的第1个元素值TF'_1j与Q'的n个元素值x'₁～x'_n之间的差的绝对值{|x'₁-TF'_1j|,...,|x'_n-TF'_1j|}，并存入Tab第1列Table(1:n,1)；

(2.3.6)利用动态规划方法，依次扫描Q'的第2到第n个元素值x'₂～x'_n和TF_Seque'_j的第2到第n个元素值TF'_2j～TF'_nj，计算Tab(2:n,2:n)的每个单元值，该过程包括以下子步骤：

(2.3.6.1)顺序扫描x'₂～x'_n，对于Q'的第i个元素值x'_i，依次计算它与TF'_2j～TF'_nj之间的差的绝对值{|x'_i-TF'_2j|,...,|x'_i-TF'_nj|}；

(2.3.7)对Tab(n,n)的值取倒数，作为term_j与Q的相关度term_corr_j，将(term_j,term_corr_j加入词汇相关度表table；

(3)文本主题相关性度量，具体包括以下子步骤：

(3.1)依次读取文本集合C的每个文本文件d_i，计算其主题信息与查询时间序列Q的相关度topic_corr_i，具体为：

(3.1.1)查询词汇相关度表table，获取d_i中各词汇term_j与Q的相关度term_corr_j；

(3.1.2)根据词汇相关度，对d_i的所有词汇按照由大到小的顺序排列，保留前N个词汇作为主题词汇集S＝{term₁,term₂,...,term_N}；

(3.1.3)根据公式(2)计算S中所有词汇相关度的平均值，作为文本d_i的主题信息与查询时间序列Q的相关度topic_corr；

topic_corr = \frac{1}{N} Σ_{i = 1}^{N} term_{corr}_{i} - - - (2)

(3.2)根据文本主题相关度topic_corr，对C的所有文本文件按照由大到小的顺序排列，保留前k个文本作为查询结果予以返回。

本发明针对时间序列在文本数据库中的主题信息检索任务，提出了时间序列关联的信息检索方法，可有效实现时间序列与文本数据库的交互查询。不仅可以帮助人们更深入地理解时间序列波动模式的形成原因，而且在一定程度上满足了大数据时代对跨学科、跨领域数据分析和挖掘任务的迫切需求，在基于时间序列与文本数据的联合分析和挖掘任务中可发挥重要作用。

Claims

1.一种时间序列关联的信息检索方法，其特征在于，包括以下步骤：

(1)数据预处理，具体包括以下子步骤：

(1.1)依次读取文本数据库的每个文本文件d；

(1.3)以时间戳t作为索引项，对文本数据库构建B⁺-树索引I；

(2)词汇相关性度量，具体包括以下子步骤：

(3)文本主题相关性度量，具体包括以下子步骤：

2.根据权利要求1所述一种时间序列关联的信息检索方法，其特征在于，所述步骤2.2包括以下子步骤：

3.根据权利要求1所述一种时间序列关联的信息检索方法，其特征在于，所述步骤2.3包括以下子步骤：

(2.3.3)创建动态规划表Tab并对其进行初始化；