CN112632231A

CN112632231A - 适用于文化科技融合领域时间序列数据的特征提取方法

Info

Publication number: CN112632231A
Application number: CN202110076395.3A
Authority: CN
Inventors: 郑培清; 孙莉; 刘瀚炜
Original assignee: Beijing Xingyan Boshang Technology Co ltd; Jiangsu Siyuan Integrated Circuit And Intelligent Technology Research Institute Co ltd
Current assignee: Beijing Xingyan Boshang Technology Co ltd; Jiangsu Siyuan Integrated Circuit And Intelligent Technology Research Institute Co ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-04-09

Abstract

本发明公开了适用于文化科技融合领域时间序列数据的特征提取方法，包括以下步骤：第一步：从目标数据库获得时间序列数据，将序列以数据类型分类，得文本数据和数值数据；第二步：数值数据以时间粒度分类，得宏观时间序列数据和微观时间序列数据。本发明通过首先从目标数据库获得时间序列数据，将序列以数据类型分类，文本数据，先用词袋模型获得高频词汇集，再使用改进的TF‑IDF对该词汇集进行二次过滤，获得热点词汇；若有新数据则用滑动窗口重新执行步骤1‑4；无新数据则停止；本发明能快速的处理分析时间序列数据，有助于制定企业的战略决策。

Description

适用于文化科技融合领域时间序列数据的特征提取方法

技术领域

本发明涉及适用于文化科技融合领域时间序列数据的特征提取方法。

背景技术

随着我国的科技的进步以及经济发展战略的调整，发展以文化为核心、以科技为手段的新兴行业和企业正式成为现在各地极力倡导的大形势。一方面，一般的企业在预测自己发展热点的时候主要利用的是财务数据或者对用户进行行为建模，而没有特别关注对于时间序列数据的多角度挖掘；另一方面，一般的时间序列数据挖掘由于不具备文化科技融合数据的特点，也没有从将时间序列数据从时间粒度的分类上进行数据挖掘。对于一个行业或者企业而言，时间序列数据所携带的信息量巨大且对于企业制定发展战略尤为重要，充分挖掘时间序列数据所携带的信息是许多人都在极力探索的目标。

一方面，文化科技融合领域内的时间序列数据有独特的特征：不同时间粒度的时间序列数据带有不同的重要信息、样本数据少；另一方面，常见的时间序列特征挖掘算法只从单一角度挖掘时间序列的信息，不能完全的获得数据的价值。这些限制对于想要充分挖掘时间数据进而获得决策支撑的企业十分不利；

因而，现提供一种适用于文化科技融合领域时间序列数据的特征提取方法。

发明内容

本发明的目的是提供适用于文化科技融合领域时间序列数据的特征提取方法，解决了现有技术中不同时间粒度的时间序列数据带有不同的重要信息、样本数据少；常见的时间序列特征挖掘算法只从单一角度挖掘时间序列的信息，不能完全的获得数据的价值的问题。

为了实现上述目的，本发明采用了如下技术方案：

适用于文化科技融合领域时间序列数据的特征提取方法，包括以下步骤：

第一步：从目标数据库获得时间序列数据，将序列以数据类型分类，得文本数据和数值数据；

第二步：数值数据以时间粒度分类，得宏观时间序列数据和微观时间序列数据；宏观数据标准化后，计算样本与行业标准数据的相似度，将归一化后的相似度作为D-S证据理论的输入进行证据融合，得类特征；

第三步：设已获得标准时间序列的最佳shapelet集合，计算微观数据样本与各shapelet的距离，得趋势特征；

第四步：文本数据，先用词袋模型获得高频词汇集，再使用改进的TF-IDF对该词汇集进行二次过滤，获得热点词汇；

第五步：若有新数据则用滑动窗口重新执行步骤1-4；无新数据则停止。

优选的，所述第一步中，具体方法如下：从企业数据库或者相应政府的公共数据库获取时间序列数据；将数据根据数据类型进行分类，分为数值型时间序列数据和文本型时间序列数据；针对新来的数据则利用滑动窗口原理形成新的分类数据源。

优选的，所述第二步中，具体的方法如下：将数值型时间序列数据数据根据时间粒度进行分类，分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts；其中，宏观数据包括多个来源的时间序列数据，即用从不同角度反映企业经营状况的财务数据和市场数据，微观数据只包含一类时间序列数据，即衡量企业经营能力的最主要指标数据。

优选的，所述第三步中，具体方法如下：于微观时间序列数据，假设已经获得标准数据的k个shapelet记为S＝，且si长度为Li；循环计算这k个shapelet与样本时间序列的距离，这一距离定义为disti＝min(dist(Sub(Ts)Li，si))(i＝1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列；计算权重ui＝Li/(L1+L2+...+Lk)；用得到的权重乘以距离的倒数再相加，根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。

优选的，所述第四步中，具体方法如下：对于文本时间序列，将各个文档按照获得的时间加上时间属性，即有包含多个文档的数据集D＝{(t1,d1),(t2,d2)...(tn,dn)}，其中(t1,d1)指文档d1的时间属性为t1；对文本数据使用词袋模型统计出高频词汇集：对各文档分词之后进行词频统计，设定词袋的最大容量为MAX_f，设定词的最低频率为min_df，用于过滤掉未出现在任何文档以及出现次数很少的词，词的最大频率为max_df，用于过滤掉出现频率异常多的词；经过词袋模型则形成高频词汇集dictionary。

优选的，所述第五步中，具体方法如下：存储获得的特征和热点词汇；若有新获得的数据则利用滑动窗口原理重新执行步骤1-4，否则停止处理。

本发明至少具备以下有益效果：

1.通过首先从目标数据库获得时间序列数据，将序列以数据类型分类，得文本数据和数值数据；数值数据以时间粒度分类，得宏观时间序列数据和微观时间序列数据；将宏观数据标准化后，计算样本数据与行业标准数据的相似度，将归一化后的相似度作为D-S证据理论的输入进行证据融合，得类特征；设已获得标准时间序列的最佳shapelet集合，计算微观数据样本与各shapelet的距离，得趋势特征；文本数据，先用词袋模型获得高频词汇集，再使用改进的TF-IDF对该词汇集进行二次过滤，获得热点词汇；若有新数据则用滑动窗口重新执行步骤1-4；无新数据则停止；本发明能快速的处理分析时间序列数据，有助于制定企业的战略决策。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

第一步：从目标数据库获得时间序列数据，将序列以数据类型分类，得文本数据和数值数据；具体方法如下：从企业数据库或者相应政府的公共数据库获取时间序列数据；将数据根据数据类型进行分类，分为数值型时间序列数据和文本型时间序列数据；针对新来的数据则利用滑动窗口原理形成新的分类数据源；

第二步：数值数据以时间粒度分类，得宏观时间序列数据和微观时间序列数据；宏观数据标准化后，计算样本与行业标准数据的相似度，将归一化后的相似度作为D-S证据理论的输入进行证据融合，得类特征；具体的方法如下：将数值型时间序列数据数据根据时间粒度进行分类，分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts；其中，宏观数据包括多个来源的时间序列数据，即用从不同角度反映企业经营状况的财务数据和市场数据，微观数据只包含一类时间序列数据，即衡量企业经营能力的最主要指标数据；

第三步：设已获得标准时间序列的最佳shapelet集合，计算微观数据样本与各shapelet的距离，得趋势特征；具体方法如下：于微观时间序列数据，假设已经获得标准数据的k个shapelet记为S＝，且si长度为Li；循环计算这k个shapelet与样本时间序列的距离，这一距离定义为disti＝min(dist(Sub(Ts)Li，si))(i＝1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列；计算权重ui＝Li/(L1+L2+...+Lk)；用得到的权重乘以距离的倒数再相加，根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征；

第四步：文本数据，先用词袋模型获得高频词汇集，再使用改进的TF-IDF对该词汇集进行二次过滤，获得热点词汇；具体方法如下：对于文本时间序列，将各个文档按照获得的时间加上时间属性，即有包含多个文档的数据集D＝{(t1,d1),(t2,d2)...(tn,dn)}，其中(t1,d1)指文档d1的时间属性为t1；对文本数据使用词袋模型统计出高频词汇集：对各文档分词之后进行词频统计，设定词袋的最大容量为MAX_f，设定词的最低频率为min_df，用于过滤掉未出现在任何文档以及出现次数很少的词，词的最大频率为max_df，用于过滤掉出现频率异常多的词；经过词袋模型则形成高频词汇集dictionary；

第五步：若有新数据则用滑动窗口重新执行步骤1-4；无新数据则停止；具体方法如下：存储获得的特征和热点词汇；若有新获得的数据则利用滑动窗口原理重新执行步骤1-4，否则停止处理；

本实施例中，首先从目标数据库获得时间序列数据，将序列以数据类型分类，得文本数据和数值数据；数值数据以时间粒度分类，得宏观时间序列数据和微观时间序列数据；将宏观数据标准化后，计算样本数据与行业标准数据的相似度，将归一化后的相似度作为D-S证据理论的输入进行证据融合，得类特征；设已获得标准时间序列的最佳shapelet集合，计算微观数据样本与各shapelet的距离，得趋势特征；文本数据，先用词袋模型获得高频词汇集，再使用改进的TF-IDF对该词汇集进行二次过滤，获得热点词汇；若有新数据则用滑动窗口重新执行步骤1-4；无新数据则停止；本发明能快速的处理分析时间序列数据，有助于制定企业的战略决策。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，所述第一步中，具体方法如下：从企业数据库或者相应政府的公共数据库获取时间序列数据；将数据根据数据类型进行分类，分为数值型时间序列数据和文本型时间序列数据；针对新来的数据则利用滑动窗口原理形成新的分类数据源。

3.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，第二步中，具体的方法如下：将数值型时间序列数据数据根据时间粒度进行分类，分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts；其中，宏观数据包括多个来源的时间序列数据，即用从不同角度反映企业经营状况的财务数据和市场数据，微观数据只包含一类时间序列数据，即衡量企业经营能力的最主要指标数据。

4.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，所述第三步中，具体方法如下：于微观时间序列数据，假设已经获得标准数据的k个shapelet记为S＝，且si长度为Li；循环计算这k个shapelet与样本时间序列的距离，这一距离定义为disti＝min(dist(Sub(Ts)Li，si))(i＝1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列；计算权重ui＝Li/(L1+L2+...+Lk)；用得到的权重乘以距离的倒数再相加，根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。

5.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，第四步中，具体方法如下：对于文本时间序列，将各个文档按照获得的时间加上时间属性，即有包含多个文档的数据集D＝{(t1,d1),(t2,d2)...(tn,dn)}，其中(t1,d1)指文档d1的时间属性为t1；对文本数据使用词袋模型统计出高频词汇集：对各文档分词之后进行词频统计，设定词袋的最大容量为MAX_f，设定词的最低频率为min_df，用于过滤掉未出现在任何文档以及出现次数很少的词，词的最大频率为max_df，用于过滤掉出现频率异常多的词；经过词袋模型则形成高频词汇集dictionary。

6.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法，其特征在于，第五步中，具体方法如下：存储获得的特征和热点词汇；若有新获得的数据则利用滑动窗口原理重新执行步骤1-4，否则停止处理。