CN112632231A - 适用于文化科技融合领域时间序列数据的特征提取方法 - Google Patents
适用于文化科技融合领域时间序列数据的特征提取方法 Download PDFInfo
- Publication number
- CN112632231A CN112632231A CN202110076395.3A CN202110076395A CN112632231A CN 112632231 A CN112632231 A CN 112632231A CN 202110076395 A CN202110076395 A CN 202110076395A CN 112632231 A CN112632231 A CN 112632231A
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- time
- sequence data
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 235000019580 granularity Nutrition 0.000 description 13
- 230000018109 developmental process Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/257—Belief theory, e.g. Dempster-Shafer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了适用于文化科技融合领域时间序列数据的特征提取方法,包括以下步骤:第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据。本发明通过首先从目标数据库获得时间序列数据,将序列以数据类型分类,文本数据,先用词袋模型获得高频词汇集,再使用改进的TF‑IDF对该词汇集进行二次过滤,获得热点词汇;若有新数据则用滑动窗口重新执行步骤1‑4;无新数据则停止;本发明能快速的处理分析时间序列数据,有助于制定企业的战略决策。
Description
技术领域
本发明涉及适用于文化科技融合领域时间序列数据的特征提取方法。
背景技术
随着我国的科技的进步以及经济发展战略的调整,发展以文化为核心、以科技为手段的新兴行业和企业正式成为现在各地极力倡导的大形势。一方面,一般的企业在预测自己发展热点的时候主要利用的是财务数据或者对用户进行行为建模,而没有特别关注对于时间序列数据的多角度挖掘;另一方面,一般的时间序列数据挖掘由于不具备文化科技融合数据的特点,也没有从将时间序列数据从时间粒度的分类上进行数据挖掘。对于一个行业或者企业而言,时间序列数据所携带的信息量巨大且对于企业制定发展战略尤为重要,充分挖掘时间序列数据所携带的信息是许多人都在极力探索的目标。
一方面,文化科技融合领域内的时间序列数据有独特的特征:不同时间粒度的时间序列数据带有不同的重要信息、样本数据少;另一方面,常见的时间序列特征挖掘算法只从单一角度挖掘时间序列的信息,不能完全的获得数据的价值。这些限制对于想要充分挖掘时间数据进而获得决策支撑的企业十分不利;
因而,现提供一种适用于文化科技融合领域时间序列数据的特征提取方法。
发明内容
本发明的目的是提供适用于文化科技融合领域时间序列数据的特征提取方法,解决了现有技术中不同时间粒度的时间序列数据带有不同的重要信息、样本数据少;常见的时间序列特征挖掘算法只从单一角度挖掘时间序列的信息,不能完全的获得数据的价值的问题。
为了实现上述目的,本发明采用了如下技术方案:
适用于文化科技融合领域时间序列数据的特征提取方法,包括以下步骤:
第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;
第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;
第三步:设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;
第四步:文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;
第五步:若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止。
优选的,所述第一步中,具体方法如下:从企业数据库或者相应政府的公共数据库获取时间序列数据;将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;针对新来的数据则利用滑动窗口原理形成新的分类数据源。
优选的,所述第二步中,具体的方法如下:将数值型时间序列数据数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据。
优选的,所述第三步中,具体方法如下:于微观时间序列数据,假设已经获得标准数据的k个shapelet记为S=,且si长度为Li;循环计算这k个shapelet与样本时间序列的距离,这一距离定义为disti=min(dist(Sub(Ts)Li,si))(i=1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列;计算权重ui=Li/(L1+L2+...+Lk);用得到的权重乘以距离的倒数再相加,根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。
优选的,所述第四步中,具体方法如下:对于文本时间序列,将各个文档按照获得的时间加上时间属性,即有包含多个文档的数据集D={(t1,d1),(t2,d2)...(tn,dn)},其中(t1,d1)指文档d1的时间属性为t1;对文本数据使用词袋模型统计出高频词汇集:对各文档分词之后进行词频统计,设定词袋的最大容量为MAX_f,设定词的最低频率为min_df,用于过滤掉未出现在任何文档以及出现次数很少的词,词的最大频率为max_df,用于过滤掉出现频率异常多的词;经过词袋模型则形成高频词汇集dictionary。
优选的,所述第五步中,具体方法如下:存储获得的特征和热点词汇;若有新获得的数据则利用滑动窗口原理重新执行步骤1-4,否则停止处理。
本发明至少具备以下有益效果:
1.通过首先从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;将宏观数据标准化后,计算样本数据与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止;本发明能快速的处理分析时间序列数据,有助于制定企业的战略决策。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
适用于文化科技融合领域时间序列数据的特征提取方法,包括以下步骤:
第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;具体方法如下:从企业数据库或者相应政府的公共数据库获取时间序列数据;将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;针对新来的数据则利用滑动窗口原理形成新的分类数据源;
第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;具体的方法如下:将数值型时间序列数据数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据;
第三步:设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;具体方法如下:于微观时间序列数据,假设已经获得标准数据的k个shapelet记为S=,且si长度为Li;循环计算这k个shapelet与样本时间序列的距离,这一距离定义为disti=min(dist(Sub(Ts)Li,si))(i=1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列;计算权重ui=Li/(L1+L2+...+Lk);用得到的权重乘以距离的倒数再相加,根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征;
第四步:文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;具体方法如下:对于文本时间序列,将各个文档按照获得的时间加上时间属性,即有包含多个文档的数据集D={(t1,d1),(t2,d2)...(tn,dn)},其中(t1,d1)指文档d1的时间属性为t1;对文本数据使用词袋模型统计出高频词汇集:对各文档分词之后进行词频统计,设定词袋的最大容量为MAX_f,设定词的最低频率为min_df,用于过滤掉未出现在任何文档以及出现次数很少的词,词的最大频率为max_df,用于过滤掉出现频率异常多的词;经过词袋模型则形成高频词汇集dictionary;
第五步:若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止;具体方法如下:存储获得的特征和热点词汇;若有新获得的数据则利用滑动窗口原理重新执行步骤1-4,否则停止处理;
本实施例中,首先从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;将宏观数据标准化后,计算样本数据与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止;本发明能快速的处理分析时间序列数据,有助于制定企业的战略决策。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (6)
1.适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,包括以下步骤:
第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;
第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;
第三步:设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;
第四步:文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;
第五步:若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止。
2.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,所述第一步中,具体方法如下:从企业数据库或者相应政府的公共数据库获取时间序列数据;将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;针对新来的数据则利用滑动窗口原理形成新的分类数据源。
3.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,第二步中,具体的方法如下:将数值型时间序列数据数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据。
4.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,所述第三步中,具体方法如下:于微观时间序列数据,假设已经获得标准数据的k个shapelet记为S=,且si长度为Li;循环计算这k个shapelet与样本时间序列的距离,这一距离定义为disti=min(dist(Sub(Ts)Li,si))(i=1,2...k)其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列;计算权重ui=Li/(L1+L2+...+Lk);用得到的权重乘以距离的倒数再相加,根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。
5.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,第四步中,具体方法如下:对于文本时间序列,将各个文档按照获得的时间加上时间属性,即有包含多个文档的数据集D={(t1,d1),(t2,d2)...(tn,dn)},其中(t1,d1)指文档d1的时间属性为t1;对文本数据使用词袋模型统计出高频词汇集:对各文档分词之后进行词频统计,设定词袋的最大容量为MAX_f,设定词的最低频率为min_df,用于过滤掉未出现在任何文档以及出现次数很少的词,词的最大频率为max_df,用于过滤掉出现频率异常多的词;经过词袋模型则形成高频词汇集dictionary。
6.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,第五步中,具体方法如下:存储获得的特征和热点词汇;若有新获得的数据则利用滑动窗口原理重新执行步骤1-4,否则停止处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076395.3A CN112632231A (zh) | 2021-01-20 | 2021-01-20 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076395.3A CN112632231A (zh) | 2021-01-20 | 2021-01-20 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632231A true CN112632231A (zh) | 2021-04-09 |
Family
ID=75294880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076395.3A Pending CN112632231A (zh) | 2021-01-20 | 2021-01-20 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632231A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473242A (zh) * | 2023-12-28 | 2024-01-30 | 成都四方伟业软件股份有限公司 | 一种时序数据故障检测方法、系统、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625578A (zh) * | 2020-05-26 | 2020-09-04 | 辽宁大学 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
-
2021
- 2021-01-20 CN CN202110076395.3A patent/CN112632231A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625578A (zh) * | 2020-05-26 | 2020-09-04 | 辽宁大学 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473242A (zh) * | 2023-12-28 | 2024-01-30 | 成都四方伟业软件股份有限公司 | 一种时序数据故障检测方法、系统、设备及介质 |
CN117473242B (zh) * | 2023-12-28 | 2024-03-19 | 成都四方伟业软件股份有限公司 | 一种时序数据故障检测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240061873A1 (en) | Massive scale heterogeneous data ingestion and user resolution | |
Yong et al. | An improved KNN text classification algorithm based on clustering | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN101488150B (zh) | 一种实时多角度网络热点事件分析装置及分析方法 | |
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
CN103500579B (zh) | 语音识别方法、装置及系统 | |
CN104239553A (zh) | 一种基于Map-Reduce框架的实体识别方法 | |
CN109543764B (zh) | 一种基于智能语义感知的预警信息合法性检测方法及检测系统 | |
CN111625578B (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
CN111522950B (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN110147482B (zh) | 用于获取突发热点主题的方法和装置 | |
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN112632231A (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
CN105488599A (zh) | 预测文章热度的方法和装置 | |
CN117575855A (zh) | 一种基于大数据的知识产权数据分析方法及系统 | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
CN107506475A (zh) | 一种基于Spark的海量电力客服文本分类方法 | |
WO2023178767A1 (zh) | 基于企业征信大数据知识图谱的企业风险检测方法和装置 | |
Shen et al. | A cross-database comparison to discover potential product opportunities using text mining and cosine similarity | |
Li et al. | Automatic classification algorithm for multisearch data association rules in wireless networks | |
CN112967759B (zh) | 基于内存堆栈技术的dna物证鉴定str分型比对方法 | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |