CN111126620B - 一种用于时间序列的特征指纹生成方法及应用 - Google Patents
一种用于时间序列的特征指纹生成方法及应用 Download PDFInfo
- Publication number
- CN111126620B CN111126620B CN201911256099.0A CN201911256099A CN111126620B CN 111126620 B CN111126620 B CN 111126620B CN 201911256099 A CN201911256099 A CN 201911256099A CN 111126620 B CN111126620 B CN 111126620B
- Authority
- CN
- China
- Prior art keywords
- amplitude
- value
- fingerprint
- time series
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Algebra (AREA)
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于时间序列的特征指纹生成方法,将n个含有时间序的数值,分别以幅值、排序位置为属性表示,构成时间序列X0;通过比较任意两个元素xa和xb,确定指纹矩阵M:当a≠b时确定非主对角元素,分别对比幅值及排序位置:若幅值a>幅值b且排序位置a>排序位置b,则M(b,a)值为1;若幅值a<幅值b且排序位置a<排序位置b,则M(b,a)值为‑1;其他情况M(b,a)值为0;当a=b时,确定主对角元素:M(a,a)值为Xa的幅值。本发明考虑了能够唯一确定时间序列的两个属性:幅值和排序,保证了在不损失信息的情况下提取时间序列的特征,生成的指纹图为深度学习算法提供输入数据,为数据挖掘提供保障。
Description
技术领域
本发明涉及一种特征指纹生成方法,具体涉及一种用于时间序列的特征指纹生成方法及应用,属于数据挖掘技术领域。
背景技术
机器学习算法的迅速发展为数据的分析及挖掘提供了有效的解题思路。尤其是深度学习算法的提出了解决了如何让计算机自动学习出模式特征的问题,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性,降低了过拟合的可能;迁移学习方法的提出有效的解决了训练效率以及数据集过小的问题,提高了深度学习算法在数据挖掘领域的适用性。
时间序列是一种较为特殊的数据集,是同一现象在不同时间上的相继观察值排列而成的序列,是一种将现象随时间变化的过程进行数据化记录的方式。由于其具有时序性,其元素的变化特征往往隐含现象的变化过程。通过对时间序列的分析及挖掘,能够帮助我们更好地理解现象的本质,并实现对现象变化过程的预测。
然而,由于时间序列仅由一串有序的数值对现象进行描述,因此,许多有效的信息被隐藏。人们通过对时间序列进行期望、方差、标准差等统计特征的提取,以期能够挖掘出数据中包含的更多有用信息,从而进行更深层次的分析。然而,在相应统计特征被提取的同时,势必会造成其他特征的损失,尽管同时考虑多种统计特征能够有效提高对数据集的表达能力,但仍有过度表达或表达不足的风险。
因此,如何在不丢失数据携带信息的情况下尽可能的将数据自身特征展露出来,是将机器学习技术应用于时间序列数据挖掘亟需考虑的问题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种用于时间序列的特征指纹生成方法及应用。
为了实现上述目标,本发明采用如下的技术方案:
一种用于时间序列的特征指纹生成方法,包括以下步骤:
S1、将n个含有时间序的数值,分别以幅值、排序位置为属性表示,构成时间序列X0的n个元素,xi=(幅值,i)(i=1,2,3,4,…,n);
S2、比较序列X0中的任意两个元素xa和xb,确定指纹矩阵M:
S21、确定指纹矩阵M的非主对角元素:
当a≠b时,分别对比元素xa和xb的幅值及排序位置:
若幅值a>幅值b,且,排序位置a>排序位置b,则判定xa>xb,相应矩阵M(b,a)值记为1;
若幅值a<幅值b,且,排序位置a<排序位置b,则判定xa<xb,相应矩阵M(b,a)值记为-1;
其他情况,M(b,a)值记为0;
目的在于,将时间序列的时序性表达出来,因在理论上,一列时间序列能够由其包含的各元素的幅值及排序关系唯一确定,因此,通过比较两元素的幅值及排序位置,能够描绘出时间序列随时间的变化过程(例如,上升或下降趋势);
S22、确定指纹矩阵M的主对角元素:
当a=b时,指纹矩阵M中的相应矩阵M(a,a)值取值为时间序列中Xa的幅值。
目的在于,将在步骤S21中因对比而忽略掉的元素的幅值属性再次表达出来。由于第二步得到的M仅对时间序列的时序变化过程进行了提取,其主对角线元素的值全部为0,未包含任何有效信息,因此对其替换不会对时间序列的属性造成任何丢失。
上述的一种用于时间序列的特征指纹生成方法,还包括步骤S11,对时间序列X0的归一化预处理:分别将元素xi中的幅值,除以时间序列X0中的元素xi的幅值最大值,得到归一化后的时间序列X。目的在于,防止指纹矩阵中某一部分的特征值过大,而造成其对结果的影响过大。
上述步骤S22中相应矩阵值M(a,a)的取值,还可以为元素xi的其他属性值。
上述数值,包括含有时间序的各单元的值落入评级阈值区间后的等级值。
上述的一种用于时间序列的特征指纹生成方法,应用于表达DNA序列的特征;以DNA序列的碱基种类为数值,排序关系为时间序。
本发明的有益之处在于:
本发明的一种用于时间序列的特征指纹生成方法,考虑了能够唯一确定时间序列的两个属性:幅值和排序,在理论上保证了在不损失信息的情况下将时间序列的特征提取出来。本发明利用时间序列包含的信息生成其独一无二的特征指纹矩阵,能作为指纹图为深度学习算法提供输入数据,为结合深度学习算法进行数据挖掘提供保障;可进一步服务于特征比对、机器学习等数据分析、数据挖掘方法,且基于本发明的方法,可拓展应用至其他具有排序关系的数值的特征指纹的生成及读取,具有很强的实用性和广泛的适用性。
附图说明
图1为本发明的实施例中确定非主对角元素的指纹矩阵图。
图2为本发明的实施例中确定主对角元素的指纹矩阵图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
一种用于时间序列的特征指纹生成方法,包括以下步骤:
S1、将n个含有时间序的数值,分别以幅值、排序位置为属性表示,构成时间序列X0的n个元素,xi=(幅值,i)(i=1,2,3,4,…,n);
S11、对时间序列X0的归一化预处理:分别将元素xi中的幅值,除以时间序列X0中的元素xi的幅值最大值,得到归一化后的时间序列X;
S2、比较序列X0中的任意两个元素xa和xb,确定指纹矩阵M:
S21、确定指纹矩阵M的非主对角元素:
当a≠b时,分别对比元素xa和xb的幅值及排序位置:
若幅值a>幅值b,且,排序位置a>排序位置b,则判定xa>xb,相应矩阵M(b,a)值记为1;
若幅值a<幅值b,且,排序位置a<排序位置b,则判定xa<xb,相应矩阵M(b,a)值记为-1;
其他情况,M(b,a)值记为0;
S22、确定指纹矩阵M的主对角元素:
当a=b时,指纹矩阵M中的相应矩阵M(a,a)值取值为时间序列中Xa的幅值。
实施例
对于某一流域某20年的年径流量,依时间顺序,其原始数值为:2789.05,1675.18,2864.57,2084.77,2326.27,1703.85,3566.75,2470.00,2422.75,2772.96,2558.79,2908.00,2589.81,2754.68,2302.17,2441.96,2156.99,3038.51,3096.14,2628.84(单位:m3/s)。
利用本发明中的方法生成其特征指纹矩阵:
S1、构成原始时间序列X0为:
(2789.05,1),(1675.18,2),(2864.57,3),(2084.77,4),(2326.27,5),(1703.85,6),(3566.75,7),(2470.00,8),(2422.75,9),(2772.96,10),(2558.79,11),(2908.00,12),(2589.81,13),(2754.68,14),(2302.17,15),(2441.96,16),(2156.99,17),(3038.51,18),(3096.14,19),(2628.84,20)。
S11、归一化预处理,各元素除以最大值3566.75,得到处理后的时间序列X:
(0.78,1),(0.47,2),(0.80,3),(0.58,4),(0.65,5),(0.48,6),(1.00,7),(0.69,8),(0.68,9),(0.78,10),(0.72,11),(0.82,12),(0.73,13),(0.77,14),(0.65,15),(0.68,16),(0.60,17),(0.85,18),(0.87,19),(0.74,20)。
S2、将任意两个元素xa和xb进行两两对比,
S21、当a≠b时,分别对比元素xa和xb的幅值及排序位置:
若幅值a>幅值b,且,排序位置a>排序位置b,则判定xa>xb,相应矩阵M(b,a)值记为1;
若幅值a<幅值b,且,排序位置a<排序位置b,则判定xa<xb,相应矩阵M(b,a)值记为-1;
其他情况,M(b,a)值记为0。
得到如附图1所示的指纹矩阵M。
S22、当a=b时,指纹矩阵M中的相应矩阵M(a,a)值取值为时间序列中Xa的幅值,得到如附图2所示的指纹矩阵M。
如附图2所示的,指纹矩阵M中,以阴影深浅进一步可视化“0,1,-1”的区域,可直观的体现该组数据利用时间序列包含的信息所生成其独一无二的特征指纹。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (4)
1.一种用于时间序列的特征指纹生成方法,其特征在于,应用于DNA序列的特征表达;DNA序列的碱基种类为数值,排序关系为时间序;
包括以下步骤:
S1、将n个含有时间序的数值,分别以幅值、排序位置为属性表示,构成时间序列X0的n个元素,xi=(幅值,i)(i=1,2,3,4,…,n);
S2、比较序列X0中的任意两个元素xa和xb,确定指纹矩阵M:
S21、确定指纹矩阵M的非主对角元素:
当a≠b时,分别对比元素xa和xb的幅值及排序位置:
若幅值a>幅值b,且,排序位置a>排序位置b,则判定xa>xb,相应矩阵M(b,a)值记为1;
若幅值a<幅值b,且,排序位置a<排序位置b,则判定xa<xb,相应矩阵M(b,a)值记为-1;
其他情况,M(b,a)值记为0;
S22、确定指纹矩阵M的主对角元素:
当a=b时,指纹矩阵M中的相应矩阵M(a,a)值取值为时间序列中Xa的幅值。
2.根据权利要求1所述的一种用于时间序列的特征指纹生成方法,其特征在于,还包括步骤S11,对时间序列X0的归一化预处理:
分别将元素xi中的幅值,除以时间序列X0中的元素xi的幅值最大值,得到归一化后的时间序列X。
3.根据权利要求1所述的一种用于时间序列的特征指纹生成方法,其特征在于,所述步骤S22中相应矩阵值M(a,a)的取值,还可以为元素xi的其他属性值。
4.根据权利要求1所述的一种用于时间序列的特征指纹生成方法,其特征在于,所述数值,包括含有时间序的各单元的值落入评级阈值区间后的等级值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256099.0A CN111126620B (zh) | 2019-12-10 | 2019-12-10 | 一种用于时间序列的特征指纹生成方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256099.0A CN111126620B (zh) | 2019-12-10 | 2019-12-10 | 一种用于时间序列的特征指纹生成方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126620A CN111126620A (zh) | 2020-05-08 |
CN111126620B true CN111126620B (zh) | 2020-11-03 |
Family
ID=70497909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911256099.0A Active CN111126620B (zh) | 2019-12-10 | 2019-12-10 | 一种用于时间序列的特征指纹生成方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126620B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869192A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于滑动窗的磁共振指纹识别重建技术 |
CN105930204A (zh) * | 2016-04-11 | 2016-09-07 | 沈阳东软医疗系统有限公司 | 一种单事件时间信息处理方法和装置 |
CN106050201A (zh) * | 2016-08-09 | 2016-10-26 | 中国海洋石油总公司 | 可实现井下流量、压力和温度监测的无缆式分层注水方法 |
CN109472846A (zh) * | 2018-12-27 | 2019-03-15 | 燕山大学 | 用matlab处理扫频数据获得伯德图的方法 |
CN109635721A (zh) * | 2018-12-10 | 2019-04-16 | 山东大学 | 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10721137B2 (en) * | 2016-06-30 | 2020-07-21 | Intel Corporation | Performance assurance using workload phase detection |
CN109743570B (zh) * | 2019-01-09 | 2021-07-06 | 北京工业大学 | 一种屏幕内容视频的压缩方法 |
CN110083740B (zh) * | 2019-05-07 | 2021-04-06 | 深圳市网心科技有限公司 | 视频指纹提取及视频检索方法、装置、终端及存储介质 |
CN110380989B (zh) * | 2019-07-26 | 2022-09-02 | 东南大学 | 网络流量指纹特征二阶段多分类的物联网设备识别方法 |
-
2019
- 2019-12-10 CN CN201911256099.0A patent/CN111126620B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869192A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于滑动窗的磁共振指纹识别重建技术 |
CN105930204A (zh) * | 2016-04-11 | 2016-09-07 | 沈阳东软医疗系统有限公司 | 一种单事件时间信息处理方法和装置 |
CN106050201A (zh) * | 2016-08-09 | 2016-10-26 | 中国海洋石油总公司 | 可实现井下流量、压力和温度监测的无缆式分层注水方法 |
CN109635721A (zh) * | 2018-12-10 | 2019-04-16 | 山东大学 | 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 |
CN109472846A (zh) * | 2018-12-27 | 2019-03-15 | 燕山大学 | 用matlab处理扫频数据获得伯德图的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111126620A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN107193805A (zh) | 基于人工智能的文章价值评估方法、装置及存储介质 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN106096727A (zh) | 一种基于机器学习的网络模型构造方法及装置 | |
CN109446328A (zh) | 一种文本识别方法、装置及其存储介质 | |
US20220138193A1 (en) | Conversion method and systems from natural language to structured query language | |
CN101980210A (zh) | 一种标的词分类分级方法及系统 | |
CN109408821A (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN113140018A (zh) | 训练对抗网络模型的方法、建立字库的方法、装置和设备 | |
CN112949907B (zh) | 一种工程造价的定额匹配方法、装置、设备及存储介质 | |
CN111523324A (zh) | 命名实体识别模型的训练方法及装置 | |
CN104951807A (zh) | 股市情绪的确定方法和装置 | |
CN111582341A (zh) | 用户异常操作预测方法及装置 | |
CN114494711B (zh) | 一种图像特征的提取方法、装置、设备及存储介质 | |
CN111046655B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN117058266A (zh) | 一种基于骨架和轮廓的书法字生成方法 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN110516808A (zh) | 一种知识表示模型的创建方法 | |
CN111126620B (zh) | 一种用于时间序列的特征指纹生成方法及应用 | |
CN104636324A (zh) | 话题溯源方法和系统 | |
CN117370650A (zh) | 基于服务组合超图卷积网络的云计算数据推荐方法 | |
CN111079809A (zh) | 电连接器智能统型方法 | |
CN111079528A (zh) | 一种基于深度学习的图元图纸校核方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |