CN112163558A - 时间序列数据的特征提取方法、装置、设备及存储介质 - Google Patents

时间序列数据的特征提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112163558A
CN112163558A CN202011122736.8A CN202011122736A CN112163558A CN 112163558 A CN112163558 A CN 112163558A CN 202011122736 A CN202011122736 A CN 202011122736A CN 112163558 A CN112163558 A CN 112163558A
Authority
CN
China
Prior art keywords
filter bank
time
signal
sub
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011122736.8A
Other languages
English (en)
Inventor
蒋乐怡
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011122736.8A priority Critical patent/CN112163558A/zh
Publication of CN112163558A publication Critical patent/CN112163558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本申请涉及一种时间序列数据的特征提取、装置、设备及存储介质,属于人工智能技术领域,所述方法包括:获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。本申请能够获取时间序列数据在不同频段的表现,可以提取时间序列数据中更多的特征。

Description

时间序列数据的特征提取方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种时间序列数据的特征提取方法、装置、设备及存储介质。
背景技术
随着人工智能的发展,人工智能技术越来越多地融入到我们的生活中。根据应用领域的不同,人工智能研究的技术也不尽相同,目前以机器学习、计算机视觉等成为热门的人工智能技术方向。机器学习的特征工程是将原始的输入数据转换成特征,以便于更好的表示潜在的问题,并有助于提高预测模型准确性的过程。特征工程对机器学习模型的应用有很大影响,通常而言,数据和特征决定了机器学习模型的性能的上限。
现有的特征工程技术在对时间序列数据进行特征提取时,只考虑时间维度,而未考虑频率维度。但时间序列数据作为一种信号,在不同的细分频段可能表现出多种多样的特征,如果只考虑时间维度,将会忽略一些细微特征,进而对模型的性能产生影响。
发明内容
本申请提供一种时间序列数据的特征提取方法、装置、设备及存储介质,能够获取时间序列数据在不同频段的表现,可以提取时间序列数据中更多的特征,提高模型的性能。
一方面,本申请提供了一种时间序列数据的特征提取方法,所述方法包括:
获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;
使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;
对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
另一方面提供了一种时间序列数据的特征提取装置,所述装置包括:
信号获取模块,用于获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;
信号分解模块,用于使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;
特征提取模块,用于对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
另一方面提供了一种特征提取设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行如上所述的时间序列数据的特征提取方法。
另一方面提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上所述的时间序列数据的特征提取方法。
本申请提供的时间序列数据的特征提取方法、装置、设备及存储介质,具有如下有益效果:
利用多级滤波器组对时间序列数据对应的时域信号进行逐级分解,得到多个频段的时序子带信号,由于每个时序子带信号对应不同的频段,通过对每个频段的时序子带信号进行特征提取,可以提取时间序列数据在不同细分频段的特征,从而获得时间序列数据的更多特征,提高了模型的性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种时间序列数据的特征提取方法的实施环境示意图。
图2是本申请实施例提供的一种时间序列数据的特征提取方法的流程示意图。
图3是本申请实施例提供的对时域信号进行N级频域分解的流程示意图。
图4是本申请实施例提供的利用离散小波滤波器组对时域信号进行分解的一个示例。
图5是本申请实施例提供的经过每一级离散小波滤波器组所输出的各子带信号的波形示意图。
图6是本申请实施例提供的经过分解后的时域信号的等同表示。
图7是本申请实施例提供的经过S变换后的时频谱的一个示例。
图8是本申请实施例提供的用户额度使用率对应的时域信号的波形示例图。
图9是本申请实施例提供的选取离散小波变换的小波基函数的一个示例。
图10是本申请实施例提供的使用离散小波滤波器组对时域信号进行频域分解所形成的各子带信号示例图。
图11是本申请实施例提供的一种时间序列数据的特征提取装置的结构框图示意图。
图12是本申请实施例提供的信号分解模块的结构框图示意图。
图13是本申请实施例提供的另一种时间序列数据的特征提取装置的结构框图示意图。
图14是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。
本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning,ML)技术。机器学习是是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
特征工程(Feature Engineering)是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。特征工程将原始数据转化为特征,能更好表示预测模型处理的实际问题,提升对于未知数据预测的准确性,更好的特征意味着更强的灵活度和更好的结果。
但是目前的特征工程技术在对时间序列数据进行特征提取时,特别是在反洗钱和风控领域,主要从时间维度提取特征,而忽略掉时间序列数据在不同频段上的表现,使得所提取的特征有限,对模型的性能产生了影响。
为了获取时间序列数据在不同频段上的表现,提取出时间序列数据中更多的特征,本申请实施例提供了一种时间序列数据的特征提取方法。为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出了本申请实施例提供的一种时间序列数据的特征提取方法的实施环境示意图,如图1所示,该实施环境可以至少包括客户端01和服务器02。
具体的,所述客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、监控设备及语音交互设备等类型的设备,也可以包括运行于设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端01可以用于显示用户的时间序列数据,以及显示服务器02发送的时间序列数据的特征提取结果。
具体的,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。所述服务器02可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器02可以用于对用户的时间序列数据进行特征提取,将特征提取结果发送至客户端01,以及利用特征提取结果检测机器学习模型的性能。
以下介绍本申请的一种时间序列数据的特征提取方法。图2是本申请实施例提供的一种时间序列数据的特征提取方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据。
本申请实施例中,时间序列数据是指在不同时间上收集到的数据,经济行为是指用户为实现一定经济目的所实施的行为,例如信贷行为或支付行为等,相应的,经济行为数据可以包括信贷数据或支付数据等。具体而言,信贷数据是指在信贷场景下的数据,例如用户额度使用率或成功申请频率等数据;支付数据是指在支付场景下的数据,例如红包收款、红包付款、面对面收款、转账收款或转账付款等数据。
服务器在获取时间序列数据时,可以是从预设数据库中获取提前采集的时间序列数据,当预设数据库中不存在满足条件的时间序列数据时,也可以进行时间序列数据的采集操作。
例如,若需要使用某款信贷产品的用户额度使用率作为时间序列数据,可以以用户在信贷申请的审批通过时间作为起算点,以天为时间单位,计算每天的额度使用率作为一个样本点,由该起算点开始的预设天数的所有样本点构成时间序列数据。
S202,使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数。
本申请实施例中,每个滤波器组可以包括一个高通滤波器和一个低通滤波器,时域信号在经过低通滤波器和高通滤波器过滤后可得到一个低通子带信号和一个高通子带信号,低通子带信号捕捉到了信号的本质特征,而高通子带信号则反映了信号的细微差别。其中,低通子带信号又可继续被下一级滤波器组中的低通滤波器和高通滤波器过滤,直至时域信号最终被分解为满足条件的时序子带信号,例如时域信号最终被分解为只有一个样本点的时序子带信号。
具体可参见图3中所示,所述使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,可以包括:
S2021,将第一级滤波器组作为当前滤波器组,将所述时域信号作为当前处理信号。
S2022,通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
S2023,判断所述当前滤波器组是否为第N级滤波器组。
若所述当前滤波器组不是所述第N级滤波器组,则执行步骤S2024继续进行频域分解;若所述当前滤波器组是所述第N级滤波器组,则执行步骤S2025停止频域分解。
S2024,将所述低通子带信号作为所述当前处理信号,将下一级滤波器组作为所述当前滤波器组。然后,返回步骤S2022以继续对当前处理信号进行频域分解。
S2025,将各级所述滤波器组对应的高通子带信号和低通子带信号,作为所述多个不同频段的时序子带信号。
本申请实施例中,多个表征至少两个。可以理解的,在具体实施时,所确定的多个不同频段的时序子带信号,可以是由N级滤波器组直接输出的所有频段的时序子带信号,也可以是从所输出的所有频段的时序子带信号中选择的预设个数的时序子带信号。
为了实现对时域信号进行分解,在实际应用中,可以利用离散小波滤波器作为高通滤波器和低通滤波器,而由于离散小波变换可以看作是一个树状结果,具体实施时,也可以利用S变换作为高通滤波器和低通滤波器。因此,本申请实施例中的滤波器组可以为离散小波滤波器组或S变换滤波器组。
在一些实施例中,若所述滤波器组为离散小波滤波器组,则步骤S2022可具体包括:基于预先选择的小波基函数,通过所述当前滤波器组对所述当前处理信号进行离散小波变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
如图4所示,其为利用离散小波滤波器组对时域信号进行分解的一个示例。在图4中,时域信号经过第一级离散小波滤波器组后得到一个低通子带信号1和一个高通子带信号1;低通子带信号1经过第二级离散小波滤波器组的过滤,得到一个低通子带信号2和一个高通子带信号2;低通子带信号2经过第三级离散小波滤波器组的过滤,得到一个低通子带信号3和一个高通子带信号3。可以理解的,图4中仅示出了N为3时的情况,实际应用中,这个过滤过程可以一直延续,直至时域信号被过滤至只剩下一个样本点为止。相应的,图5为经过每一级离散小波滤波器组所输出的各子带信号的波形示意图。
若用S表示时域信号,用Ai(i=1,…,N)表示第i级离散小波滤波器组输出的低通子带信号,用Di(i=1,…,N)表示第i级离散小波滤波器组输出的高通子带信号,则如图6所示,时域信号(S)经过三级离散小波滤波器组的分解后,可以表示为:
S=A1+D1=A2+D2+D1=A3+D3+D2+D1
那么,A1,D1,A2,D2,A3,D3就是将时域信号S进行N级频域分解后,所得到的多个不同频段的时序子带信号。由于将每一级的低通子带信号和高通子带信号都作为不同频段的时序子带信号,则每个时序子带信号均表示该时序子带信号在对应频段的时序。
本申请实施例中,在所述基于预先选择的小波基函数,通过所述当前滤波器组对所述当前处理信号进行离散小波变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号之前,还包括选择小波基函数的步骤。
为了获得更好的模型效果,在选择小波基函数时,要尽可能选择与时域信号波形即原始时序波形相似的小波基,以便于捕捉特征。鉴于此,所述选择小波基函数,可以包括:选择与所述时域信号波形相似且具有正交性的小波函数,作为所述小波基函数。
例如,对于具有阶梯状突变的时间序列数据,可选择哈尔(haar)小波函数,而对于具有平滑的时间序列数据,可选择使用平滑的小波函数。
在选取与时域信号波形相似的小波函数时,也尽可能选取具有正交性的小波函数作为离散小波变换的小波基函数。一方面,使用正交基会返回紧凑的信号表现形式,而非正交基由于其波谱在相邻时间上是高度关联的,会得到冗余的表现形式;另一方面,与PCA(Principal Component Analysis,主成分分析)去噪类似,离散小波变换也可以通过正交基,将噪声输出为一些很小的,甚至可以被忽略的系数,以起到降噪的作用,能够进一步提升模型效果。
在另一些实施例中,若所述滤波器组为S变换滤波器组,则步骤S2022可具体包括:在所述当前滤波器组中,按频域的M分点对所述当前处理信号进行S变换,得到所述当前处理信号的高频分量和低频分量,其中,M为大于或等于2的正整数;分别将所述高频分量和所述低频分量进行逆变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
本申请实施例中,频域的M分点表示将频域划分为M等分,利用M分点作为高低频的阈值点,然后通过S变换将频谱不断地进行拆分,并将拆分所得到的高频分量和低频分量分别做逆变换,可得到S变换高通过滤和低通过滤后的结果。
如图7所示,其示出了经过S变换后的时频谱的一个示例。在图7中,将频域划分为二等分,横轴为时间(t),纵轴为频率(f)。将当前处理信号每次按频域的二分点高低频进行不断地拆分,然后对高频分量和低频分量分别做逆变换,便可得到不同频段的序列。可以理解的,在实际应用中,也可以使用频域的三分点、四分点等进行拆分。一般来说,频段分得越细,特征捕捉越细,模型效果越好,但同时计算量也会逐级上升。
S203,对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
由于每个被滤波器过滤后的时序子带信号都表示了在对应频段的时序,如果对每个时序子带信号分别提取特征,便可以提取时间序列数据在不同频段的时序特征,由不同频段的时序特征构成时间序列数据的目标特征。
可以理解的,每个时序子带信号对应一个子时间序列数据,在对每个时序子带信号进行特征提取时,可以利用目标特征对应的计算函数对每个时序子带信号对应的子时间序列数据进行计算,得到与该时序子带信号对应的时序特征。例如,可以利用nanmin()、nanmax()、nanmean()以及nanstd()等函数求解每个时序子带信号对应的子时间序列数据的最小值、最大值、均值以及标准差等。
本申请实施例中,所得到的目标特征,可以包括以下至少之一:自回归模型系数;香农熵;统计特征;一阶差分过零率;过均值率。其中,统计特征可以包括方差、标准差、均值、最小值25%分点、中位数、75%分点、最大值、均方根以及梯度均值中至少之一;一阶差分过零率表示前后差值穿越零线的次数;过均值率表示前后差值穿越均值线的次数。
这些目标特征即为可以提取的时序特征,这些时序特征描述了时间序列数据在不同频段的量级、变化趋势、变化快慢、变化规律性、稳定性等。当然,也可以根据这些时序特征衍生出其他需要的特征。可以理解的,对在对每个时序子带信号进行特征提取时,可以提取所有通用的时序特征,而不仅仅限于上述时序特征。同时,在不同应用场景下也可以提取不同的时序特征。
本申请实施例中,在对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征之后,还可以利用所述目标特征对机器学习模型的性能进行检测。
下面分别以滤波器组为离散小波滤波器组和S变换滤波器组,并以信贷数据为时间序列数据为例,对本申请实施例提供的时间序列数据的特征提取方法进行验证。
本实验提取一款信贷产品在180天内的用户额度使用率作为时间序列数据进行实验。具体而言,采集每个用户在180天内的用户额度使用率作为一个时间序列数据即样本数据,每一天的用户额度使用率作为一个样本点,并剔除发生过严重逾期的用户、不使用的用户、表现期开始就逾期的用户、开户不足6个月的用户以及触碰反欺诈的用户,然后对每个样本数据对应的时域信号进行特征提取。
所采集到的用户额度使用率对应的时域信号波形可参考图8中所示。在图8中,横轴为时间(Time),单位是天(day);纵轴是用户额度使用率(Quota Utilization Rate)。从图中可以看出,用户还款则曲线下降,用户借款则曲线上升,用户逾期则曲线长期未变。由于用户借还款操作通常有一定的时间间隔,因而时域信号通常会呈阶梯状变化。下表为与图8所对应的样本数据:
天数 额度使用率
第1天至第16天 0.8687
第17天至第30天 0.9725
第31天至第61天 0.7688
第62天至第76天 0.7705
第77天至第89天 0.7351
第90天至第102天 0.5455
第103天至第106天 0.6987
第107天至第120天 0.8427
第121天至第150天 0.7176
第151天至第180天 0.5445
在选取小波基函数时,如图9中所示,由于用户额度使用率对应的时域信号波形与haar小波波形非常相似,因而选取haar小波函数作为离散小波变换的小波基函数,以捕捉到更多的特征。
在实验过程中,利用KS(Kolmogorov-Smirnov)指标来评估模型的性能,通常KS指标越大,模型的风险区分能力越强。
先利用未做变换的原始时域信号提取特征即对上述表中的样本数据进行特征计算,所得到的目标特征为:香农熵为2.183873e+00,一阶差分过零率为8.000000e+00,过均值率为3.000000e+00,最小值为5.445276e-01,25%分点为6.987240e-01,75分点为7.705894e-01,中位数为9.725609e-01,均值为7.519479e-01,方差为7.334048e-01,标准差为1.260993e-01,均方根为1.590104e-02,5阶自回归模型系数为7.334048e-01,5阶自回归模型系数0为9.757138e-01,5阶自回归模型系数1为-1.905276e-15,5阶自回归模型系数2为8.115073e-15,5阶自回归模型系数3为9.457542e-02,5阶自回归模型系数4为-1.188617e-01,5阶自回归模型系数5为3.535742e-02。
然后利用上述目标特征对LightGBM模型进行训练,得到KS为0.3930,并将该值作为评价模型性能的基准值。
接着,如图10中所示,使用离散小波滤波器组对每个样本数据对应的时域信号进行多次分解。对于大多数时域信号在7次分解后仅剩2个样本点,在第8次分解后许多样本数据对应的时序子带信号都一致,因而本实验只取前7次分解的时序子带信号提取特征。
例如,将样本数据经过第一次haar小波滤波器后,得到的子时间序列如图10中的Level 1所示。将经过haar小波低通滤波器所得到的时序子带信号(Approximationcoefficients)进行特征提取,可以得到该时序子带信号对应的时序特征为:香农熵为2.252595,一阶差分过零率为8.000000,过均值率为3.000000,最小值为0.770078,25%分点为0.988145,75分点为1.089778,中位数为1.375409,均值为1.063415,方差为1.037191,标准差为0.177771,均方根为0.031602,5阶自回归模型系数为1.037191,5阶自回归模型系数0为0.978488,5阶自回归模型系数1为0.065783,5阶自回归模型系数2为-0.097900,5阶自回归模型系数3为-0.000585,5阶自回归模型系数4为-0.049617,5阶自回归模型系数5为0.066693。
采用相同方式可以对每一次haar小波滤波后的时序子带信号进行特征提取,并将所有时序子带信号提取到的时序特征作为目标特征对LightGBM模型进行训练时,所得到的KS为0.4337,明显高于上述基准值的。
为了说明选取与时域信号波形相似的小波函数的重要性,如下表所示,还分别验证了在小波函数为sym9、coif2、db15以及Bior3.1时,所得到的KS值。从表中可以看出,使用与时域信号波形相似的小波函数,作为离散小波变换的小波基函数,可以获取更好的KS,在模型性能上表现更优。
小波函数*次数 机器学习模型 KS
haar小波*7 LightGBM 0.4337
sym9小波小波*7 LightGBM 0.4309
coif2小波*7 LightGBM 0.4303
db15小波*7 LightGBM 0.4299
bior3.1小波*7 LightGBM 0.4277
接着,在利用S变换滤波器组对原始时域信号进行频域分解时,分别选择了二分点、三分点以及四分点作为高低频的阈值点,再提取特征训练LightGBM模型。如下表所示,可以发现,频段分得越细,特征捕捉越细,模型效果越好。
M分点S变换*次数 机器学习模型 KS
二分点S变换*6 LightGBM 0.4141
三分点S变换*10 LightGBM 0.4162
四分点S变换*10 LightGBM 0.4208
由以上实验可知,使用N级滤波器组提取不同频段的特征的模型效果,均要明显好于使用原始时域信号直接提取特征对模型进行训练的效果。另外,小波变换效果好于S变换,可能原因是由于波形导致的,即对于有突变的时间序列数据,不规则的小波基比平滑的正弦波更容易捕捉到有效特征。
本申请实施例还提供了一种时间序列数据的特征提取装置,如图11所示,所述装置可以包括:
信号获取模块1110,用于获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;
信号分解模块1120,用于使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;
特征提取模块1130,用于对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
本申请实施例中,如图12中所示,所述信号分解模块1120可以包括:
预处理单元1121,用于将第一级滤波器组作为当前滤波器组,将所述时域信号作为当前处理信号;
频域分解单元1122,用于通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号;
判断单元1123,用于判断所述当前滤波器组是否为第N级滤波器组;
循环执行单元1124,用于在所述当前滤波器组不是第N级滤波器组的情况下,将所述低通子带信号作为所述当前处理信号,将下一级滤波器组作为所述当前滤波器组,并返回频域分解单元1122继续对所述当前处理信号进行频域分解;
时序子带获取单元1125,用于在所述当前滤波器组是所述第N级滤波器组的情况下,将各级所述滤波器组对应的高通子带信号和低通子带信号,作为所述多个不同频段的时序子带信号。
本申请实施例中,所述滤波器组可以为离散小波滤波器组,也可以为S变换滤波器组。
在一些实施例中,若所述滤波器组为离散小波滤波器组,则所述频域分解单元1122可以包括:
离散小波分解单元,用于基于预先选择的小波基函数,通过所述当前滤波器组对所述当前处理信号进行离散小波变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
本申请实施例中,为了获得更好的模型效果,在选择小波基函数时,要尽可能选择与时域信号波形即原始时序波形相似的小波基,以便于捕捉特征。鉴于此,所述信号分解模块1120还可以包括:
小波基选择单元,用于选择小波基函数。
具体实施时,所述小波基选择单元选择与所述时域信号波形相似且具有正交性的小波函数,作为所述小波基函数。
在一些实施例中,若所述滤波器组为S变换滤波器组,则所述频域分解单元1122还可以包括:
S变换分解单元,用于在所述当前滤波器组中,按频域的M分点对所述当前处理信号进行S变换,得到所述当前处理信号的高频分量和低频分量,其中,M为大于或等于2的正整数;
逆变换单元,用于分别将所述高频分量和所述低频分量进行逆变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
在一些实施例中,如图13所示,所述装置还可以包括:
模型检测模块1140,用于利用所述特征分析的结果对机器学习模型的性能进行检测。
上述实施例提供的特征提取装置在使用时,先根据信号获取模块1110采集用户的时间序列数据对应的时域信号;然后根据信号分解模块1120对该时域信号进行N级频域分解,得到多个不同频段的时序子带信号;再利用特征提取模块1130对每个时序子带信号进行特征提取,得到的目标特征,即为时间序列数据的时序特征。所提取的目标特征包括以下至少之一:自回归模型系数;香农熵;统计特征;一阶差分过零率;过均值率。
在提取完成时序特征后,可以通过模型检测模块1140将所提取的时序特征用于机器学习模型的性能检测中,以确定当前模型的效果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种特征提取设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行上述方法实施例提供的时间序列数据的特征提取方法。
进一步地,图14示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图14所示,设备14可以包括一个或多个(图中采用1402a、1402b,……,1402n来示出)处理器1402(处理器1402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1404、以及用于通信功能的传输装置1406。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图14所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备14还可包括比图14中所示更多或者更少的组件,或者具有与图14所示不同的配置。
应当注意到的是上述一个或多个处理器1402和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备14(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1404可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的方法对应的程序指令/数据存储装置,处理器1402通过运行存储在存储器1404内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种时间序列数据的特征提取方法。存储器1404可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1404可进一步包括相对于处理器1402远程设置的存储器,这些远程存储器可以通过网络连接至设备14。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备14的通信供应商提供的无线网络。在一个实例中,传输装置1406包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1406可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备14(或移动设备)的用户界面进行交互。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由处理器加载并执行以实现上述方法实施例提供的时间序列数据的特征提取方法。
可选地,在本实施例中,上述计算机存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机存储介质中。特征提取设备的处理器从计算机存储介质读取该计算机指令,处理器执行该计算机指令,使得该特征提取设备执行上述的各方法实施例中的步骤。
由上述本申请提供的时间序列数据的特征提取方法方法、装置、设备及存储介质的实施例可见,本申请利用多级滤波器组对时间序列数据对应的时域信号进行逐级分解,得到多个频段的时序子带信号,由于每个时序子带信号对应不同的频段,通过对每个频段的时序子带信号进行特征提取,可以提取时间序列数据在不同细分频段的特征,从而获得时间序列数据的更多特征;选择与时域信号波形相似的小波函数,可以使模型具有更好的性能表现;使用具有正交性的小波函数,可以对时域信号中的噪声进行滤除,起到降噪的作用,可进一步提升模型的效果。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述说明已经充分揭露了本申请的具体实施方式。需要指出的是,熟悉该领域的技术人员对本申请的具体实施方式所做的任何改动均不脱离本申请的权利要求书的范围。相应地,本申请的权利要求的范围也并不仅仅局限于前述具体实施方式。

Claims (10)

1.一种时间序列数据的特征提取方法,其特征在于,所述方法包括:
获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;
使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;
对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
2.根据权利要求1所述的方法,其特征在于,所述使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,包括:
将第一级滤波器组作为当前滤波器组,将所述时域信号作为当前处理信号;
通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号;
若所述当前滤波器组不是第N级滤波器组,则将所述低通子带信号作为所述当前处理信号,将下一级滤波器组作为所述当前滤波器组,返回所述通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号的步骤;
若所述当前滤波器组是所述第N级滤波器组,则将各级所述滤波器组对应的高通子带信号和低通子带信号,作为所述多个不同频段的时序子带信号。
3.根据权利要求2所述的方法,其特征在于,若所述滤波器组为离散小波滤波器组,则所述通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号,包括:
基于预先选择的小波基函数,通过所述当前滤波器组对所述当前处理信号进行离散小波变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
4.根据权利要求3所述的方法,其特征在于,在所述基于预先选择的小波基函数,通过所述当前滤波器组对所述当前处理信号进行离散小波变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号之前,还包括选择小波基函数的步骤:
所述选择小波基函数,包括:
选择与所述时域信号波形相似且具有正交性的小波函数,作为所述小波基函数。
5.根据权利要求2所述的方法,其特征在于,若所述滤波器组为S变换滤波器组,则所述通过所述当前滤波器组对所述当前处理信号进行频域分解,得到所述当前滤波器组对应的高通子带信号和低通子带信号,包括:
在所述当前滤波器组中,按频域的M分点对所述当前处理信号进行S变换,得到所述当前处理信号的高频分量和低频分量,其中,M为大于或等于2的正整数;
分别将所述高频分量和所述低频分量进行逆变换,得到所述当前滤波器组对应的高通子带信号和低通子带信号。
6.根据权利要求1所述的方法,其特征在于,所述目标特征包括以下至少之一:
自回归模型系数;香农熵;统计特征;一阶差分过零率;过均值率。
7.根据权利要求1所述的方法,其特征在于,在所述对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征之后,所述方法还包括:
利用所述目标特征对机器学习模型的性能进行检测。
8.一种时间序列数据的特征提取装置,其特征在于,所述装置包括:
信号获取模块,用于获取用户的时间序列数据对应的时域信号,其中,所述时间序列数据表征所述用户的经济行为数据;
信号分解模块,用于使用N级滤波器组对所述时域信号进行N级频域分解,得到多个不同频段的时序子带信号,其中,N为大于或等于1的正整数;
特征提取模块,用于对每个所述时序子带信号进行特征提取,得到所述时间序列数据的目标特征。
9.一种特征提取设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行如权利要求1-7任一所述的时间序列数据的特征提取方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的时间序列数据的特征提取方法。
CN202011122736.8A 2020-10-20 2020-10-20 时间序列数据的特征提取方法、装置、设备及存储介质 Pending CN112163558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011122736.8A CN112163558A (zh) 2020-10-20 2020-10-20 时间序列数据的特征提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011122736.8A CN112163558A (zh) 2020-10-20 2020-10-20 时间序列数据的特征提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112163558A true CN112163558A (zh) 2021-01-01

Family

ID=73867548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011122736.8A Pending CN112163558A (zh) 2020-10-20 2020-10-20 时间序列数据的特征提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112163558A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238110A (zh) * 2021-05-10 2021-08-10 合肥工业大学 一种电能质量扰动诊断方法及系统
CN113255137A (zh) * 2021-05-31 2021-08-13 中铁第一勘察设计院集团有限公司 目标对象应变数据的处理方法、装置及存储介质
CN113486350A (zh) * 2021-08-18 2021-10-08 平安普惠企业管理有限公司 恶意软件的识别方法、装置、设备及存储介质
CN113794669A (zh) * 2021-09-16 2021-12-14 航天新通科技有限公司 一种基于子带的nr宽带信号发射方法及系统
CN114528334A (zh) * 2022-02-18 2022-05-24 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238110A (zh) * 2021-05-10 2021-08-10 合肥工业大学 一种电能质量扰动诊断方法及系统
CN113255137A (zh) * 2021-05-31 2021-08-13 中铁第一勘察设计院集团有限公司 目标对象应变数据的处理方法、装置及存储介质
CN113255137B (zh) * 2021-05-31 2021-11-02 中铁第一勘察设计院集团有限公司 目标对象应变数据的处理方法、装置及存储介质
CN113486350A (zh) * 2021-08-18 2021-10-08 平安普惠企业管理有限公司 恶意软件的识别方法、装置、设备及存储介质
CN113486350B (zh) * 2021-08-18 2023-08-25 广州市京腾网络科技有限公司 恶意软件的识别方法、装置、设备及存储介质
CN113794669A (zh) * 2021-09-16 2021-12-14 航天新通科技有限公司 一种基于子带的nr宽带信号发射方法及系统
CN114528334A (zh) * 2022-02-18 2022-05-24 重庆伏特猫科技有限公司 一种时序数据库中快速相似搜索方法

Similar Documents

Publication Publication Date Title
CN112163558A (zh) 时间序列数据的特征提取方法、装置、设备及存储介质
Li et al. Genetic algorithm for the optimization of features and neural networks in ECG signals classification
Patro et al. An efficient optimized feature selection with machine learning approach for ECG biometric recognition
CN108133418A (zh) 实时信用风险管理系统
CN108243129B (zh) 基于注意力深度网络的无线电信号特征提取方法
CN110910982A (zh) 自编码模型训练方法、装置、设备及存储介质
Machlev et al. Open source dataset generator for power quality disturbances with deep-learning reference classifiers
CN109698016A (zh) 疾病自动编码方法及装置
Murali et al. An efficient adaptive filter architecture for improving the seizure detection in EEG signal
Shin et al. Extraction of acoustic features based on auditory spike code and its application to music genre classification
Cai et al. Music genre classification based on auditory image, spectral and acoustic features
Khetarpal et al. Power quality disturbances detection and classification based on deep convolution auto-encoder networks
Gan Signal processing and image processing for acoustical imaging
CN113052099B (zh) 一种基于卷积神经网络的ssvep分类方法
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
Astudillo et al. Classification with stochastic learning methods and convolutional neural networks
Yan et al. Multi-dimensional graph fractional Fourier transform and its application to data compression
CN115936196A (zh) 基于时序卷积网络的月降水模型预测方法
Miao Emotion Analysis and Opinion Monitoring of Social Network Users Under Deep Convolutional Neural Network
Huang et al. Short term load forecasting based on wavelet decomposition and random forest
CN109116345A (zh) 一种雷达信号识别方法及装置
CN104102834A (zh) 录音地点的识别方法
Gujral et al. Utilization of time series tools in life-sciences and neuroscience
CN113780134A (zh) 一种基于ShuffleNetV2网络的运动想象脑电解码方法
CN113112299A (zh) 一种贵金属价格趋势预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination