CN114496280A

CN114496280A - 一种针对创面微环境数据的多元时间序列数据增强方法

Info

Publication number: CN114496280A
Application number: CN202210047105.7A
Authority: CN
Inventors: 谷建华; 张倩如; 赵天海
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-13

Abstract

本发明涉及一种针对创面微环境数据的多元时间序列数据增强方法，属于医疗领域和机器学习技术领域。基于动态时间规整算法进行样本间的相似性度量，通过随机选择一个样本作为基准样本，搜索与基准样本最近邻的K个同类别样本，对所有选择的样本相对于基准样本进行动态时间规整，并对规整后的样本集进行加权平均，将均值序列数据作为一个新的合成样本。通过随机权重和添加噪声的方式提高数据多样性，以弥补数据量不足时所带来的模型过拟合和泛化能力差的问题，有效提高各种分类器在创面微环境数据集上的预测效果。

Description

一种针对创面微环境数据的多元时间序列数据增强方法

技术领域

本发明涉及医疗领域和机器学习技术领域，具体涉及采用机器学习方法分析创面微环境数据时的一种多元时间序列数据增强方法。

背景技术

近些年来，数据挖掘、人工智能等技术飞速发展，已经在应用科学和工程的各个领域取得了突破性的进展，其准确性、高效性也得到了各个领域专家的青睐。现有的主流数据分析方法，尤其是基于深度神经网络的有监督学习模型，是以数据量趋近无穷大时的渐进理论为研究基础的。因此，大量的数据样本是保证得到一个高预测准确率模型的基本前提。但在医疗领域，由于临床数据的保密性、不完整性，以及部分病例的罕见性、对患者隐私的保护等原因，通常很难获得大量的、可用于分析的临床诊断数据样本。创伤是临床高发病症，创面微环境参数变化趋势对创面的愈合至关重要，如何根据创面微环境数据对创面状态进行快速判断以指导医生的诊断治疗具有重要的现实意义。但由于采集的困难，大量的、标准的创面微环境数据并不容易获得。如何根据少量创面微环境数据来进行智能诊断，是相关领域专家研究的热点。如今解决数据匮乏问题的一种主流方法是利用已有的数据集进行数据增强，从而在原数据集的基础上获得更丰富的数据。这样不仅可以充分训练模型，同时，由于数据增强技术通常会提高数据的多样性，可以进一步提高模型的泛化能力。

多元时间序列(MTS)数据是一种常见的数据形式，普遍存在于日常生活的各个领域，比如经济领域的股票价格走势、医疗领域的肿瘤增长历史记录等。创面微环境数据也是MTS数据形式，在每一时间节点可以采集渗出液PH值、创面温度、湿度、氧分压等多种数据。从创面微环境的多元时间序列数据中发现潜在规律，挖掘数据中存在的价值，能够有效指导医生的临床决策，降低误诊率。数据增强方法对于机器学习模型和深度学习模型的拟合和泛化能力有很好的加强和补充作用，因此对于数据量匮乏的创面微环境数据，提供一种有效的多元时间序列数据增强方法是非常有价值的。目前对多元时间序列数据的研究大多集中于数据特征的提取和样本间距离的度量等方向，数据增强相关方法的研究相对较少，已有的典型方案主要包括：

(1)基于时域、频域变换的数据增强方法

时域内的数据变换是最常见的时间序列数据增强方法，通常通过注入噪声、从原始序列中提取连续切片等方法进行增强。同时也有少数研究利用频域频谱和振幅的扰动来实现。

(2)基于统计生成模型的数据增强方法

该类方法主要通过自回归滑动平均模型(ARMA)、混合自回归模型(MAR)等统计学模型对原始时间序列数据进行建模，这些模型通过拟合时间t的值与之前时间步的值的依赖来描述时间序列的条件分布，进而通过扰动初始值来生成一个新的时间序列样本。

(3)基于学习的数据增强方法

该类方法目前主要是通过学习嵌入空间或者生成对抗网络来生成新样本。学习嵌入空间是指将数据映射到新的表征空间内，对表征空间内的特征向量再进行增强。生成对抗学习框架则通常包括一个生成网络和一个判别网络，通过联合训练来优化模型参数，进而得到一个高效的分类器。

但是上述几种数据增强方法并不完全适用于创面微环境指标数据，主要原因在于以下两点：

(1)创面微环境指标数据是离散型时序数据，且由于创面持续时间短以及难以采集的原因，通常获得的该类数据的时间步长都较短，从中提取更短的数据切片来进行数据增强很大程度上会丢失一部分数据特征；

(2)向原始数据中注入噪声、扰动频域频谱和振幅以及基于统计模型的生成方法，都是在一个特征维度内对该维度的时间序列数据进行增强，而创面微环境指标数据是多变量离散型时间序列数据，其特征维度间的相关作用关系是至关重要的，因此该类方法并不适用于创面微环境指标数据集；

基于学习的数据增强方法根据其采用的网络模型不同，可以同时考虑到数据的多维度间的依赖关系以及各个维度内的时间依赖关系，但由于网络结构参数众多，需要大量的原始数据进行训练。对于创面微环境指标数据而言，采集大量可用样本是十分困难的，因此，本发明提出一种不同于上述方法的适用于创面微环境指标数据集的多元时间序列数据增强方法。

发明内容

要解决的技术问题

为了改善有监督分类任务场景下机器学习模型及深度神经网络模型在数据量匮乏的创面微环境数据上的预测效果，本发明提出了一种基于动态时间规整(Dynamic TimeWarping，DTW)的多元时间序列数据增强方法。该方法基于输入的多元时间序列数据集合成新的数据样本，同时通过随机权重和添加噪声的方式提高数据多样性，以弥补数据量不足时所带来的模型过拟合和泛化能力差的问题，有效提高各种分类器在创面微环境数据集上的预测效果。

技术方案

一种针对创面微环境数据的多元时间序列数据增强方法，主要包括基于DTW度量多元时间序列数据样本间的距离、基于DTW对齐两个多元时间序列数据样本、计算多个数据样本的平均序列、引入随机权重和高斯噪声等部分。生成一条新样本的总体步骤如下：

步骤1：输入待增强的创面微环境数据集X，该数据集对应的标签集Y，以及可配置的参数：寻找的近邻数量K、基准样本权重参数ω；

步骤2：从数据集X中随机选取一个样本作为基准样本，记为X₀，其对应的类别标签为Y₀；

步骤3：计算数据集X中所有类别为Y₀的数据样本与X₀之间的基于DTW规整后的距离，寻找最近的K个样本，计算这K个所选样本分别相对于X₀的DTW规整序列，与X₀组成待平均数据集AvgTS，其大小为K+1；

步骤4：生成随机权重集W。权重集W＝{ω,ω₁,…,ω_K}，ω是基准样本权重值，是一个可配置的输入参数，{ω₁,…,ω_K}是K个近邻样本的权重，通过伪随机数生成的方式生成，并将其规整为和为1-ω的K个权重值；

步骤5：计算数据集AvgTS每一时间步的数据按照W中的权重进行的加权平均值，构成均值时间序列X_new；

步骤6：添加噪声。对求得的均值序列X_new添加高斯噪声，作为一条新的数据样本，且其标签与基准样本X₀一致。

所述步骤1中的创面微环境数据集X＝{X₁,X₂,…,X_N}，其中X_i＝{X_i,1,X_i,2,…,X_i,T}为一个多元时间序列，其中X_i,j＝{x₁,x₂,…,x_n}，N为样本集数量，T为每个样本的时间步长，n为每一时间步内的特征数。样本集对应的标签集Y＝{Y₁,Y₂,…,Y_N}，其中Y_i表示样本X_i的类别标签。

所述步骤3中计算样本集中一个样本X_c相对于X₀的基于动态时间规整算法规整后的距离，是指通过动态时间规整算法，将X_c相对于X₀在时间轴下进行扭曲，即进行拉伸或者收缩，并寻求最优的规整方案。这里的最优是指规整后每一时间步的距离之和最小。规整后X₀中每一个时间步的数据对应于X_c中一个或多个时间步数据，进而计算每一时间步的样本距离以及整个序列的距离。

所述步骤3中的动态时间规整算法是一个优化问题，基于动态规划思想进行求解。动态时间规划算法可以通过递归来计算最优规整下的成本，即对齐后两个序列的距离，其计算公式如下：

A和B即为两个多元时间序列。时间序列A定义为A＝{a₁,a₂,...,a_T}，时间步长为T。其中每一时间步的向量a_i＝{a_i1,a_i2,...,a_in}，每一时间步的特征向量具有n个特征。D(A_i,B_j)表示时间序列A的前i个时间步和B的前j个时间步的距离，d(a_i,b_j)表示序列A中时间步i处的向量a_i与序列B中时间步j处的向量b_j之间的距离。多元时间序列每一时间步的数据为一个向量，对应时间步的向量之间的距离采用欧氏距离进行度量，即：

所述步骤3中的距离即为通过上述DTW算法后所求得的D(X_C,T,X_0,T)的值，计算过程中可以通过定义一个矩阵来记忆已经计算过的距离以减少耗时。

所述步骤3中DTW规整序列是指每个样本相对于X₀的对齐序列，在计算两个序列的DTW距离时，根据过程中求得的距离矩阵可以回溯获得最优对齐时的对齐方案。所谓对齐方案，是指X₀中一个时间步对应于X_C中一个或多个时间步。例如，X₀＝{X_0,1,X_0,2,...,X_0,T}，X_C对应于X₀的对齐方案可能为XC′＝{{X_C,1},{X_C,2,X_C,3,X_C,4},...,{X_C,T}}，即对齐后X₀的第一个时间步对应于X_C的第一时间步的数据，X₀的第二时间步数据对应于X_C的第二、三、四时间步数据，依此类推。

所述步骤4中的随机权重集W＝{ω,ω₁,…,ω_K}，其大小为K+1，其和为1，表示待平均样本集中每个样本的权重。这里对基准样本赋予ω的权重，其余K个样本的权重通过伪随机数生成的方式生成，且其权重之和为1-ω。ω为可配置参数，对于创面微环境数据集，其经验值为0.5。

所述步骤5中计算数据集AvgTS的加权平均序列是指对求得的K个样本相对于基准样本X₀的对齐序列，对每一时间步求加权平均值作为合成样本该时间步的数值向量。以上述举例的对齐方案为例，X₀和X_C在第二时间步的平均向量为：

其中W₀和W_c为随机权重集中这两个样本对应的权重值。

所述步骤6中的高斯噪声是指概率密度函数服从高斯分布的一类噪声。这里有两个可配置的参数，即服从的高斯分布的期望和方差。向数据中加入合适的高斯噪声会让数据具有一定的误差从而更具有实验价值，可以提高模型的泛化能力。

所述步骤6中的X_new的标签是指合成样本的标签，其与随机选择的基准样本X₀所具有的标签相同。因为数据生成过程中，选择的用于生成新样本的原始样本子集是具有同一标签值的，都是基准样本的同类别样本数据，因此最终合成的样本标签与基准样本的标签一致。

有益效果

本发明提出一种基于动态时间规整算法的多元时间序列数据增强方法，其创新之处主要在于基于DTW相对规整后的序列进行加权平均以获得一个合成样本，同时通过对各个样本赋予随机权重和高斯噪声来提高合成数据的多样性。本发明基于动态时间规整算法进行样本间的相似性度量，通过随机选择一个样本作为基准样本，搜索与基准样本最近邻的K个同类别样本，对所有选择的样本相对于基准样本进行动态时间规整，并对规整后的样本集进行加权平均，将均值序列数据作为一个新的合成样本。同时，通过引入随机权重和高斯噪声来进一步丰富数据。通过结合具体的机器学习模型或深度学习模型，该数据增强方法能够有效提高模型在创面微环境数据上的预测准确率，改善模型的泛化能力，同时对其他多种多元时间序列数据集也有效。对于深度神经网络模型，由于极大地丰富了训练样本，能够有效提高模型收敛速度，减少过拟合情况的产生。本方法针对于创面微环境数据集，但也可用于多种其他领域的多元时间序列数据，能够有效解决样本数据不足时应用当前主流机器学习模型和深度学习模型时的局限性。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是本发明提出的针对创面微环境数据的多元时间序列数据增强方法的流程图；

图2是本发明与机器学习模型进行结合时的整体分类框架；

图3是应用该发明时不同数据集在不同模型下的改进效果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

多元时间序列数据集是指连续多个时间步、且每一时间步内包含多个特征数据值的数据，是创面微环境数据集的数据形式，也是医疗领域常见的数据形式，具有重要的分析意义。大量的标准数据样本是保证得到一个高准确率的分析模型的基本前提，因此，对于难以采集的创面微环境数据，有效的数据增强技术是至关重要的。为此，针对创面微环境的多元时间序列数据集，本发明提出了一种基于动态时间规整算法的数据增强方案。

图1是本发明的总体流程图。本发明提出的针对创面微环境数据的多元时间序列数据增强方案，具体主要包括基于DTW度量多元时序数据样本间相似性、基于DTW进行时序数据规整、时序数据集加权平均、添加高斯噪声等部分。下面结合图1，对实际扩增多条数据样本时的具体步骤进行详细阐述。

步骤一：明确输入数据的形式是否为时间序列数据，输入数据维度应为(N，time_length，feature_nums)，N为样本数量，time_length为时间步长，feature_nums为每一时间步内的特征数。同时需要输入对应的标签集数据，其大小为N，以及需要扩增的数据量amount、寻找的近邻数量K和基准样本权重值ω。

步骤二：基于动态时间规整算法，计算样本间的DTW距离和相对的规整路径。为避免后续重复计算，定义两个数组分别存储相关样本间的距离和对齐路径。定义D(X_i,X_j)表示样本X_i和X_j之间的DTW距离。同时，计算DTW距离过程中，根据求得的距离矩阵回溯获得最优对齐时的对齐方案，定义为P_BA，表示序列B相对于A对齐时的规整序列，其中P_BA＝{p₁,p₂,...,p_L}，即表示规整后序列A中a_i所对应的序列B的时间步序列的索引序列为p_i＝{I₁,I₂,...,I_m}，即a_i对应于序列B的数据为

步骤三：从样本集中随机选取一个样本X₀作为基准样本，其标签为Y₀。寻找与该基准样本最近邻的K个同类别样本。基于存储的对齐路径，构造这K个近邻相对于X₀的规整后的数据集AvgTS。

步骤四：生成权重集W，其中基准样本的权重值为输入的配置参数ω，其余K个样本采用生成随机数的方式来随机生成，且其权重之和为1-ω。

步骤五：计算AvgTS中K+1个样本的每一时间步的规整后的向量的加权平均值，作为合成数据的该时间步的向量。

步骤六：对合成数据添加高斯噪声。这里有两个可配置的参数，即服从的高斯分布的期望和方差。噪声是数据增强的一种手段，本质是一种正则化，目的是为了让训练出来的模型能够对抗噪声的影响，提升模型的健壮性和鲁棒性，避免过拟合。这里通过添加高斯噪声来给合成数据带来一定的偏差，从而提高扩增数据的丰富性。

步骤七：重复执行步骤三至步骤六，直至生成amount个合成数据。

图2是结合该数据增强方法的分类模型的整体框架。对于原始数据集，首先需要进行数据的预处理，对缺失值、异常值等采用相应的方法进行处理。然后进行数据集的划分，通常会划分为训练集和测试集，训练集用于生成新样本和训练分类器，测试集用于最后验证分类器的预测效果。我们对训练集数据采用上述数据增强方法来进行数据扩增，生成一定数量的新样本。将新的合成样本与原始训练集样本共同作为训练数据输入到搭建的分类模型进行训练。训练结束后在测试集进行模型拟合效果的测试。上述分类模型可以是传统机器学习模型，也可以是搭建的神经网络分类器。

图3为该数据增强方法在创面微环境数据集和几个开源数据集上的分类任务测试结果。分类模型我们选择了TSC任务的基准模型NN-DTW，即基于DTW相似性度量的最近邻方法，以及支持向量分类(SVC)和基于CNN搭建的神经网络分类器。测试的扩增数据量为初始训练集数据量的1倍和2倍。测试过程中配置的近邻数为5，权重ω为0.5，引入的高斯噪声为服从均值为0、标准差为0.005的高斯分布的噪声。由于该实验目的为验证数据增强方法的有效性，因此，多次实验的SVC参数和神经网络模型的结构固定不变，均为在不进行数据增强时进行调整后的较优参数配置。参考图3，表中数值为测试集的预测准确率，可以看出该数据增强方法能够有效改善分类器在创面微环境数据集上的预测效果，同时对其他数据集也有一定的改善。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种针对创面微环境数据的多元时间序列数据增强方法，其特征在于步骤如下：

步骤4：生成随机权重集W；权重集W＝{ω,ω₁,…,ω_K}，ω是基准样本权重值，是一个可配置的输入参数，{ω₁,…,ω_K}是K个近邻样本的权重，通过伪随机数生成的方式生成，并将其规整为和为1-ω的K个权重值；

步骤6：添加噪声：对求得的均值序列X_new添加高斯噪声，作为一条新的数据样本，且其标签与基准样本X₀一致。

2.根据权利要求1所述的一种针对创面微环境数据的多元时间序列数据增强方法，其特征在于：所述步骤1中的创面微环境数据集X＝{X₁,X₂,…,X_N}，其中X_i＝{X_i,1,X_i,2,…,X_i,T}为一个多元时间序列，其中X_i,j＝{x₁,x₂,…,x_n}，N为样本集数量，T为每个样本的时间步长，n为每一时间步内的特征数；样本集对应的标签集Y＝{Y₁,Y₂,…,Y_N}，其中Y_i表示样本X_i的类别标签。

3.根据权利要求1所述的一种针对创面微环境数据的多元时间序列数据增强方法，其特征在于：所述步骤3中计算样本集中一个样本X_c相对于X₀的基于动态时间规整算法规整后的距离，是指通过动态时间规整算法，将X_c相对于X₀在时间轴下进行扭曲，即进行拉伸或者收缩，并寻求最优的规整方案；这里的最优是指规整后每一时间步的距离之和最小；规整后X₀中每一个时间步的数据对应于X_c中一个或多个时间步数据，进而计算每一时间步的样本距离以及整个序列的距离。

4.根据权利要求1所述的一种针对创面微环境数据的多元时间序列数据增强方法，其特征在于：所述步骤3中规整序列是指每个样本相对于X₀的对齐序列，在计算两个序列的DTW距离时，根据过程中求得的距离矩阵可以回溯获得最优对齐时的对齐方案；所谓对齐方案，是指X₀中一个时间步对应于X_C中一个或多个时间步。

5.根据权利要求1所述的针对创面微环境数据的多元时间序列数据增强方法，其特征在于：所述步骤4中的随机权重集W＝{ω,ω₁,…,ω_K}，其大小为K+1，其和为1，表示待平均样本集中每个样本的权重；这里对基准样本赋予ω的权重，其余K个样本的权重通过伪随机数生成的方式生成，且其权重之和为1-ω；ω为可配置参数，对于创面微环境数据集，其经验值为0.5。

6.根据权利要求1所述的针对创面微环境数据的多元时间序列数据增强方法，其特征在于：所述步骤5中计算数据集AvgTS的加权平均序列是指对求得的K个样本相对于基准样本X₀的对齐序列，对每一时间步求加权平均值作为合成样本该时间步的数值向量。