CN110288003B

CN110288003B - 数据变化识别方法及设备

Info

Publication number: CN110288003B
Application number: CN201910454689.8A
Authority: CN
Inventors: 孙炼; 蔡宴朋; 杨薇; 易雨君; 李春晖; 王烜
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2022-01-18
Anticipated expiration: 2039-05-29
Also published as: CN110288003A

Abstract

本发明实施例提供一种数据变化识别方法及设备，该方法包括获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间；从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。本发明实施例能够对变化量级较低的微弱变化进行精确的识别。

Description

数据变化识别方法及设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据变化识别方法及设备。

背景技术

序列数据是地球科学各学科(自然地理学、环境科学、生态学、水文水资源学、气候学、地质学等)的基础研究数据，其记载了自然因素(如火山喷发、自然气候变迁、地质灾害、地壳运动等)或人类活动(如大气和土壤污染、道路和水利工程建设、生态破坏等)在十数年至数万年时间不等时间内的变化信息，研究人员利用长时间序列的地球科学要素信息认识自然和人类活动影响的规律。

现有技术中，通常采用统计分析或稳态检验等常规的变化检测方法来检测表征地球科学要素信息的一个序列数据的变化来掌握自然因素及认为因素的影响规律。

然而，地球科学领域的序列数据的变化时常是微弱的，变化幅度比较小，上述常规的变化检测方法精度有限，难以提取出变化的信息。

发明内容

本发明实施例提供一种数据变化识别方法及设备，以提高识别数据变化的精度。

第一方面，本发明实施例提供一种数据变化识别方法，包括：

获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间；

从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差；

根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。

第二方面，本发明实施例提供一种数据变化识别设备，包括：

获取模块，用于获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间；

处理模块，用于从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差；

识别模块，用于根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。

第三方面，本发明实施例提供一种数据变化识别设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的方法。

本实施例提供的数据变化识别方法及设备，该方法通过以与所述目标序列数据具有相同时间区间的所述样本序列数据为比对标准，从所述时间区间内选取多个时间点，并以每个时间点为界线对上述两个序列数据分别进行分割，获得时间点前的两个子序列数据，时间点后的两个子序列数据，通过获取时间点前的两个子序列数据间的距离与时间点后的两个子序列数据间的距离之差，并根据每个时间点对应的该距离之差，识别所述目标序列数据相对于所述样本序列数据的变化信息。相应的，通过对从目标区域采集的目标序列数据和从样本区域采集的样本序列数据，进行相似性度量计算，获得目标序列数据相对于样本序列数据的变化信息，相对于仅对从目标区域采集的目标序列数据进行变化识别，更能够对变化量级较低的微弱变化进行精确的识别，此外，由于选取了多个时间点并针对每个时间点度量该时间点前的序列的相似性以及该时间点后的序列的相似性，进而获得该时间点前后的序列的距离差，采用了被多个时间点分割后两个序列自身的距离差进行分析，进一步提高了对数据变化识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的数据变化识别方法的流程示意图；

图2为本发明又一实施例提供的数据变化识别方法的流程示意图；

图3为本发明又一实施例提供的数据变化识别方法的流程示意图；

图4为本发明又一实施例提供的数据变化识别设备的结构示意图；

图5为本发明又一实施例提供的数据变化识别设备的硬件结构示意图；

图6为本发明又一实施例提供的数据变化识别方法中获取的目标序列数据和样本序列数据的距离差的时间变化曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施例：

图1为本发明一实施例提供的数据变化识别方法的流程示意图。如图1所示，该方法包括：

101、获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间。

本实施例中方法的执行主体可以为具有数据处理运算能力的任意终端设备，例如，所述终端设备可以为智能手机、平板设备、计算机等，还可以为能够进行数据处理运算的服务器。

实际应用中，该方法可以适用于对某影响事件对于地球系统影响规律的识别，尤其是在影响程度较小、变化微弱时，难以根据采集的受影响地区的时间序列数据通过常规的变化检测方法(统计分析和稳态检验)对该微弱变化进行识别的情况。

以下结合具体应用场景对所述目标序列数据和所述样本序列数据进行示例说明，工程建设对所在地域的气候的影响是典型的微弱变化类型，通过常规检测方法难以识别出该工程建设对所在地域气候产生影响的气候变化信息。假设第一区域和第二区域的背景气候和自然地理特征完全一致，第一区域位于某大型工程附近，其周围(半径R<10km)局地气候可能会受到该工程建设的影响，第二区域为不受工程开发影响的较远区域(R>30km)。该工程建于1998年，现欲识别出工程建设后工地周围局地气候是否受到影响。如果有影响则须识别出局地气候的变化时间和变化方向。如表1所示，序列A为第一区域的时间序列气象数据，本实施例中将其作为目标序列数据，序列B为第二区域的时间序列气象数据，本实施例中将其作为样本序列数据。所述目标序列数据(序列A)和所述样本序列数据(序列B)位于相同的时间区间(1975年至2017年)。

表1 目标序列数据和样本序列数据(序列A和序列B)

102、从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差。

实际应用中，从所述时间区间内选取多个时间点作为时间点集合的选取方式可以有多种。可选地，可以从所述时间区间内选取全部的时间点作为所述时间点集合。例如，针对表1中的数据，可以选取1975年至2017年间各时间点作为时间点集合。还可以从所述时间区间内选取影响事件发生时间所在的所述时间区间的部分时段。例如，针对表1中的数据，可以选取包括工程建设时间1998年的所述时间区间内的部分时段，1988年至2008年。还可以通过相关性算法等数据处理算法计算出所述目标序列数据相对于样本序列数据变化较大的突变时段，并将该时段内各时间点作为所述时间点集合。

假设所述时间点集合选定为1988年至2008年，则所述针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差，可以包括：针对1988年时间点，以1988年为界线，将序列A分割为1988年前(1975年至1987年)的第一前子序列和1988年后(1999年至2017年)的第一后子序列，相应的，将序列B分割为1988年前(1975年至1987年)的第二前子序列和1988年后(1999年至2017年)的第二后子序列，根据所述第一前子序列和所述第二前子序列计算得到第一距离，作为所述时间点前的目标序列数据和样本序列数据间的距离，根据所述第一后子序列和所述第二后子序列计算得到第二距离，作为所述时间点后的目标序列数据和样本序列数据间的距离，计算所述第一距离和所述第二距离之间的差值，作为1988年对应的距离差。同理，获取1989年对应的距离差、1990年对应的距离差直至2008年对应的距离差。

可选地，所述根据分割后得到的序列数据确定的所述时间点对应的距离差可以通过多种相似性度量算法获得，例如，欧式距离、马氏距离、动态时间规整算法(Dynamic TimeWarping,DTW)等。

以欧式距离为例，以下对相似性度量计算过程进行详细说明：对时间点集合T内每一时间点t_i，将序列A划分为t_i前和t_i后两个子序列AM_ti,和AN_ti，将序列B划分为t_i前和t_i后两个子序列BM_ti和BN_ti；分别计算AM_ti与BM_ti的欧式距离EM_ti，AN_ti与BN_ti的欧式距离EN_ti。列向量(a₁,a₂,…,a_s)^T与(b₁,b₂,…,b_s)^T之间的欧式距离E计算如下：

其中，a_s为列向量(a₁,a₂,…,a_s)^T的第s个元素，b_s为列向量(b₁,b₂,…,b_s)^T的第s个元素，E为列向量(a₁,a₂,…,a_s)^T和列向量(b₁,b₂,…,b_s)^T的距离差。

则对于每一个划分时间点t_i，序列A、B的欧式距离之差D_ti为：

其中，EN_ti为序列A在t_i后的子序列AN_ti和序列B在t_i后的子序列BN_ti之间的欧式距离，EM_ti为序列A在t_i前的子序列AM_ti和序列B在t_i前的子序列BM_ti之间的欧式距离。

时间点集合T内所有时间点对应的距离差D_ti组成的时间序列D。对于计算时原序列划分后两段时间跨度不一致的，以较短序列为各段序列时间长度；若关心的时间点如工程完工时间靠近T的区间端点，为便于分析变化趋势，可同时计算T₁之前(k₁-1)/2或T_m之后(k₁-1)/2个时间单位跨度的欧式距离之差。

103、根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。

可选地，可以对所述时间点集合内各时间点中相邻时间点对应的距离差进行求差运算获得相邻时间点间的差值(例如，所述时间点集合为1988年至2008年，则求取1998年与1999年的差值，1999年与2000年的差值，依次类推，直至获得2007年与2008年的差值)，根据各相邻时间点间的差值的大小，识别所述目标序列数据相对于所述样本序列数据的变化规律(例如，若1988年至1998年间，相邻年的差值稳定在0.1至0.4之间，而1998年至2008年间，相邻时间点间的差值稳定在0.01至0.05之间，则可判定1998年为数据突变时间点，进一步的，还可以根据该突变时间点以及其前后相邻时间点对应的距离差判断该变化的变化方向)。

本实施例提供的数据变化识别方法，通过对从目标区域采集的目标序列数据和从样本区域采集的样本序列数据，进行相似性度量计算，获得目标序列数据相对于样本序列数据的变化信息，相对于仅对从目标区域采集的目标序列数据进行变化识别，更能够对变化量级较低的微弱变化进行精确的识别，此外，由于选取了多个时间点并针对每个时间点度量该时间点前的序列的相似性以及该时间点后的序列的相似性，进而获得该时间点前后的序列的距离差，采用了被多个时间点分割后两个序列自身的距离差进行分析，进一步提高了对数据变化识别的精度。

所述微弱变化是指用常规统计检验，如样本间t检验或配对t检验，单因素方差分析(ANOVA)等，无法识别出显著性差异的变化，也即P>0.05，其中，P值(P value)为(在假设检验中)当原假设为真时所得到的样本观察结果或更极端结果出现的概率。也就是说目标序列数据和样本序列数据表没有差异的概率大于5％，即不能否认目标序列数据和样本序列数据没有差异。所以，仅通过一般的统计检验方法，不能认为上述工程建设对气候的影响是显著的。

图2为本发明又一实施例提供的数据变化识别方法的流程示意图。在图1所示的实施例的基础上，本实施例对步骤102中时间点的选取进行了详细说明，如图2所示，该方法包括：

201、获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间。

本实施例中步骤201与上述实施例中步骤101相类似，此处不再赘述。

202、定义多个不同的时间窗口。

可选地，所述时间窗口可以定义为任何一个小于等于工程建设年限(工程始建至目标序列数据所在时间区间的终止时间点的区间长度)，例如，如表1所示，工程始建于1998年，序列数据的终止时间点为2017年，因此针对表1的两个序列，可以将时间窗口的长度定义为小于等于19年的任意年。但是由于窗口期太短得出的结果稳定性较差(即从结果-时间曲线上看波动得比较厉害)，难以对数据变化程度做出精准的判断，因此所述时间窗口的长度的下限可以限定为6年至9年。

可选地，可以将时间窗口的长度定义为奇数年，以便将后面分析得出的数值可以认为是时间窗口中间年份对应的数据。

203、通过以每个时间窗口作为滑动窗，计算所述滑动窗下所述目标序列数据和所述样本序列数据之间的相关系数，获得多个时间窗口下的相关系数序列。

可选地，所述通过以每个时间矿口作为滑动窗，计算得到的所述滑动床下所述目标序列数据和所述样本序列数据之间的相关系数，可以通过多种相关性分析方法获得，例如：皮尔逊(Pearson)相关性分析方法、斯皮尔曼(Spearman)相关性分析方法等。

作为本实施例的一种具体的实施方式，可以针对每个时间窗口，通过执行以下处理，获得所述时间窗口下的相关系数序列，所述时间窗口下的相关系数序列包括所述时间窗口下各参考时间点对应的相关系数：

203-1、以所述时间区间内首个时间点为起点，确定当前的滑动窗，所述滑动窗的长度与所述时间窗口的长度相等。

203-2、将当前滑动窗内位于中间的时间点作为所述时间窗口下的参考时间点，计算所述参考时间点对应的目标序列数据和样本序列数据之间的相关系数，作为所述参考时间点对应的相关系数。

203-3、以当前滑动窗的起点的下一相邻时间点为起点，更新当前的滑动窗并返回执行步骤203-2，直至当前滑动窗的终点超出所述时间区间。

具体地，以皮尔逊相关分析方法为例，假定定义m个时间窗口，计算m个时间窗口k_i(k_i＝2n+1,n为非负自然数，i＝1,2,…,m)下序列A(a₁,a2,…,a_s)、B(b₁,b₂,…,b_s)的皮尔逊滑动相关系数，以滑动相关系数组成m个新时间序列C₁,C₂,…,C_m。以皮尔逊相关系数r为例，滑动相关系数的计算公式为：

其中，

分别表示a₁,a₂,…,a_j的均值和b₁,b₂,..b_j的均值。

对于每个窗口长度k_i，其皮尔逊滑动相关计算操作如下：先计算第一个窗口下即(a₁,a₂,…,a_ki)与(b₁,b₂,…,b_ki)之间的皮尔逊相关系数r₁，再计算窗口向后滑动一个时间单位即(a₂,a₂,…,a_ki+1)与(b₂,b₂,…,b_ki+1)之间的皮尔逊相关系数r₂，如此依次向后滑动窗口直至最后一个时间单位(a_m-ki,a_m-ki+1,…,a_s)与(b_m-ki,b_m-ki+1,…,b_s)参与计算得到皮尔逊相关系数r_s-ki。

结合表1的数据，以下对通过上述实施方式计算表1中序列A、B之间的滑动相关系数进行示例说明：

如表1所示，A序列和B序列的长度为43年，即所述目标序列数据和所述样本序列数据位于的相同的时间区间的时间长度为43年，考虑工程建设年1998年至序列最后一年2017的时间跨度为19年，为了保证计算结果的稳定性，以及为了便于将计算结果分配至时间窗口的中间年份，所以可以选择9年至19年的奇数年作为时间窗口的长度，例如设置5个时间窗口，长度分别为11、13、15、17、19年。计算各时间窗口下序列A，B之间的滑动相关系数，不足时间窗口长度的序列值不参与计算，得到5个滑动相关序列如表2所示。

表2 各时间窗口滑动相关系数

204、通过针对每个时间窗口，计算所述时间窗口下的相关系数序列的变异指数，获得所述多个时间窗口下的变异指数序列。

可选地，可以采用稳态转换检验算法(Regime shift detection)计算每一个序列C_i(i＝1,2,…,m)的变异指数(Regime Shift Index，RSI)，得到对应序列的新序列RSI_i。该稳态转换检验算法为现有技术，其EXCEL插件或MATLAB包可从网络上自行下载，此处不再赘述。

关于稳态转换，以生态学为例，稳态是指系统结构和功能的大规模、突然、持续性改变。对于地球科学领域的时间序列数据，稳态转换可理解序列的突变，如1950年以来某地区年均气温在1989年有突变，并1989年之前较稳定的年均15℃突变为1989年之后较稳定的16℃，称之为发生了稳态转换。

通过采用稳态转换检验算法可以检测出每个时间窗口下所述相关系数序列的变化时间点t₀，并且识别出t₀前后的变化方向(如增加或降低)，还可以量化t₀处的变化大小。

可选地，针对每个时间窗口下变异指数序列中的突变时间点，通过将所述突变时间点作为其所在第一时段的中间点，确定所述第一时段，所述第一时段的长度与所述时间窗口的长度相同。

结合表2的数据，对变异指数序列的计算进行以下示例说明：

稳态转换检验算法的程序参数设置为：目标显著性水平为0.1，划分长度为10，Huber权重参数为1，无红噪声过程。分别计算5个滑动相关序列的RSI值，得到5个变异指数序列RSI_i，如表3。

表3 各时间窗口RSI指数

205、获取每个时间窗口下的变异指数序列中变异指数最大值对应的突变时间点所在的第一时段；其中，所述第一时段的长度与所述时间窗口的长度相同。求取所述多个时间窗口下第一时段的交集，将所述交集内的各时间点作为所述时间点集合。

可选地，记各序列RSI_i最大值对应的时间为TM_i，TM_i对应时间窗口k_i，其所在区间为TMP_i＝[TM_i-(k_i-1)/2,TM_i+(k_i-1)/2]。各区间TMP_i的交集为共同区间T，该共同区间内的各时间点组合为所述时间点集合。

例如，如表3所示，时间窗口11、13、15、17、19年的序列RSI_i最大数值对应年份TM_i分别为2000、2001、2002、2003、2004年，对应的所在时间段分别是[1995,2005]、[1995,2006]、[1995,2007]、[1995,2008]、，上述各时间段区间的交集为TMP_i＝[1995,2005]，因此欧式距离之差分析时间段为T＝[1995,2005]。

206、针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差。

结合表3的数据，以欧式距离为例，对对应于时间点集合内各时间点的序列A和序列B之间的欧式距离差的计算进行以下示例说明：T时间段内各划分时间点T_i之前的A、B欧式距离记为EM_ti，划分时间点T_i之后的A、B欧式距离记为EN_ti，前后欧式距离之差为D_ti如表4所示。

表4 时间点集合内各时间点对应的距离差

207、根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。

本实施例中步骤207与上述实施例中步骤103相类似，此处不再赘述。

本实施例提供的端点检测方法，通过将多时间窗口滑动相关分析、稳态转换检验算法和相似性度量算法相结合，识别出地球科学时间序列数据的变化信息，尤其对量级较低的微弱变化也能够准确识别。

图3为本发明又一实施例提供的数据变化识别方法的流程示意图。在上述实施例的基础上，例如在图1所示的实施例的基础上，本实施例对步骤103进行了详细说明，如图3所示，该方法包括：

301、获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间。

302、从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差。

本实施例中步骤301和步骤302与上述实施例中步骤101和步骤102相类似，此处不再赘述。

303、根据所述时间点集合内各时间点对应的距离差，绘制距离差随时间的变化曲线，并根据所述距离差随时间的变化曲线，识别出所述目标序列数据相对于所述样本序列数据发生最大变化的时间点和变化方向。

实际应用中，可以作图绘制所述时间点集合内各时间点对应的距离差D随时间变化曲线，从而可以确定出最大变化时间点和变化方向，数值越大表示序列之间的地球科学要素差异越大。

结合表4的数据，作图绘制D_ti随T_i的变化图，图6为本发明又一实施例提供的数据变化识别方法中获取的目标序列数据和样本序列数据的距离差的时间变化曲线图，参见图6，从图中可以看出该变化曲线在1999年走向出现明显变化，表明工程建设对局地气候产生影响的起始时间在1998-1999年间，与工程建设时间基本一致；同时，D_ti随时间增长变化的趋势从1999年以前的上升状态变为1999年后的稳定状态，表明与工程建设之前相比，工程建设以后第一区域和第二区域两地的气候差异增大，并且维持在较为稳定的大差异水平。

本实施例提供的端点检测方法，通过针对时间点集合内各时间点计算获得所述目标序列数据和所述样本序列数据之间的距离差，并根据该距离差绘制该距离差随时间的变化曲线，能够直观清晰的根据曲线的斜率变化，判断所述目标序列数据相对于所述样本序列数据的发生稳态转移即发生最大变化的时间点和变化方向，进而能够掌握自然因素或人为因素对地球相关区域的生态环境的影响规律。

图4为本发明又一实施例提供的数据变化识别设备的结构示意图。如图4所示，该数据变化识别设备40包括：获取模块401、处理模块402以及识别模块403。

获取模块401，用于获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间。

本实施例的数据变化识别设备可以为具有数据处理运算能力的任意终端设备，例如，所述终端设备可以为智能手机、平板设备、计算机等，还可以为能够进行数据处理运算的服务器。

实际应用中，该设备可以适用于对某影响事件对于生态环境的影响规律的识别，尤其是在影响程度较小，变化微弱时，难以根据采集的受影响地区的时间序列数据通过常规的变化检测方法(统计分析和稳态检验)对该微弱变化进行识别的情况。

处理模块402，用于从所述时间区间内选取多个时间点作为时间点集合；针对所述时间点集合内每个时间点，以所述时间点为界线，将目标序列数据和样本序列数据进行分割，并根据分割后得到的序列数据确定所述时间点对应的距离差；其中，时间点对应的距离差为所述时间点前的目标序列数据和样本序列数据间的距离，与所述时间点后的目标序列数据和样本序列数据间的距离之差。

以欧式距离为例，相似性度量计算过程如下：对T内每一时间点t_i，将序列A划分为t_i前和t_i后两个子序列AM_ti,和AN_ti，将序列B划分为t_i前和t_i后两个子序列BM_ti和BN_ti；分别计算AM_ti与BM_ti的欧式距离EM_ti，AN_ti与BN_ti的欧式距离EN_ti。列向量(a₂,a₂,…,a_s)^T与(b₂,b₂,…,b_s)^T之间的欧式距离E计算如下：

则对于每一个划分时间点t_i，序列A、B的欧式距离之差Dt_i为：

识别模块403，用于根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息。

可选地，所述识别模块403可以对所述时间点集合内各时间点中相邻时间点对应的距离差进行求差运算获得相邻时间点间的差值(例如，所述时间点集合为1988年至2008年，则求取1998年与1999年的差值，1999年与2000年的差值，依次类推，直至获得2007年与2008年的差值)，根据各相邻时间点间的差值的大小，识别所述目标序列数据相对于所述样本序列数据的变化规律(例如，若1988年至1998年间，相邻年的差值稳定在0.1至0.4之间，而1998年至2008年间，相邻时间点间的差值稳定在0.01至0.05之间，则可判定1998年为数据突变时间点，进一步的，还可以根据该突变时间点以及其前后相邻时间点对应的距离差判断该变化的变化方向)。

本发明实施例提供的数据变化识别设备，通过处理模块对从目标区域采集的目标序列数据和从样本区域采集的样本序列数据，进行相似性度量计算，并通过识别模块识别目标序列数据相对于样本序列数据的变化信息，相对于仅对从目标区域采集的目标序列数据进行变化识别，更能够对变化量级较低的微弱变化进行精确的识别，此外，由于选取了多个时间点并针对每个时间点度量该时间点前的序列的相似性以及该时间点后的序列的相似性，进而获得该时间点前后的序列的距离差，采用了被多个时间点分割后两个序列自身的距离差进行分析，进一步提高了对数据变化识别的精度。

可选地，所述处理模块402具体用于：定义多个不同的时间窗口；通过以每个时间窗口作为滑动窗，计算所述滑动窗下所述目标序列数据和所述样本序列数据之间的相关系数，获得多个时间窗口下的相关系数序列；通过针对每个时间窗口，计算所述时间窗口下的相关系数序列的变异指数，获得所述多个时间窗口下的变异指数序列；获取每个时间窗口下的变异指数序列中变异指数最大值对应的突变时间点所在的第一时段；其中，所述第一时段的长度与所述时间窗口的长度相同。求取所述多个时间窗口下第一时段的交集，将所述交集内的各时间点作为所述时间点集合。

所述处理模块402还具体用于：针对每个时间窗口，通过执行以下处理，获得所述时间窗口下的相关系数序列，所述时间窗口下的相关系数序列包括所述时间窗口下各参考时间点对应的相关系数；以所述时间区间内首个时间点为起点，确定当前的滑动窗，所述滑动窗的长度与所述时间窗口的长度相等；将当前滑动窗内位于中间的时间点作为所述时间窗口下的参考时间点，计算所述参考时间点对应的目标序列数据和样本序列数据之间的相关系数，作为所述参考时间点对应的相关系数；以当前滑动窗的起点的下一相邻时间点为起点，更新当前的滑动窗并返回执行所述将当前滑动窗内位于中间的时间点作为所述时间窗口下的参考时间点，计算所述参考时间点对应的目标序列数据和样本序列数据之间的相关系数，作为所述参考时间点对应的相关系数的步骤，直至当前滑动窗的终点超出所述时间区间。

具体地，以皮尔逊相关分析方法为例，假定定义m个时间窗口，计算m个时间窗口k_i(k_i＝2n+1,n为非负自然数，i＝1,2,…,m)下序列A(a₁,a₂,…,a_s)、B(b₁,b₂,…,b_s)的皮尔逊滑动相关系数，以滑动相关系数组成m个新时间序列C₁,C₂,…,C_m。以皮尔逊相关系数r为例，滑动相关系数的计算公式为：

其中，

分别表示a₁,a₂,…,a_j的均值和b₁,b₂,..b_j的均值。

所述处理模块402还具体用于：针对每个时间窗口下变异指数序列中的突变时间点，通过将所述突变时间点作为其所在第一时段的中间点，确定所述第一时段，所述第一时段的长度与所述时间窗口的长度相同。

所述识别模块403具体用于：根据所述时间点集合内各时间点对应的距离差，绘制距离差随时间的变化曲线，并根据所述距离差随时间的变化曲线，识别出所述目标序列数据相对于所述样本序列数据发生最大变化的时间点和变化方向。

本发明实施例提供的端点检测设备，可用于执行上述的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图5为本发明又一实施例提供的数据变化识别设备的硬件结构示意图。如图5所示，本实施例提供的数据变化识别设备50包括：至少一个处理器501和存储器502。其中，处理器501和存储器502通过总线503连接。

在具体实现过程中，至少一个处理器501执行所述存储器502存储的计算机执行指令，使得至少一个处理器501执行如上数据变化识别设备50所执行的数据变化识别方法。

当本实施例的后端由服务器执行时，该通信部件503可以将语音帧发送给服务器。

处理器501的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图5所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上数据变化识别设备执行的数据变化识别方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据变化识别方法，其特征在于，包括：

获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间，所述目标序列数据为第一区域的时间序列气象数据，所述第一区域为其局地气候受到大型工程建设的影响且半径范围小于10km的区域，所述样本序列数据为第二区域的时间序列气象数据，所述第二区域为不受工程开发影响且半径范围大于30km的区域；

根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息；

所述从所述时间区间内选取多个时间点作为时间点集合，包括：

定义多个不同的时间窗口；

通过以每个时间窗口作为滑动窗，计算所述滑动窗下所述目标序列数据和所述样本序列数据之间的相关系数，获得多个时间窗口下的相关系数序列；

通过针对每个时间窗口，计算所述时间窗口下的相关系数序列的变异指数，获得所述多个时间窗口下的变异指数序列；

获取每个时间窗口下的变异指数序列中变异指数最大值对应的突变时间点所在的第一时段；其中，所述第一时段的长度与所述时间窗口的长度相同；

求取所述多个时间窗口下第一时段的交集，将所述交集内的各时间点作为所述时间点集合。

2.根据权利要求1所述的方法，其特征在于，所述通过以每个时间窗口作为滑动窗，计算所述滑动窗下所述目标序列数据和所述样本序列数据之间的相关系数，获得多个时间窗口下的相关系数序列，包括：

针对每个时间窗口，通过执行以下处理，获得所述时间窗口下的相关系数序列，所述时间窗口下的相关系数序列包括所述时间窗口下各参考时间点对应的相关系数；

以所述时间区间内首个时间点为起点，确定当前的滑动窗，所述滑动窗的长度与所述时间窗口的长度相等；

将当前滑动窗内位于中间的时间点作为所述时间窗口下的参考时间点，计算所述参考时间点对应的目标序列数据和样本序列数据之间的相关系数，作为所述参考时间点对应的相关系数；

以当前滑动窗的起点的下一相邻时间点为起点，更新当前的滑动窗并返回执行所述将当前滑动窗内位于中间的时间点作为所述时间窗口下的参考时间点，计算所述参考时间点对应的目标序列数据和样本序列数据之间的相关系数，作为所述参考时间点对应的相关系数的步骤，直至当前滑动窗的终点超出所述时间区间。

3.根据权利要求1所述的方法，其特征在于，所述获取每个时间窗口下的变异指数序列中变异指数最大值对应的突变时间点所在的第一时段，包括：

针对每个时间窗口下变异指数序列中的突变时间点，通过将所述突变时间点作为其所在第一时段的中间点，确定所述第一时段，所述第一时段的长度与所述时间窗口的长度相同。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息，包括：

根据所述时间点集合内各时间点对应的距离差，绘制距离差随时间的变化曲线，并根据所述距离差随时间的变化曲线，识别出所述目标序列数据相对于所述样本序列数据发生最大变化的时间点和变化方向。

5.一种数据变化识别设备，其特征在于，包括：

获取模块，用于获取目标序列数据和样本序列数据，其中所述目标序列数据和所述样本序列数据位于相同的时间区间，所述目标序列数据为第一区域的时间序列气象数据，所述第一区域为其局地气候受到大型工程建设的影响且半径范围小于10km的区域，所述样本序列数据为第二区域的时间序列气象数据，所述第二区域为不受工程开发影响且半径范围大于30km的区域；

识别模块，用于根据所述时间点集合内各时间点对应的距离差，识别所述目标序列数据相对于所述样本序列数据的变化信息；

所述处理模块具体用于：

定义多个不同的时间窗口；

6.根据权利要求5所述的设备，其特征在于，所述处理模块还具体用于：

7.一种数据变化识别设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至4任一项所述的数据变化识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至4任一项所述的数据变化识别方法。