CN109739904A

CN109739904A - 一种时间序列的标记方法、装置、设备和存储介质

Info

Publication number: CN109739904A
Application number: CN201811648187.0A
Authority: CN
Inventors: 战泓升; 龚诚; 张昕
Original assignee: Beijing City Network Neighbor Technology Co Ltd
Current assignee: Beijing Urban Network Neighbor Information Technology Co Ltd; Beijing City Network Neighbor Technology Co Ltd
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2019-05-10
Anticipated expiration: 2038-12-30
Also published as: CN109739904B

Abstract

本发明公开了一种时间序列的检测方法、装置、设备和存储介质。其中，该方法包括：获取时间序列中的序列点；通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果；如果第一确定结果与第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本；通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。本发明实施例提供的技术方案，避免采用单一的统计模型或者无监督学习模型对时间序列中的序列点进行检测时所存在的漏检和误检的问题，提高时间序列中异常点标记的准确性和可靠性。

Description

一种时间序列的标记方法、装置、设备和存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种时间序列的标记方法、装置、设备和存储介质。

背景技术

时间序列是指某一应用场景下针对特定指标得到的基于与时间顺序相关联的有序观测数据集，随着互联网技术的快速发展，需要对各项指标对应的时间序列数据进行预测分析，从而判断时间序列中是否存在异常的指标。

现有时间序列中的异常标记，大多是由工程师手动检测标记，或者通过一种线性回归模型对时间序列进行异常检测，从而标记对应的异常点，但是要求工程师具备对应的该时间序列所处应用场景的业务背景，且需要检测标注的序列数据量较大，会耗费大量人力成本；同时线性回归模型存在一定的局限性且实时性较低，得到时间序列的异常标记结果的可靠性不强。

发明内容

本发明实施例提供了一种时间序列的标记方法、装置、设备和存储介质，以实现时间序列的异常标记，提高异常标记结果的准确性和可靠性。

第一方面，本发明实施例提供了一种时间序列的标记方法，该方法包括：

获取时间序列中的序列点；

通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果；

如果所述第一确定结果与所述第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本；

通过分类模型得到所述时间序列中各序列点的检测结果，并根据所述检测结果标记所述时间序列中的异常点，所述分类模型通过所述异常样本和下采样后的正常样本训练得到。

进一步的，所述通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，包括：

所述统计模型包括两个或两个以上的统计子模型，则通过所述统计子模型分别得到序列点是否为异常点的初始检测结果；

如果所述初始检测结果均为该序列点为正常点，则得到该序列点为正常点的第一确定结果；

如果序列点为异常点的初始检测结果数量大于等于预设统计阈值，则得到该序列点为异常点的第一确定结果，所述预设统计阈值由所述统计子模型的数量确定。

进一步的，所述通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果，包括：

所述无监督学习模型的数量为一个，通过所述无监督学习模型得到序列点是否为异常点的初始检测结果作为所述第二确定结果。

所述无监督学习模型包括两个或两个以上的无监督学习子模型，通过所述无监督学习子模型分别得到序列点是否为异常点的初始检测结果；

如果所述初始检测结果均为该序列点为正常点，则得到该序列点为正常点的第二确定结果；

如果该序列点为异常点的初始检测结果数量大于等于预设无监督阈值，则得到该序列点为异常点的第二确定结果，所述预设无监督阈值由所述无监督学习子模型的数量确定。

进一步的，所述通过分类模型得到所述时间序列中各序列点的检测结果，包括：

将所述时间序列中的各序列点输入所述分类模型中，得到所述序列点的异常概率；

按照所述异常概率对各序列点进行排序，并采用Top算法在排序后的序列点中确定目标序列点，将所述目标序列点的异常概率作为所述分类模型的分类阈值；

根据所述序列点的异常概率和所述分类阈值，确定所述时间序列中各序列点是否为异常点的检测结果。

第二方面，本发明实施例提供了一种时间序列的标记装置，该装置包括：

序列点获取模块，用于获取时间序列中的序列点；

确定结果获取模块，用于通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果；

样本确定模块，用于如果所述第一确定结果与所述第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本；

异常点标记模块，用于通过分类模型得到所述时间序列中各序列点的检测结果，并根据所述检测结果标记所述时间序列中的异常点，所述分类模型通过所述异常样本和下采样后的正常样本训练得到。

进一步的，所述确定结果获取模块，包括：

统计结果获取单元，用于所述统计模型的数量为一个，通过所述统计模型得到序列点是否为异常点的初始检测结果作为所述第一确定结果。

进一步的，所述统计结果获取单元，具体用于：

进一步的，所述确定结果获取模块，包括：

无监督结果获取单元，用于所述无监督学习模型的数量为一个，通过所述无监督学习模型得到序列点是否为异常点的初始检测结果作为所述第二确定结果。

进一步的，所述无监督结果获取单元，具体用于：

进一步的，所述异常点标记模块，包括：

异常概率获取单元，用于将所述时间序列中的各序列点输入所述分类模型中，得到所述序列点的异常概率；

分类阈值确定单元，用于按照所述异常概率对各序列点进行排序，并采用Top算法在排序后的序列点中确定目标序列点，将所述目标序列点的异常概率作为所述分类模型的分类阈值；

检测结果确定单元，用于根据所述序列点的异常概率和所述分类阈值，确定所述时间序列中各序列点是否为异常点的检测结果。

第三方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的时间序列的标记方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的时间序列的标记方法。

本发明实施例提供了一种时间序列的标记方法、装置、设备和存储介质，分别通过预先构建的统计模型和无监督学习模型对时间序列中的序列点是否为异常点进行初始检测，避免在仅采用单一的统计模型或者无监督学习模型对时间序列等中的序列点进行检测时所存在的漏检和误检的问题，提高时间序列中序列点的异常检测准确性，将通过统计模型和无监督学习模型均确定为正常点的序列点作为正常样本，将通过统计模型和无监督学习模型均确定为异常点的序列点作为异常样本，进而根据该异常样本和下采样的正常样本对分类模型进行训练，提高了分类模型的分类准确性，后续根据该分类模型对时间序列中的各序列点进行再次检测，以根据检测结果准确标记出时间序列中的异常点，解决了现有技术中人工检测耗费大量人力成本，以及线性回归模型存在一定的局限性且实时性较低的问题，提高了时间序列异常标记结果的准确性和可靠性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的一种时间序列的标记方法的流程图；

图2A、图2B、图2C和图2D分别为本发明实施例二提供的不同模型架构下对时间序列进行检测的原理示意图；

图3A为本发明实施例三提供的一种时间序列的标记方法的流程图；

图3B为本发明实施例三提供的时间序列的标记过程的原理示意图；

图4为本发明实施例四提供的一种时间序列的标记装置的结构示意图；

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种时间序列的标记方法的流程图，本实施例可应用于任一种对时间序列中的序列点进行异常检测并标记的设备上。本发明实施例的技术方案适用于如何对时间序列中的异常点进行准确标记的情况中。本实施例提供的一种时间序列的标记方法可以由本发明实施例提供的时间序列的标记装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中。

具体的，参考图1，该方法可以包括如下步骤：

S110，获取时间序列中的序列点。

其中，时间序列是指将某种现象中包含的某一个检测指标在不同时间上对应的各个数值，按照时间先后顺序排列而形成的序列，能够描述该检测指标在对应现象中的发展变化过程。例如，由某一网站中包含的特定具体信息在一天内的访问量按照时间先后顺序而形成的时间序列。具体的，本实施例中主要针对如何对时间序列中各时刻对应的序列点是否为异常点进行检测，从而准确检测出该时间序列中包括的异常点，此时需要将时间序列中包含的大量序列点作为相应的训练样本在线下训练出能够准确检测时间序列中的各序列点是否为异常点的检测模型，本实施例中主要对于该检测模型的训练过程进行说明。

可选的，本实施例中的时间序列是指针对待检测的时间序列中包含的检测指标所处的业务场景不同，该检测指标在相应业务的历史执行过程中已经按照时间先后顺序而形成的历史时间序列以及当前线上运行的时间序列，此时该时间序列中包括的各时刻对应的序列点上该检测指标的数值是否异常并不确定，也就是无法得知时间序列中的各序列点是否为异常点，而由于在后续需要通过有监督的学习方法对相应的检测模型进行训练，来提高训练模型的检测准确性，因此需要对时间序列中各个序列点进行异常检测，从而标记出时间序列中所存在的全部异常点，得到对时间序列中已经预先明确确定是否为异常点的检测结果的各序列点作为训练样本，执行后续有监督学习的模型训练过程。

具体的，本实施例中在对时间序列的检测模型进行训练时，首先需要获取该模型训练过程中需要的训练样本，也就是某一检测指标在相应业务的执行过程中已经按照时间先后顺序而形成的时间序列中包含的各个序列点，此时要求各个序列点是否为异常点的检测结果能够预先确定；因此本实施例中首先需要获取该检测指标在相应业务的执行过程中未被处理的时间序列中包含的各个序列点，此时各个序列点是否为异常点并不确定，后续需要对该时间序列中的各序列点进行异常检测，从而选取确定为异常点和正常点的序列点作为训练样本，因此要求本实施例首先需要获取时间序列中包含的大量序列点，执行后续的异常点检测操作。

S120，通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果。

其中，统计模型是指预先构建的能够通过设定的统计判定方法对时间序列中包含的各序列点是否为异常点进行检测的模型，本实施例中的统计判定方法可以为基于3sigma原则的正态分布方法、图基检测Tukey’s test等各类基于统计分析原理的判定方法；无监督学习模型是指预先构建的能够通过设定的无监督学习方法对时间序列中包含的各序列点是否为异常点进行检测的模型，无监督学习方法通过对检测结果正确的行为进行激励而判断序列点是否为异常点，本实施例中的无监督学习方法可以为孤立森林算法(IsolationForest，iForest)、单分类支持向量机(One Class Support Vector Machine，One ClassSVM))等各类基于机器学习算法。

此外，本实施例中通过统计模型或者无监督学习模型对时间序列中的各序列点是否为异常点进行检测时，可以是通过对该序列点所对应时刻之前的其他序列点与该序列点的相关性进行分析，或者是对时间序列中与该序列点所对应时刻相同的序列点以及其他时间序列中该序列点所在时刻之前的其他序列点进行相关性分析，判断该序列点是否为异常点。

可选的，本实施例在获取到时间序列中的序列点时，可以通过预先构建的统计模型以及无监督学习模型对时间序列中的各个序列点是否为异常点均进行检测，从而可以通过统计模型得到序列点是否为异常点的第一确定结果，通过无监督学习模型得到序列点是否为异常点的第二确定结果，可以明确得知该时间序列中包含的每一个序列点是否为异常点。

示例性的，在获取到时间序列中的序列点后，可以将时间序列中的各个序列点分别输入到预先构建的统计模型和无监督学习模型中，通过设定的统计判定方法和无监督学习方法分别对时间序列中包含的各序列点是否为异常点进行检测，进而分别通过统计模型和无监督学习模型得到序列点是否为异常点的第一确定结果和第二确定结果；此时由于统计模型偏好检测平稳时间序列上的剧烈波动，而无监督学习模型偏好检测时间序列中离群点的异常情况，仅通过单一的统计模型或者无监督学习模型对时间序列中序列点是否为异常点进行检测时，均存在一定的漏检或误检问题，因此本实施例中通过对预先构建的统计模型和无监督学习模型分别对序列点是否为异常点进行检测，并对通过统计模型得到的序列点是否为异常点的第一确定结果与通过无监督学习模型得到的序列点是否为异常点的第二确定结果进行比对，判断各个序列点是否为异常点，此时对应的误检或漏检的概率极低，提高了时间序列中各序列点的异常检测结果的准确性。

S130，如果第一确定结果与第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

可选的，在通过统计模型得到序列点是否为异常点的第一确定结果和通过无监督学习模型得到序列点是否为异常点的第二确定结果时，由于统计模型偏好检测平稳时间序列上的剧烈波动，而无监督学习模型偏好检测时间序列中离群点的异常情况，仅通过单一的统计模型或者无监督学习模型对原始时间序列是否包括异常点进行检测时，均存在一定的漏检或误检问题，因此本实施例中还需要对第一确定结果和第二确定结果进行比对，准确判断序列点是否为异常点；此时如果第一确定结果和第二确定结果一致，则说明确定该序列点是否为异常点的结果所对应的误检或漏检的概率极低，此时将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本，后续通过正常样本和异常样本可以得到有标记的中间样本训练库，以训练能够准确检测出时间序列中序列点是否为异常点的检测模型。

此外，本实施例在通过预先构建的统计模型和无监督学习模型分别对时间序列中各序列点是否为异常点进行检测时，还可以得到序列点是否包为异常点的不确定结果；此时通过预先构建的统计模型还可以得到序列点是否为异常点的第一不确定结果；以及，通过预先构建的无监督学习模型还可以得到序列点是否为异常点的第二不确定结果。

具体的，序列点是否为异常点的不确定结果是指在通过统计模型或者无监督学习模型对各个序列点是否为异常点均进行检测时，无法准确得到各个序列点是否为异常点的对应检测结果，也就是存在无法判断序列点是否为异常点的情况。可选的，将时间序列中的各个序列点分别输入预先构建的统计模型和无监督学习模型中，通过设定的统计判定方法和无监督学习方法分别对各个序列点是否为异常点进行检测，在分别通过统计模型和无监督学习模型无法判断某一序列点是否为异常点时，得到序列点是否为异常点的第一不确定结果和第二不确定结果。

此时，在判断第一确定结果和第二确定结果是否一致时，还存在第一确定结果和第二确定结果不一致或者通过统计模型和无监督学习模型中的至少一个可以得到序列点是否为异常点的不确定结果的情况，此时在第一确定结果和第二确定结果不一致，或者，通过统计模型和无监督学习模型中的至少一个得到序列点是否为异常点的第一不确定结果或第二不确定结果时，说明此时无法准确判断该序列点是否为异常点，从而不将该序列点作为后续进行模型训练的训练样本，提高模型训练的准确性。

进一步的，由于统计模型对应的统计判定方法以及无监督学习模型对应的无监督学习方法均可以包括多种，因此可以自主设定本实施例中统计模型和无监督学习模型的数量，此时统计模型的数量可以为一个，也可以包括两个或两个以上的由不同的统计判定方法对应的统计子模型；无监督学习模型的数量可以为一个，也可以包括两个或两个以上的由不同的无监督学习方法对应的无监督学习子模型。可选的，在统计模型或者无监督学习模型的数量为一个时，可以直接通过该统计模型或者无监督学习模型得到序列点是否为异常点的第一确定结果或者第二确定结果，不存在得到第一不确定结果和第二不确定结果的情况；而在统计模型或者无监督学习模型包括两个或两个以上的统计子模型或者无监督学习子模型时，可以根据对通过各个统计子模型或者无监督学习子模型分别得到的序列点是否为异常点的初始检测结果进行比对，从而判断通过统计模型或者无监督学习模型得到的序列点是否为异常点的确定结果和不确定结果；具体的判断过程在下述实施例中进行详细说明，本实施例中不作具体介绍。

S140，通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。

其中，分类模型通过异常样本和下采样后的正常样本训练得到。具体的，由于在实际业务中，时间序列中包含的序列点大部分均为正常点，异常点仅是少数，此时通过统计模型和无监督学习模型检测确定的正常样本的数量远大于异常样本的数量，因此首先需要对正常样本进行下采样，将异常样本和下采样后的正常样本组成对应的样本训练库，此时样本训练库中异常样本的数量和正常样本的数量相似相等，以保证后续模型训练的准确性；分类模型是指采用有监督学习的方法对样本训练库中下采样后的正常样本和异常样本进行训练得到的能够准确检测序列点是否为异常点的模型，也就是之前提及的检测模型，本实施例中的分类模型可以是一种神经网络模型。

具体的，在得到正常样本和异常样本时，由于正常样本的数量远大于异常样本的数量，因此首先需要对正常样本进行下采样，将异常样本和下采样后的正常样本组成对应的样本训练库，此时为了提高模型训练的准确性，需要保证训练样本库中训练样本的数量足够大，因此要求时间序列中包含大量的序列点，分别通过统计模型和无监督学习模型对各个序列点进行检测，从而选取出能够明确确定是否为异常点的序列点，也就是本实施例中的正常样本和异常样本，从而构建出有标记的样本训练库。

可选的，在采用有监督学习的方法对分类模型进行训练时，可以将样本训练库中的正常样本和异常样本输入预设的检测模型中，得到该样本是否为异常点的检测结果，此时该检测结果为一种预估值，可以将该检测结果与对应的样本标记结果进行比对，也就是将该各个样本的预估结果与实际是正常样本或异常样本的结果进行比对，从而得到本次训练存在的分类损失，该分类损失可以表示当前训练的检测模型对于序列点的分类准确程度，此时将该分类损失与预设损失阈值进行判断，若该分类损失超出预设损失阈值，说明本次训练的检测模型对序列点进行检测的准确性还不高，需要再次进行训练；此时将本次训练得到的分类损失按照模型训练过程进行反向传播，并根据该分类损失对预设的检测模型中的训练参数进行修正，从而不断调整该检测模型中的训练参数，继续获取新的训练样本，也就是新的正常样本或异常样本，通过修正后的检测模型再次对该新的正常样本或异常样本是否为异常点进行检测，得到新的分类损失，依次循环，直至得到的分类损失低于预设损失阈值，说明本次训练的检测对序列点是否为异常点的检测已经达到一定的准确性，无需再次训练，此时将当前训练得到的检测模型作为最终的分类模型，以便后续对序列点是否为异常点进行检测。

可选的，在根据异常样本和下采样的正常样本训练得到对应的分类模型时，该分类模型能够保证对序列点是否为异常点进行检测的准确性，此时可以将时间序列中的各个序列点输入该分类模型中，对每一个序列点是否为异常点进行检测，并得到每一个序列点是否为异常点的检测结果，并在确定时间序列中的某一序列点为异常点时，可以在该时间序列中标记出该异常点，从而根据检测结果标记时间序列中的各个异常点，提高异常检测的准确性。

本实施例提供的技术方案，分别通过预先构建的统计模型和无监督学习模型对时间序列中的序列点是否为异常点进行初始检测，避免在仅采用单一的统计模型或者无监督学习模型对时间序列等中的序列点进行检测时所存在的漏检和误检的问题，提高时间序列中序列点的异常检测准确性，将通过统计模型和无监督学习模型均确定为正常点的序列点作为正常样本，将通过统计模型和无监督学习模型均确定为异常点的序列点作为异常样本，进而根据该异常样本和下采样的正常样本对分类模型进行训练，提高了分类模型的分类准确性，后续根据该分类模型对时间序列中的各序列点进行再次检测，以根据检测结果准确标记出时间序列中的异常点，解决了现有技术中人工检测耗费大量人力成本，以及线性回归模型存在一定的局限性且实时性较低的问题，提高了时间序列异常标记结果的准确性和可靠性。

实施例二

由于统计模型对应的统计判定方法以及无监督学习模型对应的无监督学习方法均可以包括多种，因此本实施例中可以自主设定本实施例中统计模型和无监督学习模型的数量，也就是可以酌情选择统计模型和无监督学习模型的组合方式。图2A、图2B、图2C和图2D分别为本发明实施例二提供的不同模型架构下对时间序列中的序列点进行标记的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例对于统计模型和无监督学习模型在不同组合下对时间序列中的序列点的异常检测过程进行详细的解释说明。

本实施例中对于统计模型和无监督学习模型的不同组合情况可以分为如下四种：1)统计模型和无监督学习模型的数量均为一个；2)统计模型包括两个或两个以上的统计子模型，无监督学习模型的数量为一个；3)统计模型的数量为一个，无监督学习模型包括两个或两个以上的无监督学习子模型；4)统计模型包括两个或两个以上的统计子模型，无监督学习模型包括两个或两个以上的无监督学习子模型。本实施例主要针对以上四种组合情况分别进行介绍。

可选的，如图2A所示，对于统计模型和无监督学习模型的数量均为一个这一组合情况进行说明，此时该时间序列的标记方法可以包括如下步骤：

S201，获取时间序列中的序列点。

S202，通过统计模型得到序列点是否为异常点的初始检测结果作为第一确定结果，以及，通过无监督学习模型得到序列点是否为异常点的初始检测结果作为第二确定结果。

具体的，统计模型的数量为一个时，本实施例仅采用一种统计判定方法对时间序列中包含的各序列点是否为异常点进行检测，此时根据该统计判定方法能够明确得到每一个序列点是否为异常点的初始检测结果，此时将该统计模型得到的初始检测结果直接作为第一确定结果；同时无监督学习模型的数量为一个时，本实施例也仅采用一种无监督学习方法对原始时间序列中包含的各序列点是否为异常点进行检测，此时根据该无监督学习方法也能够明确得到每一个序列点是否为异常点的初始检测结果，此时将该无监督学习模型得到的初始检测结果直接作为第二确定结果。需要说明的是，当统计模型和无监督学习模型的数量为一个时，由于此时根据单一的统计判定方法和无监督学习方法能够明确判断出每一个序列点是否为异常点，因此通过统计模型和无监督学习模型均可以得到序列点是否为异常点的确定结果，而不存在得到序列点是否为异常点的不确定结果的情况。

S203，判断第一确定结果与第二确定结果是否一致；若是，执行S204；若否，执行S205。

本实施例中在通过统计模型得到序列点是否为异常点的第一确定结果和通过无监督学习模型得到序列点是否为异常点的第二确定结果后，还需要判断第一确定结果与第二确定结果是否一致，从而进一步提高序列点的检测准确性；此时第一确定结果和第二确定结果一致时，则说明通过统计模型和通过无监督学习模型得到的序列点是否为异常点的检测结果一致，则后续将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S204，将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S205，返回执行S201，获取时间序列中的下一序列点的第一确定结果和第二确定结果，直至对时间序列中的全部序列点进行检测。

S206，通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。

可选的，如图2B所示，对于统计模型包括两个或两个以上的统计子模型，无监督学习模型的数量为一个这一组合情况进行说明，此时该时间序列的标记方法可以包括如下步骤：

S211，获取时间序列中的序列点。

S212，通过统计子模型分别得到序列点是否为异常点的初始检测结果，根据该初始检测结果确定通过统计模型得到的序列点是否为异常点的第一确定结果。

具体的，统计模型中包括两个或两个以上的统计子模型时，各个统计子模型对应有不同的统计判定方法，此时通过各个统计子模型均可以对时间序列中每个序列点是否为异常点进行检测，通过各个统计子模型分别得到序列点是否为异常点的初始检测结果，此时可以根据各个统计子模型对应的初始检测结果中确定每个序列点是否为异常点的结果，判断统计模型对于每个序列点是否为异常点的检测结果，从而确定通过该统计模型得到的序列点是否为异常点的第一确定结果。本实施例中针对初始检测结果的不同，对通过统计模型得到的序列点是否为异常点的第一确定结果或者第一不确定结果的情况分别进行说明。

可选的，本实施例中通过两个或两个以上的统计子模型得到的序列点是否为异常点的初始检测结果包括下述三种情况：

1)初始检测结果均为序列点为正常点，则得到该序列点为正常点的第一确定结果。

可选的，若通过每一个统计子模型得到的序列点是否为异常点的初始检测结果均为该序列点为正常点，此时各个统计子模型得到的序列点是否为异常点的检测结果一致，则通过统计模型得到该序列点为正常点的第一确定结果。

2)序列点为异常点的初始检测结果数量大于等于预设统计阈值，则得到该序列点为异常点的第一确定结果。

其中，预设统计阈值由统计子模型的数量确定；本实施例中预设统计阈值可以是统计子模型的数量的中间值，本实施例中可以根据业务检测需求设定，对此不作限定。

具体的，若通过每一个统计子模型得到的序列点是否为异常点的初始检测结果中，序列点为异常点的初始检测结果的数量大于等于预设统计阈值，也就是通过各个统计子模型确定该序列点为异常点的结果的数量大于等于预设统计阈值，则通过统计模型得到该序列点为异常点的第一确定结果。

3)初始检测结果中存在该序列点为异常点，且序列点为异常点的初始检测结果数量小于预设统计阈值，则得到该序列点为异常点的第一不确定结果。

可选的，若通过每一个统计子模型得到的序列点是否为异常点的初始检测结果中，存在该序列点为异常点的情况，且序列点为异常点的初始检测结果的数量小于预设统计阈值，也就是通过各个统计子模型确定该序列点为异常点的结果的数量小于预设统计阈值，说明还有超过预设统计阈值的统计子模型确定该序列点不是异常点，此时通过统计模型无法明确确定该序列点是否为异常点，则通过统计模型得到该序列点是否为异常点的第一不确定结果。此时若得到该序列点为异常点的第一不确定结果，则无论通过无监督学习模型得到该序列点的何种检测结果，该序列点均不作为样本训练库中的训练样本，因此直接忽略该序列点，进而重新判断时间序列中的下一序列点的检测结果。

S213，通过无监督学习模型得到序列点是否为异常点的初始检测结果作为第二确定结果。

S214，判断第一确定结果和第二确定结果是否一致；若是，执行S215；若否，执行S216。

S215，将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S216，返回执行S211，获取时间序列中下一序列点的第一确定结果和第二确定结果，直至对时间序列中的全部序列点进行检测。

S217，通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。

如图2C所示，对于统计模型的数量为一个，无监督学习模型包括两个或两个以上的无监督学习子模型这一组合情况进行说明，此时该时间序列的标记方法可以包括如下步骤：

S221，获取时间序列中的序列点。

S222，通过统计模型得到序列点是否为异常点的初始检测结果作为第一确定结果。

S223，通过无监督学习子模型分别得到序列点是否为异常点的初始检测结果，根据该初始检测结果确定通过无监督学习模型得到的序列点是否为异常点的第二确定结果。

具体的，无监督学习模型中包括两个或两个以上的无监督学习子模型时，各个无监督学习子模型对应有不同的无监督学习方法，此时通过各个无监督学习子模型均可以对时间序列中每个序列点是否为异常点进行检测，通过各个无监督学习子模型分别得到序列点是否为异常点的初始检测结果，该初始检测结果中包含对每个序列点是否为异常点的确定结果，从而确定通过该无监督学习模型得到的时间序列是否为异常点的第二确定结果。本实施例中针对初始检测结果的不同，对通过无监督学习模型得到的原始时间序列是否包括异常点的确定结果或者不确定结果的情况分别进行说明。

可选的，本实施例中通过两个或两个以上的无监督学习子模型得到的原始时间序列是否包括异常点的初始检测结果包括下述三种情况：

1)初始检测结果均为序列点为正常点，则得到该序列点为正常点的第二确定结果。

可选的，若通过每一个无监督学习子模型得到的序列点是否为异常点的初始检测结果均为该序列点为正常点，此时各个无监督学习子模型得到的序列点是否为异常点的检测结果一致，则通过无监督学习模型得到该序列点为正常点的第二确定结果。

2)序列点为异常点的初始检测结果数量大于等于预设无监督阈值，则得到该序列点为异常点的第二确定结果。

其中，预设无监督阈值由无监督学习子模型的数量确定；本实施例中预设无监督阈值可以是无监督学习子模型的数量的中间值，本实施例中可以根据业务检测需求设定，对此不作限定。

具体的，若通过每一个无监督学习子模型得到的序列点是否为异常点的初始检测结果中，序列点为异常点的初始检测结果的数量大于等于预设无监督阈值，也就是通过各个无监督学习子模型确定该序列点为异常点的结果的数量大于等于预设统计阈值，则通过无监督学习模型得到该序列点为异常点的第二确定结果。

3)初始检测结果中存在该序列点为异常点，且序列点为异常点的初始检测结果数量小于预设无监督阈值，则得到该序列点为异常点的第二不确定结果。

可选的，若通过每一个无监督学习子模型得到的序列点是否为异常点的初始检测结果中，存在该序列点为异常点的情况，且序列点为异常点的初始检测结果的数量小于预设无监督阈值，也就是通过各个无监督学习子模型确定该序列点为异常点的结果的数量小于预设无监督阈值，说明还有超过预设无监督阈值的无监督学习子模型确定该序列点不是异常点，此时通过无监督学习模型无法明确确定该序列点是否为异常点，则通过无监督学习模型得到该序列点是否为异常点的第二不确定结果。此时若得到该序列点为异常点的第二不确定结果，则无论通过统计模型得到该序列点的何种检测结果，该序列点均不作为样本训练库中的训练样本，因此直接忽略该序列点，进而重新判断时间序列中的下一序列点的检测结果。

S224，判断第一确定结果和第二确定结果是否一致；若是，执行S225；若否，执行S226。

S225，将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S226，返回执行S221，获取时间序列中下一序列点的第一确定结果和第二确定结果，直至对时间序列中的全部序列点进行检测。

S227，通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。

如图2D所示，对于统计模型包括两个或两个以上的统计子模型，无监督学习模型包括两个或两个以上的无监督学习子模型这一组合情况进行说明，此时该时间序列的标记方法可以包括如下步骤：

S231，获取时间序列中的序列点。

S232，通过统计子模型分别得到序列点是否为异常点的初始检测结果，根据该初始检测结果确定通过统计模型得到的序列点是否为异常点的第一确定结果。

可选的，本实施例中通过两个或两个以上的统计子模型得到的原始时间序列是否包括异常点的初始检测结果包括下述三种情况：

2)序列点为异常点的初始检测结果数量大于等于预设统计阈值，则得到该序列点为异常点的第一确定结果，预设统计阈值由统计子模型的数量确定。

S233，通过无监督学习子模型分别得到序列点是否为异常点的初始检测结果，根据该初始检测结果确定通过无监督学习模型得到的序列点是否为异常点的第二确定结果。

S234，判断第一确定结果和第二确定结果是否一致；若是，执行S235；若否，执行S236。

S235，将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S236，返回执行S232，得到下一序列点的第一确定结果和第二确定结果，直至对时间序列中的全部序列点进行检测。

S237，通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点。

本实施例提供的技术方案，通过自主选择统计模型和无监督学习模型的不同组合方式，对时间序列中的各个序列点是否为异常点进行初始检测，避免在仅采用单一的统计模型或者无监督学习模型对序列点进行异常检测时所存在的漏检和误检的问题，提高序列点的检测准确性，将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本，进而根据下采样的正常样本和异常样本对分类模型进行训练，提高了分类模型的分类准确性，后续根据该分类模型对时间序列中的各个序列点进行再次检测，以准确得到时间序列中的各序列点是否为异常点的检测结果，提高了时间序列异常标记结果的准确性和可靠性。

实施例三

图3A为本发明实施例三提供的一种时间序列的标记方法的流程图，图3B为本发明实施例三提供的时间序列的检测过程的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例主要对分类模型的训练过程以及根据训练好的分类模型对时间序列中各个序列点进行检测的过程进行详细的解释说明。

可选的，如图3A所示，该方法具体可以包括如下步骤：

S310，获取时间序列中的序列点。

S320，通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果。

S330，如果第一确定结果与第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本。

S340，将时间序列中的各序列点输入分类模型中，得到序列点的异常概率，该分类模型通过异常样本和下采样后的正常样本训练得到。

具体的，本实施例在通过异常样本和下采样后的正常样本训练得到对应的分类模型时，本实施例可以将时间序列中的各序列点输入到该分类模型中，由训练好的分类模型对时间序列中包含的每一个序列点是否为异常点的情况进行判断，得到各个序列点的异常概率，该异常概率用于表示序列点是否为异常点的可能性。

S350，按照异常概率对各序列点进行排序，并采用Top算法在排序后的序列点中确定目标序列点，将目标序列点的异常概率作为分类模型的分类阈值。

可选的，在通过分类模型得到各个序列点的异常概率后，可以按照异常概率的高低顺序对各个序列点进行排序，并采用预先设定的Top算法在排序后的各个序列点中选取出排序为N的目标序列点，并将该目标序列点的异常概率作为分类模型的分类阈值；此时在Top算法设定的排序为N的大小可以根据具体的业务检测需求进行设定，从而使得本实施例中的分类阈值能够根据不同的业务检测标准进行一定的伸缩，提高时间序列的检测准确性。

S360，根据序列点的异常概率和分类阈值，确定时间序列中各序列点是否为异常点的检测结果。

具体的，在得到分类模型的分类阈值后，可以对时间序列中各个序列点的异常概率与该分类阈值进行比对，在某一序列点的异常概率大于等于该分类阈值时，确定该序列点为异常点；若该序列点的异常概率小于该分类阈值，则确定该序列点为正常点；进而判断时间序列中包括的每一个序列点是否为异常点，得到时间序列中各序列点是否为异常点的检测结果，并在时间序列中标记出对应的异常点，可以直观显示该时间序列的异常检测情况，以便进行告警和异常显示，提示管理人员对于该异常情况进行人工修正。

本实施例提供的技术方案，通过预先训练的分类模型得到序列点的异常概率，并采用Top算法在序列点的异常概率中确定出分类模型的分类阈值，此时可以根据对应的业务检测标准在Top算法中选用相应的分类比例，从而使得分类阈值根据不同的业务检测标准进行一定的伸缩，通过分类模型对时间序列进行实时的异常检测，提高对时间序列进行异常检测的准确性和可靠性。

实施例四

图4为本发明实施例四提供的一种时间序列的标记装置的结构示意图，具体的，如图4所示，该装置可以包括：

序列点获取模块410，用于获取时间序列中的序列点；

确定结果获取模块420，用于通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果；

样本确定模块430，用于如果第一确定结果与第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本；

异常点标记模块440，用于通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点，该分类模型通过异常样本和下采样后的正常样本训练得到。

进一步的，上述确定结果获取模块420，可以包括：

统计结果获取单元，用于统计模型的数量为一个，通过统计模型得到序列点是否为异常点的初始检测结果作为第一确定结果。

进一步的，上述统计结果获取单元，可以具体用于：

统计模型包括两个或两个以上的统计子模型，则通过统计子模型分别得到序列点是否为异常点的初始检测结果；

如果初始检测结果均为该序列点为正常点，则得到该序列点为正常点的第一确定结果；

如果序列点为异常点的初始检测结果数量大于等于预设统计阈值，则得到该序列点为异常点的第一确定结果，该预设统计阈值由统计子模型的数量确定。

进一步的，上述确定结果获取模块420，可以包括：

无监督结果获取单元，用于无监督学习模型的数量为一个，通过无监督学习模型得到序列点是否为异常点的初始检测结果作为第二确定结果。

进一步的，上述无监督结果获取单元，可以具体用于：

无监督学习模型包括两个或两个以上的无监督学习子模型，通过无监督学习子模型分别得到序列点是否为异常点的初始检测结果；

如果初始检测结果均为该序列点为正常点，则得到该序列点为正常点的第二确定结果；

如果该序列点为异常点的初始检测结果数量大于等于预设无监督阈值，则得到该序列点为异常点的第二确定结果，该预设无监督阈值由无监督学习子模型的数量确定。

进一步的，上述异常点标记模块440，可以包括：

异常概率获取单元，用于将时间序列中的各序列点输入分类模型中，得到序列点的异常概率；

分类阈值确定单元，用于按照异常概率对各序列点进行排序，并采用Top算法在排序后的序列点中确定目标序列点，将目标序列点的异常概率作为分类模型的分类阈值；

检测结果确定单元，用于根据序列点的异常概率和分类阈值，确定时间序列中各序列点是否为异常点的检测结果。

本实施例提供的时间序列的标记装置可适用于上述任意实施例提供的时间序列的标记方法，具备相应的功能和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图，如图5所示，该设备包括处理器50、存储装置51和通信装置52；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储装置51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的时间序列的标记方法对应的程序指令/模块。处理器50通过运行存储在存储装置51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述时间序列的标记方法。

存储装置51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置52可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行上述任意实施例提供的时间序列的标记方法，具备相应的功能和有益效果。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的时间序列的标记方法。该方法具体可以包括：

获取时间序列中的序列点；

如果第一确定结果与第二确定结果一致，则将确定为正常点的序列点作为正常样本，将确定为异常点的序列点作为异常样本；

通过分类模型得到时间序列中各序列点的检测结果，并根据检测结果标记时间序列中的异常点，该分类模型通过异常样本和下采样后的正常样本训练得到。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的时间序列的标记方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述时间序列的标记装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时间序列的标记方法，其特征在于，包括：

获取时间序列中的序列点；

2.根据权利要求1所述的方法，其特征在于，所述通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，包括：

所述统计模型的数量为一个，通过所述统计模型得到序列点是否为异常点的初始检测结果作为所述第一确定结果。

3.根据权利要求1所述的方法，其特征在于，所述通过预先构建的统计模型得到序列点是否为异常点的第一确定结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过预先构建的无监督学习模型得到序列点是否为异常点的第二确定结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过分类模型得到所述时间序列中各序列点的检测结果，包括：

7.一种时间序列的标记装置，其特征在于，包括：

序列点获取模块，用于获取时间序列中的序列点；

8.根据权利要求7所述的装置，其特征在于，所述确定结果获取模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述统计结果获取单元，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述确定结果获取模块，包括：

11.根据权利要求7所述的装置，其特征在于，所述无监督结果获取单元，具体用于：

12.根据权利要求7所述的装置，其特征在于，所述异常点标记模块，包括：

13.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的时间序列的标记方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的时间序列的标记方法。