CN110928918B

CN110928918B - 时间序列数据组成模式的提取方法、装置及终端设备

Info

Publication number: CN110928918B
Application number: CN201911106309.8A
Authority: CN
Inventors: 李国法; 陈耀昱; 赖伟鉴; 杨一帆; 李晓航; 林勇杰; 陈昕
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-07-05
Anticipated expiration: 2039-11-13
Also published as: WO2021093012A1; CN110928918A

Abstract

本申请适用于数据处理技术领域，提供了时间序列数据组成模式的提取方法、装置及终端设备，上述时间序列数据组成模式的提取方法包括：获取时间序列样本数据；将所述时间序列样本数据分割成多个时间序列样本数据段；确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式。上述时间序列数据组成模式的提取方法，能够有效获取时间序列的组成成分，有利于从冗长的时间序列中摘取研究所需的感兴趣区域ROI。

Description

时间序列数据组成模式的提取方法、装置及终端设备

技术领域

本申请属于数据处理技术领域，尤其涉及一种时间序列数据组成模式的提取方法、装置及终端设备。

背景技术

时间序列数据是按时间顺序收集到的数据，用于描述事物或现象随时间的变化状态或程度现象，比如心电图(ECG)、脑电图(EEG)、生产制造中的电流电压信号、股票交易的K线、语音信号的时域波形等。其中，时间序列数据的组成模式是了解时间序列数据过去行为的重要因素。

传统的时间序列数据分析主要关注时间序列在时域或频域的整体信息，无法考虑到序列的局部变化特性；而以动态时间规整DTW、自回归滑动平均模型ARMA为例的方法同样将时间序列数据作为整体进行推断处理，同时这些方法普遍通过生成式方法进行时间序列建模，对源数据分布特性存在强假设现象。

发明内容

基于上述一种或多种问题，本申请实施例提供了时间序列数据组成模式的提取方法、装置及终端设备。

第一方面，本申请实施例提供了一种时间序列数据组成模式的提取方法，包括：

获取时间序列样本数据；

将所述时间序列样本数据分割成多个时间序列样本数据段；

确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式。

在第一方面的一种可能的实现方式中，所述将所述时间序列样本数据分割成多个时间序列样本数据段，包括：

基于所述时间序列样本数据的分布规律，将所述时间序列样本数据分割成多个时间序列样本数据段。

在第一方面的一种可能的实现方式中，所述时间序列样本数据的分布规律为所述时间序列样本数据的局部线性程度；

所述基于所述时间序列样本数据的分布规律，将所述时间序列样本数据分割成多个时间序列样本数据段，包括：

基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段。

在第一方面的一种可能的实现方式中，所述时间序列样本数据中的每个样本数据点为一个分割段，各个所述分割段构成分割段集合；

所述基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段，包括：

步骤A，将各个所述分割段中边际似然概率最大的两个分割段凝聚为一个新的分割段，得到新的分割段集合；

步骤B，检测步骤A中新的分割段集合中各个分割段的边际似然概率中的最大值是否小于设定阈值，在新的分割段集合中各个分割段的边际似然概率中的最大值小于所述设定阈值的情况下，将当前的分割段作为所述时间序列样本数据段；在新的分割段集合中各个分割段的边际似然概率中的最大值大于或等于所述设定阈值的情况下，返回执行步骤A。

在第一方面的一种可能的实现方式中，所述时间序列样本数据中包括多个样本数据点，所述基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段，包括：

步骤C，基于时间序列的多元分段线性模型假设，利用贝叶斯方法的增量学习特性，计算为所述时间序列样本数据段添入新样本数据时的边际似然；

步骤D，通过前向算法的递推形式逐步为算法模型添加样本数据，以低复杂度的计算方式遍历各分割方式，同时获取各分割方式下的总体样本似然值；

步骤E，通过后向算法回溯各分割方式，对各个分割方式的边际似然概率进行比对，提取所述时间序列样本数据中进行分割的似然值大于不分割的似然值对应的目标样本数据点，并将所述目标样本数据点确定为所述时间序列样本数据段的分割点；

按照所述目标分割方式将所述时间序列样本数据分割成多个时间序列样本数据段。

在第一方面的一种可能的实现方式中，所述确定各个所述时间序列样本数据段的组成模式的主题分布，包括：

通过主题模型确定各个所述时间序列样本数据段的组成模式的主题分布。

示例性的，可以通过概率潜语义分析PLSA模型或隐含狄利克雷分布LDA模型确定各个所述时间序列样本数据段的组成模式的主题分布。

在第一方面的一种可能的实现方式中，所述基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式，包括：

确定每个时间序列样本数据段中的各个组成模式的占比；

将每个所述时间序列样本数据段中占比最大的组成模式作为该时间序列样本数据段的组成模式。

第二方面，本申请实施例提供了一种时间序列数据组成模式的提取装置，包括：

样本数据获取模块，用于获取时间序列样本数据；

分割模块，用于将所述时间序列样本数据分割成多个时间序列样本数据段；

组成模式提取模块，用于确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的时间序列数据组成模式的提取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的时间序列数据组成模式的提取方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的时间序列数据组成模式的提取方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，将获取的时间序列样本数据分割成多个时间序列样本数据段，再确定各个时间序列样本数据段的组成模式的主题分布，然后基于确定出的主题分布为对应的时间序列样本数据段赋予与主题分布对应的模式，从而实现对所获取的时间序列样本数据的组成模式的提取，能够有效获取时间序列的组成成分，有利于从冗长的时间序列中摘取研究所需的感兴趣区域ROI。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的时间序列数据组成模式的提取方法的流程示意图；

图2是本申请一实施例提供的驾驶行为研究体系架构；

图3是本申请一实施例提供的驾驶行为时间序列样本数据的高维分段线性模型的示意图；

图4(a)是本申请一实施例提供的基于分割段凝聚的序列分割方法在一种场景中对自然驾驶序列的分割结果的示意图；

图4(b)是本申请一实施例提供的基于前向后向算法的序列分割方法在一种场景中对自然驾驶序列的分割结果的示意图；

图4(c)是本申请一实施例提供的基于分割段凝聚的序列分割方法在另一种场景中对自然驾驶序列的分割结果的示意图；

图4(d)是本申请一实施例提供的基于前向后向算法的序列分割方法在另一种场景中对自然驾驶序列的分割结果的示意图；

图5(a)是本申请一实施例提供的基于分割段凝聚的序列分割方法和高斯混合-隐狄利克雷分布模型得到的主题分布的示意图；

图5(b)是本申请一实施例提供的基于分割段凝聚的序列分割方法和和多模态隐狄利克雷分布模型得到的主题分布的示意图；

图5(c)是本申请一实施例提供的基于前向后向算法的序列分割方法和高斯混合-隐狄利克雷分布模型得到的主题分布的示意图；

图5(d)是本申请一实施例提供的基于前向后向算法的序列分割方法和高斯混合-隐狄利克雷分布模型得到的主题分布的示意图；

图6是本申请一实施例提供的20分钟驾驶序列操纵模式提取结果的示意图；

图7(a)是本申请一实施例提供的主要驾驶行为模式下的驾驶主题分布；

图7(b)是本申请一实施例提供的主要换道行为模式下的驾驶主题分布；

图8是本申请一实施例提供的时间序列数据组成模式的提取装置的结构示意图；

图9是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

时间序列数据是按时间顺序收集到的数据，用于描述事物或现象随时间的变化状态或程度现象，比如如心电图(ECG)、脑电图(EEG)、生产制造中的电流电压信号、股票交易的K线、语音信号的时域波形等。其中，时间序列数据的组成模式是了解时间序列数据过去行为的重要因素。

本申请实施例中提供了一种时间序列数据组成模式的提取方法，将获取的时间序列样本数据分割成多个时间序列样本数据段，再确定各个时间序列样本数据段的组成模式的主题分布，然后基于确定出的主题分布为对应的时间序列样本数据段赋予与主题分布对应的模式，从而实现对所获取的时间序列样本数据的组成模式提取。

另外，本申请实施例中还以驾驶行为时间序列数据为例，对本申请实施例的内容进行了示例性说明。

图1为本申请一实施例提供的时间序列数据组成模式的提取方法，参见图1，对本申请实施例的时间序列数据组成模式的提取方法详述如下：

在步骤101中，获取时间序列样本数据。

其中，获取的时间序列样本应当能够反映事物或现象随时间的变化状态或程度现象，例如需要考虑到数据信息的丰富程度。

示例性的，以驾驶行为时间序列数据为例，在进行驾驶操纵模式提取时，应考虑驾驶特征集合所能包含驾驶过程中人-车-路闭环系统的信息丰富程度。依据传统驾驶行为研究，采集的驾驶行为时间序列样本数据可以包括车速(Vehicle speed)、加速度(Acceleration)、方向盘转角(Steering wheel angle)、车辆横向加速度(Lateralacceleration)、节气阀位置(Throttle position)、刹车踏板位置(Brake pedalposition)、车辆偏航率(Vehicle yaw rate)等。另外，在数据采集过程中，应尽可能保持样本数据采样频率的一致，同时需要进行填补缺失值等数据预处理工作。

在步骤102中，将所述时间序列样本数据分割成多个时间序列样本数据段。

在一些实施例中，可以基于所述时间序列样本数据的分布规律，将所述时间序列样本数据分割成多个时间序列样本数据段。其中，该分布规律可以根据具体的事物或现象而定，例如，对于驾驶行为，考虑到驾驶员的驾驶过程由简单的操纵行为构成，每个驾驶操纵模式在驾驶数据上的表现可以为局部线性，因此对应的分布规律可以为局部线性分布，即分段线性分布。

示例性的，所述基于所述时间序列样本数据的分布规律，将所述时间序列样本数据分割成多个时间序列样本数据段，可以包括：

基于所述时间序列样本数据的局部线性分布，将所述时间序列样本数据分割成多个时间序列样本数据段。

具体地，可以根据时间序列样本数据的局部线性分布，将时间序列样本数据分割成多个时间序列样本数据段，每个数据段的数据之间基本为直线，各个数据段之间基本相互独立。

需要说明的是，对于其他事物或现象，可以基于对应的时间序列样本数据的分布规律采用其他的分割方式进行分割，并不限定为分割成多个基本呈直线形的数据段。

在一种可能的实现方式中，所述时间序列样本数据中的每个样本数据点为一个分割段，各个所述分割段构成分割段集合；所述基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段，可以包括：

其中，可以通过分割模型对所述时间序列样本数据进行分割，得到多个所述时间序列样本数据段，例如分段线性模型等。

在另一种可能的实现方式中，所述时间序列样本数据中包括多个样本数据点，所述基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段，可以包括：

以下对分割的似然程度即边际似然概率进行说明。

具体地，对于给定分割模型的输入

其中

为样本输入，对应取值为每个样本采集时间点；

为样本输出，其取值为每个样本在高维特征上的具体数值。在此情况下，如若i＝1,2,…,n都在同一段线性模型中，则可使用多元线性方程描述其变量关系：

其中，

为多元线性方程的回归系数矩阵，

为分割模型输出所包含的高斯白噪声，

为噪声协方差矩阵且

所对应Cholesky分解的上三角阵。

对于分割方式S＝{s₁,s₂,…,s_m}，其分割点为τ＝{τ₀,τ₁,…,τ_m}。τ₀＝0为输入序列数据的起点，而τ_m＝n为输入序列数据的终点。基于多元线性方程，给定分割方式S时，多元线性方程基于样本数据的边际似然可显式计算，使用该边际似然表征使用S实现序列分割的似然程度：

在步骤103中，确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式。

其中，所述确定各个所述时间序列样本数据段的组成模式的主题分布，可以包括：

示例性的，上述主题模型包括但不限于概率潜语义分析PLSA模型和隐狄利克雷分布LDA模型，后文以隐含狄利克雷分布LDA模型进行了说明，但并不以此为限。

所述基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式，可以包括：

确定每个时间序列样本数据段中的各个组成模式的占比；

例如，可以将获取的时间序列样本数据作为语料库，将每个时间序列样本数据段作为文档，将组成模式作为离散化的主题，将所述时间序列样本数据中的每个样本数据点作为一个单词。其中，每个文档与主题之间对应特定分布，其关于主题的分布概率可通过主题模型(例如隐狄利克雷分布LDA模型)表示；在每个主题与单词之间对应特定分布，其关于各单词的分布概率同样可通过主题模型(例如隐狄利克雷分布LDA模型)表示。通过对主题模型的分布参数的计算即可得到对主题、单词的计数频率占比，即得到每个时间序列样本数据段中的各个组成模式的占比，再将每个时间序列样本数据段中占比最大的组成模式作为该时间序列样本数据段的组成模式。

以下以驾驶行为为例，对基于驾驶行为的时间序列数据组成模式的提取过程进行详细说明。

驾驶行为可理解为驾驶员为响应当前交通状态而实施的特定驾驶操作，以实现车辆实际状态跟随驾驶员预期状态的过程，其研究体系架构如图2所示。驾驶员可根据收集的实时驾驶条件选择执行驾驶操作，即时调整车辆运行状态，减小期望状态与实际状态的偏差。对驾驶行为进行语义解析，即通过对驾驶行为数据的分析，提取出时间序列数据中的有效行为单元(如换道等)的过程。对驾驶行为进行深入解析，有助于使智能系统更充分的理解交通状况与驾驶操作间的对应关系，辩识在各种交通状况下采取不同驾驶行为所展现的优劣效果，并评估其在安全性和经济性等方面的表现。在智能车辆进行辅助驾驶过程中，可提升车辆决策的拟人化水平，选择执行更符合人因需求的操纵行为，并从安全性、舒适性等多个方面改善车内人员的驾乘体验。与此同时，驾驶行为研究有助于有效析取驾驶操作模式，更精准地预判自车与它车的运动状态与运行轨迹，基于智能车辆和智能交通系统的相关技术实现车联网系统及其参与者的智能决策及规划。因此，对驾驶行为的深入分析有助于增加智能车辆对驾驶员驾驶操纵的理解，从而在智能驾驶辅助自动驾驶时提供更合理的决策方案；同时，针对驾驶行为的研究也有助于深入理解驾驶过程，从而在交通法规制定、驾驶培训设计以及驾驶风险投保制定等多方面实现研究应用，深化驾驶安全性与舒适性的保障体系。

一、采集多源驾驶行为时间序列样本数据

本申请实施例所使用的分割模型输入适用于所有驾驶序列样本，而在进行驾驶操纵模式提取时，应考虑驾驶特征集合所能包含驾驶过程中人-车-路闭环系统的信息丰富程度。依据传统驾驶行为研究，采集的驾驶行为时间序列样本数据可包括车速(Vehiclespeed)、加速度(Acceleration)、方向盘转角(Steering wheel angle)、车辆横向加速度(Lateral acceleration)、节气阀位置(Throttle position)、刹车踏板位置(Brake pedalposition)、车辆偏航率(Vehicle yaw rate)等。数据采集过程中，应保持样本采样频率的一致，同时需要进行填补缺失值等数据预处理工作。

二、对驾驶行为时间序列样本数据进行分割

在对驾驶行为时间序列样本数据的组成模式提取过程中，首先对高维的驾驶行为时间序列样本数据分割，得到的每个时间序列样本数据段即为一个基本的驾驶操纵模式。考虑到驾驶员的驾驶过程由简单的操纵行为构成，将每个驾驶操纵模式在驾驶数据上的表现假设为线性模型，由此形成高维数据的分段线性模型。分段线性模型假设不同分割段线性组成相互独立，其分割效果如图3所示。

1.首先介绍贝叶斯方法的模型假设与参数推断。

对于含个样本的时间序列样本数据，其分割方式的总数为

为避免直接使用暴力搜索方法遍历所有分割方式所造成的计算负担，本申请实施例基于贝叶斯方法进行序列段分割以减少算法复杂度。

具体地，由于线性模型参数A为方程回归系数，因此将A假设为多元高斯分布，选取B为逆维夏特分布，以实现似然与先验分布共轭：

B～IW_d(ν₀Σ₀,v₀) (4)

其中，Λ₀为多元高斯分布的偏移位置，B与

分别为行与列向量的缩放尺度。d为样本维度，q为模型样本输入的维度，v₀Σ₀为逆维夏特分布的协方差矩阵，v₀为分布自由度。

设置先验初值时，考虑到增加分割模型的鲁棒性，因此本申请实施例中使用非信息先验，使模型在样本属于充分统计量的情况下自动依据样本数据特征进行模型参数学习。在该非信息先验中，由于有限的驾驶分割先验知识，本申请实施例将∈设定为∈∈(0,1)：

Λ₀＝0_d×n (5a)

Ω₀＝∈²I_n×n (5b)

Σ₀＝I_d×d (5c)

v₀＝∈²+d-1 (5d)

式中，d为样本维度，n表示时间序列样本数量。依据贝叶斯推断方法，在先验初值以及共轭分布确定后，则在以增量形式输入样本时，逐步更新模型后验超参数：

v_n＝v₀+n (6d)

式中，Ω_n与v_n皆已获得显式的计算过程，因此只需进一步调整Λ_n与Σ_n的计算公式：

2.然后介绍基于样本的模型似然计算

基于贝叶斯推断可以计算获得多元线性模型的模型参数，因此在将其用于驾驶序列分割时，则需要通过模型参数与输入样本的拟合程度判断不同分割方式的似然程度：

其中，η₀与η_n都为归一化常数：

式(9)和(10)中，Γ表示伽马函数，det(·)则是对目标矩阵的行列式计算。为获取期望的分割结果，可以将分段线性模型对输入样本的拟合程度作为分割结果的评判依据，其中实现拟合似然函数最大化的方法即为最优分割结果。

3.给出两种分割方法

本申请实施例采用两种分割方式的模型评估方程，用于从不同角度进行序列分割点推断。

3.1)基于分割段凝聚的序列分割方法

将驾驶行为时间序列样本数据中的每个样本数据点视为一个单独的驾驶分割段，因此分割段初始集合为S＝{s₁,s₂,…,s_n}。在此情况下，序列段的总体边际似然概率为：

式中，η(s_i)为分割段s_i如(10)所示的具体η_n。对于分割段S＝{s₁,s₂,…，s_m}，如若将两个序列段s_i以及s_i+1合并为一个分割段s_i∪s_i+1，则分割段集合将转换为S_h＝{s₁,…,s_i∪s_i+1,…,s_m}，此时的边际似然为：

在基于分割段凝聚的序列分割方法中，将迭代计算不同凝聚方式的边际似然

并将其中概率最大者对应的两个分割段凝聚为一。而其中每种凝聚方式的似然概率为：

式中，λ为分割比例惩罚因子，通常可设为常数，此处赋值为λ＝0.01。p(merges_iand s_i+1)表示将分割段s_i与s_i+1进行凝聚合并对应的似然值，p(every possible mergepoint)表示所有潜在凝聚方式的似然值之和，p(no merge)表示不进行分割段凝聚的似然值。每次迭代过程中，将通过式(13)计算所有位置的凝聚概率，而每次迭代的最优凝聚位置将通过arg max_ip(s_i∪s_i+1)获得。迭代将在logp(s_i∪s_i+1)<0时停止，此时不再进行序列段凝聚的似然概率将大于任何一个凝聚方式的似然概率。

其中，似然概率的计算方法请参照1和2中的相关内容。

3.2)基于前向后向算法的序列分割方法

建立评估分段线性模型拟合程度的评估方程：

式中，为避免算法生成过多分割段，因此由p(S)作为分割点生成的惩罚因子。选取惩罚因子时，引入生存分析中的危险函数：

为将危险函数与基于凝聚方式的分割方法中的λ保持一直，此处将δ的参数赋值为δ＝0.01。因此，惩罚因子在式(14)中最终将表现为几何分布的形式：

p(S)＝h^m(1-h)^n-m (16)

为快速求解式(14)，需要获得边际似然的递增形式，以便于后续前向后向算法的遍历。定义π_n+1(r)为：

当y_(n-r+1):n都处于同一序列段时) (17)

则由式(8)可对π_n+1(r)的似然概率进行计算：

式中η_n(r)与η_n+1(r)的计算过程如式(10)所示。

当模型基于样本的边际似然已可显式计算时，则需要兼顾到算法效率的同时对所有分割可能进行遍历。可以根据不同分割结果下所述样本数据点分割状态间的局部相似特性，建立局部分割结果的递推关系，得到能够对所述时间序列样本数据进行分割的所有分割方式。

具体地，采用基于动态规划的前向后向算法，试图充分利用贝叶斯方法的增量学习特性，因此其时间复杂度与空间复杂度仅为O(n²)。前向后向算法分为前向计算与后向计算两个过程，在前向计算中，将采取动态规划的方法对所有分割方式计算边际似然；而在后向计算中，则从后至前搜索获得最优分割方案。

在使用动态规划方法进行前向计算时，将ρ_j(r)定义为第j个样本属于当前分割段，且该分割段已包含r个样本的条件概率。由此，可获得新增一个样本后关于ρ_j+1(r+1)的局部迭代公式：

ρ_j+1(r+1)＝(1-h(r+1))π_j+1(r)ρ_j(r) (19)

如若第j+1个样本是新分割段的起始分割点，则有：

ρ_j+1(0)＝max_0≤r≤jh(r+1)π_j+1(r)ρ_j(r) (20)

前向计算将会从ρ₀(0)＝1,ρ₀(r)＝0开始迭代，直至j＝n-1。由于0≤r≤j，因此计算获得的各种分割可能的概率值可以通过一个上三角阵进行存储。在后向算法中，则只需寻找到各样本中的所有r中可能中概率值最大者，即：

考虑到算法在实际迭代计算第j个样本各分割可能中获得的ρ_j(r)最大者与其它数值往往存在较大差距，且在此部分重在获取最优分割段对应的各分割点位置，因此后向算法对于分割点的搜索也可简化为：

如若x_τj与x_τj+1为两个临近的分割点，则x_τj:x_τj+1则可构成第j+1个序列段s_j+1，并由此组成最优分割结果S＝{s₁,s₂,…,s_m}。

三、对各个时间序列样本数据段的组成模式提取

采用隐狄利克雷分布模型进行分割段聚类。将收集的驾驶数据样本作为“语料库”，将每个分割段作为文档，将组成模式作为离散化的主题，将每个样本数据作为单词，每个文档与主题之间对应特定分布将每个分割段假设为“驾驶文档”，将驾驶操纵模式假设为离散化的“驾驶主题”，将每个驾驶样本数据作为一种“驾驶单词”。假设在每个驾驶文档与驾驶主题之间对应特定分布，其关于主题的分布概率可通过狄利克雷分布θ_m～Dir(θ；α)表示，α为先验超参数，因此驾驶主题在驾驶文档中的生成过程遵循多项式分布z_m,n～Mult(z；θ_m)；假设在每个驾驶主题与驾驶单词之间对应特定分布，其关于各单词的分布概率同样可通过狄利克雷分布

表示，β为先验超参数，因此驾驶单词在驾驶主题中的生成过程同样遵循多项式分布

对隐狄利克雷分布模型进行结构或输入调整，使其可用于驾驶序列段聚类：

(1)将原始驾驶序列假设为一种高斯混合的表现，通过高斯混合模型进行驾驶序列样本聚类。将高斯混合模型获得的样本簇标签代替样本数据作为隐狄利克雷分布模型的输入；

(2)针对各个维度的驾驶行为数据，通过归一化处理将其值域映射至[0,1]区间，通过离散化处理将其数值转换为离散值，从而代替样本数据作为多模态隐狄利克雷分布模型的输入。

以下提供两种主题模型来学习各个时间序列样本数据段的组成模式的主题分布。

1)高斯混合-隐狄利克雷分布模型

对于自然驾驶数据，采用高斯混合模型进行聚类，即将驾驶行为时间序列样本数据作为V个高斯模型混合形成，因此每个驾驶行为时间序列样本数据的概率密度函数为：

其中，π_v为第v个高斯模型的权重，可通过标签为v的样本在所有样本数中的比例确定。

为均值为μ_v，协方差为∑_v的多元高斯分布概率密度函数。为拟合出最适应于样本的混合高斯函数，同时推断获得样本最佳的从属分布，使用最大期望EM算法通过迭代的方式逐步实现极大似然估计。

将驾驶行为时间序列样本数据所属多元高斯分布的簇标签代替样本，作为隐狄利克雷分布模型的输入单词。将驾驶文档表示为m∈[1,M]，驾驶主题表示为k∈[1,K]，第m个文档的第n个单词为w_m,n，其对应的推断所属主题隐状态为z_m,n。为推断分布参数θ_m，

以及隐状态z_m,n，经共轭分布的后验超参数推导，通过吉布斯采样迭代更新单词隐状态：

而分布参数θ_m，

的计算过程即对驾驶主题、驾驶单词计数频率占比计算：

2)多模态隐狄利克雷分布模型

使用多模态隐狄利克雷分布模型，将不同维度的特征视作不同模态分别进行驾驶文档-驾驶主题-驾驶单词共轭分析。对不同维度的数据，首先经过数据归一化、使数据值域调整为[0,1]区间，将区间分割为V段，通过离散化使模型输入为[0,v]的整数值。对于模态l，使用吉布斯采样获取单词隐状态：

通过吉布斯采样或变分推断学习驾驶文档-主题分布参数θ_m以及驾驶主题-单词主题分布参数

迭代计算完成后，将每个驾驶文档中的成分最多的驾驶主题设定为该驾驶文档所表征的驾驶操纵模式。

具体地，经上述两种隐狄利克雷分布模型进行主题分布推断后，将每个驾驶行为时间序列样本数据段中占比最大的驾驶主题作为该序列段的驾驶操纵模式。由此，一个矩阵形式的含多源特征的驾驶数据

经序列分割与聚类算法处理后，可被转化为由多个驾驶分割段及其驾驶操纵模式标签所构成的集合(S,K)＝{(s₁,k₁),(s₂,k₂),…,(s_m,,k_m)}。

以下对上述过程进行仿真模拟，结果如下：

1、对获取的驾驶行为时间序列样本数据的分割结果如下：

实现驾驶操纵模式的提取过程主要通过驾驶序列分割与驾驶序列聚类两个阶段进行，每一阶段的算法处理都与上一阶段保持着一定的独立性。图4(a)～(d)展现了分割算法对自然驾驶序列的分割结果，其中的纵坐标为实验使用驾驶特征在该时间段内的具体数值。实验验证过程中，使用了车速(VehSpd)、车辆加速度(Acc)、横向加速度(LatAcc)、方向盘转角(StrWhAng)、节气阀位置(ThrPos)以及刹车踏板位置(BrkPdlPos)所采集的驾驶数据作为模型特征输入。算法的分割结果见图4(a)～(d)中虚线部分，而为了验证分割有效性，将分割结果与人工标注的驾驶行为转换点(图4阴影交替位置)进行对比，发现两种算法分割获得的驾驶序列段数量明显多于人工标注结果，同时都倾向于在驾驶行为的转换真值的邻域内设立分割点。

表1展现了算法分割结果与人工标注分割结果的基本数据对比。通过表1可知，在总共超过16000秒的驾驶数据学习中，两种算法的分割段数量都大致为人工标注结果的2.5倍左右。作为驾驶行为模式的组成部分，两者数量处在2-3倍左右的倍数关系有利于深入分析驾驶行为关于驾驶操纵模式的组成关系。由于本实验使用的驾驶数据含有驾驶员在高速公路上的驾驶过程，在此期间驾驶员进行的长期自由直行驾驶行为使人工标注的最大分割段长度达到222秒，而与之对比两种分割算法获得的最大分割段长度则分别为99.1秒与121.3秒。

表1分割算法结果与人工标注结果对比

2、对分割后的数据段的聚类结果如下：

通过隐狄利克雷分布模型对具有相似样本组成的分割驾驶序列段进行聚类，且将属于同一个驾驶主题的序列段考虑成同一种驾驶操纵模式。为了首先观察模型在驾驶主题数量取值较低时的表现，将K取值为K＝4，即只生成4种驾驶主题。

对图4所示的场景1的聚类结果如图5所示。以虚线表示的分割段之间的区域将被同一种颜色覆盖，以表征相应的驾驶操纵模式构成。由图5可知，尽管隐狄利克雷分布模型已使不同分割段之间相互独立，但是最终聚类结果仍然倾向于对相邻分割段赋予同一种操纵模式对应的驾驶主题。而将该图5中的聚类结果与图4中场景2的人工标注结果进行对比，可以发现属于同一个驾驶行为的序列段也非常倾向于获得同一种驾驶操纵模式。

图6展现了在一段20分钟驾驶过程中使用本发明算法所生成的驾驶数据分割以及操纵模式分布结果。由图6可知，在不同时间段内，不同的驾驶主题分布情况以及主要操纵模式构成也存在着明显区别。两种分割算法下的扩展隐狄利克雷分布模型在12分钟以及18分钟左右都在频繁变换驾驶主题分布，而在这两个时间段内车辆正在进行频繁的跟驰模式切换。

为了观察提取获得的驾驶操纵模式在不同驾驶行为的具体表现，我们通过

图7展现了驾驶过程中重要的驾驶行为模式下所对应的驾驶主题分布情况。

图7(a)中，展现了自由直行(Free driving)、迫近(Approaching)、远距离跟驰(Far following)、中距离跟驰(Middle following)、近距离跟驰(Near following)下各驾驶主题的分布情况。可以发现，三种跟驰模式的驾驶主题分布明显存在很大的相似性，而其它的驾驶行为模式的主题分布情况则各不相同。

图7(b)展现了四种换道行为模式下的主题分布情况，分别是自由左换道(Freeleft lane change)、自由右换道(Free right lane change)、受限左换道(Constrainedleft lane change)、受限右换道(Constrained right lane change)。

由图7可知，在驾驶主题分布上，自由变道与约束变道存在显著差异，而两种换道模式在不同方向上的驾驶主题分布则存在着一定共性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的时间序列数据组成模式的提取方法，图8示出了本申请实施例提供的时间序列数据组成模式的提取装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图8，本申请实施例中的时间序列数据组成模式的提取装置可以包括样本数据获取模块201、分割模块202和组成模式提取模块203。

其中，样本数据获取模块201，用于获取时间序列样本数据；

分割模块202，用于将所述时间序列样本数据分割成多个时间序列样本数据段；

组成模式提取模块203，用于确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式。

在一些实施例中，分割模块202具体可以用于：

在一些实施例中，所述时间序列样本数据的分布规律为所述时间序列样本数据的局部线性程度；分割模块202具体可以用于：

在一些实施例中，所述时间序列样本数据中的每个样本数据点为一个分割段，各个所述分割段构成分割段集合；分割模块202具体可以用于：

将各个所述分割段中边际似然概率最大的两个分割段凝聚为一个新的分割段，得到新的分割段集合；

检测新的分割段集合中各个分割段的边际似然概率中的最大值是否小于设定阈值，在新的分割段集合中各个分割段的边际似然概率中的最大值小于所述设定阈值的情况下，将当前的分割段作为所述时间序列样本数据段；在新的分割段集合中各个分割段的边际似然概率中的最大值大于或等于所述设定阈值的情况下，执行所述将各个所述分割段中边际似然概率最大的两个分割段凝聚为一个新的分割段，得到新的分割段集合。

在一些实施例中，所述时间序列样本数据中包括多个样本数据点，分割模块202具体可以用于：

计算各个分割方式对应的边际似然概率；

对各个分割方式的边际似然概率进行比对，确定最大的边际似然概率对应的目标分割方式；

在一些实施例中，组成模式提取模块203具体可以用于：

确定每个时间序列样本数据段中的各个组成模式的占比；

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图9，该终端设300可以包括：至少一个处理器310、存储器320以及存储在所述存储器320中并可在所述至少一个处理器310上运行的计算机程序，所述处理器310执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种时间序列数据组成模式的提取方法，其特征在于，包括：

获取时间序列样本数据；

基于所述时间序列样本数据的局部线性分布，将所述时间序列样本数据分割成多个时间序列样本数据段；

确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式；

所述时间序列样本数据中的每个样本数据点为一个分割段，各个所述分割段构成分割段集合；

2.如权利要求1所述的时间序列数据组成模式的提取方法，其特征在于，所述时间序列样本数据中包括多个样本数据点，所述基于所述时间序列样本数据的局部线性程度，将所述时间序列样本数据分割成多个时间序列样本数据段，包括：

3.如权利要求1所述的时间序列数据组成模式的提取方法，其特征在于，所述确定各个所述时间序列样本数据段的组成模式的主题分布，包括：

4.如权利要求3所述的时间序列数据组成模式的提取方法，其特征在于，所述基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式，包括：

确定每个时间序列样本数据段中的各个组成模式的占比；

5.一种时间序列数据组成模式的提取装置，其特征在于，包括：

样本数据获取模块，用于获取时间序列样本数据；

分割模块，用于基于所述时间序列样本数据的局部线性分布，将所述时间序列样本数据分割成多个时间序列样本数据段；

组成模式提取模块，用于确定各个所述时间序列样本数据段的组成模式的主题分布，并基于确定出的主题分布为对应的所述时间序列样本数据段赋予与所述主题分布对应的模式；

所述时间序列样本数据中的每个样本数据点为一个分割段，各个所述分割段构成分割段集合；所述分割模块具体用于执行以下步骤：

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的时间序列数据组成模式的提取方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的时间序列数据组成模式的提取方法。