CN111666962A

CN111666962A - 序列数据的目标定位方法和装置

Info

Publication number: CN111666962A
Application number: CN201910172493.XA
Authority: CN
Inventors: 王虎; 杜强; 司润泽; 穆玉芝
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-09-15
Anticipated expiration: 2039-03-07
Also published as: CN111666962B

Abstract

本申请提供了一种序列数据的目标定位方法和装置，该方法包括：建立识别模型；使用建立的识别模型获取序列数据对应的特征图，以及目标；若当前获取的目标组成的目标集合不为空，则根据所述特征图，以及目标集合确定各特征图对各目标的影响度；选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。该方法能够以较低的算法复杂度实现目标定位，目标定位过程以影响度为线索，符合人类认知的方式，具有较好的可解释性。

Description

序列数据的目标定位方法和装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种序列数据的目标定位方法和装置。

背景技术

序列数据广泛应用于描述包含时间或者空间顺序的信号变化，例如股票价格序列、语音序列、手写轨迹序列、公路路况序列等。对序列数据的分析包括序列目标识别、目标定位等，其中目标定位是指在知道序列数据包含某些目标后，进一步找出各个目标对应序列的位置或者片段。

传统的目标定位技术一般采用监督学习法，监督学习定位法是指针对一批训练样本(每个样本包括序列数据X、目标单元和定位的集合{Y，L})，建立映射模型F:X→{Y，L}。

可以看出，监督学习定位法需要给出训练样本中各个目标单元对应的定位，但是这在现实生活中常常是较难获取的。

例如在语音识别问题中，训练样本常常包含几千小时的录音和数百万的文字，我们很难给出每个字词在语音中出现的定位。

作为折中方案，常常只给出一段文字及该段文字整体在录音中对应的定位，也就是说，训练样本中并没有标注每个字词所在定位。由于语速存在个体差异和时间差异，每个字词对应的语音序列数据长度存在一定的随机性，这就给序列数据的分析带来较大的挑战，使得模型变得更加复杂。

随着深度神经网络技术的快速发展，出现了一些能够间接给出定位信息的序列分析方法，主要包括序列单元识别和注意力映射两类方法。这些方法所需的训练样本仅包含输入序列数据X和目标单元序列Z，因此所建立的模型F:X→Z。模型的直接输出不包含定位信息，但是基于模型识别过程的某些特性，这些方法能够间接推断出定位信息。以现有实现中的下述两种实现方法为例：

一种方法为：序列帧识别法，该方法先将序列数据划分为若干个帧，然后推断每帧对应的目标，最后合并临近的相同目标，生成目标序列；其模型的训练过程采用CTC(Connectionist Temporal Classification)损失函数，解决了计算序列差异度时序列未对齐的问题。

由于这种方法对每帧均进行了识别，多帧组合出一个识别目标，据此可以推断出识别目标对应的位置信息。

序列帧识别法为了实现足够的分辨率，帧的宽度常常设置得很小，因而会产生数量较多的帧，使得帧到目标的位置映射路径较多(参考CTC损失函数的计算过程，存在多种映射路径均能对应到同一个结果的现象)，计算复杂度大；另一方面，CTC算法引入了空白(-)符号，使得某些情况下模型将某帧识别为目标或者空白具有相同的效果，例如“a--b--”和“aaabbb”都对应“ab”，因此这种方式的目标定位存在错误，也难以解释。

另一种方法为：注意力映射法，该方法在模型中增加注意力网络，每次产生目标单元时注意力网络能够给出与结果相关的位置信息。

注意力映射法由于增加了一个注意力网络，其参数较多且计算量较大；此外，由于注意力网络与每个输入单元均有连接，并没有限制注意力的区域连续性，也就是说注意力网络为同一个目标定位到多个距离较远的区域，这不符合目标序列与输入序列之间按顺序映射的场景，因此不易解释。

上述两种方法由于实现受限，导致可解释性较差。

发明内容

有鉴于此，本申请提供一种序列数据的目标定位方法和装置，能够以较低的算法复杂度实现目标定位，目标定位过程以影响度为线索，符合人类认知的方式，具有较好的可解释性。

为解决上述技术问题，本申请的技术方案是这样实现的：

一种序列数据的目标定位方法，该方法包括：

建立识别模型；

使用建立的识别模型获取序列数据对应的特征图，以及目标；

若当前获取的目标组成的目标集合不为空，则根据所述特征图，以及目标集合确定各特征图对各目标的影响度；

选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。

一种序列数据的目标定位装置，该装置包括：建立单元、获取单元、确定单元和定位单元；

所述建立单元，用于建立识别模型；

所述获取单元，用于使用所述建立单元建立的识别模型获取序列数据对应的特征图，以及目标；

所述确定单元，用于若所述获取单元当前获取的目标组成的目标集合不为空，则根据所述特征图，以及目标集合确定各特征对各目标的影响度；

所述定位单元，用于选取所述确定单元确定的值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述序列数据的目标定位方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述序列数据的目标定位方法的步骤。

由上面的技术方案可知，本申请中通过建立的识别模型获取序列数据对应的特征图，以及输出目标；根据各个特征对目标的影响程度估计目标的定位信息，该方案能够以较低的算法复杂度实现目标定位，目标定位过程以影响度为线索，符合人类认知的方式，具有较好的可解释性。

附图说明

图1为本申请实施例一中序列数据的目标定位流程示意图；

图2为本申请实施例二中序列数据的目标定位流程示意图；

图3为本申请实施例中定位序列“我爱我家”的示意图；

图4为本申请实施例中应用于上述技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种序列数据的目标定位方法，通过建立的识别模型获取序列数据对应的特征图，以及输出目标；根据各个特征对目标的影响程度估计目标的定位信息，该方案能够以较低的算法复杂度实现目标定位，目标定位过程以影响度为线索，符合人类认知的方式，具有较好的可解释性。

下面结合附图，详细描述本申请实施例中实现序列数据的目标定位过程。

本申请具体实现序列数据的目标定位的装置可以是一台有计算能力的设备，如PC、服务器等。

实施例一

参见图1，图1为本申请实施例一中序列数据的目标定位流程示意图。具体步骤为：

步骤101，建立识别模型。

本申请实施例中建立的识别模型可以不进行限制，能够输出特征图，以及目标即可，例如针对序列数据的多标签分类(multi-label classification，判断序列数据是否包含给定label，此处的label即目标)神经网络模型，其中特征层是指神经网络模型的某一个隐藏层。由于分类模型常常包含下采样层，例如在二分之一下采样的Maxpooling操作中每两个序列位置被合并为一个，这会导致序列信息逐步减少，择优地，上述特征层取在神经网络前向计算中尚未经过下采样的隐藏层。

模型的输入是序列数据，中间包括与序列相对应的特征层，模型的输出目标为序列数据中包含的模式，例如语音转文字的文字序列或者文字集合。

为了实现定位的稳定性，特征层的激活单元可以采用线性整流函数(RectifiedLinear Unit，ReLU)激活函数实现。

步骤102，使用建立的识别模型获取序列数据对应特征图，以及目标。

特征图(feature map)，即序列数据经过神经网络的前向计算在上述特征层的输出图。

获取序列数据对应特征图，具体如下：

对于一序列数据，建立候选集合S，设置为所有可能的目标全集，例如语音识别问题中，所有候选文字的集合即目标全集；将其输入建立的识别模型后，计算特征图，设为F，F是一个多维矩阵，其中一个维度为序列号，与输入序列一致；也就是说，特征层能够在输入序列的每个序列位置产生一个或者多个特征。

本申请实施例中的特征图中至少包括序列号这一维度，至于是否包含其他维度，如频率等，根据实际建立的识别模型相关，这里不进行限制。

获取序列数据对应的输出目标，具体如下：

建立的识别模型对获取的特征图进一步处理后的输出目标，此处的目标是模型认为输入序列包含的模式，例如语音中包含的文字。若输出目标不是集合形式，例如序列形式，则将其转换为集合形式(排除重复模式)，并排除不在S中的模式，生成目标集合；然后将S更新为该目标集合。

步骤103，若当前获取的目标组成的目标集合不为空，则根据所述特征图，以及目标集合确定各特征图对各目标的影响度。

本步骤中根据特征图，以及目标集合确定各特征对各目标的影响度，包括：

计算目标集合中的每个目标相对于每个特征图的偏导数；

将计算的偏导数作为对应的特征图对目标的影响度；其中，特征图对目标的影响度越大，对应的偏导数值越大。

本申请实施例中为了更方便、简单确定定位信息，将计算的每个目标相对于每个特征图的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量。

设Y表示是目标，F表示为特征图，则目标集合为Y＝<y₁,…,y_k,…,y_K>，特征图F＝<f₁₁,…,f_tm,…,f_TM>，其中，t表示第t个序列号，k表示第k个目标，m表示第m个特征。每个序列位置所对应的特征数量相同，那么，偏导数矩阵可以表示为如下：

步骤104，选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。

本实施例中基于偏导数实现影响度来确定目标的定位信息时，存在如下两种方式：

第一种：

选择所述矩阵中每列最大非负偏导数值所对应的序列号，作为对应目标的定位信息。

这里如果一列中不存在值为非负的偏导数，则说明该列对应的目标定位不清晰，将其标记为可疑目标。

考虑到目标定位一般要求每个序列位置最多对应一个目标，如果某个序列位置对应多个目标，则选取偏导数最大的那个，具体实现如下：

当存在多列的偏导数中的最大非负偏导数值对应的序列号相同时，该目标的定位信息为值最大偏导数所对应的序列号；其它列选择对应列次高的非负偏导数对应的序列号作为对应目标的定位信息；

依此类推，直到每列选择的偏导数的值对应的序列号不同，或者不存在可选的最大非负偏导数值。

如第一列、第三列、第四列的偏导数中的最大非负偏导数值对应的序列号相同，且第一列对应的最大偏导数值最大，则该序列号为第一列中对应目标对应的定位信息；

第三列和第四列的偏导数中分别取次高的非负偏导数来确定对应目标的定位信息；

假设第三列中不存在次高的非负偏导数，则该列不能针对对应的目标确定定位信息；

假设第四列中存在次高的非负偏导数，则根据对应的偏导数确定该列目标的定位信息。

第二种方式：

选取每列中相同序列号对应的偏导数分别求平均数，再在T个平均数中选择值最大的平均数所对应的序列号，作为对应目标的定位信息。

如上述矩阵中，针对每列的偏导数，分别选择序列号为1、……、t、……T，对应的偏导数，求平均值，则在T个平均值中选择最大平均值，则最大平均值对应的序列号，则为该列目标的定位信息。

本申请实施例中在上述一次计算中，可能不会定位出所有目标，进一步可以确定是否所有目标对应的值最大的影响度均不满足预设条件，如果是，结束所述序列数据的目标定位；否则，将已标记序列位置对应的特征图设置为零，并将目标集合中已确定定位信息的目标删除；依次迭代(重复上述定位步骤)，直到目标集合中的目标为空；或针对当前目标集合中的所有目标对应的影响度均不满足预设条件时，结束所述序列数据的目标定位。具体实现如实施例二：

这里的依次迭代为了实现为每个目标找到多个可能的对应位置。

参见图2，图2为本申请实施例二中序列数据的目标定位流程示意图。具体步骤为：

步骤201，建立识别模型。

本申请实施例中建立的识别模型可以不进行限制，能够输出特征图，以及目标即可。

为了实现定位的稳定性，特征层的激活单元可以采用ReLU激活函数实现。

步骤202，使用建立的识别模型获取序列数据对应特征图，以及目标。

获取序列数据对应特征图，具体如下：

获取序列数据对应的输出目标，具体如下：

步骤203，确定当前目标集合是否为空，如果是，执行步骤208；否则，执行步骤204。

步骤204，根据当前特征图，以及当前目标集合确定各特征图对各目标的影响度。

本步骤中根据特征图，以及目标集合确定各特征图对各目标的影响度，包括：

计算目标集合中的每个目标相对于每个特征图的偏导数；

步骤205，选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。

第一种：

这里如果一列中不存在值为非负的偏导数，则该列不能定位任一目标。

如果某个位置对应多个目标，则选取偏导数最大的那个，具体实现如下：

第二种方式：

步骤206，确定是否所有目标对应的值最大的影响度均不满足预设条件，如果是，执行步骤208；否则，执行步骤207。

当使用偏导数计算影响度时，这里的预设条件为非负，即值最大的影响度的值为非负，则满足预设条件；否则，不满足预设条件。

步骤207，将已标记序列位置对应的特征图设置为零，使用更新后的特征图重新确定目标，组成当前目标集合，执行步骤203。

例如，位置t被标记为目标y_k，则将f_mt,m＝1,…,M均设置为零，使用更新后的特征图重新生成目标，组成当前要定位的目标的目标集合。

步骤208，结束针对该序列数据的目标定位的流程。

本发明建立了序列数据的识别模型，相比于现有的序列到序列模型，模型的直接输出可以不包含序列信息及其在输出序列的定位信息，因此降低了模型的复杂度，网络连接数据可以更少；另一方面，通过计算输出目标相对于模型特征图的偏导数和置零特征图的操作，可以逐步标记出输入数据的每个序列位置对应的目标，即完成了对序列数据包含内容的定位。

通过类似于ctc的“合并连续、相同内容”的方法，还可以进一步将上述标记序列转换为输出序列。

下面结合实例，详细说明序列数据的目标定位过程。

参见图3，图3为本申请实施例中定位序列“我爱我家”的示意图。以一段语音对应的内容为“我爱我家”，序列长度为23帧，特征数量为4为例，真实场景下的特征数量和序列长度均可达千量级的数，这里举例的数值是为了下文描述方便。

第一步、使用建立的识别模型获取序列数据(我爱我家)对应特征图，以及目标。

图3中首次获取的目标集合Y为{爱，家，我}。

下面以“我”对一个的模型输出变量为y₃为例，描述目标“我”的定位过程。

图3中m标识特征标号，从1到4，t对应序列长度的帧数，也就是上文给出的序列号1到23。

第二步、确定当前获取的目标组成的目标集合不为空，则根据获取的特征图，以及目标集合确定各特征图对各目标的影响度。

具体实现时，通过求偏导数实现，具体如下：

计算目标集合中的每个目标相对于每个特征图的偏导数；

将所有偏导数组成一个偏导数矩阵，该矩阵为4×23行，3列的矩阵。

本实施例以上述第一种中选择所述矩阵中每列最大非负偏导数值所对应的序列号，作为对应目标的定位信息。

针对集合中的目标“我”，则选择第3例中最大非负偏导数值所对应的序列号，作为目标“我”的定位信息，如图3中的针对目标“我”的第1次定位的定位信息为t＝3，对应的特征为m＝2的特征，将该特征对应的特征图在t＝3的位置置为零；再次通过更新后的特征图，重新获取目标集合；

再次进行定位，由图3所给出的示例可以看出，针对目标“我”进行第2次定位，定位为第2个位置t＝4的位置，依次循环操作，直到定位出“我”的所有位置。

如图3所示，经过第7次针对目标“我”定位后，确定出目标“我”的所有位置为t＝3,4,5,14,15,16,17。

当目标集合中的目标为空，或所得偏导数矩阵的所有例均不存在非负值时，针对所有目标定位结束，完成“我爱我家”这一语音序列的定位。

基于同样的发明构思，本申请实施例中还提出一种序列数据的目标定位装置。参见图4，图4为本申请实施例中应用于上述技术的装置结构示意图。该装置包括：建立单元401、获取单元402、确定单元403和定位单元404；

建立单元401，用于建立识别模型；识别模型的特征层的激活单元采用ReLU激活函数。

获取单元402，用于使用建立单元401建立的识别模型获取序列数据对应的特征图，以及目标；

确定单元403，用于若获取单元402当前获取的目标组成的目标集合不为空，则根据所述特征图，以及目标集合确定各特征对各目标的影响度；

定位单元404，用于选取确定单元403确定的值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息。

较佳地，

确定单元403，具体用于根据所述特征图，以及目标集合确定各特征对各目标的影响度时，将计算目标集合中的每个目标相对于每个特征图的偏导数；将计算的偏导数作为对应的特征图对目标的影响度；其中，特征图对目标的影响度越大，对应的偏导数值越大。

较佳地，

定位单元404，具体用于将计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；选择所述矩阵中每列最大非负值所对应的序列号，作为对应目标的定位信息。

较佳地，

定位单元404，进一步用于当确定存在多列的偏导数中的最大非负值对应的序列号相同时，该目标的定位信息为值最大偏导数所对应的序列号；其它列选择对应列次高的非负偏导数对应的序列号作为对应目标的定位信息；依此类推，直到每列选择的偏导数的值对应的序列号不同，或者不存在可选的最大非负偏导数值。

较佳地，

定位单元404，具体用于将计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；选取每列中相同序列号对应的偏导数分别求平均数，再在T个平均数中选择值最大的平均数所对应的序列号，作为对应目标的定位信息。

较佳地，

定位单元404，进一步用于确定是否所有目标对应的值最大的影响度均不满足预设条件，如果是，结束所述序列数据的目标定位；否则，将已标记序列位置对应的特征图设置为零，并使用更新后的特征图重新确定目标，组成当前目标集合；依次迭代，直到目标集合中的目标为空；或针对当前目标集合中的所有目标对应的影响度均不满足预设条件时，结束所述序列数据的目标定位。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

另外，本申请实施例中还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述序列数据的目标定位方法的步骤。

此外，本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述序列数据的目标定位方法的步骤。

综上所述，本申请通过建立的识别模型获取序列数据对应的特征图，以及输出目标；根据各个特征对目标的影响程度估计目标的定位信息，该方案能够以较低的算法复杂度实现目标定位，目标定位过程以影响度为线索，符合人类认知的方式，具有较好的可解释性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种序列数据的目标定位方法，其特征在于，该方法包括：

建立识别模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征图，以及目标集合确定各特征对各目标的影响度，包括：

计算目标集合中的每个目标相对于每个特征图的偏导数；

3.根据权利要求2所述的方法，其特征在于，所述选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息，包括：

将将计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；

选择所述矩阵中每列最大非负值所对应的序列号，作为对应目标的定位信息。

4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：

当存在多列的偏导数中的最大非负值对应的序列号相同时，该目标的定位信息为值最大偏导数所对应的序列号；其它列选择对应列次高的非负偏导数对应的序列号作为对应目标的定位信息；

5.根据权利要求2所述的方法，其特征在于，所述选取值最大，且满足预设条件的影响度对应的特征图估计对应目标的定位信息，包括：

计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

确定是否所有目标对应的值最大的影响度均不满足预设条件，如果是，结束所述序列数据的目标定位；否则，将已标记序列位置对应的特征图设置为零，并使用更新后的特征图重新确定目标，组成当前目标集合；依次迭代，直到目标集合中的目标为空；或针对当前目标集合中的所有目标对应的影响度均不满足预设条件时，结束所述序列数据的目标定位。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述识别模型的特征层的激活单元采用线性整流函数ReLU激活函数。

8.一种序列数据的目标定位装置，其特征在于，该装置包括：建立单元、获取单元、确定单元和定位单元；

所述建立单元，用于建立识别模型；

9.根据权利要求8所述的装置，其特征在于，

所述确定单元，具体用于根据所述特征图，以及目标集合确定各特征对各目标的影响度时，将计算目标集合中的每个目标相对于每个特征图的偏导数；将计算的偏导数作为对应的特征图对目标的影响度；其中，特征图对目标的影响度越大，对应的偏导数值越大。

10.根据权利要求9所述的装置，其特征在于，

所述定位单元，具体用于将计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；选择所述矩阵中每列最大非负值所对应的序列号，作为对应目标的定位信息。

11.根据权利要求10所述的装置，其特征在于，

所述定位单元，进一步用于当确定存在多列的偏导数中的最大非负值对应的序列号相同时，该目标的定位信息为值最大偏导数所对应的序列号；其它列选择对应列次高的非负偏导数对应的序列号作为对应目标的定位信息；依此类推，直到每列选择的偏导数的值对应的序列号不同，或者不存在可选的最大非负偏导数值。

12.根据权利要求9所述的装置，其特征在于，

所述定位单元，具体用于将计算的偏导数组成T×M行，K列偏导数矩阵；其中，K为目标集合中目标的个数，T为最大序列号，M为每个序列位置所对应的特征数量；选取每列中相同序列号对应的偏导数分别求平均数，再在T个平均数中选择值最大的平均数所对应的序列号，作为对应目标的定位信息。

13.根据权利要求9-12任一项所述的装置，其特征在于，

所述定位单元，进一步用于确定是否所有目标对应的值最大的影响度均不满足预设条件，如果是，结束所述序列数据的目标定位；否则，将已标记序列位置对应的特征图设置为零，并使用更新后的特征图重新确定目标，组成当前目标集合；依次迭代重复，直到目标集合中的目标为空；或针对当前目标集合中的所有目标对应的影响度均不满足预设条件时，结束所述序列数据的目标定位。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的方法。