CN110334244A

CN110334244A - 一种数据处理的方法、装置及电子设备

Info

Publication number: CN110334244A
Application number: CN201910624692.XA
Authority: CN
Inventors: 侯靖勇; 施阳阳; 黄美玉; 雷欣
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-15
Anticipated expiration: 2039-07-11
Also published as: CN110334244B

Abstract

本发明提供了一种数据处理的方法、装置及电子设备，用于解决现有技术中无法确定关键词在音频数据中的位置，影响关键词检出系统的性能的问题。包括：获取音频数据中的目标帧；确定目标帧的顶层特征向量序列；根据顶层特征向量序列确定出目标帧锚框的后验概率向量序列、以及目标帧锚框的空间变换参数向量序列；确定目标帧锚框的后验概率向量序列中的最大值、以及最大值对应的目标锚框；若最大值大于设定阈值，则确定最大值对应的目标锚框的第一时刻存在关键词；根据第一时刻以及目标锚框的长度，确定目标锚框对应的第二时刻；根据目标锚框的起始位置和结束位置，以及锚框对应的空间变换参数向量，确定出关键词的实际起止位置。

Description

一种数据处理的方法、装置及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种数据处理的方法、装置及电子设备。

背景技术

随着科学技术的不断发展，智能语音设备越来越广泛的进入到人们的日常生活中，例如智能音响设备、智能机器人等等，智能语音设备接收到用户发出的一段音频数据，然后对该音频数据进行语义识别，并根据语义识别结果执行对应的操作。具体的，智能语音设备获取到用户输入的音频数据后，需要先检测音频数据中是否包括关键词，如果包括关键词，便会激活语音识别系统，如果不包括关键词，则不激活语音识别系统。因此，检出音频数据中的关键词是一个重要的环节。

现有技术中，关键词检出系统采用基于隐马尔可夫模型的关键词检出技术、或者基于深度学习的关键词检出方案对关键词进行检出，具体的，通过上述方法对关键词进行分类，进而确定出关键词，但采用上述方法仅仅能检出关键词，无法确定关键词在所述音频数据中的位置，影响关键词检出系统的性能。

综上所述，如何在对关键词进行分类的同时确定出关键词在音频数据中的位置，进而提高关键词检出系统的性能，是目前需要解决的问题。

发明内容

有鉴于此，本发明提供了一种数据处理的方法、装置及电子设备，用于解决现有技术中无法确定关键词在音频数据中的位置，影响关键词检出系统的性能的问题。

根据本发明实施例的第一个方面，提供了一种数据处理的方法，包括：获取音频数据中的目标帧；确定所述目标帧的顶层特征向量序列；根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列；确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框；响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置；根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置；根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

在一个实施例中，所述确定所述目标帧的顶层特征向量序列，具体包括：根据神经网络特征提取器确定所述目标帧的顶层特征向量序列。

在一个实施例中，所述神经网络特征提取器包括门控循环单位GRU。

在一个实施例中，所述根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列，具体包括：根据所述顶层特征向量序列，通过区域提出网络PRN确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列。

在一个实施例中，所述区域提出网络PRN包括第一子神经网络与第二子神经网络，其中，所述第一子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的后验概率向量序列，所述第二子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的空间变换参数向量序列。

在一个实施例中，所述神经网络特征提取器通过如下步骤训练获得：获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据；根据所述训练样本数据确定训练损失函数；根据所述训练损失函数训练所述神经网络特征提取器。

在一个实施例中，所述区域提出网络PRN通过如下步骤训练获得：获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据；根据所述训练样本数据确定训练损失函数；根据所述训练损失函数训练所述区域提出网络PRN。

根据本发明实施例的第二个方面，提供了一种数据处理的装置，包括：获取单元，用于获取音频数据中的目标帧；第一确定单元，用于确定所述目标帧的顶层特征向量序列；所述第一确定单元还用于，根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列；第二确定单元，用于确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框；所述第二确定单元还用于，用于响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置；所述第二确定单元还用于，根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置；第三确定单元，用于根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

根据本发明实施例的第三个方面，提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能所述的方法。

根据本发明实施例的第四个方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能所述的方法。

本发明实施例的有益效果包括：首先获取音频数据中的目标帧，然后确定所述目标帧的顶层特征向量序列，继而根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列，确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框，响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置，根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置，最后根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。通过上述方法，可以准确的确定出音频数据中关键词的位置，提高关键词检出系统的性能。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种数据处理的方法流程图；

图2是本发明实施例提供的一种锚框示意图；

图3是本发明实施例提供的一种关键词位置以及目标锚框位置示意图；

图4是本发明实施例提供的一种区域提出网络训练方法流程图；

图5是本发明实施例提供的一种数据处理的方法流程图；

图6是本发明实施例提供的一种数据处理的装置示意图；

图7是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，不代表顺序，也不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

通常智能语音设备接收到音频数据之后，需要先识别出关键词，然后关键词进行下一步处理，现有技术的关键词检出系统采用基于隐马尔可夫模型的关键词检出技术、或者基于深度学习的关键词检出方案对关键词进行分类检出，但采用上述方法仅仅能检出关键词，无法确定关键词在所述音频数据中的位置，影响关键词检出系统的性能。

本发明提供的一种数据处理的方法，具体如图1所示，包括：

步骤S100、获取音频数据中的目标帧。

假设，每段音频数据中包括T个目标帧，每帧对应的时刻为t，其中，1≤t≤T，本发明实施例中，每帧数据的长度为25毫秒，根据实际具体使用情况，还可以为其他数值，本发明对其不做限定。

步骤S101、确定所述目标帧的顶层特征向量序列。

具体的，根据神经网络特征提取器确定所述目标帧的顶层特征向量序列，其中，所述神经网络特征提取器包括门控循环单位GRU。

举例说明，所述音频数据的语音声学特征向量序列为通过两层128节点的特征提取器模型M₀，确定出顶层特征向量序列特征提取的过程公式如下：

其中，M₀表示我们的特征提取器模型，θ₀表示所述特征提取器模型的训练参数，所述T为是每次输入的语音数据的帧数，与语音数据的时长线性相关，所述h_t能够学习到所述音频数据在时刻t之前设定时间段的信息。

可选的，本发明实施例中，所述神经网络特征提取器还可以为递归神经网络、自注意力模型、卷积神经网络，本发明对其不做限定。

步骤S102、根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列。

具体的，根据所述顶层特征向量序列，通过区域提出网络(Region ProposalNetwork，PRN)确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列，其中，所述区域提出网络PRN包括第一子神经网络与第二子神经网络，所述第一子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的后验概率向量序列，所述第二子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的空间变换参数向量序列。

举例说明，针对任一目标帧，包括K个锚框(Anchor)，其中，所述锚框为可能包含关键词一些区域，假设具体如图2所示，针对第t帧的K个锚框，分别是Anchor 1、Anchor2、……Anchor K，例如，每个目标帧具有20个Anchor，Anchor的最短为30帧，最长为220帧，上述锚框的结束位置都为t，对应的顶层特征为h_t，起始位置则从长度最短的Anchor 1一直线性地增涨到长度最长的Anchor K，所述锚框的最短长度和最长长度根据关键词的时长的统计信息来确定，不同帧对应的锚框的个数K则根据时间情况确定，本发明对其不做限定。确定出顶层特征h_t对应的锚框数K后，根据所述顶层特征h_t，第一子神经网络M₁预测出K个n维后验概率所述后验概率的预测公式如下：

其中，θ₁是第一子神经网络M₁的训练参数。

可选的，所述第一子神经网络M₁确定所述目标帧锚框的后验概率向量序列，即用于将顶层特征h_t所对应的K个Anchor进行分类，预测每一个Anchor属于哪一个关键词或者不属于任何关键词，对于每个后验向量，假设我们有n个关键词，那么每个向量的维度为(n+1)，所以M₁的输出为(n+1)k维，但表示非关键词的一维可以不进行表示，因此，第一子神经网络M₁预测出K个n维后验概率。

在本发明实施例中，定出顶层特征h_t对应的锚框数K后，根据所述顶层特征h_t，第二子神经网络M₂预测出K个2维Anchor相对应的空间变换参数向量所述空间变换参数的预测公式如下：

其中，θ₂是第二子神经网络M₂的学习参数。

针对每个空间变换参数为2维的，具体包括平移参数以及尺度变化参数l为对应Anchor的长度，其中，u为规整前的平移参数，v为规整前的尺度变化参数，为规整后的平移参数，为规整后的尺度变化参数。

可选的，本发明实施例中第一子神经网络M₁与第二子神经网络M₂还可以为多层感知神经网络、卷积神经网络、递归神经网络等，本发明对其不做限定。

步骤S103、确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框。

举例说明，关键词为j，其中，j∈1,...,n，所述目标帧锚框的后验概率向量序列中确定一个后验概率的最大值，该最大值对应的Anchor为目标锚框，具体公式如下：

其中，a_t(j)表示目标锚框。

步骤S104、响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置。

具体的，所述设定阈值为γ_j，γ_j是判断每个关键词是否出现的阈值，γ_j的值根据不同的应用场景去调节与设定，本发明对其不做限定，若则该位置t有关键词j，且对应的目标锚框是a_t(j)，则所述目标锚框的结束位置是t。

步骤S105、根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置。

具体的，由于所述目标锚框的长度为预先设置的，因此根据所述目标锚框的结束位置是t，确定出所述目标锚框的起始位置t_x。

步骤S106、根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

具体的，根据所述起始位置t_x，结束位置t，以及步骤S102确定的空间变换参数对目标锚框进行空间变换，首先进行平移变换，然后进行尺度变换，最终预测出关键词位置为(t′_x,t′)。具体的预测公式如下：

具体的，关键词的真实位置，目标锚框的实际起止位置以及空间变换后目标锚框的位置如图3所示，由图3可知，经过空间变换后的目标锚框可以更加准确的定位出关键词的位置。

本发明实施例中，首先获取音频数据中的目标帧，然后确定所述目标帧的顶层特征向量序列，继而根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列，确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框，响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置，根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置，最后根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。通过上述方法，可以准确的确定出音频数据中关键词的位置，提高关键词检出系统的性能。

在一种可能的实施例中，所述神经网络特征提取器和所述区域提出网络是通过训练获得的，下面以训练第一子神经网络M₁为例，进行说明，具体如图4所述：

步骤S400、获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据。

举例说明，假设有n个关键词，所述n个关键词的类别号分别对应1到n，用于对Anchor进行分类，定义一个类别0，用于表示某个Anchor不属于任何一个关键词，在实际序列过程中，训练样本数据包括包含关键词的句子以及不包含关键词的句子，具体的，所有不包含关键词的句子所对应的Anchor为负锚框训练样本数据，而包含关键词的句子所对应的Anchor首先需要计算该句子上的每一个Anchor与关键词出现的实际起止位置的交并比，然后根据交并比的值确定对应的Anchor是否为正锚框训练样本数据，具体的，假设两个区域分别为锚框区域P＝(t₁,t₂)和关键词的真实区域Q＝(t₃,t₄)，其中，t₁和t₂是锚框区域P的起始帧号和结束帧号，t₃和t₄是区域Q的起始帧和结束帧号，所述交并比IoU，即两个区域相交的区域和两个区域相并的区域之间的比值，具体公式如下：

P∩Q＝max(max(t₁，t₃)-min(t₂，t₄)，0)

P∪Q＝(t₄-t₃)+(t₂-t₁)-P∩Q

若上述包含关键词的句子所对应的Anchor与关键词的真实位置的交并比大于0.7，则所述Anchor为正Anchor，即正锚框训练样本数据，为所述正Anchor确定对应的关键词类别号，若上述包含关键词的句子所对应的Anchor与关键词的真实位置的交并比小于0.3，则所述Anchor为负Anchor，即负锚框训练样本数据，为所述负Anchor的类别号为0，本发明实施例中，交并比在0.3至0.7之间的Anchor无法确定类别号，不参与实际训练。由于正Anchor的数目往往远远小于负Anchor的数据，因此，在实际训练中对Anchor进行下采样操作，具体的，对于每个句子，仅仅选择100个Anchor参与训练，首先从所有的负Anchor中随机选择50个，然后选择50个正Anchor，若一句话中所有正Anchor数目不足50，则保留所有的正Anchor参与训练，然后从剩余的负Anchor中随机选择一些负Anchor补足训练数据。

步骤S401、根据所述训练样本数据确定训练损失函数。

具体的，针对所述训练样本数据，所述训练网络的损失函数定义如下：

其中，L_c为交叉熵函数，y(i)为M₁预测的第i个Anchor后验概率，y*(i)为第i个Anchor的真实类别号，L_r为均方误差函数，p(i)为M₂对第i个Anchor预测的规整后的变换参数，p^*(i)是真实计算出的规整后的变换参数，N是所述训练样本数据中所有参与训练的Anchor，N₊是其中的正Anchor，A⁺为所有正Anchor组成的集合。根据所述训练损失函数可知，损失分为分类任务的损失以及回归任务的损失，超参数λ用于平衡上述两部分损失。其中，λ可以为0，1，2，3，4和5，本发明对其不做限定。

步骤S402、根据所述训练损失函数训练所述区域提出网络。

具体的，由于y^*(i)和p^*(i)可知，因此确定述训练损失函数后，可用标准的神经网络误差反向传播算法去训练上述神经网络特征提取器、M₁和M₂。

本发明在具体应用中，对采集的数据分为60％的训练集，10％的发展集以及30％的测试集。通过60％的训练集对神经网络特征提取器、M₁和M₂进行训练，然后通过10％的发展集调节参数，最后通过30％的测试集进行测试验证。

本发明实施例中，所述神经网络特征提取器以及区域提出网络的学习率可以设置为0.001、0.002，本发明对其不做限定。

下面通过一个具体流程图5，对本发明一种数据处理的方法进行概况说明，首先确定音频数据，然后通过神经网络特征提取器获取所述音频数据的顶层特征，然后通过区域提出网络的两个子网络M₁和M₂对所述顶层特征进行处理，确定出所述音频数据包含的关键词的真实位置。

图6是本发明实施例提供的一种数据处理的装置示意图，所述装置可以为关键词检出系统，如图6所示，本实施例的数据处理的装置包括：获取单元61、第一确定单元62、第二确定单元63和第三确定单元64。

其中，所述获取单元61，用于获取音频数据中的目标帧；所述第一确定单元62，用于确定所述目标帧的顶层特征向量序列；所述第一确定单元62还用于，根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列；第二确定单元63，用于确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框；所述第二确定单元63还用于，用于响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置；所述第二确定单元63还用于，根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置；第三确定单元64，用于根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

在一个实施例中，所述第一确定单元61具体用于：根据神经网络特征提取器确定所述目标帧的顶层特征向量序列。

在一个实施例中，所述第一确定单元61具体还用于：根据所述顶层特征向量序列，通过区域提出网络PRN确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列。

在一个实施例中，所述获取单元还用于，获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据；所述第一确定单元还用于，根据所述训练样本数据确定训练损失函数；所述数据处理装置还包括训练单元，用于根据所述训练损失函数训练所述神经网络特征提取器。

在一个实施例中，所述获取单元还用于，获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据；所述第一确定单元还用于，根据所述训练样本数据确定训练损失函数；所述训练单元还用于，根据所述训练损失函数训练所述区域提出网络PRN。

图7是本发明实施例的电子设备的示意图。图7所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器71和存储器72。处理器71和存储器72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器61通过执行存储器72所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起，同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取音频数据中的目标帧；

确定所述目标帧的顶层特征向量序列；

根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列；

确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框；

响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置；

根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置；

根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

2.如权利要求1所述的方法，其特征在于，所述确定所述目标帧的顶层特征向量序列，具体包括：

根据神经网络特征提取器确定所述目标帧的顶层特征向量序列。

3.如权利要求1所述的方法，其特征在于，所述神经网络特征提取器包括门控循环单位GRU。

4.如权利要求3所述的方法，其特征在于，所述根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列，具体包括：

根据所述顶层特征向量序列，通过区域提出网络PRN确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列。

5.如权利要求4所述的方法，其特征在于，所述区域提出网络PRN包括第一子神经网络与第二子神经网络，其中，所述第一子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的后验概率向量序列，所述第二子神经网络用于根据所述顶层特征向量序列确定所述目标帧锚框的空间变换参数向量序列。

6.如权利要求2所述的方法，其特征在于，所述神经网络特征提取器通过如下步骤训练获得：

获取训练样本数据，其中，所述训练样本数据包括正锚框训练样本数据和负锚框训练样本数据；

根据所述训练样本数据确定训练损失函数；

根据所述训练损失函数训练所述神经网络特征提取器。

7.如权利要求4所述的方法，其特征在于，所述区域提出网络PRN通过如下步骤训练获得：

根据所述训练样本数据确定训练损失函数；

根据所述训练损失函数训练所述区域提出网络PRN。

8.一种数据处理的装置，其特征在于，包括：

获取单元，用于获取音频数据中的目标帧；

第一确定单元，用于确定所述目标帧的顶层特征向量序列；

所述第一确定单元还用于，根据所述顶层特征向量序列确定出所述目标帧锚框的后验概率向量序列、以及所述目标帧锚框的空间变换参数向量序列；

第二确定单元，用于确定所述目标帧锚框的后验概率向量序列中的最大值、以及所述最大值对应的目标锚框；

所述第二确定单元还用于，用于响应于所述最大值大于设定阈值，则确定所述最大值对应的目标锚框的第一时刻存在关键词，其中，所述第一时刻为所述目标锚框的结束位置；

所述第二确定单元还用于，根据所述第一时刻以及所述目标锚框的长度，确定所述目标锚框对应的第二时刻，其中，所述第二时刻为所述目标锚框的起始位置；

第三确定单元，用于根据所述目标锚框的所述起始位置和所述结束位置，以及所述锚框对应的空间变换参数向量，确定出所述关键词的实际起止位置。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7任一项所述的方法。