CN111223476B

CN111223476B - 语音特征向量的提取方法、装置、计算机设备和存储介质

Info

Publication number: CN111223476B
Application number: CN202010327094.9A
Authority: CN
Inventors: 徐泓洋; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-04
Anticipated expiration: 2040-04-23
Also published as: CN111223476A

Abstract

本申请提供一种语音特征向量的提取方法、装置、计算机设备和存储介质，包括：获取语音信息，所述语音信息中包括多个依次排序的帧数据；按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量进行拟合，迭代训练目标神经网络，更新网络参数所得。本申请中的帧向量提取神经网络在提取语音信息的特征向量时，融合了语音信息的特征以及对应的词向量特征，使得该特征向量中具有了语义特征，可有效提升在语音识别模型中的识别准确率。

Description

语音特征向量的提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及分类模型的技术领域，特别涉及一种语音特征向量的提取方法、装置、计算机设备和存储介质。

背景技术

在语音识别任务中，通常在语音识别模型的最后搭配上语言模型来提升准确率（解决同音不同义的问题）；具有代表性的为基于CTC结构的模型，先由声学模型识别，再结合语言模型解码；也有在网络模型中将文本作为输入的一部分共同参与预测，代表为基于transformer结构的模型，在识别中将前面识别得到的文字作为下一次预测的输入。上述两种形式都是将文本信息作为一种辅助信息，在基于声学判断的基础上加上文本信息再综合判断。在上述过程中，最初的音频特征与文本特征是完全分开的。即没有将音频特征与文本特征进行融合，这便使得在语音识别场景中识别效果不理想，容易误识别。

发明内容

本申请的主要目的为提供一种语音特征向量的提取方法、装置、计算机设备和存储介质，旨在克服目前没有将音频特征与文本特征进行融合的缺陷。

为实现上述目的，本申请提供了一种语音特征向量的提取方法，包括以下步骤：

获取语音信息，所述语音信息中包括多个依次排序的帧数据；

按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。

进一步地，所述获取语音信息的步骤之前，包括：

获取语音训练数据；其中，所述语音训练数据为单个训练词及其对应的音频训练数据，所述音频训练数据包括多个依次排序的训练帧数据；

按照所述训练帧数据在所述音频训练数据中的顺序，依次将每一个训练帧数据输入至预先训练得到的目标神经网络中，提取每一个所述训练帧数据对应的第二向量；

将所有训练帧数据对应的第二向量进行求和，得到和向量；

获取所述语音训练数据中单个训练词的词向量；

将所述和向量与所述词向量进行拟合，并训练所述目标神经网络的网络参数，得到所述帧向量提取神经网络。

进一步地，所述获取语音训练数据的步骤之前，还包括：

获取目标语音信息中的目标帧数据以及所述目标帧数据前后的多帧数据；

将所述目标帧数据前后的多帧数据输入至第一神经网络中，预测出目标帧数据的预测向量；

将所述目标帧数据输入至第二神经网络中，提取所述目标帧数据对应的目标向量；

通过拟合函数计算所述目标向量以及所述预测向量的相似度，并迭代优化拟合函数的参数，以训练完成所述第一神经网络以及第二神经网络，将训练完成的所述第二神经网络作为所述目标神经网络。

进一步地，所述获取所述语音训练数据中单个训练词的词向量的步骤，包括：

通过预设的词嵌入模型构建所述训练词的词向量，预设的所述词嵌入模型包括word2vec、GloVe模型。

进一步地，所述帧向量提取神经网络至少包括输入层、输出层以及投射层，所述投射层用于将帧数据投射至向量空间，得到对应的向量。

进一步地，所述按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量的步骤之后，包括：

将所述特征向量输入至语音模型中进行识别，得到识别结果；

获取所述语音信息的真实结果，判断所述识别结果与所述真实结果是否一致；

若不一致，则将所述语音信息标注真实结果组成训练对，输入至所述帧向量提取神经网络中迭代训练。

本申请还提供了一种语音特征向量的提取装置，包括：

第一获取单元，用于获取语音信息，所述语音信息中包括多个依次排序的帧数据；

第一提取单元，用于按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。

进一步地，还包括：

第二获取单元，用于获取语音训练数据；其中，所述语音训练数据为单个训练词及其对应的音频训练数据，所述音频训练数据包括多个依次排序的训练帧数据；

第二提取单元，用于按照所述训练帧数据在所述音频训练数据中的顺序，依次将每一个训练帧数据输入至预先训练得到的目标神经网络中，提取每一个所述训练帧数据对应的第二向量；

求和单元，用于将所有训练帧数据对应的第二向量进行求和，得到和向量；

第三获取单元，用于获取所述语音训练数据中单个训练词的词向量；

训练单元，用于将所述和向量与所述词向量进行拟合，并训练所述目标神经网络的网络参数，得到所述帧向量提取神经网络。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的语音特征向量的提取方法、装置、计算机设备和存储介质，包括：获取语音信息，所述语音信息中包括多个依次排序的帧数据；按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。本申请中的帧向量提取神经网络在提取语音信息的特征向量时，融合了语音信息的特征以及对应的词向量特征，使得该特征向量中具有了语义特征，可有效提升在语音识别模型中的识别准确率。

附图说明

图1 是本申请一实施例中语音特征向量的提取方法步骤示意图；

图2 是本申请一实施例中训练目标神经网络的步骤示意图；

图3是本申请一实施例中语音特征向量的提取装置结构框图；

图4 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种语音特征向量的提取方法，包括以下步骤：

步骤S1，获取语音信息，所述语音信息中包括多个依次排序的帧数据；

步骤S2，按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。

在本实施例中，如上述步骤S1所述的，上述语音信息为待提取特征的语音，上述语音信息中包括有多个依次排序的帧数据。语音信息不同于文字信息，文字是一个一个的个体，语音信息是由一个个电平值组成的连续数组，例如在采样率为16K的情况下，1s的音频信息有16000个采样点，也就是有16000个数。由于文字对应的声音长短并不是确定的，所以也就无法像处理文字一样去直接处理一个个体单位。声学研究中通常采用的方法叫分帧，假设一帧数据的窗长度为20ms，步长为10ms，则1s的数据会被分割成99帧，每一帧数据与前一帧数据之间有10ms的重复数据。声学研究中认为N个帧组成一个状态，三个状态组成一个音素，N个音素组成一个词的声音。

如上述步骤S2所述的，预先训练得到一个帧向量提取神经网络，该帧向量提取神经网络基于音频训练数据以及所述语音训练数据对应的词向量得到，用于提取语音信息中每一帧数据的帧向量；该帧向量提取神经网络为一简单的神经网络，其至少包括输入层、输出层以及投射层，所述投射层用于将帧数据投射至向量空间，得到对应的向量。上述帧向量提取神经网络每一次只处理一帧数据，因此按照上述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的目标神经网络中，提取每一个所述帧数据对应的第一向量。

上述帧向量提取神经网络在训练时，基于音频训练数据训练以及所述语音训练数据对应的词向量，经过不断的迭代训练，优化神经网络中的网络参数，在训练完成之后，使得该帧向量提取神经网络在提取帧数据对应的向量时，具备融合文本对应的词向量的特性，这便使得该帧向量提取神经网络从上述帧数据中直接提取出的第一向量，作为对应的特征向量；该特征向量中不仅具有上述语音信息的音频特征，而且还融合了对应文本的词向量特征，使得上述特征向量具有语义特性，将其应用于语音识别的场景中时，可显著提升识别准确率，尤其是在针对同音不同字的识别上，效果显著。同时，由于上述过程中以及融合了语言特性，在后续的处理过程中则无需再使用语言模型进行处理。在面对同音不同字时，能够从上述特征向量中进行区分，效果显著。

在本实施例中，所述获取语音信息的步骤S1之前，包括：

步骤S11，获取语音训练数据；其中，所述语音训练数据为单个训练词及其对应的音频训练数据，所述音频训练数据包括多个依次排序的训练帧数据；

步骤S12，按照所述训练帧数据在所述音频训练数据中的顺序，依次将每一个训练帧数据输入至预先训练得到的目标神经网络中，提取每一个所述训练帧数据对应的第二向量；

步骤S13，将所有训练帧数据对应的第二向量进行求和，得到和向量；

步骤S14，获取所述语音训练数据中单个训练词的词向量；

步骤S15，将所述和向量与所述词向量进行拟合，并训练所述目标神经网络的网络参数，得到所述帧向量提取神经网络。

在本实施例中，上述语音训练数据可采用预先标注的数据，该数据由单个训练词及其对应的音频训练数据，其中在标注过程中，可以采用语音识别模型进行辅助，即采用语音识别模型识别出音频训练数据中的文字。

上述目标神经网络为预先训练得到，该目标神经网络为一简单的神经网络，其至少包括输入层、输出层以及投射层，所述投射层用于将帧数据投射至向量空间，得到对应的向量。上述目标神经网络每一次只处理一帧数据，因此，按照上述训练帧数据在所述音频训练数据中的顺序，依次将每一个训练帧数据输入至预先训练得到的目标神经网络中，提取每一个所述帧数据对应的第二向量。

进而再将所有训练帧数据对应的第二向量进行求和，得到和向量；由于每个字所占据的帧数量不同，每次输入的帧数量是不定长的，输出帧也是不定长的，则不能直接以每一帧的输出直接进行比较。因此，最终用求和的方式，将所有帧数据对应的第一向量进行求和生成和向量。

上述和向量为上述音频训练数据对应的向量，同时该音频训练数据只对应为一个词，每个词对应一个词向量。词向量主要分两种，早期的词向量主要是稀疏的高维向量，基于词袋模型（bag of word）和独热编码（one-hot encoding）；后来引进神经网络，基于神经网络模型生成低维稠密向量，这种生成向量的方法就是现在所说的词嵌入。词嵌入(wordembdding)是自然语言处理（NLP）领域的名词，词嵌入即词向量的一种形式，通常情况下，特指通过网络训练得到的包含前后文语义信息可以用来表示单词的低维稠密向量。

为了拟合出单个词语和向量之间的关系，则获取所述语音训练数据中单个训练词的词向量，然后将该词向量与上述和向量进行拟合，不断训练上述目标神经网络的网络参数，以使得上述词向量与上述和向量的相似度最大化，最终得到上述目标神经网络的最优网络参数，则训练得到上述帧向量提取神经网络；其中，上述拟合的过程中采用相似度的比较函数（通常采用余弦函数）进行拟合。

参照图2，在一实施例中，提出训练所述目标神经网络的过程，所述获取语音训练数据的步骤S11之前，还包括：

步骤S101，获取目标语音信息中的目标帧数据以及所述目标帧数据前后的多帧数据；

步骤S102，将所述目标帧数据前后的多帧数据输入至第一神经网络中，预测出目标帧数据的预测向量；

步骤S103，将所述目标帧数据输入至第二神经网络中，提取所述目标帧数据对应的目标向量；

步骤S104，通过拟合函数计算所述目标向量以及所述预测向量的相似度，并迭代优化拟合函数的参数，以训练完成所述第一神经网络以及第二神经网络，将训练完成的所述第二神经网络作为所述目标神经网络。

在本实施例中，为了得到上述目标神经网络，使其能够提取帧数据的向量。因此，采用预设的帧数据训练神经网络以得到目标神经网络。

本实施例中，训练过程中，采用了两个神经网络，分别为第一神经网络以及第二神经网络，其中第一神经网络输入层输入的是目标帧数据的前后几帧数据，经过投射层投射向量空间，但是在输出层时，是无法进行预测（因为不是确定的某个对象，帧类别无限）的。但是，帧数据本身就是数学形式可以直接参与数学计算，因此可以通过拟合的方法向目标向量拟合。

因此，通过第二神经网络，输入目标帧数据，将其投射到与第一神经网络相同的向量空间，然后通过拟合函数比较两个投射向量的余弦相似度，优化目标函数就是余弦相似度的值，使得相似度越大越好，以使得相似度最大化。在本实施例中，迭代优化拟合函数的参数，以训练完成所述第一神经网络以及第二神经网络，将训练完成的所述第二神经网络作为所述目标神经网络。

在本实施例中，所述获取所述语音训练数据中单个训练词的词向量的步骤，包括：

通过预设的词嵌入模型构建所述训练词的词向量，预设的所述词嵌入模型包括word2vec、GloVe模型。上述词嵌入模型可以是基于超大规模数据训练的生成词向量的开源模型。

在本实施例中，所述目标神经网络至少包括输入层、输出层以及投射层，所述投射层用于将帧数据投射至向量空间，得到对应的向量。

在本实施例中，所述按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量的步骤S2之后，包括：

步骤S3，将所述特征向量输入至语音模型中进行识别，得到识别结果；

步骤S4，获取所述语音信息的真实结果，判断所述识别结果与所述真实结果是否一致；

步骤S5，若不一致，则将所述语音信息标注真实结果组成训练对，输入至所述帧向量提取神经网络中迭代训练。

在本实施例中，上述提取特征向量的方案可应用于语音识别的场景中，例如唤醒系统中，并可基于上述特征向量进行识别，得出识别结果，该识别结果是根据上述特征向量所识别的语义结果。

上述真实结果为该语音信息对应的真实语义结果，其可以是用户输入的，也可以是通过其他模型所识别的。将识别结果与真实结果进行对比，判断是否一致，若一致，则表明上述特征信息的提取，使得语音模型的识别准确率得到提升。若不一致，则还需要继续对帧向量提取神经网络中迭代训练。

参照图3，本申请一实施例中还提供了一种语音特征向量的提取装置，包括：

第一获取单元10，用于获取语音信息，所述语音信息中包括多个依次排序的帧数据；

第一提取单元20，用于按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。

在一实施例中，上述装置，还包括：

第四获取单元，用于获取目标语音信息中的目标帧数据以及所述目标帧数据前后的多帧数据；

预测单元，用于将所述目标帧数据前后的多帧数据输入至第一神经网络中，预测出目标帧数据的预测向量；

第三提取单元，用于将所述目标帧数据输入至第二神经网络中，提取所述目标帧数据对应的目标向量；

网络训练单元，用于通过拟合函数计算所述目标向量以及所述预测向量的相似度，并迭代优化拟合函数的参数，以训练完成所述第一神经网络以及第二神经网络，将训练完成的所述第二神经网络作为所述目标神经网络。

在一实施例中，上述装置，还包括：

识别单元，用于将所述特征向量输入至语音模型中进行识别，得到识别结果；

判断单元，用于获取所述语音信息的真实结果，判断所述识别结果与所述真实结果是否一致；

迭代训练单元，用于若不一致，则将所述语音信息标注真实结果组成训练对，输入至所述帧向量提取神经网络中迭代训练。

在本实施例中，上述各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音特征向量的提取方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音特征向量的提取方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，本申请实施例中提供的语音特征向量的提取方法、装置、计算机设备和存储介质，包括：获取语音信息，所述语音信息中包括多个依次排序的帧数据；按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得。本申请中的帧向量提取神经网络在提取语音信息的特征向量时，融合了语音信息的特征以及对应的词向量特征，使得该特征向量中具有了语义特征，可有效提升在语音识别模型中的识别准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音特征向量的提取方法，其特征在于，包括以下步骤：

按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得；

其中，所述目标神经网络的训练过程为：

2.根据权利要求1所述的语音特征向量的提取方法，其特征在于，所述获取语音信息的步骤之前，包括：

将所有训练帧数据对应的第二向量进行求和，得到和向量；

获取所述语音训练数据中单个训练词的词向量；

3.根据权利要求2所述的语音特征向量的提取方法，其特征在于，所述获取所述语音训练数据中单个训练词的词向量的步骤，包括：

4.根据权利要求1所述的语音特征向量的提取方法，其特征在于，所述帧向量提取神经网络至少包括输入层、输出层以及投射层，所述投射层用于将帧数据投射至向量空间，得到对应的向量。

5.根据权利要求1所述的语音特征向量的提取方法，其特征在于，所述按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量的步骤之后，包括：

6.一种语音特征向量的提取装置，其特征在于，包括：

第一提取单元，用于按照所述帧数据在所述语音信息中的顺序，依次将每一个帧数据输入至预先训练得到的帧向量提取神经网络中，提取每一个所述帧数据对应的第一向量，作为所述语音信息的特征向量；其中，所述帧向量提取神经网络为基于语音训练数据以及所述语音训练数据对应的词向量训练目标神经网络所得；

还包括：

7.根据权利要求6所述的语音特征向量的提取装置，其特征在于，还包括：

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。