CN116758902A

CN116758902A - 一种多人说话场景下音视频识别模型训练及识别方法

Info

Publication number: CN116758902A
Application number: CN202310645108.5A
Authority: CN
Inventors: 赵晴
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-15

Abstract

本发明提供了一种多人说话场景下音视频识别模型训练及识别方法，模型训练方法包括：获取多人说话场景下对应的多个视频数据和单个音频数据，对其进行混合得到训练数据；将训练数据输入预设模型中，得到多个视频数据对应的预测矩阵和CTC损失函数；使用主成分分析方法提取预测矩阵的特征矩阵，根据特征矩阵计算得到KL散度损失函数；根据CTC损失函数和KL散度损失函数计算预设模型的损失函数；利用训练数据循环迭代训练预设模型，直至预测模型的损失函数收敛，得到最优模型。本发明提供的多人说话场景下音视频识别模型训练及识别方法，利用多个视频数据与音频数据混合的方式训练模型，极大提升了多人说话场景下，对唤醒人的语音识别效果。

Description

一种多人说话场景下音视频识别模型训练及识别方法

技术领域

本发明涉及音视频识别技术领域，具体涉及一种多人说话场景下音视频识别模型训练及识别方法。

背景技术

自动语音识别(Automatic Speech Recognition,ASR)技术的目的是让机器能够“听懂”人类的语音，将语音信息转化为文字信息，是实现人机语音交互的关键技术。随着深度学习的逐渐发展，安静环境下的语音识别的准确率高于95％，已经达到可以工业应用的水平。

但在车载语音领域，复杂的背景噪声还有多说话人的声音会对语音质量和语音清晰度产生较大影响，严重影响语音识别性能。语言感知不仅与听觉相关，还与视觉紧密相关，利用跨模态多特征融合的音视频语音识别方法成为提升复杂背景噪音条件下语音识别精度的重要途径。现有的唇语识别及多模态语音识别多利用人的唇形动作视频，提取出有用的语音内容相关的表征，从而进行语音文本内容的自动识别，但由于唇语视频不受环境噪声的干扰，所以融合视觉信号可以有效提升语音识别系统在噪声环境下的鲁棒性；还有一些方法是通过对语音信息、面部视觉信息、唇部视觉信息等进行特征融合，来提升语音识别的准确度。但现有技术都是面向单人说话的视频场景，在多人说话场景下，对唤醒人的语音识别效果较差。

发明内容

有鉴于此，本发明提供一种多人说话场景下音视频识别模型训练及识别方法，解决现有技术中在多人说话场景下，对唤醒人的语音识别效果差的问题。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种多人说话场景下音视频识别模型训练方法，包括：

获取多人说话场景下对应的多个视频数据和单个音频数据，对所述多个视频数据和所述单个音频数据进行混合得到训练数据；

将所述训练数据输入预设模型中，分别得到多个视频数据对应的预测矩阵和CTC损失函数；

使用主成分分析方法提取所述预测矩阵的特征矩阵，根据所述特征矩阵计算得到KL散度损失函数；

根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数；

利用训练数据循环迭代对预设模型进行训练，直至预测模型的损失函数收敛，得到最优的模型，作为多人说话场景下音视频识别模型。

本发明实施例提供的多人说话场景下音视频识别模型训练方法，利用多个视频数据与音频数据混合的方式训练模型，加入KL散度损失函数增大模型的区分性，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

可选地，所述训练数据包括：多个视频数据、单个音频数据及多个视频数据各自对应的标签，所述标签为多个视频数据识别结果在预设模型的数据库中对应的位置标签。

利用音视频数据及其在数据库中的位置标签，可以更好的对音视频数据进行处理，提高音视频识别的准确性。

可选地，所述预设模型为基于编码器和卷积神经网络建立的模型。

编码器模型擅长捕获全局影响变量，卷积神经网络模型更适用于本地的局部影响变量，两者结合建立的预测模型可以高效显示音视频矩阵的对局部及全局变量的依赖关系。

可选地，根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数的过程为：

KLLoss＝1/KL(V1’,V2’……Vn’)*T，其中，KLLoss表示KL散度损失函数，V1’、V2’……Vn’分别为多个视频数据的模型预测矩阵的特征矩阵，KL表示KL散度，T表示温度系数。

利用多个视频数据的模型预测矩阵和其对应的标签分别计算得到各自的CTC损失函数：loss1、loss2……lossn；

通过公式：loss＝a*loss1+b*loss2+……+c*lossn+dKLLoss计算所述预测模型的损失函数，其中，loss表示预测模型的损失函数，a、b、……、c、d分别为各损失函数对应的权重。

利用CTC损失函数使模型学习语音识别的能力，KL散度可以加大不同视频在相同音频下的区分度，有利于提高模型的区分度。

可选地，对所述多个视频数据和所述单个音频数据进行混合得到训练数据的过程为：

使用不同信噪比的噪声/人声对所述单个音频数据进行混合得到一个音频混合数据；将所述音频混合数据分别与多个视频数据进行组合，得多个混合后的训练数据。

对原始数据直接进行混合，预处理过程简单方便，且保持原始数据的真实性，使训练数据更准确。

第二方面，本发明实施例提供了一种多人说话场景下音视频识别模型训练装置，所述装置包括：

数据获取模块，用于获取多人说话场景下对应的多个视频数据和单个音频数据，对所述多个视频数据和所述单个音频数据进行混合得到训练数据；

训练模块，用于将所述训练数据输入预设模型中，分别得到多个视频数据对应的预测矩阵和CTC损失函数；

计算模块，用于使用主成分分析方法提取所述预测矩阵的特征矩阵，根据所述特征矩阵计算得到KL散度损失函数；

反向回传模块，用于根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数；

循环迭代模块，用于利用训练数据循环迭代对预设模型进行训练，直至预测模型的损失函数收敛，得到最优的模型，作为多人说话场景下音视频识别模型。

本发明实施例提供的多人说话场景下音视频识别模型训练装置，利用多个视频数据与音频数据混合的方式训练模型，加入KL散度损失函数增大模型的区分性，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

第三方面，本发明实施例提供了一种多人说话场景下音视频识别方法，包括：

采集多人说话场景下待识别的音视频数据；

将待识别的音视频数据输入到基于第一方面任一所述的多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型，得到匹配识别结果。

本发明实施例提供的多人说话场景下音视频识别方法，利用第一方面任一项所述的模型训练方法，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

第四方面，本发明实施例提供了一种多人说话场景下音视频识别装置，所述装置包括：

音视频数据采集模块，用于采集多人说话场景下待识别的音视频数据；

匹配识别模块，用于将待识别的音视频数据输入到基于第一方面任一所述的多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型，得到匹配识别结果。

本发明实施例提供的多人说话场景下音视频识别装置，利用第一方面任一项所述的模型训练方法，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

第五方面，本发明实施例提供了一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或第一方面任意一种可选实施方式中或第三方面所述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面或第一方面任意一种可选实施方式中或第三方面所述的方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多人说话场景下音视频识别模型训练方法的流程图；

图2为本发明实施例提供的一种多人说话场景下音视频识别模型训练方法的整体工作过程示意图；

图3为本发明实施例提供的一种多人说话场景下音视频识别模型训练装置的结构示意图；

图4为本发明实施例提供的一种多人说话场景下音视频识别方法的流程图；

图5为本发明实施例提供的一种多人说话场景下音视频识别装置的结构示意图；

图6为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供了一种多人说话场景下音视频识别模型训练方法，如图1所示，模型训练方法包括：

步骤S11：获取多人说话场景下对应的多个视频数据和单个音频数据，对多个视频数据和单个音频数据进行混合得到训练数据。示例性地，如多个人在车内环境中同时说话，多个人的声音交杂在一起，无法通过降噪等手段去除无关的人声，而面部运动信息通过视频获取、相对比较稳定，因此可以使用人脸及唇部动作的信息来辅助进行语音识别。声音的混合包括人声加噪声(噪声包括自然噪声及无法识别的人声)、人声加人声两种混合方式，根据混合方式的不同生成训练数据(假设唤醒关键词为“你好深蓝”，人声加噪声的情况下视频信息为第一视频和空，对应的标签为“你好深蓝”和“空”；人声加人声的情况下，视频信息为第一视频、第二视频……第N视频，对应的标签为“你好深蓝”、其他人声所包含的文字信息)。实际应用中，视频数据和音频数据是一一对应的，在对多数据混合的过程中，视频数据是保持不变，主要是对音频数据进行混噪、混人声，可以使用不同信噪比的噪声/人声对所述单个音频数据进行混合得到一个音频混合数据；将所述音频混合数据分别与多个视频数据进行组合，得多个混合后的训练数据。对原始数据直接进行混合，预处理过程简单方便，且保持原始数据的真实性，使训练数据更准确。

步骤S12：将训练数据输入预设模型中，分别得到多个视频数据对应的预测矩阵和CTC损失函数。具体地，在一实施例中，训练数据包括：多个视频数据、单个音频数据及多个视频数据各自对应的标签，标签为多个视频数据识别结果在预设模型的数据库中对应的位置标签。利用音视频数据及其在数据库中的位置标签，可以更好的对音视频数据进行处理，提高音视频识别的准确性。具体地，在一实施例中，预设模型为基于编码器和卷积神经网络建立的模型。编码器模型擅长捕获全局影响变量，卷积神经网络模型更适用于本地的局部影响变量，两者结合建立的预测模型可以高效显示音视频矩阵的对局部及全局变量的依赖关系。

如图2所示为预设模型对训练数据的处理过程，视频经过视频的Front-end层(3Dresnet)和back-end层(4层conformer)，得到提取的视频信息；音频经过音频的Front-end层(resnet)和back-end层(4层conformer，conformer主要是使用attention机制来构建的一个新的深度神经网络架构)，得到提取的音频信息。然后通过Fusion Module将视频信息和音频信息拼接到一起，再经过Encoder层(6层conformer)对视频信息和音频信息的拼接结果进行处理，后经过全连接层Linear膨胀和缩放后进入CTC阶段，CTC阶段计算得到多个视频数据对应的预测矩阵(V1、V2……)，然后利用所述预测矩阵与其对应的标签分别计算得到其对应的CTC损失函数(loss1、loss2……)。

步骤S13：使用主成分分析方法提取预测矩阵的特征矩阵，根据特征矩阵计算得到KL散度损失函数。示例性地，在CTC阶段计算得到的多个视频数据对应的预测矩阵，利用主成分分析方法(Principal Component Analysis，PCA)提取到各预测矩阵(V1、V2……)的特征矩阵(V1’、V2’……)，通过公式KLLoss＝1/KL(V1’,V2’……Vn’)*T计算KL散度损失函数，其中，KLLoss表示KL散度损失函数，V1’、V2’……Vn’分别为多个视频数据的模型预测矩阵的特征矩阵，KL表示KL散度，T表示温度系数。

步骤S14：根据CTC损失函数和KL散度损失函数计算预设模型的损失函数。

具体地，在一实施例中，根据CTC损失函数和KL散度损失函数计算预设模型的损失函数的过程为：

KLLoss＝1/KL(V1’,V2’……Vn’)*T，其中，KLLoss表示KL散度损失函数，V1’、V2’……Vn’分别为多个视频数据的模型预测矩阵的特征矩阵，KL表示KL散度，T表示温度系数，用于与其他loss适配。

通过公式：loss＝a*loss1+b*loss2+……+c*lossn+d*KLLoss计算预测模型的损失函数，其中，loss表示预测模型的损失函数，a、b、……、c、d分别为各损失函数对应的权重。

需要说明的是，若如图2中与linear层处于同一层的还有deocoder层，deocoder是为了联合训练CTC阶段和conformer层的attention，deocoder层和linear层有相同的处理方法，处理后deocoder层输出CEloss，预设模型的损失函数为：loss＝alpha*ctcloss+(1-alpha)*celoss+d*KLLoss，其中ctcloss＝a*loss1+b*loss2+……+c*lossn，celoss＝a*loss_ce1+b*loss_ce2+……+c*loss_cen，alpha、beat为模型参数。

步骤S15：利用训练数据循环迭代对预设模型进行训练，直至预测模型的损失函数收敛，得到最优的模型，作为多人说话场景下音视频识别模型。

实施例2

本发明实施例提供了一种多人说话场景下音视频识别模型训练装置，如图3所示，该模型训练装置包括：

数据获取模块11，用于获取多人说话场景下对应的多个视频数据和单个音频数据，对多个视频数据和单个音频数据进行混合得到训练数据。详细内容参见上述方法实施例中步骤S11的相关描述，在此不再进行赘述。

训练模块12，用于将训练数据输入预设模型中，分别得到多个视频数据对应的预测矩阵和CTC损失函数。详细内容参见上述方法实施例中步骤S12的相关描述，在此不再进行赘述。

计算模块13，用于使用主成分分析方法提取预测矩阵的特征矩阵，根据特征矩阵计算得到KL散度损失函数。详细内容参见上述方法实施例中步骤S13的相关描述，在此不再进行赘述。

反向回传模块14，用于根据CTC损失函数和KL散度损失函数计算预设模型的损失函数。详细内容参见上述方法实施例中步骤S14的相关描述，在此不再进行赘述。

循环迭代模块15，用于利用训练数据循环迭代对预设模型进行训练，直至预测模型的损失函数收敛，得到最优的模型，作为多人说话场景下音视频识别模型。详细内容参见上述方法实施例中步骤S15的相关描述，在此不再进行赘述。

实施例3

本发明实施例提供了一种多人说话场景下音视频识别方法，如图4所示，音视频识别方法包括：

步骤S21：采集多人说话场景下待识别的音视频数据；

步骤S22：将待识别的音视频数据输入到基于实施例1任一项多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型，得到匹配识别结果。示例性地，匹配过程为一个个音频片段输入模型，输出个数与输入的维度一样(即有M个音频片段，就输出M个维度的概率向量，每个向量又由字典个数的概率组成)。例如网络输入音频个数定为M，字典中不同字的个数为N，那么模型输出的维度为M×N。根据这个概率输出分布，得到最可能的输出结果。

本发明实施例提供的多人说话场景下音视频识别方法，利用实施例1中任一项的模型训练方法，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

实施例4

本发明实施例提供了一种多人说话场景下音视频识别装置，如图5所示，音视频识别装置包括：

音视频数据采集模块21，用于采集多人说话场景下待识别的音视频数据。详细内容参见上述方法实施例中步骤S21的相关描述，在此不再进行赘述。

匹配识别模块22，用于将待识别的音视频数据输入到基于实施例1任一项多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型。详细内容参见上述方法实施例中步骤S22的相关描述，在此不再进行赘述。

本发明实施例提供的多人说话场景下音视频识别装置，利用实施例1中任一项的模型训练方法，极大提升了在多人说话场景下，对唤醒人的语音识别效果。

实施例5

图6示出了本发明实施例中计算机设备的结构示意图，包括：处理器901和存储器902，其中，处理器901和存储器902可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述计算机设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种多人说话场景下音视频识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述多人说话场景下音视频识别模型训练方法，其特征在于，所述训练数据包括：多个视频数据、单个音频数据及多个视频数据各自对应的标签，所述标签为多个视频数据识别结果在预设模型的数据库中对应的位置标签。

3.根据权利要求1所述多人说话场景下音视频识别模型训练方法，其特征在于，所述预设模型为基于编码器和卷积神经网络建立的模型。

4.根据权利要求3所述多人说话场景下音视频识别模型训练方法，其特征在于，根据所述CTC损失函数和所述KL散度损失函数计算所述预设模型的损失函数的过程为：

KLLoss＝1/KL(V1’,V2’……Vn’)*T，其中，KLLoss表示KL散度损失函数，V1’、V2’……Vn’分别为多个视频数据的模型预测矩阵的特征矩阵，KL表示KL散度，T表示温度系数；

5.根据权利要求1所述多人说话场景下音视频识别模型训练方法，其特征在于，对所述多个视频数据和所述单个音频数据进行混合得到训练数据的过程为：

使用不同信噪比的噪声/人声对所述单个音频数据进行混合得到一个音频混合数据；

将所述音频混合数据分别与多个视频数据进行组合，得多个混合后的训练数据。

6.一种多人说话场景下音视频识别模型训练装置，其特征在于，所述装置包括：

7.一种多人说话场景下音视频识别方法，其特征在于，包括：

采集多人说话场景下待识别的音视频数据；

将待识别的音视频数据输入到基于权利要求1-5任一所述的多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型，得到匹配识别结果。

8.一种多人说话场景下音视频识别装置，其特征在于，所述装置包括：

匹配识别模块，用于将待识别的音视频数据输入到基于权利要求1-5任一所述的多人说话场景下音视频识别模型训练方法得到的多人说话场景下音视频识别模型，得到匹配识别结果。

9.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-5中任一项或权利要求7所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-5任一项或权利要求7所述的方法。