CN109147763B

CN109147763B - 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

Info

Publication number: CN109147763B
Application number: CN201810752379.XA
Authority: CN
Inventors: 丁润伟; 庞程; 刘宏
Original assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Current assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2020-08-11
Anticipated expiration: 2038-07-10
Also published as: CN109147763A

Abstract

本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先，视频中说话人的唇部区域被直接提取为视觉特征，降低了人工设计视觉特征提取噪声的误差，其次，二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板，可有效地对声学特征的时频特性和视觉特征的时空特性进行建模；再次，根据声学模板和视觉模板，可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度；最后，对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重，以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献，提高了关键词识别的性能。

Description

一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

技术领域

本发明属于信息技术领域，涉及一种应用在多媒体领域的关键词检索技术，具体涉及一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。

背景技术

语音是人类最直接高效、自然方便的沟通交流工具。语音关键词识别是连续语音识别的一个重要分支，它的任务是在给定的连续无限制的语音流中检测出预先设定的若干个关键词，而连续语音识别则侧重于将整段连续无限制的语音流转化为相应的文本。相较于连续语音识别，关键词识别更加灵活，对非关键词部分的发音要求较低，对环境的抗噪能力相对较强，因此更适合相关特定的应用领域，如音频文档检索，人机交互，数据挖掘，国防监听等。为了提高语音识别系统在噪声环境下的鲁棒性，近年来，音视频语音识别技术将声学和视觉信息融合来对语音进行识别，成为热门研究方向。基本上，音视频关键词识别技术的研究主要集中在三个方面：视觉特征的选取、关键词识别方法以及音视频信息的融合策略。

目前用于音视频语音识别的视觉特征主要有三种：表观特征，形状特征以及混合特征。基于表观特征的方法提取整个感兴趣的图像区域或者经过处理后的变换域图像的像素特征，不会丢失有用的视觉信息，而且不需要复杂的嘴唇轮廓跟踪算法，实现起来比较简单，因此广泛应用于音视频语音识别中。但是目前大多数表观特征提取方法主要从全局角度考虑嘴部区域的特征，忽略了描述时域和空域局部变化的局部信息，而这些局部信息是至关重要的。

现有的关键词识别方法有四大类：基于垃圾模型的方法，基于词格的方法，基于大词汇量连续语音识别的方法和基于深度学习的方法。音视频融合的目的在于在不同的声学和视觉环境下，将声学模态和视觉模态的信息有效结合，并获得与基于单一模态语音识别相同或者优于单一模态的识别性能。当声学噪声较小时，声学模态的作用大于视觉模态，因此音视频融合的识别性能至少等同于单一的声学语音识别。当声学噪声较大时，视觉信息的作用则凸显出来，融合后的识别性能应该和单一的视觉语音识别相同或者更优。好的音视频融合方法可以充分挖掘声学和视觉模态在不同环境下的互补信息，有效结合两个模态的作用以获得鲁棒的识别性能。

从融合层次角度出发，目前音视频的融合的策略主要有两种：特征层融合以及决策层融合。特征层融合直接将声学特征和视觉特征以帧为单位拼接形成一个组合特征矢量，然后再输入一个分类器进行识别。这种融合层次无法解决不同声学信噪比环境下的视觉和声学的贡献分配问题。决策层融合将声学信号和视觉信号分开进行处理，因此噪声环境下，决策层融合更容易生成用于结合声学模态和视觉模态贡献的自适应权重，以获得最优的结合效果。

发明内容

针对上述问题，本发明的目的在于提供一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。本发明针对视觉特征和听觉特征的不同维度特性，提出了一种神经网络(优选为多维卷积神经网络)分别对视觉特征的时空特性和听觉特征的时频特性进行建模。本发明考虑音视频融合关键词识别中，不同声学信噪比环境下视觉和声学信息的可靠性不同，提出了一种基于逆熵加权的决策层自适应融合方法。

本发明首先提供一种基于神经网络和逆熵加权的音视频关键词识别方法，其步骤包括：

1)录制关键词音视频，标注出所述音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

2)根据不同声学噪声环境下的音视频，得到声学似然度和视觉似然度；根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度；根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；

3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型、步骤2)所述最优音视频融合权重，对待测音视频进行关键词识别。

更进一步地，步骤1)包含如下步骤：

1-1)根据包含关键词的抄本同步录制音视频，得到多个完整的语音段和视频段；

1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点；

1-3)根据步骤1-2)中所述关键词语音的起止时间点，对语音信号进行预处理(包括预加重、分帧、加窗等)，再提取所述关键词的声学特征向量序列和视觉特征向量序列；根据步骤1-2)中所述非关键词语音的起止时间点，预处理后提取所述非关键词的声学特征向量序列和视觉特征向量序列；

1-4)根据步骤1-3)中所述关键词的声学特征向量序列和视觉特征向量序列，采用多维卷积神经网络训练所述关键词的声学神经网络模型和视觉神经网络模型；根据步骤1-3)中所述非关键词的声学特征向量序列和视觉特征向量序列，采用多维卷积神经网络训练所述非关键词的声学神经网络模型和视觉神经网络模型。

更进一步地，步骤2)包含如下步骤：

2-1)根据已标注关键词的不同噪声环境下的音视频段，提取所述音视频段的声学特征向量序列和视觉特征向量序列；

2-2)将步骤2-1)中所述声学特征向量序列与步骤1-4)中所有关键词的声学神经网络模型进行匹配，得到声学似然度；将步骤2-1)中所述视觉特征向量序列与步骤1-4)中所有关键词的视觉神经网络模型进行匹配，得到视觉似然度；

2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度，通过熵的估计得到声学模态可靠度和视觉模态可靠度；

2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算其逆熵得到最优音视频融合权重。

更进一步地，步骤3)包括如下步骤：

3-1)对待测音视频段进行音视频特征提取，得到所述待测音视频段的声学特征向量序列和视觉特征向量序列；

3-2)将所述待测音视频的语音段，与步骤1-4)中相应关键词的声学神经网络模型进行匹配，得到声学似然度；将所述待测音视频的视频段，与步骤1-4)中相应关键词的视觉神经网络模型进行匹配，得到视觉似然度；

3-3)对步骤3-2)中所述的声学似然度和视觉似然度，利用步骤2-3)估计声学模态可靠度和视觉模态可靠度，并根据步骤2-4)估计最优音视频融合权重；

3-4)对步骤3-2)中所述的声学似然度和视觉似然度，根据步骤3-3)中的所述的最优音视频融合权重进行融合，得到融合后的关键词融合似然度；

3-5)根据融合后的关键词融合似然度进行关键词的选择，完成识别。

更进一步，步骤1)根据不同任务定义关键词表，设计包含关键词的录制抄本。

更进一步，步骤1-3)中所述预处理中，预加重是信号通过高频加重滤波器冲激响应H(z)＝1-0.95z^-1，z表示Z变换中的复变量，以补偿嘴唇辐射带来的高频衰减；分帧函数为：

x_k(n)＝w(n)s(Nk+n) n＝0,1...N-1；k＝0,1...L-1

其中N为帧长，L为帧数，s为原始的语音信号，x_k为分帧后的语音信号，w(n)为窗函数，它的选择(形状和长度)对短时分析参数的特性影响很大，常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗，可以很好地反应语音信号的特性变化，汉明窗表达式为：

更进一步，所述声学特征选择梅尔频率倒谱系数MFCC特征。

更进一步，所述视觉特征为说话人的唇部区域图像，多张图像描述了嘴部区域在时域和空域上的局部变化。

更进一步，步骤1-4)中所述声学神经网络模型是二维卷积神经网络2D-CNN模型；步骤1-4)中所述视觉神经网络模型是三维卷积神经网络3D-CNN模型。

更进一步，步骤2)中所述不同声学噪声环境为信噪比不同的白噪声。

更进一步，步骤2-2)中所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为：

其中，A,V分别代表声学特征向量和视觉特征向量，x_l为第l个关键词，W_a,W_v分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数，C是关键词的数目，oa,ov分别代表听觉和视觉卷积神经网络的输出。

更进一步，步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算听觉和视觉信息的逆熵(即熵的倒数)来计算，其计算公式为：

其中，α为最优音视频融合权重，D_a为听觉信息的熵，D_m为听觉或视觉信息的熵，m∈{a,v}，a表示听觉符号标注，v表示视觉符号标注，听觉和视觉信息的熵为：

更进一步，步骤2-4)中所述最优音视频融合权重的线性加权融合公式为：

P(x_l|A,V)＝αP(x_l|A,W_a)+(1-α)P(x_l|V,W_v)

其中，P(x_l|A,V)为音视频信息融合后的关键词似然度，α为最优音视频融合权重，P(x_l|A,W_a)为声学似然度，P(x_l|V,W_v)为视觉似然度。

更进一步，步骤3)中的关键词识别方法采用基于后验似然度处理的方法，该方法包括后验概率平滑和候选关键词置信度计算两部分。由于音视频融合后的似然度是带噪声的，所以需要将其在一个固定的时间窗内进行平滑。在语音帧级平滑的音视频似然度可表示为：

其中，k是语音帧索引，h_s＝max{1,k-w_s+1}是时间窗的第一帧语音的索引，w_s表示时间窗长度。

更进一步，候选关键词的置信度通过一个滑动的时间窗进行计算，表示为：

其中，h_max＝max{1,k-w_max+1}，w_max表示滑动窗的大小。

更进一步，当候选关键词中最大的置信度超过某一阈值时，即判别关键词存在，最大置信所对应的关键词即为检测到的关键词：

与上面方法相对应地，本发明还提供一种基于神经网络和逆熵加权的音视频关键词识别装置，其包括：

神经网络模型训练模块，其负责：录制关键词音视频，标注出所述音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

音视频融合权重计算模块，其负责：根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度，根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度，根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；

关键词识别模块，负责根据所述声学神经网络模型和所述视觉神经网络模型，以及所述最优音视频融合权重，对待测音视频进行关键词识别。

本发明通过结合人类发音过程中的声学信息和视觉信息，将声学作用和视觉作用在决策层进行融合，对待测音视频进行关键词识别。考虑发音过程中嘴部区域的局部变化信息，将说话人唇部图像直接提取为视觉特征，并利用三维卷积神经网络对其进行建模，可以有效地描述说话人发声时时域和空域局部变化。将语音的MFCC特征提取为听觉特征，并利用二维卷积神经网络对其进行建模，可以有效地描述语音信息时域和频域的局部变化。决策层融合将声学信号和视觉信号分开进行处理，可以解决不同声学信噪比环境下的视觉和声学的贡献分配问题，分利用声学噪声环境下视觉信息的贡献，提高识别性能和识别准确度。

附图说明

图1是本发明的识别方法流程示意图。

图2是本发明采用的音视频卷积神经网络结构图。

图3是听觉特征提取流程示意图。

图4是视觉特征提取流程示意图。

图5是本发明音视频融合估计关键词流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本实施例的音视频关键词识别方法的流程示意图，其主要步骤包括：根据音视频信息进行音视频特征提取、训练音视频卷积神经网络、音视频融合、关键词检测。

首先定义关键词表，本实施例中的任务面向人机交互，因此定义了30个人机交互中常用的关键词，构成关键词表。根据定义的关键词表设计包含关键词的抄本，每个关键词设计5句抄本，共150句抄本。

根据设定的包含关键词的抄本同步录制音视频，每段抄本有20位录制者，音频的采样频率为11025HZ，位数为16bit，视频图像采集的速度为20帧/秒，分辨率为640×480。对录制得到的语音信号预滤波，高通滤波抑制50HZ电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分。模数转换后存入关键词语音库中，得到多个完整的语音段。将录制得到的视频信号转化为数字信号存入关键词视频库中，得到多个完整的视频段。

对语音库中的语音段人工打标签，标注出语音段中关键词和非关键词语音的起止时间点。由于音视频是同步录制的，标注出音频中的关键词和非关键词起止时间点，相当于标注出视频中的关键词和非关键词起止时间点。

模型训练和识别阶段提取声学特征向量的具体过程如图3所示，描述为：对语音段分帧加窗，帧长为30毫秒，帧移为10毫秒，窗函数选取汉明窗。然后采用梅尔滤波器并经对数变换和离散余弦变换步骤提取常用的39维MFCC特征(《语音信号处理》第2版，赵力编著，机械工业出版社，51-53页)。

视觉特征提取的具体过程如图4所示，描述为：对视频信息按视频帧处理，利用HOG特征检测人脸，并进行灰度转换，说话人的唇部区域通过估计人脸的68个特征点进行提取，提取的唇部区域的高和宽分别为60×100。

本实施例的音视频卷积神经网络模型训练方法如下：根据打标签时标注好的关键词和非关键词语音的起止时间点，分别提取出关键词语音和非关键词语音，分帧加窗后提取出39维MFCC声学特征向量序列，采用随机梯度下降算法分别训练关键词的声学二维卷积神经网络模型和非关键词的声学二维卷积神经网络模型。同样，对录制好的视频，根据关键词和非关键词视频的起止时间点，提取说话人唇部区域视觉特征向量序列后，采用自适应时刻估计方法分别训练关键词的视觉三维卷积神经网络模型和非关键词的视觉三维卷积神经网络模型。本实施例中音频和视频神经网络结构如图2所示，其中Kernel表示卷积核，Stride表示卷积操作步长。具体训练过程如下：

1、对关键词语音库中的语音，分别按不同信噪比添加不同噪声，本实施例中按信噪比为20dB，15dB，10dB，5dB，0dB添加白噪声，生成带噪语音。

2、对添加声学噪声后的标注为关键词的音视频段，分别进行MFCC声学特征提取和说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。

3、将提取的声学特征MFCC向量序列和视觉特征向量序列分别作为二维和三维卷积神经网络的输入，再分别通过随机梯度下降法和自适应时刻估计方法分别训练听觉和视觉神经网络。代价函数采用交叉熵，其定义为：

其中，o是神经网络的输出，l是对应关键词标记，C是关键词的数目，o_l表示第l个关键词的神经网络输出，o_i表示候选关键词的神经网络输出。。

本发明的基于逆熵加权的音视频融合关键词识别方法过程如图5所示：

1、对待测音视频段，分别进行MFCC声学特征提取以及说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。

2、对所述声学关键词候选对应的语音段，提取MFCC听觉特征，输入训练好的语音卷积神经网络，得到声学似然度P(x_l|A,W_a)。同样，对所述声学关键词候选对应的视频段，提取说换人唇部区域特征，输入训练好的视频卷积神经网络，得到视觉似然度P(x_l|V,W_v)。图5中softmax表示卷积神经网络的激活函数。

3、计算出声学模态可靠度和视觉模态可靠度，所述模态可靠度为每个输出似然度的熵：

4、根据声学模态可靠度和视觉模态可靠度计算音视频融合的最优权重：

5、利用最优权重对神经网络输出的听觉和视觉关键词似然度进行线性加权融合：

P(x_l|A,V)＝αP(x_l|A,W_a)+(1-α)P(x_l|V,W_v)

其中，P(x_l|A,V)为音视频信息融合后的关键词似然度，α为最优融合权重，P(x_l|A,W_a)为声学似然度，P(x_l|V,W_v)为视觉似然度。

在语音帧级平滑的音视频似然度可表示为：

候选关键词的置信度通过一个滑动的时间窗进行计算，表示为：

其中，h_max＝max{1,k-w_max+1}，w_max表示滑动窗的大小。

当候选关键词中最大的置信度超过某一阈值时，即判别关键词存在，最大置信所对应的关键词即为检测到的关键词：

本实施例中，阈值选择0.76。

本发明另一实施例提供一种基于卷积神经网络和逆熵加权的音视频关键词识别装置，其包括：

神经网络模型训练模块，其负责：录制关键词音视频，标注出所述音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练卷积神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

本发明中视觉特征不局限于说话人的唇部区域，也可将说话人的整个脸部区域作为视觉特征。此外声学模型和视觉模型不局限于卷积神经网络，也可采用其它的网络结构如残差网络来实现对听觉特征和视觉特征的建模。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种基于神经网络和逆熵加权的音视频关键词识别方法，包括以下步骤：

2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度，根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度，根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；

3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型，以及步骤2)所述最优音视频融合权重，对待测音视频进行关键词识别；

步骤1)包含如下步骤：

1-3)根据步骤1-2)中所述关键词和非关键词语音的起止时间点，分帧、加窗后提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列；

1-4)根据步骤1-3)中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列，训练所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型；

步骤2)包含如下步骤：

2-2)将步骤2-1)中所述声学特征向量序列输入步骤1-4)中所有关键词的声学神经网络模型，输出得到声学似然度；将步骤2-1)中所述视觉特征向量序列输入步骤1-4)中所有关键词的视觉神经网络模型，输出得到视觉似然度；

2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度，得到声学模态可靠度和视觉模态可靠度；

2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重；

步骤2-2)所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为：

其中，A,V分别代表声学特征向量和视觉特征向量，x_l为第l个关键词，W_a,W_v分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目，oa,ov分别代表听觉和视觉卷积神经网络的输出；

步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度的计算公式为：

步骤2-4)中所述最优音视频融合权重的线性加权公式为：

P(x_l|A,V)＝αP(x_l|A,W_a)+(1-α)P(x_l|V,W_v)

其中，P(x_l|A,V)为音视频信息融合后的关键词似然度，α为最优音视频融合权重，

a表示听觉符号标注，v表示视觉符号标注；P(x_l|A,W_a)为声学似然度，P(x_l|V,W_v)为视觉似然度。

2.如权利要求1所述的方法，其特征在于，步骤1-4)所述声学神经网络模型是二维卷积神经网络模型，所述视觉神经网络模型是三维卷积神经网络模型。

3.如权利要求1所述的方法，其特征在于，步骤3)包括如下步骤：

3-2)将所述待测音视频的语音段，输入到步骤1-4)中关键词的声学神经网络模型进行匹配，得到声学似然度；将所述待测音视频的语音段，输入到步骤1-4)中关键词的视觉神经网络模型进行匹配，得到视觉似然度；

3-3)根据步骤3-2)中所述声学似然度和视觉似然度，利用步骤2-3)估计声学模态可靠度和视觉模态可靠度，并根据步骤2-4)估计最优音视频融合权重；

4.如权利要求3所述的方法，其特征在于，步骤3)中的所述关键词识别方法采用基于后验似然度处理的方法，该方法包括后验概率平滑和候选关键词置信度计算两部分，判断方法为：

由于音视频融合后的似然度是带噪声的，所以需要将其在一个固定的时间窗内进行平滑，在语音帧级平滑的音视频似然度表示为：

其中，k是语音帧索引，h_s＝max{1,k-w_s+1}是时间窗的第一帧语音的索引，w_s表示时间窗长度；

其中，h_max＝max{1,k-w_max+1}，w_max表示滑动窗的大小；

5.一种采用权利要求1～4中任一权利要求所述方法的基于神经网络和逆熵加权的音视频关键词识别装置，其特征在于，包括：