CN109147763B - 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 - Google Patents

一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 Download PDF

Info

Publication number
CN109147763B
CN109147763B CN201810752379.XA CN201810752379A CN109147763B CN 109147763 B CN109147763 B CN 109147763B CN 201810752379 A CN201810752379 A CN 201810752379A CN 109147763 B CN109147763 B CN 109147763B
Authority
CN
China
Prior art keywords
visual
acoustic
audio
video
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810752379.XA
Other languages
English (en)
Other versions
CN109147763A (zh
Inventor
丁润伟
庞程
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Gandong Smart Technology Co ltd
Peking University Shenzhen Graduate School
Original Assignee
Shenzhen Gandong Smart Technology Co ltd
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Gandong Smart Technology Co ltd, Peking University Shenzhen Graduate School filed Critical Shenzhen Gandong Smart Technology Co ltd
Priority to CN201810752379.XA priority Critical patent/CN109147763B/zh
Publication of CN109147763A publication Critical patent/CN109147763A/zh
Application granted granted Critical
Publication of CN109147763B publication Critical patent/CN109147763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。

Description

一种基于神经网络和逆熵加权的音视频关键词识别方法和 装置
技术领域
本发明属于信息技术领域,涉及一种应用在多媒体领域的关键词检索技术,具体涉及一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。
背景技术
语音是人类最直接高效、自然方便的沟通交流工具。语音关键词识别是连续语音识别的一个重要分支,它的任务是在给定的连续无限制的语音流中检测出预先设定的若干个关键词,而连续语音识别则侧重于将整段连续无限制的语音流转化为相应的文本。相较于连续语音识别,关键词识别更加灵活,对非关键词部分的发音要求较低,对环境的抗噪能力相对较强,因此更适合相关特定的应用领域,如音频文档检索,人机交互,数据挖掘,国防监听等。为了提高语音识别系统在噪声环境下的鲁棒性,近年来,音视频语音识别技术将声学和视觉信息融合来对语音进行识别,成为热门研究方向。基本上,音视频关键词识别技术的研究主要集中在三个方面:视觉特征的选取、关键词识别方法以及音视频信息的融合策略。
目前用于音视频语音识别的视觉特征主要有三种:表观特征,形状特征以及混合特征。基于表观特征的方法提取整个感兴趣的图像区域或者经过处理后的变换域图像的像素特征,不会丢失有用的视觉信息,而且不需要复杂的嘴唇轮廓跟踪算法,实现起来比较简单,因此广泛应用于音视频语音识别中。但是目前大多数表观特征提取方法主要从全局角度考虑嘴部区域的特征,忽略了描述时域和空域局部变化的局部信息,而这些局部信息是至关重要的。
现有的关键词识别方法有四大类:基于垃圾模型的方法,基于词格的方法,基于大词汇量连续语音识别的方法和基于深度学习的方法。音视频融合的目的在于在不同的声学和视觉环境下,将声学模态和视觉模态的信息有效结合,并获得与基于单一模态语音识别相同或者优于单一模态的识别性能。当声学噪声较小时,声学模态的作用大于视觉模态,因此音视频融合的识别性能至少等同于单一的声学语音识别。当声学噪声较大时,视觉信息的作用则凸显出来,融合后的识别性能应该和单一的视觉语音识别相同或者更优。好的音视频融合方法可以充分挖掘声学和视觉模态在不同环境下的互补信息,有效结合两个模态的作用以获得鲁棒的识别性能。
从融合层次角度出发,目前音视频的融合的策略主要有两种:特征层融合以及决策层融合。特征层融合直接将声学特征和视觉特征以帧为单位拼接形成一个组合特征矢量,然后再输入一个分类器进行识别。这种融合层次无法解决不同声学信噪比环境下的视觉和声学的贡献分配问题。决策层融合将声学信号和视觉信号分开进行处理,因此噪声环境下,决策层融合更容易生成用于结合声学模态和视觉模态贡献的自适应权重,以获得最优的结合效果。
发明内容
针对上述问题,本发明的目的在于提供一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。本发明针对视觉特征和听觉特征的不同维度特性,提出了一种神经网络(优选为多维卷积神经网络)分别对视觉特征的时空特性和听觉特征的时频特性进行建模。本发明考虑音视频融合关键词识别中,不同声学信噪比环境下视觉和声学信息的可靠性不同,提出了一种基于逆熵加权的决策层自适应融合方法。
本发明首先提供一种基于神经网络和逆熵加权的音视频关键词识别方法,其步骤包括:
1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
2)根据不同声学噪声环境下的音视频,得到声学似然度和视觉似然度;根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度;根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型、步骤2)所述最优音视频融合权重,对待测音视频进行关键词识别。
更进一步地,步骤1)包含如下步骤:
1-1)根据包含关键词的抄本同步录制音视频,得到多个完整的语音段和视频段;
1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点;
1-3)根据步骤1-2)中所述关键词语音的起止时间点,对语音信号进行预处理(包括预加重、分帧、加窗等),再提取所述关键词的声学特征向量序列和视觉特征向量序列;根据步骤1-2)中所述非关键词语音的起止时间点,预处理后提取所述非关键词的声学特征向量序列和视觉特征向量序列;
1-4)根据步骤1-3)中所述关键词的声学特征向量序列和视觉特征向量序列,采用多维卷积神经网络训练所述关键词的声学神经网络模型和视觉神经网络模型;根据步骤1-3)中所述非关键词的声学特征向量序列和视觉特征向量序列,采用多维卷积神经网络训练所述非关键词的声学神经网络模型和视觉神经网络模型。
更进一步地,步骤2)包含如下步骤:
2-1)根据已标注关键词的不同噪声环境下的音视频段,提取所述音视频段的声学特征向量序列和视觉特征向量序列;
2-2)将步骤2-1)中所述声学特征向量序列与步骤1-4)中所有关键词的声学神经网络模型进行匹配,得到声学似然度;将步骤2-1)中所述视觉特征向量序列与步骤1-4)中所有关键词的视觉神经网络模型进行匹配,得到视觉似然度;
2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度,通过熵的估计得到声学模态可靠度和视觉模态可靠度;
2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算其逆熵得到最优音视频融合权重。
更进一步地,步骤3)包括如下步骤:
3-1)对待测音视频段进行音视频特征提取,得到所述待测音视频段的声学特征向量序列和视觉特征向量序列;
3-2)将所述待测音视频的语音段,与步骤1-4)中相应关键词的声学神经网络模型进行匹配,得到声学似然度;将所述待测音视频的视频段,与步骤1-4)中相应关键词的视觉神经网络模型进行匹配,得到视觉似然度;
3-3)对步骤3-2)中所述的声学似然度和视觉似然度,利用步骤2-3)估计声学模态可靠度和视觉模态可靠度,并根据步骤2-4)估计最优音视频融合权重;
3-4)对步骤3-2)中所述的声学似然度和视觉似然度,根据步骤3-3)中的所述的最优音视频融合权重进行融合,得到融合后的关键词融合似然度;
3-5)根据融合后的关键词融合似然度进行关键词的选择,完成识别。
更进一步,步骤1)根据不同任务定义关键词表,设计包含关键词的录制抄本。
更进一步,步骤1-3)中所述预处理中,预加重是信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,z表示Z变换中的复变量,以补偿嘴唇辐射带来的高频衰减;分帧函数为:
xk(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1
其中N为帧长,L为帧数,s为原始的语音信号,xk为分帧后的语音信号,w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
Figure BDA0001725873970000041
更进一步,所述声学特征选择梅尔频率倒谱系数MFCC特征。
更进一步,所述视觉特征为说话人的唇部区域图像,多张图像描述了嘴部区域在时域和空域上的局部变化。
更进一步,步骤1-4)中所述声学神经网络模型是二维卷积神经网络2D-CNN模型;步骤1-4)中所述视觉神经网络模型是三维卷积神经网络3D-CNN模型。
更进一步,步骤2)中所述不同声学噪声环境为信噪比不同的白噪声。
更进一步,步骤2-2)中所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为:
Figure BDA0001725873970000042
Figure BDA0001725873970000043
其中,A,V分别代表声学特征向量和视觉特征向量,xl为第l个关键词,Wa,Wv分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目,oa,ov分别代表听觉和视觉卷积神经网络的输出。
更进一步,步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算听觉和视觉信息的逆熵(即熵的倒数)来计算,其计算公式为:
Figure BDA0001725873970000044
其中,α为最优音视频融合权重,Da为听觉信息的熵,Dm为听觉或视觉信息的熵,m∈{a,v},a表示听觉符号标注,v表示视觉符号标注,听觉和视觉信息的熵为:
Figure BDA0001725873970000045
Figure BDA0001725873970000046
更进一步,步骤2-4)中所述最优音视频融合权重的线性加权融合公式为:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优音视频融合权重,P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
更进一步,步骤3)中的关键词识别方法采用基于后验似然度处理的方法,该方法包括后验概率平滑和候选关键词置信度计算两部分。由于音视频融合后的似然度是带噪声的,所以需要将其在一个固定的时间窗内进行平滑。在语音帧级平滑的音视频似然度可表示为:
Figure BDA0001725873970000051
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度。
更进一步,候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
Figure BDA0001725873970000052
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小。
更进一步,当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
Figure BDA0001725873970000053
与上面方法相对应地,本发明还提供一种基于神经网络和逆熵加权的音视频关键词识别装置,其包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
本发明通过结合人类发音过程中的声学信息和视觉信息,将声学作用和视觉作用在决策层进行融合,对待测音视频进行关键词识别。考虑发音过程中嘴部区域的局部变化信息,将说话人唇部图像直接提取为视觉特征,并利用三维卷积神经网络对其进行建模,可以有效地描述说话人发声时时域和空域局部变化。将语音的MFCC特征提取为听觉特征,并利用二维卷积神经网络对其进行建模,可以有效地描述语音信息时域和频域的局部变化。决策层融合将声学信号和视觉信号分开进行处理,可以解决不同声学信噪比环境下的视觉和声学的贡献分配问题,分利用声学噪声环境下视觉信息的贡献,提高识别性能和识别准确度。
附图说明
图1是本发明的识别方法流程示意图。
图2是本发明采用的音视频卷积神经网络结构图。
图3是听觉特征提取流程示意图。
图4是视觉特征提取流程示意图。
图5是本发明音视频融合估计关键词流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本实施例的音视频关键词识别方法的流程示意图,其主要步骤包括:根据音视频信息进行音视频特征提取、训练音视频卷积神经网络、音视频融合、关键词检测。
首先定义关键词表,本实施例中的任务面向人机交互,因此定义了30个人机交互中常用的关键词,构成关键词表。根据定义的关键词表设计包含关键词的抄本,每个关键词设计5句抄本,共150句抄本。
根据设定的包含关键词的抄本同步录制音视频,每段抄本有20位录制者,音频的采样频率为11025HZ,位数为16bit,视频图像采集的速度为20帧/秒,分辨率为640×480。对录制得到的语音信号预滤波,高通滤波抑制50HZ电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分。模数转换后存入关键词语音库中,得到多个完整的语音段。将录制得到的视频信号转化为数字信号存入关键词视频库中,得到多个完整的视频段。
对语音库中的语音段人工打标签,标注出语音段中关键词和非关键词语音的起止时间点。由于音视频是同步录制的,标注出音频中的关键词和非关键词起止时间点,相当于标注出视频中的关键词和非关键词起止时间点。
模型训练和识别阶段提取声学特征向量的具体过程如图3所示,描述为:对语音段分帧加窗,帧长为30毫秒,帧移为10毫秒,窗函数选取汉明窗。然后采用梅尔滤波器并经对数变换和离散余弦变换步骤提取常用的39维MFCC特征(《语音信号处理》第2版,赵力编著,机械工业出版社,51-53页)。
视觉特征提取的具体过程如图4所示,描述为:对视频信息按视频帧处理,利用HOG特征检测人脸,并进行灰度转换,说话人的唇部区域通过估计人脸的68个特征点进行提取,提取的唇部区域的高和宽分别为60×100。
本实施例的音视频卷积神经网络模型训练方法如下:根据打标签时标注好的关键词和非关键词语音的起止时间点,分别提取出关键词语音和非关键词语音,分帧加窗后提取出39维MFCC声学特征向量序列,采用随机梯度下降算法分别训练关键词的声学二维卷积神经网络模型和非关键词的声学二维卷积神经网络模型。同样,对录制好的视频,根据关键词和非关键词视频的起止时间点,提取说话人唇部区域视觉特征向量序列后,采用自适应时刻估计方法分别训练关键词的视觉三维卷积神经网络模型和非关键词的视觉三维卷积神经网络模型。本实施例中音频和视频神经网络结构如图2所示,其中Kernel表示卷积核,Stride表示卷积操作步长。具体训练过程如下:
1、对关键词语音库中的语音,分别按不同信噪比添加不同噪声,本实施例中按信噪比为20dB,15dB,10dB,5dB,0dB添加白噪声,生成带噪语音。
2、对添加声学噪声后的标注为关键词的音视频段,分别进行MFCC声学特征提取和说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。
3、将提取的声学特征MFCC向量序列和视觉特征向量序列分别作为二维和三维卷积神经网络的输入,再分别通过随机梯度下降法和自适应时刻估计方法分别训练听觉和视觉神经网络。代价函数采用交叉熵,其定义为:
Figure BDA0001725873970000071
其中,o是神经网络的输出,l是对应关键词标记,C是关键词的数目,ol表示第l个关键词的神经网络输出,oi表示候选关键词的神经网络输出。。
本发明的基于逆熵加权的音视频融合关键词识别方法过程如图5所示:
1、对待测音视频段,分别进行MFCC声学特征提取以及说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。
2、对所述声学关键词候选对应的语音段,提取MFCC听觉特征,输入训练好的语音卷积神经网络,得到声学似然度P(xl|A,Wa)。同样,对所述声学关键词候选对应的视频段,提取说换人唇部区域特征,输入训练好的视频卷积神经网络,得到视觉似然度P(xl|V,Wv)。图5中softmax表示卷积神经网络的激活函数。
3、计算出声学模态可靠度和视觉模态可靠度,所述模态可靠度为每个输出似然度的熵:
Figure BDA0001725873970000081
Figure BDA0001725873970000082
4、根据声学模态可靠度和视觉模态可靠度计算音视频融合的最优权重:
Figure BDA0001725873970000083
5、利用最优权重对神经网络输出的听觉和视觉关键词似然度进行线性加权融合:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优融合权重,P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
在语音帧级平滑的音视频似然度可表示为:
Figure BDA0001725873970000084
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度。
候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
Figure BDA0001725873970000085
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小。
当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
Figure BDA0001725873970000086
本实施例中,阈值选择0.76。
本发明另一实施例提供一种基于卷积神经网络和逆熵加权的音视频关键词识别装置,其包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练卷积神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
本发明中视觉特征不局限于说话人的唇部区域,也可将说话人的整个脸部区域作为视觉特征。此外声学模型和视觉模型不局限于卷积神经网络,也可采用其它的网络结构如残差网络来实现对听觉特征和视觉特征的建模。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。

Claims (5)

1.一种基于神经网络和逆熵加权的音视频关键词识别方法,包括以下步骤:
1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型,以及步骤2)所述最优音视频融合权重,对待测音视频进行关键词识别;
步骤1)包含如下步骤:
1-1)根据包含关键词的抄本同步录制音视频,得到多个完整的语音段和视频段;
1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点;
1-3)根据步骤1-2)中所述关键词和非关键词语音的起止时间点,分帧、加窗后提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列;
1-4)根据步骤1-3)中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列,训练所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
步骤2)包含如下步骤:
2-1)根据已标注关键词的不同噪声环境下的音视频段,提取所述音视频段的声学特征向量序列和视觉特征向量序列;
2-2)将步骤2-1)中所述声学特征向量序列输入步骤1-4)中所有关键词的声学神经网络模型,输出得到声学似然度;将步骤2-1)中所述视觉特征向量序列输入步骤1-4)中所有关键词的视觉神经网络模型,输出得到视觉似然度;
2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度,得到声学模态可靠度和视觉模态可靠度;
2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
步骤2-2)所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为:
Figure FDA0002547775360000021
Figure FDA0002547775360000022
其中,A,V分别代表声学特征向量和视觉特征向量,xl为第l个关键词,Wa,Wv分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目,oa,ov分别代表听觉和视觉卷积神经网络的输出;
步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度的计算公式为:
Figure FDA0002547775360000023
Figure FDA0002547775360000024
步骤2-4)中所述最优音视频融合权重的线性加权公式为:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优音视频融合权重,
Figure FDA0002547775360000025
a表示听觉符号标注,v表示视觉符号标注;P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
2.如权利要求1所述的方法,其特征在于,步骤1-4)所述声学神经网络模型是二维卷积神经网络模型,所述视觉神经网络模型是三维卷积神经网络模型。
3.如权利要求1所述的方法,其特征在于,步骤3)包括如下步骤:
3-1)对待测音视频段进行音视频特征提取,得到所述待测音视频段的声学特征向量序列和视觉特征向量序列;
3-2)将所述待测音视频的语音段,输入到步骤1-4)中关键词的声学神经网络模型进行匹配,得到声学似然度;将所述待测音视频的语音段,输入到步骤1-4)中关键词的视觉神经网络模型进行匹配,得到视觉似然度;
3-3)根据步骤3-2)中所述声学似然度和视觉似然度,利用步骤2-3)估计声学模态可靠度和视觉模态可靠度,并根据步骤2-4)估计最优音视频融合权重;
3-4)对步骤3-2)中所述的声学似然度和视觉似然度,根据步骤3-3)中的所述的最优音视频融合权重进行融合,得到融合后的关键词融合似然度;
3-5)根据融合后的关键词融合似然度进行关键词的选择,完成识别。
4.如权利要求3所述的方法,其特征在于,步骤3)中的所述关键词识别方法采用基于后验似然度处理的方法,该方法包括后验概率平滑和候选关键词置信度计算两部分,判断方法为:
由于音视频融合后的似然度是带噪声的,所以需要将其在一个固定的时间窗内进行平滑,在语音帧级平滑的音视频似然度表示为:
Figure FDA0002547775360000031
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度;
候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
Figure FDA0002547775360000032
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小;
当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
Figure FDA0002547775360000033
5.一种采用权利要求1~4中任一权利要求所述方法的基于神经网络和逆熵加权的音视频关键词识别装置,其特征在于,包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
CN201810752379.XA 2018-07-10 2018-07-10 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 Active CN109147763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810752379.XA CN109147763B (zh) 2018-07-10 2018-07-10 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810752379.XA CN109147763B (zh) 2018-07-10 2018-07-10 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

Publications (2)

Publication Number Publication Date
CN109147763A CN109147763A (zh) 2019-01-04
CN109147763B true CN109147763B (zh) 2020-08-11

Family

ID=64800300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810752379.XA Active CN109147763B (zh) 2018-07-10 2018-07-10 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置

Country Status (1)

Country Link
CN (1) CN109147763B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
CN110619035B (zh) * 2019-08-01 2023-07-25 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN111028833B (zh) * 2019-12-16 2022-08-16 广州小鹏汽车科技有限公司 一种交互、车辆的交互方法、装置
CN111312217A (zh) * 2020-02-28 2020-06-19 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
US11663823B2 (en) 2020-08-10 2023-05-30 International Business Machines Corporation Dual-modality relation networks for audio-visual event localization
CN112820274B (zh) * 2021-01-08 2021-09-28 上海仙剑文化传媒股份有限公司 一种语音信息识别校正方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103943107B (zh) * 2014-04-03 2017-04-05 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
CN107767863B (zh) * 2016-08-22 2021-05-04 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN106875942B (zh) * 2016-12-28 2021-01-22 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN109147763A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109147763B (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN109671433B (zh) 一种关键词的检测方法以及相关装置
JP4986393B2 (ja) 雑音低減値に対する推定値を決定する方法
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN112053690A (zh) 一种跨模态多特征融合的音视频语音识别方法及系统
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
CN114267347A (zh) 一种基于智能语音交互的多模态拒识方法和系统
CN111883135A (zh) 语音转写方法、装置和电子设备
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111028833B (zh) 一种交互、车辆的交互方法、装置
CN111462732B (zh) 语音识别方法和装置
US9659574B2 (en) Signal noise attenuation
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
Abdulatif et al. Investigating cross-domain losses for speech enhancement
Wang et al. Deep learning approaches for voice activity detection
Rajavel et al. Adaptive reliability measure and optimum integration weight for decision fusion audio-visual speech recognition
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
CN113011245B (zh) 基于超声波感知与知识蒸馏的唇语识别系统及方法
Anderson et al. Robust tri-modal automatic speech recognition for consumer applications
Rajavel et al. A new GA optimised reliability ratio based integration weight estimation scheme for decision fusion audio-visual speech recognition
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant