CN109147763A - 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 - Google Patents
一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 Download PDFInfo
- Publication number
- CN109147763A CN109147763A CN201810752379.XA CN201810752379A CN109147763A CN 109147763 A CN109147763 A CN 109147763A CN 201810752379 A CN201810752379 A CN 201810752379A CN 109147763 A CN109147763 A CN 109147763A
- Authority
- CN
- China
- Prior art keywords
- keyword
- video
- audio
- acoustics
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 230000000007 visual effect Effects 0.000 claims abstract description 90
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 230000005534 acoustic noise Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 59
- 238000003062 neural network model Methods 0.000 claims description 46
- 230000004927 fusion Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 210000004218 nerve net Anatomy 0.000 claims 1
- 210000001328 optic nerve Anatomy 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。
Description
技术领域
本发明属于信息技术领域,涉及一种应用在多媒体领域的关键词检索技术,具体涉及一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。
背景技术
语音是人类最直接高效、自然方便的沟通交流工具。语音关键词识别是连续语音识别的一个重要分支,它的任务是在给定的连续无限制的语音流中检测出预先设定的若干个关键词,而连续语音识别则侧重于将整段连续无限制的语音流转化为相应的文本。相较于连续语音识别,关键词识别更加灵活,对非关键词部分的发音要求较低,对环境的抗噪能力相对较强,因此更适合相关特定的应用领域,如音频文档检索,人机交互,数据挖掘,国防监听等。为了提高语音识别系统在噪声环境下的鲁棒性,近年来,音视频语音识别技术将声学和视觉信息融合来对语音进行识别,成为热门研究方向。基本上,音视频关键词识别技术的研究主要集中在三个方面:视觉特征的选取、关键词识别方法以及音视频信息的融合策略。
目前用于音视频语音识别的视觉特征主要有三种:表观特征,形状特征以及混合特征。基于表观特征的方法提取整个感兴趣的图像区域或者经过处理后的变换域图像的像素特征,不会丢失有用的视觉信息,而且不需要复杂的嘴唇轮廓跟踪算法,实现起来比较简单,因此广泛应用于音视频语音识别中。但是目前大多数表观特征提取方法主要从全局角度考虑嘴部区域的特征,忽略了描述时域和空域局部变化的局部信息,而这些局部信息是至关重要的。
现有的关键词识别方法有四大类:基于垃圾模型的方法,基于词格的方法,基于大词汇量连续语音识别的方法和基于深度学习的方法。音视频融合的目的在于在不同的声学和视觉环境下,将声学模态和视觉模态的信息有效结合,并获得与基于单一模态语音识别相同或者优于单一模态的识别性能。当声学噪声较小时,声学模态的作用大于视觉模态,因此音视频融合的识别性能至少等同于单一的声学语音识别。当声学噪声较大时,视觉信息的作用则凸显出来,融合后的识别性能应该和单一的视觉语音识别相同或者更优。好的音视频融合方法可以充分挖掘声学和视觉模态在不同环境下的互补信息,有效结合两个模态的作用以获得鲁棒的识别性能。
从融合层次角度出发,目前音视频的融合的策略主要有两种:特征层融合以及决策层融合。特征层融合直接将声学特征和视觉特征以帧为单位拼接形成一个组合特征矢量,然后再输入一个分类器进行识别。这种融合层次无法解决不同声学信噪比环境下的视觉和声学的贡献分配问题。决策层融合将声学信号和视觉信号分开进行处理,因此噪声环境下,决策层融合更容易生成用于结合声学模态和视觉模态贡献的自适应权重,以获得最优的结合效果。
发明内容
针对上述问题,本发明的目的在于提供一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。本发明针对视觉特征和听觉特征的不同维度特性,提出了一种神经网络(优选为多维卷积神经网络)分别对视觉特征的时空特性和听觉特征的时频特性进行建模。本发明考虑音视频融合关键词识别中,不同声学信噪比环境下视觉和声学信息的可靠性不同,提出了一种基于逆熵加权的决策层自适应融合方法。
本发明首先提供一种基于神经网络和逆熵加权的音视频关键词识别方法,其步骤包括:
1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
2)根据不同声学噪声环境下的音视频,得到声学似然度和视觉似然度;根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度;根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型、步骤2)所述最优音视频融合权重,对待测音视频进行关键词识别。
更进一步地,步骤1)包含如下步骤:
1-1)根据包含关键词的抄本同步录制音视频,得到多个完整的语音段和视频段;
1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点;
1-3)根据步骤1-2)中所述关键词语音的起止时间点,对语音信号进行预处理(包括预加重、分帧、加窗等),再提取所述关键词的声学特征向量序列和视觉特征向量序列;根据步骤1-2)中所述非关键词语音的起止时间点,预处理后提取所述非关键词的声学特征向量序列和视觉特征向量序列;
1-4)根据步骤1-3)中所述关键词的声学特征向量序列和视觉特征向量序列,采用多维卷积神经网络训练所述关键词的声学神经网络模型和视觉神经网络模型;根据步骤1-3)中所述非关键词的声学特征向量序列和视觉特征向量序列,采用多维卷积神经网络训练所述非关键词的声学神经网络模型和视觉神经网络模型。
更进一步地,步骤2)包含如下步骤:
2-1)根据已标注关键词的不同噪声环境下的音视频段,提取所述音视频段的声学特征向量序列和视觉特征向量序列;
2-2)将步骤2-1)中所述声学特征向量序列与步骤1-4)中所有关键词的声学神经网络模型进行匹配,得到声学似然度;将步骤2-1)中所述视觉特征向量序列与步骤1-4)中所有关键词的视觉神经网络模型进行匹配,得到视觉似然度;
2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度,通过熵的估计得到声学模态可靠度和视觉模态可靠度;
2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算其逆熵得到最优音视频融合权重。
更进一步地,步骤3)包括如下步骤:
3-1)对待测音视频段进行音视频特征提取,得到所述待测音视频段的声学特征向量序列和视觉特征向量序列;
3-2)将所述待测音视频的语音段,与步骤1-4)中相应关键词的声学神经网络模型进行匹配,得到声学似然度;将所述待测音视频的视频段,与步骤1-4)中相应关键词的视觉神经网络模型进行匹配,得到视觉似然度;
3-3)对步骤3-2)中所述的声学似然度和视觉似然度,利用步骤2-3)估计声学模态可靠度和视觉模态可靠度,并根据步骤2-4)估计最优音视频融合权重;
3-4)对步骤3-2)中所述的声学似然度和视觉似然度,根据步骤3-3)中的所述的最优音视频融合权重进行融合,得到融合后的关键词融合似然度;
3-5)根据融合后的关键词融合似然度进行关键词的选择,完成识别。
更进一步,步骤1)根据不同任务定义关键词表,设计包含关键词的录制抄本。
更进一步,步骤1-3)中所述预处理中,预加重是信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,z表示Z变换中的复变量,以补偿嘴唇辐射带来的高频衰减;分帧函数为:
xk(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1
其中N为帧长,L为帧数,s为原始的语音信号,xk为分帧后的语音信号,w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
更进一步,所述声学特征选择梅尔频率倒谱系数MFCC特征。
更进一步,所述视觉特征为说话人的唇部区域图像,多张图像描述了嘴部区域在时域和空域上的局部变化。
更进一步,步骤1-4)中所述声学神经网络模型是二维卷积神经网络2D-CNN模型;步骤1-4)中所述视觉神经网络模型是三维卷积神经网络3D-CNN模型。
更进一步,步骤2)中所述不同声学噪声环境为信噪比不同的白噪声。
更进一步,步骤2-2)中所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为:
其中,A,V分别代表声学特征向量和视觉特征向量,xl为第l个关键词,Wa,Wv分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目,oa,ov分别代表听觉和视觉卷积神经网络的输出。
更进一步,步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度通过计算听觉和视觉信息的逆熵(即熵的倒数)来计算,其计算公式为:
其中,α为最优音视频融合权重,Da为听觉信息的熵,Dm为听觉或视觉信息的熵,m∈{a,v},a表示听觉符号标注,v表示视觉符号标注,听觉和视觉信息的熵为:
更进一步,步骤2-4)中所述最优音视频融合权重的线性加权融合公式为:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优音视频融合权重,P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
更进一步,步骤3)中的关键词识别方法采用基于后验似然度处理的方法,该方法包括后验概率平滑和候选关键词置信度计算两部分。由于音视频融合后的似然度是带噪声的,所以需要将其在一个固定的时间窗内进行平滑。在语音帧级平滑的音视频似然度可表示为:
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度。
更进一步,候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小。
更进一步,当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
与上面方法相对应地,本发明还提供一种基于神经网络和逆熵加权的音视频关键词识别装置,其包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
本发明通过结合人类发音过程中的声学信息和视觉信息,将声学作用和视觉作用在决策层进行融合,对待测音视频进行关键词识别。考虑发音过程中嘴部区域的局部变化信息,将说话人唇部图像直接提取为视觉特征,并利用三维卷积神经网络对其进行建模,可以有效地描述说话人发声时时域和空域局部变化。将语音的MFCC特征提取为听觉特征,并利用二维卷积神经网络对其进行建模,可以有效地描述语音信息时域和频域的局部变化。决策层融合将声学信号和视觉信号分开进行处理,可以解决不同声学信噪比环境下的视觉和声学的贡献分配问题,分利用声学噪声环境下视觉信息的贡献,提高识别性能和识别准确度。
附图说明
图1是本发明的识别方法流程示意图。
图2是本发明采用的音视频卷积神经网络结构图。
图3是听觉特征提取流程示意图。
图4是视觉特征提取流程示意图。
图5是本发明音视频融合估计关键词流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本实施例的音视频关键词识别方法的流程示意图,其主要步骤包括:根据音视频信息进行音视频特征提取、训练音视频卷积神经网络、音视频融合、关键词检测。
首先定义关键词表,本实施例中的任务面向人机交互,因此定义了30个人机交互中常用的关键词,构成关键词表。根据定义的关键词表设计包含关键词的抄本,每个关键词设计5句抄本,共150句抄本。
根据设定的包含关键词的抄本同步录制音视频,每段抄本有20位录制者,音频的采样频率为11025HZ,位数为16bit,视频图像采集的速度为20帧/秒,分辨率为640×480。对录制得到的语音信号预滤波,高通滤波抑制50HZ电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分。模数转换后存入关键词语音库中,得到多个完整的语音段。将录制得到的视频信号转化为数字信号存入关键词视频库中,得到多个完整的视频段。
对语音库中的语音段人工打标签,标注出语音段中关键词和非关键词语音的起止时间点。由于音视频是同步录制的,标注出音频中的关键词和非关键词起止时间点,相当于标注出视频中的关键词和非关键词起止时间点。
模型训练和识别阶段提取声学特征向量的具体过程如图3所示,描述为:对语音段分帧加窗,帧长为30毫秒,帧移为10毫秒,窗函数选取汉明窗。然后采用梅尔滤波器并经对数变换和离散余弦变换步骤提取常用的39维MFCC特征(《语音信号处理》第2版,赵力编著,机械工业出版社,51-53页)。
视觉特征提取的具体过程如图4所示,描述为:对视频信息按视频帧处理,利用HOG特征检测人脸,并进行灰度转换,说话人的唇部区域通过估计人脸的68个特征点进行提取,提取的唇部区域的高和宽分别为60×100。
本实施例的音视频卷积神经网络模型训练方法如下:根据打标签时标注好的关键词和非关键词语音的起止时间点,分别提取出关键词语音和非关键词语音,分帧加窗后提取出39维MFCC声学特征向量序列,采用随机梯度下降算法分别训练关键词的声学二维卷积神经网络模型和非关键词的声学二维卷积神经网络模型。同样,对录制好的视频,根据关键词和非关键词视频的起止时间点,提取说话人唇部区域视觉特征向量序列后,采用自适应时刻估计方法分别训练关键词的视觉三维卷积神经网络模型和非关键词的视觉三维卷积神经网络模型。本实施例中音频和视频神经网络结构如图2所示,其中Kernel表示卷积核,Stride表示卷积操作步长。具体训练过程如下:
1、对关键词语音库中的语音,分别按不同信噪比添加不同噪声,本实施例中按信噪比为20dB,15dB,10dB,5dB,0dB添加白噪声,生成带噪语音。
2、对添加声学噪声后的标注为关键词的音视频段,分别进行MFCC声学特征提取和说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。
3、将提取的声学特征MFCC向量序列和视觉特征向量序列分别作为二维和三维卷积神经网络的输入,再分别通过随机梯度下降法和自适应时刻估计方法分别训练听觉和视觉神经网络。代价函数采用交叉熵,其定义为:
其中,o是神经网络的输出,l是对应关键词标记,C是关键词的数目,ol表示第l个关键词的神经网络输出,oi表示候选关键词的神经网络输出。。
本发明的基于逆熵加权的音视频融合关键词识别方法过程如图5所示:
1、对待测音视频段,分别进行MFCC声学特征提取以及说话人唇部区域视觉特征提取后得到声学特征向量序列和视觉特征向量序列。
2、对所述声学关键词候选对应的语音段,提取MFCC听觉特征,输入训练好的语音卷积神经网络,得到声学似然度P(xl|A,Wa)。同样,对所述声学关键词候选对应的视频段,提取说换人唇部区域特征,输入训练好的视频卷积神经网络,得到视觉似然度P(xl|V,Wv)。图5中softmax表示卷积神经网络的激活函数。
3、计算出声学模态可靠度和视觉模态可靠度,所述模态可靠度为每个输出似然度的熵:
4、根据声学模态可靠度和视觉模态可靠度计算音视频融合的最优权重:
5、利用最优权重对神经网络输出的听觉和视觉关键词似然度进行线性加权融合:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优融合权重,P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
在语音帧级平滑的音视频似然度可表示为:
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度。
候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小。
当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
本实施例中,阈值选择0.76。
本发明另一实施例提供一种基于卷积神经网络和逆熵加权的音视频关键词识别装置,其包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练卷积神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
本发明中视觉特征不局限于说话人的唇部区域,也可将说话人的整个脸部区域作为视觉特征。此外声学模型和视觉模型不局限于卷积神经网络,也可采用其它的网络结构如残差网络来实现对听觉特征和视觉特征的建模。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。
Claims (10)
1.一种基于神经网络和逆熵加权的音视频关键词识别方法,包括以下步骤:
1)录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
2)根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
3)根据步骤1)所述声学神经网络模型和所述视觉神经网络模型,以及步骤2)所述最优音视频融合权重,对待测音视频进行关键词识别。
2.如权利要求1所述的方法,其特征在于,步骤1)包含如下步骤:
1-1)根据包含关键词的抄本同步录制音视频,得到多个完整的语音段和视频段;
1-2)标注出步骤1-1)中所述语音段中关键词和非关键词语音的起止时间点;
1-3)根据步骤1-2)中所述关键词和非关键词语音的起止时间点,分帧、加窗后提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列;
1-4)根据步骤1-3)中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列,训练所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型。
3.如权利要求2所述的方法,其特征在于,步骤1-4)所述声学神经网络模型是二维卷积神经网络模型,所述视觉神经网络模型是三维卷积神经网络模型。
4.如权利要求2所述的方法,其特征在于,步骤2)包含如下步骤:
2-1)根据已标注关键词的不同噪声环境下的音视频段,提取所述音视频段的声学特征向量序列和视觉特征向量序列;
2-2)将步骤2-1)中所述声学特征向量序列输入步骤1-4)中所有关键词的声学神经网络模型,输出得到声学似然度;将步骤2-1)中所述视觉特征向量序列输入步骤1-4)中所有关键词的视觉神经网络模型,输出得到视觉似然度;
2-3)根据步骤2-2)中所述声学似然度和所述视觉似然度,得到声学模态可靠度和视觉模态可靠度;
2-4)根据步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重。
5.如权利要求4所述的方法,其特征在于,步骤2-2)所述声学特征向量序列和视觉特征向量序列对于对应的声学神经网络模型和视觉神经网络模型的似然度的计算公式为:
其中,A,V分别代表声学特征向量和视觉特征向量,xl为第l个关键词,Wa,Wv分别为训练得到的声学二维卷积网络和视觉三维卷积网络的参数,C是关键词的数目,oa,ov分别代表听觉和视觉卷积神经网络的输出。
6.如权利要求5所述的方法,其特征在于,步骤2-3)中所述声学模态可靠度和所述视觉模态可靠度的计算公式为:
7.如权利要求6所述的方法,其特征在于,步骤2-4)中所述最优音视频融合权重的线性加权公式为:
P(xl|A,V)=αP(xl|A,Wa)+(1-α)P(xl|V,Wv)
其中,P(xl|A,V)为音视频信息融合后的关键词似然度,α为最优融合权重,P(xl|A,Wa)为声学似然度,P(xl|V,Wv)为视觉似然度。
8.如权利要求4或7所述的方法,其特征在于,步骤3)包括如下步骤:
3-1)对待测音视频段进行音视频特征提取,得到所述待测音视频段的声学特征向量序列和视觉特征向量序列;
3-2)将所述待测音视频的语音段,输入到步骤1-4)中关键词的声学神经网络模型进行匹配,得到声学似然度;将所述待测音视频的语音段,输入到步骤1-4)中关键词的视觉神经网络模型进行匹配,得到视觉似然度;
3-3)根据步骤3-2)中所述声学似然度和视觉似然度,利用步骤2-3)估计声学模态可靠度和视觉模态可靠度,并根据步骤2-4)估计最优音视频融合权重;
3-4)对步骤3-2)中所述的声学似然度和视觉似然度,根据步骤3-3)中的所述的最优音视频融合权重进行融合,得到融合后的关键词融合似然度;
3-5)根据融合后的关键词融合似然度进行关键词的选择,完成识别。
9.如权利要求8所述的方法,其特征在于,步骤3)中的所述关键词识别方法采用基于后验似然度处理的方法,该方法包括后验概率平滑和候选关键词置信度计算两部分,判断方法为:
由于音视频融合后的似然度是带噪声的,所以需要将其在一个固定的时间窗内进行平滑。在语音帧级平滑的音视频似然度可表示为:
其中,k是语音帧索引,hs=max{1,k-ws+1}是时间窗的第一帧语音的索引,ws表示时间窗长度;
候选关键词的置信度通过一个滑动的时间窗进行计算,表示为:
其中,hmax=max{1,k-wmax+1},wmax表示滑动窗的大小;
当候选关键词中最大的置信度超过某一阈值时,即判别关键词存在,最大置信所对应的关键词即为检测到的关键词:
10.一种基于神经网络和逆熵加权的音视频关键词识别装置,其特征在于,包括:
神经网络模型训练模块,其负责:录制关键词音视频,标注出所述音视频中关键词和非关键词语音的起止时间点,根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的声学特征向量序列和视觉特征向量序列,根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列通过训练神经网络得到所述关键词和所述非关键词的声学神经网络模型和视觉神经网络模型;
音视频融合权重计算模块,其负责:根据不同声学噪声环境下的音视频得到声学似然度和视觉似然度,根据所述声学似然度和所述视觉似然度通过计算逆熵得到声学模态可靠度、视觉模态可靠度,根据所述声学模态可靠度和所述视觉模态可靠度得到最优音视频融合权重;
关键词识别模块,负责根据所述声学神经网络模型和所述视觉神经网络模型,以及所述最优音视频融合权重,对待测音视频进行关键词识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810752379.XA CN109147763B (zh) | 2018-07-10 | 2018-07-10 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810752379.XA CN109147763B (zh) | 2018-07-10 | 2018-07-10 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147763A true CN109147763A (zh) | 2019-01-04 |
CN109147763B CN109147763B (zh) | 2020-08-11 |
Family
ID=64800300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810752379.XA Active CN109147763B (zh) | 2018-07-10 | 2018-07-10 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147763B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN111028833A (zh) * | 2019-12-16 | 2020-04-17 | 广州小鹏汽车科技有限公司 | 一种交互、车辆的交互方法、装置 |
CN111312217A (zh) * | 2020-02-28 | 2020-06-19 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN111462732A (zh) * | 2019-01-21 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN112820274A (zh) * | 2021-01-08 | 2021-05-18 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
US11663823B2 (en) | 2020-08-10 | 2023-05-30 | International Business Machines Corporation | Dual-modality relation networks for audio-visual event localization |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
-
2018
- 2018-07-10 CN CN201810752379.XA patent/CN109147763B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
刘加 等: "低资源语音识别若干关键技术研究进展", 《数据采集与处理》 * |
张仰森 等: "语言模型复杂度度量与汉语熵的估算", 《小型微型计算机系统》 * |
张顺 等: "深度卷积神经网络的发展及其在计算机视觉领域的应用", 《计算机学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462732B (zh) * | 2019-01-21 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
CN111462732A (zh) * | 2019-01-21 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN111640424B (zh) * | 2019-03-01 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN110619035B (zh) * | 2019-08-01 | 2023-07-25 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN111028833A (zh) * | 2019-12-16 | 2020-04-17 | 广州小鹏汽车科技有限公司 | 一种交互、车辆的交互方法、装置 |
CN111312217A (zh) * | 2020-02-28 | 2020-06-19 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
US11663823B2 (en) | 2020-08-10 | 2023-05-30 | International Business Machines Corporation | Dual-modality relation networks for audio-visual event localization |
CN112820274B (zh) * | 2021-01-08 | 2021-09-28 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
CN112820274A (zh) * | 2021-01-08 | 2021-05-18 | 上海仙剑文化传媒股份有限公司 | 一种语音信息识别校正方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109147763B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147763A (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN103943107B (zh) | 一种基于决策层融合的音视频关键词识别方法 | |
Chibelushi et al. | A review of speech-based bimodal recognition | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN112581979A (zh) | 一种基于语谱图的语音情绪识别方法 | |
CA2961418A1 (en) | Speech synthesis from detected speech articulator movement | |
Liu et al. | Speech emotion recognition based on transfer learning from the FaceNet framework | |
Xia et al. | Audiovisual speech recognition: A review and forecast | |
Abdulsalam et al. | Emotion recognition system based on hybrid techniques | |
CN112233655A (zh) | 一种提高语音命令词识别性能的神经网络训练方法 | |
Fu et al. | Svoice: Enabling voice communication in silence via acoustic sensing on commodity devices | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Wang et al. | Self-supervised acoustic representation learning via acoustic-embedding memory unit modified space autoencoder for underwater target recognition | |
CN113239903A (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Riad et al. | Signsworld; deeping into the silence world and hearing its signs (state of the art) | |
US20230290371A1 (en) | System and method for automatically generating a sign language video with an input speech using a machine learning model | |
Saudi et al. | Improved features and dynamic stream weight adaption for robust Audio-Visual Speech Recognition framework | |
Kakumanu et al. | Speech driven facial animation | |
Wang et al. | HearASL: your smartphone can hear American Sign Language | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Paleček | Experimenting with lipreading for large vocabulary continuous speech recognition | |
Yu | Computer-aided english pronunciation accuracy detection based on lip action recognition algorithm | |
CN114879845A (zh) | 一种基于眼动仪的图片标签语音标注方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |