CN103943107A

CN103943107A - 一种基于决策层融合的音视频关键词识别方法

Info

Publication number: CN103943107A
Application number: CN201410133414.1A
Authority: CN
Inventors: 刘宏; 范婷; 吴平平
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2014-04-03
Filing date: 2014-04-03
Publication date: 2014-07-23
Anticipated expiration: 2034-04-03
Also published as: CN103943107B

Abstract

本发明涉及一种基于决策层融合的音视频关键词识别方法，其主要包括以下步骤：1）录制关键词音视频，得到关键词和非关键词的语音声学特征向量序列和视觉特征向量序列，并据此训练关键词和非关键词的声学模板和视觉模板；2）根据不同声学噪声环境下的音视频，得到声学似然度和视觉似然度，并据此得到声学模态可靠度、视觉模态可靠度和最优权重，并据此训练人工神经网络；3）根据声学模板和视觉模板、人工神经网络，对待测音视频进行并行的基于声学和视觉双模态的二次关键词识别。本发明将声学作用和视觉作用在决策层进行融合，对待测音视频进行并行的基于双模态的二次关键词识别，充分利用声学噪声环境下视觉信息的贡献，提高识别性能。

Description

一种基于决策层融合的音视频关键词识别方法

技术领域

本发明属于信息技术领域，涉及一种应用在人机交互领域的音视频处理技术，尤其涉及一种基于决策层融合的音视频关键词识别方法。

背景技术

作为连续语音识别的一个重要分支,关键词识别技术目的在于检测出连续无限制语音流中预先设定的关键词。由于不需要对完整的语音流进行解码，关键词识别相比于连续语音识别更加灵活，十分适用于某些特定的应用领域，如国防监听，人机交互，音频文档检索等。为了提高语音识别系统在噪声环境下的鲁棒性，近年来，音视频语音识别技术将声学和视觉信息融合来对语音进行识别，成为热门研究方向。基本上，音视频关键词识别技术的研究主要集中在三个方面：视觉特征的选取、关键词识别方法以及音视频信息的融合策略。

目前用于音视频语音识别的视觉特征主要有三种：表观特征，形状特征以及混合特征。基于表观特征的方法提取整个感兴趣的图像区域或者经过处理后的变换域图像的像素特征，不会丢失有用的视觉信息，而且不需要复杂的嘴唇轮廓跟踪算法，实现起来比较简单，因此广泛应用于音视频语音识别中。但是目前大多数表观特征提取方法主要从全局角度考虑嘴部区域的特征，忽略了描述时域和空域局部变化的局部信息，而这些局部信息是至关重要的。

现有的关键词识别方法有三大类：基于垃圾模型的方法，基于词格的方法以及基于大词汇量连续语音识别的方法。基于音视频融合的关键词识别系统大多应用于面对面人机交互的场景，对实时性要求比较高，而且需要对视觉特征和声学特征在特征层进行融合或者为视觉部分单独训练一个识别器，因此基于垃圾模型的关键词识别方法更加适用。

音视频的融合策略主要指的是声学信号的作用和视觉的作用在哪个层次进行融合和以什么方式融合，这会直接影响音视频融合后的识别性能。目前普遍采用的音视频的融合层次主要有两种：特征层融合以及决策层融合。特征层融合直接将声学特征和视觉特征以帧为单位拼接形成一个组合特征矢量，然后再输入一个分类器进行识别。这种融合层次无法解决不同声学信噪比环境下的视觉和声学的贡献分配问题。决策层融合将声学信号和视觉信号分开进行处理，因此噪声环境下，决策层融合更容易生成用于结合声学模态和视觉模态贡献的自适应权重，以获得最优的结合效果。

综上所述，目前基于音视频融合的关键词识别技术主要采用表观特征作为视觉特征，而现有的表观特征提取方法主要从全局角度考虑嘴部区域的特征，忽略了描述时域和空域局部变化的局部信息，而这些局部信息是至关重要的。此外，音视频的融合策略采用特征层融合，这种方法需要更多的训练数据来充分训练一个分类器，而且无法解决不同声学信噪比环境下的视觉和声学的贡献分配问题，影响了识别性能。

发明内容

本发明考虑发音过程中嘴部区域的局部变化信息，提出了一种有效的描述时域和空域局部变化的视觉表观特征参数。本发明考虑音视频融合关键词识别中，不同声学信噪比环境下视觉和声学信息的作用不同，提出了一种基于决策层的自适应加权融合方法。在不同噪声环境下，采用自适应权重有效地结合视觉信息和声学信息的作用，提高识别性能。其中，自适应权重通过人工神经网络生成。本发明考虑基于决策层的融合方式中，传统的先声学后视觉的级联识别结果受到声学噪声的严重影响，提出了一种并行的基于双模态的两阶段关键词识别方法，将音视频识别结果在决策层融合，充分利用声学噪声环境下视觉信息的贡献，从而提高识别性能。

一种基于决策层融合的音视频关键词识别方法，包括如下步骤:

1）录制关键词音视频，标注出所述词音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列训练得到所述关键词和所述非关键词的声学模板和视觉模板；

2）根据不同声学噪声环境下的音视频，得到声学似然度和视觉似然度；根据所述声学似然度和所述视觉似然度得到声学模态可靠度、视觉模态可靠度；根据所述声学模态可靠度和所述视觉模态可靠度得到最优权重；根据所述声学模态可靠度、所述视觉模态可靠度和所述最优权重训练人工神经网络；

3）根据步骤1）所述声学模板和所述视觉模板、步骤2）所述人工神经网络，对待测音视频进行并行的基于声学和视觉双模态的二次关键词识别。

更进一步地，步骤1)包含如下步骤：

1-1）根据包含关键词的抄本同步录制音视频，得到多个完整的语音段和视频段；

1-2）标注出步骤1-1）中所述语音段中关键词和非关键词语音的起止时间点；

1-3）根据步骤1-2）中所述关键词语音的起止时间点，分帧、加窗后提取所述关键词的语音声学特征向量序列和视觉特征向量序列；根据步骤1-2）中所述非关键词语音的起止时间点，分帧、加窗后提取所述非关键词的语音声学特征向量序列和视觉特征向量序列；

1-4）根据步骤1-3）中所述关键词语音的声学特征向量序列和视觉特征向量序列，采用Baum-welch算法训练所述关键词的声学模板和视觉模板；根据步骤1-3）中所述非关键词语音的声学特征向量序列和视觉特征向量序列，采用Baum-welch算法训练所述非关键词的声学模板和视觉模板。

更进一步地，步骤2）包含如下步骤：

2-1）根据已标注关键词的不同噪声环境下的音视频段，提取所述音视频段的声学特征向量序列和视觉特征向量序列；

2-2）将步骤2-1）中所述声学特征向量序列与步骤1-4）中所有关键词的声学模板进行匹配，得到声学似然度；将步骤2-1）中所述视觉特征向量序列与步骤1-4）中所有关键词的视觉模板进行匹配，得到视觉似然度；

2-3）根据步骤2-2）中所述声学似然度和所述视觉似然度，得到声学模态可靠度和视觉模态可靠度；

2-4）根据步骤2-3）中所述声学模态可靠度和所述视觉模态可靠度得到最优权重；

2-5）根据步骤2-3）中所述声学模态可靠度和所述视觉模态可靠度以及步骤2-4）中所述最优权重，训练人工神经网络；

更进一步地，步骤3）包括如下步骤：

3-1）对待测音视频段进行音视频特征提取，得到所述待测音视频段的声学特征向量序列和视觉特征向量序列；

3-2）根据所述待测音视频的语音段，得到声学关键词候选和声学似然度，根据所述声学关键词候选对应的视频段与步骤1-4）中相应视觉关键词模板进行匹配，得到视觉似然度；根据步骤3-1）中所述待测音视频的视频段，得到视觉关键词候选和视觉似然度，根据所述视觉关键词候选对应的语音段与步骤1-4）中相应声学关键词模板进行匹配，得到声学似然度；

3-3）根据步骤3-2）中所述声学关键词候选，计算出声学模态可靠度和视觉模态可靠度，根据步骤2）中所述的人工神经网络计算出最优权重；采用步骤3-2）中所述视觉关键词候选，计算出声学模态可靠度和视觉模态可靠度，采用步骤2）中所述的人工神经网络计算出最优权重；

3-4）根据步骤3-2）中所述声学关键词候选的声学似然度和视觉似然度、步骤3-3）中所述的最优权重，得到声学关键词候选的融合似然度；根据步骤3-2）中所述视觉关键词候选的视觉似然度和声学似然度、步骤3-3）所述的最优权重，得到视觉关键词候选的融合似然度；

3-5）对步骤3-2）中的所述声学关键词候选和视觉关键词候选进行拒识，得到拒识后的识别结果；

3-6）对步骤3-5)中的所述拒识后的识别结果进行重叠关键词的选择，完成识别。

更进一步，根据不同任务定义关键词表，设计包含关键词的录制抄本。

更进一步，步骤1-3）中所述对加窗、分帧方式中，分帧函数为：

x_k(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1

其中N为帧长，L为帧数，w(n)为窗函数，所述w(n)为汉明窗：

更进一步，所述声学特征选择梅尔频率倒谱系数MFCC表征。

更进一步，所述视觉特征采用改进的三正交平面局部二进制模式（ILBP-TOP）表征，用于描述嘴部区域在时域和空域上的局部变化。

对图像中的一个K×K的窗口，以窗口内像素的平均灰度值为阈值，将相邻像素的灰度值与其进行比较，若周围像素值大于该阈值，则该像素点的位置被标记为1，否则为0。这样，领域内的P+1个点可产生（P+1）-bit的无符号数，即得到该窗口的ILBP值，并用这个值来反映该区域的纹理信息。

{ILBP}_{P, R} = Σ_{p = 0}^{P} S (g_{p} - \overset{&OverBar;}{g}) 2^{p}

S (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix}

其中，P为邻域的像素个数，R为半径，g_p代表领域的像素值，代表窗口内像素的平均灰度值。

\overset{&OverBar;}{g} = \frac{1}{p + 1} (Σ_{p = 0}^{P - 1} g_{p} + g_{c})

其中，g_c为窗口内中心像素的灰度值。

从三个正交平面提取时域的ILBP特征，将其扩展到时空域，形成ILBP-TOP。将每个平面块中的ILBP-TOP直方图拼接形成一个大直方图，作为视觉特征序列。

ILBP-TOP直方图定义如下：

H_{m, n, l, j, i} = \underset{x, y, t}{Σ} T {{ILBP}_{P, R}^{j} (x, y, t) = i} i = 0, . . ., w_{j} - 1; j = 0,1,2

T (A) = \{\begin{matrix} 1, & ifAistrue \\ 0, & ifAisfalse \end{matrix}

其中，w_j是第j个平面中的灰度等级个数。

代表第j个平面中的中心像素(x,y,t)的ILBP码。

m为行索引，n为列索引，l为发音长度。

对ILBP-TOP直方图进行归一化，如下：

H_{m, n, l, j, i} = \frac{H_{m, n, l, j, i}}{Σ_{k = 0}^{2 P - 1} H_{m, n, l, j, i}}

更进一步，步骤1-4）中所述声学模板是隐马尔科夫HMM模板；步骤1-4）中所述视觉模板是隐马尔科夫HMM模板。

更进一步，步骤2)中所述不同声学噪声环境为信噪比不同的白噪声。

更进一步，步骤2-2）中所述声学特征向量序列和视觉特征向量序列对于对应的声学模板和视觉模板的似然度的计算公式为：

P (O | λ_{i}) = Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{t} (i) a_{ij} b_{ij} (o_{t + 1}) β_{t + 1} (j), 1 \leq t \leq T - 1

其中，O为特征向量序列，λ_i为第i个关键词对应的隐马尔科夫HMM模板，N为状态数，α_t(i)表示输出部分序列o₁,o₂,…,o_t并且达到状态S_i的概率，即前向概率，a_ij表示从状态S_i到状态S_j的转移概率，b_ij(o_t+1)表示从状态S_i到状态S_j发生转移时输出o_t+1的概率，β_t+1(j)为从状态S_j开始到状态S_N结束输出部分符号序列o_t+1,o_t+2,…,o_T的概率，即后向概率。

更进一步，步骤2-3）中所述声学模态可靠度和所述视觉模态可靠度为每个输出似然度和最大似然度之差的平均值，其计算公式为：

D = \frac{1}{N - 1} Σ_{i = 1}^{N} (\max_{j} L_{j} - L_{i})

其中，N为关键词模板的个数，为声学特征向量序列或视觉特征向量序列与所有的声学关键词模板或视觉关键词模板匹配所得的最大似然度，L_i为声学或视觉特征向量序列与第i个声学或视觉关键词模板匹配的似然度。

更进一步，步骤2-5）中所述最优权重为使得声学似然度和视觉似然度加权融合后的识别结果正确且最优的权重值。

更进一步，步骤2-4）中所述最优权重的线性加权公式为：

\log P (O_{AV} | λ_{i}) = λ \log P (O_{A} | λ_{i}^{A}) + (1 - γ) \log P (O_{V} | λ_{i}^{V})

其中，logP(O_AV|λ_i)为融合后的关键词对数似然度，γ为最优权重，log为声学对数似然度，log为视觉对数似然度。

更进一步，步骤3）中的关键词识别方法采用基于垃圾模板的方法，该方法包括关键词搜索和关键词确认（拒识）两个阶段。由关键词模型和垃圾模型构成搜索网络，识别结果为一系列关键词和非关键词（垃圾）序列。关键词搜索阶段尽可能多地检测出候选关键词，关键词确认阶段则对上阶段检测出的候选关键词进行置信度评估，拒识掉误检出来的错误关键词。

更进一步，步骤3-5)中所述拒识方法是基于对数似然差的方法，具体判断方法为：

当logP(O_AV|λ_i,Filler)大于某个阈值T时，则将候选确认为关键词；

当logP(O_AV|λ_i,Filler)小于某个阈值T时，则确定该候选为虚警。

logP(O_AV|λ_i,Filler)=logP(O_AV|λ_i)-logP(O_AV|Filler)

其中，logP(O_AV|λ_i,Filler)为对数似然差，logP(O_AV|λ_i)为融合后的关键词对数似然度，logP(O_AV|Filler)为融合后的垃圾模板对数似然度。

更进一步，步骤3-6）中所述对拒识后的识别结果进行重叠关键词的选择方法如下：首先判定关键词在时间上是否重叠，若重叠，则选择融合似然度较大的作为识别结果。

更进一步，上述重叠判定准则为：当某个模态检测出的关键词的中点落在另一个模态的关键词起止时间中间，则出现了关键词重叠。

本发明的具有下列有益技术效果：

本发明通过结合人类发音过程中的声学信息和视觉信息，将声学作用和视觉作用在决策层进行融合，对待测音视频进行并行的基于双模态的二次关键词识别。考虑发音过程中嘴部区域的局部变化信息，提出了一种视觉表观特征参数，可以有效地描述时域和空域局部变化。决策层融合将声学信号和视觉信号分开进行处理，可以解决不同声学信噪比环境下的视觉和声学的贡献分配问题。并行的基于双模态的二次关键词识别方法，充分利用声学噪声环境下视觉信息的贡献，提高识别性能和识别准确度。

附图说明

图1是本发明的识别方法流程示意图。

图2是本发明采用的视觉特征ILBP-TOP的构造过程示意图。

图3基于垃圾模型的关键词识别方法的搜索网络。

图4是用于生成最优权重的人工神经网络。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先定义关键词表，本发明实施例中的任务面向人机交互，因此定义了30个人机交互中常用的关键词，构成关键词表。根据定义的关键词表设计包含关键词的抄本，每个关键词设计5句抄本，共150句抄本。

根据设定的包含关键词的抄本同步录制音视频，每段抄本有20位录制者，音频的采样频率为11025HZ，位数为16bit，视频图像采集的速度为20帧/秒，分辨率为640×480。对录制得到的语音信号预滤波，高通滤波抑制50HZ电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分。模数转换后存入关键词语音库中，得到多个完整的语音段。将录制得到的视频信号转化为数字信号存入关键词视频库中，得到多个完整的视频段。

对语音库中的语音段人工打标签，标注出语音段中关键词和非关键词语音的起止时间点。由于音视频是同步录制的，标注出音频中的关键词和非关键词起止时间点，相当于标注出视频中的关键词和非关键词起止时间点。

模板训练和识别阶段提取声学特征向量的具体过程描述为：对语音段分帧加窗，帧长为256采样点，帧移为128采样点，窗函数选取汉明窗。然后提取常用的39维MFCC特征（《语音信号处理》第2版，赵力编著，机械工业出版社，51-53页）。

对图像中的一个3×3的窗口，以窗口内像素的平均灰度值为阈值，将相邻像素的灰度值与其进行比较，若周围像素值大于该阈值，则该像素点的位置被标记为1，否则为0。这样，领域内的9个点可产生9-bit的无符号数，即得到该窗口的ILBP值，并用这个值来反映该区域的纹理信息。

{ILBP}_{P, R} = Σ_{p = 0}^{P} S (g_{p} - \overset{&OverBar;}{g}) 2^{p}

S (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix}

其中，P为邻域的像素个数，R为半径，g_p代表领域的像素值，代表窗口内像素的平均灰度值。在该实施例中，P=8，R=1。

\overset{&OverBar;}{g} = \frac{1}{p + 1} (Σ_{p = 0}^{P - 1} g_{p} + g_{c})

其中，g_c为窗口内中心像素的灰度值。

从三个正交平面提取时域的ILBP特征，将其扩展到时空域，形成ILBP-TOP。将每个平面块中的ILBP-TOP直方图拼接形成一个大直方图，作为视觉特征序列。ILBP-TOP的提取过程如图2所示。

ILBP-TOP直方图定义如下：

H_{m, n, l, j, i} = \underset{x, y, t}{Σ} T {{ILBP}_{P, R}^{j} (x, y, t) = i} i = 0, . . ., w_{j} - 1; j = 0,1,2

T (A) = \{\begin{matrix} 1, & ifAistrue \\ 0, & ifAisfalse \end{matrix}

其中，w_j是第j个平面中的灰度等级个数。

(x,y,t)代表第j个平面中的中心像素(x,y,t)的ILBP码。

m为行索引，n为列索引，l为发音长度。

对ILBP-TOP直方图进行归一化，如下：

H_{m, n, l, j, i} = \frac{H_{m, n, l, j, i}}{Σ_{k = 0}^{2 P - 1} H_{m, n, l, j, i}}

本发明的模板训练方法如下：根据打标签时标注好的关键词和非关键词语音的起止时间点，分别提取出关键词语音和非关键词语音，分帧加窗后提取出39维MFCC声学特征向量序列，采用Baum-welch算法（《语音信号处理》第2版，赵力编著，机械工业出版社，106-107页）分别训练关键词的声学隐马尔科夫HMM模板和非关键词的声学隐马尔科夫HMM模板，储存入声学模板库。同样，对录制好的视频，根据关键词和非关键词视频的起止时间点，提取ILBP-TOP视觉特征向量序列后，采用Baum-welch算法（《语音信号处理》第2版，赵力编著，机械工业出版社，106-107页）分别训练关键词的视觉隐马尔科夫HMM模板和非关键词的视觉隐马尔科夫HMM模板，储存入视觉模板库。

本发明的人工神经网络训练过程如下：

1、对关键词语音库中的语音，分别按不同信噪比添加不同噪声，本实施例中按信噪比为20dB，15dB，10dB，5dB，0dB添加白噪声，生成带噪语音。同样，可以对视频添加噪声，本实施例中未添加视觉噪声。

2、对添加声学噪声后的标注为关键词的音视频段，分别进行MFCC声学特征提取和ILBP-TOP视觉特征提取后得到声学特征向量序列和视觉特征向量序列。

3、将MFCC特征向量序列与模板库中所有关键词的声学隐马尔科夫HMM模板进行匹配，将ILBP-TOP视觉特征向量序列与模板库中所有关键词的视觉隐马尔科夫HMM模板进行匹配，得到一系列声学似然度和视觉似然度。所述特征向量序列对于隐马尔科夫HMM的似然度（《语音信号处理》第2版，赵力编著，机械工业出版社，103-105页）为：

P (O | λ_{i}) = Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{t} (i) a_{ij} b_{ij} (o_{t + 1}) β_{t + 1} (j), 1 \leq t \leq T - 1

4、根据所述声学似然度和视觉似然度，计算声学模态可靠度和视觉模态可靠度。所述模态可靠度D为每个输出似然度和最大似然度之差的平均值。

D = \frac{1}{N - 1} Σ_{i = 1}^{N} (\max_{j} L_{j} - L_{i})

其中，N为关键词模板的个数，本实施例中为30，为声学或视觉特征向量序列与所有的声学或视觉关键词模板匹配所得的最大似然度，L_i为声学或视觉特征向量序列与第i个声学或视觉关键词模板匹配的似然度。

5、根据所述声学和视觉模态可靠度，计算最优权重。以0.01为步进，将权重从0变化到1，选择出能够使得音视频似然度加权后的结果正确的最优权重。加权公式如下：

\log P (O_{AV} | λ_{i}) = λ \log P (O_{A} | λ_{i}^{A}) + (1 - γ) \log P (O_{V} | λ_{i}^{V})

6、将声学模态可靠度，视觉模态可靠度，以及相应的最优权重作为输入，训练人工神经网络。

本发明的并行基于双模态的二次关键词识别方法过程如图1所示：

1、对待测音视频段，分别进行MFCC声学特征提取以及ILBP-TOP视觉特征提取后得到声学特征向量序列和视觉特征向量序列。

2、对所述待测语音段进行声学关键词搜索，得到声学关键词候选和声学似然度，对所述声学关键词候选对应的视频段，提取ILBP-TOP视觉特征，与相应视觉关键词隐马尔科夫HMM模板进行匹配，得到视觉似然度；同样，对所述待测视频段进行视觉关键词搜索，得到视觉关键词候选和视觉似然度。对所述视觉关键词候选对应的语音段，提取声学特征，与相应声学关键词隐马尔科夫HMM模板进行匹配，得到声学似然度。

3、对所述声学关键词候选计算出声学模态可靠度和视觉模态可靠度，所述模态可靠度D为每个输出似然度和最大似然度之差的平均值。

D = \frac{1}{N - 1} Σ_{i = 1}^{N} (\max_{j} L_{j} - L_{i})

其中，N为关键词模板的个数，本实施例中为30。将声学关键词候选的声学模态可靠度和视觉模态可靠度输入训练好的的人工神经网络，得到声学关键词候选的最优权重，如图4所示；同样，对所述视觉关键词候选计算出声学模态可靠度和视觉模态可靠度，采用训练的人工神经网络计算出视觉关键词候选的最优权重。

4、将所述声学关键词候选的声学似然度和视觉似然度，根据相应的最优权重线性加权，得到声学关键词候选的融合似然度；将所述视觉关键词候选的视觉似然度和声学似然度，根据相应的最优权重线性加权，得到视觉关键词候选的融合似然度。加权公式如下：

\log P (O_{AV} | λ_{i}) = λ \log P (O_{A} | λ_{i}^{A}) + (1 - γ) \log P (O_{V} | λ_{i}^{V})

5、对所述声学关键词候选和视觉关键词候选进行拒识，得到拒识后的识别结果。

所述拒识方法为基于对数似然差的方法：

本实施例中，阈值T选择-2431.6。

logP(O_AV|λ_i,Filler)=logP(O_AV|λ_i)-logP(O_AV|Filler)

6、对拒识后的识别结果进行重叠关键词的选择，完成识别。首先判定关键词在时间上是否重叠，若重叠，则选择融合似然度较大的作为识别结果。所述重叠判定准则为：当某个模态检测出的关键词的中点落在另一个模态的关键词起止时间中间，则出现了关键词重叠。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种基于决策层融合的音视频关键词识别方法，包括如下步骤:

1）录制关键词音视频，标注出所述词音视频中关键词和非关键词语音的起止时间点，根据所述关键词和非关键词语音的起止时间点提取所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列，根据所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列训练所述关键词和所述非关键词的声学模板和视觉模板；

2.如权利要求1所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤1)包含如下步骤：

1-3）根据步骤1-2）中所述关键词和非关键词语音的起止时间点，分帧、加窗后提取所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列；

1-4）根据步骤1-3）中所述关键词和所述非关键词的语音声学特征向量序列和视觉特征向量序列，训练所述关键词和所述非关键词的声学模板和视觉模板。

3.如权利要求2所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤2）包含如下步骤：

2-5）根据步骤2-3）中所述声学模态可靠度和所述视觉模态可靠度以及步骤2-4）中所述最优权重，训练人工神经网络。

4.如权利要求3所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤3）包括如下步骤：

3-3）根据步骤3-2）中所述声学关键词候选，计算出声学模态可靠度和视觉模态可靠度，采用步骤2）中所述的人工神经网络计算出最优权重；根据步骤3-2）中所述视觉关键词候选，计算出声学模态可靠度和视觉模态可靠度，采用步骤2）中所述的人工神经网络计算出最优权重；

5.如权利要求2所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤1-4）中所述声学模板是隐马尔科夫HMM模板；步骤1-4）中所述视觉模板是隐马尔科夫HMM模板。

6.如权利要求3所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤2-2）中所述声学特征向量序列和视觉特征向量序列对于对应的声学模板和视觉模板的似然度的计算公式为：

P (O | λ_{i}) = Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{t} (i) a_{ij} b_{ij} (o_{t + 1}) β_{t + 1} (j), 1 \leq t \leq T - 1

其中，O为特征向量序列，λ_i为第i个关键词对应的隐马尔科夫HMM模板，N为状态数，α_t(i)表示输出部分序列o₁,o₂,…,o_t并且达到状态S_i的概率，a_ij表示从状态S_i到状态S_j的转移概率，b_ij(o_t+1)表示从状态S_i到状态S_j发生转移时输出o_t+1的概率，β_t+1(j)为从状态S_j开始到状态S_N结束输出部分符号序列o_t+1,o_t+2,…,o_T的概率。

7.如权利要求3所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤2-3）中所述声学模态可靠度和所述视觉模态可靠度的计算公式为：

D = \frac{1}{N - 1} Σ_{i = 1}^{N} (\max_{j} L_{j} - L_{i})

8.如权利要求3所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤2-4）中所述最优权重的线性加权公式为：

\log P (O_{AV} | λ_{i}) = λ \log P (O_{A} | λ_{i}^{A}) + (1 - γ) \log P (O_{V} | λ_{i}^{V})

9.如权利要求1所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤3）中的所述二次关键词识别方法采用包括关键词搜索和关键词确认两个阶段的基于垃圾模板的方法。

10.如权利要求4所述的基于决策层融合的音视频关键词识别方法，其特征在于，步骤3-5)中所述拒识方法是基于对数似然差的方法，判断方法为：

当logP(O_AV|λ_i,Filler)小于某个阈值T时，则确定该候选为虚警；

logP(O_AV|λ_i,Filler)＝logP(O_AV|λ_i)-logP(O_AV|Filler)