CN103021409A

CN103021409A - 一种语音启动拍照系统

Info

Publication number: CN103021409A
Application number: CN2012104552153A
Authority: CN
Inventors: 朱国正; 马冰; 舒银东; 潘志兵; 周健; 张凯; 王海坤
Original assignee: iFlytek Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2013-04-03
Anticipated expiration: 2032-11-13
Also published as: CN103021409B

Abstract

一种语音启动拍照系统，包括：操作系统模块（10）、唤醒词定制模块（11）、拍照模块（12）、音频模块（13）和存储模块（14）；其中：操作系统模块（10）中运行语音唤醒模块；所述语音唤醒模块包括语音输入（1）、语音唤醒算法（2）和唤醒执行（3）；语音唤醒算法（2）获取语音输入（1）的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行（3），从而完成唤醒操作；所述语音唤醒算法（2）通过声学特征提取（4）、唤醒词检测（5）、唤醒词确认（6）、构建唤醒词检测网络（7）、训练声学模型（8）和构建唤醒词确认网络（9）来实现。本发明可以根据用户需求进命令词定制，人机交换更人性化启动的准确度更高，抗干扰性更强。

Description

一种语音启动拍照系统

技术领域

本发明涉及一种语音启动拍照系统，可以用于含有拍照功能的消费类电子产品领域。

背景技术

随着消费类电子产品快速的发展，各种包含拍照功能的设备使用越来越频繁，人们对拍照的人性化要求越越来越高，语音作为人类最基本的方式，将语音识别技术应用到消费类电子产品中，实现通过自然语音来控制此类产品功能是未来发展的趋势。

发明内容

本发明技术解决问题：提供一种语音启动拍照系统，克服了现有按钮式、触控式启动方式带来的不便利，操作方式受限和拍照抖动等不足，具有操作简单更人性化，启动拍照不受限，防抖动等优点。现有的一些语音启动技术，是利用特点语音如口哨，误启动率搞，输入语音命令单一等缺陷，本发明可以根据用户需求进命令词定制，人机交换更人性化启动的准确度更高，抗干扰性更强。

本发明是通过以下技术方案实现的：一种语音启动拍照系统，包括：操作系统模块10、唤醒词定制模块11、拍照模块12、音频模块13和存储模块14；其中：

操作系统模块10中运行语音唤醒模块；所述语音唤醒模块包括语音输入1、语音唤醒算法2和唤醒执行3；语音唤醒算法2获取语音输入1的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行3，从而完成唤醒操作；所述语音唤醒算法2通过声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9来实现，具体实现过程如下：

第一步，声学特征提取4：通过语音输入1获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCC（Mel-FrequencyCepstrum Coefficient，美尔频率倒谱系数）特征作为声学特征；

第二步，唤醒词检测5：将提取得到的声学特征，采用训练的声学模型8在唤醒词检测网络7上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征4；

第三步，唤醒词确认6：将提取得到的声学特征，采用训练的声学模型8在唤醒词确认网络9上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行3，从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取4；

唤醒词定制模块11，语音唤醒模块的资源生成模块接收用户输入的唤醒词，输出操作系统模块10中语音唤醒模块所需的声学模型8和唤醒词检测网络7；

拍照模块12，具有拍照功能的系统模块，接收操作系统模块10的拍照指令，并在拍照后将图像的数字信号发送到存储模块14；

音频模块13，具有录音采集和音频播报功能，录音功能主要是采集环境中音频数据，并传送到操作系统模块10，播音功能主要是接收系统模块10发出提示反馈后，播报提示音功能；

存储模块14，具有永久存储能力的存储介质，对拍照模块生成的数字图像信息进行存储。

所述声学模型8的训练分为两部分，分别为音素声学模型和废料模型（即Garbage模型）；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE（Maximum Likelihood Estimation，最大似然估计）和MPE（Minimum Phone Error，最小音素错误）区分性训练准则下得到；Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage模型。

所述唤醒词检测网络7的实现采用最优得分路径计算得出，所述最优得分路径的计算公式是：

W = \underset{W}{\arg \max} P (W) P (X | W)

其中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(X|W)为声学模型得分，通过训练好的声学模型8计算得到；先验概率P(W）为语言模型得分，即为对不同的声学模型所加的PenaltyP(X）为全概率，当声学模型和唤醒词检测网络确定下来后即是定值。

所述唤醒词确认网络9实现是：

a．将检出的唤醒词解码到音素一级，并记录所有的得分（Score_phone1,Score_phone2,…,Score_phoneN），其中N为唤醒词中总的音素个数，Score_phone1,Score_phone2,…,Score_phoneN分别表示该唤醒词中所有音素的是解码得分，其中下标表示音素的N个音素的标识；

b．使用和唤醒词检测同样的特征，得到相应的声学得分，并精确到帧一级（Score_frame1,Score_frame2，…,Score_frameM），其中M为该句特征总的时长，以帧为单位；

c.计算得到唤醒词每个音素的确认得分，计算方式如下：

C M_{phonei} = ({Score}_{phonei} - Σ_{k = K_{istart}}^{K_{iend}} {Score}_{framek}) / (K_{iend} - K_{istart})

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间；

CM_phonei表示第i个音素的确认得分，下标phonei表示第i个音素，Score_phonei如上面所示第i个phone的解码得分，Score_framek表示使用唤醒词确认网络解码得到的第k帧的得分；

d.计算得到该唤醒词的最终确认得分，计算方式如下所示：

C M_{word} = \frac{1}{N} Σ_{i = 1}^{N} C M_{phonei}

所述操作系统模块中的语音唤醒模块能够被移植到被移植到Windows、Linux、Android、IOS系统平台。

本发明与现有技术相比的优点在于：

（1）本发明通过用户特定的语音唤醒词作为触发源，即使是在嘈杂的环境下，也无需用户利用双手操作，仅通过语音命令快速实现唤醒功能，进行下一步交互操作。

（2）本发明带来的价值是，使用本系统后可通过说约定的语音唤醒词开启语音唤醒功能，无需事先暂停音频播放，同时通过实际测试验证，正确识别唤醒率可以达到90%以上。

（3）本发明实现，成本低，代码移植方便，具有很好的推广应用价值。

（4）本发明中的语音唤醒功能均通过软件算法实现，并且算法可以很方便的被移植到Windows、Linux、Android、IOS等系统平台。

附图说明

图1为本发明的结构示意图；

图2为本发明中的语音唤醒模块实现框图；

图3为本发明的构建唤醒词检测网络示意图；

图4为本发明的构建唤醒词确认网络示意图。

具体实施方式

如图1所示，本发明的语音启动拍照系统包括：操作系统模块10、唤醒词定制模块11、拍照模块12、音频模块13和存储模块14、操作系统模块10中运行语音唤醒模块。

如图2所示，语音唤醒模块包括语音输入1、语音唤醒算法2和唤醒执行3。语音唤醒算法2实现主要由声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9完成，具体实现过程是：

（1）训练声学模型8：声学模型的训练分为两部分，分别为音素声学模型和废料模型（即Garbage模型）。音素声学模型采用传统的语音识别中的声学模型训练方法，选取合适的数据库，利用基于MLE（Maximum Likelihood Estimation，最大似然估计）和MPE（Minimum PhoneError，最小音素错误）区分性训练准则下的得到。Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，这样即得到20类Garbage模型。Garbage模型采用了聚类的音素训练数据混合训练，有两种用途，在唤醒词检测网络中用来吸收除唤醒词之外的其他语音，在唤醒词确认网络中用来计算确认网络的得分。

（2）声学特征提取4：通过语音输入1获取语音信号输入，提取可以具有一定区分性的，并且是基于人耳听觉特性提取的特征，一般选取语音识别中用到的MFCC（Mel-FrequencyCepstrum Coefficient，美尔频率倒谱系数）特征。

（3）唤醒词检测5：将提取得到的声学特征，使用声学模型8在唤醒词检测网络7上计算声学得分，如果得分最优的路径中包含要检测的唤醒词，则检出唤醒词，进入下一步操作；否则重新提取声学特征操作。为了保证唤醒词能够被正常的检出，同时无效的语音又能被有效的吸收。唤醒检测网络的构建主要由用户选定的唤醒词和Garbage模型组成，如图3所示，这种网络在语音识别中也称为识别网络，由于唤醒检测网路结构非常简单，可以通过简单的程序或则手工构建都可以。由于实际使用环境的复杂性，在很多情况下，接收到的唤醒语音被噪声污染了，此时唤醒语音对应的声学的特征在音素声学模型上的得分就会降低的很多，而由于Garbage模型是使用较多音素混合训练得到，其本身不是很精确，声学特征在Garbage模型上的得分降低的幅度有限，此时唤醒语音就被Garbage模型误吸收，系统唤醒率就会降低。

为了防止上述情况的发生，在唤醒词检测网络上解码时，对Garbage所在的弧的解码得分做一定的惩罚，即Penalty，使其不能和音素声学模型公平竞争，以保证有被噪声污染的唤醒语音也能被正常检出。具体的惩罚幅度需要针对不同的唤醒词作经验性的调整。

唤醒词检测网络7的实现方法是采用最优得分路径计算得出。

最优得分路径的获取采用经典的贝叶斯公式，如下所示：

上式中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列。条件概率P(X|W）为声学模型得分，可以通过训练好的音素声学模型和废料模型计算得到，先验概率P(W）为语言模型得分，这里可以理解为对不同的声学模型所加的Penalty。P(X）为全概率，当声学模型和唤醒词检测网络确定下来后就是定值，因此公式（1）可写为：

W = \underset{W}{\arg \max} P (W) P (X | W) - - - (2)

（4）唤醒词确认6：由于声学模型的本身存在不精确性以及实际使用环境的复杂性，通过唤醒词检测环节得到的唤醒词不一定是真实的唤醒词。为了能降低非唤醒带来的误唤醒以及后面会导致的问题，需要对检测得到的唤醒词作进一步的确认。本发明采用图4的方式构建唤醒词确认网络9，唤醒词确认网络和唤醒词检测网络一样，都属于语音识别中的识别网络，确认网络中只包含Garbage模型，可以使用简单的程序或手工构建。

唤醒词确认的主要步骤如下：

a）将唤醒词检测得到唤醒词解码到音素一级，并记录其所有的得分（Score_phone1,Score_phone2,…,Score_phoneN），其中N为唤醒词中总的音素个数。

b）使用和唤醒词检测同样的特征，在唤醒词确认网络上得到相应的声学得分，并精确到帧一级（Score_frame1,Score_frame2,…,Score_frameM），其中M为该句特征总的时长，以帧为单位。

c）计算得到唤醒词每个音素的确认得分，计算方式如下：

C M_{phonei} = ({Score}_{phonei} - Σ_{k = K_{istart}}^{K_{iend}} {Score}_{framek}) / (K_{iend} - K_{istart}) - - - (3)

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间。

d）计算得到该唤醒词的最终确认得分，计算方式如下所示：

C M_{word} = \frac{1}{N} Σ_{i = 1}^{N} C M_{phonei} - - - (4)

e）判断该唤醒词是否为真实的唤醒词，对比该唤醒词的最终确认得分和预先设定的门限，如果确认得分CM_word大于门限T则认为该唤醒词为真实的唤醒词，唤醒成功；如果CM_word小于门限T则认为该唤醒词为虚假的唤醒词，重新进行声学特征提取。

通过以上工作实现语音唤醒功能，最终将结果反馈给唤醒执行3，执行唤醒操作。

本发明工作过程如下：

第一、部署唤醒词定制模块11，实现训练声学模型8和构建唤醒词检测网络7，该模型部署到服务器中，用户输入命令词文本，如“茄子茄子”，输出构建唤醒词检测网络7和声学模型8。

第二、通过编程语言实现语音唤醒模块，语音唤醒模块实现主要包含如下逻辑模块（图2），语音信号输入接口、语音信号的声学特征提取4、唤醒词检测5、唤醒词确认6和唤醒执行3命令的输出。集成语音唤醒模块代码到操作系统模块10，开启运行，等待音频模块13传入的录音数据。

第三、进入拍照模块12，开启摄像头，等待操作系统模块10传递过来的启动拍照指令，与此同时，音频模块13开启录音设备，并实时将录音数据输入到操作系统模块10，语音唤醒模块在接收操作系统模块10中的录音数据后开始匹配运算。

第四、当用户需要启动拍照时，说出音频模块13采集到“茄子茄子”的录音数据后，语音唤模块法将发出启动指令，操作系统模块10向拍照模块发出拍照指令，并且向音频模块13发出播报提示音指令，拍照模块12进入倒计时，调整焦点，开始拍照，并将采集到的图像数据存储在存储模块14。

本发明的技术核心是通过软件算法实现，成本低、模块移植方便，适合在各类消费类电子产品上使用，具有很高的推广价值。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音启动拍照系统，其特征在于包括：操作系统模块（10）、唤醒词定制模块（11）、拍照模块（12）、音频模块（13）和存储模块（14）；其中：

操作系统模块（10）中运行语音唤醒模块；所述语音唤醒模块包括语音输入（1）、语音唤醒算法（2）和唤醒执行（3）；语音唤醒算法（2）获取语音输入（1）的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行（3），从而完成唤醒操作；所述语音唤醒算法（2）通过声学特征提取（4）、唤醒词检测（5）、唤醒词确认（6）、构建唤醒词检测网络（7）、训练声学模型（8）和构建唤醒词确认网络（9）来实现，具体实现过程如下：

第一步，声学特征提取（4）：通过语音输入（1）获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCC（Mel-FrequencyCepstrum Coefficient，美尔频率倒谱系数）特征作为声学特征；

第二步，唤醒词检测（5）：将提取得到的声学特征，采用训练的声学模型（8）在唤醒词检测网络（7）上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征（4）；

第三步，唤醒词确认（6）：将提取得到的声学特征，采用训练的声学模型（8）在唤醒词确认网络（9）上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行（3），从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取（4）；

唤醒词定制模块（11），接收用户输入的唤醒词，输出操作系统模块（10）中语音唤醒模块所需的声学模型（8）和唤醒词检测网络（7）；

拍照模块（12），具有拍照功能的系统模块，接收操作系统模块（10）的拍照指令，并在拍照后将图像的数字信号发送到存储模块（14）；

音频模块（13），具有录音采集和音频播报功能，录音功能主要是采集环境中音频数据，并传送到操作系统模块（10），播音功能主要是接收系统模块（10）发出提示反馈后，播报提示音功能；

存储模块（14），具有永久存储能力的存储介质，对拍照模块生成的数字图像信息进行存储。

2.根据权利要求1所述的语音启动拍照系统，其特征在于：所述声学模型（8）的训练分为两部分，分别为音素声学模型和废料模型（即Garbage模型）；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE（Maximum LikelihoodEstimation，最大似然估计）和MPE（Minimum Phone Error，最小音素错误）区分性训练准则下得到；Garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage模型。

3.根据权利要求1所述的语音启动拍照系统，其特征在于：所述唤醒词检测网络（7）的实现采用最优得分路径计算得出，所述最优得分路径的计算公式是：

W = \underset{W}{\arg \max} P (W) P (X | W)

其中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(X|W）为声学模型得分，通过训练好的声学模型（8）计算得到；先验概率P(W）为语言模型得分，即为对不同的声学模型所加的PenaltyP(X）为全概率，当声学模型和唤醒词检测网络确定下来后即是定值。

4.根据权利要求1所述的语音启动拍照系统，其特征在于：所述唤醒词确认网络（9）实现是：

b．使用和唤醒词检测同样的特征，得到相应的声学得分，并精确到帧一级（Score_frame1,Score_frame2,…,Score_frameM），其中M为该句特征总的时长，以帧为单位；

c.计算得到唤醒词每个音素的确认得分，计算方式如下：

C M_{phonei} = ({Score}_{phonei} - Σ_{k = K_{istart}}^{K_{iend}} {Score}_{framek}) / (K_{iend} - K_{istart})

其中K_istart和K_iend分别为第i个音素的起始时间和结束时间；

d.计算得到该唤醒词的最终确认得分，计算方式如下所示：

C M_{word} = \frac{1}{N} Σ_{i = 1}^{N} C M_{phonei}

5.根据权利要求1所述的语音启动拍照系统，其特征在于：所述操作系统模块（10）中的语音唤醒模块能够被移植到被移植到Windows、Linux、Android、IOS系统平台。