CN105096939B

CN105096939B - 语音唤醒方法和装置

Info

Publication number: CN105096939B
Application number: CN201510399209.4A
Authority: CN
Inventors: 唐立亮; 贾磊; 彭守业; 牛建伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2017-07-25
Anticipated expiration: 2035-07-08
Also published as: CN105096939A

Abstract

本发明公开了一种语音唤醒方法和装置，其中，语音唤醒方法包括：S1、获取唤醒词，并根据唤醒词生成符合预设条件的垃圾词，以及根据唤醒词和垃圾词构建识别网络；S2、获取用户输入的语音信息，将语音信息切分为多个语音帧，并提取每个语音帧中的声学特征；S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算，以获得每个声学特征的声学特征得分；S4、根据声学特征得分从识别网络中选取最优识别路径，以及将最优识别路径对应的语音结果作为识别结果；以及S5、根据识别结果计算识别结果对应的置信度，并根据置信度获得唤醒结果并输出。本发明实施例的语音唤醒方法和装置，计算量小，功耗低，能够降低语音唤醒的误报率，提升用户使用体验。

Description

语音唤醒方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音唤醒方法和装置。

背景技术

语音唤醒技术是语音识别技术中重要分支，语音唤醒技术主要应用于车载导航、智能家居等领域，用户可通过语音指令启动程序或者服务，而无需手动操作。

目前，语音唤醒技术主要分为三种：第一种方式为基于置信度的语音唤醒技术，通过计算用户输入的语音信息的置信度，并根据置信度判断是否语音唤醒。第二种方式为基于识别引擎的语音唤醒技术，采用语言模型作为解码网络，对用户输入的语音信息进行解码识别，再根据识别出的识别结果判断是否语音唤醒。第三种方式为基于垃圾词的语音唤醒技术，通过唤醒词和唤醒词对应的垃圾词生成识别网络，基于识别网络对用户输入的语音信息进行识别，再根据识别出的识别结果判断该识别结果是否为唤醒词，如果是则唤醒成功，如果否则无法唤醒。

但是，第一种方式仅通过置信度判断是否语音唤醒，由于环境的不同，置信度的预设阈值也会相应改变，因此预设阈值难以确定，具有局限性；第二种方式计算量大，功耗高，实用性差；第三种方式在噪音环境中很难唤醒成功或者用户说出的是否为唤醒词都会唤醒，误报率高，用户体验差。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明需要提供一种语音唤醒方法，计算量小，功耗低，能够降低语音唤醒的误报率，提升用户使用体验。

此外，本发明还需要提供一种语音唤醒装置。

为解决上述技术问题中的至少一个，根据本发明第一方面实施例提出了一种语音唤醒方法，包括以下步骤：S1、获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；S2、获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；S4、根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及S5、根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出。

本发明实施例的语音唤醒方法，通过唤醒词和符合预设条件的垃圾词构建识别网络，然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算，获得识别结果，并计算出识别结果对应的置信度，最终根据置信度获得唤醒结果并输出，环境鲁棒性好，无需根据环境改变预设阈值，计算量小，功耗低，降低了语音唤醒的误报率，进而提升用户使用体验。

本发明第二方面实施例提供了一种语音唤醒装置，包括：构建模块，用于获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；提取模块，用于获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；计算模块，用于基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；选取模块，用于根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及输出模块，用于根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出。

本发明实施例的语音唤醒装置，通过唤醒词和符合预设条件的垃圾词构建识别网络，然后基于卷积神经网络声学模型对用户输入的语音信息的声学特征进行似然计算，获得识别结果，并计算出识别结果对应的置信度，最终根据置信度获得唤醒结果并输出，环境鲁棒性好，无需根据环境改变预设阈值，计算量小，功耗低，降低了语音唤醒的误报率，进而提升用户使用体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为根据本发明一个实施例的语音唤醒方法的流程图。

图2为根据本发明一个实施例的语音唤醒装置的结构示意图一。

图3为根据本发明一个实施例的语音唤醒装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的语音唤醒方法和装置。

图1为根据本发明一个实施例的语音唤醒方法的流程图。

如图1所示，语音唤醒方法包括以下步骤：

S1、获取唤醒词，并根据唤醒词生成符合预设条件的垃圾词，以及根据唤醒词和垃圾词构建识别网络。

在本发明的实施例中，唤醒词可通过用户预先设置，例如“小度你好”。然后可根据唤醒词生成符合预设条件的垃圾词。具体地，可先获取唤醒词对应的第一状态序列，然后再从垃圾词典中获取与第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词。其中，第一编辑距离小于第二编辑距离。举例来说，假设唤醒词由W1、W2、W3三个汉字组成，W1具有两个音节P11和P12，W2具有两个音节P21和P22，W3具有三个音节P31、P32和P33。而每个音节均可对应三个状态，即P11对应的状态为S111、S112和S113，P12对应的状态为S121、S122和S123，P21对应的状态为S211、S212和S213，P22对应的状态为S221、S222和S223，P31对应的状态为S311、S312和S313，P32对应的状态为S321、S322和S323，P33对应的状态为S331、S332和S333。由此，可获取对应的第一状态序列SList1为S111、S112、S113、S121……S331,S332、S333。然后再获取编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列。其中，编辑距离又称Levenshtein距离，为第一个字符串转换为第二个字符串所需的最少编辑操作次数，用来表示两个字符串之间的距离，可用Levenshtein(SList1，SList2)表示。本实施例中，假设第一编辑距离为A，第二编辑距离为B，则A<Levenshtein(SList1，SList2)<B的第二状态序列，均可作为第二状态序列。其中，A和B为实验数值，如果编辑距离小于A，则两个字符串太过相似，如果编辑距离大于B，则两个字符串完全不相关。而与多个第二状态序列对应的字符串即为垃圾词。

在生成垃圾词后，可从真实语音词典中获取通用垃圾词，然后将唤醒词的第一个字与通用垃圾词生成网络A，最后将生成的垃圾词、唤醒词、通用垃圾词以及网络A四者进行并联，最终生成识别网络。其中，通用垃圾词为针对所有语音聚类生成的垃圾词网络，均为真实用户的语音输入。

S2、获取用户输入的语音信息，将语音信息切分为多个语音帧，并提取每个语音帧中的声学特征。

在本发明的实施例中，可先获取用户输入的语音信息，再将语音信息切分为多个语音帧，例如10ms为一帧，然后提取每个语音帧中的声学特征。其中，声学特征可以是40维的FilterBank特征，也可以是13维的MFCC特征。

S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算，以获得每个声学特征的声学特征得分。

在本发明的实施例中，声学特征得分可通过以下公式计算，Score＝A*D。其中，A为声学特征，是一个向量；D为卷积神经网络声学模型矩阵，一般为7层矩阵，因此，声学特征得分Score也为一个向量，由多个状态的声学特征得分组成。假设声学特征具有1752个状态，则声学特征得分Score对应具有1752维。采用卷积神经网络声学模型对声学特征进行似然计算，相比于混合高斯模型具有更好的抗噪性，在噪声环境下可有效提升识别正确率，且功耗低。

另外，在基于卷积神经网络声学模型对多个声学特征依次进行似然计算时，可采用跳帧技术和强制跳转技术。举例来说，由于语音具有平稳持续的特点，因此可以采用跳帧技术计算声学特征得分。以跳三帧为例，可先计算第一个语音帧的声学特征得分，然后第二个语音帧、第三个语音帧和第四个语音帧采用第一个语音帧的声学特征得分，然后再计算第五个语音帧的声学特征得分，第六个、第七个和第八个语音帧采用第五个语音帧的声学特征得分，以此类推。通过跳帧技术可在保证识别效果的同时，能够减小计算量。强制跳转技术为在对声学特征进行似然计算时，由于每个音节均具有多个状态，在当前状态跳转到下一状态时，可以通过自跳或者下跳两种方式。为了保证对声学特征进行充分地识别，可强制跳转次数，即遍历所有跳转的可能性，能够提高语音唤醒的成功率。

此外，还可以根据当前语音帧的声学特征得分，计算出下一语音帧的裁剪门限。具体地，可获取并计算识别网络中所有活动节点的声学特征得分的第一平均值，然后获取并计算识别网络中M个声学特征得分最大的节点的声学特征得分的第二平均值，最后再根据第一平均值和第二平均值计算裁剪门限。举例来说，识别网络中当前活动节点为N个，即与唤醒词相关的节点为N个，取出其中声学特征得分最大的M个节点。然后可根据公式Thres＝(Score[0]+Score[1]+…+Score[M])/M*K1+(Score[0]+Score[1]+…+Score[N])/N*K2+K3计算出下一语音帧的裁剪门限。其中，Thres为下一语音帧的裁剪门限，(Score[0]+Score[1]+…+Score[N])/N为第一平均值，((Score[0]+Score[1]+…+Score[M])/M为第二平均值，K1、K2、K3为实验系数。

在计算出下一语音帧的裁剪门限之后，可根据裁剪门限裁剪识别网络中与下一语音帧无关的节点，并对下一语音帧对应的声学特征进行似然计算。举例来说，在识别网络中具有多个节点，因此要通过裁剪门限过滤掉与下一语音帧无关的节点。如果节点的声学特征得分小于Thres，则说明该节点与下一语音帧无关，如果节点的声学特征得分大于等于Thres，则说明该节点与下一语音帧相关。通过裁剪掉与下一语音帧无关的节点，可减小计算量，降低功耗。

S4、根据声学特征得分从识别网络中选取最优识别路径，以及将最优识别路径对应的语音结果作为识别结果。

S5、根据识别结果计算识别结果对应的置信度，并根据置信度获得唤醒结果并输出。

具体地，计算识别结果对应的置信度可分为两种方法。

第一种方法为获取并计算识别网络中所有活动节点的声学特征得分的第一平均值，然后获取并计算识别网络中唤醒词对应的Y个节点的声学特征得分的第三平均值，最后根据第一平均值和第三平均值计算置信度。举例来说，可通过公式CM＝K4*ΣScore[Y]/Y–K2*ΣScore[N]/N计算识别结果对应的置信度。其中，CM为置信度，ΣScore[Y]/Y为唤醒词对应的Y个节点的声学特征得分的第三平均值，ΣScore[N]/N为N个识别网络中当前活动节点的第一平均值，K4和K2分别为为实验系数。

第二种方法为基于filler模型计算出置信度。其中，filler模型是所有语音信息的聚类，也就是说filler模型包含所有语音信息的声学特征。具体地，可计算每个语音帧在filler模型中的似然得分，然后用语音帧的声学模型得分减去该语音帧的似然得分获得两者的差值，最后求多个语音帧差值的平均值，该平均值为置信度。

在计算出置信度之后，可根据置信度获得唤醒结果并输出。例如，置信度大于等于一定数值时，则可确定唤醒结果为唤醒成功；置信度小于一定数值时，可确定唤醒结果为未唤醒。

另外，还可采用75％准则确定是否唤醒成功。例如，唤醒词为“小度你好”，当识别结果为“度你好”时，采用75％准则，即可确定唤醒成功。

此外，还可对唤醒词的发音进行扩展，例如唤醒词“你好”的发音为“ni hao”，可将“你好”的发音扩展为“mi hao”、“li hao”等，提高识别正确率。

为实现上述目的，本发明还提出一种语音唤醒装置。

如图2所示，语音唤醒装置包括：构建模块110、提取模块120、计算模块130、选取模块140以及输出模块150。

其中，构建模块110用于获取唤醒词，并根据唤醒词生成符合预设条件的垃圾词，以及根据唤醒词和垃圾词构建识别网络。

在本发明的实施例中，唤醒词可通过用户预先设置，例如“小度你好”。构建模块110可先获取唤醒词，然后根据唤醒词生成符合预设条件的垃圾词。具体地，可先获取唤醒词对应的第一状态序列，然后再从垃圾词典中获取与第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词。其中，第一编辑距离小于第二编辑距离。举例来说，假设唤醒词由W1、W2、W3三个汉字组成，W1具有两个音节P11和P12，W2具有两个音节P21和P22，W3具有三个音节P31、P32和P33。而每个音节均可对应三个状态，即P11对应的状态为S111、S112和S113，P12对应的状态为S121、S122和S123，P21对应的状态为S211、S212和S213，P22对应的状态为S221、S222和S223，P31对应的状态为S311、S312和S313，P32对应的状态为S321、S322和S323，P33对应的状态为S331、S332和S333。由此，可获取对应的第一状态序列SList1为S111、S112、S113、S121……S331,S332、S333。然后再获取编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列。其中，编辑距离又称Levenshtein距离，为第一个字符串转换为第二个字符串所需的最少编辑操作次数，用来表示两个字符串之间的距离，可用Levenshtein(SList1，SList2)表示。本实施例中，假设第一编辑距离为A，第二编辑距离为B，则A<Levenshtein(SList1，SList2)<B的第二状态序列，均可作为第二状态序列。其中，A和B为实验数值，如果编辑距离小于A，则两个字符串太过相似，如果编辑距离大于B，则两个字符串完全不相关。而与多个第二状态序列对应的字符串即为垃圾词。

提取模块120用于获取用户输入的语音信息，将语音信息切分为多个语音帧，并提取每个语音帧中的声学特征。

在本发明的实施例中，提取模块120可先获取用户输入的语音信息，再将语音信息切分为多个语音帧，例如10ms为一帧，然后提取每个语音帧中的声学特征。其中，声学特征可以是40维的FilterBank特征，也可以是13维的MFCC特征。

计算模块130用于基于卷积神经网络声学模型对多个声学特征依次进行似然计算，以获得每个声学特征的声学特征得分。

在本发明的实施例中，计算模块130可基于卷积神经网络声学模型对多个声学特征依次进行似然计算，以获得每个声学特征的声学特征得分。声学特征得分可通过以下公式计算，Score＝A*D。其中，A为声学特征，是一个向量；D为卷积神经网络声学模型矩阵，一般为7层矩阵，因此，声学特征得分Score也为一个向量，由多个状态的声学特征得分组成。假设声学特征具有1752个状态，则声学特征得分Score对应具有1752维。采用卷积神经网络声学模型对声学特征进行似然计算，相比于混合高斯模型具有更好的抗噪性，在噪声环境下可有效提升识别正确率，且功耗低。

选取模块140用于根据声学特征得分从识别网络中选取最优识别路径，以及将最优识别路径对应的语音结果作为识别结果。

输出模块150用于根据识别结果计算识别结果对应的置信度，并根据置信度获得唤醒结果并输出。

具体地，输出模块150计算识别结果对应的置信度可分为两种方法。

在计算出置信度之后，输出模块150可根据置信度获得唤醒结果并输出。例如，置信度大于等于一定数值时，则可确定唤醒结果为唤醒成功；置信度小于一定数值时，可确定唤醒结果为未唤醒。

在本发明的实施例中，如图3所示，语音唤醒装置还可包括裁剪模块160。

裁剪模块160用于在对声学特征进行似然计算之后，计算下一语音帧的裁剪门限，并根据裁剪门限裁剪识别网络中与下一语音帧无关的节点，然后计算模块130对下一语音帧对应的声学特征进行似然计算。

具体地，裁剪模块160可获取并计算识别网络中所有活动节点的声学特征得分的第一平均值，然后获取并计算识别网络中M个声学特征得分最大的节点的声学特征得分的第二平均值，最后再根据第一平均值和第二平均值计算裁剪门限。举例来说，识别网络中当前活动节点为N个，即与唤醒词相关的节点为N个，取出其中声学特征得分最大的M个节点。然后可根据公式Thres＝(Score[0]+Score[1]+…+Score[M])/M*K1+(Score[0]+Score[1]+…+Score[N])/N*K2+K3计算出下一语音帧的裁剪门限。其中，Thres为下一语音帧的裁剪门限，(Score[0]+Score[1]+…+Score[N])/N为第一平均值，((Score[0]+Score[1]+…+Score[M])/M为第二平均值，K1、K2、K3为实验系数。

在计算出下一语音帧的裁剪门限之后，裁剪模块160可根据裁剪门限裁剪识别网络中与下一语音帧无关的节点，然后计算模块130对下一语音帧对应的声学特征进行似然计算。举例来说，在识别网络中具有多个节点，因此要通过裁剪门限过滤掉与下一语音帧无关的节点。如果节点的声学特征得分小于Thres，则说明该节点与下一语音帧无关，如果节点的声学特征得分大于等于Thres，则说明该节点与下一语音帧相关。通过裁剪掉与下一语音帧无关的节点，可减小计算量，降低功耗。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音唤醒方法，其特征在于，包括以下步骤：

S1、获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；

S2、获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；

S3、基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；

S4、根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及

S5、根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出；

在对所述声学特征进行似然计算之后，还包括：

计算下一语音帧的裁剪门限；

根据所述裁剪门限裁剪所述识别网络中与所述下一语音帧无关的节点，并对所述下一语音帧对应的声学特征进行似然计算。

2.如权利要求1所述的方法，其特征在于，所述根据所述唤醒词生成符合预设条件的垃圾词，包括：

获取所述唤醒词对应的第一状态序列；

从垃圾词典中获取与所述第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词，其中，所述第一编辑距离小于所述第二编辑距离。

3.如权利要求1所述的方法，其特征在于，所述根据所述唤醒词和所述垃圾词构建识别网络，包括：从真实语音词典中获取通用垃圾词；

将所述唤醒词的第一个字与通用垃圾词串联生成网络A；以及

将所述网络A、所述垃圾词、所述唤醒词和所述通用垃圾词进行并联，生成所述识别网络。

4.如权利要求1所述的方法，其特征在于，所述计算下一语音帧的裁剪门限，包括：

获取并计算所述识别网络中所有活动节点的声学特征得分的第一平均值；

获取并计算所述识别网络中M个声学特征得分最大的节点的声学特征得分的第二平均值；以及

根据所述第一平均值和所述第二平均值计算所述裁剪门限。

5.如权利要求1所述的方法，其特征在于，所述步骤S5，包括：

获取并计算所述识别网络中所述唤醒词对应的Y个节点的声学特征得分的第三平均值；以及

根据所述第一平均值和所述第三平均值计算所述置信度。

6.如权利要求1所述的方法，其特征在于，所述步骤S5，还包括：

基于filler模型计算出所述置信度。

7.一种语音唤醒装置，其特征在于，包括：

构建模块，用于获取唤醒词，并根据所述唤醒词生成符合预设条件的垃圾词，以及根据所述唤醒词和所述垃圾词构建识别网络；

提取模块，用于获取用户输入的语音信息，将所述语音信息切分为多个语音帧，并提取所述每个语音帧中的声学特征；

计算模块，用于基于卷积神经网络声学模型对所述多个声学特征依次进行似然计算，以获得所述每个声学特征的声学特征得分；

选取模块，用于根据所述声学特征得分从所述识别网络中选取最优识别路径，以及将所述最优识别路径对应的语音结果作为所述识别结果；以及

输出模块，用于根据所述识别结果计算所述识别结果对应的置信度，并根据所述置信度获得唤醒结果并输出；

所述装置还包括裁剪模块，其中，所述裁剪模块，用于在对所述声学特征进行似然计算之后，计算下一语音帧的裁剪门限，并根据所述裁剪门限裁剪所述识别网络中与所述下一语音帧无关的节点；

所述计算模块，还用于对所述下一语音帧对应的声学特征进行似然计算。

8.如权利要求7所述的装置，其特征在于，所述构建模块，具体用于：

获取所述唤醒词对应的第一状态序列，并从垃圾词典中获取与所述第一状态序列之间的编辑距离大于第一编辑距离且小于第二编辑距离的多个第二状态序列对应的垃圾词，其中，所述第一编辑距离小于所述第二编辑距离。

9.如权利要求7所述的装置，其特征在于，所述构建模块，具体用于：

从真实语音词典中获取通用垃圾词，并将所述唤醒词的第一个字与通用垃圾词串联生成网络A；以及将所述网络A、所述垃圾词、所述唤醒词和所述通用垃圾词进行并联，生成所述识别网络。

10.如权利要求7所述的装置，其特征在于，所述裁剪模块，具体用于：

根据所述第一平均值和所述第二平均值计算所述裁剪门限。

11.如权利要求7所述的装置，其特征在于，所述输出模块，具体用于：

根据所述第一平均值和所述第三平均值计算所述置信度。

12.如权利要求7所述的装置，其特征在于，所述输出模块，还用于：

基于filler模型计算出所述置信度。