CN108564941B

CN108564941B - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN108564941B
Application number: CN201810240076.XA
Authority: CN
Inventors: 林诗伦; 张玺霖; 麻文华; 刘博�; 李新辉; 卢鲤; 江修才
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2020-06-02
Anticipated expiration: 2038-03-22
Also published as: US20200312309A1; JP6980119B2; US11450312B2; JP2021515905A; CN108564941A; EP3770905A1; WO2019179285A1; EP3770905A4

Abstract

本申请公开了一种语音识别方法、装置及设备，属于语音识别领域。所述方法包括：获取语音信息；通过加权有限状态机网络确定语音信息中的候选语音片段的起止位置；根据候选语音片段的起止位置在语音信息中截取该候选语音片段；将候选语音片段输入机器学习模型中，通过机器学习模型检测候选语音片段是否包含预设关键词。本申请通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验，确定候选语音片段是否包含预设关键词，解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题，提高了语音识别的准确率。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别领域，特别涉及一种语音识别方法、装置、设备及存储介质。

背景技术

语音唤醒，也被称为关键词唤醒(Keyword Spotting，KWS)，是处于休眠或锁屏状态的电子设备通过识别用户语音，确定用户语音中包含预设关键词时，解除休眠和/或锁屏状态的功能，进而开启语音交互操作。在语音唤醒过程中，语音识别是较为关键的步骤。

相关技术中典型的语音识别方法包括：对语音信息进行提取特征，通过加权有限状态机(Weighted Finite State Transducer，WFST)网络将语音信息转换为对应的文本信息，检测文本信息中是否包含预设关键词。

在将语音信息转换为对应的文本信息的过程中，需要对语音信息进行语义识别。由于加权有限状态机网络的局限性，会将没有语义但和预设关键词相似的语音信息，例如噪声、背景音乐声等，识别为具有语义的语音信息，从而将电子设备误唤醒，导致识别准确率较低。

发明内容

本申请实施例提供了一种语音识别方法、装置及设备，用以解决相关技术中通过加权有限状态机网络识别语音信息准确率较低的问题。所述技术方案如下：

一方面，提供了一种语音识别方法，所述方法包括：

获取语音信息；

通过加权有限状态机网络确定所述语音信息中的候选语音片段和所述候选语音片段的起止位置；

根据所述起止位置在所述语音信息中截取所述候选语音片段；

将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词；

若所述候选语音片段包含所述预设关键词，则确定所述语音信息包含预设关键词。

一方面，提供了一种语音识别装置，所述装置包括：

获取模块，用于获取语音信息；

处理模块，用于通过加权有限状态机网络确定所述语音信息中的候选语音片段的起止位置；根据所述起止位置在所述语音信息中截取所述候选语音片段；将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词；若所述候选语音片段包含所述预设关键词，则确定所述语音信息包含预设关键词。

一方面，提供了一种语音识别设备，包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述的语音识别方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现如上述的语音识别方法。

本申请实施例提供的技术方案带来的有益效果至少为：

通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验，确定候选语音片段是否包含预设关键词，解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题，提高了语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请一个示例性的实施例提供的语音识别方法的实施环境图；

图1B是本申请一个示例性的实施例提供的语音识别方法的实施环境图；

图2是本申请一个示例性的实施例提供的语音识别方法的方法流程图；

图3是本申请一个示例性的实施例提供的语音识别方法的方法流程图；

图4是本申请一个示例性的实施例提供的语音信息分帧示意图；

图5是本申请一个示例性的实施例提供的加权有限状态机网络的构架图；

图6是本申请一个示例性的实施例提供的语音识别方法的方法流程图；

图7A是本申请一个示例性的实施例提供的卷积神经网络的构架图；

图7B是本申请一个示例性的实施例提供的语音识别方法的整体构架图；

图8是本申请一个示例性的实施例提供的语音识别方法的方法流程图；

图9是本申请一个示例性的实施例提供的语音识别方法的应用场景图；

图10是本申请一个示例性的实施例提供的语音识别方法的应用场景图；

图11是本申请一个示例性的实施例提供的语音识别装置的结构框图；

图12是本申请一个示例性的实施例提供的语音识别设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

机器学习模型：是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点对应一个策略函数，每两个节点间的连接代表一个对于通过该连接信号的加权值，称之为权重。样本输入机器学习模型的节点后，通过每个节点输出一个输出结果，该输出结果作为下一个节点的输入样本，机器学习模型通过样本最终输出结果对每个节点的策略函数和权重进行调整，该过程被称为训练。

加权有限状态机网络：是表示有限个状态以及这些状态之间的转移和动作等行为的数学模型。本申请实施例中，加权有限状态机网络包括声学模型、词典和语言模型。

声学模型：是根据语音信息输出对应的最大后验概率的隐藏状态的数学模型，隐藏状态可以是音素，也可以是比音素更小的语音单位。可选的，本申请实施例中的声学模型是隐马尔可夫-深度神经网络模型。

音素：是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。

隐马尔可夫模型(Hidden Markov Model，HMM)：是一种统计分析模型，用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，受状态影响的某些变量是可见的。

多层感知机(Multilayer Perceptron，MLP)：是一种前馈神经网络，将一组输入向量非线性映射到一组输出向量。多层感知机可以使用反向传播算法进行训练。

深度神经网络(Deep Neural Network，DNN)：是一种机器学习模型，是包含超过两个隐藏层的多层感知机。除了输入节点外，每个节点都是一个带有非线性激活函数的神经元，与多层感知机一样，深度神经网络可以使用反向传播算法进行训练。

卷积神经网络(Convolutional Neural Network，CNN)：是一种机器学习模型，包括至少两层级联的卷积层、顶端的全连接层(Fully Connected Layers，FC)和软最大化函数(Softmax)组成，可选的，每一层卷积层后包括一层池化层。其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。

请参考图1A和图1B，其示出了本申请一个示例性实施例提供的语音识别方法的实施环境图。

图1A是本申请实施例提供的第一种可能的实施环境，该实施环境包括：终端110以及服务器130。其中，终端110通过有线或无线网络和服务器130建立连接。

在本实施例中，由终端110获取语音信息，由服务器130对语音信息进行识别并指示终端110解除休眠状态和/或锁屏状态。

终端110的静音检测单元判断静音环境中是否有用户声音；若确定有用户声音，则激活录音单元对用户声音进行录音并得到相应的原始语音信号；将原始语音信号通过有线或无线网络发送至服务器130。

服务器130对原始语音信号进行初步提取特征得到语音信息，检测语音信息中是否包含预设关键词；若语音信息中包含预设关键词，则在语音信息中截取候选语音片段，该候选语音片段是预设关键词对应的语音信息片段；对候选语音片段进行二次校验，检测候选语音片段中是否包含预设关键词；若候选语音片段中包含预设关键词，则向终端110发送唤醒指令。

终端110接收到服务器130发送的唤醒指令后，根据该唤醒指令解除本机的休眠状态和/或锁屏状态。

图1B是本申请实施例提供的第二种可能的实施环境，该实施环境包括：终端110、终端120以及服务器130。其中，终端110通过有线或无线网络和服务器130建立连接，终端120通过有线或无线网络和服务器130建立连接。该实施例中，由终端110获取语音信息，由服务器130对语音信息进行识别并指示终端120解除休眠状态和/或锁屏状态。

服务器130对原始语音信号进行初步提取特征得到语音信息，检测语音信息中是否包含预设关键词；若语音信息中包含预设关键词，则在语音信息中截取候选语音片段，该候选语音片段是预设关键词对应的语音信息片段；对候选语音片段进行二次校验，检测候选语音片段中是否包含预设关键词；若候选语音片段中包含预设关键词，则向终端120发送唤醒指令。

终端120接收到服务器130发送的唤醒指令后，根据该唤醒指令解除本机的休眠状态和/或锁屏状态。

在一个可选的实施例中，由终端110获取语音信息，对语音信息进行识别并解除本机的休眠状态和/或锁屏状态。

终端110的静音检测单元判断静音环境中是否有用户声音；若确定有用户声音，则激活录音单元对用户声音进行录音并得到原始语音信号；对原始语音信号进行初步提取特征得到语音信息；检测语音信息中是否包含预设关键词；若语音信息中包含预设关键词，则在语音信息中截取候选语音片段，该候选语音片段是预设关键词对应的语音信息片段；对候选语音片段进行二次校验，检测候选语音片段中是否包含预设关键词；若候选语音片段中包含预设关键词，则解除本机的休眠状态和/或锁屏状态。

可选的，上述终端可以是包含静音检测单元和录音单元的电子设备，可以是手机、平板电脑、电子书阅读器、膝上型便携计算机、台式计算机、智能音箱、智能机器人、车载控制中心等等。

请参考图2，其示出了本申请一个示例性实施例提供的语音识别方法的方法流程图。该方法可以用于如图1A和图1B中所示的服务器130中，也可以应用于终端中，该方法包括：

步骤201，获取语音信息。

服务器接收终端发送的原始语音信号，将原始语音信号进行初步提取特征后，得到语音信息。

示例性的，终端确定有用户声音后，对用户声音录音得到原始语音信号，将原始语音信号通过有线或无线网络发送至服务器，服务器接收该原始语音信号。

步骤202，确定语音信息中的候选语音片段的起止位置。

示例性的，服务器通过加权有限状态机网络获取语音信息对应的最大后验概率的语言信息，若语言信息中包含预设关键词，则确定预设关键词对应的候选语音片段在语音信息中的起止位置。

若语音信息是时域函数，起止位置是候选语音片段在语音信息中起始的时刻和结束的时刻；若语音信息是频域函数，起止位置是候选语音片段在语音信息中起始的频率和结束的频率。

可选的，候选语音片段包含至少一帧语音片段。例如，预设关键词是“开启”，服务器通过加权有限状态机网络获取语音信息对应的最大后验概率的语言信息中包含“开启”，“开”对应语音片段1,“启”对应语音片段2，语音片段1的起始时刻为t1，结束时刻为t2，语音片段2的起始时刻为t3，结束时刻为t4，若t1在t3之前，t4在t2之后，则候选语音片段为语音信息中起始时刻为t1，结束时刻为t4的片段，即，确定候选语音片段在语音信息中的起止位置为t1至t4。

步骤203，根据候选语音片段的起止位置在语音信息中截取该候选语音片段。

服务器根据候选语音片段在语音信息中的起止位置，从语音信息中截取候选语音片段。

步骤204，将候选语音片段输入机器学习模型中，通过机器学习模型检测候选语音片段是否包含预设关键词。

可选的，机器学习模型包括卷积神经网络或加权有限状态机网络。服务器通过加权有限状态机网络对候选语音片段进行粗定位后，可通过卷积神经网络对候选语音片段进行检测，或，通过加权有限状态机网络对候选语音片段进行检测。示例性的，服务器通过卷积神经网络中的第一层卷积层对候选语音片段进行卷积处理后得到第一高层语义特征，将第一高层语义特征输入第一层池化层，得到一次压缩的高层语义特征，将一次压缩的高层语义特征输入第二层卷积层，得到第二高层语义特征，将第二高层语义特征输入至第二层池化层，得到二次压缩的高层语义特征……经过多次反复卷积和池化处理后，提取得到候选语音片段的高层语义特征。

示例性的，服务器通过加权有限状态机网络获取候选语音片段对应的最大后验概率的语言信息，检测该语言信息中是否包含预设关键词。

步骤205，若候选语音片段包含预设关键词，则确定语音信息包含预设关键词。

示例性的，若卷积神经网络输出候选语音片段包含预设关键词的结果，则服务器确定语音信息包含预设关键词。

示例性的，若候选语音片段对应的最大后验概率的语言信息中包含预设关键词，则服务器确定语音信息包含预设关键词。

需要说明的是，采用加权有限状态机网络对候选语音片段进行检测耗时较长，且相对于采用卷积神经网络对候选语音片段进行校验，准确度较低。

综上所述，本申请实施例中，通过机器学习模型对加权有限状态机网络粗定位的候选语音片段进行校验，确定候选语音片段是否包含预设关键词，解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题，提高了语音识别的准确率。

请参考图3，其示出了本申请一个示例性的实施例提供的语音识别方法的方法流程图。该方法可以应用于如图1A和图1B所示的服务器130中，也可以应用于终端中，该方法可以是图2实施例中步骤202的一个可选的实施方式，该方法包括：

步骤202a，将语音信息分帧，得到多帧语音片段。

示例性的，服务器通过移动窗对语音信息分帧，得到多帧语音片段。移动窗具有预设的窗口长度和步进长度，每一帧语音片段具有各自对应的起止位置和序号索引。

若语音信息是时域函数，窗口长度和步进长度以预设的时间长度为单位，如图4所示，移动窗400的窗口长度为20毫秒，步进长度为10毫秒，则移动窗400将语音信息分割为20毫秒长为一帧的语音信息，多帧语音片段之间的交叠长度为10毫秒。

步骤202b，将多帧语音片段输入至加权有限状态机网络得到多帧语音片段对应的最大后验概率的语言信息。

示例性的，如图5所示，加权有限状态机网络包括声学模型、词典和语言模型。其中，声学模型可以由深度神经网络和隐马尔可夫模型构成。

深度神经网络包含至少两层级联的深度神经网络层和全连接层，可根据输入的语音片段输出该语音片段对应的隐藏状态的后验概率的数学模型。图5中的V代表输入深度神经网络的语音片段，W代表深度神经网络层的中每一层神经网络层的参数，例如，W₁代表第一层神经网络层的参数，W_M代表第M层神经网络层的参数；h⁽ⁱ⁾代表深度神经网络层的中第i层神经网络层的输出结果，例如，h⁽¹⁾代表第一层神经网络层的输出结果，h^(M)代表第M层神经网络层的输出结果；S_i代表第i种隐藏状态，例如，第1种隐藏状态S₁、第K种隐藏状态S_K；a_sisj代表第i种隐藏状态S_i和第j种隐藏状态S_j之间的转移概率，例如，a_s1s2代表第1种隐藏状态S₁和第2种隐藏状态S₂之间转移概率。

隐马尔可夫模型是根据语音片段对应的隐藏状态的后验概率输出语音片段对应的隐藏状态的数学模型。

词典是音素和单词的对应关系。将至少一个音素输入词典中可得到至少一个音素对应的最大后验概率的字或单词。

语音模型是单词与句法和/或语法的对应关系。将字或单词输入语言模型中，可得到单词对应的最大后验概率的语言信息，其中，语言信息可以是单词，也可以是句子。

服务器将多帧语音片段输入至深度神经网络中提取特征，得到每一帧语音片段对应的隐藏状态的后验概率，根据每一帧语音片段对应的隐藏状态的后验概率，通过隐马尔可夫模型得到每一帧语音片段对应的隐藏状态，根据每一帧语音片段对应的隐藏状态得到多帧语音片段对应的音素，通过词典得到多帧语音片段对应的最大后验概率的字或单词，根据多帧语音片段对应的最大后验概率的字或单词，通过语言模型将多帧语音片段对应的最大后验概率的语言信息。

由于上述转换过程都是选择最大后验概率的途径，因此将多帧语音片段输入至加权有限状态机网络得到的，是多帧语音片段对应的最大后验概率的语言信息。

步骤202c，若语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置。

服务器检测多帧语音片段对应的最大后验概率的语言信息是否包含预设关键词，若确定语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置。

示例性的，一帧语音片段对应一个隐藏状态，至少一个隐藏状态对应一个因素，至少一个因素对应一个单词，通过预设关键词中每个单词对应的因素，得到关键词对应的候选语音片段。由于在对语音信息分帧时对每个语音片段标注了序号索引，且每个语音片段都具有起止位置属性，因此可获取候选语音片段在语音信息中的起止位置。

综上所述，本申请实施例中，通过将多帧语音片段输入至加权有限状态机网络得到多帧语音片段对应的最大后验概率的语言信息，若语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置，能够提高对候选语音片段识别的准确率。

进一步的，本申请实施例中，通过将多帧语音片段输入深度神经网络得到每一帧语音片段对应的隐藏状态的后验概率，由于深度神经网络具有较强的提取特征能力，因此通过深度神经网络得到的每一帧语音片段对应的隐藏状态的后验概率更为准确，从而提高了对候选语音片段识别的准确率。

请参考图6，其示出了本申请一个示例性的实施例提供的语音识别方法的方法流程图。该方法可以应用于如图1A和图1B所示的服务器130中，也可以应用于终端中，该方法可以是图2实施例中步骤204的一个可选的实施方式，该方法包括：

步骤204a，将候选语音片段输入卷积神经网络中。

服务器通过图2实施例或图3实施例中的方法获取到候选语音片段后，将候选语音片段输入卷积神经网络中。

示例性的，如图7A所示，卷积神经网络包含至少两层卷积层、一个全连接层和一个软最大化函数，可选的，每一层卷积层之后还包含一层池化层。图中以两层卷积层为例进行说明，不表示卷积神经网络仅仅包含两层卷积层。

步骤204b，通过卷积神经网络对候选语音片段进行卷积和池化提取得到候选语音片段的高层语义特征。

示例性的，服务器通过卷积神经网络中的第一层卷积层对候选语音片段进行卷积处理后得到第一高层语义特征，将第一高层语义特征输入第一层池化层，得到一次压缩的高层语义特征，将一次压缩的高层语义特征输入第二层卷积层，得到第二高层语义特征，将第二高层语义特征输入至第二层池化层，得到二次压缩的高层语义特征……经过多次反复卷积和池化处理后，提取得到候选语音片段的高层语义特征。

步骤204c，通过卷积神经网络中的全连接层和软最大化函数对候选语音片段的高层语义特征进行分类，检测候选语音片段是否包含预设关键词。

示例性的，候选语音片段通过多层卷积层和池化层处理后得到高层语义特征，由全连接层将每一层卷积层和池化层提取到的高层语义特征连接起来，输送至软最大化函数，软最大化函数对高层语义特征进行分类，输出候选语音片段是否包含预设关键词的结果。

图7B是本申请实施例的整体架构图，如图所示，多帧语音片段输入至声学模型后得到多帧语音片段对应的最大后验概率的音素，通过词典得到多帧语音片段对应的最大后验概率的字或单词，通过语言模型得到多帧语音片段对应的最大后验概率的单词或句子，从而检测单词或句子中是否包含预设关键词，若包含，则截取预设关键词对应的候选语音片段，将候选语音片段输入至卷积神经网络中校验，输出最终校验结果。

综上所述，本申请实施例中，通过将候选语音片段输入至卷积神经网络经过卷积和池化后提取得到候选语音片段的高层语义特征，通过全连接层将提取到的高层语义特征连接起来输送至软最大化函数进行分类，得到候选语音片段是否包含预设关键词的结果，由于候选语音片段是通过加权有限状态机网络初步定位得到的，在保证识别率的基础上，提高了语音识别的准确率。

请参考图8，其示出了本申请一个示例性的实施例提供的语音识别方法的方法流程图。该方法可以应用于如图1A所示的实施环境中，该方法包括：

步骤801，终端将获取到的原始语音信号发送至服务器。

示例性的，终端的静音检测模块判断是否有用户声音，若确定有用户声音则激活静音检测模块对用户声音录音并得到相应的原始语音信号，并将原始语音信号通过有线或无线网络发送至服务器。

步骤802，服务器对原始语音信号进行初步提取特征，得到语音信息。

服务器对接收到的原始语音信号进行初步提取特征，得到语音信息，该语音信息是时域或频域的函数。

步骤803，服务器将语音信息分帧，得到多帧语音片段。

示例性的，服务器通过移动窗对语音信息分帧，得到多帧语音片段。其中，移动窗具有预设的窗口长度和步进长度，每一帧语音片段具有各自对应的起止位置和序号索引。

步骤804，服务器将多帧语音片段输入深度神经网络中，得到多帧语音片段中每一帧语音片段和对应的隐藏状态之间的后验概率。

深度神经网络输出的是每一帧语音片段和对应的隐藏状态之间的后验概率，因此通过深度神经网络还无法得到每一帧语音片段所对应的隐藏状态，需要对每一帧语音片段通过隐马尔可夫模型进行前向解码。

步骤805，服务器通过贝叶斯公式对每一帧语音片段对应的隐藏状态的后验概率进行转换，得到每一帧语音片段对应的隐藏状态的发射概率。

示例性的，对每一帧语音片段通过隐马尔可夫模型进行前向解码，需要语音片段对应的隐藏状态的发射概率。服务器通过贝叶斯公式对每一帧语音片段对应的隐藏状态的后验概率进行转换，得到每一帧语音片段对应的隐藏状态的发射概率。

步骤806，服务器根据每一帧语音片段对应的隐藏状态的发射概率、隐马尔可夫模型中每个隐藏状态的初始概率以及每个隐藏状态之间的转移概率，通过隐马尔可夫模型进行前向解码得到多帧语音片段对应的最大后验概率的隐藏状态。

隐马尔可夫模型中每个隐藏状态的初始概率以及每个隐藏状态之间的转移概率是已经训练好的参数。根据步骤804中得到的每一帧语音片段对应的隐藏状态的发射概率，结合每个隐藏状态的初始概率以及每个隐藏状态之间的转移概率，通过隐马尔可夫模型对每一帧语音片段进行前向解码得到多帧语音片段对应的最大后验概率的隐藏状态。

步骤807，服务器根据每一帧语音片段对应的隐藏状态得到多帧语音片段对应的音素。

音素由至少一个隐藏状态构成，服务器根据每一帧语音片段对应的隐藏状态得到多帧语音片段对应的音素。

步骤808，服务器根据多帧语音片段对应的音素，结合词典和语言模型得到多帧语音片段对应的最大后验概率的语言信息。

单词由至少一个音素组成，词典中包含单词和音素的对应关系。服务器通过词典得到多帧语音片段对应的最大后验概率的字或单词，根据多帧语音片段对应的最大后验概率的字或单词，通过语言模型将多帧语音片段对应的最大后验概率的语言信息。其中，语言信息可以是单词，也可以是句子，语言模型是单词与语法和/或句法的对应关系。

上述词典中单词和音素的对应关系，以及语言模型中单词与语法和/或句法的对应关系是一种概率对应关系，服务器根据多帧语音片段对应的音素，通过词典和语言模型得到多帧语音片段对应的最大后验概率的语言信息，是根据最大的概率寻找路径得到的多帧语音片段对应的最大后验概率的语言信息。

步骤809，若语言信息中包含预设关键词，则服务器获取预设关键词对应的候选语音片段在语音信息中的起止位置。

服务器检测多帧语音片段对应的最大后验概率的语言信息是否包含预设关键词，若确定语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置。若多帧语音片段对应的最大后验概率的语言信息不包括预设关键词，则停止步骤。

步骤810，服务器根据候选语音片段在语音信息中的起止位置，在语音信息中截取候选语音片段。

步骤811，服务器将候选语音片段输入所述卷积神经网络中，通过卷积神经网络对候选语音片段进行卷积和池化提取得到候选语音片段的高层语义特征。

示例性的，服务器将截取到的候选语音片段输入所述卷积神经网络中，通过卷积神经网络中的第一层卷积层对候选语音片段进行卷积处理后得到第一高层语义特征，将第一高层语义特征输入第一层池化层，得到一次压缩的高层语义特征，将一次压缩的高层语义特征输入第二层卷积层，得到第二高层语义特征，将第二高层语义特征输入至第二层池化层，得到二次压缩的高层语义特征……经过多次反复卷积和池化处理后，提取得到候选语音片段的高层语义特征。

步骤812，服务器通过卷积神经网络中的全连接阶层和软最大化函数对候选语音片段的高层语义特征进行分类，检测候选语音片段是否包含所述预设关键词。

步骤813，若候选语音片段中包含预设关键词，服务器向终端发送唤醒指令。

若卷积神经网络输出的结果为候选语音片段中包含预设关键词，服务器通过有线或无线网络向终端发送唤醒指令。

步骤814，终端根据唤醒指令解除本机的休眠状态和/或锁屏状态。

终端在接收到服务器发送的唤醒指令后，根据该唤醒指令解除本机的休眠状态和/或锁屏状态。

综上所述，本申请实施例中，通过卷积神经网络对加权有限状态机网络粗定位的候选语音片段进行校验，确定候选语音片段是否包含预设关键词，解决了相关技术中可能会将没有语义的语音信息识别为具有语义的语音信息从而导致误唤醒的问题，提高了语音识别的准确率。

进一步的，本申请实施例中，通过将多帧语音片段输入至加权有限状态机网络得到多帧语音片段对应的最大后验概率的语言信息，若语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置，能够提高对候选语音片段识别的准确率。

进一步的，本申请实施例中，通过将候选语音片段输入至卷积神经网络经过卷积和池化后提取得到候选语音片段的高层语义特征，通过全连接层将提取到的高层语义特征连接起来输送至软最大化函数进行分类，得到候选语音片段是否包含预设关键词的结果，由于候选语音片段是通过加权有限状态机网络初步定位得到的，在保证识别率的基础上，提高了语音识别的准确率。

图9和图10示出了本申请一个示例性的实施例提供的语音识别方法的应用场景。

在图9的应用场景中，智能机器人910、智能音箱920、智能移动电话930等终端将获取的语音信息通过有线或无线网络传输至云端，云端通过上述实施例中的方法检测每条语音信息中是否包含各自对应的预设关键词，若包含预设关键词，则向对应的终端发送唤醒指令，将该终端从休眠和/或锁屏状态中解除。

图10提供了一种离线的语音识别应用场景，用户1010向电子设备1020说出唤醒词(即预设关键词)，电子设备1010检测到用户说出唤醒词后，录音得到原始语音信号，通过对原始语音信号进行初步提取特征，通过上述实施例中的方法检测语音信息中是否包含预设关键词，若包含预设关键词，则解除本机的休眠和/或锁屏状态。

通常电子设备的运算资源比较有限，需要针对不同硬件的电子设备进行定制，定制流程为：电子设备厂商提交电子设备能够划分给语音唤醒模块的硬件资源；服务器收到厂商的提交的数据后，根据该电子设备能够划分的硬件资源状况设计出可在该电子设备上运行的模型；采用与电子设备应用环境切合的训练数据训练模型；对所得模型进行联合测试与针对性调优，通过后下发给电子设备厂商进行集成；完成集成后，用户可在离线环境下进行电子设备唤醒，唤醒方法与在线服务相同。

请参考图11，其示出了本申请一个示例性的实施例提供的语音识别装置的结构框图，如图所示，该装置可应用于如图1所示的终端110、终端120或服务器130中，该装置包括获取模块1110和处理模块1120：

获取模块1110，用于获取语音信息。

处理模块1120，用于通过加权有限状态机网络确定语音信息中的候选语音片段的起止位置；根据起止位置在语音信息中截取候选语音片段；将候选语音片段输入机器学习模型中，通过机器学习模型检测候选语音片段是否包含预设关键词；若候选语音片段包含预设关键词，则确定语音信息包含预设关键词。

在一个可选的实施例中，

处理模块1110，还用于将语音信息分帧，得到多帧语音片段；将多帧语音片段输入至加权有限状态机网络中，得到多帧语音片段对应的最大后验概率的语言信息。

获取模块1120，还用于若语言信息中包含预设关键词，则获取预设关键词对应的候选语音片段在语音信息中的起止位置；候选语音片段至少包括多帧语音片段中的一帧语音片段。

在一个可选的实施例中，加权有限状态机网络包括深度神经网络、隐马尔可夫模型、词典和语言模型；

处理模块1120，还用于将多帧语音片段输入至深度神经网络中，得到多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率；根据每一帧语音片段和对应的隐藏状态之间后验概率，通过隐马尔可夫模型得到多帧语音片段对应的隐藏状态；根据每一帧语音片段对应的隐藏状态得到多帧语音片段对应的音素；根据多帧语音片段对应的音素，结合词典和语言模型得到多帧语音片段对应的最大后验概率的语言信息。

在一个可选的实施例中，

处理模块1120，还用于通过贝叶斯公式对每一帧语音片段对应的隐藏状态的后验概率进行转换，得到每一帧语音片段对应的隐藏状态的发射概率；根据每一帧语音片段对应的隐藏状态的发射概率，隐马尔可夫模型中每个隐藏状态的初始概率以及每个隐藏状态之间的转移概率，通过隐马尔可夫模型进行前向解码得到多帧语音片段对应的隐藏状态。

在一个可选的实施例中，

处理模块1120，还用于将候选语音片段输入卷积神经网络中；通过卷积神经网络对候选语音片段进行卷积和池化提取得到候选语音片段的高层语义特征；通过卷积神经网络中的全连接层和软最大化函数对候选语音片段的高层语义特征进行分类，检测候选语音片段是否包含所述预设关键词。

请参见图12，其示出了本申请一个示例性的实施例提供的语音处理设备的结构框图。该设备包括：处理器1210以及存储器1220。

处理器1210可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器1210还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integratedcircuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器1220通过总线或其它方式与处理器1210相连，存储器1220中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器1210加载并执行以实现如图2、图3、图6或图8的语音处理方法。存储器1220可以为易失性存储器(英文：volatile memory)，非易失性存储器(英文：non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文：random-access memory，RAM)，例如静态随机存取存储器(英文：static random access memory，SRAM)，动态随机存取存储器(英文：dynamic random access memory，DRAM)。非易失性存储器可以为只读存储器(英文：read only memory image，ROM)，例如可编程只读存储器(英文：programmableread only memory，PROM)，可擦除可编程只读存储器(英文：erasable programmable readonly memory，EPROM)，电可擦除可编程只读存储器(英文：electrically erasableprogrammable read-only memory，EEPROM)。非易失性存储器也可以为快闪存储器(英文：flash memory)，磁存储器，例如磁带(英文：magnetic tape)，软盘(英文：floppy disk)，硬盘。非易失性存储器也可以为光盘。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的语音处理方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的语音处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取语音信息；

将所述语音信息分帧，得到多帧语音片段；

将所述多帧语音片段输入至声学模型中，得到所述多帧语音片段对应的音素；

根据所述多帧语音片段对应的音素，结合词典和语言模型得到所述多帧语音片段对应的最大后验概率的语言信息，其中，所述词典为所述音素和单词的对应关系，所述语言模型为所述单词与语法和/或句法的对应关系；

若所述语言信息中包含预设关键词，则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置，所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段；

将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含预设关键词；

若所述候选语音片段包含所述预设关键词，则确定所述语音信息包含所述预设关键词。

2.根据权利要求1所述的方法，其特征在于，所述声学模型包括深度神经网络和隐马尔可夫模型，所述将所述多帧语音片段输入至声学模型中，得到所述多帧语音片段对应的音素，包括：

将所述多帧语音片段输入至所述深度神经网络中，得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率；

根据所述每一帧语音片段和对应的隐藏状态之间后验概率，通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态；

根据所述每一帧语音片段对应的隐藏状态得到所述多帧语音片段对应的音素。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每一帧语音片段对应的隐藏状态的后验概率，通过所述隐马尔可夫模型得到所述多帧语音片段对应的隐藏状态，包括：

通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换，得到所述每一帧语音片段对应的隐藏状态的发射概率；

根据所述每一帧语音片段对应的隐藏状态的发射概率，所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率，通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述机器学习模型为卷积神经网络，所述将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含预设关键词，包括：

将所述候选语音片段输入所述卷积神经网络中；

通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征；

通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类，检测所述候选语音片段是否包含所述预设关键词。

5.一种语音唤醒方法，其特征在于，所述方法包括：

终端将获取到的语音信息发送至服务器；

所述服务器获取语音信息；将所述语音信息分帧，得到多帧语音片段；将所述多帧语音片段输入至声学模型中，得到所述多帧语音片段对应的音素多帧语音片段对应的最大后验概率的语言信息；根据所述多帧语音片段对应的音素，结合词典和语言模型得到所述多帧语音片段对应的最大后验概率的语言信息，其中，所述词典为所述音素和单词的对应关系，所述语言模型为所述单词与语法和/或句法的对应关系；若所述语言信息中包含预设关键词，则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置；所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段；根据所述起止位置在所述语音信息中截取所述候选语音片段；将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含预设关键词；若所述候选语音片段中包含所述预设关键词，则向所述终端发送唤醒指令；

所述终端根据所述唤醒指令解除本机的休眠状态和/或锁屏状态。

6.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取语音信息；

处理模块，用于将所述语音信息分帧，得到多帧语音片段；将所述多帧语音片段输入至声学模型中，得到所述多帧语音片段对应的音素多帧语音片段对应的最大后验概率的语言信息；根据所述多帧语音片段对应的音素，结合词典和语言模型得到所述多帧语音片段对应的最大后验概率的语言信息，其中，所述词典为所述音素和单词的对应关系，所述语言模型为所述单词与语法和/或句法的对应关系；若所述语言信息中包含预设关键词，则获取所述预设关键词对应的候选语音片段在所述语音信息中的起止位置，所述候选语音片段至少包括所述多帧语音片段中的一帧语音片段；根据所述起止位置在所述语音信息中截取所述候选语音片段；将所述候选语音片段输入机器学习模型中，通过所述机器学习模型检测所述候选语音片段是否包含所述预设关键词；若所述候选语音片段包含所述预设关键词，则确定所述语音信息包含预设关键词。

7.根据权利要求6所述的装置，其特征在于，所述声学模型包括深度神经网络和隐马尔可夫模型；

所述处理模块，还用于将所述多帧语音片段输入至所述深度神经网络中，得到所述多帧语音片段中每一帧语音片段和对应的隐藏状态之间后验概率；

8.根据权利要求7所述的装置，其特征在于，

所述处理模块，还用于通过贝叶斯公式对所述每一帧语音片段对应的隐藏状态的后验概率进行转换，得到所述每一帧语音片段对应的隐藏状态的发射概率；根据所述每一帧语音片段对应的隐藏状态的发射概率，所述隐马尔可夫模型中每个隐藏状态的初始概率以及所述每个隐藏状态之间的转移概率，通过所述隐马尔可夫模型进行前向解码得到所述多帧语音片段对应的隐藏状态。

9.根据权利要求6至8任一项所述的装置，其特征在于，所述机器学习模型为卷积神经网络；

所述处理模块，还用于将所述候选语音片段输入所述卷积神经网络中；通过所述卷积神经网络对所述候选语音片段进行卷积和池化提取得到所述候选语音片段的高层语义特征；通过所述卷积神经网络中的全连接层和软最大化函数对所述候选语音片段的高层语义特征进行分类，检测所述候选语音片段是否包含所述预设关键词。

10.一种语音识别设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至4任一所述的语音识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现权利要求1至4任一所述的语音识别方法。