CN107665705B

CN107665705B - 语音关键词识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN107665705B
Application number: CN201710855490.7A
Authority: CN
Inventors: 查高密; 程宁; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-04-21
Anticipated expiration: 2037-09-20
Also published as: CN107665705A; WO2019056482A1

Abstract

本发明实施例提供一种语音关键词识别方法、装置、设备及计算机可读存储介质。所述语音关键词识别方法包括：接收输入的语音信号；提取语音信号中的音频特征；根据所述音频特征，利用声学模型、发音词典、语言模型计算关键词对于声学模型、发音词典、语言模型的概率；判断所述概率是否大于阈值，若所述概率大于阈值，统计所述概率对应的关键词的数量；若所述概率对应的关键词的数量为一个，将所述概率对应的关键词作为关键词识别的结果。本发明实施例当计算出可能的关键词的概率后，将概率中大于阈值的对应的一个关键词作为关键词识别的结果，提高了关键词的识别率。

Description

语音关键词识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音关键词识别方法、装置、设备及计算机可读存储介质。

背景技术

一个通用的大词汇量连续语音识别系统(Large Vocabulary Continuous SpeechRecognition，LVCSR)进行语音关键词识别的过程是：先对语音进行识别，获得一个或多个可能的语句文本，然后在文本中搜索关键词。如果关键词在某个文本中出现，则认为语句中有关键词。一个通用的LVCSR系统使用的语言模型会试图捕捉自然语言的特点如自然语言中上下文之间的关系，从而识别出语言中较有可能出现的句子。在关键词识别的任务中，常常因为有多种可能的发音相近的语句，导致即使语句中出现了关键词，最有可能的一个或多个识别结果中也不包括关键词(因为它考虑了语言中上下文之间的关系)，尤其是关键词本身在语言中出现的概率较低的情况，导致识别率低下。

发明内容

本发明实施例提供了一种语音关键词识别方法、装置、设备及计算机可读存储介质，可以提高识别率。

第一方面，本发明实施例提供了一种语音关键词识别方法，该方法包括：

接收输入的语音信号；

提取所述语音信号中的音频特征；

利用声学模型计算所述音频特征所对应的音素的概率，作为第一概率；

根据所述第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字；

根据所述第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型；

判断所述第三概率是否大于阈值；

若所述第三概率大于阈值，统计所述第三概率对应的关键词的数量；

若所述第三概率对应的关键词的数量为一个，将所述第三概率对应的关键词作为关键词识别的结果。

第二方面，本发明实施例提供了一种语音关键词识别装置，该装置包括用于执行上述第一方面所述的语音关键词识别方法的单元。

第三方面，本发明实施例还提供了一种设备，所述设备包括存储器，以及与所述存储器相连的处理器；

所述存储器用于存储实现语音关键词识别的程序数据，所述处理器用于运行所述存储器中存储的程序数据，以执行上述第一方面所述的语音关键词识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序数据，所述一个或者一个以上程序数据可被一个或者一个以上的处理器执行，以实现上述第一方面所述的语音关键词识别方法。

本发明实施例，接收输入的语音信号；提取语音信号中的音频特征；根据所述音频特征，利用声学模型、发音词典、语言模型计算关键词对于声学模型、发音词典、语言模型的概率，即第三概率；判断所述第三概率是否大于阈值；若所述第三概率大于阈值，统计所述第三概率对应的关键词的数量；若所述第三概率对应的关键词的数量为一个，将所述第三概率对应的关键词作为关键词识别的结果。本发明实施例当计算出可能的关键词的第三概率后，统计所述第三概率大于阈值的关键词的数量，若所述第三概率大于阈值的关键词的数量为一个，将所述第三概率对应的关键词作为关键词识别的结果。相对于只要关键词在语句中出现，就认为语句中有关键词来说，通过语句中出现的关键词的第三概率大于阈值，则认为该关键词在语句中出现，可以大大地提高关键词的识别率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音关键词识别方法的流程示意图；

图2是本发明实施例提供的一种语音关键词识别方法的子流程示意图；

图3是本发明另一实施例提供的一种语音关键词识别方法的流程示意图；

图4是本发明施例提供的一种语音关键词识别装置的示意性框图；

图5是本发明实施例提供的第一概率计算单元的示意性框图；

图6是本发明另一实施例提供的一种语音关键词识别装置的示意性框图；

图7是本发明实施例提供的一种语音关键词识别设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

也应当理解，尽管术语第一、第二等可以在此用来描述各种元素，但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。例如，在不脱离本发明范围的前提下，第一概率可以被称为第二概率，并且类似地，第二概率可以被称为第一概率。第一概率和第二概率均为概率，但他们并非同一概率。

图1为本发明实施例提供的一种语音关键词识别方法的流程示意图。该方法包括S101-S110。

S101，接收输入的语音信号。如在互动式语音应答(IVR，Interactive VoiceResponse)系统中，接收客户提供的语音信号，根据客户提供的语音信号识别出客户需要哪种产品，如客户说：我想办信用卡，接收客户提供的“我想办信用卡”的语音信息，以便于识别出客户的语音信息中的关键词“信用卡”，将客户引导到办理信用卡相关的服务流程中。如在坐席为客户提供服务的过程中，接收客户的语音信息，如客户说：我想办信用卡，接收客户提供的“我想办信用卡”的语音信号，以便于识别出客户的语音信息中的关键词“信用卡”，直接根据信用卡显示信用卡的相关页面，提高坐席服务的速度。如在坐席为客户提供服务的过程中，根据客户提供的语音信号，识别出客户信号中关于服务态度相关的关键词，以为坐席的服务满意度提供参考。

S102，提取语音信号中的音频特征。去除语音信号中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来，即提取反映语音信号特征的关键特征形成特征矢量序列。另外，提取语音信号中的音频特征，可以达到降维的目的。常用的特征提取方法包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。MFCC的计算过程如下：首先用将时域的语音信号转化成频域信号，之后对其对数能量谱用依照MEL刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换，取前N个系数，组成特征向量。如用帧去分割语音信号，然后每帧提取一定数量的系数，组成特征向量。

S103，利用声学模型计算音频特征所对应的音素的概率，作为第一概率。其中，音素是根据语音的自然属性划分出来的最小语音单位。对于英语，一种常用的音素集是卡内基梅隆大学的一套由36个音素构成的音素集；对于汉语，一般直接用全部声母和韵母作为音素集。声学模型是使用巨大数量的语音数据训练出来的，它描述的是给定的音频特征与音素之间的对应关系，即在声学模型中保存有多种音频特征与音素之间的对应关系。利用声学模型计算音频特征所对应的音素的概率，指的是利用声学模型计算输入的语音信号中的音频特征所对应的音素的最大的一个或者多个概率，将该最大的一个或者多个概率作为第一概率。常用的声学模型有混合高斯-隐马尔科夫(GMM-HMM)模型、深度神经网络(DNN)、长短时记忆神经网络(LSTM)等。具体地，如图2所示，S103包括S201-S202。S201，利用声学模型计算音频特征对应的状态序列的概率。其中，状态是比音素更细致的语音单位，通常一个音素由若干个状态序列组成，如3个状态序列。假设声学模型是GMM-HMM模型，其中，HMM模型描述了每一个音素的几种状态序列之间的转换概率，GMM模型描述了每个状态序列所对应的音频特征。利用声学模型计算音频特征对应的状态序列的概率，可理解为对于每一帧的音频特征，其被所对应的GMM描述的概率，即通过声学模型就可以得出每一帧的音频特征和状态序列对应的概率。S202，利用声学模型计算状态序列对于音素的概率。每一帧的音频特征会得到一个状态序列号，整个语音信号会得到一堆的状态序列号，相邻两帧间的状态序列号基本不相同。假设语音信号分成1000帧，每一帧的音频特征对应一个状态序列，每3个状态序列组合成一个音素，那么大概会组合成300个音素，但这段语音信号其实根本没有这么多的音素。实际上，因为每帧很短，相邻帧的状态应该大多数都是相同的才合理。为了解决这个问题，使用了HMM模型。HMM模型首先构造词级网络，然后展开成音素网络，再展开成状态序列网络，然后从状态序列网络中寻找与语音信号之间最匹配的路径，使这条路径和语音信号中间的概率最大。其中，寻找与语音信号之间最匹配的路径使用的是一种动态规划剪枝算法，即Viterbi算法，用于寻找全局最优路径。其中Viterbi算法贯穿于步骤S103-S105中。

S104，根据第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字。发音词典，描述了词语是由哪些音素串联而成的，即发音词典中保存有音素与词语之间的对应关系。利用发音词典计算音素对应于词的概率，可理解为，对于给定的音素，由发音词典描述的概率，即根据语音信号中的音素，在发音词典中找到该音素对应于词语的概率。这个概率一般为1，因为出现在发音词典中的音素序列是有可能的，没有出现的则是没有可能的。但是在多音词存在的情况下，可以给同一个词的各种不同音分别赋予一个概率，同一个词的各种不同音对应的概率之和为1。根据第一概率，利用发音词典计算音素对应于词的概率，可以理解为，根据第一概率中所对应的音素，该音素对应于词的概率。具体方法为：第一概率乘以第一概率中对应的音素对应于词的概率，选取计算结果中最大的一个或者多个概率，得到第二概率。

S105，根据第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型。语言模型是使用大量的文本训练出来的，描述的是自然语言中词与词之间的先后关系，即在语言模型中保存有大量的自然语言中所出现的词与词之间先后关系，以及词与词之间先后关系的概率。在本发明实施例中，语言模型是N元语法模型(N-gram模型)，N-gram模型存储的是任意一个词、任意两个词、任意三个词在大量文本中出现的概率。如S1＝我刚吃过晚饭，S1＝刚我过晚饭吃，显然在中文中，S1是一个通顺的句子，S2则不是，所以P(S1)>P(S2)。根据第二概率，利用语言模型计算词组合成关键词的概率，具体方法为：第二概率乘以词组合成关键词的概率，得到第三概率，该第三概率所对应的关键词即为初步识别结果，该第三概率可能有多个，那么对应有多个关键词。

S106，判断第三概率是否大于阈值。其中，阈值表示的是概率，是根据经验得出的数据。

S107，若第三概率大于阈值，统计第三概率对应的关键词的数量。若第三概率大于阈值的有多个，那么统计出的第三概率对应的关键词的数量可能也会有多个。

S108，判断第三概率对应的关键词的数量是否为一个。

S109，若第三概率对应的关键词的数量为一个，将该第三概率对应的关键词作为关键词识别的结果。

S110，若第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。其中，预设规则可以是从多个第三概率对应的关键词中随机选取，可以是选取第三概率最大的对应的关键词，也可以是选取多个第三概率对应的关键词中的第一个等。

上述实施例通过接收输入的语音信号；提取语音信号中的音频特征；根据所述音频特征，利用声学模型、发音词典、语言模型计算关键词对于声学模型、发音词典、语言模型的概率，即第三概率；判断所述第三概率是否大于阈值，若所述第三概率大于阈值，统计第三概率对应的关键词的数量；若第三概率对应的关键词的数量只有一个，将所述第三概率对应的对应的关键词作为关键词识别的结果；若第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。该实施例中，可以理解为，如果语句中出现了关键词，且语句中出现的关键词所对应的第三概率大于阈值，则认为该语句中有关键词，而非只要关键词在语句中出现，就认为语句中有关键词。如此，可以大大地提高关键词的识别率。

图3是本发明另一实施例提供的一种语音关键词识别方法的示意性流程图。该方法实施例包括S301-S312。该方法实施例与图1所示的实施例的区别在于：增加了步骤S305、步骤S307。下面将具体描述步骤S305以及步骤S307。其他步骤的详细内容请结合图1实施例中对应步骤的描述，在此不再赘述。

S305，调整语言模型中关键词以及垃圾模型的权重。其中，关键词与垃圾模型的权重之和为1。如在语言模型中提升关键词的权重，也就提升了关键词出现的概率，这样对于识别结果中所算出的关键词的概率就会提升，即计算出的第三概率就会提升；在语言模型中降低关键词的权重，也就降低了关键词出现的概率，这样对于识别结果中所算出的关键词的概率就会降低，即计算出的第三概率就会降低。如在多次识别中，识别出关键词的识别率比较低，可以理解为，很多时候没有识别出关键词，则可以提升关键词的权重。

S306，根据第二概率，利用调整后的语言模型计算词组合成关键词的概率，作为第三概率。

S307，调整阈值。如在多次识别中，若经常检测到第三概率大于调整后的阈值的数量有多个，则可以提升阈值，以过滤每次识别结果中的一部分的关键词。在其他实施例中，调整语言模型中关键词以及垃圾模型的权重后，对应的，调整阈值。如提升关键词的权重，漏检(语句中有关键词，但是没有识别出来)减少，误检(语句中没有关键词，但是却识别出来)增加，且检出的关键词的概率增加，因此提升关键词的权重，并提升阈值，可以过滤误检，降低漏检率；降低语言模型中的关键词的权重，漏检增加，误检减少，检出的关键系的概率减少，因此降低关键词的权重，并降低阈值，可以防止将检出的关键词过滤掉，降低误检率。

在具体实现中，可以先准备一批测试数据，使用不同的参数对其进行识别，并统计其中误检和漏检的比例，然后根据具体应用的需求从预存的参数中获取相对应的参数，然后根据参数作相应的调整。其中，参数包括关键词以及垃圾模型的权重、阈值等。

S308，判断第三概是否率大于调整后的阈值。

S309，若第三概率大于调整后的阈值，统计第三概率对应的关键词的数量。若第三概率大于阈值的有多个，那么统计出的第三概率对应的关键词的数量可能也会有多个。

上述方法实施例通过调整语言模型中的关键词以及垃圾模型的权重、阈值，可以调整语句中识别出关键词的概率，从而在误检和漏检中作出平衡，以满足不同的应用场景需求。

图4为本发明实施例提供的一种语音关键词识别装置的示意性框图。该装置40包括接收单元401、特征提取单元402、第一概率计算单元403、第二概率计算单元404、第三概率计算单元405、判断单元406、统计单元407、结果确定单元408。

接收单元401用于接收输入的语音信号。如在互动式语音应答(IVR，InteractiveVoice Response)系统中，接收客户提供的语音信号，根据客户提供的语音信号识别出客户需要哪种产品，如客户说：我想办信用卡，接收客户提供的“我想办信用卡”的语音信息，以便于识别出客户的语音信息中的关键词“信用卡”，将客户引导到办理信用卡相关的服务流程中。如在坐席为客户提供服务的过程中，接收客户的语音信息，如客户说：我想办信用卡，接收客户提供的“我想办信用卡”的语音信号，以便于识别出客户的语音信息中的关键词“信用卡”，直接根据信用卡显示信用卡的相关页面，提高坐席服务的速度。如在坐席为客户提供服务的过程中，根据客户提供的语音信号，识别出客户信号中关于服务态度相关的关键词，以为坐席的服务满意度提供参考。

特征提取单元402用于提取语音信号中的音频特征。去除语音信号中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来，即提取反映语音信号特征的关键特征形成特征矢量序列。另外，提取语音信号中的音频特征，可以达到降维的目的。常用的特征提取方法包括MFCC。MFCC的计算过程如下：首先用将时域的语音信号转化成频域信号，之后对其对数能量谱用依照MEL刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换，取前N个系数，组成特征向量。如用帧去分割语音信号，然后每帧提取一定数量的系数，组成特征向量。

第一概率计算单元403利用声学模型计算音频特征所对应的音素的概率，作为第一概率。其中，音素是根据语音的自然属性划分出来的最小语音单位。对于英语，一种常用的音素集是卡内基梅隆大学的一套由36个音素构成的音素集；对于汉语，一般直接用全部声母和韵母作为音素集。声学模型是使用巨大数量的语音数据训练出来的，它描述的是音频特征与音素之间的对应关系，即在声学模型中保存有多种音频特征与音素之间的对应关系。利用声学模型计算音频特征所对应的音素的概率，指的是利用声学模型计算输入的语音信号中的音频特征所对应的音素的最大的一个或者多个概率，将该最大的一个或者多个概率作为第一概率。常用的声学模型有混合高斯-隐马尔科夫(GMM-HMM)模型、深度神经网络(DNN)、长短时记忆神经网络(LSTM)等。具体地，如图5所示，第一概率计算单元包括状态概率计算单元501、音素概率计算单元502。状态概率计算单元501用于利用声学模型计算音频特征对应的状态序列的概率。其中，状态是比音素更细致的语音单位，通常一个音素由若干个状态序列组成，如3个状态序列。假设声学模型是GMM-HMM模型，其中，HMM模型描述了每一个音素的几种状态序列之间的转换概率，GMM模型描述了每个状态序列所对应的音频特征。利用声学模型计算音频特征对应的状态序列的概率，可理解为对于每一帧的音频特征，其被所对应的GMM描述的概率，即通过声学模型就可以得出每一帧的音频特征和状态序列对应的概率。音素概率计算单元502用于利用声学模型计算状态序列对于音素的概率。每一帧的音频特征会得到一个状态序列号，整个语音信号会得到一堆的状态序列号，相邻两帧间的状态序列号基本不相同。假设语音信号分成1000帧，每一帧的音频特征对应一个状态序列，每3个状态序列组合成一个音素，那么大概会组合成300个音素，但这段语音信号其实根本没有这么多的音素。实际上，因为每帧很短，相邻帧的状态应该大多数都是相同的才合理。为了解决这个问题，使用了HMM模型。HMM模型首先构造单词级网络，然后展开成音素网络，再展开成状态序列网络，然后从状态序列网络中寻找与语音信号之间最匹配的路径，使这条路径和语音信号中间的概率最大。其中，寻找与语音信号之间最匹配的路径使用的是一种动态规划剪枝算法，即Viterbi算法，用于寻找全局最优路径。其中，Viterbi算法贯穿于第一概率计算单元、第二概率计算单元、第三概率计算单元中。

第二概率计算单元404用于根据第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字。发音词典，描述了词语是由哪些音素串联而成的，即发音词典中保存有音素与词语之间的对应关系。利用发音词典计算音素对应于词的概率，可理解为，对于给定的音素，由发音词典描述的概率，即根据语音信号中的音素，在发音词典中找到该音素对应于词语的概率。这个概率一般为1，因为出现在发音词典中的音素序列是有可能的，没有出现的则是没有可能的。但是在多音词存在的情况下，可以给同一个词的各种不同音分别赋予一个概率，同一个词的各种不同音对应的概率之和为1。根据第一概率，利用发音词典计算音素对应于词的概率，可以理解为，根据第一概率中所对应的音素，该音素对应于词的概率。具体方法为：第一概率乘以第一概率中对应的音素对应于词的概率，选取计算结果中最大的一个或者多个概率，得到第二概率。

第三概率计算单元405用于根据第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型。语言模型是使用大量的文本训练出来的，描述的是自然语言中词与词之间的先后关系，即在语言模型中保存有大量的自然语言中所出现的词与词之间先后关系，以及词与词之间先后关系的概率。在本发明实施例中，语言模型是N元语法模型(N-gram模型)，N-gram模型存储的是任意一个词、任意两个词、任意三个词在大量文本中出现的概率。如S1＝我刚吃过晚饭，S1＝刚我过晚饭吃，显然在中文中，S1是一个通顺的句子，S2则不是，所以P(S1)>P(S2)。根据第二概率，利用语言模型计算词组合成关键词的概率，具体方法为：第二概率乘以词组合成关键词的概率，得到第三概率，该第三概率所对应的关键词即为初步识别结果，该第三概率可能有多个，那么对应有多个关键词。

判断单元406用于判断第三概率是否大于阈值。其中，阈值表示的是概率，是根据经验得出的数据。

统计单元407用于若第三概率大于阈值，统计第三概率对应的关键词的数据。若第三概率大于阈值的有多个，那么统计出的第三概率对应的关键词的数量可能也会有多个。

判断单元406还用于判断第三概率对应的关键词的数量是否为一个。

结果确定单元408用于若第三概率对应的关键词的数量为一个，将该第三概率对应的关键词作为关键词识别的结果。结果确定单元407还用于若第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。其中，预设规则可以是从多个第三概率对应的关键词中随机选取，可以是选取第三概率最大的那个，也可以是选取多个第三概率对应的关键词中的第一个等。

上述实施例通过接收输入的语音信号；提取语音信号中的音频特征；根据所述音频特征，利用声学模型、发音词典、语言模型计算关键词对于声学模型、发音词典、语言模型的概率，即第三概率；判断所述第三概率是否大于阈值，若所述第三概率大于阈值，统计第三概率对应的关键词的数量；若第三概率对应的关键词的数量只有一个，将所述第三概率大于阈值的对应的关键词作为关键词识别的结果；若第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。该实施例中，可以理解为，如果语句中出现了关键词，且语句中出现的关键词所对应的概率大于阈值，则认为该语句中有关键词，而非只要关键词在语句中出现，就认为语句中有关键词。如此，可以大大地提高关键词的识别率。

图6为本发明另一实施例提供的一种语音关键词识别装置的示意性框图。该装置60包括接收单元601、特征提取单元602、第一概率计算单元603、第二概率计算单元604、权重调整单元605、第三概率计算单元506、阈值调整单元607、判断单元608、统计单元609、结果确定单元610。该实施例与图4实施例的区别在于：增加了权重调整单元605、阈值调整单元607。其他单元的详细内容请结合图4实施例中相对应单元的描述，在此不再赘述。

权重调整单元605用于调整语言模型中关键词以及垃圾模型的权重。其中，关键词与垃圾模型的权重之和为1。如在语言模型中提升关键词的权重，也就提升了关键词出现的概率，这样对于识别结果中所算出的关键词的概率就会提升，即计算出的第三概率就会提升；在语言模型中降低关键词的权重，也就降低了关键词出现的概率，这样对于识别结果中所算出的关键词的概率就会降低，即计算出的第三概率就会降低。如在多次识别中，识别出关键词的识别率比较低，可以理解为，很多时候没有识别出关键词，则可以提升关键词的权重。

第三概率计算单元606还用于根据第二概率，利用调整后的语言模型计算词组合成关键词的概率，作为第三概率。

阈值调整单元607用于调整阈值。如在多次识别中，若经常检测到第三概率大于调整后的阈值的数量有多个，则可以提升阈值，以过滤每次识别结果中的一部分的关键词。在其他实施例中，调整语言模型中关键词以及垃圾模型的权重后，对应的，调整阈值。如提升关键词的权重，漏检(语句中有关键词，但是没有识别出来)减少，误检(语句中没有关键词，但是却识别出来)增加，且检出的关键词的概率增加，因此提升关键词的权重，并提升阈值，可以过滤误检，降低漏检率；降低语言模型中的关键词的权重，漏检增加，误检减少，检出的关键系序列的第三概率减少，因此降低关键词的权重，并降低阈值，可以防止将检出的关键词过滤掉，降低误检率。

判断单元608用于判断第三概率是否大于调整后的阈值。

统计单元609用于若第三概率大于调整后的阈值，统计第三概率对应的关键词的数量。若第三概率大于阈值的有多个，那么统计出的第三概率对应的关键词的数量可能也会有多个。

上述语音关键词识别装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的语音关键词识别设备上运行。

图7为本发明实施例提供的一种语音关键词识别设备的示意性框图。该语音关键词识别设备70可以是终端，该终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。该设备70包括通过系统总线701连接的处理器702、存储器和网络接口703，其中，存储器可以包括非易失性存储介质704和内存储器705。

该非易失性存储介质704可存储操作系统741和程序数据742。该程序数据742被执行时，可使得处理器702执行一种语音关键词识别方法。

该处理器702用于提供计算和控制能力，支撑整个设备70的运行。

该内存储器705中可储存有程序数据，该程序数据被处理器702执行时，可使得处理器702执行一种语音关键词识别方法。

该网络接口703用于进行网络通信，如接收语音信号等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备70的限定，具体的设备70可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器702用于运行存储器中存储的程序数据，以执行如下操作：

接收输入的语音信号；提取所述语音信号中的音频特征；利用声学模型计算所述音频特征所对应的音素的概率，作为第一概率；根据第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字；根据第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型；判断所述第三概率是否大于阈值；若所述第三概率大于阈值，统计所述第三概率对应的关键词的数量；若所述第三概率对应的关键词的数量为一个，将所述第三概率对应的关键词作为关键词识别的结果。

在所述根据第二概率，利用语言模型计算词组合成关键词的概率之前，处理器702还执行如下操作：

调整语言模型中关键词以及垃圾模型的权重；根据第二概率，利用语言模型计算词组合成关键词的概率，包括：根据第二概率，利用调整后的语言模型计算词组合成关键词的概率。

在所述判断所述第三概率是否大于阈值之前，处理器702还执行如下操作：

调整所述阈值；判断所述第三概率是否大于阈值，包括：判断所述第三概率是否大于调整后的阈值。

处理器702还执行：

所述调整语言模型中关键词以及垃圾模型的权重，包括：增加关键词的权重，减少垃圾模型的权重；同时所述调整所述阈值，包括：提升所述阈值；或者

所述调整语言模型中关键词以及垃圾模型的权重，包括：减少关键词的权重，增加垃圾模型的权重；同时所述调整所述阈值，包括：降低所述阈值。

处理器702还执行：

若所述第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。

处理器702还执行：

利用声学模型计算所述音频特征对应的状态序列的概率；利用声学模型计算所述状态序列对于音素的概率。

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图7中示出的业务合并的设备70结构并不构成对设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，业务合并的设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现以下步骤：

接收输入的语音信号；提取所述语音信号中的音频特征；利用声学模型计算所述音频特征所对应的音素的概率，作为第一概率；根据第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字；根据第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型；判断所述第三概率是否大于阈值；若所述第三概率大于阈值，统计所述第三概率对应的关键词的数量；若所述第三概率对应的关键词的数量是为一个，将所述第三概率对应的关键词作为关键词识别的结果。

在所述根据第二概率，利用语言模型计算词组合成关键词的概率之前，所述步骤还包括：

在所述判断第三概率是否大于阈值之前，所述步骤还包括：

所述步骤还包括：

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音关键词识别方法，其特征在于，所述方法包括：

接收输入的语音信号；

提取所述语音信号中的音频特征；

判断所述第三概率是否大于阈值；

2.如权利要求1所述的方法，其特征在于：

在所述利用语言模型计算词组合成关键词的概率之前，还包括：

调整语言模型中关键词以及垃圾模型的权重；

利用语言模型计算词组合成关键词的概率，包括：利用调整后的语言模型计算词组合成关键词的概率。

3.如权利要求2所述的方法，其特征在于：

在所述判断所述第三概率是否大于阈值之前，还包括：

调整所述阈值；

所述判断所述第三概率是否大于阈值，包括：判断所述第三概率是否大于调整后的阈值。

4.如权利要求1所述的方法，其特征在于，利用声学模型计算所述音频特征所对应的音素的概率，包括：

利用声学模型计算所述音频特征对应的状态序列的概率；

利用声学模型计算所述状态序列对于音素的概率。

5.如权利要求1所述的方法，其特征在于：

6.一种语音识别装置，其特征在于，所述装置包括：

接收单元，用于接收输入的语音信号；

特征提取单元，用于提取所述语音信号中的音频特征；

第一概率计算单元，用于利用声学模型计算所述音频特征所对应的音素的概率，作为第一概率；

第二概率计算单元，用于根据所述第一概率，利用发音词典计算音素对应于词的概率，作为第二概率，其中，发音词典包括所有关键词的发音以及垃圾模型的发音，其中，垃圾模型包括所有的单字；

第三概率计算单元，用于根据所述第二概率，利用语言模型计算词组合成关键词的概率，作为第三概率，其中，语言模型包括所有的关键词以及垃圾模型；

判断单元，用于判断所述第三概率是否大于阈值；

统计单元，用于若所述第三概率大于阈值，统计所述第三概率对应的关键词的数量；

结果确定单元，用于若所述第三概率对应的关键词的数量为一个，则将所述第三概率对应的关键词作为关键词识别的结果。

7.如权利要求6所述的装置，其特征在于，所述装置还包括权重调整单元、阈值调整单元；其中，

所述权重调整单元，用于调整语言模型中关键词以及垃圾模型的权重；

所述第三概率计算单元，还用于利用调整后的语言模型计算词组合成关键词的概率；

所述阈值调整单元，用于调整所述阈值；

所述判断单元，还用于判断所述第三概率是否大于调整后的阈值。

8.如权利要求6所述的装置，其特征在于：

所述结果确定单元，还用于若所述第三概率对应的关键词的数量有多个，根据预设规则选取其中一个第三概率对应的关键词作为关键词识别的结果。

9.一种语音关键词识别设备，其特征在于，所述语音关键词识别设备包括存储器，以及与所述存储器相连的处理器；

所述存储器用于存储实现语音关键词识别的程序数据；所述处理器用于运行所述存储器中存储的程序数据，以执行如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序数据，所述一个或者多个程序数据可被一个或者多个的处理器执行，以实现如权利要求1-5任一项所述的方法。