CN107360327B

CN107360327B - 语音识别方法、装置和存储介质

Info

Publication number: CN107360327B
Application number: CN201710588382.8A
Authority: CN
Inventors: 唐惠忠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2021-05-07
Anticipated expiration: 2037-07-19
Also published as: WO2019015435A1; US11244672B2; CN107360327A; JP6949195B2; JP2020527754A; KR20200027554A; KR102354275B1; US20200152177A1

Abstract

本发明实施例公开了一种语音识别方法、装置和存储介质；本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

Description

语音识别方法、装置和存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种语音识别方法、装置和存储介质。

背景技术

随着人工智能的发展，智能硬件产品也得到快速发展。所谓智能硬件产品，指的集成了人工智能功能的硬件设备，比如智能移动终端(简称移动终端)等。智能硬件产品的核心必然离不开与“人”的互动，而语音交互作为自然、且学习成本低的交互方式已成为智能硬件产品的主流技术。

在语音交互中，如何进行语音唤醒是一个重要的问题。以移动终端为例，在现有技术中，为了实现语音快速唤醒，一般都会要求终端的录音功能一直处于开启状态，且中央处理器(CPU，Central Processing Unit)能够随时对音频数据进行处理，即便在用户未说话时，CPU也不能休眠。由于CPU需要对各种音频数据进行编解码、播放、以及实现其他各种功能，因此，该方案对CPU的规格要求较高，而且，整个系统的功耗也非常大，对于使用电池供电的移动终端而言，会大大缩短其待机时间。为此，现有技术又提出了采用外接电源来进行供电，或采用一个物理按键来进行唤醒的方案，但是，若采用外接电源，则势必会影响其移动性，而若通过物理按键来唤醒，则无法实现语音唤醒；也就是说，在现有方案中，若需要保持其移动性和语音唤醒功能，则必然需要消耗大量的电池电量，这将大大减少移动终端的待机时间，影响移动终端的性能。

发明内容

本发明实施例提供一种语音识别方法、装置和存储介质；可以减少系统功耗，使得在保持移动性和语音唤醒功能的前提下，延长移动终端的待机时间，改善移动终端的性能。

本发明实施例提供一种语音识别方法，包括：

获取音频数据；

通过数字信号处理器(DSP，Digital Signal Processing)对所述音频数据进行模糊语音识别；

当模糊语音识别结果指示存在唤醒词时，由DSP唤醒CPU，所述CPU处于休眠状态；

通过CPU对所述音频数据进行语义分析，并根据分析结果执行相应操作。

相应的，本发明实施例提供一种语音识别装置，包括：

获取单元，用于获取音频数据；

模糊识别单元，用于通过DSP对所述音频数据进行模糊语音识别；

唤醒单元，用于当模糊语音识别结果指示存在唤醒词时，由DSP唤醒CPU，所述CPU处于休眠状态；

处理单元，用于通过CPU对所述音频数据进行语义分析，并根据分析结果执行相应操作。

可选的，在一部分实施例中，所述模糊识别单元，具体用于通过DSP，采用模糊聚类分析对所述音频数据进行语音识别，得到模糊语音识别结果。

例如，所述模糊识别单元，具体可以用于：根据模糊聚类分析建立模糊聚类神经网络；将所述模糊聚类神经网络作为概率密度函数的估计器，对所述音频数据包含唤醒词的概率进行预测；若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果；若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。

可选的，在一部分实施例中，所述模糊识别单元，具体用于通过DSP，采用模糊匹配算法对所述音频数据进行语音识别，得到模糊语音识别结果。

例如，所述模糊识别单元，具体可以用于获取唤醒词读音的特征图，得到标准特征图；分析所述音频数据中各个单词读音的特征图，得到待匹配特征图；根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值；若所述程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果；若所述程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。

可选的，在一部分实施例中，所述语音识别装置还可以包括精确识别单元，如下：

所述精确识别单元，用于从DSP中读取所述音频数据中包含唤醒词的数据，得到唤醒数据；通过所述CPU对所述唤醒数据进行语音识别；当语音识别结果指示存在唤醒词时，触发处理单元执行通过CPU对所述音频数据进行语义分析的操作；当语音识别结果指示不存在唤醒词时，将CPU设置为休眠，并触发获取单元执行获取音频数据的操作。

其中，所述精确识别单元，具体可以用于将所述CPU的工作状态设置为第一状态，所述第一状态为单核且低频，在所述第一状态下，对所述唤醒数据进行语音识别。

可选的，在一部分实施例中，所述处理单元，具体可以用于将所述CPU的工作状态设置为第二状态，所述第二状态为多核且高频，在所述第二状态下，对所述音频数据进行语义分析。

可选的，在一部分实施例中，所述处理单元，具体可以用于根据所述音频数据对应的唤醒词确定语义场景，根据语义场景确定CPU的工作核数和主频大小，根据所述工作核数和主频大小对CPU的工作状态进行设置，得到第三状态，在所述第三状态下，对所述音频数据进行语义分析。

可选的，在一部分实施例中，所述语音识别装置还可以包括过滤单元，如下：

所述过滤单元，用于对所述音频数据进行降噪和/或回音消除处理。

相应的，本发明实施例还提供一种移动终端，所述移动终端包括存储介质和处理器，所述存储介质存储有多条指令，所述处理器用于加载并执行所述指令，所述指令用于实现本发明实施例所提供的任一种语音识别方法中的步骤。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种语音识别方法中的步骤。

本发明实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；由于该方案采用了运行功耗较低的DSP，代替运行功耗较高的CPU来对音频数据进行监听，因此，CPU无需一直处于被唤醒状态，而是可以处于休眠状态，并在需要时才被唤醒；所以，相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言，该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的移动终端的架构图；

图1b是本发明实施例提供的语音识别方法的场景示意图；

图1c是本发明实施例提供的语音识别方法的流程图；

图1d是本发明实施例提供的语音识别方法的框图；

图2a是本发明实施例提供的语音识别方法的另一流程图；

图2b是本发明实施例提供的语音识别方法的另一框图；

图3a是本发明实施例提供的语音识别装置的结构示意图；

图3b是本发明实施例提供的语音识别装置的另一结构示意图；

图4是本发明实施例提供的移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音识别方法、装置和存储介质。

该语音识别装置具体可以集成在移动终端，比如手机、穿戴式智能设备、平板电脑、和/或笔记本电脑等设备中。

例如，以该语音识别装置集成在移动终端中为例，参见图1a，可以在移动终端中设置一DSP，比如，可以将该DSP设置在编码解码器(Codec，Coder-decoder)中(如带有DSP功能的编码解码器)，这样，当移动终端获取到音频数据，如通过麦克风(MIC，Microphone)接收到用户发出的声音后，便可以通过该DSP对该音频数据进行模糊语音识别，若模糊语音识别结果指示存在唤醒词，则由DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作，比如，参见图1b；否则，若模糊语音识别结果指示存在唤醒词，则不唤醒CPU，而是由DSP继续对音频数据进行监听。

需说明的是，DSP是一种特别适合于进行数字信号处理运算的微处理器，它可以实时快速地实现各种数字信号处理算法，而且，由于其具有低开销或无开销循环及跳转的硬件支持的特性，所以，相对于其他处理器而言，其功耗也较低；此外，DSP还具有降噪的功能。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

在本实施例中，将以语音识别装置的角度进行描述，该语音识别装置具体可以集成在移动终端等设备中，该移动终端可以包括手机、穿戴式智能设备、平板电脑、和/或笔记本电脑等设备。

本实施例提供一种语音识别方法，包括：获取音频数据，通过DSP对该音频数据进行模糊语音识别，当模糊语音识别结果指示存在唤醒词时，由DSP唤醒处于休眠状态的CPU，通过CPU对该音频数据进行语义分析，并根据分析结果执行相应操作。

如图1c所示，该语音识别方法的具体流程可以如下：

101、获取音频数据。

例如，具体可以通过MIC，比如移动终端内置的MIC模块来采集该音频数据。

其中，该音频数据可以包括各种形式的声音所转换成的数据，该声音的类别可以不做限定，比如，可以是说话声、动物发出的声音、敲打物体的声音、和/或音乐，等等。

102、通过DSP对该音频数据进行模糊语音识别。

其中，模糊语音识别的方式可以有多种，比如，可以采用模糊聚类分析来对该音频数据进行语音识别，或者，也可以采用模糊匹配算法来对该音频数据进行语音识别，等等；即步骤“通过DSP对该音频数据进行模糊语音识别”具体可以如下：

(1)通过DSP，采用模糊聚类分析对该音频数据进行语音识别，得到模糊语音识别结果。

比如，具体可以根据模糊聚类分析建立模糊聚类神经网络，将该模糊聚类神经网络作为概率密度函数的估计器，对该音频数据包含唤醒词的概率进行预测，若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果，否则，若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。

其中，模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵，并在此基础上根据一定的隶属度来确定聚类关系，即用模糊数学的方法把样本之间的模糊关系定量的确定，从而客观且准确地进行聚类。聚类就是将数据集分成多个类或簇，使得各个类之间的数据差别应尽可能大，类内之间的数据差别应尽可能小。

其中，该设定值可以根据实际应用的需求进行设置，在此不再赘述。

(2)通过DSP，采用模糊匹配算法对该音频数据进行语音识别，得到模糊语音识别结果。

比如，具体可以获取唤醒词读音的特征图，得到标准特征图，以及分析该音频数据中各个单词读音的特征图，得到待匹配特征图，然后，根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值，若该程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果，否则，若该程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。

其中，该隶属度函数和预设值可以根据实际应用的需求进行设置，在此不再赘述。

可选的，为了提高语音识别的精度，在通过DSP对该音频数据进行模糊语音识别之前，还可以对该音频数据进行降噪和/或回音消除等过滤处理，即如图1d所示，在步骤“通过DSP对该音频数据进行模糊语音识别”之前，该语音识别方法还可以包括：

对该音频数据进行降噪和/或回音消除处理，得到处理后音频数据。

则此时，步骤“通过DSP对该音频数据进行模糊语音识别”具体可以为：通过DSP对该处理后音频数据进行模糊语音识别。

103、当模糊语音识别结果指示存在唤醒词时，由DSP唤醒处于休眠状态的CPU，即由DSP激活CPU的运行程序，比如，具体可以激活CPU中关于录音和音频数据的相关运行程序。

其中，唤醒词可以是一个，也可以是多个，该唤醒词具体可以根据实际应用的需求预先进行设置。比如，以该唤醒词包括“打电话”和“发信息”为例，则当模糊语音识别结果指示该音频数据中存在“打电话”或“发信息”这个词时，便可由DSP唤醒CPU，以此类推，等等。

104、通过CPU对该音频数据进行语义分析，并根据分析结果执行相应操作。

例如，具体可以根据分析结果确定操作对象和操作内容，然后，对该操作对象执行该操作内容，等等。

由于DSP的资源有限，语音识别精度不高，因此，为了进一步提高识别的精度，避免误唤醒的情况发生，可选的，在通过CPU对该音频数据进行语义分析之前，还可以由CPU对该音频数据作进一步识别，即在步骤“通过CPU对该音频数据进行语义分析”之前，该语音识别方法还可以包括：

从DSP中读取该音频数据中包含唤醒词的数据，得到唤醒数据，通过该CPU对该唤醒数据进行语音识别，当语音识别结果指示存在唤醒词时，执行通过CPU对该音频数据进行语义分析的步骤，否则，当语音识别结果指示不存在唤醒词时，将CPU设置为休眠，并返回执行获取音频数据的步骤(即步骤101)。

可选的，为了节省功耗，CPU在被唤醒时，可以不开启所有核心，而是采用单核和低频来进行运算处理，即步骤“通过该CPU对该唤醒数据进行语音识别”可以包括：

将该CPU的工作状态设置为单核且低频，使得CPU在该工作状态下对该唤醒数据进行语音识别。

其中，为了描述方便，在本发明实施例中，将这种“单核且低频”的工作状态称为第一状态，即CPU可以在该第一状态下，对该唤醒数据进行语音识别。

可选的，为了提高处理效率，当CPU确定存在唤醒词时，可以增加核数，并提升主频来对该音频数据进行语义分析，即步骤“通过CPU对该音频数据进行语义分析”可以包括：

将该CPU的工作状态设置为多核且高频，并在该工作状态下，由CPU对该音频数据进行语义分析。

其中，为了描述方便，在本发明实施例中，将该“多核且高频”的工作状态称为第二状态，即，可以将该CPU的工作状态设置为第二状态，在该第二状态下，对该音频数据进行语义分析。

需说明的是，在本发明实施例中，多核是指在采用处理器中所集成的两个或多个完整的计算引擎(内核)；低频指的是主频低于预设频数，高频指的是主频高于等于预设频数，其中，该预设频数可以根据实际应用的需求而定，在此不再赘述。

可选的，为了提高处理的灵活性，使得功耗的消耗和处理效率可以得到更好地均衡，还可以根据具体的语音场景来调整CPU的工作核数和主频大小，即步骤“通过CPU对该音频数据进行语义分析”可以包括：

根据该音频数据对应的唤醒词确定语义场景，根据语义场景确定CPU的工作核数和主频大小，根据该工作核数和主频大小对CPU的工作状态进行设置，得到第三状态，在该第三状态下，对该音频数据进行语义分析。

比如，在“打电话”的语义场景下，可以采用较低的工作核数和主频大小来对该音频数据进行语义分析，而在“搜索”的语义场景下，可以采用较高的工作核数和主频大小来对该音频数据进行语义分析，等等。

由上可知，本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；由于该方案采用了运行功耗较低的DSP，代替运行功耗较高的CPU来对音频数据进行监听，因此，CPU无需一直处于被唤醒状态，而是可以处于休眠状态，并在需要时才被唤醒；所以，相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言，该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该语音识别装置具体集成在移动终端中为例进行说明。

如图2a所示，一种语音识别方法，具体流程可以如下：

201、移动终端通过MIC来采集该音频数据。

其中，该MIC可以独立于该移动终端，也可以内置在该移动终端中。而该音频数据则可以包括各种形式的声音所转换成的数据，该声音的类别可以不做限定，比如，可以是说话声、动物发出的声音、敲打物体的声音、和/或音乐，等等。

202、移动终端通过DSP对该音频数据进行模糊语音识别，若模糊语音识别结果指示存在唤醒词，则执行步骤203，否则，否模糊语音识别结果指示不存在唤醒词，则返回执行步骤201。

其中，唤醒词可以是一个，也可以是多个，该唤醒词具体可以根据实际应用的需求预先进行设置，比如，可以是“打电话”、“发信息”、“*是谁”、“谁是*”、“*是什么”、和/或“什么是*”，等等，其中，“*”可以是任意名词，比如“张三是谁”、“谁是李四”、或“Java是什么”，以此类推，等等。

其中，该DSP可以设置在该移动终端的编码解码器(即Codec)中，比如，如图1a所示。该编码解码器可以对音频数据进行压缩和解压缩(即编码和解编码)；当MIC采集到音频数据后，会将该音频数据传送给编码解码器，以进行处理，如进行压缩和/或解压缩等处理，然后，传送给DSP进行模糊语音识别。其中，模糊语音识别的方式可以有多种，比如，可以采用模糊聚类分析来对该音频数据进行语音识别，或者，也可以采用模糊匹配算法来对该音频数据进行语音识别，等等，例如，具体可以如下：

(1)移动终端通过DSP，采用模糊聚类分析对该音频数据进行语音识别，得到模糊语音识别结果。

比如，DSP具体可以根据模糊聚类分析建立模糊聚类神经网络，然后，将该模糊聚类神经网络作为概率密度函数的估计器，对该音频数据包含唤醒词的概率进行预测，若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果，否则，若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。

(2)移动终端通过DSP，采用模糊匹配算法对该音频数据进行语音识别，得到模糊语音识别结果。

比如，DSP具体可以获取唤醒词读音的特征图，得到标准特征图，以及分析该音频数据中各个单词读音的特征图，得到待匹配特征图，然后，根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值，若该程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果，否则，若该程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。

其中，该隶属度函数和预设值可以根据实际应用的需求进行设置，此外，待匹配特征图属于标准特征图的程度也可通过隶属度来表示，隶属度越接近于1，表示该待匹配特征图属于标准特征图的程度越高，隶属度越接近于0，则表示该待匹配特征图属于标准特征图的程度越低，在此不再赘述。

可选的，为了提高语音识别的精度，在通过DSP对该音频数据进行模糊语音识别之前，还可以对该音频数据进行降噪和/或回音消除等过滤处理，即如图2b所示，步骤“移动终端通过DSP对该音频数据进行模糊语音识别”之前，该语音识别方法还可以包括：

移动终端对该音频数据进行降噪和/或回音消除处理，得到处理后音频数据。

则此时，步骤“移动终端通过DSP对该音频数据进行模糊语音识别”具体可以为：移动终端通过DSP对该处理后音频数据进行模糊语音识别。

203、当模糊语音识别结果指示存在唤醒词时，由DSP唤醒处于休眠状态的CPU。

例如，具体可以由DSP激活CPU的运行程序，比如，具体可以激活CPU中关于录音和音频数据的相关运行程序，等等。

比如，以该唤醒词包括“打电话”和“发信息”为例，则当模糊语音识别结果指示该音频数据中存在“打电话”或“发信息”这个词时，便可由DSP唤醒CPU，以此类推，等等。

204、移动终端通过DSP读取该音频数据中包含唤醒词的数据，得到唤醒数据，然后执行步骤205。

例如，以唤醒词“打电话”为例，若DSP在对某段音频数据进行语音识别时，确定A段数据存在唤醒词“打电话”，则此时，移动终端可以读取A段数据，将该A段数据作为唤醒数据。

又例如，以唤醒词“发信息”为例，若DSP在对某段音频数据进行语音识别时，确定B段数据存在唤醒词“发信息”，则此时，移动终端可以读取B段数据，将该B段数据作为唤醒数据，以此类推，等等。

205、移动终端通过该CPU对该唤醒数据进行语音识别，当语音识别结果指示存在唤醒词时，执行步骤206，否则，当语音识别结果指示不存在唤醒词时，将CPU设置为休眠，并返回执行获取音频数据的步骤(即步骤201)，比如，具体可以通知DSP执行对音频数据进行语音识别的操作，参见图2b。

将该CPU的工作状态设置为第一状态，即设置为单核且低频，使得CPU在该第一状态下对该唤醒数据进行语音识别。

步骤204和205为可选步骤。

206、移动终端通过CPU对该音频数据进行语义分析，然后执行步骤207。

例如，具体可以将该CPU的工作状态设置为第二状态，即设置为多核且高频，并在该第二状态下，由CPU对该音频数据进行语义分析。

可选的，为了提高处理的灵活性，使得功耗的消耗和处理效率可以得到更好地均衡，还可以根据具体的语音场景来调整CPU的工作核数和主频大小；比如，移动终端可以根据该音频数据对应的唤醒词确定语义场景，然后，根据语义场景确定CPU的工作核数和主频大小，根据该工作核数和主频大小对CPU的工作状态进行设置(即第三状态)，并在该工作状态下，对该音频数据进行语义分析。

比如，若“打电话”对应的语义场景下，需要CPU的工作核数为单核，主频大小为Xmhz；“发信息”对应的语义场景下，需要CPU的工作核数为单核，主频大小为Y mhz；“搜索”对应的语义场景下，需要CPU的工作核数为双核，主频大小为Z mhz；则具体可以如下：

若唤醒词为“打电话”，则可以将CPU的工作核数设置为单核，且主频大小设置为Xmhz，然后，在该工作状态下，由CPU对该音频数据进行语义分析。

若唤醒词为“发信息”，则可以将CPU的工作核数设置为单核，且主频大小设置为Ymhz，然后，在该工作状态下，由CPU对该音频数据进行语义分析。

若唤醒词为“搜索”，则可以将CPU的工作核数设置为双核，且主频大小设置为Zmhz，然后，在该工作状态下，由CPU对该音频数据进行语义分析。

以此类推，等等。

需说明的是，CPU在被唤醒之后，如图2b所示，移动终端还可以通过MIC继续采集其他的音频数据，并由唤醒后的CPU进行语义分析，并根据分析结果执行相应操作，其中，语义分析的方式和“根据分析结果执行相应操作”的方式具体可参见步骤206和207，在此不再赘述。

207、移动终端根据分析结果执行相应操作，比如，可以根据分析结果确定操作对象和操作内容，然后，通过CPU对该操作对象执行该操作内容，等等。

例如，以“打电话给张三”为例，移动终端可以确定操作对象为“通信录中的张三的电话号码”，操作内容为“拨打电话号码”，因此，此时可以通过CPU拨打通信录中的张三的电话号码，从而完成“打电话给张三”的任务。

又例如，以“搜索诗词”为例，移动终端可以确定操作对象为“搜索引擎应用”，操作内容为“通过搜索引擎应用搜索关键词‘诗词’”，因此，此时可以通过启动该移动终端中的搜索引擎应用，并通过搜索引擎应用搜索关键词‘诗词’，从而完成“搜索诗词”的任务，以此类推，等等。

由上可知，本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，由CPU采用单核且低频的工作状态再次对是否存在唤醒词进行确认，若CPU确定不存在唤醒词，则CPU切换至休眠状态，由DSP继续进行监听，只有在CPU确定存在唤醒词时，才由CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；由于该方案采用了运行功耗较低的DSP，代替运行功耗较高的CPU来对音频数据进行监听，因此，CPU无需一直处于被唤醒状态，而是可以处于休眠状态，并在需要时才被唤醒；所以，相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言，该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

此外，由于该方案除了可以由DSP对唤醒词进行识别之外，还可以由CPU再次对唤醒词进行识别，因此，识别的精度较高，而且，由于CPU在对唤醒词进行识别时，采用的是较低功耗的工作状态(比如单核和低频)，只有在确定存在唤醒词时，CPU才会采用较高功耗的工作状态来进行语义分析，因此，资源的利用更为合理有效，有利于进一步改善移动终端的性能。

实施例三、

为了更好地实施以上方法，本发明实施例还提供一种语音识别装置，该语音识别装置具体可以集成在移动终端，比如手机、穿戴式智能设备、平板电脑、和/或笔记本电脑等设备中。

例如，参见图3a，该语音识别装置可以包括获取单元301、模糊识别单元302、唤醒单元303和处理单元304，如下：

(1)获取单元301；

获取单元301，用于获取音频数据。

例如，获取单元301，具体可以用于通过MIC，比如移动终端内置的MIC模块来采集该音频数据。

(2)模糊识别单元302；

模糊识别单元302，用于通过DSP对该音频数据进行模糊语音识别。

其中，模糊语音识别的方式可以有多种，比如，可以采用模糊聚类分析来对该音频数据进行语音识别，或者，也可以采用模糊匹配算法来对该音频数据进行语音识别，等等；即：

第一种方式：

模糊识别单元302，具体可以用于通过DSP，采用模糊聚类分析对该音频数据进行语音识别，得到模糊语音识别结果。

比如，该模糊识别单元302，具体可以用于根据模糊聚类分析建立模糊聚类神经网络，将该模糊聚类神经网络作为概率密度函数的估计器，对该音频数据包含唤醒词的概率进行预测，若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果；若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。

第二种方式：

模糊识别单元302，具体可以用于通过DSP，采用模糊匹配算法对该音频数据进行语音识别，得到模糊语音识别结果。

比如，该模糊识别单元302，具体可以用于获取唤醒词读音的特征图，得到标准特征图，分析该音频数据中各个单词读音的特征图，得到待匹配特征图，根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值，若该程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果；若该程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。

可选的，为了提高语音识别的精度，在通过DSP对该音频数据进行模糊语音识别之前，还可以对该音频数据进行降噪和/或回音消除等过滤处理，即如图3b所示，该语音识别装置还可以包括过滤单元305，如下：

过滤单元305，可以用于对该音频数据进行降噪和/或回音消除处理。

则此时，模糊识别单元302，具体可以用于通过DSP对过滤单元305处理后音频数据进行模糊语音识别。

(3)唤醒单元303；

唤醒单元303，可以用于当模糊语音识别结果指示存在唤醒词时，由DSP唤醒处于休眠状态的CPU。

其中，唤醒词可以是一个，也可以是多个，该唤醒词具体可以根据实际应用的需求预先进行设置，在此不再赘述。

(4)处理单元304；

处理单元304，用于通过CPU对该音频数据进行语义分析，并根据分析结果执行相应操作。

例如，处理单元304，具体可以用于通过CPU对该音频数据进行语义分析，并根据分析结果确定操作对象和操作内容，然后，对该操作对象执行该操作内容，等等。

可选的，为了进一步提高识别的精度，避免误唤醒的情况发生，在通过CPU对该音频数据进行语义分析之前，还可以由CPU对该音频数据作进一步识别，即如图3b所示，该语音识别装置还可以包括精确识别单元306，如下：

该精确识别单元306，可以用于从DSP中读取该音频数据中包含唤醒词的数据，得到唤醒数据；通过该CPU对该唤醒数据进行语音识别；当语音识别结果指示存在唤醒词时，触发处理单元执行通过CPU对该音频数据进行语义分析的操作；当语音识别结果指示不存在唤醒词时，将CPU设置为休眠，并触发获取单元执行获取音频数据的操作。

可选的，为了节省功耗，CPU在被唤醒时，可以不开启所有核心，而是采用单核和低频来进行运算处理，即：

该精确识别单元306，具体可以用于将该CPU的工作状态设置为第一状态，在该第一状态下，对该唤醒数据进行语音识别，其中，该第一状态为单核且低频。

可选的，为了提高处理效率，当CPU确定存在唤醒词时，可以增加核数，并提升主频来对该音频数据进行语义分析，即：

该处理单元，具体可以用于将该CPU的工作状态设置为第二状态，在该第二状态下，对该音频数据进行语义分析，其中，该第二状态为多核且高频。

可选的，为了提高处理的灵活性，使得功耗的消耗和处理效率可以得到更好地均衡，还可以根据具体的语音场景来调整CPU的工作核数和主频大小，即：

该处理单元304，具体可以用于根据该音频数据对应的唤醒词确定语义场景，根据语义场景确定CPU的工作核数和主频大小，根据该工作核数和主频大小对CPU的工作状态进行设置，得到第三状态，在该第三状态下，对该音频数据进行语义分析。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施，在此不再赘述。

由上可知，本实施例的语音识别装置在获取到音频数据后，可以由模糊识别单元302通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由唤醒单元303唤醒处于休眠状态的CPU，并由处理单元304通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；由于该方案采用了运行功耗较低的DSP，代替运行功耗较高的CPU来对音频数据进行监听，因此，CPU无需一直处于被唤醒状态，而是可以处于休眠状态，并在需要时才被唤醒；所以，相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言，该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

实施例四、

相应的，本发明实施例还提供一种移动终端，如图4所示，该移动终端可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，WirelessFidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的移动终端结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。通常，RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

移动终端还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在移动终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于移动终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与移动终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一移动终端，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与移动终端的通信。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是移动终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行移动终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

移动终端还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，移动终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，移动终端中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

获取音频数据，通过DSP对该音频数据进行模糊语音识别，当模糊语音识别结果指示存在唤醒词时，由DSP唤醒处于休眠状态的CPU，通过CPU对该音频数据进行语义分析，并根据分析结果执行相应操作。

例如，具体可以采用模糊聚类分析或模糊匹配算法来对该音频数据进行语音识别，等等，具体可参见前面的实施例，在此不再赘述。

可选的，为了提高语音识别的精度，在通过DSP对该音频数据进行模糊语音识别之前，还可以对该音频数据进行降噪和/或回音消除等过滤处理，即处理器408还可以运行存储在存储器402中的应用程序，从而实现以下功能：

可选的，为了进一步提高识别的精度，避免误唤醒的情况发生，在通过CPU对该音频数据进行语义分析之前，还可以由CPU对该音频数据作进一步识别，即处理器408还可以运行存储在存储器402中的应用程序，从而实现以下功能：

从DSP中读取该音频数据中包含唤醒词的数据，得到唤醒数据，通过该CPU对该唤醒数据进行语音识别，当语音识别结果指示存在唤醒词时，执行通过CPU对该音频数据进行语义分析的操作，否则，当语音识别结果指示不存在唤醒词时，将CPU设置为休眠，并返回执行获取音频数据的操作。

以上各个操作的具体实施可参见前面的实施例在，在此不再赘述。

由上可知，本实施例的移动终端在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；由于该方案采用了运行功耗较低的DSP，代替运行功耗较高的CPU来对音频数据进行监听，因此，CPU无需一直处于被唤醒状态，而是可以处于休眠状态，并在需要时才被唤醒；所以，相对于现有方案只能通过外接电源或通过物理按键来唤醒的方案而言，该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

实施例五、

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种语音识别方法中的步骤。例如，该指令可以执行如下步骤：

可选的，为了提高语音识别的精度，在通过DSP对该音频数据进行模糊语音识别之前，还可以对该音频数据进行降噪和/或回音消除等过滤处理，即该指令还可以执行如下步骤：

可选的，为了进一步提高识别的精度，避免误唤醒的情况发生，在通过CPU对该音频数据进行语义分析之前，还可以由CPU对该音频数据作进一步识别，即该指令还可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种语音识别方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取音频数据；

通过数字信号处理器对所述音频数据进行模糊语音识别；

当模糊语音识别结果指示存在唤醒词时，由数字信号处理器唤醒中央处理器，所述中央处理器处于休眠状态；

通过中央处理器在第二状态下，对所述音频数据进行语义分析，并根据分析结果执行所述分析结果相应的操作; 所述第二状态为多核且高频；或

通过中央处理器在第三状态下，对所述音频数据进行语义分析，包括：

根据所述音频数据对应的唤醒词确定语义场景；

根据语义场景确定中央处理器的工作核数和主频大小；

根据所述工作核数和主频大小对中央处理器的工作状态进行设置，得到第三状态；

在所述第三状态下，对所述音频数据进行语义分析；

所述通过中央处理器对所述音频数据进行语义分析之前，还包括：

从数字信号处理器中读取所述音频数据中包含唤醒词的数据，得到唤醒数据；

通过所述中央处理器在第一状态下，对所述唤醒数据进行语音识别；所述第一状态为单核且低频；

当语音识别结果指示存在唤醒词时，执行通过中央处理器对所述音频数据进行语义分析的步骤；

当语音识别结果指示不存在唤醒词时，将中央处理器设置为休眠，并返回执行获取音频数据的步骤。

2.根据权利要求1所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别，包括：

通过数字信号处理器，采用模糊聚类分析对所述音频数据进行语音识别，得到模糊语音识别结果。

3.根据权利要求2所述的方法，其特征在于，所述通过数字信号处理器，采用模糊聚类分析对所述音频数据进行语音识别，得到模糊语音识别结果，包括：

根据模糊聚类分析建立模糊聚类神经网络；

将所述模糊聚类神经网络作为概率密度函数的估计器，对所述音频数据包含唤醒词的概率进行预测；

若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果；

若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。

4.根据权利要求1所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别，包括：

通过数字信号处理器，采用模糊匹配算法对所述音频数据进行语音识别，得到模糊语音识别结果。

5.根据权利要求4所述的方法，其特征在于，所述通过数字信号处理器，采用模糊匹配算法对所述音频数据进行语音识别，得到模糊语音识别结果，包括：

获取唤醒词读音的特征图，得到标准特征图；

分析所述音频数据中各个单词读音的特征图，得到待匹配特征图；

根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值；

若所述程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果；

若所述程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别之前，还包括：

对所述音频数据进行降噪和/或回音消除处理。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述根据分析结果执行相应操作，包括：

根据分析结果确定操作对象和操作内容；

对所述操作对象执行所述操作内容。

8.一种语音识别装置，其特征在于，包括：

获取单元，用于获取音频数据；

模糊识别单元，用于通过数字信号处理器对所述音频数据进行模糊语音识别；

唤醒单元，用于当模糊语音识别结果指示存在唤醒词时，由数字信号处理器唤醒中央处理器，所述中央处理器处于休眠状态；

处理单元，用于通过中央处理器在第二状态下，对所述音频数据进行语义分析，并根据分析结果执行相应操作; 所述第二状态为多核且高频;或

用于根据所述音频数据对应的唤醒词确定语义场景，根据语义场景确定中央处理器的工作核数和主频大小，根据所述工作核数和主频大小对中央处理器的工作状态进行设置，得到第三状态，在所述第三状态下，对所述音频数据进行语义分析；

精确识别单元，用于从数字信号处理器中读取所述音频数据中包含唤醒词的数据，得到唤醒数据；通过所述中央处理器在第一状态下，对所述唤醒数据进行语音识别；所述第一状态为单核且低频；当语音识别结果指示存在唤醒词时，触发处理单元执行通过中央处理器对所述音频数据进行语义分析的操作；当语音识别结果指示不存在唤醒词时，将中央处理器设置为休眠，并触发获取单元执行获取音频数据的操作。

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的语音识别方法中的步骤。