CN105788590B

CN105788590B - 语音识别方法及装置、移动终端

Info

Publication number: CN105788590B
Application number: CN201410784875.5A
Authority: CN
Inventors: 孙廷玮; 林福辉
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2019-06-07
Anticipated expiration: 2034-12-16
Also published as: CN105788590A

Abstract

一种语音识别方法及装置、移动终端，所述语音识别方法包括：采集声音信号；对所述声音信号进行处理，得到声音数据；判断所述声音数据是否为预设语音数据；当确定所述声音数据为预设语音数据时，对所述声音数据进行识别；根据识别出的语音数据执行相应的操作。上述的方案可以节约移动终端的电能和计算资源。

Description

语音识别方法及装置、移动终端

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法及装置、移动终端。

背景技术

移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。

移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便。例如，当用户驾驶车辆或者手中提有物品的时候。

语音识别方法和总听系统(Always Listening System)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时，语音识别系统便会激活，并对检测到的声音信号进行识别，之后，移动终端便会根据所识别出的声音信号执行相应的操作，例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。

但是，现有技术中的语音识别方法，无法正确地分辩特定用户的语音与其他的声音，一旦检测到声音信息，如噪声，也会进行语音检测，这将导致移动终端频繁地进行语音检测，因此，现有技术中的语音识别方法存在着浪费电能和计算资源的问题。

发明内容

本发明实施例解决的问题是如何节约移动终端的电能和计算资源。

为解决上述问题，本发明实施例提供了一种语音识别方法，所述语音识别方法包括：

采集声音信号；

对所述声音信号进行处理，得到声音数据；

判断所述声音数据是否为预设用户的预设语音数据；

当确定所述声音数据为预设用户的预设语音数据时，对所述声音数据进行识别；

根据识别出的语音数据执行相应的操作。

可选地，所述判断所述声音数据是否为预设语音数据，包括：

提取所述声音数据的特征量；

计算所述声音数据的特征量与第一模型之间的相似度分值，以及所述声音数据与第二模型之间的相似度分值，分别作为第一相似度分值和第二相似度分值，所述第一模型用于描述所述预设语音数据的信息，所述第二模型表示所有的话语，用于描述包括噪音在内的声环境的信息；

判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值；

当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时，确定所述声音数据为所述预设语音数据。

可选地，当确定所述声音数据为预设语音数据时，所述方法还包括：判断所述声音数据是否为预设用户的预设语音数据。

计算所述声音数据的特征量与第三模型之间的相似度分值，以及所述声音数据的特征量与第四模型之间的相似度分值，分别作为第三相似度分值和第四相似度分值，所述第三模型用于描述声环境和所述预设用户的声调特征信息，所述第四模型用于描述其他用户的声音信息；

判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值；

当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时，确定所述声音数据为预设用户的预设语音数据。

可选地，当所述第二模型与所述第四模型相同时，当所述第二模型与所述第四模型相同时，所述判断所述声音数据是否为预设语音数据，以及所述判断所述声音数据是否为预设用户的预设语音数据，包括：

提取所述声音数据的特征量；

计算所述声音数据的特征量与所述第三模型之间的相似度分值，以及所述声音数据的特征量与所述第一模型之间的相似度分值，分别作为第五相似度分值和第六相似度分值；

判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值，所述第三阈值为所述第一阈值和第二阈值之和；

当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时，确定所述声音数据为预设语音数据，且为预设用户的预设语音数据。

可选地，所述提取所述声音数据的特征量，包括：采用动态时间弯折法提取输入的语音数据的特征量。

本发明实施例还提供了一种语音识别装置，所述装置包括：

采集单元，适于采集声音信号；

处理单元，适于对所述声音信号进行处理，得到声音数据；

判断单元，适于判断所述声音数据是否为预设语音数据；

触发识别单元，适于当确定所述声音数据为预设语音数据时，对所述声音数据进行识别；

执行单元，适于根据识别出的语音数据执行相应的操作。

可选地，所述判断单元包括：

第一提取子单元，适于提取所述声音数据的特征量；

第一计算子单元，适于计算所述声音数据的特征量与所述第一模型之间的相似度分值，以及所述声音数据与第二模型之间的相似度分值，分别作为第一相似度分值和第二相似度分值，所述第一模型用于描述所述预设语音数据的信息，所述第二模型表示所有的话语，用于描述包括噪音在内的声环境的信息；

第一判断子单元，适于判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值；

第一确定子单元，适于当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时，确定所述声音数据为所述预设语音数据。

可选地，所述判断单元还适于当确定所述声音数据为预设语音数据时，判断所述声音数据是否为预设用户的预设语音数据。

可选地，所述判断单元还包括：

第二计算子单元，适于当确定所述声音数据为所述预设语音数据时，计算所述声音数据的特征量与第三模型之间的相似度分值，以及所述声音数据的特征量与第四模型之间的相似度分值，分别作为第三相似度分值和第四相似度分值，所述用户模型用于描述声环境和所述预设用户的声调特征信息，所述第四模型用于描述其他用户的声音信息；

第二判断子单元，适于判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值；

第二确定子单元，适于当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时，确定所述声音数据为预设用户的预设语音数据。

可选地，当所述第二模型与所述第四模型相同时，所述判断单元包括：

第一提取子单元，适于提取所述声音数据的特征量；

第三计算子单元，适于计算所述声音数据的特征量与所述第三模型之间的相似度分值，以及所述声音数据的特征量与第一模型之间的相似度分值，分别作为第五相似度分值和第六相似度分值；

第三判断子单元，适于判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值，所述第三阈值为所述第一阈值和第二阈值之和；

第三确定子单元，适于当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时，确定所述声音数据为预设语音数据，且为预设用户的预设语音数据。

可选地，所述第一提取子单元适于采用动态时间弯折法提取输入的语音数据的特征量。

本发明实施例还提供了一种移动终端，所述移动终端包括上述的语音识别装置。

与现有技术相比，本发明的技术方案具有以下的优点：

通过在检测到输入的声音数据为预设语音数据时，方可进行语音检测，而非一旦检测到声音数据，便进行语音检测，因此，可以节约移动终端的电能和计算资源。

进一步地，在确定所述声音数据为预设语音数据时，通过进一步判断所述声音数据是否为预设用户的预设语音数据，并在确定所述声音数据为预设用户的预设语音数据时，方可进行语音检测，因此，可以进一步节约移动终端的电能。

进一步地，由于在判断所述声音数据是否为预设语音数据，以及判断所述声音数据是否为预设用户的预设语音数据时，通过将第二模型与第四模型设置为相同的模型，使得仅需计算所述声音数据的特征量分别与所述第一模型、第三模型之间的相似度分值，而无需再计算所述声音数据的特征量与所述第二模型、第四模型之间的相似度分值，因此，可以进一步节约移动终端的计算资源，提高语音识别的速度。

附图说明

图1是本发明实施例中的一种语音识别方法的流程图；

图2是本发明实施例中的一种判断所述声音数据是否为预设语音数据的流程图；

图3是本发明实施例中的当确定所述声音数据为预设语音数据时，判断所述声音数据是否为预设用户的预设语音数据的流程图；

图4是本发明实施例中的一种判断所述声音数据是否为预设语音数据，以及判断所述声音数据是否为预设用户的预设语音数据的流程图；

图5是本发明实施例中的一种语音识别装置的结构示意图；

图6是本发明实施例中的一种判断单元的结构示意图；

图7是本发明实施例中的另一种判断单元的结构示意图。

具体实施方式

现有技术中的总听系统采用语音活动检测(Voice Activity Detection，VAD)技术来对声音进行侦测。

现有技术中，经常使用VAD来进行声音检测，如动态时间弯折法(Dynamic TimeWarping，DTW)等。DTW的优点是使用标准的特征提取算法提取输入的声音数据的特征量。

DTW的是将输入数据与预设的已注册数据之间进行比较，根据二者之间的差异确定是否需要对输入数据进行检测。当移动终端的使用环境与已注册的环境数据相似时，DTW可以具有较好的识别和触发(声音检测功能的触发)性能。因此，当移动终端的使用环境变化时，DTW的触发性能将会降低。甚至当记录所述已注册的环境数据所使用的移动终端设备改变时，也会引起DTW性能的下降。

由于移动终端设备通常是在真实的环境中使用的，而在移动终端的周围存在很多的声源。传统的VAD无法正确地区分输入的声音信号来自于特定的用户还是其他的用户，因此，语音识别模块被频繁地激活，导致移动终端设备浪费了许多不必要的电能。同时，频繁地激活语音识别模块也会耗费移动终端中的计算资源。因此，现有技术中语音识别方法存在着浪费电能和计算资源的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案通过在检测到输入的语音数据为预设用户的预设语音数据时，进行语音检测，可以节约移动终端的电能和计算资源。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法，可以包括：

步骤S101：采集声音信号。

在具体实施中，可以使用麦克风(MIC)来对外界的声音信号进行采集。

步骤S102：对所述声音信号进行处理，得到声音数据。

在具体实施中，当采集到声音信号时，可以所采集到的声音信号进行相应的处理，如时域(Time domain)和频域(Frequency domain)处理等，得到相应的声音数据。

步骤S103：判断所述声音数据是否为预设语音数据。

在具体实施中，所述预设语音数据可以包括拨打电话、打开微博、打开facebook等。

在具体实施中，通过判断所述声音数据是否为预设语音数据，可以将包括噪声在内的其他声音数据

在具体实施中，可以采用首先判断所述声音数据是否为预设语音数据，并在确定所述预设的为预设语音数据时，判断所述声音数据是否为预设用户的预设语音数据。

在具体实施中，当确定所述声音数据为预设用户的预设语音数据时，可以直接执行步骤S105。

在具体实施中，在确定所述声音数据为预设语音数据之时，如图1所示的语音识别方法还可以包括：

步骤S104：判断所述声音数据是否为预设用户的预设语音数据。

在具体实施中，在确定所述声音数据为预设语音数据时，通过进一步判断所述声音数据是否为预设用户的预设语音数据，并在后续步骤中确定所述声音数据为预设用户的预设语音数据时，方可对所述声音数据进行语音识别，通过对所述声音数据进行识别的门槛进行进一步限定，可以有效防止频繁地进行语音识别，因此，可以进一步节省移动终端的电能。

在具体实施中，所述预设用户可以包括已经注册用户，且预设用户的个数可以根据实际的需要进行设置。

步骤S105：对所述声音数据进行识别。

在具体实施中，当确定所述声音数据为预设用户的预设语音数据时，可以对所采集的声音数据进行识别

步骤S106：根据识别出的语音数据执行相应的操作。

在具体实施中，当识别出所述语音数据时，移动终端可以所述语音数据对应的操作，例如，拨打XX的电话，打开微博，打开facebook等。

图2示出了本发明实施例中的一种判断所述声音数据是否为预设语音数据的流程图。如图2所示的判断所述声音数据是否为预设语音数据，可以包括：

步骤S201：提取所述声音数据的特征量。

在具体实施中，可以采用对所述声音数据进行时域和频域处理，例如，使用快速傅氏变换(Fast Fourier Transformation，FFT)、频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)等，提取输入的语音数据的特征量。步骤S202：计算第一相似度分值和第二相似度分值。

在具体实施中，所述第一相似度分值为所述声音数据的特征量与所述第一模型之间的相似度分值，所述第二相似度分值为所述声音数据与第二模型之间的相似度分值。其中，所述第一模型表示所有的话语，用于描述包括噪音在内的声环境的信息，所述第二模型用于描述所述预设语音数据的信息。

步骤S203：判断第一相似度分值与第二相似度分值之间的差值是否大于预设的第一阈值。

在具体实施中，采用如下的公式判断第一相似度分值与第二相似度分值之间的差值是否大于预设的第一阈值：

S_speech-S_non-speech≥TH1 (1)；

其中，S_speech表示所述第二相似度分值，S_non-speech表示所述第一相似度分值，TH1表示所述第一阈值。其中，第一阈值TH1可以根据实际的需要进行设定。

步骤S204：确定所述声音数据为预设语音数据。

在具体实施中，当采用公式(1)确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时，则可以确定所述声音数据为所述预设语音数据。

在具体实施中，为了对声音数据进行识别做进一步限制，在确定所述声音数据是预设语音数据时，进一步判断所述声音数据是否为预设用户的所述预设声音数据。请参见图3所示，具体而言，可以包括：

步骤S301：计算第三相似度分值和第四相似度分值。

在具体实施中，所述第三相似度分值为所述声音数据的特征量与第三模型之间的相似度分值，所述第四相似度分值为所述声音数据的特征量与第四模型之间的相似度分值。其中，所述第三模型用于描述声环境和所述预设用户的声调特征信息，所述第四模型用于描述其他用户的声音信息。

步骤S302：判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值。

在具体实施中，可以采用如下的公式来判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值：

S_user-S_white≥TH2 (2)；

其中，S_user表示所述第三相似度分值，S_white表示所述第四相似度分值，TH2表示所述第二阈值。其中，第二阈值TH2可以根据实际的需要进行设定。

这里需要指出的是，由于所述第一模型已经具备独立于用户的属性，因此，所述第四模型可以直接使用所述第一模型，那么，公式(2)中的S_white便可以使用公式(1)中S_speech的值直接进行运算即可，可以省去计算S_white的值的步骤，因此，可以进一步节省计算资源，从而可以提高语音识别的速度。

步骤S303：确定所述声音数据为预设用户的预设语音数据。

在具体实施中，当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时，则可以表明所述声音数据为所述预设用户的预设语音数据。

在具体实施中，通过上述的公式(1)和(2)可知，当S_non-speech和S_white相等时，可以公式(2)减去公式(1)，便可以得到：

S_usre-S_non-speech≥TH3 (3)；

其中，TH3表示第三阈值，TH3为TH1和TH2之和。

因此，采用公式(3)仅需要经过一个判断步骤，便可以确定所述声音数据是否为预设用户的预设语音数据。具体请参见图4所示，判断所述声音数据是否为预设语音数据，以及判断所述声音数据是否为预设用户的预设语音数据，可以包括：

步骤S401：提取所述声音数据的特征量。

步骤S402：计算第五相似度分值和第六相似度分值。

在具体实施中，所述第五相似度分值为所述声音数据的特征量与所述第三模型之间的相似度分值，所述第六相似度分值为所述声音数据的特征量与所述第一模型之间的相似度分值。

步骤S403：判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值。

步骤S404：当所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时，确定所述声音数据为预设语音数据，且为预设用户的预设语音数据。

图5示出了本发明实施例中的一种语音识别装置的结构示意图。如图5所示的语音识别装置500，可以包括采集单元501、处理单元502、判断单元503、触发识别单元504和执行单元505，其中：

采集单元501，适于采集声音信号。

处理单元502，适于对所述声音信号进行处理，得到声音数据。

判断单元503，适于判断所述声音数据是否为预设语音数据。

在具体实施中，所述判断单元503还适于在确定所述声音数据为预设语音数据时，判断所述声音数据是否为预设用户的预设语音数据。

触发识别单元504，适于当确定所述声音数据设语音数据时，对所述声音数据进行识别。

执行单元505，适于根据识别出的语音数据执行相应的操作。

图6示出了本发明实施例中的一种判断单元的结构示意图。如图6所示的判断单元600，可以包括第一提取子单元601、第一计算子单元602、第一判断子单元603、第一确定子单元604、第二计算子单元605、第二判断子单元606和第二确定子单元607，其中：

第一提取子单元601，适于提取所述声音数据的特征量。

第一计算子单元602，适于计算所述声音数据的特征量与第一模型之间的相似度分值，以及所述声音数据与第二模型之间的相似度分值，分别作为第一相似度分值和第二相似度分值，所述第一模型用于描述所述预设语音数据的信息，所述第二模型表示所有的话语，用于描述包括噪音在内的声环境的信息。

第一判断子单元603，适于判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值。

第一确定子单元604，适于当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时，确定所述声音数据为所述预设语音数据。

在具体实施中，如图6所示的判断单元还可以包括第二计算子单元605、第二判断子单元606和第二确定子单元607，其中：

第二计算子单元605，适于当确定所述声音数据为所述预设语音数据时，计算所述声音数据的特征量与第三模型之间的相似度分值，以及所述声音数据的特征量与第四模型之间的相似度分值，分别作为第三相似度分值和第四相似度分值，所述第三模型用于描述声环境和所述预设用户的声调特征信息，所述第四模型用于描述其他用户的声音信息。

第二判断子单元606，适于判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值。

第二确定子单元607，适于当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时，确定所述声音数据为预设用户的预设语音数据。

请参见图7所示，在具体实施中，当所述第二模型与所述第四模型相同时，判断单元700，可以包括第一提取子单元701、第三计算子单元702、第三判断子单元703和第三确定子单元704，其中：

第一提取子单元701，适于提取所述声音数据的特征量。

第三计算子单元702，适于计算所述声音数据的特征量与所述第三模型之间的相似度分值，以及所述声音数据的特征量与第一模型之间的相似度分值，分别作为第五相似度分值和第六相似度分值。

第三判断子单元703，适于判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值，所述第三阈值为所述第一阈值和第二阈值之和。

第三确定子单元704，适于当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时，确定所述声音数据为预设语音数据，且为预设用户的预设语音数据。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

采集声音信号；

对所述声音信号进行处理，得到声音数据；

判断所述声音数据是否为预设语音数据；

当确定所述声音数据为预设语音数据时，对所述声音数据进行识别；

根据识别出的语音数据执行相应的操作；

所述判断所述声音数据是否为预设语音数据，包括：

提取所述声音数据的特征量；

计算所述声音数据的特征量与第一模型之间的相似度分值，以及所述声音数据与第二模型之间的相似度分值，分别作为第一相似度分值和第二相似度分值，所述第一模型描述所述预设语音数据的信息，所述第二模型用于表示所有的话语，用于描述包括噪音在内的声环境的信息；

2.根据权利要求1所述的语音识别方法，其特征在于，当确定所述声音数据为所述预设语音数据时，还包括：判断所述声音数据是否为预设用户的预设语音数据；

3.根据权利要求2所述的语音识别方法，其特征在于，当所述第二模型与所述第四模型相同时，所述判断所述声音数据是否为预设语音数据，以及所述判断所述声音数据是否为预设用户的预设语音数据，包括：

提取所述声音数据的特征量；

4.根据权利要求1-3任一项所述的语音识别方法，其特征在于，所述提取所述声音数据的特征量，包括：采用动态时间弯折法提取输入的语音数据的特征量。

5.一种语音识别装置，其特征在于，包括：

采集单元，适于采集声音信号；

处理单元，适于对所述声音信号进行处理，得到声音数据；

判断单元，适于判断所述声音数据是否为预设语音数据；

执行单元，适于根据识别出的语音数据执行相应的操作；

所述判断单元包括：

第一提取子单元，适于提取所述声音数据的特征量；

第一计算子单元，适于计算所述声音数据的特征量与第一模型之间的相似度分值，以及所述声音数据与第二模型之间的相似度分值，分别作为第一相似度分值和第二相似度分值，所述第一模型用于描述所述预设语音数据的信息，所述第二模型表示所有的话语，用于描述包括噪音在内的声环境的信息；

6.根据权利要求5所述的语音识别装置，其特征在于，所述判断单元还适于当确定所述声音数据为预设语音数据时，判断所述声音数据是否为预设用户的预设语音数据。

7.根据权利要求6所述的语音识别装置，其特征在于，所述判断单元还包括：第二计算子单元，适于当确定所述声音数据为所述预设语音数据时，计算所述声音数据的特征量与第三模型之间的相似度分值，以及所述声音数据的特征量与第四模型之间的相似度分值，分别作为第三相似度分值和第四相似度分值，所述第三模型用于描述声环境和所述预设用户的声调特征信息，所述第四模型用于描述其他用户的声音信息；

8.根据权利要求7所述的语音识别装置，其特征在于，当所述第二模型与所述第四模型相同时，所述判断单元包括：

第一提取子单元，适于提取所述声音数据的特征量；

第三计算子单元，适于计算所述声音数据的特征量与所述第三模型之间的相似度分值，以及所述声音数据的特征量与所述第一模型之间的相似度分值，分别作为第五相似度分值和第六相似度分值；

9.根据权利要求5-8任一项所述的语音识别装置，其特征在于，所述第一提取子单元适于采用动态时间弯折法提取输入的语音数据的特征量。

10.一种移动终端，其特征在于，包括权利要求5-9任一项所述的语音识别装置。