CN103778915A

CN103778915A - 语音识别方法和移动终端

Info

Publication number: CN103778915A
Application number: CN201210394952.7A
Authority: CN
Inventors: 邓平
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2012-10-17
Filing date: 2012-10-17
Publication date: 2014-05-07

Abstract

本申请提供了语音识别方法和移动终端。其中，该方法包括：建立语音特征模型库，所述语音特征模型库中存在至少一个用户的语音特征参数，并且，该存在的每一语音特征参数都存在对应的动作行为；移动终端接收用户提供的语音；移动终端对接收的语音进行分析，提取出语音中的语音特征参数，并确定语音特征模型库中是否存在与该提取出的语音特征参数相匹配的语音特征参数，如果是，识别该存在的语音特征参数对应的动作行为，执行该识别出的动作行为。

Description

语音识别方法和移动终端

技术领域

本申请涉及语音识别领域，特别涉及语音识别方法和移动终端。

背景技术

目前的语音识别技术都是基于语义识别的，其中，语义识别需要移动终端智能地理解用户输入语音的意图并做出正确的响应，这种语义识别涉及到语音输入的语言种类、不同声音的特征提取、以及语法形态等方面的分析。

但是，世界上的语言种类非常之多，即便是世界上常用的语言，也有数十种之多，并且，人们的语言习惯不尽相同，生活化的语言习惯造成了语义识别在语法上的困扰，要想做到真正的智能语义识别非常困难。另外，语义识别也很难满足一些特定场所的语音识别要求。

发明内容

本申请提供了语音识别方法和移动终端，以避免采用语义解析进行语音识别所带来的诸多困难。

本申请提供的技术方案包括：

一种语音识别方法，包括：

建立语音特征模型库，所述语音特征模型库中存在至少一个用户的语音特征参数，并且，该存在的每一语音特征参数都存在对应的动作行为；

移动终端接收用户提供的语音；

移动终端对接收的语音进行分析，提取出语音中的语音特征参数，并确定语音特征模型库中是否存在与该提取出的语音特征参数相匹配的语音特征参数，如果是，识别该存在的语音特征参数对应的动作行为，执行该识别出的动作行为。

一种移动终端，包括：

存储单元，用于建立并存储建立语音特征模型库，所述语音特征模型库中存在至少一个用户的语音特征参数，并且，该存在的每一语音特征参数都存在对应的动作行为；

接收单元，用于接收用户提供的语音；

提取单元，用于对接收的语音进行分析，提取出语音中的语音特征参数；

匹配单元，用于确定语音特征模型库中是否存在与该提取出的语音特征参数相匹配的语音特征参数；

动作执行单元，用于在所述匹配单元的匹配结果为是时，识别语音特征模型库中与该提取出的语音特征参数相匹配的语音特征参数对应的动作行为，执行该识别出的动作行为。

由以上技术方案可以看出，本发明中，在进行语音识别时，基于建立的语音特征模型库，而该语音特征模型库中存在语音特征参数和动作行为之间的对应关系，这样，就保证移动终端无需精确进行语义解析语音，仅提取语音中的语音特征参数即可，避免了由于语义解析带来的诸多问题。并且，本发明中，语音特征参数和动作行为之间的对应关系可由用户自定义的，这种方式将主动权交由给用户自身，解放了移动终端，节省资源。

附图说明

图1为本发明实施例提供的语音识别方法流程图；

图2为本发明实施例提供的语音特征模型库建立流程图；

图3为本发明实施例提供的步骤102实现流程图；

图4为本发明实施例提供的移动终端结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供的语音识别方法，可以帮助用户使用语音实现与移动终端的交互，并且，本发明中，在进行语音识别时依赖于之前建立的语音特征模型库，不会涉及到语义解析，相应地杜绝了由于语义解析带来的诸多问题比如语言之间的差别问题、以及语义语法的问题等。

下面对本发明提供的语音识别方法进行描述：

参见图1，图1为本发明实施例提供的语音识别方法流程图。如图1所示，该流程可包括以下步骤：

步骤101，建立语音特征模型库。

本步骤101中的语音特征模型库，其是移动终端通过机器学习的方式建立，具体在后文进行描述。

优选地，本发明中，所述语音特征模型库中存在至少一个用户的语音特征参数，并且，该存在的每一语音特征参数都存在对应的动作行为。其中，每一语音特征参数对应的动作行为是用户自定义设置。

步骤102，移动终端接收用户提供的语音，对接收的语音进行分析，提取出语音中的语音特征参数，并在语音特征模型库中识别出所述用户的所有语音特征参数，确定该识别出的所有语音特征参数中是否存在与该提取出的语音特征参数相匹配的语音特征参数，如果是，识别该存在的语音特征参数对应的动作行为，执行该识别出的动作行为。

至此，完成图1所示流程。从图1所示流程可以看出，本发明中，主要是用户自定义语音的特征参数和动作行为，不像现有技术那样精确解析语音的语义，避免了由于进行语义解析而带来的诸多问题。

其中，在用户自定义语音特征参数和动作行为时，该动作行为可为与语音不同甚至相反的行为，这便于实现语音暗号。这里，所谓语音暗号，其是用于触发移动终端执行某一特定动作或者调用某一特定应用程序的标识，比如，当移动终端接收到语音“亲爱的”时，通过解析该语音的特征参数识别出对应的动作行为为用于触发给XXXXXXXX拨打电话，则给XXXXXXXX拨打电话。

下面对图1所示流程中的语音特征模型库进行详细描述：

参见图2，图2为本发明实施例提供的语音特征模型库建立流程图。本发明中，针对一个用户可建立一个语音特征模型库，或者，多个用户共享同一个语音特征模型库，节省资源。

如图2所示，该流程可包括以下步骤：

步骤201，用户向移动终端输入语音。

本发明中，在建立语音特征模型库时，为便于分析用户的语音习惯和使用特征，可根据情况控制用户输入语音的次数，比如，控制用户至少输入两次以上语义相同的语音等。

优选地，本发明中，均以控制用户至少输入两次以上语义相同的语音为例。

步骤202，移动终端针对接收的每一语音，对该语音进行语音处理，以使处理后的语音反映语音本质特征。

本发明中，语音处理，至少包括对原始语音的处理，消除语音的噪声和消除不同说话者对语音带来的影响。最常用的处理方式有端点检测和语音增强。所谓端点检测，其是指在语音中将语音信号和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高语音特征模型库的精确度和识别正确率有重要作用。至于语音增强，其主要任务就是消除环境噪声对语音的影响，通常的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器，这部分涉及到移动终端的硬件部分。

步骤203，提取经过语音处理后的语音中的语音特征。

这里，声学特征的提取是语音识别的一个重要环节，声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，其目的是提取语音中最能代表语音的特征信息，以减少后续进行语音识别时所需要处理的数据量。由于语音的时变特性，语音特征的提取必须在一小段语音上进行，也即进行短时分析，这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。目前，特征提取的基础性研究已经比较丰富，现有的移动终端已经具有较为成熟的解决方案，因此，本发明可采用现有比较成熟的语音特征提取方式执行。

步骤204，利用提取出到语音特征进行计算得到一个数值作为所述语音的语音特征参数。

本步骤204中，可利用机器学习的方法计算语音特征参数，其中，该语音特征参数代表用户当前输入所述语音时的语音习惯和使用特征。

至此，通过上述步骤202至步骤204，移动终端即可实现针对接收的一次语音得到对应的语音特征参数。此时，该得到的语音特征参数为一个数值。

步骤205，移动终端利用具有同一语义的语音得到的语音特征参数确定一个数值区间作为语音特征模型库中的语音特征参数，并记录至语音特征模型库中。

基于上面描述的，本发明中，在建立语音特征模型库时，针对同一语义的语音，用户会输入多次，而当移动终端接收到用户多次输入的同一语义的语音时，由于用户输入语音时的语气语调等不同会导致最后得到的语音特征参数不同（这里针对语义相同的不同语音，在计算语音特征参数时可采用频谱分析），基于此，移动终端就会从这些针对同一语义的语音而得到的语音特征参数中选择最小值和最大值，将从该最小值起至最大值结束的数值范围作为上述数值区间，并作为语音特征参数记录至所述语音特征模型库。通过这种数值区间，能偶提升后续语音识别的精度，消除不用用户间的语音差异。

步骤206，根据实际应用，针对语音特征模型库中的语音特征参数设置对应的动作行为。

比如，为语音特征模型库中与用户输入的语音“亲爱的”对应的语音特征参数设置动作行为：向XXXXXXXX拨打电话。

至此，完成图2所示流程。

基于图2所示流程建立的语音特征模型库，则步骤102的具体实现如图3所示。下面进行描述：

参见图3，图3为本发明实施例提供的步骤103实现流程图。如图3所示，该流程可包括以下步骤：

步骤301，移动终端接收到一段语音。

本步骤301中，移动终端可通过其上的麦克风接收用户输入的一段语音，

步骤302，移动终端确定当前状态是否为语音识别状态，如果是，执行步骤303，否则，结束当前流程。

本发明中，移动终端可默认实时处于语音识别状态，也可根据用户设置进入语音识别状态。

步骤303，移动终端确定本地是否存在语音特征模型库，如果是，执行步骤305，否则，执行步骤304。

步骤304，提醒用户目前状态有误。结束当前流程。

步骤305，确定所述语音特征模型库中是否存在语音特征参数，如果是，执行步骤306，否则，返回执行步骤304。

步骤306，移动终端对接收的语音进行语音处理，以使处理后的语音反映语音本质特征。

这里的语音处理如上所述，这里不再赘述。

步骤307，提取经过语音处理后的语音中的语音特征，利用该提取出的语音特征计算得到一个数值作为用于表示所述语音的语音特征参数。

这里的语音特征提取和语音特征参数计算如上所述，这里不再赘述。

步骤308，确定语音特征模型库中是否存在与步骤307计算的语音特征参数相匹配的语音特征参数，如果是，执行步骤309，否则，结束当前流程。

基于上面描述，由于语音特征模型库中的语音特征参数为一数值区间，而步骤307计算的语音特征参数为一个数值，基于此，本步骤308中，当步骤307计算的数值处于语音特征模型库中的其中一个数值区间中时，则确定步骤307计算的语音特征参数与语音特征模型库中的语音特征参数匹配，可继续进行语音识别，反之，当步骤307计算的数值不处于语音特征模型库中的任一个数值区间中时，则确定步骤307计算的语音特征参数不与语音特征模型库中的语音特征参数匹配，当前的语音识别有错误，结束当前流程。

步骤309，识别语音特征模型库中与步骤307计算的语音特征参数相匹配的语音特征参数对应的动作行为，执行该识别出的动作行为。

至此，完成图3所示的流程。

从图3所示流程可以看出，本发明能够实现语音与移动终端交互，比如当用户做其他事情的时候，可能由于手上要做事情，不方便拿起移动终端给爱人拨打电话，这个时候，可以直接输入语音，比如亲爱的，这时移动终端会自动地给用户的爱人拨打电话。其中，为了实现语音与移动终端交互，需要预先建立语音特征模型库，该语音特征模型库中存在语音特征参数和动作行为之间的对应关系，这样，就保证移动终端无需精确进行语义解析语音，仅提取语音中的语音特征参数即可，避免了由于语义解析带来的诸多问题。并且，本发明中，语音特征参数和动作行为之间的对应关系由用户自定义的，这种方式将主动权交由给用户自身，解放了移动终端，节省资源。

优选地，本发明中，步骤309中在执行动作行为时，可进一步识别针对所述用户设置的结束控制语音，当识别到所述结束控制语音时，结束所述动作行为，否则，继续执行所述动作行为。

以上对本发明提供的方法进行的描述，下面对本发明提供的移动终端进行描述：

参见图4，图4为本发明实施例提供的移动终端结构图。如图4所示，所述移动终端包括：

接收单元，用于接收用户提供的语音；

本发明中，所述提取单元包括：

处理子单元，用于对接收的语音进行语音处理，以使处理后的语音反映语音本质特征；

提取子单元，用于提取经过语音处理后的语音中的语音特征，利用该提取出的语音特征计算得到一个数值作为用于表示所述语音的语音特征参数。

优选地，本发明中，所述语音特征模型库通过机器学习语音的方式建立，所述语音特征模型库中存在的任一语音特征参数为一个数值区间，其用于学习用户在两次以上输入的语义相同的语音而得到的。

本发明中，所述匹配单元确定语音特征模型库中是否存在与提取出的语音特征参数相匹配的语音特征参数包括：

比较所述数值和语音特征模型库中的所有数值区间，如果所述数值处于其中一个数值区间中，则确定语音特征模型库中存在与该提取出的语音特征参数相匹配的语音特征参数，否则，在所述数值均不处于任一数值区间时，确定语音特征模型库中不存在与该提取出的语音特征参数相匹配的语音特征参数。

本发明中，如图4所示，所述移动终端进一步包括：

控制单元，用于在所述动作执行单元执行动作行为时，识别针对所述用户设置的结束控制语音，当识别到所述结束控制语音时，结束所述动作行为。

至此，完成图4所示移动终端的结构描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，该方法包括：

移动终端接收用户提供的语音；

2.根据权利要求1所述的方法，其特征在于，所述提取出语音中的语音特征参数包括：

对接收的语音进行语音处理，以使处理后的语音反映语音本质特征；

提取经过语音处理后的语音中的语音特征，利用该提取出的语音特征计算得到一个数值作为用于表示所述语音的语音特征参数。

3.根据权利要求2所述的方法，其特征在于，所述语音特征模型库通过机器学习语音的方式建立，所述语音特征模型库中存在的任一语音特征参数为一个数值区间，其通过学习用户在两次以上输入的语义相同的语音而得到的。

4.根据权利要求3所述的方法，其特征在于，所述确定语音特征模型库中是否存在与该提取出的语音特征参数相匹配的语音特征参数包括：

5.根据权利要求1至4任一所述的方法，其特征在于，在执行动作行为时，该方法进一步包括：

识别针对所述用户设置的结束控制语音，当识别到所述结束控制语音时，结束所述动作行为。

6.一种移动终端，其特征在于，所述移动终端包括：

接收单元，用于接收用户提供的语音；

7.根据权利要求6所述的移动终端，其特征在于，所述提取单元包括：

8.根据权利要求7所述的移动终端，其特征在于，所述语音特征模型库通过机器学习语音的方式建立，所述语音特征模型库中存在的任一语音特征参数为一个数值区间，其通过学习用户在两次以上输入的语义相同的语音而得到的。

9.根据权利要求8所述的移动终端，其特征在于，所述匹配单元确定语音特征模型库中是否存在与提取出的语音特征参数相匹配的语音特征参数包括：

10.根据权利要求6至9任一所述的移动终端，其特征在于，所述移动终端进一步包括：