CN106971717A

CN106971717A - 机器人与网络服务器协作处理的语音识别方法、装置

Info

Publication number: CN106971717A
Application number: CN201610025109.XA
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21

Abstract

本发明提供一种机器人与网络服务器协作处理的语音识别方法及装置，所述方法包括步骤：通过所述机器人上的麦克风获取用户的目标语音信号；对所述目标语音信号进行处理，以获取所述目标语音信号的第一语音可信度值；从所述目标语音信号提取目标背景噪声；根据所述第一语音可信度值，获取与所述目标背景噪声对应的第二语音可信度值；于所述第二语音可信度值不小于可信度阈值时，所述机器人根据所述目标语音信号运行相应的功能。本发明只要在保证网络畅通的前提下，通过强大的后台服务器来提取特征，在保证识别率的前提下使得机器人省去了这一处理过程，从而节约了相应的成本。

Description

机器人与网络服务器协作处理的语音识别方法、装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种机器人与网络服务器协作处理的语音识别方法、装置。

背景技术

在现有技术中，通过语音识别技术就能够让机器人识别和理解用户的语音命令，并根据这些语音命令执行相应的动作。所以，语音识别技术作为人机交互的手段，成为智能机器人中重要的技术手段之一。但是，就目前而言，高识别率意味着机器人的硬件成本较高，所以如何在降低成本的同时实现较高的识别效率，成为目前亟待解决的问题。

发明内容

鉴于上述问题，本申请记载了一种机器人与网络服务器协作处理的语音识别方法，所述方法包括步骤：

A100：通过所述机器人上的麦克风获取用户的目标语音信号；

A101：对所述目标语音信号进行处理，以获取所述目标语音信号的第一语音可信度值；

A102：从所述目标语音信号中提取目标背景噪声；

A103：根据所述第一语音可信度值，获取与所述目标背景噪声对应的第二语音可信度值；

A105：于所述第二语音可信度值不小于可信度阈值时，所述机器人根据所述目标语音信号运行相应的功能；

其中，所述机器人根据所述目标语音信号运行相应的功能的过程包括步骤：

A1501：机器人将所述目标语音信号传递至所述网络服务器中；

A1502：所述网络服务器对所述目标语音信号进行特征提取，生成用户语音特征包，并将所述用户语音特征包下载至机器人中；

A1503：根据所述机器人中的机器人识别数据库对所述用户语音特征包进行识别以获取识别结果；

A1504：所述机器人根据所述识别结果运行相应的功能。。

较佳的，从所述目标语音信号提取目标背景噪声并获取所述目标背景噪声的噪声种类的过程包括步骤：

A1021：获取所述目标语音信号中的噪声的梅尔频率倒谱系数；

A1022：根据所述梅尔频率倒谱系数和所述噪声分类数据库，获取所述目标语音信号的噪声种类。

较佳的，建立所述噪声分类数据库的过程包括步骤：

A201：获取不同噪声种类下多个噪声信号；

A202：获取所有的所述噪声信号的梅尔频率倒谱系数；

A203：根据EM算法对所有的所述梅尔频率倒谱系数进行处理，建立所述噪声分类数据库。

较佳的，根据目标语音信号获取目标背景噪声中噪声音量的过程包括步骤：

A1023：提取所述目标语音信号的特征信息；

A1024：根据所述特征信息，进行语音激活检测；

A1025：获取所述噪声音量。

较佳的，所述方法还包括：

A106：于所述第二语音可信度值小于所述可信度阈值时，则提示用户重新输入并不再对所述目标语音信号进行处理。

本发明还提供了一种机器人与网络服务器协作处理的语音识别装置，所述装置适用于上述提出的机器人与网络服务器协作处理的语音识别方法。

上述技术方案具有如下优点或有益效果：本发明技术方案提供了一种机器人与网络服务器协作处理的语音识别方法，通过获取目标背景噪声，并根据预先存储的可信度调整系数和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。另外，只要在保证网络畅通的前提下，通过强大的后台服务器来提取特征，在保证识别率的前提下使得机器人省去了这一处理过程，从而节约了相应的成本。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明实施例一提供的一种机器人与网络服务器协作处理的语音识别方法流程图；

图2为本发明实施例二提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图；

图3为本发明实施例二中噪声分类数据库建立的流程图；

图4为本发明实施例三提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图；

图5为本发明实施例四提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明实施例保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。进一步应当理解，本文中采用的术语“包括”规定了所述的特征、整体、步骤、操作、元件和/或部件的存在，而不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或它们的组的存在或附加。

实施例一

图1为本发明实施例一提供的一种机器人与网络服务器协作处理的语音识别方法的流程图。

如图1所示，本发明实施例一提供一种机器人与网络服务器协作处理的语音识别方法具体可以包括步骤：

A100，通过所述机器人上的麦克风获取用户的目标语音信号；

用户发出目标语音信号时，机器人底座上的麦克风实时获取该目标语音信号。

A101，根据所述目标语音信号，获取第一语音可信度值。该第一语音可信度值是指对该目标语音信号进行识别处理后，识别处理结果的可信程度。具体来讲，当用户输入的目标语音信号为“打开卧室的空调”，则在对该目标语音信号识别过程中，返回的第一语音可信度值包含：总可信度值X1(“打开卧室的空调”的总体可信度值)，动作命令可信度值X2(“打开”为动作命令词，即“打开”的可信度值为X2)，地点可信度值X3(“卧室”为地点，即“卧室”的可信度值为X3)，对象可信度X(“空调”为后置命令词，即“空调”的可信度为X4)。在具体计算中，总可信度X1是由X2、X3、X4综合得到的。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种可信度值，但这些可信度值不应限于这些术语。这些术语仅用来将可信度值彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一语音可信度值也可以被称为第二语音可信度值，类似地，第二语音可信度值也可以被称为第一语音可信度值。并且该第一语音可信度值和第二语音可信度值都是可信度值。

A102，从所述目标语音信号提取目标背景噪声；

根据麦克风接收到的目标语音信号，获取目标背景噪声。所述目标背景噪声是用户输入目标语音信号时所处的噪声状态。具体到实际应用中，因为家用机器人通常在的使用环境较单一，但是如果当用户在发出目标语音信号时，电视机等家用电器的使用或其它的人声均会产生噪声背景，即此时所指的目标背景噪声是指用户在噪声背景下输入该目标语音信号。

值得指出的是，所述步骤A102可以在步骤A101之前，所述步骤A102也可以在步骤A101之后，或者所述步骤A102可以和步骤A101同时执行，本发明实施例对此不做限制。

A103，根据所述第一语音可信度值，获取与所述目标背景噪声对应的第二语音可信度值。

该第二语音可信度值是根据获取的第一语音可信度值获取的。第二语音可信度值并不是根据麦克风接收到的目标语音信号直接计算获得到的，而是根据该第一语音可信度值间接获取。在获取该目标语音信号所处的目标背景噪声之后，可以根据所述第一语音可信度值，获取与所述目标背景噪声对应的第二语音可信度值。

A104，比较所述第二语音可信度值和可信度阈值的大小；

A105，如果所述第二语音可信度值不小于(即大于或者等于)所述可信度阈值，则所述机器人根据所述目标语音信号运行相应的功能；

该可信度阈值是提前设置好的，用以评价第二语音可信度值是否可接受。如第二语音可信度值大于或等于此可信度阈值，则认为识别结果正确；反之，则认为识别结果错误，结果是不可相信的。

另外，如果所述第二语音可信度值不小于可信度阈值，则认为该目标语音信号识别的结果是正确的，即处理相应的目标语音信号。在具体的应用中，处理相应的目标语音信号指的是将根据该目标语音信号控制机器人运行相应的功能，如果机器人运行该功能还需要目标语音信号中的数据信息时，还应将该数据信息进行提取并传送至机器人的相应功能模块中。具体来说，获取的第二语音可信度值X3＝48，可信度阈值＝40，则所述第二语音可信度值大于所述可信度阈值，那么就判定目标语音信号识别结果是正确的。进一步举例说明，当该目标语音信号是“打开卧室的空调”“关闭客厅的电视机”“打开书房的窗帘”等目标语音信号，并经判定发现目标语音信号的第二语音可信度值大于可信度阈值时，则机器人执行相应命令，即控制打开卧室空调、关闭客厅电视机、打开书房窗帘等操作。

本发明技术方案提供了一种机器人与网络服务器协作处理的语音识别方法，该方法通过麦克风获取目标背景噪声后，并根据可信度调整系数和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

A106，如果所述第二语音可信度值小于所述可信度阈值，则提示用户重新输入并不再对所述目标语音信号进行处理。

如果所述第二语音可信度值小于所述可信度阈值，则认为该目标语音信号识别结果是错误的，则提示用户重新输入并不再对所述目标语音信号进行处理。举例来说，第二语音可信度值X3＝40，可信度阈值＝55，则所述第二语音可信度值小于所述可信度阈值，那么判定所述目标语音信号识别结果是错误的。进一步举例说明，当该目标语音信号是“打开客厅窗帘”时，判断该目标语音信号的识别结果错误，系统提示用户重新说一遍和/或者告知用户错误。即如果所述第二语音可信度值小于所述可信度阈值，则提示用户重新输入或者纠正错误等，并且之后不再对该目标语音信号继续进行处理。

本发明技术方案提供了一种机器人与网络服务器协作处理的语音识别方法，该方法通过获取目标背景噪声，并根据预先存储的可信度调整系数和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

实施例二

图2为本发明实施例二提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图。

本发明实施例二是在本发明实施例一的基础之上进行描述的。如图2所示，在实施例一中的步骤A102中，所述目标背景噪声具体包括噪声种类以及噪声音量。

噪声种类是指用户输入目标语音信号时所处的噪声背景，噪声音量表示用户输入目标语音信号该时所处噪声背景中噪声的大小。具体来说，噪声音量可包括：信噪比和噪声能量水平。信噪比是目标语音信号与噪声信号功率的比值，常常用分贝数表示，一般信噪比越高表明噪声数据功率越小，否则则相反；噪声能量水平是用来反应用户目标语音信号中噪声数据能量的大小。信噪比和噪声能量水平结合起来，表示该噪声音量。

所述目标背景噪声包括噪声种类，在实施例一中的步骤A102：从所述目标语音信号提取目标背景噪声，具体包括步骤：

A1021，获取所述目标语音信号中的噪声的梅尔频率倒谱系数；

根据用户输入的目标语音信号，通过语音激活检测(Voice activity detection，VAD)判断目标语音信号帧和噪声数据帧，在获取噪声数据帧之后，获取该噪声数据帧的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。Mel(梅尔)是主观音高的单位，而Hz(赫兹)则是客观音高的单位，Mel频率是基于人耳听觉特性提出的，它与Hz频率成非线性对应关系。

A1022，根据所述梅尔频率倒谱系数和噪声分类数据库，获取所述目标语音信号的噪声种类，所述噪声分类数据库可以为高斯混合模块。

将该梅尔频率倒谱系数分别代入预先建立的每一个噪声分类数据库中进行计算，如果某一噪声分类数据库的计算结果值最大，则认为用户输入该目标语音信号时处于该噪声种类的环境中，即获取该目标语音信号的噪声种类。

高斯混合模型可用下式表达：

其中，

其中，高斯模型N(x；μ，∑)可用下式表达：

其中，N为GMM模型的混合度，即由N个高斯模型组合而成，α_i为第i个高斯模型的权值，μ为均值，∑为协方差矩阵。理论上，空间中的任意形状都可以使用一个GMM模型来建模。由于高斯模型的输出是1个0～1之间的小数，为了便于计算，一般会对结果进行取自然对数(ln)，从而变成小于0的浮点数。

图3给出了噪声分类数据库的建立方法流程图。

如图3所示，所述噪声分类数据库的建立方法包括步骤：

A201：获取不同噪声种类下多个噪声信号。对于不同类型的噪声，均要获取多组同一类型噪声，噪声的类型可以包括电视机噪声，家电噪声，窗外车辆噪声等多种。针对不同类型的噪声，需要获取多种该类型下的多种噪声数据，以用于丰富噪声数据库，提高识别准确度。用于建立不同类型噪声数据的GMM，即该种噪声数据的噪声分类数据库。

A202：获取所有的所述噪声信号的梅尔频率倒谱系数。从该噪声数据中，提取该噪声的梅尔频率倒谱系数。梅尔频率倒谱系数是Mel频率上的倒谱系数，具有良好的识别性能，被广泛应用于语音识别、声纹识别、语种识别等领域。

A303：根据EM算法处理所述梅尔频率倒谱系数，建立所述噪声分类数据库。EM算法(ExpectatioX-maximizatioX algorithm，最大期望算法)在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，最大期望(EM)算法是在GMM中寻找参数最大似然估计或者最大后验估计的算法，其中GMM依赖于无法观测的隐藏变量(LateXt Variable)。

本发明技术方案提供了一种噪声背景下提升语音识别率的方法，该方法通过获取目标背景噪声，并根据预先存储的可信度调整系数的经验数据和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

另外，如图2所示，所述目标背景噪声包括包括噪声音量，在实施例一中从所述目标语音信号提取目标背景噪声的过程还包括步骤：

A1023：根据所述目标语音信号，提取所述目标语音信号的特征信息；

根据该目标语音信号，提取该目标语音信号的特征信息，所述特征信息包括子带能量、基音、周期性因子其中的一种或者多种。

A1024：根据所述特征信息，进行语音激活检测，并获取检测结果；

A1025：根据所述检测结果，获取所述噪声音量。

根据VAD判断结果，对语音帧、噪声帧分别求平均能量，得到语音能量水平(speechLev)、噪声能量水平(noiseLev)，然后计算得到信噪比(SNR)，其公式为：

noiseLev＝10*log10(1+1LnΣi＝1Lnener[ni])speechLev＝10*log10(1+1LsΣj＝1Lsener[Sj])]]>

SNR＝speechLev-noiseLev

其中，Ln、Ls分别表示噪声帧、语音帧总帧数，ener[Ni]表示第i个噪声帧的能量，ener[Sj]表示第j个语音帧的能量。

本发明技术方案提供了一种智能机器人在噪声背景下提升语音识别率的方法，该方法通过获取目标背景噪声，并根据预先存储的可信度调整系数和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

实施例三

根据上述实施例提出的机器人与网络服务器协作处理的语音识别方法，图4为本发明实施例三提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图。

本实施例是在实施例一的基础上描述的，如图4所示，实施例一的步骤A103方法具体包括：

A1031，根据所述目标背景噪声和预先存储的可信度调整系数的经验数据的对应关系，获取与所述目标背景噪声对应的可信度调整系数。

具体来说，根据目标背景噪声中的噪声种类、噪声音量以及将测量获取的可信度调整系数，获取该目标背景噪声对应的可信度调整系数。其中，结合噪声种类，当噪声偏大时，利用可信度调整系数将可信度值相应的调大；结合噪声种类，噪声偏小时，利用可信度调整系数将可信度值相应的调小。在本实施例中，所述可信度调整系数是通过大量的试验数据获取的结果。

在噪声种类为电视机噪声环境时，如果噪声偏大(假设噪声水平小于-35dB，信噪比小于15dB)，通过试验数据得到此种目标背景噪声中，可信度调整系数为+0.1～+0.2。因此，该目标背景噪声中，获取可信度调整系数为调大0.1至0.2中的某一值。

在噪声种类为车载环境，噪声偏小时(噪声水平大于-35小于-45dB，信噪比大于15dB小于20dB)，通过试验数据得到此种目标背景噪声中，可信度调整系数为-0.15～-0.1。因此，该目标背景噪声中，获取可信度调整系数为-0.15至-0.1中的某一值。

A1032，根据所述可信度调整系数，调整所述第一语音可信度值，获取所述第二语音可信度值；其中，所述调整包括：增大、降低、不变。

根据该可信度调整系数，调整在步骤A101中获取的第一语音可信度值。根据可信度调整值，调整该第一语音可信度值获取第二语音可信度值，该第一语音可信度值可能被增大、降低或者保持不变。

本发明技术方案提供了一种智能机器人在噪声背景下提升语音识别率的方法，该方法通过获取目标背景噪声，并根据预先存储的可信度调整系数的经验数据和所述目标背景噪声，获取第二语音可信度值。这种根据目标背景噪声，灵活调整可信度值的方法，大大提升了噪声背景下的语音识别率。

实施例四

根据上述实施例提出的机器人与网络服务器协作处理的语音识别方法，图5为本发明实施例三提供的一种机器人与网络服务器协作处理的语音识别方法的另一种实现方式的流程图。

如图5所示，所述机器人根据所述目标语音信号运行相应的功能的过程包括步骤：

A1504：所述机器人根据所述识别结果运行相应的功能。

具体来说，在根据目标语音信号运行相应的功能的过程中，还需要对目标语音信号进行识别处理。这个识别处理的过程主要是先由机器人将目标语音信号传递至网络服务器中，然后由网络服务器对该目标语音信号进行特征提取，打包成用户语音特征包后再传递至机器人中，由机器人利用机器人识别数据库进行识别，最后再根据该识别结果运行相应的功能。在这个过程中，目标语音信号特征提取的过程是通过网络服务器完成的，因为如果由机器人来完成，那么机器人就需要较高的硬件配置以达到高效率、高识别率的效果，这样就会增加机器人的总体成本。所以在本实施例中，只要在保证网络畅通的前提下，通过强大的后台服务器来提取特征，在保证识别率的前提下使得机器人省去了这一处理过程，从而节约了相应的成本。

此外，本实施例中还提出了一种机器人与网络服务器协作处理的语音识别装置，该装置适用于上述实施例中的机器人与网络服务器协作处理的语音识别方法。

对于本领域的技术人员而言，阅读上述说明后，各种变化和修正无疑将显而易见。因此，所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容，都应认为仍属本发明的意图和范围内。

Claims

1.一种机器人与网络服务器协作处理的语音识别方法，其特征在于，所述方法包括步骤：

A100：通过所述机器人上的麦克风获取用户的目标语音信号；

A102：从所述目标语音信号中提取目标背景噪声；

A1504：所述机器人根据所述识别结果运行相应的功能。

2.根据权利要求1所述的机器人与网络服务器协作处理的语音识别方法，其特征在于，从所述目标语音信号提取目标背景噪声并获取所述目标背景噪声的噪声种类的过程包括步骤：

3.根据权利要求2所述的机器人与网络服务器协作处理的语音识别方法，其特征在于，建立所述噪声分类数据库的过程包括步骤：

A201：获取不同噪声种类下多个噪声信号；

A202：获取所有的所述噪声信号的梅尔频率倒谱系数；

4.根据权利要求2所述的机器人与网络服务器协作处理的语音识别方法，其特征在于，根据目标语音信号获取目标背景噪声中噪声音量的过程包括步骤：

A1023：提取所述目标语音信号的特征信息；

A1024：根据所述特征信息，进行语音激活检测；

A1025：获取所述噪声音量。

5.根据权利要求2或4所述的机器人与网络服务器协作处理的语音识别方法，其特征在于，所述噪声音量包括信噪比和/或噪声能量水平。

6.根据权利要求5所述的机器人与网络服务器协作处理的语音识别方法，其特征在于，所述方法还包括：

7.一种机器人与网络服务器协作处理的语音识别装置，其特征在于，所述装置适用于权利要求1-6中任一所述的机器人与网络服务器协作处理的语音识别方法。