CN103295575B

CN103295575B - 一种语音识别方法和客户端

Info

Publication number: CN103295575B
Application number: CN201210048232.5A
Authority: CN
Inventors: 苏腾荣; 朱璇
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2012-02-27
Filing date: 2012-02-27
Publication date: 2019-01-25
Anticipated expiration: 2032-02-27
Also published as: CN103295575A

Abstract

本发明提供了一种语音识别方法，该方法包括：客户端判断当前的语音识别应用是否涉及隐私，如果是，则由客户端对采集到的语音信号进行语音识别；否则，进一步判断与服务器是否成功建立连接，如果成功建立连接，由服务器对采集到的语音信号进行语音识别；如果不成功建立连接，由客户端对采集到的语音信号进行语音识别。本发明同时公开了一种语音识别中的客户端，应用本发明所述的语音识别方法和客户端，能够实现对包含隐私的语音数据进行语音识别，且不受网络条件是否支持的限制。

Description

一种语音识别方法和客户端

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别方法和客户端。

背景技术

图1为现有语音识别方法的工作流程图，如图1所示，该流程包括：

步骤101：服务器与客户端建立连接后，接收由客户端发送的语音信号。

步骤102：服务器接收到语音信号后，提取语音信号中的语音识别特征，根据语音识别模型对语音识别特征进行语音识别。

步骤103：服务器将语音识别后得到的识别结果返回给客户端。

至此，即完成了现有语音识别方法的整个工作流程。

通过上述分析可以看出，首先，由于现有语音识别在服务器端进行，当用户不愿将包含隐私的语音数据上传到服务器时，也就无法完成这类语音数据的语音识别；其次，现有的语音识别方法是在服务器端进行的，使得语音识别受到网络条件的限制，当网络条件不支持时，也就无法完成语音识别；最后，现有语音识别方法没有针对用户和环境进行自适应，因此，当用户存在多样性以及用户使用时环境多变性的情况下，服务器是无法提供可靠的语音识别服务的。

发明内容

有鉴于此，本发明提供了一种语音识别方法，能够对包含隐私的语音数据进行语音识别，且不受网络条件是否支持的限制。

本发明还公开了一种语音识别中的客户端，能够对包含隐私的语音数据进行语音识别，且不受网络条件是否支持的限制。

为了达到上述目的，本发明提出的技术方案为：

一种语音识别方法，该方法包括：

客户端判断当前的语音识别应用是否涉及隐私，如果是，则由客户端对采集到的语音信号进行语音识别；否则，由服务器对采集到的语音信号进行语音识别。

当客户端判断出当前的语音识别应用不涉及隐私时，该方法进一步包括：判断与服务器是否成功建立连接，如果成功建立连接，由服务器对采集到的语音信号进行语音识别；否则，由客户端对采集到的语音信号进行语音识别。

所述由客户端对采集到的语音信号进行语音识别包括：

客户端提取所述语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别；

客户端根据语音识别后得到的识别结果对所述语音识别模型进行更新，得到更新后的语音识别模型；

客户端根据更新后的语音识别模型对识别结果进行语音识别，得到更新的识别结果。

该方法进一步包括：客户端重复执行根据更新的识别结果更新语音识别模型、根据更新的语音识别模型更新识别结果，直至更新后的自身语音识别模型相比更新前的自身语音识别模型的变化小于某个阈值。

所述由服务器对采集到的语音信号进行语音识别包括：

服务器提取语音信号中的语音识别特征，根据自身语音识别模型对语音识别特征进行语音识别；

服务器根据得到的识别结果更新自身语音识别模型；

根据更新的自身语音识别模型对识别结果进行语音识别，得到更新的识别结果；

将所述更新的语音识别结果返回给客户端。

该方法进一步包括：服务器重复执行根据更新的识别结果更新自身语音识别模型、根据更新的自身语音识别模型更新识别结果，直至更新后的自身语音识别模型相比更新前的自身语音识别模型的变化小于某个阈值。

所述服务器提取语音信号中的语音识别特征之前，该方法进一步包括：

服务器向客户端请求语音识别模型，并判断向客户端请求的语音识别模型的更新时间是否晚于自身语音识别模型更新时间，如果是，利用请求的客户端的语音识别模型更新自身语音识别模型；否则，将自身语音识别模型上传给客户端，以更新客户端中的语音识别模型。

一种语音识别中的客户端，该客户端包括第一判断单元和语音识别单元，其中，

所述第一判断单元，用于判断当前的语音识别应用是否涉及隐私；

所述语音识别单元，用于当第一判断单元判断出当前的语音识别应用涉及隐私时，对采集到的语音信号进行语音识别。

该客户端还包括第二判断单元，用于当第一判断单元判断出当前的语音识别应用不涉及隐私时，判断与服务器是否成功建立连接；

则，所述语音识别单元，进一步用于当第二判断单元判断出与服务器没有成功建立连接时，对采集到的语音信号进行语音识别。

所述语音识别单元包括第一识别子单元、更新子单元和第二识别子单元，其中，

所述第一识别子单元，用于提取所述语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别；

所述更新子单元，用于根据第一识别子单元语音识别后得到的识别结果对所述语音识别模型进行更新，得到更新后的语音识别模型；

所述第二识别子单元，用于根据所述更新子单元更新后的语音识别模型对识别结果进行语音识别，得到更新的识别结果。

综上所述，本发明所采用的语音识别方法，是通过由客户端首先判断当前的语音识别应用是否涉及隐私，如果涉及隐私，则直接由客户端对所述采集到的语音信号进行语音识别，否则，才由服务器对所述采集到的语音信号进行语音识别。由于在本发明方法中，对涉及到隐私的语音数据是通过客户端来进行语音识别的，也就避免了上传服务器带来的语音信号的隐私外泄，因此，本发明方法能够完成对包含隐私的语音数据的语音识别处理。

附图说明

图1为现有语音识别方法的工作流程图；

图2为本发明所采用的语音识别方法的工作流程图；

图3为本发明语音识别中所采用的客户端的结构示意图。

具体实施方式

为了解决本发明提出的技术问题，本发明所述方案的具体实现包括：

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图2为本发明所采用的语音识别方法的工作流程图。如图2所示，该流程包括：

步骤201：客户端判断当前的语音识别应用是否涉及隐私，如果是，执行步骤202；否则，执行步骤205。

需要说明的是，在本步骤中，当前的语音识别应用是否涉及隐私是由客户端来决定的，如果客户端认为当前语音识别应用是需要保密的，则判断为当前语音识别应用为涉及隐私，否则，判断为不涉及隐私。

步骤202：客户端提取语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别。

在该步骤中，针对不同语音信号中的语音识别特征，客户端可以采取不同的提取方式，具体可以为：对数字化语音信号进行高频预加重，按一定时间长度(如20毫秒)将语音信号分成若干帧，对分帧后的语音信号计算倒谱系数，最终每一帧语音信号都转换为若干维倒谱系数，即得到了了该数字化语音信号的语音识别特征。还可以采取其他提取方式，这里不再赘述。

需要说明的是，在本步骤中，所述语音识别模型包括声学模型和语言模型，语音识别模块利用声学模型和语言模型计算输入语音信号所对应的最可能的词序列。语音识别系统通过动态规划的方法搜索语音信号对应的输出序列，利用声学模型在声学层搜索可能的音素序列，并计算各个序列的似然得分(likelihood)，然后基于声学层结果利用语言模型在语言层搜索可能的词序列，并计算各个序列的似然得分(likelihood)，最终输出得分最高的前N个序列(N≥1)，即完成了语音识别过程。

步骤203：客户端根据得到的识别结果对语音识别模型进行更新，得到更新后的语音识别模型。

在本步骤中，所述客户端根据得到的识别结果对语音识别模型进行更新采用的是将最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)算法和本征音(Eigenvoice)算法相结合的方法，具体可以为：客户端保存用户的识别结果，每累积N(如N＝1)句话则利用此N句话进行本征音自适应，对当前语音识别模型进行更新；每累积M(如M＝5)句话则利用此M句话进行最大似然线性回归自适应，对当前语音识别模型进行更新，且每一次更新均可重复进行。

需要说明的是，在本步骤中，对语音识别模型进行更新还可以采用其他的实现方法，以不影响本发明实施例的实现为准，这里不再赘述。

步骤204：客户端根据更新后的语音识别模型对识别结果进行语音识别，得到更新的识别结果。

需要说明的是，当客户端判断出当前的语音识别应用涉及隐私时，即可执行步骤202-204中由客户端直接得到语音识别结果的操作，由此，涉及到隐私的语音数据没有经过网络，在保护了涉及隐私的语音数据的同时，还利用客户端完成了对该语音数据的语音识别。

还需说明的是，步骤203和204的操作是可以重复执行的，尤其是当语音信号所处的环境多变时，为了能够得到更好的语音识别结果，可以重复执行根据识别结果更新语音识别模型、根据更新的语音识别模型更新识别结果的操作，直至更新后的语音识别模型相比更新前的语音识别模型的变化小于某个阈值，其中，所述阈值的大小以实际应用为准。

步骤205：客户端判断与服务器是否连接成功，如果是，执行步骤206；否则执行步骤202。

需要说明的是，当客户端与服务器建立连接不成功时，现有技术是不能够执行对语音信号进行识别的，而本发明当客户端与服务器连接不成功时，进一步地，可以通过由客户端来实现对语音信号的识别。

步骤206：服务器向客户端请求语音识别模型。

步骤207：服务器判断向客户端请求的语音识别模型的更新时间是否晚于自身语音识别模型更新时间，如果是，执行步骤209；否则，执行步骤208。

步骤208：将服务器自身语音识别模型上传给客户端后，执行步骤210。

当向客户端请求的语音识别模型的更新时间不晚于自身语音识别模型更新时间时，说明向服务器自身的语音识别模型是比较新的语音识别模型，需要将其发送给客户端，使得客户端也能获得较新的语音识别模型。

步骤209：利用请求的客户端的语音识别模型更新自身的语音识别模型。

在本步骤中，当向客户端请求的语音识别模型的更新时间晚于自身语音识别模型更新时间时，说明向客户端请求的语音识别模型是比较新的语音识别模型，因此，需要根据该语音识别模型更新服务器的语音识别模型。

步骤210：服务器提取语音信号中的语音识别特征，根据自身语音识别模型对其进行语音识别。

本步骤的具体处理过程同步骤202，这里不再赘述。

步骤211：服务器根据得到的识别结果更新自身语音识别模型。

在本步骤中，具体如何更新语音识别模型可参见步骤203，这里不再赘述。

步骤212：根据更新的自身语音识别模型对识别结果进行语音识别，得到更新的识别结果。

需要说明的是，同步骤203和204一样，步骤211和212的操作也是可以重复的，即当语音信号所处的环境多变时，为了能够得到更好的语音识别结果，可以重复执行根据识别结果更新语音识别模型、根据更新的语音识别模型更新识别结果的操作，直至更新后的语音识别模型相比更新前的语音识别模型的变化小于某个阈值。

步骤213：将更新的语音识别结果返回给客户端。

需要说明的是，当客户端判断出当前的语音识别应用不涉及隐私时，即可执行步骤206-213中由服务器得到语音识别结果的操作。

至此，即完成了本发明语音识别方法的整个工作流程。

基于上述方法，图3给出了本发明语音识别方法中所采用的客户端的结构，如图3所示，该客户端包括第一判断单元31和语音识别单元32，其中，

所述第一判断单元31，用于判断当前的语音识别应用是否涉及隐私；

所述语音识别单元32，用于当第一判断单元31判断出当前的语音识别应用涉及隐私时，对采集到的语音信号进行语音识别。

进一步地，该客户端还包括第二判断单元33，用于当第一判断单元31判断出当前的语音识别应用不涉及隐私时，判断与服务器是否成功建立连接；

则，所述语音识别单元32，进一步用于当第二判断单元33判断出与服务器没有成功建立连接时，对采集到的语音信号进行语音识别。

更具体地，所述语音识别单元32包括：第一识别子单元321、更新子单元322和第二识别子单元323，其中，

所述第一识别子单元321，用于提取所述语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别；

所述更新子单元322，用于根据第一识别子单元321语音识别后得到的识别结果对所述语音识别模型进行更新，得到更新后的语音识别模型；

所述第二识别子单元323，用于根据所述更新子单元322更新后的语音识别模型对识别结果进行语音识别，得到更新的识别结果。

需要说明的是，第一识别子单元321、更新子单元322和第二识别子单元323的操作是可以重复执行的，直至更新后的自身语音识别模型相比更新前的自身语音识别模型的变化小于某个阈值。

至此，即得到了本发明音频数据处理所采用的客户端的结构。图3所示客户端的具体工作流程可参见图2，这里不再赘述。

总之，本发明所采用的语音识别方法，通过由客户端首先判断当前的语音识别应用是否涉及隐私，如果涉及隐私，则直接由客户端对所述采集到的语音信号进行语音识别，否则，才由服务器对所述采集到的语音信号进行语音识别。由于在本发明方法中，对涉及到隐私的语音数据是通过客户端来进行语音识别的，也就避免了上传服务器带来的语音信号的隐私外泄，因此，本发明方法能够完成对包含隐私的语音数据的语音识别处理。

其次，本发明的语音识别方法中，当客户端判断出当前的语音识别应用不涉及隐私时，需要进一步判断是否与服务器成功建立连接，当与服务器成功建立连接时，由服务器对所述采集到的语音信号进行语音识别；否则，由客户端对所述采集到的语音信号进行语音识别。即本发明方法只有当客户端与服务器成功建立连接时，才通过服务器对语音信号进行识别，否则，通过客户端对语音信号进行识别，由此，采用本发明方法，当与服务器不能成功建立连接，也即网络条件不支持时，同样能够实现对语音信号的语音识别。

再次，本发明所采用的语音识别方法，不管是通过由客户端还是由服务器对语音信号进行语音识别，都是通过由语音识别的识别结果对语音识别模型进行更新，进而再根据更新后的语音识别模型对识别结果进行更新，从而当语音信号所处的环境变化时，采用本发明方法能够得到比较精确的语音识别结果；进一步地，本发明语音识别方法还可以重复执行根据识别结果更新语音识别模型、根据更新的语音识别模型更新识别结果的操作，从而当语音信号所处的环境变化时，能够得到更加精确的语音识别结果。

最后，本发明所采用的语音识别方法，通过对客户端和服务器中的语音识别模型的更新时间进行比较，从而使得客户端和服务器中都能够获得同步的且是更新时间最晚的语音识别模型，从而使得得到的语音识别结果更加精确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，该方法包括：

客户端判断当前的语音识别应用是否涉及隐私，如果是，则由客户端对采集到的语音信号进行语音识别，避免上传服务器带来的语音信号的隐私外泄；否则，由服务器对采集到的语音信号进行语音识别；

所述由客户端对采集到的语音信号进行语音识别包括：

客户端提取所述语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别。

2.根据权利要求1所述的方法，其特征在于，当客户端判断出当前的语音识别应用不涉及隐私时，该方法进一步包括：判断与服务器是否成功建立连接，如果成功建立连接，由服务器对采集到的语音信号进行语音识别；否则，由客户端对采集到的语音信号进行语音识别。

3.根据权利要求1或2所述的方法，其特征在于，所述由客户端对采集到的语音信号进行语音识别还包括：

4.根据权利要求3所述的方法，其特征在于，该方法进一步包括：客户端重复执行根据更新的识别结果更新语音识别模型、根据更新的语音识别模型更新识别结果，直至更新后的自身语音识别模型相比更新前的自身语音识别模型的变化小于某个阈值。

5.根据权利要求1或2所述的方法，其特征在于，所述由服务器对采集到的语音信号进行语音识别包括：

服务器根据得到的识别结果更新自身语音识别模型；

将所述更新的语音识别结果返回给客户端。

6.根据权利要求5所述的方法，其特征在于，所述服务器提取语音信号中的语音识别特征之前，该方法进一步包括：

7.根据权利要求5所述的方法，其特征在于，该方法进一步包括：服务器重复执行根据更新的识别结果更新自身语音识别模型、根据更新的自身语音识别模型更新识别结果，直至更新后的自身语音识别模型相比更新前的自身语音识别模型的变化小于某个阈值。

8.根据权利要求7所述的方法，其特征在于，所述服务器提取语音信号中的语音识别特征之前，该方法进一步包括：

9.一种语音识别中的客户端，其特征在于，该客户端包括第一判断单元和语音识别单元，其中，

所述语音识别单元，用于当第一判断单元判断出当前的语音识别应用涉及隐私时，对采集到的语音信号进行语音识别，避免上传服务器带来的语音信号的隐私外泄；

所述语音识别单元包括第一识别子单元，用于提取所述语音信号中的语音识别特征，根据语音识别模型对提取到的语音识别特征进行语音识别。

10.根据权利要求9所述的客户端，其特征在于，该客户端还包括第二判断单元，用于当第一判断单元判断出当前的语音识别应用不涉及隐私时，判断与服务器是否成功建立连接；

11.根据权利要求9或10所述的客户端，其特征在于，所述语音识别单元还包括更新子单元和第二识别子单元，其中，