CN105161112A

CN105161112A - 语音识别方法和装置

Info

Publication number: CN105161112A
Application number: CN201510604804.7A
Authority: CN
Inventors: 张书豪; 李丰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-21
Filing date: 2015-09-21
Publication date: 2015-12-16
Anticipated expiration: 2035-09-21
Also published as: CN105161112B

Abstract

本发明提出一种语音识别方法和装置，该语音识别方法包括：获取用户的语音数据；将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。该方法能够降低语音识别达到较高成功率所需的时间。

Description

语音识别方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法和装置。

背景技术

由于地域、环境、身体等因素，人们的语音或多或少的都存在一定的差异，这不仅局限于方言等地域性差别。为了提高语音识别的成功率，需要获取用户的语言习惯。现有技术中，通常是在多次的语音识别过程中，逐渐获知用户的语音习惯，这样就会造成达到较高的语音识别成功率需要较长的时间。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音识别方法，该方法可以降低语音识别达到较高成功率所需的时间。

本发明的另一个目的在于提出一种语音识别装置。

为达到上述目的，本发明第一方面实施例提出的语音识别方法，包括：获取用户的语音数据；将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

本发明第一方面实施例提出的语音识别方法，通过先获取用户的个性化语音数据，在语音识别时采用用户的个性化语音数据，可以在一开始进行语音识别时就可以获取很高的识别成功率，降低达到较高的语音识别成功率所需的时间。

为达到上述目的，本发明第二方面实施例提出的语音识别装置，包括：获取模块，用于获取用户的语音数据；发送模块，用于将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；识别模块，用于接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

本发明第二方面实施例提出的语音识别装置，通过先获取用户的个性化语音数据，在语音识别时采用用户的个性化语音数据，可以在一开始进行语音识别时就可以获取很高的识别成功率，降低达到较高的语音识别成功率所需的时间。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音识别方法的流程示意图；

图2是本发明另一实施例提出的语音识别方法的流程示意图；

图3是本发明另一实施例提出的语音识别方法的流程示意图；

图4是本发明另一实施例提出的语音识别装置的结构示意图；

图5是本发明另一实施例提出的语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音识别方法的流程示意图，该方法包括：

S11：获取用户的语音数据。

其中，可以采用显式或隐式的方式，获取用户的语音数据。显式的方式是指向用户展示素材，并获取用户朗诵或歌唱该素材的语音，从而获取用户的语音数据。隐式的方式是指不向用户展示素材，而是在后台分析用户的日常语音，如通话数据、语音聊天数据、语音消息数据等，获取用户的语音数据。

S12：将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据。

例如，可以先从多个标准语音数据中查找出相似语音数据，再计算用户的语音数据与相似语音数据之间的差异，将差异最小的标准语音数据作为用户的个性化语音数据。

S13：接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

在确定出用户的个性化语音数据后，可以依据该个性化语音数据进行语音识别，从而提高语音识别成功率。

本实施例中，通过先获取用户的个性化语音数据，在语音识别时采用用户的个性化语音数据，可以在一开始进行语音识别时就可以获取很高的识别成功率，降低达到较高的语音识别成功率所需的时间。

图2是本发明另一实施例提出的语音识别方法的流程示意图，该方法以显式方式进行初始化为例，该方法包括：

S201：用户安装用于语音识别的应用程序(简称为语音识别应用)。

S202：用户打开语音识别应用。

例如，用户通过点击语音识别应用的图标打开语音识别应用。

S203：用户进行显式学习。

例如，用户点击语音识别应用内的显式学习功能项，以进行显式学习。

S204：语音识别应用向展示可供选择的素材。

例如，语音识别应用在检测到用户点击用于显式学习的功能项后，向用户展示可供选择的素材。

可供选择的素材例如包括：歌曲、文字、电影片段等。

S205：用户选择素材进行语音录入。

用户可以根据自己的喜欢选择素材，并依据该素材进行朗诵或歌唱等，从而录入用户的语音。

S206：语音识别应用接收用户的语音输入。

在用户录入语音后，可以将该语音传输给语音识别应用。

S207：语音识别应用上传用户的语音输入和用户信息到服务器。

用户信息包括：用户标识(ID)，还可以包括其他数据，如年龄、性别、地域等。

其中，用户可以预先在语音识别应用内进行用户信息设置，并在录入语音信息之间先登录，从而语音识别应用可以获取当前登录用户的用户ID以及其他数据，获取用户信息。

语音识别应用在接收到当前登录的用户录入的语音输入后，可以将该语音输入与相应的用户信息发送给服务器。

S208：服务器接收语音识别应用发送的语音输入和用户信息。

S209：服务器根据用户信息查找相似标准语音。

其中，服务器内预先保存多种标准语音，并关联保存标准语音的标识信息，如“普通话、北京、男”，“上海话、上海、女”等，从而可以根据用户信息与标准语音的标识信息查找相似标准语音。例如，用户信息中包含“北京、男”，则可以将标识信息是“普通话、北京、男”的标准语音作为相似标准语音。

相似标准语音可以是一个或多个。

S210：对输入语音进行去噪正则化，得到处理后的输入语音。

去噪正则化用于去除输入语音中的干扰因素，例如，去除背景噪音、音量提升或降低等。

S211：计算处理后的输入语音与相似标准语音的差异特征信息，生成用户特征集。

差异特征信息例如包括：语速、音质频谱、特殊字差异等。

用户特征集中记录该用户的每个相似标准语音与输入语音之间的差异特征信息，如果一个用户的相似标准语音有多个，则可以对应一个用户生成多个标准语音对应的差异特征信息。

S212：根据每个相似标准语音对应的差异特征信息，将差异最小的相似标准语音作为用户的个性化语音数据。

另外，该过程可以是一个持续的流程，例如，随着后续用户的语音输入的不断增加，或者标准语音的不断更新，可以获取新的差异最小的标准语音，更新用户的个性化语音数据。

S213：服务器将用户的个性化语音数据返回给语音识别应用。

语音识别应用接收到服务器发送的用户的个性化语音数据后，可以实现用户的个性化语音数据的初始化。

S214：语音识别应用接收服务器发送的用户的个性化语音数据，以及，在语音识别时，根据用户的个性化语音数据进行语音识别。

一些实施例中，在用户的个性化语音数据初始化之后，还可以持续学习并更新用户的个性化数据，相应的，该方法还可以包括：

S215：语音识别应用获取新的语音输入。之后，可以重新执行S207及其后续步骤。

通过新的语音输入可以更新用户的个性化语音数据，从而可以实时跟踪到用户当前的状态，为用户提供更准确的语音识别。例如，用户换了居住城市，那么口音可能会逐渐发生改变，通过持续性学习，能够持续跟踪和适应这种变化。

本实施例中，通过显式方法进行用户的个性化语音数据的初始化，可以加快初始化速度，从而很快的将用户的个性化语音数据用于语音识别，提高语音识别的成功率。通过后续持续的学习，可以跟踪用户状态，更新用户的个性化语音数据，可以适应用户当前状态。

图3是本发明另一实施例提出的语音识别方法的流程示意图，该方法以隐式方式进行初始化为例，该方法包括：

S301：用户安装用于语音识别的应用程序(简称为语音识别应用)。

S302：语音识别应用隐式地获取用户的语音输入。

例如，语音识别应用不需要显式地向用户展示素材，而是常驻后台，并持续获取用户最近的通话、语音聊天、语音消息等日常语音输入。

S303：语音识别应用上传用户的语音输入和用户信息到服务器。

其中，用户可以预先在语音识别应用内进行用户信息设置，从而语音识别应用可以获取已设置或已登录的用户ID以及其他数据，获取用户信息。

语音识别应用在隐式地获取用户的语音输入后，可以将该语音输入与相应的用户信息发送给服务器。

S304：服务器接收语音识别应用发送的语音输入和用户信息。

S305：服务器根据用户信息查找相似标准语音。

相似标准语音可以是一个或多个。

S306：对输入语音进行去噪正则化，得到处理后的输入语音。

S307：计算处理后的输入语音与相似标准语音的差异特征信息，生成用户特征集。

差异特征信息例如包括：语速、音质频谱、特殊字差异等。

S308：根据每个相似标准语音对应的差异特征信息，将差异最小的相似标准语音作为用户的个性化语音数据。

S309：服务器将用户的个性化语音数据返回给语音识别应用。

S310：语音识别应用在语音识别时，根据用户的个性化语音数据进行语音识别。

S311：语音识别应用获取新的语音输入。之后，可以重新执行S303及其后续步骤。

本实施例中，通过隐式方法进行用户的个性化语音数据的初始化，可以降低对用户的打扰，提升用户体验；通过在语音识别时采用用户的个性化语音数据，可以在一开始的语音识别时就可以提高语音识别的成功率。通过后续持续的学习，可以跟踪用户状态，更新用户的个性化语音数据，可以适应用户当前状态。

图4是本发明另一实施例提出的语音识别装置的结构示意图，该装置40包括：获取模块41、发送模块42和识别模块43。

获取模块41，用于获取用户的语音数据；

可选的，所述获取模块41具体用于：

向用户显式地展示可供用户选择的素材，以及获取用户对所述素材的语音数据；或者，

隐式地获取用户产生的语音数据。

发送模块42，用于将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；

识别模块43，用于接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

一些实施例中，所述发送模块42还用于：将用户的用户信息发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据，包括：

根据用户信息获取相似标准语音数据；

比较所述用户的语音数据与所述相似标准语音数据的差异；

将差异最小的相似标准语音数据，确定为用户的个性化语音数据。

可选的，所述将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据，还包括：

对所述用户的语音数据进行去噪正则化处理，以便比较处理后的语音数据与相似标准语音数据的差异。

相似标准语音可以是一个或多个。

差异特征信息例如包括：语速、音质频谱、特殊字差异等。

根据每个相似标准语音对应的差异特征信息，将差异最小的相似标准语音作为用户的个性化语音数据。

一些实施例中，参见图5，该装置40还包括：

更新模块44，用于在语音识别后，持续获取用户的语音数据，并根据新获取的用户的语音数据更新用户的个性化语音数据，以便用更新后的用户的个性化语音数据进行后续语音识别。

本实施例中，通过显式方法进行用户的个性化语音数据的初始化，可以加快初始化速度，从而很快的将用户的个性化语音数据用于语音识别，提高语音识别的成功率。或者，通过隐式方法进行用户的个性化语音数据的初始化，可以降低对用户的打扰，提升用户体验。通过后续持续的学习，可以跟踪用户状态，更新用户的个性化语音数据，可以适应用户当前状态。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

获取用户的语音数据；

将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；

接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述获取用户的语音数据，包括：

隐式地获取用户产生的语音数据。

3.根据权利要求1所述的方法，其特征在于，还包括：

在语音识别后，持续获取用户的语音数据，并根据新获取的用户的语音数据更新用户的个性化语音数据，以便用更新后的用户的个性化语音数据进行后续语音识别。

4.根据权利要求2所述的方法，其特征在于，所述隐式地获取用户产生的语音数据包括如下项中的一项或多项：

用户的通话数据、语音聊天数据、语音消息数据。

5.根据权利要求1-3任一项所述的方法，其特征在于，还包括：将用户的用户信息发送给服务端，所述将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据，包括：

根据用户信息获取相似标准语音数据；

比较所述用户的语音数据与所述相似标准语音数据的差异；

6.根据权利要求5所述的方法，其特征在于，所述将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据，还包括：

7.一种语音识别装置，其特征在于，包括：

获取模块，用于获取用户的语音数据；

发送模块，用于将所述用户的语音数据发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据；

识别模块，用于接收服务端发送的用户的个性化语音数据，以及，在语音识别时，采用所述用户的个性化语音数据进行语音识别。

8.根据权利要求7所述的装置，其特征在于，所述获取模块具体用于：

隐式地获取用户产生的语音数据。

9.根据权利要求7所述的装置，其特征在于，还包括：

更新模块，用于在语音识别后，持续获取用户的语音数据，并根据新获取的用户的语音数据更新用户的个性化语音数据，以便用更新后的用户的个性化语音数据进行后续语音识别。

10.根据权利要求7-9任一项所述的装置，其特征在于，所述发送模块还用于：将用户的用户信息发送给服务端，以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对，获取用户的个性化语音数据，包括：

根据用户信息获取相似标准语音数据；

比较所述用户的语音数据与所述相似标准语音数据的差异；