CN105679314A

CN105679314A - 语音识别方法和装置

Info

Publication number: CN105679314A
Application number: CN201511000520.3A
Authority: CN
Inventors: 程强; 蒋正翔; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-15
Anticipated expiration: 2035-12-28
Also published as: CN105679314B

Abstract

本发明提出一种语音识别方法和装置，该语音识别方法包括：接收待识别的语音信号；确定所述语音信号属于的领域；后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。该方法能够提高语音识别的准确度。

Description

语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法和装置。

背景技术

语音识别可以将语音识别为文字。在语音识别时，通常是根据语音识别模型对输入的语音信号进行识别，得到识别结果。相关技术中，会针对每个产品需求建立对应的识别后台，由于每个产品可能涉及多个领域，因此每个识别后台里面包含了多个模型，每次待识别的语音信号由这多个模型共同处理最后决定结果。但是，这种方式多余的模型可能会造成干扰，例如，无法有效区分“北京”或“背景”。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音识别方法，该方法可以提高语音识别的准确度。

本发明的另一个目的在于提出一种语音识别装置。

为达到上述目的，本发明第一方面实施例提出的语音识别方法，包括：接收待识别的语音信号；确定所述语音信号属于的领域；后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

本发明第一方面实施例提出的语音识别方法，通过确定待识别的语音信号属于的领域，并采用对应领域的语音识别模型对语音信号进行语音识别，可以在语音信号属于不同领域时，动态切换采用的语音识别模型，相对于固定的语音识别模型的方式，可以提高精准性，从而提高语音识别的准确度。

为达到上述目的，本发明第二方面实施例提出的语音识别装置，包括：接收模块，用于接收待识别的语音信号；确定模块，用于确定所述语音信号属于的领域；第一识别模块，用于将后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

本发明第二方面实施例提出的语音识别装置，通过确定待识别的语音信号属于的领域，并采用对应领域的语音识别模型对语音信号进行语音识别，可以在语音信号属于不同领域时，动态切换采用的语音识别模型，相对于固定的语音识别模型的方式，可以提高精准性，从而提高语音识别的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音识别方法的流程示意图；

图2是本发明另一实施例提出的语音识别方法的流程示意图；

图3是本发明另一实施例提出的语音识别方法的流程示意图；

图4是本发明实施例中训练阶段及识别阶段的示意图；

图5是本发明另一实施例提出的语音识别方法的流程示意图；

图6是本发明另一实施例提出的语音识别装置的结构示意图；

图7是本发明另一实施例提出的语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音识别方法的流程示意图，该方法包括：

S11：接收待识别的语音信号。

用户在使用应用程序(APP)时，可以通过APP提供的语音识别功能输入待识别的语音信号。

S12：确定所述语音信号属于的领域。

一些实施例中，参见图2，S11可以包括：

S111：向用户询问当前交互阶段的信息。

APP可以以文字或语音等方式将询问信息通知给用户。

S112：接收用户语音输入的回复信息，将所述回复信息确定为所述待识别的语音信号。

相应的，S12可以包括：

S121：根据所述当前交互阶段的信息属于的领域，确定为所述语音信号属于的领域。

APP可以与用户进行语音交互，向用户询问信息，例如，用户在预定酒店时，可以先向用户询问酒店类型、在用户回复后，再询问日期、城市、地点等信息，根据询问的信息属于的领域确定语音信号属于的领域，例如，当前询问的是酒店类型，待识别的语音信号是针对酒店类型的回复信息，则可以确定待识别的语音信号属于的领域是酒店类型。

APP的领域可以预先设置，不同APP的领域可以相同或不同。

S13：后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

其中，可以预先生成一个或多个领域的语音识别模型，并建立领域与语音识别模型的对应关系，从而根据该对应关系，可以在识别后台切换到与当前的语音信号属于的领域对应的语音识别模型。

在切换到对应领域的语音识别模型后，采用对应领域的语音识别模型对待识别的语音信号进行语音识别。

例如，确定待识别的语音信号属于的领域是酒店类型时，则可以根据酒店类型对应的语音识别模型进行语音识别。

一些实施例中，参见图3，该方法还可以包括：

S14：收集不同领域的语料。

例如，参见图4，对应一个APP，假设该APP的领域可以分为第一类、第二类、第三类等，则可以分别收集第一类的语料、第二类的语料、第三类的语料等。

具体的，例如，对应酒店预订的APP，可以将领域分为酒店类型、日期、城市、地点等，则可以分别收集酒店类型的语料、日期的语料、城市的语料、地点的语料等。

S15：根据不同领域的语料进行训练，生成对应领域的语音识别模型。

例如，参见图4，根据第一类的语料生成第一类的语音识别模型等。

S16：建立领域与语音识别模型的对应关系，以根据所述对应关系获取不同领域的语音识别模型。

例如，第一类的语音识别模型称为第一模型，则可以建立第一类与第一模型的对应关系，从而接收到第一类的语音信号后，确定对应的语音识别模型是第一模型。

在确定出语音信号对应的语音识别模型后，可以采用对应的语音识别模型对语音信号进行语音识别。例如，参见图4，采用第一类的语音识别模型对第一类的语音信号进行语音识别等。

一些实施例中，参见图5，该方法还可以包括：

S17：采用通用语音识别模型对所述语音信号进行语音识别，得到第二语音识别结果。

S18：从第一语音识别结果和所述第二语音识别结果中选择最优的语音识别结果，将所述最优的语音识别结果作为最终的语音识别结果，其中，第一语音识别结果是采用所述语音信号属于的领域对应的语音识别模型对所述语音信号进行语音识别后得到。

例如，参见图4，在语音识别时，可以不仅采用对应领域的语音识别模型对待识别的语音信号进行语音识别，还可以采用通用语音识别模型对待识别的语音信号进行语音识别，之后将识别得到的两个结果中的最优结果确定为最终结果。

其中，通用语音识别模型是根据通用语料进行训练后生成的，通用语料是不区分领域的语料。

在采用语音识别模型对语音信号进行语音识别时，还可以得到语音识别结果的得分，从而可以将得分高的语音识别结果作为最优的语音识别结果。

另外，可以理解的是，在采用对应领域的语音识别模型进行语音识别时，待识别的语音信号属于的领域可以是一个或多个，当该领域是多个时，则可以采用每个对应领域的语音识别模型进行一次语音识别，得到多个语音识别结果，之后也可以将得分最高的语音识别结果作为采用对应领域的语音识别模型进行语音识别的语音识别结果。

另外，如果不能确定待识别的语音信号的领域，则可以采用通用语音识别模型进行语音识别。

本实施例中，通过确定待识别的语音信号属于的领域，并采用对应领域的语音识别模型对语音信号进行语音识别，可以在语音信号属于不同领域时，动态切换采用的语音识别模型，相对于固定的语音识别模型的方式，可以提高精准性，从而提高语音识别的准确度。进一步的，通过与用户交互，并根据交互阶段的信息确定语音信号属于的领域，可以简便快速的确定出领域。进一步的，通过根据不同领域的语料生成对应领域的语音识别模型，可以提高语音识别模型的精准度。进一步的，通过再根据通用语音识别模型进行识别，并选择最优的语音识别结果，可以进一步提高语音识别结果的准确度。进一步的，通过将语音信号属于的领域确定为多个，从而可以根据多个领域分别对应的语音识别模型对语音信号进行语音识别，可以进一步保证语音识别结果的准确度。

图6是本发明另一实施例提出的语音识别装置的结构示意图，该装置60包括：接收模块61、确定模块62和第一识别模块63。

接收模块61，用于接收待识别的语音信号。

确定模块62，用于确定所述语音信号属于的领域。

一些实施例中，所述接收模块61具体用于：

向用户询问当前交互阶段的信息；

接收用户语音输入的回复信息，将所述回复信息确定为所述待识别的语音信号。

相应的，所述确定模块62具体用于：

根据所述当前交互阶段的信息属于的领域，确定为所述语音信号属于的领域。

APP的领域可以预先设置，不同APP的领域可以相同或不同。

第一识别模块63，用于将后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

一些实施例中，参见图7，该装置60还包括：

训练模块64，用于收集不同领域的语料；根据不同领域的语料进行训练，生成对应领域的语音识别模型；以及，建立领域与语音识别模型的对应关系，以根据所述对应关系获取不同领域的语音识别模型。

一些实施例中，在采用所述语音识别模型对所述语音信号进行语音识别后得到第一语音识别结果，参见图7，该装置60还包括：

第二识别模块65，用于采用通用语音识别模型对所述语音信号进行语音识别，得到第二语音识别结果；

选择模块66，用于从所述第一语音识别结果和所述第二语音识别结果中选择最优的语音识别结果，将所述最优的语音识别结果作为最终的语音识别结果。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

接收待识别的语音信号；

确定所述语音信号属于的领域；

后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述接收待识别的语音信号，包括：

向用户询问当前交互阶段的信息；

3.根据权利要求2所述的方法，其特征在于，所述确定所述语音信号属于的领域，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

收集不同领域的语料；

根据不同领域的语料进行训练，生成对应领域的语音识别模型；

建立领域与语音识别模型的对应关系，以根据所述对应关系获取不同领域的语音识别模型。

5.根据权利要求1所述的方法，其特征在于，在采用所述语音识别模型对所述语音信号进行语音识别后得到第一语音识别结果，所述方法还包括：

采用通用语音识别模型对所述语音信号进行语音识别，得到第二语音识别结果；

从所述第一语音识别结果和所述第二语音识别结果中选择最优的语音识别结果，将所述最优的语音识别结果作为最终的语音识别结果进行输出。

6.根据权利要求1所述的方法，其特征在于，所述语音信号属于的领域是一个或多个。

7.一种语音识别装置，其特征在于，包括：

接收模块，用于接收待识别的语音信号；

确定模块，用于确定所述语音信号属于的领域；

第一识别模块，用于将后台切换为所述领域对应的语音识别模型，并采用所述语音识别模型对所述语音信号进行语音识别。

8.根据权利要求7所述的装置，其特征在于，所述接收模块具体用于：

向用户询问当前交互阶段的信息；

9.根据权利要求8所述的装置，其特征在于，所述确定模块具体用于：

10.根据权利要求8所述的装置，其特征在于，还包括：

训练模块，用于收集不同领域的语料；根据不同领域的语料进行训练，生成对应领域的语音识别模型；以及，建立领域与语音识别模型的对应关系，以根据所述对应关系获取不同领域的语音识别模型。

11.根据权利要求8所述的装置，其特征在于，在采用所述语音识别模型对所述语音信号进行语音识别后得到第一语音识别结果，所述装置还包括：

第二识别模块，用于采用通用语音识别模型对所述语音信号进行语音识别，得到第二语音识别结果；

选择模块，用于从所述第一语音识别结果和所述第二语音识别结果中选择最优的语音识别结果，将所述最优的语音识别结果作为最终的语音识别结果。