CN111081254A

CN111081254A - 一种语音识别方法和装置

Info

Publication number: CN111081254A
Application number: CN201911367380.1A
Authority: CN
Inventors: 周鹏; 宋碧霄
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-04-28
Anticipated expiration: 2039-12-26
Also published as: CN111081254B

Abstract

本发明公开了一种语音识别的方法，应用于云端服务器，该方法包括：接收客户端发送的语音识别请求；获取所述语音识别请求中携带的唤醒词文本数据；根据所述唤醒词文本构建对应的唤醒词模型；将所述唤醒词模型和通用语言模型连接；使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。

Description

一种语音识别方法和装置

技术领域

本发明涉及语音识别技术，尤其涉及一种语音识别方法和装置。

背景技术

在语音识别中有一种类型叫oneshot(一语即达)语音识别，即，用户在说唤醒词后，马上说意图，本地唤醒系统在成功唤醒的同时，对意图进行识别，或将唤醒词和意图上传云端进行识别。如“你好小驰，明天天气怎么样？”，其中“你好小驰”是唤醒词，“明天天气怎么样”是意图。目前，为了提高唤醒词的识别率，通常的做法：一种是在训练语言模型阶段，加入唤醒词语料，和通用语料一起训练出一个语言模型；另一种是使用唤醒词语料训练出单独的唤醒词模型，然后和通用语言模型进行插值，从而获得一个含有唤醒词的通用语言模型来满足这种oneshot语音识别方式。这里，通用语言模型是指训练语言模型的语料来源比较广泛(即通用语料)，训练出来的模型泛化能力比较好(能大概率的正确识别常用的说法)。

但是，上述两种方式均存在如下的问题：

目前市场上带语音功能的设备层出不穷，每个设备都有自己的唤醒词，因此唤醒词越来越多，每推出一个新的设备，或者一个设备出现一个新的唤醒词，服务于多种设备的共有云都需要针对该设备的唤醒词重新训练语言模型，而采用上述的方式进行oneshot语音识别的模型训练的开销非常大。

另外，唤醒词越来越多，会影响通用语言模型的识别率，这是因为：唤醒词模型和通用语言模型存在竞争关系，唤醒词模型会对通用语言模型产生干扰，比如唤醒词中有“你好小狸”，那么想识别出“你好小李”就很困难；另一方面会造成唤醒词之间的相互影响，如同音词之间的串词。由此造成oneshot语音识别率较低。

发明内容

本发明提供一种语音识别方法，以解决上述的技术问题。

本发明一方面提供一种语音识别的方法，应用于云端服务器，该方法包括：

接收客户端发送的语音识别请求；

获取所述语音识别请求中携带的唤醒词文本数据；

根据所述唤醒词文本构建对应的唤醒词模型；

将所述唤醒词模型和通用语言模型连接；

使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。

其中，所述获取所述语音识别请求中携带的唤醒词文本，包括：

所述语音识别请求中包含唤醒词参数，若所述唤醒词参数的值不为空，则获取所述唤醒词参数的值作为所述唤醒词文本数据；

所述唤醒词文本数据表征一个或多个唤醒词，所述一个或多个唤醒词为所述客户端使用的一个或多个唤醒词。

其中，所述唤醒词模型和所述通用语言模型通过WFST图表示，所述将所述唤醒词模型和通用语言模型连接，包括：

在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边。

其中，若所述唤醒词参数的值不为空，则所述语音识别请求中携带的语音包括两部分语音，其中，第一部分语音为唤醒词语音，第二部分语音在所述唤醒词语音之后；

所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别，包括：

通过唤醒词模型识别出所述语音中的唤醒词语音后，跳转到通用语言模型，通过通用语言模型识别出所述唤醒语音之后的第二部分语音。

其中，若所述唤醒词参数的值为空，所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别，包括：

跳过所述唤醒词模型，使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。

本发明另一方面提供一种语音识别的装置，应用于云端服务器，该装置包括：

交互模块，用于接收客户端发送的语音识别请求；

处理模型，用于获取所述语音识别请求中携带的唤醒词文本数据；

模型构建模块，用于根据所述唤醒词文本构建对应的唤醒词模型，并将所述唤醒词模型和通用语言模型连接；

识别模块，用于使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。

其中，所述语音识别请求中包含唤醒词参数，

所述处理模块，还用于法确定所述唤醒词参数的值不为空时，获取所述唤醒词参数的值作为所述唤醒词文本数据；

其中，所述唤醒词模型和所述通用语言模型通过WFST图表示，

所述模型构建模块，还用于在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边，实现所述唤醒词模型和所述通用语言模型的连接。

其中，所述唤醒词参数的值不为空时，所述语音识别请求中携带的语音包括两部分语音，其中，第一部分语音为唤醒词语音，第二部分语音在所述唤醒词语音之后；

所述识别模块，还用于通过唤醒词模型识别出所述语音中的唤醒词语音后，跳转到通用语言模型，通过通用语言模型识别出所述唤醒语音之后的第二部分语音。

其中，若所述唤醒词参数的值为空，

所述识别模块，还用于跳过所述唤醒词模型，使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。

在上述语音识别过程中，基于客户端的唤醒词单独进行模型训练，首先训练的过程较为简单，开销较低；其次，将该唤醒词模型和已经较成熟的通用语言模型连接，基于这样的新的模型在识别oneshot语音时，可以实现使用唤醒词模型对语音中的唤醒词语音进行识别，使用通用语言模型对语音中除唤醒词部分的其他语音进行识别，两部分语音的识别互不干扰，且各部分的识别正确率提高，则oneshot语音的整体识别率有了极大的提高。另外，两部分模型是分开训练，相比现有技术中将唤醒词和通用预料交叉训练的方式而言，降低了模型训练的开销。

附图说明

图1所示为本发明一实施例提供的语音识别方法流程示意图；

图2所示为本发明另一实施例提供的语音识别方法流程示意图；

图3所示为本发明一实施例提供的唤醒词模型示意图；

图4所示为本发明一实施例提供的语音识别模型示意图；

图5所示为本发明一实施例提供的语音识别装置示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在各语音设备使用公有云资源的情况下，为了提高oneshot方式的语音识别率，本发明一实施例提供了的语音识别的方法，该方法应用在云端服务器侧，包括：

步骤101，接收客户端发送的语音识别请求。

需要识别的语音由客户端采集后发送给云端服务器。

本发明实施例中，客户端可以是具备语音功能的智能硬件设备，也可以是部署在硬件设备上的提供语音功能的软件。

步骤102，获取语音识别请求中携带的唤醒词文本数据。

语音识别请求中包含唤醒词参数，该唤醒词文本中可以包括一个或多个唤醒词。当客户端有多个唤醒词时，该唤醒词参数用于携带该客户端的所有唤醒词的文本数据。

步骤103，根据唤醒词文本数据构建对应的唤醒词模型。

基于唤醒词文本数据可以构建唤醒词模型，例如，可以采用monophone、triphone、音素等多种方式来构建唤醒词模型。

步骤104，将唤醒词模型和通用语言模型连接。

本公开实施例中，唤醒词模型和通用语言模型可采用WFST图(加权有限状态机，每个圈表示一个状态节点，连接两个状态节点的线叫边，每条边上有输入和输出，当需要连接唤醒模型和通用语言模型时，在构建唤醒词模型的过程中，在唤醒词模型的终止状态节点和通用语言模型的起始状态节点之间加一条边(eps/eps输入输出都为空的无条件跳转边)，就可以连接两个模型。

步骤105，使用所述连接后的唤醒词模型和通用语言模型对语音识别请求中携带的语音进行识别。

使用连接后的唤醒词模型和通用语言模型对于语音进行识别时，由于模型的结构中，唤醒词模型在前通用语言模型在后，因此可以先基于唤醒词模型识别出唤醒词，再使用通用语言模型对唤醒词之后的的语音进行识别，具体的：识别从唤醒词模型的起始状态节点开始，当走到唤醒词模型的终止状态节点时，识别出唤醒词，由于有一条上述的无条件跳转边的存在，则可以从唤醒词模型的终止状态节点进入到通用语言模型的起始状态节点，从而可以继续识别唤醒词后面的音频。

另外，如图2所示，在上述步骤102中在存在一种情形，就是未获取到唤醒词文本数据，这里指，唤醒词参数值为空的情形，即客户端在封装语音识别请求时未将自身的唤醒词封装进去。那么，可以直接执行：

步骤106，跳过唤醒词模型，使用通用语言模型对语音识别请求中携带的语音进行识别。

对应于上述云端服务器侧的语音识别过程，如图2所示，本发明实施例还提供了在客户端一侧实现的语音识别方法，包括：

步骤201，进入唤醒状态。

步骤202，采集语音。

步骤203，生成语音识别请求发送给云端服务器，所述语音识别请求包括唤醒词文本数据和所述采集的语音。

该实施例中，客户端在采集语音的同时，确定自身是否进入唤醒状态。如果是，将自身的所有唤醒词的文本数据封装在语音识别请求中。

如果未进入唤醒状态，则发送给云端服务器的语音识别请求中仅携带采集到的语音，唤醒词参数的值为空。

下面通过一个具体的场景对上述的方案进行详细的描述。

假设客户端1的唤醒词有：“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”。

1、用户在客户端输入语音“你好零零七，今天天气如何？”，由于用户使用了唤醒词“你好零零七”，则客户端1被唤醒；

2、客户端1在采集语音“你好零零七，今天天气如何？”时，确定自身处于唤醒状态，则生成一个语音识别请求，该请求中除了携带语音“你好零零七，今天天气如何？”，还携带一个唤醒词参数，该参数的值包含的文本数据表征的唤醒词为：“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”。该语音识别请求被发送给云端服务器。

3、云端服务器接收到语音识别请求后，从中获取到了唤醒词文本数据，根据“你好零零七”、“你好零零八”、“你好零零九”和“你好陆风”构建唤醒词模型，该唤醒词模型可采用WFST图表示，如图3所示。

图3所示的唤醒词模型中包含了4条路径，以第一条路径为例进行说明：第一条路径对应唤醒词“你好零零七”，该路径上包含多个状态节点和多条边，从左往右依次为：“sil/eps”表示输入为语音开头的静音部分输出为空，因为，实际采集到的语音中，第1个发音之前都会存在一小段静音；“ni/你”表示输入为语音的第一个发音“ni”，输出为“你”；以此类推，最后一个边“qi/七”表示输入为最后一个发音“qi”，输出为“七”，当最后一个发音识别出后，根据无条件跳转边(“eps/eps”)的指示，无条件跳转到终止状态节点(end)。

那么当语音中包含唤醒词“你好陆风”时，按照图3的模型，开始识别时，分别根据4条路径进行识别，直到识别到第三个语音“lu”时，第1、3、4条路径都不匹配，无法识别出，只有第2条路径可以识别出，因此，唤醒词后续的音都通过第2条路径识别，直到识别出整个唤醒词。

4、云端服务器在唤醒词模型的尾部连接上通用语言模型，得到一个新的模型，如图4所示。

唤醒词模型中的“end”即唤醒词模型的终止状态节点，在该节点的后面添加一条“无条件跳转边”，该条边连接通用语言模型的起始状态节点，即图中所示“start”，即可完成两个模型的连接。

5、云端服务器使用图4所示的模型对采集的语音进行识别，由于图4所示的模型中的唤醒词模型是基于该客户端的唤醒词构建的，因此，客户端1请求的语音中唤醒词的识别的正确率极高，基本不会出错，也避免了同音词串词的情形。识别出唤醒词之后，就可以用图4中的通用模型来识别语音的后续部分。

由此可见，在上述语音识别过程中，基于客户端的唤醒词单独进行模型训练，首先训练的过程较为简单，开销较低；其次，将该唤醒词模型和已经较成熟的通用语言模型连接，基于这样的新的模型在识别oneshot语音时，可以实现使用唤醒词模型对语音中的唤醒词语音进行识别，使用通用语言模型对语音中除唤醒词部分的其他语音进行识别，两部分语音的识别互不干扰，且各部分的识别正确率提高，则oneshot语音的整体识别率有了极大的提高。另外，两部分模型是分开训练，相比现有技术中将唤醒词和通用预料交叉训练的方式而言，降低了模型训练的开销。

需要指出的是，本公开中，该连接的模型在每次语音识别完成后，都可以删除，不占用云端资源。这种动态的模型训练和部署方式更为灵活。

为了实现上述的语音识别方法，如图5所示，本公开实施例还提供了一种语音识别的装置，应用于云端服务器，该装置包括：

交互模块10，用于接收客户端发送的语音识别请求；

处理模型20，用于获取所述语音识别请求中携带的唤醒词文本数据；

模型构建模块30，用于根据所述唤醒词文本构建对应的唤醒词模型，并将所述唤醒词模型和通用语言模型连接；

识别模块40，用于使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别。

其中，所述语音识别请求中包含唤醒词参数，

所述处理模块20，还用于法确定所述唤醒词参数的值不为空时，获取所述唤醒词参数的值作为所述唤醒词文本数据；

其中，所述唤醒词模型和所述通用语言模型通过WFST图表示，

所述模型构建模块30，还用于在所述唤醒词模型的终止状态节点和所述通用语言模型的起始状态节点之间增加一条无条件跳转边，实现所述唤醒词模型和所述通用语言模型的连接。

所述识别模块40，还用于通过唤醒词模型识别出所述语音中的唤醒词语音后，跳转到通用语言模型，通过通用语言模型识别出所述唤醒语音之后的第二部分语音。

其中，若所述唤醒词参数的值为空，

所述识别模块40，还用于跳过所述唤醒词模型，使用所述通用语言模型对所述语音识别请求中携带的语音进行识别。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别的方法，其特征在于，应用于云端服务器，该方法包括：

接收客户端发送的语音识别请求；

获取所述语音识别请求中携带的唤醒词文本数据；

根据所述唤醒词文本构建对应的唤醒词模型；

将所述唤醒词模型和通用语言模型连接；

2.根据权利要求1所述的方法，其特征在于，所述获取所述语音识别请求中携带的唤醒词文本，包括：

3.根据权利要求2所述的方法，其特征在于，

所述唤醒词模型和所述通用语言模型通过WFST图表示，所述将所述唤醒词模型和通用语言模型连接，包括：

4.根据权利要求3所述的方法，其特征在于，若所述唤醒词参数的值不为空，则所述语音识别请求中携带的语音包括两部分语音，其中，第一部分语音为唤醒词语音，第二部分语音在所述唤醒词语音之后；

5.根据权利要求4所述的方法，其特征在于，若所述唤醒词参数的值为空，所述使用所述连接后的唤醒词模型和通用语言模型对所述语音识别请求中携带的语音进行识别，包括：

6.一种语音识别的装置，其特征在于，应用于云端服务器，该装置包括：

交互模块，用于接收客户端发送的语音识别请求；

7.根据权利要求6所述的装置，其特征在于，所述语音识别请求中包含唤醒词参数，

8.根据权利要求7所述的装置，其特征在于，所述唤醒词模型和所述通用语言模型通过WFST图表示，

9.根据权利要求8所述的装置，其特征在于，所述唤醒词参数的值不为空时，所述语音识别请求中携带的语音包括两部分语音，其中，第一部分语音为唤醒词语音，第二部分语音在所述唤醒词语音之后；

10.根据权利要求9所述的装置，其特征在于，若所述唤醒词参数的值为空，