CN105489222A

CN105489222A - 语音识别方法和装置

Info

Publication number: CN105489222A
Application number: CN201510920588.7A
Authority: CN
Inventors: 袁斌; 彭守业; 徐杨飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-04-13
Anticipated expiration: 2035-12-11
Also published as: US10685647B2; WO2017096778A1; CN105489222B; US20180374478A1

Abstract

本发明提出一种语音识别方法和装置，该语音识别方法包括：获取待识别的语音信号的特征；根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果；根据所述解码结果判断是否需要拒识；如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。该方法具有很好的拒识效果。

Description

语音识别方法和装置

技术领域

本发明涉及语音技术领域，尤其涉及一种语音识别方法和装置。

背景技术

语音技术可以为人们提供非常方便的用户体验，尤其是在移动端和可穿戴设备上。目前语音识别技术主要是通过线上服务进行识别，但是如果在没有网络或者网络不稳定情况下，在线服务便不能够满足需求，并且传统的离线语音识别系统识别不具有拒识效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音识别方法，该方法具有很好的拒识效果。

本发明的另一个目的在于提出一种语音识别装置。

为达到上述目的，本发明第一方面实施例提出的语音识别方法，包括：获取待识别的语音信号的特征；根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果；根据所述解码结果判断是否需要拒识；如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

本发明第一方面实施例提出的语音识别方法，通过判断是否需要拒识，在需要时进行拒识处理，可以具有较好的拒识效果，同时由于存在拒识情况，可以提高识别精度。

为达到上述目的，本发明第二方面实施例提出的语音识别装置，包括：获取模块，用于获取待识别的语音信号的特征；解码模块，用于根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果；判断模块，用于根据所述解码结果判断是否需要拒识；确定模块，用于如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

本发明第二方面实施例提出的语音识别装置，通过判断是否需要拒识，在需要时进行拒识处理，可以具有较好的拒识效果，同时由于存在拒识情况，可以提高识别精度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音识别方法的流程示意图；

图2是本发明实施例中获取语音信号的特征的流程示意图；

图3是本发明实施例中构图的流程示意图；

图4是本发明实施例中构图生成的一种搜索空间的示意图；

图5是本发明另一实施例提出的语音识别方法的流程示意图；

图6是本发明另一实施例提出的语音识别装置的结构示意图；

图7是本发明另一实施例提出的语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音识别方法的流程示意图，该方法包括：

S11：获取待识别的语音信号的特征。

例如，参见图2，获取语音信号的特征的流程可以包括：

S21：获取待识别的语音信号。

以车载设备进行离线语音识别为例，可以由车载设备的麦克风检测待识别的语音信号。

可以理解的是，本发明将以离线语音识别为例，由客户端本地执行。但是，本发明的方法也可以应用于在线语音识别，由在线语音识别的服务端执行。

S22：对所述语音信号进行前端信号处理，所述前端信号处理包括：低频去噪，和/或，信号增强。

例如，在车载或者音乐、空调、以及风声等噪声比较强以及远场等环境下，如果将原始信号直接送入到解码器当中，效果非常不好，所以需要在声音进入到解码器之前，首先对原始信号进行低频去噪以消除汽车行驶过程中产生的低频噪声，同时由于用户在车载等环境下往往离麦克风的距离较远或者由于硬件等原因会导致声音音量过小，可以采用信号幅度增强技术对原始的声音信号幅度进行放大操作。通过前端信号处理后的语音信号具有非常良好的抗噪性。

S23：对前端信号处理后的语音信号进行语音活动检测(VoiceActivityDetection，VAD)。

VAD可以检测到语音信号的起始端点和结束端点。

S24：对VAD检测出的语音信号进行特征提取，获取所述语音信号的特征。

在检测到起始端点和结束端点之后，可以对这两个端点之间的语音信号进行特征提取，以获取语音信号的特征。

语音信号的特征例如是梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients，MFCC)。

S12：根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果。

一些实施例中，该方法还可以包括构图生成搜索空间的流程，参见图3，构图生成搜索空间的流程可以包括：

S31：获取开发者编辑的内容。

例如，向开发者提供开发者语法编辑模块，并接收开发者通过所述开发者语法编辑模块输入的内容。

本发明首先需要开发者按照语法规则进行语法编辑，便于在构图当中进行使用。

开发者编辑的内容中，例如，使用尖括号〈〉将开发者期望输出含有关键词的意图对象进行标记，意图对象中的内容用“|”进行分隔，同时意图对象的末尾要以“；”结束。使用小括号标记语法规则，并使用关键词_SCENE_ID_来标记场景ID。示例如下：

<name>＝张三|郑三|李四；

<phoneType>＝手机|公司号码；

<cmd1>＝打开视频；

<cmd2>＝关闭视频；

_SCENE_ID_0

(打电话给<name>)

(打电话给<name>的<phoneType>)

(给<name>打个电话)

_SCENE_ID_1

(<cmd1>)

(<cmd2>)

S32：确定所述内容中的意图对象和非意图对象，并获取所述意图对象和非意图对象对应的反模型和垃圾词模型。

例如，尖括号〈〉标记的对象称为意图对象，例如，上述的name、phoneType、cmd1、cmd2是意图对象，非意图对象是开发者编辑的内容中除意图对象之外的内容，例如，“打电话给”属于非意图对象。

意图对象包括的内容称为关键词，例如对应name这个意图对象，张三、郑三、李四是关键词。

在确定出意图对象和非意图对象后，可以分别对应意图对象获取垃圾词模型和反模型，对应非意图对象获取垃圾词模型和反模型。

其中，垃圾词模型可以是预先配置的静态模型，反模型可以是分别根据意图对象或非意图动态生成。

例如，对应非意图对象“打电话给”，可以加载预先配置的包括多个垃圾词的垃圾词模型，并根据预设规则动态生成反模型，反模型例如是除“打电话给”之外的以“打”开头的一些内容。

之后，可以根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间。

例如，根据开发者编辑的内容生成路径，如根据上述的开发者编辑的内容中，会有一个路径是“打电话给”-“张三”。并且，在根据开发者编辑的内容中生成的路径中添加垃圾词模型和反模型，例如，对应“打电话给”这一非意图对象，添加相应的垃圾词模型和反模型。

一些实施例中，参见图3，该方法还可以包括：

S33：获取语言模型。

可选的，语言模型是轻量级语言模型。

轻量级语言模型例如是训练得到的包含几千个字的单字模型。

语音模型可以是预先训练生成的。

相应地，构图生成搜索空间可以具体包括：根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间，在所述搜索空间的静音状态后加入所述语言模型。

例如，在构图中“SIL”表示静音状态，则可以在“SIL”后面加入语言模型，这样不仅可以达到一定的拒识效果，同时也具有一定的容错性。例如，当用户说“我要打电话给XXX”时，而语法规则当中只有“打电话给XXX”，“我要”会被语言模型吸收，“打电话给XXX”则会进入到正确的路径当中，从而被正确的识别出来。

同时由于在构图当中引入了语言模型，使得本发明的语音识别技术能够支持长语音识别，从而可以完成长时间语音监听任务。

一些实施例中，参见图3，可以包括：

S34：根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间，在所述搜索空间的静音状态后加入所述语言模型，以及，在所述搜索空间的路径结尾处加入预设标识。

预设标识例如用“spend”表示，则参见图4，为构图生成的一种搜索空间的示意图。其中，SIL表示静音状态，Anti-model表示反模型，Garbage-model表示垃圾词模型，lw_rej_LM表示轻量级语言模型。

通过在路径结尾加入预设标识“spend”，可以在路径搜索时包含该预设标识时，例如，参见图4，当路径搜索到“打电话给”-“张三”-“spend”时即时输出解码结果，而不需要等到VAD的结束端点，从而可以提高识别速度。

在构图生成搜索空间以及获取语音信号的特征后，可以根据特征在搜索空间内搜索，确定出最优路径，并根据最优路径上的相关信息确定解码结果。

获取解码结果可以由解码器执行，解码器可以以每帧为单位进行处理，每帧数据例如是160个采样点数据，从而解码器每次会处理160的整数倍长度的数据，如果进入到解码器的数据长度并不是160的整数倍，会将余下的数据存入到一个缓冲区当中，作为下次输入进行处理。

在路径搜索时例如可以根据声学模型，确定特征应该走的路径。另外，为了方便理解，图4的搜索空间中用文字表示，但如果搜索空间中的内容是拼音形式，为了输出文字，还可以根据发音词典将路径中的关键词由拼音转换为文字。其中，声学模型和发音词典可以是初始化时加载的。另外，初始化时还可以加载构图需要的语言模型，并根据上述内容完成构图，以及，进行VAD和前端信号处理的参数配置。

解码结果例如包括识别结果、场景ID、关键词的置信度等。

其中，识别结果可以包括：关键词及对应的意图对象，可以用“关键词：意图对象”表示，例如，张三：name，另外，识别结果还可以包括：非意图对象及标记、垃圾词及标记和反模型及标记，例如，打电话给：AT，其中，AT是非意图对象的标记，瘸：GW，打击：GW，其中，“瘸”是垃圾词、“打击”是反模型，垃圾词标记和反模型标记可以用相同的标记“GW”表示。

假设用户说的是“打电话给张三”，则识别结果是：SIL打电话给：AT张三：nameSIL：spend。

场景ID可以根据识别结果中的内容确定，例如，识别结果包括“打电话给”，由于开发者编辑内容中“打电话给”对应的场景ID是ID_0，则可以输出ID_0。

另外，在路径搜索时还可以确定每个关键词的置信度，如“张三”的置信度，从而可以获取关键词的置信度。

S13：根据所述解码结果判断是否需要拒识。

S14：如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

一些实施例中，参见图5，解码之后的流程还可以包括：

S51：根据所述解码结果，统计垃圾词和反模型的数量、非意图对象的数量、关键词的数量和句子长度，并获取每个关键词的置信度。

例如，解码结果中包括识别结果，识别结果中会标记垃圾词和反模型，如用“GW”标记，则可以统计“GW”的数量，得到垃圾词和反模型的数量。

另外，识别结果中还会标记非意图对象，例如用“AT”标记，则可以统计“AT”的数量，得到非意图对象的数量。

另外，识别结果中还会包含关键词，如“张三”，则通过统计可以得到关键词的数量。

句子长度是指语音信号包含的所有词的数量，例如包括的非意图词、关键词、垃圾词、反模型的总数，因此通过统计可以得到句子长度。

解码结果中会包括关键词的置信度，从而可以获取关键词的置信度。

S52：判断所述垃圾词和反模型的数量是否大于0，若是，执行S55，否则，执行S53。则判断出需要拒识。

例如，统计的“GW”的数量大于0，则拒识。

S53：确定非意图对象的数量和关键词的数量之和与句子长度的比值，并判断所述比值是否小于预设比值，若是，执行S55，否则，执行S54。则判断出需要拒识。

例如，计算(“AT”的数量+关键词的数量)/句子长度，当该比值小于预设比值时，则拒识。

S54：判断关键词的置信度是否小于预设置信度值，若是，执行S55，否则，执行S56。

其中，当识别出的关键词为多个时，则可以将最高置信度与预设置信度值进行比较。

例如，“打某某的工作号码”，其中“某某”和“工作”都是关键词，则可以会将多个关键词中的最高置信度与阈值进行比较，如果大于阈值，则所有关键词都会认为识别正确，否则进行拒识。

S55：拒识。

S56：根据解码结果获取语音识别结果。

其中，可以根据开发者期望输出语音识别结果，语音识别结果例如包括：场景ID、关键词及对应的意图对象、关键词的置信度。

由于上述信息包含在解码结果中，则可以从解码结果中获取上述需要的语音识别结果。

例如，获取的语音识别结果表示为：“场景ID关键词:意图对象关键词的置信度”。

通过上述流程可以实现一次的语音识别。

一些实施例中，在完成一次语音识别后可以对语音识别的场景进行重置，例如，由重置模块进行场景重置，场景由语法文件给出。并且对VAD、解码器和前端信号处理模块进行重置操作，防止与历史语音数据产生关联。可以支持多场景加载。

一些实施例中，在完成一次语音识别后，还可以进行资源释放。例如，由资源释放模块对解码器、拒识判断以及前端信号处理等所要用到的资源进行释放。

本实施例中，通过判断是否需要拒识，在需要时进行拒识处理，可以具有较好的拒识效果，同时由于存在拒识情况，可以提高识别精度。通过进行前端信号处理，可以具有很强的抗噪性。通过在构图中加入语言模型，可以具备一定的容错性，并且支持长语音识别，可以长时间对用户的语音进行监听操作并检测指令。可以应用在离线语音识别，无需网络条件支持，在本地即可完成语音识别服务。通过上述的开发者语法编辑规则，具有学习成本低容易编辑的特点。

图6是本发明另一实施例提出的语音识别装置的结构示意图，该装置60包括：获取模块61、解码模块62、判断模块63和确定模块64。

获取模块61，用于获取待识别的语音信号的特征。

一些实施例中，所述获取模块61具体用于：

获取待识别的语音信号；

对所述语音信号进行前端信号处理，所述前端信号处理包括：低频去噪，和/或，信号增强；

对前端信号处理后的语音信号进行VAD；

对VAD后的语音信号进行特征提取，获取所述语音信号的特征。

解码模块62，用于根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果。

一些实施例中，参见图7，该装置60还包括：

构图模块65，用于获取开发者编辑的内容；确定所述内容中的意图对象和非意图对象，并获取所述意图对象和非意图对象对应的反模型和垃圾词模型；根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间。

可选的，所述构图模块65还用于：

获取语言模型，并在构图生成搜索空间时，在所述搜索空间的静音状态后加入所述语言模型。

可选的，所述构图模块65还用于：

在所述搜索空间的路径结尾处加入预设标识，以便在路径搜索包含所述预设标识时，即时输出解码结果。

判断模块63，用于根据所述解码结果判断是否需要拒识。

一些实施例中，所述判断模块63具体用于：

根据所述解码结果，统计垃圾词和反模型的数量、非意图对象的数量、关键词的数量和句子长度，并获取每个关键词的置信度；

如果所述垃圾词和反模型的数量大于0，则判断出需要拒识；或者，

确定非意图对象的数量和关键词的数量之和与句子长度的比值，如果所述比值小于预设比值，则判断出需要拒识；或者，

如果关键词的置信度小于预设置信度值，则判断出需要拒识。

确定模块64，用于如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

一些实施例中，参见图7，该装置60还包括：

重置模块66，用于在获取语音识别结果后，重置语音识别的场景。

另外，还装置还可以包括：资源释放模块，用于在语音识别后，对语音识别需要的资源进行释放。

上述模块的具体内容可以参见上述方法实施例中的相关描述，在此不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音信号的特征；

根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果；

根据所述解码结果判断是否需要拒识；

如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述解码结果判断是否需要拒识，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

获取开发者编辑的内容；

确定所述内容中的意图对象和非意图对象，并获取所述意图对象和非意图对象对应的反模型和垃圾词模型；

根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间。

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求3或4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待识别的语音信号的特征，包括：

获取待识别的语音信号；

对前端信号处理后的语音信号进行VAD；

对VAD检测出的语音信号进行特征提取，获取所述语音信号的特征。

7.根据权利要求1所述的方法，其特征在于，还包括：

在获取语音识别结果后，重置语音识别的场景。

8.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别的语音信号的特征；

解码模块，用于根据所述特征在构图生成的搜索空间内进行路径搜索，输出解码结果；

判断模块，用于根据所述解码结果判断是否需要拒识；

确定模块，用于如果需要拒识，则确定语音识别结果是拒识，如果不需要拒识，则根据所述解码结果获取语音识别结果。

9.根据权利要求8所述的装置，其特征在于，所述判断模块具体用于：

10.根据权利要求8所述的装置，其特征在于，还包括：

构图模块，用于获取开发者编辑的内容；确定所述内容中的意图对象和非意图对象，并获取所述意图对象和非意图对象对应的反模型和垃圾词模型；根据所述开发者编辑的内容、所述反模型和垃圾词模型，构图生成搜索空间。

11.根据权利要求10所述的装置，其特征在于，所述构图模块还用于：

12.根据权利要求10或11所述的装置，其特征在于，所述构图模块还用于：

13.根据权利要求8所述的装置，其特征在于，所述获取模块具体用于：

获取待识别的语音信号；

对前端信号处理后的语音信号进行VAD；

14.根据权利要求8所述的装置，其特征在于，还包括：

重置模块，用于在获取语音识别结果后，重置语音识别的场景。