CN110097870A

CN110097870A - 语音处理方法、装置、设备和存储介质

Info

Publication number: CN110097870A
Application number: CN201810090898.4A
Authority: CN
Inventors: 姚海涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2019-08-06
Anticipated expiration: 2038-01-30
Also published as: CN110097870B

Abstract

本申请实施例提供了一种语音处理方法、装置、设备和存储介质，以减少出现误唤醒的问题。所述的方法包括：对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证；输出通过多级验证的最终关键词。通过多级的置信度验证，能够有效提高关键词识别的准确性，减少误唤醒的问题。

Description

语音处理方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音处理方法及装置、一种电子设备和一种存储介质。

背景技术

随着终端技术的发展，语音唤醒技术广泛也得到可广泛的应用，即用户可以在终端中通过语音唤醒所需的应用等服务，例如通过语音查询路线、通过语音唤醒各种应用等。

目前语音唤醒通常是采用受限规模的深度神经网络(Deep Neural Network，DNN)模型，来构建一个小型的自动语音识别(Automatic Speech Recognition，ASR)系统，通过该ASR系统进行关键词的识别，并且；同时部分系统针对定制关键词训练一个置信度分类器来进行优化。

本方案类似于基于DNN声学模型(AM)的语音唤醒技术，以及AM-CC两级分类的语音唤醒技术。一个受限规模的DNN声学模型，构建一个小型的ASR系统进行关键词的识别，并且可采用针对定制关键词训练的置信度分类器来进行优化。

上述这种方式具有较好的召回率，但是，有一些关键词在发音上非常接近，例如“你好淘宝”和“你好大宝”，很容易出现误识别，从而导致出现误唤醒的问题。

发明内容

本申请实施例所要解决的技术问题是提供一种语音处理方法，以减少出现误唤醒的问题。

相应的，本申请实施例还提供了一种语音处理装置、一种电子设备和一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请公开了一种语音处理方法，包括：对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证；输出通过多级验证的最终关键词。

可选的，所述对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息，包括：提取语音数据的语音特征；对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息。

可选的，所述提取语音数据的语音特征，包括：按照设定方式对所述语音数据进行特征提取，将提取的倒谱特征作为语音特征。

可选的，所述对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息，包括：按照声学数据集合对所述语音特征进行识别，确定对应的声学信息；采用网络数据集合对所述声学信息进行处理，得到一个或多个识别关键词以及对应的置信度信息。

可选的，所述采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证，包括：采用串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证；和/或采用并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证。

可选的，所述采用各串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证，包括：将识别关键词对应置信度信息按照级别依次采用所述串行的置信度分类器进行分析，确定所述识别关键词的置信度验证结果。

可选的，所述串行的置信度分类器执行以下至少一种级别的置信度分析：关键词级别的置信度分析、单字级别的置信度分析、句子级别的置信度分析、语音级别的置信度分析。

可选的，所述采用各并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证，包括：将所述识别关键词对应置信度信息按照级别分别采用所述并行的置信度分类器进行分析，得到各并行的置信度分类器输出的置信度分值；依据所述置信度分值，分析所述识别关键词是否满足设定条件；若满足设定条件，则确认所述识别关键词的置信度通过验证。

可选的，所述并行的置信度分类器执行以下至少一种级别的置信度分析：关键词相关级别的置信度分析、关键词无关级别的置信度分析。

可选的，还包括：依据所述最终关键词，执行对应的语音控制操作。

可选的，还包括：依据训练数据提取语音特征，依据所述语音特征进行帧对齐处理；采用帧对齐结果训练声学数据集合，并依据所述声学数据集合和设定词典训练网络数据集合。

可选的，所述依据训练数据提取语音特征，包括：按照设定方式对所述训练数据进行特征提取，将提取的倒谱特征作为语音特征。

可选的，所述依据语音特征进行帧对齐处理，包括：依据声学决策树确定所述语音特征对应声学信息，其中，所述声学信息以下任一种级别：音素级别、状态级别；标注所述声学信息对应的语音帧，得到相应的帧对齐结果。

可选的，所述采用帧对齐结果训练声学数据集合，包括：将所述帧对齐结果中标准的声学信息输入声学数据集合，获取相应的训练结果，其中，所述声学数据集合包括以下至少一种：单音素数据集合、上下文相关的音素数据集合、全字数据集合。

可选的，所述依据所述帧对齐处理后的语音特征和设定词典训练网络数据集合，包括：依据所述设定词典配置所述网络数据集合的网络节点；将所述声学数据集合对应的训练结果输入所述网络数据集合，得到至少一个关键词。

可选的，所述网络数据集合包括以下至少一种：深度神经网络数据集合、长短期记忆网络数据集合、前馈型序列记忆网络数据集合。

可选的，还包括：依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器。

可选的，所述依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器，包括：依据所述声学数据集合和网络数据集合确定所述语音特征对应的关键词和分值；依据所述关键词和分值，训练各级别的置信度分类器。

可选的，所述级别包括以下至少一种：短语维度、段落维度、音节维度、音素维度、关键词相关级、关键词无关级别。

可选的，所述置信度分类器包括以下至少一种：关键词分类器、单字分类器、句子分类器、语音分类器、关键词相关分类器、关键词无关分类器。

可选的，还包括执行以下至少一种预处理的步骤：将训练集中语音数据的格式转换为设定格式，将所述设定格式的语音数据作为训练数据；对训练集中语音数据进行清洗，将清洗得到的语音数据作为训练数据；对训练集中语音数据进行文本标记。

可选的，所述得到相应的帧对齐结果之后，还包括：对所述声学决策树进行转换，依据转换结果调整所述帧对齐结果中各声学信息。

本申请实施例还公开了一种语音处理装置，包括：解码分析模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；置信度验证模块，用于采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证；输出模块，用于输出通过多级验证的最终关键词。

本申请实施例还公开了一种电子设备，其特征在于，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如本申请实施例中一个或多个所述的语音处理方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如本申请实施例中一个或多个所述的语音处理方法。

本申请实施例还公开了一种车载环境下的语音处理方法，包括：通过车载设备的语音输入单元接收语音数据；对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；采用所述车载设备执行所述最终关键词对应的语音控制操作。

本申请实施例还公开了一种语音处理方法，包括：通过物联网设备的语音输入单元接收语音数据；对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；采用所述物联网设备执行所述最终关键词对应的语音控制操作。

本申请实施例还公开了一种智能语音处理装置，所述的装置包括：语音接收模块，用于通过车载设备的语音输入单元接收语音数据；解码模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；验证模块，用于采采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；语音控制模块，用于采用所述车载设备执行所述最终关键词对应的语音控制操作。

本申请实施例还公开了一种智能语音处理装置，包括：接收模块，用于通过物联网设备的语音输入单元接收语音数据；关键词分析模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；处理模块，用于采用所述物联网设备执行所述最终关键词对应的语音控制操作。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，对语音数据进行解码，得到一个或多个识别关键词以及对应的置信度信息，从而提高所匹配关键词的准确性，再采用多个置信度分类器结合所述置信度信息，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词，从而通过多级的置信度验证，能够有效提高关键词识别的准确性，减少误唤醒的问题。

附图说明

图1是本申请实施例的一种语音处理示意图；

图2是本申请实施例中声学数据集合和网络数据集合的训练示意图；

图3是本申请实施例中置信度分类器的训练示意图；

图4是本申请实施例中置信度分类器的示意图；

图5是本申请实施例中基于语音数据的应用唤醒示意图；

图6是本申请一种数据集合的训练方法实施例的步骤流程图；

图7是本申请另一种数据集合的训练方法实施例的步骤流程图；

图8是本申请一种语音处理方法实施例的步骤流程图；

图9是本申请另一种语音处理方法实施例的步骤流程图；

图10是本申请实施例中一种语音处理方法的步骤流程图；

图11是本申请一种语音处理装置实施例的结构框图；

图12是本申请另一种语音处理装置实施例的结构框图；

图13是本申请一种应用于车载设备的语音处理装置实施例的结构框图；

图14是本申请一种应用于电子设备的语音处理装置实施例的结构框图；

图15是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中，针对语音唤醒中的误唤醒问题，提出一种多级验证的语音处理方式，对于解析出的识别关键词可通过多种维度的置信度分类器进行多级验证，从而输出通过多级验证的最终关键词，提高关键词识别的准确性，减少误唤醒的问题。其中，关键词(Keyword)指的是表示语音数据主要含义的字词，关键词可为单字或词，其可以从语音数据中识别得到。

如图1所示的语音处理示意图，可以将语音数据输入识别引擎110，从而通过识别引擎110来提取语音特征，然后将语音特征输入解码文件120，该解码文件依据声学数据集合和网络数据集合生成，从而可以依据声学数据集合和网络数据集合对语音特征进行分析，得到匹配的识别关键词以及对应的多个类型的置信度。再将识别关键词输入到置信度分类器130中进行置信度验证，其中，置信度分类器130中可包括多于一个置信度分类器，从而对识别关键词进行多级的置信度验证，其中，不同置信度分类器可基于不同的级别进行检测，从而通过多级的置信度验证能够有效提高识别关键词的准确性，减少误唤醒的问题。其中，级别可按照所属维度划分，例如在关键词维度上，级别包括关键词相关级别、关键词无关级别，在声学维度上，级别包括关键词、单字、句子、整个语音等级别。其中，在置信度验证的过程中，通过多个置信度分类器执行验证，每一个置信度分类器对应一个级别，从而实现多级的置信度验证，该多级的置信度验证指的是通过多种级别的置信度分类器执行置信度验证。

本申请实施例中，置信度分类器包括串行的置信度分类器和/或并行的置信度分类器。串行的置信度分类器可通过不同级别的置信度分类器串行连接构成，识别关键词需要依次通过每一个置信度分类器的验证后最终输出，而若识别关键词在任一置信度分类器的置信度验证未通过则不能输出该关键词。并行的置信度分类器可通过不同级别的置信度分类器并行连接构成，识别关键词同时通过各并行连接的不同级别的置信度分类器进行置信度计算，然后计算各级别的置信度分类器对应置信度分值的综合得分来判断是否通过验证，通过验证则作为最终关键词输出，不通过验证则不输出。

可在终端设备中提供语音唤醒的功能，因此设置语音唤醒功能相关的资源文件，该资源文件包括：识别引擎、解码文件和置信度分类器，该资源文件中还可包括关键词列表、词典等文件。上述资源文件可配置在终端设备和/或服务器中。

其中，识别引擎为语音唤醒功能的处理引擎，如为控制语音唤醒功能的程序等，本申请实施例中该识别引擎对于接收的语音数据，可提取该语音数据的语音特征，然后调用解码文件和置信度分类器进行分析处理，在得到最终关键词后，依据该最终关键词执行唤醒功能，如唤醒相应的应用程序等。

解码文件用于对语音特征进行分析来确定关键词，解码文件依据声学数据集合和网络数据集合生成，可包括声学数据集合的相关文件，和网络数据集合的相关文件。本申请实施例中，数据集合依据数据数学模型构建，数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物系统的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。声学数据集合为依据声学特征构建的数据集合，如依据语音数据的声学特征来训练声学模型，从而得到相应的声学数据集合，该声学数据集合可得到语音特征对应的声学信息，如包含的各种音素等信息。网络数据集合为依据网络、声学特征构建的数据集合，该网络可依据需求选取，如采用神经网络、记忆网络等，将声学特征输入到网络中进行训练，可得到该网络数据集合，从而对于语音数据进行解码时，可基于其声学信息在网络中匹配相应的路径，从而得到语音对应的识别关键词及其对应的置信度信息。

其中，所述置信度信息包括多级别的置信度信息，在通过数据集合处理过程中，可确定各级别的置信度信息。其中，可针对每一个语音帧记录一个置信度，得到语音级别的置信度信息；针对每一个字记录一个置信度，得到单字级别的置信度信息；针对每一个词记录一个置信度，得到关键词级别的执行度信息；并且针对每一句话记录一个置信度，得到句子级别的置信度信息。

相应的，可采用不同级别的置信度分类器对识别关键词对应各级别的置信度信息进行多级验证，如对识别关键词进行不同维度、粒度的验证，例如在音素、音节、全字、关键词等级别上分别基于置信度信息进行验证。因此置信度分类器可构成串行的置信度分类器和/或并行的置信度分类器。串行的置信度分类器即将不同置信度分类器串行连接，采用每个置信度分类器分别对识别关键词对应级别的置信度信息进行置信度验证，通过该分类的置信度验证后才能输入到下一个置信度分类器，不通过则忽略该识别关键词，该识别关键词不是要执行唤醒功能的最终关键词，直到识别关键词通过最后一个串行的置信度分类器，即可输出为最终关键字，然后采用该最终关键词执行唤醒功能。并行的置信度分类器可通过将不同置信度分类器并行连接得到，则识别关键词对应各级别的置信度信息可同时采用相应级别的并行置信度分类器进行置信度验证，各并行的置信度分类器输出对应的置信度分值，然后依据得到融合策略对各置信度分值进行处理，进而确定该识别关键词是否通过验证，若未通过验证则忽略该识别关键词，无需执行唤醒功能，若通过则依据该关键词执行相应的唤醒功能，如依据所述通过验证的最终关键词，执行对应的语音控制操作。

本申请实施例可基于语音数据构成的训练数据、词典等来训练声学数据集合、网络数据集合和置信度分类器，从而基于该声学数据集合、网络数据集合和置信度分类器支持语音唤醒功能。

其中，声学数据集合和网络数据集合的训练示意图如图2所示。

收集语音数据构成训练集，然后在步骤202对语音数据进行预处理。本申请实施例中可从各终端设备、网络等收集语音数据，然后基于该训练集确定训练数据，训练数据即预处理后得到的语音数据。其中，预处理的步骤可包括：格式转换、数据清洗、文本标记中的至少一种。

对于格式转换：由于收集到的语音数据可能是各种音频格式的，如包括PCM格式、WAVE格式、MP3格式、MIDI格式、WMA格式等，为了便于训练，可确定一种格式为设定格式，本申请实施例中，可选择一种无损格式为设定格式如PCM格式，则对于非设定格式的语音数据，可通过转换得到设定格式的语音数据，转换规则依据具体的格式确定。

对于数据清洗：由于收集到的语音数据的质量参差不齐，有些语音数据可能噪音等干扰较大，有些语音数据可能由于较短等属于无效音频，因此可通过数据清洗过滤一些无效的语音数据。

对于文本标记：可以对各语音数据进行语音识别，得到相应的文本数据，然后将文本数据和语音数据进行关联，从而标记该语音数据对应的文本内容。

预处理后可得到训练数据，从而在步骤204中提取训练数据的语音特征，本申请实施例中可通过语音处理提取语音数据的倒谱特征作为语音特征，其中基于倒谱的特征可通过多种方式提取，例如通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)算法、通过梅尔标度滤波器组(Mel-scale Filter Bank，FBank)、通过感知线性预测(Perceptual Linear Predict ive，PLP)等方式提取基于倒谱的特征，然后将基于倒谱的特征作为语音特征。

在提取出语音特征后，基于训练过程的需求，还可在步骤206中基于该语音特征进行对齐处理。即把语音特征进行帧级别的标注，通过10毫秒为1帧，则1秒钟为100帧，对这100帧进行声学的标注，进行音素级别或小于音素级别的状态级别的标注。可依据语音特征标注各语音帧对应的声学信息，从而确定出语音特征中每个声学信息的起止时间，其中声学信息包括音素级别和/或声学级别。音素级别即标注各种音素，音素是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素，如包括元音、辅音等。状态级别是比音素级别更小的级别，状态级别的标注即标注各种状态，其中，该状态没有明确的语音学意义，而是处理算法相关的状态，如隐马尔可夫模型(Hidden Markov Model，HMM)状态，即马尔科夫处理过程的状态。

在步骤206中将语音帧标注(即对齐)声学信息，可依据决策树确定语音特征对应的声学信息，其中，为了标注即强制对齐结果的准确性，通常决策树采用较大的模型生成，即该决策树具有非常多的状态，如10万个状态，而后续步骤210中选择不同的数据集合进行训练时，对应不同的决策树，因此在步骤208中对决策树进行转换，将较大模型生成的决策树转换为小模型生成的决策树，从而缩减状态的数量，相应可将步骤206中状态映射为转换后决策树上的状态，从而得到转换后的声学信息，便后续的训练过程。

在步骤210中采用帧对齐结果训练声学数据集合以及网络数据集合。本申请实施例中数据集合依据模型构建，其中，不同结构、建模单元的模型能够从不同维度建模声学信息，因此可多种模型构建数据集合。其中，声学数据集合可依据声学模型构建，可对不同颗粒度的声学信息进行建模，所采用的声学模型可依据需求选取，例如声学模型为单音素(mono-phone)模型、上下文相关的音素(CD-phone)模型、全字(whole-word)模型等；网络数据集合依据各种结构的网络模型构建，例如可包括深度神经网络(Deep Neural Network，DNN)模型、长短期记忆网络(Long Short-Term Memory，LSTM)模型、前馈型序列记忆网络(Feed-forward Sequential Memory Network，FSMN)模型等。实际使用中，可根据计算能力和实时率要求对模型进行组合使用，得到相应的数据集合。则所述声学数据集合包括以下至少一种：单音素数据集合、上下文相关的音素数据集合、全字数据集合；所述网络数据集合包括以下至少一种：深度神经网络数据集合、长短期记忆网络数据集合、前馈型序列记忆网络数据集合。其中，对于网络数据集合，其网络中具有关键词相关的路径和关键词无关的路径等，有声学信息进行训练时，输入的声学信息可自动依据网络选择路径，从而基于关键词相关的路径匹配得到关键词。

其中，在训练之前可对各种模型进行初始化，定义输入、输出、以及模型所需的其他相关参数，从而通过该初始化在后续训练过程中可自动基于模型实现模型训练，得到相应的数据集合。例如对于网络模型，可在初始化时定义网络模型的层数、节点数量、输入、输出等参数。

在完成对声学数据集合和网络数据集合的训练，得到相应的声学数据集合和网络数据集合后，可依据声学数据集合和网络数据集合生成解码文件，从而能够依据该解码文件检测语音数据的关键词。但是，解码文件所得到的关键词对应召回率和虚警率都相对较高。因此实际处理中还可通过该解码文件为后续提供置信度计算的基础信息，即依据解码文件所得到的关键词及其分值来训练各种置信度分类器。则置信度分类器的训练过程如图3所示。

可以提取训练数据的语音特征302，然后采用解码文件确定该语音特征对应的解码结果304即解析出的关键词及分值，该分值为解析为该关键词的置信度分值或概率等置信度信息。然后可采用语音特征及其解码结果来训练置信度分类器(ConfidenceClassifier，CC)306，其中可从多种不同的级别等训练置信度分类器，依据执行段落级别置信度分类器(Segment-level Confidence Classifie)的训练，执行音节级别置信度分类器(Syllable-level Confidence Classifier)的训练，执行音素级别置信度分类器(Phone-level Confidence Classifier)的训练等。还可依据关键词执行训练，如执行关键词相关级别置信度分类器(Word-dependent Confidence Classifier)的训练，执行关键词无关级别置信度分类器(Word-independent Confidence Classifier)的训练等。

本申请实施例中，有些关键词的训练数据比较少，则对于这类关键词，仅依据关键词相关的置信度分类器，不能够充分的压制虚警，即虚警能力不强，因此可通过与关键词无关的置信度分类器进行得到融合如分值的加权计算等，提高压制虚警的能力，提供置信度验证的准确性。

在置信度分类器的训练过程中，可利用之前的解码结果，在短语(phrase)维度、片段(segment)维度、音节维度、音素维度等维度上训练，得到相应的置信度分类器。其中，短语维度用于确定提供整句的置信度进行初步的虚警压制；片段维度用于压制整句近似但某个片段(或字)不一样的虚警，如关键词是“放大地图”，而实际语音的文本是“调大地图”；音节维度和音素维度以此类推，用于压制音节、音素的虚警。

从而通过上述过程训练出多级别的置信度分类器，然后将各置信度分类器依据检测的维度进行关联，便于后续的置信度验证。如图4所示，其中可采用各置信度分类器构成串行的置信度分类器40，如可采用关键词分类器402、单字分类器404、句子分类器406、语音分类器408构成串行的置信度分类器，从而依次进行关键词的验证、每个字的验证(subsegment-threshold)、句子的验证，以及整个语音的验证(silence context)等。还可采用置信度分类器构成并行的置信度分类器41，如可采用关键词相关分类器412、关键词无关分类器414构成并行的置信度分类器，从而同时检测关键词相关的验证，关键词无关的验证等。

基于上述训练过程得到的解码文件和置信度分类器，还可配置执行唤醒功能的识别引擎，该识别引擎可执行语音数据对应提取的训练，从而识别引擎能够提取语音数据的特征，还可在识别引擎中配置语音唤醒其他功能的支持信息，例如对于唤醒方如应用的调用等，对于唤醒的管理配置等信息。从而基于解码文件、置信度分类器、识别引擎可生成资源配置文件，当然还可在资源文件中添加关键词列表、词典等文件。

可基于该资源文件执行语音唤醒功能，如图5所示，可以将语音数据输入识别引擎510，从而通过识别引擎510来提取语音特征，其中，识别引擎510可按照设定方式对所述训练数据进行特征提取，将提取的倒谱特征作为语音特征。其中，倒谱(cepstrum)为一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换，识别引擎可通过各种方式提取语音数据的倒谱特征，例如通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)算法、通过梅尔标度滤波器组(Mel-scale Filter Bank，FBank)、通过感知线性预测(Perceptual Linear Predict ive，PLP)等方式提取基于倒谱的特征，然后将提取的倒谱特征作为语音特征。

将语音特征输入解码文件520，该解码文件依据声学数据集合和网络数据集合生成，从而可以依据声学数据集合和网络数据集合对语音特征进行解码，得到匹配的识别关键词。解码文件520可按照所述声学数据集合对所述语音特征进行识别，确定对应的声学信息；然后采用所述网络数据集合对所述声学信息进行处理，该声学信息可自动按照网络数据集合选择路径从而得到相应的识别关键词，以及该识别关键词对应的置信度信息等解码结果。

再将识别关键词以及该识别关键词对应的置信度信息等解码结果输入到置信度分类器530中进行置信度验证，其中，置信度分类器530中可包括多于一个置信度分类器，从而对识别关键词进行多级的置信度验证，其中，不同置信度分类器的检测维度不同，或者不同分类在同一维度的检测粒度不同，从而通过多级的置信度验证能够有效提高识别关键词的准确性，减少误唤醒的问题。然后可基于输出的识别关键词调用应用540执行唤醒操作。

其中可采用各串行的置信度分类器依次对所述识别关键词对应各级置信度信息进行验证，即可将采用一个级别的串行置信度分类器对所述识别关键词对应级别的置信度信息进行分析，如对识别关键词级别的置信度信息进行分析；在识别关键词的置信度通过验证后，采用下一个级别的串行置信度分类器对对应级别的置信度信息进行分析处理，如对单字级别的置信度信息进行分析，直到所述识别关键词通过最后一个串行的置信度分类器的置信度分析处理。如图4所示的串行的置信度分类器40中，针对每个识别关键词，可采用其置信度信息按照置信度分类器的串行顺序一次进行分析，即将该识别关键词在单词级别的置信度信息输入第一个置信度分类器即关键词分类器402；若未通过关键词分类器402的置信度验证，则该识别关键词的置信度未达到条件，则未得到唤醒的识别关键词，不执行唤醒操作；若通过关键词分类器402的置信度验证，则将识别关键词在单字级别的置信度信息输入到下一个置信度分类器即单字分类器404中，以此类推，直到识别关键词的置信度信息通过最后一个串行的置信度分类器即语音分类器408的置信度验证，可以输出为最终关键词。依据该最终关键词调用应用540执行唤醒操作，如调用地图应用获取线路信息，调用音乐应用播放音乐等。例如正确的关键词是“你好淘宝”，而识别处理的识别关键词为“你好大宝”，则采用关键词分类器检测可能会通过置信度验证，而通过单字分类器可检测“大”不同于“淘”，从而拒绝掉该识别关键词，减少虚警。又如，语音内容是：“我希望把地图变到最小”，其中“望把地图”会非常接近“放大地图”，而导致匹配出错误的识别关键词“放大地图”，则在置信度分类器的置信度验证中，可通过语音分类器基于整个语音帧的验证来拒绝掉该不满足首尾静音的虚警，即排除错误的识别关键词。

也可采用各并行的置信度分类器并行对所述识别关键词进行各级置信度的验证，即将所述识别关键词分别输入各并行的置信度分类器，采用所述各并行的置信度分类器分析所述识别关键词的置信度信息；采用所述各并行的置信度分类器输出的置信度分值，分析所述识别关键词是否满足设定条件；若满足设定条件，则确认所述识别关键词的置信度通过验证。例如可设置设定为总分值超出阈值，总分值可通过各置信度分值加权计算得到。如图4所示的并行的置信度分类器41中，针对每个识别关键词，可将该识别关键词的置信度信息同时输入相应级别的置信度分类器，即同时输入到关键词相关分类器412、关键词无关分类器414中，每个置信度分类器均可输出该识别关键词的置信度分值，然后对置信度分值进行加权计算，得到总分值，然后判断总分值是否超出阈值，若超出阈值则满足设定条件，即通过置信度验证，反之未超出阈值，未通过置信度验证。从而对于通过置信度验证的最终关键词，可依据该最终关键词调用应用540执行唤醒操作，如调用地图应用获取线路信息，调用音乐应用播放音乐等。

上述置信度验证方法可设置在终端侧和/或服务器侧，例如在网络较差的场景下采用终端本地的置信度分类器进行置信度验证，而在网络较好的场景下基于本地和网络的置信度分类器进行置信度验证，从而实现在本地和网络的多级联合验证，在各种场景下实现置信度验证。

上述训练过程可基于各种模型训练数据集合得到相应的解码文件，例如采用DNN网络+声学数据集合的解码文件，又如采用LSTM网络+声学数据集合的解码文件。还可采用单置信度分类器构成串行的多置信度分类器进行置信度验证，采用单置信度分类器构成并行的多置信度分类器进行置信度融合等。

本申请实施例中多级验证技术可包括：短语级、字/词级、音节级、音素级等多级验证，也可包括关键词相关级、关键词无关级的多级验证。其中置信度的验证方法有多种，例如对于多维度的并行置信度验证，多级基于声学规则的串行置信度验证等。可基于多级置信度分类器运用多级验证技术，对具有不同声学特性的关键词进行差异化唤醒/误唤醒检测，在确保唤醒灵敏的前提下，极大降低误唤醒发生几率。

参照图6，示出了本申请一种数据集合的训练方法实施例的步骤流程图。

步骤602，依据训练数据提取语音特征，依据所述语音特征进行帧对齐处理。

本申请实施例中可通过语音处理提取语音数据的倒谱特征作为语音特征，其中基于倒谱的特征可通过多种方式提取，例如通过MFCC算法、Fbank方式、PLP方式等提取基于倒谱的特征，然后将基于倒谱的特征作为语音特征。然后可依据语音特征进行帧对齐处理即强制对齐，强制对齐即把语音特征进行帧级别的标注，通过10毫秒为1帧，则1秒钟为100帧，对这100帧进行声学的标注，进行音素级别或小于音素级别的状态级别的标注。

步骤604，采用帧对齐结果训练声学数据集合，并依据所述声学数据集合和设定词典训练网络数据集合。

将帧对齐结果输入到声学数据集合中，通过相应的声学模型可自动训练声学数据集合还可依据声学数据集合的训练结果和设定词典训练网络数据集合。

步骤606，依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器。

在完成对声学数据集合和网络数据集合的训练，得到相应的声学数据集合和网络数据集合后，可依据声学数据集合和网络数据集合生成解码文件，从而能够依据该解码文件检测语音特征的关键词及其分值，然后基于语音特征、语音特征的关键词及其分值来训练各种置信度分类器。

综上，可依据训练数据提取语音特征，依据所述语音特征进行帧对齐处理，然后根据帧对齐结果训练声学数据集合，并依据所述声学数据集合和设定词典训练网络数据集合，采用声学数据集合和网络数据集合构建解码文件，能够提高关键词匹配的准确性，再依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器，从而提高对关键词置信度确认的准确性，降低虚警率。

参照图7，示出了本申请另一种数据集合的训练方法实施例的步骤流程图。

步骤702，对训练集中语音数据进行预处理，得到训练数据。

本申请实施例中可从各终端设备、网络等收集语音数据，然后基于该训练集确定训练数据，训练数据即预处理后得到的语音数据。其中，预处理的步骤可包括：格式转换、数据清洗、文本标记中的至少一种。

格式转换：将训练集中语音数据的格式转换为设定格式，将所述设定格式的语音数据作为训练数据；可选择一种无损格式为设定格式如PCM格式，则对于非设定格式的语音数据，可通过转换得到设定格式的语音数据，转换规则依据具体的格式确定。

数据清洗：对训练集中语音数据进行清洗，将清洗得到的语音数据作为训练数据；由于收集到的语音数据的质量参差不齐，有些语音数据可能噪音等干扰较大，有些语音数据可能由于较短等属于无效音频，因此可通过数据清洗过滤一些无效的语音数据。

文本标记：对训练集中语音数据进行文本标记。可以对各语音数据进行语音识别，得到相应的文本数据，然后将文本数据和语音数据进行关联，从而标记该语音数据对应的文本内容。

步骤704，按照设定方式对所述训练数据进行特征提取，将提取的倒谱特征作为语音特征。

本申请实施例中可通过语音处理提取语音数据的倒谱特征作为语音特征，其中基于倒谱的特征可通过多种方式提取，例如通过MFCC算法、Fbank方式、PLP方式等提取基于倒谱的特征，然后将基于倒谱的特征作为语音特征。

步骤706，依据声学决策树确定所述语音特征对应声学信息。

步骤708，标注所述声学信息对应的语音帧，得到相应的帧对齐结果。

然后可依据语音特征进行帧对齐处理即强制对齐，强制对齐即把语音特征进行帧级别的标注，通过10毫秒为1帧，则1秒钟为100帧，对这100帧进行声学的标注，进行音素级别或小于音素级别的状态级别的标注。可依据语音特征标注各语音帧对应的声学信息，从而确定出语音特征中每个声学信息的起止时间，其中声学信息包括音素级别和/或声学级别。

步骤710，对所述声学决策树进行转换，依据转换结果调整所述帧对齐结果中各声学信息。

选择不同的数据集合进行训练时，对应不同的决策树，因此可对决策树进行转换，将较大模型生成的决策树转换为小模型生成的决策树，从而缩减状态的数量，相应可将声学信息中状态映射为转换后决策树的状态，从而得到转换后的声学信息，便后续的训练过程。

步骤712，将所述帧对齐结果中标注的声学信息输入声学数据集合，获取相应的训练结果。

其中，所述声学数据集合包括以下至少一种：单音素数据集合、上下文相关的音素数据集合、全字数据集合。可以将标注的声学信息输入声学数据集合中，即可基于该声学数据集合对应的声学模型自动执行训练获取，训练声学数据集合并得到相应的训练结果。

步骤714，依据所述设定词典配置所述网络数据集合的网络节点。

网络数据集合在初始化时或训练过程中可依据设定词典配置网络数据集合的网络节点，该设定词典为预设设置的词典，其中包括关键词以及与关键词无关的其他词汇等，从而便于能够网络数据集合的网络节点，便于训练网络数据集合的路径。

步骤716，将所述声学数据集合对应的训练结果输入所述网络数据集合，得到相应的关键词。

所述网络数据集合包括以下至少一种：深度神经网络数据集合、长短期记忆网络数据集合、前馈型序列记忆网络数据集合。可将声学数据集合对应的训练结果输入所述网络数据集合，从而可声学信息可自动选择网络数据集合的路径，自动训练网络数据集合，从而基于标注的语音帧等组合得到关键词，以及各关键词的置信度信息等。

本申请实施例还可依据所述声学数据集合和网络数据集合生成解码文件。该解码文件一方面能够为终端的唤醒功能提供基础，另一方面可用于训练置信度分类器。

步骤718，依据所述声学数据集合和网络数据集合确定所述语音特征对应的关键词和置信度信息。

步骤720，依据所述关键词和置信度信息，训练各级别的置信度分类器。

可以提取训练数据的语音特征，然后采用解码文件确定该语音特征对应的解码结果即解析出的关键词及置信度信息，该置信度信息为解析为该关键词的置信度分值或概率等。然后可采用语音特征及其解码结果来训练置信度分类器。

其中，其中可从多种不同的级别等训练置信度分类器，依据执行段落级别置信度分类器(Segment-level Confidence Classifie)的训练，执行音节级别置信度分类器(Syllable-level Confidence Classifier)的训练，执行音素级别置信度分类器(Phone-level Confidence Classifier)的训练等。还可依据关键词执行训练，如执行关键词相关级别置信度分类器(Word-dependent Confidence Classifier)的训练，执行关键词无关级别置信度分类器(Word-independent Confidence Classifier)的训练等。相应的，所述置信度分类器包括以下至少一种：关键词分类器、单字分类器、句子分类器、语音分类器、关键词相关分类器、关键词无关分类器。

在训练完成置信度分类器后，可构成串行的置信度分类器和/或并行的置信度分类器来进行置信度验证，其中，串行的置信度分类器可采用关键词分类器、单字分类器、句子分类器、语音分类器构成；并行的置信度分类器可采用关键词相关分类器、关键词无关分类器构成。

基于上述训练过程得到的解码文件和置信度分类器，还可配置执行唤醒功能的识别引擎，该识别引擎可执行语音数据对应提取的训练，从而识别引擎能够提取语音数据的特征，还可在识别引擎中配置语音唤醒其他功能的支持信息，例如对于唤醒方如应用的调用等，对于唤醒的管理配置等信息。从而基于解码文件、置信度分类器、识别引擎可生成资源配置文件，当然还可在资源文件中添加关键词列表、词典等文件。从而在终端中对语音数据进行处理，包括关键词检测、验证，然后可执行唤醒操作。

参照图8，示出了本申请一种语音处理方法实施例的步骤流程图。

步骤802，对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息。

可以依据将语音数据输入资源文件中的识别引擎，从而通过识别引擎来提取语音特征，然后将语音特征输入解码文件，该解码文件依据声学数据集合和网络数据集合生成，从而可以依据声学数据集合和网络数据集合对语音特征进行解码分析，得到匹配的一个或多个识别关键词以及所述识别关键词的各级置信度信息。

步骤804，采用多个置信度分类器，对所述识别关键词进行多级的置信度验证。

步骤806，输出通过多级验证的最终关键词。

再将识别关键词的置信度信息采用相应级别的置信度分类器分别进行置信度验证，其中，置信度分类器中可包括多于一个置信度分类器，从而对识别关键词进行多级的置信度验证，得到相应通过多级验证的最终关键词，其中，不同置信度分类器的检测维度不同，或者不同分类在同一维度的检测粒度不同，从而通过多级的置信度验证能够有效提高关键词的准确性，减少误唤醒的问题。

综上所述，对语音数据进行解码，得到一个或多个识别关键词以及对应的置信度信息，从而提高所匹配关键词的准确性，再采用多个置信度分类器结合所述置信度信息，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词，从而通过多级的置信度验证能够有效提高关键词的准确性，减少误唤醒的问题。

其中，所述对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息，包括：提取语音数据的语音特征；对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息。可以依据将语音数据输入资源文件中的识别引擎，从而通过识别引擎来提取语音特征，然后将语音特征输入解码文件，该解码文件依据声学数据集合和网络数据集合生成，从而可以依据声学数据集合和网络数据集合对语音特征进行解码，得到匹配的识别关键词以及所述识别关键词的各级置信度信息。

参照图9，示出了本申请另一种语音处理方法实施例的步骤流程图。

步骤902，按照设定方式对所述语音数据进行特征提取，将提取的倒谱特征作为语音特征。

识别引擎按照设定方式对所述训练数据进行特征提取，例如通过MFCC算法、Fbank方式、PLP方式等提取基于倒谱的特征，然后将基于倒谱的特征作为语音特征。

步骤904，按照所述声学数据集合对所述语音特征进行识别，确定对应的声学信息。

步骤906，采用所述网络数据集合对所述声学信息进行处理，得到一个或多个识别关键词以及对应的置信度信息。

将语音特征输入解码文件，该解码文件依据声学数据集合和网络数据集合生成，从而可以依据声学数据集合和网络数据集合对语音特征进行解码分析，得到匹配的识别关键词。解码文件可按照所述声学数据集合对所述语音特征进行识别，确定对应的声学信息；然后采用所述网络数据集合对所述声学信息进行处理，该声学信息可自动按照网络数据集合选择路径从而得到一个或多个识别关键词，以及该识别关键词对应的置信度信息等解码结果。

步骤908，采用多个置信度分类器，结合所述置信度信息，对所述识别关键词进行多级的置信度验证。

将识别关键词以及该识别关键词对应的置信度信息等解码结果输入到置信度分类器中进行置信度验证，其中，置信度分类器中可包括多于一个置信度分类器，从而对识别关键词进行多级的置信度验证，其中，不同置信度分类器的检测维度不同，或者不同分类在同一维度的检测粒度不同，从而通过多级的置信度验证能够有效提高识别关键词的准确性，减少误唤醒的问题。

所述采用多个置信度分类器，结合所述置信度信息，对所述识别关键词进行多级的置信度验证，包括：采用串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证；和/或，采用并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证。

可采用各串行的置信度分类器依次对所述识别关键词进行各级置信度的验证，如可将采用一个级别的串行置信度分类器对所述识别关键词对应级别的置信度信息进行分析，如对识别关键词级别的置信度信息进行分析；在识别关键词的置信度通过验证后，采用下一个级别的串行置信度分类器对对应级别的置信度信息进行分析处理，如对单字级别的置信度信息进行分析，以此类推，直到识别关键词通过最后一个串行的置信度分类器的置信度验证。即所述采用各串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证，包括：将识别关键词对应置信度信息按照级别依次采用所述串行的置信度分类器进行分析，确定所述识别关键词的置信度。所述串行的置信度分类器执行以下至少一种级别的置信度分析：关键词级别的置信度分析、单字级别的置信度分析、句子级别的置信度分析、语音级别的置信度分析。

也可采用各并行的置信度分类器并行对所述识别关键词进行各级置信度的验证，即将所述识别关键词对应置信度信息按照级别分别采用所述并行的置信度分类器进行分析，得到各并行的置信度分类器输出的置信度分值；采用置信度分值，分析所述识别关键词是否满足设定条件；若满足设定条件，则确认所述识别关键词的置信度通过验证。例如可设置设定为总分值超出阈值，总分值可通过各置信度分值加权计算得到，即判断总分值是否超出阈值，若超出阈值则满足设定条件，即通过置信度验证，反之未超出阈值，未通过置信度验证。所述并行的置信度分类器执行以下至少一种级别的置信度分析：关键词相关级别的置信度分析、关键词无关级别的置信度分析。

步骤910，依据所述通过多级验证的最终关键词，执行对应的语音控制操作。

从而对于通过置信度多级验证的最终关键词，可依据该最终关键词调用应用执行语音控制操作，如调用地图应用获取线路信息，调用音乐应用播放音乐等。

本申请实施例中，上述对语音数据进行分析得到关键词，再通过关键词唤醒终端中所需单元的方式可应用于各种场景下。

参照图10，示出了本申请实施例中一种语音处理方法的步骤流程图。

步骤1002，通过设备的语音输入单元接收语音数据。

步骤1004，对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息。

步骤1006，采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词。

步骤1008，采用设备执行所述最终关键词对应的语音控制操作。

在相应场景下，可通过电子设备的语音输入单元如麦克风接收语音数据，然后对于接收的语音数据可通过识别引擎识别语音特征，然后采用解码文件解析该语音特征，得到对应的识别关键词，再采用多个置信度分类器对识别关键词进行多级的置信度验证，从而输出通过多级验证的最终关键词，采用该最终关键词唤醒相应的应用或模块。

一个示例中，上述方式可应用于车载环境下，在车载环境下可应用于车载设备如车载定位终端、行车记录仪、后视镜系统等设备中，这些设备可提供定位、音视频等功能，并且配置有输入设备、输出设备，例如麦克风、摄像头等音、视频输入设备，音响、显示器等音、视频输出设备，从而可通过音频输入设备来采集语音数据，然后通过车载设备的处理器进行分析处理，并依据关键词唤醒所述车载设备中的应用，通过音、视频输出设备进行输出。

用户在车辆中可通过车载设备进行导航、播放音乐等，因此可通过语音唤醒导航、音乐播放等功能，因此可通过车载设备的语音输入单元来接收语音数据。例如用户在启动车载设备后，在车内说“导航去西单的路线”，则可通过车载设备的麦克风接收该语音数据。然后可对该语音数据进行处理，即通过资源文件中的识别引擎提取该语音数据的语音特征，然后采用资源文件中的解码文件对该语音特征进行解码，通过声学数据集合和网络数据集合等的匹配得到相应的识别关键词，然后再采用资源文件中的置信度分类器对识别关键词进行多级的置信度验证，如通过串行置信度分类器或并行置信度分类器等分析识别关键词的置信度，在确定识别关键词通过置信度验证后，可输出通过多级验证的最终关键词，如最终关键词为“导航”“西单”等。在得到置信度通过多级验证的最终关键词后，可确定该最终关键词对应需要唤醒的应用或单元模块，如上述唤醒导航应用，则可调用导航应用，并在导航应用中提供目的地为西单的参数信息，从而得到导航到西单的应用页面，通过语音直接获取导航路线并使用，提高处理效率和便捷性。其中，车载设备中的应用包括导航应用、音乐播放应用等各种应用，从而可在车辆中通过语音播放音乐、笑话、新闻、广播等，还可通过语音获取导航路线，查询信息等。

另一个示例中，上述方式可应用于各种物联网(Internet of Things，IoT)设备中，如音响、电视等智能家居设备，又如冰箱、烤箱等厨电设备等。以电视为例，电视可通过麦克风等音频输入设备接收语音数据，如切换到指定电视台、播放指定电影等。对于接收的语音数据可通过识别引擎识别语音特征，然后采用解码文件解析该语音特征，得到对应的识别关键词，再采用多个置信度分类器结合置信度信息对识别关键词进行多级的置信度验证，从而输出通过多级验证的最终关键词，采用该最终关键词唤醒相应的应用或模块，如调用电视频道调整的模块来切换频道，又如唤醒搜索应用来搜索电影并播放等。当然上述也可用在音响设备中，如通过语音确定最终关键词后播放音乐、播放广播等，又如应用在烤箱中，通过语音调整烤箱的温度等。

在另一个示例中，上述方式可应用于手机、平板电脑等移动终端中，以手机为例，用户在使用手机的过程中，可通过麦克风接收语音数据，如用户说“打开购物APP”，则可通过识别引擎识别语音特征，然后采用解码文件解析该语音特征，得到对应的识别关键词，再采用置信度分类器对识别关键词进行多级的置信度验证，从而输出通过多级验证的最终关键词，采用该最终关键词唤醒相应的手机中的购物APP，从而通过语音直接启动应用并使用。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本申请实施例还提供了一种语音处理装置，可以用于终端设备、服务器等电子设备中。

参照图11，示出了本申请一种语音处理装置实施例的结构框图，具体可以包括如下模块：

解码分析模块1102，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息。

置信度验证模块1104，用于采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证。

输出模块1106，用于输出通过多级验证的最终关键词。

综上，对语音数据进行解码，得到一个或多个识别关键词以及对应的置信度信息，从而提高所匹配关键词的准确性，再采用多个置信度分类器结合所述置信度信息，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词，从而通过多级的置信度验证，能够有效提高关键词识别的准确性，减少误唤醒的问题。

参照图12，示出了本申请另一种语音处理装置实施例的结构框图，具体可以包括如下模块：

预处理模块1114，用于对训练集中语音数据进行预处理。

数据集训练模块1110，用于依据训练数据提取语音特征，依据所述语音特征进行帧对齐处理；采用帧对齐结果训练声学数据集合，并依据所述声学数据集合和设定词典训练网络数据集合。

分类器训练模块1112，用于依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器。

输出模块1106，用于输出通过多级验证的最终关键词。

控制模块1108，用于依据所述最终关键词，执行对应的语音控制操作。

其中，所述解码分析模块1102，包括：特征提取子模块11022和关键词分析子模块11024。

所述特征提取子模块11022，用于提取语音数据的语音特征；

所述关键词分析子模块11024，用于对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息。

所述特征提取子模块11022，用于按照设定方式对所述语音数据进行特征提取，将提取的倒谱特征作为语音特征。

所述关键词分析子模块11024，用于按照声学数据集合对所述语音特征进行识别，确定对应的声学信息；采用网络数据集合对所述声学信息进行处理，得到一个或多个识别关键词以及对应的置信度信息。

所述置信度验证模块1104，包括：串行验证子模块11042和并行验证子模块11044，其中：

所述串行验证子模块11042，用于采用串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证；和/或

所述并行验证子模块11044，用于采用并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证。

所述串行验证子模块11042，用于将识别关键词对应置信度信息按照级别依次采用所述串行的置信度分类器进行分析，确定所述识别关键词的置信度验证结果。所述串行的置信度分类器执行以下至少一种级别的置信度分析：关键词级别的置信度分析、单字级别的置信度分析、句子级别的置信度分析、语音级别的置信度分析。

所述并行验证子模块11044，用于将所述识别关键词对应置信度信息按照级别分别采用所述并行的置信度分类器进行分析，得到各并行的置信度分类器输出的置信度分值；依据所述置信度分值，分析所述识别关键词是否满足设定条件；若满足设定条件，则确认所述识别关键词的置信度通过验证。所述并行的置信度分类器执行以下至少一种级别的置信度分析：关键词相关级别的置信度分析、关键词无关级别的置信度分析。

所述数据集训练模块1110，包括：提取子模块11102、对齐子模块11104、声学训练子模块11106和网络训练子模块11108，其中：

提取子模块11102，用于按照设定方式对所述训练数据进行特征提取，将提取的倒谱特征作为语音特征。

对齐子模块11104，用于依据声学决策树确定所述语音特征对应声学信息，其中，所述声学信息以下任一种级别：音素级别、状态级别；标注所述声学信息对应的语音帧，得到相应的帧对齐结果。

声学训练子模块11106，用于将所述帧对齐结果中标准的声学信息输入声学数据集合，获取相应的训练结果，其中，所述声学数据集合包括以下至少一种：单音素数据集合、上下文相关的音素数据集合、全字数据集合。

网络训练子模块11108，用于依据所述设定词典配置所述网络数据集合的网络节点；将所述声学数据集合对应的训练结果输入所述网络数据集合，得到至少一个关键词。所述网络数据集合包括以下至少一种：深度神经网络数据集合、长短期记忆网络数据集合、前馈型序列记忆网络数据集合。

所述分类器训练模块1112，用于依据所述声学数据集合和网络数据集合确定所述语音特征对应的关键词和分值；依据所述关键词和分值，训练各级别的置信度分类器。所述级别包括以下至少一种：短语维度、段落维度、音节维度、音素维度、关键词相关级、关键词无关级别。所述置信度分类器包括以下至少一种：关键词分类器、单字分类器、句子分类器、语音分类器、关键词相关分类器、关键词无关分类器。

所述预处理模块1114，用于将训练集中语音数据的格式转换为设定格式，将所述设定格式的语音数据作为训练数据；和/或，对训练集中语音数据进行清洗，将清洗得到的语音数据作为训练数据；和/或，对训练集中语音数据进行文本标记。

所述对齐子模块11104，还用于对所述声学决策树进行转换，依据转换结果调整所述帧对齐结果中各声学信息。

上述置信度验证可设置在终端侧和/或服务器侧，例如在网络较差的场景下采用终端本地的分类器进行置信度验证，而在网络较好的场景下基于本地和网络的分类器进行置信度验证，从而实现在本地和网络的多级联合验证，在各种场景下实现置信度验证。

在上述实施例的基础上，本申请实施例还提供了一种语音处理装置，应用于车载设备等电子设备中。

参照图13，示出了本申请一种应用于车载设备的语音处理装置实施例的结构框图，具体可以包括如下模块：

语音接收模块1302，用于通过车载设备的语音输入单元接收语音数据；

解码模块1304，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；

验证模块1306，用于采采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；

语音控制模块1308，用于采用所述车载设备执行所述最终关键词对应的语音控制操作。

本实施例中各模块与上述方法和装置实施例对应处理方式类似，因此不再赘述。

参照图14，示出了本申请一种应用于电子设备的语音处理装置实施例的结构框图，具体可以包括如下模块：

接收模块1402，用于，用于通过物联网设备的语音输入单元接收语音数据。

关键词分析模块1404，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词。

处理模块1406，用于采用所述物联网设备执行所述最终关键词对应的语音控制操作。

上述训练过程可基于各种模型训练数据集合得到相应的解码文件，例如采用DNN网络+声学数据集合的解码文件，又如采用LSTM网络+声学数据集合的解码文件。还可采用单分类器构成串行的多分类器进行置信度验证，采用单分类器构成并行的多分类器进行置信度融合等。

本申请实施例中多级验证技术可包括：短语级、字/词级、音节级、音素级等多级验证，也可包括关键词相关级、关键词无关级的多级验证。其中置信度的验证方法有多种，例如对于多维度的并行置信度验证，多级基于声学规则的串行置信度验证等。可基于多级分类器运用多级验证技术，对具有不同声学特性的关键词进行差异化唤醒/误唤醒检测，在确保唤醒灵敏的前提下，极大降低误唤醒发生几率。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备等电子设备。图15示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1500。

对于一个实施例，图15示出了示例性装置1500，该装置具有一个或多个处理器1502、被耦合到(一个或多个)处理器1502中的至少一个的控制模块(芯片组)1504、被耦合到控制模块1504的存储器1506、被耦合到控制模块1504的非易失性存储器(NVM)/存储设备1508、被耦合到控制模块1504的一个或多个输入/输出设备1510，以及被耦合到控制模块1506的网络接口1512。

处理器1502可包括一个或多个单核或多核处理器，处理器1502可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1500能够作为本申请实施例中所述的转码端的服务器等设备。

在一些实施例中，装置1500可包括具有指令1514的一个或多个计算机可读介质(例如，存储器1506或NVM/存储设备1508)以及与该一个或多个计算机可读介质相合并被配置为执行指令1514以实现模块从而执行本公开中所述的动作的一个或多个处理器1502。

对于一个实施例，控制模块1504可包括任意适当的接口控制器，以向(一个或多个)处理器1502中的至少一个和/或与控制模块1504通信的任意适当的设备或组件提供任意适当的接口。

控制模块1504可包括存储器控制器模块，以向存储器1506提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1506可被用于例如为装置1500加载和存储数据和/或指令1514。对于一个实施例，存储器1506可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1506可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1504可包括一个或多个输入/输出控制器，以向NVM/存储设备1508及(一个或多个)输入/输出设备1510提供接口。

例如，NVM/存储设备1508可被用于存储数据和/或指令1514。NVM/存储设备1508可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1508可包括在物理上作为装置1500被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1508可通过网络经由(一个或多个)输入/输出设备1510进行访问。

(一个或多个)输入/输出设备1510可为装置1500提供接口以与任意其他适当的设备通信，输入/输出设备1510可以包括通信组件、音频组件、传感器组件等。网络接口1512可为装置1500提供接口以通过一个或多个网络通信，装置1500可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1500可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1500可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1500包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种页面确定方法、一种页面确定装置、一种服务器和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；

采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证；

输出通过多级验证的最终关键词。

2.根据权利要求1所述的方法，其特征在于，所述对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息，包括：

提取语音数据的语音特征；

对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息。

3.根据权利要求2所述的方法，其特征在于，提取语音数据的语音特征，包括：

按照设定方式对所述语音数据进行特征提取，将提取的倒谱特征作为语音特征。

4.根据权利要求2所述的方法，其特征在于，所述对所述语音特征进行分析，得到一个或多个识别关键词以及对应的置信度信息，包括：

按照声学数据集合对所述语音特征进行识别，确定对应的声学信息；

采用网络数据集合对所述声学信息进行处理，得到一个或多个识别关键词以及对应的置信度信息。

5.根据权利要求1所述的方法，其特征在于，所述采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证，包括：

采用串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证；和/或

采用并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证。

6.根据权利要求5所述的方法，其特征在于，所述采用各串行的置信度分类器和所述置信度信息，依次对所述识别关键词进行各级置信度的验证，包括：

将识别关键词对应置信度信息按照级别依次采用所述串行的置信度分类器进行分析，确定所述识别关键词的置信度验证结果。

7.根据权利要求6所述的方法，其特征在于，所述串行的置信度分类器执行以下至少一种级别的置信度分析：

关键词级别的置信度分析、单字级别的置信度分析、句子级别的置信度分析、语音级别的置信度分析。

8.根据权利要求5所述的方法，其特征在于，所述采用各并行的置信度分类器和所述置信度信息，并行对所述识别关键词进行各级置信度的验证，包括：

将所述识别关键词对应置信度信息按照级别分别采用所述并行的置信度分类器进行分析，得到各并行的置信度分类器输出的置信度分值；

依据所述置信度分值，分析所述识别关键词是否满足设定条件；

若满足设定条件，则确认所述识别关键词的置信度通过验证。

9.根据权利要求8所述的方法，其特征在于，所述并行的置信度分类器执行以下至少一种级别的置信度分析：

关键词相关级别的置信度分析、关键词无关级别的置信度分析。

10.根据权利要求1所述的方法，其特征在于，还包括：

依据所述最终关键词，执行对应的语音控制操作。

11.根据权利要求1所述的方法，其特征在于，还包括：

依据训练数据提取语音特征，依据所述语音特征进行帧对齐处理；

采用帧对齐结果训练声学数据集合，并依据所述声学数据集合和设定词典训练网络数据集合。

12.根据权利要求11所述的方法，其特征在于，所述依据训练数据提取语音特征，包括：

按照设定方式对所述训练数据进行特征提取，将提取的倒谱特征作为语音特征。

13.根据权利要求11所述的方法，其特征在于，所述依据语音特征进行帧对齐处理，包括：

依据声学决策树确定所述语音特征对应声学信息，其中，所述声学信息以下任一种级别：音素级别、状态级别；

标注所述声学信息对应的语音帧，得到相应的帧对齐结果。

14.根据权利要求11所述的方法，其特征在于，所述采用帧对齐结果训练声学数据集合，包括：

将所述帧对齐结果中标准的声学信息输入声学数据集合，获取相应的训练结果，其中，所述声学数据集合包括以下至少一种：单音素数据集合、上下文相关的音素数据集合、全字数据集合。

15.根据权利要求14所述的方法，其特征在于，所述依据所述帧对齐处理后的语音特征和设定词典训练网络数据集合，包括：

依据所述设定词典配置所述网络数据集合的网络节点；

将所述声学数据集合对应的训练结果输入所述网络数据集合，得到至少一个关键词。

16.根据权利要求15所述的方法，其特征在于，所述网络数据集合包括以下至少一种：深度神经网络数据集合、长短期记忆网络数据集合、前馈型序列记忆网络数据集合。

17.根据权利要求11所述的方法，其特征在于，还包括：

依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器。

18.根据权利要求17所述的方法，其特征在于，所述依据所述语音特征、声学数据集合和网络数据集合，训练多级别的置信度分类器，包括：

依据所述声学数据集合和网络数据集合确定所述语音特征对应的关键词和分值；

依据所述关键词和分值，训练各级别的置信度分类器。

19.根据权利要求18所述的方法，其特征在于，所述级别包括以下至少一种：短语维度、段落维度、音节维度、音素维度、关键词相关级、关键词无关级别。

20.根据权利要求17或18所述的方法，其特征在于，所述置信度分类器包括以下至少一种：关键词分类器、单字分类器、句子分类器、语音分类器、关键词相关分类器、关键词无关分类器。

21.根据权利要求11所述的方法，其特征在于，还包括执行以下至少一种预处理的步骤：

将训练集中语音数据的格式转换为设定格式，将所述设定格式的语音数据作为训练数据；

对训练集中语音数据进行清洗，将清洗得到的语音数据作为训练数据；

对训练集中语音数据进行文本标记。

22.根据权利要求13所述的方法，其特征在于，所述得到相应的帧对齐结果之后，还包括：

对所述声学决策树进行转换，依据转换结果调整所述帧对齐结果中各声学信息。

23.一种语音处理装置，其特征在于，包括：

解码分析模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；

置信度验证模块，用于采用多个置信度分类器，对所述一个或多个识别关键词进行多级的置信度验证；

输出模块，用于输出通过多级验证的最终关键词。

24.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-22中一个或多个所述的语音处理方法。

25.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如权利要求1-22中一个或多个所述的语音处理方法。

26.一种车载环境下的语音处理方法，其特征在于，包括：

通过车载设备的语音输入单元接收语音数据；

采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；

采用所述车载设备执行所述最终关键词对应的语音控制操作。

27.一种语音处理方法，其特征在于，包括：

通过物联网设备的语音输入单元接收语音数据；

采用所述物联网设备执行所述最终关键词对应的语音控制操作。

28.一种智能语音处理装置，其特征在于，所述的装置包括：

语音接收模块，用于通过车载设备的语音输入单元接收语音数据；

解码模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；

验证模块，用于采采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；

语音控制模块，用于采用所述车载设备执行所述最终关键词对应的语音控制操作。

29.一种智能语音处理装置，其特征在于，包括：

接收模块，用于通过物联网设备的语音输入单元接收语音数据；

关键词分析模块，用于对语音数据进行分析，得到一个或多个识别关键词以及对应的置信度信息；采用多个置信度分类器，对所述识别关键词进行多级的置信度验证，输出通过多级验证的最终关键词；

处理模块，用于采用所述物联网设备执行所述最终关键词对应的语音控制操作。