CN114267342A

CN114267342A - 识别模型的训练方法、识别方法、电子设备及存储介质

Info

Publication number: CN114267342A
Application number: CN202111569584.0A
Authority: CN
Inventors: 何长青; 邹赛赛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-01

Abstract

本公开提供了一种识别模型的训练方法、识别方法、电子设备及存储介质，涉及人工智能领域，尤其涉及语音识别、深度学习等技术领域。具体实现方案为：获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型。根据本公开，可降低样本数据的采集时间和成本。

Description

识别模型的训练方法、识别方法、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语音识别、深度学习等技术领域。

背景技术

随着智能设备的普及，语音识别技术被应用的越来越广泛。语音唤醒作为人机互动的一个入口，能够精准地被唤醒可为用户提供良好的产品使用体验。而在实际应用中，不同的设备具有不同的唤醒词，当用户需要唤醒设备时需要说出特定的唤醒词。唤醒词被训练成功的情况下，智能设备才能识别出唤醒词。其中，训练一个特定的唤醒词需要录制大量的真人语料，需要花费大量的人力和时间。

发明内容

本公开提供了一种识别模型的训练方法、语音识别方法、电子设备及存储介质。

根据本公开的一方面，提供了一种识别模型的训练方法，包括：

获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、第一语音样本的第一标签以及第二语音样本的第二标签；其中，第一语音样本包括对包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

获取第一语音样本的第一声学特征和第二语音样本的第二声学特征；

利用第一声学特征、第二声学特征、第一标签和第二标签训练识别模型，识别模型用于识别待识别语音数据中是否存在唤醒词。

根据本公开的另一方面，提供了一种语音识别方法，包括：

获取待识别语音数据；

获取待识别语音数据的待识别声学特征；

将待识别声学特征输入至识别模型，由识别模型依据待识别声学特征对待识别语音数据中是否存在唤醒词进行识别；其中，识别模型为采用语音样本进行训练而得到，语音样本中包含唤醒词的语音数据通过对包含唤醒词的文本数据进行从文本到语音TTS的处理而得到。

根据本公开的再一方面，提供了一种识别模型的训练设备，包括：

第一获取单元，用于获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、第一语音样本的第一标签以及第二语音样本的第二标签；其中，第一语音样本包括对包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

第二获取单元，用于获取第一语音样本的第一声学特征和第二语音样本的第二声学特征；

训练单元，用于利用第一声学特征、第二声学特征、第一标签和第二标签训练识别模型，识别模型用于识别待识别语音数据中是否存在唤醒词。

根据本公开的再一方面，提供了一种语音识别设备，包括：

第一获取单元，用于获取待识别语音数据；

第二获取单元，用于获取待识别语音数据的待识别声学特征；

控制输入单元，用于将待识别声学特征输入至识别模型，由识别模型依据待识别声学特征对待识别语音数据中是否存在唤醒词进行识别；其中，识别模型为采用语音样本进行训练而得到，语音样本中包含唤醒词的语音数据通过对包含唤醒词的文本数据进行从文本到语音TTS的处理而得到。

根据本公开的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开，语音样本中的包含唤醒词的语音数据是通过对包含唤醒词的文本数据进行从文本到语音(Text-To-Speech，TTS)处理而得到的，降低了训练数据的采集成本和采集时间，至少能够解决相关技术中的样本数据的获得需要花费大量的人力和时间的问题。基于识别模型，实现了对待识别语音数据中是否存在唤醒词的智能且准确识别。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的识别模型的训练方法的第一实施例的流程示意图；

图2是本公开的识别模型的训练方法的第二实施例的流程示意图；

图3是本公开的端到端模型实施例的示意图；

图4是本公开的语音识别方法实施例的流程示意图；

图5是本公开一应用场景示意图；

图6是本公开端到端模型的整体框图；

图7是本公开识别模型的训练设备实施例的组成结构图；

图8是本公开语音识别设备实施例的组成结构图；

图9是用来实现本公开的训练方法和识别方法实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如前述背景技术内容所示，目前的唤醒词检测技术主要包括有两种：第一种是关键词-垃圾路径的方法，通过构建唤醒词和过滤词的解码图，来实现对特定的唤醒词的检测。另一种是基于模板匹配的方法，这种需要用户先录几句特定唤醒词作为模板，检测时通过计算语音和模板的相似度来对唤醒词进行检测。针对第一种方法，对于不同的唤醒词，需要手动调整垃圾路径，依赖人工经验来实现对不同唤醒词的检测。针对第二种方法，需要用户事先录几句唤醒词作为模板，该模板需要被注册才能被使用，多了一个注册过程，而且这种方法的扩展性差，一个用户注册的模板，其他用户唤醒效果会变差。

本公开实施例涉及到一种训练识别模型的方案，该识别模型用于识别待识别语音(数据)中是否存在唤醒词。本公开实施例还提供一种应用训练好或训练完成的识别模型对待识别语音数据中是否存在唤醒词进行识别的方案。与相关技术中需要录制大量的真人语料来训练特定唤醒词的方案相比，本公开实施例的训练(识别)模型的方案中，训练样本中的包含唤醒词的语音数据是通过对包含唤醒词的文本数据进行从文本到语音(Text-To-Speech，TTS)处理而得到的，降低了训练数据的采集成本和采集时间，至少能够解决相关技术中的样本数据的获得需要花费大量的人力和时间的问题。本公开实施例的应用训练好或训练完成的识别模型对待识别语音数据中是否存在唤醒词进行识别的方案，能够解决相关技术中识别不够智能以及识别效果欠佳的问题。

本公开先对训练阶段的方案进行说明。

本公开实施例提供一种识别模型的训练方法的第一实施例，如图1所示，该方法包括：

S101：获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、第一语音样本的第一标签以及第二语音样本的第二标签；其中，第一语音样本包括对包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

本步骤中，训练样本数据包括第一语音样本和第二语音样本。其中，第一语音样本是包含唤醒词的语音数据。唤醒词如“你好小D同学”、“请醒醒”等。本实施例中的包含有唤醒词的语音样本数据无需进行真人录制，需要利用TTS技术将包含有唤醒词的文本数据进行从文本到语音的处理如转换即可得到，方便快捷，大大降低了训练样本的获取时间和成本。在假设唤醒词是“你好小D同学”的情况下，对“你好小D同学”这个文本数据进行TTS处理即可得到包含有该唤醒词的语音数据。包含有唤醒词的语音数据可作为正(语音)样本(训练)数据。

S102：获取第一语音样本的第一声学特征和第二语音样本的第二声学特征；

本步骤中，语音样本的声学特征可以是任何合理的声学特征，如语音数据中的高中低频成分、幅度、波形特征、语音数据中各发音的波动情况等。

S103：利用第一声学特征、第二声学特征、第一标签和第二标签训练识别模型，识别模型用于识别待识别语音数据中是否存在唤醒词。

本步骤中，基于两种语音样本的声学特征及两种标签数据对识别模型进行训练。

在S101～S103的方案中，对包含有唤醒词的语音样本无需进行真人录制，利用TTS将包含有唤醒词的文本数据进行从文本到语音的处理即可得到包含有唤醒词的语音样本，降低了训练数据的采集成本和采集时间，至少能够解决相关技术中的样本数据的获得需要花费大量的人力和时间的问题。此外，声学特征能够体现语音数据的属性如高低中频成分，利用声学特征以及两种标签数据对识别模型进行训练，可保证被训练出的识别模型更加准确。识别模型的精准性可保证对待识别语音数据中是否存在唤醒词的识别更加准确。

本公开实施例提供一种识别模型的训练方法的第二实施例，如图2所示，该方法包括：

S201：获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、第一语音样本的第一标签以及第二语音样本的第二标签；其中，第一语音样本包括对包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

S202：获取第一语音样本的第一声学特征和第二语音样本的第二声学特征；

S203：利用第一语音样本的抽象特征和时序特征、以及第二语音样本的抽象特征和时序特征训练识别模型；其中，第一语音样本的抽象特征和时序特征由识别模型依据第一声学特征而得到，第二语音样本的抽象特征和时序特征由识别模型依据第二声学特征而得到。

本步骤中，抽象特征为语音样本中各个发音元素的发音特征，基于发音特征识别其为何种音素。时序特征为语音样本中的各个音素的先后顺序。以语音样本为“你好”为例，该语音样本的音素为你和好这两个汉字，这两个汉字的发音特征分别是ni(三声)和hao(三声)。该语音样本中先出现的发音元素是你，后出现的是好。

在S201～S203中，对包含有唤醒词的语音样本数据无需进行真人录制，利用TTS将包含有唤醒词的文本数据进行从文本到语音的处理即可得到语音样本数据，降低了训练数据的采集成本和采集时间，至少能够解决相关技术中的样本数据的获得需要花费大量的人力和时间的问题。此外，声学特征能够体现语音数据的属性如高低中频成分，利用声学特征以及两种标签数据对识别模型进行训练，可保证被训练出的识别模型更加准确。再有，基于第一、第二语音样本的抽象特征和时序特征对识别模型进行训练，可增强识别模型的鲁棒性。识别模型的精准性和强鲁棒性可保证对待识别语音数据中是否存在唤醒词的识别更加准确。

对前述S201、S202的理解请参见对S101、S102的理解，重复之处不赘述。

可以理解，在图1和图2所示的方案中，第一标签用于表征第一语音样本中包含唤醒词，第二标签用于表征第二语音样本中不包含唤醒词。示例性地，将包含有唤醒词的语音数据标注(第一)标签数据为数值“1”，将不包含有唤醒词的语音数据标注(第二)标签数据为数值“0”。两种标签信息可有效区分出语音数据是第一语音样本还是第二语音样本。本公开实施例中，标签数据可自动生成，无需手动标注，如在将包含有唤醒词的文本数据进行从文本到语音的TTS处理的情况下，为该TTS处理得到的语音数据自动生成数值为“1”的标签。为训练样本数据中其余的未经TTS处理的语音数据自动生成数值为“0”的标签。如此实现标签的自动标注，与手动标注标签的方案相比，省时省力，方便快捷，降低了语音样本数据的获取成本和时间。

在图1和图2所示的方案中，第二语音样本可以使来自于电影、音乐、有声节目中的语音数据。这种情况下，第二语音样本来自于实际生活，与相关技术中的需要录制大量的真人语料相比，本方案中关于对语音样本的获取、其成本被大大降低。还可以，第二语音样本包括对不包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据。即第二语音样本可以对不包含唤醒词的文本数据进行TTS处理而得到。以唤醒词为你好为例，对不包含唤醒词的文本数据诸如“我要吃饭”等进行TTS处理即可得到负(训练)样本(语音)数据。这种负样本的获取方式方便快捷，无需采集真人语音，可大大节省成本。可自动对正负样本数据进行标签的标注。

在实际应用中，第一语音样本包括对包含唤醒词的文本数据进行TTS处理而得到的语音数据。还可以，第一语音样本包括对包含唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。之所以进行变速处理，考虑到在实际应用中不同人说出同一语音内容的速度有快有慢，进行变速处理相当于将不同语速的包含有唤醒词的同一语音数据作为不同的正样本数据，大大增强了正样本的丰富性，样本数据的丰富，可提高识别模型的训练准确性。

与第一语音样本数据的情况类似，第二语音样本包括对不包含唤醒词的文本数据进行TTS处理而得到的语音数据。还可以，第二语音样本包括对不包含唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。将不同语速的不包含唤醒词的同一语音数据作为不同的负语音样本(训练)数据，增强了负样本的丰富性，进而保证识别模型的训练准确性。

下面以图3所示的本公开所示的端到端模型为例对本公开实施例训练方案的做进一步说明。在图3中，端到端模型主要包括三部分，第一部分为输入部分，第二部分为声学特征提取部分，第三部分为识别模型部分。其中，识别模型包括卷积神经网络(ConvolutionalNeural Networks，CNN)模型和门循环神经网络(Gated Recurrent Units,RGU)模型。

在训练的方案中，输入部分用于接收输入的正样本数据和负样本数据。正样本数据可以是对包含唤醒词的文本数据进行TTS处理后的语音数据。负样本数据可以是对不包含唤醒词的语音数据，如电视节目中输出的不包含唤醒词的语音数据、生活场景中产生的不包含唤醒词的对话数据。可以理解，在实际应用中，正负样本数据越多越好，即输入多个包含唤醒词的语音数据以及多个不包含唤醒词的语音数据。训练样本数据的数量较多，可保证识别模型的被训练准确性。

可以理解，向输入部分输入的样本数据可以是包含唤醒词的语音数据和不包含唤醒的语音数据，可以是对包含唤醒词的语音数据进行变速后的数据以及不包含唤醒词的语音数据，可以是对不包含唤醒词的语音数据进行变速后的数据以及包含唤醒词的语音数据，可以是对包含唤醒词的语音数据以及不包含唤醒词的语音数据进行变速后的数据。在实际应用中，可将未经变速的包含唤醒词的语音数据以及未包含唤醒词的语音数据、以及经变速的包含唤醒词的语音数据以及不包含唤醒词的语音数据一同作为训练样本向输入部分进行输入，以增加训练样本的丰富性。训练样本的丰富性可保证识别模型的被训练准确性。示例性地，以唤醒词为你好小D同学为例，将“你好小D同学”的语音数据作为正(语音)样本数据，将“你们在哪里”的语音数据作为负(语音)样本数据。

将训练样本数据中的正负样本数据输入至声学特征提取部分，声学特征提取部分用于提取正负样本数据中的声学特征。

对正负样本数据分别进行傅里叶变换或Fbank变换，得到正负样本语音数据的频谱。语音的频谱图中的峰值表示语音的主要频率成分。峰值也称为共振峰，共振峰携带了语音的辨识属性，将共振峰提取出，其体现了语音数据在频率或能量等方面的声学特征。

此外，梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)考虑到了人类的听觉特征，其体现了语音数据在频率成分上的声学特征。具体的，先求得语音数据的线性频谱，再将语音数据的线性频谱映射到基于听觉感知的梅尔(Mel)非线性频谱中，然后转换到倒谱上。还可以对正负样本数据分别进行梅尔频率倒谱系数(Melfrequency Cepstral Coefficients，MFCC)的计算，得到正负样本语音数据的MFCC。

将正负样本数据的声学特征输入至识别模型、具体是CNN模型。CNN模型基于正负样本数据的声学特征得到正负样本数据中的发音元素(音素)的发音特征，基于发音特征对正负样本数据中的音素进行识别，如对组成各个正负语音样本数据的汉字为何文字进行识别。将识别出的正负语音样本数据中的音素输入至GRU模型中。GRU模型按照CNN识别出的各个音素的顺序，对CNN模型识别出的各个音素进行先后位置的排序。这里考虑到识别出的各个汉字在语音数据中的出现顺序对识别该语音数据中是否存在唤醒词的影响。正确的排序是为了实现对语音数据中是否存在唤醒词的准确判断。GRU模型的作用之一在于实现对语音数据中出现的各个音素的正确排序。按照GRU给出的排序结果，GRU模型计算出由输入部分输入的正负样本数据中存在唤醒词的概率。如果计算出的概率大于或等于预设阈值，则认为存在唤醒词。如果计算出的概率小于预设阈值，则认为未存在概率。可以理解，在实际应用中，向输入部分每输入一个样本语音(正或负样本语音数据)，按照如上流程执行最终GRU均会给出一个对该输入语音样本存在唤醒词或未存在唤醒词的预测结果，该结果为经由如上的训练架构给出的预测结果。同时，该输入语音样本数据还具有一个标签信息，该标签信息可表示该样本语音数据中实际上是否存在唤醒词，其可作为实际结果。根据实际结果和预测结果对识别模型的损失函数进行计算，直至损失函数收敛，训练完成。其中，识别模型的损失函数可以为任何合理的函数，如均方误差函数、平均值函数等。

在前述的训练方案中，基于正负样本数据的声学特征进行识别模型的训练，可保证识别模型的训练准确性。其中，识别模型采用CNN模型和GRU模型的组合形式，CNN模型在于识别样本数据中的音素，GRU模型在于对音素进行排序并计算样本数据中存在唤醒词的概率，CNN模型和GRU模型的组合可令识别模型具有强鲁棒性和稳定性，可进一步保证识别模型的训练准确性。本实施例中的包含有唤醒词的语音样本数据无需进行真人录制，需要利用TTS技术将包含有唤醒词的文本数据进行从文本到语音的处理如转换即可得到，方便快捷，大大降低了训练样本的获取时间和成本。

本公开对应用阶段的方案进行说明。

本公开提供一种语音识别方法实施例，如图4所示，该方法包括：

S401：获取待识别语音数据；

本步骤中，通过采集或读取待识别的语音数据而获得待识别语音数据。待识别语音数据可以为生活中任何合理的语音。

S402：获取待识别语音数据的待识别声学特征；

本步骤中，提取待识别语音数据的声学特征如计算待识别语音数据的频谱并提取频谱中的共振峰。为区别于第一和第二声学特征，将本步骤中待识别语音数据的声学特征作为待识别的声学特征。

S403：将待识别声学特征输入至识别模型，由识别模型依据待识别声学特征对待识别语音数据中是否存在唤醒词进行识别；其中，识别模型为采用语音样本进行训练而得到，语音样本中包括包含唤醒词的语音数据，该包含唤醒词的语音数据通过对包含唤醒词的文本数据进行从文本到语音TTS的处理而得到。

本步骤中，利用前述训练好或训练完成的识别模型对待识别语音数据中是否存在唤醒词进行识别。具体的训练过程请参见前述相关方案，不赘述。

S401～S403中，利用具有强鲁棒性和稳定性的识别模型对待识别语音数据中是否存在唤醒词进行识别，可提高识别准确性，实现了智能识别。另外，考虑到了语音数据的声学特征对语音识别的影响，利用声学特征进行识别，也可增加识别准确性。

在实际应用中，执行S401～S403的主体可以为如何需要采用唤醒词被唤醒的智能设备，如智能音箱、平板电脑等。以智能音箱为例，智能音箱可执行图4所示的流程，用以实现对待识别语音数据中是否存在唤醒词的识别，如果存在则被唤醒，如果不存在则继续处于休眠状态。即本公开中的利用训练好或训练完成的识别模型进行唤醒词的识别的方案可应用在智能音箱中。本公开中的训练方案可应用在智能音箱中，也可应用在服务端如云端中。在应用在云端的情况下，云端可将训练好或训练完成的识别模型发送至智能音箱中，以令智能音箱执行图4所示的应用方案。

图5为本公开实施例提供的一应用场景图。智能设备如智能音箱对该场景中出现的对话数据进行采集，计算对话数据的语音频谱并提取出频谱中的峰值，提取出的数据可作为语音数据的声学特征。将提取的数据输入至训练好或训练完成的识别模型中。识别模型依据对话数据中的声学特征计算该对话数据中存在唤醒词的概率，如果计算出的概率值大于或等于预设阈值，则存在唤醒词，否则不存在唤醒词。在识别为存在唤醒词的情况下，智能音箱被唤醒，从睡眠状态切换至工作状态。

在识别模型为图3中的识别模型的情况下，可将待识别语音数据的频谱中的峰值信息输入至识别模型、具体是CNN模型。CNN模型依据频谱中的峰值信息对待识别语音数据中出现的各个音素进行识别。GRU模型对CNN模型识别出各个音素按照各个音素在待识别语音数据中出现的先后顺序进行排序，并计算待识别语音数据中存在唤醒词的概率。如果计算出的概率值大于或等于预设阈值，则存在唤醒词，智能音箱被唤醒。否则智能音箱不被唤醒。

考虑到在实际应用中，待识别语音数据存在有较长的情况，为实现对待识别语音数据中是否存在唤醒词的准确识别，将待识别语音数据进行分帧处理，得到待识别语音数据的各帧数据。即，将较长的待识别语音数据进行分帧。假定待识别语音数据为M秒的语音数据，以帧移为N秒为例，M和N均为正数，那么该M秒的语音数据被划分为M除以N个帧。如果M除以N的结果为小数则向上取整。

在待识别语音数据被分帧的情况下，前述的获取待识别语音数据的待识别声学特征，将待识别声学特征输入至识别模型，由识别模型依据待识别声学特征对待识别语音数据中是否包含唤醒词进行识别的方案可由如下的方案来代替：获取各帧数据的待识别声学特征；将各帧数据的待识别声学特征输入至识别模型，由识别模型依据各帧数据的待识别声学特征对各帧数据中是否存在唤醒词进行识别。此处的方案是针对较长的待识别语音数据，对其进行分帧处理，判断各帧数据中是否存在唤醒词。这种识别待识别语音数据的各帧数据中是否存在唤醒词的方案，以帧为单位进行识别使得识别的语音数据更加细腻，可有效避免漏识别、识别出错的问题。

在待识别语音数据被分帧的情况下，对所有帧数据进行滑动窗口的滑动；获取目标声学特征，目标声学特征为每滑动一次滑动窗口时位于滑动窗口内的帧数据的声学特征；将目标声学特征输入至识别模型，由识别模型依据目标声学特征对位于滑动窗口内的帧数据中是否存在唤醒词进行识别。前述方案中对滑动窗口内的帧数据是否存在唤醒词进行识别，通常滑动窗口的长度大于一帧语音数据的长度，识别一次相当于识别了两帧或多帧待识别语音数据中是否存在唤醒词，不仅可有效避免漏识别、识别出错，还提高了识别效率。

示例性地，以待识别语音数据为5s、帧移为10ms、滑动窗口的长度为2s、滑动窗口的步长为1s为例，待识别语音数据被分为500帧，滑动窗口滑动到待识别语音数据的前2s，位于滑动窗口内的语音数据即为该待识别语音数据的前200帧数据，，提取前200帧数据的频谱峰值，并输入至图3所示的识别模型。识别模型中的CNN模型依据频谱中的峰值信息对前200帧数据中出现的各个音素进行识别。GRU模型对CNN模型识别出各个音素按照各个音素在前2s(200帧)语音数据中出现的先后顺序进行排序，并计算前2s语音数据中存在唤醒词的概率。如果计算出的概率值大于或等于预设阈值，则认为存在唤醒词；否则认为不存在唤醒词。将滑动窗口进行下一次滑动，考虑到每次均采用预定步长进行滑动，再次滑动该滑动窗口时，位于滑动窗口内的数据为该待识别语音数据中的第100至第300帧。提取待识别语音数据中的第100至第300帧数据的频谱峰值，并输入至识别模型，以令识别模型识别这些帧语音数据中是否存在唤醒词。以此类推，对待识别语音数据进行滑动窗口的多次滑动，利用识别模型识别在滑动窗口内出现的帧数据是否存在唤醒词。这种利用滑动窗口对每次滑动窗口内出现的帧数据中是否存在唤醒词的识别方案，可大大提高识别效率。此外，因为有滑动窗口的步长小于滑动窗口本身长度的限制，相邻两次滑动窗口内可出现有相同的语音数据，对相同的语音数据进行两次是否存在唤醒词的识别，可大大避免漏识别和错误识别的问题。

图6为对本公开实施例的端到端模型进行训练和应用的整体框图。从图6中可看出，可分为训练过程和应用过程。训练过程中使用的正样本数据是从包含唤醒词的文本数据做TTS的处理而得到的，负样本数据可通过将不包含唤醒词的文本数据做TTS处理而得到，还可以将从实际应用中采集到的电视剧、电影中的对话语音，生活中的聊天语音、音乐等音频作为负样本数据。训练数据的增广，就是将正样本数据和负样本数据中的至少之一进行变速处理，变速处理后提取正负样本数据的声学特征，并将声学特征输入至识别模型，以对识别模型进行训练。在应用过程中，采集待识别语音数据，提取待识别语音数据的声学特征，将该声学特征输入至训练完成或训练好的识别模型中，以利用识别模型识别待识别语音数据中是否存在唤醒词。具体的训练过程和应用过程请参见前述的相关说明，重复之处不赘述。

表1是利用基于真人语料而训练出的模型对语音数据中是否存在唤醒词的识别结果、与利用基于TTS得到的样本数据而训练出的识别模型对语音数据中是否存在唤醒词的识别结果之间的对比示意图。在表1中，利用基于真人语料而训练出的模型对语音数据中是否存在唤醒词的识别的方案与利用本公开实施例的方案具有相同误报次数的情况下，在相同的外界环境下(如均为安静的外界环境、均具有相同外部噪音或相同内部噪音的情况下)，利用本公开实施例的技术方案得出的唤醒正确率可以达到接近采用真人语料进行训练的效果。示例性地，如相同安静的外界环境下，利用采用真人语料进行训练的模型进行唤醒词的识别的正确率为100％。采用本公开实施例的技术方案对唤醒词进行识别、识别的正确率达到97.7％。本公开实施例的技术方案的识别准确率接近于利用采用真人语料进行训练的模型进行唤醒词的识别的方案，在工程上可行，易于推广。本公开实施例提供的方案无需人工采集真人语料且用于对唤醒词进行识别、可减少样本数据的采集成本，其可视为一种基于TTS的低成本唤醒方案。

表1

	安静	外噪	内噪	误报
					真人训练语料唤醒	100％	99.8％	99.2％	5
基于TTS的低成本唤醒	97.7％	91.9％	96.9％	5

本公开提供一种识别模型的训练设备的实施例，如图7所示，包括：

第一获取单元701，用于获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、第一语音样本的第一标签以及第二语音样本的第二标签；其中，第一语音样本包括对包含唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

第二获取单元702，用于获取第一语音样本的第一声学特征和第二语音样本的第二声学特征；

训练单元703，用于利用第一声学特征、第二声学特征、第一标签和第二标签训练识别模型，识别模型用于识别待识别语音数据中是否存在唤醒词。

其中，第一标签用于表征第一语音样本中包含唤醒词，第二标签用于表征第二语音样本中不包含唤醒词。

其中，所述训练单元703，用于利用第一语音样本的抽象特征和时序特征、以及第二语音样本的抽象特征和时序特征训练识别模型；其中，第一语音样本的抽象特征和时序特征由识别模型依据第一声学特征而得到，第二语音样本的抽象特征和时序特征由识别模型依据第二声学特征而得到。

其中，第一语音样本包括对包含唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

其中，第二语音样本包括对不包含唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

本公开还提供一种语音识别设备的实施例，如图8所示，包括：

第一获取单元801，用于获取待识别语音数据；

第二获取单元802，用于获取待识别语音数据的待识别声学特征；

控制输入单元803，用于将待识别声学特征输入至识别模型，由识别模型依据待识别声学特征对待识别语音数据中是否存在唤醒词进行识别；其中，识别模型为采用语音样本进行训练而得到，语音样本中包括包含唤醒词的语音数据，该包含唤醒词的语音数据通过对包含唤醒词的文本数据进行从文本到语音TTS的处理而得到。

其中，该设备还包括：

第一分帧单元，用于将待识别语音数据进行分帧处理，得到待识别语音数据的各帧数据；

第二获取单元802，用于获取各帧数据的待识别声学特征；

控制输入单元803，用于将各帧数据的待识别声学特征输入至识别模型，由识别模型依据各帧数据的待识别声学特征对各帧数据中是否存在所述唤醒词进行识别。

其中，该设备还包括：

第二分帧单元，用于将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的所有帧数据；

滑动单元，用于对所有帧数据进行滑动窗口的滑动；

第二获取单元，用于获取目标声学特征，所述目标声学特征为每滑动一次所述滑动窗口时位于所述滑动窗口内的帧数据的声学特征；

控制输入单元803，用于将目标声学特征输入至识别模型，由识别模型依据目标声学特征对位于滑动窗口内的帧数据中是否存在唤醒词进行识别。

其中，语音样本包括包含唤醒词的第一语音样本以及未包括唤醒词的第二语音样本，第一语音样本通过对包含唤醒词的文本数据进行从文本到语音TTS的处理而得到；语音样本还包括用于表征第一语音样本包含唤醒词的第一标签、以及用于表征第二语音样本不包含唤醒词的第二标签；识别模型为采用第一语音样本的第一声学特征、第二语音样本的第二声学特征、第一标签和第二标签进行训练而得到。

需要说明的是，本公开的(识别模型的)训练装置及故障检测装置，由于其解决问题的原理与前述的训练方法及故障检测方法相似，因此，训练装置及故障检测装置的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述，重复之处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

其中，可读存储介质存储有计算机指令，计算机指令用于使计算机执行本公开实施例(识别模型)的训练方法和语音识别方法中的至少之一。可读存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)。计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现的本公开实施例的识别模型的训练方法和语音识别方法中的至少之一。

其中，电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前述的识别模型的训练方法和语音识别方法中的至少之一。处理器包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如实现本公开实施例的识别模型的训练方法和语音识别方法中的至少之一。例如，在一些实施例中，本公开实施例的识别模型的训练方法和语音识别方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的本公开实施例的识别模型的训练方法和语音识别方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开实施例的识别模型的训练方法和语音识别方法中的至少之一。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种识别模型的训练方法，包括：

获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；

利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，所述识别模型用于识别待识别语音数据中是否存在所述唤醒词。

2.根据权利要求1所述的方法，其中，所述第一标签用于表征所述第一语音样本中包含所述唤醒词，所述第二标签用于表征所述第二语音样本中不包含所述唤醒词。

3.根据权利要求1所述的方法，其中，

所述利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，包括：

利用所述第一语音样本的抽象特征和时序特征、以及所述第二语音样本的抽象特征和时序特征训练所述识别模型；其中，所述第一语音样本的抽象特征和时序特征由所述识别模型依据所述第一声学特征而得到，所述第二语音样本的抽象特征和时序特征由所述识别模型依据所述第二声学特征而得到。

4.根据权利要求1至3中任一项所述的方法，其中，

所述第一语音样本包括对包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

5.根据权利要求4所述的方法，其中，

所述第二语音样本包括对不包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

6.一种语音识别方法，包括：

获取待识别语音数据；

获取所述待识别语音数据的待识别声学特征；

将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别；其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音TTS的处理而得到。

7.根据权利要求6所述的方法，还包括：

将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的各帧数据；

所述获取所述待识别语音数据的待识别声学特征，将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否包含唤醒词进行识别，包括：

获取所述各帧数据的待识别声学特征；

将所述各帧数据的待识别声学特征输入至所述识别模型，由所述识别模型依据所述各帧数据的待识别声学特征对所述各帧数据中是否存在所述唤醒词进行识别。

8.根据权利要求6所述的方法，还包括：

将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的所有帧数据；

对所述所有帧数据进行滑动窗口的滑动；

获取目标声学特征，所述目标声学特征为每滑动一次所述滑动窗口时位于所述滑动窗口内的帧数据的声学特征；

所述将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别，包括：

将所述目标声学特征输入至所述识别模型，由所述识别模型依据所述目标声学特征对位于所述滑动窗口内的所述帧数据中是否存在唤醒词进行识别。

9.根据权利要求6所述的方法，其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音TTS的处理而得到，包括：

所述语音样本包括包含所述唤醒词的第一语音样本以及不包括所述唤醒词的第二语音样本，所述第一语音样本通过对包含所述唤醒词的文本数据进行从文本到语音TTS的处理而得到；所述语音样本还包括用于表征所述第一语音样本包含所述唤醒词的第一标签、以及用于表征所述第二语音样本不包含所述唤醒词的第二标签；

所述识别模型为采用所述第一语音样本的第一声学特征、所述第二语音样本的第二声学特征、所述第一标签和所述第二标签进行训练而得到。

10.根据权利要求9所述的方法，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

11.根据权利要求10所述的方法，其中，

12.一种识别模型的训练设备，包括：

第一获取单元，用于获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；

第二获取单元，用于获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；

训练单元，用于利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，所述识别模型用于识别待识别语音数据中是否存在所述唤醒词。

13.根据权利要求12所述的设备，其中，所述第一标签用于表征所述第一语音样本中包含所述唤醒词，所述第二标签用于表征所述第二语音样本中不包含所述唤醒词。

14.根据权利要求12所述的设备，其中，

所述训练单元，用于利用所述第一语音样本的抽象特征和时序特征、以及所述第二语音样本的抽象特征和时序特征训练所述识别模型；其中，所述第一语音样本的抽象特征和时序特征由所述识别模型依据所述第一声学特征而得到，所述第二语音样本的抽象特征和时序特征由所述识别模型依据所述第二声学特征而得到。

15.根据权利要求12至14中任一项所述的设备，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

16.根据权利要求15所述的设备，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

17.一种语音识别设备，包括：

第一获取单元，用于获取待识别语音数据；

第二获取单元，用于获取所述待识别语音数据的待识别声学特征；

控制输入单元，用于将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别；其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音TTS的处理而得到。

18.根据权利要求17所述的设备，还包括：

第一分帧单元，用于将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的各帧数据；

所述第二获取单元，用于获取所述各帧数据的待识别声学特征；

所述控制输入单元，用于将所述各帧数据的待识别声学特征输入至所述识别模型，由所述识别模型依据所述各帧数据的待识别声学特征对所述各帧数据中是否存在所述唤醒词进行识别。

19.根据权利要求17所述的设备，还包括：

滑动单元，用于对所述所有帧数据进行滑动窗口的滑动；

第二获取单元，用于获取目标声学特征，所述目标声学特征为每滑动一次所述滑动窗口时位于所述滑动窗口内的帧数据的声学特征；所述控制输入单元，用于将所述目标声学特征输入至所述识别模型，由所述识别模型依据所述目标声学特征对位于所述滑动窗口内的所述帧数据中是否存在唤醒词进行识别。

20.根据权利要求17所述的设备，其中，

所述语音样本包括包含所述唤醒词的第一语音样本以及未包括所述唤醒词的第二语音样本，所述第一语音样本通过对包含所述唤醒词的文本数据进行从文本到语音TTS的处理而得到；所述语音样本还包括用于表征所述第一语音样本包含所述唤醒词的第一标签、以及用于表征所述第二语音样本不包含所述唤醒词的第二标签；

21.根据权利要求20所述的设备，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

22.根据权利要求21所述的设备，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行TTS处理、并对TTS处理得到的数据进行变速之后得到的语音数据。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5和或权利要求6-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5和或权利要求6-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5和或权利要求6-11中任一项所述的方法。