CN110473528A

CN110473528A - 语音识别方法和装置、存储介质及电子装置

Info

Publication number: CN110473528A
Application number: CN201910780105.6A
Authority: CN
Inventors: 郭欣; 唐大闰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-19
Anticipated expiration: 2039-08-22
Also published as: CN110473528B

Abstract

本发明公开了一种语音识别方法和装置、存储介质及电子装置。其中，该方法包括：获取待识别的目标音频；将目标音频输入语音识别模型，其中，语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个样本音频数据中包括交替标记的噪音标识和语音标识，但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省；获取语音识别模型输出的识别结果序列，其中，识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长；根据识别结果序列确定出目标音频中的目标语音。本发明解决了相关技术中语音识别操作的复杂度较高的技术问题。

Description

语音识别方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音识别方法和装置、存储介质及电子装置。

背景技术

如今，为了从采集到的音频中识别出说话人的语音信息，通常会采用端点检测技术来对音频进行端点检测，以实现从复杂的噪音环境中识别出语音。

然而，在现有的端点检测技术中，往往需要对音频数据进行大量的精细标注，如人为标记出音频数据中噪音片段的起止时间和语音片段的起止时间，才能保证语音识别的准确率。但是精细标注需要消耗大量的人力物力，从而导致语音识别的操作复杂度增加的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别方法和装置、存储介质及电子装置，以至少解决相关技术中语音识别操作的复杂度较高的技术问题。

根据本发明实施例的一个方面，提供了一种语音识别方法，包括：获取待识别的目标音频；将上述目标音频输入语音识别模型，其中，上述语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个上述样本音频数据中包括交替标记的噪音标识和语音标识，但上述噪音标识对应的噪音片段的噪音持续时长和上述语音标识对应的语音片段的语音持续时长缺省；获取上述语音识别模型输出的识别结果序列，其中，上述识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长；根据上述识别结果序列确定出上述目标音频中的目标语音。

作为一种可选的实施方式，在获取待识别的目标音频之前，还包括：获取上述多个样本音频数据；对每个上述样本音频数据中的音频数据的类型进行交替标记，得到标记后的上述多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识；将标记后的上述多个样本音频数据输入初始语音识别模型，以训练得到上述语音识别模型。

作为一种可选的实施方式，上述将标记后的上述多个样本音频数据输入初始语音识别模型，以训练得到上述语音识别模型包括：重复执行以下步骤，直至得到上述语音识别模型：从标记后的上述多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，上述当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识；通过上述当前语音识别模型识别出当前识别结果序列，其中，上述当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长；在上述当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为上述当前样本音频数据；在上述当前识别结果序列达到识别上述收敛条件的情况下，确定上述当前语音识别模型为上述语音识别模型。

作为一种可选的实施方式，上述根据上述识别结果序列确定出上述目标音频中的目标语音包括：根据上述识别结果序列，确定上述识别出的噪音片段的噪音持续时长，上述识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长；对上述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段；根据上述识别出的语音片段和上述语音关联片段，确定出上述目标语音。

作为一种可选的实施方式，上述对上述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段包括：按照预设比例对上述静音片段的静音持续时长进行划分，得到上述噪音关联片段和上述语音关联片段，其中，上述预设比例为预设的噪音片段与语音片段二者的比例；或者遍历上述静音片段中包括的静音子片段：获取当前静音子片段；在上述当前静音子片段与上述语音片段之间的距离小于上述当前静音子片段与上述噪音片段之间的距离的情况下；将上述当前静音子片段作为上述语音关联片段；在上述当前静音子片段与上述语音片段之间的距离大于上述当前静音子片段与上述噪音片段之间的距离的情况下；将上述当前静音子片段作为上述噪音关联片段。

作为一种可选的实施方式，上述根据上述识别出的语音片段和上述语音关联片段，确定出上述目标语音包括：对上述识别出的语音片段和上述语音关联片段进行拼接，得到上述目标语音。

根据本发明实施例的另一方面，还提供了一种语音识别装置，包括：第一获取单元，用于获取待识别的目标音频；输入单元，用于将上述目标音频输入语音识别模型，其中，上述语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个上述样本音频数据中包括交替标记的噪音标识和语音标识，但上述噪音标识对应的噪音片段的噪音持续时长和上述语音标识对应的语音片段的语音持续时长缺省；第二获取单元，用于获取上述语音识别模型输出的识别结果序列，其中，上述识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长；确定单元，用于根据上述识别结果序列确定出上述目标音频中的目标语音。

作为一种可选的实施方式，还包括：第三获取单元，用于在获取待识别的目标音频之前，获取上述多个样本音频数据；标记单元，用于在获取待识别的目标音频之前，对每个上述样本音频数据中的音频数据的类型进行交替标记，得到标记后的上述多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识；训练单元，用于在获取待识别的目标音频之前，将标记后的上述多个样本音频数据输入初始语音识别模型，以训练得到上述语音识别模型。

作为一种可选的实施方式，上述训练单元包括：重复模块，用于重复执行以下步骤，直至得到上述语音识别模型：第一确定模块，用于从标记后的上述多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，上述当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识；识别模块，用于通过上述当前语音识别模型识别出当前识别结果序列，其中，上述当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长；获取模块，用于在上述当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为上述当前样本音频数据；第二确定模块，用于在上述当前识别结果序列达到识别上述收敛条件的情况下，确定上述当前语音识别模型为上述语音识别模型。

作为一种可选的实施方式，上述确定单元包括：第三确定模块，用于根据上述识别结果序列，确定上述识别出的噪音片段的噪音持续时长，上述识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长；处理模块，用于对上述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段；第四确定模块，用于根据上述识别出的语音片段和上述语音关联片段，确定出上述目标语音。

作为一种可选的实施方式，上述处理模块包括：划分子模块，用于按照预设比例对上述静音片段的静音持续时长进行划分，得到上述噪音关联片段和上述语音关联片段，其中，上述预设比例为预设的噪音片段与语音片段二者的比例；或者获取子模块，用于遍历上述静音片段中包括的静音子片段：获取当前静音子片段；在上述当前静音子片段与上述语音片段之间的距离小于上述当前静音子片段与上述噪音片段之间的距离的情况下；将上述当前静音子片段作为上述语音关联片段；在上述当前静音子片段与上述语音片段之间的距离大于上述当前静音子片段与上述噪音片段之间的距离的情况下；将上述当前静音子片段作为上述噪音关联片段。

作为一种可选的实施方式，上述第四确定模块包括：拼接子模块，用于对上述识别出的语音片段和上述语音关联片段进行拼接，得到上述目标语音。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音识别方法。

在本发明实施例中，通过端点检测技术来对音频进行端点检测，达到了提高端点检测准确率目的，从而实现了减少语音识别操作复杂度的技术效果，进而解决了相关技术中语音识别操作的复杂度较高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音识别方法的流程图；

图2是根据本发明实施例的一种可选的语音识别装置的结构示意图；

图3是根据本发明实施例的另一种可选的语音识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音识别方法，可选地，作为一种可选的实施方式，如图1所示，上述语音识别方法包括：

S102，获取待识别的目标音频。

S104，将目标音频输入语音识别模型，其中，语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个样本音频数据中包括交替标记的噪音标识和语音标识，但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省。

S106，获取语音识别模型输出的识别结果序列，其中，识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长。

S108，根据识别结果序列确定出目标音频中的目标语音。

可选的，在本实施例中，上述语音识别方法可以但不限于应用于说话人识别系统、语音转换文字系统等。其中，上述多个样本音频数据可以但不限于通过声纹识别将目标音频信号转换为电信号，再通过计算机对上述电信号进行识别。上述神经网络模型可以但不限于是基于时序类数据分类(Connectionsit Temporal Classification，简称CTC)算法训练出端到端的神经网络，采用CTC算法作为损失函数的模型训练，无需预先对数据做对齐，只需一个输入序列和一个输出序列，且不需要外部的后处理。

需要说明的是，在本实施例中，获取待识别的目标音频，进而将目标音频输入预先训练好的语音识别模型，其中，语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个样本音频数据中包括交替标记的噪音标识和语音标识，但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省。进一步，获取语音识别模型输出的识别结果序列，其中，识别结果序列中包括识别出的噪音片段的噪音持续时长和识别出的语音片段的语音持续时长，最后，根据识别结果序列确定出目标音频中的目标语音。

进一步举例说明，假设获取六帧音频数据。进一步，将上述六帧音频数据输入到预先训练好的语音识别模型。进一步，识别出噪音标识n、语音表示s，以及上述噪音标识对应的噪音片段“nnn”、语音片段“sss”。进一步，上述语音识别模型输出识别结果序列“nnnsss”。最后，确定六帧音频数据中的目标语音为sss。

通过本申请提供的实施例，利用预先训练好的神经网络模型，获取待识别目标音频中包含噪音片段的噪音持续时长和语音片段的语音持续时长的识别结果序列，进而根据上述识别结果序列，达到获取目标音频中的目标语音的技术目的，进而实现减少语音识别的操作复杂度的技术效果。

作为一种可选的方案，在获取待识别的目标音频之前，还包括：

S1，获取多个样本音频数据。

S2，对每个样本音频数据中的音频数据的类型进行交替标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识。

S3，将标记后的多个样本音频数据输入初始语音识别模型，以训练得到语音识别模型。

可选的，在本实施例中，上述多个样本音频数据可以但不限于通过声纹识别将目标音频信号转换为电信号，进而以电信号的特征为依据确定上述音频数据的类型并进一步标记。训练得到语音识别模型可以但不限于基于CTC算法，其中CTC算法是针对一个输入序列到一个输出序列的结果的，换而言之CTC算法只针对预测输出的序列是否和真实的序列接近或相同，而不会针对预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。

需要说明的是，在本实施例中，获取多个样本音频数据后，进而对每个样本音频数据中的音频数据的类型进行交替标记，最后得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识。

进一步举例说明，获取多个样本音频，具体的，一个四帧音频数据的样本音频“snss”和一个六帧音频数据的样本音频“sssnnn”，其中，s表示语音音频，n表示噪音音频。进一步，对上述样本音频的类型进行标记，其中，标记的方式为忽视音频片段的时长，交替标记出现的噪音及语音音频，具体的，获取的标记后样本音频数据分别为“sns”、“sn”。

通过本申请提供的实施例，利用对样品音频数据中的音频数据类型进行交替标记的方式，进而获取到带有标记的样本音频数据，达到了获得可输出交替标记语音的语音识别模型，实现了通过语音识别模型将数据的待识别目标音频转化为有噪音和语音交替标识的识别结果序列。

作为一种可选的方案，将标记后的多个样本音频数据输入初始语音识别模型，以训练得到语音识别模型包括：

S1，重复执行以下步骤，直至得到语音识别模型。

S2，从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识。

S3，通过当前语音识别模型识别出当前识别结果序列，其中，当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长。

S4，在当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据。

S5，在当前识别结果序列达到识别收敛条件的情况下，确定当前语音识别模型为语音识别模型。

需要说明的是，在本实施例中，重复执行以下步骤，直至得到语音识别模型：从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识。进一步，通过当前语音识别模型识别出当前识别结果序列，其中，当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长，并且在当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据，在当前识别结果序列达到识别收敛条件的情况下，确定当前语音识别模型为语音识别模型。

可选的，在本实施例中，重复步骤停止的条件可以但不限于是语音识别模型的误差率低于预设阈值。上述识别结果序列可以但不限于是跳过去重去空格的程序处理过程的算法结果，具体的，CTC算法会对输出序列进行去重、去空格处理，并将上述处理过的输出序列输出，其中，上述处理过的输出序列不包含时间点。

进一步举例说明，通过多个样本音频数据训练出的初始语音标识模块，其中，语音标识模块可将样本音频数据中的噪音数据标识为n，将语音数据标识为s。进一步，输入待识别的目标音频，进而通过上述语音标识模块获取形式为“_ssss____nnnnn_s_n_”的输出序列，不进行去重、去空格处理，确定上述输出序列为识别结果序列。其中，对于不进行CTC算法中对输出序列的去重、去空格处理步骤，可删除上述处理过程对应的程序代码。最终，在上述获取到的识别结果序列与实际结果误差率小于预设值的情况下，确定上述初始语音标识模块为语音标识模块；在上述获取到的识别结果序列与实际结果误差率大于预设值的情况下，重复上述步骤。

可选的，在本实施例中，模型确定出的噪音片段的噪音持续时长、语音片段的语音持续时长、静音片段的静音持续时长为预测得到。输入初始语音识别模型的多个样本音频数据并未标记时间信息。在每个音频的处理时，根据音频总时长，以及各种类型的分类标识，来预测不同分类的组合，从中选择概率最高的组合作为输出，假设“s”标识语音、“n”表示噪音、“_”表示静音，即输出为“s”、“n”、“_”的组合。进一步，训练过程是一个重复过程，跳出重复的条件，是达到训练收敛条件。

进一步举例说明，假设当前输入音频数据的总时长为10s，其中预测出语音s为3s，噪音n为5s，静音为2s的组合的概率最大，则确认针对当前输入的输出结果为上述组合。

通过本申请提供的实施例，利用对CTC算法输出序列进行的不去重、去空格处理，达到了获得时间信息的目的，实现了基于CTC算法训练端对端的神经网络的效果。

作为一种可选的方案，根据识别结果序列确定出目标音频中的目标语音包括：

S1，根据识别结果序列，确定识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长。

S2，对识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段。

S3，根据识别出的语音片段和语音关联片段，确定出目标语音。

需要说明的是，在本实施例中，根据识别结果序列，确定识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长，进一步，对识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段，最终根据识别出的语音片段和语音关联片段，确定出目标语音。

进一步举例说明，识别结果序列为“ssssnnnnnn”，其中，假设1帧时长为1S，则确定噪音片段为1～4帧，持续时长为4S；确定语音片段为5～10帧，持续时长为6S。

通过本申请提供的实施例，利用确定噪音和语音的片段和时长的方式，达到了得到目标语音的目的，实现了降低标识难度、减少标识时间的效果。

作为一种可选的方案，对识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段包括：

S1，按照预设比例对静音片段的静音持续时长进行划分，得到噪音关联片段和语音关联片段，其中，预设比例为预设的噪音片段与语音片段二者的比例；或者

S2，遍历静音片段中包括的静音子片段：获取当前静音子片段；在当前静音子片段与语音片段之间的距离小于当前静音子片段与噪音片段之间的距离的情况下；将当前静音子片段作为语音关联片段；在当前静音子片段与语音片段之间的距离大于当前静音子片段与噪音片段之间的距离的情况下；将当前静音子片段作为噪音关联片段。

可选的，在本实施例中，对静音片段的静音持续时长进行划分可以但不限于对每个静音片段进行随机划分，其中，划分总数满足预设比率即可。

需要说明的是，在本实施例中，按照预设比例对静音片段的静音持续时长进行划分，进而得到噪音关联片段和语音关联片段，其中，预设比例为预设的噪音片段与语音片段二者的比例。或者遍历静音片段中包括的静音子片段，进而获取当前静音子片段，并在当前静音子片段与语音片段之间的距离小于当前静音子片段与噪音片段之间的距离的情况下，将当前静音子片段作为语音关联片段；或在当前静音子片段与语音片段之间的距离大于当前静音子片段与噪音片段之间的距离的情况下，将当前静音子片段作为噪音关联片段。具体的，静音子片段数为偶数个时，离噪音近的赋值给噪音，离语音近的赋值给语音；静音子片段奇数个时，新增一个静音子片段，成为偶数后，参考偶数处理方式。

进一步举例说明，先统计输出中噪音与语音的比例，例如上述比例为7：3，进而随机选取7/10的静音子片段将其标记为噪音，剩下的3/10的静音子片段标记为语音；或者保留上述静音片段，并将静音片段中的静音子片段赋予相邻左右的语音或噪音片段，即强制将上述静音片段归为语音或噪音片段。

进一步举例说明，输出序列为“ssss____nnnnn”的识别结果序列，其中，静音子片段“_”数量为4，即静音子片段数为偶数个，将上述4个静音子片段赋值给离得最近的语音片段，最终获得的识别结果序列为“ssssssssnnnnn”。

通过本申请提供的实施例，利用将静音片段的进一步处理，达到了将静音片段归于噪音或语音片段的目的，实现了节省标识时间的效果。

作为一种可选的方案，根据识别出的语音片段和语音关联片段，确定出目标语音包括：

对识别出的语音片段和语音关联片段进行拼接，得到目标语音。

需要说明的是，在本实施例中，可将上述识到的语音片段和语音关联片段进行拼接，进而得到处理后的目标语音。

进一步举例说明，将结果序列“ssss__nnnnn_”处理，识别到语音片段“ssss”和语音关联片段ss，并将上述语音片段“ssss”作为第1～4帧、语音关联片段“ss”作为第5～6帧进行拼接，得到六帧语音数据的目标语音“ssssss”。

通过本申请提供的实施例，利用将语音片段和语音关联片段进行拼接的方式，达到得到处理后的目标语音的目的，实现了减少标识复杂度的效果。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音识别方法的语音识别装置。如图2所示，该装置包括：

第一获取单元202，用于获取待识别的目标音频。

输入单元204，用于将目标音频输入语音识别模型，其中，语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个样本音频数据中包括交替标记的噪音标识和语音标识，但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省。

第二获取单元206，用于获取语音识别模型输出的识别结果序列，其中，识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长。

确定单元208，用于根据识别结果序列确定出目标音频中的目标语音。

进一步举例说明，假设获取六帧音频数据。进一步，将上述六帧音频数据输入到预先训练好的语音识别模型。进一步，识别出噪音标识n、语音表示s，以及上述噪音标识对应的噪音片段“nnn“、语音片段“sss”。进一步，上述语音识别模型输出识别结果序列“nnnsss”。最后，确定六帧音频数据中的目标语音为“sss”。

作为一种可选的方案，还包括：

第三获取单元，用于在获取待识别的目标音频之前，获取多个样本音频数据。

标记单元，用于在获取待识别的目标音频之前，对每个样本音频数据中的音频数据的类型进行交替标记，得到标记后的多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识。

训练单元，用于在获取待识别的目标音频之前，将标记后的多个样本音频数据输入初始语音识别模型，以训练得到语音识别模型。

作为一种可选的方案，训练单元包括：

重复模块，用于重复执行以下步骤，直至得到语音识别模型。

第一确定模块，用于从标记后的多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识。

识别模块，用于通过当前语音识别模型识别出当前识别结果序列，其中，当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长。

获取模块，用于在当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为当前样本音频数据。

第二确定模块，用于在当前识别结果序列达到识别收敛条件的情况下，确定当前语音识别模型为语音识别模型。

作为一种可选的方案，如图3所示，确定单元包括：

第三确定模块302，用于根据识别结果序列，确定识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长。

处理模块304，用于对识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段。

第四确定模块306，用于根据识别出的语音片段和语音关联片段，确定出目标语音。

作为一种可选的方案，处理模块包括：

划分子模块，用于按照预设比例对静音片段的静音持续时长进行划分，得到噪音关联片段和语音关联片段，其中，预设比例为预设的噪音片段与语音片段二者的比例；或者

获取子模块，用于遍历静音片段中包括的静音子片段：获取当前静音子片段；在当前静音子片段与语音片段之间的距离小于当前静音子片段与噪音片段之间的距离的情况下；将当前静音子片段作为语音关联片段；在当前静音子片段与语音片段之间的距离大于当前静音子片段与噪音片段之间的距离的情况下；将当前静音子片段作为噪音关联片段。

作为一种可选的方案，第四确定模块包括：

拼接子模块，用于对识别出的语音片段和语音关联片段进行拼接，得到目标语音。

进一步举例说明，将结果序列“ssss__nnnnn_”处理，识别到语音片段“ssss”和语音关联片段“ss”，并将上述语音片段“ssss”作为第1～4帧、语音关联片段“ss”作为第5～6帧进行拼接，得到六帧语音数据的目标语音“ssssss”。

根据本发明实施例的又一个方面，还提供了一种语音识别方法的电子装置，电子装置包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

需要说明的是，对于前述的各装置实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

可选地，本领域普通技术人员可以理解，本申请实施例中的结构仅为示意，电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。本申请实施例并不对上述电子装置的结构造成限定。例如，电子装置还可包括更多或者更少的组件(如网络接口等)，或者更多不同的配置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的一种语音识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器具体可以但不限于用于存储目标音频、识别结果序列、目标语音等信息。作为一种示例，上述存储器、中可以但不限于包括上述语音识别装置中的第一获取单元202、输入单元204、第二获取单元206以及确定单元208，还可以包括但不限于上述语音识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器，用于显示上述识别结果序列等；和连接总线，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待识别的目标音频。

S2，将目标音频输入语音识别模型，其中，语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个样本音频数据中包括交替标记的噪音标识和语音标识，但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省。

S3，获取语音识别模型输出的识别结果序列，其中，识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长。

S4，根据识别结果序列确定出目标音频中的目标语音。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的目标音频；

将所述目标音频输入语音识别模型，其中，所述语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个所述样本音频数据中包括交替标记的噪音标识和语音标识，但所述噪音标识对应的噪音片段的噪音持续时长和所述语音标识对应的语音片段的语音持续时长缺省；

获取所述语音识别模型输出的识别结果序列，其中，所述识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长；

根据所述识别结果序列确定出所述目标音频中的目标语音。

2.根据权利要求1所述的方法，其特征在于，在获取待识别的目标音频之前，还包括：

获取所述多个样本音频数据；

对每个所述样本音频数据中的音频数据的类型进行交替标记，得到标记后的所述多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识；

将标记后的所述多个样本音频数据输入初始语音识别模型，以训练得到所述语音识别模型。

3.根据权利要求2所述的方法，其特征在于，所述将标记后的所述多个样本音频数据输入初始语音识别模型，以训练得到所述语音识别模型包括：

重复执行以下步骤，直至得到所述语音识别模型：

从标记后的所述多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，所述当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识；

通过所述当前语音识别模型识别出当前识别结果序列，其中，所述当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长；

在所述当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为所述当前样本音频数据；

在所述当前识别结果序列达到识别所述收敛条件的情况下，确定所述当前语音识别模型为所述语音识别模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述识别结果序列确定出所述目标音频中的目标语音包括：

根据所述识别结果序列，确定所述识别出的噪音片段的噪音持续时长，所述识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长；

对所述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段；

根据所述识别出的语音片段和所述语音关联片段，确定出所述目标语音。

5.根据权利要求4所述的方法，其特征在于，所述对所述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段包括：

按照预设比例对所述静音片段的静音持续时长进行划分，得到所述噪音关联片段和所述语音关联片段，其中，所述预设比例为预设的噪音片段与语音片段二者的比例；或者

遍历所述静音片段中包括的静音子片段：获取当前静音子片段；在所述当前静音子片段与所述语音片段之间的距离小于所述当前静音子片段与所述噪音片段之间的距离的情况下；将所述当前静音子片段作为所述语音关联片段；在所述当前静音子片段与所述语音片段之间的距离大于所述当前静音子片段与所述噪音片段之间的距离的情况下；将所述当前静音子片段作为所述噪音关联片段。

6.根据权利要求4所述的方法，其特征在于，所述根据所述识别出的语音片段和所述语音关联片段，确定出所述目标语音包括：

对所述识别出的语音片段和所述语音关联片段进行拼接，得到所述目标语音。

7.一种语音识别装置，其特征在于，包括：

第一获取单元，用于获取待识别的目标音频；

输入单元，用于将所述目标音频输入语音识别模型，其中，所述语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型，每个所述样本音频数据中包括交替标记的噪音标识和语音标识，但所述噪音标识对应的噪音片段的噪音持续时长和所述语音标识对应的语音片段的语音持续时长缺省；

第二获取单元，用于获取所述语音识别模型输出的识别结果序列，其中，所述识别结果序列中包括识别出的噪音片段的噪音持续时长，识别出的语音片段的语音持续时长；

确定单元，用于根据所述识别结果序列确定出所述目标音频中的目标语音。

8.根据权利要求7所述的装置，其特征在于，还包括：

第三获取单元，用于在获取待识别的目标音频之前，获取所述多个样本音频数据；

标记单元，用于在获取待识别的目标音频之前，对每个所述样本音频数据中的音频数据的类型进行交替标记，得到标记后的所述多个样本音频数据，其中，每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识；

训练单元，用于在获取待识别的目标音频之前，将标记后的所述多个样本音频数据输入初始语音识别模型，以训练得到所述语音识别模型。

9.根据权利要求8所述的装置，其特征在于，所述训练单元包括：

重复模块，用于重复执行以下步骤，直至得到所述语音识别模型：

第一确定模块，用于从标记后的所述多个样本音频数据中确定出当前样本音频数据，并确定当前语音识别模型，其中，所述当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识；

识别模块，用于通过所述当前语音识别模型识别出当前识别结果序列，其中，所述当前识别结果序列中包括：当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长；

获取模块，用于在所述当前识别结果序列未达到识别收敛条件的情况下，获取下一个样本音频数据作为所述当前样本音频数据；

第二确定模块，用于在所述当前识别结果序列达到识别所述收敛条件的情况下，确定所述当前语音识别模型为所述语音识别模型。

10.根据权利要求7所述的装置，其特征在于，所述确定单元包括：

第三确定模块，用于根据所述识别结果序列，确定所述识别出的噪音片段的噪音持续时长，所述识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长；

处理模块，用于对所述识别出的静音片段的静音持续时长进行处理，以得到噪音关联片段和语音关联片段；

第四确定模块，用于根据所述识别出的语音片段和所述语音关联片段，确定出所述目标语音。

11.根据权利要求10所述的装置，其特征在于，所述处理模块包括：

划分子模块，用于按照预设比例对所述静音片段的静音持续时长进行划分，得到所述噪音关联片段和所述语音关联片段，其中，所述预设比例为预设的噪音片段与语音片段二者的比例；或者

获取子模块，用于遍历所述静音片段中包括的静音子片段：获取当前静音子片段；在所述当前静音子片段与所述语音片段之间的距离小于所述当前静音子片段与所述噪音片段之间的距离的情况下；将所述当前静音子片段作为所述语音关联片段；在所述当前静音子片段与所述语音片段之间的距离大于所述当前静音子片段与所述噪音片段之间的距离的情况下；将所述当前静音子片段作为所述噪音关联片段。

12.根据权利要求10所述的装置，其特征在于，所述第四确定模块包括：

拼接子模块，用于对所述识别出的语音片段和所述语音关联片段进行拼接，得到所述目标语音。

13.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。