CN118072733A

CN118072733A - 一种语音识别方法、系统、电子设备及存储介质

Info

Publication number: CN118072733A
Application number: CN202311774774.5A
Authority: CN
Inventors: 李健; 郑晓明; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-05-24

Abstract

本申请提供了一种语音识别方法、系统、电子设备及存储介质，涉及语音识别技术领域，所述方法包括：获取待识别的语音数据；将待识别的语音数据输入预先训练好的语音识别模型中，得到待识别的语音数据对应的书面化目标文本数据；其中，语音识别模型的训练数据集包括口语化语音数据以及针对口语化语音数据进行顺滑处理后得到的书面化标注文本数据。本申请通过将语音数据以及对应的书面化标注文本数据作为训练数据训练语音识别模型，从而能够在训练语音识别模型时将语音识别与文本顺滑相结合，进而使得训练出的语音识别模型在进行语音识别与文本顺滑时能够考虑到语音数据与文本数据的双重影响，使得识别结果更加准确。

Description

一种语音识别方法、系统、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别是一种语音识别方法、系统、电子设备及存储介质。

背景技术

语音识别技术和文本顺滑技术是目前语音识别中较为常见的两种技术，其中，语音识别技术，英文称为Automatic Speech Recognition，简称ASR，是将语音识别成文本，让机器能够轻松听懂人类的语言；文本顺滑技术，英文称为Disfluency Detection，其目的是删除语音识别结果中的不顺滑的词，从而得到更自然和通顺的句子。

但是，目前对于语音识别和文本顺滑，大多是分步骤进行的，即先对语音数据进行语音识别，然后对语音识别的文本信息进行文本顺滑，在顺滑的过程中，往往只利用了文本信息而忽略了语音信息对识别结果的影响，从而导致最终的识别结果的顺滑度较差。

因此，亟需一种新的语音识别方法。

发明内容

鉴于上述问题，本申请实施例提供了一种语音识别方法、系统、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例第一方面，提供了一种语音识别方法，所述方法包括：

获取待识别的语音数据；

将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据；其中，所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应，所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

可选地，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，包括：

获取所述口语化语音数据，并将所述口语化语音数据转化为非书面化标注文本数据；

根据预设标注规范，将所述非书面化标注文本数据顺滑成所述书面化标注文本数据。

获取所述口语化语音数据；

将所述口语化语音数据对应的非书面化标注文本数据输入到预先训练的文本顺滑模型中，得到所述口语化语音数据对应的所述书面化标注文本数据，其中，所述预先训练的文本顺滑模型的训练数据为源数据以及与所述源数据对应的目标数据组成的文本对，所述源数据为口语化文本数据，所述目标数据为针对所述口语化文本数据对应的书面化标注文本数据。

可选地，所述将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据，包括：

在将所述待识别的语音数据输入所述语音识别模型之后，通过所述语音识别模型确定所述待识别的语音数据是否含有需要顺滑掉的发音；

在所述待识别的语音数据中包含需要顺滑掉的发音的情况下，所述语音识别模型针对所述需要顺滑掉的发音的识别结果为空，所述语音识别模型输出的识别结果为删除所述需要顺滑掉的发音后的所述待识别的语音数据对应的书面化目标文本数据；

当所述待识别的语音数据中不包含需要顺滑掉的发音时，则所述语音识别模型输出的识别结果为所述待识别的语音数据对应的书面化目标文本数据。

可选地，所述语音识别模型是通过如下步骤训练得到的：

获取训练数据集，所述训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应；

将所述口语化语音数据与所述书面化标注文本数据输入到预先准备的端到端模型中进行模型训练，生成所述语音识别模型。

本申请实施例第二方面，提供了一种语音识别系统，所述系统包括：

获取模块，用于获取待识别的语音数据；

输入模块，用于将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据；其中，所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应，所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

可选地，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，所述系统还包括：

第一获取子模块，用于获取所述口语化语音数据，并将所述口语化语音数据转化为非书面化标注文本数据；

第一顺滑子模块，用于根据预设标注规范，将所述非书面化标注文本数据顺滑成所述书面化标注文本数据。

第二获取子模块，用于获取所述口语化语音数据；

第一输入子模块，用于将所述口语化语音数据对应的非书面化标注文本数据输入到预先训练的文本顺滑模型中，得到所述口语化语音数据对应的所述书面化标注文本数据，其中，所述预先训练的文本顺滑模型的训练数据为源数据以及与所述源数据对应的目标数据组成的文本对，所述源数据为口语化文本数据，所述目标数据为针对所述口语化文本数据对应的书面化标注文本数据。

可选地，所述将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据，所述输入模块，包括：

确定子模块，用于在将所述待识别的语音数据输入所述语音识别模型之后，通过所述语音识别模型确定所述待识别的语音数据是否含有需要顺滑掉的发音；

第一输出子模块，用于在所述待识别的语音数据中包含需要顺滑掉的发音的情况下，所述语音识别模型针对所述需要顺滑掉的发音的识别结果为空，所述语音识别模型输出的识别结果为删除所述需要顺滑掉的发音后的所述待识别的语音数据对应的书面化目标文本数据；

第二输出子模块，用于当所述待识别的语音数据中不包含需要顺滑掉的发音时，则所述语音识别模型输出的识别结果为所述待识别的语音数据对应的书面化目标文本数据。

可选地，所述语音识别模型是通过如下步骤训练得到的，包括：

第三获取子模块，用于获取训练数据集，所述训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应；

第二输入子模块，用于将所述口语化语音数据与所述书面化标注文本数据输入到预先准备的端到端模型中进行模型训练，生成所述语音识别模型。

本申请实施例第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现如本申请第一方面所述的语音识别方法。

本申请实施例第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本申请第一方面所述的语音识别方法。

本申请的有益效果：

本申请实施例提供了一种语音识别方法，所述方法包括：获取待识别的语音数据；将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据；其中，所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应，所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。本申请通过将语音数据以及对应的书面化标注文本数据作为训练数据训练语音识别模型，从而能够在训练语音识别模型时将语音识别与文本顺滑相结合，进而使得训练出的语音识别模型在进行语音识别与文本顺滑时能够考虑到语音数据与文本数据的双重影响，使得识别结果更加准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法的步骤流程示意图；

图2是本申请实施例提供的一种语音识别系统的示意图；

图3是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例第一方面，提供了一种语音识别方法，所述方法如图1所示，包括：

步骤S101，获取待识别的语音数据；

步骤S102，将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据；其中，所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应，所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

具体而言，本申请中，待识别的语音数据的获取可以通过多种方式进行，包括但不限于麦克风录音、电话通话记录、语音文件导入等。

进一步地，将获取到的待识别的语音数据输入到预先训练好的语音识别模型中，通过语音识别模型能够得到待识别的语音数据对应的书面化目标文本数据。本申请中，对于语音识别模型的性能和准确性而言，训练数据的多样性和代表性是至关重要的。因此，确保训练数据集中包含了各种不同说话人、语音场景和口音是至关重要的。此外，语音数据的质量和清晰度也会直接影响到后续模型的训练和性能。

本申请实施例中，用于训练语音识别模型的训练数据涵盖了口语化的语音数据以及口语化的语音数据对应的书面化标注文本数据，需要注意的是，书面化标注文本数据是通过对口语化语音数据进行顺滑后得到的文本数据，因此，口语化语音数据与书面化标注文本数据之间是一一对应的关系，口语化语音数据与书面化标注文本数据之间的一一对应关系为模型提供了学习的基础，使其能够学习到语音和文本之间的关联。模型的训练过程不仅仅关注于语音的准确识别，还强调了顺滑处理的能力，以更好地处理口语化语音数据。

此外，顺滑功能的集成使得模型能够更好地处理语音中的断句、停顿、语气词和重音等非流畅性因素，提高了整体的语音识别性能。这种功能的学习依赖于预处理过的书面化标注文本数据，其中包含了对口语化语音数据进行处理的文本表示。

总体而言，本申请提供的语音识别模型通过学习口语化语音数据和书面化标注文本数据之间的复杂映射关系，使其在实际应用中能够更准确、流畅地将语音转化为书面文本。

在一种优选实施例中，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，包括：

在本实施例中，提供了一种人工对训练数据中的标注文本进行顺滑处理的过程，具体的：

首先，可以通过麦克风录音、电话通话记录、语音文件导入等途径获得口语化语音数据，并进一步将获取到的口语化语音数据转化为非书面化标注文本数据，这一步通常涉及到语音转文本技术，将口语化的语音转换为非书面化文本，但这个文本中包含了口头表达的一些特有特征，如语气、停顿等，还未经过书面化的处理。

进一步地，根据预设标注规范，将上述非书面化标注文本数据顺滑成书面化标注文本数据，预设标注规范通常是指一套指导性规则或标准，用于将非书面化标注文本数据转化为更为书面化的形式，顺滑处理的过程包括对语法、标点符号、断句、停顿等进行调整，使得文本更符合书面化语言的规范和习惯，在实际应用中，标注规范的设计可能考虑到特定领域的语言规范、用户习惯以及最终应用场景的需求，因此，本申请在此不做具体限定。

本步骤中，通过获取口语化语音数据并将口语化语音数据转化为书面化标注文本数据，为训练语音识别模型提供了更加丰富且规范的训练数据。

获取所述口语化语音数据；

首先，可以通过麦克风录音、电话通话记录、语音文件导入等途径获得口语化语音数据，并对获取到的口语化语音数据进行文本标注得到口语化语音数据对应的非书面化标注文本数据，并进一步将获取的口语化语音数据对应的非书面化标注文本数据输入到预先训练的文本顺滑模型中。这个模型是经过大规模训练，以学习口语化文本数据与相应书面化标注文本数据之间的关系。该文本顺滑模型的训练数据由源数据和与源数据对应的目标数据组成的文本对构成。本实施例中，源数据是口语化文本数据，而目标数据是相应的书面化标注文本数据。这样的文本对构成了训练数据集，为模型提供了学习的材料，使其能够捕捉到语音顺滑的规律。

在实际应用中，文本顺滑模型的训练过程旨在学习口语化文本数据与书面化标注文本数据之间的映射关系，以及如何进行有效的顺滑处理。文本顺滑模型可以是seq2seq模型、循环神经网络(RNN)模型或者变换器(Transformer)等深度学习模型。

在本申请一种优选实施例中，所述将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据，包括：

在本实施例中，在将待识别的语音数据输入语音识别模型之后，通过语音识别模型确定语音数据是否含有需要顺滑掉的发音。

其中，当语音识别模型确定待识别的语音数据中存在需要顺滑掉的发音时，模型将采取一种特殊的处理方式。即，语音识别模型会将其输出结果中，与需要顺滑掉的发音对应的识别结果设置为空。这相当于将含有不明确发音的部分“删除”，以确保最终的输出是经过顺滑处理后的书面化目标文本数据；而当语音识别模型认为待识别的语音数据中不包含需要顺滑掉的发音时，将直接采用语音识别模型的完整输出结果作为最终的书面化目标文本数据。这表示语音数据本身已经清晰，不需要进行额外的顺滑处理。有助于提高语音识别模型的鲁棒性，特别是在处理口音、方言或发音不清晰的情况下。通过动态地识别并处理发音问题，模型可以更好地适应多样化的语音输入，从而提高最终文本输出的质量和可读性。

例如：输入的待识别的语音数据为“嗯嗯这个是对的”，其中“嗯嗯”属于语气词，是需要顺滑掉的发音。因此，将“嗯嗯这个是对的”输入到语音识别模型后，对于“嗯嗯”识别结果被设置为空，因此，最终语音识别模型的输出结果为“这个是对的”，即，将“嗯嗯”删除。若输入的待识别的语音数据为“A：这是你的吗？B：嗯”，其中，“嗯”是B的肯定回答，不属于需要顺滑掉的发音，因此，最终语音识别模型的输出结果为“这是你的吗嗯”。

在一种优选实施例中，所述语音识别模型是通过如下步骤训练得到的：

在本实施例中，首先需要获取训练数据集，训练数据集是训练语音识别模型所必需的关键组成部分。在这个实施例中，训练数据集包括口语化语音数据和相应的书面化标注文本数据。口语化语音数据与书面化标注文本数据一一对应，确保了训练模型时有清晰的输入与输出对应关系。

在训练模型之前，需要对口语化语音数据进行预处理，以便用于模型的训练。在实际应用中，对于训练数据的预处理可以包括：音频特征提取、归一化和其他必要的预处理步骤。同时，对书面化标注文本数据进行分词和编码，以便模型能够理解和处理文本信息，这其中也包括了将口语化的语音数据进行语音识别，并对识别结果进行顺滑，得到口语化语音数据对应的书面化标注文本数据。

进一步地，将预处理后的口语化语音数据和相应的书面化标注文本数据输入到端到端模型中进行训练。进一步地，进行模型的优化和调整，可能包括调整超参数、进行验证集的评估以及对模型的性能进行监控。这个阶段旨在确保训练得到的语音识别模型能够在不同的输入情况下表现良好，包括对各种语音特征和发音的适应能力。

通过本实施例提供的训练过程，端到端模型可以学习到口语化语音数据与书面化标注文本数据之间的复杂映射关系，使得最终的语音识别模型在实际应用中能够更准确、流畅地将语音数据转化为书面化目标文本数据。

基于同一发明构思，本申请实施例第二方面，提供了一种语音识别系统，所述系统如图2所示，包括：

获取模块201，用于获取待识别的语音数据；

输入模块202，用于将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据；其中，所述语音识别模型的训练数据集包括口语化语音数据以及针对所述口语化语音数据进行顺滑处理后得到的书面化标注文本数据，所述口语化语音数据与所述书面化标注文本数据一一对应，所述语音识别模型是基于所述训练数据集学习顺滑功能和语音识别功能的。

第二获取子模块，用于获取所述口语化语音数据；

可选地，所述将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据，所述输入模块202，包括：

基于同一发明构思，本申请实施例第三方面，提供了一种电子设备100，如图3所示，包括存储器110、处理器120及存储在所述存储器110上的计算机程序，所述处理器120执行所述计算机程序以实现如本申请第一方面所述的语音识别方法。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种语音识别方法、系统、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别的语音数据；

2.根据权利要求1所述的语音识别方法，其特征在于，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，包括：

获取所述口语化语音数据；

4.根据权利要求1所述的语音识别方法，其特征在于，所述将所述待识别的语音数据输入预先训练好的语音识别模型中，得到所述待识别的语音数据对应的书面化目标文本数据，包括：

5.根据权利要求1-4中任一项所述的语音识别方法，其特征在于，所述语音识别模型是通过如下步骤训练得到的：

6.一种语音识别系统，其特征在于，所述系统包括：

获取模块，用于获取待识别的语音数据；

7.根据权利要求6所述的语音识别系统，其特征在于，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，所述系统还包括：

8.根据权利要求6所述的语音识别系统，其特征在于，针对所述口语化语音数据进行顺滑处理，得到所述书面化标注文本数据，所述系统还包括：

第二获取子模块，用于获取所述口语化语音数据；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至5中任一项所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至5中任一项所述的语音识别方法。