CN117057321A

CN117057321A - 语音转文字处理方法、模型训练方法、装置、设备及介质

Info

Publication number: CN117057321A
Application number: CN202311319191.3A
Authority: CN
Inventors: 欧阳康; 白雪; 孙小强
Original assignee: Changsha Danwo Intelligent Technology Co ltd
Current assignee: Changsha Danwo Intelligent Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14
Anticipated expiration: 2043-10-12
Also published as: CN117057321B

Abstract

本发明提供一种语音转文字处理方法、模型训练方法、装置、设备及介质，获取原始音频数据对应的原始文本数据；对原始文本数据采用两步走策略获取原始文本数据对应的目标处理文本；编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述原始文本数据嵌入所述文本处理总模板作为训练文本；将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中，对所述语音转文字处理模型进行训练，得到训练好的语音转文字处理模型。本发明能够生成高质量的目标处理文本，以此为优化目标，使训练得到的模型具有更强的文本美化能力。

Description

语音转文字处理方法、模型训练方法、装置、设备及介质

技术领域

本发明主要涉及到语音处理技术领域，尤其是一种语音转文字处理方法、模型训练方法、装置、设备及介质。

背景技术

语音识别转文字是一项便捷的技术，它可以将人的语音输入转化为文字，并在电脑和手机等设备上进行使用。

作为一种技术，虽然语音转文字技术在很大程度上已经取得了进步，但仍然存在着以下问题：断句、标点符号、语气词、填充词、数字未标准化等，这些问题限制着语音转文字的发展，也是影响生成结果文本可读性的一个巨大挑战。

为了解决这些限制和挑战，进行文本后处理是一种常见的方法。文本后处理可以通过校正、校验、编辑和优化转换后的文本，以提高文本质量和可读性。而通过文本后处理解决上述问题首先要解决语料问题，目前通过编写指令的方案实现一步式文本修正值得尝试，但是其存在着不稳定性问题，其原因主要在于两个方面，一方面文本修正涉及的任务很多，包括添加标点符合、断句、去除冗余词，数字标准化等等，一步式文本修正指令模板本身编写也会复杂困难一些；另一方面对于人工智能自然语言处理工具而言，在理解一步式文本修正指令模板过程中极其容易出现顾此失彼的情况。因此通过人工智能自然语言处理工具实现一步式自动生成出的语料质量较低。

另外，目前针对语音转文字处理方法，也有人提出通过传统的深度学习算法训练语音转文字处理模型，虽然传统的深度学习方法固然可以解决文本后处理问题，但也存在以下问题：训练语音转文字后处理模型需要大量的训练语料进行监督训练来完成后处理任务，需要耗费大量人力物力。另外文本后处理涉及的问题比较多，其方案的设计本身存在很大的难度。

发明内容

针对现有技术存在的技术问题，本发明提出一种语音转文字处理方法、模型训练方法、装置、设备及介质。

为实现上述目的，本发明采用的技术方案如下：

一方面，本发明提供一种语音转文字处理模型训练方法，包括：

获取原始音频数据对应的原始文本数据；

编写断句、添加标点符号、去除语气冗余词的文本美化模板，将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理，得到初始文本修正语料；

编写数字标准化模板，将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理，得到最终文本修正语料，所述最终文本修正语料作为原始文本数据对应的目标处理文本；

编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述原始文本数据嵌入所述文本处理总模板作为训练文本；

将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中，对所述语音转文字处理模型进行训练，得到训练好的语音转文字处理模型。

进一步地，所述原始音频数据为金融行业商业路演音频数据。

另一方面，本发明提供一种语音转文字处理模型训练装置，包括：

第一模块，用于获取原始音频数据对应的原始文本数据；

第二模块，用于编写断句、添加标点符号、去除语气冗余词的文本美化模板，将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理，得到初始文本修正语料；

第三模块，用于编写数字标准化模板，将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理，得到最终文本修正语料，所述最终文本修正语料作为原始文本数据对应的目标处理文本；

第四模块，用于编写用于断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述原始文本数据嵌入所述文本处理总模板作为训练文本；

第五模块，用于将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中，对所述语音转文字处理模型进行训练，得到训练好的语音转文字处理模型。

另一方面，本发明提供一种语音转文字处理方法，包括：

获取待处理的原始音频数据；

将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据；

编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到上述所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

另一方面，本发明提供一种语音转文字处理装置，包括：

输入模块，用于获取待处理的原始音频数据；

语音转文本模块，用于将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据；

预测处理模块，用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到上述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取原始音频数据对应的原始文本数据；

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取原始音频数据对应的原始文本数据；

获取待处理的原始音频数据；

相比现有技术，本发明的技术效果：

本发明提出了一种语音转文字处理模型训练方法，首先收集来自于真实的商业路演原始音频数据，利用语音转文本工具获取原始音频数据对应的原始文本数据作为后续训练语料的根据，也能够更好的适配于真实业务场景中。

具体地，编写断句、添加标点符号、去除语气冗余词的文本美化模板，将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理，得到初始文本修正语料；编写数字标准化模板，将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理，得到最终文本修正语料，所述最终文本修正语料作为原始文本数据对应的目标处理文本。本发明通过上述两步走的方式处理原始音频数据对应的原始文本数据，且每一步中都是利用智能大语言模型即ChatGpt生成每一步的语料，ChatGpt在原始训练过程中已经使用了大量的语料进行预训练，已经具备了较强的自然语言表达能力，生成结果更具可读性，所以其本身就具备一定的文本美化能力。因此只需要根据具体任务编写好指令模板，准备好少量语料，即可让模型学好文本后处理的功能。具体地，第一步先获得初始文本修正语料，第二步获得最终文本修正语料，在每一步中只需要针对单个任务编写指令模板，使得ChatGpt在每一步中能够更好的理解对应任务的指令目标，从而生成高质量语料。

本发明将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中，对所述语音转文字处理模型进行训练，得到训练好的语音转文字处理模型，从而使得大模型学会文本后处理能力，应用在实际业务场景中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是一实施例提供的一种语音转文字处理模型训练方法的流程图；

图2是一实施例中获取原始音频数据对应的原始文本数据的示意图；

图3是一实施例中原始文本数据的处理及训练过程示意图；

图4是一实施例提供的一种语音转文字处理模型训练装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一实施例中提供一种语音转文字处理模型训练方法，包括：

获取原始音频数据对应的原始文本数据；

一实施例中，所收集的原始音频数据为金融行业商业路演音频数据，由于金融行业商业路演音频数据具有较强的专业性，其数据中往往存在大量的数字信息，需要对其中语音转文本数据中的万、亿、百分数、小数等等数学表达进行数字标准化。

在实际应用场景中，获得的真实路演音频，往往是有长有短，对真实路演音频要更好的进行理解，那么需要结合上下文信息，尽可能使单个原始音频数据的语义能够通过对应的原始文本数据得到真实的表达。一实施例中，获取原始音频数据对应的原始文本数据，包括以下步骤：

根据原始真实路演音频数据，利用whisper语音转文本工具从真实路演音频数据中获取对应的文本数据；

为了形成完整语义表达段落，设置文本长度阈值，按照设置的文本长度阈值合并所述文本数据的上下句，以有效的保留好上下文信息，为后续的构建后处理语料做原始积累。如图2所示，原始真实路演音频数据通过语音转文本工具得到对应的文本数据，所述文本数据长度大于设置文本长度阈值，所述文本数据由J1、J2、...、Jm、...、Jn这些连续句子组成，设置文本长度阈值为1024字符，以1024字符长度作为长度标准合并上下句，获得n个原始音频数据对应的原始文本数据。当然如果真实路演音频数据中获取对应的文本数据长度本身小于设置的文本长度阈值，则该文本数据直接作为一个原始文本数据。

在获得原始文本数据后，一实施例中采用两步走策略获取原始文本数据对应的目标处理文本，具体包括：

第一步，编写断句、添加标点符号、去除语气冗余词的文本美化模板，将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理，得到初始文本修正语料；

第二步，编写数字标准化模板，将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理，得到最终文本修正语料，所述最终文本修正语料作为原始文本数据对应的目标处理文本。

上述第一步中所编写的文本美化模板，其针对任务为断句、添加标点符号和去除语气冗余词。上述第二步中所编写数字标准化模板针对任务主要为对第一步得到的初始文本修正语料中万、亿、百分数、小数等数学表达进行数字标准化。相较于原始音频数据对应的原始文本数据，经过上述两步得到的目标处理文本已经拥有了断句、标点符号、语气冗余词去除、数字标准化能力，将其作为后续训练模型的最终优化目标。

最后，编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述原始文本数据嵌入所述文本处理总模板作为训练文本。将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中，对所述语音转文字处理模型进行训练，得到训练好的语音转文字处理模型。

一实施例中，提供一种训练所述语音转文字处理模型的方案，包括以下步骤：

将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量；

将所述训练文本向量输入LLM模型中，得到预测结果向量；

通过前向传播，计算预测结果向量和目标处理文本向量之间的损失函数；

通过反向传播，根据优化器更新LLM模型参数，使得LLM模型在训练过程中不断进行学习，一直到最后损失函数无法继续降低，保存好此时的LLM模型参数，得到训练好的语音转文字处理模型。

通过padding操作将所述原始文本数据对应的训练文本、目标处理文本分别padding至最大预设长度；

通过预设的token字典将padding操作后的所述原始文本数据对应的训练文本、目标处理文本映射为训练文本字符级索引序列、目标处理文本字符级索引序列；

将训练文本字符级索引序列、目标处理文本字符级索引序列输入至embedding层，将所述训练文本字符级索引序列、目标处理文本字符级索引序列分别映射为对应的训练文本向量和目标处理文本向量；

将所述训练文本向量输入LLM模型中，得到预测结果向量；

图3中以“今天天气温度很高”作为原始文本数据，以此为例说明原始文本数据的处理及训练过程，通过padding操作将所述原始文本数据padding至最大预设长度，同时基于预设的词表将“今天天气温度很高”映射为对应的训练文本字符级索引序列，对于在词表中未出现的词汇，定义为【unk】，其索引对应映射到【unk】的索引。训练文本字符级索引序列输入至embedding层映射为对应的训练文本向量，将所述训练文本向量输入LLM模型中，得到预测结果向量Predict。可以理解，目标处理文本同样先进行了padding操作，然后映射为目标处理文本字符级索引序列，最后映射为目标处理文本向量Label。计算预测结果向量Predict和目标处理文本向量Label之间的损失函数，用于更新LLM模型参数，使得LLM模型在训练过程中不断进行学习，一直到最后损失函数无法继续降低，保存好此时的LLM模型参数，得到训练好的语音转文字处理模型。

参照图4，一实施例提出一种语音转文字处理模型训练装置，包括：

第一模块，用于获取原始音频数据对应的原始文本数据；

一实施例中，提出一种所述第五模块，包括：

映射模块，用于将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量；

预测模块，将所述训练文本向量输入LLM模型中，得到预测结果向量；

更新模块，通过前向传播，计算预测结果向量和目标处理文本向量之间的损失函数，通过反向传播，根据优化器更新LLM模型参数，使得LLM模型在训练过程中不断进行学习，一直到最后损失函数无法继续降低，保存好此时的LLM模型参数，得到训练好的语音转文字处理模型。

上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法，在此不再赘述。

另一实施例中，提供一种语音转文字处理方法，包括：

获取待处理的原始音频数据；

编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到上述任一实施例中所提供的语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

由于训练好的语音转文字处理模型所输出的预测结果仍为向量形式，因此需要对预测结果进行进一步的处理，得到预测结果对应的预测文本结果，具体地，包括：

将向量形式的预测结果映射为字符级索引序列；

基于预设的token字典，将预测结果对应的字符级索引序列映射为对应的文本，即预测文本结果。

另一方面，一实施例中提供一种语音转文字处理装置，包括：

输入模块，用于获取待处理的原始音频数据；

预测处理模块，用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到上述任一实施例中所提供的语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一实施例中所提供的语音转文字处理模型训练方法的步骤。

本发明提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一实施例中所提供的语音转文字处理方法的步骤。该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中所提供的语音转文字处理模型训练方法的步骤。

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中所提供的语音转文字处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本发明未尽事宜为公知技术。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的优选的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.语音转文字处理模型训练方法，其特征在于，包括：

获取原始音频数据对应的原始文本数据；

2.根据权利要求1所述的语音转文字处理模型训练方法，其特征在于，所述原始音频数据为金融行业商业路演音频数据。

3.根据权利要求1或2所述的语音转文字处理模型训练方法，其特征在于，所述语音转文字处理模型的训练过程，包括：

将所述训练文本向量输入LLM模型中，得到预测结果向量；

4.根据权利要求3所述的语音转文字处理模型训练方法，其特征在于，将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量，包括：

将训练文本字符级索引序列、目标处理文本字符级索引序列输入至embedding层，将所述训练文本字符级索引序列、目标处理文本字符级索引序列分别映射为对应的训练文本向量和目标处理文本向量。

5.语音转文字处理模型训练装置，其特征在于，包括：

第一模块，用于获取原始音频数据对应的原始文本数据；

6.根据权利要求5所述的语音转文字处理模型训练装置，其特征在于：所述第五模块包括：

将所述训练文本向量输入LLM模型中，得到预测结果向量；

通过前向传播，计算预测结果向量和目标处理文本向量之间的损失函数，通过反向传播，根据优化器更新LLM模型参数，使得LLM模型在训练过程中不断进行学习，一直到最后损失函数无法继续降低，保存好此时的LLM模型参数，得到训练好的语音转文字处理模型。

7.语音转文字处理方法，其特征在于，包括：

获取待处理的原始音频数据；

编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到如权利要求1所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

8.语音转文字处理装置，其特征在于，包括：

输入模块，用于获取待处理的原始音频数据；

预测处理模块，用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板，将所述待处理文本数据嵌入所述文本处理总模板后输入到如权利要求1所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中，得到预测结果。

9.计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于：处理器执行计算机程序时实现如权利要求7所述的语音转文字处理方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于：计算机程序被处理器执行时实现如权利要求7所述的语音转文字处理方法的步骤。