CN117057321A - 语音转文字处理方法、模型训练方法、装置、设备及介质 - Google Patents
语音转文字处理方法、模型训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117057321A CN117057321A CN202311319191.3A CN202311319191A CN117057321A CN 117057321 A CN117057321 A CN 117057321A CN 202311319191 A CN202311319191 A CN 202311319191A CN 117057321 A CN117057321 A CN 117057321A
- Authority
- CN
- China
- Prior art keywords
- text
- processing
- training
- original
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 190
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012805 post-processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种语音转文字处理方法、模型训练方法、装置、设备及介质,获取原始音频数据对应的原始文本数据;对原始文本数据采用两步走策略获取原始文本数据对应的目标处理文本;编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。本发明能够生成高质量的目标处理文本,以此为优化目标,使训练得到的模型具有更强的文本美化能力。
Description
技术领域
本发明主要涉及到语音处理技术领域,尤其是一种语音转文字处理方法、模型训练方法、装置、设备及介质。
背景技术
语音识别转文字是一项便捷的技术,它可以将人的语音输入转化为文字,并在电脑和手机等设备上进行使用。
作为一种技术,虽然语音转文字技术在很大程度上已经取得了进步,但仍然存在着以下问题:断句、标点符号、语气词、填充词、数字未标准化等,这些问题限制着语音转文字的发展,也是影响生成结果文本可读性的一个巨大挑战。
为了解决这些限制和挑战,进行文本后处理是一种常见的方法。文本后处理可以通过校正、校验、编辑和优化转换后的文本,以提高文本质量和可读性。而通过文本后处理解决上述问题首先要解决语料问题,目前通过编写指令的方案实现一步式文本修正值得尝试,但是其存在着不稳定性问题,其原因主要在于两个方面,一方面文本修正涉及的任务很多,包括添加标点符合、断句、去除冗余词,数字标准化等等,一步式文本修正指令模板本身编写也会复杂困难一些;另一方面对于人工智能自然语言处理工具而言,在理解一步式文本修正指令模板过程中极其容易出现顾此失彼的情况。因此通过人工智能自然语言处理工具实现一步式自动生成出的语料质量较低。
另外,目前针对语音转文字处理方法,也有人提出通过传统的深度学习算法训练语音转文字处理模型,虽然传统的深度学习方法固然可以解决文本后处理问题,但也存在以下问题:训练语音转文字后处理模型需要大量的训练语料进行监督训练来完成后处理任务,需要耗费大量人力物力。另外文本后处理涉及的问题比较多,其方案的设计本身存在很大的难度。
发明内容
针对现有技术存在的技术问题,本发明提出一种语音转文字处理方法、模型训练方法、装置、设备及介质。
为实现上述目的,本发明采用的技术方案如下:
一方面,本发明提供一种语音转文字处理模型训练方法,包括:
获取原始音频数据对应的原始文本数据;
编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
进一步地,所述原始音频数据为金融行业商业路演音频数据。
另一方面,本发明提供一种语音转文字处理模型训练装置,包括:
第一模块,用于获取原始音频数据对应的原始文本数据;
第二模块,用于编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
第三模块,用于编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
第四模块,用于编写用于断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
第五模块,用于将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
另一方面,本发明提供一种语音转文字处理方法,包括:
获取待处理的原始音频数据;
将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
另一方面,本发明提供一种语音转文字处理装置,包括:
输入模块,用于获取待处理的原始音频数据;
语音转文本模块,用于将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
预测处理模块,用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取原始音频数据对应的原始文本数据;
编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取原始音频数据对应的原始文本数据;
编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理的原始音频数据;
将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理的原始音频数据;
将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
相比现有技术,本发明的技术效果:
本发明提出了一种语音转文字处理模型训练方法,首先收集来自于真实的商业路演原始音频数据,利用语音转文本工具获取原始音频数据对应的原始文本数据作为后续训练语料的根据,也能够更好的适配于真实业务场景中。
具体地,编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本。本发明通过上述两步走的方式处理原始音频数据对应的原始文本数据,且每一步中都是利用智能大语言模型即ChatGpt生成每一步的语料,ChatGpt在原始训练过程中已经使用了大量的语料进行预训练,已经具备了较强的自然语言表达能力,生成结果更具可读性,所以其本身就具备一定的文本美化能力。因此只需要根据具体任务编写好指令模板,准备好少量语料,即可让模型学好文本后处理的功能。具体地,第一步先获得初始文本修正语料,第二步获得最终文本修正语料,在每一步中只需要针对单个任务编写指令模板,使得ChatGpt在每一步中能够更好的理解对应任务的指令目标,从而生成高质量语料。
本发明将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型,从而使得大模型学会文本后处理能力,应用在实际业务场景中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是一实施例提供的一种语音转文字处理模型训练方法的流程图;
图2是一实施例中获取原始音频数据对应的原始文本数据的示意图;
图3是一实施例中原始文本数据的处理及训练过程示意图;
图4是一实施例提供的一种语音转文字处理模型训练装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一实施例中提供一种语音转文字处理模型训练方法,包括:
获取原始音频数据对应的原始文本数据;
编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
一实施例中,所收集的原始音频数据为金融行业商业路演音频数据,由于金融行业商业路演音频数据具有较强的专业性,其数据中往往存在大量的数字信息,需要对其中语音转文本数据中的万、亿、百分数、小数等等数学表达进行数字标准化。
在实际应用场景中,获得的真实路演音频,往往是有长有短,对真实路演音频要更好的进行理解,那么需要结合上下文信息,尽可能使单个原始音频数据的语义能够通过对应的原始文本数据得到真实的表达。一实施例中,获取原始音频数据对应的原始文本数据,包括以下步骤:
根据原始真实路演音频数据,利用whisper语音转文本工具从真实路演音频数据中获取对应的文本数据;
为了形成完整语义表达段落,设置文本长度阈值,按照设置的文本长度阈值合并所述文本数据的上下句,以有效的保留好上下文信息,为后续的构建后处理语料做原始积累。如图2所示,原始真实路演音频数据通过语音转文本工具得到对应的文本数据,所述文本数据长度大于设置文本长度阈值,所述文本数据由J1、J2、...、Jm、...、Jn这些连续句子组成,设置文本长度阈值为1024字符,以1024字符长度作为长度标准合并上下句,获得n个原始音频数据对应的原始文本数据。当然如果真实路演音频数据中获取对应的文本数据长度本身小于设置的文本长度阈值,则该文本数据直接作为一个原始文本数据。
在获得原始文本数据后,一实施例中采用两步走策略获取原始文本数据对应的目标处理文本,具体包括:
第一步,编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
第二步,编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本。
上述第一步中所编写的文本美化模板,其针对任务为断句、添加标点符号和去除语气冗余词。上述第二步中所编写数字标准化模板针对任务主要为对第一步得到的初始文本修正语料中万、亿、百分数、小数等数学表达进行数字标准化。相较于原始音频数据对应的原始文本数据,经过上述两步得到的目标处理文本已经拥有了断句、标点符号、语气冗余词去除、数字标准化能力,将其作为后续训练模型的最终优化目标。
最后,编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本。将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
一实施例中,提供一种训练所述语音转文字处理模型的方案,包括以下步骤:
将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量;
将所述训练文本向量输入LLM模型中,得到预测结果向量;
通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数;
通过反向传播,根据优化器更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
一实施例中,提供一种训练所述语音转文字处理模型的方案,包括以下步骤:
通过padding操作将所述原始文本数据对应的训练文本、目标处理文本分别padding至最大预设长度;
通过预设的token字典将padding操作后的所述原始文本数据对应的训练文本、目标处理文本映射为训练文本字符级索引序列、目标处理文本字符级索引序列;
将训练文本字符级索引序列、目标处理文本字符级索引序列输入至embedding层,将所述训练文本字符级索引序列、目标处理文本字符级索引序列分别映射为对应的训练文本向量和目标处理文本向量;
将所述训练文本向量输入LLM模型中,得到预测结果向量;
通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数;
通过反向传播,根据优化器更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
图3中以“今天天气温度很高”作为原始文本数据,以此为例说明原始文本数据的处理及训练过程,通过padding操作将所述原始文本数据padding至最大预设长度,同时基于预设的词表将“今天天气温度很高”映射为对应的训练文本字符级索引序列,对于在词表中未出现的词汇,定义为【unk】,其索引对应映射到【unk】的索引。训练文本字符级索引序列输入至embedding层映射为对应的训练文本向量,将所述训练文本向量输入LLM模型中,得到预测结果向量Predict。可以理解,目标处理文本同样先进行了padding操作,然后映射为目标处理文本字符级索引序列,最后映射为目标处理文本向量Label。计算预测结果向量Predict和目标处理文本向量Label之间的损失函数,用于更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
参照图4,一实施例提出一种语音转文字处理模型训练装置,包括:
第一模块,用于获取原始音频数据对应的原始文本数据;
第二模块,用于编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
第三模块,用于编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
第四模块,用于编写用于断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
第五模块,用于将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
一实施例中,提出一种所述第五模块,包括:
映射模块,用于将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量;
预测模块,将所述训练文本向量输入LLM模型中,得到预测结果向量;
更新模块,通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数,通过反向传播,根据优化器更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法,在此不再赘述。
另一实施例中,提供一种语音转文字处理方法,包括:
获取待处理的原始音频数据;
将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述任一实施例中所提供的语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
由于训练好的语音转文字处理模型所输出的预测结果仍为向量形式,因此需要对预测结果进行进一步的处理,得到预测结果对应的预测文本结果,具体地,包括:
将向量形式的预测结果映射为字符级索引序列;
基于预设的token字典,将预测结果对应的字符级索引序列映射为对应的文本,即预测文本结果。
另一方面,一实施例中提供一种语音转文字处理装置,包括:
输入模块,用于获取待处理的原始音频数据;
语音转文本模块,用于将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
预测处理模块,用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到上述任一实施例中所提供的语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法,在此不再赘述。
上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法,在此不再赘述。
另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一实施例中所提供的语音转文字处理模型训练方法的步骤。
本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一实施例中所提供的语音转文字处理方法的步骤。该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中所提供的语音转文字处理模型训练方法的步骤。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中所提供的语音转文字处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明未尽事宜为公知技术。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的优选的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.语音转文字处理模型训练方法,其特征在于,包括:
获取原始音频数据对应的原始文本数据;
编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
2.根据权利要求1所述的语音转文字处理模型训练方法,其特征在于,所述原始音频数据为金融行业商业路演音频数据。
3.根据权利要求1或2所述的语音转文字处理模型训练方法,其特征在于,所述语音转文字处理模型的训练过程,包括:
将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量;
将所述训练文本向量输入LLM模型中,得到预测结果向量;
通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数;
通过反向传播,根据优化器更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
4.根据权利要求3所述的语音转文字处理模型训练方法,其特征在于,将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量,包括:
通过padding操作将所述原始文本数据对应的训练文本、目标处理文本分别padding至最大预设长度;
通过预设的token字典将padding操作后的所述原始文本数据对应的训练文本、目标处理文本映射为训练文本字符级索引序列、目标处理文本字符级索引序列;
将训练文本字符级索引序列、目标处理文本字符级索引序列输入至embedding层,将所述训练文本字符级索引序列、目标处理文本字符级索引序列分别映射为对应的训练文本向量和目标处理文本向量。
5.语音转文字处理模型训练装置,其特征在于,包括:
第一模块,用于获取原始音频数据对应的原始文本数据;
第二模块,用于编写断句、添加标点符号、去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入ChatGpt进行文本初处理,得到初始文本修正语料;
第三模块,用于编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入ChatGpt进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;
第四模块,用于编写用于断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;
第五模块,用于将所述原始文本数据对应的训练文本、目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型。
6.根据权利要求5所述的语音转文字处理模型训练装置,其特征在于:所述第五模块包括:
将所述原始文本数据对应的训练文本、目标处理文本映射为对应的训练文本向量和目标处理文本向量;
将所述训练文本向量输入LLM模型中,得到预测结果向量;
通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数,通过反向传播,根据优化器更新LLM模型参数,使得LLM模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的LLM模型参数,得到训练好的语音转文字处理模型。
7.语音转文字处理方法,其特征在于,包括:
获取待处理的原始音频数据;
将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到如权利要求1所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
8.语音转文字处理装置,其特征在于,包括:
输入模块,用于获取待处理的原始音频数据;
语音转文本模块,用于将所述待处理的原始音频数据利用语音转文本工具得到对应的待处理文本数据;
预测处理模块,用于编写断句、添加标点符号、去除语气冗余词以及数字标准化的文本处理总模板,将所述待处理文本数据嵌入所述文本处理总模板后输入到如权利要求1所述语音转文字处理模型训练方法得到的训练好的语音转文字处理模型中,得到预测结果。
9.计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于:处理器执行计算机程序时实现如权利要求7所述的语音转文字处理方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于:计算机程序被处理器执行时实现如权利要求7所述的语音转文字处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319191.3A CN117057321B (zh) | 2023-10-12 | 2023-10-12 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319191.3A CN117057321B (zh) | 2023-10-12 | 2023-10-12 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117057321A true CN117057321A (zh) | 2023-11-14 |
CN117057321B CN117057321B (zh) | 2024-01-05 |
Family
ID=88669604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311319191.3A Active CN117057321B (zh) | 2023-10-12 | 2023-10-12 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057321B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN111737979A (zh) * | 2020-06-18 | 2020-10-02 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN114154459A (zh) * | 2021-10-28 | 2022-03-08 | 北京搜狗科技发展有限公司 | 语音识别文本处理方法、装置、电子设备及存储介质 |
CN115588429A (zh) * | 2022-09-23 | 2023-01-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别的纠错方法及装置 |
WO2023003856A1 (en) * | 2021-07-21 | 2023-01-26 | Utech Products, Inc. | Ai platform for processing speech and video information collected during a medical procedure |
US20230055233A1 (en) * | 2020-02-11 | 2023-02-23 | Llsollu Co., Ltd. | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method |
-
2023
- 2023-10-12 CN CN202311319191.3A patent/CN117057321B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230055233A1 (en) * | 2020-02-11 | 2023-02-23 | Llsollu Co., Ltd. | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method |
CN111737979A (zh) * | 2020-06-18 | 2020-10-02 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
WO2023003856A1 (en) * | 2021-07-21 | 2023-01-26 | Utech Products, Inc. | Ai platform for processing speech and video information collected during a medical procedure |
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN114154459A (zh) * | 2021-10-28 | 2022-03-08 | 北京搜狗科技发展有限公司 | 语音识别文本处理方法、装置、电子设备及存储介质 |
US20230289514A1 (en) * | 2021-10-28 | 2023-09-14 | Beijing Sogou Technology Development Co., Ltd. | Speech recognition text processing method and apparatus, device, storage medium, and program product |
CN115588429A (zh) * | 2022-09-23 | 2023-01-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别的纠错方法及装置 |
Non-Patent Citations (3)
Title |
---|
ZHENG YUAN ET AL: "Grammatical error correction using neural machine translation", NAACL-HLT 2016, pages 380 - 386 * |
王梦贤 等: "融合MacBERT和Kenlm的中文纠错方法", 现代计算机, vol. 28, no. 23, pages 70 - 73 * |
苏锦钿 等: "一种面向中文拼写纠错的自监督预训练方法", 华南理工大学学报, vol. 51, no. 9, pages 90 - 95 * |
Also Published As
Publication number | Publication date |
---|---|
CN117057321B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023093525A1 (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN113468877A (zh) | 语言模型的微调方法、装置、计算设备和存储介质 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN111666775B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN110826345B (zh) | 一种机器翻译方法和装置 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN112016300A (zh) | 预训练模型处理、下游任务处理方法、装置及存储介质 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN112836528A (zh) | 机器翻译后编辑方法及系统 | |
CN117057321B (zh) | 语音转文字处理方法、模型训练方法、装置、设备及介质 | |
CN115080736A (zh) | 一种判别式语言模型的模型调整方法及装置 | |
CN112270192B (zh) | 一种基于词性和停用词过滤的语义识别方法及系统 | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN115081457A (zh) | 一种基于人工智能技术的信息处理方法及系统 | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN114048753A (zh) | 词义识别模型训练、词义判断方法、装置、设备及介质 | |
CN112000777A (zh) | 一种文本生成方法、装置、计算机设备和存储介质 | |
CN114238603B (zh) | 基于人工智能的问答方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |