CN115293139B - 一种语音转写文本纠错模型的训练方法和计算机设备 - Google Patents

一种语音转写文本纠错模型的训练方法和计算机设备 Download PDF

Info

Publication number
CN115293139B
CN115293139B CN202210928970.2A CN202210928970A CN115293139B CN 115293139 B CN115293139 B CN 115293139B CN 202210928970 A CN202210928970 A CN 202210928970A CN 115293139 B CN115293139 B CN 115293139B
Authority
CN
China
Prior art keywords
text
length
editing
character
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210928970.2A
Other languages
English (en)
Other versions
CN115293139A (zh
Inventor
陈玮
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202210928970.2A priority Critical patent/CN115293139B/zh
Publication of CN115293139A publication Critical patent/CN115293139A/zh
Application granted granted Critical
Publication of CN115293139B publication Critical patent/CN115293139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种语音转写文本纠错模型的训练方法及计算机设备,属于语音识别技术领域;解决了现有文本纠错方法在纠错时无法准确定位到错词进行修改,导致针对语音转写文本的纠错准确性不高的问题。本发明的文本纠错模型训练方法包括以下步骤:获取原始语音转写文本及对应的文本纠错后的目标文本,构建训练样本集合;计算原始语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多条编辑路径;根据多条编辑路径构造编辑对齐字符集合;基于编辑对齐字符集合和先验词表匹配结果得到每个编辑路径的频率得分,根据频率得分确定最终编辑路径及长度标签;将语音转写文本、长度标签和目标文本输入到多任务模型进行预测,得到语音转写文本纠错模型。

Description

一种语音转写文本纠错模型的训练方法和计算机设备
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音转写文本纠错模型的训练方法和计算机设备。
背景技术
近年来,随着深度学习技术的快速发展,深度学习在图像处理、自然语言处理和强化学习中发挥着越来越重要的作用。深度学习的训练过程是一个基于海量数据的自动特征提取和连续数据拟合的过程,属于机器学习。深度学习模型能够自动提取特征,对数据处理或特征工程的要求较低。然而,目前深度学习的方法大多数应用在纠正拼写错误和纠正语法错误,专门针对语音转写文本的纠错方案还比较少。
由于语音转写文本中的错误大多属于口语化、发音模糊不清而产生的音似错误,而且语音转写文本的错误分布比较稀疏,在纠错时需要精准定位到错词进行修改,对于正确的词需避免修改,这导致常见的拼写纠错算法和语法纠错算法在语音转写文本上的效果并不理想。因此,设计专门的方案对语音转写文本进行纠错成为一项急需解决的难题。
发明内容
鉴于上述的分析,本发明旨在提供一种语音转写文本纠错模型的训练方法和计算机设备;解决现有技术中的文本纠错方法在纠错时无法准确定位到错词进行修改,导致针对语音转写文本的纠错准确性不高的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种语音转写文本纠错模型的训练方法,包括以下步骤:获取原始语音转写文本及对应的文本纠错后的目标文本,构建训练样本集合;
计算所述原始语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多条编辑路径;
根据所述多条编辑路径构建编辑对齐字符集合,基于所述编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径,并基于最终编辑路径得到原始语音转写文本中每个字符的长度标注标签;
将所述语音转写文本、长度标注标签和目标文本输入到多任务模型进行预测,经过损失函数迭代更新,得到语音转写文本纠错模型。
进一步的,所述多任务模型包括长度预测器、长度修正器和纠错器;
所述长度预测器用于根据所述语音转写文本和长度标注标签对每个字符的长度进行预测并标注;
所述长度修正器用于根据所述长度预测器输出的语音转写文本对应的长度标注,对语音转写本文进行修改,得到与对应的目标文本相同长度的待纠错文本;
所述纠错器用于根据目标文本对对应的待纠错文本进行纠错,得到纠错后的文本。
进一步的,所述纠错器为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;
所述文本表示层,用于对所述待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;
所述全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;
所述CRF层,基于全连接层的输出,通过初始化转移矩阵和损失函数迭代更新,得到每个句子中字符排序的最佳路径。
进一步的,根据所述长度预测器输出的语音转写文本对应的长度标注,对语音转写本文进行修改,包括:,删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以对齐原始语音转写文本与目标文本的长度,m为大于1的整数。
进一步的所述CRF层采用如下损失函数进行迭代更新:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X);
其中γ为控制惩罚权重的超参数;Pcrf(Y|X)为输出字符的概率值。
进一步的,所述CRF层的转移矩阵采用两个低秩神经参数度量E1和E2进行降维:
E1,E2∈R|V|×dm
将满秩转移矩阵A转换为A=E1E2 T,其中,dm<<|V|,|V|=k+2,k为词向量维度。
进一步的,所述根据所述多条编辑路径构建编辑对齐字符集合包括:
直接根据所述多条编辑路径构建编辑对齐字符集合;或者,
根据所述多条编辑路径中未经修改的字符个数计算匹配得分,选择匹配得分最高的编辑路径为候选编辑路径,根据候选编辑路径构建编辑对齐字符集合。
进一步的,所述根据多条编辑路径或候选编辑路径构建编辑对齐字符集合包括:
根据编辑路径对原始语音转写文本进行长度标注,得到每个编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。
另一方面,还提供一种语音转写文本纠错系统,包括文本纠错模块、辅助标注模块和智能语音识别模块;
所述文本纠错模块,采用长度预测器对语音转写文本进行长度预测,得到长度标签;并接收辅助标注模块输出的长度标注后的语音转写文本,利用纠错器进行纠错,得到纠错后的文本;
所述智能语音识别模块,用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本纠错模块;
所述辅助标注模块,用于根据所述文本纠错模块输出的所述长度标签,对语音转写文本进行长度标注,并将长度标注后的语音转写文本输出给文本纠错模块。
第三方面,还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的语音转写文本纠错模型的训练方法。
本技术方案的有益效果:
1、本发明引入原文本长度标注任务,采用基于长度标注的多任务语音识别文本纠错模型进行纠错,并提供了一种长度打标方法,将语音转写文本和目标文本进行编辑对齐,得到语音转写文本中每个字符对应目标文本中每个字符的长度标注,该方法可以在纠错时精准定位到错词进行修改,避免正确的词被误纠,有效解决现有纠错模型在语音转写文本上应用效果较差的问题;
2、本发明通过非自回归的方式进行解码训练和预测,提升了训练、预测的效率,还有效地缓解了自回归解码模型由于循环递归解码导致的错误传递、重复解码等问题,大大提高了纠错后文本相对纠错前文本的忠诚度;
3、本发明通过引入焦点损失缓解不同标签训练样本不均衡和不同标签难易程度不同导致的训练误差,并结合长度标签预测任务给出了一种带加权因子的多任务损失函数,有效地提升了模型的拟合程度和泛化能力。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的语音转写文本纠错模型的训练方法流程图。
图2为本发明实施例的语音转写文本纠错模型的训练方法示意图。
图3为本发明实施例的语音转写文本纠错系统。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种语音转写文本纠错模型的训练方法,如图1所示,包括以下步骤:
步骤S1:获取原始语音转写文本及对应的文本纠错后的目标文本,构建训练样本集合;
具体的,本实施例采用的原始语音转写文本为通过语音识别系统输出的文本;通过校对,得到与语音转写文本对应的目标文本。
优选的,在获取目标文本后还包括构建词表,即,对训练样本集合中的所有目标文本进行分词操作,基于分词后得到的长度不小于2的所有词构建词表,词表中还包括每个词在词表中出现的频率。
步骤S2:计算所述原始语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多条编辑路径;
具体的,编辑距离表示将语音转写文本转换为目标文本所需的最少编辑操作次数,用来度量两个句子的不相似性。有效的编辑操作包括字符插入、删除和替换。定义语音转写文本为a=(a1,a2,...,ai...aM),目标文本为b=(b1,b2,...bj...bN),其中M和N为语音转写文本和目标文本的长度。
将两个字符串a、b的编辑距离表示为leva,b(M,N),则leva,b(M,N)可用如下的数学语言描述:
Figure BDA0003780839930000061
leva,b(i,j)表示a中前i个字符和b中前j个字符之间的编辑距离,其中,0≤i≤M,0≤j≤N。
当min(i,j)=0时,leva,b(M,N)对应着字符串a中前i个字符和字符串b中前j个字符,此时的i,j有一个值为0,表示字符串a和b中有一个为空串,那么从a转换到b只需要进行max(i,j)次单字符编辑操作即可,所以字符串a和b之间的编辑距离为max(i,j),即i,j中的最大值。
当min(i,j)≠0的时候,leva,b(M,N)为如下三种情况的最小值:
(1)leva,b(i-1,j)+1表示删除ai
(2)leva,b(i,j-1)+1表示插入bj
(3)
Figure BDA0003780839930000071
表示替换bj
Figure BDA0003780839930000072
为一个指示函数,表示当ai=bj时取0;当ai≠bj时,其值为1。
作为一个具体的实施例,若语音转写文本a为“天天更加好”,目标文本b为“明天会更好”,则在纠错过程中,需在第一个“天”前面插入“明”,将第二个“天”替换为“会”,将“加”删除,共进行了3次编辑操作,则a和b的编辑距离为3。
步骤S3:根据多条编辑路径构建编辑对齐字符集合,基于所述编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率,计算各个编辑路径的频率得分,选择得分最高的编辑路径作为最终编辑路径,并基于最终编辑路径得到原始语音转写文本中每个字符的长度标注标签。
具体的,所述根据所述多条编辑路径构建编辑对齐字符集合包括:
直接根据所述多条编辑路径构建编辑对齐字符集合;或者,
根据所述多条编辑路径中未经修改的字符个数计算匹配得分,选择匹配得分最高的编辑路径为候选编辑路径,根据候选编辑路径构建编辑对齐字符集合。
具体的,所述根据多条编辑路径或候选编辑路径构建编辑对齐字符集合包括:
根据编辑路径对原始语音转写文本进行长度标注,得到每个选编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。
具体地,匹配得分为路径中未经修改的字符个数。
例如,语音转写文本为“天天更加好”,目标文本为“明天会更好”。编辑路径1的结果为:
Figure BDA0003780839930000081
编辑路径2的结果为:
Figure BDA0003780839930000082
编辑路径3的结果为:
Source
Target
编辑路径1中,有3个字符未经修改;编辑路径2中,有3个字符未经修改;编辑路径3中,有2个字符未经修改。则3条路径的匹配得分分别为3、3、2。则保留编辑路径1和编辑路径2为候选编辑路径。
在构建编辑对齐字符集合时,作为一种优选的方式,可以选择根据候选编辑路径构建编辑对齐字符集合;
作为一个具体的实施例,本实施例采用经过计算匹配得分优化后的候选编辑路径为例构建编辑对齐字符集合,若语音转写文本为“天天更加好”,目标文本为“明天会更好”。编辑路径1对应的长度标注结果为:
Figure BDA0003780839930000083
Figure BDA0003780839930000091
编辑路径2对应的长度标注结果有两种,第一种结果为:
Figure BDA0003780839930000092
第二种结果为:
Figure BDA0003780839930000093
则编辑对齐字符集合为{明天,天会,会更}。
假设在预先构建的词表中,“明天”的频率为90,“天会”的频率为20,“会更”的频率为70,其余单个字符的频率为0,则编辑路径1的频率得分为90+0+0+0+0=90,编辑路径2的第一种结果的频率得分为0+20+0+0+0=20,编辑路径2的第二种结果的频率得分为0+0+70+0+0=70。编辑路径1的频率得分最高,因此选择编辑路径1作为最终编辑路径,并基于该路径的长度标注方式得到语音转写文本“天天更加好”的长度标注标签为“1、1、2、0、1”。
步骤S4:将所述语音转写文本、目标文本和长度标注标签输入到多任务模型进行预测,经过损失函数迭代更新,得到语音转写文本纠错模型。
具体的,所述多任务模型包括长度预测器、长度修正器和纠错器;
长度预测器用于根据所述语音转写文本和长度标注标签对原始语音转写文本中每个字符的长度进行预测并标注;
优选的,长度预测器为基于Bert的预训练模型,包括嵌入层、编码层和输出层;
所述嵌入层,用于将输入的所述语音转写文本表示为包括词向量、位置嵌入和文段分割嵌入的嵌入层隐向量;抽象形式化为H0=E0+P0+S0
所述编码层,用于根据所述嵌入层隐向量经过编码得到具有上下文表示的编码层隐向量;Bert的编码层实际是Transformer Encoder的堆叠,用于获取上下文信息。Bert-base模型采用L=12层的Transformer Encoder堆叠。抽象化形式为Hl=Transformer_block(Hl-1),l∈[1,L]。
所述输出层,用于根据所述编码层隐向量经过线性变换,输出预测得到的每个字符的长度标签及所述长度标签对应的预测概率。
优选的,将文本中第i个字符wi的长度标注为wi',模型输出wi的预测概率为:
Figure BDA0003780839930000102
其中,
Figure BDA0003780839930000103
为层内的参数,W为神经元的权重,c为偏置。
Bert长度预测器在训练时,直接使用预训练好的Bert-base模型,L=12,H=768,A=12,总参数=110M,参数通过预训练初始化。计算预测概率的线性层的参数则随机初始化。
具体地,Bert长度预测器对语音转写文本中每个字符的长度进行预测,输出相应预测长度的概率值:p(w=wi'|θ);
将长度预测器的损失函数定义为:
Figure BDA0003780839930000101
其中,θ为模型中所有参数的符号表示。
长度修正器用于根据所述长度预测器输出的语音转写文本对应的长度标注,对语音转写本文进行修改,得到与对应的目标文本相同长度的待纠错文本,具体的,包括:删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以对齐原始语音转写文本与目标文本的长度,m为大于1的整数。
例如,若语音转写文本为“天天更加好”,经长度预测器预测得到的长度标签为“2、1、1、0、1”,则将语音转写文本修改为“天天天更好”,如下表所示。
Figure BDA0003780839930000111
优选的,在对长度标注后的语音转写本文进行修改后还可以对文本进行符号的过滤,并构成字表,将每个句子中的字进行数字化;将字符和长度标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾,分别表示文本序列的开始和结束。
进一步的,纠错器用于根据目标文本对对应的待纠错文本进行纠错,得到纠错后的文本。所述纠错器为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;其中,
文本表示层,用于对所述待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;
具体的,对于一个经过长度标注并进行修改后的中文文本序列,将其表示为F={f1,f2,f3,..,fn},这个输入序列对应到Bert模型中会分别生成词向量、位置嵌入矩阵和文段分割嵌入矩阵。将这三个词嵌入组合起来就成为了文本表示层输出En*k,En*k为一个3维的矩阵,这个序列包含每个token的字符信息、句子信息以及它们的位置信息。与其他的语言模型相比较,Bert预训练语言模型可以对词前后两侧的信息进行充分的利用,以此得到更佳的词分布表征式。
文本表示层在训练时,直接使用预训练好的Bert-base模型,L=12,H=768,A=12,总参数=110M,参数通过预训练初始化。用Bert-base预训练模型进行文本表示,文本表示为[batch_size,sequence_length,embedding_size]的矩阵。文本表示层的输出为[batch_size,sequence_length,768]的矩阵。
全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;将Bert文本表示层的输出结果输入到全连接层,得到大小为[sequence_length,vocab_size]的发射矩阵。
所述CRF层,基于全连接层的输出,通过初始化转移矩阵和损失函数迭代更新,得到每个句子中字符排序的最佳路径。
具体的,全连接层的输出矩阵为P,即字符预测的发射矩阵,Pij代表词xi映射到yj的非归一化概率,P的维度为n*k,k为词向量维度;CRF层的输入对以上全连接层输出P经过Softmax归一化后的目标序列概率分数矩阵;CRF的转移矩阵为A,Aij代表字符yi到yj的转移概率,转移矩阵A需要随机初始化;y0和yn是句子的开始和结束标签,所以A的维度为(k+2)*(k+2)。令|V|=k+2,则A的维度为|V|*|V|;
定义得分函数为
Figure BDA0003780839930000121
利用softmax函数,为每一个正确的字符序列Y定义一个概率值,Yx为所有可能的字符序列:
Figure BDA0003780839930000122
在训练中,最大化p(Y|X)的对数似然得到:
Figure BDA0003780839930000123
s(X,Y)为得分函数:
Figure BDA0003780839930000124
X为输入字符序列;Y为预测的输出字符序列,yi表示输出字符序列Y中的字符;Yx为所有可能的字符序列;/>
Figure BDA0003780839930000131
为Yx中的每一个字符序列;/>
Figure BDA0003780839930000134
为字符yi到yi+1的转移概率。
更具体地,由于语音转写文本中,大多数字符是正确的,不需要被修改,只有少数字符是错误的,在训练过程中错误字符应该更受到重视,并对优化目标做出更多贡献。为了解决语音转写数据样本不均衡的问题,引入焦点损失函数。引入焦点损失后CRF层的损失函数为:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X),
优选的,长度预测器也可以采用焦点损失函数,引入焦点损失后长度预测器的损失函数为:
Figure BDA0003780839930000132
其中,γ是控制惩罚权重的超参数。
优选的,转换矩阵A∈R|V|×|V|是进行依赖关系建模的核心项。通常在端到端的训练过程中,可以将A作为神经网络参数进行学习。然而,|V|通常是非常大的,特别是在文本生成场景,因此在实践中高效地获取A是不可行的。为了克服这一障碍,引入两个低秩神经参数度量:
E1,E2∈R|V|×dm
将满秩转移矩阵A近似为A=E1E2 T,其中,dm<<|V|。相比于现有的算法,本发明的方法不需搜索所有路径,大大提高了求解效率。
优选的,长度预测器和非自回归纠错器串行连接,其总损失函数为:
Loss=αLosslp+βLosscrf
即:
Figure BDA0003780839930000133
其中,α和β为权重系统,用于平衡长度预测和纠错两个任务,本实施例中α和β均取值为0.5。
在训练中需要调控的参数包括句子最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate、迭代次数num_epoch、dropout_rate。其中模型参数max_seq_length=128,train_batch_size=100,learning_rate=5e-4,num_epoch=500,num_layers=5,hidden_size=128,dropout_rate=0.3。
另一方面,还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的语音转写文本纠错模型的训练方法。
本发明的一个具体实施例,如图2所示,为本发明实施例的语音转写文本纠错模型的训练方法示意图,首先通过长度预测任务根据目标文本对原始语音转写文本进行长度标注,通过纠错任务对长度标注后的文本进行目标字符预测,得到纠错后的文本。
综上所述,本发明的实施例提供的语音转写文本纠错模型的训练方法,利用编辑对齐的方式获得长度标注,根据长度标注调整转写文本,采用多任务和非自回归的方式进行训练,提升了效率,可以有效解决语音转写文本纠错率低的问题。
本发明的另一个实施例,如图3所示,提供了一种基于前述的文本纠错模型训练方法的语音转写文本纠错系统,包括文本纠错模块、辅助标注模块和智能语音识别模块;
所述文本纠错模块,采用长度预测器对语音转写文本进行长度预测,得到长度标签;并接收辅助标注模块输出的长度标注后的语音转写文本,利用纠错器进行纠错,得到纠错后的文本;
所述智能语音识别模块,用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本纠错模块。
其中,所述智能语音识别模块采用现有的语音识别设备,本申请不对智能语音识别模块进行限定,凡是能够实现将语音数据流转换为语音转写文本的设备都是可以的。
所述辅助标注模块,用于根据所述文本纠错模块输出的所述长度标签,对语音转写文本进行长度标注,并将长度标注后的语音转写文本输出给文本纠错模块。
本发明的第三个实施例,提供了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;存储器存储有可被处理器执行的指令,所述指令用于被处理器执行以实现前述实施例的人名纠错方法。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种语音转写文本纠错模型的训练方法,其特征在于,包括以下步骤:
获取原始语音转写文本及对应的文本纠错后的目标文本,构建训练样本集合;
计算所述原始语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多条编辑路径;
根据所述多条编辑路径构建编辑对齐字符集合,基于所述编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径,并基于最终编辑路径得到原始语音转写文本中每个字符的长度标注标签;
将所述语音转写文本、长度标注标签和目标文本输入到多任务模型进行预测,经过损失函数迭代更新,得到语音转写文本纠错模型;
所述多任务模型包括长度预测器、长度修正器和纠错器;所述长度预测器用于根据所述语音转写文本和长度标注标签对每个字符的长度进行预测并标注;所述长度修正器用于根据所述长度预测器输出的语音转写文本对应的长度标注,对语音转写本文进行修改,得到与对应的目标文本相同长度的待纠错文本;所述纠错器用于根据目标文本对对应的待纠错文本进行纠错,得到纠错后的文本;
所述纠错器为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;所述文本表示层,用于对所述待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;所述全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;所述CRF层,基于全连接层的输出,通过初始化转移矩阵和损失函数迭代更新,得到每个句子中字符排序的最佳路径;
所述CRF层的损失函数为:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X),
X为输入字符序列;Y为预测的输出字符序列;γ是控制惩罚权重的超参数;Pcrf(Y|X)为输出字符的概率值;
所述长度预测器在训练时采用的损失函数为:
Figure FDA0004216896010000021
其中,wi'为第i个字符wi的长度;
所述长度预测器和纠错器串行连接,其总损失函数为:
Loss=αLosslp+βLosscrf
其中,α和β为权重系数。
2.根据权利要求1所述的语音转写文本纠错模型的训练方法,其特征在于,根据所述长度预测器输出的语音转写文本对应的长度标注,对语音转写本文进行修改,包括:删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以对齐原始语音转写文本与目标文本的长度,m为大于1的整数。
3.根据权利要求1所述的语音转写文本纠错模型的训练方法,其特征在于,所述CRF层的转移矩阵采用两个低秩神经参数度量E1和E2进行降维:
E1,E2∈R|V|×dm
将满秩转移矩阵A转换为A=E1E2 T,其中,dm<<|V|,|V|=k+2,k为词向量维度。
4.根据权利要求1所述的语音转写文本纠错模型的训练方法,其特征在于,所述根据所述多条编辑路径构建编辑对齐字符集合包括:
直接根据所述多条编辑路径构建编辑对齐字符集合;或者,
根据所述多条编辑路径中未经修改的字符个数计算匹配得分,选择匹配得分最高的编辑路径为候选编辑路径,根据候选编辑路径构建编辑对齐字符集合。
5.根据权利要求4所述的语音转写文本纠错模型的训练方法,其特征在于,所述根据多条编辑路径或候选编辑路径构建编辑对齐字符集合包括:
根据编辑路径对原始语音转写文本进行长度标注,得到每个编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。
6.一种语音转写文本纠错系统,其特征在于,包括文本纠错模块、辅助标注模块和智能语音识别模块;
所述文本纠错模块,采用长度预测器对语音转写文本进行长度预测,得到长度标签;并接收辅助标注模块输出的长度标注后的语音转写文本,利用纠错器进行纠错,得到纠错后的文本;
所述智能语音识别模块,用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本纠错模块;
所述辅助标注模块,用于根据所述文本纠错模块输出的所述长度标签,对语音转写文本进行长度标注,并将长度标注后的语音转写文本输出给文本纠错模块;
所述纠错器为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;所述文本表示层,用于对待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;所述全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;所述CRF层,基于全连接层的输出,通过初始化转移矩阵和损失函数迭代更新,得到每个句子中字符排序的最佳路径;
所述CRF层的损失函数为:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X),
X为输入字符序列;Y为预测的输出字符序列;γ是控制惩罚权重的超参数;Pcrf(Y|X)为输出字符的概率值;
所述长度预测器在训练时采用的损失函数为:
Figure FDA0004216896010000041
其中,wi'为第i个字符wi的长度;
所述长度预测器和纠错器串行连接,其总损失函数为:
Loss=αLosslp+βLosscrf
其中,α和β为权重系数。
7.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-5任一项所述的语音转写文本纠错模型的训练方法。
CN202210928970.2A 2022-08-03 2022-08-03 一种语音转写文本纠错模型的训练方法和计算机设备 Active CN115293139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210928970.2A CN115293139B (zh) 2022-08-03 2022-08-03 一种语音转写文本纠错模型的训练方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210928970.2A CN115293139B (zh) 2022-08-03 2022-08-03 一种语音转写文本纠错模型的训练方法和计算机设备

Publications (2)

Publication Number Publication Date
CN115293139A CN115293139A (zh) 2022-11-04
CN115293139B true CN115293139B (zh) 2023-06-09

Family

ID=83826165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210928970.2A Active CN115293139B (zh) 2022-08-03 2022-08-03 一种语音转写文本纠错模型的训练方法和计算机设备

Country Status (1)

Country Link
CN (1) CN115293139B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306620B (zh) * 2023-05-24 2023-09-05 上海蜜度信息技术有限公司 文本处理方法、训练方法、存储介质及电子设备
CN116757184B (zh) * 2023-08-18 2023-10-20 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及系统
CN117409778B (zh) * 2023-12-14 2024-03-19 深圳市友杰智新科技有限公司 解码处理方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681642A (zh) * 2020-06-03 2020-09-18 北京字节跳动网络技术有限公司 语音识别评估方法、装置、存储介质及设备
CN112085219A (zh) * 2020-10-13 2020-12-15 北京百度网讯科技有限公司 模型训练方法、短信审核方法、装置、设备以及存储介质
CN112329476A (zh) * 2020-11-11 2021-02-05 北京京东尚科信息技术有限公司 一种文本纠错方法及装置、设备、存储介质
CN112509562A (zh) * 2020-11-09 2021-03-16 北京有竹居网络技术有限公司 用于文本后处理的方法、装置、电子设备和介质
CN114254643A (zh) * 2021-12-21 2022-03-29 科大讯飞股份有限公司 文本纠错方法、装置、电子设备与存储介质
US11355122B1 (en) * 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
CN114611494A (zh) * 2022-03-17 2022-06-10 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114639386A (zh) * 2022-02-11 2022-06-17 阿里巴巴(中国)有限公司 文本纠错及文本纠错词库构建方法
CN114818668A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种语音转写文本的人名纠错方法、装置和计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681642A (zh) * 2020-06-03 2020-09-18 北京字节跳动网络技术有限公司 语音识别评估方法、装置、存储介质及设备
CN112085219A (zh) * 2020-10-13 2020-12-15 北京百度网讯科技有限公司 模型训练方法、短信审核方法、装置、设备以及存储介质
CN112509562A (zh) * 2020-11-09 2021-03-16 北京有竹居网络技术有限公司 用于文本后处理的方法、装置、电子设备和介质
CN112329476A (zh) * 2020-11-11 2021-02-05 北京京东尚科信息技术有限公司 一种文本纠错方法及装置、设备、存储介质
US11355122B1 (en) * 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
CN114254643A (zh) * 2021-12-21 2022-03-29 科大讯飞股份有限公司 文本纠错方法、装置、电子设备与存储介质
CN114639386A (zh) * 2022-02-11 2022-06-17 阿里巴巴(中国)有限公司 文本纠错及文本纠错词库构建方法
CN114611494A (zh) * 2022-03-17 2022-06-10 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114818668A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种语音转写文本的人名纠错方法、装置和计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition;Yichong Leng 等;https://arxiv.org/abs/2105.03842v1;1-12 *
基于 Soft-Masked BERT的新闻文本纠错研究;史健婷 等;计算机技术与发展;第32卷(第5期);202-207 *
王建新 ; 王子亚 ; 田萱 ; .基于深度学习的自然场景文本检测与识别综述.软件学报.2020,第31卷(第5期),1465−1496. *

Also Published As

Publication number Publication date
CN115293139A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN114611492B (zh) 一种文本顺滑方法、系统和计算机设备
CN110459208A (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
CN114708868A (zh) 一种文本顺滑的语音识别方法、系统及存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN114863948A (zh) 基于CTCAttention架构的参考文本相关发音错误检测模型
CN111737417B (zh) 修正自然语言生成结果的方法和装置
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
JP7218803B2 (ja) モデル学習装置、方法及びプログラム
CN111063335B (zh) 一种基于神经网络的端到端声调识别方法
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
Shao et al. Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition
US20240153508A1 (en) End-to-End Speech Recognition Adapted for Multi-Speaker Applications
CN112530414B (zh) 迭代式大规模发音词典构建方法及装置
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant