CN115293138A - 一种文本纠错方法及计算机设备 - Google Patents

一种文本纠错方法及计算机设备 Download PDF

Info

Publication number
CN115293138A
CN115293138A CN202210927490.4A CN202210927490A CN115293138A CN 115293138 A CN115293138 A CN 115293138A CN 202210927490 A CN202210927490 A CN 202210927490A CN 115293138 A CN115293138 A CN 115293138A
Authority
CN
China
Prior art keywords
text
length
error correction
editing
voice transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210927490.4A
Other languages
English (en)
Other versions
CN115293138B (zh
Inventor
陈玮
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202210927490.4A priority Critical patent/CN115293138B/zh
Publication of CN115293138A publication Critical patent/CN115293138A/zh
Application granted granted Critical
Publication of CN115293138B publication Critical patent/CN115293138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种文本纠错方法及计算机设备,属于语音识别技术领域;本发明的文本纠错方法包括以下步骤:获取语音识别后的语音转写文本;采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测,得到所述语音转写文本对应的长度标签;根据所述长度标签对所述语音转写文本进行修改,得到预测长度的待纠错文本;将所述待纠错文本输入预先训练的文本纠错模型进行纠错,得到纠错后的文本。本发明解决了现有技术中文本纠错方法在纠错时无法准确定位到错词进行修改,导致针对语音转写文本的纠错准确性不高的问题。

Description

一种文本纠错方法及计算机设备
技术领域
本发明涉及语音识别技术领域,特别涉及一种文本纠错方法及计算机设备。
背景技术
文本纠错是自然语言处理中的一个基础问题,已经被广泛运用于键盘输入法、文档编辑、搜索引擎以及语音识别等领域。而针对不同的应用采取不同的纠错方法往往能够得到更好的纠错效果。对于语音转写文本中的错误,其大多属于口语化、发音模糊不清而产生的音似错误,而且语音转写文本的错误分布比较稀疏,在纠错时需要精准定位到错词进行修改,而避免对正确的词进行修改,这导致常见的拼写纠错算法和语法纠错算法在语音转写文本上的效果并不理想。因此,设计专门的方案对语音转写文本进行纠错成为一项急需解决的难题。
发明内容
鉴于上述的分析,本发明旨在提供一种文本纠错方法和计算机设备;解决现有技术中的文本纠错方法在纠错时无法准确定位到错词进行修改,导致针对语音转写文本的纠错准确性不高的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种文本纠错方法,包括以下步骤:获取语音识别后的语音转写文本;
采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测,得到所述语音转写文本对应的长度标签;
根据所述长度标签对所述语音转写文本进行修改,得到预测长度的待纠错文本;
将预测长度的所述待纠错文本输入预先训练的文本纠错模型进行纠错,得到纠错后的文本。
进一步的,所述预先训练的长度预测模型采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到;
所述长度标签为经过所述长度预测模型预测的所述语音转写文本中每个单字符对应的预测字符的长度。
进一步的,所述带有长度标注的训练样本集为根据目标文本对对应的原始文本进行长度标注后构建得到的训练样本集;所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。
进一步的,构建所述训练样本集,包括:对获取的多个原始语音转写文本进行校对,得到与所述语音转写文本对应的目标文本;
计算所述语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多个编辑路径;并根据每个路径中未经修改的字符个数计算各个编辑路径的匹配得分,选择匹配得分最高的路径为候选编辑路径;
根据所述候选编辑路径构建编辑对齐字符集合;并基于所述编辑对齐字符集合中的每个字符在预先构建的训练词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径;
根据所述最终编辑路径得到原始语音转写文本中每个字符对应目标文本的长度标注标签;
基于所述原始语音转写文本、长度标注标签及目标文本,构建得到训练样本集合。
进一步的,所述文本纠错模型通过下述方法训练得到:根据所述长度预测模型在训练过程中输出的长度标签,对原始语音转写文本进行修改,得到与对应的目标文本相同长度的待纠错文本;利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练,经过损失函数迭代更新,得到文本纠错模型;
所述文本纠错模型用于根据预先构建的词表对修改后的待纠错文本进行纠错,得到纠错后的文本。
进一步的,所述文本纠错模型为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;
所述文本表示层,用于对待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;
所述全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;
所述CRF层,基于全连接层的输出,通过初始化转移矩阵,得到每个句子中字符排序的最佳路径。
进一步的,通过下列损失函数进行迭代更新,得到文本纠错模型:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X);
其中γ为控制惩罚权重的超参数;Pcrf(Y|X)为输出字符的概率值。
进一步的,所述根据长度标签对所述语音转写文本进行修改包括:删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以得到预测长度的语音转写文本,m为大于1的整数。
进一步的,所述根据所述候选编辑路径构建编辑对齐字符集合包括:
根据所述候选编辑路径对原始语音转写文本进行长度标注,得到每个编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。
另一方面,还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的文本纠错方法。
本技术方案的有益效果:
1、本发明通过文本长度标注和文本纠错两个任务,采用长度预测模型对语音转写文本进行长度预测,将语音转写文本和目标文本进行编辑对齐和长度标注,并基于编辑对齐和长度标注后的文本进行纠错;该方法可以在纠错时精准定位到错词进行修改,避免正确的词被误纠,有效解决现有纠错模型在语音转写文本上应用效果较差的问题;
2、本发明的文本纠错方法为通过非自回归的方式进行预测的方法,提升了预测的效率,且有效地缓解了自回归解码模型由于循环递归解码导致的错误传递、重复解码等问题,大大提高了纠错后文本相对纠错前文本的忠诚度;
3、本发明的纠错模型在训练过程中引入焦点损失缓解不同标签训练样本不均衡和不同标签难易程度不同导致的训练误差,并结合长度标签预测任务给出了一种带加权因子的多任务损失函数,有效地提升了模型的拟合程度和泛化能力。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的文本纠错方法流程图。
图2为本发明实施例的文本纠错方法流程示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种文本纠错方法,如图1所示,包括以下步骤:
步骤S1:获取语音识别后的语音转写文本;
具体的,本发明的文本纠错方法适用于任意方式得到的语音转写文本;优选的,本实施例采用基于wav2vec2.0模型的参数微调方法进行语音识别,所述wav2vec2.0模型包括特征提取层、上下文编码层和输出层三部分;所述特征提取层使用多层卷积网络实现语音帧级别的特征提取;所述上下文编码层用于提取帧间的关联特征,所述输出层使用预训练的语言模型输出语音识别后的语音转写文本。
步骤S2:采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测,得到所述语音转写文本对应的长度标签;
具体的,预先训练的长度预测模型为采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到的长度预测模型;
所述长度标签为经过所述长度预测模型预测的所述语音转写文本中每个单字符对应的正确字符的长度。
带有长度标注的训练样本集为根据原始文本对应的目标文本对所述原始文本进行长度标注后构建得到的训练样本集,所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。
其中,构建训练样本集,包括:
对通过语音识别系统输出的语音转写文本进行校对,得到与语音转写文本对应的目标文本;
计算所述语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多个编辑路径;
根据每个路径中未经修改的字符个数计算各个编辑路径的匹配得分,选择匹配得分最高的路径为候选编辑路径;
根据所述候选编辑路径构建编辑对齐字符集合;基于所述编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径;
基于所述最终编辑路径得到原始语音转写文本中每个字符对应目标文本的长度标注标签;
基于所述原始语音转写文本、长度标签及目标文本,构建得到训练样本集合。
另外,在获取目标文本后还包括构建词表,即,对训练样本集合中的所有目标文本进行分词操作,基于分词后得到的长度不小于2的所有词构建词表,词表中还包括每个词在词表中出现的频率。
进一步的,编辑距离表示将语音转写文本转换为目标文本所需的最少编辑操作次数,用来度量两个句子的不相似性。有效的编辑操作包括字符插入、删除和替换。
优选的,定义语音转写文本为a=(a1,a2,...,ai...aM),目标文本为b=(b1,b2,...bj...bN),其中M和N为语音转写文本和目标文本的长度。将两个字符串a、b的编辑距离表示为leva,b(M,N),则leva,b(M,N)可用如下的数学语言描述:
Figure BDA0003780269250000071
leva,b(i,j)表示a中前i个字符和b中前j个字符之间的编辑距离,其中,0≤i≤M,0≤j≤N。
当min(i,j)=0时,leva,b(M,N)对应着字符串a中前i个字符和字符串b中前j个字符,此时的i,j有一个值为0,表示字符串a和b中有一个为空串,那么从a转换到b只需要进行max(i,j)次单字符编辑操作即可,所以字符串a和b之间的编辑距离为max(i,j),即i,j中的最大值。
当min(i,j)≠0的时候,leva,b(M,N)为如下三种情况的最小值:
(1)leva,b(i-1,j)+1表示删除ai
(2)leva,b(i,j-1)+1表示插入bj
(3)
Figure BDA0003780269250000072
表示替换bj
Figure BDA0003780269250000073
为一个指示函数,表示当ai=bj时取0;当ai≠bj时,其值为1。
作为一个具体的实施例,若语音转写文本a为“天天更加好”,目标文本b为“明天会更好”,则在纠错过程中,需在第一个“天”前面插入“明”,将第二个“天”替换为“会”,将“加”删除,共进行了3次编辑操作,则a和b的编辑距离为3。
进一步的,根据路径中未经修改的字符个数计算匹配得分,选择匹配得分最高的路径为候选编辑路径。
具体地,匹配得分为路径中未经修改的字符个数。
例如,语音转写文本为“天天更加好”,目标文本为“明天会更好”。编辑路径1的结果为:
Figure BDA0003780269250000081
编辑路径2的结果为:
Figure BDA0003780269250000082
编辑路径3的结果为:
Source
Target
编辑路径1中,有3个字符未经修改;编辑路径2中,有3个字符未经修改;编辑路径3中,有2个字符未经修改。则3条路径的匹配得分分别为3、3、2。则保留编辑路径1和编辑路径2为候选编辑路径。
进一步的,根据候选编辑路径对原始语音转写文本进行长度标注,得到每个编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合,基于编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径,并基于最终编辑路径确定原始语音转写文本中每个字符的长度标注标签。
作为一个具体的实施例,若语音转写文本为“天天更加好”,目标文本为“明天会更好”。编辑路径1对应的长度标注结果为:
Figure BDA0003780269250000091
编辑路径2对应的长度标注结果有两种,第一种结果为:
Figure BDA0003780269250000092
第二种结果为:
Figure BDA0003780269250000093
假设在预先构建的词表中,“明天”的频率为90,“天会”的频率为20,“会更”的频率为70,其余单个字符的频率为0,则编辑路径1的频率得分为90+0+0+0+0=90,编辑路径2的第一种结果的频率得分为0+20+0+0+0=20,编辑路径2的第二种结果的频率得分为0+0+70+0+0=70。编辑路径1的频率得分最高,因此选择编辑路径1的长度标注方式。得到语音转写文本“天天更加好”的长度标签为“1、1、2、0、1”。
进一步的,在训练时,将训练样本集合中的语音转写文本和标注标签输入长度预测模型,对语音转写文本中每个单字符的长度进行预测并标注;
优选的,长度预测模型包括嵌入层、编码层和输出层;
所述嵌入层,用于将输入的所述语音转写文本表示为包括词向量、位置嵌入和文段分割嵌入的嵌入层隐向量;抽象形式化为H0=E0+P0+S0
所述编码层,用于根据所述嵌入层隐向量经过编码得到具有上下文表示的编码层隐向量;Bert的编码层实际是Transformer Encoder的堆叠,用于获取上下文信息。Bert-base模型采用L=12层的Transformer Encoder堆叠。抽象化形式为Hl=Transformer_block(Hl-1),l∈[1,L]。
所述输出层,用于根据所述编码层隐向量经过线性变换,输出预测得到的每个字符的长度标签及所述长度标签对应的预测概率。
优选的,将文本中第i个字符wi的长度标注为wi',模型输出wi的预测概率为:
Figure BDA0003780269250000101
其中,
Figure BDA0003780269250000102
为层内的参数,W为神经元的权重,c为偏置。
Bert长度预测器在训练时,直接使用预训练好的Bert-base模型,L=12,H=768,A=12,总参数=110M,参数通过预训练初始化。计算预测概率的线性层的参数则随机初始化。
具体地,Bert长度预测器对语音转写文本中每个字符的长度进行预测,输出相应预测长度的概率值:p(w=wi'|θ);
将长度预测器的损失函数定义为:
Figure BDA0003780269250000103
其中,θ为模型中所有参数的符号表示。
经过损失函数的迭代更新,得到收敛的长度预测模型。
在使用长度预测模型进行长度预测时,将语音转写文本输入长度预测模型,可自动输出语音转写文本的每个单字符对应的长度标签。
步骤S3:根据所述长度标签对所述语音转写文本进行修改,得到预测长度的待纠错文本;
具体的,根据长度预测模型输出的语音转写文本对应的长度标签,对语音转写本文进行修改;即,根据长度标记调整或填充待纠错文本,包括:删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以得到预测长度的语音转写文本,m为大于1的整数。
例如,若语音转写文本为“天天更加好”,经长度预测模型预测得到的长度标签为“2、1、1、0、1”,则将语音转写文本修改为“天天天更好”,如下表所示。
Figure BDA0003780269250000111
优选的,在对长度标注后的语音转写本文进行修改后还可以对文本进行符号的过滤,并构成字表,将每个句子中的字进行数字化;将字符和长度标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾,分别表示文本序列的开始和结束。
步骤S4:将所述待纠错文本输入预先训练的文本纠错模型进行纠错,得到纠错后的文本;
文本纠错模型用于根据预先构建的词表对待纠错文本进行纠错,得到纠错后的文本;
具体的,初始化预先训练的文本纠错模型,并加载词表,所述词表接到输出层的CRF之后;使用文本纠错模型对修改后的待纠错文本依次进行BERT编码和CRF层解码,得到解码输出;根据解码输出和词表的映射关系得到纠错后文本;优选的,可以对纠错后的文本进行后处理,去掉特殊标记,添加标点等,得到最终的可读性更强的纠错后的文本。
本实施例采用Bert-base模型自带的词表,包含了几乎所有的中文字和特殊符号、英文字母等。在应用中,也可以根据具体的应用领域,构建领域词表,以进一步提高文本纠错的准确性。
优选的,文本纠错模型通过下述方法训练得到:根据所述长度预测模型在训练过程中输出的长度标签,对原始语音转写文本进行修改,得到与对应的目标文本相同长度的待纠错文本;利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练,经过损失函数迭代更新,得到文本纠错模型。
具体的,文本纠错模型为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;其中,
文本表示层,用于对待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;
具体的,对于一个经过长度标注并进行修改后的中文文本序列,将其表示为F={f1,f2,f3,..,fn},这个输入序列对应到Bert模型中会分别生成词向量、位置嵌入矩阵和文段分割嵌入矩阵。将这三个词嵌入组合起来就成为了文本表示层输出En*k,En*k为一个3维的矩阵,这个序列包含每个token的字符信息、句子信息以及它们的位置信息。与其他的语言模型相比较,Bert预训练语言模型可以对词前后两侧的信息进行充分的利用,以此得到更佳的词分布表征式。
文本表示层在训练时,直接使用预训练好的Bert-base模型,L=12,H=768,A=12,总参数=110M,参数通过预训练初始化。用Bert-base预训练模型进行文本表示,文本表示为[batch_size,sequence_length,embedding_size]的矩阵。文本表示层的输出为[batch_size,sequence_length,768]的矩阵。
全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;将Bert文本表示层的输出结果输入到全连接层,得到大小为[sequence_length,vocab_size]的发射矩阵。
所述CRF层,基于全连接层的输出,通过初始化转移矩阵和损失函数迭代更新,得到每个句子中字符排序的最佳路径。
具体的,全连接层的输出矩阵为P,即字符预测的发射矩阵,Pij代表词xi映射到yj的非归一化概率,P的维度为n*k,k为词向量维度;CRF层的输入对以上全连接层输出P经过Softmax归一化后的目标序列概率分数矩阵;CRF的转移矩阵为A,Aij代表字符yi到yj的转移概率,转移矩阵A需要随机初始化;y0和yn是句子的开始和结束标签,所以A的维度为(k+2)*(k+2)。令|V|=k+2,则A的维度为|V|*|V|;
定义得分函数为
Figure BDA0003780269250000131
利用softmax函数,为每一个正确的字符序列Y定义一个概率值,Yx为所有可能的字符序列:
Figure BDA0003780269250000132
在训练中,最大化p(Y|X)的对数似然得到:
Figure BDA0003780269250000133
s(X,Y)为得分函数:
Figure BDA0003780269250000134
X为输入字符序列;Y为预测的输出字符序列,yi表示输出字符序列Y中的字符;Yx为所有可能的字符序列;
Figure BDA0003780269250000135
为Yx中的每一个字符序列;
Figure BDA0003780269250000136
为字符yi到yi+1的转移概率。
更具体地,由于语音转写文本中,大多数字符是正确的,不需要被修改,只有少数字符是错误的,在训练过程中错误字符应该更受到重视,并对优化目标做出更多贡献。为了解决语音转写数据样本不均衡的问题,在训练中,引入焦点损失函数。引入焦点损失后CRF层的损失函数为:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X),
优选的,长度预测器也可以采用焦点损失函数,引入焦点损失后长度预测器的损失函数为:
Figure BDA0003780269250000141
其中,γ是控制惩罚权重的超参数。
优选的,转换矩阵A∈R|V|×|V|是进行依赖关系建模的核心项。通常在端到端的训练过程中,可以将A作为神经网络参数进行学习。然而,|V|通常是非常大的,特别是在文本生成场景,因此在实践中高效地获取A是不可行的。为了克服这一障碍,引入两个低秩神经参数度量:
E1,E2∈R|V|×dm
将满秩转移矩阵A近似为A=E1E2 T,其中,dm<<|V|。相比于现有的算法,本发明的方法不需搜索所有路径,大大提高了求解效率。
优选的,长度预测器和非自回归纠错器串行连接,其总损失函数为:
Loss=αLosslp+βLosscrf
即:
Figure BDA0003780269250000142
其中,α和β为权重系统,用于平衡长度预测和纠错两个任务,本实施例中α和β均取值为0.5。
在训练中需要调控的参数包括句子最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate、迭代次数num_epoch、dropout_rate。其中模型参数max_seq_length=128,train_batch_size=100,learning_rate=5e-4,num_epoch=500,num_layers=5,hidden_size=128,dropout_rate=0.3。
另一方面,还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的文本纠错方法。
本发明的一个具体实施例,如图2所示,为本发明实施例的文本纠错方法示意图,首先通过长度预测任务的原始语音转写文本进行长度标注,再通过纠错任务对长度标注后的文本进行字符预测,得到纠错后的文本。
综上所述,本发明的实施例提供的文本纠错方法,利用编辑对齐的方式获得长度标注,根据长度标注调整转写文本,采用多任务和非自回归的方式进行训练,提升了效率,可以有效解决语音转写文本纠错率低的问题。
本发明的另一个实施例,提供了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;存储器存储有可被处理器执行的指令,所述指令用于被处理器执行以实现前述实施例的文本纠错方法。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文本纠错方法,其特征在于,包括以下步骤:
获取语音识别后的语音转写文本;
采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测,得到所述语音转写文本对应的长度标签;
根据所述长度标签对所述语音转写文本进行修改,得到预测长度的待纠错文本;
将所述待纠错文本输入预先训练的文本纠错模型进行纠错,得到纠错后的文本。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述预先训练的长度预测模型采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到;
所述长度标签为经过所述长度预测模型预测的所述语音转写文本中每个单字符对应的预测字符的长度。
3.根据权利要求2所述的文本纠错方法,其特征在于,所述带有长度标注的训练样本集为根据目标文本对对应的原始文本进行长度标注后构建得到的训练样本集;所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。
4.根据权利要求3所述的文本纠错方法,其特征在于,构建所述训练样本集,包括:
对获取的多个原始语音转写文本进行校对,得到与所述语音转写文本对应的目标文本;
计算所述语音转写文本与目标文本的编辑距离,基于最小编辑距离得到多个编辑路径;并根据每个路径中未经修改的字符个数计算各个编辑路径的匹配得分,选择匹配得分最高的路径为候选编辑路径;
根据所述候选编辑路径构建编辑对齐字符集合;并基于所述编辑对齐字符集合中的每个字符在预先构建的训练词表中出现的频率,计算各个候选编辑路径的频率得分,选择得分最高的候选编辑路径作为最终编辑路径;
根据所述最终编辑路径得到原始语音转写文本中每个字符对应目标文本的长度标注标签;
基于所述原始语音转写文本、长度标注标签及目标文本,构建得到训练样本集合。
5.根据权利要求2所述的文本纠错方法,其特征在于,所述文本纠错模型通过下述方法训练得到:根据所述长度预测模型在训练过程中输出的长度标签,对原始语音转写文本进行修改,得到与对应的目标文本相同长度的待纠错文本;利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练,经过损失函数迭代更新,得到文本纠错模型;
所述文本纠错模型用于根据预先构建的词表对修改后的待纠错文本进行纠错,得到纠错后的文本。
6.根据权利要求5所述的文本纠错方法,其特征在于,所述文本纠错模型为基于Bert的非自回归纠错模型,包括文本表示层、全连接层和CRF层;
所述文本表示层,用于对待纠错文本进行文本表示,得到具有上下文信息的n*k矩阵,其中n为句子的最大长度,k为词向量维度;
所述全连接层,用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布,得到字符预测的发射矩阵;
所述CRF层,基于全连接层的输出,通过初始化转移矩阵,得到每个句子中字符排序的最佳路径。
7.根据权利要求5所述的文本纠错方法,其特征在于,利用下列损失函数进行迭代更新,得到文本纠错模型:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X);
其中γ为控制惩罚权重的超参数;Pcrf(Y|X)为输出字符的概率值。
8.根据权利要求1所述的文本纠错方法,其特征在于,所述根据长度标签对所述语音转写文本进行修改包括:删除长度为0的字符,在长度为m的字符相邻位置插入m-1个相同的字符,以得到预测长度的语音转写文本,m为大于1的整数。
9.根据权利要求4所述的文本纠错方法,其特征在于,所述根据所述候选编辑路径构建编辑对齐字符集合包括:
根据所述候选编辑路径对原始语音转写文本进行长度标注,得到每个编辑路径对应的标注结果;根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。
10.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-9任一项所述的文本纠错方法。
CN202210927490.4A 2022-08-03 2022-08-03 一种文本纠错方法及计算机设备 Active CN115293138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210927490.4A CN115293138B (zh) 2022-08-03 2022-08-03 一种文本纠错方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210927490.4A CN115293138B (zh) 2022-08-03 2022-08-03 一种文本纠错方法及计算机设备

Publications (2)

Publication Number Publication Date
CN115293138A true CN115293138A (zh) 2022-11-04
CN115293138B CN115293138B (zh) 2023-06-09

Family

ID=83825785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210927490.4A Active CN115293138B (zh) 2022-08-03 2022-08-03 一种文本纠错方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115293138B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862674A (zh) * 2023-02-21 2023-03-28 山东山大鸥玛软件股份有限公司 英语口语评测的语音识别及纠错方法、系统、设备及介质
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN116136957A (zh) * 2023-04-18 2023-05-19 之江实验室 一种基于意图一致性的文本纠错方法、装置和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN108845979A (zh) * 2018-05-25 2018-11-20 科大讯飞股份有限公司 一种语音转写方法、装置、设备及可读存储介质
CN112818086A (zh) * 2021-02-04 2021-05-18 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113569021A (zh) * 2021-06-29 2021-10-29 杭州摸象大数据科技有限公司 用户分类的方法、计算机设备和可读存储介质
CN113901797A (zh) * 2021-10-18 2022-01-07 广东博智林机器人有限公司 文本纠错方法、装置、设备及存储介质
CN114118064A (zh) * 2020-08-27 2022-03-01 海信视像科技股份有限公司 显示设备、文本纠错方法及服务器
CN114339126A (zh) * 2021-12-29 2022-04-12 苏州科达特种视讯有限公司 视频会议中的字幕显示方法、设备及存储介质
CN114461816A (zh) * 2022-01-27 2022-05-10 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法
CN114639386A (zh) * 2022-02-11 2022-06-17 阿里巴巴(中国)有限公司 文本纠错及文本纠错词库构建方法
CN114818669A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种人名纠错模型的构建方法和计算机设备
CN114818668A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种语音转写文本的人名纠错方法、装置和计算机设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN108845979A (zh) * 2018-05-25 2018-11-20 科大讯飞股份有限公司 一种语音转写方法、装置、设备及可读存储介质
CN114118064A (zh) * 2020-08-27 2022-03-01 海信视像科技股份有限公司 显示设备、文本纠错方法及服务器
CN112818086A (zh) * 2021-02-04 2021-05-18 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN113569021A (zh) * 2021-06-29 2021-10-29 杭州摸象大数据科技有限公司 用户分类的方法、计算机设备和可读存储介质
CN113486175A (zh) * 2021-07-08 2021-10-08 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN113901797A (zh) * 2021-10-18 2022-01-07 广东博智林机器人有限公司 文本纠错方法、装置、设备及存储介质
CN114339126A (zh) * 2021-12-29 2022-04-12 苏州科达特种视讯有限公司 视频会议中的字幕显示方法、设备及存储介质
CN114461816A (zh) * 2022-01-27 2022-05-10 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法
CN114639386A (zh) * 2022-02-11 2022-06-17 阿里巴巴(中国)有限公司 文本纠错及文本纠错词库构建方法
CN114818669A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种人名纠错模型的构建方法和计算机设备
CN114818668A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种语音转写文本的人名纠错方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115859983B (zh) * 2022-12-14 2023-08-25 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115862674A (zh) * 2023-02-21 2023-03-28 山东山大鸥玛软件股份有限公司 英语口语评测的语音识别及纠错方法、系统、设备及介质
CN116136957A (zh) * 2023-04-18 2023-05-19 之江实验室 一种基于意图一致性的文本纠错方法、装置和介质
CN116136957B (zh) * 2023-04-18 2023-07-07 之江实验室 一种基于意图一致性的文本纠错方法、装置和介质

Also Published As

Publication number Publication date
CN115293138B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN111480197A (zh) 语音识别系统
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN114611492B (zh) 一种文本顺滑方法、系统和计算机设备
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
CN114708868A (zh) 一种文本顺滑的语音识别方法、系统及存储介质
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN116822464A (zh) 一种文本纠错方法、系统、设备及存储介质
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
CN115270771A (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
JP7218803B2 (ja) モデル学習装置、方法及びプログラム
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN111597831B (zh) 混合深度学习网络与单词生成统计学指导的机器翻译方法
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant