CN113948066A - 一种实时转译文本的纠错方法、系统、存储介质和装置 - Google Patents

一种实时转译文本的纠错方法、系统、存储介质和装置 Download PDF

Info

Publication number
CN113948066A
CN113948066A CN202111037395.9A CN202111037395A CN113948066A CN 113948066 A CN113948066 A CN 113948066A CN 202111037395 A CN202111037395 A CN 202111037395A CN 113948066 A CN113948066 A CN 113948066A
Authority
CN
China
Prior art keywords
error correction
text
bert
correction model
gpt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111037395.9A
Other languages
English (en)
Other versions
CN113948066B (zh
Inventor
孙晓兵
齐路
唐会军
刘栓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202111037395.9A priority Critical patent/CN113948066B/zh
Publication of CN113948066A publication Critical patent/CN113948066A/zh
Application granted granted Critical
Publication of CN113948066B publication Critical patent/CN113948066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实时转译文本的纠错方法、系统、存储介质和装置,涉及语音纠错领域。该方法包括:获取实时直播的ASR转译文本,通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本,结合所述第一纠错文本和所述第二纠错文本获得纠错目标文本,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。

Description

一种实时转译文本的纠错方法、系统、存储介质和装置
技术领域
本发明涉及语音纠错领域,尤其涉及一种实时转译文本的纠错方法、系统、存储介质和装置。
背景技术
由于语音信息存储容量大、内容复杂,不易于直接存储、监管和分析,因而使用自动语音识别技术(简称ASR)进行语音-文本转译,对文本进一步存储、监管和分析。
近年来随着网络直播行业的兴起,以语音信号为载体的信息在互联网中大量传播,而当使用ASR进行语音-文本转译时,由于直播环境的良莠不齐和ASR模型容量不足,导致足以改变语义的错误转译信息,如将“我想去大理”的音频信息转译为“我想去打理”的文本信息,因此对ASR转译文本进行纠错成为了ASR识别技术的重要技术瓶颈。
基于传统语言模型的纠错方法是通过探测器探测错误位置,再使用纠错器对错误位置进行纠错。此类算法的缺陷一方面是探测器标识纠错位置有误时,会额外增加错误。另一方面是两段式的纠错方式维护繁琐,尤其是纠错器的候选集构建,直播场景下口语交互复杂,语料众多,ASR转译错误也更难以显式的统计。目前在直播场景下,传统语言模型的ASR纠错方式难以达到使用级别。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种实时转译文本的纠错方法、系统、存储介质和装置。
本发明解决上述技术问题的技术方案如下:
一种实时转译文本的纠错方法,包括:
S1,获取实时直播的ASR转译文本;
S2,通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本;
S3,结合所述第一纠错文本和所述第二纠错文本获得纠错目标文本。
本发明的有益效果是:通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本,通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本,结合第一纠错文本和第二纠错文本,实现转译文本的纠错,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,不需要类似现有技术那样先检测错误位置,再进行纠错,有效减少探测器标识纠错位置有误时的出现额外错误。通过本方案可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。
使用基于输入输出对齐的双向自编码预训练语言模型,即BERT模型,或输入输出非对齐的自回归的预训练语言模型,即GPT模型。BERT和GPT算法只需要进行端到端的微调,并且可以对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
进一步地,所述S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
通过所述转译文本和所述标准文本构成原始语料库;
通过所述原始语料库对所述BERT纠错模型和所述GPT纠错模型进行训练。
采用上述进一步方案的有益效果是:本方案通过构建原始语料库获得模型训练数据。
进一步地,还包括:
通过ASR采集所述原始语音信息的N-best转译文本,结合所述N-best转译文本对应的标准文本来扩充所述原始语料库。
采用上述进一步方案的有益效果是:本方案通过采集所述原始语音信息的N-best转译文本来扩充语料库,实现训练数据增强。
进一步地,通过所述原始语料库对所述BERT纠错模型进行训练,具体包括:
通过对齐算法对所述原始语料库中的所述转译文本和所述标准文本进行对齐处理;
以所述标准文本为模板,通过纠错标识对对齐处理后的所述转译文本进行标记,获得带标记的转译文本序列,将所述带标记的转译文本序列作为所述BERT纠错模型的训练语料;
设置所述BERT纠错模型的训练参数,将所述训练语料作为所述BERT纠错模型的输入,将所述标准文本作为训练目标,对所述BERT纠错模型进行训练,获得训练后的所述BERT纠错模型。
采用上述进一步方案的有益效果是:本方案通过训练过程对BERT纠错模型进行调整,可以实现对ASR转译结果按照不同方式进行纠错,提升BERT纠错模型的可纠正的错误范围和准确率。
进一步地,通过所述原始语料库对所述BERT纠错模型进行训练之前,还包括:
在BERT纠错模型的输出层新增一层全连接网络层;
将所述BERT纠错模型每个token神经元的输出映射为所述BERT预训练模型的词向量维度值;
通过layer normalization对所述BERT纠错模型进行归一化约束处理,获取归一化处理后的所述BERT纠错模型的embedding参数矩阵;
通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述BERT纠错模型的词向量值;
通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新所述BERT纠错模型的embedding参数矩阵。
采用上述进一步方案的有益效果是:本方案通过新增一层全连接网络层、每个token神经元的输出映射为BERT词向量的维度大小,将每个token位置的全连接输出映射到BERT词表大小的向量,过交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,实现BERT纠错模型的参数优化。
进一步地,通过所述原始语料库对所述GPT纠错模型进行训练,具体包括:
根据所述原始语料库中的所述转译文本和所述标准文本构建GPT训练语料;
设置所述GPT纠错模型的训练参数;
将所述GPT训练语料作为所述GPT纠错模型的输入,所述标准文本作为训练目标,对所述GPT纠错模型进行训练,获得训练后的所述GPT纠错模型。
采用上述进一步方案的有益效果是:本方案通过训练过程对GPT纠错模型进行微调,可以实现对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
进一步地,所述S2之前还包括:使用n-best50结果中的句子困惑度Perplexity最低值作为GPT-1模型的最终的解码结果,并使用交叉熵作为最终的优化函数来构建GPT纠错模型。
采用上述进一步方案的有益效果是:本方案通过使用n-best50结果中的句子困惑度Perplexity最低作为GPT-1模型的最终的解码结果,使用交叉熵作为最终的优化函数来实现GPT纠错模型的改进。
本发明解决上述技术问题的另一种技术方案如下:
一种实时转译文本的纠错系统,包括:转译模块、纠错模块和合并模块;
所述转译模块用于获取实时直播的ASR转译文本;
所述纠错模块用于通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本;
所述合并模块用于结合所述第一纠错文本和所述第二纠错文本获得纠错目标文本。
本发明的有益效果是:通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本,通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本,结合第一纠错文本和第二纠错文本,实现转译文本的纠错,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,不需要类似现有技术那样先检测错误位置,再进行纠错,有效减少探测器标识纠错位置有误时,额外错误。通过本方案可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。
使用基于输入输出对齐的双向自编码预训练语言模型,即BERT模型,或输入输出非对齐的自回归的预训练语言模型,即GPT模型。BERT和GPT算法只需要进行端到端的微调,并且可以对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
进一步地,还包括:语料库构建模块,用于收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
通过所述转译文本和所述标准文本构成原始语料库;
通过所述原始语料库对所述BERT纠错模型和所述GPT纠错模型进行训练。
采用上述进一步方案的有益效果是:本方案通过构建原始语料库获得模型训练数据。
进一步地,还包括:语料扩充模块,用于通过ASR采集所述原始语音信息的N-best转译文本,结合所述N-best转译文本对应的标准文本来扩充所述原始语料库。
采用上述进一步方案的有益效果是:本方案通过采集所述原始语音信息的N-best转译文本来扩充语料库,实现训练数据增强。
进一步地,BERT纠错模型训练模块,用于通过对齐算法对所述原始语料库中的所述转译文本和所述标准文本进行对齐处理;
以所述标准文本为模板,通过纠错标识对对齐处理后的所述转译文本进行标记,获得带标记的转译文本序列,将所述带标记的转译文本序列作为所述BERT纠错模型的训练语料;
设置所述BERT纠错模型的训练参数,将所述训练语料作为所述BERT纠错模型的输入,将所述标准文本作为训练目标,对所述BERT纠错模型进行训练,获得训练后的所述BERT纠错模型。
采用上述进一步方案的有益效果是:本方案通过训练过程对BERT纠错模型进行调整,可以实现对ASR转译结果按照不同方式进行纠错,提升BERT纠错模型的可纠正的错误范围和准确率。
进一步地,还包括:参数更新模块,用于在BERT纠错模型的输出层新增一层全连接网络层;
将所述BERT纠错模型每个token神经元的输出映射为所述BERT预训练模型的词向量维度值;
通过layer normalization对所述BERT纠错模型进行归一化约束处理,获取归一化处理后的所述BERT纠错模型的embedding参数矩阵;
通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述BERT纠错模型的词向量值;
通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新所述BERT纠错模型的embedding参数矩阵。
采用上述进一步方案的有益效果是:本方案通过新增一层全连接网络层、每个token神经元的输出映射为BERT词向量的维度大小,将每个token位置的全连接输出映射到BERT词表大小的向量,过交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,实现BERT纠错模型的参数优化。
进一步地,还包括:GPT纠错模型训练模块,用于根据所述原始语料库中的所述转译文本和所述标准文本构建GPT训练语料;
设置所述GPT纠错模型的训练参数;
将所述GPT训练语料作为所述GPT纠错模型的输入,所述标准文本作为训练目标,对所述GPT纠错模型进行训练,获得训练后的所述GPT纠错模型。
采用上述进一步方案的有益效果是:本方案通过训练过程对GPT纠错模型进行微调,可以实现对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
进一步地,还包括:GPT纠错模型构建模块,用于使用n-best50结果中的句子困惑度Perplexity最低值作为GPT-1模型的最终的解码结果,并使用交叉熵作为最终的优化函数来构建GPT纠错模型。
采用上述进一步方案的有益效果是:本方案通过使用n-best50结果中的句子困惑度Perplexity最低作为GPT-1模型的最终的解码结果,使用交叉熵作为最终的优化函数来实现GPT纠错模型的改进。
本发明解决上述技术问题的另一种技术方案如下:
一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一方案所述的一种实时转译文本的纠错方法。
本发明解决上述技术问题的另一种技术方案如下:
一种语音纠错装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如上述任一方案所述的一种实时转译文本的纠错方法。
本发明的有益效果是:通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本,通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本,结合第一纠错文本和第二纠错文本,实现转译文本的纠错,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,不需要类似现有技术那样先检测错误位置,再进行纠错,有效减少探测器标识纠错位置有误时,额外错误。通过本方案可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。
使用基于输入输出对齐的双向自编码预训练语言模型,即BERT模型,或输入输出非对齐的自回归的预训练语言模型,即GPT模型。BERT和GPT算法只需要进行端到端的微调,并且可以对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明的实施例提供的一种实时转译文本的纠错方法的流程示意图;
图2为本发明的实施例提供的一种实时转译文本的纠错系统的结构框图;
图3为本发明的其他实施例提供的转译文本纠错过程的示意图;
图4为本发明的其他实施例提供的Trm结构的示意图;
图5为本发明的其他实施例提供的BERT纠错模型的结构示意图;
图6为本发明的其他实施例提供的GPT纠错模型的结构的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例提供的一种实时转译文本的纠错方法,包括:
S1,获取实时直播的ASR转译文本;
S2,通过训练后的BERT纠错模型对ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对ASR转译文本进行解译,输出第二纠错文本;
在某一实施例中,BERT纠错模型的训练过程可以包括:
使用基于Levenshtein距离的对齐算法对标准文本和转译文本信息进行文本字符串对齐,对齐后得到正确、插入、删除、替换这几种标识,以标准文本为模板,只保留转译文本中的正确和替换标识字符,其他标识的字符替换为标准文本中对应位置字符,构建微调BERT的训练语料。在某一实施例中,例如:标准文本(123456):1 2 3 9 5 6;转译文本(13467):1 3 4 6 7;操作表示:正确(C)、替换(S)、插入(I)、删除(D);对齐算法对齐后:标准文本:1 2 3 9 5 6*;转译文本:1*3 4*6 7;操作表示:C D C S D C I;最终保留的训练文本pair对:1 2 3 9 5 6;1 2 3 4 5 6;C C C S CC;
在某一实施例中,BERT纠错模型的inference结构图,如图5所示,包括输入、embedding、BERT双向编码结构和输出,其中,BERT双向编码结构包括多个Trm,Trm,即transformer block的结构如图4所示。
选择采用双向编码的chinese_base版本的BERT模型作为预训练模型,在12层结束后新增一层全连接网络将BERT模型每个token神经元的输出影射为BERT词向量的维度大小,并应用layer normalization归一化约束后,使用共享BERT预训练模型内部的embedding参数矩阵将每个token位置的全连接输出映射到BERT词表大小的向量,并使用softmax进行概率归一化,并使用交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数。
设置BERT的训练参数,训练数据使用上述步骤构造的转译文本字符序列作为输入,标注的标注文本字符序列作为目标。
将训练完成的BERT纠错模型进行存储。
在某一实施例中,GPT纠错模型的inference结构图如图6所示,包括:输入、embedding、BERT双向编码结构和输出,其中,GPT结构,自回归编码结构Left-to-Right包括:多个Trm,Trm的结构如图4所示。
在某一实施例中,GPT纠错模型的训练过程可以包括:
使用原始转译数据和标注文本构建格式为<转译数据=标注文本>的GPT训练预料。其中,GPT是一种基于大语料训练的pre-train预训练语言模型,具体场景使用时,需要根据任务进行fine-tune,本方案主要包括数据和模型的loss以及inference的时候要和训练构建的数据形式一致。
选择采用自回归编码的HUWEI版本的GPT-1模型作为预训练模型,使用n-best50结果中的句子困惑度Perplexity最低值作为最终的解码结果,并使用交叉熵作为最终的优化函数来构建基于GPT的纠错模型。
设置GPT的训练参数,训练数据使用上文构造的<转译数据=标注文本>序列作为输入,同时该序列也作为目标来计算loss。其中,设置GPT的训练参数可以包括:微调GPT的一些常规参数的设置,比如学习率lr=1e-5、batch_size=32、epoch=5等。
将训练完成的GPT纠错模型进行存储。
在某一实施例中,BERT纠错模型和GPT纠错模型对ASR转译文本进行纠错可以包括:
获取实时的ASR系统转译文本。
根据转译文本构建BERT和GPT的inference文本。BERT inference文本为<转译文本>;GPT inference文本为<转译文本=>;其中,GPT是自回归模型,即只能根据上文来生成下文,在训练时加上“=”,形式为<待纠错文本=正确文本>,在进行inference时,只需要输<前文=>,模型接下来生成的就是纠错后的文本。
BERT和GPT纠错模型分别按照双向编码和自编码方式进行decode,最终输出BERT和GPT的纠错结果文本。
基于BERT纠错模型处理替换错误,基于GPT纠错模型可以处理上述所有的错误类型,但是相对不够稳定,通过结合BERT纠错模型和GPT纠错模型可以实现更加稳定准确的识别所有错误类型。
S3,结合第一纠错文本和第二纠错文本获得纠错目标文本。
通过训练后的BERT纠错模型对ASR转译文本进行解译,输出第一纠错文本,通过训练后的GPT纠错模型对ASR转译文本进行解译,输出第二纠错文本,结合第一纠错文本和第二纠错文本,实现转译文本的纠错,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,不需要类似现有技术那样先检测错误位置,再进行纠错,有效减少探测器标识纠错位置有误时,额外错误。通过本方案可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。
使用基于输入输出对齐的双向自编码预训练语言模型,即BERT模型,或输入输出非对齐的自回归的预训练语言模型,即GPT模型。BERT和GPT算法只需要进行端到端的微调,并且可以对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
优选地,在上述任意实施例中,S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
通过转译文本和标准文本构成原始语料库;
通过原始语料库对BERT纠错模型和GPT纠错模型进行训练。
在某一实施例中,收集直播场景下ASR的转译文本语料和原始语音信息,同时使用原始语音信息进行人工数据标注获得标准文本信息,作为微调ASR纠错模型的原始语料库。
优选地,在上述任意实施例中,还包括:
通过ASR采集原始语音信息的N-best转译文本,结合N-best转译文本对应的标准文本来扩充原始语料库。
在某一实施例中,使用原始语音信息通过ASR系统采集N-best转译文本结语料,对应语音的标准文本信息,扩充语料库,对ASR纠错模型的语料库进行数据增强。
在另一实施例中,采集N-best转译文本结语料可以包括:ASR系统在进行音频到文本的转译过程中,对于一条音频,会给出前top-N-best(简称N-best)个文本候选结果,最终的转译结果是top-N-best中的最优的一个。比如top-50等。
本方案通过采集原始语音信息的N-best转译文本来扩充语料库,实现训练数据增强。
优选地,在上述任意实施例中,通过原始语料库对BERT纠错模型进行训练,具体包括:
通过对齐算法对原始语料库中的转译文本和标准文本进行对齐处理;
以标准文本为模板,通过纠错标识对对齐处理后的转译文本进行标记,获得带标记的转译文本序列,将带标记的转译文本序列作为BERT纠错模型的训练语料;
设置BERT纠错模型的训练参数,将训练语料作为BERT纠错模型的输入,将标准文本作为训练目标,对BERT纠错模型进行训练,获得训练后的BERT纠错模型。
本方案通过训练过程对BERT纠错模型进行调整,可以实现对ASR转译结果按照不同方式进行纠错,提升BERT纠错模型的可纠正的错误范围和准确率。
优选地,在上述任意实施例中,通过原始语料库对BERT纠错模型进行训练之前,还包括:
在BERT纠错模型的输出层新增一层全连接网络层;
将BERT纠错模型每个token神经元的输出映射为BERT预训练模型的词向量维度值;
通过layer normalization对BERT纠错模型进行归一化约束处理,获取归一化处理后的BERT纠错模型的embedding参数矩阵;
通过embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为BERT纠错模型的词向量值;
通过softmax对词向量维度值和词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新BERT纠错模型的embedding参数矩阵。在某一实施例中,如图3所示,转译文本纠错过程可以包括:收集直播场景下ASR的转译文本语料和原始语音信息,通过原始语音信息进过人工标注获得标准文本信息,来构建数据源;通过转移文本和标准文本来对BERT纠错模型和GPT纠错模型进行训练获得微调后BERT纠错模型和GPT纠错模型,通过微调后BERT纠错模型和GPT纠错模型对当前ASR转译文本进行纠错输出BERT输出文本和GPT输出文本,结合BERT输出文本和GPT输出文本获得纠错完成文本,结束纠错过程。
本方案通过新增一层全连接网络层、每个token神经元的输出映射为BERT词向量的维度大小,将每个token位置的全连接输出映射到BERT词表大小的向量,过交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,实现BERT纠错模型的参数优化。
优选地,在上述任意实施例中,通过原始语料库对GPT纠错模型进行训练,具体包括:
根据原始语料库中的转译文本和标准文本构建GPT训练语料;
设置GPT纠错模型的训练参数;
将GPT训练语料作为GPT纠错模型的输入,标准文本作为训练目标,对GPT纠错模型进行训练,获得训练后的GPT纠错模型。
本方案通过训练过程对GPT纠错模型进行微调,可以实现对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
优选地,在上述任意实施例中,S2之前还包括:使用n-best50结果中的句子困惑度Perplexity最低值作为GPT-1模型的最终的解码结果,并使用交叉熵作为最终的优化函数来构建GPT纠错模型。
本方案通过使用n-best50结果中的句子困惑度Perplexity最低作为GPT-1模型的最终的解码结果,使用交叉熵作为最终的优化函数来实现GPT纠错模型的改进。
在某一实施例中,如图2所示,一种实时转译文本的纠错系统,包括:转译模块1101、纠错模块1102和合并模块1103;
转译模块1101用于获取实时直播的ASR转译文本;
纠错模块1102用于通过训练后的BERT纠错模型对ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对ASR转译文本进行解译,输出第二纠错文本;
合并模块1103用于结合第一纠错文本和第二纠错文本获得纠错目标文本。
通过训练后的BERT纠错模型对ASR转译文本进行解译,输出第一纠错文本,通过训练后的GPT纠错模型对ASR转译文本进行解译,输出第二纠错文本,结合第一纠错文本和第二纠错文本,实现转译文本的纠错,通过本方案实现对直播场景下的ASR转译文本内容进行端到端的纠错,不需要类似现有技术那样先检测错误位置,再进行纠错,有效减少探测器标识纠错位置有误时,额外错误。通过本方案可以有效的提升ASR对音频转译文本的字准确率,并可以快速应用到直播领域。
使用基于输入输出对齐的双向自编码预训练语言模型,即BERT模型,或输入输出非对齐的自回归的预训练语言模型,即GPT模型。BERT和GPT算法只需要进行端到端的微调,并且可以对ASR转译结果按照不同方式进行纠错,提升可纠正的错误范围和准确率。
优选地,在上述任意实施例中,还包括:语料库构建模块,用于收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
通过转译文本和标准文本构成原始语料库;
通过原始语料库对BERT纠错模型和GPT纠错模型进行训练。
优选地,在上述任意实施例中,还包括:语料扩充模块,用于通过ASR采集原始语音信息的N-best转译文本,结合N-best转译文本对应的标准文本来扩充原始语料库。
优选地,在上述任意实施例中,BERT纠错模型训练模块,用于通过对齐算法对原始语料库中的转译文本和标准文本进行对齐处理;
以标准文本为模板,通过纠错标识对对齐处理后的转译文本进行标记,获得带标记的转译文本序列,将带标记的转译文本序列作为BERT纠错模型的训练语料;
设置BERT纠错模型的训练参数,将训练语料作为BERT纠错模型的输入,将标准文本作为训练目标,对BERT纠错模型进行训练,获得训练后的BERT纠错模型。
优选地,在上述任意实施例中,参数更新模块,用于在BERT纠错模型的输出层新增一层全连接网络层;
将BERT纠错模型每个token神经元的输出映射为BERT预训练模型的词向量维度值;
通过layer normalization对BERT纠错模型进行归一化约束处理,获取归一化处理后的BERT纠错模型的embedding参数矩阵;
通过embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为BERT纠错模型的词向量值;
通过softmax对词向量维度值和词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新BERT纠错模型的embedding参数矩阵。
优选地,在上述任意实施例中,还包括:GPT纠错模型训练模块,用于根据原始语料库中的转译文本和标准文本构建GPT训练语料;
设置GPT纠错模型的训练参数;
将GPT训练语料作为GPT纠错模型的输入,标准文本作为训练目标,对GPT纠错模型进行训练,获得训练后的GPT纠错模型。
优选地,在上述任意实施例中,还包括:GPT纠错模型构建模块,用于使用n-best50结果中的句子困惑度Perplexity最低值作为GPT-1模型的最终的解码结果,并使用交叉熵作为最终的优化函数来构建GPT纠错模型。
在某一实施例中,一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行如上述任一实施例的一种实时转译文本的纠错方法。
在某一实施例中,一种语音纠错装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序,实现如上述任一实施例的一种实时转译文本的纠错方法。
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种实时转译文本的纠错方法,其特征在于,包括:
S1,获取实时直播的ASR转译文本;
S2,通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本;
S3,结合所述第一纠错文本和所述第二纠错文本获得纠错目标文本。
2.根据权利要求1所述的一种实时转译文本的纠错方法,其特征在于,所述S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
通过所述转译文本和所述标准文本构成原始语料库;
通过所述原始语料库对所述BERT纠错模型和所述GPT纠错模型进行训练。
3.根据权利要求2所述的一种实时转译文本的纠错方法,其特征在于,还包括:
通过ASR采集所述原始语音信息的N-best转译文本,结合所述N-best转译文本对应的标准文本来扩充所述原始语料库。
4.根据权利要求2或3任一项所述的一种实时转译文本的纠错方法,其特征在于,通过所述原始语料库对所述BERT纠错模型进行训练,具体包括:
通过对齐算法对所述原始语料库中的所述转译文本和所述标准文本进行对齐处理;
以所述标准文本为模板,通过纠错标识对对齐处理后的所述转译文本进行标记,获得带标记的转译文本序列,将所述带标记的转译文本序列作为所述BERT纠错模型的训练语料;
设置所述BERT纠错模型的训练参数,将所述训练语料作为所述BERT纠错模型的输入,将所述标准文本作为训练目标,对所述BERT纠错模型进行训练,获得训练后的所述BERT纠错模型。
5.根据权利要求4所述的一种实时转译文本的纠错方法,其特征在于,通过所述原始语料库对所述BERT纠错模型进行训练之前,还包括:
在BERT纠错模型的输出层新增一层全连接网络层;
将所述BERT纠错模型每个token神经元的输出映射为所述BERT预训练模型的词向量维度值;
通过layer normalization对所述BERT纠错模型进行归一化约束处理,获取归一化处理后的所述BERT纠错模型的embedding参数矩阵;
通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述BERT纠错模型的词向量值;
通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新所述BERT纠错模型的embedding参数矩阵。
6.根据权利要求2或3任一项所述的一种实时转译文本的纠错方法,其特征在于,通过所述原始语料库对所述GPT纠错模型进行训练,具体包括:
根据所述原始语料库中的所述转译文本和所述标准文本构建GPT训练语料;
设置所述GPT纠错模型的训练参数;
将所述GPT训练语料作为所述GPT纠错模型的输入,所述标准文本作为训练目标,对所述GPT纠错模型进行训练,获得训练后的所述GPT纠错模型。
7.根据权利要求1所述的一种实时转译文本的纠错方法,其特征在于,所述S2之前还包括:
使用n-best50结果中的句子困惑度Perplexity最低值作为GPT-1模型的最终的解码结果,并使用交叉熵作为最终的优化函数来构建GPT纠错模型。
8.一种实时转译文本的纠错系统,其特征在于,包括:转译模块、纠错模块和合并模块;
所述转译模块用于获取实时直播的ASR转译文本;
所述纠错模块用于通过训练后的BERT纠错模型对所述ASR转译文本进行解译,输出第一纠错文本;通过训练后的GPT纠错模型对所述ASR转译文本进行解译,输出第二纠错文本;
所述合并模块用于结合所述第一纠错文本和所述第二纠错文本获得纠错目标文本。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至7中任一项所述的一种实时转译文本的纠错方法。
10.一种语音纠错装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权利要求1至7中任一项所述的一种实时转译文本的纠错方法。
CN202111037395.9A 2021-09-06 2021-09-06 一种实时转译文本的纠错方法、系统、存储介质和装置 Active CN113948066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111037395.9A CN113948066B (zh) 2021-09-06 2021-09-06 一种实时转译文本的纠错方法、系统、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037395.9A CN113948066B (zh) 2021-09-06 2021-09-06 一种实时转译文本的纠错方法、系统、存储介质和装置

Publications (2)

Publication Number Publication Date
CN113948066A true CN113948066A (zh) 2022-01-18
CN113948066B CN113948066B (zh) 2022-07-12

Family

ID=79328082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111037395.9A Active CN113948066B (zh) 2021-09-06 2021-09-06 一种实时转译文本的纠错方法、系统、存储介质和装置

Country Status (1)

Country Link
CN (1) CN113948066B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质
CN116189664A (zh) * 2022-12-12 2023-05-30 北京数美时代科技有限公司 Asr文本纠错训练样本集的构造方法、系统和电子设备
CN117057321A (zh) * 2023-10-12 2023-11-14 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质
CN117174084A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111402894A (zh) * 2020-03-25 2020-07-10 北京声智科技有限公司 语音识别方法及电子设备
CN111507092A (zh) * 2019-01-29 2020-08-07 北京博智天下信息技术有限公司 一种基于cnn与bert模型的英文语法纠错方法
US20210142789A1 (en) * 2019-11-08 2021-05-13 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
CN113270103A (zh) * 2021-05-27 2021-08-17 平安普惠企业管理有限公司 基于语义增强的智能语音对话方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN111507092A (zh) * 2019-01-29 2020-08-07 北京博智天下信息技术有限公司 一种基于cnn与bert模型的英文语法纠错方法
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
US20210142789A1 (en) * 2019-11-08 2021-05-13 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
CN111402894A (zh) * 2020-03-25 2020-07-10 北京声智科技有限公司 语音识别方法及电子设备
CN113270103A (zh) * 2021-05-27 2021-08-17 平安普惠企业管理有限公司 基于语义增强的智能语音对话方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUANBIN QU ET AL.: "《A Text Generation and Prediction System: Pre-training on New Corpora Using BERT and GPT-2》", 《2020 IEEE 10TH INTERNATIONAL CONFERENCE ON ELECTRONICS INFORMATION AND EMERGENCY COMMUNICATION (ICEIEC)》 *
陈德光等: "《自然语言处理预训练技术综述》", 《计算机科学与探索》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质
CN116189664A (zh) * 2022-12-12 2023-05-30 北京数美时代科技有限公司 Asr文本纠错训练样本集的构造方法、系统和电子设备
CN116189664B (zh) * 2022-12-12 2023-07-28 北京数美时代科技有限公司 Asr文本纠错训练样本集的构造方法、系统和电子设备
CN117057321A (zh) * 2023-10-12 2023-11-14 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质
CN117057321B (zh) * 2023-10-12 2024-01-05 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质
CN117174084A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113948066B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN113948066B (zh) 一种实时转译文本的纠错方法、系统、存储介质和装置
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110210043B (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN110837733A (zh) 自重建方式的语言模型训练方法、系统及计算机可读介质
CN110930993A (zh) 特定领域语言模型生成方法及语音数据标注系统
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
CN115293138A (zh) 一种文本纠错方法及计算机设备
CN114528394B (zh) 一种基于掩码语言模型的文本三元组提取方法及装置
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN113539241B (zh) 语音识别校正方法及其相应的装置、设备、介质
CN113553844B (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant