CN111310441A - 基于bert的语音识别后文本修正方法、装置、终端及介质 - Google Patents
基于bert的语音识别后文本修正方法、装置、终端及介质 Download PDFInfo
- Publication number
- CN111310441A CN111310441A CN202010064914.XA CN202010064914A CN111310441A CN 111310441 A CN111310441 A CN 111310441A CN 202010064914 A CN202010064914 A CN 202010064914A CN 111310441 A CN111310441 A CN 111310441A
- Authority
- CN
- China
- Prior art keywords
- text
- bert
- string
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012937 correction Methods 0.000 title claims description 40
- 238000013518 transcription Methods 0.000 title description 2
- 230000035897 transcription Effects 0.000 title description 2
- 238000004590 computer program Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供基于BERT的语音识别后文本修正方法、装置、终端及介质,其包括:采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;将修正后的文本字串输入预训练的BERT网络模型中,并通过BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。本发明通过使用拼音和噪声拼音作为输入的一部分,提升模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有很好的识别效果;基于BERT模型可以处理比传统的N‑gram算法或RNN类深度网络更长的序列预测任务,能处理最大序列长度为128的句子,虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率极高。
Description
技术领域
本发明涉及文本修正技术领域,特别是涉及基于BERT的语音识别后文本修正方法、装置、终端及介质。
背景技术
目前的语音识别算法能够帮助我们自动识别语音,并记录成文字,但语音识别的结果不一定完全正确,特别是在一些垂直领域,市面上的语音识别产品往往难以识别特定的专业词汇,此时就需要进行语音识别后的文本修正工作。
当前,有基于错误规则的文本纠错算法,也有基于深度学习的算法,同时在垂直领域,也有基于特殊领域数据库建立索引和提供候选的方法。其中,基于规则和特殊领域数据库的方法面临规则不全和纠错率不高的问题,而基于深度学习的方法则主要基于LSTM网络,训练耗时的同时,也难以捕捉较长序列的语义特征。
因此,本领域亟需一种规则齐全、纠错率高且能够提升语音识别后文本修正任务的准确率的技术解决方案。
申请内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供基于BERT的语音识别后文本修正方法、装置、终端及介质,用于解决现有技术中的文本修正方法尚存在规则不齐全、纠错率低、准确率低等问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种基于BERT的语音识别后文本修正方法,其包括:采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
于本发明的第一方面的一些实施例中,所述采用预设尺寸的滑动窗口来提取文本字串,其包括:采用长度为奇数个字的滑动窗口来提取文本字串,以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。
于本发明的第一方面的一些实施例中,所述方法包括:在所述滑动窗口提取的字数不满足字数要求的情况下,采用指定字符来填充窗口中的空缺位置。
于本发明的第一方面的一些实施例中,所述对所提取的文本字串的中间字进行修正,其包括:采用所述文本字串的中间字所对应的拼音来替换该中间字。
于本发明的第一方面的一些实施例中,所述方法还包括:对该中间字所对应的拼音进行噪声扰动;其中,噪声扰动的方式包括如下任意一种或多种方式的组合:方式1)随机去除或增加前后鼻音;方式2)获取容易混淆的声母、韵母和近音字字典,并对中间字所对应的拼音进行随机替换;方式3)随机替换当前拼音为任意一种拼音。
于本发明的第一方面的一些实施例中,所述将修正后的文本字串输入预训练的BERT网络模型中,其包括:将文本字串中的各字从以token为最小单元的独热编码向量转换成嵌入向量后输入BERT网络模型中;对文本字串中的各字标记其所属的句子类型后输入至BERT网络模型中;对文本字串中的各字进行位置信息弥补后,将每个字所对应的位置信息输入至BERT网络模型中。
于本发明的第一方面的一些实施例中,所述方法还包括:当所述滑动窗口滑动至非首字串的当前文本字串时,使用上个窗口位置输出的预测置信度降序序列中的前若干个预测置信度所对应的预测字,来分别预测当前文本字串的中间字,并选取其中预测置信度最高的中间字来作为作为当前文本字串的中间字。
为实现上述目的及其他相关目的,本发明的第二方面提供一种基于BERT的语音识别后文本修正装置,其包括:滑窗模块,用于采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;BERT模型模块,用于将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;修正模块,用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
为实现上述目的及其他相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于BERT的语音识别后文本修正方法。
为实现上述目的及其他相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于BERT的语音识别后文本修正方法。
如上所述,本发明的基于BERT的语音识别后文本修正方法、装置、终端及介质,具有以下有益效果:本发明巧妙地将文本后修正任务基于BERT模型进行了微调,借助Transformer自注意力机制强大的语义特征提取能力,使文本后修正过程可以获得更强上下文信息,从而改进了文本后处理效果;本发明通过使用拼音和噪声拼音作为输入的一部分,提升了模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有非常不错的识别效果;本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务,本发明因此可以处理最大序列长度为128的句子,且虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率非常高。
附图说明
图1显示为本发明一实施例中基于BERT的语音识别后文本修正方法的流程示意图。
图2显示为本发明一实施例中BERT网络模型的结构示意图。
图3显示为本发明一实施例中输入BERT网络模型的数据转换示意图。
图4显示为本发明一实施例中基于BERT的语音识别后文本修正装置的结构示意图。
图5显示为本发明一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
现有的语音识别文本后的修正方法虽能完成一定的修正工作,但都有不足之处。例如,基于错误规则的文本纠错算法尚存规则不全和纠错率不高的问题;基于深度学习的算法主要基于LSTM网络,模型训练非常耗时而且也难以捕捉较长序列的语义特征;而在垂直领域,也采用基于特殊领域数据库建立索引和提供候选的方法,但这种方法也存在规则不全和纠错率不高的问题。
有鉴于此,本发明提出一种基于BERT网络模型的语音识别文本后进行修正的技术解决方案。其中,BERT网络模型是谷歌公司在2018年提出的一种智能模型,BERT凭借其优秀的网络结构和基于大量数据集的预训练,提供了NLP领域的预训练框架。本发明借助BERT网络模型的优越性和使用拼音提供额外信息的方法,很好地完成了垂直领域的语音识别后的文本修正任务,提升了语音识别后文本修正任务的准确率。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
实施例一
如图1所示,展示了本发明一实施例中基于BERT的语音识别后文本修正方法的流程示意图。本实施例中的文本修正方法主要包括步骤S11~S13。
需说明的是,所述BERT网络模型即Bidirectional Encoder Representationsfrom Transformers,是使用Transformer单元构成的双向编码表征方法。本发明中预训练的BERT网络模型可应用于多种任务,包括但不限于句子级别的分类任务、问答任务或者序列标注任务等等。BERT网络模型结构如图2所示,其输入为可能含有错字的句子,输出为错字对应的正确字。以句子级别的分类任务中单句分类任务为例,采用第一个token(即[CLS])的最后一个隐藏状态的输出作为整个句子的表示,只需引入一层分类层,即一个类别数目×隐藏状态个数的矩阵进行微调即可。
应理解的是,Transformer单元是一种基于自制力机制的编码单元;token是指输入字符的最小单元,例如拼音“chang”可以拆分为“ch”和“ang”两个token。
步骤S11:采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正。
具体而言,为了简化问题并将问题适用于BERT网络模型,对于句子中可能出现的错字或错词问题,本实施例采用滑窗的方法,即采用滑动窗口来提取预设文字数量的文本字串,并对每个窗口中间位置的文字进行修正。
在本实施例较佳的实现方式中,采用长度为奇数个字的滑动窗口来提取文本字串,例如:采用31个字的窗口来提取文本字串,即每个窗口的长度为前15个字+中间字+后15个字,共31个字,对于字数不足的窗口位置采用“#”字符来替代。需说明的是,本实施例中滑动窗口的长度可根据实际应用场景(即实际问题类型和/或模型效果等)进行调整。
进一步的,采用所述文本字串的中间字所对应的拼音来替换该中间字。为了避免模型直接将文本字串的中间字作为结果输出而无法学习到纠错能力,特别是文本字串的中间字是错字的情况,更是对模型的训练学习不利,因此本实施例将文本字串的中间字替换成其对应的拼音来作为输入BERT网络模型的一部分。为便于本领域技术人员理解,BERT网络模型的输入样例如下表所示:
其中,每个文字占用一个字的长度;每个标点符号如“,”、“、”或“。”等都占用一个字的长度,连续数字如“24”或“28”占用一个字的长度,字数不足的位置采用“#”字符来替代,每个“#”字符均占用一个字的长度,其它用到的特殊字符如“-”也是占用一个字的长度。
本表对文本字串的中间字进行了相应的修正,将文字替换为对应的拼音,例如将“空”替换为“kong”,将“高”替换为“gao”,将“浙”替换为“zhe”,将“雨”替换为“yu”等等,从而形成能够训练模型的纠错能力的训练样本。
进一步的,由于错字训练样本很难获得,而且标注工作量大,因此本实施例在使用正确文本串的基础上对文本串的中间字进行了相应的噪声扰动,从而形成错字样本。噪声扰动的方式包括但不限于如下几种:
方式1)随机去除或增加前后鼻音;
方式2)提炼和创建容易混淆的声母、韵母和近音字字典,并对中间字所对应的拼音进行随机替换;
方式3)随机替换当前拼音为任意一种拼音。
可选的,由于句子中的非中文字符,如标点、数字或特殊字符等在对应的语音中所占的音节不定,所以在数据创建的过程中,将标点不算作字符,将连续数字和连续特殊字符当作单个字符计数。
每一条训练样本数据(前15个字+中间字拼音+后15个字)将中间字作为输出的标签,所以对应到模型中,BERT网络模型输出值的label种类为任务中涉及的中文字符的种类。
步骤S12:将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度。
在将文本字串输入BERT网络模型的过程中,输入的文字序列会进行格式转换以符合BERT网络模型的数据规则。具体如图3所示,输入的文字序列会依次转换成TokenEmbeddings、Segment Embeddings和Position Embeddings后输入BERT网络模型。
其中,Token Embeddings用于将输入的文字序列以token为最小单元的独热编码向量转换成词嵌入向量后输入到BERT网络模型中。需说明的是,与现有的BERT任务不同的是,通常BERT任务的字库中没有所有的拼音项,本实施例为了适配拼音任务,补齐了BERT字库中缺少的拼音项token。
Segment Embeddings用于BERT模型处理“双句任务”的情形,当BERT模型处理“双句任务”时,例如判断B句是否是A句的下句,需要使用Segment Embeddings标记字符所属的句子种类。在本实施例中,在使用滑动窗口所提取的前15字+中间字拼音+后15字作为输入的文字序列输入模型时,所有字符都属于Segment A;为了提供更多的信息给BERT模型并充分利用BERT模型的结构,同时增强模型的鲁棒性,将输入的文字序列中所有的中文字符和数字都转换成对应的拼音构成拼音序列,以作为Segment B,与Segment A一同输入BERT模型中。
Position Embeddings用于弥补序列的位置信息,由于BERT模型中的Transformer单元基于自注意力机制构建,从而丢失了位置信息,所以为了弥补序列的位置信息,将每个字符对应的位置处理成position embedding输入到模型中。
需说明的是,现有的序列模型大多使用LSTM或其他RNN类网络模型捕捉序列信息,但这些方法用于长序列时性能有限,且受到网络下一个单元需要接受上一个单元的输出作为输入的限制,而且RNN类方法无法并行计算,训练极为耗时。BERT模型将RNN类单元替换成Transformer单元,很好地解决了这两个问题。本实施例中设置最大序列长度为128,Transformer的深度为12层,即共有128*12=1536个Transformer单元。
应理解的是,RNN类网络模型是指以RNN网络结构为基础的网络,包括但不限于RNN网络、LSTM网络、GRU网络或者BLSTM网络等等;Embedding是向量的嵌入表示,通常在输入层,可在减小维度的同时获取输入字符间更深的内在关联。
步骤S13:采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
模型的输出是输入的文字序列的中间字拼音所对应的汉字,可能的输出种类为7000多种。采用交叉熵作为反向传播算法中的损失函数,如下式所示:
其中,M表示网络可能输出的汉字种类;yc表示0或1,是指训练过程中若网络输出的汉字类别和训练样本本身的类别相同则为1,否则为0;pc表示网络预测的样本属于类别c的概率。
可选的,所述方法还包括在建立BERT模型后再对该模型进行测试。在测试阶段,模型输入是一整句话,模型输出是纠正后的整句话。为了符合训练好的BERT模型的输入,同样对这一整句话进行滑窗,并将中间字转换成对应的拼音。输出中间字的预测值和预测置信度,即输出字为当前类别的概率值。设置一个置信度阈值,当置信度大于该阈值时,使用预测值替换原有字。
进一步的,为了减少误纠正率,采用Beam Search的方法进行输出,即每次输出概率值前两名。当滑窗中心滑到下一个字时,同时使用上个位置输出的前两名组成两条序列(序列里的其他字符保持不变),分别预测当前序列的中间字,取预测的中间字最大概率值更高的序列对应的上个位置的字作为上个位置的真实值,同时保留当前位置的输出的概率值前两名的字,并滑窗到下一位置,如此迭代,直到整句话被纠正完毕。
需说明的是,本实施例中基于BERT的语音识别后文本修正方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器,其包括但不限于ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。在一些实施方式中,所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
由上述技术内容可知,本发明有如下几大优势:
首先,本发明巧妙地将文本后修正任务基于BERT模型进行了微调,借助Transformer自注意力机制强大的语义特征提取能力,使文本后修正过程可以获得更强上下文信息,从而改进了文本后处理效果。
其次,本发明通过使用拼音和噪声拼音作为输入的一部分,提升了模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有非常不错的识别效果。
最后,本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务,本发明因此可以处理最大序列长度为128的句子,且虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率非常高。
实施例二
如图4所示,展示了本发明一实施例中基于BERT的语音识别后文本修正装置的结构示意图。本实施例中的装置包括滑窗模块41、BERT模型模块42及修正模块43。
滑窗模块41用于采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;BERT模型模块42用于将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;修正模块43用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
需说明的是,所述BERT网络模型即Bidirectional Encoder Representationsfrom Transformers,是使用Transformer单元构成的双向编码表征方法。本发明中预训练的BERT网络模型可应用于多种任务,包括但不限于句子级别的分类任务、问答任务或者序列标注任务等等。BERT网络模型结构如图2所示,其输入为可能含有错字的句子,输出为错字对应的正确字。以句子级别的分类任务中单句分类任务为例,采用第一个token(即[CLS])的最后一个隐藏状态的输出作为整个句子的表示,只需引入一层分类层,即一个类别数目×隐藏状态个数的矩阵进行微调即可。
由于本实施例中基于BERT的语音识别后文本修正装置与上文实施例一中基于BERT的语音识别后文本修正方法的实施方式实施方式类似,故不再赘述。
应理解的是,以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,修正模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上修正模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例三
如图5所示,展示了本发明一实施例中的电子终端的结构示意图。本实例提供的电子终端,包括:处理器51、存储器52、通信器53;存储器52通过系统总线与处理器51和通信器53连接并完成相互间的通信,存储器52用于存储计算机程序,通信器53用于和其他设备进行通信,处理器51用于运行计算机程序,使电子终端执行如上基于BERT的语音识别后文本修正方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于BERT的语音识别后文本修正方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明提供基于BERT的语音识别后文本修正方法、装置、终端及介质,本发明巧妙地将文本后修正任务基于BERT模型进行了微调,借助Transformer自注意力机制强大的语义特征提取能力,使文本后修正过程可以获得更强上下文信息,从而改进了文本后处理效果;本发明通过使用拼音和噪声拼音作为输入的一部分,提升了模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有非常不错的识别效果;本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务,本发明因此可以处理最大序列长度为128的句子,且虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率非常高。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于BERT的语音识别后文本修正方法,其特征在于,包括:
采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;
将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;
采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
2.根据权利要求1所述的方法,其特征在于,所述采用预设尺寸的滑动窗口来提取文本字串,其包括:
采用长度为奇数个字的滑动窗口来提取文本字串,以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:
在所述滑动窗口提取的字数不满足字数要求的情况下,采用指定字符来填充窗口中的空缺位置。
4.根据权利要求1所述的方法,其特征在于,所述对所提取的文本字串的中间字进行修正,其包括:
采用所述文本字串的中间字所对应的拼音来替换该中间字。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对该中间字所对应的拼音进行噪声扰动;其中,噪声扰动的方式包括如下任意一种或多种方式的组合:
方式1)随机去除或增加前后鼻音;
方式2)获取容易混淆的声母、韵母和近音字字典,并对中间字所对应的拼音进行随机替换;
方式3)随机替换当前拼音为任意一种拼音。
6.根据权利要求1所述的方法,其特征在于,所述将修正后的文本字串输入预训练的BERT网络模型中,其包括:
将文本字串中的各字从以token为最小单元的独热编码向量转换成嵌入向量后输入BERT网络模型中;
对文本字串中的各字标记其所属的句子类型后输入至BERT网络模型中;
对文本字串中的各字进行位置信息弥补后,将每个字所对应的位置信息输入至BERT网络模型中。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述滑动窗口滑动至非首字串的当前文本字串时,使用上个窗口位置输出的预测置信度降序序列中的前若干个预测置信度所对应的预测字,来分别预测当前文本字串的中间字,并选取其中预测置信度最高的中间字来作为作为当前文本字串的中间字。
8.一种基于BERT的语音识别后文本修正装置,其特征在于,包括:
滑窗模块,用于采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;
BERT模型模块,用于将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;
修正模块,用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于BERT的语音识别后文本修正方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述基于BERT的语音识别后文本修正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064914.XA CN111310441A (zh) | 2020-01-20 | 2020-01-20 | 基于bert的语音识别后文本修正方法、装置、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064914.XA CN111310441A (zh) | 2020-01-20 | 2020-01-20 | 基于bert的语音识别后文本修正方法、装置、终端及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111310441A true CN111310441A (zh) | 2020-06-19 |
Family
ID=71148913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010064914.XA Pending CN111310441A (zh) | 2020-01-20 | 2020-01-20 | 基于bert的语音识别后文本修正方法、装置、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310441A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN112466280A (zh) * | 2020-12-01 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
CN112560429A (zh) * | 2020-12-23 | 2021-03-26 | 信雅达科技股份有限公司 | 基于深度学习的智能培训检测方法及系统 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN113378553A (zh) * | 2021-04-21 | 2021-09-10 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN113536776A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆语句的生成方法、终端设备及计算机可读存储介质 |
CN114023306A (zh) * | 2022-01-04 | 2022-02-08 | 阿里云计算有限公司 | 用于预训练语言模型的处理方法和口语语言理解系统 |
CN114372441A (zh) * | 2022-03-23 | 2022-04-19 | 中电云数智科技有限公司 | 一种中文文本自动纠错方法及装置 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777124A (zh) * | 2010-01-29 | 2010-07-14 | 北京新岸线网络技术有限公司 | 一种提取视频文本信息的方法及装置 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN108415938A (zh) * | 2018-01-24 | 2018-08-17 | 中电科华云信息技术有限公司 | 一种基于智能模式识别的数据自动标注的方法及系统 |
US20180260406A1 (en) * | 2017-03-13 | 2018-09-13 | Target Brands, Inc. | Spell checker |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110277090A (zh) * | 2019-07-04 | 2019-09-24 | 苏州思必驰信息科技有限公司 | 用户个人的发音词典模型的自适应修正方法及系统 |
CN110276076A (zh) * | 2019-06-25 | 2019-09-24 | 北京奇艺世纪科技有限公司 | 一种文本情绪分析方法、装置及设备 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
US20200005071A1 (en) * | 2019-08-15 | 2020-01-02 | Lg Electronics Inc. | Method and apparatus for recognizing a business card using federated learning |
CN110705212A (zh) * | 2019-09-09 | 2020-01-17 | 广州小鹏汽车科技有限公司 | 文本序列的处理方法、处理装置、电子终端和介质 |
-
2020
- 2020-01-20 CN CN202010064914.XA patent/CN111310441A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777124A (zh) * | 2010-01-29 | 2010-07-14 | 北京新岸线网络技术有限公司 | 一种提取视频文本信息的方法及装置 |
US20180260406A1 (en) * | 2017-03-13 | 2018-09-13 | Target Brands, Inc. | Spell checker |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN108415938A (zh) * | 2018-01-24 | 2018-08-17 | 中电科华云信息技术有限公司 | 一种基于智能模式识别的数据自动标注的方法及系统 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110276076A (zh) * | 2019-06-25 | 2019-09-24 | 北京奇艺世纪科技有限公司 | 一种文本情绪分析方法、装置及设备 |
CN110277090A (zh) * | 2019-07-04 | 2019-09-24 | 苏州思必驰信息科技有限公司 | 用户个人的发音词典模型的自适应修正方法及系统 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
US20200005071A1 (en) * | 2019-08-15 | 2020-01-02 | Lg Electronics Inc. | Method and apparatus for recognizing a business card using federated learning |
CN110705212A (zh) * | 2019-09-09 | 2020-01-17 | 广州小鹏汽车科技有限公司 | 文本序列的处理方法、处理装置、电子终端和介质 |
Non-Patent Citations (3)
Title |
---|
SAM LEROUX; STEVEN BOHEZ; TIM VERBELEN; BERT VANKEIRSBILCK; PIETER SIMOENS;: "Resource-constrained classification using a cascade of neural network layers", 《2015 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》, 1 October 2015 (2015-10-01) * |
丁龙;文雯;林强;: "基于预训练BERT字嵌入模型的领域实体识别", no. 06 * |
孙成立;: "一种基于分而治之的语音识别错误纠正方案", 计算机应用研究, no. 10, 15 October 2010 (2010-10-15) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680132B (zh) * | 2020-07-08 | 2023-05-19 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN112466280B (zh) * | 2020-12-01 | 2021-12-24 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
CN112466280A (zh) * | 2020-12-01 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
CN112560429A (zh) * | 2020-12-23 | 2021-03-26 | 信雅达科技股份有限公司 | 基于深度学习的智能培训检测方法及系统 |
CN113378553B (zh) * | 2021-04-21 | 2024-07-09 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN113378553A (zh) * | 2021-04-21 | 2021-09-10 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
CN112966496B (zh) * | 2021-05-19 | 2021-09-14 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
CN113536776A (zh) * | 2021-06-22 | 2021-10-22 | 深圳价值在线信息科技股份有限公司 | 混淆语句的生成方法、终端设备及计算机可读存储介质 |
CN113221580B (zh) * | 2021-07-08 | 2021-10-12 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN114023306A (zh) * | 2022-01-04 | 2022-02-08 | 阿里云计算有限公司 | 用于预训练语言模型的处理方法和口语语言理解系统 |
CN114372441A (zh) * | 2022-03-23 | 2022-04-19 | 中电云数智科技有限公司 | 一种中文文本自动纠错方法及装置 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN117056859B (zh) * | 2023-08-15 | 2024-05-10 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310441A (zh) | 基于bert的语音识别后文本修正方法、装置、终端及介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
Ghosh et al. | Neural networks for text correction and completion in keyboard decoding | |
US20230080671A1 (en) | User intention recognition method and apparatus based on statement context relationship prediction | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
WO2022095563A1 (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
WO2021051513A1 (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
US20220358955A1 (en) | Method for detecting voice, method for training, and electronic devices | |
CN110377882B (zh) | 用于确定文本的拼音的方法、装置、系统和存储介质 | |
WO2024098533A1 (zh) | 图文双向搜索方法、装置、设备及非易失性可读存储介质 | |
CN112101010A (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN110807335A (zh) | 基于机器学习的翻译方法、装置、设备及存储介质 | |
CN115965009A (zh) | 文本纠错模型的训练与文本纠错方法、设备 | |
US11615247B1 (en) | Labeling method and apparatus for named entity recognition of legal instrument | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
WO2022095370A1 (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN114036950A (zh) | 一种医疗文本命名实体识别方法及系统 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN115033733A (zh) | 音频文本对生成方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240927 |