CN115438154A - 基于表征学习的中文自动语音识别文本修复方法及系统 - Google Patents
基于表征学习的中文自动语音识别文本修复方法及系统 Download PDFInfo
- Publication number
- CN115438154A CN115438154A CN202211134542.9A CN202211134542A CN115438154A CN 115438154 A CN115438154 A CN 115438154A CN 202211134542 A CN202211134542 A CN 202211134542A CN 115438154 A CN115438154 A CN 115438154A
- Authority
- CN
- China
- Prior art keywords
- embedding
- chinese
- character
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 50
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 41
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000005067 remediation Methods 0.000 claims 1
- 230000008439 repair process Effects 0.000 abstract description 6
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于表征学习的中文自动语音识别文本修复方法及系统,基本BERT的中文标点符号预测模型,相比于现有的中文标点符号模型,本发明使用了更高效的RoBERTa预测模型,对原BERT预测模型进行微调,并且使用Transformer来整合特征嵌入,是目前完整且高效的中文标点符号预测任务的方法和系统;提出的文本纠错模型中,使用双向LSTM结构提取了字音和笔画特征的嵌入层,借助于双向LSTM的记忆能力更好地解决了长程依赖问题;提出的模型将中文标点符号和中文纠错模型两个任务进行结合,形成了一个端到端的中文ASR输出本文修复系统,从两个角度完全解决ASR输出文本的错误,提高语音文本的正确率。
Description
技术领域
本发明涉及一种语音识别技术,特别涉及一种基于表征学习的中文自动语音识别文本修复方法及系统。
背景技术
ASR(Automatic Speech Recognition,自动语音识别,ASR)在工业系统中起到了越来越重要的作用,但是在音频转录时,不可避免的噪音会导致转录生成的文本与真实内容有所差异。因此,ASR转录之后的文本修复就是一个非常重要的步骤。在ASR文本修复的过程中,有两个问题值得被关注:第一转录过程中,噪音或者其他因素会影响语音的质量,导致转录出现错字漏字现象;第二转录后的文本不包含标点符号,大大降低了转录文本的可读性,增大了处理文本的难度。
不管应用在词级别或句级别,中文纠错都是一个非常重要的任务,该任务是为了解决文本中错字问题。中文纠错可以用到许多自然语言处理的任务中,例如光学字符识别和文章评分任务。中文纠错是一个非常具有挑战性的问题,为了更好的解决中文纠错的问题,必须具备像人一样的语言理解能力。常见的中文错误分为两种:第一种是形近字错误,即错误的字和正确的字是字形方面的差别,这种错误常发生在光学字符识别领域。另一种是音近字错误,即错误的字和正确的字是拼音方面的差别,该错误往往出现在语音识别ASR领域。
标点符号预测或标点符号修复指的是利用计算机对无标点文本进行标点修复预测,使预测之后的文本相比于之前的文本更加具有可读性,符合自身语义。目前针对标点符号预测的公开数据集为IWSLT数据集,该数据集是针对英文语音转写,中文标点符号预测或者中文标点符号修复比英文的更加困难。首先,中文和英文有天然的区别,英文每个词都有空格隔开,而且中文中每个字都有多种含义,即中文字的多义性。其次,中文标点相比于英文标点更加丰富且多变,这也增大了中文标点预测任务的难度,迄今在中文标点符号预测并没有好的进展。所以不管是在数据集方面或者语言模型方面,中文标点符号预测有很大的研究空间。
发明内容
针对中文自动语音识别后纠错难问题,提出了一种基于表征学习的中文自动语音识别文本修复方法及系统。
本发明的技术方案为:一种基于表征学习的中文自动语音识别文本修复方法,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。
一种基于表征学习的中文自动语音识别文本修复系统,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;
所述中文标点符号预测模型包括BERT中文分词器、RoBERTa预测模型、ChineseBERT预测模型、Transformer网络和分类模块;
所述BERT中文分词器:对输入的中文文本中的每一个中文词进行编码从而获得词向量;
所述RoBERTa预测模型:将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;
所述ChineseBERT预测模型:提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;
所述Transformer网络:对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;
所述分类模块:由两层线性层和两层Dropout层来进行叠加,预测每一个字符编码对于标点分类的概率,输出每个字的之后最大概率的标点符号的类别;
所述中文纠错模型采用PLOME模型。
优选的,所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务,采用的掩码策略包括0%掩码、15%掩码以及30%掩码。
优选的,所述ChineseBERT预测模型中拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入;
字形嵌入:使用三种中文字体的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。
式中:Q是查询矩阵;K是注意力机制关注的信息;V是原始输入值通过线性变化之后的矩阵,用来保存输入特征,Q与K的转置KT进行点乘计算出对于Q在V上的注意力权重;dk是多头注意力机制算法中的head大小,利用进行尺度化的目的是避免Q与KT的点积太大,一旦点积过大时,经过Softmax函数进行反向传播的梯度计算,将结果平滑到0-1区间。
优选的,所述中文纠错模型输入包括四个嵌入层:字符嵌入、位置嵌入、拼音嵌入和笔画嵌入,通过查找表和预训练分词器,获得字符嵌入和位置嵌入;采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入,字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入融合后,送入12层的Transformer后得到输出。
一种基于表征学习的中文自动语音识别文本修复系统训练方法,包括如下步骤:
1)选择数据集,选择LC中文新闻数据集、Json版社区问答数据集以及SIGHAN2015CSC Datasets三个数据集;
2)对样本数据集进行预处理,对中文标点符号数据集中的文本标点符号异常情况进行清洗,其次去除中文标点符号数据集中BERT预测模型编码器不能识别的字符,最后使用BERT预测模型对中文标点符号数据集中的文本进行词向量的编码,作为微调预测模型的输入;
3)训练阶段,分别对中文标点符号预测模型以及对中文纠错模型进行训练,在训练两个模型的同时,提取两个模型最终得到的嵌入层输出的相对距离,将该距离进行平均归一化处理,同时加入到两个模型自身训练时的损失中,达到两个模型同步训练。
进一步,所述LC中文新闻数据集以及Json版社区问答数据集作为中文标点符号预测模型训练的数据集,所述SIGHAN 2015CSC Datasets作为中文纠错模型训练的数据集,数据集按训练识别要求分为训练集、验证集和测试集。
进一步,所述中文标点符号预测模型的训练,具体包括以下步骤:
A01、将预处理好的中文文本输入到BERT中文分词器中,BERT中文分词器将每一个中文进行编码,并且给每句话的起末位置添加标志符,这样就对之后每一次输入的编码的长度进行固定;
A02、将得到的词向量分别输入到RoBERTa预测模型和ChineseBERT预测模型中,RoBERTa预测模型将词向量编码成通过预训练任务得到的字编码向量,即字编码嵌入,字编码向量包含字与字之间的关系以便后续的下游任务;ChineseBERT预测模型提取词向量的包括字音特征和字形特征的中文特征,得到拼音嵌入和字形嵌入,通过RoBERTa预测模型和ChineseBERT预测模型,得到三个嵌入层:字编码嵌入、拼音嵌入和字形嵌入;
A03、Transformer网络对三个嵌入层进行自注意力机制的学习,整合三个嵌入层的信息的同时将嵌入层的维度拉伸成之后分类模块输入的维度;
A04、将整合好的嵌入层输入至分类模型,该分类模型预测每一个字符编码对于空、逗号、句号和问号的概率,输出每个字的之后最大概率的标点符号的类别,至此,中文标点符号预测任务完成;
在训练过程中,超参数的设置如下:batch_szie设置为16,epochs设置为12,learning_rate设置为3e-5,优化器使用的adamw优化器,训练指标选择准确率、召回率、F1-score分数和auc值四个指标进行评估;
带权重的损失值被定义为:
式中: 为样本数据集中第n个样本的标签yn的权重,表示为weigh[yn]表示标签yn的权重,yn≠ignoreindex,ignoreindex表示选择忽略标签的索引值,表示样本数据集中第n个样本,其标签为yn,N为样本数据集的大小。
进一步,所述中文纠错模型的训练,具体包括如下步骤:
B01、将样本数据集输入到中文纠错模型中,使用基于词表的分词器来得到字符嵌入层和位置编码嵌入层;
B02、将样本数据集输入到双向LSTM的网络编码器中,得到字音嵌入层和笔画嵌入层;
B03、将字符嵌入层、位置编码嵌入层、字音嵌入层和字形嵌入层行混淆整合,整合好的向量包含了四个嵌入层的综合信息即融合嵌入;
B04、将整合好的向量输入到基于Transformer结构的中文纠错网络中,得到纠错后的文本。
本发明的有益效果在于:本发明基于表征学习的中文自动语音识别文本修复方法及系统,基本BERT的中文标点符号预测模型,相比于现有的中文标点符号模型,本发明使用了更高效的RoBERTa预测模型,对原BERT预测模型进行微调,并且使用Transformer来整合特征嵌入,是目前较为完整且高效的中文标点符号预测任务的方法和系统;提出的文本纠错模型中,使用双向LSTM结构提取了字音和笔画特征的嵌入层,借助于双向LSTM的记忆能力更好地解决了长程依赖问题;提出的模型将中文标点符号和中文纠错模型两个任务进行结合,形成了一个端到端的中文ASR输出本文修复系统,从两个角度完全解决ASR输出文本的错误,提高语音文本的正确率。
附图说明
图1为本发明表征学习的普通话ASR输出文本修复方法流程图;
图2为本发明方法中文标点符号预测模型中拼音嵌入模型示意图;
图3为本发明方法中文标点符号预测模型中字形嵌入模型示意图;
图4为本发明方法中文标点符号预测模型示意图;
图5为本发明方法中文文本纠错模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例公开的一种表征学习的普通话ASR输出文本修复方法,主要由两个部分构成——中文标点符号预测模型和中文纠错模型。
首先,将ASR识别输出的中文结果输入到中文标点符号预测模型,该模型是在BERT预训练模型的基础上针对中文标点符号预测任务完成微调后的模型。由中文标点符号预测模型输出带有标点符号的句子。之后,将带有标点符号的句子输入到中文纠错模型中,最后得到修复后的中文文本结果。本实施例中,中文标点符号预测模型和中文纠错模型被封装成一个端到端的中文文本修复模型。
以下分别介绍上述两个模型的主要结构:
第一、中文标点符号预测模型
目前中文标点符号预测并没有非常系统的方法,仅使用BERT来进行预测的效果并不好。因此,本发明提出了基于BERT的中文标点符号预测模型。相比于原生的BERT,中文标点符号预测模型的主要改进的地方有三个:
1)使用RoBERTa模型来替代BERT模型。RoBERTa模型的特点是采用动态掩码替换原来BERT模型中的静态掩码和取消BERT模型中的下文预测任务。即,在RoBERTa模型中,首先将数据集复制多份,对相同数据进行不同的随机掩码策略,使相同的数据在不同的训练轮数的掩码位置是不一样的。本实施例中,主要采用的掩码策略有三种:0%掩码、15%掩码以及30%掩码。
2)为了提高机器对语言的理解能力,提取出了字音和字形两个额外的中文特征,其中,字音的嵌入表示为拼音嵌入(Pinyin embedding),字形的嵌入表示为字形嵌入(Glyph embedding)。下面是得到拼音嵌入以及字形嵌入的方法:
拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入,如图2所示。
字形嵌入:使用三种中文字体(隶书、行楷和仿宋)的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入,如图3所示。
3)RoBERTa模型在得到了数据中字音特征和字形特征的嵌入之后,将生成的嵌入层的输出送入编码器和解码器的层数都为一的Transformer网络中,使用Transformer网络的自注意力机制来整合输入信息。本实施例中,注意力机制的核心公式如下式所示:
式中:Q是查询矩阵;K是注意力机制关注的信息;V是原始输入值通过线性变化之后的矩阵,用来保存输入特征,Q与K的转置KT进行点乘计算出对于Q在V上的注意力权重;dk是多头注意力机制算法中的head大小,利用进行尺度化的目的是避免Q与KT的点积太大,因为一旦点积过大时,经过Softmax函数的梯度就会很小。
本发明采用Softmax函数的优点是:便于反向传播的梯度计算,同时将结果平滑到0-1区间。最开始的Q、K、V是相通的,是字音嵌入层和字形嵌入层相加的结果。Q、K、V也是模型所需要训练优化的参数。
Transformer网络的输出输入到分类模块。本实施例中,分类模块由两层线性层和两层Dropout层来进行叠加,通过分类模型预测每一个字符编码对于四个分类的概率,输出每个字的之后最大概率的标点符号的类别,其中,四个分类的标签分别为空、逗号、句号和问号,其中,非线性函数使用relu函数。最后,分类模块使用Softmax函数输出得到结果。本实施例公开的中文标点符号预测模型的结构如图4所示。
第二、中文纠错模型:
本实施例中,中文纠错模型中将基于字表的表征提取方法应用于中文拼写校正任务,旨在通过结合拼音信息和汉字的笔画特征,提高模型学习汉字之间关系的能力,从而使模型能够更精确地判别句子中的错误。该模型的输入包括四个主要的嵌入层:字符(Character)嵌入、位置(Position)嵌入、拼音(Pin-yin)嵌入和笔画(Strokes)嵌入。通过查找表(lookup table)和预训练分词器,快速获得两个基本嵌入层--字符嵌入和位置嵌入。接下来,BiLSTM编码器(encoder)被用来表示拼音嵌入和笔画嵌入,由于BiLSTM的记忆能力,它们包含了上下文敏感的信息。笔画嵌入中包含更多关于中文相似性的信息,这比在中文标点符号预测中的字形嵌入更有利于中文纠错任务。字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入(Fusion embedding)融合后,送入12层的Transformer后得到输出,如图5所示。
对上述中文标点符号预测模型以及中文纠错模型的训练具体包括以下步骤:
步骤1、选择数据集。本发明选择了三个比较合适的数据集——LC中文新闻数据集、Json版社区问答数据集以及SIGHAN 2015CSC Datasets。
LC中文新闻数据集:该数据集的每一条数据都由两个部分构成。第一个部分是新闻的简介或者题目,用来概述该条新闻,一般句子长度是20个字以下。第二个部分是新闻的完整内容,每条句子超过一百个字以上。该数据集分为训练集、验证集和测试集,训练集的大小为10万余条,验证集和测试集数量为1万余条。由于数据集的内容涉及范围较广并且数据量较为充足,常作为中文自然语言处理任务的数据集;
Json版社区问答数据集:含有410万余条预先过滤过的、高质量问题和回复。每个问题属于一个话题,共计2.8万个话题。从1400万个原始问答中,筛选出至少获得3个点赞以上的回答,从而获得高质量的数据集。除了每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。数据去重并分成三个部分:训练集大小为412万条,验证集和测试集为6.8万条。该数据集相比于LC中文新闻数据集包含更多的中文标点符号,可以提高本发明在中文标点符号预测任务中的正确率。
LC中文新闻数据集以及Json版社区问答数据集作为对中文标点符号预测模型进行训练的中文标点符号数据集。
SIGHAN 2015CSC Datasets:该数据集格式与Json版社区问答数据集类似,即键值对的格式,因此转为Json格式文件后可以提高后续处理的效率。该数据集的训练集大小为15万条,测试集和验证集分别为14万条,每条数据包括original_text、wrong_ids和correct_text三个部分。original_text表示带有错误的句子,wrong_ids表示original_text中的错误的字的索引,correct_text则表示正确的句子。SIGHAN 2015CSC Datasets作为中文纠错的常用数据集,本实施例中,利用该数据集对中文纠错模型进行训练。
步骤2、对样本数据集进行预处理。由于使用的中文标点符号数据集并不是整理好的数据集。在中文标点符号预测中,需要保证数据集的干净整齐,比如不能存在多个标点符号相连、句子开头不能是标点符号等异常情况,因此需要对中文标点符号数据集中的文本进行清洗。其次需要去除中文标点符号数据集中BERT预训练模型编码器不能识别的字符,比如韩文等外文、生僻字以及特殊符号。中文标点符号数据集清洗完之后,使用BERT预训练模型对中文标点符号数据集中的文本进行词向量的编码,作为微调预训练模型的输入。
步骤3、训练阶段,分为对中文标点符号预测模型的训练以及对中文纠错模型的训练。
对于中文标点符号预测模型的训练,本发明使用RoBERTa-wwm和ChineseBERT两个预训练模型,针对中文标点符号任务进行微调,具体包括以下步骤:
步骤3A01、将预处理好的中文文本输入到BERT中文分词器中,该BERT中文分词器可以将每一个中文进行编码,并且可以给每句话的起末位置添加标志符,这样就对之后每一次输入的编码的长度进行固定。本实施例选择的词向量长度是512。
步骤3A02、将得到的词向量分别输入到RoBERTa-wwm预训练模型和ChineseBERT预训练模型中。RoBERTa-wwm预训练模型将词向量编码成通过预训练任务得到的字编码向量,即字编码嵌入,相比较之前的词向量而言,字编码向量包含了更多字与字之间的关系以便后续的下游任务。ChineseBERT预训练模型提取词向量的中文特征——字音特征和字形特征,得到拼音嵌入和字形嵌入。通过RoBERTa-wwm预训练模型和ChineseBERT预训练模型,得到了三个嵌入层——字编码嵌入、拼音嵌入和字形嵌入。
步骤3A03、Transformer网络对三个嵌入层进行自注意力机制的学习,整合三个嵌入层的信息的同时将嵌入层的维度拉伸成之后分类模块输入的维度。
步骤3A04、将整合好的嵌入层输入至分类模型,该分类模型可以预测每一个字符编码对于四个分类(空、逗号、句号和问号)的概率,输出每个字的之后最大概率的标点符号的类别。至此,中文标点符号预测任务完成。根据前人预训练模型的效果和经验以及结合实际的消融实验效果来看,增加额外的中文特征嵌入可以提高模型对语言的理解能力,并且对于下游任务(此处的下游任务即使中文标点符号预测任务)起到了积极的作用,即将两个嵌入和原始的RoBERTa训练的嵌入进行结合,来增加模型对中文字与字之间关联性识别,从而识别两字之间是否需要打标点符号。
在训练过程中,超参数的设置如下:batch_szie设置为16,epochs设置为12,learning_rate设置为3e-5,优化器使用的adamw优化器,训练指标选择准确率、召回率、F1-score分数和auc值四个指标来进行评估。
中文纠错模型采用PLOME模型,对于中文纠错模型的训练,该模型的训练过程具体如下:
步骤3B01、将样本数据集输入到模型中,使用基于词表的分词器来得到字符嵌入层和位置编码嵌入层;
步骤3B02、将样本数据集输入到双向LSTM的网络编码器中,得到字音嵌入层和笔画嵌入层。
步骤3B03、将字符嵌入层、位置编码嵌入层、字音嵌入层和字形嵌入层行混淆整合,整合好的向量包含了四个嵌入层的综合信息即融合嵌入;
步骤3B04、将整合好的向量输入到基于Transformer结构的中文纠错网络中,得到纠错后的文本。
步骤3C01、在训练两个模型的同时,我们提取两个模型最终得到的嵌入层输出的相对距离,将该距离进行平均归一化处理,同时加入到两个模型自身训练时的损失中,达到两个模型同步训练的效果。
本实施例公开的中文纠错模型也实现了多个错误点的纠错效果。训练过程的超参数设置中,本发明将batch_szie设置为32,epochs设置为10,learning_rate设置为5e-5,优化器采用的是Adam权重下降优化器,评估指标选择最小损失值、模型准确率以及F1-score分数。
在损失函数方面,本发明着重考虑中文标点符号预测任务中的损失函数。由于中文标点符号预测任务为多分类任务,并且选用的中文标点符号数据集中存在严重的样本不均衡的问题,即数据集中句号数量远大于问号和逗号的数量,因此使用的损失函数的是带标签权重的负对数似然函数,该损失函数可以将数据集中各个标签的权重加入到优化中,缓解样本不均衡的问题。带权重的损失值可以被定义为:
式中: 为样本数据集中第n个样本的标签yn的权重,表示为weigh[yn]表示标签yn的权重,yn≠ignoreindex,ignoreindex表示选择忽略标签的索引值,表示样本数据集中第n个样本,其标签为yn,N为样本数据集的大小。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于表征学习的中文自动语音识别文本修复方法,其特征在于,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。
2.一种基于表征学习的中文自动语音识别文本修复系统,其特征在于,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;
所述中文标点符号预测模型包括BERT中文分词器、RoBERTa预测模型、ChineseBERT预测模型、Transformer网络和分类模块;
所述BERT中文分词器:对输入的中文文本中的每一个中文词进行编码从而获得词向量;
所述RoBERTa预测模型:将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;
所述ChineseBERT预测模型:提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;
所述Transformer网络:对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;
所述分类模块:由两层线性层和两层Dropout层来进行叠加,预测每一个字符编码对于标点分类的概率,输出每个字的之后最大概率的标点符号的类别;
所述中文纠错模型采用PLOME模型。
3.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务,采用的掩码策略包括0%掩码、15%掩码以及30%掩码。
4.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述ChineseBERT预测模型中拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入;
字形嵌入:使用三种中文字体的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。
6.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述中文纠错模型输入包括四个嵌入层:字符嵌入、位置嵌入、拼音嵌入和笔画嵌入,通过查找表和预训练分词器,获得字符嵌入和位置嵌入;采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入,字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入融合后,送入12层的Transformer后得到输出。
7.一种基于表征学习的中文自动语音识别文本修复系统训练方法,其特征在于,包括如下步骤:
1)选择数据集,选择LC中文新闻数据集、Json版社区问答数据集以及SIGHAN 2015 CSCDatasets三个数据集;
2)对样本数据集进行预处理,对中文标点符号数据集中的文本标点符号异常情况进行清洗,其次去除中文标点符号数据集中BERT预测模型编码器不能识别的字符,最后使用BERT预测模型对中文标点符号数据集中的文本进行词向量的编码,作为微调预测模型的输入;
3)训练阶段,分别对中文标点符号预测模型以及对中文纠错模型进行训练,在训练两个模型的同时,提取两个模型最终得到的嵌入层输出的相对距离,将该距离进行平均归一化处理,同时加入到两个模型自身训练时的损失中,达到两个模型同步训练。
8.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法,其特征在于,所述LC中文新闻数据集以及Json版社区问答数据集作为中文标点符号预测模型训练的数据集,所述SIGHAN 2015 CSC Datasets作为中文纠错模型训练的数据集,数据集按训练识别要求分为训练集、验证集和测试集。
9.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法,其特征在于,所述中文标点符号预测模型的训练,具体包括以下步骤:
A01、将预处理好的中文文本输入到BERT中文分词器中,BERT中文分词器将每一个中文进行编码,并且给每句话的起末位置添加标志符,这样就对之后每一次输入的编码的长度进行固定;
A02、将得到的词向量分别输入到RoBERTa预测模型和ChineseBERT预测模型中,RoBERTa预测模型将词向量编码成通过预训练任务得到的字编码向量,即字编码嵌入,字编码向量包含字与字之间的关系以便后续的下游任务;ChineseBERT预测模型提取词向量的包括字音特征和字形特征的中文特征,得到拼音嵌入和字形嵌入,通过RoBERTa预测模型和ChineseBERT预测模型,得到三个嵌入层:字编码嵌入、拼音嵌入和字形嵌入;
A03、Transformer网络对三个嵌入层进行自注意力机制的学习,整合三个嵌入层的信息的同时将嵌入层的维度拉伸成之后分类模块输入的维度;
A04、将整合好的嵌入层输入至分类模型,该分类模型预测每一个字符编码对于空、逗号、句号和问号的概率,输出每个字的之后最大概率的标点符号的类别,至此,中文标点符号预测任务完成;
在训练过程中,超参数的设置如下:batch_szie设置为16,epochs设置为12,learning_rate设置为3e-5,优化器使用的adamw优化器,训练指标选择准确率、召回率、F1-score分数和auc值四个指标进行评估;
带权重的损失值被定义为:
10.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法,其特征在于,所述中文纠错模型的训练,具体包括如下步骤:
B01、将样本数据集输入到中文纠错模型中,使用基于词表的分词器来得到字符嵌入层和位置编码嵌入层;
B02、将样本数据集输入到双向LSTM的网络编码器中,得到字音嵌入层和笔画嵌入层;
B03、将字符嵌入层、位置编码嵌入层、字音嵌入层和字形嵌入层行混淆整合,整合好的向量包含了四个嵌入层的综合信息即融合嵌入;
B04、将整合好的向量输入到基于Transformer结构的中文纠错网络中,得到纠错后的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134542.9A CN115438154A (zh) | 2022-09-19 | 2022-09-19 | 基于表征学习的中文自动语音识别文本修复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134542.9A CN115438154A (zh) | 2022-09-19 | 2022-09-19 | 基于表征学习的中文自动语音识别文本修复方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438154A true CN115438154A (zh) | 2022-12-06 |
Family
ID=84248191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211134542.9A Pending CN115438154A (zh) | 2022-09-19 | 2022-09-19 | 基于表征学习的中文自动语音识别文本修复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438154A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258652A (zh) * | 2023-05-11 | 2023-06-13 | 四川大学 | 基于结构注意和文本感知的文本图像修复模型及方法 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
-
2022
- 2022-09-19 CN CN202211134542.9A patent/CN115438154A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258652A (zh) * | 2023-05-11 | 2023-06-13 | 四川大学 | 基于结构注意和文本感知的文本图像修复模型及方法 |
CN116258652B (zh) * | 2023-05-11 | 2023-07-21 | 四川大学 | 基于结构注意和文本感知的文本图像修复模型及方法 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
CN117056859A (zh) * | 2023-08-15 | 2023-11-14 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN117056859B (zh) * | 2023-08-15 | 2024-05-10 | 丁杨 | 一种对文言文中缺失文字的补全方法 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN116757184B (zh) * | 2023-08-18 | 2023-10-20 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
CN117151084B (zh) * | 2023-10-31 | 2024-02-23 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN114444479A (zh) | 一种端到端中文语音文本纠错方法、装置和存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN110704606A (zh) | 一种基于图文融合的生成式摘要生成方法 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115617955A (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
CN115795026A (zh) | 基于对比学习的中文文本摘要生成方法 | |
CN115525749A (zh) | 语音问答方法、装置、电子设备和存储介质 | |
CN115034236A (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN115617959A (zh) | 问题解答方法及装置 | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech | |
CN117150305B (zh) | 融合检索和填空的文本数据增强方法、装置及电子设备 | |
CN115905500B (zh) | 问答对数据的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |