CN115270771A - 细粒度自适应字音预测任务辅助的中文拼写纠错方法 - Google Patents

细粒度自适应字音预测任务辅助的中文拼写纠错方法 Download PDF

Info

Publication number
CN115270771A
CN115270771A CN202211219267.0A CN202211219267A CN115270771A CN 115270771 A CN115270771 A CN 115270771A CN 202211219267 A CN202211219267 A CN 202211219267A CN 115270771 A CN115270771 A CN 115270771A
Authority
CN
China
Prior art keywords
character
text
word
corrected
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211219267.0A
Other languages
English (en)
Other versions
CN115270771B (zh
Inventor
毛震东
张勇东
王泉
郭俊波
靳国庆
李佳豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Beijing University of Posts and Telecommunications
Konami Sports Club Co Ltd
Original Assignee
University of Science and Technology of China USTC
Beijing University of Posts and Telecommunications
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Beijing University of Posts and Telecommunications, People Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202211219267.0A priority Critical patent/CN115270771B/zh
Publication of CN115270771A publication Critical patent/CN115270771A/zh
Application granted granted Critical
Publication of CN115270771B publication Critical patent/CN115270771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。

Description

细粒度自适应字音预测任务辅助的中文拼写纠错方法
技术领域
本发明涉及自然语言理解领域,具体涉及一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。
背景技术
随着语音识别技术、光学字符识别等智能信息转换系统的广泛应用以及键盘写作的普及,识别错误和拼写错误的场景不可避免,那么就越来越需要计算机系统能够更准确地理解和纠正人类语言。另外,在许多自然语言处理领域的应用中,文本纠错都是这些应用的重要组成部分,比如搜索优化,机器翻译,词性标注。而且相比较其他语言,中文的汉字众多,更加容易出现用词不规范,拼写错误导致的文本错误。因此,中文拼写纠错技术具有很高的研究价值与实用价值。
现有的中文拼写纠错技术多采用基于多模态模型进行端到端地预测纠正文本的方法。由于中文拼写错误一般是由正误字符之间发音相近导致的,那么使用多模态模型对字音和语义分别进行编码,从而联合预测纠正文本,这种方法是合理的。然而这里存在缺陷:对于新引入的字音编码,虽然可以提取文本的发音信息,但是发音信息在中文拼写纠错上的利用方式是没有显式的优化的,即没有设置显式的辅助任务来引导模型利用发音信息更好的进行中文拼写纠错,大部分纠错技术没有考虑到这一点。另外,在拼写错误中往往会出现连续错别字的困难样本,以及在纠错过程中模型往往会出现过度纠正的问题,这都会导致模型纠错性能的下降。
发明内容
为解决上述技术问题,本发明提供一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。以提升拼写纠错的表现。本发明提出两种创新性的思想,第一,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;第二,设计一种有约束的迭代策略,在能够解决连续错别字的困难样本的同时也能一定程度上避免过度纠正的问题。
为解决上述技术问题,本发明采用如下技术方案:
一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:
步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;
步骤二:字音预测辅助任务的自适应权重计算:
文本第i个位置的纠正字符的优化目标
Figure DEST_PATH_IMAGE001
文本第i个位置的纠正字符对应字音的优化目标
Figure 827885DEST_PATH_IMAGE002
;其中
Figure DEST_PATH_IMAGE003
分别表示第i个位置的纠正字符及对应的字音;
Figure 126143DEST_PATH_IMAGE004
为文本长度,
Figure DEST_PATH_IMAGE005
表示预测为纠正字符对应字音的概率,
Figure 44420DEST_PATH_IMAGE006
表示预测为纠正字符的概率;
字音预测辅助任务的自适应权重
Figure DEST_PATH_IMAGE007
Figure 820746DEST_PATH_IMAGE008
;其中
Figure DEST_PATH_IMAGE009
表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码,
Figure 147560DEST_PATH_IMAGE010
表示第i个位置的纠正字符的字音编码;
Figure DEST_PATH_IMAGE011
表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度;
多模态语言模型的最终训练时的优化目标
Figure 882298DEST_PATH_IMAGE012
通过训练完成的多模态语言模型对含错文本进行拼写纠错。
具体地,多模态编码器进行文本编码时,文本中第i个位置的错误字符即文本中第i个单词
Figure DEST_PATH_IMAGE013
,文本中第i个单词
Figure 22292DEST_PATH_IMAGE013
的编码结果
Figure 602309DEST_PATH_IMAGE014
文本中第i个单词
Figure 878570DEST_PATH_IMAGE013
的编码结果经过映射后的字符编码
Figure DEST_PATH_IMAGE015
文本中第i个单词
Figure 518630DEST_PATH_IMAGE013
的编码结果经过映射后的字音编码
Figure 880341DEST_PATH_IMAGE016
其中S表示整个文本,
Figure DEST_PATH_IMAGE017
为映射层参数。
具体地,字音包括声母、韵母、音调;
文本中第i个单词
Figure 497005DEST_PATH_IMAGE013
预测为词表中第j个单词可能性
Figure 893351DEST_PATH_IMAGE018
文本中第i个单词
Figure 297788DEST_PATH_IMAGE013
的声母预测为词表中第j个单词的声母的可能性
Figure DEST_PATH_IMAGE019
文本中第i个单词
Figure 818899DEST_PATH_IMAGE013
的韵母预测为词表中第j个单词的韵母的可能性
Figure 209560DEST_PATH_IMAGE020
文本中第i个单词
Figure 460413DEST_PATH_IMAGE013
的音调预测为词表中第j个单词的音调的可能性
Figure DEST_PATH_IMAGE021
Figure 442275DEST_PATH_IMAGE022
为词表长度,
Figure DEST_PATH_IMAGE023
分别代表声母总数量、韵母总数量、声调总数量,具体来说,声母为23个,韵母为34个,声调为5个,c表示纠正字符,
Figure 309737DEST_PATH_IMAGE024
分别对应着纠正字符的声母、韵母和音调,Decoder选择多层感知机MLP。
进一步地,训练完成的多模态语言模型对含错文本进行中文拼写纠错时,对于每一个输入的文本,以迭代方式检测并纠正拼写错误:在每一次迭代中,满足条件A的纠正字符被保留下来,不满足条件A的纠正字符被舍弃,在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,则将该位置恢复成不做任何纠正的原始字符;
条件A:
Figure DEST_PATH_IMAGE025
,其中pos为本次迭代纠正字符的位置,a为上一次迭代纠正字符的位置,
Figure 527923DEST_PATH_IMAGE026
为上一次迭代纠正字符的集合,w为人为设置的窗口大小参数;
即在每一次迭代中,只有出现在上次纠正位置附近窗口内的纠正字符被保留下来,其余不在窗口内的纠正字符被舍弃,当w=2时,以每个上次的纠正字符的位置为中心,取大小为4的窗口,窗口内新的纠正字符将被保留,其余将被舍弃。。
与现有技术相比,本发明的有益技术效果是:
本发明提出了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,包括训练时的细粒度字音预测辅助任务的设置、该辅助任务自适应权重的设计、推理时带约束的迭代策略三部分:(1)字音预测辅助任务的设置使得在拼写纠错任务中多模态的字音编码发挥更大的作用;(2)进一步,在训练时针对不同样本输入输出发音上不同的相似度给予辅助任务以不同的优化权重,使得不同样本能通过辅助任务对拼写纠错不同程度上的增益充分发挥;(3)最后在模型推理时,带约束的迭代策略有效地解决了连续错别字的困难样本和模型容易过度纠正的问题。
另外,辅助任务的设置只存在于训练阶段,单纯地为了提升模型在中文拼写纠错任务上的性能而存在,并不会导致推理阶段模型占用内存的增大和推理时间的增加;带约束的迭代策略不局限于特定模型,具有通用性。
附图说明
图1为本发明的模型训练流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
中文拼写纠错任务通常被定义为:给定一段可能包含拼写错误的文本作为输入数据,确定错误文本位置(错误检测),然后针对错误位置进行字符纠正,生成对应的正确文本;即拼写纠错包括错误检测和字符纠正。
本发明提出的模型的训练流程如图1所示,包括以下部分:(1)模型训练时设置细粒度的字音预测辅助任务;(2)为字音预测辅助任务设置自适应权重;(3)另外,本发明在模型进行拼写纠错时引入:带有约束的迭代策略。
(1)细粒度的字音预测辅助任务
首先将含错文本送到多模态编码器进行文本编码,本实施例中,多模态编码器选择预训练模型ChineseBERT。
然后,将编码结果通过不同的映射得到字符编码和字音编码,最后分别送到汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音,解码的过程也可称为预测;其中字音包括声母、韵母、音调三部分。
文本中第i个单词
Figure 633283DEST_PATH_IMAGE013
的编码结果
Figure 520467DEST_PATH_IMAGE014
文本中第i个单词
Figure 78487DEST_PATH_IMAGE013
的编码结果经过映射后的字符编码
Figure 201164DEST_PATH_IMAGE015
文本中第i个单词
Figure 301975DEST_PATH_IMAGE013
的编码结果经过映射后的字音编码
Figure 219116DEST_PATH_IMAGE016
其中S表示整个文本,
Figure 670957DEST_PATH_IMAGE017
为映射层参数。
文本中第i个单词
Figure 331745DEST_PATH_IMAGE013
预测为词表中第j个单词可能性
Figure 146118DEST_PATH_IMAGE018
文本中第i个单词
Figure 139219DEST_PATH_IMAGE013
的声母预测为词表中第j个单词的声母的可能性
Figure 671832DEST_PATH_IMAGE019
文本中第i个单词
Figure 870732DEST_PATH_IMAGE013
的韵母预测为词表中第j个单词的韵母的可能性
Figure 946135DEST_PATH_IMAGE020
文本中第i个单词
Figure 470657DEST_PATH_IMAGE013
的音调预测为词表中第j个单词的音调的可能性
Figure 490566DEST_PATH_IMAGE021
其中,S表示整个文本,
Figure DEST_PATH_IMAGE027
为文本长度,
Figure 165261DEST_PATH_IMAGE028
是映射层参数,
Figure 954225DEST_PATH_IMAGE022
为词表长度,同理,
Figure DEST_PATH_IMAGE029
分别对应着纠正字符的声母、韵母和音调,这里Decoder可以是简单的多层感知机MLP,也可以是更加复杂的网络模型。
由于拼写错误与易混淆的字音息息相关,所以这里将字音预测作为辅助任务,会帮助模型提升在中文拼写纠错上的性能。另外辅助任务的细粒度体现在将汉字的字音分解为声母、韵母和音调,而不是直接预测整个拼音。
本发明中文本第i个单词
Figure 790594DEST_PATH_IMAGE013
和第i个位置的纠正字符以及对应字音的关系为:文本中第i个单词
Figure 297799DEST_PATH_IMAGE013
经过编码、映射后得到字符编码和字音编码,字符编码和字音编码经过解码器得到第i个位置的纠正字符以及对应的字音。
(2)自适应任务权重
上述拼写纠错任务和字音预测任务的优化目标可表示为:
文本第i个位置的纠正字符的优化目标
Figure 743562DEST_PATH_IMAGE030
文本第i个位置的纠正字符对应字音的优化目标
Figure DEST_PATH_IMAGE031
其中,
Figure 652612DEST_PATH_IMAGE032
分别表示文本第i个位置的纠正字符及其对应的字音(发音单元)。
为了在训练中为字音预测辅助任务添加自适应的权重,考虑到在错误和纠正字符对之间如果发音越相近,那么拼写错误就更有可能是由发音导致,那么字音预测辅助任务对于拼写纠错主任务就有更大的帮助,训练时给予这种样本的辅助任务优化目标更大的权重。
具体地,先根据映射后的字音编码来计算错误字符和纠正字符之间的发音相似度,然后将该相似度作为辅助任务优化目标的权重,与拼写纠错任务的优化目标一起得出最终的训练时优化目标:
字音预测辅助任务的自适应权重
Figure 659882DEST_PATH_IMAGE007
Figure 388804DEST_PATH_IMAGE008
多模态语言模型的最终训练时的优化目标
Figure 998777DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE033
表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码,
Figure 168858DEST_PATH_IMAGE034
表示第i个位置的纠正字符的字音编码;
Figure 81450DEST_PATH_IMAGE011
表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度。
需要注意的是,自适应权重是不需要梯度反向传播的,只是数值计算;另外,字音预测辅助任务包括自适应权重计算只发生在训练阶段,拼写纠错阶段只需要字符解码这一分支即可,拼写纠错阶段也称为推理阶段。
(3)带约束的迭代策略
为了解决具有连续错别字的困难样本和模型容易过度纠正的问题,在模型推理阶段提出了一种简单但有效的有约束的迭代机制。
具体地,在推理的时候,对于每一个输入的句子,以一种迭代的方式检测和纠正拼写错误。在每一次迭代中,只有出现在上次纠正位置附近窗口内的纠正才被保留下来,其余不在窗口内地纠正被舍弃。在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,那么将该位置恢复成不做任何纠正原始字符。
对于纠正位置设置窗口的约束,可以在解决连续错别字的同时一定程度上防止纠错模型的错误传播。迭代完成后的后处理约束可以解决纠错模型过度纠正的问题。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:
步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;
步骤二:字音预测辅助任务的自适应权重计算:
文本第i个位置的纠正字符的优化目标
Figure 575438DEST_PATH_IMAGE001
文本第i个位置的纠正字符对应字音的优化目标
Figure 915284DEST_PATH_IMAGE002
Figure 849742DEST_PATH_IMAGE003
;其中
Figure 374264DEST_PATH_IMAGE004
分别表示第i个位置的纠正字符及对应的字音;
Figure 33653DEST_PATH_IMAGE005
为文本长度,
Figure 36244DEST_PATH_IMAGE006
表示预测为纠正字符对应字音的概率,
Figure 966154DEST_PATH_IMAGE007
表示预测为纠正字符的概率;
字音预测辅助任务的自适应权重
Figure 661578DEST_PATH_IMAGE008
Figure 168782DEST_PATH_IMAGE009
;其中
Figure 850430DEST_PATH_IMAGE010
表示文本中第i个位置的错误字符的编码结果经过映射后的字音编码,
Figure 759481DEST_PATH_IMAGE011
表示第i个位置的纠正字符的字音编码;
Figure 360226DEST_PATH_IMAGE012
表示文本第i个位置的错误字符和纠正字符的字音编码余弦相似度;
多模态语言模型的最终训练时的优化目标
Figure 495673DEST_PATH_IMAGE013
通过训练完成的多模态语言模型对含错文本进行拼写纠错。
2.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法,其特征在于:多模态编码器进行文本编码时,文本中第i个位置的错误字符即文本中第i个单词
Figure 840066DEST_PATH_IMAGE014
,文本中第i个单词
Figure 869202DEST_PATH_IMAGE014
的编码结果
Figure 14750DEST_PATH_IMAGE015
文本中第i个单词
Figure 496547DEST_PATH_IMAGE014
的编码结果经过映射后的字符编码
Figure 910211DEST_PATH_IMAGE016
文本中第i个单词
Figure 403640DEST_PATH_IMAGE014
的编码结果经过映射后的字音编码
Figure 877347DEST_PATH_IMAGE017
其中S表示整个文本,
Figure 580861DEST_PATH_IMAGE018
为映射层参数。
3.根据权利要求2所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法,其特征在于:字音包括声母、韵母、音调;
文本中第i个单词
Figure 142423DEST_PATH_IMAGE014
预测为词表中第j个单词可能性
Figure 146151DEST_PATH_IMAGE019
文本中第i个单词
Figure 259601DEST_PATH_IMAGE014
的声母预测为词表中第j个单词的声母的可能性
Figure 325777DEST_PATH_IMAGE020
文本中第i个单词
Figure 81244DEST_PATH_IMAGE014
的韵母预测为词表中第j个单词的韵母的可能性
Figure 673899DEST_PATH_IMAGE021
文本中第i个单词
Figure 857450DEST_PATH_IMAGE014
的音调预测为词表中第j个单词的音调的可能性
Figure 535556DEST_PATH_IMAGE022
Figure 704500DEST_PATH_IMAGE023
为词表长度,
Figure 151662DEST_PATH_IMAGE024
分别代表声母总数量、韵母总数量、声调总数量,c表示纠正字符,
Figure 872494DEST_PATH_IMAGE025
分别对应着纠正字符的声母、韵母和音调,Decoder选择多层感知机MLP。
4.根据权利要求1所述的细粒度自适应字音预测任务辅助的中文拼写纠错方法,其特征在于:训练完成的多模态语言模型对含错文本进行中文拼写纠错时,对于每一个输入的文本,以迭代方式检测并纠正拼写错误:在每一次迭代中,满足条件A的纠正字符被保留下来,不满足条件A的纠正字符被舍弃,在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,则将该位置恢复成不做任何纠正的原始字符;
条件A:
Figure 178841DEST_PATH_IMAGE026
,其中pos为本次迭代纠正字符的位置,a为上一次迭代纠正字符的位置,
Figure 10531DEST_PATH_IMAGE027
为上一次迭代纠正字符的集合,w为人为设置的窗口大小参数。
CN202211219267.0A 2022-10-08 2022-10-08 细粒度自适应字音预测任务辅助的中文拼写纠错方法 Active CN115270771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211219267.0A CN115270771B (zh) 2022-10-08 2022-10-08 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211219267.0A CN115270771B (zh) 2022-10-08 2022-10-08 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Publications (2)

Publication Number Publication Date
CN115270771A true CN115270771A (zh) 2022-11-01
CN115270771B CN115270771B (zh) 2023-01-17

Family

ID=83757810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211219267.0A Active CN115270771B (zh) 2022-10-08 2022-10-08 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Country Status (1)

Country Link
CN (1) CN115270771B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629346A (zh) * 2023-07-24 2023-08-22 成都云栈科技有限公司 一种用于实验室知识传承的模型训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
US20210397780A1 (en) * 2020-12-22 2021-12-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, device, and storage medium for correcting error in text
CN113988063A (zh) * 2021-11-02 2022-01-28 河南中原消费金融股份有限公司 一种文本纠错方法、装置、设备及计算机可读存储介质
CN114386371A (zh) * 2022-03-25 2022-04-22 中国科学技术大学 中文拼写纠错方法、系统、设备及存储介质
WO2022105180A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 一种中文拼写纠错方法、装置、计算机设备及存储介质
CN115081430A (zh) * 2022-05-24 2022-09-20 中国科学院自动化研究所 中文拼写检错纠错方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
WO2022105180A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 一种中文拼写纠错方法、装置、计算机设备及存储介质
US20210397780A1 (en) * 2020-12-22 2021-12-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, device, and storage medium for correcting error in text
CN113988063A (zh) * 2021-11-02 2022-01-28 河南中原消费金融股份有限公司 一种文本纠错方法、装置、设备及计算机可读存储介质
CN114386371A (zh) * 2022-03-25 2022-04-22 中国科学技术大学 中文拼写纠错方法、系统、设备及存储介质
CN115081430A (zh) * 2022-05-24 2022-09-20 中国科学院自动化研究所 中文拼写检错纠错方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629346A (zh) * 2023-07-24 2023-08-22 成都云栈科技有限公司 一种用于实验室知识传承的模型训练方法及装置
CN116629346B (zh) * 2023-07-24 2023-10-20 成都云栈科技有限公司 一种语言模型训练方法及装置

Also Published As

Publication number Publication date
CN115270771B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN111480197B (zh) 语音识别系统
EP3516650B1 (en) Method and system for training a multi-language speech recognition network
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN114023316A (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN114818668A (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN115293138B (zh) 一种文本纠错方法及计算机设备
Sokolov et al. Neural machine translation for multilingual grapheme-to-phoneme conversion
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN114023306B (zh) 用于预训练语言模型的处理方法和口语语言理解系统
CN114818669A (zh) 一种人名纠错模型的构建方法和计算机设备
CN114333760B (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
Park et al. Korean grapheme unit-based speech recognition using attention-ctc ensemble network
CN116453500A (zh) 小语种的语音合成方法、系统、电子设备和存储介质
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
Duan et al. Pinyin as a feature of neural machine translation for Chinese speech recognition error correction
Raval et al. End-to-end automatic speech recognition for Gujarati
CN117524193B (zh) 中英混合语音识别系统训练方法、装置、设备及介质
CN113571037B (zh) 一种汉语盲文语音合成方法及系统
CN117877460B (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN118038873A (zh) 一种基于发音指导的语音识别文本纠错方法
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
Wang et al. Research on Russian Cultural Transliteration Algorithm Based on Hidden Markov Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant