CN115270771A - 细粒度自适应字音预测任务辅助的中文拼写纠错方法 - Google Patents
细粒度自适应字音预测任务辅助的中文拼写纠错方法 Download PDFInfo
- Publication number
- CN115270771A CN115270771A CN202211219267.0A CN202211219267A CN115270771A CN 115270771 A CN115270771 A CN 115270771A CN 202211219267 A CN202211219267 A CN 202211219267A CN 115270771 A CN115270771 A CN 115270771A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- word
- corrected
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
Description
技术领域
本发明涉及自然语言理解领域,具体涉及一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。
背景技术
随着语音识别技术、光学字符识别等智能信息转换系统的广泛应用以及键盘写作的普及,识别错误和拼写错误的场景不可避免,那么就越来越需要计算机系统能够更准确地理解和纠正人类语言。另外,在许多自然语言处理领域的应用中,文本纠错都是这些应用的重要组成部分,比如搜索优化,机器翻译,词性标注。而且相比较其他语言,中文的汉字众多,更加容易出现用词不规范,拼写错误导致的文本错误。因此,中文拼写纠错技术具有很高的研究价值与实用价值。
现有的中文拼写纠错技术多采用基于多模态模型进行端到端地预测纠正文本的方法。由于中文拼写错误一般是由正误字符之间发音相近导致的,那么使用多模态模型对字音和语义分别进行编码,从而联合预测纠正文本,这种方法是合理的。然而这里存在缺陷:对于新引入的字音编码,虽然可以提取文本的发音信息,但是发音信息在中文拼写纠错上的利用方式是没有显式的优化的,即没有设置显式的辅助任务来引导模型利用发音信息更好的进行中文拼写纠错,大部分纠错技术没有考虑到这一点。另外,在拼写错误中往往会出现连续错别字的困难样本,以及在纠错过程中模型往往会出现过度纠正的问题,这都会导致模型纠错性能的下降。
发明内容
为解决上述技术问题,本发明提供一种细粒度自适应字音预测任务辅助的中文拼写纠错方法。以提升拼写纠错的表现。本发明提出两种创新性的思想,第一,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;第二,设计一种有约束的迭代策略,在能够解决连续错别字的困难样本的同时也能一定程度上避免过度纠正的问题。
为解决上述技术问题,本发明采用如下技术方案:
一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:
步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;
步骤二:字音预测辅助任务的自适应权重计算:
通过训练完成的多模态语言模型对含错文本进行拼写纠错。
具体地,字音包括声母、韵母、音调;
进一步地,训练完成的多模态语言模型对含错文本进行中文拼写纠错时,对于每一个输入的文本,以迭代方式检测并纠正拼写错误:在每一次迭代中,满足条件A的纠正字符被保留下来,不满足条件A的纠正字符被舍弃,在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,则将该位置恢复成不做任何纠正的原始字符;
即在每一次迭代中,只有出现在上次纠正位置附近窗口内的纠正字符被保留下来,其余不在窗口内的纠正字符被舍弃,当w=2时,以每个上次的纠正字符的位置为中心,取大小为4的窗口,窗口内新的纠正字符将被保留,其余将被舍弃。。
与现有技术相比,本发明的有益技术效果是:
本发明提出了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,包括训练时的细粒度字音预测辅助任务的设置、该辅助任务自适应权重的设计、推理时带约束的迭代策略三部分:(1)字音预测辅助任务的设置使得在拼写纠错任务中多模态的字音编码发挥更大的作用;(2)进一步,在训练时针对不同样本输入输出发音上不同的相似度给予辅助任务以不同的优化权重,使得不同样本能通过辅助任务对拼写纠错不同程度上的增益充分发挥;(3)最后在模型推理时,带约束的迭代策略有效地解决了连续错别字的困难样本和模型容易过度纠正的问题。
另外,辅助任务的设置只存在于训练阶段,单纯地为了提升模型在中文拼写纠错任务上的性能而存在,并不会导致推理阶段模型占用内存的增大和推理时间的增加;带约束的迭代策略不局限于特定模型,具有通用性。
附图说明
图1为本发明的模型训练流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
中文拼写纠错任务通常被定义为:给定一段可能包含拼写错误的文本作为输入数据,确定错误文本位置(错误检测),然后针对错误位置进行字符纠正,生成对应的正确文本;即拼写纠错包括错误检测和字符纠正。
本发明提出的模型的训练流程如图1所示,包括以下部分:(1)模型训练时设置细粒度的字音预测辅助任务;(2)为字音预测辅助任务设置自适应权重;(3)另外,本发明在模型进行拼写纠错时引入:带有约束的迭代策略。
(1)细粒度的字音预测辅助任务
首先将含错文本送到多模态编码器进行文本编码,本实施例中,多模态编码器选择预训练模型ChineseBERT。
然后,将编码结果通过不同的映射得到字符编码和字音编码,最后分别送到汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音,解码的过程也可称为预测;其中字音包括声母、韵母、音调三部分。
由于拼写错误与易混淆的字音息息相关,所以这里将字音预测作为辅助任务,会帮助模型提升在中文拼写纠错上的性能。另外辅助任务的细粒度体现在将汉字的字音分解为声母、韵母和音调,而不是直接预测整个拼音。
(2)自适应任务权重
上述拼写纠错任务和字音预测任务的优化目标可表示为:
为了在训练中为字音预测辅助任务添加自适应的权重,考虑到在错误和纠正字符对之间如果发音越相近,那么拼写错误就更有可能是由发音导致,那么字音预测辅助任务对于拼写纠错主任务就有更大的帮助,训练时给予这种样本的辅助任务优化目标更大的权重。
具体地,先根据映射后的字音编码来计算错误字符和纠正字符之间的发音相似度,然后将该相似度作为辅助任务优化目标的权重,与拼写纠错任务的优化目标一起得出最终的训练时优化目标:
需要注意的是,自适应权重是不需要梯度反向传播的,只是数值计算;另外,字音预测辅助任务包括自适应权重计算只发生在训练阶段,拼写纠错阶段只需要字符解码这一分支即可,拼写纠错阶段也称为推理阶段。
(3)带约束的迭代策略
为了解决具有连续错别字的困难样本和模型容易过度纠正的问题,在模型推理阶段提出了一种简单但有效的有约束的迭代机制。
具体地,在推理的时候,对于每一个输入的句子,以一种迭代的方式检测和纠正拼写错误。在每一次迭代中,只有出现在上次纠正位置附近窗口内的纠正才被保留下来,其余不在窗口内地纠正被舍弃。在迭代完成后,如果一个位置的字符在每次迭代时都会被纠正,那么将该位置恢复成不做任何纠正原始字符。
对于纠正位置设置窗口的约束,可以在解决连续错别字的同时一定程度上防止纠错模型的错误传播。迭代完成后的后处理约束可以解决纠错模型过度纠正的问题。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,通过字音预测辅助任务来引导多模态语言模型利用发音信息进行在中文拼写纠错;多模态语言模型的训练步骤包括:
步骤一:将含错文本送到多模态编码器进行文本编码,将编码结果通过不同的映射得到字符编码和字音编码,将字符编码和字音编码分别输入至汉字解码器和字音解码器中,解码出纠正字符以及纠正字符对应的字音;其中,映射得到字音编码并解码出纠正字符对应字音的过程即为字音预测辅助任务;
步骤二:字音预测辅助任务的自适应权重计算:
通过训练完成的多模态语言模型对含错文本进行拼写纠错。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219267.0A CN115270771B (zh) | 2022-10-08 | 2022-10-08 | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219267.0A CN115270771B (zh) | 2022-10-08 | 2022-10-08 | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270771A true CN115270771A (zh) | 2022-11-01 |
CN115270771B CN115270771B (zh) | 2023-01-17 |
Family
ID=83757810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211219267.0A Active CN115270771B (zh) | 2022-10-08 | 2022-10-08 | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270771B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629346A (zh) * | 2023-07-24 | 2023-08-22 | 成都云栈科技有限公司 | 一种用于实验室知识传承的模型训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021189851A1 (zh) * | 2020-09-03 | 2021-09-30 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
US20210397780A1 (en) * | 2020-12-22 | 2021-12-23 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, device, and storage medium for correcting error in text |
CN113988063A (zh) * | 2021-11-02 | 2022-01-28 | 河南中原消费金融股份有限公司 | 一种文本纠错方法、装置、设备及计算机可读存储介质 |
CN114386371A (zh) * | 2022-03-25 | 2022-04-22 | 中国科学技术大学 | 中文拼写纠错方法、系统、设备及存储介质 |
WO2022105180A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种中文拼写纠错方法、装置、计算机设备及存储介质 |
CN115081430A (zh) * | 2022-05-24 | 2022-09-20 | 中国科学院自动化研究所 | 中文拼写检错纠错方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-08 CN CN202211219267.0A patent/CN115270771B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021189851A1 (zh) * | 2020-09-03 | 2021-09-30 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
WO2022105180A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种中文拼写纠错方法、装置、计算机设备及存储介质 |
US20210397780A1 (en) * | 2020-12-22 | 2021-12-23 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, device, and storage medium for correcting error in text |
CN113988063A (zh) * | 2021-11-02 | 2022-01-28 | 河南中原消费金融股份有限公司 | 一种文本纠错方法、装置、设备及计算机可读存储介质 |
CN114386371A (zh) * | 2022-03-25 | 2022-04-22 | 中国科学技术大学 | 中文拼写纠错方法、系统、设备及存储介质 |
CN115081430A (zh) * | 2022-05-24 | 2022-09-20 | 中国科学院自动化研究所 | 中文拼写检错纠错方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629346A (zh) * | 2023-07-24 | 2023-08-22 | 成都云栈科技有限公司 | 一种用于实验室知识传承的模型训练方法及装置 |
CN116629346B (zh) * | 2023-07-24 | 2023-10-20 | 成都云栈科技有限公司 | 一种语言模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115270771B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111480197B (zh) | 语音识别系统 | |
EP3516650B1 (en) | Method and system for training a multi-language speech recognition network | |
CN111199727B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN114023316A (zh) | 基于TCN-Transformer-CTC的端到端中文语音识别方法 | |
CN109410949B (zh) | 基于加权有限状态转换器的文本内容添加标点方法 | |
CN115293139B (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN114818668A (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
Sokolov et al. | Neural machine translation for multilingual grapheme-to-phoneme conversion | |
CN115270771B (zh) | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 | |
CN114023306B (zh) | 用于预训练语言模型的处理方法和口语语言理解系统 | |
CN114818669A (zh) | 一种人名纠错模型的构建方法和计算机设备 | |
CN114333760B (zh) | 一种信息预测模块的构建方法、信息预测方法及相关设备 | |
Park et al. | Korean grapheme unit-based speech recognition using attention-ctc ensemble network | |
CN116453500A (zh) | 小语种的语音合成方法、系统、电子设备和存储介质 | |
CN115171647A (zh) | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
Duan et al. | Pinyin as a feature of neural machine translation for Chinese speech recognition error correction | |
Raval et al. | End-to-end automatic speech recognition for Gujarati | |
CN117524193B (zh) | 中英混合语音识别系统训练方法、装置、设备及介质 | |
CN113571037B (zh) | 一种汉语盲文语音合成方法及系统 | |
CN117877460B (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN118038873A (zh) | 一种基于发音指导的语音识别文本纠错方法 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
Wang et al. | Research on Russian Cultural Transliteration Algorithm Based on Hidden Markov Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |