CN114065738B - 基于多任务学习的中文拼写纠错方法 - Google Patents

基于多任务学习的中文拼写纠错方法 Download PDF

Info

Publication number
CN114065738B
CN114065738B CN202210023934.1A CN202210023934A CN114065738B CN 114065738 B CN114065738 B CN 114065738B CN 202210023934 A CN202210023934 A CN 202210023934A CN 114065738 B CN114065738 B CN 114065738B
Authority
CN
China
Prior art keywords
sentence
vector
text
correct
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210023934.1A
Other languages
English (en)
Other versions
CN114065738A (zh
Inventor
刘洋
刘酃威
林中尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Dademaning Information Technology Co ltd
Original Assignee
Hunan Dademaning Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Dademaning Information Technology Co ltd filed Critical Hunan Dademaning Information Technology Co ltd
Priority to CN202210023934.1A priority Critical patent/CN114065738B/zh
Publication of CN114065738A publication Critical patent/CN114065738A/zh
Application granted granted Critical
Publication of CN114065738B publication Critical patent/CN114065738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多任务学习的中文拼写纠错方法,包括:步骤1,将样例句文本和标签句文本以特定格式输入文本编码模块,文本编码模块输出文本向量;步骤2,将文本向量中句子起始的标识符对应的向量输入正确句判别模块;步骤3,将文本向量中样例句对应的向量输入字级别多分类模块,字级别多分类模块将输出输入候选字生成模块的语义混淆集中。本发明提出了正确句判别任务,通过在训练过程中构建句子对,模型需要识别句子对中不含错误的句子,能够让模型具有基于句子级别分辨正确语句与错误语句的能力,同时和预训练模型的句子对顺序预测任务较好契合,更好的挖掘利用了预训练模型在拼写校对领域的能力,具备更好的识别正确句的能力。

Description

基于多任务学习的中文拼写纠错方法
技术领域
本发明涉及中文拼写纠错技术领域,特别涉及一种基于多任务学习的中文拼写纠错方法。
背景技术
随着计算机应用技术的快速发展,越来越多的信息通过网络为媒介进行传播,随着信息数量的快速增长,信息的质量却难以得到保障,低质量的信息会破坏网络环境,同时传播错误知识,文字是网络信息中最多也最重要的承载体,而拼写错误是文字信息中最频繁且最容易出现的一类错误,传统人工对文本进行校对的方式,已经无法处理如今海量的数据,近些年提出的基于深度学习模型架构的拼写校对系统,依赖于预训练模型,且聚焦于字级别的分类任务,主要存在三个问题:依赖于深度学习的拼写校对系统,未充分考量整体句子语境,仅从字级别推断最可能正确的字,而不同句子、不同语义场景下最可能的字不同。
目前对于预训练模型的使用,仅挖掘利用了其中的掩码语言模型部分,忽略了另一个预训练任务:句子顺序预测,没有充分发挥预训练模型在文本校对领域的潜能。
中文拼写纠错方法分为两种,一种是端到端的方法,即直接让模型做约2万分类的多分类任务,其任务难度高,效率低。而另一种非端到端的方法,即模型先完成检错,再完成纠错,然而目前基于非端到端的方法,检错和纠错两个模块缺少交互,无法互相促进。
发明内容
本发明提供了一种基于多任务学习的中文拼写纠错方法,其目的是为了解决了传统的中文拼写纠错方法未充分考量整体句子语境,任务难度高,效率低的问题。
为了达到上述目的,本发明的实施例提供了一种基于多任务学习的中文拼写纠错方法,包括:
步骤1,将样例句文本和标签句文本以特定格式输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量中句子起始的标识符对应的向量输入正确句判别模块;
步骤3,将文本向量中样例句对应的向量输入字级别多分类模块,字级别多分类模块将输出输入候选字生成模块的语义混淆集中;
步骤4,将文本向量中样例句对应的向量输入字级别二分类模块,字级别二分类模块将输出输入候选字生成模块,提供样例句中每个位置字符的正误信息;
步骤5,根据字级别二分类模块的输出,取出样例句中可能存在错误的位置上的字,分别基于字音混淆集和字形混淆集,取出对应的字音候选字和字形候选字,候选字生成模块将所有语义、字音和字形候选字输入语言模型评分模块;
步骤6,语言模型评分模块将所有候选字依次替换到句中,得到对应的候选句,基于所有候选句计算语句困惑度并排序,得到中文拼写纠错结果。
其中,所述步骤1具体包括:
步骤11,将样例句文本和标签句文本打乱顺序后拼接,文本拼接形式为[CLS]+senA+[SEP]+senB,将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型;其中,[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符,[SEP]表示MacBERT自编码预训练模型预定义的的分割两个句子的标识符,senAsenB表示样例句或标签句,当senA为样例句时,senB为标签句,当senA为标签句时,senB为样例句,样例句表示训练时的原句,标签句表示样例句对应的不含错误的语句;
步骤12,通过MacBERT自编码预训练模型对输入的拼接后的文本进行编码,得到文本的向量化表示hR L×d ,其中,h表示文本的向量表示,L表示文本的长度,d表示编码维度,R表示文本经MacBERT自编码预训练模型转化后的向量表示;
步骤13,文本编码模块将编码后指示句子起始的标识符对应的向量clsR 1×d 输入正确句判断模块,将样例句对应的向量表示senAR La×d 分别输入字级别多分类模块和字级别二分类模块,其中,L a 表示样例句的长度。
其中,所述步骤2具体包括:
步骤21,正确句判断模块构建全连接层做三分类任务,将cls向量作为全连接层的输入,输出正确句判断结果logit cls ,正确句判断结果表示输入的两个句子为正确句的概率,正确句判断结果为0时,表示senA为正确句,正确句判断结果为1时,表示senB为正确句,正确句判断结果为2时,表示senAsenB均为正确句。
其中,所述步骤3具体包括:
步骤31,字级别二分类模块构建全连接层,将senAR La×d 向量作为全连接层的输入,字级别二分类模块输出pre 2R La×1向量,将输出的pre 2R La×1向量转换为对应的汉字输入候选字生成模块,其中,样例句中每个字对应一个标签,表示该位置的字是否正确,0表示正确,1表示错误。
其中,所述步骤4具体包括:
步骤41,字级别多分类模块构建全连接层,将senAR La×d 向量作为全连接层的输入,字级别多分类模块将正确概率大的前三个输出,输出表示为pre 2R La×3
步骤42,将输出的pre 2R La×3向量转换为对应的汉字输入候选字生成模块,作为语义混淆集。
其中,所述步骤5具体包括:
步骤51,候选字生成模块提取pre 2R La×1向量中存在错误的位置的原字;
步骤52,从字音混淆集和字形混淆集中,查表取得对应的音近候选字和形近候选字;
步骤53,从pre 2R La×3向量中取得对应位置生成的语义候选字;
步骤54,将音近候选字、形近候选字和语义候选字与对应的位置原字进行合并得到候选字输入语言模型评分模块。
其中,所述步骤6具体包括:
步骤61,语言模型评分模块基于预先收集的大规模语料对自回归语言模型进行微调,自回归语言模型为GPT预训练模型;
步骤62,将候选字生成模块得到的候选字分别替换到句中,得到对应的候选句;
步骤63,将得到的所有候选句通过GPT语言模型计算语句困惑度;
步骤64,基于计算得到的语句困惑度进行排序,选取语句困惑度最低的候选句作为最终的输出,得到中文拼写纠错结果。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,提出了新颖的正确句判别任务,通过在训练过程中构建句子对,模型需要识别句子对中不含错误的句子,能够让模型具有基于句子级别分辨正确语句与错误语句的能力,同时和预训练模型的句子对顺序预测任务较好契合,更好的挖掘利用了预训练模型在拼写校对领域的能力,具备更好的识别正确句的能力,任务难度低,效率高。
附图说明
图1为本发明的总体流程图;
图2为本发明的具体流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的中文拼写纠错方法未充分考量整体句子语境,任务难度高,效率低的问题,提供了一种基于多任务学习的中文拼写纠错方法。
如图1至图2所示,本发明的实施例提供了一种基于多任务学习的中文拼写纠错方法,包括:步骤1,将样例句文本和标签句文本以特定格式输入文本编码模块,文本编码模块输出文本向量;步骤2,将文本向量中句子起始的标识符对应的向量输入正确句判别模块;步骤3,将文本向量中样例句对应的向量输入字级别多分类模块,字级别多分类模块将输出输入候选字生成模块的语义混淆集中;步骤4,将文本向量中样例句对应的向量输入字级别二分类模块,字级别二分类模块将输出输入候选字生成模块,提供样例句中每个位置字符的正误信息;步骤5,根据字级别二分类模块的输出,取出样例句中可能存在错误的位置上的字,分别基于字音混淆集和字形混淆集,取出对应的字音候选字和字形候选字,候选字生成模块将所有语义、字音和字形候选字输入语言模型评分模块;步骤6,语言模型评分模块将所有候选字依次替换到句中,得到对应的候选句,基于所有候选句计算语句困惑度并排序,得到中文拼写纠错结果。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,在中文拼写校对任务中,所述基于多任务学习的中文拼写纠错方法对于中文拼写校对任务提出了四个子任务,分别设立正确句判别模块、字级别二分类模块、字级别多分类模块和候选句评分模块分别进行处理,所述基于多任务学习的中文拼写纠错方法提出基于字音混淆集、字形混淆集和语义混淆集三种混淆集共同生成候选字集,扩充候选字范围及准确率,所述基于多任务学习的中文拼写纠错方法提出使用生成式预训练模型GPT计算语句困惑度,以判定选取哪一个候选字作为最终结果,以进一步提升拼写校对准确度,所述基于多任务学习的中文拼写纠错方法通过正确句判别、字级别二分类、字级别多分类三个模块进行联合训练,以提升各模块表现,提升训练后模型拼写校对的正确率,所述基于多任务学习的中文拼写纠错方法能提高中文拼写校对的精度,通过将正确句判别模块、字级别二分类模块和字级别多分类模块三个模块进行联合训练,更好的通过预训练模型抽取句子级别和字级别的特征,同时将较难的两万分类的多分类任务拆解为一个字级别二分类模块负责检错,候选字生成模块和正确句判别模块两模块共同负责纠错,简化了任务难度,提升了模型性能。同时通过多任务学习,使多模块之间产生交互,共同提升性能。
其中,所述步骤1具体包括:步骤11,将样例句文本和标签句文本打乱顺序后拼接,文本拼接形式为[CLS]+senA+[SEP]+senB,将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型;其中,[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符,[SEP]表示MacBERT自编码预训练模型预定义的的分割两个句子的标识符,senAsenB表示样例句或标签句,当senA为样例句时,senB为标签句,当senA为标签句时,senB为样例句,样例句表示训练时的原句,标签句表示样例句对应的不含错误的语句;步骤12,通过MacBERT自编码预训练模型对输入的拼接后的文本进行编码,得到文本的向量化表示hR L×d ,其中,h表示文本的向量表示,L表示文本的长度,d表示编码维度,R表示文本经MacBERT自编码预训练模型转化后的向量表示;步骤13,文本编码模块将编码后指示句子起始的标识符对应的向量clsR 1×d 输入正确句判断模块,将样例句对应的向量表示senAR La×d 分别输入字级别多分类模块和字级别二分类模块,其中,L a 表示样例句的长度。
其中,所述步骤2具体包括:步骤21,正确句判断模块构建全连接层做三分类任务,将cls向量作为全连接层的输入,输出正确句判断结果logit cls ,正确句判断结果表示输入的两个句子为正确句的概率,正确句判断结果为0时,表示senA为正确句,正确句判断结果为1时,表示senB为正确句,正确句判断结果为2时,表示senAsenB均为正确句。
其中,所述步骤3具体包括:步骤31,字级别二分类模块构建全连接层,将senAR La ×d 向量作为全连接层的输入,字级别二分类模块输出pre 2R La×1向量,将输出的pre 2R La×1向量转换为对应的汉字输入候选字生成模块,其中,样例句中每个字对应一个标签,表示该位置的字是否正确,0表示正确,1表示错误。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,所述字级别多分类模块,目的是提供语义上的候选字,为后续语言模型评分模块提供良好的基础,例如,对于样例句:天器整好,所述字级别多分类模块会取出四个位置对应的语义候选字:{天:[夭,大,甜], 器:[气,七,嚣],整:[真,正,蒸],好:[号,妤,子]}。
其中,所述步骤4具体包括:步骤41,字级别多分类模块构建全连接层,将senAR La ×d 向量作为全连接层的输入,字级别多分类模块将正确概率大的前三个输出,输出表示为pre 2R La×3;步骤42,将输出的pre 2R La×3向量转换为对应的汉字输入候选字生成模块,作为语义混淆集。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,所述字级别二分类模块的主要任务是判定句子中哪些位置可能存在错误,例如,对于样例句:天器整好,其输出的
Figure DEST_PATH_IMAGE001
,表示其第二、第三个字存在错误。
其中,所述步骤5具体包括:步骤51,候选字生成模块提取pre 2R La×1向量中存在错误的位置的原字;步骤52,从字音混淆集和字形混淆集中,查表取得对应的音近候选字和形近候选字;步骤53,从pre 2R La×3向量中取得对应位置生成的语义候选字;步骤54,将音近候选字、形近候选字和语义候选字与对应的位置原字进行合并得到候选字输入语言模型评分模块。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,所述候选字生成模块的主要目的是对于字级别二分类任务判定为错误的字,提供基于字音、字形和语义的候选字。字音混淆集指的是基于拼音相似情况收集的字和对应容易混淆的字;字形混淆集是基于字形相似情况收集的字和对应容易混淆的字,如表1所示:
表1 原字、字音混淆集和字形混淆集
原字 字音混淆集 字形混淆集
付,富,负 天,夭,人
其中,所述步骤6具体包括:步骤61,语言模型评分模块基于预先收集的大规模语料对自回归语言模型进行微调,自回归语言模型为GPT预训练模型;步骤62,将候选字生成模块得到的候选字分别替换到句中,得到对应的候选句;步骤63,将得到的所有候选句通过GPT语言模型计算语句困惑度;步骤64,基于计算得到的语句困惑度进行排序,选取语句困惑度最低的候选句作为最终的输出,得到中文拼写纠错结果。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,所述语言模型评分模块的目的是从候选字中判断选择最终的字作为输出。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,设立了四个子模块,将其中的三个子任务进行联合训练,分别是正确句判别任务,字级别二分类任务,字级别多分类任务,正确句判别任务使模型能够基于句子级别,具备判定句子中是否存在错别字的能力;字级别二分类任务判定语句中哪些位置存在错误;字级别多分类任务将语义信息通过扩充混淆集的形式融入整体流程。所述基于多任务学习的中文拼写纠错方法将复杂的文本校对任务分解为两个相对简单的任务,又通过三个存在内在关联的子任务进行多任务联合训练,训练损失为三个子任务损失之和,相互联系,共同优化,以提升模型精度,所述的基于多任务学习的中文拼写纠错方法可以提高模型精度。
本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法,提出了新颖的正确句判别任务,通过在训练过程中构建句子对,模型需要识别句子对中不含错误的句子,能够让模型具有基于句子级别分辨正确语句与错误语句的能力,同时和预训练模型的句子对顺序预测任务较好契合,更好的挖掘利用了预训练模型在拼写校对领域的能力,具备更好的识别正确句的能力,任务难度低,效率高。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于多任务学习的中文拼写纠错方法,其特征在于,包括:
步骤1,将样例句文本和标签句文本以特定格式输入文本编码模块,文本编码模块输出文本向量,其中,所述步骤1具体包括:
步骤11,将样例句文本和标签句文本打乱顺序后拼接,文本拼接形式为[CLS]+senA+[SEP]+senB,将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型;其中,[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符,[SEP]表示MacBERT自编码预训练模型预定义的分割两个句子的标识符,senAsenB表示样例句或标签句,当senA为样例句时,senB为标签句,当senA为标签句时,senB为样例句,样例句表示训练时的原句,标签句表示样例句对应的不含错误的语句;
步骤12,通过MacBERT自编码预训练模型对输入的拼接后的文本进行编码,得到文本的向量化表示hR L×d ,其中,h表示文本的向量表示,L表示文本的长度,d表示编码维度,R表示文本经MacBERT自编码预训练模型转化后的向量表示;
步骤13,文本编码模块将编码后指示句子起始的标识符对应的向量clsR 1×d 输入正确句判断模块,将样例句对应的向量表示senAR La×d 分别输入字级别多分类模块和字级别二分类模块,其中,L a 表示样例句的长度;
步骤2,将文本向量中句子起始的标识符对应的向量输入正确句判别模块;
步骤3,将文本向量中样例句对应的向量输入字级别多分类模块,字级别多分类模块将输出 pre 1 R La×3 向量转化为对应的汉字输入候选字生成模块的语义混淆集中,其中,字级别二分类模块构建全连接层,将senAR La×d 向量作为全连接层的输入,字级别二分类模块输出pre 2R La×1向量,将输出的pre 2R La×1向量转换为对应的汉字输入候选字生成模块,其中,样例句中每个字对应一个标签,表示该位置的字是否正确,0表示正确,1表示错误;
步骤4,将文本向量中样例句对应的向量输入字级别二分类模块,字级别二分类模块将输出输入候选字生成模块,提供样例句中每个位置字符的正误信息;
步骤5,根据字级别二分类模块的输出,取出样例句中可能存在错误的位置上的字,分别基于字音混淆集和字形混淆集,取出对应的字音候选字和字形候选字,候选字生成模块将所有语义、字音和字形候选字输入语言模型评分模块;
步骤6,语言模型评分模块将所有候选字依次替换到句中,得到对应的候选句,基于所有候选句计算语句困惑度并排序,得到中文拼写纠错结果。
2.根据权利要求1所述的基于多任务学习的中文拼写纠错方法,其特征在于,所述步骤2具体包括:
步骤21,正确句判断模块构建全连接层做三分类任务,将cls向量作为全连接层的输入,输出正确句判断结果logit cls ,正确句判断结果表示输入的两个句子为正确句的概率,正确句判断结果为0时,表示senA为正确句,正确句判断结果为1时,表示senB为正确句,正确句判断结果为2时,表示senAsenB均为正确句。
3.根据权利要求2所述的基于多任务学习的中文拼写纠错方法,其特征在于,所述步骤3具体包括:
步骤31,字级别二分类模块构建全连接层,将senAR La×d 向量作为全连接层的输入,字级别二分类模块输出pre 2R La×1向量,将输出的pre 2R La×1向量转换为对应的汉字输入候选字生成模块,其中,样例句中每个字对应一个标签,表示该位置的字是否正确,0表示正确,1表示错误。
4.根据权利要求3所述的基于多任务学习的中文拼写纠错方法,其特征在于,所述步骤4具体包括:
步骤41,字级别多分类模块构建全连接层,将senAR La×d 向量作为全连接层的输入,字级别多分类模块将正确概率大的前三个输出,输出表示为pre 2R La×3
步骤42,将输出的pre 2R La×3向量转换为对应的汉字输入候选字生成模块,作为语义混淆集。
5.根据权利要求4所述的基于多任务学习的中文拼写纠错方法,其特征在于,所述步骤5具体包括:
步骤51,候选字生成模块提取pre 2R La×1向量中存在错误的位置的原字;
步骤52,从字音混淆集和字形混淆集中,查表取得对应的音近候选字和形近候选字;
步骤53,从pre 2R La×3向量中取得对应位置生成的语义候选字;
步骤54,将音近候选字、形近候选字和语义候选字与对应的位置原字进行合并得到候选字输入语言模型评分模块。
6.根据权利要求5所述的基于多任务学习的中文拼写纠错方法,其特征在于,所述步骤6具体包括:
步骤61,语言模型评分模块基于预先收集的大规模语料对自回归语言模型进行微调,自回归语言模型为GPT预训练模型;
步骤62,将候选字生成模块得到的候选字分别替换到句中,得到对应的候选句;
步骤63,将得到的所有候选句通过GPT语言模型计算语句困惑度;
步骤64,基于计算得到的语句困惑度进行排序,选取语句困惑度最低的候选句作为最终的输出,得到中文拼写纠错结果。
CN202210023934.1A 2022-01-11 2022-01-11 基于多任务学习的中文拼写纠错方法 Active CN114065738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210023934.1A CN114065738B (zh) 2022-01-11 2022-01-11 基于多任务学习的中文拼写纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210023934.1A CN114065738B (zh) 2022-01-11 2022-01-11 基于多任务学习的中文拼写纠错方法

Publications (2)

Publication Number Publication Date
CN114065738A CN114065738A (zh) 2022-02-18
CN114065738B true CN114065738B (zh) 2022-05-17

Family

ID=80230655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210023934.1A Active CN114065738B (zh) 2022-01-11 2022-01-11 基于多任务学习的中文拼写纠错方法

Country Status (1)

Country Link
CN (1) CN114065738B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372441B (zh) * 2022-03-23 2022-06-03 中电云数智科技有限公司 一种中文文本自动纠错方法及装置
CN115630635B (zh) * 2022-12-20 2023-04-25 苏州大学 一种基于检索和多阶段的中文文本校对方法、系统及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457688B (zh) * 2019-07-23 2023-11-24 广州视源电子科技股份有限公司 纠错处理方法及装置、存储介质和处理器
CN112836496B (zh) * 2021-01-25 2024-02-13 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN113435186B (zh) * 2021-06-18 2022-05-20 上海熙瑾信息技术有限公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN113642316B (zh) * 2021-07-28 2023-11-28 平安国际智慧城市科技股份有限公司 中文文本纠错方法、装置、电子设备及存储介质
CN113887201A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 文本定长纠错方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114065738A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN111476031A (zh) 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN110941720A (zh) 一种基于知识库的特定人员信息纠错方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114299512A (zh) 一种基于汉字字根结构的零样本小篆识别方法
CN110968661A (zh) 事件抽取方法及系统、计算机可读存储介质及电子设备
CN114118113A (zh) 一种基于语境识别的机器翻译方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN113779992A (zh) 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
CN116484852A (zh) 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
Saloot et al. Toward tweets normalization using maximum entropy
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant