CN110705262B - 一种改进的应用于医技检查报告的智能纠错方法 - Google Patents

一种改进的应用于医技检查报告的智能纠错方法 Download PDF

Info

Publication number
CN110705262B
CN110705262B CN201910841786.2A CN201910841786A CN110705262B CN 110705262 B CN110705262 B CN 110705262B CN 201910841786 A CN201910841786 A CN 201910841786A CN 110705262 B CN110705262 B CN 110705262B
Authority
CN
China
Prior art keywords
word
error correction
words
library
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910841786.2A
Other languages
English (en)
Other versions
CN110705262A (zh
Inventor
李文杰
贾禄帅
王小冬
简刚
唐武斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Original Assignee
Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd filed Critical Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Priority to CN201910841786.2A priority Critical patent/CN110705262B/zh
Publication of CN110705262A publication Critical patent/CN110705262A/zh
Application granted granted Critical
Publication of CN110705262B publication Critical patent/CN110705262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Abstract

本发明公开了一种改进的应用于医技检查报告的智能纠错方法,包括词库构建过程、训练过程和智能纠错过程,不仅能够检测常规的拼写错误,另外通过使用训练循环卷积神经网络得到的纠错模型,考虑语序和词语搭配,标记出有问题的词组搭配,并依据拼音词库和词语关联词库,给出一组可替代错误分词的建议词。本发明不仅可以对拼写错误进行检查,而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查;在应用纠错模型过程中,采取不同的策略,当分词被判定为错误时,由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词,最终实现能够更加准确地对医技检查报告进行智能纠错。

Description

一种改进的应用于医技检查报告的智能纠错方法
技术领域
本发明涉及一种纠错的技术领域,特别是一种改进的应用于医技检查报告的智能纠错方法。
背景技术
当今医院逐渐向信息电子化方向发展,医技检查报告也在由纸张化向电子化方向过渡,但是随之带来了报告中拼写错误检查的问题。不同地区、医院,报告系统中结构化模板的存在着较大差异,大多数报告医生还需要手动大量输入检查报告内容。对报告内容的准确性进行快速分析检测成为了一个亟待解决的问题。
常用的解决方法是对输入信息进行分词,查看分词是否在词典中出现,如果没有出现,则认为录入信息错误,然后对信息进行纠错。该技术的存在的两个主要缺点是:(1)查寻错误分词时,仅仅针对可能的拼写错误进行了检查,没有充分考虑输入文本的上下文语义信息;(2)提供的纠错文字只包含了与错误分词的读音相同或相近的词语,没有考虑上下文词语的搭配。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种不仅能够检测常规的拼写错误,而且通过利用训练得到的循环卷积神经网络模型充分联系上下文语义信息,并结合恰当的纠错策略对获得的医技检查报告的一种改进的应用于医技检查报告的智能纠错方法。
为了实现上述目的,本发明所设计的一种改进的应用于医技检查报告的智能纠错方法,包括以下步骤:
步骤1、词库构建过程:
1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
步骤2、通过训练过程获得纠错模型:
2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;
2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;
步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:
3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;
3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;
3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;
3.4、当所有分句都分析完成后,智能纠错结束。
本发明得到的一种改进的应用于医技检查报告的智能纠错方法,不仅可以对拼写错误进行检查,而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查;在应用纠错模型过程中,采取不同的策略,当分词被判定为错误时,由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词,最终实现能够更加准确地对医技检查报告进行智能纠错。
附图说明
图1是本实施例1中一种改进的应用于医技检查报告的智能纠错方法的整体流程图;
图2是本实施例1的模型训练流程图;
图3是本实施例1中报告纠错流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:
如图1所示,本实施例提供的一种改进的应用于医技检查报告的智能纠错方法,包括以下步骤:
步骤1、词库构建过程:
1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
步骤2、通过训练过程获得纠错模型:
2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;具体依据,
2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;
步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:
3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;
3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;
3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;
3.4、当所有分句都分析完成后,智能纠错结束。
如图2所示,在本实施例中通过训练过程获得纠错模型的具体完成步骤如下:
A.首先对医技检查报告语料库进行处理,构建各种所需词库;如:医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
B. 采用导入了医学词库的jieba分词方法对训练样本进行分词,并依据医技检查报告编码词库DIC1对训练样本进行数字化编码预处理,若样本分词不在医技检查报告词库DIC1中,则编码为“<unk>”词语对应的编码;
C. 将构建好的训练集送入到RCNN中进行训练,获得纠错模型Model1和Model2;
如图3所示,在本实施例中纠错的具体步骤如下:
a. 获得待检测的医技检查报告;
b. 经过训练得到纠错模型Model1和Model2后,采用中文分词方法jieba对待检测的医技检查报告进行中文分词,然后依据逗号或中文结束标点进行分句;
b. 对分句中的中文单词通过单词搜索词库DIC2进行检查,跳过包含非中文的单词或标点,对不在词库中的中文单词进行标注,认为是错误的单词;
c. 使用词组搜索词库DIC3,依次对有问题分句中相邻的中文单词词组进行检查,对不在词组词库中的词组进行标注,认为是错误的单词;
d. 对于标注出的错误的单词,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词;
e. 当所有分词都分析完成后,智能报告纠错结束。
因此综上所述本发明的完整步骤如下:
先利用导入了的自定义医学词典的jieba分词方法对得到的整个医技检查报告语料库进行分词,并经过去重和编码处理后,得到编码词库DIC1和单词搜索词库DIC2,然后根据语料中相关联的单词构建词组搜索词库DIC3,另外依据单词的拼音和上下文的单词分别构建了拼音词库DIC4和词语关联词库DIC5,其中jieba分词是python的一种分词方法,它内部通过隐马尔可夫HMM统计模型来实现;
然后将句子按照逗号和句子结束符号(如句号、感叹号、问号等)继续分隔成为一个个的分句,接下来对单句采用随机打乱和单词随机替换的方式,分别处理成为两种不同的训练数据集,即语序语料和词语搭配语料集;
1-1、对于随机打乱的处理方式,将处理后的原始单句作为正样本,将原始单句进一步处理,采用随机打乱的方式;如果仅仅是一个词语,那么略过不做处理;如果是两个词语,则交换位置,产生一个负样本;如果是三个及以上的词语,采用随机打乱的方式,产生4个负样本,负样本完全不同,并且不同于正样本;
1-2、对于单词随机替换的处理方式,仍然将处理后原始单句作为正样本,对句子中的单词采用随机替换单词的方式,对仅仅含有一个单词的分句,直接略过;对含有两个单词的分句,生成两个不同的负样本;对含有三个单词及以上的分句,随机单词替换产生3个负样本,负样本完全不同,并且不同于正样本;
然后,依据医技检查报告编码词库DIC1对训练样本进行数字化编码,若样本分词不在医技检查报告编码词库DIC1中,则编码为“<unk>”词语对应的编码;
用分词后的语料库随机抽取10%,构建测试集,测试集是用来对训练完成的模型进行检测,相当于是模型之前没有见过的句子,剩余部分用于训练将处理好的数据集送入循环卷积神经网络RCNN分别进行训练,获得两个纠错模型Model1和Model2,分别用于检测语序和词语搭配错误;其中卷积神经网络RCNN是一种由RNN和CNN结合构成的人工神经网络,此RNN(Recurrent Neural Network)是一种层数为2层的双向循环神经网络,能够最大程度的捕捉句子中的语义信息,然后引入了一个最大池化层,捕获文本中的关键字信息。通过结合循环结构和最大池化层,模型同时利用了RNN和CNN的优点,模型计算的时间复杂度为O(n);
经过训练得到纠错模型Model1和Model2,采用jieba分词方法对待检测的医技检查报告进行中文分词,中间以空格分隔,然后对待检测的医技检查报告按照逗号和结束标点符号(如逗号、句号、问号和感叹号)进行分句;
对分句中的中文单词通过单词搜索词库DIC2进行检查,跳过包含非中文的单词或标点,对不在词库中的单词进行标注,认为是错误的单词,并进行标注;
使用纠错模型Model1和Model2依次对每个分句进行检查,可以筛选出来潜在有语序问题或单词搭配问题的分句;
使用词组搜索词库DIC3,依次对有问题分句中相邻的中文单词词组进行检查,对不在词组词库中的词组进行标注,认为是错误的单词,并进行标注;
对于标注出的错误的单词,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词;
当所有分词都分析完成后,智能纠错结束。
基于实例的通过训练过程获得纠错模型如下:
依据医技检查报告编码词库DIC1对训练样本进行数字化编码,若样本分词不在医技检查报告编码词库DIC1中,则将单词对应为”<unk>”对应的编码;如样本“两肺门结构清晰,其内未见明显肿大淋巴结影。”应用jieba分词后的结果为“两肺门 结构 清晰 , 其内未见 明显 肿大淋巴结影 。”,按照逗号和中文结束标点符号分隔后,两个分句分别为“两肺门 结构 清晰”、“其内 未见 明显 肿大淋巴结影”,相应数字化编码后的结果为“65 3195”、“115 3 4 146”,标记为正样本。另外,将分词后句子经过乱序,进行编码后标记为负样本,这样得到了词语顺序训练集。类似地,将分词后句子随机替换单词后,进行编码后标记为负样本,这样就得到了词语搭配训练集。
将构建好的词语顺序训练集和词语搭配训练集分别送入到循环卷积神经网络RCNN中进行训练,获得纠错模型Model1和Model2;
基于实例的智能纠错过程如下:
对样本“两肺门结构清晰,其内未见明显肿大淋巴结影。”应用导入医学词库的jieba分词方法分词后的结果为“两肺门 结构 清晰 , 其内 未见 明显 肿大淋巴结影。”。使用单词搜索词库DIC1对其中的每个单词进行检查,并标记出错误单词。
对分词后的结构,按照逗号和中文结束标点符号分隔后,两个分句分别为“两肺门结构 清晰”、“其内 未见 明显 肿大淋巴结影”,相应数字化编码后的结果为“65 31 95”、“115 3 4 146”。将“65 31 95”和“115 3 4 146”中数字按照空格分割后的结果送入到纠错模型Model1和Model2,返回结果均为正确,认为两句子的语序和词语搭配均不存在问题。假如其中一个模型对第一个分句返回结果为错误,对分句中的词语搭配进行检查,第一个分句中的词组分别为“两肺门结构、结构清晰”,然后依据词组词库进行检查,如果发现错误,标记出来该词组,认为该词组的搭配有问题;
对标记出来的错误词语,依据拼音词库DIC4和词语关联词库DIC5,给出一组可替代错误分词的建议词。当所有分词都分析完成后,智能纠错结束。
本实施例不仅可以对拼写错误进行检查,而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查;在应用纠错模型过程中,采取不同的策略,当分词被判定为错误时,由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词,最终实现能够更加准确地对医技检查报告进行智能纠错。

Claims (1)

1.一种改进的应用于医技检查报告的智能纠错方法,其特征在于,包括以下步骤:
步骤1、词库构建过程:
1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
步骤2、通过训练过程获得纠错模型:
2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;
2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;
步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:
3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;
3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;
3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;
3.4、当所有分句都分析完成后,智能纠错结束,
其中通过训练过程获得纠错模型的具体完成步骤如下:
A.首先对医技检查报告语料库进行处理,构建各种所需词库,包括医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
B.采用导入了医学词库的jieba分词方法对训练样本进行分词,并依据医技检查报告编码词库DIC1对训练样本进行数字化编码预处理,若样本分词不在医技检查报告词库DIC1中,则编码为“<unk>”词语对应的编码;
C.将构建好的训练集送入到RCNN中进行训练,获得纠错模型Model1和Model2;
而纠错的具体步骤如下:
a.获得待检测的医技检查报告;
b.经过训练得到纠错模型Model1和Model2后,采用中文分词方法jieba对待检测的医技检查报告进行中文分词,然后依据逗号或中文结束标点进行分句;
b.对分句中的中文单词通过单词搜索词库DIC2进行检查,跳过包含非中文的单词或标点,对不在词库中的中文单词进行标注,认为是错误的单词;
c.使用词组搜索词库DIC3,依次对有问题分句中相邻的中文单词词组进行检查,对不在词组词库中的词组进行标注,认为是错误的单词;
d.对于标注出的错误的单词,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词;
e.当所有分词都分析完成后,智能报告纠错结束。
CN201910841786.2A 2019-09-06 2019-09-06 一种改进的应用于医技检查报告的智能纠错方法 Active CN110705262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910841786.2A CN110705262B (zh) 2019-09-06 2019-09-06 一种改进的应用于医技检查报告的智能纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910841786.2A CN110705262B (zh) 2019-09-06 2019-09-06 一种改进的应用于医技检查报告的智能纠错方法

Publications (2)

Publication Number Publication Date
CN110705262A CN110705262A (zh) 2020-01-17
CN110705262B true CN110705262B (zh) 2023-08-29

Family

ID=69194336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910841786.2A Active CN110705262B (zh) 2019-09-06 2019-09-06 一种改进的应用于医技检查报告的智能纠错方法

Country Status (1)

Country Link
CN (1) CN110705262B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710386A (zh) * 2020-04-30 2020-09-25 上海数创医疗科技有限公司 一种心电图诊断报告的质控系统
CN111931490B (zh) * 2020-09-27 2021-01-08 平安科技(深圳)有限公司 文本纠错方法、装置及存储介质
CN113642318B (zh) * 2021-10-14 2022-01-28 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备
CN115062148B (zh) * 2022-06-23 2023-06-20 广东国义信息科技有限公司 一种基于数据库的风险控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021111A (zh) * 2014-06-23 2014-09-03 上海埃威航空电子有限公司 一种基于词库的报文单词修正方法和系统
CN105824804A (zh) * 2016-03-31 2016-08-03 长安大学 基于词库的英语拼写纠错工具和方法
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN107622053A (zh) * 2017-09-26 2018-01-23 上海展扬通信技术有限公司 一种基于智能终端的文本纠错方法及文本纠错系统
CN107918496A (zh) * 2016-10-10 2018-04-17 北京搜狗科技发展有限公司 一种输入纠错方法和装置、一种用于输入纠错的装置
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN108257650A (zh) * 2017-12-26 2018-07-06 宁波市科技园区明天医网科技有限公司 一种应用于医技检查报告的智能纠错方法
CN108595432A (zh) * 2018-04-28 2018-09-28 江苏医像信息技术有限公司 医疗文书纠错方法
CN109145287A (zh) * 2018-07-05 2019-01-04 广东外语外贸大学 印尼语单词检错纠错方法及系统
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151130B2 (en) * 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021111A (zh) * 2014-06-23 2014-09-03 上海埃威航空电子有限公司 一种基于词库的报文单词修正方法和系统
CN105824804A (zh) * 2016-03-31 2016-08-03 长安大学 基于词库的英语拼写纠错工具和方法
CN107918496A (zh) * 2016-10-10 2018-04-17 北京搜狗科技发展有限公司 一种输入纠错方法和装置、一种用于输入纠错的装置
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN107622053A (zh) * 2017-09-26 2018-01-23 上海展扬通信技术有限公司 一种基于智能终端的文本纠错方法及文本纠错系统
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN108257650A (zh) * 2017-12-26 2018-07-06 宁波市科技园区明天医网科技有限公司 一种应用于医技检查报告的智能纠错方法
CN108595432A (zh) * 2018-04-28 2018-09-28 江苏医像信息技术有限公司 医疗文书纠错方法
CN109145287A (zh) * 2018-07-05 2019-01-04 广东外语外贸大学 印尼语单词检错纠错方法及系统
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
字词级中文文本自动校对的方法研究;卓利艳;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);I138-1931 *

Also Published As

Publication number Publication date
CN110705262A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705262B (zh) 一种改进的应用于医技检查报告的智能纠错方法
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
EP2653982A1 (en) Method and system for statistical misspelling correction
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
KR102348845B1 (ko) 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
Rozovskaya et al. Building a state-of-the-art grammatical error correction system
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
CN109522558A (zh) 一种基于深度学习的中文错字校正方法
Tensmeyer et al. Training full-page handwritten text recognition models without annotated line breaks
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Madi et al. Grammatical error checking systems: A review of approaches and emerging directions
CN110489762B (zh) 基于神经网络机器翻译的术语翻译方法、存储介质和装置
Beeksma et al. Detecting and correcting spelling errors in high-quality Dutch Wikipedia text
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
Wu et al. Reducing the false alarm rate of Chinese character error detection and correction
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
US11907656B2 (en) Machine based expansion of contractions in text in digital media
İnce Spell checking and error correcting application for Turkish
CN115563959A (zh) 面向中文拼音拼写纠错的自监督预训练方法、系统及介质
Mohapatra et al. Spell checker for OCR

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant