CN113033188B - 一种基于神经网络的藏文语法纠错方法 - Google Patents

一种基于神经网络的藏文语法纠错方法 Download PDF

Info

Publication number
CN113033188B
CN113033188B CN202110293441.5A CN202110293441A CN113033188B CN 113033188 B CN113033188 B CN 113033188B CN 202110293441 A CN202110293441 A CN 202110293441A CN 113033188 B CN113033188 B CN 113033188B
Authority
CN
China
Prior art keywords
tibetan
error correction
corrected
neural network
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110293441.5A
Other languages
English (en)
Other versions
CN113033188A (zh
Inventor
华果才让
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110293441.5A priority Critical patent/CN113033188B/zh
Publication of CN113033188A publication Critical patent/CN113033188A/zh
Application granted granted Critical
Publication of CN113033188B publication Critical patent/CN113033188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的藏文语法纠错方法,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本,能够快速的对藏文进行纠错。

Description

一种基于神经网络的藏文语法纠错方法
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于神经网络的藏文语法纠错方法。
背景技术
目前虽然存在很多种语法纠错方法,但是大多是针对语种使用较为广泛的汉语、英语等通用语种的语法纠错方法,但是在藏文上,相关的语法纠错方法仍较为稀缺。
发明内容
本发明的目的在于提供一种基于神经网络的藏文语法纠错方法,能够快速的对藏文语法进行纠错。
为实现上述目的,本发明提供了一种基于神经网络的藏文语法纠错方法,包括以下步骤:
获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;
基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;
将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;
将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本。
其中,将修改后的所述纠错藏文输入改进的神经网络中,并输出对应的损失值之前,所述方法还包括:
基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;
基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求。
其中,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集,包括:
利用爬虫技术获取待纠错样本,并基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;
基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错别字纠错词集,其中,所述评判准则为基于词库、《三十颂》和《字性组织法》。
其中,基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改,包括:
基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换;
基于所述语义纠错词集,按照随机抽取不放回的形式,利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改。
其中,基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换之后,所述方法还包括:
对进行错别字替换后的所述纠错藏文再次进行语义判断,若不满足所述评判准则,则对所述纠错藏文进行修改,若满足所述评判准则,则完成纠错。
其中,将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值,包括:
将修改得到的修改藏文的每一个字符位置进行编码,并将编码后的所述修改藏文输入所述改进的神经网络中,并利用所述自注意力机制对所述修改藏文的每一个字符进行检测;
基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值。
本发明的一种基于神经网络的藏文语法纠错方法,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本,能够快速的对藏文进行纠错。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于神经网络的藏文语法纠错方法的步骤示意图。
图2是本发明提供的藏文组成示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明提供一种基于神经网络的藏文语法纠错方法,包括以下步骤:
S101、获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集。
具体的,利用现有的爬虫技术从网络上获取待纠错样本,也可以将纸质版文本进行扫描,将扫描得到的电子文档传输至上位机中,然后利用所述爬虫技术获取对应的所述待纠错样本。然后,基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;其中,设定的所述切词规则是根据藏文的拼写格式设定,根据所述待纠错样本中的音节区分符号,进行音节的区分,根据所述待纠错样本中的词尾符号,进行词尾断句,因此,在进行切词之前,需要对所述待纠错样本进行特征提取,并根据提取出来的两种特征,分别对分别音节区分符号和词尾符号进行标记,其中,所述音节区分符号为:“.”;所述词尾符号为:“|”。
如图2所示的一个典型的藏文音节,由基字、下加字、上加字、前加字、元音、第一后加字和第二后加字组成,藏文每个音节会有一个基字,基字是拼读的基础。音节中带附标(元音符号或上下加字)的字母是基字;无带附标字母时,双字母音节前字母是基字;四字母时第二个字母是基字;三字母音节通常中间字母是基字。因此,在判断是否是错别字时,这几部分是检测关键和基础。
基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错别字纠错词集,其中,所述评判准则为基于词库、《三十颂》和《字性组织法》,上部语法《三十颂》有8个格,这8个格主要解决一个问题,就是一个句子是如何形成的,语法的作用和逻辑是怎样的,下部语法《字性组织法》主要讲字性、句子结构以及动词的时态变化。藏文的字性跟藏语的发音有着密切的关系,字性决定文字发音,藏文的字性有7种,分别是:阳性字、阴性字、中性字、准阴性字、极阴性字、纯阴性字、无性字。
具体的判断方法为:首先,利用所述评判准则区分是因为错别字还是词汇错误导致的语义错误,具体的评判准则则是根据对应的词库、《三十颂》和《字性组织法》进行判断,其中,所述词库为基于大数据下构建的所有的藏文词汇,并将同义词等具有关联的词汇进行分类或者建立拓扑关系,首先,利用所述词库判断所述纠错样本中的每一个藏文字符是否符合要求,若出现错别字,则基于所述错别字,从所述词库中挑选形相近、义相近以及音相近的词汇,得到对应的错别字纠错词集;若没有错别字,则利用《三十颂》和《字性组织法》对所述纠错样本进行语义判断,并对不满足语义要求的词汇进行标注,然后,将标注的词汇作为特征点,在所述词库中选择出满足阈值要求的所有词汇,并构建对应的语义纠错词集,具体方法为:
若没有错别字,则利用《三十颂》和《字性组织法》对所述纠错样本进行语义判断,并对不满足语义要求的词汇进行标注,将标注的词汇作为特征点,基于音、形和语义三个方面,将所述词库中的所有词汇与标注词汇进行相似度计算,将任一个相似度满足设定的所述阈值的对应的词汇,归纳至构建的所述语义纠错词集中,从两方面进行检查,增加了对藏文的识别效率,并且还构建了对应的词集,减少后续纠错时替换词汇选择的时间,提高效率,便于实现快速的语义纠错。
S102、基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改。
具体的,基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换,具体的替换流程为,基于当前所述纠错藏文的语义信息及对应的字符规范,利用所述错别字纠错词集中的对应的藏文替换字符对所述纠错藏文中的错别字进行整体替换,并且在替换后,须对进行错别字替换后的所述纠错藏文再次进行语义判断,若不满足所述评判准则,则对所述纠错藏文进行修改,若满足所述评判准则,则完成纠错。
基于所述语义纠错词集,按照随机抽取不放回的形式,利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改,具体为:
当不满足所述评判准则时,按照随机抽取不放回的形式抽取所述语义纠错词集中的多个语义纠错样本,利用所述语义纠错样本将对应的字符进行修改和替换,可以得到多个修改后的修改藏文。
S103、将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值。
具体的,首先,基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;可以采用LSTM神经网络作为基础架构,在所述LSTM神经网络的输出层后或者全连接层后,输出层之前,增加一个自注意力机制层,对所述LSTM神经网络进行改进;利用所述自注意力机制的性能,对每一个所述修改藏文中的每一个字符进行检测。
然后,基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求,满足的要求为输出的数据符合所述训练集和所述测试集的原始数据或者偏离较小。
接着,将修改得到的修改藏文的每一个字符位置进行编码,编码的目的是便于在输出结果时,能够快速准确的找到对应的字符,可以根据每一个字符所处的位置,基于位置顺序依次进行数字编号,或者采用其他的符号进行编码,然后,将编码后的所述修改藏文输入所述改进的神经网络中,并利用所述自注意力机制对所述修改藏文的每一个字符进行检测;并在监测完成后,基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值,其中,所述损失函数公式为:
Figure BDA0002983324960000061
其中,V表示所有词构建的所述词库,w表示词库V中的词。y=1表示正常样本,x表示正确的藏文字符,y=0表示不符合所述评判准则的样本,及纠错藏文,
Figure BDA0002983324960000062
表示生成的第k个修改藏文中的字符。
S104、将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本。
具体的,在将所述修改藏文全部计算完成后,将所述待纠错样本输入搜索改进的神经网络中,得到对应的样本损失值,然后,将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,若当前所述损失值小于所述样本损失值,则表明所述损失值对应的所述修改藏文为满足要求的纠错文本,并利用所述修改藏文对所述纠错藏文进行整体替换,直至所有的所述待纠错样本中的所述纠错藏文全部替换完成,完成藏文语法纠错,由于事先识别出了错别字等情况,减少了后续的设计网络识别时间,并且构建了对应的纠错词集来减少语法修改时间,提高了对藏文语义的纠错速度。
本发明的一种基于神经网络的藏文语法纠错方法,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本,能够快速的对藏文进行纠错。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (3)

1.一种基于神经网络的藏文语法纠错方法,其特征在于,包括以下步骤:
获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;
基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;
将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;
将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本;
获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集,包括:
利用爬虫技术获取待纠错样本,并基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;
基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错别字纠错词集,其中,所述评判准则为基于词库、《三十颂》和《字性组织法》;
基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改,包括:
基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换;
基于所述语义纠错词集,按照随机抽取不放回的形式,利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改;
基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换之后,所述方法还包括:
对进行错别字替换后的所述纠错藏文再次进行语义判断,若不满足所述评判准则,则对所述纠错藏文进行修改,若满足所述评判准则,则完成纠错。
2.如权利要求1所述的基于神经网络的藏文语法纠错方法,其特征在于,将修改后的所述纠错藏文输入改进的神经网络中,并输出对应的损失值之前,所述方法还包括:
基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;
基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求。
3.如权利要求2所述的基于神经网络的藏文语法纠错方法,其特征在于,将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值,包括:
将修改得到的修改藏文的每一个字符位置进行编码,并将编码后的所述修改藏文输入所述改进的神经网络中,并利用所述自注意力机制对所述修改藏文的每一个字符进行检测;
基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值。
CN202110293441.5A 2021-03-19 2021-03-19 一种基于神经网络的藏文语法纠错方法 Active CN113033188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110293441.5A CN113033188B (zh) 2021-03-19 2021-03-19 一种基于神经网络的藏文语法纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110293441.5A CN113033188B (zh) 2021-03-19 2021-03-19 一种基于神经网络的藏文语法纠错方法

Publications (2)

Publication Number Publication Date
CN113033188A CN113033188A (zh) 2021-06-25
CN113033188B true CN113033188B (zh) 2022-12-20

Family

ID=76471685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110293441.5A Active CN113033188B (zh) 2021-03-19 2021-03-19 一种基于神经网络的藏文语法纠错方法

Country Status (1)

Country Link
CN (1) CN113033188B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102720A (zh) * 2014-07-18 2014-10-15 上海触乐信息科技有限公司 高效输入的预测方法和装置
CN107122465A (zh) * 2017-04-28 2017-09-01 中央民族大学 一种基于藏语语言特征的藏语情感词典的构建方法及系统
CN111767717A (zh) * 2020-05-13 2020-10-13 广东外语外贸大学 印尼语的语法纠错方法、装置、设备及存储介质
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111984782A (zh) * 2020-07-01 2020-11-24 中央民族大学 藏文文本摘要生成方法和系统
CN112003623A (zh) * 2020-08-19 2020-11-27 西藏大学 一种藏文文本压缩算法
CN112100063A (zh) * 2020-08-31 2020-12-18 腾讯科技(深圳)有限公司 界面语言的显示测试方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11103773B2 (en) * 2018-07-27 2021-08-31 Yogesh Rathod Displaying virtual objects based on recognition of real world object and identification of real world object associated location or geofence
CN112256876A (zh) * 2020-10-26 2021-01-22 南京工业大学 基于多记忆注意力网络的方面级情感分类模型
CN112395861A (zh) * 2020-11-18 2021-02-23 平安普惠企业管理有限公司 中文文本的纠错方法、装置和计算机设备
CN112507734B (zh) * 2020-11-19 2024-03-19 南京大学 一种基于罗马化维吾尔语的神经机器翻译系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102720A (zh) * 2014-07-18 2014-10-15 上海触乐信息科技有限公司 高效输入的预测方法和装置
CN107122465A (zh) * 2017-04-28 2017-09-01 中央民族大学 一种基于藏语语言特征的藏语情感词典的构建方法及系统
CN111767717A (zh) * 2020-05-13 2020-10-13 广东外语外贸大学 印尼语的语法纠错方法、装置、设备及存储介质
CN111984782A (zh) * 2020-07-01 2020-11-24 中央民族大学 藏文文本摘要生成方法和系统
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112003623A (zh) * 2020-08-19 2020-11-27 西藏大学 一种藏文文本压缩算法
CN112100063A (zh) * 2020-08-31 2020-12-18 腾讯科技(深圳)有限公司 界面语言的显示测试方法、装置、计算机设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Research on Tibetan semantic role labeling using an integrated strategy;Lin Li;《Himalayan Linguistics》;20161231;第15卷(第1期);第113页-125页 *
基于神经网络的藏文正字检错法;华果才让;《中文信息学报》;20201215;第34卷(第12期);第48页-64页 *
藏文文本自动校对系统开发研究;才让卓玛;《西北民族大学学报(自然科学版)》;20090315;第30卷(第1期);第25页-28页 *
藏文文本词校对模型研究;刘文香;《西藏大学学报(自然科学版)》;20091015;第30卷(第02期);第13页-16页 *
藏文识别后处理研究;王维兰等;《术语标准化与信息技术》;20020625(第02期);第30页-34页 *
藏文音节的错误检测方法研究;王福钊等;《计算机时代》;20200114(第01期);第5页-9页 *

Also Published As

Publication number Publication date
CN113033188A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
Kissos et al. OCR error correction using character correction and feature-based word classification
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
CN101133411B (zh) 非罗马字符的容错罗马化输入方法
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN105279149A (zh) 一种中文文本自动校正方法
US20070219777A1 (en) Identifying language origin of words
US20050289463A1 (en) Systems and methods for spell correction of non-roman characters and words
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN113033188B (zh) 一种基于神经网络的藏文语法纠错方法
Chiu et al. Chinese spell checking based on noisy channel model
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
Mohapatra et al. Spell checker for OCR
CN115358219A (zh) 一种融合无监督学习和自监督学习的中文拼写纠错方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant