CN106326209B - 藏文字检错方法、系统及藏文字串检错方法、系统 - Google Patents
藏文字检错方法、系统及藏文字串检错方法、系统 Download PDFInfo
- Publication number
- CN106326209B CN106326209B CN201610661485.8A CN201610661485A CN106326209B CN 106326209 B CN106326209 B CN 106326209B CN 201610661485 A CN201610661485 A CN 201610661485A CN 106326209 B CN106326209 B CN 106326209B
- Authority
- CN
- China
- Prior art keywords
- tibetan
- character
- error detection
- regular expression
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 297
- 230000014509 gene expression Effects 0.000 claims abstract description 223
- 238000000034 method Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008719 thickening Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。其中所述藏文字检错方法包括:首先,获取待检错的藏文字;然后,将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;最后,根据匹配是否成功判断所述待检错的藏文字是否有错误。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。
Description
技术领域
本发明涉及藏文字处理技术领域,具体涉及一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。
背景技术
伴随着信息社会的发展,藏文电子文档、报刊、新闻及网页等种类繁多的藏文信息日益增多,供人们阅读、学习和使用。这些藏文信息主要是通过键盘人工录入到计算机中的,但是,人工输入和校对时无法保证存入和修改的信息准确无误。
目前,现代藏文字校对的方法主要是采用字典匹配的方法:将藏文字与字库中的标准藏文字进行匹配,若匹配成功,则认为正确,否则认为错误。这种方法在运行时需要占用大量的处理器资源和内存空间,计算机运行负荷高且运算效率低下。
发明内容
针对现有技术中的缺陷,本发明提供一种藏文字检错方法和系统,以及一种藏文字串检错方法和系统,以解决目前字典匹配的方法占用处理器资源和内存空间大,计算机运行负荷高且运算效率低下的问题。
第一方面,本发明提供的一种藏文字检错方法,包括:
获取待检错的藏文字;
将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
根据匹配是否成功判断所述待检错的藏文字是否有错误。
可选的,所述根据匹配结果判断所述待检错的藏文字是否有错,包括:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述预设的梵文检错正则表达式具体为:
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式的组合,其组合形式如下:
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字及紧缩字的检错正则表达式。
可选的,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
第二方面,本发明提供的一种藏文字检错系统,包括:
藏文字获取模块,用于获取待检错的藏文字;
藏文字匹配模块,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块,用于根据匹配是否成功判断所述待检错的藏文字是否有错误。
可选的,所述藏文字判断模块,包括:
匹配成功单元,用于在匹配成功时,判断所述待检错的藏文字没有错误;
匹配不成功单元,用于在匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述匹配不成功单元,包括:
梵文匹配子单元,用于在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
梵文匹配成功子单元,用于在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
梵文匹配不成功子单元,用于在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述预设的梵文检错正则表达式具体为:
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式的组合,其组合形式如下:
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字及紧缩字的检错正则表达式。
可选的,所述藏文字检错系统,还包括:
错误标记模块,用于在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
第三方面,本发明提供的一种藏文字串检错方法,包括:
获取待检错的藏文字串;
按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
第四方面,本发明提供的一种藏文字串检错系统,包括:
藏文字串获取模块,用于获取待检错的藏文字串;
藏文字检错模块,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
由上述技术方案可知,本发明提供的一种藏文字检错方法,首先,获取待检错的藏文字;然后,将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;最后,根据匹配是否成功判断所述待检错的藏文字是否有错误。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。
基于相同的发明构思,本发明还提供一种藏文字串检错方法,首先,获取待检错的藏文字串;然后,按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;最后,对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。本藏文字串检错方法基于上述藏文字检错方法实施,同样具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点,此外,本方法将有错误的藏文字进行与没有错误的藏文字进行区分的标记,可以使用户能够在藏文字串中直观、快速的看到错误的藏文字,以帮助用户避免输入错误和校正遗漏。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种藏文字检错方法的流程图;
图2示出了本发明第二实施例所提供的一种藏文字检错系统的示意图。
图3示出了本发明第三实施例所提供的一种藏文字串检错方法的流程图;
图4示出了本发明第四实施例所提供的一种藏文字串检错系统的示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。下面结合附图对本发明的实施例进行说明。
图1示出了本发明第一实施例所提供的一种藏文字检错方法的流程图。如图1所示,本发明第一实施例提供的一种藏文字检错方法包括以下步骤:
步骤S101:获取待检错的藏文字。
步骤S102:将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配。
本发明中,发明人根据通过研究现代藏文字的构字规律,建立了与现代藏文字相应的藏文字检错正则表达式,通过将待检错的藏文字与该藏文字检错正则表达式进行匹配来进行检错,需要说明的是,由于藏文字历史悠久,其字体形式也是经历了漫长的发展、演变过程,本发明实施例提供的藏文字检错正则表达式是基于现代藏文字的构字规律提出的,因此,本发明实施例所提供的藏文字检错方法主要用于现代藏文字的检错。
根据藏文字的构字规律,所述预设的藏文字检错正则表达式可以是以下任意一种正则表达式或任意多种正则表达式的组合:
不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
其中,上述每个正则表达式都是根据藏文字的构字规律总结形成的,例如:
基于此,可以建立不叠加藏文字中前加字和基字组合的检错正则表达式:
又如,根据现代藏文文法,30个藏文字母可以在没有前加字、上加字、下加字时可以单独拼写现代藏文字,所以,建立检错正则表达式:
另外,叠加藏文字因字性文法,有以下约束:
基于此,可以建立单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式:
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式的组合,其组合形式如下:
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字及紧缩字的检错正则表达式。
对于上述组合的藏文字检错正则表达式的解释如下:
(p)v(b|a)?
正则表达式p所生成字串的第二个字符后没有元音时,正则表达式b所生成的字串、正则表达式a生成字串和字符三者之一必需要存在,否则,不符合藏文字文法,如, 是合法的,但不合法。所以,这时可建立藏文字的检错正则表达式:
正则表达式q所生成的字串可独立成字,其后元音、正则表达式b所生成的字串、正则表达式a所生成字串都可存在也可不存在,如,都合法,但正则表达式b所生成的字串和正则表达式a所生成字串只能是二选一,否则如,不合法。所以,这时可建立藏文字的检错正则表达式:
(q)(v)?(b|a)?
将上述三种情形综合考虑,既可形成组合的藏文字检错正则表达式
步骤S103:根据匹配是否成功判断所述待检错的藏文字是否有错误。
本步骤的实施方式可以是:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
由于所述藏文字有可能是梵文字符,因此,在本发明提供的一个实施例中,对于匹配不成功的情况,还需要与梵文检错正则表达式进行匹配,以提高判断的准确性:所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
其中,所述预设的梵文检错正则表达式具体可以为:
考虑到在检错完成后,需要将错误的藏文字进行突出显示,以使用户能够直观、快速的发现错误的藏文字,因此,在本发明提供的一个实施例中,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
其中,做与检错前进行区分的标记,可以通过将有错误的藏文字的字体颜色、底纹颜色、下划线颜色进行变更,或者将有错误的藏文字的进行加粗、倾斜等处理,或者在文字底部增加下划线、波浪线等方式实现,也可以将以上方式以任意形式组合实现,例如,对有错误的藏文字做红色双波浪线下划线标记等等,只要能将有错误的藏文字与检错前进行区分,任何现有的标记方式都在本发明的保护范围之内,此处不再一一赘述,其均在本发明的保护范围之内。
至此,通过步骤S101至步骤S103,完成了本发明第一实施例所提供的一种藏文字检错方法的流程。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。
在上述的第一实施例中,提供了一种藏文字检错方法,与之相对应的,本申请还提供一种藏文字检错系统。请参考图2,其为本发明第二实施例提供的一种藏文字检错系统的示意图。由于系统实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本发明第二实施例提供的一种藏文字检错系统,包括:
藏文字获取模块101,用于获取待检错的藏文字;
藏文字匹配模块102,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块103,用于根据匹配是否成功判断所述待检错的藏文字是否有错误。
在本发明提供的一个实施例中,所述藏文字判断模块103,包括:
匹配成功单元,用于在匹配成功时,判断所述待检错的藏文字没有错误;
匹配不成功单元,用于在匹配不成功时,判断所述待检错的藏文字有错误。
在本发明提供的一个实施例中,所述匹配不成功单元,包括:
梵文匹配子单元,用于在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
梵文匹配成功子单元,用于在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
梵文匹配不成功子单元,用于在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
在本发明提供的一个实施例中,所述预设的梵文检错正则表达式具体为:
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式的组合,其组合形式如下:
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字及紧缩字的检错正则表达式。
在本发明提供的一个实施例中,所述藏文字检错系统,还包括:
错误标记模块,用于在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
以上,为本发明第二实施例提供的一种藏文字检错系统的实施例说明。
本发明提供的一种藏文字检错系统与上述藏文字检错方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
本发明还提供一种藏文字串检错方法,请参考图3,图3示出了本发明第三实施例所提供的一种藏文字串检错方法的流程图。如图3所示,本发明第三实施例提供的一种藏文字串检错方法包括以下步骤:
步骤S201:获取待检错的藏文字串。
步骤S202:按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果。
在本发明提供的一个实施例中,对藏文字串中的每个藏文字均通过藏文字检错正则表达式和梵文检错正则表达式进行检错,例如,首先将藏文字与藏文字检错正则表达式进行匹配,若匹配成功,则输出表示所述藏文字没有错误的检测结果;若匹配不成功,在将所述藏文字与梵文检错正则表达式进行匹配,若匹配成功,则输出表示所述藏文字没有错误的检测结果,若匹配不成功,则输出表示所述藏文字有错误的检测结果。
步骤S203:对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
其中,做与没有错误的藏文字进行区分的标记,可以通过将有错误的藏文字的字体颜色、底纹颜色、下划线颜色进行变更,或者将有错误的藏文字的进行加粗、倾斜等处理,或者在文字底部增加下划线、波浪线等方式实现,也可以将以上方式以任意形式组合实现,例如,对有错误的藏文字做红色双波浪线下划线标记等等,只要能将有错误的藏文字与没有错误的藏文字进行区分,任何现有的标记方式都在本发明的保护范围之内,此处不再一一赘述,其均在本发明的保护范围之内。
至此,通过步骤S201至步骤S203,完成了本发明第三实施例所提供的一种藏文字串检错方法的流程。本藏文字串检错方法基于上述藏文字检错方法实施,同样具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点,此外,本方法将有错误的藏文字进行与没有错误的藏文字进行区分的标记,可以使用户能够在藏文字串中直观、快速的看到错误的藏文字,以帮助用户避免输入错误和校正遗漏。
在本发明提供的一个优选的实施例中,所述藏文字串检错方法可以通过VB.NET实现,具体代码如下:
在上述的第三实施例中,提供了一种藏文字串检错方法,与之相对应的,本申请还提供一种藏文字串检错系统。请参考图4,其为本发明第四实施例提供的一种藏文字串检错系统的示意图。由于系统实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本发明第四实施例提供的一种藏文字串检错系统,包括:
藏文字串获取模块201,用于获取待检错的藏文字串;
藏文字检错模块202,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块203,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
本发明提供的一种藏文字串检错系统与上述藏文字串检错方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的藏文字检错系统和藏文字串检错系统可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (9)
1.一种藏文字检错方法,其特征在于,包括:
获取待检错的藏文字;
将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
根据匹配是否成功判断所述待检错的藏文字是否有错误;
所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
2.根据权利要求1所述的藏文字检错方法,其特征在于,所述根据匹配结果判断所述待检错的藏文字是否有错,包括:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
3.根据权利要求2所述的藏文字检错方法,其特征在于,所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
5.根据权利要求4所述的藏文字检错方法,其特征在于,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式的组合,其组合形式如下:
6.根据权利要求1所述的藏文字检错方法,其特征在于,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
7.一种藏文字检错系统,其特征在于,包括:
藏文字获取模块,用于获取待检错的藏文字;
藏文字匹配模块,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块,用于根据匹配是否成功判断所述待检错的藏文字是否有错误;
所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字及紧缩字的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
所述藏文字元音的检错正则表达式具体为:
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
8.一种藏文字串检错方法,其特征在于,包括:
获取待检错的藏文字串;
按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照权利要求1至权利要求6任一项所述的藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
9.一种藏文字串检错系统,其特征在于,包括:
藏文字串获取模块,用于获取待检错的藏文字串;
藏文字检错模块,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照权利要求1至权利要求6任一项所述的藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610661485.8A CN106326209B (zh) | 2016-08-09 | 2016-08-09 | 藏文字检错方法、系统及藏文字串检错方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610661485.8A CN106326209B (zh) | 2016-08-09 | 2016-08-09 | 藏文字检错方法、系统及藏文字串检错方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106326209A CN106326209A (zh) | 2017-01-11 |
CN106326209B true CN106326209B (zh) | 2023-04-07 |
Family
ID=57739915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610661485.8A Active CN106326209B (zh) | 2016-08-09 | 2016-08-09 | 藏文字检错方法、系统及藏文字串检错方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326209B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836900B (zh) * | 2021-09-24 | 2024-01-26 | 青海民族大学 | 一种基于文法向量乘法的藏文音节校对方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1120496A (zh) * | 1994-09-08 | 1996-04-17 | 卢亚军 | 标准键盘手提式藏文打字机 |
CN1696880A (zh) * | 2005-05-08 | 2005-11-16 | 卢亚军 | 藏文计算机通用键盘布局与输入法 |
CN1737739A (zh) * | 2005-07-16 | 2006-02-22 | 西北民族大学 | 基于英文键盘的藏文输入法 |
CN104408037A (zh) * | 2014-12-05 | 2015-03-11 | 才智杰 | 藏文文本的向量模型表示方法 |
-
2016
- 2016-08-09 CN CN201610661485.8A patent/CN106326209B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1120496A (zh) * | 1994-09-08 | 1996-04-17 | 卢亚军 | 标准键盘手提式藏文打字机 |
CN1696880A (zh) * | 2005-05-08 | 2005-11-16 | 卢亚军 | 藏文计算机通用键盘布局与输入法 |
CN1737739A (zh) * | 2005-07-16 | 2006-02-22 | 西北民族大学 | 基于英文键盘的藏文输入法 |
CN104408037A (zh) * | 2014-12-05 | 2015-03-11 | 才智杰 | 藏文文本的向量模型表示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106326209A (zh) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8271873B2 (en) | Automatically detecting layout of bidirectional (BIDI) text | |
US20100235780A1 (en) | System and Method for Identifying Words Based on a Sequence of Keyboard Events | |
CN104008093A (zh) | 用于中文姓名音译的方法和系统 | |
CN107861949B (zh) | 文本关键词的提取方法、装置及电子设备 | |
US9977766B2 (en) | Keyboard input corresponding to multiple languages | |
CN105302626B (zh) | Xps结构化数据的解析方法 | |
KR20150099936A (ko) | 전자문서의 레이아웃 유지를 위한 대체폰트 적용 방법 및 그 장치 | |
US20150205781A1 (en) | Systems and methods for using tone indicator in text recognition | |
Basri et al. | Automatic spell checker for Malay blog | |
US9235624B2 (en) | Document similarity evaluation system, document similarity evaluation method, and computer program | |
CN114861635A (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN106326209B (zh) | 藏文字检错方法、系统及藏文字串检错方法、系统 | |
US20120265520A1 (en) | Text processor and method of text processing | |
WO2021239114A1 (zh) | 一种对文本进行同义修改、确定文本创作者的方法 | |
CN105700704A (zh) | 小尺寸屏幕下的文字输入方法和装置 | |
WO2015075920A1 (ja) | 入力支援装置、入力支援方法及び記録媒体 | |
US10789410B1 (en) | Identification of source languages for terms | |
US20150073778A1 (en) | Techniques for automatically generating test data | |
Murthy et al. | Kannada spell checker with sandhi splitter | |
Foda et al. | A Qur'anic Code for Representing the Holy Qur'an (Rasm Al-'Uthmani) | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
KR20160053587A (ko) | 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법 | |
CN117235345B (zh) | 开放版式文档ofd搜索方法、装置及电子设备 | |
CN117892724B (zh) | 一种文本检测方法、装置、设备及存储介质 | |
US11170182B2 (en) | Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |