CN106326209B - 藏文字检错方法、系统及藏文字串检错方法、系统 - Google Patents

藏文字检错方法、系统及藏文字串检错方法、系统 Download PDF

Info

Publication number
CN106326209B
CN106326209B CN201610661485.8A CN201610661485A CN106326209B CN 106326209 B CN106326209 B CN 106326209B CN 201610661485 A CN201610661485 A CN 201610661485A CN 106326209 B CN106326209 B CN 106326209B
Authority
CN
China
Prior art keywords
tibetan
character
error detection
regular expression
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610661485.8A
Other languages
English (en)
Other versions
CN106326209A (zh
Inventor
安见才让
孙琦龙
昝风彪
看不太
拉毛措
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Nationalities University
Original Assignee
Qinghai Nationalities University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Nationalities University filed Critical Qinghai Nationalities University
Priority to CN201610661485.8A priority Critical patent/CN106326209B/zh
Publication of CN106326209A publication Critical patent/CN106326209A/zh
Application granted granted Critical
Publication of CN106326209B publication Critical patent/CN106326209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。其中所述藏文字检错方法包括:首先,获取待检错的藏文字;然后,将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;最后,根据匹配是否成功判断所述待检错的藏文字是否有错误。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。

Description

藏文字检错方法、系统及藏文字串检错方法、系统
技术领域
本发明涉及藏文字处理技术领域,具体涉及一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。
背景技术
伴随着信息社会的发展,藏文电子文档、报刊、新闻及网页等种类繁多的藏文信息日益增多,供人们阅读、学习和使用。这些藏文信息主要是通过键盘人工录入到计算机中的,但是,人工输入和校对时无法保证存入和修改的信息准确无误。
目前,现代藏文字校对的方法主要是采用字典匹配的方法:将藏文字与字库中的标准藏文字进行匹配,若匹配成功,则认为正确,否则认为错误。这种方法在运行时需要占用大量的处理器资源和内存空间,计算机运行负荷高且运算效率低下。
发明内容
针对现有技术中的缺陷,本发明提供一种藏文字检错方法和系统,以及一种藏文字串检错方法和系统,以解决目前字典匹配的方法占用处理器资源和内存空间大,计算机运行负荷高且运算效率低下的问题。
第一方面,本发明提供的一种藏文字检错方法,包括:
获取待检错的藏文字;
将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
根据匹配是否成功判断所述待检错的藏文字是否有错误。
可选的,所述根据匹配结果判断所述待检错的藏文字是否有错,包括:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述预设的梵文检错正则表达式具体为:
Figure BDA0001073818640000021
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA0001073818640000022
及紧缩字
Figure BDA0001073818640000023
的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure BDA0001073818640000024
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure BDA0001073818640000025
所述藏文字元音的检错正则表达式具体为:
Figure BDA0001073818640000026
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure BDA0001073818640000027
所述藏文字后加字
Figure BDA0001073818640000028
及紧缩字
Figure BDA0001073818640000029
的检错正则表达式具体为:
Figure BDA00010738186400000210
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA00010738186400000211
及紧缩字
Figure BDA00010738186400000212
的检错正则表达式的组合,其组合形式如下:
Figure BDA0001073818640000031
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字
Figure BDA0001073818640000032
及紧缩字
Figure BDA0001073818640000033
的检错正则表达式。
可选的,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
第二方面,本发明提供的一种藏文字检错系统,包括:
藏文字获取模块,用于获取待检错的藏文字;
藏文字匹配模块,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块,用于根据匹配是否成功判断所述待检错的藏文字是否有错误。
可选的,所述藏文字判断模块,包括:
匹配成功单元,用于在匹配成功时,判断所述待检错的藏文字没有错误;
匹配不成功单元,用于在匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述匹配不成功单元,包括:
梵文匹配子单元,用于在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
梵文匹配成功子单元,用于在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
梵文匹配不成功子单元,用于在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
可选的,所述预设的梵文检错正则表达式具体为:
Figure BDA0001073818640000034
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA0001073818640000041
及紧缩字
Figure BDA0001073818640000042
的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure BDA0001073818640000043
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure BDA0001073818640000044
所述藏文字元音的检错正则表达式具体为:
Figure BDA0001073818640000045
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure BDA0001073818640000046
所述藏文字后加字
Figure BDA0001073818640000047
及紧缩字
Figure BDA0001073818640000048
的检错正则表达式具体为:
Figure BDA0001073818640000049
可选的,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA00010738186400000410
及紧缩字
Figure BDA00010738186400000411
的检错正则表达式的组合,其组合形式如下:
Figure BDA00010738186400000412
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字
Figure BDA00010738186400000413
及紧缩字
Figure BDA00010738186400000414
的检错正则表达式。
可选的,所述藏文字检错系统,还包括:
错误标记模块,用于在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
第三方面,本发明提供的一种藏文字串检错方法,包括:
获取待检错的藏文字串;
按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
第四方面,本发明提供的一种藏文字串检错系统,包括:
藏文字串获取模块,用于获取待检错的藏文字串;
藏文字检错模块,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
由上述技术方案可知,本发明提供的一种藏文字检错方法,首先,获取待检错的藏文字;然后,将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;最后,根据匹配是否成功判断所述待检错的藏文字是否有错误。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。
基于相同的发明构思,本发明还提供一种藏文字串检错方法,首先,获取待检错的藏文字串;然后,按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;最后,对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。本藏文字串检错方法基于上述藏文字检错方法实施,同样具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点,此外,本方法将有错误的藏文字进行与没有错误的藏文字进行区分的标记,可以使用户能够在藏文字串中直观、快速的看到错误的藏文字,以帮助用户避免输入错误和校正遗漏。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种藏文字检错方法的流程图;
图2示出了本发明第二实施例所提供的一种藏文字检错系统的示意图。
图3示出了本发明第三实施例所提供的一种藏文字串检错方法的流程图;
图4示出了本发明第四实施例所提供的一种藏文字串检错系统的示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供一种藏文字检错方法及系统,以及一种藏文字串检错方法及系统。下面结合附图对本发明的实施例进行说明。
图1示出了本发明第一实施例所提供的一种藏文字检错方法的流程图。如图1所示,本发明第一实施例提供的一种藏文字检错方法包括以下步骤:
步骤S101:获取待检错的藏文字。
步骤S102:将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配。
本发明中,发明人根据通过研究现代藏文字的构字规律,建立了与现代藏文字相应的藏文字检错正则表达式,通过将待检错的藏文字与该藏文字检错正则表达式进行匹配来进行检错,需要说明的是,由于藏文字历史悠久,其字体形式也是经历了漫长的发展、演变过程,本发明实施例提供的藏文字检错正则表达式是基于现代藏文字的构字规律提出的,因此,本发明实施例所提供的藏文字检错方法主要用于现代藏文字的检错。
根据藏文字的构字规律,所述预设的藏文字检错正则表达式可以是以下任意一种正则表达式或任意多种正则表达式的组合:
不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA0001073818640000071
及紧缩字
Figure BDA0001073818640000072
的检错正则表达式;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure BDA0001073818640000073
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure BDA0001073818640000074
所述藏文字元音的检错正则表达式具体为:
Figure BDA0001073818640000075
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure BDA0001073818640000076
所述藏文字后加字
Figure BDA0001073818640000077
及紧缩字
Figure BDA0001073818640000078
的检错正则表达式具体为:
Figure BDA0001073818640000079
其中,上述每个正则表达式都是根据藏文字的构字规律总结形成的,例如:
根据现代藏文文法,藏文字有五个前加字:
Figure BDA00010738186400000710
每个前加字后可跟随的基字是有区别的:
Figure BDA00010738186400000711
后可跟随基字
Figure BDA00010738186400000712
后可跟随基字
Figure BDA00010738186400000713
Figure BDA00010738186400000714
后可跟随基字
Figure BDA00010738186400000715
后可跟随基字
Figure BDA00010738186400000716
后可跟随基字
Figure BDA00010738186400000717
Figure BDA00010738186400000718
基于此,可以建立不叠加藏文字中前加字和基字组合的检错正则表达式:
Figure BDA0001073818640000081
又如,根据现代藏文文法,30个藏文字母可以在没有前加字、上加字、下加字时可以单独拼写现代藏文字,所以,建立检错正则表达式:
Figure BDA0001073818640000082
另外,叠加藏文字因字性文法,有以下约束:
前加字为
Figure BDA0001073818640000083
后可放置的有
Figure BDA0001073818640000084
Figure BDA0001073818640000085
字符串组字时相互独立的,所以,检错正则表达式可表示为:
Figure BDA0001073818640000086
前加字
Figure BDA0001073818640000087
后可加叠加的有
Figure BDA0001073818640000088
检错正则表达式可表示为:
Figure BDA0001073818640000089
前加字
Figure BDA00010738186400000810
后可叠加的有
Figure BDA00010738186400000811
检错正则表达式可表示为:
Figure BDA00010738186400000812
前加字
Figure BDA00010738186400000813
后可叠加的有
Figure BDA00010738186400000814
检错正则表达式可表示为:
Figure BDA00010738186400000815
无前加字而上加字为
Figure BDA00010738186400000816
可叠加的有
Figure BDA00010738186400000817
检错正则表达式可表示为:
Figure BDA00010738186400000818
无前加字而上加字为
Figure BDA00010738186400000819
的可叠加字有
Figure BDA00010738186400000820
Figure BDA00010738186400000821
检错正则表达式可表示为:
Figure BDA00010738186400000822
无前加字而上加字为
Figure BDA00010738186400000823
的可叠加字有
Figure BDA00010738186400000824
检错正则表达式可表示为:
Figure BDA00010738186400000825
无前加字和上加字而下加字为
Figure BDA00010738186400000826
的可叠加字有
Figure BDA00010738186400000827
检错正则表达式可表示为:
Figure BDA0001073818640000091
无前加字和上加字而下加字为
Figure BDA0001073818640000092
的可叠加的字有
Figure BDA0001073818640000093
Figure BDA0001073818640000094
检错正则表达式表示为:
Figure BDA0001073818640000095
无前加字和上加字而下加字为
Figure BDA0001073818640000096
的可叠加的字有
Figure BDA0001073818640000097
检错正则表达式表示为:
Figure BDA0001073818640000098
无前加字和上加字而下加字为
Figure BDA0001073818640000099
的可叠加的字有
Figure BDA00010738186400000910
Figure BDA00010738186400000911
检错正则表达式可表示为:
Figure BDA00010738186400000912
基于此,可以建立单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式:
Figure BDA00010738186400000913
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA00010738186400000914
及紧缩字
Figure BDA00010738186400000915
的检错正则表达式的组合,其组合形式如下:
Figure BDA00010738186400000916
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字
Figure BDA00010738186400000917
及紧缩字
Figure BDA00010738186400000918
的检错正则表达式。
对于上述组合的藏文字检错正则表达式的解释如下:
正则表达式p所生成字串的第二个字符后有元音时,正则表达式b所生成的字串或正则表达式a所生成字串可存在也可不存在,如,
Figure BDA0001073818640000101
所以,这时可建立藏文字的检错正则表达式:
(p)v(b|a)?
正则表达式p所生成字串的第二个字符后没有元音时,正则表达式b所生成的字串、正则表达式a生成字串和字符
Figure BDA0001073818640000102
三者之一必需要存在,否则,不符合藏文字文法,如,
Figure BDA0001073818640000103
Figure BDA0001073818640000104
是合法的,但
Figure BDA0001073818640000105
不合法。所以,这时可建立藏文字的检错正则表达式:
Figure BDA0001073818640000106
正则表达式q所生成的字串可独立成字,其后元音、正则表达式b所生成的字串、正则表达式a所生成字串都可存在也可不存在,如,
Figure BDA0001073818640000107
都合法,但正则表达式b所生成的字串和正则表达式a所生成字串只能是二选一,否则如,
Figure BDA0001073818640000108
不合法。所以,这时可建立藏文字的检错正则表达式:
(q)(v)?(b|a)?
将上述三种情形综合考虑,既可形成组合的藏文字检错正则表达式
Figure BDA0001073818640000109
步骤S103:根据匹配是否成功判断所述待检错的藏文字是否有错误。
本步骤的实施方式可以是:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
由于所述藏文字有可能是梵文字符,因此,在本发明提供的一个实施例中,对于匹配不成功的情况,还需要与梵文检错正则表达式进行匹配,以提高判断的准确性:所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
其中,所述预设的梵文检错正则表达式具体可以为:
Figure BDA0001073818640000111
考虑到在检错完成后,需要将错误的藏文字进行突出显示,以使用户能够直观、快速的发现错误的藏文字,因此,在本发明提供的一个实施例中,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
其中,做与检错前进行区分的标记,可以通过将有错误的藏文字的字体颜色、底纹颜色、下划线颜色进行变更,或者将有错误的藏文字的进行加粗、倾斜等处理,或者在文字底部增加下划线、波浪线等方式实现,也可以将以上方式以任意形式组合实现,例如,对有错误的藏文字做红色双波浪线下划线标记等等,只要能将有错误的藏文字与检错前进行区分,任何现有的标记方式都在本发明的保护范围之内,此处不再一一赘述,其均在本发明的保护范围之内。
至此,通过步骤S101至步骤S103,完成了本发明第一实施例所提供的一种藏文字检错方法的流程。相较于现有技术中利用字典匹配的方式进行藏文字检错的方法,本发明基于现代藏文字的构字规律,利用藏文字检错正则表达式进行藏文字的检错,具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点。
在上述的第一实施例中,提供了一种藏文字检错方法,与之相对应的,本申请还提供一种藏文字检错系统。请参考图2,其为本发明第二实施例提供的一种藏文字检错系统的示意图。由于系统实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本发明第二实施例提供的一种藏文字检错系统,包括:
藏文字获取模块101,用于获取待检错的藏文字;
藏文字匹配模块102,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块103,用于根据匹配是否成功判断所述待检错的藏文字是否有错误。
在本发明提供的一个实施例中,所述藏文字判断模块103,包括:
匹配成功单元,用于在匹配成功时,判断所述待检错的藏文字没有错误;
匹配不成功单元,用于在匹配不成功时,判断所述待检错的藏文字有错误。
在本发明提供的一个实施例中,所述匹配不成功单元,包括:
梵文匹配子单元,用于在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
梵文匹配成功子单元,用于在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
梵文匹配不成功子单元,用于在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
在本发明提供的一个实施例中,所述预设的梵文检错正则表达式具体为:
Figure BDA0001073818640000121
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA0001073818640000122
及紧缩字
Figure BDA0001073818640000123
的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure BDA0001073818640000124
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure BDA0001073818640000125
所述藏文字元音的检错正则表达式具体为:
Figure BDA0001073818640000126
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure BDA0001073818640000131
所述藏文字后加字
Figure BDA0001073818640000132
及紧缩字
Figure BDA0001073818640000133
的检错正则表达式具体为:
Figure BDA0001073818640000134
在本发明提供的一个实施例中,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure BDA0001073818640000135
及紧缩字
Figure BDA0001073818640000136
的检错正则表达式的组合,其组合形式如下:
Figure BDA0001073818640000137
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字
Figure BDA0001073818640000138
及紧缩字
Figure BDA0001073818640000139
的检错正则表达式。
在本发明提供的一个实施例中,所述藏文字检错系统,还包括:
错误标记模块,用于在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
以上,为本发明第二实施例提供的一种藏文字检错系统的实施例说明。
本发明提供的一种藏文字检错系统与上述藏文字检错方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
本发明还提供一种藏文字串检错方法,请参考图3,图3示出了本发明第三实施例所提供的一种藏文字串检错方法的流程图。如图3所示,本发明第三实施例提供的一种藏文字串检错方法包括以下步骤:
步骤S201:获取待检错的藏文字串。
步骤S202:按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果。
在本发明提供的一个实施例中,对藏文字串中的每个藏文字均通过藏文字检错正则表达式和梵文检错正则表达式进行检错,例如,首先将藏文字与藏文字检错正则表达式进行匹配,若匹配成功,则输出表示所述藏文字没有错误的检测结果;若匹配不成功,在将所述藏文字与梵文检错正则表达式进行匹配,若匹配成功,则输出表示所述藏文字没有错误的检测结果,若匹配不成功,则输出表示所述藏文字有错误的检测结果。
步骤S203:对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
其中,做与没有错误的藏文字进行区分的标记,可以通过将有错误的藏文字的字体颜色、底纹颜色、下划线颜色进行变更,或者将有错误的藏文字的进行加粗、倾斜等处理,或者在文字底部增加下划线、波浪线等方式实现,也可以将以上方式以任意形式组合实现,例如,对有错误的藏文字做红色双波浪线下划线标记等等,只要能将有错误的藏文字与没有错误的藏文字进行区分,任何现有的标记方式都在本发明的保护范围之内,此处不再一一赘述,其均在本发明的保护范围之内。
至此,通过步骤S201至步骤S203,完成了本发明第三实施例所提供的一种藏文字串检错方法的流程。本藏文字串检错方法基于上述藏文字检错方法实施,同样具有占用处理器资源少、内存占用低、运行负荷小、检错效率高等优点,此外,本方法将有错误的藏文字进行与没有错误的藏文字进行区分的标记,可以使用户能够在藏文字串中直观、快速的看到错误的藏文字,以帮助用户避免输入错误和校正遗漏。
在本发明提供的一个优选的实施例中,所述藏文字串检错方法可以通过VB.NET实现,具体代码如下:
Figure BDA0001073818640000141
Figure BDA0001073818640000151
在上述的第三实施例中,提供了一种藏文字串检错方法,与之相对应的,本申请还提供一种藏文字串检错系统。请参考图4,其为本发明第四实施例提供的一种藏文字串检错系统的示意图。由于系统实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本发明第四实施例提供的一种藏文字串检错系统,包括:
藏文字串获取模块201,用于获取待检错的藏文字串;
藏文字检错模块202,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照本发明提供的任一项所述藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块203,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
本发明提供的一种藏文字串检错系统与上述藏文字串检错方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的藏文字检错系统和藏文字串检错系统可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种藏文字检错方法,其特征在于,包括:
获取待检错的藏文字;
将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
根据匹配是否成功判断所述待检错的藏文字是否有错误;
所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure QLYQS_1
及紧缩字
Figure QLYQS_2
的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure QLYQS_3
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure QLYQS_4
所述藏文字元音的检错正则表达式具体为:
Figure QLYQS_5
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure QLYQS_6
所述藏文字后加字
Figure QLYQS_7
及紧缩字
Figure QLYQS_8
的检错正则表达式具体为:
Figure QLYQS_9
2.根据权利要求1所述的藏文字检错方法,其特征在于,所述根据匹配结果判断所述待检错的藏文字是否有错,包括:
在匹配成功时,判断所述待检错的藏文字没有错误;
在匹配不成功时,判断所述待检错的藏文字有错误。
3.根据权利要求2所述的藏文字检错方法,其特征在于,所述在匹配不成功时,判断所述待检错的藏文字有错误,包括:
在匹配不成功时,将所述待检错藏文字与预设的梵文检错正则表达式进行匹配;
在与预设的梵文检错正则表达式匹配成功时,判断所述待检错的藏文字没有错误;
在与预设的梵文检错正则表达式匹配不成功时,判断所述待检错的藏文字有错误。
4.根据权利要求3所述的藏文字检错方法,其特征在于,所述预设的梵文检错正则表达式具体为:
Figure QLYQS_10
5.根据权利要求4所述的藏文字检错方法,其特征在于,所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure QLYQS_11
及紧缩字
Figure QLYQS_12
的检错正则表达式的组合,其组合形式如下:
Figure QLYQS_13
其中,rp表示藏文字检错正则表达式,p表示不叠加藏文字中前加字和基字组合的检错正则表达式,q表示单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,v表示藏文字元音的检错正则表达式,b表示藏文字后加字及又后加字组合的检错正则表达式,a表示藏文字后加字
Figure QLYQS_14
及紧缩字
Figure QLYQS_15
的检错正则表达式。
6.根据权利要求1所述的藏文字检错方法,其特征在于,在根据匹配是否成功判断所述待检错的藏文字是否有错误的步骤后,还包括:
在所述待检错的藏文字有错误时,对所述藏文字做与检错前进行区分的标记。
7.一种藏文字检错系统,其特征在于,包括:
藏文字获取模块,用于获取待检错的藏文字;
藏文字匹配模块,用于将所述待检错藏文字与预设的藏文字检错正则表达式进行匹配;
藏文字判断模块,用于根据匹配是否成功判断所述待检错的藏文字是否有错误;
所述预设的藏文字检错正则表达式包括不叠加藏文字中前加字和基字组合的检错正则表达式,单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式,藏文字元音的检错正则表达式,藏文字后加字及又后加字组合的检错正则表达式,藏文字后加字
Figure QLYQS_16
及紧缩字
Figure QLYQS_17
的检错正则表达式中的任意一种正则表达式或任意多种正则表达式的组合;
其中,所述不叠加藏文字中前加字和基字组合的检错正则表达式具体为:
Figure QLYQS_18
所述单字母藏文字和叠加藏文字中前加字、上加字、基字和下加字组合的检错正则表达式具体为:
Figure QLYQS_19
所述藏文字元音的检错正则表达式具体为:
Figure QLYQS_20
所述藏文字后加字及又后加字组合的检错正则表达式具体为:
Figure QLYQS_21
所述藏文字后加字
Figure QLYQS_22
及紧缩字
Figure QLYQS_23
的检错正则表达式具体为:
Figure QLYQS_24
8.一种藏文字串检错方法,其特征在于,包括:
获取待检错的藏文字串;
按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照权利要求1至权利要求6任一项所述的藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
9.一种藏文字串检错系统,其特征在于,包括:
藏文字串获取模块,用于获取待检错的藏文字串;
藏文字检错模块,用于按照所述藏文字串的顺序,将所述藏文字串中的每个藏文字依次按照权利要求1至权利要求6任一项所述的藏文字检错方法进行检错,获得每个所述藏文字各自的检错结果;
错误文字标记模块,用于对所述藏文字串中检错结果为有错误的藏文字,做与没有错误的藏文字进行区分的标记。
CN201610661485.8A 2016-08-09 2016-08-09 藏文字检错方法、系统及藏文字串检错方法、系统 Active CN106326209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610661485.8A CN106326209B (zh) 2016-08-09 2016-08-09 藏文字检错方法、系统及藏文字串检错方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610661485.8A CN106326209B (zh) 2016-08-09 2016-08-09 藏文字检错方法、系统及藏文字串检错方法、系统

Publications (2)

Publication Number Publication Date
CN106326209A CN106326209A (zh) 2017-01-11
CN106326209B true CN106326209B (zh) 2023-04-07

Family

ID=57739915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610661485.8A Active CN106326209B (zh) 2016-08-09 2016-08-09 藏文字检错方法、系统及藏文字串检错方法、系统

Country Status (1)

Country Link
CN (1) CN106326209B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836900B (zh) * 2021-09-24 2024-01-26 青海民族大学 一种基于文法向量乘法的藏文音节校对方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120496A (zh) * 1994-09-08 1996-04-17 卢亚军 标准键盘手提式藏文打字机
CN1696880A (zh) * 2005-05-08 2005-11-16 卢亚军 藏文计算机通用键盘布局与输入法
CN1737739A (zh) * 2005-07-16 2006-02-22 西北民族大学 基于英文键盘的藏文输入法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120496A (zh) * 1994-09-08 1996-04-17 卢亚军 标准键盘手提式藏文打字机
CN1696880A (zh) * 2005-05-08 2005-11-16 卢亚军 藏文计算机通用键盘布局与输入法
CN1737739A (zh) * 2005-07-16 2006-02-22 西北民族大学 基于英文键盘的藏文输入法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法

Also Published As

Publication number Publication date
CN106326209A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
US8271873B2 (en) Automatically detecting layout of bidirectional (BIDI) text
US20100235780A1 (en) System and Method for Identifying Words Based on a Sequence of Keyboard Events
CN104008093A (zh) 用于中文姓名音译的方法和系统
CN107861949B (zh) 文本关键词的提取方法、装置及电子设备
US9977766B2 (en) Keyboard input corresponding to multiple languages
CN105302626B (zh) Xps结构化数据的解析方法
KR20150099936A (ko) 전자문서의 레이아웃 유지를 위한 대체폰트 적용 방법 및 그 장치
US20150205781A1 (en) Systems and methods for using tone indicator in text recognition
Basri et al. Automatic spell checker for Malay blog
US9235624B2 (en) Document similarity evaluation system, document similarity evaluation method, and computer program
CN114861635A (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN106326209B (zh) 藏文字检错方法、系统及藏文字串检错方法、系统
US20120265520A1 (en) Text processor and method of text processing
WO2021239114A1 (zh) 一种对文本进行同义修改、确定文本创作者的方法
CN105700704A (zh) 小尺寸屏幕下的文字输入方法和装置
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
US10789410B1 (en) Identification of source languages for terms
US20150073778A1 (en) Techniques for automatically generating test data
Murthy et al. Kannada spell checker with sandhi splitter
Foda et al. A Qur'anic Code for Representing the Holy Qur'an (Rasm Al-'Uthmani)
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
KR20160053587A (ko) 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법
CN117235345B (zh) 开放版式文档ofd搜索方法、装置及电子设备
CN117892724B (zh) 一种文本检测方法、装置、设备及存储介质
US11170182B2 (en) Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant