CN101256556A - 一种泰文数据检测方法 - Google Patents
一种泰文数据检测方法 Download PDFInfo
- Publication number
- CN101256556A CN101256556A CNA2008100177260A CN200810017726A CN101256556A CN 101256556 A CN101256556 A CN 101256556A CN A2008100177260 A CNA2008100177260 A CN A2008100177260A CN 200810017726 A CN200810017726 A CN 200810017726A CN 101256556 A CN101256556 A CN 101256556A
- Authority
- CN
- China
- Prior art keywords
- safe
- civilian
- data
- thai
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种泰文数据检测方法,该方法包括以下步骤:1)读入文件数据并保存该文件数据中的泰文部分;2)依据数据库中储存的泰文字构规则及泰文语法规则分析比对步骤1)中保存的泰文部分,并输出错误报告。本发明所提供的泰文数据检测方法通过内建的泰文字构及泰文语法规则对存放在数据库中的文件进行文字的合法性分析及检验,而输出错误报告供维护者参考,以进一步维护数据库中的文件。
Description
技术领域
本发明涉及一种数据检测方法,尤其是一种泰文数据检测方法。
背景技术
随着计算机应用普及大量的文字、影音、及图像可数字化而利用这些计算机媒介储存以及整合成数据库,以供使用者查询。目前维护这些数据库的数字内容(特别是维护数据库的文字内容)的主要流程如下:程序员检视数据库存放的格式,以判断是否有例如文字格式不符等状况,若有此状况则回报数据维护人员以更正数据库的文字内容。倘若数据库的文字内容包括跨国语言,例如英文、日文、或韩文等,则数据维护人员又需再次跟熟知这些语言的人士进行沟通确认,以修改上述文字格式不符之处。
目前泰文数据库的维护多半采用上述流程。然而,上述维护流程的缺陷在于找出一段(或整篇)文件数据的问题点过于随机、不完全。举例而言,程序人员仅分析一段(或整篇)文件数据对应的单一码(Unicode)是否为泰文的单一码范围(0x0e01~0x0e68)内,或判断此段(或整篇)文件数据的编码是否合乎泰文编码。当发现其中某段文字不合乎单一码或泰文编码时,则回报数据维护人员发生错误之处。然而对于泰文单词的文字构造的错误(例如自动找出错误的泰文单字或单词),则无法完全由程序人员分析出。另外,若数据维护人员也不熟悉泰文语法,则需再通过熟悉泰文的第三人确认并修复数据错误处。多方沟通往往会让修复(或更新)数据库的效率降低,且提高维护的成本。
发明内容
为了解决背景技术中所述的技术问题,本发明提供了一种泰文数据检测方法,通过内建的泰文字构及泰文语法规则对存放在数据库中的文件进行文字的合法性分析及检验,而输出错误报告供维护者参考,以进一步维护数据库中的文件。
本发明的技术方案是:本发明是一种泰文数据检测方法,其特殊之处在于:该方法包括以下步骤:
1)、读入文件数据并保存该文件数据中的泰文部分;
2)、依据数据库中储存的泰文字构规则及泰文语法规则分析比对步骤1)中保存的泰文部分,并输出错误报告。
上述步骤2)中依据泰文字构规则分析比对步骤1)中保存的泰文部分包括以下步骤:
2.1)、读入步骤1)中保存的泰文部分的泰文单词;
2.2)、依序读入这个泰文单词中所包含的至少一个泰文部首;
2.3)、判断步骤2.2)中读入的泰文单词的泰文部首:当一个泰文单词的部首的个数大于3时,则输出第一错误讯息;当一个泰文单词的部首个数等于3,且最后的泰文部首不是上上部部首时,则输出第二错误讯息;当泰文单词包含的泰文部首中,同时存在一个上下部以及下部的部首时,则输出第三错误讯息。
上述步骤2)之后还包括步骤3)依据步骤2)输出的错误报告修正步骤1)保存的数据。
上述步骤2)数据库中储存的泰文字构规则及泰文语法规则可进行更新。
上述步骤1)中文件数据中的泰文部分以单一码或本地码的格式编码储存。
上述步骤1)中文件数据中的泰文部分是以空格来区分出至少一个泰文单词的。
上述步骤2)中的错误报告包括文件数据中发生问题的数据的行列号码及错误类型。
综上所述,本发明是由一个内储的泰文字构规则及泰文语法规则来判断泰文单词是否合法,进而自动产生错误报告,用来供数据维护者快速找出数据库中需维护的部分,并可修正或加入上述的判断泰文字构或语法规则,使判断文件数据的正确性更趋精确,并减少多方维护沟通是否须修正数据库所浪费的人力支出及时间成本。
附图说明
图1是本发明的流程图;
图2为本发明的泰文字构规则分析比对文件数据的流程图;
图3为本发明的操作接口示意图;
图4为本发明的错误报告示意图;
图5为本发明的另一使用者操作接口示意图。
具体实施方式
参见图1,本发明包括下列步骤:步骤S110,读入文件数据,这些文件数据可以是中文、泰文夹杂的文件数据;步骤S120,保留文件数据中的泰文部分,并去除非泰文部分,此时可将这些泰文部分以单一码(Unicode)或本地码的编码方式储存另存于一个文本文件或是暂存于执行泰文数据检测方法的设备的内存中,而且这些泰文部分可包括至少一个泰文单词,在泰文单词之间以空格的方式来区分,每一个泰文单词的组成皆包括至少一个泰文部首,这些泰文部首例如为上部部首、中部部首、下部部首、上上部部首、以及上下部部首等五大类,这些泰文部首对应的本地码或单一码会介于一定之范围内,例如上部部首对应到本地码(0x95~0x97),以及对应到单一码(0x0e60~0x0e62),因此可用来判断泰文单词内包含的泰文部首种类,用来辨识泰文单词是否合法;步骤S130,将本实施例中泰文字构规则及泰文语法规则储存于类似于专家系统的规则数据库(rule base),以检测文件数据的泰文部分;步骤S140,依据步骤S130,汇集问题发生的信息而输出错误报告;步骤S150,依据步骤S140输出的错误报告修正文件数据,或是更新储存的泰文字构规则及泰文语法规则,以增加查验文件数据的泰文部分的正确性。
参照图2,文件数据的泰文部分依据泰文字构规则来分析验证泰文单词的正确性,包括以下步骤:步骤S210,读入文件数据的泰文部分的泰文单词;步骤S220,依序读入泰文单词包含的至少一个泰文部首;步骤S230,判断泰文单词包含的泰文部首的个数是否大于3,若超过3则输出第一错误讯息;步骤S240,泰文单词包含的泰文部首个数等于3且最后的泰文部首不是上上部部首时,输出第二错误讯息;步骤S250,在一个泰文单词中,若同时存在一个上下部以及一个下部的部首时,输出第三错误讯息。
依据泰文字构规则来分析验证泰文单词的正确性时,在判断出一个泰文单词后,递归的抓取下一个泰文单词来验证,直到整份文件数据的泰文部分皆查验完毕。
其中,第一错误讯息、第二错误讯息、以及第三错误讯息将汇整为一个错误报告,当中包含了问题数据的行列号码、不合法的泰文单词发生的位置、以及错误类型以供使用者参考。
为让本发明更趋明了易懂,以下段落特举较佳实施例说明泰文数据检测方法。
参见图3、4,首先以一台可执行本发明的泰文数据检测方法的设备,加载例如为文件1.dbs的文件数据,在文件数据检测接口300的文件数据窗口310便会出现加载的文件数据的内容。之后,保留泰文部分并显示于泰文数据窗口320,而泰文部分包含多个泰文单词,在各个泰文单词之间以一个空格区分开来。当按下开始分析选项330后,即逐字的判断每一个泰文单词的合法性。使用语法规则进一步判断各个泰文单词的词性的关联性,熟知泰文语法者可增删语法规则来验证文件数据,在此不限定其范围。当检验完文件数据的泰文部分的各个泰文单词的正确性后,会进一步产生一个错误报告400,使用者查看此错误报告400即知道例如在第5032行第51列的泰文单词起始字构不是中部部首的错误,使用者便可根据此修改文件数据中发生的错误。
参见图5,使用者更可通过一个增删泰文判断规则接口500来增删泰文字构规则及泰文语法规则。加载一个泰文字构规则(例如规则1.dbs),判断泰文单词合法性的所有规则叙述便会显示于判断规则列表510,熟知泰文者可通过输入规则窗口520更新或修改泰文字构规则。
Claims (7)
1、一种泰文数据检测方法,其特征在于:该方法包括以下步骤:
1)、读入文件数据并保存该文件数据中的泰文部分;
2)、依据数据库中储存的泰文字构规则及泰文语法规则分析比对步骤1)中保存的泰文部分,并输出错误报告。
2、根据权利要求1所述的泰文数据检测方法,其特征在于:所述步骤2)中依据泰文字构规则分析比对步骤1)中保存的泰文部分包括以下步骤:
2.1)、读入步骤1)中保存的泰文部分的泰文单词;
2.2)、依序读入这个泰文单词中所包含的至少一个泰文部首;
2.3)、判断步骤2.2)中读入的泰文单词的泰文部首:当一个泰文单词的部首的个数大于3时,则输出第一错误讯息;当一个泰文单词的部首个数等于3,且最后的泰文部首不是上上部部首时,则输出第二错误讯息;当泰文单词包含的泰文部首中,同时存在一个上下部以及下部的部首时,则输出第三错误讯息。
3、根据权利要求1或2所述的泰文数据检测方法,其特征在于:所述步骤2)之后还包括步骤3)依据步骤2)输出的错误报告修正步骤1)保存的数据。
4、根据权利要求1所述的泰文数据检测方法,其特征在于:所述步骤2)数据库中储存的泰文字构规则及泰文语法规则可进行更新。
5、根据权利要求1所述的泰文数据检测方法,其特征在于:所述步骤1)中文件数据中的泰文部分以单一码或本地码的格式编码储存。
6、根据权利要求1所述的泰文数据检测方法,其特征在于:所述步骤1)中文件数据中的泰文部分是以空格来区分出至少一个泰文单词的。
7、根据权利要求1所述的泰文数据检测方法,其特征在于:所述步骤2)中的错误报告包括文件数据中发生问题的数据的行列号码及错误类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100177260A CN101256556A (zh) | 2008-03-17 | 2008-03-17 | 一种泰文数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100177260A CN101256556A (zh) | 2008-03-17 | 2008-03-17 | 一种泰文数据检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101256556A true CN101256556A (zh) | 2008-09-03 |
Family
ID=39891388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100177260A Pending CN101256556A (zh) | 2008-03-17 | 2008-03-17 | 一种泰文数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101256556A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479174A (zh) * | 2010-11-23 | 2012-05-30 | 盛乐信息技术(上海)有限公司 | 针对gbk编码的汉字自动校验和纠错系统及其方法 |
CN103268314A (zh) * | 2013-05-02 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种获取泰文断句规则的方法及装置 |
CN103327394A (zh) * | 2013-06-25 | 2013-09-25 | 深圳市九洲电器有限公司 | 一种用孟加拉语来显示机顶盒的用户界面的方法 |
CN108491383A (zh) * | 2018-03-14 | 2018-09-04 | 昆明理工大学 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
-
2008
- 2008-03-17 CN CNA2008100177260A patent/CN101256556A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479174A (zh) * | 2010-11-23 | 2012-05-30 | 盛乐信息技术(上海)有限公司 | 针对gbk编码的汉字自动校验和纠错系统及其方法 |
CN102479174B (zh) * | 2010-11-23 | 2016-03-16 | 盛乐信息技术(上海)有限公司 | 针对gbk编码的汉字自动校验和纠错系统及其方法 |
CN103268314A (zh) * | 2013-05-02 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种获取泰文断句规则的方法及装置 |
CN103268314B (zh) * | 2013-05-02 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 一种获取泰文断句规则的方法及装置 |
CN103327394A (zh) * | 2013-06-25 | 2013-09-25 | 深圳市九洲电器有限公司 | 一种用孟加拉语来显示机顶盒的用户界面的方法 |
CN103327394B (zh) * | 2013-06-25 | 2016-05-11 | 深圳市九洲电器有限公司 | 一种用孟加拉语来显示机顶盒的用户界面的方法 |
CN108491383A (zh) * | 2018-03-14 | 2018-09-04 | 昆明理工大学 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8166000B2 (en) | Using a data mining algorithm to generate format rules used to validate data sets | |
US9690788B2 (en) | File type recognition analysis method and system | |
US9043339B2 (en) | Extracting terms from document data including text segment | |
CN102956231B (zh) | 基于半自动校正的语音关键信息记录装置及方法 | |
CN104699611A (zh) | 一种基于开源软件缺陷代码修改模式的缺陷信息提取方法 | |
CN101515289A (zh) | 一种对通用数据文件进行检查的装置及方法 | |
CN103034625A (zh) | 侦测及校正中文错字的系统及方法 | |
CN101256556A (zh) | 一种泰文数据检测方法 | |
CN102591773A (zh) | 等保测评中操作系统安全的自动测评方法及其系统 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN111815162A (zh) | 一种数字化审计工具及方法 | |
CN114385679A (zh) | 一种表结构巡检方法、表结构巡检装置和电子设备 | |
WO2024007810A1 (zh) | 一种基于医学疾病和药品的编码方法和编码装置 | |
KR101827965B1 (ko) | 연동 통제 문서 분석 장치 및 방법 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
CN201374063Y (zh) | 一种对通用数据文件进行检查的装置 | |
CA3047156A1 (en) | Systems and methods for determining references in patent claims | |
CN114443657A (zh) | 应用于数字孪生城市的空间数据图层字段检查方法及系统 | |
CN117171587B (zh) | 材料信息的编码方法、平台、电子设备及存储介质 | |
CN115774558B (zh) | 一种测试案例自动扩展方法及装置 | |
CN112765250B (zh) | 一种支持json数据转化为关系型数据库的方法和装置 | |
US10268674B2 (en) | Linguistic intelligence using language validator | |
CN117273001A (zh) | 病历实体提取方法及装置 | |
CN117592932A (zh) | 一种银行系统数据端自动化的上线方法及系统 | |
CN117877039A (zh) | 一种炼油化工设备定期检验报告的数据识别与数据治理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080903 |