CN107943761A - 一种txt文档编码字符集的校验方法及系统 - Google Patents

一种txt文档编码字符集的校验方法及系统 Download PDF

Info

Publication number
CN107943761A
CN107943761A CN201711121949.7A CN201711121949A CN107943761A CN 107943761 A CN107943761 A CN 107943761A CN 201711121949 A CN201711121949 A CN 201711121949A CN 107943761 A CN107943761 A CN 107943761A
Authority
CN
China
Prior art keywords
verified
txt
bom
documents
coding format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711121949.7A
Other languages
English (en)
Inventor
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201711121949.7A priority Critical patent/CN107943761A/zh
Publication of CN107943761A publication Critical patent/CN107943761A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种TXT文档编码字符集的校验方法,包括:接收待校验TXT文档;对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;按照所述文件编码格式解码所述待校验TXT文档的编码字符集。该方法有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。

Description

一种TXT文档编码字符集的校验方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种TXT文档编码字符集的校验方法及系统。
背景技术
现有技术中,运营商的营业系统在进行批量业务办理时,通过批量框架支撑批量业务办理。用户从前台上传批量文件(TXT格式),批量框架下载并解析文件入库,然后逐条生产订单。但会出现部分内容为乱码的情况,影响文档解析准确率及处理效率。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种TXT文档编码字符集的校验方法及系统。
本发明解决上述技术问题的技术方案如下:一种TXT文档编码字符集的校验方法,包括:
接收待校验TXT文档;
对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
本发明的有益效果是:通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括:
判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
采用上述进一步方案的有益效果是,带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式;如果文档没有BOM头部信息,可以根据编码规则准确地确认编码格式。
进一步,所述如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
采用上述进一步方案的有益效果是,对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件,其头部信息的16进制编码为FE FF;UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE,UTF_8文件,其头部信息的16进制编码为EFBB,通过上述编码可以直接快速确认文件的编码字符集。
进一步,所述如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
采用上述进一步方案的有益效果是,对于没有BOM头部信息的UTF-8格式文件,按照前文所说的UTF-8编码规则校验,符合规则的字符集编码为UTF-8,不符合规则的为GBK编码,可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。
进一步,将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR包。
采用上述进一步方案的有益效果是,将方法声明成静态方法并封装成JAR包,方便复用。
本发明解决上述技术问题的另一技术方案如下:一种TXT文档编码字符集的校验系统,包括:
接收单元,用于接收待校验TXT文档;
校验单元,用于对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
解码单元,用于按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
本发明的有益效果是:通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
进一步,所述校验单元用于:
判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
采用上述进一步方案的有益效果是,带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式;如果文档没有BOM头部信息,可以根据编码规则准确地确认编码格式。
进一步,所述校验单元用于:如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式,包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
采用上述进一步方案的有益效果是,对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件,其头部信息的16进制编码为FE FF;UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE,UTF_8文件,其头部信息的16进制编码为EFBB,通过上述编码可以直接快速确认文件的编码字符集。
进一步,所述校验单元用于:如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
采用上述进一步方案的有益效果是,对于没有BOM头部信息的UTF-8格式文件,按照前文所说的UTF-8编码规则校验,符合规则的字符集编码为UTF-8,不符合规则的为GBK编码,可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。
进一步,将所述TXT文档编码字符集的校验系统执行的校验方法声明成静态方法并封装成JAR包。
采用上述进一步方案的有益效果是,将方法声明成静态方法并封装成JAR包,方便复用。
附图说明
图1为本发明一施例提供的TXT文档编码字符集的校验方法的示意性流程图;
图2为本发明另一施例提供的TXT文档编码字符集的校验方法的示意性流程图;
图3为本发明另一施例提供的TXT文档编码字符集的校验方法的示意性流程图;
图4为本发明一施例提供的TXT文档编码字符集的校验方系统的示意性结构框图。
附图中,各标号所代表的部件列表如下:
410、接收单元,420、校验单元,430、解码单元。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1给出了本发明实施例提供的一种TXT文档编码字符集的校验方法的示意性流程图。如图1所示,该方法包括:
S110,接收待校验TXT文档;
S120,对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
S130,按照所述文件编码格式解码所述待校验TXT文档。
需要说明的是,运营商的营业系统在进行批量业务办理时,通过批量框架支撑批量业务办理,用户从前台上传批量文件(Txt格式),批量框架下载并解析文件入库,然后逐条生成订单。2016年4月的时候发明人发现一个问题,批量业务办理完成后查询结果时,发现业务备注是乱码。经过排查发现,用户上传的文件中包含中文内容,在windows环境下,默认的txt编码格式为GBK格式,而吉林CRM6.0工程中默认的字符编码格式为UTF-8格式,批量框架按照UTF-8格式解析文件时由于解码字符集错误造成了中文识别为乱码。
该实施例中,通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
可选地,作为本发明另外一个实施例,如图2所示,一种TXT文档编码字符集的校验方法,包括:
S210,接收待校验TXT文档;
S220,判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式;
S230,按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
该实施例中,带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式;如果文档没有BOM头部信息,可以根据编码规则准确地确认编码格式。总体来讲,通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
可选地,作为本发明另外一个实施例,如图3所示,
S310,接收待校验TXT文档;
S320,对所述待校验TXT文档进行BOM头部校验,如果有BOM头,执行S330,否则执行S340;
S330,当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8;
S340,判断所述待校验TXT文档是否为文件尾,如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;否则执行S350;
S350,则判断读入的字节是否大于0XF8,如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;否则执行S360;
S360,判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
需要说明的是,该实施例针对4类常见的中文编码:GB2312、GBK、UTF-8和UTF-16。由于GBK为GB2312的超集,可以将这两者合并为一类。这种编码类型有BOM头;UTF-16分为大端序表示类型UTF-16BE,其BOM头为FE FF;UTF-16的小端序表示为Unicode的默认编码,其BOM头为FF FE;UTF-8的BOM头为EF BB BF,可简单识别前两位EF BB;无BOM头的UTF-8编码可以按照编码规则(例如:1110xxxx,10xxxxxx,10xxxxxx)验证。
该实施例中,对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件,其头部信息的16进制编码为FE FF;UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE,UTF_8文件,其头部信息的16进制编码为EFBB,通过上述编码可以直接快速确认文件的编码字符集。对于没有BOM头部信息的UTF-8格式文件,按照前文所说的UTF-8编码规则校验,符合规则的字符集编码为UTF-8,不符合规则的为GBK编码,可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。
上文结合图1至图3,详细描述了根据本发明实施例提供TXT文档编码字符集的校验方法。下面结合图4,详细描述本发明实施例提供TXT文档编码字符集的校验系统。
图4给出了本发明实施例提供的一种TXT文档编码字符集的校验系统的示意性结构框图。如图4所示,该系统包括接收单元410、校验单元420、解码单元430。
接收单元410用于接收待校验TXT文档;校验单元420用于对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;解码单元430用于按照所述文件编码格式解码所述待校验TXT文档。
需要说明的是,运营商系统在进行批量业务办理时,通过批量框架支撑批量业务办理,用户从前台上传批量文件(Txt格式),批量框架下载并解析文件入库,然后逐条生成订单。2016年4月的时候发明人发现一个问题,批量业务办理完成后查询结果时,发现业务备注是乱码。经过排查发现,用户上传的文件中包含中文内容,在windows环境下,默认的txt编码格式为GBK格式,而吉林CRM6.0工程中默认的字符编码格式为UTF-8格式,批量框架按照UTF-8格式解析文件时由于解码字符集错误造成了中文识别为乱码。
该实施例中,通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
可选地,作为本发明的一个实施例,所述校验单元420具体用于:判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
该实施例中,带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式;如果文档没有BOM头部信息,可以根据编码规则准确地确认编码格式。总体来讲,通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题,提高了文件解析的准确率及处理效率。
可选地,作为本发明的一个实施例,校验单元430具体用于:如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式,包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
如果无BOM头,则根据编码规则校验,包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
需要说明的是,该实施例针对4类常见的中文编码:GB2312、GBK、UTF-8和UTF-16。由于GBK为GB2312的超集,可以将这两者合并为一类。这种编码类型有BOM头;UTF-16分为大端序表示类型UTF-16BE,其BOM头为FE FF;UTF-16的小端序表示为Unicode的默认编码,其BOM头为FF FE;UTF-8的BOM头为EF BB BF,可简单识别前两位EF BB;无BOM头的UTF-8编码可以按照编码规则(例如:1110xxxx,10xxxxxx,10xxxxxx)验证。
该实施例中,对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件,其头部信息的16进制编码为FE FF;UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE,UTF_8文件,其头部信息的16进制编码为EFBB,通过上述编码可以直接快速确认文件的编码字符集。对于没有BOM头部信息的UTF-8格式文件,按照前文所说的UTF-8编码规则校验,符合规则的字符集编码为UTF-8,不符合规则的为GBK编码,可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种TXT文档编码字符集的校验方法,其特征在于,包括:
接收待校验TXT文档;
对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
2.根据权利要求1所述的方法,其特征在于,所述对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括:
判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
3.根据权利要求2所述的方法,其特征在于,所述如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
4.根据权利要求2所述的方法,其特征在于,所述如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
5.根据权利要求1至4任一项所述的方法,其特征在于,将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR包。
6.一种TXT文档编码字符集的校验系统,其特征在于,包括:
接收单元,用于接收待校验TXT文档;
校验单元,用于对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;
解码单元,用于按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
7.根据权利要求6所述的系统,其特征在于,所述校验单元用于:
判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。
8.根据权利要求7所述的系统,其特征在于,所述校验单元用于:如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式,包括:
当BOM头为FE FF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;
当BOM头为FF FE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;
当BOM头为EF BB时,确定所述待校验TXT文档的文件编码格式为UTF-8。
9.根据权利要求7所述的系统,其特征在于,所述校验单元用于:如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:
判断所述待校验TXT文档是否为文件尾;
如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;
如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;
如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;
如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。
10.根据权利要求6至9任一项所述的系统,其特征在于,将所述TXT文档编码字符集的校验系统执行的校验方法声明成静态方法并封装成JAR包。
CN201711121949.7A 2017-11-14 2017-11-14 一种txt文档编码字符集的校验方法及系统 Pending CN107943761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711121949.7A CN107943761A (zh) 2017-11-14 2017-11-14 一种txt文档编码字符集的校验方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711121949.7A CN107943761A (zh) 2017-11-14 2017-11-14 一种txt文档编码字符集的校验方法及系统

Publications (1)

Publication Number Publication Date
CN107943761A true CN107943761A (zh) 2018-04-20

Family

ID=61934038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711121949.7A Pending CN107943761A (zh) 2017-11-14 2017-11-14 一种txt文档编码字符集的校验方法及系统

Country Status (1)

Country Link
CN (1) CN107943761A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124377A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 处理文件的方法、装置、存储介质和处理器
CN111459703A (zh) * 2019-01-03 2020-07-28 深圳市茁壮网络股份有限公司 一种编码检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125537A1 (en) * 2007-11-14 2009-05-14 Zih Corp. Detection of utf-16 encoding in streaming xml data without a byte-order mark and related printers, systems, methods, and computer program products
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置
CN105468724A (zh) * 2015-11-20 2016-04-06 上海斐讯数据通信技术有限公司 数据流编码的预测方法及预测装置
CN106775909A (zh) * 2016-11-22 2017-05-31 中国银行股份有限公司 一种java文件及字节流的编码格式的判断方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125537A1 (en) * 2007-11-14 2009-05-14 Zih Corp. Detection of utf-16 encoding in streaming xml data without a byte-order mark and related printers, systems, methods, and computer program products
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置
CN105468724A (zh) * 2015-11-20 2016-04-06 上海斐讯数据通信技术有限公司 数据流编码的预测方法及预测装置
CN106775909A (zh) * 2016-11-22 2017-05-31 中国银行股份有限公司 一种java文件及字节流的编码格式的判断方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124377A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 处理文件的方法、装置、存储介质和处理器
CN111459703A (zh) * 2019-01-03 2020-07-28 深圳市茁壮网络股份有限公司 一种编码检测方法及系统
CN111459703B (zh) * 2019-01-03 2024-03-19 深圳市茁壮网络股份有限公司 一种编码检测方法及系统

Similar Documents

Publication Publication Date Title
CN110708307B (zh) 转码器生成方法和装置、电子设备及存储介质
CN101526963A (zh) 网页编码识别方法、装置和终端设备
CN110879937A (zh) 文档生成网页的方法、装置、计算机设备和存储介质
CN107943761A (zh) 一种txt文档编码字符集的校验方法及系统
CN104462068B (zh) 字符转换系统和字符转换方法
CN110728111B (zh) 一种文档内容的乱码修复方法、装置、终端设备和服务器
US9467166B2 (en) Enhanced compression, encoding, and naming for resource strings
US10430182B2 (en) Enhanced compression, encoding, and naming for resource strings
CN108595468A (zh) 一种网页数据的获取方法、装置、服务器、终端和系统
US10467001B2 (en) Enhanced compression, encoding, and naming for resource strings
CN104391993A (zh) 一种识别网页编码方法及系统
CN106534267A (zh) 文件上传解析方法及装置
CN103970913B (zh) Utf‑8与ansi编码识别方法以及装置
CN110321673A (zh) 信息加密方法和装置、信息解密方法和装置、安全系统
CN110597591A (zh) 嵌入式设备的界面多语言实现方法、装置及存储介质
KR101143650B1 (ko) 분석용 디스플레이 문서 준비 장치
CN106941501A (zh) 一种数据通信方法及装置
US8271263B2 (en) Multi-language text fragment transcoding and featurization
CN111898340A (zh) 文件的处理方法、设备及可读存储介质
US20160364474A1 (en) Identifying Data Offsets Using Binary Masks
CN107025125B (zh) 一种原始码流解码方法和系统
US9886442B2 (en) Enhanced compression, encoding, and naming for resource strings
KR101114229B1 (ko) Http 패킷에서 한글 또는 일본어 웹 컨텐츠 분석방법
CN112822265A (zh) 数据编码方法、装置、设备端及存储介质
CN109413115B (zh) 协议文本解析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication