CN107943761A

CN107943761A - 一种txt文档编码字符集的校验方法及系统

Info

Publication number: CN107943761A
Application number: CN201711121949.7A
Authority: CN
Inventors: 张鑫
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-20

Abstract

本发明涉及一种TXT文档编码字符集的校验方法，包括：接收待校验TXT文档；对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式；按照所述文件编码格式解码所述待校验TXT文档的编码字符集。该方法有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题，提高了文件解析的准确率及处理效率。

Description

一种TXT文档编码字符集的校验方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种TXT文档编码字符集的校验方法及系统。

背景技术

现有技术中，运营商的营业系统在进行批量业务办理时，通过批量框架支撑批量业务办理。用户从前台上传批量文件(TXT格式)，批量框架下载并解析文件入库，然后逐条生产订单。但会出现部分内容为乱码的情况，影响文档解析准确率及处理效率。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种TXT文档编码字符集的校验方法及系统。

本发明解决上述技术问题的技术方案如下：一种TXT文档编码字符集的校验方法，包括：

接收待校验TXT文档；

对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式；

按照所述文件编码格式解码所述待校验TXT文档的编码字符集。

本发明的有益效果是：通过对待校验TXT文件进行BOM头部校验，进而确定待校验TXT文档的文件编码格式，在确定了TXT文档的文件编码格式后，按照这个文件编码格式解码待校验TXT文档，从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题，提高了文件解析的准确率及处理效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括：

判断有无BOM头，如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式；如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式。

采用上述进一步方案的有益效果是，带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式；如果文档没有BOM头部信息，可以根据编码规则准确地确认编码格式。

进一步，所述如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括：

当BOM头为FE FF时，确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE；

当BOM头为FF FE时，确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码；

当BOM头为EF BB时，确定所述待校验TXT文档的文件编码格式为UTF-8。

采用上述进一步方案的有益效果是，对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件，其头部信息的16进制编码为FE FF；UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE，UTF_8文件，其头部信息的16进制编码为EFBB，通过上述编码可以直接快速确认文件的编码字符集。

进一步，所述如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式包括：

判断所述待校验TXT文档是否为文件尾；

如果所述待校验TXT是文件尾，则确定所述待校验TXT文档的文件编码格式为GBK格式；

如果所述待校验TXT非文件尾，则判断读入的字节是否大于0XF8；

如果读入的字节大于0XF8，则确定所述待校验TXT文档的文件编码格式为GBK格式；

如果读入的字节小于0XF8，则判断读入的首字节是否以11开头，且后续字节以10开头，11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等；

如果是，则确定所述待校验TXT文档的文件编码格式为GBK格式；

如果否，则确定所述待校验TXT文档的文件编码格式为UTF-8格式。

采用上述进一步方案的有益效果是，对于没有BOM头部信息的UTF-8格式文件，按照前文所说的UTF-8编码规则校验，符合规则的字符集编码为UTF-8，不符合规则的为GBK编码，可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。

进一步，将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR包。

采用上述进一步方案的有益效果是，将方法声明成静态方法并封装成JAR包，方便复用。

本发明解决上述技术问题的另一技术方案如下：一种TXT文档编码字符集的校验系统，包括：

接收单元，用于接收待校验TXT文档；

校验单元，用于对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式；

解码单元，用于按照所述文件编码格式解码所述待校验TXT文档的编码字符集。

进一步，所述校验单元用于：

进一步，所述校验单元用于：如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式，包括：

进一步，所述校验单元用于：如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式包括：

判断所述待校验TXT文档是否为文件尾；

进一步，将所述TXT文档编码字符集的校验系统执行的校验方法声明成静态方法并封装成JAR包。

附图说明

图1为本发明一施例提供的TXT文档编码字符集的校验方法的示意性流程图；

图2为本发明另一施例提供的TXT文档编码字符集的校验方法的示意性流程图；

图3为本发明另一施例提供的TXT文档编码字符集的校验方法的示意性流程图；

图4为本发明一施例提供的TXT文档编码字符集的校验方系统的示意性结构框图。

附图中，各标号所代表的部件列表如下：

410、接收单元，420、校验单元，430、解码单元。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1给出了本发明实施例提供的一种TXT文档编码字符集的校验方法的示意性流程图。如图1所示，该方法包括：

S110，接收待校验TXT文档；

S120，对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式；

S130，按照所述文件编码格式解码所述待校验TXT文档。

需要说明的是，运营商的营业系统在进行批量业务办理时，通过批量框架支撑批量业务办理，用户从前台上传批量文件(Txt格式)，批量框架下载并解析文件入库，然后逐条生成订单。2016年4月的时候发明人发现一个问题，批量业务办理完成后查询结果时，发现业务备注是乱码。经过排查发现，用户上传的文件中包含中文内容，在windows环境下，默认的txt编码格式为GBK格式，而吉林CRM6.0工程中默认的字符编码格式为UTF-8格式，批量框架按照UTF-8格式解析文件时由于解码字符集错误造成了中文识别为乱码。

该实施例中，通过对待校验TXT文件进行BOM头部校验，进而确定待校验TXT文档的文件编码格式，在确定了TXT文档的文件编码格式后，按照这个文件编码格式解码待校验TXT文档，从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题，提高了文件解析的准确率及处理效率。

可选地，作为本发明另外一个实施例，如图2所示，一种TXT文档编码字符集的校验方法，包括：

S210，接收待校验TXT文档；

S220，判断有无BOM头，如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式；如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式；

S230，按照所述文件编码格式解码所述待校验TXT文档的编码字符集。

该实施例中，带有BOM头部信息的文档可以根据BOM头内容快速、准确地确认编码格式；如果文档没有BOM头部信息，可以根据编码规则准确地确认编码格式。总体来讲，通过对待校验TXT文件进行BOM头部校验，进而确定待校验TXT文档的文件编码格式，在确定了TXT文档的文件编码格式后，按照这个文件编码格式解码待校验TXT文档，从而有效解决了由于系统间I/O编码不一致造成解析文件时由于解码字符集错误造成了中文识别为乱码的问题，提高了文件解析的准确率及处理效率。

可选地，作为本发明另外一个实施例，如图3所示，

S310，接收待校验TXT文档；

S320，对所述待校验TXT文档进行BOM头部校验，如果有BOM头，执行S330，否则执行S340；

S330，当BOM头为FE FF时，确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE；

当BOM头为EF BB时，确定所述待校验TXT文档的文件编码格式为UTF-8；

S340，判断所述待校验TXT文档是否为文件尾，如果所述待校验TXT是文件尾，则确定所述待校验TXT文档的文件编码格式为GBK格式；否则执行S350；

S350，则判断读入的字节是否大于0XF8，如果读入的字节大于0XF8，则确定所述待校验TXT文档的文件编码格式为GBK格式；否则执行S360；

S360,判断读入的首字节是否以11开头，且后续字节以10开头，11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等；如果是，则确定所述待校验TXT文档的文件编码格式为GBK格式；如果否，则确定所述待校验TXT文档的文件编码格式为UTF-8格式。

需要说明的是，该实施例针对4类常见的中文编码：GB2312、GBK、UTF-8和UTF-16。由于GBK为GB2312的超集，可以将这两者合并为一类。这种编码类型有BOM头；UTF-16分为大端序表示类型UTF-16BE，其BOM头为FE FF；UTF-16的小端序表示为Unicode的默认编码，其BOM头为FF FE；UTF-8的BOM头为EF BB BF，可简单识别前两位EF BB；无BOM头的UTF-8编码可以按照编码规则(例如：1110xxxx,10xxxxxx,10xxxxxx)验证。

该实施例中，对于存在BOM头部信息的UTF-16的大端序表示类型UTF-16BE文件，其头部信息的16进制编码为FE FF；UTF-16的小端序表示类型Unicode的默认编码其头部信息的16进制编码为FF FE，UTF_8文件，其头部信息的16进制编码为EFBB，通过上述编码可以直接快速确认文件的编码字符集。对于没有BOM头部信息的UTF-8格式文件，按照前文所说的UTF-8编码规则校验，符合规则的字符集编码为UTF-8，不符合规则的为GBK编码，可以快速确认没有BOM头信息的UTF-8格式文件以及GBK格式文件。

上文结合图1至图3，详细描述了根据本发明实施例提供TXT文档编码字符集的校验方法。下面结合图4，详细描述本发明实施例提供TXT文档编码字符集的校验系统。

图4给出了本发明实施例提供的一种TXT文档编码字符集的校验系统的示意性结构框图。如图4所示，该系统包括接收单元410、校验单元420、解码单元430。

接收单元410用于接收待校验TXT文档；校验单元420用于对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式；解码单元430用于按照所述文件编码格式解码所述待校验TXT文档。

需要说明的是，运营商系统在进行批量业务办理时，通过批量框架支撑批量业务办理，用户从前台上传批量文件(Txt格式)，批量框架下载并解析文件入库，然后逐条生成订单。2016年4月的时候发明人发现一个问题，批量业务办理完成后查询结果时，发现业务备注是乱码。经过排查发现，用户上传的文件中包含中文内容，在windows环境下，默认的txt编码格式为GBK格式，而吉林CRM6.0工程中默认的字符编码格式为UTF-8格式，批量框架按照UTF-8格式解析文件时由于解码字符集错误造成了中文识别为乱码。

可选地，作为本发明的一个实施例，所述校验单元420具体用于：判断有无BOM头，如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式；如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式。

可选地，作为本发明的一个实施例，校验单元430具体用于：如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式，包括：

如果无BOM头，则根据编码规则校验，包括：

判断所述待校验TXT文档是否为文件尾；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种TXT文档编码字符集的校验方法，其特征在于，包括：

接收待校验TXT文档；

2.根据权利要求1所述的方法，其特征在于，所述对所述待校验TXT文档进行BOM头部校验，根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括：

3.根据权利要求2所述的方法，其特征在于，所述如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括：

4.根据权利要求2所述的方法，其特征在于，所述如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式包括：

判断所述待校验TXT文档是否为文件尾；

5.根据权利要求1至4任一项所述的方法，其特征在于，将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR包。

6.一种TXT文档编码字符集的校验系统，其特征在于，包括：

接收单元，用于接收待校验TXT文档；

7.根据权利要求6所述的系统，其特征在于，所述校验单元用于：

8.根据权利要求7所述的系统，其特征在于，所述校验单元用于：如果有BOM头，则根据所述BOM头内容确定待校验TXT文档的文件编码格式，包括：

9.根据权利要求7所述的系统，其特征在于，所述校验单元用于：如果无BOM头，则根据编码规则校验所述待校验TXT文档内的编码字符集，根据校验结果确定待校验TXT文档的文件编码格式包括：

判断所述待校验TXT文档是否为文件尾；

10.根据权利要求6至9任一项所述的系统，其特征在于，将所述TXT文档编码字符集的校验系统执行的校验方法声明成静态方法并封装成JAR包。