CN104182286A

CN104182286A - 一种跨平台汉字乱码恢复方法

Info

Publication number: CN104182286A
Application number: CN201410285563.XA
Authority: CN
Inventors: 江潮; 王杰
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2014-12-03

Abstract

本发明公开了一种跨平台汉字乱码恢复方法，其特征是：获取发送平台和接收平台的编码格式；识别出发送平台的汉字字符和非汉字字符，非汉字字符将汉字字符集分割成若干个汉字字符串；按先后顺序对每一个汉字字符串进行归偶处理；所述归偶处理是将待转换汉字调整为偶数个字符。本发明的优点是：根据发送平台和接收平台的编码类型，进行适应性归偶处理并在转码后剔除多余字节，从而解决了乱码问题，极大提高了用户体验。

Description

一种跨平台汉字乱码恢复方法

技术领域

本发明涉及一种跨平台汉字乱码恢复方法，尤其是两个不同编码方式之间的数据传输过程中的汉字乱码恢复方法。

背景技术

乱码（比如网页乱码、软件乱码等）是经常困扰计算机用户的一个问题。

比如dotnet平台和Java平台之间的数据传输过程中，由于两个平台的编码方式不同，通过http放将汉字从.net发送到java平台，得到传送过来的参数值，就会发现奇数个汉字最后一个汉字乱码，而偶数个汉字正常。如：String gbk = “我来了”；（发送之后）String gbk = “我来？？”；如：String gbk = “我来了123我来了”；（发送之后）String gbk = “我来？？123我来？？”； gbk编码是一个中文2个字节，而UTF-8编码是一个中文3个字节。浏览器进行utf-8编码，并传送到tomcat服务器，而tomcat以gbk方式解码，如果一对汉字字节不符合gbk编码规范，则每个字节使用“？”(ascii 63)代替。最后将接收到的数据转为utf-8编码。

例如：“我来了”按utf-8编码以一个字3个字节可以转为“230 136 145 230 157 165 228 186 134”这9个字节。

tomcat以gbk方式以两个字节一个汉字可以生成4个汉字“鎴戞潵浜？”，此时还多一个字节则以“？”代替。

最后将tomcat服务器生成的汉字以gbk编码以一个字2个字节可以转为“230 136 145 230 157 165 228 186 63”这9字节(“？”转为“63”)，可以看出最后一个字节已经发生了变化（134变成了63），以这9个字节（以3个字节一个汉字的原则）构建字符串只能得到两个汉字“我来？？”（最后3个字节不能转为汉字以“？？”代替）。

发明内容

本发明要解决的技术问题，在于提供解决跨平台汉字乱码的恢复方法，极大提高了用户体验。

本发明公开了一种跨平台汉字乱码恢复方法，其特征是：

获取发送平台和接收平台的编码格式；

识别出发送平台的汉字字符和非汉字字符，形成若干个汉字字符串；

按先后顺序对若干个汉字字符串进行归偶处理；

进行编码转换，并传输到接收平台；

在接收平台中，将字符串还原；

在接收平台中，按先后顺序对汉字字符串进行字节还原处理；

所述归偶处理是将待转换汉字调整为偶数个字符。

进一步，所述汉字字符串是被非汉字字符分割成的若干个字符串。

进一步，所述归偶处理是统计汉字字符串的字符数并判断是否是奇数，若是奇数，则从特殊字符库中调取一个特殊字符插入到汉字字符集末端位置，若是偶数，则不处理。

进一步，所述特殊字符库为编码表中不存在的汉字字符的集合。

进一步，所述字节还原处理是在接收平台中将特殊字符从汉字末端所在位置删除。

本发明的优点是：根据发送平台和接收平台的编码类型，进行适应性归偶处理并在转码后剔除多余字节，从而解决了乱码问题，极大提高了用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，下面参照附图结合实施例对本发明作进一步的说明：图1是跨平台汉字乱码恢复方法的流程框图。

具体实施方式

实施例1：请参阅图1所示，本发明公开了一种跨平台汉字乱码恢复方法，其特征是：获取发送平台和接收平台的编码格式；

识别出发送平台的汉字字符和非汉字字符，非汉字字符将汉字字符集分割成若干个汉字字符串；

按先后顺序对每一个汉字字符串进行归偶处理；

归偶处理的流程是：统计一个汉字字符串的字符数，并判断是奇数还是偶数，如果是奇数就从特殊字符库中任意挑选一个特殊字符插入到该汉字字符串的末端，处理完毕，跳到下一个字符串；如果是偶数，直接跳到下一个字符串；直到所有汉字字符串归偶处理结束；

进行编码转换，并传输到接收平台；

在接收平台中，将字符串还原；

在接收平台中，按先后顺序对汉字字符串进行字节还原处理即将特殊字符从汉字末端所在位置删除；

所述归偶处理是将待转换汉字调整为偶数个字符。

进一步，所述特殊字符为编码表中不存在的汉字字符。

实施例2：从dotnet平台到Java平台的数据传输，dotnet平台是GBK编码，一个中文2个字节，Java平台是UTF-8编码，是一个中文3个字节；在dotNet 中，首先判断字符中哪些字符为汉字和非汉字，非汉字将汉字分割成若干个汉子字符串，统计一个汉子字符串的字符数并判断是否是奇数，若是奇数则在该汉字字符串后面一个插入特殊（很不常见）汉字字符，如（龘）,这样字符串中就不会存在奇数。

在dotNet中，把字符串转换成base-64编码，然后传输到java , 在java中，将base-64字符串还原，然后，将特殊汉字字符去掉，就得到了没有乱码的字符串。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种跨平台汉字乱码恢复方法，其特征是：

获取发送平台和接收平台的编码格式；

按先后顺序对若干个汉字字符串进行归偶处理；

进行编码转换，并传输到接收平台；

在接收平台中，将字符串还原；

在接收平台中，按顺序对汉字字符串进行字节还原处理；

所述归偶处理是将待转换汉字调整为偶数个字符。

2.根据权利要求1所述的跨平台汉字乱码恢复方法，其特征是：所述汉字字符串是被非汉字字符分割成的若干个字符串。

3.根据权利要求1所述的跨平台汉字乱码恢复方法，其特征是：所述归偶处理是对于字符数为奇数的汉字字符串，则从特殊字符库中调取一个特殊字符插入到每个汉字字符串末端位置。

4.根据权利要求3所述的跨平台乱码恢复方法，其特征是：所述特殊字符库为编码表中不存在的汉字字符的集合。

5.根据权利要求1所述的跨平台汉字乱码恢复方法，其特征是：所述字节还原处理是在接收平台中将特殊字符从汉字字符串末端位置删除。