CN101526963A - 网页编码识别方法、装置和终端设备 - Google Patents

网页编码识别方法、装置和终端设备 Download PDF

Info

Publication number
CN101526963A
CN101526963A CN200910130459A CN200910130459A CN101526963A CN 101526963 A CN101526963 A CN 101526963A CN 200910130459 A CN200910130459 A CN 200910130459A CN 200910130459 A CN200910130459 A CN 200910130459A CN 101526963 A CN101526963 A CN 101526963A
Authority
CN
China
Prior art keywords
type
coding
data volume
chinese
corresponding codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910130459A
Other languages
English (en)
Inventor
杨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Shenzhen Co Ltd
Original Assignee
Shenzhen Huawei Communication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huawei Communication Technologies Co Ltd filed Critical Shenzhen Huawei Communication Technologies Co Ltd
Priority to CN200910130459A priority Critical patent/CN101526963A/zh
Publication of CN101526963A publication Critical patent/CN101526963A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页编码识别方法、装置和终端设备。该方法包括:获取网页的数据头和数据体;若所述数据头和数据体中不存在标识网页的编码类型的信息,则根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型。通过本发明实施例可在未设置编码类型的情况下,正确识别网页的编码类型,特别是识别中文网页的编码方式,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。

Description

网页编码识别方法、装置和终端设备
技术领域
本发明关于网络技术,特别关于通过浏览器访问网页时的网页编码识别方法、装置和终端设备。
背景技术
随着网络技术的发展,用户使用其终端上网非常普遍,上网时需要使用浏览器(Browser),目前常用的浏览器有微软公司的IE浏览器(MicrosoftInternet Explorer)、FireFox浏览器等。当采用上述浏览器浏览网页时,对于这类网页的识别可采用如下方式:
检索网页协议数据头<HEAD>和数据体<BODY>;判断是否检索到“charset”字段,其中,该“charset”字段表示编码类型,例如其类型可为简体中文(GB2312)、繁体中文(BIG5)和通用转换格式,如UTF-8(8位元UniversalCharacter Set/Unicode Transformation Format)等;如果没有检索到该“charset”字段,则确定采用缺省语言所对应的编码类型来进行编解码。
一般情况下,设置缺省编码时不考虑使用UTF-8编码的情况。以IE为例:简体中文采用zh-cn表示,使用编码GB2312;繁体中文采用zh-hk/zh-tw/zh-mo/zh-sg表示,使用编码BIG5;英语采用en表示,使用编码Latin-1(ISO-8859-1)。
目前,存在于互联网上的网站、网页制作手段越来越简单,可以使用多种工具实现傻瓜式操作,并不需要具备很多专业知识;另外网站申请、发布的渠道也更多,管理也越来越宽松,这样造成很多目前可公开访问的网页的编写语法上存在明显的问题,如很多使用了中文编写的网页都没有写入该“charset”字段。
发明人在实现本发明的过程中发现现有技术中的缺陷在于,若在使用了中文编写的网页中没有写入该“charset”字段时,对于实际使用的编码类型与缺省编码类型不符的情况,网页内容不能被正确编解码,例如,当网页使用繁体中文编写但是没有写“charset”值,这样,当缺省编码类型为简体中文时,在使用该缺省为简体中文的浏览器访问,网页显示时就会出现乱码。
发明内容
本发明实施例的目的在于提供一种网页编码识别方法、装置和终端设备,能够在未设置编码类型的情况下,根据预设编码类型正确识别网页的编码类型,特别是识别中文网页的编码方式,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。
为实现上述目的,本发明实施例提供一种网页编码识别方法,该方法包括:获取网页的数据头和数据体;若该数据头和数据体中不存在标识网页的编码类型的信息,则根据预设编码类型对该数据头和数据体进行分析,确定该网页的编码类型。
为实现上述目的,本发明实施例提供一种网页编码识别装置,该装置包括:数据获取单元,用于获取网页的数据头和数据体;
类型确定单元,与该数据获取单元连接,用于在该数据头和数据体中不存在标识网页的编码类型的信息时,根据预设编码类型对所述数据头和数据体进行分析,确定该网页的编码类型。
为实现上述目的,本发明实施例提供一种识别网页编码的终端设备,该终端设备包括上述的网页编码识别装置。
本发明实施例的有益效果在于,通过预设编码类型对在网页中未设置编码类型的网页进行分析,根据预设编码类型确定该网页所使用的编码类型,特别是识别中文网页的编码类型,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例1的网页编码识别方法流程图;
图2是本发明实施例2的网页编码识别方法流程图;
图3是本发明实施例2中步骤205的流程图之一;
图4是本发明实施例2中步骤205的流程图之二;
图5是本发明实施例2中步骤205的流程图之三;
图6是本发明实施例3的网页编码识别装置的构成示意图;
图7是本发明实施例4的网页编码识别装置的构成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图,对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明实施例提供一种网页编码识别方法及其装置。以下结合附图对本发明实施例进行详细说明。
实施例1
本发明实施例提供一种网页编码识别方法,如图1所示,该方法包括:获取网页的数据头和数据体(见步骤101);若该数据头和数据体中不存在标识网页的编码类型的信息,则根据预设编码类型对该数据头和数据体进行分析,确定该网页的编码类型(见步骤102)。
在本领域中,该网页都是根据固定格式编写的,查看源文件可以看到数据头和数据体的部分。
在本实施例中,该标识网页的编码类型的信息可为“charset”值,但不限于此,还可用其他值表示。
在本实施例中,例如,该charset值可分别为GB2312、BIG5和UTF-8,分别表示简体中文、繁体中文和通用转换格式UTF-8对应的编码类型,但不限于此,对于不同的编码类型还可为其他值。
在本实施例中,当该网页的数据头和数据体中不含有标识网页的编码类型的信息,例如,不含有“charset”值时,则可根据预设编码类型对该数据头和数据体进行分析,根据分析结果确定该网页的编码类型。
在本实施例中,该预设编码类型可设置为一种,也可为一种以上,可根据实际需要进行设置。
在本实施例中,对于中文网页,该预设编码类型可包括简体中文、繁体中文、通用转换格式UTF-8对应的编码类型中的一种或一种以上,但不限于上述几种编码类型。
例如:对于中文网页的编码类型和编码范围:
1.简体中文对应的编码类型GB2312
编码范围为0xA1A1-0xF7FE,采用双字节表示一个汉字,高字节编码范围是0xa1-0xfe,低字节编码范围也是0xa1-0xfe。
2.繁体中文对应的编码类型BIG5
采用双字节表示一个汉字,高字节的编码范围是0x81-0xFE,低字节的编码范围是0x40-0x7E和0xA1-0xFE;其中,该繁体字的编码范围有一部分与简体中文的编码范围一致。
3.通用转换格式对应的编码类型,如UTF-8
采用三个字节表示一个汉字,首字节的编码范围是0xE0-0xFD,其他字节的编码范围是0x80-0xBF,采用UTF-8编码的汉字ààè都是型如:1110****10******10******这种形式,表示数字0或1。
例如,对于中国大陆流通的是简体中文,这时,可将预设编码类型设置为简体中文;对于香港、台湾、澳门、新加坡等地区流通的编码类型可包括简体中文和繁体中文,可将预设编码类型设置为简体中文和繁体中文;或者为了识别的更加准确,可将预设编码类型设置为简体中文、繁体中文和UTF-8。
在本实施例中,可根据该预设编码类型对应的编码范围对该数据头和数据体进行分析,确定该网页的编码类型。
由上述实施例可知,该识别方法在该数据头和数据体中不存在标识网页的编码类型的信息时,可根据该预设编码类型对应的编码范围确定网页所使用的编码类型,当根据该编码类型进行解析时,可大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。
实施例2
本发明实施例还提供一种网页编码识别方法,如图2所示,该方法包括:
步骤201,获取网页的数据头和数据体。
步骤202,确定该数据头和数据体中是否存在标识网页的编码类型的信息,若存在则执行步骤203,若不存在则执行步骤205。
在本实施例中,该标识网页的编码类型的信息可采用“charset”值。例如,该charset值可分别为GB2312、BIG5和UTF-8,分别表示简体中文、繁体中文和通用转换格式UTF-8对应的编码类型。
步骤203,根据该标识对应的编码类型对该数据头和数据体进行解码。
步骤204,显示解码后的该数据头和数据体。
步骤205,根据预设编码类型对应的编码范围对该数据头和数据体进行分析,确定该网页的编码类型。
步骤206,根据确定的编码类型对该数据头和数据体进行解码;
步骤207,显示解码后的该数据头和数据体。
在本实施例中,当预设编码类型为一种时,在步骤205中,可根据该预设编码类型对应的编码范围对该数据头和数据体进行分析,如图3所示,包括:
步骤301,判断该数据头和数据体的编码类型是否符合该预设编码类型;若符合则执行步骤302,若不符合则执行步骤303。
例如,若该预设编码类型为GB2312时,则可判断该数据头和数据体中的两个连续的字节是否均满足0xA1-0xFE区间,若判断结果为是,则确定该网页符合简体中文对应的编码类型GB2312。
若该预设编码类型为BIG5时,则可判断该网页中两个连续的字节是否满足:第1个字节处于0x81-0xA0区间、第2个字节处于0x40-0x7E区间,若判断结果为是,则判断该网页存在繁体中文字符,符合繁体中文对应的编码类型BIG5。
若该预设编码类型为UTF-8时,对于UTF-8字符,可以通过首字节计算出字符长度,汉字为3。这样,可判断连续的3个字符的首字节是否处于0xE0-0xFD区间,判断第2、第3字节是否处于0x8 0-0xBF区间,若判断结果为是,则确定该网页存在UTF-8编码字符,符合通用转换格式UTF-8对应的编码类型。
在本实施例中,在进行分析时,对每个字节顺序进行判断,找到满足该预设编码类型的字节就不再继续判断,但不限于此。
以上仅仅是本发明的实施例,不限于上述编码方式,还可采用其它编码类型,均可根据该编码类型对应的编码范围进行判断。
步骤302,若判断结果为是,则确定该网页的编码类型相应为该预设编码类型。
步骤303,若判断结果为否,则确定该网页的编码类型相应为缺省的编码类型。在本实施例中,该缺省的编码类型可根据浏览器设置的可接受语言列表中(accept-language)优先级最高的一个来设置。通常浏览器如IE可以设置多个可接受语言,设置的位置越靠上的优先级越高,例如,设置的过程可包括:打开IE界面,选择<工具>中的<INTERNET>选项,然后再选择<语言>,这样添加需要的语言,一般位置越靠上优先级越高。
在本实施例中,当预设编码类型为两种时,以该预设编码类型为简体中文和繁体中文对应的编码类型、简体中文和通用转换格式UTF-8对应的编码类型、繁体中文和通用转换格式UTF-8对应的编码类型为例对步骤205分别进行说明。
第一种:当该预设编码类型为简体中文和繁体中文对应的编码类型时,如图4所示,可采用如下方式:
步骤401,分别按照预设编码类型的编码范围判断该数据头和数据体的编码类型是否符合简体中文和繁体中文对应的编码类型;若全部符合,则执行步骤402;若符合其中之一时,则执行步骤403;若均不符合,则执行步骤404。
在本实施例中,判断顺序可任意,可按照简体中文到繁体中文的顺序,也可以按照繁体中文到简体中文的顺序。
步骤402,若均满足,则确定该网页的编码类型为编码范围大的编码类型,即为繁体中文对应的编码类型。
步骤403,若判断结果为符合该预设编码类型的其中之一时,则确定该网页的编码类型是符合的判断过程所对应的编码类型。
步骤404,若判断结果为均不符合,则确定该编码类型为缺省的编码类型。
此外,在步骤401中,当判断顺序采用先判断繁体中文再判断简体中文时,当判断结果为符合繁体中文对应的编码类型时,就可确定该网页的编码类型为繁体中文对应的编码类型,即BIG5。在这种情况下,就不需要再进行后续判断,这样,还可进一步提高识别效率。
第二种:
当预设编码类型为简体中文和通用转换格式UTF-8对应的编码类型时,可采用如下方式:
分别判断该数据头和数据体的编码类型是否符合简体中文和通用转换格式UTF-8对应的编码类型;若全部符合,则可确定该编码类型为简体中文对应的编码类型;若符合其中之一,则可确定该网页的编码类型是符合的判断过程所对应的编码类型。若均不符合,则可确定该编码类型为缺省的编码类型。
在本实施例中,判断顺序可任意,可按照简体中文到通用转换格式UTF-8的顺序,也可以按照通用转换格式UTF-8到简体中文的顺序。
此外,当判断顺序采用先判断通用转换格式UTF-8再判断简体中文时,当判断结果为符合通用转换格式UTF-8对应的编码类型时,就可确定该网页的编码类型为通用转换格式UTF-8对应的编码类型。在这种情况下,就不需要再进行后续判断,这样,还可进一步提高识别效率。
第三种:
当预设编码类型为简体中文和通用转换格式UTF-8对应的编码类型时,与第二种情况类似,可采用如下方式:
分别判断该数据头和数据体的编码类型是否符合繁体中文和通用转换格式UTF-8对应的编码类型;若全部符合,则可确定该编码类型为繁体中文对应的编码类型;若符合其中之一,则可确定该网页的编码类型是符合的判断过程所对应的编码类型。若均不符合,则可确定该编码类型为缺省的编码类型。
在本实施例中,判断顺序可任意,可按照繁体中文到通用转换格式UTF-8的顺序,也可以按照通用转换格式UTF-8到繁体中文的顺序。
此外,当判断顺序采用先判断通用转换格式UTF-8再判断繁体中文时,当判断结果为符合通用转换格式UTF-8对应的编码类型时,就可确定该网页的编码类型为通用转换格式UTF-8对应的编码类型。在这种情况下,就不需要再进行后续判断,这样,还可进一步提高识别效率。
在本实施例中,当预设编码类型为两种以上时,以下以预设编码类型为三种,例如,简体中文、繁体中文和通用转换格式UTF-8对应的编码类型为例进行说明。
如图5所示,可采用如下方式:
步骤501,分别判断该数据头和数据体的编码类型是否符合简体中文、繁体中文和通用转换格式UTF-8对应的编码类型;若全部符合,则执行步骤502;若符合其中之一时,则执行步骤503;若均不符合,则执行步骤504。
步骤502,若均满足,则确定该网页的编码类型为编码范围为繁体中文对应的编码范围。
步骤503,若判断结果为符合该预设编码类型的其中之一时,则确定该网页的编码类型是符合的判断过程所对应的编码类型。
步骤504,若判断结果为均不符合,则确定该编码类型为缺省的编码类型。
在本实施例中,若判断结果为符合该预设编码类型的其中至少两种时,则可按照上述的方式进行判断,此处不再赘述。
在本实施例中,判断顺序可任意,可按照简体中文、繁体中文到通用转换格式UTF-8的顺序,或者按照通用转换格式UTF-8、简体中文到繁体中文的顺序,或者按照通用转换格式UTF-8、繁体中文到简体中文的顺序,可根据实际需要任意进行判断。
此外,当判断顺序采用先判断通用转换格式UTF-8的顺序时,当判断结果为符合通用转换格式UTF-8对应的编码类型时,就可确定该网页的编码类型为通用转换格式UTF-8对应的编码类型。在这种情况下,就不需要再进行后续判断,这样,还可进一步提高识别效率。
由上述实施例可知,通过该方法可大幅度提高网页中字符正确显示的几率,可以有效避免出现乱码的情况。并且应用性较高,可以应用到各种浏览器中,方法简单、节省时间。尤其可应用在所有汉字流通区域内,如中国大陆、香港、台湾、澳门、新加坡等区域,且能够提高使用浏览器访问网页时内容正确显示的几率。
实施例3
本发明实施例提供一种网页编码识别装置,如图6所示,该装置包括数据获取单元601和类型确定单元602;其中,该数据获取单元601用于获取网页的数据头和数据体;该类型确定单元602与该数据获取单元601连接,用于在该数据头和数据体中不存在标识网页的编码类型的信息时,根据预设编码类型对该数据头和数据体进行分析,确定该网页的编码类型。
在本实施例中,该预设编码类型可设置为一种,也可为两种或两种以上,可根据实际需要进行设置。
在本实施例中,该装置可单独使用用于识别网页的编码类型,也可与浏览器结合在一起使用。其工作流程如实施例1所述,此处不再赘述。
在本实施例中,该装置可通过预设编码类型对在网页中未设置编码类型的网页进行分析,最终确定该网页所使用的编码类型,特别是识别中文网页的编码类型,且使用该编码类型进行解码,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。
实施例4
本发明实施例提供一种网页编码识别装置,如图7所示,该装置包括数据获取单元601和类型确定单元602,其作用与实施例3类似,此处不再赘述。
如图7所示,该装置还包括解码单元701和显示单元702;其中,该解码单元701与该类型确定单元602连接,用于根据该类型确定单元602确定的编码类型对该数据头和数据体进行解码;该显示单元702与解码单元701连接,用于显示解码后的该数据头和数据体。
如图7所示,该装置还包括标识确定单元703,与该数据获取单元601和类型确定单元602连接,用于确定该数据头和数据体中是否存在标识网页的编码类型的信息,若确定结果为不存在,则通知该类型确定单元602根据预设编码类型对该数据头和数据体进行分析;若确定结果为存在,则该类型确定单元602还用于确定该网页的编码类型为该标识对应的编码类型。
在本实施例中,该装置可单独使用用于识别网页的编码类型,也可与浏览器结合在一起使用。其工作流程如实施例2所述,此处不再赘述。
由上述实施例可知,该装置可通过预设编码类型对在网页中未设置编码类型的网页进行分析,最终确定该网页所使用的编码类型,特别是识别中文网页的编码类型,且使用该编码类型进行解码,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生,且可应用于各种浏览器。
实施例5
本发明实施例还提供一种识别网页编码的终端设备,该终端设备可包括实施例3和实施例4所述的装置。该终端设备可以为任何具备利用浏览器访问网页的设备,例如手机,个人掌上电脑PDA和电脑等。
由上述实施例可知,该终端设备可通过预设编码类型对在网页中未设置编码类型的网页进行分析,最终确定该网页所使用的编码类型,特别是识别中文网页的编码类型,且使用该编码类型进行解码,从而大幅度提高网页中字符正确显示的几率,有效地避免乱码的产生。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种网页编码识别方法,其特征在于,所述方法包括:
获取网页的数据头和数据体;
若所述数据头和数据体中不存在标识网页的编码类型的信息,则根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型。
2.根据权利要求1所述的方法,其特征在于,在确定所述网页的编码类型后,所述方法还包括:
根据确定的所述编码类型对所述数据头和数据体进行解码;
显示解码后的所述数据头和数据体。
3.根据权利要求1所述的方法,其特征在于,所述预设编码类型包括简体中文、繁体中文、通用转换格式UTF-8对应的编码类型中的一种或几种。
4.根据权利要求3所述的方法,其特征在于,所述预设编码类型包括简体中文、繁体中文和通用转换格式UTF-8对应的一种编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型包括:
根据所述预设编码类型对应的编码范围对所述数据头和数据体进行分析;
若所述数据头和数据体的编码类型符合所述预设编码类型,则确定所述网页的编码类型为所述预设编码类型。
5.根据权利要求3所述的方法,其特征在于,所述预设编码类型包括简体中文和繁体中文对应的编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型包括:
分别根据所述预设编码类型对应的编码范围对所述数据头和数据体的编码类型进行分析;
若所述数据头和数据体的编码类型符合所述预设编码类型中的一个时,则确定所述网页的编码类型符合预设编码类型;
若所述数据头和数据体均符合预设编码类型时,则确定所述编码类型为繁体中文对应的编码类型。
6.根据权利要求3所述的方法,其特征在于,所述预设编码类型包括简体中文和繁体中文对应的编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型包括:
判断所述数据头和数据体的编码类型是否满足繁体中文对应的编码类型;
若判断结果为是,则确定所述数据头和数据体的编码类型为繁体中文对应的编码类型。
7.根据权利要求3所述的方法,其特征在于,当所述预设编码类型包括简体中文和通用转换格式UTF-8对应的编码类型、或者包括繁体中文和通用转换格式UTF-8对应的编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,以确定所述网页的编码类型包括:
根据所述预设编码类型对应的编码范围分别对所述数据头和数据体的编码类型进行分析;
若所述数据头和数据体的编码类型符合所述预设编码类型中的一个时,则确定所述网页的编码类型符合预设编码类型;
若所述数据头和数据体均符合预设编码类型时,则在所述预设编码类型包括简体中文和通用转换格式UTF-8对应的编码类型时确定所述编码类型为简体中文对应的编码类型、或者在所述预设编码类型包括繁体中文和通用转换格式UTF-8对应的编码类型时确定所述编码类型为繁体中文对应的编码类型。
8.根据权利要求3所述的方法,其特征在于,所述预设编码类型包括简体中文和通用转换格式UTF-8对应的编码类型、或者包括繁体中文和通用转换格式UTF-8对应的编码类型、或者包括简体中文、繁体中文和通用转换格式UTF-8对应的编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型包括:
判断所述数据头和数据体的编码类型是否满足通用转换格式UTF-8对应的编码类型;
若判断结果为满足通用转换格式UTF-8对应的编码类型,则确定所述网页的编码类型为通用转换格式UTF-8对应的编码类型。
9.根据权利要求3所述的方法,其特征在于,所述预设编码类型包括简体中文、繁体中文和通用转换格式UTF-8对应的编码类型时,所述根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型,包括:
分别根据所述预设编码类型对应的编码范围对所述数据头和数据体的编码类型进行分析;
若所述数据头和数据体的编码类型符合所述预设编码类型中的一个时,则确定所述网页的编码类型符合预设编码类型;
若所述数据头和数据体均符合预设编码类型时,则确定所述编码类型为为繁体中文对应的编码类型。
10.一种网页编码识别装置,其特征在于,所述装置包括:
数据获取单元,用于获取网页的数据头和数据体;
类型确定单元,与所述数据获取单元连接,用于在所述数据头和数据体中不存在标识网页的编码类型的信息时,根据预设编码类型对所述数据头和数据体进行分析,确定所述网页的编码类型。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
解码单元,与所述类型确定单元连接,用于根据所述类型确定单元确定的所述编码类型对所述数据头和数据体进行解码;
显示单元,与所述解码单元连接,用于显示解码后的所述数据头和数据体。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
标识确定单元,与所述数据获取单元连接,用于确定所述数据头和数据体中是否存在标识网页的编码类型的信息,若确定结果为不存在,则通知所述类型确定单元根据预设编码类型对所述数据头和数据体进行分析以确定所述网页的编码类型。
13.根据权利要求10所述的装置,其特征在于,所述预设编码类型包括简体中文、繁体中文、通用转换格式UTF-8对应的编码类型中的一种或几种。
14.一种识别网页编码的终端设备,其特征在于,所述终端设备包括权利要求10至13中的任意一项权利要求所述的装置。
CN200910130459A 2009-04-17 2009-04-17 网页编码识别方法、装置和终端设备 Pending CN101526963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910130459A CN101526963A (zh) 2009-04-17 2009-04-17 网页编码识别方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910130459A CN101526963A (zh) 2009-04-17 2009-04-17 网页编码识别方法、装置和终端设备

Publications (1)

Publication Number Publication Date
CN101526963A true CN101526963A (zh) 2009-09-09

Family

ID=41094829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910130459A Pending CN101526963A (zh) 2009-04-17 2009-04-17 网页编码识别方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN101526963A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848349A (zh) * 2010-03-25 2010-09-29 中兴通讯股份有限公司 一种处理移动多媒体广播中文本信息的方法、系统及终端
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置
CN104125336A (zh) * 2014-07-03 2014-10-29 珠海市君天电子科技有限公司 修复无线网络名称的方法和装置
CN104182286A (zh) * 2014-06-24 2014-12-03 武汉传神信息技术有限公司 一种跨平台汉字乱码恢复方法
CN104360988A (zh) * 2014-10-17 2015-02-18 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
CN104361021A (zh) * 2014-10-21 2015-02-18 小米科技有限责任公司 网页编码识别方法及装置
CN104391993A (zh) * 2014-12-15 2015-03-04 浪潮(北京)电子信息产业有限公司 一种识别网页编码方法及系统
WO2015043072A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统
CN104994128A (zh) * 2015-05-15 2015-10-21 北京网康科技有限公司 一种数据编码类型识别及转码方法和装置
US20160112491A1 (en) * 2014-10-21 2016-04-21 Xiaomi Inc. Method and device for identifying encoding of web page
CN106407438A (zh) * 2016-09-28 2017-02-15 珠海迈越信息技术有限公司 一种数据处理方法及系统
CN106570044A (zh) * 2015-10-13 2017-04-19 北京国双科技有限公司 一种解析网页编码的方法及装置
KR101769315B1 (ko) * 2015-12-21 2017-08-18 주식회사 인프라웨어 클라우드 서버 기반 폴더 내 파일명 자동 변환 방법 및 장치
CN107133201A (zh) * 2017-04-21 2017-09-05 东莞中国科学院云计算产业技术创新与育成中心 基于文本编码识别的热点信息采集方法和装置
CN110020343A (zh) * 2017-09-01 2019-07-16 北京国双科技有限公司 网页编码格式的确定方法和装置
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011116554A1 (zh) * 2010-03-25 2011-09-29 中兴通讯股份有限公司 一种处理移动多媒体广播中文本信息的方法、系统及终端
CN101848349A (zh) * 2010-03-25 2010-09-29 中兴通讯股份有限公司 一种处理移动多媒体广播中文本信息的方法、系统及终端
US10366143B2 (en) 2013-09-29 2019-07-30 Peking University Founder Group Co., Ltd. Method and system for selecting encoding format for reading target document
WO2015043072A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置
CN103970913B (zh) * 2014-05-28 2018-02-27 广州视源电子科技股份有限公司 Utf‑8与ansi编码识别方法以及装置
CN104182286A (zh) * 2014-06-24 2014-12-03 武汉传神信息技术有限公司 一种跨平台汉字乱码恢复方法
CN104125336B (zh) * 2014-07-03 2016-07-27 珠海市君天电子科技有限公司 修复无线网络名称的方法和装置
CN104125336A (zh) * 2014-07-03 2014-10-29 珠海市君天电子科技有限公司 修复无线网络名称的方法和装置
CN104360988A (zh) * 2014-10-17 2015-02-18 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
CN104360988B (zh) * 2014-10-17 2017-10-20 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
CN104361021B (zh) * 2014-10-21 2018-07-24 小米科技有限责任公司 网页编码识别方法及装置
US20160112491A1 (en) * 2014-10-21 2016-04-21 Xiaomi Inc. Method and device for identifying encoding of web page
JP2016539450A (ja) * 2014-10-21 2016-12-15 シャオミ・インコーポレイテッド ウェブページエンコード識別方法、ウェブページエンコード識別装置、プログラム及び記録媒体
CN104361021A (zh) * 2014-10-21 2015-02-18 小米科技有限责任公司 网页编码识别方法及装置
WO2016061930A1 (zh) * 2014-10-21 2016-04-28 小米科技有限责任公司 网页编码识别方法及装置
CN104391993A (zh) * 2014-12-15 2015-03-04 浪潮(北京)电子信息产业有限公司 一种识别网页编码方法及系统
CN104750666B (zh) * 2015-03-12 2018-08-07 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统
CN104994128B (zh) * 2015-05-15 2019-04-26 北京网康科技有限公司 一种数据编码类型识别及转码方法和装置
CN104994128A (zh) * 2015-05-15 2015-10-21 北京网康科技有限公司 一种数据编码类型识别及转码方法和装置
CN106570044A (zh) * 2015-10-13 2017-04-19 北京国双科技有限公司 一种解析网页编码的方法及装置
CN106570044B (zh) * 2015-10-13 2019-12-24 北京国双科技有限公司 一种解析网页编码的方法及装置
KR101769315B1 (ko) * 2015-12-21 2017-08-18 주식회사 인프라웨어 클라우드 서버 기반 폴더 내 파일명 자동 변환 방법 및 장치
CN106407438A (zh) * 2016-09-28 2017-02-15 珠海迈越信息技术有限公司 一种数据处理方法及系统
CN107133201A (zh) * 2017-04-21 2017-09-05 东莞中国科学院云计算产业技术创新与育成中心 基于文本编码识别的热点信息采集方法和装置
CN107133201B (zh) * 2017-04-21 2021-03-16 东莞中国科学院云计算产业技术创新与育成中心 基于文本编码识别的热点信息采集方法和装置
CN110020343A (zh) * 2017-09-01 2019-07-16 北京国双科技有限公司 网页编码格式的确定方法和装置
CN110020343B (zh) * 2017-09-01 2021-03-30 北京国双科技有限公司 网页编码格式的确定方法和装置
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
CN101526963A (zh) 网页编码识别方法、装置和终端设备
CN104185845B (zh) 用于提供网页的二进制表示的系统和方法
US11580761B2 (en) Ink file searching method, apparatus, and program
US10614249B2 (en) Sanitization of content displayed by web-based applications
CN104461484B (zh) 前端模板的实现方法和装置
US11030389B2 (en) Acquisition of a font portion using a compression mechanism
CN103336690B (zh) 基于html5的文字元素绘制方法及装置
CN105450232A (zh) 编码、解码方法以及编码装置和解码装置
CN113158101B (zh) 一种可视化页面渲染方法、装置、设备及存储介质
CN110808868B (zh) 测试数据获取方法、装置、计算机设备及存储介质
CN104994128A (zh) 一种数据编码类型识别及转码方法和装置
CN103095726A (zh) 一种协议解析器的处理方法和装置
CN110851136A (zh) 数据获取方法、装置、电子设备及存储介质
CN104750663A (zh) 页面中文本乱码的识别方法及装置
CN104978325B (zh) 一种网页处理方法、装置及用户终端
CN111859210B (zh) 图像处理方法、装置、设备及存储介质
CN107451163B (zh) 一种动画显示方法和装置
WO2014177033A1 (zh) 输入法调用方法、调用装置和终端
CN106156291A (zh) 基于Localstroage的静态资源的缓存方法及其系统
CN103458037A (zh) 一种在资源受限环境下提供复杂网页应用的方法和设备
CN100511236C (zh) 用于嵌入式浏览器的网页编码语言自动识别方法及装置
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN109960590A (zh) 一种优化嵌入式系统诊断打印的方法
CN105808628A (zh) 网页转码方法、装置及系统
CN104021134A (zh) 字体文件修改转换方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090909