CN104361021B - 网页编码识别方法及装置 - Google Patents
网页编码识别方法及装置 Download PDFInfo
- Publication number
- CN104361021B CN104361021B CN201410562477.9A CN201410562477A CN104361021B CN 104361021 B CN104361021 B CN 104361021B CN 201410562477 A CN201410562477 A CN 201410562477A CN 104361021 B CN104361021 B CN 104361021B
- Authority
- CN
- China
- Prior art keywords
- coding mode
- resources
- mode
- web page
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
- Digital Computer Display Output (AREA)
Abstract
本公开是关于一种网页编码识别方法及装置,属于计算机网络领域。所述方法包括:加载网页数据,所述网页数据包括至少一个网页资源;检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式;若所述网页资源是HTML资源但未声明编码方式,则识别所述HTML资源的编码方式;采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源。本公开解决了相关技术中网页编码中的“charset”字段漏写时,浏览器可能会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
Description
技术领域
本公开涉及计算机网络领域,特别涉及一种网页编码识别方法及装置。
背景技术
随着网络技术的发展,用户使用终端中的浏览器来浏览网页是最常使用的一种功能。
由于网页数据可能采用不同的编码方式进行编码,浏览器首先需要根据网页数据中的“charset”字段来识别网页数据的编码方式,进而采用与该编码方式对应的解码方式对网页数据进行解码,然后对网页数据进行显示。但是由于网站搭建和网页编辑的技术越来越普及,很多技术人员开发的网页数据中会漏写或错写“charset”字段,此时,浏览器采用默认的解码方式解码,有可能会显示乱码。
发明内容
为了解决相关技术中网页编码中的“charset”字段漏写或者错写时,浏览器会显示乱码的问题,本公开实施例提供了一种网页编码识别方法及装置。所述技术方案如下:
根据本公开实施例提供的一种网页编码识别方法,该方法包括:
加载网页数据,网页数据包括至少一个网页资源;
检测网页资源是否为HTML资源且声明了编码方式;
若网页资源是HTML资源但未声明编码方式,则识别HTML资源的编码方式;
采用与识别到的编码方式所对应的解码方式解码HTML资源。
在一个实施例中,该方法还包括:
若网页资源是HTML资源但已声明编码方式,则检测已声明的编码方式是否为预设编码方式中的一种;
若已声明的编码方式不是预设编码方式中的一种,则识别HTML资源的编码方式;或,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
在一个实施例中,识别HTML资源的编码方式,包括:
调用预定的字符编码识别算法识别HTML资源的编码方式。
在一个实施例中,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式,包括:
将已声明的编码方式与预设编码方式中的每一种分别计算拼写相似度;
当最高的拼写相似度大于预设阈值时,将最高的拼写相似度所对应的预设编码方式确定为自动纠错后的编码方式。
在一个实施例中,该方法还包括:
若网页资源是CSS资源,则将网页数据中的HTML资源采用的编码方式识别为CSS资源的编码方式,采用与编码方式所对应的解码方式解码CSS资源。
根据本公开实施例的第二方面,提供了一种网页编码识别装置,该装置包括:
数据加载模块,被配置为加载网页数据,网页数据包括至少一个网页资源;
方式检测模块,被配置为检测网页资源是否为HTML资源且声明了编码方式;
方式识别模块,被配置为当网页资源是HTML资源但未声明编码方式时,识别HTML资源的编码方式;
资源解码模块,被配置为采用与识别到的编码方式所对应的解码方式解码HTML资源。
在一个实施例中,装置还包括:
编码检测模块,被配置为当网页资源是HTML资源但已声明编码方式,则检测已声明的编码方式是否为预设编码方式中的一种;
方式识别模块,被配置为当已声明的编码方式不是预设编码方式中的一种时,识别HTML资源的编码方式;或,自动纠错模块,被配置为当已声明的编码方式不是预设编码方式中的一种时,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
在一个实施例中,方式识别模块,被配置为调用预定的字符编码识别算法识别HTML资源的编码方式。
在一个实施例中,自动纠错模块,包括:
拼写计算子模块,被配置为将已声明的编码方式与预设编码方式中的每一种分别计算拼写相似度;
自动纠错子模块,被配置为当最高的拼写相似度大于预设阈值时,将最高的拼写相似度所对应的预设编码方式确定为自动纠错后的编码方式。
在一个实施例中,该装置还包括:
编码负用模块,被配置为当网页资源是CSS资源,则将网页数据中的HTML资源采用的编码方式识别为CSS资源的编码方式,采用与编码方式所对应的解码方式解码CSS资源。
根据本公开的第三方面,提供了一种网页编码识别装置,该装置包括:
处理器;
用于存储处理器的可执行指令的存储器;
其中,处理器被配置为:
加载网页数据,网页数据包括至少一个网页资源;
检测网页资源是否为超文本标记语言HTML资源且声明了编码方式;
若网页资源是HTML资源但未声明编码方式,则识别HTML资源的编码方式;
采用与识别到的编码方式所对应的解码方式解码HTML资源。
本公开实施例提供的技术方案可以包括以下有益效果:
通过在网页资源未声明编码方式时,识别网页资源的编码方式,并采用与该编码方式对应的解码方式对网页资源进行解码;解决了相关技术中网页编码中的“charset”字段漏写时,浏览器可能会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种网页编码识别方法的流程图;
图2是根据另一示例性实施例示出的一种网页编码识别方法的流程图;
图3是根据一示例性实施例示出的一种网页编码装置的框图;
图4是根据另一示例性实施例示出的一种网页编码识别装置的框图;
图5是根据一示例性实施例示出的一种网页编码识别装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例中所涉及的终端可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
图1是根据一示例性实施例示出的一种网页编码识别方法的流程图,本实施例以该网页编码识别方法应用在终端中来举例说明。该网页编码识别方法可以包括如下几个步骤:
在步骤101中,加载网页数据,网页数据包括至少一个网页资源。
网页资源通常分为2种类型:HTML(HyperText Mark-up Language,超文本标记语言)资源和CSS(Cascading Style Sheets,层叠样式表)资源。
在步骤102中,检测网页资源是否为HTML资源且声明了编码方式。
在步骤103中,若网页资源是HTML资源但未声明编码方式,则识别HTML资源的编码方式。
在步骤104中,采用与识别到的编码方式所对应的解码方式解码HTML资源。
综上所述,本实施例提供的网页编码识别方法,通过在网页资源未声明编码方式时,识别网页资源的编码方式,并采用与该编码方式对应的解码方式对网页资源进行解码;解决了相关技术中网页编码中的“charset”字段漏写时,浏览器会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
图2是根据另一示例性实施例示出的一种网页编码识别方法的流程图。本实施例以该网页编码识别方法应用在终端中来举例说明。该网页编码识别方法可以包括如下几个步骤:
在步骤201中,加载网页数据,网页数据包括至少一个网页资源。
终端在需要显示一个网页时,首先加载该网页的网页数据。每个网页的网页数据中包括至少一个网页资源。
网页资源可以分为两种:HTML资源和CSS资源。
在步骤202中,检测网页资源是否为HTML资源。
在解码每个网页资源之前,终端首先检测网页资源是否为HTML资源。
若网页资源是HTML资源,则进入步骤203;
若网页资源是CSS资源,则进入步骤210。
在步骤203中,检测HTML资源是否声明了编码方式。
常见的编码方式包括:UTF-8(8-bit Unicode Transformation Format,8比特Unicode转换格式)、Big5(大五码)、GB2312(信息交换用汉字编码字符集)、GBK(信息交换用汉字编码字符集)、ISO-8859-1(International Organization for Standardization,国际标准化组织)、ISO-8859-2等。
HTML资源通常采用“charset”字段来声明自身所使用的编码方式。但是由于网页开发人员的水平不同,HTML资源中的“charset”字段可能会被漏写或者错写。
若HTML资源未声明编码方式,则进入步骤204;
若HTML资源声明了编码方式,则进入步骤206。
在步骤204中,若HTML资源未声明编码方式,则识别HTML资源的编码方式。
终端可以调用预定的字符编码识别算法识别HTML资源的编码方式。预定的字符识别算法可以是chardet字符编码识别算法。
比如,当HTML资源未声明编码方式,则终端调用chardet字符编码识别算法识别出该HTML资源所采用的编码方式是GB2312编码。
Chardet字符编码识别算法是一种用于识别字符串的编码格式的算法。常用于对文本字符的编码格式的识别。
为了加快识别速度,终端可以提取HTML资源中预定长度的字符串,通过预定的字符编码识别算法识别该预定长度的字符串的编码方式。而无需对整个HTML资源中的所有字符串都进行识别。
在步骤205中,采用与识别到的编码方式所对应的解码方式解码HTML资源。
在识别出HTML资源所采用的编码方式后,终端采用与识别到的编码方式所对应的解码方式解码HTML资源。
在步骤206中,若HTML资源已声明编码方式,则检测已声明的编码方式是否为预设编码方式中的一种。
当HTML资源中已经声明了编码方式时,由于声明的编码方式可能发生拼写错误,终端需要检测已声明的编码方式是否为预设编码方式中的一种。
预设编码方式包括但不限于:UTF-8(8-bit Unicode Transformation Format,8比特Unicode转换格式)、Big5(大五码)、GB2312(信息交换用汉字编码字符集)、GBK(信息交换用汉字编码字符集)、ISO-8859-1(International Organization forStandardization,国际标准化组织)、ISO-8859-2等。
若已声明的编码方式是预设编码方式中的一种,则进入步骤207;
若已声明的编码方式不是预设编码方式中的一种,则进入步骤208。
在步骤207中,若已声明的编码方式是预设编码方式中的一种,则使用已声明的编码方式所对应的解码方式解码HTML资源。
在已声明的编码方式是预设编码方式中的一种时,表明已声明的编码方式没有拼写错误,终端采用与已声明的编码方式所对应的解码方式解码HTML资源。
在步骤208中,若已声明的编码方式不是预设编码方式中的一种,则识别HTML资源的编码方式;或,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
在已声明的编码方式是预设编码方式中的一种时,表明已声明的编码方式存在拼写错误。此时,本实施例提供两种不同的处理方式:
第一种处理方式:终端识别HTML资源的编码方式;
识别方式与步骤204相同,终端可以调用预定的字符编码识别算法识别HTML资源的编码方式。预定的字符识别算法可以是chardet字符编码识别算法。
第二种处理方式:终端对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
自动纠错的过程为:终端将已声明的编码方式与预设编码方式中的每一种分别计算拼写相似度,若预设编码方式有6种,则可以计算到6个拼写相似度。当最高的拼写相似度大于预设阈值时,终端将最高的拼写相似度所对应的预设编码方式确定为自动纠错后的编码方式。
比如,已声明的编码方式为“GB2812”,预设编码方式有6种,计算出的拼写相似度也有6种。其中,与预设编码方式“GB2312”存在最高的拼写相似度为83%,大于预设阈值60%。所以终端将预设编码方式“GB2312”确定为自动纠错后的编码方式。
需要说明的一点是,第一种处理方式和第二处理方式可以择一使用或者结合使用。作为可能的一种结合使用方式:先采用第二处理方式进行处理,但是若最高的拼写相似度小于预设阈值,或者,存在两个或者两个以上的预设编码方式都具有最高的拼写相似度时,终端可以再采用第一种处理方式重新识别HTML资源的编码方式。
在步骤209中,使用重新识别或自动纠错后的编码方式所对应的解码方式解码HTML资源。
在步骤210中,若网页资源是CSS资源,则将网页数据中的HTML资源采用的编码方式识别为CSS资源的编码方式,并采用与编码方式所对应的解码方式解码CSS资源。
也即,如果当前网页资源不是HTML资源而是CSS资源,由于同一网页数据中的HTML资源和CSS资源通常采用相同的编码方式,则终端将该网页数据中的HTML资源所采用的编码方式识别为CSS资源的编码方式,其中,HTML资源的编码方式的识别过程可以参考上述步骤202至207所述。
然后,终端采用与CSS资源的编码方式所对应的解码方式解码CSS资源。
最后,在解码得到各个网页资源后,终端可以根据解码得到的网页资源显示网页。
综上所述,本实施例提供的网页编码识别方法,通过在网页资源未声明编码方式时,识别网页资源的编码方式,并采用与该编码方式对应的解码方式对网页资源进行解码;解决了相关技术中网页编码中的“charset”字段漏写时,浏览器会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
本实施例提供的网页编码识别方法,还通过在网页资源声明了编码方式但是声明的编码方式存在拼写错误时,通过重新识别或者自动纠错出的编码方式所对应的解码方式对网页资源进行解码,解决了相关技术中网页编码中的“charset”字段错写时,浏览器会显示乱码的问题;达到了即便网页资源中声明的编码方式发生了错写,也能够正常解码网页资源并进行显示的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种网页编码识别装置的框图,该网页编码识别装置可以通过软件、硬件或者两者的结合实现成为终端的部分或者全部。该网页编码识别装置可以包括:
数据加载模块320,被配置为加载网页数据,网页数据包括至少一个网页资源。
方式检测模块340,被配置为检测网页资源是否为HTML资源且声明了编码方式。
方式识别模块360,被配置为当网页资源是HTML资源但未声明编码方式时,识别HTML资源的编码方式。
资源解码模块380,被配置为采用与识别到的编码方式所对应的解码方式解码HTML资源。
综上所述,本实施例提供的网页编码识别装置,通过在网页资源未声明编码方式时,识别网页资源的编码方式,并采用与该编码方式对应的解码方式对网页资源进行解码;解决了相关技术中网页编码中的“charset”字段漏写时,浏览器会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
图4是根据另一示例性实施例示出的一种网页编码识别装置的框图。该网页编码识别装置可以通过软件、硬件或者两者的结合实现成为终端的部分或者全部。该网页编码识别装置可以包括:
数据加载模块320,被配置为加载网页数据,网页数据包括至少一个网页资源。
方式检测模块340,被配置为检测网页资源是否为HTML资源且声明了编码方式。
方式识别模块360,被配置为当网页资源是HTML资源但未声明编码方式时,识别HTML资源的编码方式。
资源解码模块380,被配置为采用与识别到的编码方式所对应的解码方式解码HTML资源。
可选地,该装置还包括:
编码检测模块352,被配置为当网页资源是HTML资源但已声明编码方式,则检测已声明的编码方式是否为预设编码方式中的一种。
方式识别模块360,被配置为当已声明的编码方式不是预设编码方式中的一种时,识别HTML资源的编码方式。或,
自动纠错模块370,被配置为当已声明的编码方式不是预设编码方式中的一种时,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
可选地,方式识别模块360,被配置为调用预定的字符编码识别算法识别HTML资源的编码方式。
可选地,自动纠错模块370,包括:
拼写计算子模块372,被配置为将已声明的编码方式与预设编码方式中的每一种分别计算拼写相似度;
自动纠错子模块374,被配置为当最高的拼写相似度大于预设阈值时,将最高的拼写相似度所对应的预设编码方式确定为自动纠错后的编码方式。
可选地,该装置还包括:
编码复用模块354,被配置为当网页资源是CSS资源,则将网页数据中的HTML资源采用的编码方式识别为CSS资源的编码方式,采用与编码方式所对应的解码方式解码CSS资源。
综上所述,本实施例提供的网页编码识别装置,通过在网页资源未声明编码方式时,识别网页资源的编码方式,并采用与该编码方式对应的解码方式对网页资源进行解码;解决了相关技术中网页编码中的“charset”字段漏写时,浏览器会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
本实施例提供的网页编码识别装置,还通过在网页资源声明了编码方式但是声明的编码方式存在拼写错误时,通过重新识别或者自动纠错出的编码方式所对应的解码方式对网页资源进行解码,解决了相关技术中网页编码中的“charset”字段错写时,浏览器会显示乱码的问题;达到了即便网页资源中声明的编码方式发生了错写,也能够正常解码网页资源并进行显示的效果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于网页编码识别装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置500的处理器执行时,使得装置500能够执行图1或者图2所示出的网页编码识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种网页编码识别方法,其特征在于,所述方法包括:
加载网页数据,所述网页数据包括至少一个网页资源;
检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式;
若所述网页资源是HTML资源但未声明编码方式,则识别所述HTML资源的编码方式;
采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源;
若所述网页资源是HTML资源但已声明编码方式,则检测已声明的所述编码方式是否为预设编码方式中的一种;
若已声明的所述编码方式不是所述预设编码方式中的一种,则识别所述HTML资源的编码方式;或,对已声明的所述编码方式进行自动纠错,得到自动纠错后的所述编码方式,
其中所述对已声明的所述编码方式进行自动纠错,得到自动纠错后的所述编码方式,包括:
将已声明的所述编码方式与所述预设编码方式中的每一种分别计算拼写相似度;
当最高的所述拼写相似度大于预设阈值时,将最高的所述拼写相似度所对应的预设编码方式确定为自动纠错后的所述编码方式。
2.根据权利要求1所述的方法,其特征在于,所述识别所述HTML资源的编码方式,包括:
调用预定的字符编码识别算法识别所述HTML资源的编码方式。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述网页资源是层叠样式表CSS资源,则将所述网页数据中的所述HTML资源采用的编码方式识别为所述CSS资源的编码方式,采用与所述编码方式所对应的解码方式解码所述CSS资源。
4.一种网页编码识别装置,其特征在于,所述装置包括:
数据加载模块,被配置为加载网页数据,所述网页数据包括至少一个网页资源;
方式检测模块,被配置为检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式;
方式识别模块,被配置为当所述网页资源是HTML资源但未声明编码方式时,识别所述HTML资源的编码方式;
资源解码模块,被配置为采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源;
编码检测模块,被配置为当所述网页资源是HTML资源但已声明编码方式,则检测已声明的所述编码方式是否为预设编码方式中的一种;
所述方式识别模块,被配置为当已声明的所述编码方式不是所述预设编码方式中的一种时,识别所述HTML资源的编码方式;或,自动纠错模块,被配置为当已声明的所述编码方式不是所述预设编码方式中的一种时,对已声明的所述编码方式进行自动纠错,得到自动纠错后的所述编码方式,
其中,所述自动纠错模块,包括:
拼写计算子模块,被配置为将已声明的所述编码方式与所述预设编码方式中的每一种分别计算拼写相似度;
自动纠错子模块,被配置为当最高的所述拼写相似度大于预设阈值时,将最高的所述拼写相似度所对应的预设编码方式确定为自动纠错后的所述编码方式。
5.根据权利要求4所述的装置,其特征在于,
所述方式识别模块,被配置为调用预定的字符编码识别算法识别所述HTML资源的编码方式。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
编码负用模块,被配置为当所述网页资源是层叠样式表CSS资源,则将所述网页数据中的所述HTML资源采用的编码方式识别为所述CSS资源的编码方式,采用与所述编码方式所对应的解码方式解码所述CSS资源。
7.一种网页编码识别装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
加载网页数据,所述网页数据包括至少一个网页资源;
检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式;
若所述网页资源是HTML资源但未声明编码方式,则识别所述HTML资源的编码方式;
采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源;
若所述网页资源是HTML资源但已声明编码方式,则检测已声明的所述编码方式是否为预设编码方式中的一种;
若已声明的所述编码方式不是所述预设编码方式中的一种,则识别所述HTML资源的编码方式;或,对已声明的所述编码方式进行自动纠错,得到自动纠错后的所述编码方式,
其中所述对已声明的所述编码方式进行自动纠错,得到自动纠错后的所述编码方式,包括:
将已声明的所述编码方式与所述预设编码方式中的每一种分别计算拼写相似度;
当最高的所述拼写相似度大于预设阈值时,将最高的所述拼写相似度所对应的预设编码方式确定为自动纠错后的所述编码方式。
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410562477.9A CN104361021B (zh) | 2014-10-21 | 2014-10-21 | 网页编码识别方法及装置 |
JP2016554794A JP6130976B2 (ja) | 2014-10-21 | 2015-01-22 | ウェブページエンコード識別方法、ウェブページエンコード識別装置、プログラム及び記録媒体 |
BR112015006725A BR112015006725A2 (pt) | 2014-10-21 | 2015-01-22 | método e dispositivo para identificar codificação da página de internet |
MX2015003807A MX361564B (es) | 2014-10-21 | 2015-01-22 | Método y dispositivo para identificar la codificación de página web. |
PCT/CN2015/071308 WO2016061930A1 (zh) | 2014-10-21 | 2015-01-22 | 网页编码识别方法及装置 |
RU2015110973A RU2610245C2 (ru) | 2014-10-21 | 2015-01-22 | Способ и устройство для идентификации кодирования веб-страницы |
KR1020157007129A KR20160059455A (ko) | 2014-10-21 | 2015-01-22 | 웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체 |
US14/684,855 US20160112491A1 (en) | 2014-10-21 | 2015-04-13 | Method and device for identifying encoding of web page |
EP15178533.4A EP3012750A1 (en) | 2014-10-21 | 2015-07-27 | Method and device for identifying encoding of web page |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410562477.9A CN104361021B (zh) | 2014-10-21 | 2014-10-21 | 网页编码识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104361021A CN104361021A (zh) | 2015-02-18 |
CN104361021B true CN104361021B (zh) | 2018-07-24 |
Family
ID=52528283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410562477.9A Active CN104361021B (zh) | 2014-10-21 | 2014-10-21 | 网页编码识别方法及装置 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP3012750A1 (zh) |
JP (1) | JP6130976B2 (zh) |
KR (1) | KR20160059455A (zh) |
CN (1) | CN104361021B (zh) |
BR (1) | BR112015006725A2 (zh) |
MX (1) | MX361564B (zh) |
RU (1) | RU2610245C2 (zh) |
WO (1) | WO2016061930A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104994128B (zh) * | 2015-05-15 | 2019-04-26 | 北京网康科技有限公司 | 一种数据编码类型识别及转码方法和装置 |
CN105468753A (zh) * | 2015-11-27 | 2016-04-06 | 北京金和网络股份有限公司 | 多编码格式数据显示系统及方法 |
CN106407438A (zh) * | 2016-09-28 | 2017-02-15 | 珠海迈越信息技术有限公司 | 一种数据处理方法及系统 |
CN110020343B (zh) * | 2017-09-01 | 2021-03-30 | 北京国双科技有限公司 | 网页编码格式的确定方法和装置 |
CN110674377A (zh) * | 2019-09-24 | 2020-01-10 | 四川长虹电器股份有限公司 | 基于爬虫的新闻热点词获取方法 |
CN114024651A (zh) * | 2020-07-16 | 2022-02-08 | 深信服科技股份有限公司 | 一种编码类型识别方法、装置、设备及可读存储介质 |
CN114415817B (zh) * | 2020-10-28 | 2024-05-07 | 北京小米移动软件有限公司 | 显示控制方法、电子设备及存储介质 |
CN113595683A (zh) * | 2021-07-07 | 2021-11-02 | 西安震有信通科技有限公司 | 基于各类编码文件的转换处理方法、装置、终端及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526963A (zh) * | 2009-04-17 | 2009-09-09 | 深圳华为通信技术有限公司 | 网页编码识别方法、装置和终端设备 |
US7711673B1 (en) * | 2005-09-28 | 2010-05-04 | Trend Micro Incorporated | Automatic charset detection using SIM algorithm with charset grouping |
CN103207877A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 解码方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3203544B2 (ja) * | 1996-01-31 | 2001-08-27 | 日本電信電話株式会社 | テキスト最尤復号方法及び最尤復号装置と、データ通信ネットワーク装置 |
JP2000132449A (ja) * | 1998-10-27 | 2000-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 代理アクセス方法、装置、および代理アクセスプログラムを記録した記録媒体 |
US6701320B1 (en) * | 2002-04-24 | 2004-03-02 | Bmc Software, Inc. | System and method for determining a character encoding scheme |
US7148824B1 (en) * | 2005-08-05 | 2006-12-12 | Xerox Corporation | Automatic detection of character encoding format using statistical analysis of the text strings |
US8271263B2 (en) * | 2007-03-30 | 2012-09-18 | Symantec Corporation | Multi-language text fragment transcoding and featurization |
JP5565197B2 (ja) * | 2010-08-18 | 2014-08-06 | 富士通株式会社 | Webアプリケーションの連携方法、連携装置、および連携プログラム |
RU2500024C2 (ru) * | 2011-12-27 | 2013-11-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного определения языка и (или) кодировки текстового документа |
US8938683B2 (en) * | 2012-09-11 | 2015-01-20 | Ebay Inc. | Visual state comparator |
TWI493365B (zh) * | 2013-08-16 | 2015-07-21 | Arphic Technology Co Ltd | 多字集字碼輸入與即時顯示方法、系統與裝置 |
-
2014
- 2014-10-21 CN CN201410562477.9A patent/CN104361021B/zh active Active
-
2015
- 2015-01-22 JP JP2016554794A patent/JP6130976B2/ja active Active
- 2015-01-22 MX MX2015003807A patent/MX361564B/es active IP Right Grant
- 2015-01-22 WO PCT/CN2015/071308 patent/WO2016061930A1/zh active Application Filing
- 2015-01-22 RU RU2015110973A patent/RU2610245C2/ru active
- 2015-01-22 KR KR1020157007129A patent/KR20160059455A/ko not_active Application Discontinuation
- 2015-01-22 BR BR112015006725A patent/BR112015006725A2/pt not_active IP Right Cessation
- 2015-07-27 EP EP15178533.4A patent/EP3012750A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711673B1 (en) * | 2005-09-28 | 2010-05-04 | Trend Micro Incorporated | Automatic charset detection using SIM algorithm with charset grouping |
CN101526963A (zh) * | 2009-04-17 | 2009-09-09 | 深圳华为通信技术有限公司 | 网页编码识别方法、装置和终端设备 |
CN103207877A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 解码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104361021A (zh) | 2015-02-18 |
EP3012750A1 (en) | 2016-04-27 |
MX361564B (es) | 2018-12-11 |
JP6130976B2 (ja) | 2017-05-17 |
JP2016539450A (ja) | 2016-12-15 |
BR112015006725A2 (pt) | 2017-07-04 |
RU2015110973A (ru) | 2016-10-20 |
WO2016061930A1 (zh) | 2016-04-28 |
RU2610245C2 (ru) | 2017-02-08 |
MX2015003807A (es) | 2016-08-02 |
KR20160059455A (ko) | 2016-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104361021B (zh) | 网页编码识别方法及装置 | |
JP5956725B2 (ja) | コンテキスト認識型ヘルプ・コンテンツを提供する方法、デバイス、及びコンピュータ・プログラム製品 | |
KR102094013B1 (ko) | 전자 장치에서 메시지를 전송하기 위한 장치 및 방법 | |
JP2015011170A (ja) | ローカルな音声認識を行なう音声認識クライアント装置 | |
KR102501083B1 (ko) | 음성 인식 방법 및 이를 사용하는 전자 장치 | |
US20140198032A1 (en) | Method and apparatus for displaying screen with eye tracking in portable terminal | |
EP3444811A1 (en) | Speech recognition method and device | |
CN103812999B (zh) | 移动终端及其通话记录处理方法和装置 | |
US20210405767A1 (en) | Input Method Candidate Content Recommendation Method and Electronic Device | |
KR20140019167A (ko) | 음성 안내 기능을 제공하기 위한 방법 및 그 전자 장치 | |
CN104035977B (zh) | 网页加载方法及装置 | |
KR101584887B1 (ko) | 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템 | |
KR20150019813A (ko) | 컨텐츠 무결성 제어 방법 및 그 전자 장치 | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
CN108268507B (zh) | 一种基于浏览器的处理方法、装置及电子设备 | |
EP2963561A1 (en) | Method and device for updating user data | |
KR102186455B1 (ko) | 사용자 맞춤 기능 추천 방법 및 이를 실행하기 위한 모바일 디바이스 | |
US20170013118A1 (en) | Electronic device and notification method thereof | |
CN110782889A (zh) | 一种语音操作方法及相关设备 | |
CN107704911A (zh) | 二维码的生成、读取方法及装置 | |
CN117112944A (zh) | 在静态网页中提供场境功能的方法和系统 | |
CN104537111B (zh) | 网页图片的加载方法和装置 | |
CN110084065B (zh) | 数据脱敏方法及装置 | |
CN103049196A (zh) | 用于通过手势来操作电子设备的方法和系统 | |
CN104077130B (zh) | 窗口名称处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |