CN103092922A - 一种针对含特殊字符的url编码后的自动解码方法 - Google Patents

一种针对含特殊字符的url编码后的自动解码方法 Download PDF

Info

Publication number
CN103092922A
CN103092922A CN2012105853976A CN201210585397A CN103092922A CN 103092922 A CN103092922 A CN 103092922A CN 2012105853976 A CN2012105853976 A CN 2012105853976A CN 201210585397 A CN201210585397 A CN 201210585397A CN 103092922 A CN103092922 A CN 103092922A
Authority
CN
China
Prior art keywords
coding
url
url character
character string
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105853976A
Other languages
English (en)
Other versions
CN103092922B (zh
Inventor
刘欣然
李焱
赵丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201210585397.6A priority Critical patent/CN103092922B/zh
Publication of CN103092922A publication Critical patent/CN103092922A/zh
Application granted granted Critical
Publication of CN103092922B publication Critical patent/CN103092922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种针对含特殊字符的URL编码后的自动解码方法,包括:步骤S1.输入需要解码的编码后的URL字符串;步骤S2.按照不同的编码方式对编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3.对得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4.将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有一个与需要解码的编码后的URL字符串相同,取编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串,精确得到需要解码的编码后的URL字符串的编码方式进行解码。

Description

一种针对含特殊字符的URL编码后的自动解码方法
技术领域
本发明涉及计算机应用技术领域,具体涉及一种针对含特殊字符的URL编码后的自动解码方法。
背景技术
统一资源定位符(URL,Uniform Universal Resource Locator)也被称为网页地址,是因特网上标准的资源地址。在一些互联网应用中,为消除歧义,需要对URL进行编码。例如,含有中文、空格等特殊字符的URL通常会编码成含有“%”和“E6”等的字符长串。很多新闻站点的URL中会包含该条新闻的标题相关信息,恢复URL的原有形式在互联网信息采集领域有着非常重要的意义。可通过分析编码后的URL中特殊字符值的分布来判断编码方式,进而解码出原URL。但不同的编码方式存在交叉,有的字符值会在不同的编码方式中出现。
发明内容
本发明涉及一种针对含特殊字符的URL编码后的自动解码方法,所述方法包括:
步骤S1,输入需要解码的编码后的URL字符串;
步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;
步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;
步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。
本发明提供的第一优选实施例中:所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进行解码是根据常用的编码字符集进行解码的;
在中文环境下,按照GBK、Big5和UTF-8不同的编码方式进行解码。
本发明提供的第二优选实施例中:如果所述步骤S2中按照所述常用的编码字符集进行不同方式的解码后,所述步骤S4中对比没有得到与所述需要解码的编码后的URL字符串相同的编码后的URL字符串,采用与所述步骤S2中不同的编码方式进行步骤S2-S4的操作。
本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的有益效果包括:
本发明提供的一种针对含特殊字符的URL编码后的自动解码方法,针对含特殊字符的编码后的URL字符串,在URL字符串编码方式不明确并且不同的编码方式存在交叉不容易判断编码方式的情况下,比较精确的得到编码方式进行解码。
附图说明
如图1所示为本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图。
具体实施方式
本发明提供一种针对含特殊字符的URL编码后的自动解码方法,该方法包括:
步骤S1,输入需要解码的编码后的URL字符串。
步骤S2,按照不同的编码方式对该编码后的URL字符串进行解码,得到不同的URL字符串。
步骤S3,对步骤S2中得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串。
步骤S4,将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有一个与需要解码的编码后的URL字符串相同,取该编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串。
步骤S2中按照不同的编码方式对编码后的URL字符串进行解码是根据常用的编码字符集进行解码的,比如在中文环境下:按照GBK、Big5和UTF-8等不同的编码方式进行解码。
如果按照常用的编码字符集进行不同方式的解码后,步骤S4中对比没有得到与需要解码的编码后的URL字符串相同的编码后的URL字符串,那么可以采用其他不常用的编码方式进行步骤S2-S4的操作。
如图1所示为本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图,需要解码的编码后的URL字符串为:“..%ACF%AAv…”,假设GBK、Big5和Utf-8等不同的编码方式后进行相应的解码,得到不同的URL字符串,在按照其对应的解码方式进行编码得到不同的URL字符串,将得到的不同的URL字符串与“..%ACF%AAv…”进行对比,得到Big5编码方式下得到的URL字符串与“..%ACF%AAv…”相同,则取Big5编码方式下解码得到的“..政治…”为本实施例中需要解码的编码后的URL字符串经过自动解码得到的URL字符串。
GBK编码与Big5编码的字符集有交叉,导致根据编码值的分布范围求原字符的编码方式在有些情况下行不通;URL中的特殊字符一般不止一个,实际中所有的特殊字符在两种字符集中的编码值都相同的概率非常小,该情况下,只能通过肉眼并结合已有经验判断原URL值,保证了本方法的有效性。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种针对含特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括:
步骤S1,输入需要解码的编码后的URL字符串;
步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;
步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;
步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。
2.如权利要求1所述的方法,其特征在于,所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进行解码是根据常用的编码字符集进行解码的;
在中文环境下,按照GBK、Big5和UTF-8不同的编码方式进行解码。
3.如权利要求2所述的方法,其特征在于,如果所述步骤S2中按照所述常用的编码字符集进行不同方式的解码后,所述步骤S4中对比没有得到与所述需要解码的编码后的URL字符串相同的编码后的URL字符串,采用与所述步骤S2中不同的编码方式进行步骤S2-S4的操作。
CN201210585397.6A 2012-12-28 2012-12-28 一种针对含特殊字符的url编码后的自动解码方法 Active CN103092922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210585397.6A CN103092922B (zh) 2012-12-28 2012-12-28 一种针对含特殊字符的url编码后的自动解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210585397.6A CN103092922B (zh) 2012-12-28 2012-12-28 一种针对含特殊字符的url编码后的自动解码方法

Publications (2)

Publication Number Publication Date
CN103092922A true CN103092922A (zh) 2013-05-08
CN103092922B CN103092922B (zh) 2018-04-10

Family

ID=48205487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210585397.6A Active CN103092922B (zh) 2012-12-28 2012-12-28 一种针对含特殊字符的url编码后的自动解码方法

Country Status (1)

Country Link
CN (1) CN103092922B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699841A (zh) * 2013-12-20 2014-04-02 北京奇虎科技有限公司 拦截编码绕过的方法及设备
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN108123721A (zh) * 2016-11-29 2018-06-05 展讯通信(上海)有限公司 编码方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060005242A (ko) * 2004-07-12 2006-01-17 박종수 브라우저의 디코딩된 유알엘을 이용한 광고시스템 및 방법
JP2006216002A (ja) * 2005-02-02 2006-08-17 Foward Network:Kk Urlセキュリティーシステム
CN101350858A (zh) * 2008-09-10 2009-01-21 深圳华为通信技术有限公司 一种短信解码的方法和用户终端
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN101777919A (zh) * 2009-01-12 2010-07-14 瑞昱半导体股份有限公司 区块码解码方法与装置
CN101854231A (zh) * 2010-05-27 2010-10-06 武汉虹信通信技术有限责任公司 基于协议模型的协议编解码方法
CN101917248A (zh) * 2010-07-20 2010-12-15 北京全路通信信号研究设计院 一种列控报文处理方法、装置和系统
WO2012063094A1 (en) * 2010-11-09 2012-05-18 Telefonaktiebolaget L M Ericsson (Publ) Context-aware content delivery
CN102722544A (zh) * 2012-05-24 2012-10-10 北京国双科技有限公司 字符串的解码方法和装置
US8331542B2 (en) * 2009-04-15 2012-12-11 Shoretel, Inc. Phone URL exchange

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060005242A (ko) * 2004-07-12 2006-01-17 박종수 브라우저의 디코딩된 유알엘을 이용한 광고시스템 및 방법
JP2006216002A (ja) * 2005-02-02 2006-08-17 Foward Network:Kk Urlセキュリティーシステム
CN101350858A (zh) * 2008-09-10 2009-01-21 深圳华为通信技术有限公司 一种短信解码的方法和用户终端
CN101777919A (zh) * 2009-01-12 2010-07-14 瑞昱半导体股份有限公司 区块码解码方法与装置
US8331542B2 (en) * 2009-04-15 2012-12-11 Shoretel, Inc. Phone URL exchange
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN101854231A (zh) * 2010-05-27 2010-10-06 武汉虹信通信技术有限责任公司 基于协议模型的协议编解码方法
CN101917248A (zh) * 2010-07-20 2010-12-15 北京全路通信信号研究设计院 一种列控报文处理方法、装置和系统
WO2012063094A1 (en) * 2010-11-09 2012-05-18 Telefonaktiebolaget L M Ericsson (Publ) Context-aware content delivery
CN102722544A (zh) * 2012-05-24 2012-10-10 北京国双科技有限公司 字符串的解码方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699841A (zh) * 2013-12-20 2014-04-02 北京奇虎科技有限公司 拦截编码绕过的方法及设备
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN108108267B (zh) * 2016-11-25 2021-06-22 北京国双科技有限公司 数据的恢复方法和装置
CN108123721A (zh) * 2016-11-29 2018-06-05 展讯通信(上海)有限公司 编码方法及装置
CN108123721B (zh) * 2016-11-29 2022-01-11 展讯通信(上海)有限公司 编码方法及装置

Also Published As

Publication number Publication date
CN103092922B (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
US7975217B2 (en) Embedding metadata with displayable content and applications thereof
RU2630750C1 (ru) Устройство и способ для кодирования и декодирования исходных данных
PH12020500016A1 (en) Picture data encoding method and apparatus and picture data decoding method and apparatus
CN101526963A (zh) 网页编码识别方法、装置和终端设备
CN102223526B (zh) 图像编解码方法及相关装置
US20140126814A1 (en) Image compression with alpha channel data
CN104598902A (zh) 一种用于识别截图的方法、装置和浏览器
CN112035706A (zh) 编码、解码方法、计算机设备及可读存储介质
CN110738657A (zh) 视频质量评估方法、装置、电子设备及存储介质
CN103092922A (zh) 一种针对含特殊字符的url编码后的自动解码方法
CN110708307A (zh) 转码器生成方法和装置、电子设备及存储介质
CN104994128A (zh) 一种数据编码类型识别及转码方法和装置
CN104750663A (zh) 页面中文本乱码的识别方法及装置
US9798721B2 (en) Innovative method for text encodation in quick response code
CN103942586A (zh) 双重含义的二维码源数据编码法及二维码生成及应用方法
CN106209942B (zh) 一种数据压缩传输方法和系统、及其终端和服务器
CN107463536A (zh) 一种实现安卓设备上在线预览服务器上文档的方法及系统
CN106649437A (zh) 条形码的扫码方法和系统
CN102063416B (zh) 向pdf文件内嵌双字节字体的方法及其系统
CN100511236C (zh) 用于嵌入式浏览器的网页编码语言自动识别方法及装置
CN105808549B (zh) 基于映射文件自动组帧及分析帧的客户端方法
CN113162628B (zh) 一种数据编码方法、数据解码方法、终端和存储介质
CN106484661A (zh) 一种ebcdic编码扩展的方法
CN102799572A (zh) 一种文本编码方式和文本编码装置
CN105095268A (zh) 结构化数据的存取方法以及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant