CN101807192B - 一种用于移动通讯设备终端的网页页面光学字符识别处理方法 - Google Patents

一种用于移动通讯设备终端的网页页面光学字符识别处理方法 Download PDF

Info

Publication number
CN101807192B
CN101807192B CN200910313010XA CN200910313010A CN101807192B CN 101807192 B CN101807192 B CN 101807192B CN 200910313010X A CN200910313010X A CN 200910313010XA CN 200910313010 A CN200910313010 A CN 200910313010A CN 101807192 B CN101807192 B CN 101807192B
Authority
CN
China
Prior art keywords
optical character
mobile communication
communication equipment
picture
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910313010XA
Other languages
English (en)
Other versions
CN101807192A (zh
Inventor
梁捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN200910313010XA priority Critical patent/CN101807192B/zh
Publication of CN101807192A publication Critical patent/CN101807192A/zh
Application granted granted Critical
Publication of CN101807192B publication Critical patent/CN101807192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及用于移动通讯设备终端的网页页面浏览技术领域,特别是一种用于移动通讯设备终端的页面光学字符识别处理方法。方法包括:(11)移动通讯设备终端将访问请求提交给中转服务器;(12)中转服务器获取网页页面数据;(13)中转服务器对网页页面数据中的特定数据根据识别规则进行判断;(14)对于符合识别规则的特定数据进行光学字符识别;(15)把经过光学字符识别后的文字与其他网页页面数据一起返回给移动通讯设备终端;(16)移动通讯设备终端显示网页页面数据。使用本发明的处理方案,能有效地解决现有技术的问题,在为用户节省流量的同时,为用户提供更好的浏览体验。

Description

一种用于移动通讯设备终端的网页页面光学字符识别处理方法
技术领域
本发明涉及用于移动通讯设备终端的网页页面浏览技术领域,特别是一种用于移动通讯设备终端的网页页面光学字符识别处理方法。
背景技术
对网页页面来说,图片、flash既可以是点缀元素,也可以是内容载体:
比如小说站的VIP章节,一般是以图片形式展现;
比如登录的网页页面,登录验证码有图片的方式,也有flash方式。
互联网的网页页面是以个人电脑终端网页浏览器软件作为参照物进行优化处理的,其使用的一些内容承载形式、一些功能对移动通讯设备终端来说,是高不可攀的访问门槛。
目前,部分基于移动通讯设备终端的浏览器软件虽然已支持主流图片格式,但仍然无法很好处理这些内容,主要为下面三点:
1)图片文件体积过大(小说站点VIP章节,每一章节图片的体积是数兆),已经远远超出一般移动通讯设备终端的图片处理和回放的解析能力;
2)图片解析处理效率低,解析处理需要很长的时间,严重影响使用;
3)图片尺寸远大于移动通讯设备终端的屏幕尺寸,用户浏览时要不断“上下左右”移动网页页面才能看到内容。
4)图片文件体积过大,数据流量消耗过高,且需要很长的数据加载等待时间。
而受到技术、授权方面的制约,基于移动终端的网页flash应用还有很长的路要走。
发明内容
本发明提供一种用于移动通讯设备终端的网页页面光学字符识别处理方法,以解决现有技术的不足,帮助用户获得更好的网页页面浏览体验。
本发明采用的技术方案如下:
一种用于移动通讯设备终端的页面光学字符识别处理方法,由移动通讯设备终端和转发移动通讯设备终端访问请求的中转服务器实现,中转服务器上设置有光学字符识别引擎,所述方法包括:
(11)移动通讯设备终端将访问请求提交给中转服务器;
(12)中转服务器根据访问请求从目标网站服务器获取网页页面数据;
(13)中转服务器对网页页面数据中的特定数据根据识别规则进行判断;
(14)对于符合识别规则的特定数据通过光学字符识别引擎进行光学字符识别;
(15)把经过光学字符识别后的文字与其他网页页面数据一起返回给移动通讯设备终端;
(16)移动通讯设备终端显示网页页面数据。
上述的特定数据为包含文字的图片、flash文件等非文字性数据,通过采用光学字符识别技术,把原来特定数据里面的文字识别出来,然后把文字移动通讯设备终端。通过该技术方案,使用户大大节省了流量。同时,原来的图片是不可编辑,不可重新排版,但经过光学字符识别识别转换为文字后,则可以根据移动通讯设备终端的屏幕进行采用适应屏幕技术进行重新排版,使用户获得更加好的浏览阅读感受。
作为进一步的优选方案,所述中转服务器上还设置有用于校对常用文字的校对数据库,所述步骤(14)的具体步骤为:
(21)通过光学字符识别引擎对特定数据进行光学字符识别后得到文字数据;
(22)通过调用常用文字的校对数据库对把经过识别后的文字数据进行检索并判断所识别的文字是否有误,如果有误,则进行更正如果有误,则进行自动适配修正,并返回修正后数据到移动通讯设备终端。
作为一种优选方案,所述识别规则为:根据特定数据的尺寸大小进行判断,对超过预先设置的尺寸大小阈值的特定数据进行光学字符识别。
作为进一步的优选方案,所述特定数据为图片或者flash文件。
作为再进一步的优选方案,所述识别规则为:
对于图片的识别规则为:
(51)根据图片直方图色阶值、图片色彩灰度分布值等作为判断依据进行判断,对符合规则的图片进行光学字符识别进行判断,对符合规则的图片进行光学字符识别。
在一般网页图片中,一般采用sRGB以及adobeRGB,前者使用更普遍。但无论是哪一种标准,其色阶、灰度的分布动态范围都是有一定规律的,根据这些规律,设定一定的规则,则能判断是普通的图片,还是作为网页主要文字内容的图片。;
对于flash文件的识别规则为:
(52)根据flash文件所在的页面架构体系判断:
1)网页页面内引用flash资源是要使用一些固定的标签,这可以作为判断的依据,比如:
<EMBED SRC=’http://www.uc.cn/Flash/20091.swf’wmode=’transparent’WIDTH=’375’HEIGHT=’63’TYPE=’application/x-shockwave-flash’QUALITY=’high’></EMBED>
可以根据这些标签判断其内容为flash文件。
2)通过页面元素探嗅,准确判断页面flash文件。
作为进一步的优选方案,所述步骤(11)中,移动通讯设备终端还把其硬件显示参数和网页页面的访问请求一起发送到中转服务器。
作为进一步的优选方案,所述识别规则为:根据图片尺寸大小结合终端屏幕尺寸大小进行判断,对图片尺寸大小与终端屏幕尺寸大小的比例超过预先设置的阈值的图片进行光学字符识别。
作为更进一步的优选方案,所述步骤(14)对于flash文件的具体步骤为:
(81)把flash文件转换成图片;
(82)对转换后的图片进行光学字符识别。
作为一种优选方案,所述特定数据为网页页面上的图片验证码或者flash验证码,对于图片验证码不进行光学字符识别直接返回给移动通讯设备终端,对于flash验证码,把flash验证码转换为图片验证码后返回给移动通讯设备终端。
使用本发明的处理方案,能有效地解决现有技术的问题,在为用户节省流量的同时,为用户提供更好的浏览体验。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行进一步详细的说明。
如图1所示,本实施例的步骤如下:
1)图片既是页面上的点缀元素,又可能是页面上的内容承载主体,因此判断图片的类型是本实施例首先要解决的问题,主要通过下面两种方式判断:
a、通过图片尺寸大小判断;
b、通过图片尺寸大小结合终端屏幕尺寸大小判断;
c、通过图片(直方图)色阶值判断;
2)与图片一样,flash资源也是有这方面的问题,本实施例通过下面方式进行判断:
a、通过flash尺寸大小判断;
b、通过flash资源所在的页面架构体系判断;
3)上面的判断处理操作,借助运算能力强大的中转服务器进行处理;
4)访问网页页面时,移动通讯设备终端的浏览器软件将网页页面的访问请求,移动通讯设备终端的硬件显示参数提交给中转服务器,由中转服务器根据访问请求访问从目标网站服务器获取网页页面数据;
5)中转服务器根据规则判断网页页面上哪些内容是要进行处理的,并使用光学字符识别技术把内容识别并提取出来;
6)为保证返回数据结果的正确性,中转服务器还通过调用常用文字的校对数据库对把经过识别后的返回数据结算进行检索并判断,并生成新的网页页面;
7)将处理过网页页面作为访问结果返回移动通讯设备终端的浏览器软件。
8)为了防止恶意登录,不少网站的图片验证码都应用了防光学字符识别技术,对于普通的图片验证码,在移动通讯设备终端上是可以直接显示的,但对于使用flash为承载体的验证码,将直接输出该映射图片。

Claims (7)

1.一种用于移动通讯设备终端的网页页面光学字符识别处理方法,由移动通讯设备终端和转发移动通讯设备终端访问请求的中转服务器实现,中转服务器上设置有光学字符识别引擎,其特征在于,所述方法包括:
(11)移动通讯设备终端将访问请求提交给中转服务器;
(12)中转服务器根据访问请求从目标网站服务器获取网页页面数据;
(13)中转服务器对网页页面数据中的特定数据根据识别规则进行判断;所述特定数据为图片或者flash文件;
所述识别规则为:根据特定数据的尺寸大小进行判断,对超过预先设置的尺寸大小阈值的特定数据进行光学字符识别;
(14)对于符合识别规则的特定数据通过光学字符识别引擎进行光学字符识别处理;
(15)中转服务器把经过光学字符识别处理得到的文字与原网页页面的其它数据重新排版组成新的网页页面,作为为访问结果返回移动通讯设备终端;
(16)移动通讯设备终端显示网页页面数据。
2.根据权利要求1所述的页面光学字符识别处理方法,其特征在于,所述中转服务器上还设置有用于校对常用文字的校对数据库,所述步骤(14)的具体步骤为:
(21)通过光学字符识别引擎对特定数据进行光学字符识别后得到文字数据;
(22)通过调用常用文字的校对数据库对把经过识别后的文字数据进行检索并判断所识别的文字是否有误,如果有误,则进行更正,修正后的文字内容为最终的结果。
3.根据权利要求1或2所述的页面光学字符识别处理方法,其特征在于,所述识别规则为:
对于图片的识别规则为:
(51)根据图片的直方图色阶值、图片色彩灰度分布值作为判断依据进行判断,对符合判断依据的图片进行光学字符识别;
对于flash文件的识别规则为:
(52)根据所在的页面的固定标签、页面元素嗅探判断是否有flash文件,对符合该判断的flash文件进行光学字符识别。
4.根据权利要求1或2所述的页面光学字符识别处理方法,其特征在于,所述步骤(11)中,移动通讯设备终端还把其硬件显示参数和网页页面的访问请求一起发送到中转服务器。
5.根据权利要求4所述的页面光学字符识别处理方法,其特征在于,所述识别规则为:根据图片尺寸大小结合终端屏幕尺寸大小进行判断,对图片尺寸大小与终端屏幕尺寸大小的比例超过预先设置的阈值的图片进行光学字符识别。
6.根据权利要求1或2所述的页面光学字符识别处理方法,其特征在于,所述步骤(14)对于flash文件的具体步骤为:
(81)把flash文件转换成图片;
(82)对转换后的图片进行光学字符识别。
7.根据权利要求1所述的网页页面光学字符识别处理方法,其特征在于,所述特定数据还包括:网页页面上的图片验证码或者flash验证码,对于该图片验证码不进行光学字符识别直接返回给移动通讯设备终端,对于flash验证码,把flash验证码转换为图片验证码后返回给移动通讯设备终端。
CN200910313010XA 2009-12-31 2009-12-31 一种用于移动通讯设备终端的网页页面光学字符识别处理方法 Active CN101807192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910313010XA CN101807192B (zh) 2009-12-31 2009-12-31 一种用于移动通讯设备终端的网页页面光学字符识别处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910313010XA CN101807192B (zh) 2009-12-31 2009-12-31 一种用于移动通讯设备终端的网页页面光学字符识别处理方法

Publications (2)

Publication Number Publication Date
CN101807192A CN101807192A (zh) 2010-08-18
CN101807192B true CN101807192B (zh) 2012-11-07

Family

ID=42608989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910313010XA Active CN101807192B (zh) 2009-12-31 2009-12-31 一种用于移动通讯设备终端的网页页面光学字符识别处理方法

Country Status (1)

Country Link
CN (1) CN101807192B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977233A (zh) * 2010-11-01 2011-02-16 优视科技有限公司 一种移动终端以阅读模式浏览网页方法和系统
CN102650990A (zh) * 2011-02-24 2012-08-29 中兴通讯股份有限公司 终端网页显示方法及系统
CN102938061A (zh) * 2012-12-05 2013-02-20 上海合合信息科技发展有限公司 方便电子化的专业笔记本及其页码自动识别方法
CN105320851A (zh) * 2014-08-05 2016-02-10 腾讯科技(深圳)有限公司 网页安全性检测方法及装置
CN104834855B (zh) * 2015-04-20 2017-04-05 北京奇虎科技有限公司 一种系统数据的获取方法、装置和移动终端
CN104915668B (zh) * 2015-05-29 2019-02-26 深圳市红源资产管理有限公司 医学影像中的文字信息识别方法及装置
CN105681344A (zh) * 2016-03-11 2016-06-15 广东亿迅科技有限公司 一种验证码识别系统及方法
CN106095918B (zh) * 2016-06-06 2020-03-06 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN107544993B (zh) * 2016-06-27 2021-11-26 北京金山安全软件有限公司 一种处理图片的方法、装置及电子设备
CN108205674B (zh) * 2017-12-22 2022-04-15 广州爱美互动网络科技有限公司 社交app的内容识别方法、电子设备、存储介质及系统
CN111310435B (zh) * 2020-02-14 2023-09-08 Oppo广东移动通信有限公司 图像文本显示方法、装置、存储介质及终端
CN112053203A (zh) * 2020-08-14 2020-12-08 中国物品编码中心 商品图片的显示方法、装置及存储介质
CN113449829B (zh) * 2021-06-25 2024-07-23 亿诚桐(北京)信息科技有限公司 基于光学字符识别技术的数据传输方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150803A (zh) * 2007-10-24 2008-03-26 优视动景(北京)技术服务有限公司 微浏览器处理网络数据的方法、微浏览器及其服务器
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器
CN101583099A (zh) * 2009-07-02 2009-11-18 优视动景(北京)技术服务有限公司 一种用于移动终端的浏览系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150803A (zh) * 2007-10-24 2008-03-26 优视动景(北京)技术服务有限公司 微浏览器处理网络数据的方法、微浏览器及其服务器
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器
CN101583099A (zh) * 2009-07-02 2009-11-18 优视动景(北京)技术服务有限公司 一种用于移动终端的浏览系统

Also Published As

Publication number Publication date
CN101807192A (zh) 2010-08-18

Similar Documents

Publication Publication Date Title
CN101807192B (zh) 一种用于移动通讯设备终端的网页页面光学字符识别处理方法
CN104281827B (zh) 识别二维码的方法及装置
US8186572B2 (en) Systems and methods for animating barcodes
US20130268843A1 (en) Method, Apparatus And System For Rendering Web Page
CN101937428B (zh) 移动终端设备的带文字内容的图片的重新排版方法及系统
KR100964792B1 (ko) 모바일 웹 환경을 위한 콘텐츠 적응 시스템 및 방법
CN102207967B (zh) 一种自动提供浏览器新插件的方法和系统
US20110142344A1 (en) Browsing system, server, and text extracting method
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
JP2005346734A (ja) コンテンツ提供方法
CN103678305A (zh) 一种基于图片识别显示咨询信息的方法和系统
CN101777068A (zh) 一种用于移动通讯设备终端的网页页面预读及整合浏览系统及其应用方法
CN100415011C (zh) 一种利用手机阅读广告中网站信息的方法
CN102053952A (zh) 电子书数据格式转换的方法、装置及便携式电子书阅读器
CN102184240B (zh) 基于移动通讯设备终端的网页页面排版方法及系统
CN105426759A (zh) Url的合法性识别方法及装置
CN103237088A (zh) 基于对应关系库的浏览方法、系统及云端服务器
CN102340424A (zh) 不良报文的检测方法及不良报文的检测装置
CN112800372B (zh) 页面加载方法、装置和电子设备
CN103761257B (zh) 基于移动浏览器的网页处理方法及系统
CN102033926B (zh) 一种页面内容处理方法及装置
CN101815086A (zh) 一种用于移动通讯设备终端的浏览器字体优化方法
CN1700646A (zh) 可扫描的全球资源定位地址的利用
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
US20080312901A1 (en) Character input assist method, character input assist system, character input assist program, user terminal, character conversion method and character conversion program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100190, room 16, building 10-20, Building 29, Haidian District, Suzhou Street, Beijing

Patentee before: UC MOBILE Ltd.

TR01 Transfer of patent right