CN103186781A - 文本识别方法 - Google Patents
文本识别方法 Download PDFInfo
- Publication number
- CN103186781A CN103186781A CN2011104621591A CN201110462159A CN103186781A CN 103186781 A CN103186781 A CN 103186781A CN 2011104621591 A CN2011104621591 A CN 2011104621591A CN 201110462159 A CN201110462159 A CN 201110462159A CN 103186781 A CN103186781 A CN 103186781A
- Authority
- CN
- China
- Prior art keywords
- text
- recognition method
- image segments
- image
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种文本识别方法,涉及计算机技术领域,该方法包括以下步骤:S1:将原始图片划分成至少一个图像片段;S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。本发明的文本识别方法通过图像片段和传统验证码结合,将用户识别的图像片段中频率最高的文本最为图像片段的文本,相对于传统的OCR,提高了对图片中文本的识别精度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种文本识别方法。
背景技术
验证码(CAPTCHA)是Challenge-response的一种类型,用来确保产生的响应不是计算机生成的,通常的办法是让计算机询问用户一个计算机能够生成并校验的简单问题。由于其他计算机不能识别验证码,所以输入的正确答案将被推定为是人类产生的。某些时候也被描述为“反向图灵测试(Reverse Turing Test)”,因为这里发问的是计算机,回答者是人类,而“图灵测试(Turing Test)”的发问者是人类,回答者是计算机。一个典型的验证码要求用户输入一些在屏幕上显示的已经被扭曲处理的图像中的文本信息。
对于验证码的自动生成有以下要求:
A)当前的软件不能够精确识别;
B)大多数人能够识别;
C)攻击者不依赖于特定的CAPTCHA类型;
尽管设计一个checkbox勾选框并注明“如果你不是台计算机请勾选这里”也许也是能够区别出人类和计算机,但是这依赖由于一个事实:攻击者不会为特定的形式发起攻击。因此该方法不属于CAPTCHA
现有的应用中通常采用光学字符识别:(Optical CharacterRecognition,OCR)方法来识别文本信息,OCR是属于图型识别(Pattern Recognition,PR)的一门学问。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料。
由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(IntelligentCharacter Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。
OCR的步骤主要分为:a)影像输入;b)影像前处理;c)文字特征抽取;d)对比识别;e)字词后处理;f)人工校正;g)结果输出。
OCR的缺陷是:由于OCR识别存在精度的限制,始终还是存在一些图像无法识别出其中的文本信息。
现有的验证码安全性:为了加强验证码的安全性,存在一种利用加入信息噪声的解决方法。如图1所示,该方法在于通过将验证码图片中加入噪点、线段、颜色、图像变形的方法,加大机器图像识别的难度,但同时也加大了人类识别文本信息的难度,降低了人类识别效率和正确率。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何准确地从图像中识别出文本信息。
(二)技术方案
为解决上述技术问题,本发明提供了一种文本识别方法,包括以下步骤:
S1:将原始图片划分成至少一个图像片段;
S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。
其中,所述步骤S2具体包括:
S2.1:将至少一个图像片段和验证码拼接成一张图片;
S2.2:将用户输入的字符中除验证码显示字符以外的字符作为所述图像片段的文本识别结果;
S2.3:将最多用户识别出的文本结果作为从该图像片段识别出的文本。
其中,所述步骤S2.1中,对所述图像片段和验证码进行上下左右,顺序随机地拼接。
其中,所述图片中图像片段和验证码各自的字符不重叠。
其中,所述步骤S2.2中还将不同用户的文本识别结果传输到服务器存储,步骤S2.3中实时统计最多用户识别出的文本结果。
其中,所述原始图片为OCR无法识别出其中文本的图片。
其中,所述步骤S1中还包括对划分的图像片段设置唯一标识信息,步骤S2之后还包括根据所述唯一标识信息将从图像片段识别出的文本还原成原始图片对应的文本。
其中,所述步骤S1中,划分出的图像片段互不重叠。
其中,若为纸件,步骤S1之前还包括扫描所述纸件以形成所述原始图片的过程。
其中,所述唯一标识信息包括:片段编号及片段所在原始图片中的位置。
(三)有益效果
本发明的文本识别方法通过图像片段和传统验证码结合,将用户识别的图像片段中频率最高的文本结果最为图像片段的文本,相对于传统的OCR,提高了对图片中文本的识别精度。
附图说明
图1是现有技术中的验证码示意图;
图2是本发明实施例的一种文本识别方法流程图;
图3是本发明实施例的另一种文本识别方法流程图
图4是图2或图3中步骤S202的具体流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明方法的整体思路是将目前带有文字的图像与传统验证码(CAPTCHA)生成结合起来,按照一定方式呈现给用户,用户的输入串只要能够满足传统验证码(CAPTCHA)生成的那一部分就被认为通过验证。多个不同用户通过这样的方式,可以得到多个带有文字的图像中的文本信息的解读,计算机系统将认为其中最多人输入的串就是这个图片中所具有的文本信息。从而达到提取图片中文字的目的。命名该种方法为“CAPTCHA+Translation”,生成的验证码为“C-T图”。具体流程如图2所示,包括:
步骤S201,将原始图片划分成至少一个图像片段,划分的图像片段个数由有原始图片的大小决定;
步骤S202,对图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。
如图3所示,还包括步骤S203,将从图像片段识别出的文本还原成原始图片对应的文本。为了方便将识别出的图像片段对应的文本还原成原始图片对应文本,步骤S201中还对划分的图像片段设置唯一标识信息,唯一标识信息包括:片段编号及段所在原始图片中的位置,段所在原始图片中的位置用于确定各图像片段前后左右的位置关系,如,某图片格式的电子书,段所在原始图片中的位置包括:页码、行和列等信息。为了提高还原文本的准确性,在步骤S201中划分的图像片段应该互不重叠,即同一位置出的文本不应该划分到两个不同图像片段中。
若为纸件的文件或书籍,步骤S201之前还包括S200,将纸件扫描以形成原始图片,并将原始图片存储在数据库中以待使用。
本实施例中,利用与传统验证码结合的方式来实现对图像片段进行若干次识别,上述步骤S202的具体流程如图4所示。
当用户在登录时,系统(通常指某应用的客户端)收到登录的请求,将生成的验证码和图像片段并接成一张图片,即C-T图。为了防止用户得知判断算法后随意输入造成识别品质下降,因此不才采用特别的算法,而是在拼接时,将验证码和图像片段按上下左右位置关系及先后顺序进行随机化排列。为了便于用户识别,并接后的图片最好不重叠。为了保证后期验证的安全性,也可以将验证码和两个或更多的图像片段按随机的位置关系进行拼接以增加机器识别的难度。
用户输入后,系统获取到用户输入的字符串,判断其中是否包含验证码中的字符串A,若不包含,则验证失败;若包含,则验证成功,同时将非A的部分作为图像片段的文本识别结果通过网络发送到服务器中存储,由于图像片段本身清晰度以及用户自身等因素的影响,对于每个图像片段不同用户识别出的文本识别结果不一样,如:用户U1识别的非A的部分为B1,用户U2识别的非A的部分为B2,Un识别的非A的部分为Bn,本实施例中采用投票算法对不同的文本识别结果B1,B2,......,Bn进行统计,出现频率最高的作为从该图像片段中识别出的文本。由于人眼识别本事比OCR的精确度高,并且随着用户不断地识别,实时进行统计,得到的结果会更精确。
优选地,原始图片为事先采用OCR识别后无法识别或识别率较低的部分图片,这样可以提高验证码的机器识别难度,同时可以节省统计次数。
本发明通过图像片段和传统验证码结合,利用广大用户识别的图像片段中频率最高的文本结果最为图像片段的文本,以达到精确识别图像中文字的效果,弥补了传统OCR的不足。本发明可以广泛地用于需要传统OCR识别的技术领域,尤其用于电子书制作领域,如需要将某些纸质不好,印刷不清晰(古籍图书),页面存在背景图案的书籍制作成电子书,采用以上方法可以精确、快捷地实现电子书的制作。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种文本识别方法,其特征在于,包括以下步骤:
S1:将原始图片划分成至少一个图像片段;
S2:对所述图像片段进行若干次识别,并统计每次识别的文本结果,将频率最高的文本结果作为从该图像片段识别出的文本。
2.如权利要求1所述的文本识别方法,其特征在于,所述步骤S2具体包括:
S2.1:将至少一个图像片段和验证码拼接成一张图片;
S2.2:将用户输入的字符中除验证码显示字符以外的字符作为所述图像片段的文本识别结果;
S2.3:将最多用户识别出的文本结果作为从该图像片段识别出的文本。
3.如权利要求2所述的文本识别方法,其特征在于,所述步骤S2.1中,对所述图像片段和验证码进行上下左右,顺序随机地拼接。
4.如权利要求3所述的文本识别方法,其特征在于,所述图片中图像片段和验证码各自的字符不重叠。
5.如权利要求2所述的文本识别方法,其特征在于,所述步骤S2.2中还将不同用户的文本识别结果传输到服务器存储,步骤S2.3中实时统计最多用户识别出的文本结果。
6.如权利要求1所述的文本识别方法,其特征在于,所述原始图片为OCR无法识别出其中文本的图片。
7.如权利要求1~6中任一项所述的文本识别方法,其特征在于,所述步骤S1中还包括对划分的图像片段设置唯一标识信息,步骤S2之后还包括根据所述唯一标识信息将从图像片段识别出的文本还原成原始图片对应的文本。
8.如权利要求7所述的文本识别方法,其特征在于,所述步骤S1中,划分出的图像片段互不重叠。
9.如权利要求7所述的文本识别方法,其特征在于,若为纸件,步骤S1之前还包括扫描所述纸件以形成所述原始图片的过程。
10.如权利要求9所述的文本识别方法,其特征在于,所述唯一标识信息包括:片段编号及片段所在原始图片中的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104621591A CN103186781A (zh) | 2011-12-31 | 2011-12-31 | 文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104621591A CN103186781A (zh) | 2011-12-31 | 2011-12-31 | 文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103186781A true CN103186781A (zh) | 2013-07-03 |
Family
ID=48677942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104621591A Pending CN103186781A (zh) | 2011-12-31 | 2011-12-31 | 文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103186781A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104378329A (zh) * | 2013-08-13 | 2015-02-25 | 深圳市腾讯计算机系统有限公司 | 安全验证的方法、装置及系统 |
CN105354480A (zh) * | 2014-08-20 | 2016-02-24 | 阿里巴巴集团控股有限公司 | 验证码图片生成方法及装置 |
CN106599671A (zh) * | 2015-10-20 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种基于用户填写验证码来进行图片识别的方法及装置 |
CN107315989A (zh) * | 2017-05-03 | 2017-11-03 | 天方创新(北京)信息技术有限公司 | 针对医学资料图片的文本识别方法和装置 |
CN107612897A (zh) * | 2017-09-07 | 2018-01-19 | 唐冬香 | 一种数据传输方法 |
CN105354480B (zh) * | 2014-08-20 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 验证码图片生成方法及装置 |
CN109033798A (zh) * | 2018-09-14 | 2018-12-18 | 北京金堤科技有限公司 | 一种基于语义的点选验证码识别方法及其装置 |
WO2019170060A1 (zh) * | 2018-03-05 | 2019-09-12 | 深圳大学 | 一种基于图像认证的医学影像标注方法、装置、用户终端和计算机可读存储介质 |
WO2019200781A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 票据识别方法、装置及存储介质 |
CN111783066A (zh) * | 2020-07-07 | 2020-10-16 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN118135578A (zh) * | 2024-05-10 | 2024-06-04 | 沈阳出版社有限公司 | 一种基于图文识别后的文字学习校对系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277149A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文字画像切出装置、文字画像切出方法およびプログラム |
CN101088108A (zh) * | 2005-01-06 | 2007-12-12 | 国际商业机器公司 | 在销售点站中的支票码字行识别的联机纠正 |
CN101196994A (zh) * | 2007-12-26 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 图片内容识别方法及识别系统 |
CN101388078A (zh) * | 2008-09-27 | 2009-03-18 | 腾讯科技(深圳)有限公司 | 基于验证的文本识别的方法及装置 |
-
2011
- 2011-12-31 CN CN2011104621591A patent/CN103186781A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101088108A (zh) * | 2005-01-06 | 2007-12-12 | 国际商业机器公司 | 在销售点站中的支票码字行识别的联机纠正 |
JP2006277149A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文字画像切出装置、文字画像切出方法およびプログラム |
CN101196994A (zh) * | 2007-12-26 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 图片内容识别方法及识别系统 |
CN101388078A (zh) * | 2008-09-27 | 2009-03-18 | 腾讯科技(深圳)有限公司 | 基于验证的文本识别的方法及装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104378329B (zh) * | 2013-08-13 | 2018-08-07 | 深圳市腾讯计算机系统有限公司 | 安全验证的方法、装置及系统 |
CN104378329A (zh) * | 2013-08-13 | 2015-02-25 | 深圳市腾讯计算机系统有限公司 | 安全验证的方法、装置及系统 |
CN105354480A (zh) * | 2014-08-20 | 2016-02-24 | 阿里巴巴集团控股有限公司 | 验证码图片生成方法及装置 |
CN105354480B (zh) * | 2014-08-20 | 2018-06-01 | 阿里巴巴集团控股有限公司 | 验证码图片生成方法及装置 |
CN106599671A (zh) * | 2015-10-20 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种基于用户填写验证码来进行图片识别的方法及装置 |
WO2017067398A1 (zh) * | 2015-10-20 | 2017-04-27 | 阿里巴巴集团控股有限公司 | 一种基于用户填写验证码来进行图片识别的方法及装置 |
CN106599671B (zh) * | 2015-10-20 | 2020-02-07 | 阿里巴巴集团控股有限公司 | 一种基于用户填写验证码来进行图片识别的方法及装置 |
CN107315989B (zh) * | 2017-05-03 | 2020-06-12 | 天方创新(北京)信息技术有限公司 | 针对医学资料图片的文本识别方法和装置 |
CN107315989A (zh) * | 2017-05-03 | 2017-11-03 | 天方创新(北京)信息技术有限公司 | 针对医学资料图片的文本识别方法和装置 |
CN107612897A (zh) * | 2017-09-07 | 2018-01-19 | 唐冬香 | 一种数据传输方法 |
WO2019170060A1 (zh) * | 2018-03-05 | 2019-09-12 | 深圳大学 | 一种基于图像认证的医学影像标注方法、装置、用户终端和计算机可读存储介质 |
WO2019200781A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 票据识别方法、装置及存储介质 |
CN109033798A (zh) * | 2018-09-14 | 2018-12-18 | 北京金堤科技有限公司 | 一种基于语义的点选验证码识别方法及其装置 |
CN109033798B (zh) * | 2018-09-14 | 2020-07-07 | 北京金堤科技有限公司 | 一种基于语义的点选验证码识别方法及其装置 |
CN111783066A (zh) * | 2020-07-07 | 2020-10-16 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN111783066B (zh) * | 2020-07-07 | 2023-10-27 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN118135578A (zh) * | 2024-05-10 | 2024-06-04 | 沈阳出版社有限公司 | 一种基于图文识别后的文字学习校对系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103186781A (zh) | 文本识别方法 | |
US8397275B1 (en) | Time-varying sequenced image overlays for CAPTCHA | |
US10198783B2 (en) | Dynamic digital watermark | |
US8607331B2 (en) | Captcha image authentication method and system | |
Bursztein et al. | Easy does it: More usable CAPTCHAs | |
US10204390B2 (en) | Dynamic digital watermark | |
CN107798321A (zh) | 一种试卷分析方法和计算设备 | |
CN104200150A (zh) | 验证码处理方法和装置 | |
CN102647423B (zh) | 一种数字签章及印鉴的鉴别方法及系统 | |
CN103428163A (zh) | 一种基于图像内容的验证码 | |
CN101388078A (zh) | 基于验证的文本识别的方法及装置 | |
Lopresti | Leveraging the CAPTCHA problem | |
CN104283682A (zh) | 一种利用验证码进行校验的方法、装置及系统 | |
CN109002768A (zh) | 基于神经网络文本检测识别的医疗票据类文字提取方法 | |
CN103379091A (zh) | 一种随机验证码 | |
US11775749B1 (en) | Content masking attacks against information-based services and defenses thereto | |
CN104298912A (zh) | 抗破解的验证码实现方法、生成方法及装置 | |
JP6715316B2 (ja) | ウェブトラフィック学習のための16進数イメージ変換と増分学習を適用したディープラーニング方法 | |
US20230260065A1 (en) | Enhanced teaching method and security protocol in testing students | |
CN103136676A (zh) | 一种手机自动识别的二维码防伪系统及其使用方法 | |
CN107451459A (zh) | 使用图片验证码进行验证的方法和装置 | |
CN105894182A (zh) | 一种面向大幅面印刷材料的标识码赋码质量检测方法 | |
CN110581841A (zh) | 一种后端反爬虫方法 | |
CN104462043A (zh) | 一种快速自助填单系统及快速自助填单方法 | |
Basso et al. | Anti-bot strategies based on human interactive proofs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130703 |