CN112990172A - 一种文本识别方法、字符识别方法及装置 - Google Patents
一种文本识别方法、字符识别方法及装置 Download PDFInfo
- Publication number
- CN112990172A CN112990172A CN201911214064.0A CN201911214064A CN112990172A CN 112990172 A CN112990172 A CN 112990172A CN 201911214064 A CN201911214064 A CN 201911214064A CN 112990172 A CN112990172 A CN 112990172A
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- feature vector
- feature
- context information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 239000013598 vector Substances 0.000 claims abstract description 264
- 230000015654 memory Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000004927 fusion Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012886 linear function Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本公开涉及一种文本识别方法、字符识别方法及装置,包括:采集待识别图片;将待识别图片分割成至少一个文本条图片;针对任意一个文本条图片,提取该文本条图片的特征序列;针对特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量;根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符;根据各文本条图片在待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到待识别图片的文字内容。根据本公开实施例的文本识别方法、字符识别方法及装置能够提升识别速度并减少参数数量。
Description
技术领域
本公开涉及图像识别领域,尤其涉及一种文本识别方法、字符识别方法及装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机等)检查纸上打印的字符,通过检测暗、亮的模式,确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。识别效率是衡量一个OCR系统性能好坏的一个重要指标。
发明内容
有鉴于此,本公开提出了一种文字识别方法、字符识别方法及装置,具体的实现方式如下:
一种文本识别方法,所述方法包括:采集待识别图片;
将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片;
针对任意一个文本条图片,获取该文本条图片包括的字符;
根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容;
其中,针对任意一个文本条图片,获取该文本条图片包括的字符,包括:
针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;
针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
一种字符识别方法,所述方法包括:
获取文本条图片,所述文本条图片用于表示包括单行字符的图片;
提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数;
针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
一种文本识别装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
采集待识别图片;
将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片;
针对任意一个文本条图片,获取该文本条图片包括的字符;
根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容;
其中,针对任意一个文本条图片,获取该文本条图片包括的字符,包括:
针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;
针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
一种字符识别装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取文本条图片,所述文本条图片用于表示包括单行字符的图片;
提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数;
针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行上述的方法。
在本公开中,根据特征向量之间的相关性确定上下文信息,进而实现上下文信息的融合,能够在不影响识别精度的前提下,提升识别速度并减少参数数量。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1a示出根据一示例性实施例的一种应用场景示意图。
图1b示出根据一示例性实施例的一种应用场景示意图。
图2示出根据本公开一实施例的文本识别方法的流程图。
图3示出根据本公开一实施例的文本识别方法的应用示例。
图4示出根据本公开一实施例的字符识别方法的流程图。
图5示出根据本公开一实施例的字符识别方法的应用示例。
图6所示,本公开还提供一种文本识别装置的框图。
图7所示,本公开还提供一种字符识别装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
OCR的本质是识别图片中的文字。由于安全问题和隐私问题,诸如手机、平板电脑等的终端识别变成一个越来越普遍的应用场景。在该场景中,希望在使用较少参数的同时,提高识别效率。
相关技术中,在进行文本识别时,采用CNN(Convolutional Neural Networks,卷积神经网络)提取图片的特征,采用RNN(Recursive Neural Network,循环神经网络)融合上下文特征,最后使用CTC(Connectionist Temporal Classification,时序分类算法)或者Attention(注意力机制)方式得到文本识别结果。在识别过程中,为了实现较为精准的识别效果,一般会堆叠多层递归神经网络,或者使用更深的卷积网络。然而,这会导致最后网络模型特别臃肿,带来识别速度以及模型参数数量上的瓶颈,特别是在密集文本以及长文本图片识别时,这些问题更加突出。由于原生RNN存在梯度消失和梯度爆炸的问题,目前实际使用的都是RNN的变种,如LSTM(Long Short-Term Memory,长短期记忆网络)和GRU(Gated Recurrent Unit,门控循环单元)。以LSTM为例,LSTM通过输入门、遗忘门和输出门这三个门的结构来实现信息的保护和控制。对于每一个时间序列的计算需要按顺序迭代进行,并且内部计算过程十分复杂;此外,为了更好的融合上下文特征,需要使用双向LSTM,这加剧了模型参数数量过多和识别效率低下等问题。
本公开实施例提供的一种文本识别方法和字符识别方法使用注意力机制替代RNN系列迭代算法进行上下文信息的提取和融合,加快了文本识别的速度和减少参数量,适合终端场景,以及长文本和密集文本的场景。
图1a为根据本公开提供的文本识别方法的一个具体的应用场景的实施流程图。如图1a所示,用户看到书本、电子设备(例如个人计算机、平板电脑、笔记本电脑和手机等)或者公告栏等展示的内容后,如果想要获取展示内容的文字内容,则用户可以使用手机(或者其他终端)拍摄展示内容,并对拍摄得到的图片(即待识别图片)执行文本识别操作。响应于该文本识别操作,手机可以采用本公开实施例公开的文本识别方法,从拍摄得到的图片中识别出展示内容的文字内容。
图1b为根据本公开提供的文本识别方法的又一具体的应用场景的实施流程图。如图1b所示,用户在手机上看到图片或者PDF文件时,如果想获取该图片或者PDF文件的文字内容,可以对图片或者PDF文件进行文本识别操作。响应于文本识别操作,手机采用本公开实施例公开的文本识别方法,从图片或者PDF文件中识别出文字内容。其中,待识别的图片或者PDF文件可以是存储在手机本地的,也可以是用户在浏览器、社交软件等应用上看到的,又或者是其他终端分享的、服务器推送的等,对此本公开不做限制。
在一种可能的实现方式中红,本公开提供的文本识别方法还适用于车载场景,例如对路牌的识别。用户可以通过行车记录仪采集路牌的视频,行车记录仪可以将采集到的视频中的一帧或者多帧图片作为待识别图片,根据本公开实施例提供的文本识别方法从待识别图片中识别出的文字内容确定道路名称,以辅助导航。
在一种可能的实现方式中红,本公开提供的文本识别方法还适用于物联网(Internet of things,IoT)场景,例如在展会中对名片的识别。主办方可以在入场处通过摄像头采集参会人员的名片的图片,摄像头可以将采集到的图片作为待识别图片,根据本公开实施例提供的文本识别方法根据从待识别图片中识别出的参会人员的名片信息。
在一种可能的实现方式中,本公开提供的文本识别方法还适用于安防场景,例如对访客的识别。用户可以通过智能门铃(或者智能猫眼、智能摄像头和安防摄像头等)采集访客的访问凭证的图片(例如快递单、点餐单或者预约单等),智能门铃可以将采集到的图片作为待识别图片,根据本公开实施例提供的文本识别方法从待识别图片中识别出访客信息,以确定是否开门。
以上场景的实施过程可以参照图1a和图1b这里不再赘述。当然,以上仅为本公开实施例提供的文本识别方法适用场景的示例,本公开实施例提供的文本识别方法还可以应用于其他场景,例如恶劣环境(雨雪雾天气或者晃动、都用幅度较大等)下的终端。
图2示出根据本公开一实施例的文本识别方法的流程图。该方法可以应用于终端。如图2所示,该方法可以包括:
步骤S11,采集待识别图片。
步骤S12,将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片。
步骤S13,针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
步骤S14,根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容。
在本公开实施例中,根据特征向量之间的相关性确定上下文信息,进而实现上下文信息的融合,能够在不影响识别精度的前提下,提升识别速度并减少参数数量。
在步骤S11中,可以采集待识别文本的图片作为待识别图片,其中待识别文本可以表示用户想要获取的文字内容所在的打印文本,该打印文本可以是纸质文本(例如名片、书籍等)也可以是电子文本(例如图片、PDF文档等),又或者是能够展示的文本(例如条幅、标牌、路牌等)。待识别图片为待识别文本对应的图片,在待识别文本为图片或者PDF文档时,待识别图片可以是待识别文本本身。终端可以通过拍摄、扫描、截屏、复制或者保存等方式采集待识别文本对应的待识别图片。
在步骤S12中,文本条图片可以用于表示包括单行字符的图片,终端可以将待识别图片分割成至少一个文本条图片。
在对待识别图片进行识别之前,终端可以首先对待识别图片进行多行文本检测与分割。如果检测结果为多行,则终端可以将待识别图片按行分割成多个单行的文本条图片,然后分别识别各文本条图片包括的字符。如果检测结果为单行,则终端可以直接将待识别图片作为一个文本条图片,然后识别该文本条图片包括的字符。
在一种可能的实现方式中,终端可以采用水平投影法对待识别图片进行多行文本检测和分割。需要说明的是,在进行水平投影之前,终端可以首先对待识别图片进行倾斜矫正,将待识别图片中的文本行部分转正;然后对转正后的图片进行腐蚀、膨胀等形态学处理;最后,对处理后的图片进行水平投影,得到行分割的坐标点,从而将待识别图片分割成多个单行的文本条图片。
在一种可能的实现方式中,步骤S12可以包括:根据设备的算力,确定文本条图片的尺寸;根据所述文本条图片的尺寸,将所述待识别图片分割成至少一个文本条图片。
其中,设备可以表示执行本公开实施例的文本识别方法的设备(如手机等终端),设备的算力可以用于表示设备处理图片的能力。在一个示例中,可以根据设备能够处理的图片的最大尺寸确定设备的算力。在又一示例中,可以根据设备能够处理图片的最大大小确定设备的算力。可以理解的是,设备能够处理的图片最大尺寸越大或者最大大小越大,设备的算力越高。在设备的算力较低时,可以确定一个较小的文本条图片的尺寸,在设备的算力较高时,可以确定一个较大的文本条图片的尺寸。
举例来说,可以建立设备的算力和文本条图片的尺寸之间的对应关系,例如算力在第一阈值范围内对应A尺寸,算力在第二阈值范围内对应B尺寸,算力在第三阈值范围内对应C尺寸,第一阈值范围、第二阈值范围、第三阈值范围、A尺寸、B尺寸和C尺寸可以根据需要进行设置。
在确定文本条图片的尺寸后,可以根据文本条图片的尺寸,将待识别图片分割成至少一个文本条图片。这样,基于设备的算力,对待识别图片进行分割,从而保证设备对文本条图片的处理速度,提高了文本识别的效率。
在一种可能的实现方式中,步骤S12可以包括:将所述待识别图片分割为图像区域和文字区域;将所述文字区域分割成至少一个文本条图片。
待识别图片中可能包括文字和图像,例如商品简介图中可以包括商品的图像和商品的简介,海报中可以包括插画和文字。本公开实施例可以先将所述待识别图片分割为图像区域和文字区域,再将所述文字区域分割成至少一个文本条图片。其中,将所述待识别图片分割为图像区域和文字区域的方法可以采用相关技术中的方法,对此本公开不做限制。
之后,针对任意一个文本条图片,终端可以通过步骤S13识别该文本条图片包括的字符。
在步骤S13中,终端可以首先提取该文本条图片的特征序列。然后针对特征序列中的每一个第一特征向量,终端获取该第一特征向量的上下文信息,并将该第一特征的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量。最后根据各第一特征向量对应的第二特征向量组,得到该文本条图片包括的字符。
其中,特征序列包括多个第一特征向量,每个第一特征向量对应一个卷积核。也就是说,终端可以采用多个卷积核分别提取文本条图片的图片特征,这些提取出来的图片特征池化后即可以得到各第一特征向量。第二特征向量是第一特征向量的上下文信息和第一特征向量的融合结果。一个第一特征向量对应一个第二特征向量。因此,第二特征向量同样可以组成一个特征序列,且该组成的特征序列包含有上下文信息。其中,第一特征向量的上下文信息可以用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性。
具体提取文本条图片的特征序列的方法、获取第一特征向量的上下文信息的方法、基于注意力机制将第一特征向量的上下文信息和第一特征向量进行融合的方法,以及根据各第二特征向量获取文本条图片包括的字符的方法,可以参照本公开实施例提供的字符识别方法,这里不再赘述。
在步骤S14中,终端可以根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容。例如,可以将位置靠上的文本条图片包括的字符放在位置靠下的文本条图片包括的字符前面,将位置靠左的文本条图片包括的字符放在位置靠右的文本条图片包括的字符前面。图3示出根据本公开一实施例的文本识别方法的应用示例。如图3所示,终端将待识别图片分割为文本条图片1、文本条图片2、文本条图片3、文本条图片4、文本条图片5、文本条图片6和文本条图片7。如图3所示,终端依次将文本条图片1至文本条图片7包括的字符拼接在一起,得到待识别文本的文字内容。
需要说明的是,在本公开实施例中,可以并行识别各文本条图片包括的字符,即针对各文本条图片,终端可以并行执行步骤S13,同步获得个文本条图片包括的字符,从而进一步提升识别的效率。
图4示出根据本公开一实施例的字符识别方法的流程图。如图4所示,该方法可以包括:
步骤S21,获取文本条图片,所述文本条图片用于表示包括单行字符的图片。
步骤S22,提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数。
步骤S23,针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性。
步骤S24,根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
在本公开实施例中,根据特征向量之间的相关性确定上下文信息,并对向量和上下文信息进行融合,能够在不影响识别精度的前提下,提升识别速度并减少参数数量。
步骤S21的文本条图片可以参照步骤S11和步骤S12,这里不再赘述。
在步骤S22中,终端可以提取文本条图片的特征序列。具体的,终端可以将文本条图片输入卷积神经网络,提取多个特征图片;然后,通过池化层将各特征图片压缩为高度为一的第一特征向量;最后,将各第一特征向量组合成所述文本条图片的特征序列。这样得到的第一特征向量为一个1*N维的特征向量,N为正整数,特征序列包括多个第一特征向量。
需要说明的是,不同类型的卷积核提取的特征不同。在本公开实施例中,可以设置多种类型的卷积核,一种类型的卷积核可以从文本图片中提取一个特征图片,进而得到一个第一特征向量。卷积核类型的数量即为第一特征向量的数量。
在步骤S23中,针对每个第一特征,终端可以基于注意力机制获取该第一特征向量的上下文信息(即根据第一特征向量和所述特征序列中各第一特征向量的相关性确定第一特征向量的上下文信息),并基于注意力机制将该第一特征向量的上下文信息和该第一特征进行融合,从而得到该第一特征对应的第二特征。
在一种可能的实现方式中,步骤S23中获取该第一特征向量的上下文信息可以包括:根据该第一特征向量与所述特征序列中所有第一特征向量之间的相关性获得该第一特征向量的上下文信息。具体的,针对任意一个第一特征向量xi,终端可以采用公式(1)和公式(2)获得其上下文信息yi。
f(xi,xj)=θ(xi)Tφ(xj) 公式(1)
其中,L为正整数,L表示第一特征向量的数量;i和j表示在特征序列中的索引,0<i≤L,0<j≤L;xi表示特征序列中第i个第一特征向量,xj表示特征序列中第j个第一特征向量,yi表示第一特征向量xi的上下文信息;函数f为內积函数,函数f用于计算xi和xj之间的相关性;函数θ、φ和g为线性函数;C(X)是一个正则化因子。
在一种可能的实现方式中,获取该第一特征向量的上下文信息可以包括:多次获得该第一特征向量的上下文信息,每次获得上下文信息时确定相关性的方式不同;根据多次获得的该第一特征向量的上下文信息,得到该第一特征向量的上下文信息。
具体的,针对任意一个第一特征向量xi,终端可以采用公式(3)、公式(4)和公式(5)获得其上下文信息yi。
fk(xi,xj)=θk(xi)Tφk(xj) 公式(3)
yi=score(headi,1,headi,2,...,headi,M) 公式(5)
其中,L为正整数,L表示第一特征向量的数量;i和j表示在特征序列中的索引,0<i≤L,0<j≤L;xi表示特征序列中第i个第一特征向量,xj表示特征序列中第j个第一特征向量,yi表示第一特征向量xi的上下文信息;
M为正整数,M表示获取上下文信息的次数;函数fk为內积函数,函数fk用于第k次计算xi和xj之间的相关性,0<k≤M;函数θk和φk分别表示第k次计算xi和xj之间的相关性时使用的函数θ和函数φ,函数θk和φk为线性函数;headi,k表示第k次为第一特征向量xi融合上下文信息获得的特征向量,gk表示第k次为第一特征向量xi融合上下文信息时使用的函数g,函数gk为线性函数,Ck(X)表示第k次为第一特征向量xi融合上下文信息时使用的正则化因子;函数score为打分函数。
在步骤S23中,将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量可以包括:将该第一特征向量的上下文信息输入全连接网络;根据所述全连接网络的输出和该第一特征向量,得到该第一特征向量对应的第二特征向量。
在一个示例中,将该第一特征向量的上下文信息与该第一特征向量进行融合具体可以采用公式(6)实现。
zi=h(yi)+xi 公式(6)
其中,zi为第一特征向量xi对应的第二特征向量,函数h使用全连接网络实现。
在步骤S24中,根据各第一特征向量对应的第二特征向量,得到所述文本条图片包括的字符可以包括:按照所述特征序列中各第一特征向量的顺序,将各第一特征向量对应的第二特征向量组成待解码序列;将所述待解码序列切割成第一子序列和第二子序列;根据所述第一子序列和所述第二子序列,确定输入信号;将所述输入信号输入解码器;根据所述解码器的输出结果,确定所述文本条图片包括的字符。
在一个示例中,终端可以将所述第二特征向量组成的特征向量序列(待解码序列)切割成a(第一子序列)和b(第二子序列)两份;通过公式(7)得到输入信号;将所述输入信号输入解码器;将所述解码器的输出结果确定为所述文本条图片包括的字符。
其中,M表示输入信号,σ为门控函数,σ用于将b转换为0-1之间的数。
在本公开实施例中,解码器可以为任何可以用于文字识别的解码器,例如基于CTC或者Attention的解码器。
需要说明的是,在本公开实施例中,终端可以并行的对各第一特征向量进行上下文信息提取和融合,从而提升了识别效率。
图5示出根据本公开一实施例的字符识别方法的应用示例。如图5所示,首先终端将文本条图片输入卷积神经网络,提取多个特征图片,通过池化层将各特征图片压缩为高度为一的第一特征向量;将各第一特征向量xi组合成所述文本条图片的特征序列X。然后,终端对特征序列X中的各第一特征向量采用公式(1)和(2)或者公式(3)、(4)和(5)进行上下文信息提取,第一特征向量对应的上下文信息yi组成的上下文信息序列Y。接着,终端采用公式(6)对第一特征向量和上下文信息进行融合,得到由第二特征向量zi组成的待解码序列Z。最后,终端将所述第二特征向量组成的特征向量序列切割成a和b两份,采用公式(7)得到输入信息,将所述输入信号输入CTC或者Attention解码器;将解码器的输出结果确定为所述文本条图片包括的字符。
对应于上述文本识别方法,如图6所示,本公开还提供一种文本识别装置,所述装置包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
采集待识别图片;
将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片;
针对任意一个文本条图片,获取该文本条图片包括的字符;
根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容;
其中,针对任意一个文本条图片,获取该文本条图片包括的字符,包括:
针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;
针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
在一种可能的实现方式中,所述处理器在实现步骤将所述待识别图片分割成至少一个文本条图片时包括:
根据设备的算力,确定文本条图片的尺寸;
根据所述文本条图片的尺寸,将所述待识别图片分割成至少一个文本条图片。
在一种可能的实现方式中,所述处理器在实现步骤将所述待识别图片分割成至少一个文本条图片时包括:
将所述待识别图片分割为图像区域和文字区域;
将所述文字区域分割成至少一个文本条图片。
对应于上述字符识别方法,如图7所示,本公开还提供一种字符识别装置,所述装置包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取文本条图片,所述文本条图片用于表示包括单行字符的图片;
提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数;
针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
在一种可能的实现方式中,所述处理器在实现步骤提取所述文本条图片的特征序列时包括:
将所述文本条图片输入卷积神经网络,提取多个特征图片;
通过池化层将各特征图片压缩为高度为一的第一特征向量;
将各第一特征向量组合成所述文本条图片的特征序列。
在一种可能的实现方式中,所述处理器在实现步骤获取该第一特征向量的上下文信息时包括:
多次获得该第一特征向量的上下文信息,每次获得上下文信息时确定相关性的方式不同;
根据多次获得的该第一特征向量的上下文信息,得到该第一特征向量的上下文信息。
在一种可能的实现方式中,所述处理器在实现步骤将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量时包括:
将该第一特征向量的上下文信息输入全连接网络;
根据所述全连接网络的输出和该第一特征向量,得到该第一特征向量对应的第二特征向量。
在一种可能的实现方式中,所述处理器在实现步骤根据各第一特征向量对应的第二特征向量,得到所述文本条图片包括的字符时包括:
按照所述特征序列中各第一特征向量的顺序,将各第一特征向量对应的第二特征向量组成待解码序列;
将所述待解码序列切割成第一子序列和第二子序列;
根据所述第一子序列和所述第二子序列,确定输入信号;
将所述输入信号输入解码器;
根据所述解码器的输出结果,确定所述文本条图片包括的字符。
本公开另一方面还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任一实施例所述方法的步骤。
所述计算机可读存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (17)
1.一种文本识别方法,其特征在于,所述方法包括:
采集待识别图片;
将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片;
针对任意一个文本条图片,获取该文本条图片包括的字符;
根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容;
其中,针对任意一个文本条图片,获取该文本条图片包括的字符,包括:
针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;
针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
2.根据权利要求1所述的方法,其特征在于,将所述待识别图片分割成至少一个文本条图片,包括:
根据设备的算力,确定文本条图片的尺寸;
根据所述文本条图片的尺寸,将所述待识别图片分割成至少一个文本条图片。
3.根据权利要求1或2所述的方法,其特征在于,将所述待识别图片分割成至少一个文本条图片,包括:
将所述待识别图片分割为图像区域和文字区域;
将所述文字区域分割成至少一个文本条图片。
4.一种字符识别方法,其特征在于,所述方法包括:
获取文本条图片,所述文本条图片用于表示包括单行字符的图片;
提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数;
针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
5.根据权利要求4所述的方法,其特征在于,提取所述文本条图片的特征序列,包括:
将所述文本条图片输入卷积神经网络,提取多个特征图片;
通过池化层将各特征图片压缩为高度为一的第一特征向量;
将各第一特征向量组合成所述文本条图片的特征序列。
6.根据权利要求4所述的方法,其特征在于,获取该第一特征向量的上下文信息包括:
多次获得该第一特征向量的上下文信息,每次获得上下文信息时确定相关性的方式不同;
根据多次获得的该第一特征向量的上下文信息,得到该第一特征向量的上下文信息。
7.根据权利要求4至6中任一项所述的方法,其特征在于,将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,包括:
将该第一特征向量的上下文信息输入全连接网络;
根据所述全连接网络的输出和该第一特征向量,得到该第一特征向量对应的第二特征向量。
8.根据权利要求4所述的方法,其特征在于,根据各第一特征向量对应的第二特征向量,得到所述文本条图片包括的字符,包括:
按照所述特征序列中各第一特征向量的顺序,将各第一特征向量对应的第二特征向量组成待解码序列;
将所述待解码序列切割成第一子序列和第二子序列;
根据所述第一子序列和所述第二子序列,确定输入信号;
将所述输入信号输入解码器;
根据所述解码器的输出结果,确定所述文本条图片包括的字符。
9.一种文本识别装置,其特征在于,所述装置包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
采集待识别图片;
将待识别图片分割成至少一个文本条图片,所述文本条图片用于表示包括单行字符的图片;
针对任意一个文本条图片,获取该文本条图片包括的字符;
根据各文本条图片在所述待识别图片中的位置信息,将各文本条图片包括的字符进行拼接,得到所述待识别图片的文字内容;
其中,针对任意一个文本条图片,获取该文本条图片包括的字符,包括:
针对任意一个文本条图片,提取该文本条图片的特征序列,所述特征序列包括多个第一特征向量;
针对所述特征序列中的每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取该文本条图片包括的字符。
10.根据权利要求9所述的装置,其特征在于,所述处理器在实现步骤将所述待识别图片分割成至少一个文本条图片时包括:
根据设备的算力,确定文本条图片的尺寸;
根据所述文本条图片的尺寸,将所述待识别图片分割成至少一个文本条图片。
11.根据权利要求9或10所述的装置,其特征在于,所述处理器在实现步骤将所述待识别图片分割成至少一个文本条图片时包括:
将所述待识别图片分割为图像区域和文字区域;
将所述文字区域分割成至少一个文本条图片。
12.一种字符识别装置,其特征在于,所述装置包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取文本条图片,所述文本条图片用于表示包括单行字符的图片;
提取所述文本条图片的特征序列,所述特征序列包括多个1*N维的第一特征向量,其中,N为正整数;
针对每个第一特征向量,获取该第一特征向量的上下文信息,并将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量,所述第一特征向量的上下文信息用于表示该第一特征向量和所述特征序列中各第一特征向量的相关性;
根据各第一特征向量对应的第二特征向量,获取所述文本条图片包括的字符。
13.根据权利要求12所述的装置,其特征在于,所述处理器在实现步骤提取所述文本条图片的特征序列时包括:
将所述文本条图片输入卷积神经网络,提取多个特征图片;
通过池化层将各特征图片压缩为高度为一的第一特征向量;
将各第一特征向量组合成所述文本条图片的特征序列。
14.根据权利要求12所述的装置,其特征在于,所述处理器在实现步骤获取该第一特征向量的上下文信息时包括:
多次获得该第一特征向量的上下文信息,每次获得上下文信息时确定相关性的方式不同;
根据多次获得的该第一特征向量的上下文信息,得到该第一特征向量的上下文信息。
15.根据权利要求12至14中任一项所述的装置,其特征在于,所述处理器在实现步骤将该第一特征向量的上下文信息与该第一特征向量进行融合,得到该第一特征向量对应的第二特征向量时包括:
将该第一特征向量的上下文信息输入全连接网络;
根据所述全连接网络的输出和该第一特征向量,得到该第一特征向量对应的第二特征向量。
16.根据权利要求12所述的装置,其特征在于,所述处理器在实现步骤根据各第一特征向量对应的第二特征向量,得到所述文本条图片包括的字符时包括:
按照所述特征序列中各第一特征向量的顺序,将各第一特征向量对应的第二特征向量组成待解码序列;
将所述待解码序列切割成第一子序列和第二子序列;
根据所述第一子序列和所述第二子序列,确定输入信号;
将所述输入信号输入解码器;
根据所述解码器的输出结果,确定所述文本条图片包括的字符。
17.一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行权利要求1至3中任一项所述的文本识别方法和/或权利要求4至8中任一项所述的字符识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214064.0A CN112990172B (zh) | 2019-12-02 | 2019-12-02 | 一种文本识别方法、字符识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214064.0A CN112990172B (zh) | 2019-12-02 | 2019-12-02 | 一种文本识别方法、字符识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990172A true CN112990172A (zh) | 2021-06-18 |
CN112990172B CN112990172B (zh) | 2023-12-22 |
Family
ID=76331202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911214064.0A Active CN112990172B (zh) | 2019-12-02 | 2019-12-02 | 一种文本识别方法、字符识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990172B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627243A (zh) * | 2021-06-30 | 2021-11-09 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
CN113762269A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
CN114529930A (zh) * | 2022-01-13 | 2022-05-24 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011153894A1 (zh) * | 2010-06-12 | 2011-12-15 | 盈世信息科技(北京)有限公司 | 识别图片垃圾邮件的方法及系统 |
WO2015073920A1 (en) * | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、系统、终端设备及存储介质 |
CN109213859A (zh) * | 2017-07-07 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及系统 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110378350A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 一种文字识别的方法、装置及系统 |
-
2019
- 2019-12-02 CN CN201911214064.0A patent/CN112990172B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011153894A1 (zh) * | 2010-06-12 | 2011-12-15 | 盈世信息科技(北京)有限公司 | 识别图片垃圾邮件的方法及系统 |
WO2015073920A1 (en) * | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN109213859A (zh) * | 2017-07-07 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及系统 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、系统、终端设备及存储介质 |
CN110378350A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 一种文字识别的方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
丁进超;张伟伟;吴训成;: "基于双向长短期记忆网络的车牌识别算法", 电子测量与仪器学报, no. 06 * |
刘平;叶施仁;杨长春;侯振杰;肖飞;: "基于PSO-SVM算法的长微博贴图识别方法", 常州大学学报(自然科学版), no. 04 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627243A (zh) * | 2021-06-30 | 2021-11-09 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
CN113627243B (zh) * | 2021-06-30 | 2022-09-30 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
WO2023273196A1 (zh) * | 2021-06-30 | 2023-01-05 | 中国科学院深圳先进技术研究院 | 一种文本识别方法及相关装置 |
CN113762269A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
CN113762269B (zh) * | 2021-09-08 | 2024-03-22 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
CN114529930A (zh) * | 2022-01-13 | 2022-05-24 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
CN114529930B (zh) * | 2022-01-13 | 2024-03-01 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112990172B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784186B (zh) | 一种行人重识别方法、装置、电子设备及计算机可读存储介质 | |
CN110717470B (zh) | 一种场景识别方法、装置、计算机设备和存储介质 | |
CA3120470A1 (en) | Region proposal networks for automated bounding box detection and text segmentation | |
Jain et al. | Unconstrained scene text and video text recognition for arabic script | |
US20100226564A1 (en) | Framework for image thumbnailing based on visual similarity | |
CN112990172B (zh) | 一种文本识别方法、字符识别方法及装置 | |
CA3129608C (en) | Region proposal networks for automated bounding box detection and text segmentation | |
Tian et al. | Scene Text Detection in Video by Learning Locally and Globally. | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN116089648B (zh) | 基于人工智能的档案管理系统及方法 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
US11709914B2 (en) | Face recognition method, terminal device using the same, and computer readable storage medium | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN111914850B (zh) | 图片特征提取方法、装置、服务器和介质 | |
CN113312949A (zh) | 视频数据处理方法、视频数据处理装置和电子设备 | |
Abdi et al. | In-vehicle augmented reality TSR to improve driving safety and enhance the driver’s experience | |
CN114998962A (zh) | 一种活体检测以及模型训练方法及装置 | |
Wang et al. | Multiorientation scene text detection via coarse-to-fine supervision-based convolutional networks | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 | |
CN115147434A (zh) | 图像处理方法、装置、终端设备及计算机可读存储介质 | |
Quach | Convolutional networks for vehicle track segmentation | |
Lokkondra et al. | ETDR: An Exploratory View of Text Detection and Recognition in Images and Videos. | |
Wang et al. | Person re-identification based on attention clustering and long short-term memory network | |
Shah et al. | Road Scene Text Detection and Recognition Using Machine Learning | |
Liu | Digits Recognition on Medical Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |