CN116912839A - 文字识别方法、装置及电子设备 - Google Patents
文字识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116912839A CN116912839A CN202311176535.XA CN202311176535A CN116912839A CN 116912839 A CN116912839 A CN 116912839A CN 202311176535 A CN202311176535 A CN 202311176535A CN 116912839 A CN116912839 A CN 116912839A
- Authority
- CN
- China
- Prior art keywords
- character
- features
- basic
- incremental
- character features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 abstract description 24
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 101150041570 TOP1 gene Proteins 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本申请公开了一种文字识别方法、装置及电子设备,涉及计算机领域。方法包括:获取待识别图片;提取待识别图片中的基础文字特征;对基础文字特征进行置信度检验,在基础文字特征不满足置信度检验需求的情况下,获取增量文字特征;基于增量文字特征和基础文字特征,得到文字识别结果。相较于相关技术而言,本申请首先新增设了特征提取分支如增量文字特征,能够更好地应对增量数据和新场景数据。且本申请还通过文字合理性分析,根据结果再选择不同的分支网络获得识别结果。先基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而解决了训练集新增数据后可能导致文字识别准确率低的问题。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种文字识别方法、装置及电子设备。
背景技术
在目前的OCR(Optical Character Recognition,光学字符识别)文字辨别方法中,主要是通过从文本候选信息中提取出合适的文字,作为文字识别的最终结果。在这种情况下,若需要增加字符或训练数据集(如新增生僻字或不同场景数据等),需要重新训练文字识别模型,可能使得原有文字识别准确率下降,存在识别结果不稳定的风险。同时,随着识别字典的增加,模型的表达能力会下降,从而影响文字识别准确率。
发明内容
有鉴于此,本申请提供了一种文字识别方法、装置及电子设备,主要目的在于改善在新增训练数据后,可能存在的文字识别准确率低的问题。
第一方面,本申请提供了一种文字识别方法,包括:
获取待识别图片;
提取所述待识别图片中的基础文字特征;
对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征;
基于所述增量文字特征和所述基础文字特征,得到文字识别结果。
可选地,所述对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征,包括:对所述待识别图片分别进行图像特征提取,得到图像特征;结合所述图像特征对所述待识别图片进行增量文字特征提取,得到增量文字特征。
可选地,所述待识别图片中包含若干字符;所述基于所述增量文字特征和所述基础文字特征,得到文字识别结果,包括:将所述图像特征分别与所述基础文字特征和所述增量文字特征进行组合匹配,得到每一个字符位置的基础匹配性变量和增量匹配性变量;基于所述基础匹配性变量和所述增量匹配性变量,确定文字识别结果。
可选地,所述基于所述基础匹配性变量和所述增量匹配性变量,确定文字识别结果,包括:将每个字符位置的所述基础匹配性变量和所述增量匹配性变量进行比对,基于匹配性更高的匹配性变量确定文字识别结果。
可选地,对所述基础文字特征进行置信度检验,包括:判断在所述基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值;若是,则判定所述基础文字特征满足所述置信度检验需求;若否,则判定所述基础文字特征不满足所述置信度检验需求。
可选地,在所述基础文字特征满足所述置信度检验需求的情况下,所述方法还包括:基于所述基础文字特征,得到文字识别结果。
可选地,在所述基础文字特征满足所述置信度检验需求的情况下,基于所述基础文字特征,得到文字识别结果,包括:获取所述基础文字特征所识别得到的若干识别结果中,准确度排序最高的识别结果;将所述准确度排序最高的识别结果作为文字识别结果。
第二方面,本申请提供了一种文字识别装置,包括:
获取单元,被配置为获取待识别图片;
提取单元,被配置为提取所述待识别图片中的基础文字特征;
检验单元,被配置为对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征;
处理单元,被配置为基于所述增量文字特征和所述基础文字特征,得到文字识别结果。
第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的文字识别方法。
第四方面,本申请提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的文字识别方法。
借由上述技术方案,本申请提供的一种文字识别方法、装置及电子设备,首先获取待识别图片,进而提取待识别图片中的基础文字特征。对基础文字特征进行置信度检验,在基础文字特征不满足置信度检验需求的情况下,获取增量文字特征。基于增量文字特征和基础文字特征,得到识别结果。相较于相关技术而言,本申请首先新增设了特征提取分支如增量文字特征,能够更好地应对增量数据和新场景数据。且本申请还通过文字合理性分析,根据结果再选择不同的分支网络获得识别结果。先基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而使最终输出结果更加稳定、可靠,提高文字识别准确率,解决了训练集新增数据后可能导致文字识别准确率低的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种文字识别方法的流程示意图;
图2示出了本申请实施例提供的一种文字识别方法的框架示意图;
图3示出了本申请实施例提供的另一种文字识别方法的流程示意图;
图4示出了本申请实施例提供的一种文字识别装置的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
本实施例所提出的一种文字识别方法,应用于一种文字识别装置或电子设备上,该装置或电子设备可以安装或集成于一些识别设备或识别系统中,在运行时可以执行如下述提到的任一种文字识别方法。
为了改善在训练集新增训练数据后,可能存在训练得到的模型文字识别准确率较低的问题,本实施例提供了一种文字识别方法,如图1所示,该方法包括:
S101、获取待识别图片。
其中,待识别图片是指图片中包含待识别文字行的图片。
S102、提取待识别图片中的基础文字特征。
基础文字特征的提取通常依靠特征提取网络,将待识别图片输入特征提取网络,可以得到对应的特征以及一些待辨别信息。
S103、对基础文字特征进行置信度检验,在基础文字特征不满足置信度检验需求的情况下,获取增量文字特征。
这里的对基础文字特征进行置信度检验可包括判断在基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值,也即是基于基础文字特征,会得到若干文字识别结果和每一结果对应的准确率,将这些识别结果按准确率进行降序排列,判断其中的Top1也即准确度排序最高的识别结果的准确率是否大于预设概率阈值。在准确度排序最高的识别结果的准确率小于预设概率阈值的情况下,进行其他分支的特征提取,获取增量文字特征。
S104、基于增量文字特征和基础文字特征,得到文字识别结果。
在本实施例中,首先获取待识别图片,进而提取待识别图片中的基础文字特征。对基础文字特征进行置信度检验,在基础文字特征不满足置信度检验需求的情况下,获取增量文字特征。基于增量文字特征和基础文字特征,得到识别结果。相较于相关技术而言,本实施例首先新增设了特征提取分支如增量文字特征,能够更好地应对增量数据和新场景数据。且本申请还通过文字合理性分析,根据结果再选择不同的分支网络获得识别结果。先基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而使最终输出结果更加稳定、可靠,提高文字识别准确率,解决了训练集新增数据后可能导致文字识别准确率低的问题。
此外,本实施例的方案不影响基础模型识别结果,对于常规图片识别同样适用。对于渐进式增量识别新字典、新场景等文字具有更好的识别表现。适用于文字识别结果、稳定性要求高的场景。产品版本迭代时,不降低原有文字识别结果,对基础用户影响小,可应用于多种领域如OCR身份识别能力等。
关于渐进式增量,指的是在原训练集的基础上,渐进增加字典文字或新增训练数据集,如新增生僻字、不同场景数据等。也即对原有的模型训练集进行了修改或新增。
可选地,对基础文字特征进行置信度检验,在基础文字特征不满足置信度检验需求的情况下,获取增量文字特征,包括:对待识别图片分别进行图像特征提取,得到图像特征;结合图像特征对待识别图片进行增量文字特征提取,得到增量文字特征。
在本实施例中,对图像文字进行特征提取的过程共包含三个分支,包括基础文字特征提取分支、增量文字特征提取分支和图像特征提取分支(提取分支也可称为骨干网络或分支网络)。结合图像特征再对待识别图片进行增量文字特征提取,既使得增量文字特征提取更加准确,同时在后续的文字筛选辨别过程中也可以结合图像特征,使得筛选结果更加精确。
可选地,待识别图片中包含若干字符;基于增量文字特征和基础文字特征,得到文字识别结果,包括:将图像特征分别与基础文字特征和增量文字特征进行组合匹配,得到每一个字符位置的基础匹配性变量和增量匹配性变量;基于基础匹配性变量和增量匹配性变量,确定文字识别结果。
在本实施例中,待识别图片中包含若干字符,例如:“出生日期 1978年2月16日、住址 浙江省台州市淑江区洪家街……”,这段即可是待识别图像中的文字行内容,该段文字中含有基础文字和增量文字(增量文字例如数字、空格、不同格式字体等、也可以是生僻字,增量文字的确定需要结合已有识别模型和字典集确定)。
进一步地,图像特征可以是上述文字行内容在图片中的位置、每个字符的先后顺序等,进而在文字辨别过程中,将图像特征分别与基础文字特征和增量文字特征进行组合匹配,得到基础匹配性变量和增量匹配性变量。最后再基于基础匹配性变量和增量匹配性变量,确定文字识别结果,从而提高识别准确性。
可选地,基于基础匹配性变量和增量匹配性变量,确定文字识别结果,包括:将每个字符位置的基础匹配性变量和增量匹配性变量进行比对,基于匹配性更高的匹配性变量确定文字识别结果。
在本实施例中,基于基础匹配性变量和增量匹配性变量,确定文字识别结果的步骤为将每个字符位置的基础匹配性变量和增量匹配性变量进行比对,基于匹配性更高的匹配性变量确定文字识别结果。也即基础匹配性变量是基于基础文字特征结合图像特征得到的字符匹配性,可理解为一种判断字符是否准确的概率,同理,增量匹配性变量是基于增量文字特征结合图像特征得到的字符匹配性。将这同一字符的两种概率结果进行对比,哪种更高则该字符以对应的匹配性变量确定文字识别结果,从而使输出结果更加稳定、可靠。
可选地,对基础文字特征进行置信度检验,包括:判断在基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值;若是,则判定基础文字特征满足置信度检验需求;若否,则判定基础文字特征不满足置信度检验需求。
在本实施例中,置信度检验的方法可以是通过预设概率阈值的方式。若准确度排序最高的识别结果的准确率大于预设概率阈值/>则判定基础文字特征满足置信度检验需求,若否则不满足。通过这种文字合理性分析,根据结果再选择不同的分支网络获得识别结果。基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而使最终输出结果更加稳定、可靠,提高文字识别准确率。
可选地,在基础文字特征满足置信度检验需求的情况下,方法还包括:基于基础文字特征,得到文字识别结果。
在本实施例中,若基础文字特征满足置信度检验需求,则可直接按照基础文字特征确定文字的识别结果,更加快捷便利。当然也可以选择结合增量文字特征的方式确定文字识别结果。从而使最终输出结果更加稳定、可靠,提高文字识别准确率。
可选地,在基础文字特征满足置信度检验需求的情况下,基于基础文字特征,得到文字识别结果,包括:获取基础文字特征所识别得到的若干识别结果中,准确度排序最高的识别结果;将准确度排序最高的识别结果作为文字识别结果。
在本实施例中,直接按照基础文字特征确定文字的识别结果,例如基于基础文字特征,会得到若干文字识别结果和每一结果对应的准确率,将这些识别结果按准确率进行降序排列,将其中的Top1也即准确度排序最高的识别结果作为文字识别结果,更加快捷便利。
进一步地,为了更好的体现本实施例所提出的技术方案的具体步骤,给出一种具体的实施方式。本实施例结合具体的模块和处理网络,对细节步骤进行更详细的描述,具体的框架示意图如图2所示。首先,具体的执行模块共包含四个,分别为文字行图像输入模块、图像文字特征提取模块、文字辨别模块和文字结果输出模块。文字行图像输入模块主要用作获取待识别图片的输入端口,具体可以是利用WIFI、蓝牙或其他方式传递的图片或图像信息等,在此不具体限定。
图像文字特征提取模块中,包含图像特征提取骨干网络、基础文字特征提取分支和增量文字特征提取分支。图像特征提取骨干网络用于提取待识别图片包含文字信息的图像特征,如CNN-0(Convolutional Neural Networks,卷积神经网络),同时图像特征提取骨干网络也会提供与基础文字特征提取分支和增量文字特征提取分支的连接接口,用于将图像特征与基础文字特征或增量文字特征结合利用。
关于图像特征提取骨干网络的训练过程,一般通过训练文字识别模型得到骨干网络参数模型。例如:通过网络输入文字行图像,经过卷积神经网络(CNN)、循环神经网络(RNN),通过CTC损失函数计算损失函数,优化网络参数。其中CNN包括但不限于VGG、ResNet等卷积神经网络,训练数据集通常采用大规模中英文数据。本实施例中训练网络中的CNN部分作为图像特征提取骨干网络,记作CNN-0,参数在后续训练中保持不变,CNN网络输出的多维图像特征称为picture feature,记作。
基础文字特征提取分支由RNN(Recurrent Neural Network,循环神经网络)构成。一般采用Bi-LSTM、Bi-GRU等结构,记作RNN-0。网络输入可以为文字信息的图像特征向量,或直接根据待识别图片进行基础文字特征的提取。以先获取图像特征向量,再进行基础文字特征的提取举例而言,以输入W*H的文字行图像的训练数据,N个字的识别字典为例。首先,训练数据经过图像特征提取骨干网络,获取图像特征。然后,基于/>训练基础文字特征提取分支网络,网络输出为L*(N+1)维特征向量。其中,N维特征向量代表该位置为某个字的概率,+1维代表该位置是否为字,L=W/S,W为文字行图像的长度,H为文字行图像的归一化高度,S为主干网的特征尺度变换系数。
基础文字特征提取分支用于获取常规文字辨别信息,一般基于常用字或通用场景文字行图像数据训练。
增量文字特征提取分支在本实施例中是一种增强的特征提取网络,由浅层神经网络(SNN)和循环神经网络(RNN)组成。其中,浅层神经网络输入、输出的特征维度保持不变,记作SNN-0,增强新数据特征的分析能力;循环神经网络的结构与基础文字特征提取分支的RNN-0结构相同,记作RNN-1。增量文字特征提取分支共享图像特征提取骨干网络,输入骨干网络的推理得到的,以CTC损失函数计算损失函数,训练SNN-0和RNN-1的网络参数。需要说明的是,与基础文字特征的提取不同,在获取增量文字特征前,先获取图像特征是必要的。
在文字行图像尺寸相同情况下,增量文字特征提取分支输出的文字特征向量维度与基础文字特征提取分支输出的维度相同。此时,文字辨别模块的输入特征对齐。
增量文字特征提取分支主要用于识别新文字、新场景数据,包括但不限于适用于以下两种情况。一、字典增量。在需要识别更多文字时,即增加待识别文字字典。通过增量文字特征分支获取其文字特征向量。二、数据增量。在基础文字特征区分度不大时,该提案通过增加优化训练数据,训练增量文字特征提取分支,优化输出结果。
进一步地,在文字辨别模块同样是一种神经网络,由第二部分的图像文字特征提取模块,基于文字特征提取分支得到的特征向量包含了文字和文字位置信息,即WPfeature,记作。文字辨别网络主要用于辨别文字特征向量/>的语义匹配度。由循环神经网络(RNN)构成,记作RNN-2,输入包括文字行图像特征/>和文字行的文字特征/>,输出为每个位置文字的匹配性分析变量/>。/>,/>。其中,/>越接近1,表示该位置文字越匹配,越接近0表示该位置文字越不匹配。
关于文字辨别网络的训练,首先,文字行图像经过图像特征提取骨干网络,获取图像特征;然后各占50%的概率随机选择基础文字特征提取分支和增量文字提取分支,获取文字特征向量/>;与图像特征/>组合优化辨别网络RNN2的参数。文字匹配性辨别以文字识别正确的基础,本提案设计了2个损失函数,用于优化网络参数。loss-word表示文字识别的损失函数,通常采用CTC-Loss,记作/>。loss-txt表示文字语义匹配性的损失函数,通常采用采用交叉熵损失函数,记作/>。训练文字辨别网络的loss,记作/>。
(公式一)
其中,为超参数。首先分析图像文字识别准确率,文字识别/>越大时,输出文字识别错误的概率越大,此时文字辨别网络损失函数/>变小,文字辨别网络参数的调整越小。反之,文字识别/>越小表示文字识别越准确,此时,文字辨别/>主要表现为文字匹配性/>的影响,/>越接近1,文字越匹配。
文字辨别网络训练数据主要由合成数据图像构成。通过匹配语句字符串S0,随机替换其中某一单字为相近字,新语句记作S1。相近字包含自身,因此存在S0与S1一致的情况。用OpenCV、Pillow等生成S1的文字图像数据,通过数据增强技术模拟真实数据。经过图像特征提取骨干网络,的Ground Truth为S1,/>的Ground Truth为S0。
最后是文字结果输出模块,记作text,表示经过文字辨别网络进行文字筛选后,得到的文字识别结果。
结合上述的执行模块和神经网络,本实施例还提供了另一种文字识别方法,如图3所示,该方法包括:
S301,获取待识别的文字行图片。
S302,提取图像特征和基础文字特征。
在该步骤中,将图像特征的提取过程放在前面进行。在上述介绍基础文字特征提取分支时介绍到,在获取基础文字特征/>前,可以直接利用待识别图片获取,也可以先提取图像特征后,再获取基础文字特征,使得基础文字特征更加精准,也有利于后续的文字辨别过程。
S303,判断基础文字特征的置信度是否大于预设概率阈值。若是,进入S3041;若否,进入S3042。
判断基础文字特征的置信度,其中,对基础文字特征进行置信度检验可包括判断在基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值,也即是基于基础文字特征,会得到若干文字识别结果和每一结果对应的准确率,将这些识别结果按准确率进行降序排列。判断其中的Top1也即准确度排序最高的识别结果的准确率是否大于预设概率阈值。
S3041,获取基础文字特征所识别得到的若干识别结果,将准确度排序最高的识别结果作为文字识别结果。该步骤即完成了图像识别过程。
若特征维度中的Top1准确率均大于预设概率阈值,则判断该文字特征置信度较大,提取特征维度中Top1对应的文字,输出到最终结果。
S3042,获取增量文字特征。
当判定准确率小于预设阈值的情况下,通过图像特征提取骨干网络获取图像特征(已在S302获取)和通过增量文字特征提取分支获取增量文字特征。也即,若特征维度中的Top1准确率小于预设概率阈值,图像特征/>通过增量文字特征提取分支获取增量文字特征/>。
S305,计算每一个字符位置的基础匹配性变量和增量匹配性变量。
在文字辨别模块中,将图像特征分别与基础文字特征/>和增量文字特征进行组合匹配,得到每一个字符位置的基础匹配性变量/>和增量匹配性变量。
S306,将每个字符位置的基础匹配性变量和增量匹配性变量进行比对,确定文字识别结果。
在文字筛选单元,通过每个位置文字的匹配性值比对,筛选出匹配性最高的文字结果。
通过上述实施例中的方案,首先新增设了特征提取分支如增量文字特征,用于对应训练集新增的部分,能够更好地应对增量数据和新场景数据。且本申请还通过文字合理性分析,根据结果再选择不同的分支网络获得识别结果。先基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而使最终输出结果更加稳定、可靠,提高文字识别准确率。此外,本实施例的方案不影响基础模型识别结果,对于常规图片识别同样适用。对于渐进式增量识别新字典、新场景等文字具有更好的识别表现。适用于文字识别结果、稳定性要求高的场景。产品版本迭代时,不降低原有文字识别结果,对基础用户影响小,可应用于多种领域如OCR身份识别能力、健康码识别等。
进一步的,作为图1至图3所示方法的具体实现,本实施例提供了一种文字识别装置,如图4所示,该装置包括:获取单元41、提取单元、检验单元43和处理单元44。
获取单元41,被配置为获取待识别图片;
提取单元42,被配置为提取所述待识别图片中的基础文字特征;
检验单元43,被配置为对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征;
处理单元44,被配置为基于所述增量文字特征和所述基础文字特征,得到文字识别结果。
在具体的应用场景中,检验单元43,具体被配置为对所述待识别图片分别进行图像特征提取,得到图像特征;结合所述图像特征对所述待识别图片进行增量文字特征提取,得到增量文字特征。
在具体的应用场景中,处理单元44,具体还被配置为将所述图像特征分别与所述基础文字特征和所述增量文字特征进行组合匹配,得到每一个字符位置的基础匹配性变量和增量匹配性变量;基于所述基础匹配性变量和所述增量匹配性变量,确定文字识别结果。
在具体的应用场景中,处理单元44,具体还被配置为将每个字符位置的所述基础匹配性变量和所述增量匹配性变量进行比对,基于匹配性更高的匹配性变量确定文字识别结果。
在具体的应用场景中,检验单元43,具体还被配置为判断在所述基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值;若是,则判定所述基础文字特征满足所述置信度检验需求;若否,则判定所述基础文字特征不满足所述置信度检验需求。
在具体的应用场景中,处理单元44,具体还被配置为基于所述基础文字特征,得到文字识别结果。
在具体的应用场景中,处理单元44,具体还被配置为获取所述基础文字特征所识别得到的若干识别结果中,准确度排序最高的识别结果;将所述准确度排序最高的识别结果作为文字识别结果。
需要说明的是,本实施例提供的一种文字识别装置所涉及各功能单元的其它相应描述,可以参考图1至图3中的对应描述,在此不再赘述。
基于上述如图1至图3所示方法,相应的,本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图3所示的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图3所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种电子设备,可配置在计算机端侧等,该设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的方法。
基于上述如图1至图3所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种芯片,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行上述如图1至图3所示的方法。
可选的,上述实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的上述实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本实施例的方案,相较于相关技术而言,本申请首先新增设了特征提取分支如增量文字特征,能够更好地应对增量数据和新场景数据。且本申请还通过文字合理性分析,根据结果再选择不同的分支网络获得识别结果。先基于文字基础特征进行置信度检验,在不符合需求的情况下,通过增量文字特征和基础文字特征,得到文字识别结果,从而使最终输出结果更加稳定、可靠,提高文字识别准确率。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文字识别方法,其特征在于,包括:
获取待识别图片;
提取所述待识别图片中的基础文字特征;
对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征;
基于所述增量文字特征和所述基础文字特征,得到文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征,包括:
对所述待识别图片分别进行图像特征提取,得到图像特征;
结合所述图像特征对所述待识别图片进行增量文字特征提取,得到增量文字特征。
3.根据权利要求2所述的方法,其特征在于,所述待识别图片中包含若干字符;所述基于所述增量文字特征和所述基础文字特征,得到文字识别结果,包括:
将所述图像特征分别与所述基础文字特征和所述增量文字特征进行组合匹配,得到每一个字符位置的基础匹配性变量和增量匹配性变量;
基于所述基础匹配性变量和所述增量匹配性变量,确定文字识别结果。
4.根据权利要求3所述的方法,其特征在于,所述基于所述基础匹配性变量和所述增量匹配性变量,确定文字识别结果,包括:
将每个字符位置的所述基础匹配性变量和所述增量匹配性变量进行比对,基于匹配性更高的匹配性变量确定文字识别结果。
5.根据权利要求1至4中任一项所述的方法,其特征在于,对所述基础文字特征进行置信度检验,包括:
判断在所述基础文字特征维度中,准确度排序最高的识别结果的准确率是否大于预设概率阈值;
若是,则判定所述基础文字特征满足所述置信度检验需求;若否,则判定所述基础文字特征不满足所述置信度检验需求。
6.根据权利要求5所述的方法,其特征在于,在所述基础文字特征满足所述置信度检验需求的情况下,所述方法还包括:
基于所述基础文字特征,得到文字识别结果。
7.根据权利要求6所述的方法,其特征在于,在所述基础文字特征满足所述置信度检验需求的情况下,基于所述基础文字特征,得到文字识别结果,包括:
获取所述基础文字特征所识别得到的若干识别结果中,准确度排序最高的识别结果;
将所述准确度排序最高的识别结果作为文字识别结果。
8.一种文字识别装置,其特征在于,包括:
获取单元,被配置为获取待识别图片;
提取单元,被配置为提取所述待识别图片中的基础文字特征;
检验单元,被配置为对所述基础文字特征进行置信度检验,在所述基础文字特征不满足所述置信度检验需求的情况下,获取增量文字特征;
处理单元,被配置为基于所述增量文字特征和所述基础文字特征,得到文字识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176535.XA CN116912839A (zh) | 2023-09-13 | 2023-09-13 | 文字识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176535.XA CN116912839A (zh) | 2023-09-13 | 2023-09-13 | 文字识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912839A true CN116912839A (zh) | 2023-10-20 |
Family
ID=88358794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176535.XA Pending CN116912839A (zh) | 2023-09-13 | 2023-09-13 | 文字识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912839A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5077805A (en) * | 1990-05-07 | 1991-12-31 | Eastman Kodak Company | Hybrid feature-based and template matching optical character recognition system |
CN104008384A (zh) * | 2013-02-26 | 2014-08-27 | 山东新北洋信息技术股份有限公司 | 字符识别方法和字符识别装置 |
US20180150956A1 (en) * | 2016-11-25 | 2018-05-31 | Industrial Technology Research Institute | Character recognition systems and character recognition methods thereof using convolutional neural network |
CN112580657A (zh) * | 2020-12-23 | 2021-03-30 | 陕西天诚软件有限公司 | 一种自学习字符识别方法 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN116030454A (zh) * | 2023-03-28 | 2023-04-28 | 中南民族大学 | 一种基于胶囊网络和多语言模型的文字识别方法及系统 |
-
2023
- 2023-09-13 CN CN202311176535.XA patent/CN116912839A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5077805A (en) * | 1990-05-07 | 1991-12-31 | Eastman Kodak Company | Hybrid feature-based and template matching optical character recognition system |
CN104008384A (zh) * | 2013-02-26 | 2014-08-27 | 山东新北洋信息技术股份有限公司 | 字符识别方法和字符识别装置 |
US20180150956A1 (en) * | 2016-11-25 | 2018-05-31 | Industrial Technology Research Institute | Character recognition systems and character recognition methods thereof using convolutional neural network |
CN112580657A (zh) * | 2020-12-23 | 2021-03-30 | 陕西天诚软件有限公司 | 一种自学习字符识别方法 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN116030454A (zh) * | 2023-03-28 | 2023-04-28 | 中南民族大学 | 一种基于胶囊网络和多语言模型的文字识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
US20190385086A1 (en) | Method of knowledge transferring, information processing apparatus and storage medium | |
US20200184210A1 (en) | Multi-modal document feature extraction | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
US11023766B2 (en) | Automatic optical character recognition (OCR) correction | |
CN108959474B (zh) | 实体关系提取方法 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
CN111428557A (zh) | 基于神经网络模型的手写签名的自动校验的方法和装置 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN110807472B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113221918B (zh) | 目标检测方法、目标检测模型的训练方法及装置 | |
CN110781925A (zh) | 软件页面的分类方法、装置、电子设备及存储介质 | |
CN115687980A (zh) | 数据表的脱敏分类方法、分类模型训练方法及装置 | |
CN110717407A (zh) | 基于唇语密码的人脸识别方法、装置及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN111062440A (zh) | 一种样本选择方法、装置、设备及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112183946A (zh) | 多媒体内容评估方法、装置及其训练方法 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
JP2009276937A (ja) | 辞書作成装置、認識装置、認識方法及び認識プログラム | |
CN116563854A (zh) | 基于双通道的文本识别方法、装置、设备及存储介质 | |
CN113221718B (zh) | 公式识别方法、装置、存储介质和电子设备 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |