CN110765870B - 一种ocr识别结果的置信度确定方法、装置及电子设备 - Google Patents

一种ocr识别结果的置信度确定方法、装置及电子设备 Download PDF

Info

Publication number
CN110765870B
CN110765870B CN201910883642.3A CN201910883642A CN110765870B CN 110765870 B CN110765870 B CN 110765870B CN 201910883642 A CN201910883642 A CN 201910883642A CN 110765870 B CN110765870 B CN 110765870B
Authority
CN
China
Prior art keywords
character recognition
effective
recognition result
character
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910883642.3A
Other languages
English (en)
Other versions
CN110765870A (zh
Inventor
姜仟艺
宋祺
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910883642.3A priority Critical patent/CN110765870B/zh
Publication of CN110765870A publication Critical patent/CN110765870A/zh
Application granted granted Critical
Publication of CN110765870B publication Critical patent/CN110765870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种OCR识别结果的置信度确定方法、装置及电子设备,该方法包括:将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开的实施例,在得到OCR识别结果的同时,还得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。

Description

一种OCR识别结果的置信度确定方法、装置及电子设备
技术领域
本公开涉及光学字符识别技术领域,特别是涉及一种OCR识别结果的置信度确定方法、装置及电子设备。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指利将图像信息转化为可使用文本的技术。OCR广泛应用于文档和表格的自动处理、证件照文字内容的自动识别以及手写文字识别等领域。
但是,在实际应用中,OCR的识别结果可能无法满足100%的准确率。在OCR的识别结果的准确率不为100%时,转化所得的可使用文本会存在错误。
因此,迫切需要提供一种方法,对OCR识别结果的可靠程度进行评估,即需要确定OCR的识别结果的置信度。
发明内容
为解决上述技术问题,本公开示出了一种OCR识别结果的置信度确定方法、装置及电子设备。
第一方面,本公开示出了一种OCR识别结果的置信度确定方法,所述方法包括:
将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果,其中,每组输出结果包括:逻辑回归矩阵和字符识别结果;
判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,所述有效字符识别结果为:所述多个字符识别结果中相同的字符识别结果;
如果所述有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;
如果所述有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度;
其中,所述有效逻辑回归矩阵为:所述逻辑回归矩阵中,与所述有效字符识别结果在同一组输出结果的逻辑回归矩阵。
可选的,所述预先训练好的卷积神经网络的训练过程为:
将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对所述CRNN网络模型进行训练,并将所述CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为所述CRNN网络模型的目标卷积层参数;
采用基于热重启的随机梯度下降SGDR学习率策略,对所述CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数,其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,所述目标rnn层参数和所述目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数;
对于所述多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
可选的,所述字符识别结果包括:中间字符识别结果和最终字符识别结果;
所述判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,包括:
判断所述多组输出结果所包含的多个最终字符识别结果中,相同最终字符识别结果的数量是否大于预设数量。
可选的,所述通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值,包括:
对于每个有效逻辑回归矩阵,将该有效逻辑回归规则转化为概率串;
对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,其中,所述有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,所述概率串中多个概率的顺序与所述有效中间字符识别结果中各个字符的顺序相同;
去掉所述各个字符对应的概率值中分隔字符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值;
对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
可选的,在所述去掉所述各个字符对应的概率值中分隔符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值之前,所述方法还包括:
判断所述有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
若存在,将所述相同字符所对应的最大概率值确定为所述相同字符对应的概率值。
第二方面,本公开示出了一种OCR识别结果的置信度确定装置,所述装置包括:
输出结果确定模块,用于将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果,其中,每组输出结果包括:逻辑回归矩阵和字符识别结果;
有效字符识别结果判断模块,用于判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,所述有效字符识别结果为:所述多个字符识别结果中相同的字符识别结果;
第一置信度确定模块,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;
第二置信度确定模块,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度;
其中,所述有效逻辑回归矩阵为:所述逻辑回归矩阵中,与所述有效字符识别结果在同一组输出结果的逻辑回归矩阵。
可选的,所述预先训练好的卷积神经网络的训练过程为:
将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对所述CRNN网络模型进行训练,并将所述CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为所述CRNN网络模型的目标卷积层参数;
采用基于热重启的随机梯度下降SGDR学习率策略,对所述CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数,其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,所述目标rnn层参数和所述目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数;
对于所述多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
可选的,所述字符识别结果包括:中间字符识别结果和最终字符识别结果;
所述有效字符识别结果判断模块,具体用于:
判断所述多组输出结果所包含的多个最终字符识别结果中,相同最终字符识别结果的数量是否大于预设数量。
可选的,所述第二置信度确定模块,具体用于:
对于每个有效逻辑回归矩阵,将该有效逻辑回归规则转化为概率串;
对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,其中,所述有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,所述概率串中多个概率的顺序与所述有效中间字符识别结果中各个字符的顺序相同;
去掉所述各个字符对应的概率值中分隔字符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值;
对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
可选的,所述装置还包括:
相同字符判断模块,用于在所述去掉所述各个字符对应的概率值中分隔符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值之前,判断所述有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
相同字符的概率值确定模块,用于若所述相同字符判断模块判定相邻两个分隔字符之间是否存在相同字符,将所述相同字符所对应的最大概率值确定为所述相同字符对应的概率值。
第三方面,本公开示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述的OCR识别结果的置信度确定方法的步骤。
第四方面,本公开示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的OCR识别结果的置信度确定方法的步骤。
本公开实施例中,在确定OCR识别结果的置信度时,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;并判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开实施例提供的技术方案,在得到OCR识别结果的同时,还可以得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
附图说明
图1是本公开实施例所提供的一种OCR识别结果的置信度确定方法的步骤流程图;
图2是本公开实施例所提供的一种待识别图像的示意图;
图3是图1中S110的一种具体实施方式的步骤流程图;
图4是本公开实施例所提供的一种在目标卷积层参数后面接5套目标循环神经网络rnn参数和目标全连接层参数的示意图;
图5是图1中S140的一种具体实施方式的步骤流程图;
图6是本公开实施例所提供的一种OCR识别结果的置信度确定装置的结构框图;
图7是本公开实施例所提供的一种电子设备的结构框图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本公开作进一步详细的说明。
参照图1,示出了本公开的一种OCR识别结果的置信度确定方法的步骤流程图,具体可以包括如下步骤:
S110,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果。
其中,每组输出结果包括:逻辑回归矩阵和字符识别结果。
具体的,待识别图像可以是文字行图像。如图2所示的文字行图像可以为待识别图像。预先训练好的卷积神经网络可以是一种单输入多输出的卷积神经网络,也就是说,在将一张待识别图像输入到该预先训练好的卷积神经网络之后,会得到多组输出结果。其中,输出结果的组数是根据预先训练好的卷积神经网络确定的。举例而言,输出结果的组数可以是3组,5组或者7组等。
其中,在一种实施方式中,预先训练好的卷积神经网络的训练过程可以包括如下三个步骤,如图3所示,分别为S111-S113:
S111,将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对CRNN网络模型进行训练,并将CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为CRNN网络模型的目标卷积层参数。
其中,CRNN网络模型可以包括卷积层、循环神经网络cnn层和全连接层。在对CRNN网络模型进行训练时,可以将多张样本图像输入到该CRNN网络模型中,对该CRNN网络模型进行训练,直至该CRNN网络模型收敛,即CRNN网络模型的损失函数值loss稳定,也就是说,该CRNN网络模型的损失函数值loss不再降低。此时,固定CRNN网络模型的卷积层参数,即将此时的卷积层参数确定为CRNN网络模型的目标卷积层参数。
S112,采用基于热重启的随机梯度下降SGDR学习率策略,对CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数。
其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,目标rnn层参数和目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数。
通过步骤S111固定了CRNN网络模型的卷积层参数之后,对CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行细调。具体的,采用SGDR学习率策略对循环神经网络rnn层参数和全连接层参数进行多个周期的调整,其中,在每个周期中学习率从最大值逐渐下降为0,通过学习率的跃迁实现模型跳出局部最优解。在学习率最小时即学习率为0时,为一个周期内的局部最优解,也就是说,可以将一个周期中学习率最小时,对应的rnn层参数和全连接层参数确定为:CRNN网络模型的目标rnn层参数和目标全连接层参数。
需要说明的是,具体对循环神经网络rnn层参数和全连接层参数进行几个周期的调整,可以根据实际情况进行确定,举例而言,周期数可以是5个。
S113,对于多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
具体的,由于目标卷积层参数共享,可以在目标卷积层参数后面接几套目标循环神经网络rnn参数和目标全连接层参数,最终冻结为一个模型,即可得到训练好的卷积神经网络。其中,在目标卷积层参数后面接几套目标循环神经网络rnn参数和目标全连接层参数,可以根据步骤S112中的周期数进行确定。具体的,如果周期数为5,那么,可以在目标卷积层参数后面接5套目标循环神经网络rnn参数和目标全连接层参数,如图4所示。这样,在将一张待识别图像输入到预先训练好的卷积神经网络之后,可以得到5组输出结果。
预先训练好的卷积神经网络采用单输入多输出结构的好处是:通过共享目标卷积层参数来节约计算时间、压缩卷积神经网络的大小,以对待识别图像进行高效、有实时性的识别。
S120,判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量。若为否,执行步骤S130;若为是,执行步骤S140。
其中,有效字符识别结果为:多个字符识别结果中相同的字符识别结果。
由于每组输出结果均包括一个字符识别结果,因此,多组输出结果中包括多个字符识别结果。假设有5组输出结果,那么,会有5个字符识别结果。此时可以判断5个字符识别结果中,相同的字符识别结果的数量是否大于预设数量。其中,该预设数量可以根据实际情况进行确定。例如,预设数量可以为3。
举例而言,仍以图2所示的待识别图像为例,在将该待识别图像输入到预先训练好的卷积神经网络后,得到五组输出结果。其中,第一组输出结果中包含的字符识别结果为“宣汉县”;第二组输出结果中包含的字符识别结果为“宣汉县”;第三组输出结果中包含的字符识别结果为“宣汉县”;第四组输出结果中包含的字符识别结果为“宣汉县”;第五组输出结果中包含的字符识别结果为“宜汉县”。由此可知,第一组输出结果到第四组输出结果包含的字符识别结果相同,均为“宣汉县”。第五组输出结果所包含的字符识别结果与前四组输出结果所包含的字符识别结果不同。可见,相同的字符识别结果即有效字符识别结果的数量为4,大于预设数量3。
S130,将0确定为OCR识别结果的置信度。
可以理解的是,如果有效字符识别结果的数量小于预设数量,说明输出结果中的字符识别结果的稳定性较差,准确率较低,因此,可以直接将OCR识别结果的置信度确定为0,也就是说,OCR识别结果不可靠。
S140,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。
其中,有效逻辑回归矩阵为:逻辑回归矩阵中,与有效字符识别结果在同一组输出结果的逻辑回归矩阵。
可以理解的是,如果有效字符识别结果的数量大于预设数量,说明输出结果中的字符识别结果的稳定性相对较高,准确率相对较高。为了进一步确定OCR识别结果的置信度,可以对逻辑回归矩阵中,与有效字符识别结果中在同一组输出结果的有效逻辑回归矩阵进行归一化,得到概率串,并根据概率串中包含的概率值,来确定各个字符对应的概率值。并且确保所确定的OCR识别结果的置信度的准确度,可以将各个字符对应的概率值中,最小的概率值确定为OCR识别结果的置信度。
需要说明的是,为了方案描述清楚,将在下面实施例中对如果根据概率串中包含的概率值,来确定各个字符对应的概率值进行详细阐述。
本公开实施例中,在确定OCR识别结果的置信度时,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;并判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开实施例提供的技术方案,在得到OCR识别结果的同时,还可以得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
在图1所示实施例的基础上,在一种实施方式中,字符识别结果可以包括:中间字符识别结果和最终字符识别结果。具体的,仍以图2所示的待识别图像为例,得到的中间字符识别结果可以为:#宣#汉#县,#宣宣#汉#县,或者,###宣宣#汉#县#,或者,#宣#汉汉#县#,或者,#宣#汉#县县#等。最终识别结果可以为:宣汉县,或者,宜汉县等。
在该实施方式中,S120,判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,可以包括:
判断多组输出结果所包含的多个最终字符识别结果中,相同最终字符识别结果的数量是否大于预设数量。
具体的,通常情况下,对于相同的待识别图像,得到的中间字符识别结果通常存在差异。因此,在粗略判断字符识别结果是否可靠时,可以判断相同的最终字符识别结果的数量是否大于预设数量,而不是判断相同的中间字符识别结果的数量是否大于预设数量。如果相同的最终字符识别结果的数量大于预设数量,说明字符识别结果的可靠度相对较高,即OCR识别结果的置信度不为0。如果相同的最终字符识别结果的数量小于预设数量,说明字符识别结果的可靠度相对较低,即OCR识别结果的置信度为0。
S140,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值,可以包括四个步骤,如图5所示,分别为:S141至S144。
S141,对于每个有效逻辑回归矩阵,将该有效逻辑回归规则转化为概率串。
具体的,通常情况下,有效逻辑回归矩阵有多个,可以将每个有效逻辑回归矩阵转化为概率串。
S142,对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值。
其中,有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,概率串中多个概率的顺序与有效中间字符识别结果中各个字符的顺序相同。
具体的,由于每个有效逻辑回归矩阵对应一个概率串,且每个有效逻辑回归矩阵对应一个有效中间字符识别结果。可见,每个概率串对应一个有效中间字符识别结果,因此,对于每个概率串,可以将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,
举例而言,概率串为:0.99 0.92 0.98 0.96 0.97 0.93 0.96,对应的有效中间字符识别结果为:#宣##汉#县。其中,#为分割字符,有效中间字符识别结果中包含7个字符,分别为“#”、“宣”、“#”、“#”“汉”、“#”和“县”,这7个字符的概率值依次为:“0.99”、“0.92”、“0.98”、“0.96”、“0.97”、“0.93”和“0.96”。
S143,去掉各个字符对应的概率值中分隔字符对应的概率值,得到有效中间字符识别结果中各个有效字符对应的概率值。
由于有效中间字符识别结果中的分割字符#,为无效的字符,因此,在得到各个字符对应的概率值后,可以去掉各个字符对应的概率值中分割字符对应的概率值,即可以得到有效中间字符识别结果中各个有效字符对应的概率值。
在实际应用中,在得到有效中间字符识别结果时,是按照像素点来识别的。因此,有效中间字符识别结果中,相邻两个分割字符之间可能存在多个相同的字符,但实际上,相邻两个分割字符之间只有一个字符。举例而言,有效中间字符识别结果为:#宣宣##汉#县,相邻两个分隔符之间存在两个“宣”字符。
因此,在一种实施方式中,在去掉各个字符对应的概率值中分隔符对应的概率值,得到有效中间字符识别结果中各个有效字符对应的概率值之前,还可以包括:
判断有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
若存在,将相同字符所对应的最大概率值确定为相同字符对应的概率值。
举例而言,概率串为:0.99 0.92 0.94 0.98 0.96 0.97 0.93 0.96,对应的有效中间字符识别结果为:#宣宣##汉#县。可见两个“宣”字符对应的概率值分别为0.92和0.94,则将0.94作为“宣”字符对应的概率值。
S144,对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
举例而言,假设有3个有效中间字符识别结果,经过步骤S141至
143之后,第一个有效字符识别结果中,“宣”字符对应的概率值为0.94,“汉”对应的概率值为0.97,“县”字符对应的概率值为0.96。
第二个有效字符识别结果中,“宣”字符对应的概率值为0.95,“汉”对应的概率值为0.92,“县”字符对应的概率值为0.96。
第三个有效字符识别结果中,“宣”字符对应的概率值为0.91,“汉”对应的概率值为0.93,“县”字符对应的概率值为0.98。
对于“宣”字符,将三个有效字符识别结果中,“宣”字符对应的概率值求平均之后,得到的概率值为0.93。
对于“汉”字符,将三个有效字符识别结果中,“汉”字符对应的概率值求平均之后,得到的概率值为0.94。
对于“县”字符,将三个有效字符识别结果中,“县”字符对应的概率值求平均之后,得到的概率值为0.97。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本公开所必须的。
参照图6,示出了本公开的一种OCR识别结果的置信度确定装置的结构框图,该装置具体可以包括如下模块:
输出结果确定模块610,用于将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果,其中,每组输出结果包括:逻辑回归矩阵和字符识别结果;
有效字符识别结果判断模块620,用于判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,所述有效字符识别结果为:所述多个字符识别结果中相同的字符识别结果;
第一置信度确定模块630,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;
第二置信度确定模块640,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度;
其中,所述有效逻辑回归矩阵为:所述逻辑回归矩阵中,与所述有效字符识别结果在同一组输出结果的逻辑回归矩阵。
本公开实施例中,在确定OCR识别结果的置信度时,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;并判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开实施例提供的技术方案,在得到OCR识别结果的同时,还可以得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
可选的,所述预先训练好的卷积神经网络的训练过程为:
将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对所述CRNN网络模型进行训练,并将所述CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为所述CRNN网络模型的目标卷积层参数;
采用基于热重启的随机梯度下降SGDR学习率策略,对所述CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数,其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,所述目标rnn层参数和所述目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数;
对于所述多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
可选的,所述字符识别结果包括:中间字符识别结果和最终字符识别结果;
所述有效字符识别结果判断模块,具体用于:
判断所述多组输出结果所包含的多个最终字符识别结果中,相同最终字符识别结果的数量是否大于预设数量。
可选的,所述第二置信度确定模块,具体用于:
对于每个有效逻辑回归矩阵,将该有效逻辑回归规则转化为概率串;
对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,其中,所述有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,所述概率串中多个概率的顺序与所述有效中间字符识别结果中各个字符的顺序相同;
去掉所述各个字符对应的概率值中分隔字符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值;
对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
可选的,所述装置还包括:
相同字符判断模块,用于在所述去掉所述各个字符对应的概率值中分隔符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值之前,判断所述有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
相同字符的概率值确定模块,用于若所述相同字符判断模块判定相邻两个分隔字符之间是否存在相同字符,将所述相同字符所对应的最大概率值确定为所述相同字符对应的概率值。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
第三方面,示出了本公开的一种电子设备,如图7所示,包括存储器710、处理器720及存储在存储器上并可在处理器上运行的计算机程序,所述处理器710执行所述程序时实现第一方面所述的OCR识别结果的置信度确定方法的步骤。
本公开实施例中,在确定OCR识别结果的置信度时,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;并判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开实施例提供的技术方案,在得到OCR识别结果的同时,还可以得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
第四方面,示出了本公开的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的OCR识别结果的置信度确定方法的步骤。
本公开实施例中,在确定OCR识别结果的置信度时,将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果;并判断多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量;如果有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;如果有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度。可见,通过本公开实施例提供的技术方案,在得到OCR识别结果的同时,还可以得到OCR识别结果的置信度,从而可以通过OCR识别结果的置信度来评估OCR识别结果的可靠程度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本公开所提供的一种OCR识别结果的置信度确定方法和一种OCR识别结果的置信度确定装置,进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (12)

1.一种OCR识别结果的置信度确定方法,其特征在于,所述方法包括:
将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果,其中,每组输出结果包括:逻辑回归矩阵和字符识别结果,每组输出结果中包括的逻辑回归矩阵用于表征:该组输出结果中包括的字符识别结果中各个字符对应的概率值;
判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,所述有效字符识别结果为:所述多个字符识别结果中相同的字符识别结果;
如果所述有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;
如果所述有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度;
其中,所述有效逻辑回归矩阵为:所述逻辑回归矩阵中,与所述有效字符识别结果在同一组输出结果的逻辑回归矩阵。
2.根据权利要求1所述的方法,其特征在于,所述预先训练好的卷积神经网络的训练过程为:
将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对所述CRNN网络模型进行训练,并将所述CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为所述CRNN网络模型的目标卷积层参数;
采用基于热重启的随机梯度下降SGDR学习率策略,对所述CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数,其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,所述目标rnn层参数和所述目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数;
对于所述多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
3.根据权利要求1所述的方法,其特征在于,所述字符识别结果包括:中间字符识别结果和最终字符识别结果;
所述判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,包括:
判断所述多组输出结果所包含的多个最终字符识别结果中,相同的最终字符识别结果的数量是否大于预设数量。
4.根据权利要求3所述的方法,其特征在于,所述通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值,包括:
对于每个有效逻辑回归矩阵,将该有效逻辑回归矩阵转化为概率串;
对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,其中,所述有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,所述概率串中多个概率的顺序与所述有效中间字符识别结果中各个字符的顺序相同;
去掉所述各个字符对应的概率值中分隔字符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值;
对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
5.根据权利要求4所述的方法,其特征在于,在所述去掉所述各个字符对应的概率值中分隔符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值之前,所述方法还包括:
判断所述有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
若存在,将所述相同字符所对应的最大概率值确定为所述相同字符对应的概率值。
6.一种OCR识别结果的置信度确定装置,其特征在于,所述装置包括:
输出结果确定模块,用于将待识别图像输入到预先训练好的卷积神经网络中,得到多组输出结果,其中,每组输出结果包括:逻辑回归矩阵和字符识别结果,每组输出结果中包括的逻辑回归矩阵用于表征:该组输出结果中包括的字符识别结果中各个字符对应的概率值;
有效字符识别结果判断模块,用于判断所述多组输出结果所包含的多个字符识别结果中,有效字符识别结果的数量是否大于预设数量,所述有效字符识别结果为:所述多个字符识别结果中相同的字符识别结果;
第一置信度确定模块,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量小于预设数量,将0确定为OCR识别结果的置信度;
第二置信度确定模块,用于如果有效字符识别结果判断模块判定所述有效字符识别结果的数量大于预设数量,通过归一化有效逻辑回归矩阵,得到所述有效字符识别结果中各个字符对应的概率值;并将所得到的概率值中最小的概率值确定为OCR识别结果的置信度;
其中,所述有效逻辑回归矩阵为:所述逻辑回归矩阵中,与所述有效字符识别结果在同一组输出结果的逻辑回归矩阵。
7.根据权利要求6所述的装置,其特征在于,所述预先训练好的卷积神经网络的训练过程为:
将多张样本图像输入到卷积递归神经网络CRNN网络模型中,对所述CRNN网络模型进行训练,并将所述CRNN网络模型的损失函数值loss稳定时所对应的卷积层参数,确定为所述CRNN网络模型的目标卷积层参数;
采用基于热重启的随机梯度下降SGDR学习率策略,对所述CRNN网络模型的循环神经网络rnn层参数和全连接层参数进行多个周期的调整,得到多组目标参数,其中,每组目标参数包括:一个目标rnn层参数和一个目标全连接层参数,所述目标rnn层参数和所述目标全连接层为:一个周期中学习率最小时,对应的rnn层参数和全连接层参数;
对于所述多组目标参数中的每组目标参数,将该组目标参数与目标卷积层参数冻结,得到训练好的卷积神经网络。
8.根据权利要求6所述的装置,其特征在于,所述字符识别结果包括:中间字符识别结果和最终字符识别结果;
所述有效字符识别结果判断模块,具体用于:
判断所述多组输出结果所包含的多个最终字符识别结果中,相同的最终字符识别结果的数量是否大于预设数量。
9.根据权利要求8所述的装置,其特征在于,所述第二置信度确定模块,具体用于:
对于每个有效逻辑回归矩阵,将该有效逻辑回归矩阵转化为概率串;
对于每个概率串,将该概率串包括的多个概率值,确定为对应的有效中间字符识别结果中各个字符对应的概率值,其中,所述有效中间字符识别结果与有效逻辑回归规则在同一组输出结果中,所述概率串中多个概率的顺序与所述有效中间字符识别结果中各个字符的顺序相同;
去掉所述各个字符对应的概率值中分隔字符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值;
对于每个有效字符,将多个有效中间字符识别结果中该有效字符对应的概率值的平均值,确定为该有效字符对应的概率值。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
相同字符判断模块,用于在所述去掉所述各个字符对应的概率值中分隔符对应的概率值,得到所述有效中间字符识别结果中各个有效字符对应的概率值之前,判断所述有效中间字符识别结果中,相邻两个分隔字符之间是否存在相同字符;
相同字符的概率值确定模块,用于若所述相同字符判断模块判定相邻两个分隔字符之间是否存在相同字符,将所述相同字符所对应的最大概率值确定为所述相同字符对应的概率值。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的OCR识别结果的置信度确定方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的OCR识别结果的置信度确定方法的步骤。
CN201910883642.3A 2019-09-18 2019-09-18 一种ocr识别结果的置信度确定方法、装置及电子设备 Active CN110765870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910883642.3A CN110765870B (zh) 2019-09-18 2019-09-18 一种ocr识别结果的置信度确定方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910883642.3A CN110765870B (zh) 2019-09-18 2019-09-18 一种ocr识别结果的置信度确定方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110765870A CN110765870A (zh) 2020-02-07
CN110765870B true CN110765870B (zh) 2021-01-12

Family

ID=69329720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910883642.3A Active CN110765870B (zh) 2019-09-18 2019-09-18 一种ocr识别结果的置信度确定方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110765870B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115825B (zh) * 2023-10-23 2024-01-26 深圳市上融科技有限公司 一种提高证照ocr识别率的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850855A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 计算置信度的方法和装置
WO2017167046A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 一种字符识别方法和装置
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN109948714A (zh) * 2019-03-22 2019-06-28 华南理工大学 基于残差卷积和递归神经网络的中文场景文本行识别方法
CN111259897A (zh) * 2018-12-03 2020-06-09 杭州翼心信息科技有限公司 知识感知的文本识别方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850855A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 计算置信度的方法和装置
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
WO2017167046A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN107239786A (zh) * 2016-03-29 2017-10-10 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN111259897A (zh) * 2018-12-03 2020-06-09 杭州翼心信息科技有限公司 知识感知的文本识别方法和系统
CN109948714A (zh) * 2019-03-22 2019-06-28 华南理工大学 基于残差卷积和递归神经网络的中文场景文本行识别方法

Also Published As

Publication number Publication date
CN110765870A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN109784149B (zh) 一种人体骨骼关键点的检测方法及系统
CN108491794B (zh) 面部识别的方法和装置
CN113705811B (zh) 模型训练方法、装置、计算机程序产品及设备
CN111160102B (zh) 人脸防伪识别模型的训练方法、人脸防伪识别方法及装置
US11341415B2 (en) Method and apparatus for compressing neural network
CN110705573A (zh) 一种目标检测模型的自动建模方法及装置
CN113128419B (zh) 一种障碍物识别方法和装置、电子设备及存储介质
CN109615058A (zh) 一种神经网络模型的训练方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN108197337B (zh) 一种文本分类方法及装置
CN110765870B (zh) 一种ocr识别结果的置信度确定方法、装置及电子设备
CN108156130B (zh) 网络攻击检测方法和装置
CN116935128A (zh) 一种基于可学习提示的零样本异常图像检测方法
CN112084936A (zh) 一种人脸图像预处理方法、装置、设备及存储介质
CN111652320A (zh) 一种样本分类方法、装置、电子设备及存储介质
CN113869431B (zh) 虚假信息检测方法、系统、计算机设备及可读存储介质
CN112764791B (zh) 一种增量更新的恶意软件检测方法及系统
CN111553476B (zh) 基于记忆分值的神经网络训练方法、装置及存储介质
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN112766494A (zh) 一种预训练模型知识蒸馏的安全性评估方法
CN110570093A (zh) 一种业务拓展渠道自动管理的方法和装置
CN112686278B (zh) 模型获取方法、装置及存储介质
CN113537295B (zh) 基于离群点引导的视线估计跨场景适配方法和装置
EP4280115A1 (en) Machine learning device, machine learning method, and machine learning program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant