CN111563495B - 一种图像中字符的识别方法、装置及电子设备 - Google Patents
一种图像中字符的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111563495B CN111563495B CN202010388865.5A CN202010388865A CN111563495B CN 111563495 B CN111563495 B CN 111563495B CN 202010388865 A CN202010388865 A CN 202010388865A CN 111563495 B CN111563495 B CN 111563495B
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- rectangular frame
- determining
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims description 119
- 238000012549 training Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 12
- 238000012550 audit Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Abstract
本发明实施例提供了一种图像中字符的识别方法、装置及电子设备,所述方法包括:获取待识别图像;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。采用本发明实施例所提供的方案,可以提高待识别图像中字符识别的准确度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像中字符的识别方法、装置及电子设备。
背景技术
为了确保用户发布在网络中的图片、文章等信息是否违规,需要对用户发布的信息进行审核。例如,当用户发布的图片中包含字符时,为了确定该图片是否违规,需要对图片中的字符进行识别。
目前,对图像中包含的字符进行识别的方法为:首先对待识别图像进行字符区域识别,确定待识别图像中包含各行字符的矩形框区域,然后通过预先训练完成的OCR(Optical Character Recognition,光学字符识别)模型对矩形框区域中的字符进行识别,得到字符识别结果。进而,可以确定字符识别结果对应的文本信息是否包含违规内容,例如敏感词汇等,以确定待识别图像的安全性级别,作为审核结果。
其中,OCR模型是基于预先获取的包含字符的图像样本训练得到的,可以对包括字符的图像进行字符识别。但是当待识别图像中包含的字符不是OCR模型训练时所采用的种类的字符时,通过OCR模型无法准确地识别待识别图像中的字符。例如,OCR模型是基于包含中文字符的图像样本进行训练得到的,当待识别图像中包含日文字符时,通过该OCR模型便无法准确识别待识别图像中的字符。
发明内容
本发明实施例的目的在于提供一种图像中字符的识别方法、装置及电子设备,以提高图像中字符识别的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种图像中字符的识别方法,所述方法包括:
获取待识别图像,其中,所述待识别图像中包含字符;
对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类,其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;
根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;
将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果。
可选的,在所述对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域的步骤之前,所述方法还包括:
判断所述待识别图像的尺寸是否超过预设尺寸;
如果否,执行所述对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域的步骤;
如果是,将所述待识别图像划分为多个未超过所述预设尺寸的子图像,将每个所述子图像作为一个待识别图像。
可选的,所述判断所述待识别图像的尺寸是否超过预设尺寸的步骤,包括:
计算所述待识别图像的纵横比;
当所述纵横比属于预设区间时,确定所述待识别图像未超过预设尺寸;
当所述纵横比不属于预设区间时,确定所述待识别图像超过所述预设尺寸。
可选的,所述将所述待识别图像划分为多个未超过所述预设尺寸的子图像的步骤,包括:
基于所述待识别图像中字符像素点的位置,确定所述待识别图像中的目标分割位置,其中,所述目标分割位置为所述待识别图像中在目标方向上不属于字符的一行像素点,所述目标方向为垂直于所述待识别图像长边的方向;
按照所述目标分割位置对所述待识别图像进行分割,得到多个未超过所述预设尺寸的子图像。
可选的,所述基于所述待识别图像中字符像素点的位置,确定所述待识别图像中的目标分割位置的步骤,包括:
根据所述待识别图像中像素点的边缘强度,计算所述待识别图像中所述目标方向上每一行像素点的边缘强度的总和;
将所述边缘强度总和小于预设边缘强度的各行像素点确定为候选分割位置;
按照与基准位置的距离由小到大的顺序,针对每个所述候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离,其中,所述基准位置为所述待识别图像的所述目标方向的边界;
如果当前候选分割位置与所述基准位置的距离不小于所述预设距离,将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置,将所述目标分割位置作为新的基准位置,并返回所述判断当前候选分割位置与所述基准位置的距离是否小于预设距离的步骤;
如果当前候选分割位置与所述基准位置的距离小于所述预设距离,判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离;
如果是,返回所述判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离的步骤;
如果否,返回所述将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置的步骤。
可选的,在所述确定每个所述矩形框区域对应的字符识别结果的步骤之后,所述方法还包括:
基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别。
可选的,所述基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别的步骤,包括:
基于预先建立的敏感词数据库及所述字符识别结果,确定所述待识别图像的安全性级别;或
将所述字符识别结果输入文本分类模型,根据所述字符识别结果的语义特征确定所述字符识别结果的类型;根据预设的类型与安全性级别的对应关系,确定所述待识别图像的安全性级别,其中,所述文本分类模型包括语义特征与字符识别结果的类型的对应关系。
可选的,当不存在与所述语言种类相匹配的目标字符识别模型时,所述方法还包括:
根据预设的安全性规则,确定所述语言种类对应的安全性级别,作为所述待识别图像的安全性级别。
第二方面,本发明实施例提供了一种图像中字符的识别装置,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包含字符;
字符区域识别模块,用于对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
语种识别模块,用于将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类,其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;
目标字符模型确定模块,用于根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;
字符识别模块,用于将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的图像中字符的识别方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的图像中字符的识别方法步骤。
本发明实施例提供的方案中,电子设备获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所提供的一种图像中字符的识别方法的流程图;
图2为基于图1所示实施例的待识别图像尺寸的判断方式的一种流程图;
图3为基于图1所示实施例的待识别图像的一种示意图;
图4为基于图1所示实施例的目标分割位置的确定方式的一种流程图;
图5为本发明实施例所提供的一种图像中字符的识别装置的结构示意图;
图6为本发明实施例中目标分割位置确定子模块的一种结构示意图;
图7为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高图像中字符识别的准确度,本发明实施例提供了一种图像中字符的识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
下面首先对本发明实施例所提供的一种图像中字符的识别方法进行介绍。
本发明实施例所提供的一种图像中字符的识别方法可以应用于任意需要识别图像中字符的电子设备,例如,可以为电脑、处理器、服务器等,在此不做具体限定。为了描述方便,后续称为电子设备。
如图1所示,一种图像中字符的识别方法,所述方法包括:
S101,获取待识别图像;
其中,所述待识别图像中包含字符。
S102,对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
S103,将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类;
其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系。
S104,根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型;
其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的。
S105,将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果。
可见,本发明实施例提供的方案中,电子设备获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
在上述步骤S101中,电子设备可以获取需要进行字符识别处理的图像,作为待识别图像,其中,待识别图像中包含字符。其中,上述字符可以包括各种语言种类的文字、阿拉伯数字、标点符号等。如果电子设备具有图像采集功能,上述包含字符的待识别图像可以为电子设备采集的图像;也可以为电子设备本地存储的图像;还可以为其他电子设备传输的图像,在此不做具体限定。
获取待识别图像后,电子设备便可以执行上述步骤S102,即对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域。其中,矩形框区域可以为包含一行字符的区域,也可以为包括多行字符的区域,在此不做具体限定。
在一种实施方式中,电子设备可以预先获取包含字符的图像样本,并对图像样本中包含有字符行的矩形框区域进行标注,得到图像样本对应的标注标签,然后基于图像样本及标注标签训练用于确定待识别图像中各个包含有字符行的矩形框区域的字符行检测模型。这样,电子设备在获取待识别图像后,便可以将待识别图像输入字符行检测模型,该字符行检测模型可以根据待识别图像的图像特征确定待识别图像中各个包含有字符行的矩形框区域。
字符行检测模型包括图像特征与包含有字符行的矩形框区域之间的对应关系,该字符行检测模型可以为卷积神经网络、CTPN(Detecting Text in Natural Image withConnectionist Text Proposal Network,基于连接预选框网络的文本检测)等深度学习模型。
在待识别图像中,可能存在多个语言种类的字符,也就是说,待识别图像对应的各个矩形框区域中的字符可能为不同语言种类的字符。为了确定每个矩形框区域包含的字符所属的语言种类,电子设备可以将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征对每个矩形框区域进行语种识别,得到每个矩形框区域对应的语言种类。
其中,上述语种识别模型为电子设备预先基于图像样本以及其包括的字符的语言种类进行训练得到的,其包括图像特征与语言种类的对应关系。该语种识别模型可以为卷积神经网络、GoogLeNet等深度学习模型。
电子设备可以预先获取包括各个语言种类的字符的图像样本,基于包括每种语言种类的图像样本,训练用于识别包括该语言种类的字符的图像的字符识别模型。训练完成的字符识别模型包括图像特征与字符识别结果的对应关系。
在确定每个矩形框区域对应的语言种类之后,电子设备可以根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类型相匹配的目标字符识别模型。
例如,语言种类与字符识别模型的对应关系如下表所示:
语言种类 | 字符识别模型 |
中文 | 字符识别模型Z1 |
英文 | 字符识别模型Z2 |
日文 | 字符识别模型Z3 |
那么,如果电子设备确定矩形框区域J1对应的语言种类为英文、矩形框区域J2对应的语言种类为中文、矩形框区域J3对应的语言种类为日文,根据上表所示的对应关系,电子设备可以确定与矩形框区域J1对应的语言种类相匹配的目标字符识别模型为字符识别模型Z2、与矩形框区域J2对应的语言种类相匹配的目标字符识别模型为字符识别模型Z1、与矩形框区域J3对应的语言种类相匹配的目标字符识别模型为字符识别模型Z3。
在确定每个矩形框区域对应的目标字符识别模型后,电子设备便可以执行上述步骤S105,即将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,可以确定每个矩形框区域对应的字符识别结果,也就是上述待识别图像的字符识别结果。
作为本发明实施例的一种实施方式,如图2所示,在上述对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域的步骤之前,所述方法还可以包括:
S201,判断所述待识别图像的尺寸是否超过预设尺寸,如果否,执行步骤S202,如果是,执行步骤S203;
电子设备对待识别图像进行字符区域识别时,如果待识别图像尺寸过大,会影响识别效果,因此,在对待识别图像进行字符区域识别之前,电子设备可以判断待识别图像的尺寸是否超过预设尺寸,其中,预设尺寸即为电子设备进行字符区域识别时,可以准确进行矩形框区域识别所对应的图像的尺寸。
如果待识别图像的尺寸未超过预设尺寸,电子设备可以执行步骤S202;如果待识别图像的尺寸超过预设尺寸,电子设备可以执行步骤S203。
S202,对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
如果待识别图像的尺寸未超过预设尺寸,说明此时可以准确识别待识别图像中的矩形框区域,所以电子设备可以对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域,也就是上述步骤S102,进而执行上述步骤S103-S105,以识别待识别图像中每个包含字符的矩形框区域对应的语言种类,进而通过与每个矩形框区域对应的语言种类相匹配的目标字符识别模型进行字符识别,得到每个矩形框区域对应的字符识别结果。
S203,将所述待识别图像划分为多个未超过所述预设尺寸的子图像,将每个所述子图像作为一个待识别图像。
如果待识别图像的尺寸超过预设尺寸,电子设备可以将待识别图像划分为多个未超过预设尺寸的子图像,将每个子图像作为一个待识别图像,这样,由于每个子图像的尺寸未超过预设尺寸,所以电子设备对每个子图像进行字符区域识别时,可以准确地确定包含有字符行的矩形框区域。
可见,本发明实施例所提供的方案中,在对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域之前,电子设备可以判断待识别图像的尺寸是否超过预设尺寸;如果否,执行对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域的步骤;如果是,将待识别图像划分为多个未超过所述预设尺寸的子图像,将每个子图像作为一个待识别图像。这样,当待识别图像超过预设尺寸时,电子设备可以将待识别图像划分为未超过预设尺寸的子图像,这样可以提高识别待识别图像中包含有字符行的矩形框区域的准确度。
作为本发明实施例的一种实施方式,上述判断所述待识别图像的尺寸是否超过预设尺寸的步骤,可以包括:
计算所述待识别图像的纵横比;当所述纵横比属于预设区间时,确定所述待识别图像未超过预设尺寸;当所述纵横比不属于预设区间时,确定所述待识别图像超过所述预设尺寸。
电子设备可以根据如下所示公式计算待识别图像的纵横比R:
R=H/W
其中,H为待识别图像的高度,W为待识别图像的宽度。
由于图像的纵横比是标识图像尺寸的重要参数,所以电子设备可以判断待识别图像的纵横比R是否属于预设区间(Thlow,Thhigh),当Thlow<R<Thhigh时,说明待识别图像的纵横比R属于预设区间(Thlow,Thhigh),那么电子设备便可以确定待识别图像未超过预设尺寸;当R≤Thlow或Thhigh≥R时,说明待识别图像的纵横比R不属于预设区间(Thlow,Thhigh),那么电子设备便可以确定待识别图像超过预设尺寸。其中,Thlow为预设的纵横比最低阈值,Thhigh为预设的纵横比最高阈值。
可见,本发明实施例所提供的方案中,电子设备可以计算待识别图像的纵横比,当纵横比属于预设区间时,确定待识别图像未超过预设尺寸;当纵横比不属于预设区间时,确定待识别图像超过所述预设尺寸。这样,电子设备可以根据待识别图像的纵横比准确的判断待识别图像是否超过预设尺寸。
作为本发明实施例的一种实施方式,上述将所述待识别图像划分为多个未超过所述预设尺寸的子图像的步骤,可以包括:
基于待识别图像中字符像素点的位置,确定待识别图像中的目标分割位置;按照目标分割位置对待识别图像进行分割,得到多个未超过预设尺寸的子图像。
当待识别图像的尺寸超过预设尺寸时,电子设备需要对待识别图像进行划分。如果对待识别图像进行划分得到的子图像中包括的字符是不完整的,很可能无法准确识别子图像中包括的字符。所以为了防止划分得到的子图像中包括不完整的字符,电子设备可以基于待识别图像中字符像素点的位置,确定待识别图像中的目标分割位置。
其中,上述字符像素点为待识别图像中属于字符的像素点,目标分割位置为待识别图像中在目标方向上不属于字符的一行像素点,目标方向为垂直于待识别图像长边的方向,也就是待识别图像短边所在方向。
例如,如图3所示,待识别图像301的短边303垂直于待识别图像301的长边302,那么短边303的方向即为目标方向,待识别图像301中在目标方向上不属于字符的一行像素点304即为目标分割位置。
在确定上述目标分割位置后,电子设备便可以按照目标分割位置对待识别图像进行分割,这样,可以得到多个未超过预设尺寸的子图像,同时可以避免划分得到的子图像中存在不完整的字符。
可见,本发明实施例所提供的方案中,电子设备可以基于待识别图像中字符像素点的位置,确定待识别图像中的目标分割位置;按照目标分割位置对待识别图像进行分割,得到多个未超过预设尺寸的子图像。这样,由于目标分割位置为待识别图像中在目标方向上不属于字符的一行像素点,电子设备按照目标分割位置对待识别图像进行分割可以得到多个未超过预设尺寸的子图像,可以避免划分得到的子图像中存在不完整的字符。
作为本发明实施例的一种实施方式,如图4所示,上述基于所述待识别图像中字符像素点的位置,确定所述待识别图像中的目标分割位置的步骤,可以包括:
S401,根据所述待识别图像中像素点的边缘强度,计算所述待识别图像中所述目标方向上每一行像素点的边缘强度的总和;
为了确定待识别图像中目标方向上的每一行像素点是否为属于字符的一行像素点,电子设备可以计算待识别图像中像素点的边缘强度,进而计算待识别图像中目标方向上每一行像素点的边缘强度的总和。其中,像素点的边缘强度可以表示该像素点的像素值与其相邻像素点的像素值之间的差异,当待识别图像中目标方向上的一行像素点的边缘强度总和较大时,说明该一行像素点边缘强度为属于字符的一行像素点的可能性较高;当待识别图像中目标方向上的一行像素点的边缘强度总和较小时,说明该一行像素点边缘强度为属于字符的一行像素点的可能性较低。
在一种实施方式中,当待识别图像为RGB图像时,电子设备可以根据如下所示公式,计算待识别图像中每个像素点的灰度值Gray,得到待识别图像对应的灰度图:
Gray=R*0.299+G*0.587+B*0.114
其中,R、G、B分别为待识别图像包括的像素点对应的Red通道、Green通道、Blue通道的参数值。
然后,电子设备可以计算灰度图中像素点的边缘强度,进而计算灰度图中目标方向上每一行像素点的边缘强度的总和,作为待识别图像中目标方向上每一行像素点的边缘强度的总和。
在另一种实施方式中,当待识别图像为RGB图像时,电子设备可以将待识别图像由RGB格式转化为YUV、HSV、HSL或LAB等颜色编码格式,然后根据待识别图像的颜色编码格式计算待识别图像中每个像素点的亮度值,得到对应的亮度图。例如,待识别图像由RGB格式转化为HSL格式,电子设备可以根据如下所示公式,计算每个像素点的亮度值L:
L=(max(R,G,B)+min(R,G,B))/2
然后,电子设备可以计算亮度图中像素点的边缘强度,进而计算亮度图中目标方向上每一行像素点的边缘强度的总和,作为待识别图像中目标方向上每一行像素点的边缘强度的总和。
在另一种实施方式中,电子设备可以根据索贝尔算子,计算待识别图像中每个像素点的水平边缘强度及垂直边缘强度,然后将每个像素点的水平边缘强度与垂直边缘强度的平方和作为每个像素点的边缘强度。
S402,将所述边缘强度总和小于预设边缘强度的各行像素点确定为候选分割位置;
在确定待识别图像中目标方向上每一行像素点的边缘强度的总和之后,为了确定待识别图像中目标方向上的每一行像素点是否包括属于字符的像素点,电子设备可以判断上述边缘强度总和与预设边缘强度之间的大小关系。其中,预设边缘强度为预先设置的边缘强度,可以根据待识别图像中属于字符的每一行像素点的边缘强度总和的平均值等因素进行设置,在此不做具体限定。
如果边缘强度总和小于预设边缘强度,说明该边缘强度总和对应的一行像素点为待识别图像中不属于字符的一行像素点,那么电子设备便可以将该一行像素点确定为候选分割位置。
如果边缘强度总和不小于预设边缘强度,说明该边缘强度总和对应的一行像素点包括属于字符的像素点,那么电子设备也就不能将该一行像素点确定为候选分割位置。
S403,按照与基准位置的距离由小到大的顺序,针对每个所述候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离,如果当前候选分割位置与所述基准位置的距离不小于所述预设距离,执行步骤S404;如果当前候选分割位置与所述基准位置的距离小于所述预设距离,执行步骤S405。
在确定候选分割位置后,电子设备可以按照与基准位置的距离由小到大的顺序,针对每个候选分割位置,判断当前的候选分割位置与基准位置的距离是否小于预设距离。其中,上述基准位置为待识别图像的目标方向的边界,上述预设距离为不超过预设尺寸的图像的长边的最大长度。
例如,如图3所示,电子设备在确定待识别图像301中的候选分割位置305、306及307后,可以按照与基准位置303的距离由小到大的顺序,依次判断候选分割位置305、306及307与基准位置303的距离是否小于预设距离。
如果当前的候选分割位置与基准位置的距离不小于预设距离,说明按照该当前的候选分割位置对待识别图像进行分割得到的子图的尺寸超过预设尺寸,那么电子设备便可以执行步骤S404。
如果当前的候选分割位置与基准位置的距离不小于预设距离,说明按照该当前的候选分割位置对待识别图像进行分割得到的子图的尺寸不超过预设尺寸,那么电子设备便可以执行步骤S405。
S404,将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置,将所述目标分割位置作为新的基准位置,并返回步骤S403;
如果当前的候选分割位置与基准位置的距离不小于预设距离,说明按照该当前的候选分割位置对待识别图像进行分割得到的子图的尺寸超过预设尺寸,那么当前候选分割位置的前一个候选分割位置与基准位置的距离也就小于预设距离,这样电子设备便可以将当前候选分割位置的前一个候选分割位置确定为目标分割位置。
例如,如图3所示,当当前的候选分割位置为候选分割位置306时,如果当前的候选分割位置306与基准位置303的距离不小于预设距离,电子设备可以将当前候选分割位置306的前一个候选分割位置305确定为目标分割位置。
在确定目标分割位置之后,电子设备可以将该目标分割位置作为新的基准位置,返回上述步骤S403,基于该新的基准位置,按照与基准位置的距离由小到大的顺序,针对每个候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离。
S405,判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离,如果是,返回步骤S405;如果否,返回步骤S404。
如果当前的候选分割位置与基准位置的距离小于预设距离,说明按照该当前的候选分割位置对待识别图像进行分割得到的子图的尺寸不超过预设尺寸。为了防止分割得到的子图像的尺寸过小,电子设备可以判断当前的候选分割位置的下一个候选分割位置与基准位置的距离是否小于预设距离。
例如,如图3所示,当当前的候选分割位置为候选分割位置305时,如果当前的候选分割位置305与基准位置303的距离小于预设距离,电子设备可以判断当前的候选分割位置305的下一个候选分割位置306与基准位置303的距离是否小于预设距离。
如果是,说明按照下一个候选分割位置对待识别图像进行分割得到的子图像的尺寸不超过预设尺寸,这时电子设备可以执行步骤S405。
如果否,说明按照该下一个候选分割位置对待识别图像进行分割得到的子图像的尺寸超过预设尺寸,那么当前候选分割位置与基准位置的距离也就小于预设距离,电子设备可以执行步骤S404。
当当前候选分割位置与基准位置的距离小于预设距离时,电子设备可以返回上述步骤S405,继续判断下一个候选分割位置与基准位置的距离是否小于预设距离。
当当前候选分割位置与基准位置的距离不小于预设距离时,电子设备可以返回上述步骤S404,将当前候选分割位置的前一个候选分割位置确定为目标分割位置,将该目标分割位置作为新的基准位置,并返回判断当前候选分割位置与所述基准位置的距离是否小于预设距离的步骤。
例如,如图3所示,当当前的候选分割位置306与基准位置303的距离小于预设距离时,电子设备可以继续判断下一个候选分割位置307与基准位置的距离是否小于预设距离;当当前的候选分割位置306与基准位置303的距离不小于预设距离时,电子设备可以将当前的候选分割位置306的前一个候选分割位置305确定为目标分割位置,将该目标分割位置作为新的基准位置。
在一种实施方式中,当待识别图像的每个候选分割位置与基准位置的距离均不小于预设距离时,电子设备可以将待识别图像中目标方向上与基准位置的距离等于预设距离的一行像素点作为目标分割位置,然后将该目标分割位置作为新的基准位置,返回将待识别图像中目标方向上与基准位置的距离等于预设距离的一行像素点作为目标分割位置的步骤,直至确定出待识别中所有的目标分割位置。
可见,本发明实施例所提供的方案中,电子设备可以根据上述方式确定待识别图像中的目标分割位置。这样,电子设备可以基于基准位置,依次判断待识别图像中的候选分割位置与基准位置的距离是否小于预设距离,进而将与基准位置的距离超过预设距离的候选分割位置的前一候选分割位置确定为目标分割位置,这样可以根据目标分割位置将待识别图分割为合适尺寸的子图像。
作为本发明实施例的一种实施方式,在上述确定每个所述矩形框区域对应的字符识别结果的步骤之后,所述方法还可以包括:
基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别。
在得到待识别图像对应的字符识别结果后,电子设备可以基于字符识别结果,对待识别图像进行安全性审核,确定待识别图像的安全性级别,以便对待识别图像进行分类管理等处理。
例如,电子设备可以检测字符识别结果中是否包含涉及色情、暴力等违法违规内容的敏感字符,当字符识别结果中包含敏感字符时,可以确定待识别图像的安全性级别为“危险”;当字符识别结果中不包含敏感字符时,可以确定待识别图像的安全性级别为“安全”。
可见,本发明实施例所提供的方案中,电子设备可以基于字符识别结果对待识别图像进行安全性审核,确定待识别图像的安全性级别。这样,电子设备在确定待识别图像的字符识别结果后,可以对待识别图像进行安全性审核,确定其安全性级别。
作为本发明实施例的一种实施方式,上述基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别的步骤,至少可以包括以下几种方式:
第一种实施方式:基于预先建立的敏感词数据库及字符识别结果,确定待识别图像的安全性级别;
电子设备可以预先收集涉及色情、暴力等违法违规内容的字符,建立敏感词数据库。在确定待识别图像对应的字符识别结果后,电子设备可以查找字符识别结果中是否包含上述敏感词数据库中的字符,确定待识别图像的安全性级别。
例如,当电子设备确定字符识别结果中包括上述敏感词数据库中的字符时,可以确定待识别图像的安全性级别为“危险”;当电子设备确定字符识别结果中不包括上述敏感词数据库中的字符时,可以确定待识别图像的安全性级别为“安全”。
其中,上述查找字符识别结果中是否包含敏感词数据库中的字符的具体方式可以为正则匹配等查询方法,在此不做具体说明。
第二种实施方式:将字符识别结果输入文本分类模型,根据字符识别结果的语义特征确定字符识别结果的类型;根据预设的类型与安全性级别的对应关系,确定待识别图像的安全性级别。
电子设备可以预先训练用于确定字符识别结果的类型的文本分类模型,在确定待识别图像对应的字符识别结果后,电子设备可以将字符识别结果输入上述文本分类模型,该文本分类模型根据字符识别结果的语义特征确定字符识别结果的类型并输出该类型。其中,文本分类模型包括语义特征与字符识别结果的类型的对应关系。
上述字符识别结果的类型可以表示字符识别结果包括的内容,例如,字符识别结果的类型可以为色情、广告、暴力、正常等。文本分类模型可以为卷积神经网络、LSTM(LongShort-Term Memory,长短期记忆网络)等深度学习模型,在此不做具体限定。
作为一种实施方式,电子设备可以预先设置字符识别结果的类型与安全性级别的对应关系,在确定字符识别结果的类型之后,可以根据预设的类型与安全性级别的对应关系,确定字符识别结果的类型对应的安全性级别,作为待识别图像的安全性级别。
例如,类型与安全性级别的对应关系如下表所示:
类型 | 安全性级别 |
LI、L2、L3 | 危险 |
L4 | 安全 |
这样,如果电子设备确定字符识别结果的类型为L1,根据上表所示的对应关系,电子设备可以确定字符识别结果的类型L1对应的安全性级别为“危险”,那么待识别图像的安全性级别即为“危险”。
可见,本发明实施例所提供的方案中,电子设备可以基于预先建立的敏感词数据库及字符识别结果,确定待识别图像的安全性级别;或将字符识别结果输入文本分类模型,根据字符识别结果的语义特征确定字符识别结果的类型,根据预设的类型与安全性级别的对应关系,确定待识别图像的安全性级别。这样,电子设备可以根据多种方式准确确定待识别图像的安全性级别。
作为本发明实施例的一种实施方式,当不存在与上述语言种类相匹配的目标字符识别模型时,上述方法还可以包括:
根据预设的安全性规则,确定所述语言种类对应的安全性级别,作为所述待识别图像的安全性级别。
电子设备可以预先设置安全性规则,当不存在与上述语言种类相匹配的目标字符识别模型时,可以根据该安全性规则,确定语言种类对应的安全性级别,作为待识别图像的安全性级别。
例如,安全性规则可以为:当语言种类为阿拉伯文时,该语言种类对应的安全性级别为“危险”;当语言种类为韩文时,该语言种类对应的安全性级别为“未知”。这样,当待识别图像中存在阿拉伯文字符时,可以确定待识别图像的安全性级别为“危险”;当待识别图像中存在韩文字符时,可以确定待识别图像的安全性级别为“未知”。
在一种实施方式中,可以预先设置语言种类与安全类型的对应关系,在确定待识别图像中的矩形框区域对应的语言种类后,电子设备可以根据语言种类与安全类型的对应关系,确定每个矩形框区域对应的安全类别,进而根据每种安全类型对应的矩形框区域的数量与预设安全性阈值,确定待识别图像的安全性级别。
例如,语言种类与安全类型的对应关系如下表所示:
语言种类 | 安全类型 |
阿拉伯文 | Q1 |
韩文、日文、俄文 | Q2 |
如果待识别图像DS1中的矩形框区域JX1、JX2及JX3对应的语言种类不存在相匹配的目标字符识别模型,其中矩形框区域JX1及JX3对应的语言种类为阿拉伯文,矩形框区域JX2对应的语言种类为韩文,根据上表可知,矩形框区域JX1及JX3对应的安全类型为Q1,矩形框区域JX2对应的安全类型为Q2。进而,当待识别图像中所对应的安全类型为Q1的矩形框区域的数量不小于预设安全性阈值时,确定待识别图像的安全性级别为“危险”,如果预设安全性阈值为2,电子设备便可以确定待识别图像DS1的安全性级别为“危险”。
可见,本发明实施例所提供的方案中,当不存在与上述语言种类相匹配的目标字符识别模型时,电子设备可以根据预设的安全性规则,确定语言种类对应的安全性级别,作为待识别图像的安全性级别。这样,当不存在与上述语言种类相匹配的目标字符识别模型时,电子设备可以根据预设的安全性规则准确确定待识别图像的安全性级别。
在一种实施方式中,当上述待识别图像中不包含字符时,电子设备可以确定待识别图像中不包括包含有字符行的矩形框区域,这时电子设备可以确定待识别图像的安全性级别为“安全”。
上述所有深度学习模型均可以基于预先获取的样本以及标定信息,采用批量梯度下降算法、随机梯度下降算法等方法,通过反向传播的方式进行训练得到,对于其具体训练过程本发明实施例在此不做具体限定及说明。
相应于上述图像中字符的识别方法,本发明实施例还提供了一种图像中字符的识别装置。下面对本发明实施例所提供的一种图像中字符的识别装置进行介绍。
如图5所示,一种图像中字符的识别装置,所述装置包括:
图像获取模块501,用于获取待识别图像;
其中,所述待识别图像中包含字符。
字符区域识别模块502,用于对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
语种识别模块503,用于将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类;
其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系。
目标字符模型确定模块504,用于根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型;
其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的。
字符识别模块505,用于将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果。
可见,本发明实施例所提供的方案中,电子设备获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
作为本发明实施例的一种实施方式,上述装置还可以包括:
尺寸判断模块(图5中未示出),用于在对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域之前,判断所述待识别图像的尺寸是否超过预设尺寸;
执行模块(图5中未示出),用于如果所述待识别图像的尺寸未超过预设尺寸,触发所述字符区域识别模块502;
图像分割模块(图5中未示出),用于如果所述待识别图像的尺寸超过预设尺寸,将所述待识别图像划分为多个未超过所述预设尺寸的子图像,将每个所述子图像作为一个待识别图像。
作为本发明实施例的一种实施方式,上述尺寸判断模块可以包括:
纵横比计算子模块(图5中未示出),用于计算所述待识别图像的纵横比;
第一判定子模块(图5中未示出),用于当所述纵横比属于预设区间时,确定所述待识别图像未超过预设尺寸;
第二判定子模块(图5中未示出),用于当所述纵横比不属于预设区间时,确定所述待识别图像超过所述预设尺寸。
作为本发明实施例的一种实施方式,上述图像划分模块可以包括:
目标分割位置确定子模块(图5中未示出),用于基于所述待识别图像中字符像素点的位置,确定所述待识别图像中的目标分割位置;
其中,所述目标分割位置为所述待识别图像中在目标方向上不属于字符的一行像素点,所述目标方向为垂直于所述待识别图像长边的方向。
图像分割子模块(图5中未示出),用于按照所述目标分割位置对所述待识别图像进行分割,得到多个未超过所述预设尺寸的子图像。
作为本发明实施例的一种实施方式,如图6所示,上述目标分割位置确定子模块可以包括:
边缘强度计算单元601,用于根据所述待识别图像中像素点的边缘强度,计算所述待识别图像中所述目标方向上每一行像素点的边缘强度的总和;
候选分割位置确定单元602,用于将所述边缘强度总和小于预设边缘强度的各行像素点确定为候选分割位置;
第一判断单元603,用于按照与基准位置的距离由小到大的顺序,针对每个所述候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离;
其中,所述基准位置为所述待识别图像的所述目标方向的边界。
目标分割位置确定单元604,用于如果当前候选分割位置与所述基准位置的距离不小于所述预设距离,将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置,将所述目标分割位置作为新的基准位置,并返回所述判断当前候选分割位置与所述基准位置的距离是否小于预设距离;
第二判断单元605,用于如果当前候选分割位置与所述基准位置的距离小于所述预设距离,判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离;
第一执行单元606,用于如果下一个所述候选分割位置与所述基准位置的距离小于所述预设距离,返回所述判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离;
第二执行单元607,用于如果下一个所述候选分割位置与所述基准位置的距离不小于所述预设距离,返回所述将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置。
作为本发明实施例的一种实施方式,上述装置还可以包括:
安全性审核模块(图5中未示出),用于在确定每个所述矩形框区域对应的字符识别结果之后,基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别。
作为本发明实施例的一种实施方式,上述安全审核模块可以包括:
第一安全性审核子模块(图5中未示出),用于基于预先建立的敏感词数据库及所述字符识别结果,确定所述待识别图像的安全性级别;或
第二安全性审核子模块(图5中未示出),用于将所述字符识别结果输入文本分类模型,根据所述字符识别结果的语义特征确定所述字符识别结果的类型;根据预设的类型与安全性级别的对应关系,确定所述待识别图像的安全性级别;
其中,所述文本分类模型包括语义特征与字符识别结果的类型的对应关系。
作为本发明实施例的一种实施方式,上述装置还可以包括:
第三安全性审核子模块(图5中未示出),用于当不存在与所述语言种类相匹配的目标字符识别模型时,根据预设的安全性规则,确定所述语言种类对应的安全性级别,作为所述待识别图像的安全性级别。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述任一实施例所述的图像中字符的识别方法步骤。
可见,本发明实施例提供的方案中,电子设备获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一实施例所述的图像中字符的识别方法步骤。
可见,本发明实施例提供的方案中,计算机可读存储介质内存储的计算机程序被处理器执行时,可以获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的图像中字符的识别方法步骤。
可见,本发明实施例提供的方案中,包含指令的计算机程序产品在计算机上运行时,可以获取待识别图像,其中,待识别图像中包含字符;对待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;将每个矩形框区域输入语种识别模型,根据矩形框区域的图像特征进行语种识别,得到每个矩形框区域对应的语言种类,其中,语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;根据预设的语言种类与字符识别模型的对应关系,确定与每个矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;将每个矩形框区域输入对应的目标字符识别模型,根据矩形框区域的图像特征进行字符识别,确定每个矩形框区域对应的字符识别结果。由于电子设备可以通过语种识别模型识别待识别图像中的字符所属的语言种类,根据语言种类可以选择对应语种的目标字符识别模型识别待识别图像中的字符,这样可以提高待识别图像中字符识别的准确度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种图像中字符的识别方法,其特征在于,所述方法包括:
获取待识别图像,其中,所述待识别图像中包含字符;
判断所述待识别图像的尺寸是否超过预设尺寸;
如果是,将所述待识别图像划分为多个未超过所述预设尺寸的子图像,对每个所述子图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
如果否,对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类,其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;
根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;
将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果;
其中,所述将所述待识别图像划分为多个未超过所述预设尺寸的子图像的步骤,包括:
根据所述待识别图像中像素点的边缘强度,计算所述待识别图像中目标方向上每一行像素点的边缘强度的总和;将所述边缘强度总和小于预设边缘强度的各行像素点确定为候选分割位置;按照与基准位置的距离由小到大的顺序,针对每个所述候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离;如果当前候选分割位置与所述基准位置的距离不小于所述预设距离,将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置,将所述目标分割位置作为新的基准位置,并返回所述判断当前候选分割位置与所述基准位置的距离是否小于预设距离的步骤;如果当前候选分割位置与所述基准位置的距离小于所述预设距离,判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离;如果是,返回所述判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离的步骤;如果否,返回所述将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置的步骤,其中,所述像素点的边缘强度用于表征该像素点的像素值与其相邻像素点的像素值之间的差异,所述目标方向为垂直于所述待识别图像长边的方向,所述基准位置为所述待识别图像的所述目标方向的边界;
按照所述目标分割位置对所述待识别图像进行分割,得到多个未超过所述预设尺寸的子图像。
2.根据权利要求1所述的方法,其特征在于,所述判断所述待识别图像的尺寸是否超过预设尺寸的步骤,包括:
计算所述待识别图像的纵横比;
当所述纵横比属于预设区间时,确定所述待识别图像未超过预设尺寸;
当所述纵横比不属于预设区间时,确定所述待识别图像超过所述预设尺寸。
3.根据权利要求1-2任一项所述的方法,其特征在于,在所述确定每个所述矩形框区域对应的字符识别结果的步骤之后,所述方法还包括:
基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别。
4.根据权利要求3所述的方法,其特征在于,所述基于所述字符识别结果对所述待识别图像进行安全性审核,确定所述待识别图像的安全性级别的步骤,包括:
基于预先建立的敏感词数据库及所述字符识别结果,确定所述待识别图像的安全性级别;或
将所述字符识别结果输入文本分类模型,根据所述字符识别结果的语义特征确定所述字符识别结果的类型;根据预设的类型与安全性级别的对应关系,确定所述待识别图像的安全性级别,其中,所述文本分类模型包括语义特征与字符识别结果的类型的对应关系。
5.根据权利要求4所述的方法,其特征在于,当不存在与所述语言种类相匹配的目标字符识别模型时,所述方法还包括:
根据预设的安全性规则,确定所述语言种类对应的安全性级别,作为所述待识别图像的安全性级别。
6.一种图像中字符的识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包含字符;
尺寸判断模块,用于判断所述待识别图像的尺寸是否超过预设尺寸;
图像分割模块,用于在所述待识别图像的尺寸超过所述预设尺寸的情况下,将所述待识别图像划分为多个未超过所述预设尺寸的子图像,对每个所述子图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
字符区域识别模块,用于在所述待识别图像的尺寸未超过所述预设尺寸的情况下,对所述待识别图像进行字符区域识别,确定各个包含有字符行的矩形框区域;
语种识别模块,用于将每个所述矩形框区域输入语种识别模型,根据所述矩形框区域的图像特征进行语种识别,得到每个所述矩形框区域对应的语言种类,其中,所述语种识别模型为预先基于图像样本以及其包括的字符的语言种类进行训练得到的,包括图像特征与语言种类的对应关系;
目标字符模型确定模块,用于根据预设的语言种类与字符识别模型的对应关系,确定与每个所述矩形框区域对应的语言种类相匹配的目标字符识别模型,其中,所述字符识别模型为基于预先获取的包括各个语言种类的字符的图像样本训练得到的;
字符识别模块,用于将每个所述矩形框区域输入对应的目标字符识别模型,根据所述矩形框区域的图像特征进行字符识别,确定每个所述矩形框区域对应的字符识别结果;
其中,图像分割模块,具体用于根据所述待识别图像中像素点的边缘强度,计算所述待识别图像中目标方向上每一行像素点的边缘强度的总和;将所述边缘强度总和小于预设边缘强度的各行像素点确定为候选分割位置;按照与基准位置的距离由小到大的顺序,针对每个所述候选分割位置,判断当前候选分割位置与所述基准位置的距离是否小于预设距离;如果当前候选分割位置与所述基准位置的距离不小于所述预设距离,将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置,将所述目标分割位置作为新的基准位置,并返回所述判断当前候选分割位置与所述基准位置的距离是否小于预设距离的步骤;如果当前候选分割位置与所述基准位置的距离小于所述预设距离,判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离;如果是,返回所述判断下一个所述候选分割位置与所述基准位置的距离是否小于所述预设距离的步骤;如果否,返回所述将所述当前候选分割位置的前一个候选分割位置确定为目标分割位置的步骤;按照所述目标分割位置对所述待识别图像进行分割,得到多个未超过所述预设尺寸的子图像,其中,所述像素点的边缘强度用于表征该像素点的像素值与其相邻像素点的像素值之间的差异,所述目标方向为垂直于所述待识别图像长边的方向,所述基准位置为所述待识别图像的所述目标方向的边界。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388865.5A CN111563495B (zh) | 2020-05-09 | 2020-05-09 | 一种图像中字符的识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388865.5A CN111563495B (zh) | 2020-05-09 | 2020-05-09 | 一种图像中字符的识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563495A CN111563495A (zh) | 2020-08-21 |
CN111563495B true CN111563495B (zh) | 2023-10-27 |
Family
ID=72073391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010388865.5A Active CN111563495B (zh) | 2020-05-09 | 2020-05-09 | 一种图像中字符的识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563495B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070099A (zh) * | 2020-09-08 | 2020-12-11 | 江西财经大学 | 一种基于机器学习的图像处理方法 |
CN112699886A (zh) * | 2020-12-30 | 2021-04-23 | 广东德诚大数据科技有限公司 | 一种字符识别方法、装置及电子设备 |
CN112347262B (zh) * | 2021-01-11 | 2021-04-13 | 北京江融信科技有限公司 | 一种文本分类方法及系统、意图分类系统和机器人 |
CN112800972A (zh) * | 2021-01-29 | 2021-05-14 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、存储介质 |
CN112883966B (zh) * | 2021-02-24 | 2023-02-24 | 北京有竹居网络技术有限公司 | 图像字符识别方法、装置、介质及电子设备 |
CN112883967B (zh) * | 2021-02-24 | 2023-02-28 | 北京有竹居网络技术有限公司 | 图像字符识别方法、装置、介质及电子设备 |
CN112883968B (zh) * | 2021-02-24 | 2023-02-28 | 北京有竹居网络技术有限公司 | 图像字符识别方法、装置、介质及电子设备 |
CN113239967A (zh) * | 2021-04-14 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 文字识别模型训练方法、识别方法、相关设备及存储介质 |
CN113392730A (zh) * | 2021-05-31 | 2021-09-14 | 国网福建省电力有限公司 | 配电网设备图像识别方法及计算机可读存储介质 |
CN115690803A (zh) * | 2022-10-31 | 2023-02-03 | 中电金信软件(上海)有限公司 | 数字图像的识别方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010193154A (ja) * | 2009-02-18 | 2010-09-02 | Mitsubishi Electric Corp | 画像処理装置および画像処理方法 |
CN102915440A (zh) * | 2011-08-03 | 2013-02-06 | 汉王科技股份有限公司 | 一种字符切分的方法及装置 |
CN103118262A (zh) * | 2013-02-04 | 2013-05-22 | 深圳广晟信源技术有限公司 | 率失真优化方法及装置、视频编码方法及系统 |
WO2015100913A1 (zh) * | 2013-12-30 | 2015-07-09 | 小米科技有限责任公司 | 图像缩略图的生成方法、装置和终端 |
CN107135314A (zh) * | 2017-06-21 | 2017-09-05 | 北京奇虎科技有限公司 | 骚扰短信的检测方法、系统、移动终端和服务器 |
CN109299718A (zh) * | 2018-09-21 | 2019-02-01 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
WO2020066072A1 (ja) * | 2018-09-25 | 2020-04-02 | クラリオン株式会社 | 区画線認識装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6268023B2 (ja) * | 2014-03-31 | 2018-01-24 | 日本電産サンキョー株式会社 | 文字認識装置およびその文字切り出し方法 |
JP6491581B2 (ja) * | 2015-10-06 | 2019-03-27 | キヤノン株式会社 | 画像処理装置およびその制御方法ならびにプログラム |
-
2020
- 2020-05-09 CN CN202010388865.5A patent/CN111563495B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010193154A (ja) * | 2009-02-18 | 2010-09-02 | Mitsubishi Electric Corp | 画像処理装置および画像処理方法 |
CN102915440A (zh) * | 2011-08-03 | 2013-02-06 | 汉王科技股份有限公司 | 一种字符切分的方法及装置 |
CN103118262A (zh) * | 2013-02-04 | 2013-05-22 | 深圳广晟信源技术有限公司 | 率失真优化方法及装置、视频编码方法及系统 |
WO2015100913A1 (zh) * | 2013-12-30 | 2015-07-09 | 小米科技有限责任公司 | 图像缩略图的生成方法、装置和终端 |
CN107135314A (zh) * | 2017-06-21 | 2017-09-05 | 北京奇虎科技有限公司 | 骚扰短信的检测方法、系统、移动终端和服务器 |
CN109299718A (zh) * | 2018-09-21 | 2019-02-01 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
WO2020066072A1 (ja) * | 2018-09-25 | 2020-04-02 | クラリオン株式会社 | 区画線認識装置 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
A hybrid cooperative–comprehensive learning based PSO algorithm for image segmentation using multilevel thresholding;Madhubanti Maitra 等;《Expert Systems with Applications》;第34卷(第2期);第1341-1350页 * |
A novel image segmentation approach for wood plate surface defect classification through convex optimization;Zhanyuan Chang 等;《Journal of Forestry Research》;第29卷;第1789-1795页 * |
A Survey Of Genetic Algorithms Applications For Image Enhancement And Segmentation;Mantas Paulinas 等;《Information Technology and Control》;第36卷(第3期);第278-284页 * |
Efficient stereo matching algorithm with edge-detecting;Jing Liu 等;《SPIE》;第9273卷;第1-7页 * |
基于分段式前景涂抹和背景细化的文本行分割;易晓芳 等;《计算机工程》;第39卷(第5期);第204-208页 * |
基于边缘惩罚TMF的无监督SAR图像多类分割算法;宗海涛;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第12期);第I136-313页 * |
条烟图像识别系统的设计与实现;曾弈;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第1期);第I138-1131页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111563495A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563495B (zh) | 一种图像中字符的识别方法、装置及电子设备 | |
CN109685055B (zh) | 一种图像中文本区域的检测方法及装置 | |
CN109726643B (zh) | 图像中表格信息的识别方法、装置、电子设备及存储介质 | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
US11455805B2 (en) | Method and apparatus for detecting parking space usage condition, electronic device, and storage medium | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
WO2019237549A1 (zh) | 验证码识别方法、装置、计算机设备及存储介质 | |
CN109919002B (zh) | 黄色禁停线识别方法、装置、计算机设备及存储介质 | |
CN110135225B (zh) | 样本标注方法及计算机存储介质 | |
CN110503103B (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
CN109389110B (zh) | 一种区域确定方法及装置 | |
CN107977658B (zh) | 图像文字区域的识别方法、电视机和可读存储介质 | |
CN110490190B (zh) | 一种结构化图像文字识别方法及系统 | |
CN108875727B (zh) | 图文标识的检测方法及装置、存储介质、处理器 | |
CN111897962A (zh) | 一种物联网资产标记方法及装置 | |
CN112541372B (zh) | 一种困难样本筛选方法及装置 | |
CN112001406A (zh) | 一种文本区域检测方法及装置 | |
CN111626177A (zh) | 一种pcb元件识别方法及装置 | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN111079480A (zh) | 身份证信息的识别方法、装置及终端设备 | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN115082659A (zh) | 一种图像标注方法、装置、电子设备及存储介质 | |
CN108647570B (zh) | 斑马线检测方法、装置及计算机可读存储介质 | |
CN114511857A (zh) | 一种ocr识别结果处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |