CN117351505A - 信息码的识别方法、装置、设备及存储介质 - Google Patents

信息码的识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117351505A
CN117351505A CN202310993219.5A CN202310993219A CN117351505A CN 117351505 A CN117351505 A CN 117351505A CN 202310993219 A CN202310993219 A CN 202310993219A CN 117351505 A CN117351505 A CN 117351505A
Authority
CN
China
Prior art keywords
information code
text
field
code image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310993219.5A
Other languages
English (en)
Inventor
叶荣光
郭艺娟
谢志崇
高洁
池新生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Fujian Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310993219.5A priority Critical patent/CN117351505A/zh
Publication of CN117351505A publication Critical patent/CN117351505A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提出了一种信息码的识别方法、装置、设备及存储介质,涉及深度学习技术领域,包括:确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像;基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像;基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像;基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段;对文字字段进行关键字段匹配,以得到关键字段的属性值。可以基于文本行检测与文字识别的两阶段深度学习的识别技术,可以通过神经网络抽取高层语义特征,并利用文本行的上下文语义信息克服拍摄不清晰等造成的影响,检测精度高且速度快。

Description

信息码的识别方法、装置、设备及存储介质
技术领域
本公开涉及深度学习技术领域,尤其涉及一种信息码的识别方法、装置、设备及存储介质。
背景技术
信息码可以用于有效检测一个人的近期状态。通过信息码的颜色,可以快速识别一个人途径的省市。信息码虽然便捷,但是在需要记录的时候就变成了一项重复枯燥的工作,需要安排专人去逐一查看数据、记录数据、审核数据、录入系统或者文档,小数据或许还好,但是数据量一大就显得尤为麻烦,如何减少人力物力而快速记录、审核、校验这些数据,让整个防疫系统更加简便、快速、准确,就变得尤为迫切。
因而,如何高效、准确的对信息码进行自动识别,减少对人力物力资源的浪费,是目前亟需解决的问题。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
本公开第一方面实施例提出了一种信息码的识别方法,包括:
确定待识别的第一信息码图像,并将所述第一信息码图像转化为指定颜色模型的第二信息码图像;
基于每个待识别区域的颜色特征,对所述第二信息码图像进行定位,以得到第三信息码图像;
基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像;
基于预先构建的第二识别模型对所述文字区域图像进行识别,以得到文字字段;
对所述文字字段进行关键字段匹配,以得到关键字段的属性值。
本公开第二方面实施例提出了一种信息码的识别装置,包括:
确定模块,用于确定待识别的第一信息码图像,并将所述第一信息码图像转化为指定颜色模型的第二信息码图像;
定位模块,用于基于每个待识别区域的颜色特征,对所述第二信息码图像进行定位,以得到第三信息码图像;
检测模块,用于基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像;
识别模块,用于基于预先构建的第二识别模型对所述文字区域图像进行识别,以得到文字字段;
匹配模块,用于对所述文字字段进行关键字段匹配,以得到关键字段的属性值。
本公开第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的信息码的识别方法。
本公开第四方面实施例提出了一种非临时性计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如本公开第一方面实施例提出的信息码的识别方法。
本公开提供的信息码的识别方法、装置、设备及存储介质,存在如下有益效果:
本公开实施例中,首先确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像,之后基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像,然后基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像,之后基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段,最后对文字字段进行关键字段匹配,以得到关键字段的属性值。由此,可以基于文本行检测与文字识别的两阶段深度学习的识别技术,可以通过神经网络抽取高层语义特征,并利用文本行的上下文语义信息克服拍摄不清晰等造成的影响,检测精度高且速度快,降低人工成本和录入误差,提高录入效率和信息精准度,实现抢时间、提效率的重要意义。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本公开实施例所提供的一种信息码的识别方法的流程示意图;
图2为本公开实施例所提供的一种信息码的识别方法的结构框图;
图3为本公开实施例所提供的一种信息码的识别装置的结构框图;
图4示出了适于用来实现本公开实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
下面参考附图描述本公开实施例的信息码的识别方法、装置、计算机设备和存储介质。
需要说明的是,本公开实施例中的信息码的识别方法的执行主体为信息码的识别装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在任意电子设备中。
图1为本公开第一实施例所提供的信息码的识别方法的流程示意图。
如图1所示,该信息码的识别方法可以包括以下步骤:
步骤101,确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像。
其中,第一信息码图像可以为待识别的信息码图像。
其中,指定颜色模型可以为HSV颜色模型。
其中,第二信息码图像可以为将第一信息码图像转换之后的HSV颜色模型的信息码图像。
需要说明的是,根据信息码中身体状况码和特征码的特征,可以确定必需识别区域与不需要识别区域边界存在颜色差异,使用HSV颜色模型进行颜色范围提取来判断识别类型和识别区域,利用HSV颜色模型最终会将RGB的第一信息码图像转化为HSV色彩空间,根据两码中部分区域的色调(H)、饱和度(S)、明度(V)来找出两码中属于绿色、红色、蓝色、黄色等色调,这些区域可以是两码的二维码区域、身份信息区域等,具体转化公式说明如下,其中R、G、B分别表示两码图像中三通道:
步骤102,基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像。
其中,待识别区域可以为二维码区域、身份信息区域,在此不进行限定。需要说明的是,不同待识别区域的颜色色调可以是不同的。每个待识别区域都有对应的颜色特征。
其中,第三信息码图像可以为第二信息码图像中各个待识别区域的子图像。由此,不仅能够弥补光学字符识别(Optical Character Recognition,OCR)模型输出信息缺失的问题,也能够让有效去除冗余信息并加速识别。
步骤103,基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像。
需要说明的是,检测出信息码上的“眼睛”图像的睁开或者关闭,可以知道持有者的个人信息是否被保护。其次,检测出信息码的码区可以知道持有者的码的颜色并为得到码区的坐标。
可选的,还可以基于目标检测模型对身体状况码进行检测。
其中,目标检测模型根据预测目标检测框内的存在的概率根据二元交叉熵去计算类别损失,假设oi∈{0,1}那么当目标框中存在码区或“眼睛”,oi=1,否则oi=0,具体公式可以表示为:
Lconf(o,c)=-∑(oiln(Sigmoid(ci)+(1-oi)ln(1-Sigmoid(ci)))
同样的利用二元交叉熵,对检测框中目标类别计算类别损失,其中正样本会得到类别损失,其中Oij∈{0,1}表示预测框i中是否存在类别j,当存在时等于1,否则等于0,具体公式表达为:
最后对正样本进行预测框和输出框做定位损失并结合前面两点来不断优化模型所学习到的权重参数,最终对身体状况码上的“眼睛”、码区等物件进行检测定位,从而达到对身体状况码的判别。
可选的,在基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像之前,还包括:
获取训练样本数据,其中,训练样本数据包括途行码对应的第一训练样本数据和身体状况码对应的第二训练样本数据;
基于第一训练样本数据,分别对DBNet文本检测模型和SVTR文本识别模型进行训练,以得到用于对途行码进行识别的第一识别模型和第二识别模型;
基于第二训练样本数据,对基于CRNN-CTC的网络模型进行训练,以得到用于对身体状况码进行识别的第一识别模型和第二识别模型。
其中,DBNet(Differentiable Binarization Network)文本检测模型是一种用于文本检测任务的网络模型。它主要用于检测图像中的文本区域,将其标记出来并生成对应的边界框,从而实本的定位和提取。
SVTR(Scene Text Recognition with Single Visual Model,基于单一视觉模型的场景文本识别)文本识别模型是一种用于自然场景中文本识别的模型。它的目标是将文本图像进行识别,将图像中的文字转换成对应的文本字符串。这通常由卷积神经网络(CNN)和循环神经网络(RNN)等组合构建,通过学习字符序列的概率分布来实现文本的识别。
CRNN-CTC(Convolutional Recurrent Neural Network with ConnectionistTemporal Classification,具有连接主义时间分类的卷积递归神经网络)是一种用于场景文本识别的模型架构。它将卷积神经网络(CNN)和循环神经网络(RNN)结合起来,以实现对自然场景中的文本进行端到端的识别。
在CRNN-CTC模型中,CNN主要用于提取图像特征,将图像转换为特征序列。R则用于对这些特征序列进行处理,以捕捉文本中的上下文信息和序列关系。而CTC(ConnectionistTemporal Classification,连接主义的时间分类)是一种无需对齐标签和输入的方法,它允许模型直接从输入序列到输出序列进行映射,无需明确对齐标签和输入的对应关系。
通过CRNN-CTC模型,可以实现对包含不定长度文本的图像进行识别,它已经在场景文本识别任务中取得了很好的效果。
其中,第一训练样本数据可以为预先对大量的身体状况码样本进行标注得到的数据,按需要识别的物件标注检测框和类别,利用马赛克、多图片融合、模拟目标遮挡等数据增强方式增加训练样本,来让模型更具有鲁棒性和解决样本量不平衡的问题。
其中,在设计目标检测模型上采用增加注意力机制轻量化模块增强模型对图像语义上的理解,同时打破在计算时局部上的限制来达到像素之间长距离的交互,强化了模型分配重要信息特征的能力。
可选的,在获取训练样本数据时,可以首先获取不同型号的设备对应的多个信息码截图,信息码截图包括身体状况码截图和途行码截图,然后对信息码截图进行背景提取,以获取包含待识别关键字段的背景图,之后根据信息码截图,生成多个第一文本行数据,并对多个第一文本行数据进行数据增强处理,以得到第二文本行数据,最后对第二文本行数据和背景图进行融合,以得到训练样本数据。
其中,设备可以是手机。
其中,待识别关键字段可以为身份信息字段、检验结果字段等等,在此不做限定。
其中,可以对信息码截图进行背景提取,以提取需要识别的关键字段的背景制作目标场景图像背景模板。具体的,可以根据各个分析字段的组成逻辑,并使用字典生成相应的语料库。然后,通过使用多种字体按照语料库生成文本行数据,并将其与之前提取的背景进行随机偏移、旋转、缩放和加噪音等处理,提高神经网络模型的鲁棒性。最后,将生成的文本行数据与背景进行融合,形成文字识别模型的训练数据集。
步骤104,基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段。
需要说明的是,对途行码的文字区域图像进行识别的第二识别模型可以为SVTR文本识别模型。可选的,通过第一识别模型检测并识别出行程卡的文本区域图像,将文本区域图像会分别送入第二识别模型内,根据第二识别模型内部的全局混合模块来评价文本区域中是否有文本和非文本元素存在,即评价文本内容之间的相关性,来达到削弱非文本因素的影响,之后经过局部混合模块来评估模块预先设定好的窗口内像素之间的相关性,这对于模拟出文本的字形和笔画至关重要。由于途行码上文本的特点为文本长度不一,高度一致,在SVTR整个网络传递过程中的只对下采样模块中的高度进行改变,来到减少整体计算开销的效果。利用SVTR模型所输出的文本内容,可根据例如时间、地区、名称、手机号等正则匹配规则就可确定该码是途行码。
在对身体状况码进行检测时,可以是首先进行特征提取,也即可以利用身体状况码图像进行特征提取。这是通过CRNN-CTC网络的卷积神经网络(CNN)部分来实现的,CNN负责从图像中提取特征。之后可以通过循环神经网络(RNN)结构对文本行进行处理,提取其上下文信息。RNN部分负责在特征序列中建模文本的上下文关系。损失函数:采用CTC作为损失函数进行训练。CTC是一种无需对齐标方法,它允许模型直接从特征序列到输出序列进行映射。它可以在模型训练过程中处理不定长度的文本,并自动去重和去空以确定所需识区域的文字内容。
步骤105,对文字字段进行关键字段匹配,以得到关键字段的属性值。
可选的,可以根据第一信息码图像对应的类型,确定与类型关系关联的相对位置关系,其中,相对位置关系为各个关键字段的字段名称和字段属性的相对位置关系,之后根据字段名称和字段属性的相对位置关系,确定文字字段中每个关键字段的字段名称对应的属性值。其中,关键字段可以为姓名、性别、身份证号码、体温、行程轨迹等,在此不进行限定。需要说明的是,可以根据不同类型不同省份的信息码的设计,确定需要识别的关键字段。通过对通过对信息码文字识别模型输出结果的分析,匹配关键字段的名称和位置。例如,通过匹配“姓名”字段的位置和名称,确定信息码中的姓名信息。之后可以根据匹配到的关键字段的位置和名称,获得对应字段的属性值。例如,通过匹配到的“姓名”字段位置和名称,获得信息码中的姓名属性值。
本公开实施例中,首先确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像,之后基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像,然后基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像,之后基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段,最后对文字字段进行关键字段匹配,以得到关键字段的属性值。由此,可以基于文本行检测与文字识别的两阶段深度学习的识别技术,可以通过神经网络抽取高层语义特征,并利用文本行的上下文语义信息克服拍摄不清晰等造成的影响,检测精度高且速度快,降低人工成本和录入误差,提高录入效率和信息精准度,实现抢时间、提效率的重要意义。
图2为本公开第二实施例所提供的信息码的识别方法的流程示意图。
如图2所示,该信息码的识别方法可以包括以下步骤:
步骤201,确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像。
需要说明的是,步骤201的具体实现方式可以参照上述实施例,在此不进行赘述。
步骤202,判断第一信息码图像中是否出现异常区域,以得到第一信息码图像是否经过修改的判断结果。
具体的,可以先利用图像分类的方法,使用深度神经网络架构中卷积运算提取特征或视觉Transformer中注意力机制对图像进行全局建模,来有效地挖掘图像语义信息,由于信息码整图解析度过高,在进入模型前可以先将图片打成补丁,调整成固定的大小,这样既保证了图像质量不会流失也保证了计算速度,假设每个补丁的解析度为480×480,那么patch的数量就为P表示图像块的大小。这里设输入的为/>,Cin表示输入图像通道数,假设图像经过函数f(i,j,a,b),以(i,j)为中心且大小为k×k的2D窗口N(i,j)中的每个位置返回权重矩阵/>为此定义一个二维的聚合函数计算再(i,j)位置的输出为/>
对于卷积运算而言,f(i,j,a,b)为相邻区域内返回的线性变换,这些权重在所有的位置(i,j)共享,这里得出卷积的聚合函数:
f(i,j,a,b)conv=Wa-i,b-j
需要说明的是,对于自注意而言,WQ、WK、WV是在所有空间位置学习得到且共享的线性变换,当用于X时,分别产生对应的Q、K、V,空间上的相对位置由ra-i,b-j捕获,它是根据相对位置嵌入学习得到,这里得到自注意力的聚合函数:
可选的,可以通过使用深度神经网络和视觉Transformer对大量样本分类,找出正负样本的差异性,从而有效地局部特征来识别图像异常区域,最后可以利用Grad-CAM等方法对模型分出的异常样本可视化出异常区域,具体公式为:
由于OCR图像在图像上的语义特征相似,且实际场景中可以获得数量极大的正样本,而被修改等细微改变的负样本相对较少,为此利用生成对抗网络模型,在训练时只针对正常图像进行训练,而在测试时正常和异常混合的数据,这样我们在得到的只能生成正常图像的分布上去生成异常图像,通过将生成的图像和原图做消减就可以得出可能为被修改的区域。
步骤203,基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像。
步骤204,基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像。
需要说明的是,步骤203、204的具体实现方式可以参照上述实施例,在此不进行赘述。
步骤205,对文字区域图像进行校正。
需要说明的是,可以使用OCR文字方向分类对检测到的文字区域进行旋转、翻转和颠倒等检测,并结合文字坐标计算文字区域图像的倾斜角度后进行校正。
步骤206,基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段。
步骤207,对文字字段进行关键字段匹配,以得到关键字段的属性值。
需要说明的是,步骤206、207的具体实现方式可以参照上述实施例,在此不进行赘述。
步骤208,基于正则匹配来校验字段名称对应的属性值的数据格式是否正确。
需要说明的是,可以首先根据预定义的字段名称列表,从文字识别结果中也即文字字段中识别出关键字段的名称。然后可以根据字段名称进行匹配,从而确定每个关键字段的位置。在进行数据格式校验时,可以是基于属性值的字段名称,使用正则表达式来校验属性值的数据格式是否正确。正则表达式可以根据具体字段的要求来编写,确保属性值满足指定的格式要求。
步骤209,对第一信息码图像进行颜色识别,以判断信息码的颜色是否与颜色字段对应。
可选的,可以使用使用图像处理和计算机视觉技术,对第一信息码图像进行颜色识别。可能需要使用颜色模型(如RGB、HSV等)来表示图像中的颜色,并使用相应的算法进行颜色识别。然后可以根据OCR文字识别结果中颜色的名称匹配结果,确定颜色字段的位置。然后,从识别的文本结果中提取颜色字段的属性值。最后可以根据颜色字段的值和实际颜色识别结果进行对比,判断信息码的颜色是否与颜色字段对应。可以使用条件语句或逻辑判断来进行判断,并根据结果采取相措施。
本公开实施例中,首先确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像,然后可以判断第一信息码图像中是否出现异常区域,以得到第一信息码图像是否经过修改的判断结果,之后基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像,然后基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像,然后对文字区域图像进行校正,基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段,然后可以对文字字段进行关键字段匹配,以得到关键字段的属性值,最后基于正则匹配来校验字段名称对应的属性值的数据格式是否正确。由此,有效地利用局部特征来识别图像异常区域,最后可以对模型分出的异常样本可视化出异常区域,该技术方案对PS、修改等细微操作敏感,图像正常的压缩、锐化、调色不会误判,能够迅速检测信息码图像是否伪造和篡改,场景适配度高、迭代速度快、准确率高,使用不同场景的清晰和模糊数据快速训练深度学习OCR算法模型,与应用场景打通反馈回路持续快速迭代自学习,从而获得泛化性能更好的模型,提升了OCR文字识别对复杂场景信息码的识别效果。
为了实现上述实施例,本公开还提出一种信息码的识别装置。
图3为本公开第三实施例所提供的信息码的识别装置的结构框图。
如图3所示,该信息码的识别装置300可以包括:
确定模块310,用于确定待识别的第一信息码图像,并将所述第一信息码图像转化为指定颜色模型的第二信息码图像;
定位模块320,用于基于每个待识别区域的颜色特征,对所述第二信息码图像进行定位,以得到第三信息码图像;
检测模块330,用于基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像;
识别模块340,用于基于预先构建的第二识别模型对所述文字区域图像进行识别,以得到文字字段;
匹配模块350,用于对所述文字字段进行关键字段匹配,以得到关键字段的属性值。
可选的,所述匹配模块,具体用于:
根据所述第一信息码图像对应的类型,确定与所述类型关系关联的相对位置关系,其中,所述相对位置关系为各个关键字段的字段名称和字段属性的相对位置关系;
根据所述字段名称和字段属性的相对位置关系,确定所述文字字段中每个关键字段的字段名称对应的属性值。
可选的,所述检测模块,还用于:
对所述文字区域图像进行校正。
可选的,所述匹配模块,还用于:
基于正则匹配来校验所述字段名称对应的属性值的数据格式是否正确;
对所述第一信息码图像进行颜色识别,以判断所述信息码的颜色是否与颜色字段对应。
可选的,所述检测模块,还包括:
获取单元,用于获取训练样本数据,其中,所述训练样本数据包括途行码对应的第一训练样本数据和身体状况码对应的第二训练样本数据;
第一训练单元,用于基于所述第一训练样本数据,分别对DBNet文本检测模型和SVTR文本识别模型进行训练,以得到用于对途行码进行识别的所述第一识别模型和所述第二识别模型;
第二训练单元,用于基于所述第二训练样本数据,对基于CRNN-CTC的网络模型进行训练,以得到用于对身体状况码进行识别的所述第一识别模型和所述第二识别模型。
可选的,所述获取单元,具体用于:
获取不同型号的设备对应的多个信息码截图,所述信息码截图包括身体状况码截图和途行码截图;
对所述信息码截图进行背景提取,以获取包含待识别关键字段的背景图;
根据所述信息码截图,生成多个第一文本行数据,并对所述多个第一文本行数据进行数据增强处理,以得到第二文本行数据;
对所述第二文本行数据和所述背景图进行融合,以得到训练样本数据。
可选的,所述确定模块,还用于:
判断所述第一信息码图像中是否出现异常区域,以得到所述第一信息码图像是否经过修改的判断结果。
本公开实施例中,首先确定待识别的第一信息码图像,并将第一信息码图像转化为指定颜色模型的第二信息码图像,之后基于每个待识别区域的颜色特征,对第二信息码图像进行定位,以得到第三信息码图像,然后基于预先构建的第一识别模型对第三信息码图像进行检测,以得到文字区域图像,之后基于预先构建的第二识别模型对文字区域图像进行识别,以得到文字字段,最后对文字字段进行关键字段匹配,以得到关键字段的属性值。由此,可以基于文本行检测与文字识别的两阶段深度学习的识别技术,可以通过神经网络抽取高层语义特征,并利用文本行的上下文语义信息克服拍摄不清晰等造成的影响,检测精度高且速度快,降低人工成本和录入误差,提高录入效率和信息精准度,实现抢时间、提效率的重要意义。
为了实现上述实施例,本公开还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的信息码的识别方法。
为了实现上述实施例,本公开还提出一种非临时性计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如本公开前述实施例提出的信息码的识别方法。
图4示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图4显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种信息码的识别方法,其特征在于,包括:
确定待识别的第一信息码图像,并将所述第一信息码图像转化为指定颜色模型的第二信息码图像;
基于每个待识别区域的颜色特征,对所述第二信息码图像进行定位,以得到第三信息码图像;
基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像;
基于预先构建的第二识别模型对所述文字区域图像进行识别,以得到文字字段;
对所述文字字段进行关键字段匹配,以得到关键字段的属性值。
2.根据权利要求1所述的方法,其特征在于,在所述对所述文字字段进行关键字段匹配,以得到关键字段的属性值,包括:
根据所述第一信息码图像对应的类型,确定与所述类型关系关联的相对位置关系,其中,所述相对位置关系为各个关键字段的字段名称和字段属性的相对位置关系;
根据所述字段名称和字段属性的相对位置关系,确定所述文字字段中每个关键字段的字段名称对应的属性值。
3.根据权利要求1所述的方法,其特征在于,在所述基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像之后,还包括:
对所述文字区域图像进行校正。
4.根据权利要求1所述的方法,其特征在于,在所述对所述文字字段进行关键字段匹配,以得到关键字段的属性值之后,还包括:
基于正则匹配来校验所述字段名称对应的属性值的数据格式是否正确;
对所述第一信息码图像进行颜色识别,以判断所述信息码的颜色是否与颜色字段对应。
5.根据权利要求1所述的方法,其特征在于,在所述基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像之前,还包括:
获取训练样本数据,其中,所述训练样本数据包括途行码对应的第一训练样本数据和身体状况码对应的第二训练样本数据;
基于所述第一训练样本数据,分别对DBNet文本检测模型和SVTR文本识别模型进行训练,以得到用于对途行码进行识别的所述第一识别模型和所述第二识别模型;
基于所述第二训练样本数据,对基于CRNN-CTC的网络模型进行训练,以得到用于对身体状况码进行识别的所述第一识别模型和所述第二识别模型。
6.根据权利要求5所述的方法,其特征在于,所述获取训练样本数据,包括:
获取不同型号的设备对应的多个信息码截图,所述信息码截图包括身体状况码截图和途行码截图;
对所述信息码截图进行背景提取,以获取包含待识别关键字段的背景图;
根据所述信息码截图,生成多个第一文本行数据,并对所述多个第一文本行数据进行数据增强处理,以得到第二文本行数据;
对所述第二文本行数据和所述背景图进行融合,以得到训练样本数据。
7.根据权利要求1所述的方法,其特征在于,在所述确定待识别的第一信息码图像之后,还包括:
判断所述第一信息码图像中是否出现异常区域,以得到所述第一信息码图像是否经过修改的判断结果。
8.一种信息码的识别装置,其特征在于,包括:
确定模块,用于确定待识别的第一信息码图像,并将所述第一信息码图像转化为指定颜色模型的第二信息码图像;
定位模块,用于基于每个待识别区域的颜色特征,对所述第二信息码图像进行定位,以得到第三信息码图像;
检测模块,用于基于预先构建的第一识别模型对所述第三信息码图像进行检测,以得到文字区域图像;
识别模块,用于基于预先构建的第二识别模型对所述文字区域图像进行识别,以得到文字字段;
匹配模块,用于对所述文字字段进行关键字段匹配,以得到关键字段的属性值。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一所述的信息码的识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的信息码的识别方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现如权利要求1-7中任一所述的信息码的识别方法。
CN202310993219.5A 2023-08-08 2023-08-08 信息码的识别方法、装置、设备及存储介质 Pending CN117351505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310993219.5A CN117351505A (zh) 2023-08-08 2023-08-08 信息码的识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310993219.5A CN117351505A (zh) 2023-08-08 2023-08-08 信息码的识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117351505A true CN117351505A (zh) 2024-01-05

Family

ID=89362035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310993219.5A Pending CN117351505A (zh) 2023-08-08 2023-08-08 信息码的识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117351505A (zh)

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
TWI744283B (zh) 一種單詞的分割方法和裝置
US9002066B2 (en) Methods, systems and processor-readable media for designing a license plate overlay decal having infrared annotation marks
CN108764352B (zh) 重复页面内容检测方法和装置
CN110175609B (zh) 界面元素检测方法、装置及设备
CN110058838B (zh) 语音控制方法、装置、计算机可读存储介质和计算机设备
CN110135225B (zh) 样本标注方法及计算机存储介质
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN113344826A (zh) 图像处理方法、装置、电子设备及存储介质
CN112232354A (zh) 一种文字识别方法、装置、设备及存储介质
CN113361467A (zh) 基于领域适应的车牌识别方法
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN114519689A (zh) 图像篡改检测方法、装置、设备及计算机可读存储介质
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN116071557A (zh) 一种长尾目标检测方法、计算机可读存储介质及驾驶设备
US20150169973A1 (en) Incomplete patterns
CN117351505A (zh) 信息码的识别方法、装置、设备及存储介质
Castillo et al. Object detection in digital documents based on machine learning algorithms
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
CN111680691B (zh) 文字检测方法、装置、电子设备和计算机可读存储介质
CN111626244B (zh) 图像识别方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination