CN114220103A - 图像识别方法、装置、设备及计算机可读存储介质 - Google Patents
图像识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114220103A CN114220103A CN202210159280.5A CN202210159280A CN114220103A CN 114220103 A CN114220103 A CN 114220103A CN 202210159280 A CN202210159280 A CN 202210159280A CN 114220103 A CN114220103 A CN 114220103A
- Authority
- CN
- China
- Prior art keywords
- image
- cell
- character
- cells
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像识别方法、装置、设备及计算机可读存储介质,通过图像分割模型对待识别图像进行图像分割得到多个单元格以及与各单元格对应的单元格标识,然后对各单元格进行文字识别,基于各单元格对应的单元格标识,确定与各单元格的文字识别结果对应的关联文字数据,根据各单元格的文字识别结果以及与各文字识别结果对应的关联文字数据生成目标格式的图像识别数据,也即,可以对图像进行自动识别,然后转换成目标格式的图像识别数据,实现了自动化信息识别与录入,提升了信息识别与录入效率,降低了人力成本。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种图像识别方法、装置、设备及计算机可读存储介质。
背景技术
随着信息化进程的不断推进,为便于各种资料的信息化数据管理,往往需要将各纸质版资料中的数据录入系统,转换成电子档数据进行存储。但是目前通常需要相关人员通过人工的方式识别纸质版资料中的信息,然后通过人工的方式进行信息录入,无法实现信息自动化识别及录入。以居民户口簿为例,居民户口簿是我国公民的重要证件,由中华人民共和国公安部制,用于登记住户人员的姓名、籍贯、出生日期、具体职称、职业等内容。为便于统一化管理,需要工作人员对居民户口簿中的信息进行识别,然后以人工的方式将信息录入系统,通过人工的方式进行信息识别以及录入,人力成本较高且效率较低。
发明内容
本申请实施例的目的在于提供一种图像识别方法、装置、设备及计算机可读存储介质,用以解决现有技术中通过人工的方式进行信息识别以及录入,人力成本较高且效率较低的问题。
本申请实施例提供一种图像识别方法,所述方法包括:
获取待识别图像;
根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识;
对各所述单元格进行文字识别;
基于各所述单元格对应的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据;
根据各所述单元格的文字识别结果、以及与各所述文字识别结果对应的所述关联文字数据生成目标格式的图像识别数据。
在上述实现过程中,可以对图像中的信息进行自动识别,然后直接转换成目标格式的图像识别数据,实现了信息自动化识别与录入,提升了信息识别与录入效率,降低了人力成本。
进一步地,所述待识别图像为表格型图像。
在上述实现过程中,可以对表格型图像中的信息进行自动识别。
进一步地,所述基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据,包括:
针对每一所述单元格,根据该单元格的单元格标识、以及预设的单元格标识之间的对应关系,确定与所述单元格标识对应的另一单元格标识;
根据所述另一单元格标识、以及单元格与单元格标识的对应关系确定出与所述单元格对应的另一单元格;
获取所述另一单元格的文字识别结果,并将该文字识别结果作为与所述单元格的文字识别结果对应的关联文字数据。
在上述实现过程中,可以将待识别图像中的至少两个单元格的文字识别结果关联起来,并根据相互关联的文字识别结果生成目标格式的图像识别数据,由于可以将待识别图像中的相关信息进行关联,所以更便于用户从中提取需要的信息。
进一步地,所述基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据,包括:
针对每一所述单元格,根据该单元格的单元格标识、以及预设的单元格标识与标签条目数据之间的对应关系,确定与该单元格标识对应的标签条目数据,并将该标签条目数据作为与所述单元格的文字识别结果对应的关联文字数据。
在上述实现过程中,根据预设的单元格标识与标签条目数据之间的对应关系确定待识别图像每一单元格的标签条目数据,并根据每一单元格的文字识别结果以及对应的标签条目数据生成目标格式的图像识别数据,由于可以对待识别图像中的各信息关联对应的标签条目数据,所以更便于用户从中提取需要的信息。
进一步地,所述目标格式为表格型格式。
在上述实现过程中,可以将待识别图像中的信息转换成表格型格式的图像识别数据,实现了信息自动化识别与录入。
进一步地,在所述根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识之前,所述方法还包括:
获取图像样本数据集,所述图像样本数据集中包括多个样本图像的样本数据,每一所述样本数据包括对应样本图像中标注的多个单元格的位置信息及与各单元格对应的单元格标识;
基于所述图像样本数据集进行训练,得到所述图像分割模型。
在上述实现过程中,通过对图像样本数据集进行训练得到对待识别图像进行图像分割的图像分割模型,使分割结果更加准确。
进一步地,所述基于所述图像样本数据集进行训练,得到所述图像分割模型,包括:
针对各所述样本图像中的各所述单元格,利用目标检测算法从各所述样本图像中确定出与相应的所述单元格对应的候选框图像区域的位置信息;
基于区域回归算法,根据各所述样本图像中标注的各所述单元格的位置信息、以及各所述单元格对应的候选框图像区域的位置信息计算神经网络模型的模型损失;
基于所述模型损失进行训练得到所述图像分割模型。
在上述实现过程中,可以基于区域回归算法对候选框图像区域的位置信息进行修正,使得到的图像分割模型更加可靠,保证了利用该图像分割模型进行图像分割的准确性。
本申请实施例还提供了一种图像识别装置,包括:
获取模块,用于获取待识别图像;
分割模块,用于根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识;
识别模块,用于对各所述单元格进行文字识别;
确定模块,用于基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据;
生成模块,用于根据各所述单元格的文字识别结果、以及与各所述文字识别结果对应的所述关联文字数据生成目标格式的图像识别数据。
本申请实施例还提供了一种设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任意一种方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任意一种方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的图像识别方法的流程示意图;
图2为本申请实施例一提供的进行模型训练的流程示意图;
图3为本申请实施例一提供的确定关联文字数据的流程示意图;
图4为本申请实施例一提供的一种待识别图像的示意图;
图5为本申请实施例一提供的第一种对待识别图像进行图像分割的示意图;
图6为本申请实施例一提供的第二种对待识别图像进行图像分割的示意图;
图7为本申请实施例一提供的第三种对待识别图像进行图像分割的示意图;
图8为本申请实施例二提供的图像识别方法的流程示意图;
图9为本申请实施例二提供的对户口簿样本图像进行框选的示意图;
图10为本申请实施例三提供的图像识别装置的结构示意图;
图11为本申请实施例四提供的设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面将提供多个实施例,来具体介绍图像识别方法、装置、设备及计算机可读存储介质。
实施例一:
为解决现有技术中通过人工的方式进行信息识别以及录入,人力成本较高且效率较低的问题,本申请实施例提供一种图像识别方法,该方法可以应用于任意可以进行图像识别的设备中,该设备可以是 PC(Personal Computer,个人电脑)、手机、平板电脑、笔记本电脑、虚拟主机等。请参见图1所示,该方法可以包括以下步骤:
S11:获取待识别图像。
应当说明的是,步骤S11中的待识别图像可以是任意类型的包含有文字内容的图像,比如,可以是表格型图像,也可以是非表格型图像。本实施例中的表格型图像是指图像中本身就包含有至少一个单元格的图像,本实施例中单元格的形状包括但不限于是三角形、矩形、正方形、圆形等等。
步骤S11中的待识别图像可以是任意的图片格式,包括但不限于是bmp格式、jpg格式、png格式、psd格式、raw格式等等。当需要识别的信息载体是非图片格式时,可以自动将其转换为图片格式,比如,当需要对pdf文件中的信息进行识别时,可以自动将该pdf文件转换为图片格式,当需要对纸质资料中的信息进行识别时,自动对该纸质资料拍照转换成图片格式。
S12:根据预设的图像分割模型对待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识。
应当说明的是,在第一种示例中,该预设的图像分割模型可以将待识别图像平均划分为N个单元格,并针对分割得到的每一单元格,确定其对应的单元格标识,可以理解的是,该预设的图像分割模型对应的图像分割规则可以由开发人员任意设置,除了平均划分为N个单元格之外,还可以进行不均等分割等等。在第二种示例中,当待识别图像为表格型图像时,该预设的图像分割模型可以根据该表格型图像中各单元格的实际位置对该表格型图像进行图像分割,使得分割得到的各单元格刚好与该表格型图像中实际存在的单元格对应,并针对分割得到的每一单元格,确定其对应的单元格标识。在第三种示例中,设备中可以预先存储第一图像分割模型和第二图像分割模型,当待识别图像为表格型图像时,该预设的第一图像分割模型可以根据该表格型图像中各单元格的实际位置对该表格型图像进行图像分割,使得分割得到的各单元格刚好与该表格型图像中实际存在的单元格对应。当待识别图像为非表格型图像时,可以通过该预设的第二图像分割模型将该待识别图像平均划分为N个单元格。
可以理解的是,本实施例中预设的图像分割模型可以是通过训练得到的模型。具体的,在步骤S12之前,可以获取图像样本数据集,然后基于图像样本数据集进行训练,得到步骤S12中所述的图像分割模型,本实施例中的图像样本数据集中包括多个样本图像的样本数据,每一样本数据包括对应样本图像中标注的多个单元格的位置信息及与各单元格对应的单元格标识。为确保训练得到的图像分割模型的可靠性,本实施例中的多个样本图像可以是经过图像归一化处理的图像。比如,在获取得到用于进行训练的图像后,可以按照预先设定的参数模板对各图像进行图像裁剪、图像尺寸调整、图像旋转调整、图像亮度或对比度调节、图像色调或饱和度调节等。
应当说明的是,当样本图像为非表格型图像时,针对每一样本图像,可以将该样本图像平均划分为N个单元格,并标注各单元格的位置信息以及各单元格对应的单元格标识。当样本图像为表格型图像时,则可以根据各单元格在样本图像中的实际位置标注各单元格的位置信息,该位置信息可以是任意的内容形式,只要能在样本图像中唯一定位各单元格的位置即可,比如,当单元格的形状是矩形时,为样本图像中各矩形单元格标注的位置信息可以是各矩形单元格的两个对角点的位置坐标,当该单元格的形状是圆形时,为样本图像中各圆形单元格标注的位置信息可以是各圆形单元格的中心点坐标和半径大小。本实施例中的单元格标识是指样本图像中单元格的唯一身份标志。在一个可选的实施例中,针对每一样本图像,可以对该样本图像中的各单元格依次编号1、2、3……,将该编号作为单元格的单元格标识。
请参见图2所示,在本实施例中,基于图像样本数据集进行训练,得到图像分割模型,可以包括如下子步骤:
S121:针对各样本图像中的各单元格,利用目标检测算法从各样本图像中确定出与相应的单元格对应的候选框图像区域的位置信息。
步骤S121中可以使用任意类型的目标检测算法确定各候选框图像区域的位置信息,比如,可以使用R-CNN(Regions with CNN features,区域卷积神经网络)算法、Fast R-CNN算法以及Faster R-CNN算法等。
S122:基于区域回归算法,根据各样本图像中标注的各单元格的位置信息、以及各单元格对应的候选框图像区域的位置信息计算神经网络模型的模型损失。
S123:基于模型损失进行训练得到图像分割模型。
图2中进行模型训练,实质上是寻找一种关系使得原始输入的窗口(即各候选框图像区域)经过映射得到和标定窗口(即标注位置信息的各单元格)更接近的窗口(即各预测框图像区域)。在步骤S122和步骤S123中,实际是通过区域回归算法,修正各单元格对应的预测框图像区域的具体位置,以确保训练得到的图像分割模型的可靠性。当通过本实施例提供的图像分割模型对待识别的表格型图像进行图像分割时,可以根据该表格型图像中单元格的实际位置进行图像分割,使得分割得到的各单元格刚好与该表格型图像中实际存在的单元格对应。
应当说明的是,本实施例中,可以在模型损失小于预设损失阈值、或者达到预设迭代次数阈值、或者学习率小于预设学习率阈值时停止训练,得到图像分割模型。
S13:对各单元格进行文字识别。
在步骤S13中,以单元格为单位,对各单元格对应的图像进行文字识别,具体的,可以采用OCR文字识别技术进行文字识别,当然也可以采用其他的算法进行文字识别。
S14:基于各单元格对应的单元格标识,确定与各单元格的文字识别结果对应的关联文字数据。
请参见图3所示,在本申请实施例提供的第一种示例中,步骤S14可以包括以下步骤:
S141:针对每一单元格,根据该单元格的单元格标识、以及预设的单元格标识之间的对应关系,确定与该单元格的单元格标识对应的另一单元格标识。
可以理解的是,本示例中预先存储有单元格标识之间的对应关系,比如,假设待识别图像为如图4所示的图像,预设的图像分割模型可以按照该待识别图像中各单元格的实际位置对该待识别图像进行图像分割,得到8个单元格,并可以得到各单元格的单元格标识,请参见图5所示,图5中示出了分割得到的各单元格的单元格标识,分别是1、2、3……8,对应的,设备中预先存储有标识“1”与标识“2”的对应关系,标识“3”与标识“4”的对应关系,标识“5”与标识“6”的对应关系,以及标识“7”与标识“8”的对应关系。
S142:根据所述另一单元格标识、以及单元格与单元格标识的对应关系确定出与该单元格对应的另一单元格。
S143:获取所述另一单元格的文字识别结果,并将该文字识别结果作为与所述单元格的文字识别结果对应的关联文字数据。
本实施例中,与某一单元格的文字识别结果对应的关联文字数据可以是该文字识别结果对应的标签条目数据,例如:姓名、年龄、住址、性别,也可以是某一标签条目数据对应的值,例如:张三、20岁、北京、男。
针对图5中单元格“1”对应的文字识别结果而言,其对应的关联文字数据则为单元格“2”对应的文字识别结果,该文字识别结果实质是标签条目“姓名”对应的值“张三”。针对图5中单元格“4”对应的文字识别结果而言,其对应的关联文字数据则为单元格“3”对应的文字识别结果,该文字识别结果实质是“20岁”对应的标签条目数据“年龄”。
在本示例中,由于会对各单元格进行文字识别,且预设有单元格标识之间的对应关系,所以只要各单元格标识之间的对应关系不发生变化,当两个相关联的单元格中的内容发生变化时,在不对该设备上存储的相关信息进行改动的前提下,也可以将这两个单元格中的内容进行关联,所以应用范围更加广泛。比如,针对图6中的待识别图像,单元格“5”对应的文字识别结果为“生日”,单元格“6”对应的文字识别结果为“1990-10-10”时,虽然图6与图4中的单元格“5”对应的文字识别结果不同,但两者可以使用同一设备实现图像识别。
在本申请实施例提供的第二种示例中,步骤S14可以包括以下步骤:
针对每一单元格,根据该单元格的单元格标识、以及预设的单元格标识与标签条目数据之间的对应关系,确定与该单元格标识对应的标签条目数据,并将该标签条目数据作为与该单元格的文字识别结果对应的关联文字数据。
在实际应用中,有些表格中的文字内容是固定的,也即存在固定的项,针对本示例,在对应的图像分割模型训练阶段,可以只标注出文字内容可能变化(即非固定项)的单元格进行训练,这样在通过该图像分割模型对待识别图像进行分割时便可以得到各非固定项对应的单元格,对于图4中的待识别图像而言,可以得到图7所示的图像分割结果,图7中示出了分割得到的各单元格的单元格标识,分别是A、B、C、D,对应的,设备中预先存储有标识“A”与标签条目数据“姓名”的对应关系,标识“B”与标签条目数据“年龄”的对应关系,标识“C”与标签条目数据“住址”的对应关系,以及标识“D”与标签条目数据“性别”的对应关系。
S15:根据各单元格的文字识别结果、以及与各文字识别结果对应的关联文字数据生成目标格式的图像识别数据。
本实施例中的目标格式可以是任意的格式,具体的,可以由开发人员根据实际应用需要进行灵活设置,优选的,可以是表格型格式,以将各单元格的文字识别结果与其对应的关联文字数据进行直观展示。
在一些实施例中,在生成目标格式的图像识别数据后,可以将各文字识别结果与对应的关联文字数据填充至Excel工作表中。
实施例二:
为了更好的理解本申请提供的方案,本申请实施例提供一种更加具体的图像识别方法,本申请实施例中的待识别图像可以是任意类型的待识别图像,比如可以是待识别房产证图像、格式合同图像等等,本申请实施例只是以待识别图像为待识别户口簿图像为例进行示例性说明,并不构成对待识别图像的限制。
请参见图8所示,图8为本申请实施例提供的一个可选的图像识别方法的流程示意图,包括以下步骤:
S801:获取待识别户口簿文件。
S802:判断待识别户口簿文件是否是图像格式,如是,转至S804,如否,转至S803。
S803:将待识别户口簿文件转换为待识别户口簿图像。
S804:将待识别户口簿图像输入预设的图像分割模型,得到多个单元格及与各单元格对应的单元格标识。
本实施例中的图像分割模型是经过模型训练后得到的模型,模型训练可以包括如下子步骤:
获取多份框选标注有各单元格位置坐标和编号的户口簿样本图像,构建数据集,包括训练集和验证集;分别对所述训练集和验证集中的户口簿样本图像进行归一化处理;基于所述训练集进行模型训练;通过验证集对模型进行性能校验,得到最优权重文件的图像分割模型;保存图像分割模型。本实施例中的图像分割模型可以对待识别户口簿图像进行图像分割,得到多个单元格以及各单元格对应的单元格标识(即编号)。
本实施例中标注框选的户口簿样本图像可以参见图9所示,通常来说,户口簿有40个单元格,所以本实施例中根据这40个单元格的实际位置,针对每一户口簿样本图像,都可以框选标注出40个单元格。
S805:对各单元格进行文字识别。
S806:针对每一单元格,根据该单元格的单元格标识、以及预设的单元格标识之间的对应关系,确定与该单元格的单元格标识对应的另一单元格标识。
S807:根据所述另一单元格标识、以及单元格与单元格标识的对应关系确定出与该单元格对应的另一单元格。
S808:获取所述另一单元格的文字识别结果,并将该文字识别结果作为与所述单元格的文字识别结果对应的关联文字数据。
S809:根据各单元格的文字识别结果、以及与各文字识别结果对应的关联文字数据生成表格型格式的结构化识别数据。
应当说明的是,当某一单元格中不存在文字内容时,可以针对该单元格生成对应的提示信息,在获取得到对应的另一单元格的文字识别结果后,可以将该文字识别结果作为该提示信息对应的关联文字数据。
在表格型格式的结构化识别数据中,标签条目数据可以位于表格的第一行,标签条目数据对应的值则位于该标签条目数据所在行对应的下方单元格中,每一张待识别户口簿图像对应一行信息,以便于用户查看。
S810:将结构化识别数据写入Excel工作表中。
下面对上述模型训练的过程进行详细说明,模型训练的具体过程可以包括如下子步骤:
子步骤一:输入数据集的图像。
子步骤二:通过卷积神经网络(CNN)提取feature maps(图像特征图),即,使用一组基础的conv+relu+pooling层提取图像的feature maps。
子步骤三:利用目标检测算法从各图像中确定出与各单元格对应的候选框图像区域的位置信息。
具体的,可以在经过卷积层提取到的feature maps上用一个3x3的滑动窗口遍历整个feature map。需要说明的是,在其他的示例中也可以采用其他大小的滑动窗口进行遍历。本实施例中,可以针对feature maps的每一像素点位置,按照比例{1:2,1:1,2:1}生成尽可能多的候选框图像区域。
针对每一个标注的单元格(即标定框图像区域),将与其重叠比例值最大的候选框图像区域标记为正样本,保证每一个标定框图像区域至少对应一个正样本。对于剩余的候选框图像区域,若是其与某一标定框图像区域的重叠比例(即IOU值)大于0.7,则将该候选框图像区域标记为正样本,若是其与任意一个标定框图像区域的重叠比例都小于0.3,则标记为负样本,其余的候选框图像区域以及跨越边界的候选框图像区域丢弃。
子步骤四:利用区域回归算法修正候选框图像区域获得精准的预测框图像区域(即建议框)。
模型训练的过程实质上是寻找一种关系使得原始输入的窗口(即各候选框图像区域)经过映射得到和标定框图像区域(即标注位置信息的各单元格)更接近的窗口(即各预测框图像区域)。
为获取比较精准的预测框图像区域,可以使用缩放尺度和平移尺度修正检测目标的位置,并且去除过小或过大的预测框,对于窗口,一般使用四维向量(x,y,w,h)来表示,分别表示窗口的中心点坐标和宽、高。
获取预测框图像区域缩放和平移的尺度,可以使用如下公式:
t
w
=log(w/w
a
)
t
h
=log(h/h
a
)
t
x
=(x-x
a
)/w
a
t
y
=(y-y
a
)/h
a
其中,x表示预测框图像区域的中心横坐标,y表示预测框图像区域的中心纵坐标,w表示预测框图像区域的宽, h表示预测框图像区域的高,x a 表示候选框图像区域的中心横坐标,y a 表示候选框图像区域的中心纵坐标,w a 表示候选框图像区域的宽,h a 表示候选框图像区域的高,t x 表示预测框图像区域横坐标方向的位置平移尺度,t y 表示预测框图像区域纵坐标方向的位置平移尺度,t w 表示预测框图像区域宽的缩放尺度,t h 表示预测框图像区域高的缩放尺度。
获取标定框图像区域缩放和平移的尺度,并使用如下式子:
t
w
*=log(w*/w
a
)
t
h
*=log(h*/h
a
)
t
x
*=(x*-x
a
)/w
a
t
y
*=(y*-y
a
)/h
a
其中,x*表示标定框图像区域的中心横坐标,y*表示标定框图像区域的中心纵坐标,w*表示标定框图像区域的宽,h*表示标定框图像区域的高,t x *表示标定框图像区域横坐标方向的位置平移尺度,t y *表示标定框图像区域纵坐标方向的位置平移尺度,t w *表示标定框图像区域宽的缩放尺度,t h *表示标定框图像区域高的缩放尺度;
计算神经网络模型的整体模型损失,可以使用如下公式:
L cls (p i , p i *)=-log[p i *p i +(1- p i *)(1-p i )]
L reg (t i , t i *)=R(t i - t i *)
其中,i为整数,p i 表示第i个候选框图像区域与标定框图像区域重合的概率,p i *表示第i个候选框图像区域为正样本的概率,t i ={t x ,t y ,t w ,t h }表示预测框图像区域的四个参数化坐标的向量,t i *={ t x *, t y *, t w *, t h *}是与正样本候选框图像区域对应的标定框图像区域的缩放和平移的尺度坐标向量,L cls (p i , p i *)表示分类损失,L reg (t i , t i *)表示回归损失,R表示Smooth L1函数,N cls 表示分类项的归一化值为mini-batch的大小,N reg 表示回归项归一化为候选位置的数量,L({p i },{t i })表示损失函数,λ表示平衡权重,可以由开发人员灵活设置,其中本申请实施例中的分类类别为40类,即编号1-40个单元格。
子步骤五:根据训练结果调整包括学习率、迭代次数的参数,对训练数据做数据增强处理。
比如,可以对图像亮度、对比度、图像色调或饱和度进行调节,并重新训练,直至得到泛化性能较好的图像分割模型。
实施例三:
本申请实施例提供一种图像识别装置,请参见图10所示,包括:
获取模块1001,用于获取待识别图像;
分割模块1002,用于根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识;
识别模块1003,用于对各所述单元格进行文字识别;
确定模块1004,用于基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据;
生成模块1005,用于根据各所述单元格的文字识别结果、以及与各所述文字识别结果对应的所述关联文字数据生成目标格式的图像识别数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例四:
基于同一发明构思,本申请实施例提供一种设备,请参见图11所示,包括处理器1101和存储器1102,所述存储器1102中存储有计算机程序,所述处理器1101执行所述计算机程序,以实现上述实施例一和实施例二中方法的步骤,在此不再赘述。
应当说明的是,本实施例中的设备可以是PC(Personal Computer,个人电脑)、手机、平板电脑、笔记本电脑、虚拟主机等。也可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。
可以理解,图11所示的结构仅为示意,设备还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
处理器1101可以是一种集成电路芯片,具有信号处理能力。上述处理器1101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。
存储器1102可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一和实施例二中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识;
对各所述单元格进行文字识别;
基于各所述单元格对应的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据;
根据各所述单元格的文字识别结果、以及与各所述文字识别结果对应的所述关联文字数据生成目标格式的图像识别数据。
2.如权利要求1所述的图像识别方法,其特征在于,所述待识别图像为表格型图像。
3.如权利要求1所述的图像识别方法,其特征在于,所述基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据,包括:
针对每一所述单元格,根据该单元格的单元格标识、以及预设的单元格标识之间的对应关系,确定与所述单元格标识对应的另一单元格标识;
根据所述另一单元格标识、以及单元格与单元格标识的对应关系确定出与所述单元格对应的另一单元格;
获取所述另一单元格的文字识别结果,并将该文字识别结果作为与所述单元格的文字识别结果对应的关联文字数据。
4.如权利要求1所述的图像识别方法,其特征在于,所述基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据,包括:
针对每一所述单元格,根据该单元格的单元格标识、以及预设的单元格标识与标签条目数据之间的对应关系,确定与该单元格标识对应的标签条目数据,并将该标签条目数据作为与所述单元格的文字识别结果对应的关联文字数据。
5.如权利要求1所述的图像识别方法,其特征在于,所述目标格式为表格型格式。
6.如权利要求1-5任一项所述的图像识别方法,其特征在于,在所述根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识之前,所述方法还包括:
获取图像样本数据集,所述图像样本数据集中包括多个样本图像的样本数据,每一所述样本数据包括对应样本图像中标注的多个单元格的位置信息及与各单元格对应的单元格标识;
基于所述图像样本数据集进行训练,得到所述图像分割模型。
7.如权利要求6所述的图像识别方法,其特征在于,所述基于所述图像样本数据集进行训练,得到所述图像分割模型,包括:
针对各所述样本图像中的各所述单元格,利用目标检测算法从各所述样本图像中确定出与相应的所述单元格对应的候选框图像区域的位置信息;
基于区域回归算法,根据各所述样本图像中标注的各所述单元格的位置信息、以及各所述单元格对应的候选框图像区域的位置信息计算神经网络模型的模型损失;
基于所述模型损失进行训练得到所述图像分割模型。
8.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
分割模块,用于根据预设的图像分割模型对所述待识别图像进行图像分割,得到多个单元格及与各单元格对应的单元格标识;
识别模块,用于对各所述单元格进行文字识别;
确定模块,用于基于各所述单元格的单元格标识,确定与各所述单元格的文字识别结果对应的关联文字数据;
生成模块,用于根据各所述单元格的文字识别结果、以及与各所述文字识别结果对应的所述关联文字数据生成目标格式的图像识别数据。
9.一种设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159280.5A CN114220103B (zh) | 2022-02-22 | 2022-02-22 | 图像识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159280.5A CN114220103B (zh) | 2022-02-22 | 2022-02-22 | 图像识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114220103A true CN114220103A (zh) | 2022-03-22 |
CN114220103B CN114220103B (zh) | 2022-05-06 |
Family
ID=80709098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210159280.5A Active CN114220103B (zh) | 2022-02-22 | 2022-02-22 | 图像识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220103B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195846A (zh) * | 2023-11-07 | 2023-12-08 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19909768A1 (de) * | 1999-03-05 | 2000-09-07 | Visual Communications Design U | Verfahren und System zur Bilddatenbearbeitung |
CN109635718A (zh) * | 2018-12-10 | 2019-04-16 | 科大讯飞股份有限公司 | 一种文本区域划分方法、装置、设备及存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN112115774A (zh) * | 2020-08-07 | 2020-12-22 | 北京来也网络科技有限公司 | 结合rpa和ai的文字识别方法、装置、电子设备和存储介质 |
CN113011144A (zh) * | 2021-03-30 | 2021-06-22 | 中国工商银行股份有限公司 | 表单信息的获取方法、装置和服务器 |
CN113139457A (zh) * | 2021-04-21 | 2021-07-20 | 浙江康旭科技有限公司 | 一种基于crnn的图片表格提取方法 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
CN113343740A (zh) * | 2020-03-02 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 表格检测方法、装置、设备和存储介质 |
CN113536856A (zh) * | 2020-04-20 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 图像识别方法和系统、数据处理方法 |
CN113837151A (zh) * | 2021-11-25 | 2021-12-24 | 恒生电子股份有限公司 | 表格图像处理方法、装置、计算机设备及可读存储介质 |
-
2022
- 2022-02-22 CN CN202210159280.5A patent/CN114220103B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19909768A1 (de) * | 1999-03-05 | 2000-09-07 | Visual Communications Design U | Verfahren und System zur Bilddatenbearbeitung |
CN109635718A (zh) * | 2018-12-10 | 2019-04-16 | 科大讯飞股份有限公司 | 一种文本区域划分方法、装置、设备及存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN113343740A (zh) * | 2020-03-02 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 表格检测方法、装置、设备和存储介质 |
CN113536856A (zh) * | 2020-04-20 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 图像识别方法和系统、数据处理方法 |
CN111709349A (zh) * | 2020-06-11 | 2020-09-25 | 杭州尚尚签网络科技有限公司 | 一种针对带表格合同的ocr识别方法 |
CN112115774A (zh) * | 2020-08-07 | 2020-12-22 | 北京来也网络科技有限公司 | 结合rpa和ai的文字识别方法、装置、电子设备和存储介质 |
CN113011144A (zh) * | 2021-03-30 | 2021-06-22 | 中国工商银行股份有限公司 | 表单信息的获取方法、装置和服务器 |
CN113139457A (zh) * | 2021-04-21 | 2021-07-20 | 浙江康旭科技有限公司 | 一种基于crnn的图片表格提取方法 |
CN113283355A (zh) * | 2021-05-31 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种表格图像的识别方法、装置、计算机设备及存储介质 |
CN113837151A (zh) * | 2021-11-25 | 2021-12-24 | 恒生电子股份有限公司 | 表格图像处理方法、装置、计算机设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
AZKA GILANI 等: "Table Detection Using Deep Learning", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/320243569》 * |
商迎美: "基于深度学习和数据挖掘的自动表格提取算法", 《长春工程学院学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195846A (zh) * | 2023-11-07 | 2023-12-08 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
CN117195846B (zh) * | 2023-11-07 | 2024-03-01 | 江西五十铃汽车有限公司 | 一种专家表管理方法、系统、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114220103B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN108920580B (zh) | 图像匹配方法、装置、存储介质及终端 | |
US11816165B2 (en) | Identification of fields in documents with neural networks without templates | |
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN110738238B (zh) | 一种证件信息的分类定位方法及装置 | |
US11341319B2 (en) | Visual data mapping | |
CN111209827A (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
CN114463567B (zh) | 一种基于区块链的智慧教育作业大数据防抄袭方法与系统 | |
CN114220103B (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN114565035A (zh) | 一种舌象分析方法、终端设备及存储介质 | |
CN112396048B (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
CN112418206A (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
Zhang et al. | A YOLOv3‐Based Industrial Instrument Classification and Reading Recognition Method | |
CN116311298A (zh) | 信息生成方法、信息处理方法、装置、电子设备以及介质 | |
CN111695441B (zh) | 图像文档处理方法、装置及计算机可读存储介质 | |
Fang et al. | Visual music score detection with unsupervised feature learning method based on k-means | |
CN114663760A (zh) | 模型训练的方法、目标检测方法、存储介质及计算设备 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
CN111597373B (zh) | 基于卷积神经网络和连通图的图片归类方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Image recognition method, device, device, and computer-readable storage medium Effective date of registration: 20230818 Granted publication date: 20220506 Pledgee: Bank of Chengdu science and technology branch of Limited by Share Ltd. Pledgor: CHENGDU MINTO TECHNOLOGY CO.,LTD. Registration number: Y2023980052809 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |