CN113487702A - 一种模板生成、图片识别方法及装置 - Google Patents
一种模板生成、图片识别方法及装置 Download PDFInfo
- Publication number
- CN113487702A CN113487702A CN202110757470.2A CN202110757470A CN113487702A CN 113487702 A CN113487702 A CN 113487702A CN 202110757470 A CN202110757470 A CN 202110757470A CN 113487702 A CN113487702 A CN 113487702A
- Authority
- CN
- China
- Prior art keywords
- identification
- field
- picture
- template
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 230000004044 response Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/183—Tabulation, i.e. one-dimensional positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本公开提供了一种模板生成、图片识别方法及装置,包括:获取并展示包括目标表格的目标模板图片;响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
Description
技术领域
本公开涉及图像处理技术领域,具体而言,涉及一种模板生成、图片识别方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)可以将图像中示出的文字转换为文本格式,以使图像中的文字可以进行进一步的文字处理。利用OCR技术可以快速对图像进行文字识别。
发明内容
本公开实施例至少提供一种模板生成、图片识别方法及装置。
第一方面,本公开实施例提供了一种模板生成方法,包括:
获取并展示包括目标表格的目标模板图片;
响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
这样,可以灵活生成自定义的识别模板,且该识别模板生成过程,使得用户可以自定义需要识别的字段,摆脱了通用模板不能对所有类型的图像进行识别的局限,具有更强的灵活性。
一种可能的实施方式中,所述获取并展示包括目标表格的目标模板图片,包括:
获取包括所述目标表格的目标模板图片,对所述目标模板图片进行矫正,并展示矫正后的目标模板图片;或者,
获取并展示包括所述目标表格的目标模板图片,响应于模板图片矫正指令,对展示的所述目标模板图片进行矫正。
上述实施方式中,提供了两种对目标模板图片进行矫正的方式,通过对目标模板图片进行矫正,可以提高识别字段和参考字段的识别精度。
一种可能的实施方式中,所述对所述目标模板图片进行矫正,包括:
基于为所述目标模板图片确定所述目标表格的角点在所述目标模板图片中的位置信息,对所述目标模板图片进行矫正。
一种可能的实施方式中,所述基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板,包括:
识别所述参考字段的区域信息中的字段文本;以及基于所述识别字段的第一区域信息和所述参考字段的第二区域信息,确定所述识别字段与所述参考字段的相对位置关系;
基于所述参考字段的字段文本和所述相对位置关系,生成所述目标表格的识别模板。
通过参考字段的字段文本和相对位置关系,生成的目标表格的识别模板,在对其他图片进行识别时,可以通过参考字段的字段文本进行参考字段的精确定位,然后基于相对位置关系,可以实现对于识别字段的精确定位。
一种可能的实施方式中,所述方法还包括根据以下方法确定所述单个识别字段的特征信息:
响应于针对所述目标模板图片的第一选定操作,基于所述第一选定操作在所述目标模板图片中选定的区域的区域信息,确定所述单个识别字段的区域信息;
响应第一编辑操作,确定所述单个识别字段的字段信息。
通过这种方法,用户可以灵活的设置单个识别字段的特征信息,提升了识别模板的制作效率。
一种可能的实施方式中,所述方法还包括根据以下方法确定所述表格识别字段的特征信息:
响应于针对所述目标表格中的第二选定操作,将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息;
响应于针对菜单列表中表格按钮的触发操作,确定所述目标表格的目标列数;响应针对所述目标列数的第二编辑操作,确定所述表格识别字段的字段信息。
通过这种方法,可以快速确定表格识别字段的特征信息,提高了识别模板的制作效率。
一种可能的实施方式中,在所述目标表格为多列的情况下,所述将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息,包括:
基于所述第二选定操作在所述目标模板图片中选定的区域中的表格线,确定所述选定的区域中的多个列区域;
将所述多个列区域分别作为所述表格识别字段中各个列对应的区域信息。
一种可能的实施方式中,所述识别字段的字段信息包括字段名称、字段类型、以及是否为跨行文本;所述参考字段的字段信息包括字段文本。
一种可能的实施方式中,在生成所述目标表格的识别模板之后,所述方法还包括:
获取与所述目标模板图片版式匹配的测试图片;
基于所述识别模板识别所述测试图片中的文本数据;
响应第一目标触发操作,通过目标代码格式展示识别结果,所述识别结果用于对所述识别模板进行调整。
通过对识别模板进行测试,可以在基于识别模板对其他图片进行识别前,测试识别模板的识别准确率,进而可以提高识别模板的识别精度。
第二方面,本公开实施例提供了一种图片识别方法,包括:
获取待识别图片;
从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过第一方面或第一方面任一种可能的实施方式所述的模板生成方法得到;
基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
一种可能的实施方式中,所述基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果,包括:
基于所述识别模板,确定所述待识别图片中的待识别区域;
识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果。
一种可能的实施方式中,所述基于所述识别模板,确定所述待识别图片中的待识别区域,包括:
在所述识别模板中包括表格识别字段的特征信息的情况下,基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域;或者,
在所述识别模板中包括识别字段与参考字段之间的相对位置关系、以及参考字段的字段文本时,确定所述参考字段的字段文本在所述待识别图片中的区域信息;基于所述参考字段的字段文本在所述待识别图片中的区域信息和所述相对位置关系,确定所述待识别区域。
一种可能的实施方式中,在所述待识别图片中包括待识别表格的情况下,所述识别结果包括所述待识别表格对应的识别表格;
在所述识别字段包括表格识别字段的情况下,所述识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果,包括:
识别所述待识别区域中的表格线;
基于识别的表格线,确定所述待识别区域中的多个待识别列区域;
识别所述待识别列区域中的第一文本数据,并基于所述第一文本数据和所述表格识别字段的特征信息中各个列对应的字段信息,生成所述识别表格。
一种可能的实施方式中,在所述生成所述目标表格对应的识别表格之后,所述方法还包括:
在展示页面的第一展示区域展示所述待识别图片,以及在所述展示页面的第二展示区域展示所述识别表格;
响应针对所述展示页面的第二目标触发操作,调整所述待识别图片和所述识别表格的展示尺寸。
一种可能的实施方式中,在所述待识别图片中包括目标表格的情况下,所述识别结果包括所述目标表格对应的识别表格;
所述方法还包括:
响应针对所述识别表格的处理操作,对所述识别表格进行所述处理操作指向的处理,所述处理操作指向的处理包括编辑处理、下载处理、缓存处理中的至少一项。
第三方面,本公开实施例还提供一种模板生成装置,包括:
展示模块,用于获取并展示包括目标表格的目标模板图片;
第一确定模块,用于响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
生成模块,用于基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
一种可能的实施方式中,所述展示模块,在获取并展示包括目标表格的目标模板图片时,用于:
获取包括所述目标表格的目标模板图片,对所述目标模板图片进行矫正,并展示矫正后的目标模板图片;或者,
获取并展示包括所述目标表格的目标模板图片,响应于模板图片矫正指令,对展示的所述目标模板图片进行矫正。
一种可能的实施方式中,所述展示模块,在对所述目标模板图片进行矫正时,用于:
基于为所述目标模板图片确定所述目标表格的角点在所述目标模板图片中的位置信息,对所述目标模板图片进行矫正。
一种可能的实施方式中,所述生成模块,在基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板时,用于:
识别所述参考字段的区域信息中的字段文本;以及基于所述识别字段的第一区域信息和所述参考字段的第二区域信息,确定所述识别字段与所述参考字段的相对位置关系;
基于所述参考字段的字段文本和所述相对位置关系,生成所述目标表格的识别模板。
一种可能的实施方式中,所述第一确定模块还用于根据以下方法确定所述单个识别字段的特征信息:
响应于针对所述目标模板图片的第一选定操作,基于所述第一选定操作在所述目标模板图片中选定的区域的区域信息,确定所述单个识别字段的区域信息;
响应第一编辑操作,确定所述单个识别字段的字段信息。
一种可能的实施方式中,所述第一确定模块还用于根据以下方法确定所述表格识别字段的特征信息:
响应于针对所述目标表格中的第二选定操作,将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息;
响应于针对菜单列表中表格按钮的触发操作,确定所述目标表格的目标列数;响应针对所述目标列数的第二编辑操作,确定所述表格识别字段的字段信息。
一种可能的实施方式中,在所述目标表格为多列的情况下,所述第一确定模块,在将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息时,用于:
基于所述第二选定操作在所述目标模板图片中选定的区域中的表格线,确定所述选定的区域中的多个列区域;
将所述多个列区域分别作为所述表格识别字段中各个列对应的区域信息。
一种可能的实施方式中,所述识别字段的字段信息包括字段名称、字段类型、以及是否为跨行文本;所述参考字段的字段信息包括字段文本。
一种可能的实施方式中,在生成所述目标表格的识别模板之后,所述方法还包括测试模块,用于:
获取与所述目标模板图片版式匹配的测试图片;
基于所述识别模板识别所述测试图片中的文本数据;
响应第一目标触发操作,通过目标代码格式展示识别结果,所述识别结果用于对所述识别模板进行调整。
第四方面,本公开实施例提供了一种图片识别装置,包括:
获取模块,用于获取待识别图片;
第二确定模块,用于从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过第一方面或第一方面任一可能的实施方式所述的模板生成方法得到;
第三确定模块,用于基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
一种可能的实施方式中,所述第三确定模块,在基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果时,用于:
基于所述识别模板,确定所述待识别图片中的待识别区域;
识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果。
一种可能的实施方式中,所述第三确定模块,在基于所述识别模板,确定所述待识别图片中的待识别区域时,用于:
在所述识别模板中包括表格识别字段的特征信息的情况下,基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域;或者,
在所述识别模板中包括识别字段与参考字段之间的相对位置关系、以及参考字段的字段文本时,确定所述参考字段的字段文本在所述待识别图片中的区域信息;基于所述参考字段的字段文本在所述待识别图片中的区域信息和所述相对位置关系,确定所述待识别区域。
一种可能的实施方式中,在所述待识别图片中包括待识别表格的情况下,所述识别结果包括所述待识别表格对应的识别表格;
在所述识别字段包括表格识别字段的情况下,所述第三确定模块,在识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果时,用于:
识别所述待识别区域中的表格线;
基于识别的表格线,确定所述待识别区域中的多个待识别列区域;
识别所述待识别列区域中的第一文本数据,并基于所述第一文本数据和所述表格识别字段的特征信息中各个列对应的字段信息,生成所述识别表格。
一种可能的实施方式中,在所述生成所述目标表格对应的识别表格之后,所述装置还包括展示模块,用于:
在展示页面的第一展示区域展示所述待识别图片,以及在所述展示页面的第二展示区域展示所述识别表格;
响应针对所述展示页面的第二目标触发操作,调整所述待识别图片和所述识别表格的展示尺寸。
一种可能的实施方式中,在所述待识别图片中包括目标表格的情况下,所述识别结果包括所述目标表格对应的识别表格;
所述展示模块,还用于:
响应针对所述识别表格的处理操作,对所述识别表格进行所述处理操作指向的处理,所述处理操作指向的处理包括编辑处理、下载处理、缓存处理中的至少一项。
第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
关于上述模板生成、图片识别方法装置、计算机设备、及计算机可读存储介质的效果描述参见上述模板生成、图片识别方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种模板生成方法的流程图;
图2a示出了本公开实施例所提供的模板生成方法中,一种展示页面的示意图;
图2b示出了本公开实施例所提供的模板生成方法中,另一种展示页面的示意图;
图3示出了本公开实施例所提供的模板生成方法中,参考字段的位置示意图;
图4示出了本公开实施例所提供的一种确定参考字段区域时的示意图;
图5示出了本公开实施例所提供的基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板的具体方法的流程图;
图6示出了本公开实施例所提供的一种图片识别方法的流程图;
图7示出了本公开实施例所提供的一种模板生成装置的架构示意图;
图8示出了本公开实施例所提供的一种图片识别装置的架构示意图;
图9示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种模板生成方法进行详细介绍,本公开实施例所提供的模板生成方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:智能手机、平板电脑、个人计算机等。
参见图1所示,为本公开实施例提供的一种模板生成方法的流程图,所述方法包括步骤101~步骤103,其中:
步骤101、获取并展示包括目标表格的目标模板图片。
步骤102、响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息。
步骤103、基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
以下是对上述步骤的详细描述。
针对步骤101、
目标表格例如可以包括样式固定、且包含位置相对固定的字段的表格。示例性的,目标表格例如可以包括银行流水、考勤记录表等。所述目标模板图片例如可以是指拍摄/扫描纸质的目标表格的图片。
在一种可能的实施方式中,获取的目标模板图片中所述目标表格的位置可能出现部分扭曲变形的情况,因此为了降低这种情况对于识别结果的影响,可以对所述目标模板图片进行矫正处理。
在一种可能的实施方式中,所述获取并展示包括目标表格的目标模板图片,可以是指获取所述目标模板图片,然后自动对目标模板图片进行矫正,展示的图片为矫正后的目标模板图片;或者可以获取并展示矫正前的包括目标表格的目标模板图片,然后用户可以手动对所述目标模板图片进行矫正,响应于模板图片矫正指令,对展示的所述目标模板图片进行矫正。
具体的,在对目标模板图片进行矫正时,示例性的可以基于为所述目标模板图片确定所述目标表格的角点在所述目标模板图片中的位置信息,对所述目标模板图片进行矫正。
在利用目标表格的角点在目标模板图片中的位置信息,对目标模板图片进行矫正时,例如可以先确定目标表格中的多个角点。由于目标表格表现为矩形,因此可以为目标表格确定四个角点,或者从四个角点选取任意三个角点,以将目标表格转向至正向,从而便于进行字符识别。
以利用目标表格的三个角点在目标模板图片中的位置信息对目标模板图片进行矫正为例,在确定三个角点的位置信息后,可以利用三个角点、以及为目标表格预设的图像模板,确定将三个角点投影至在图像模板中与该三个角点对应的模板角点位置处,然后利用投影关系将将目标模板图片投影至图像模板中,得到矫正后的目标模板图片。
这样,得到的目标样本图像中的字段可以基于目标模板图片向目标样本图像的矫正过程,将其朝向矫正为正向,更有利于后续对目标样本图像中的字段的识别。
针对步骤102、
所述识别字段可以是指在识别模板制作完成后需要基于所述识别模板进行识别的字段,所述参考字段是指所述目标模板图片和待识别图片中的固定字段,示例性的,若所述目标表格为如下列表格1所示,则所述参考字段可以为“姓名”、“性别”、“年级”中的至少一项。
表1
下面将分别描述识别字段和参考字段的特征信息以及特征信息的获取方法。
一、识别字段
所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述单个识别字段可以理解为对所述目标表格中的部分字段;示例性的,若目标表格如上述表1所示,则所述单个识别字段可以是指“姓名”或“性别”或“年级”;另外,所述目标模板图片中除了包括所述目标表格外,还包括部分与所述目标表格相关的信息,示例性的可以包括表格名称、表格打印时间等,所述单个识别字段还可以是指所述目标表格外的部分字段。
所述表格识别字段可以理解为所述目标表格内除固定字段外的全部字段,这里所述固定字段可以是指固定不变的字段,例如所述固定字段可以是指所述目标表格的表头,所述表格识别字段可以是指所述各个表头的取值。
所述识别字段的特征信息包括所述识别字段的区域信息和所述识别字段的字段信息。所述区域信息用于描述所述识别字段在所述目标表格/在所述目标模板图片中的位置,示例性的,所述区域信息可以是指所述识别字段在所述目标模板中的位置坐标;所述识别字段的字段信息用于描述所述识别字段的属性信息,示例性的,所述识别字段的字段信息可以包括字段名称、字段类型、以及是否为跨行文本。
其中,所述字段类型用于描述所述识别字段的文本类型,示例性的可以包括常规全字符、纯数字、纯字母等;所述是否为跨行文本可以是指所述识别字段是否为多行文本,示例性的如下表2所示,“测试数据”为识别字段,但是该识别字段为两行文本,则该识别字段为跨行文本,即多行文本。
表2
在一种可能的实施方式中,所述识别字段对应的区域可能包括多行,则在这种情况下,可以仅判断首行是否为跨行文本,若是,则确定该识别字段为跨行文本。
在一种可能的实施方式中,在确定单个识别字段的特征信息时,示例性的可以通过如下步骤来执行:
步骤a、响应于针对所述目标模板图片的第一选定操作,基于所述第一选定操作在所述目标模板图片中选定的区域的区域信息,确定所述单个识别字段的区域信息。
步骤b、响应第一编辑操作,确定所述单个识别字段区域的字段信息。
这里,当单个识别字段只有一个时,可以直接将所述第一选定操作的区域信息作为所述单个识别字段的区域信息,并响应第一编辑操作,将用户编辑的字段信息作为该单个识别字段的字段信息。
当单个识别字段有多个时,针对所述目标模板图片的第一选定操作也就对应有多个,每个第一选定操作选定的区域的区域信息,可以对应一个单个识别字段的区域信息,在每执行一次第一选定操作之后,可以执行一次第一编辑操作,所述第一编辑操作为编辑所述第一选定操作选定的单个识别字段的编辑信息。
示例性的,若展示页面如图2a所示,第一展示区域展示有所述目标表格,第二展示区域展示有多个识别字段的字段信息,处于选定状态的“2019-01-08”和“19,000”所在的区域为识别字段的区域,在第二区域可以展示有多个字段信息卡片,每个字段信息中包括字段名称和字段类型。对“2019-01-08”对应的字段卡片为字段卡片1,“19,000”对应的字段卡片为字段卡片2。
具体实施中,用户可以执行第一选定操作,选定“2019-01-08”,然后可以响应第一选定操作,将“2019-01-08”展示为选定状态,且在所述第二展示区域展示待编辑的字段信息卡片,用户可以执行第一编辑操作,对选定的单个识别字段“2019-01-08”的字段信息进行编辑;然后在编辑完成之后可以执行第一选定操作,选定“19,000”,响应第一选定操作,将“19,000”展示为选定状态,且在所述第二展示区域展示待编辑的字段信息卡片,用户可以执行第一编辑操作,对选定的单个识别字段“19,000”的字段信息进行编辑。
在一种可能的实施方式中,在确定所述表格识别字段的特征信息时,示例性的可以通过如下步骤来执行:
步骤1、响应于针对所述目标表格中的第二选定操作,将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息。
步骤2、响应于针对菜单列表中表格按钮的触发操作,确定所述目标表格的目标列数;响应针对所述目标列数的第二编辑操作,确定所述表格识别字段的字段信息。
这里,由于所述表格识别字段为所述目标表格内除固定字段外的所有字段,因此所述第二选定操作可以仅执行一次,上述步骤1和步骤2的执行不分先后顺序。
所述菜单列表示例性的可以展示在展示页面的左侧,所述目标表格的目标列数,可以是指所述目标表格所包含的所有的列的数量;用户可以通过触发该表格按钮以输入所述目标列数。
在确定所述目标表格的目标列数之后,可以在展示页面的第二展示区域展示各个列对应的待编辑的字段信息;用户可以在所述第二展示区域执行第二编辑操作,确定所述表格识别字段的字段信息,这里,所述表格识别字段的字段信息可以理解为所述目标表格的各个列对应的字段信息。
示例性的,展示页面可以如图2b所示,第一展示区域展示有所述目标表格,所述目标表格内除表头外其他字段构成所述表格识别字段,所述第一展示区域的左侧展示有菜单列表,所述菜单列表中包括表格按钮,所述第一展示区域展示的目标表格包括4列,因此用户可以通过触发所述表格按钮,输入数字“4”,在用户输入目标表格的目标列数之后,所述展示页面的第二展示区域可以展示4个待编辑的字段信息卡片(图中仅展示2列),每个字段信息卡片对应1列,用户可以在所述待编辑的字段信息卡片上执行第二编辑操作,以确定所述表格识别字段的字段信息,即确定所述目标表格的各个列的字段信息。
由于所述表格识别字段的区域中包括多列,所述表格识别字段对应的字段信息包括多个列的字段信息,因此需要确定选定的表格识别字段区域的各个列与各个字段信息的对应关系。
具体的,在所述目标表格为多列的情况下,在确定所述表格识别字段的区域信息时,可以基于所述第二选定操作在所述目标模板图片中选定的区域中的表格线,确定所述选定的区域中的多个列区域;然后将所述多个列区域分别作为所述表格识别字段中各个列对应的区域信息。
在确定所述表格识别字段各个列对应的区域信息之后,可以确定所述各个列对应的列序号,所述第二展示区域展示的字段信息中也对应有列序号,因此可以确定列序号相同的区域信息和字段信息对应同一列。
二、参考字段
所述参考字段可以理解为:为了确定所述识别字段对应的识别区域而设置的固定不变的字段;所述参考字段的字段信息包括字段文本;所述参考字段的区域信息为所述参考字段在所述目标模板图像中的区域的信息;在一种可能的实施方式中,所述参考字段在所述目标模板图像中可以包括预设数量个,不同的参考字段所在的区域分布在所述目标模板图片的不同方位。
示例性的,可以确定选定的参考字段包括至少四个,并且多个参考字段分布在目标模板图像中的不同方位。以图3中示出的考勤记录表为例,确定选定的参考字段例如可以包括所述考勤记录表左上角的“考勤时间”、右上角的“审核人”、左下角的“考勤人数”、以及右下角的“打印时间”。
在一种可能的情况下,利用分布在目标模板图像中不同方位的多个参考字段,可以进一步的对目标模板图像中多个字段进行定位。这样,可以首先在目标模板图像的整体上确定其中的部分字段的具体位置,以用于对其他识别字段的定位,在保证准确性的同时,可以尽量较少处理计算量,并能够提高处理效率。
在确定参考字段的特征信息时,示例性的可以采用但不仅限于下述方法一和方法二两种不同的方式:
方法一、
响应于对所述目标模板图像的第三选定操作,基于所述第三选定操作在所述目标模板图像中选定的区域的区域信息,确定所述参考字段的区域信息。
在具体实施中,可以采用下述方式确定参考字段的特征信息:对所述第三选定操作在所述目标模板图像中选定的区域对应的第一子图像进行字符识别,得到所述参考字段的字段文本、以及所述字段文本中的各个字符在所述目标模板图像中的第一位置信息;基于所述字段文本中的各个字符在所述目标模板图像中的第一位置信息,确定所述参考字段的区域信息。
示例性的,可以为用户提供可以对目标模板图像进行选定、并可以更改大小的选定工具。用户在对目标模板图像中的参考字段的选定操作,即为第三选定操作。响应于第三选定操作,可以确定用户选定的区域,并相应的对该选定出的区域对应的第一子图像进行字符识别。
参见图4所示,为本公开实施例提供的一种确定参考字段区域时的示意图。用户在对目标模板图像41进行选定时,例如可以利用选定框,框选出目标模板图像41中的区域42。
此处,由于在目标模板图像中的字体大小可能不同,若参考字段的字体较小,则在对其进行选定时,可能会较大程度的选定出目标模板图像的其他部分,例如在目标模板图像中显示出的背景图像。在这种情况下,无论是采用图像识别的方式、或者文字识别确定参考字段所在的参考字段区域的方式,都可能会因为背景图像中显示的图案或者水印文字而造成干扰。另外,由于不同字段之间的行距也可能不同,因此在对目标模板图像中的参考字段进行选定时,可能会出现在选定不同的字段时,部分选定区域的重叠,导致无法准确的选定出参考字段所在的参考字段区域,进而导致无法准确的确定参考字段在目标模板图像中的实际位置。
因此,在选定出区域42后,可以对选定出的区域42对应的第一子图像进行字符识别,以得到参考字段的字段文本。这样,由于通过第一选定操作确定的第一子图像中,参考字段占比较大,因此在利用字符识别的方式确定参考字段的字段文本时,可以较为容易的识别出参考字段的字段文本。
另外,通过识别出的参考字段的字段文本,可以进一步的确定字段文本中各个字符在目标模板图像中的第一位置信息。这样,通过各个字符在目标模板图像中的第一位置信息,可以确定参考字段在目标模板图像中的区域信息。其中,参考字段的区域信息对应区域例如可以为包括根据各个字符对应的第一位置信息的最小包围框。
这样,由于第一子图像相较于目标模板图像而言,图像大小较小,其中包含的参考字段的字段文本也更容易识别,因此可以利用较少的算力较快的确定参考字段在目标模板图像中的实际位置,并且确定得到的参考字段的特征信息也较为准确。
方法二、
对所述目标模板图像进行字符识别,得到多个备选文本、以及各备选文本在所述目标模板图像中的第二位置信息;响应于将所述备选文本中的目标备选文本确定为所述参考字段的字段文本,基于所述参考字段的字段文本在所述目标模板图像中的第二位置信息,确定所述目标模板图像中的参考字段的区域信息。
在具体实施中,例如可以对目标模板图像中直接进行字符识别。由于在进行字符识别后,可以确定在目标模板图像中不同位置对应的文本,也即多个备选文本、以及各备选文本在目标模板图像中的第二位置信息。
在确定多个备选文本的情况下,还可以将该多个备选文本向用户展示。用户可以选择其中的一个或多个备选文本作为目标备选文本,并将其作为参考字段的字段文本。或者,也可以通过向用户展示文本输入框的形式,用户通过文本输入框,可以输入所需的目标备选字段,这样也就可以响应于用户的操作确定参考字段的字段文本。
在确定参考字段的字段文本后,即可以根据在对目标样本图像进行识别时确定的各备选字段在目标样本图像中的第二位置信息,确定其中选定为参考字段的字段文本对应的第二位置信息。然后,依据与上述方法一相似的方式,可以根据第二位置信息确定参考字段的区域信息,具体地在此不再重复赘述。
针对步骤103、
在一种可能的实施方式中,在基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板时,示例性的可以通过如图5所示的方法,包括以下几个步骤:
步骤501、识别所述参考字段的区域信息中的字段文本;以及基于所述识别字段的第一区域信息和所述参考字段的第二区域信息,确定所述识别字段与所述参考字段的相对位置关系;
步骤502、基于所述参考字段的字段文本和所述相对位置关系,生成所述目标表格的识别模板。
在一种可能的实施方式中,在生成所述目标表格的识别模板之后,还可以对所述识别模板进行测试。
具体的,可以获取与所述目标模板图片版式匹配的测试图片,然后基于所述识别模板识别所述测试图片中的文本数据,再响应第一目标触发操作,通过目标代码格式展示识别结果,所述识别结果用于对所述识别模板进行调整。
这里,所述与所述目标模板图片版式匹配可以是指,包含与所述目标表格的版式相同的图片;所述与目标表格的版式相同的表格,示例性的可以理解为与所述目标表格表头相同的表格。
在基于所述识别模板识别所述测试图片后,在展示页面中的第二展示区域可以展示识别结果,所述识别结果可以包括与所述测试图片中的表格对应的识别表格,以及通过所述目标代码格式描述的识别结果。所述响应第一目标触发操作示例性的可以是指响应针对代码查看按钮的触发操作。还可以响应针对字段识别结果按钮的第三目标触发操作,展示所述识别表格。
基于相同的构思,本公开实施例还提供了一种图片识别方法,参见图6所示,为本公开实施例提供的一种图片识别方法的流程图,包括以下几个步骤:
步骤601、获取待识别图片。
步骤602、从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过上述实施例所述的模板生成方法得到。
步骤603、基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
以下是针对上述步骤的详细描述。
步骤602中,所述待识别图片中包括待识别表格,所述识别模板中包括模板图片,所述与待识别图片的样式匹配的识别模板可以是指包括的模板图片中的目标表格与所述待识别表格样式相同的模板。
在一种可能的实施方式中,在确定与所述待识别图片的样式匹配的识别模板时,可以是基于用户的选择操作确定的,用户可以手动去挑选匹配的识别模板。
在另外一种可能的实施方式中,在确定与所述待识别图片的样式匹配的识别模板时,还可以是机器自动执行的,示例性的可以将所述待识别图片与多个识别模板中包含的模板图片进行匹配,将匹配成功的模板图片对应的识别模板,确定为与所述待识别图片匹配的识别模板。
这里,所述将所述待识别图片与多个识别模板中包含的模板图片进行匹配,示例性的可以是指确定所述待识别图片与所述模板图片的相似度。
在基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果时,示例性的,可以先基于所述识别模板,确定所述待识别图片中的待识别区域,然后可以识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果。
其中,基于所述识别模板确定所述待识别图片中的待识别区域时,可以通过以下方式中的任意一种:
方式一、在所述识别模板中包括表格识别字段的特征信息的情况下,基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域。
这里,由于所述表格识别字段是指表格内除了表头外的所有字段,因此无需参考字段,便可以直接基于所述表格识别字段的区域信息,确定所述待识别图片中的待识别区域。
所述表格识别字段的区域信息可以是指所述表格识别字段在模板图片的目标表格中的表格坐标(示例性的可以包括行坐标范围和列坐标范围),示例性的,若所述目标表格为5行6列的表格,第一行为表头,则所述表格坐标可以是第2行到第5行、第1列到第6列构成的区域。由于待识别图片中的待识别表格与所述目标表格的版式/样式相同,所以所述目标表格也为5行6列的表格。
在基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域,可以先识别所述待识别图片中的表格线,确定所述待识别图片中待识别表格的行列信息,然后将所述区域信息在所述待识别表格中的区域作为所述待识别区域。
延续上例,若所述区域信息为第2行到第5行、第1列到第6列构成的区域,则将所述待识别表格中第2行到第5行、第1列到第6列构成的区域作为所述待识别区域。
方法二、在所述识别模板中包括识别字段与参考字段之间的相对位置关系、以及参考字段的字段文本时,确定所述参考字段的字段文本在所述待识别图片中的区域信息;基于所述参考字段的字段文本在所述待识别图片中的区域信息和所述相对位置关系,确定所述待识别区域。
为减少仅根据区域信息进行待识别区域的定位出现误差的几率,因此可以结合参考字段与识别字段之间的相对位置关系,由于参考字段在待识别表格中的位置信息和在目标表格中的位置信息相同,因此基于参考字段与识别字段之间的相对位置关系,可以更精确的确定待识别区域。
在确定所述参考字段的字段文本在所述待识别图片中的区域信息时,示例性的可以对所述待识别图片进行字符识别,确定所述待识别图片中包括的多个字符,然后将所述参考字段的字段文本与所述多个字符匹配,并将匹配成功的字符所在的位置区域作为所述参考字段的字段文本在所述待识别图片中的区域信息。
在将所述参考字段的字段文本与所述多个字符匹配时,匹配成功的字符可能会有多个,而在这种情况下可能无法确定参考字段的区域信息,因此也就无法确定待识别区域,为降低这种情况对于确定待识别区域的影响,因此可以通过多个参考字段的字段文本在所述待识别图片中的区域信息,以及多个参考字段分别与识别字段之间的相对位置关系,确定所述待识别区域。
在所述待识别图片包括待识别表格的情况下,所述识别结果包括所述待识别表格对应的识别表格。
在一种可能的实施方式中,在识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果时,示例性的可以先确定所述待识别区域对应的字段信息,然后以所述字段信息中的字段名称为表头,以所述待识别区域的文本信息为所述表头对应的列的取值,生成识别表格。
或者,在另外一种可能的实施方式中,在所述识别字段包括表格识别字段的情况下,所述识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果,可以包括:
识别所述待识别区域中的表格线;
基于识别的表格线,确定所述待识别区域中的多个待识别列区域;
识别所述待识别列区域中的第一文本数据,并基于所述第一文本数据和所述表格识别字段的特征信息中各个列对应的字段信息,生成所述识别表格。
示例性的,可以以第一列对应的字段信息中的字段名称作为表头,以所述待识别区域中第一列的第一文本数据作为所述表头对应的列的区域,以第二列对应的字段信息中的字段名称作为表头,以所述待识别区域中第二列的第一文本数据作为所述表头对应的列的区域,以此类推,可通过逐列生成所述识别表格。
在一种可能的实施方式中,在生成所述目标表格对应的识别表格,还可以在展示页面的第一展示区域展示所述待识别图片,以及在所述展示页面的第二展示区域展示所述识别表格,然后响应针对所述展示页面的第二目标触发操作,调整所述待识别图片和所述识别表格的展示尺寸。
示例性的,当所述第二目标触发操作作用在所述待识别图片上时,调整所述待识别图片的展示尺寸至第一预设尺寸,调整所述识别表格的展示尺寸至第二预设尺寸;当所述第二目标触发操作作用在所述识别表格上时,调整所述识别表格的展示尺寸至第一预设尺寸,调整所述待识别图片的展示尺寸至第二预设尺寸。
或者,响应针对所述展示页面的查看按钮的第二目标触发操作,直接调整所述识别表格的展示尺寸至第一预设尺寸,调整所述待识别图片的展示尺寸至第二预设尺寸。
其中,所述第一预设尺寸大于所述第二预设尺寸,当用户对识别表格执行第二目标触发操作时,可以理解为用户想要查看识别表格,通过将识别表格的展示尺寸调整为第一预设尺寸,相当于对识别表格进行放大处理,这样,可以方便用户查看识别表格,对于待识别图片执行第二目标触发操作的目的也与此相似。
所述第一预设尺寸和所述第二预设尺寸在进行设置时,所述第二预设尺寸可以为能够看清识别表格或待识别图片的尺寸,所述第一预设尺寸可以是在第二尺寸的图片(识别表格或待识别图片的尺寸)展示条件下,尽可能大的尺寸,或者,所述第一预设尺寸和第二预设尺寸在进行设置时,可以结合屏幕尺寸等,具体的第一预设尺寸和第二预设尺寸的大小可以根据实际情况来设置。
在一种可能的实施方式中,还可以响应针对所述识别表格的处理操作,对所述识别表格进行所述处理操作指向的处理;
所述处理操作指向的处理包括:
编辑处理、下载处理、缓存处理中的至少一项。
所述编辑处理例如可以是指改变识别表格中的数据、合并识别表格中的单元格等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与模板生成方法对应的模板生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述模板生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图7所示,为本公开实施例提供的一种模板生成装置的架构示意图,所述装置包括:第一展示模块701、第一确定模块702、生成模块703、测试模块704;其中,
第一展示模块701,用于获取并展示包括目标表格的目标模板图片;
第一确定模块702,用于响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
生成模块703,用于基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
一种可能的实施方式中,所述第一展示模块701,在获取并展示包括目标表格的目标模板图片时,用于:
获取包括所述目标表格的目标模板图片,对所述目标模板图片进行矫正,并展示矫正后的目标模板图片;或者,
获取并展示包括所述目标表格的目标模板图片,响应于模板图片矫正指令,对展示的所述目标模板图片进行矫正。
一种可能的实施方式中,所述第一展示模块701,在对所述目标模板图片进行矫正时,用于:
基于为所述目标模板图片确定所述目标表格的角点在所述目标模板图片中的位置信息,对所述目标模板图片进行矫正。
一种可能的实施方式中,所述生成模块703,在基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板时,用于:
识别所述参考字段的区域信息中的字段文本;以及基于所述识别字段的第一区域信息和所述参考字段的第二区域信息,确定所述识别字段与所述参考字段的相对位置关系;
基于所述参考字段的字段文本和所述相对位置关系,生成所述目标表格的识别模板。
一种可能的实施方式中,所述第一确定模块702还用于根据以下方法确定所述单个识别字段的特征信息:
响应于针对所述目标模板图片的第一选定操作,基于所述第一选定操作在所述目标模板图片中选定的区域的区域信息,确定所述单个识别字段的区域信息;
响应第一编辑操作,确定所述单个识别字段的字段信息。
一种可能的实施方式中,所述第一确定模块702还用于根据以下方法确定所述表格识别字段的特征信息:
响应于针对所述目标表格中的第二选定操作,将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息;
响应于针对菜单列表中表格按钮的触发操作,确定所述目标表格的目标列数;响应针对所述目标列数的第二编辑操作,确定所述表格识别字段的字段信息。
一种可能的实施方式中,在所述目标表格为多列的情况下,所述第一确定模块702,在将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息时,用于:
基于所述第二选定操作在所述目标模板图片中选定的区域中的表格线,确定所述选定的区域中的多个列区域;
将所述多个列区域分别作为所述表格识别字段中各个列对应的区域信息。
一种可能的实施方式中,所述识别字段的字段信息包括字段名称、字段类型、以及是否为跨行文本;所述参考字段的字段信息包括字段文本。
一种可能的实施方式中,在生成所述目标表格的识别模板之后,所述方法还包括测试模块704,用于:
获取与所述目标模板图片版式匹配的测试图片;
基于所述识别模板识别所述测试图片中的文本数据;
响应第一目标触发操作,通过目标代码格式展示识别结果,所述识别结果用于对所述识别模板进行调整。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一发明构思,本公开实施例中还提供了与图片识别方法对应的图片识别装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图片识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种图片识别装置的架构示意图,所述装置包括:获取模块801、第二确定模块802、第三确定模块803、第二展示模块804;其中,
获取模块801,用于获取待识别图片;
第二确定模块802,用于从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过上述实施例所述的模板生成方法得到;
第三确定模块803,用于基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
一种可能的实施方式中,所述第三确定模块803,在基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果时,用于:
基于所述识别模板,确定所述待识别图片中的待识别区域;
识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果。
一种可能的实施方式中,所述第三确定模块803,在基于所述识别模板,确定所述待识别图片中的待识别区域时,用于:
在所述识别模板中包括表格识别字段的特征信息的情况下,基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域;或者,
在所述识别模板中包括识别字段与参考字段之间的相对位置关系、以及参考字段的字段文本时,确定所述参考字段的字段文本在所述待识别图片中的区域信息;基于所述参考字段的字段文本在所述待识别图片中的区域信息和所述相对位置关系,确定所述待识别区域。
一种可能的实施方式中,在所述待识别图片中包括待识别表格的情况下,所述识别结果包括所述待识别表格对应的识别表格;
在所述识别字段包括表格识别字段的情况下,所述第三确定模块803,在识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果时,用于:
识别所述待识别区域中的表格线;
基于识别的表格线,确定所述待识别区域中的多个待识别列区域;
识别所述待识别列区域中的第一文本数据,并基于所述第一文本数据和所述表格识别字段的特征信息中各个列对应的字段信息,生成所述识别表格。
一种可能的实施方式中,在所述生成所述目标表格对应的识别表格之后,所述装置还包括第二展示模块804,用于:
在展示页面的第一展示区域展示所述待识别图片,以及在所述展示页面的第二展示区域展示所述识别表格;
响应针对所述展示页面的第二目标触发操作,调整所述待识别图片和所述识别表格的展示尺寸。
一种可能的实施方式中,在所述待识别图片中包括目标表格的情况下,所述识别结果包括所述目标表格对应的识别表格;
所述第二展示模块804,还用于:
响应针对所述识别表格的处理操作,对所述识别表格进行所述处理操作指向的处理,所述处理操作指向的处理包括编辑处理、下载处理、缓存处理中的至少一项。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图9所示,为本公开实施例提供的计算机设备900的结构示意图,包括处理器901、存储器902、和总线903。其中,存储器902用于存储执行指令,包括内存9021和外部存储器9022;这里的内存9021也称内存储器,用于暂时存放处理器901中的运算数据,以及与硬盘等外部存储器9022交换的数据,处理器901通过内存9021与外部存储器9022进行数据交换,当计算机设备900运行时,处理器901与存储器902之间通过总线903通信,使得处理器901在执行以下指令:
获取并展示包括目标表格的目标模板图片;
响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
或处理器901执行以下指令:
获取待识别图片;
从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过上述实施例所述的模板生成方法得到;
基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的模板生成、图片识别方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的模板生成、图片识别方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (19)
1.一种模板生成方法,其特征在于,包括:
获取并展示包括目标表格的目标模板图片;
响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
2.根据权利要求1所述的方法,其特征在于,所述获取并展示包括目标表格的目标模板图片,包括:
获取包括所述目标表格的目标模板图片,对所述目标模板图片进行矫正,并展示矫正后的目标模板图片;或者,
获取并展示包括所述目标表格的目标模板图片,响应于模板图片矫正指令,对展示的所述目标模板图片进行矫正。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标模板图片进行矫正,包括:
基于为所述目标模板图片确定所述目标表格的角点在所述目标模板图片中的位置信息,对所述目标模板图片进行矫正。
4.根据权利要求1~3任一所述的方法,其特征在于,所述基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板,包括:
识别所述参考字段的区域信息中的字段文本;以及基于所述识别字段的第一区域信息和所述参考字段的第二区域信息,确定所述识别字段与所述参考字段的相对位置关系;
基于所述参考字段的字段文本和所述相对位置关系,生成所述目标表格的识别模板。
5.根据权利要求1~4任一所述的方法,其特征在于,所述方法还包括根据以下方法确定所述单个识别字段的特征信息:
响应于针对所述目标模板图片的第一选定操作,基于所述第一选定操作在所述目标模板图片中选定的区域的区域信息,确定所述单个识别字段的区域信息;
响应第一编辑操作,确定所述单个识别字段的字段信息。
6.根据权利要求1~5任一所述的方法,其特征在于,所述方法还包括根据以下方法确定所述表格识别字段的特征信息:
响应于针对所述目标表格中的第二选定操作,将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息;
响应于针对菜单列表中表格按钮的触发操作,确定所述目标表格的目标列数;响应针对所述目标列数的第二编辑操作,确定所述表格识别字段的字段信息。
7.根据权利要求6所述的方法,其特征在于,在所述目标表格为多列的情况下,所述将所述第二选定操作在所述目标模板图片中选定的区域的区域信息,确定为所述表格识别字段的区域信息,包括:
基于所述第二选定操作在所述目标模板图片中选定的区域中的表格线,确定所述选定的区域中的多个列区域;
将所述多个列区域分别作为所述表格识别字段中各个列对应的区域信息。
8.根据权利要求1所述的方法,其特征在于,所述识别字段的字段信息包括字段名称、字段类型、以及是否为跨行文本;所述参考字段的字段信息包括字段文本。
9.根据权利要求1~8任一所述的方法,其特征在于,在生成所述目标表格的识别模板之后,所述方法还包括:
获取与所述目标模板图片版式匹配的测试图片;
基于所述识别模板识别所述测试图片中的文本数据;
响应第一目标触发操作,通过目标代码格式展示识别结果,所述识别结果用于对所述识别模板进行调整。
10.一种图片识别方法,其特征在于,包括:
获取待识别图片;
从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过权利要求1~9任一所述的模板生成方法得到;
基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
11.根据权利要求10所述的方法,其特征在于,所述基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果,包括:
基于所述识别模板,确定所述待识别图片中的待识别区域;
识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果。
12.根据权利要求11所述的方法,其特征在于,所述基于所述识别模板,确定所述待识别图片中的待识别区域,包括:
在所述识别模板中包括表格识别字段的特征信息的情况下,基于所述表格识别字段的特征信息中的区域信息,确定所述待识别图片中的待识别区域;或者,
在所述识别模板中包括识别字段与参考字段之间的相对位置关系、以及参考字段的字段文本时,确定所述参考字段的字段文本在所述待识别图片中的区域信息;基于所述参考字段的字段文本在所述待识别图片中的区域信息和所述相对位置关系,确定所述待识别区域。
13.根据权利要求11或12所述的方法,其特征在于,在所述待识别图片中包括待识别表格的情况下,所述识别结果包括所述待识别表格对应的识别表格;
在所述识别字段包括表格识别字段的情况下,所述识别所述待识别区域的文本信息,并基于所述文本信息生成所述识别结果,包括:
识别所述待识别区域中的表格线;
基于识别的表格线,确定所述待识别区域中的多个待识别列区域;
识别所述待识别列区域中的第一文本数据,并基于所述第一文本数据和所述表格识别字段的特征信息中各个列对应的字段信息,生成所述识别表格。
14.根据权利要求10~13任一所述的方法,其特征在于,在所述生成所述目标表格对应的识别表格之后,所述方法还包括:
在展示页面的第一展示区域展示所述待识别图片,以及在所述展示页面的第二展示区域展示所述识别表格;
响应针对所述展示页面的第二目标触发操作,调整所述待识别图片和所述识别表格的展示尺寸。
15.根据权利要求10~14任一所述的方法,其特征在于,在所述待识别图片中包括目标表格的情况下,所述识别结果包括所述目标表格对应的识别表格;
所述方法还包括:
响应针对所述识别表格的处理操作,对所述识别表格进行所述处理操作指向的处理,所述处理操作指向的处理包括编辑处理、下载处理、缓存处理中的至少一项。
16.一种模板生成装置,其特征在于,包括:
展示模块,用于获取并展示包括目标表格的目标模板图片;
第一确定模块,用于响应于触发操作,确定所述目标模板图片中识别字段以及参考字段的特征信息,所述识别字段包括单个识别字段和表格识别字段中的至少一项,所述特征信息包括区域信息和字段信息;
生成模块,用于基于所述识别字段和所述参考字段的特征信息,生成所述目标表格的识别模板。
17.一种图片识别装置,其特征在于,包括:
获取模块,用于获取待识别图片;
第二确定模块,用于从多个识别模板中包含的模板图片中,确定与所述待识别图片的样式匹配的模板图片对应的识别模板;所述识别模板通过权利要求1~9任一所述的模板生成方法得到;
第三确定模块,用于基于所述识别模板识别所述待识别图片,确定所述待识别对应的识别结果。
18.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的模板生成方法的步骤,或执行如权利要求10~15任一项所述的图片识别方法的步骤。
19.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一项所述的模板生成方法的步骤,或执行如权利要求10~15任一项所述的图片识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757470.2A CN113487702A (zh) | 2021-07-05 | 2021-07-05 | 一种模板生成、图片识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757470.2A CN113487702A (zh) | 2021-07-05 | 2021-07-05 | 一种模板生成、图片识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113487702A true CN113487702A (zh) | 2021-10-08 |
Family
ID=77940095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757470.2A Withdrawn CN113487702A (zh) | 2021-07-05 | 2021-07-05 | 一种模板生成、图片识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487702A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273111A (zh) * | 2022-06-27 | 2022-11-01 | 北京互时科技股份有限公司 | 一种无模板识别图纸材料表的装置 |
CN117669529A (zh) * | 2024-02-01 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
-
2021
- 2021-07-05 CN CN202110757470.2A patent/CN113487702A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273111A (zh) * | 2022-06-27 | 2022-11-01 | 北京互时科技股份有限公司 | 一种无模板识别图纸材料表的装置 |
CN117669529A (zh) * | 2024-02-01 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
CN117669529B (zh) * | 2024-02-01 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
WO2020173008A1 (zh) | 一种文本识别方法及装置 | |
CN110008944A (zh) | 基于模板匹配的ocr识别方法及装置、存储介质 | |
US11323577B2 (en) | Image processing device for creating an album | |
KR20190095651A (ko) | 문자 학습 트레이닝 데이터 생성 장치 및 그 방법 | |
CN109685870B (zh) | 信息标注方法及装置、标注设备及存储介质 | |
CN110210470B (zh) | 商品信息图像识别系统 | |
CN113487702A (zh) | 一种模板生成、图片识别方法及装置 | |
CN111476271B (zh) | 图标识别的方法、装置、系统、计算机设备和存储介质 | |
JP6795195B2 (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
JP2015191382A (ja) | 画像データ処理装置、方法、及びプログラム | |
CN111209909B (zh) | 资质识别模板构建方法、装置、设备和存储介质 | |
CN114399623B (zh) | 一种通用答题识别方法、系统、存储介质及计算设备 | |
CN113485618A (zh) | 自定义识别模板的生成方法、证件的识别方法以及装置 | |
US12067796B2 (en) | Method for detecting fraud in documents | |
CN110909816A (zh) | 图片识别方法和装置 | |
CN116563876A (zh) | 一种发票识别方法 | |
CN114821623A (zh) | 文档处理方法、装置、电子设备及存储介质 | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
CN111401365A (zh) | Ocr图像自动生成方法及装置 | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
CN112765646A (zh) | 一种艺术测评中书画录入及匿名阅卷方法及系统 | |
JP2017097859A (ja) | 情報処理装置と、その処理方法及びプログラム | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
JP2006053622A (ja) | 文書リンク情報取得システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211008 |