CN112200167A - 图像识别方法、装置、设备及存储介质 - Google Patents

图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112200167A
CN112200167A CN202011413202.0A CN202011413202A CN112200167A CN 112200167 A CN112200167 A CN 112200167A CN 202011413202 A CN202011413202 A CN 202011413202A CN 112200167 A CN112200167 A CN 112200167A
Authority
CN
China
Prior art keywords
text
image
processed
connecting line
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011413202.0A
Other languages
English (en)
Other versions
CN112200167B (zh
Inventor
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011413202.0A priority Critical patent/CN112200167B/zh
Publication of CN112200167A publication Critical patent/CN112200167A/zh
Application granted granted Critical
Publication of CN112200167B publication Critical patent/CN112200167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开了图像识别方法、装置、设备及存储介质。具体实现方案为:获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。如此,能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,提升了用户体验。

Description

图像识别方法、装置、设备及存储介质
技术领域
本申请涉及图像处理领域,尤其涉及一种图像识别方法、装置、设备及存储介质。
背景技术
目前拍照批改作业的场景中,由于用于文本检测的检测模型的检测结果和用于文本识别的识别模型的识别结果不完全准确,导致批改结果存在误差,即便如此,在简单的计算题上,如口算批改,在一定程度上能满足用户需求,但是,针对一些特殊题型,比如低年级数学连线题,现有图像识别方式则无法处理。
发明内容
本申请提供了一种图像识别方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种图像识别方法,包括:
获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;
对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;
对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;
基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
在本申请的一具体示例中,所述对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果,包括:
对所述待处理图像进行文本区域识别,识别出所述多个文本区域;
对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。
在本申请的一具体示例中,还包括:
对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;
其中,所述对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果,包括:
在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
在本申请的一具体示例中,所述对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果,包括:
对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;
检测得到所述连线区域中不同连线之间的交点区域;
对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;
基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。
在本申请的一具体示例中,所述对所述交点区域的像素点进行处理,以去除所述交点区域,包括:
调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,
将所述交点区域中各像素点的像素值设置为预设值,以去除所述交点区域。
在本申请的一具体示例中,所述基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果,包括:
基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;
基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。
在本申请的一具体示例中,所述获取待处理图像,包括:
获取目标图像;
对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;
从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。
根据本申请的另一方面,提供了一种图像识别装置,包括:
待处理图像获取单元,用于获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;
文本识别单元,用于对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;
连线识别单元,用于对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;
规则判断单元,用于基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
在本申请的一具体示例中,所述文本识别单元,还用于:
对所述待处理图像进行文本区域识别,识别出所述多个文本区域;
对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。
在本申请的一具体示例中,还包括:文本像素处理单元;其中,
所述文本像素处理单元,用于对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;
所述连线识别单元,还用于在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
在本申请的一具体示例中,所述连线识别单元,还用于:
对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;
检测得到所述连线区域中不同连线之间的交点区域;
对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;
基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。
在本申请的一具体示例中,所述连线识别单元,还用于:
调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,
将所述交点区域中各像素点的像素值设置为预设值,以去除所述交点区域。
在本申请的一具体示例中,所述连线识别单元,还用于:
基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;
基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。
在本申请的一具体示例中,所述待处理图像获取单元,还用于:
获取目标图像;
对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;
从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。
根据本申请的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的方法。
根据本申请的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行以上所述的方法。
根据本申请的技术能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了应用场景的同时,也提升了用户体验。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例图像识别方法的实现流程示意图;
图2是根据本申请实施例在一具体示例中待处理图像的示意图;
图3是根据本申请实施例在一具体示例中的实现流程示意图;
图4是根据本申请实施例图像识别装置的结构示意图;
图5是用来实现本申请实施例的图像识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供一种图像识别方法,具体地,图1是根据本申请实施例图像识别方法的实现流程示意图,如图1所示,该方法包括:
步骤S101:获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系。
步骤S102:对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果。
步骤S103:对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
步骤S104:基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
在一具体示例中,所述待处理图像可以具体为对待进行批改的连线题进行拍照后得到图像,此时,所述文本区域即可为连线题的题干,所述连接关系即为连线的两端所对应的文本区域之间的指向关系。
这里,所述预设连接规则可以具体为提前设置的连接关系,比如,针对连线题,该预设连接关系则可基于题干的计算结果而预先确定出。
当然,实际应用中,在基于文本内容识别结果确定所述连线识别结果满足预设连线规则后,可以输出第一提示信息,比如,判题场景中的正确符号;相应地,在基于文本内容识别结果确定所述连线识别结果不满足预设连线规则后,可以输出第二提示信息,以提示存在错误,如此,在实现图像识别的基础上,实现判题功能,进而提升了判题场景的智能化程度。
这样,由于本申请方案,一方面能够识别得到文本内容,另一方面还能够识别得到连接关系,即连线识别结果,如此,利用本申请方案能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了图像识别的应用场景的同时,也提升了用户体验。
在本申请的一具体示例中,可以采用如下方法来得到文本内容识别结果,具体地,上述对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果,具体包括:对所述待处理图像进行文本区域识别,识别出所述多个文本区域;对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。也就是说,在进行文本内容识别的过程中,首先需要识别出文本区域,然后,再对文本区域中的文本进行识别,得到文本内容,进而得到包含有所有文本区域对应的文本内容的文本内容识别结果。如此,提升了文本识别的准确率,同时,提升了文本识别的效率,进而为提升用户体验奠定了基础。
当然,在判题场景中,该文本内容识别结果还可以进一步包含针对文本内容的计算结果,比如,文本内容为2+3,此时,该文本内容识别结果中不仅包含有2+3的文本内容,还包括有计算结果,即5,如此,为后续匹配判题场景奠定基础。
在本申请的一具体示例中,为后续能够准确识别出连线,在识别得到文本区域后,对文本区域的像素点进行处理,以避免文本区域对后续连线识别带来噪声,具体地,在识别到文本区域后,对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;进而,在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。如此,避免了文本区域为连线识别过程带来噪声而导致连线识别结果的准确率减低,为提升连线识别结果的准确率奠定了基础。
当然,实际应用中,还可以在识别出文本内容后,对识别得到的文本内容的像素点进行处理,以去除所述文本内容。
这里,需要注意的是,所述文本区域中包含有文本内容,但对于像素点而已,所述文本内容所包含的像素点均处于所述文本区域范围内,但文本区域中的部分像素点可能并非对应有文本内容。因此,上述对像素点进行处理时,可以对文本区域的所有像素点进行处理,也可以对文本内容的所有像素点进行处理,两者均能避免为后续连线识别带来噪声,本申请方案对此不作限制。
在一示例中,对所述文本区域中像素点进行处理,可以具体为:至少调整所述文本区域中文本内容的各像素点(比如,只调整文本内容的像素点,或者将文本区域中的所有像素点均进行调整),使所述文本内容的像素点与所述待处理图像的背景相匹配,以去除所述文本内容;或者,至少将所述文本区域中文本内容的各像素点的像素值设置为预设值,比如,为0,以去除所述文本内容。
在本申请的一具体示例中,可以采用如下方式来对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果,具体包括:对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;检测得到所述连线区域中不同连线之间的交点区域;对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。如此,来避免交点区域对实际连线结果的影响,进而提升了连线识别结果的准确率。
这里,需要说明的是,实际应用中,在对交点区域的像素点进行处理之前,可以预先按照以上所述的方式对文本区域中文本内容的像素点进行处理,以最大程度避免文本内容对交点区域的识别带来的影响,进而为提升连线识别结果奠定基础。当然,对文本区域中文本内容的像素点的处理,和对交点区域的像素点的处理,两者也可以同步执行,本申请方案对此不作限制。
在本申请的一具体示例中,可以采用如下方式,对所述交点区域的像素点进行处理,以去除所述交点区域,具体包括:调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,将所述交点区域中各像素点的像素值设置为预设值,比如为0,以去除所述交点区域,如此,来避免交点区域对实际连线结果的影响,进而提升了连线识别结果的准确率。
在本申请的一具体示例中,在对交点区域进行处理后,得到互不相交的多条线段,此时,可以采用如下方式来判断两条线段,或多条线段是否属于同一连线,具体地,所述基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果,包括:基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。如此,识别得到连接关系,即连线识别结果,且该连线识别结果准确,进而,使得本申请方案能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了图像识别的应用场景的同时,也提升了用户体验。
在本申请的一具体示例中,采用如下方式获取到待处理图像,具体包括:获取目标图像,比如,将待进行批改的连线题进行拍照后得到的图像作为目标图像,此时,由于拍摄问题,可能会包含多余区域,此时,对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。如此,为提升后续处理效率奠定了基础。
这样,由于本申请方案,一方面能够识别得到文本内容,另一方面还能够识别得到连接关系,即连线识别结果,如此,利用本申请方案能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了图像识别的应用场景的同时,也提升了用户体验。
以下结合具体示例对本申请方案做进一步详细说明,具体地,
本示例提供一种拍照判题场景中,批改低年级数学连线题的方法,以此扩展拍照判题流程所处理题目的类型。具体流程如下,
使用目标模型实现版面分析模型和文本行检测模型的功能,比如,使用CenterNet模型或者SSD模型,同时,在所选择的模型中增加2个检测分支,即所选择的目标模型一共有3个检测分支,分别为:
第一分支,实现版面分析模型的功能,用于检测整体的版面大框,如图2所示,即将整个连线题从目标图像中整个框选起来,并截取下来形成一个小图,作为待处理图像进行后续处理。
第二分支,实现文本行检测模型的功能,用于检测每个文本行(也即文本区域,或文本框),如图2所示的包含数字内容的文本框。
第三分支,检测连线的交点,即将图2所示的连线的交点区域框选起来。
这里,实际应用中,在训练过程中,三个分支使用的损失(Loss)函数和训练方式可以相同,具体视使用的模型而定。
这里,基于第二分支的检测结果使用识别模型对文本行进行识别,得到算式的识别结果,然后根据第二分支检测到的文本框的位置关系,判断题目类型是上下线连线题还是左右连线题,这里,上下连线题是两行文本框(也即图2所示的连线题),左右连线题是两列文本框,然后根据识别结果即可确定出正确的连线关系。
以下具体说明如何基于上述三个分支的结果得到待处理图像中实际的连接关系;具体地,
基于第三分支检测到的结果,将每个检测框包围起来的位置(也即交点区域)全部置为0,即将交点区域的像素点设置为0;同理,基于第二分支检测到的结果,将每个检测框包围起来的位置(也即文本框)全部置为0,即将检测得到的文本框的像素点设置为0;然后使用canny算子检测第一分支得到的待处理图像的边缘,以得到所有的线段,所有线段之间不具有交点,因为交点区域的像素点均已置为0。进一步地,求取得到的线段的连通域,得到每条线段的具体坐标信息,根据各条线段的坐标信息,得到两条斜率相同的直线方程,基于该两条斜率相同的直线方程将上述得到的线段夹在中间,这里,考虑到实际场景中,连线题之间的实际连线并非为直线,可能为曲线,所以,设置两条斜率相同的直线方程来将线段夹在中间,如此,来确定出真实的连线关系;进一步地,基于斜率设定阈值,若两条线段之间的斜率差距小于阈值,即可认为属于一条实现的连线,基于此,得到所有的连接关系,进而判断实际的连接关系的两端所对应的文本框是否与正确的连接关系相匹配,完成连线题型的判断。
当然,若实际场景中,连线题型中的实际连线为直线,此时,还可以使用霍夫变换来最终确定出的实际的连线。
具体步骤如图3所示,
第一步,将待批改图像拍照送入拍照批改应用程序。
第二步,获取目标模型,该目标模型包括三个检测分支。
第三步,对目标模型进行训练,这里,实际训练过程中,三个检测分支使用的Loss函数和训练方式完全相同,具体视使用的模型而定。
第四步,利用第三步训练完成后的目标模型中的第一分支对待批改图像进行版面检测,并将整个连线题从待批改图像中截取出,作为后续的待处理图像;利用第二分支对待处理图像进行检测,得到检测结果,即得到文本行;使用识别模型对文本行进行识别,得到算式(也即文本内容)的识别结果。
第五步,基于第三步训练完成后的目标模型中的第二分支检测得到的文本行之间的位置关系,判断题目类型是上下线连线题还是左右连线题。
第六步,基于第四步的识别结果得到文本行之间正确的连线关系。
第七步,基于第三步训练完成后的目标模型中的第三分支检测到的结果,即得到交点区域,将每个检测框包围起来的位置(也即交点区域)的像素点全部置为0;同理,基于第二分支检测到的结果,将每个检测框包围起来的位置(也即文本框)的像素点全部置为0。
第八步,根据第七步结果,使用canny算子检测这个待处理图像上的边缘,以得到所有的线段,所有线段之间不具有交点。
第九步,根据第八步结果求取线段的连通域,得到每条线段的具体坐标信息,然后根据每条线段的坐标信息,以及第五步得到的题目类型,确定出斜率一样两条直线方程,基于该两条斜率相同的直线方程将上述得到的线段夹在中间,若两条线段之间的斜率差距小于阈值,该两条线路中各线段的斜率与该直线方程的斜率之差也小于阈值,则即可认为该两条线段属于一条实现的连线。基于此,得到所有的连接关系。
第十步,判断第九步得到的实际的连接关系的两端所对应的文本行是否与正确的连接关系相匹配,如此来完成连线题型的判断。
这样,由于本申请方案,一方面能够识别得到文本内容,另一方面还能够识别得到连接关系,即连线识别结果,如此,利用本申请方案能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了图像识别的应用场景的同时,也提升了用户体验。
本申请实施例还提供一种图像识别装置,如图4所示,包括:
待处理图像获取单元401,用于获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;
文本识别单元402,用于对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;
连线识别单元403,用于对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;
规则判断单元404,用于基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
在本申请的一具体示例中,所述文本识别单元,还用于:
对所述待处理图像进行文本区域识别,识别出所述多个文本区域;
对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。
在本申请的一具体示例中,还包括:文本像素处理单元;其中,
所述文本像素处理单元,用于对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;
所述连线识别单元,还用于在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
在本申请的一具体示例中,所述连线识别单元,还用于:
对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;
检测得到所述连线区域中不同连线之间的交点区域;
对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;
基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。
在本申请的一具体示例中,所述连线识别单元,还用于:
调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,
将所述交点区域中各像素点的像素值设置为预设值,以去除所述交点区域。
在本申请的一具体示例中,所述连线识别单元,还用于:
基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;
基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。
在本申请的一具体示例中,所述待处理图像获取单元,还用于:
获取目标图像;
对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;
从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的图像识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的图像识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图像识别方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图像识别方法对应的程序指令/模块(例如,附图4所示的待处理图像获取单元401、文本识别单元402、连线识别单元403和规则判断单元404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像识别方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图像识别方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至图像识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图像识别方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与图像识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的技术方案,由于本申请方案,一方面能够识别得到文本内容,另一方面还能够识别得到连接关系,即连线识别结果,如此,利用本申请方案能够扩展现有批改作用的应用场景,尤其是能够应用到具有连线关系的题型中,丰富了图像识别的应用场景的同时,也提升了用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种图像识别方法,包括:
获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;
对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;
对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;
基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
2.根据权利要求1所述的方法,其中,所述对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果,包括:
对所述待处理图像进行文本区域识别,识别出所述多个文本区域;
对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。
3.根据权利要求2所述的方法,还包括:
对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;
其中,所述对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果,包括:
在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
4.根据权利要求1或2或3所述的方法,其中,所述对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果,包括:
对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;
检测得到所述连线区域中不同连线之间的交点区域;
对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;
基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。
5.根据权利要求4所述的方法,其中,所述对所述交点区域的像素点进行处理,以去除所述交点区域,包括:
调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,
将所述交点区域中各像素点的像素值设置为预设值,以去除所述交点区域。
6.根据权利要求4所述的方法,其中,所述基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果,包括:
基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;
基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。
7.根据权利要求1所述的方法,其中,所述获取待处理图像,包括:
获取目标图像;
对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;
从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。
8.一种图像识别装置,包括:
待处理图像获取单元,用于获取待处理图像,其中,所述待处理图像显示有多个文本区域,以及不同文本区域之间的连接关系;
文本识别单元,用于对所述待处理图像进行文本识别,得到针对所述多个文本区域的文本内容识别结果;
连线识别单元,用于对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果;
规则判断单元,用于基于文本内容识别结果确定所述连线识别结果是否满足预设连接规则。
9.根据权利要求8所述的装置,其中,所述文本识别单元,还用于:
对所述待处理图像进行文本区域识别,识别出所述多个文本区域;
对识别出的所述文本区域中的文本内容进行识别,得到表征所述多个文本区域所对应文本内容的文本内容识别结果。
10.根据权利要求9所述的装置,还包括:文本像素处理单元;其中,
所述文本像素处理单元,用于对识别得到的所述文本区域中的像素点进行处理,以去除所述文本内容;
所述连线识别单元,还用于在去除所述文本内容的情况下,对所述待处理图像所显示的连接关系中连线进行识别,得到连线识别结果。
11.根据权利要求8或9或10所述的装置,其中,所述连线识别单元,还用于:
对所述待处理图像所显示的连接关系中连线进行识别,得到连线区域;
检测得到所述连线区域中不同连线之间的交点区域;
对所述交点区域的像素点进行处理,以去除所述交点区域,得到互不相交的多条线段;
基于互不相交的多条线段得到表征不同文本区域之间连接关系的连线识别结果。
12.根据权利要求11所述的装置,其中,所述连线识别单元,还用于:
调整所述交点区域中各像素点,使所述交点区域中的像素点与所述待处理图像的背景相匹配,以去除所述交点区域;或者,
将所述交点区域中各像素点的像素值设置为预设值,以去除所述交点区域。
13.根据权利要求11所述的装置,其中,所述连线识别单元,还用于:
基于得到的基于互不相交的多条线段得到至少一个直线方程组,其中,所述直线方程组中包含有斜率相同的两条直线方程;
基于各线段的斜率与所述直线方程组对应的斜率之间的关系,判断不同线段之间是否属于同一连线,以得到连线识别结果。
14.根据权利要求8所述的装置,其中,所述待处理图像获取单元,还用于:
获取目标图像;
对所述目标图像进行版面识别,识别得到包含有文本区域以及文本区域之间的连接关系的区域;
从所述目标图像中截取出识别得到包含有文本区域以及文本区域之间的连接关系的区域得到所述待处理图像。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
CN202011413202.0A 2020-12-07 2020-12-07 图像识别方法、装置、设备及存储介质 Active CN112200167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413202.0A CN112200167B (zh) 2020-12-07 2020-12-07 图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413202.0A CN112200167B (zh) 2020-12-07 2020-12-07 图像识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112200167A true CN112200167A (zh) 2021-01-08
CN112200167B CN112200167B (zh) 2021-03-09

Family

ID=74033747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413202.0A Active CN112200167B (zh) 2020-12-07 2020-12-07 图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112200167B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766247A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、电子设备及计算机存储介质
CN112949616A (zh) * 2021-05-13 2021-06-11 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、电子设备及计算机存储介质
CN112989768A (zh) * 2021-04-26 2021-06-18 北京世纪好未来教育科技有限公司 连线题批改方法、装置、电子设备及存储介质
CN113239908A (zh) * 2021-07-12 2021-08-10 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、设备及介质
CN113627399A (zh) * 2021-10-11 2021-11-09 北京世纪好未来教育科技有限公司 题目处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
US20190050662A1 (en) * 2016-08-31 2019-02-14 Baidu Online Network Technology (Beijing) Co., Ltd . Method and Device For Recognizing the Character Area in a Image
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN111626249A (zh) * 2020-06-01 2020-09-04 北京易真学思教育科技有限公司 题目图像中几何图形的识别方法、装置和计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050662A1 (en) * 2016-08-31 2019-02-14 Baidu Online Network Technology (Beijing) Co., Ltd . Method and Device For Recognizing the Character Area in a Image
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN111626249A (zh) * 2020-06-01 2020-09-04 北京易真学思教育科技有限公司 题目图像中几何图形的识别方法、装置和计算机存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766247A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、电子设备及计算机存储介质
CN112766247B (zh) * 2021-04-09 2021-07-20 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、电子设备及计算机存储介质
CN112989768A (zh) * 2021-04-26 2021-06-18 北京世纪好未来教育科技有限公司 连线题批改方法、装置、电子设备及存储介质
CN112949616A (zh) * 2021-05-13 2021-06-11 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、电子设备及计算机存储介质
CN113239908A (zh) * 2021-07-12 2021-08-10 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、设备及介质
CN113239908B (zh) * 2021-07-12 2021-09-24 北京世纪好未来教育科技有限公司 一种题目处理方法、装置、设备及介质
CN113627399A (zh) * 2021-10-11 2021-11-09 北京世纪好未来教育科技有限公司 题目处理方法、装置、设备及存储介质
CN113627399B (zh) * 2021-10-11 2022-02-08 北京世纪好未来教育科技有限公司 题目处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112200167B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112200167B (zh) 图像识别方法、装置、设备及存储介质
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
EP3862723A2 (en) Method and apparatus for detecting map quality
CN111784663B (zh) 零部件的检测方法、装置、电子设备及存储介质
CN111860167A (zh) 人脸融合模型获取及人脸融合方法、装置及存储介质
CN112287924B (zh) 文本区域检测方法、装置、电子设备和计算机存储介质
CN111612820A (zh) 多目标跟踪方法、特征提取模型的训练方法和装置
CN111695628A (zh) 关键点标注方法、装置、电子设备及存储介质
CN110659600A (zh) 物体检测方法、装置及设备
CN110619312B (zh) 定位元素数据的增强方法、装置、设备及存储介质
CN111832648B (zh) 关键点标注方法、装置、电子设备及存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
US20210357660A1 (en) Method, apparatus, electronic device, and storage medium for monitoring an image acquisition device
CN110866504B (zh) 标注数据的获取方法、装置和设备
CN111275011A (zh) 移动红绿灯检测方法、装置、电子设备和存储介质
CN110705551B (zh) 按键位置的识别方法、装置、电子设备和存储介质
CN111260656B (zh) 分析导航轨迹的方法以及装置
EP3872762A1 (en) Edge-based three-dimensional tracking and registration method and apparatus for augmented reality, and storage medium
CN111489433B (zh) 车辆损伤定位的方法、装置、电子设备以及可读存储介质
CN112561053A (zh) 图像处理方法、预训练模型的训练方法、装置和电子设备
CN112529018A (zh) 图像局部特征的训练方法、装置及存储介质
CN112150380B (zh) 校正图像的方法、装置、电子设备和可读存储介质
CN111860526B (zh) 基于图像的判题方法、装置、电子设备和计算机存储介质
CN111858811B (zh) 一种构建兴趣点图像的方法、装置、电子设备及存储介质
CN110728721B (zh) 外参的获取方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant