CN112990127B - 目标识别方法、装置、电子设备及存储介质 - Google Patents

目标识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112990127B
CN112990127B CN202110456450.1A CN202110456450A CN112990127B CN 112990127 B CN112990127 B CN 112990127B CN 202110456450 A CN202110456450 A CN 202110456450A CN 112990127 B CN112990127 B CN 112990127B
Authority
CN
China
Prior art keywords
detection box
text
root node
type
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110456450.1A
Other languages
English (en)
Other versions
CN112990127A (zh
Inventor
李自荐
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110456450.1A priority Critical patent/CN112990127B/zh
Publication of CN112990127A publication Critical patent/CN112990127A/zh
Application granted granted Critical
Publication of CN112990127B publication Critical patent/CN112990127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了目标识别方法、装置、电子设备及存储介质,具体实现方案为:对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框;对所述多类型的检测结果进行识别,得到识别结果;根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。采用本申请,可以提高针对题目类型的识别准确率。

Description

目标识别方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种目标识别方法、装置、电子设备及存储介质。
背景技术
随着便携设备、手机终端等电子设备相比以往更智能化,芯片的解析能力更强,可以通过计算机视觉技术对图文信息、视频信息等进行高效的解析,并对图文信息、视频信息等中的目标对象进行检测。
以拍照判题的应用场景为例,采集图片后,对该图片中任一道题目所在文本框进行检测,以通过检测框锁定该题目。对检测框中的题目进行识别,根据识别出的任一道题目的内容进行判题。如果识别出题目的内容(如题目类型)不准确,则会导致判题的准确率下降,有鉴于此,如何提高针对题目类型的识别准确率是要解决的问题。
发明内容
本申请提供了一种目标识别方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种目标识别方法,包括:
对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框;
对所述多类型的检测结果进行识别,得到识别结果;
根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;
根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。
根据本申请的另一方面,提供了一种目标识别装置,包括:
检测模块,用于对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框;
第一识别模块,用于对所述多类型的检测结果进行识别,得到识别结果;
第二识别模块,用于根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;
第三识别模块,用于根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。
采用本申请,对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框;对所述多类型的检测结果进行识别,得到识别结果;根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。由于可以根据该多类型的检测结果与该识别结果之间建立的对应关系识别出该文本检测框中包含的字符检测框的数量,以根据字符检测框的数量识别出该文本对象对应的题目类型,因此,可以提高针对题目类型的识别准确率。尤其是,可以精确的识别出检测框中文本对象所对应的非常规的题目类型如树状计算题,不仅提高了识别准确率,基于该识别出的题目版式,进一步还可以得到精确的判题结果。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的目标识别方法的流程示意图;
图2是根据本申请实施例的目标识别方法一应用示例的题目类型示意图;
图3a-图3f是根据本申请实施例的目标识别方法一应用示例的又一题目类型示意图;
图4是根据本申请实施例的目标识别方法一应用示例的版面分析中所应用运算模式的示意图;
图5是根据本申请实施例的目标识别装置的组成结构示意图;
图6是用来实现本申请实施例的目标识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
根据本申请的实施例,提供了一种目标识别方法,图1是根据本申请实施例的目标识别方法的流程示意图,该方法可以应用于目标识别装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行各种检测框类型的多类型检测、字符检测框数量的识别、文本对象对应题目类型的识别等等。其中,终端可以为用户设备(UE,UserEquipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal DigitalAssistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,包括:
S101、对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框。
一示例中,可以对待处理目标对象进行检测,得到文本检测框(如树状计算题的大框或称整体的文本区域,主要作用是将树状计算题整个框起来)、第一字符检测框(如打印体字符的第一字符检测框,主要作用是将打印体字符“根节点”框起来)、第二字符检测框(如手写体字符的第二字符检测框,主要作用是将手写体字符“相对于该根节点的相邻叶子节点等”框起来),且第一字符检测框及第二字符检测框为不同类型。也就是说,在检测过程中分为三个检测分支:文本检测框、第一字符检测框及第二字符检测框,可以通过一个检测模型(如CenterNet模型或者SSD模型)结合该三个检测分支来实现目标检测,无需引入多个模型分别检测,从而,避免了引入多个模型导致的模型冗余、及多个模型的运算互相干扰导致的识别不准确的问题。
S102、对所述多类型的检测结果进行识别,得到识别结果。
一示例中,对多类型的检测结果进行识别,可以得到分别针对文本检测框、针对第一字符检测框及针对第二字符检测框的多个识别结果。
S103、根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量。
一示例中,该识别结果为第一字符检测框及第二字符检测框属于同一个文本检测框的情况下,可以建立第一字符检测框及第二字符检测框与文本检测框的隶属关系,即为该多类型的检测结果与该识别结果之间所建立的对应关系,根据该对应关系可以识别出文本检测框中包含的各字符检测框的数量。
S104、根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。
一示例中,题目类型可以为题型版式,如脱式计算、分式计算、树状计算题等。由于采用一个检测模型结合上述三个检测分支来实现目标检测,即可实现文本行检测、版面分析及判题处理,具体是:根据文本行检测所得到的多类型检测结果进行版面分析,以及得到每个题目类型。进一步还可以根据每个题目类型进行判题处理,最后将判断结果进行输出,以得到判题结果,因此,不仅提高了识别准确率,而且可以通过一个检测模型同时实现文本行检测、版面分析及判题处理,处理效率更高。
采用本申请,由于可以根据该多类型的检测结果与该识别结果之间建立的对应关系识别出该文本检测框中包含的字符检测框的数量,以根据字符检测框的数量识别出该文本对象对应的题目类型,因此,可以提高针对题目类型的识别准确率。尤其是,可以精确的识别出检测框中文本对象所对应的非常规的题目类型如树状计算题,不仅提高了识别准确率,基于该识别出的题目版式,进一步还可以得到精确的判题结果。
一实施方式中,还包括:根据所述文本对象、及所述文本对象对应的题目类型进行判题处理,得到判题结果。采用本实施方式,可以精确的识别出检测框中文本对象所对应的题目版式,尤其是非常规的题目类型如树状计算题,从而,提高了识别准确率,基于该识别出的题目类型进行判题处理,可以得到精确的判题结果。
一实施方式中,所述根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量,包括:将所述第一字符检测框及所述第二字符检测框,与所述文本检测框进行交并比运算,得到运算结果;根据所述运算结果得到所述识别结果,所述识别结果为所述第一字符检测框及所述第二字符检测框属于同一个文本检测框的情况下,建立所述第一字符检测框及所述第二字符检测框与所述文本检测框的隶属关系;将所述隶属关系作为所述对应关系,根据所述对应关系识别出所述文本检测框中包含的所述字符检测框的数量。采用本实施方式,可以根据多类型检测框之间的对应关系来识别检测框的数量,比如,将某文本对象(如一道题)被框起来的“大框”(如一个文本检测框)中,可以包含多个“小框”(如多个第一字符检测框及第二字符检测框),明确了多个“小框”与“大框”的隶属关系,就可以知道该道题中包含几个“小框”(即小框数量),从而,可以根据“小框”数量,判断出题目类型(如,这道题是属于包含几个节点的树状结构计算)等等,从而提高了识别准确率。
一实施方式中,所述根据所述字符检测框的数量,识别出所述文本对象对应的题目类型,包括:根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;所述节点数量为3个的情况下,获取所述树形结构中的根节点及对应所述根节点的左右子节点;根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出所述文本对象对应的题目类型。采用本实施方式,针对非常规题目类型如树状计算题,即:该计算题为包含根节点及相邻叶子节点等的树状结构,可以精确的识别出相应的题目类型,不限于3个节点的树状计算题、5个节点的树状计算题、7个节点的树状计算题及9个节点的树状计算题等多种题目类型。
以本实施方式的3个节点的树状计算题为例,一个“大框”中总共有三个节点,根节点在上面的情况,必然是3个“小框”里面满足y坐标(即纵坐标)最小,x坐标(即横坐标)居中,然后剩余两个“小框”中x坐标小的是左节点,x坐标大的是右节点;同理,根节点在下面的情况,满足y坐标最大,x坐标居中;根节点在左边的情况,满足y坐标居中,x坐标最小;根节点在右边的情况,满足y坐标居中,x坐标最大,可以精确的识别出是上述3个节点的树状计算题中哪种具体类型,进一步还可以根据识别结果进行精准的判题处理。
一实施方式中,所述根据所述字符检测框的数量,识别出所述文本对象对应的题目类型,包括:根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;所述节点数量为大于3个的情况下,从树形结构初始位置开始,对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型;其中,所述基本运算单元包括节点数量为3个的情况。采用本实施方式,可以适用于节点数量为大于3个的情况,且不限于5个节点的树状计算题、7个节点的树状计算题及9个节点的树状计算题等多种题目类型,通过从树状计算题初始位置开始,对根节点及对应根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后精准的识别出文本对象对应的题目类型,进一步还可以根据识别结果进行精准的判题处理。
一实施方式中,所述对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型,包括:根据遍历顺序,从所述树形结构中每次获取一组存在隶属关系(如父子关系、母子关系等,父和母即为根节点)的3个节点,获取所述3个节点中的根节点、及对应所述根节点的左右子节点,根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出本次题目类型分析的处理结果;直至遍历结束,得到多次题目类型分析的处理结果;根据所述多次题目类型分析的处理结果,识别出所述文本对象对应的题目类型。采用本实施方式,获取3个节点中的根节点、及对应根节点的左右子节点并以此为基本运算单元,可以精确的识别出文本对象对应的题目类型,进一步还可以根据识别结果进行精准的判题处理。
需要指出的是,采用本申请,可以将本实施方式中上述判断3个节点树状计算版式的方法应用于不限于5个节点的树状计算题、7个节点的树状计算题及9个节点的树状计算题等多种题目类型,因为题目原因(可能根节点的子节点的子节点框的x坐标或y坐标与根节点相近,从而无法区分),因此对于这三种节点数量的树状计算题目版式区分采用如下方法,首先找出所有“小框”中x坐标最小的框、x坐标最大的框,y坐标最小的框和y坐标最大的框,然后拿出这四个框中任意一个框与属于这个题目的所有“小框”计算欧式距离,然后排序找到距离当前“小框”最近的两个距离,如果这两个距离差距非常小(如可以根据经验设定一个阈值进行比较),那么这个“小框”就是根节点,否则,这个“小框”就不是根节点。找到根节点之后,距离根节点最近的两个距离对应的两个“小框”就是根节点的左右子节点,然后分别以左右子节点为根节点,继续按照上述方式,寻找它们各自的子节点,至此,可以知道每个树状计算题的节点数量,以及其题型版式,然后根据其对应的识别结果进行计算判题,同理,11个节点、13个节点和15个节点的树状计算题都可以按照上述方式进行计算。
应用示例:
拍照判题是人工智能技术在教育领域的一项重要应用,主要包括:采用手机或平板电脑等终端设备进行拍照,然后上传至拍照判题的应用程序,接着应用程序将图像送入题型判断模型,也称为版面分析模型和文本行检测模型,其中,题型判断模型是一种文本检测模型,它会检测横式、竖式和脱式三种题型并将它们用文本框框起来,也就是拿到文本区域坐标,与此同时,该图像经过文本行检测模型,图2是根据本申请实施例的目标识别方法一应用示例的题目类型示意图,如图2所示,文本行检测模型只检测横向文本行,粗实线的框表示版面模型的输出,虚线的框表示文本行检测模型的框输出;然后会根据版面分析模型和文本行检测模型的检测结果进行版面分析,对框进行合并,同时根据每种题型的特点,分析得到每个题是由那些框组成的,然后根据框的坐标在原图上进行裁剪,将裁剪得到的图像送入识别模型,得到每个题目的内容,然后根据题目内容进行判题,最后将判断结果进行输出。
如图2所示的上述方案,在拍照判题处理的理想情况下,需要在版面分析模型、文本行检测模型和识别模型这三个模型的处理结果都非常准确的情况下,最后,通过判题策略才可以得到准确的判题结果。但是,在实际应用中,在拍照判题处理之前基于该三个模型的任一个处理环节都不一定准确,导致最终的判题结果会出现“错判对”或者“对判错”的问题,判题准确率比较低。而且,只能处理一些常规题型,如横式、竖式和脱式,无法处理非常规的特殊题型,比如小学数学中的树状计算题等。基于此,本应用示例通过一个检测模型结合三个检测分支来实现拍照判题处理之前的处理流程,可以在不改变上述拍照判题流程基础的同时,实现精确的识别,尤其是针对非常规的特殊题型,如批改小学数学中树状计算题,很好的兼容目前的处理模式且扩展了拍照判题更多题目类型的处理方式。
图3a-3f是根据本申请实施例的目标识别方法一应用示例的又一题目类型示意图,为多个树状计算题的示例,如图3a-3f 所示,树状计算题指:叶子节点的两个数之和等于根节点,且不带运算符号。
本应用示例以处理树状计算题为例进行如下说明:
①:可使用一个检测模型,以及结合三个检测分支来实现目标识别。其中,第一检测分支:树状计算题的大框或称整体的文本区域,以将树状计算题整个框起来;第二检测分支:打印体“根节点”的第一字符框,以将打印体字符框起来;第三检测分支:手写体“以3个节点的结构为例,比如根节点下面连接的两个相邻叶子节点”的第二字符框,以将手写体字符框起来。采用一个检测模型,以及结合三个检测分支来实现目标识别,而不是上述图2所示技术中的“必须同时用到版面分析模型和文本行检测模型”才能实现版面分析模型和文本行检测模型的功能,从而,采用本应用示例,可以避免模型越多所导致的累积误差,提高了判题的准确率。而且模型越多,训练模型需要大量的人工标注数据,成本也高,换言之,采用本应用示例,还可以降低成本。
②:利用识别模型对上述第二个检测分支及第三个检测分支输出的多类型检测结果(如第一字符检测框及第二字符检测框)进行识别,得到每个检测结果和识别结果之间的对应关系,根据该对应关系开始构造题型,如首先根据该检测模型的检测结果,通过计算第二个和第三个检测分支对应的“小框”与第一个检测分支对应的“大框”的交并比进行题目整合,即识别判断哪些“小框”是属于同一个“大框”,至此,可以得到每道题对应的“小框”以及每个“小框”对应的识别结果之间的映射关系。
③根据每道题包含几个“小框”,判断这道题是属于几个节点(如3个节点、5个节点、7个节点、9个节点等)的树状结构;根据树状结构来识别题型版式,得到题型版式的识别结果,以根据该题型版式的识别结果进行判题处理,以得到判题结果。也就是说,识别出每个树状计算题的节点数量,以及该节点数量对应树状结构的题型版式,就可以根据识别结果进行判题处理。
针对上述根据每道题包含几个“小框”,判断这道题是属于几个节点的树状的计算而言,对于不管几个节点的树状计算,它都有4种可能的版式,需要识别出:根节点在上下左右这4种情况并根据得到的识别结果,分别进行判题处理,以得到判题结果,因此在知道是几个节点的树状计算之后,还需要分析版式。需要指出的是,基础运算单元可以是3个节点的树状计算,多于3个节点的情况,可以先确定出根节点,然后基于该跟节点继续找该根节点的左右子节点,从而,基于该基础运算单元(即3个节点的树状计算)来不断遍历迭代,从而得到多于3个节点的节点树所构造的题目类型。
图4是根据本申请实施例的目标识别方法一应用示例的版面分析中所应用运算模式的示意图,如图4所示,包括如下内容:
第一步、将待批改的图像输入拍照批改应用程序。
第二步、为检测模型(如CenterNet模型或者SSD模型)添加三个检测分支,以实现版面分析模型和文本行检测模型的功能。其中,第一个检测分支用于检测整体的版面大框,即主要作用是将树状计算题整个框起来;第二个检测分支用于检测每个打印体小框,即主要作用是将上图所示的带打印体小框框起来;第三个检测分支用于检测手写体小框,即主要作用是将3a-3f所示的手写体框起来。
第三步、利用识别模型对第二个检测分支和第三个检测分支的检测结果进行识别,得到每个检测小框和识别结果之间的对应关系。
第四步、根据第二步和第三步结果,通过计算第二个检测分支和第三个检测分支分别对应的小框与第一个检测分支对应的大框的交并比,并进行题目整合,从而判断出那些小框是属于同一个大框,至此可以得到每道题对应的小框以及每个小框对应的识别结果之间的映射关系,然后根据每道题包含几个小框,判断这道题是属于几个节点的树状的计算。
第五步、进行版式分析,树状计算常见的有3个节点,5个节点,7个节点和9个节点的情况,但不管几个节点的树状计算,它都有4种可能的版式,根节点在上下左右这4种情况,因此根据第四步,在知道是几个节点的树状计算之后,进行版式分析,分3个节点和5、7、9个节点两种情况进行。
第六步、根据第二步和第四步,对于3个节点的树状计算,它总共有三个节点,如果根节点在上面,那么必然是3个小框里面满足y坐标最小,x坐标居中,然后剩余两个框中x坐标小的是左节点,x坐标大的是右节点,同理,根节点在下面,满足y坐标最大,x坐标居中,根节点在左边,满足y坐标居中,x坐标最小,根节点在右边,满足y坐标居中,x坐标最大,然后根据识别结果进行判题。
第七步、根据第二步和第四步,首先找出所有小框中x坐标最小的框、x坐标最大的框,y坐标最小的框和y坐标最大的框,然后拿出这四个框中任意一个框与属于这个题目的所有小框计算欧式距离,然后排序找到距离这个框最近的两个距离,如果这两个距离差距非常小(可以根据经验设定一个阈值),那么这个框就是根节点,否则,这个框就不是根节点,找到根节点之后,距离根节点最近的两个距离对应的两个框就是根节点的左右子节点,然后分别以左右子节点为根节点,继续按照上述方式,寻找他们各自的子节点,至此,可以知道每个树状计算题的节点数量,以及其题型版式,然后根据其对应的识别结果进行计算判题。
同理,对应超过3个节点的其他情况,比如11个节点、13个节点和15个节点的树状计算,也都可以按照上述第二步-第七步方式进行计算,本应用实例适用于各种题目类型的树状计算,不限于上述5、7、9个节点的情况。
针对上述步骤,换言之,采用本应用示例,是在执行拍照判题处理的流程之前,首先,通过为检测模型添加的3个检测分支实现目标识别,其中,在训练过程中,三个检测分支使用的损失函数和训练方式可以完全相同,也可以根据需要调整各自的损失函数和训练方式,视所使用的检测模型而定。然后,利用识别模型对第二个检测分支和第三个检测分支的检测结果进行识别,得到每个检测“小框”和识别结果之间的对应关系,以进行构题。其中,在构题过程中,通过计算第二个检测和第三个检测分支分别对应的“小框”与第一个检测分支“大框”的交并比进行题目整合,可以判断那些“小框”是属于同一个大框,至此可以得到每道题对应的“小框”以及每个“小框”对应的识别结果之间的映射关系,从而可以根据每道题包含几个“小框”,判断这道题是属于几个节点的树状的计算,对于3个节点的树状计算,它总共有三个节点,如果根节点在上面,那么必然是3个小框里面满足y坐标最小,x坐标居中,然后剩余两个框中x坐标小的是左节点,x坐标大的是右节点,同理,根节点在下面,满足y坐标最大,x坐标居中,根节点在左边,满足y坐标居中,x坐标最小,根节点在右边,满足y坐标居中,x坐标最大。
将上述判断3个节点树状计算版式的方法用于5个节点,7个节点和9个节点的情况,以该3个节点树状作为基本运算单元,首先找出所有“小框”中x坐标最小的“小框”、x坐标最大的“小框”,y坐标最小的“小框”和y坐标最大的“小框”,然后拿出这四个框中任意一个“小框”与属于这个题目的所有“小框”计算欧式距离,然后排序找到距离这个“小框”最近的两个距离,如果这两个距离差距非常小,那么这个“小框”就是根节点,否则,这个“小框”就不是根节点,找到根节点之后,距离根节点最近的两个距离对应的两个“小框”就是根节点的左右子节点,然后分别以左右子节点为根节点,继续按照上述方式,寻找他们各自的子节点,至此,可以知道每个树状计算题的节点数量,以及其题型版式,然后根据其对应的识别结果进行计算判题。
根据本公开的实施例,提供了一种目标识别装置,图5是根据本公开实施例的目标识别装置的组成结构示意图,如图5所示,所述装置包括:检测模块41,用于对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的字符检测框;第一识别模块42,用于对所述多类型的检测结果进行识别,得到识别结果;第二识别模块43,用于根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;第三识别模块44,用于根据所述字符检测框的数量,识别出所述文本对象对应的题目类型。
一实施方式中,还包括判题模块,用于根据所述文本对象、及所述文本对象对应的题目类型进行判题处理,得到判题结果。
一实施方式中,所述检测模块,用于对待处理目标对象进行检测,得到所述文本检测框、第一字符检测框、第二字符检测框,且所述第一字符检测框及所述第二字符检测框为不同类型。
一实施方式中,所述第二识别模块,用于将所述第一字符检测框及所述第二字符检测框,与所述文本检测框进行交并比运算,得到运算结果;根据所述运算结果得到所述识别结果,所述识别结果为所述第一字符检测框及所述第二字符检测框属于同一个文本检测框的情况下,建立所述第一字符检测框及所述第二字符检测框与所述文本检测框的隶属关系;将所述隶属关系作为所述对应关系,根据所述对应关系识别出所述文本检测框中包含的所述字符检测框的数量。
一实施方式中,所述第三识别模块,用于根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;所述节点数量为3个的情况下,获取所述树形结构中的根节点及对应所述根节点的左右子节点;根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出所述文本对象对应的题目类型。
一实施方式中,所述第三识别模块,用于根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;所述节点数量为大于3个的情况下,从树形结构初始位置开始,对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型;其中,所述基本运算单元包括节点数量为3个的情况。
一实施方式中,所述第三识别模块,用于根据遍历顺序,从所述树形结构中每次获取一组存在隶属关系的3个节点,获取所述3个节点中的根节点、及对应所述根节点的左右子节点,根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出本次题目类型分析的处理结果;直至遍历结束,得到多次题目类型分析的处理结果;根据所述多次题目类型分析的处理结果,识别出所述文本对象对应的题目类型。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是用来实现本申请实施例的目标识别方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的目标识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的目标识别方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的目标识别方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的目标识别方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
目标识别方法的电子设备,还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (8)

1.一种目标识别方法,其特征在于,所述方法包括:
对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的第一字符检测框和第二字符检测框,且所述第一字符检测框及所述第二字符检测框为不同类型,其中,在所述待处理目标对象为树状题型的情况下,所述第一字符检测框包括所述树状题型的根节点,所述第二字符检测框包括所述树状题型中相对于所述根节点的相邻叶子节点;
对所述多类型的检测结果进行识别,得到识别结果;
根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;
根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;
所述节点数量为3个的情况下,获取所述树形结构中的根节点及对应所述根节点的左右子节点;
根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出所述文本对象对应的题目类型;
所述节点数量为大于3个的情况下,从树形结构初始位置开始,对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型;
其中,基本运算单元包括节点数量为3个的情况;
其中,所述根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量,包括:
将所述第一字符检测框及所述第二字符检测框,与所述文本检测框进行交并比运算,得到运算结果;所述第一字符检测框用于框起打印体字符,所述第二字符检测框用于框起手写体字符;
根据所述运算结果得到所述识别结果,所述识别结果为所述第一字符检测框及所述第二字符检测框属于同一个文本检测框的情况下,建立所述第一字符检测框及所述第二字符检测框与所述文本检测框的隶属关系;
将所述隶属关系作为所述对应关系,根据所述对应关系识别出所述文本检测框中包含的所述字符检测框的数量。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述文本对象、及所述文本对象对应的题目类型进行判题处理,得到判题结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型,包括:
根据遍历顺序,从所述树形结构中每次获取一组存在隶属关系的3个节点,获取所述3个节点中的根节点、及对应所述根节点的左右子节点,根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出本次题目类型分析的处理结果;
直至遍历结束,得到多次题目类型分析的处理结果;
根据所述多次题目类型分析的处理结果,识别出所述文本对象对应的题目类型。
4.一种目标识别装置,其特征在于,所述装置包括:
检测模块,用于对待处理目标对象进行检测,得到多类型的检测结果;其中,所述多类型的检测结果包括针对整个文本对象的文本检测框、及针对题目类型分析的部分文本的第一字符检测框和第二字符检测框,且所述第一字符检测框及所述第二字符检测框为不同类型,其中,在所述待处理目标对象为树状题型的情况下,所述第一字符检测框包括所述树状题型的根节点,所述第二字符检测框包括所述树状题型中相对于所述根节点的相邻叶子节点;
第一识别模块,用于对所述多类型的检测结果进行识别,得到识别结果;
第二识别模块,用于根据所述多类型的检测结果与所述识别结果之间建立的对应关系,识别出所述文本检测框中包含的所述字符检测框的数量;其中,将所述第一字符检测框及所述第二字符检测框,与所述文本检测框进行交并比运算,得到运算结果;所述第一字符检测框用于框起打印体字符,所述第二字符检测框用于框起手写体字符;根据所述运算结果得到所述识别结果,所述识别结果为所述第一字符检测框及所述第二字符检测框属于同一个文本检测框的情况下,建立所述第一字符检测框及所述第二字符检测框与所述文本检测框的隶属关系;将所述隶属关系作为所述对应关系,根据所述对应关系识别出所述文本检测框中包含的所述字符检测框的数量;
第三识别模块,用于根据所述字符检测框的数量,识别出所述文本对象为树形结构情况下所包含的节点数量;所述节点数量为3个的情况下,获取所述树形结构中的根节点及对应所述根节点的左右子节点;根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出所述文本对象对应的题目类型;
所述节点数量为大于3个的情况下,从树形结构初始位置开始,对所述树形结构中的根节点及对应所述根节点的左右子节点以基本运算单位进行遍历处理,直至遍历结束后识别出所述文本对象对应的题目类型;
其中,基本运算单元包括节点数量为3个的情况。
5.根据权利要求4所述的装置,其特征在于,还包括判题模块,用于:
根据所述文本对象、及所述文本对象对应的题目类型进行判题处理,得到判题结果。
6.根据权利要求4所述的装置,其特征在于,所述第三识别模块,用于:
根据遍历顺序,从所述树形结构中每次获取一组存在隶属关系的3个节点,获取所述3个节点中的根节点、及对应所述根节点的左右子节点,根据所述根节点相对于所述左右子节点的上下左右位置关系,识别出本次题目类型分析的处理结果;
直至遍历结束,得到多次题目类型分析的处理结果;
根据所述多次题目类型分析的处理结果,识别出所述文本对象对应的题目类型。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-3中任一项所述的方法。
CN202110456450.1A 2021-04-27 2021-04-27 目标识别方法、装置、电子设备及存储介质 Active CN112990127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110456450.1A CN112990127B (zh) 2021-04-27 2021-04-27 目标识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110456450.1A CN112990127B (zh) 2021-04-27 2021-04-27 目标识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112990127A CN112990127A (zh) 2021-06-18
CN112990127B true CN112990127B (zh) 2022-05-17

Family

ID=76340295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110456450.1A Active CN112990127B (zh) 2021-04-27 2021-04-27 目标识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112990127B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255613B (zh) * 2021-07-06 2021-09-24 北京世纪好未来教育科技有限公司 判题方法、装置及计算机存储介质
CN113486881B (zh) * 2021-09-03 2021-12-07 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886851A (zh) * 2019-02-22 2019-06-14 科大讯飞股份有限公司 数学题批改方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872083B2 (en) * 2018-10-31 2020-12-22 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions
CN111507330B (zh) * 2020-04-15 2023-04-25 腾讯科技(深圳)有限公司 习题识别方法、装置、电子设备及存储介质
CN111860526B (zh) * 2020-09-22 2020-12-22 北京易真学思教育科技有限公司 基于图像的判题方法、装置、电子设备和计算机存储介质
CN111931730B (zh) * 2020-09-24 2022-03-29 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质
CN112597999B (zh) * 2021-03-03 2021-06-29 北京易真学思教育科技有限公司 一种题目识别方法、装置、电子设备及计算机存储介质
CN112598000A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 题目识别方法、装置、电子设备及计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886851A (zh) * 2019-02-22 2019-06-14 科大讯飞股份有限公司 数学题批改方法及装置

Also Published As

Publication number Publication date
CN112990127A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112949661B (zh) 检测框自适应外扩方法、装置、电子设备及存储介质
EP3869403A2 (en) Image recognition method, apparatus, electronic device, storage medium and program product
CN113094550B (zh) 视频检索方法、装置、设备和介质
CN111709339A (zh) 一种票据图像识别方法、装置、设备及存储介质
CN112990127B (zh) 目标识别方法、装置、电子设备及存储介质
CN110659600B (zh) 物体检测方法、装置及设备
KR102604306B1 (ko) 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체
CN111611903B (zh) 动作识别模型的训练方法、使用方法、装置、设备和介质
JP7142121B2 (ja) 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム
CN110413740B (zh) 化学表达式的查询方法、装置、电子设备及存储介质
CN111626027B (zh) 表格结构还原方法、装置、设备、系统和可读存储介质
US11423650B2 (en) Visual positioning method and apparatus, and computer-readable storage medium
EP3937026A2 (en) Data processing method and apparatus, electronic device and storage medium
CN110532415B (zh) 图像搜索处理方法、装置、设备及存储介质
CN110705551B (zh) 按键位置的识别方法、装置、电子设备和存储介质
CN111709428A (zh) 图像中关键点位置的识别方法、装置、电子设备及介质
CN111191619A (zh) 车道线虚线段的检测方法、装置、设备和可读存储介质
CN111950272B (zh) 文本相似度的生成方法、装置及电子设备
CN111708477B (zh) 按键识别方法、装置、设备以及存储介质
CN111860526B (zh) 基于图像的判题方法、装置、电子设备和计算机存储介质
CN112150380B (zh) 校正图像的方法、装置、电子设备和可读存储介质
CN111753960B (zh) 模型训练及图像处理方法、装置、电子设备、存储介质
CN112558810B (zh) 检测指尖位置的方法、装置、设备和存储介质
CN111680628B (zh) 文字框融合方法、装置、设备以及存储介质
CN111665956B (zh) 候选字符串的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant