CN112686170B - 一种图像识别方法、装置及电子设备 - Google Patents

一种图像识别方法、装置及电子设备 Download PDF

Info

Publication number
CN112686170B
CN112686170B CN202011638538.7A CN202011638538A CN112686170B CN 112686170 B CN112686170 B CN 112686170B CN 202011638538 A CN202011638538 A CN 202011638538A CN 112686170 B CN112686170 B CN 112686170B
Authority
CN
China
Prior art keywords
frame
target
calculation
drop
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011638538.7A
Other languages
English (en)
Other versions
CN112686170A (zh
Inventor
陈淑兰
李想
饶丰
赵晖
王雨轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyi Education Technology Co ltd
Original Assignee
Beijing Yiyi Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyi Education Technology Co ltd filed Critical Beijing Yiyi Education Technology Co ltd
Priority to CN202011638538.7A priority Critical patent/CN112686170B/zh
Publication of CN112686170A publication Critical patent/CN112686170A/zh
Application granted granted Critical
Publication of CN112686170B publication Critical patent/CN112686170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种图像识别方法、装置及电子设备,其中,该方法包括:检测目标图像,得到至少一个脱式框、结尾框和口算框;将任一个脱式框作为目标脱式框,查找到关联所述目标脱式框的所有关联脱式框并与目标脱式框并合并为整体框;在所有所述结尾框中查找到匹配所述整体框的目标结尾框,并在所有所述口算框中查找到匹配所述整体框的目标口算框;识别出所述目标口算框包含的目标脱式计算题目、所述整体框包含的目标完整解题步骤和所述目标结尾框包含的目标计算结果并合得到该目标脱式计算题目的完整识别结果。通过本发明实施例提供的一种图像识别方法、装置及电子设备,用以完整的识别出脱式计算题目及其解题步骤和计算结果。

Description

一种图像识别方法、装置及电子设备
技术领域
本发明涉及图像识别技术领域,具体而言,涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,在通过计算机视觉技术实现脱式计算题目的识别时,多采用文本框检测模型对脱式计算题目、该题目的解题步骤和计算结果在图像中的图像区域进行检测,进而得到用于标识该图像区域的一个文本框。之后,便可针对该文本框内所包含的文本进行文本识别,以获得由脱式计算题目、该题目的解题步骤和计算结果构成的完整识别结果。
但是,目前的文本框检测模型在对脱式计算题目及其解题步骤和计算结果进行检测时,时常会检测到分别对应于脱式计算题目、其完整解题步骤和其计算结果的多个文本框。由于这些文本框相互独立,因而无法完整的获得脱式计算题目的完整识别结果。
发明内容
本发明实施例提供一种图像识别方法、装置、电子设备及计算机可读存储介质,用以获得脱式计算题目的完整识别结果。
本发明实施例提供的方法、装置、电子设备及计算机可读存储介质,相比已有技术即使将脱式计算题目及其解题步骤和计算结果分别的检测为多个文本框,仍不加处理的分别进行文本识别,本发明实施例在完成图像识别后,将检测得到的文本框分类为脱式框、口算框和结尾框。在此基础上,本申请实施例首先查找到归属于同一道目标脱式计算题目的所有脱式框并合并为整体框,并进一步地利用该整体框查找到归属于该目标脱式计算题目的目标结尾框和目标口算框,这样实现了目标脱式计算题目,该题目的计算结果和该题目的完整解题步骤之间的相互关联,进而通过合并上述三者便可得到脱式计算题目的完整识别结果。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的一种图像识别方法的流程图;
图2示出了本发明实施例所提供的一种图像识别方法中,脱式框、结尾框和口算框的示意图;
图3示出了本发明实施例所提供的图像识别方法中,文本框的分类流程图;
图4示出了本发明实施例所提供的图像识别方法中,目标结尾框的查找流程图;
图5示出了本发明实施例所提供的图像识别方法中,目标口算框的查找流程图;
图6示出了本发明实施例所提供的图像识别方法中,题目框的绘制流程图;
图7示出了本发明实施例所提供的图像识别方法中,结果框的绘制流程图;
图8示出了本发明实施例所提供的图像识别装置的结构示意图;
图9示出了本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
所属技术领域的技术人员应当知道,本发明实施例可以实现为图像识别方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
下面将参照本发明实施例的图像识别方法、装置、电子设备及计算机可读存储介质的流程图和/或方框图描述本发明实施例。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
图1示出了本发明实施例所提供的一种图像识别方法的流程图。如图1所示,该方法包括:
步骤101,检测目标图像,得到至少一个脱式框、结尾框和口算框;其中,口算框包含一道脱式计算题目,脱式框包含一道脱式计算题目的单行解题步骤,结尾框包含一道脱式计算题目的计算结果。
参见图2,图2示出了本发明实施例所提供的一种图像识别方法中,脱式框、结尾框和口算框的示意图。从图2可以看出,脱式框内包含的是一道脱式计算题目的单行解题步骤,口算框中则包含的是一道脱式计算题目,而结尾框中包含的是一道脱式计算题目的计算结果。
需要说明的是,本申请实施例中,单行解题步骤是指一道脱式计算题目的所有解题步骤中的一个解题步骤,而前述的一道脱式计算题目的所有解题步骤在本申请实施例中称之为完整解题步骤。
在本申请实施例中,检测目标图像中的文本,得到至少一个脱式框、结尾框和口算框有多种实现方式。下文会结合图3详细描述一种具体的实现方式,这里暂不赘述。
步骤102,将至少一个脱式框中的任一个确定为目标脱式框,在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框,并合并所述目标脱式框和所有所述关联脱式框为整体框;每一所述关联脱式框与所述目标脱式框均归属于同一道目标脱式计算题目。
在本申请实施例中,目标脱式框可以是前述步骤101中检测得到的任一脱式框,这里的目标脱式框仅是在命名上与其他在当前未执行本步骤102的脱式框进行区分,并非特指某一个脱式框。
至于本步骤102如何查找到关联目标脱式框的所有关联脱式框,下文会详细描述,这里暂不赘述。可以理解的是,由于整体框是由归属于同一道目标脱式计算题目的各脱式框合并得到,因此该整体框中包含有该目标脱式计算题目的目标整体解题步骤。
值得说明的是,本步骤102所描述的合并目标脱式框和所有关联脱式框为整体框有多种实现方式。在一个例子中,作为一种实现方式,可以在查找到所有关联脱式框之后再进行合并。而在另一个例子中,作为另一种实现方式,可以在每查找到一个关联脱式框之后,就将其与目标脱式框进行合并。可以理解的是,这里所列举的两种合并方式仅是距离说明,并不作为对本申请实施例的限制。
在一个例子中,整体框可以是是所有关联脱式框及目标脱式框的最小外接矩形框。当然,也可以根据具体情况选择其他合并方式以得到整体框,但需保证整体框能够包含各关联脱式框及目标脱式框。
步骤103,在所有结尾框中查找到匹配整体框的目标结尾框,并在所有口算框中查找到匹配整体框的目标口算框。
在本步骤103中,目标结尾框中包含的目标计算结果、以及整体框中包含的目标完整解题步骤均匹配于目标口算框中包含的目标脱式计算题目。
通过步骤103可以看出,通过在多个结尾框中查找到匹配整体框的目标结尾框、以及在多个口算框中查找到匹配整体框的目标口算框的方式,实现了目标脱式计算题目、该题目的目标完整解题步骤、以及该题目的目标结算结果之间的匹配。
至于如何在多个结尾框中查找到目标结尾框,下文会结合图4详细描述,这里暂不赘述。同样的,下文会结合图5,详细描述如何在所有口算框中查找到目标口算框,这里暂不赘述。
步骤104,识别出题目框包含的目标脱式计算题目、整体框包含的目标完整解题步骤和目标结尾框包含的目标计算结果,并合并目标脱式计算题目、目标完整解题步骤和目标计算结果,得到该目标脱式计算题目的完整识别结果。
在本申请实施例中,本步骤104涉及两个过程,分别为识别过程和合并过程。下面先描述如何识别出题目框包含的目标脱式计算题目、整体框包含的目标完整解题步骤、以及目标结尾框包含的目标计算结果。
这里以识别出题目框包含的目标脱式计算题目为例进行描述,具体可包括以下步骤:
步骤a,基于题目框裁切目标图像,得到经裁切得到的该题目框对应的目标子图像。
在本步骤a 中,由于已经绘制出了该题目框,因此,按照该题目框的尺寸和位置对目标图像进行裁切,即可得到该题目框对应的目标子图像。
步骤b,将上述裁切得到的目标子图像输入至已训练的文本识别模型,得到该目标子图像中包含的文本并将该文本确定为目标脱式计算题目。
在执行本步骤b之前,需预先训练出一个文本识别模型,以用于识别目标子图像中包含的文本。在训练时,为了提升文本识别模型的识别精度,可选择脱式计算题目作为训练样本进行训练,以训练出文本识别模型。
至于文本识别模型的具体训练过程,可根据实际情况选择半监督机器学习算法、全监督机器学习算法等训练方式训练,本申请对此不作限定。
在执行本步骤b时,可以将目标子图像直接的输入已训练的文本识别模型(例如采用上述训练方式训练得到的文本识别模型),则可得到该文本识别模型输出的、该目标子图像所包含的文本。之后,便可将该文本确定为目标脱式计算题目。
以上,对如何识别出题目框包含的目标脱式计算题目进行了描述。值得说明的是,目标脱式框包含的目标完整解题步骤和目标结尾框包含的目标计算结果均可参照上述的识别方式完成识别,这里不再赘述。
执行到这里,便完成了识别过程,获得了题目框包含的目标脱式计算题目、整体框包含的目标完整解题步骤和目标结尾框包含的目标计算结果。下面描述如何将上述多个文本进行合并,具体可包括以下步骤:
步骤c,将目标完整解题步骤拼接在目标脱式计算题目之后,并在两者间插入分隔符。
在本步骤c中,分隔符用于区分不同的文本内容,即用于区分目标完整解题步骤和目标脱式计算题目,这样可便于后续以数学公式显示、以及对该目标完整解题步骤进行批改。下文会示例性的描述一种具体的批改流程,这里暂不赘述。
为了更清楚的说明本步骤c,这里举一个简单的例子:假设分隔符为“\\”、目标完整解题步骤为“=30+10”、目标脱式计算题目为“17+13+10”,那么,执行本步骤c后则可得到“17+13+10\\=30+10”。
步骤d,将目标计算结果拼接在目标完整解题步骤之后,并在两者间插入分隔符,以得到目标脱式计算题目的完整识别结果。
在本步骤d中,分隔符同样用于区分不同的文本内容,即用于区分目标完整解题步骤和目标计算结果,这样可便于后续以数学公式显示、以及对该目标完整解题步骤进行批改。下文会示例性的描述一种具体的批改流程,这里暂不赘述。
为了更清楚的说明本步骤d,这里举一个简单的例子:假设分隔符为“\\”、执行本步骤c后得到的文本为“17+13+10\\=30+10”,目标计算结果为“=40”,那么,执行本步骤d后则可得到“17+13+10\\=30+10\\=40”。该“17+13+10\\=30+10\\=40”便是目标脱式计算题目“17+13+10”的完整识别结果。
执行到这里,便完成了识别和合并过程,获得了目标脱式计算题目的完整识别结果。
至此,完成图1所示流程。
本申请实施例,相比已有技术即使将脱式计算题目及其解题步骤和计算结果分别的检测为多个文本框,仍不加处理的分别进行文本识别,本发明实施例在完成图像识别后,将检测得到的文本框分类为脱式框、口算框和结尾框。在此基础上,本申请实施例首先查找到归属于同一道目标脱式计算题目的所有脱式框并合并为整体框,并进一步地利用该整体框查找到归属于该目标脱式计算题目的目标结尾框和目标口算框,这样实现了目标脱式计算题目,该题目的计算结果和该题目的完整解题步骤之间的相互关联,进而通过合并上述三者便可得到脱式计算题目的完整识别结果。
下面对上述步骤101中如何检测目标图像,得到至少一个脱式框、结尾框和口算框进行描述。在本申请实施例中,得到脱式框、结尾框和口算框的过程主要涉及两个子过程,分别为检测过程和分类过程。参见图3,图3示出了本发明实施例所提供的图像识别方法中,文本框的分类流程图。该流程可以包括:
步骤201,将目标图像输入至已训练的文本框检测模型中,得到多个文本框。
在执行本步骤201之前,需预先预先训练出一个文本框检测模型,以用于对目标图像中文本所在图像区域进行检测。在训练时,为了提升文本框检测模型的识别精度,可选择脱式计算题目、脱式计算题目的单行解题步骤、脱式计算题目的计算结果作为训练样本进行训练,以训练出文本框检测模型。
在本步骤201执行完毕后,则可以得到由文本框检测模型输出的各文本框。但是,这些文本框并不存在具体的类别,其类别的划分需由下述步骤202执行。
需要说明的是,文本框检测模型可以是指用于预测图像样本中的文本框的具体位置的神经网络,该神经网络可以包括卷积神经网络等。
步骤202,针对每一文本框,识别该文本框所包含文本并基于识别得到的文本确定该文本框的类型。
在本步骤202中,可以将每一文本框对应的图像经裁切后输入文本识别模型(例如上述的文本识别模型),得到每一文本框所包含的文本。
之后,便可根据识别得到的文本进行文本框分类。在一个例子中,可以涉及以下三种情况:
第一种情况:若识别得到的文本中,仅包含等号和数字,而不包含其他的运算符号,则将该文本对应的文本框确定为结尾框。例如,识别得到的文本为“=15”,则将该文本对应的文本框确定为结尾框。
第二种情况:若识别得到的文本中,仅包含等号、数字和其他运算符号、且等号排在首位,则将该文本对应的文本框确定为脱式框。例如,识别得到的文本为“=7+8”,则将该文本对应的文本框确定为脱式框。
第三种情况:若识别得到的文本中,仅包括数字和非等号的其他运算符号,则将该文本对应的文本框确定为口算框。例如,识别得到的文本为“3+4+8”,则将该文本对应的文本框确定为口算框。
以上对上述步骤101中如何检测目标图像中的文本,得到至少一个脱式框、结尾框和口算框进行了描述。需要说明的是,上述描述仅作为举例说明,并不作为对本申请的限制。
下面对上述步骤103中如何在所有结尾框中查找到匹配整体框的目标结尾框进行描述。参见图4,图4示出了本发明实施例所提供的图像识别方法中,目标结尾框的查找流程图。该流程可以包括:
步骤301,在所有结尾框中查找到满足第一设定条件的结尾框。
在执行本步骤301之前,需预先设定一个第一设定条件,该第一设定条件用于判断结尾框是否与脱式框相匹配。
可选的,上述的第一设定条件至少包括:结尾框的至少部分框体位于整体框的正下方、同时整体框与结尾框相邻且相邻边的间距小于已确定的间距阈值。
其中,第一设定条件中的结尾框的至少部分框体位于整体框的正下方,用于表征结尾框与整体框之间的方位关系。而之所以要限定上述的方位关系,其原因在于:脱式计算题目的解题步骤相较于其计算结果而言,解题步骤基本位于其计算结果之上。此外,由于解题步骤和计算结果在作答过程中的手写偏差,难以保证计算结果均处于解题步骤之下,因此仅需保证计算结果的部分框体位于解题步骤之下即可。即上述的结尾框的至少部分框体位于脱式框的正下方。
可选的,可以通过以下步骤确定结尾框的至少部分框体位于整体框的正下方:针对每一结尾框,确定出该结尾框中的中心点。若该中心点位于整体框之下,则可确定出结尾框的至少部分框体位于整体框的正下方。在具体实施时,可通过判断上述中心点的X轴坐标是否位于整体框的X轴坐标范围内,中心点的Y轴坐标是否小于整体框的Y轴坐标范围,确定出中心点相较于整体框之间的位置关系。
为了获得上述的坐标,可以预先基于目标图像构建出一个图像坐标系。在一个例子中,该图像坐标系可以以目标图像的左上角作为原点、以水平向右为X轴正方向、以垂直向下为Y轴负方向构建。
对于第一设定条件中的整体框与结尾框相邻边的间距小于已确定的间距阈值,则用于表征整体框与结尾框之间的距离关系。而之所以要限定上述的距离关系,其原因在于:脱式计算题目的解题步骤相较于其计算结果而言,考虑人的书写习惯,两者间的距离基本是很小的。换言之,若解题步骤与计算结果之间距离很大,则表示该计算结果与解题步骤并不匹配。
在一个例子中,上述的间距阈值可以人为的根据经验设定。在另一个例子中,上述的间距阈值可以根据脱式框的框高度确定。
可选的,在根据脱式框的框高度确定间距阈值时,可以首先统计出所有脱式框的框高度均值,之后将该框高度均值的指定倍数确定为间距阈值。需要说明的是,这里的指定倍数可以根据实际情况设定,例如1.3倍,本申请对此不作具体限定。
当然,除上述已描述的第一设定条件中的内容之外,还可以额外的判断以下内容:结尾框的置信度是否满足预设的第一置信度阈值、结尾框所包含内容的识别结果的置信度是否满足预设的第二置信度阈值。
需要说明的是,第一置信度阈值和第二置信度阈值可以根据实际情况设定,本申请对此不作具体限定。
步骤302,将查找到的结尾框确定为目标结尾框。
若查找到满足上述第一设定条件的结尾框,则将该结尾框确定为匹配整体框的目标结尾框。
以上对上述步骤103中如何在所有结尾框中查找到匹配整体框的目标结尾框进行了描述。
下面对上述步骤103中如何在所有口算框中查找到匹配整体框的目标口算框进行描述。参见图5,图5示出了本发明实施例所提供的图像识别方法中,目标口算框的查找流程图。该流程可以包括:
步骤401,在所有口算框中查找到满足第二设定条件的口算框。
在执行本步骤401之前,需预先设定一个第二设定条件,该第二设定条件用于判断口算框是否与脱式框相匹配。
可选的,上述的第二设定条件至少包括:口算框中至少有部分框体位于脱式框的正上方、同时口算框与脱式框相邻且相邻边的间距小于已确定的间距阈值。
其中,第二设定条件中的口算框中至少有部分框体位于脱式框的正上方,用于表征口算框与整体框之间的方位关系。而之所以要限定上述的位置关系,其原因在于:脱式计算题目相较于其解题步骤而言,脱式计算题目位于其解题步骤之上,且由于等号的存在,解题步骤并不能全部的位于脱式计算题目之下,而仅是部分的位于计算题目之下。即,上述的结尾框的至少部分框体位于脱式框的正下方。
可选的,可以通过以下步骤确定口算框的至少部分框体位于整体框的正上方:针对每一口算框,确定出该口算框中的中心点。若该中心点位于整体框之上,则可确定出口算框的至少部分框体位于整体框的正上方。在具体实施时,可通过判断上述中心点的X轴坐标是否位于整体框的X轴坐标范围内,中心点的Y轴坐标是否大于整体框的Y轴坐标范围,确定出中心点相较于整体框之间的位置关系。
对于第一设定条件中的整体框与口算框相邻边的间距小于已确定的间距阈值,则用于表征整体框与口算框之间的距离关系。而之所以要限定上述的距离关系,其原因在于:脱式计算题目相较于其解题步骤而言,考虑人的书写习惯,两者间的距离基本是很小的。换言之,若脱式计算题目与其解题步骤之的间距离很大,则表示该脱式计算题目与解题步骤并不匹配。
在一个例子中,上述的间距阈值可以人为的根据经验设定。在另一个例子中,上述的间距阈值可以根据脱式框的框高度确定。
可选的,在根据脱式框的框高度确定间距阈值时,可以首先统计出所有脱式框的框高度均值,之后将该框高度均值的指定倍数确定为间距阈值。需要说明的是,这里的指定倍数可以根据实际情况设定,例如1.3倍,本申请对此不作具体限定。
步骤402,将查找到的口算框确定为目标口算框。
若查找到满足上述第二设定条件的口算框,则将该口算框确定为匹配整体框的目标口算框。
以上对上述步骤103中如何在所有口算框中查找到匹配整体框的目标口算框进行了描述。
值得说明的是,对于文本框检测模型而言,有时会出现无法检测到包含目标脱式计算题目的文本框,进而导致上述步骤103无法查找到目标口算框的问题。针对该问题,本申请实施例还提出了一种基于整体框的上边缘在整体框上方绘制出一个题目框,将绘制出的该题目框确定为目标口算框的解决方案。参见图6,图6示出了本发明实施例所提供的图像识别方法中,题目框的绘制流程图。该流程可以包括:
步骤501,将整体框的上边缘向右侧延长目标长度,得到题目框的下边缘。
在本申请实施例中,目标长度有多种确定方式。作为其中一确定出目标长度的方式,可以人为的根据经验确定。作为另一种确定出目标长度的方式,可以基于整体框的上边缘长度确定。
可选的,在基于整体框的上边缘长度确定目标长度时,可以统计出整体框的上边缘,取整体框的上边缘的指定比例的长度确定为目标长度。这里的指定比例可以根据实际情况设定,例如25%,本申请对此不作具体限定。
在具体实施过程中,可基于整体框的上方两个顶点的坐标确定出上边缘长度。即,整体框的上方两个顶点的X轴坐标差值。
如上述的,在已获得目标长度的基础上,便可在整体框的上边缘向右侧延长目标长度,得到题目框的下边缘。在一个例子中,若按上述方式构建出图像坐标系,则可在整体框的右上角顶点的X轴坐标上增加目标长度,以获得题目框的下边缘的右侧端点。之后,将该右侧端点与整体框的左上角顶点连接,即可得到题目框的下边缘。
步骤502,将题目框的下边缘向整体框的正上方移动目标距离,得到题目框的上边缘。
在本申请实施例中,目标距离有多种确定方式。作为其中一确定出目标距离的方式,可以人为的根据经验确定。作为另一种确定出目标距离的方式,可以基于脱式框的框高度确定,或基于口算框的框高度确定。
可选的,在一个例子中,在基于所有脱式框的框高度确目标距离时,可以统计出所有脱式框框高度的第一平均值,进而将该第一平均值确定为目标距离。
可选的,在另一个例子中,在基于口算框的框高度确定目标距离时,可以统计出所有口算框框高度的第二平均值,进而将该第二平均值确定为目标距离。
如上述的,在确定出目标距离的基础上,则可以将该题目框的下边缘向远离整体框的方向(整体框的正上方)移动该目标距离,得到题目框的上边缘。在一个例子中,若按上述方式构建出图像坐标系,则可在题目框的上边缘的两端点的Y轴坐标上增加目标距离,并连接增加目标距离后得到的两坐标点以得到题目框的上边缘。
步骤503,连接题目框的下边缘与题目框的上边缘中位于同侧的端点,将连接后得到的四边形确定为题目框。
在本步骤503中,由于已经得到了题目框的上边缘和下边缘,因此,将这两条边缘连接为四边形即可获得题目框。
可选的,首先,可连接题目框的上边缘和下边缘同在左侧的两个端点。之后,连接题目框的上边缘和下边缘同在右侧的两个端点,以得到题目框。
以上对如何基于整体框的上边缘在脱式框上方绘制出一个题目框进行了描述。需要说明的是,上述仅是举例描述了一种绘制题目框的是实现方式,其他任何能够绘制出题目框的方式都在本申请的保护范围内,在此不再穷尽描述。
值得说明的是,对于文本框检测模型而言,有时还会出现无法检测到包含目标计算结果的文本框,进而导致上述步骤103无法查找到目标结尾框的问题。针对该问题,本申请实施例提出了一种基于整体框的下边缘在整体框下方绘制出一个结果框,将该结果框确定为目标结果框的解决方案。参见图7,图7示出了本发明实施例所提供的图像识别方法中,结果框的绘制流程图。该流程可以包括:
步骤601,将整体框的下边缘向左侧缩进目标长度,得到结果框的上边缘。
步骤602,将结果框的上边缘向整体框的正下方移动目标距离,得到结果框的下边缘。
步骤603,连接结果框的下边缘与结果框的上边缘中位于同侧的端点,将连接后得到的四边形确定为结果框。
上述步骤601至步骤603与前述步骤501至步骤503相类似,因此可参考前述对步骤501至步骤503的详细描述,这里不再赘述。
以上对如何基于整体框的下边缘在脱式框下方绘制出一个结果框进行了描述。需要说明的是,上述仅是举例描述了一种绘制结果框的是实现方式,其他任何能够绘制出结果框的方式都在本申请的保护范围内,在此不再穷尽描述。
下面对上述步骤102中如何在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框进行描述:
步骤701,根据各脱式框在目标图像中的高度,选择高度最高的脱式框作为目标脱式框。
在执行本步骤701之前,可以预先基于目标图像构建一个图像坐标系。在一个例子中,该图像坐标系可以以目标图像的左上角作为原点、以水平向右为X轴正方向、以垂直向下为Y轴负方向构建。
基于已构建的图像坐标系,则可以获得每一脱式框在目标图像中的高度。在一个例子中,脱式框的高度可以是该脱式框中下边缘任一像素点的Y轴坐标。当然,也可以根据实际情况选择脱式框中上边缘任一像素点的Y轴坐标,本申请对此不作具体限定。
在获得每一个脱式框在目标图像中的高度后,则可以选择高度最高的脱式框为目标脱式框。
步骤702,在除目标脱式框之外剩余的脱式框中查找匹配目标脱式框的首个脱式框;若查到到首个脱式框,则转到步骤703;若未查找到首个脱式框,则转到步骤704。
在本申请实施例中,可以基于剩余的各脱式框与目标脱式框之间的位置关系,查找到匹配目标脱式框的首个脱式框。
在一个例子中,可以依据第三设定条件实现对首个脱式框的查找。具体的:若剩余的脱式框中存在满足第三设定条件的脱式框,则将该满足第三设定条件的脱式框确定为首个脱式框。
可选的,第三设定条件可以包括:首个脱式框的至少部分框体位于目标脱式框的正下方、同时目标脱式框与首个脱式框相邻且相邻边的间距小于已确定的间距阈值。
在本申请实施例中,若逐一完成剩余脱式框序列中的每一脱式框与目标脱式框的比对后,均未查找到匹配目标脱式框的首个脱式框,则可确定未查找到首个脱式框。而这,也意味着与目标脱式框归属于同一道目标脱式计算题目的所有脱式框均已被查找到。
步骤703,将首个脱式框确定为新的目标脱式框,并返回在剩余脱式框序列中查找匹配所述目标脱式框的首个脱式框的步骤。
需要说明的是,本步骤703是在查找到首个脱式框的前提下执行的。
如前述的,若查找到首个脱式框,则表示可能还有至少一个归属于目标脱式计算题目的脱式框需要被查找,或者是所有归属于目标脱式计算题目的脱式框均已被查找到。但无论具体是上述哪一种情况,均需要将查找到的首个脱式框确定为新的目标脱式框,并返回执行前述的步骤702来进行确定。
步骤704,将已查找到的每一所述首个脱式框确定为所述关联脱式框。
需要说明的是,本步骤704是在查找不到首个脱式框的前提下执行的。
如前述的,当查找不到首个脱式框时,则可以确定与目标脱式框归属于同一道目标脱式计算题目的所有脱式框均被查找到,便可以将已查找到的每一首个脱式框确定为关联脱式框。
以上对上述步骤102中如何在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框进行了描述。
此外,除上述描述的步骤102的一种实现方式外,本申请实施例还提供了上述步骤102的另外一种实现方式,本实现方式同时会对上述的步骤103的实现过程一并描述,具体可以包括以下步骤:
步骤801,将各脱式框和各结尾框按它在目标图像中的高度由高至低排序,得到文本框序列。
如前述的,已经对脱式框的高度的确定过程进行了说明。这里,结尾框的高度的确定可参照上述描述,这里不再赘述。
步骤802,将文本框序列中的第一个脱式框确定为目标脱式框。
步骤803,在文本框序列中,按照文本框序列的顺序查找查找匹配该目标脱式框的首个文本框;若查找到首个文本框且该首个文本框是脱式框,则转到步骤804;若查找到首个文本框且该首个文本框是结尾框,则转到步骤805;若已完成对文本框序列的查找,但已查找到的首个文本框均为脱式框,则转到步骤806。
在本实现方式下,可参照前述对步骤702的描述实现对首个文本框的查找,两者区别在于:本步骤803中查找匹配该目标脱式框的首个文本框的过程具体依赖于第四设定条件。其中,该第四设定条件可以包括:首个文本框的至少部分框体位于目标脱式框的正下方、同时目标脱式框与首个文本框相邻且相邻边的间距小于已确定的间距阈值。
可以看出,此处的第四设定条件是前述第一设定条件和第三设定条件的融合。这里采用第四设定条件进行首个文本框查找,既可以实现对具体为脱式框的首个文本框的查找,也可以实现对具体为结尾框的首个文本框的查找。
需说明的是,本步骤803所描述的按照文本框序列的顺序查找是指:从目标脱式框开始,向文本框序列的结尾位置逐一查找。
步骤804,合并查找到的首个文本框与当前的目标脱式框,得到新的目标脱式框,并返回步骤803。
需要说明的是,本步骤804是在查找到首个文本框且该首个文本框是脱式框的前提下执行的。
在本实现方式下,若查找到的首个文本框是脱式框,则表示文本框序列中还可能存在着归属于目标脱式计算题目的结尾框、或者文本框序列中还可能存在着归属于目标脱式计算题目的结尾框和脱式框。但无论是上述哪一种情况,结合前述的第四设定条件来看,均需要利用查找到的首个文本框进行进一步查找来确定。因此,这里将查找到的首个文本框与当前的目标脱式框进行合并,形成新的目标脱式框,以继续依赖于上述的第四设定条件进行查找。
步骤805,将本次查找到的首个文本框确定为目标结尾框,并将本次之前查找到的各首个文本框确定为关联脱式框,以及将当前的目标脱式框确定为整体框。
需要说明的是,本步骤805是在查找到首个文本框且该首个文本框是结尾框的前提下执行的。
在本实现方式下,若查找到的首个文本框是结尾框,由于脱式计算题目的解题步骤都会在计算结果之上,因此则表示文本框序列中归属于目标脱式计算题目的所有脱式框在之前均已经被找到,且已经合并成为当前的目标脱式框。那么可以理解的是,在之前已经被查找到的各首个文本框就是各关联脱式框,当前的目标脱式框就是由各关联脱式框和最开始确定出的目标脱式框(文本框序列中的第一个脱式框)合并形成的整体框。换言之,上述步骤102记载的查找到关联脱式框及合并形成整体框的过程,在执行本步骤805之前已经被执行完毕了。此外,由于查找到的是匹配整体框的结尾框,那么该结尾框便是归属于目标脱式计算题目的目标结尾框。
步骤806,将已查找到的各首个文本框确定为关联脱式框,将当前的目标脱式框确定为整体框。
需要说明的是,本步骤806是在已完成对文本框序列的查找,但已查找到的首个文本框均为脱式框的前提下执行的。
由于在完成对文本框序列的查找之后,已查找到所有首个文本框均为脱式框,而未查找到具体为结尾框的首个文本框,则意味着归属于目标脱式计算题目的结尾框很可能在前述步骤101中未被正确的检测到,因此就无法查找到归属于目标脱式计算题目的结尾框。但是,即便未查找到具体为结尾框的文本框,但由于已经完成了对文本框序列中每一文本框的查找,也可以确定文本框序列中归属于目标脱式计算题目的所有关联脱式框在之前均已经被找到,且已经与最开始确定出的目标脱式框(文本框序列中的第一个脱式框)合并成为当前的目标脱式框。那么可以理解的是,当前的目标脱式框就是由各关联脱式框和最开始确定出的目标脱式框合并形成的整体框。换言之,上述步骤102查找到关联脱式框及合并形成整体框的过程,在执行本步骤806之前已经被执行完毕了。
以上对上述步骤102和上述步骤103进行了描述。
一旦获得了目标脱式计算题目的完整识别结果,则可以基于该完整识别结果对该目标脱式计算题目进行批改。下面示例性描述一种基于完整识别结果批改目标脱式计算题目的流程。该流程可以包括以下步骤:
步骤901,将完整识别结果转换为横式算式。
在本申请实施例中,将完整识别结果转换为横式算式有多种实现方式。
作为其中一种实现方式,若完整识别结果中包含前述的分隔符,则可通过去除完整识别结果中的分隔符获得横式算式。举例来说,若完整识别结果为“17+13+10\\=30+10=40”,则去除分隔符后可得到“17+13+10=30+10=40”。这里的“17+13+10=30+10=40”便是横式算式。
作为其中另一种实现方式,若完整识别结果中不包含前述的分隔符,则可直接将上述完整识别结果确定为横式算式。举例来说,若完整识别结果为“17+13+10=30+10=40”,则该完整识别结果“17+13+10=30+10=40”便是横式算式。
步骤902,若横式算式符合运算规则,则将目标完整解题步骤和目标计算结果确定为目标脱式计算题目的正确答案。
作为一个示例,对于上述步骤901得到的横式算式,可分别计算由N个等号所分割的N+1个独立算式,得到N+1个计算结果。
之后,则可基于这N+1个计算结果确定目标完整解题步骤和目标计算结果是否是目标脱式计算题目的正确答案。
可选的,若这N+1个计算结果相同,则可确定目标完整解题步骤和目标计算结果是目标脱式计算题目的正确答案。
可选的,若这N+1个计算结果不相同,则可确定目标完整解题步骤和目标计算结果不是目标脱式计算题目的正确答案。
以上示例性的描述了一种基于完整识别结果批改目标脱式计算题目的流程。
上文详细描述了本发明实施例提供的图像识别方法,上述方法也可以通过相应的装置实现,下面将详细描述本发明实施例提供的图像识别装置。
图8示出了本发明实施例所提供的一种图像识别装置的结构示意图。如图8所示,该图像识别装置包括:
检测单元,用于检测目标图像,得到至少一个脱式框、结尾框和口算框;其中,口算框包含一道脱式计算题目,脱式框包含一道脱式计算题目的完整解题步骤,结尾框包含一道脱式计算题目的计算结果;
匹配单元,用于将所述至少一个脱式框中的任一个作为目标脱式框,在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框,并合并所述目标脱式框和所有所述关联脱式框为整体框;每一所述关联脱式框与所述目标脱式框均归属于同一道目标脱式计算题目;以及,在所有所述结尾框中查找到匹配所述整体框的目标结尾框,并在所有所述口算框中查找到匹配所述整体框的目标口算框;
合并单元,用于识别出目标口算框包含的目标脱式计算题目、目标脱式框包含的目标完整解题步骤和目标结尾框包含的目标计算结果,合并目标脱式计算题目、目标完整解题步骤和目标计算结果,得到该目标脱式计算题目的完整识别结果。
作为一个示例,匹配单元在所有口算框中没有查找到目标口算框时,进一步用于:
基于整体框的上边缘在整体框上方绘制出一个题目框 ;
将绘制出的题目框 确定为目标口算框。
作为一个示例,匹配单元基于整体框的上边缘在脱式框上方绘制出一个题目框,包括:
将整体框的上边缘向右侧延长目标长度,得到题目框的下边缘;
将题目框的下边缘向整体框的正上方移动目标距离,得到题目框的上边缘;
连接题目框的下边缘与题目框的上边缘中位于同侧的端点,将连接后得到的四边形确定为题目框。
作为一个示例,匹配单元在所有结尾框中没有查找到目标结尾框时,进一步用于:
基于整体框的下边缘在整体框下方绘制出一个结果框;
将绘制出的结果框确定为目标口算框。
作为一个示例,匹配单元基于整体框的下边缘在整体框下方绘制出一个结果框,包括:
将整体框的下边缘向左侧缩进目标长度,得到结果框的上边缘;
将结果框的上边缘向整体框的正下方移动目标距离,得到结果框的下边缘;
连接结果框的下边缘与结果框的上边缘中位于同侧的端点,将连接后得到的四边形确定为结果框。
作为一个示例,匹配单元在所有结尾框中查找到匹配所述整体框的目标结尾框,包括:
在所有所述结尾框中查找满足第一设定条件的结尾框,将查找到的结尾框确定为所述目标结尾框;
所述第一设定条件至少包括:所述结尾框的至少部分框体位于所述整体框的正下方、同时所述整体框与所述结尾框相邻且相邻边的间距小于已确定的间距阈值。
作为一个示例,匹配单元在所有所述口算框中查找到匹配所述整体框的目标口算框,包括:
在所有所述口算框中查找满足第二设定条件的口算框,将查找到的口算框确定为所述目标口算框;
所述第二设定条件至少包括:所述口算框中至少有部分框体位于所述整体框的正上方、同时所述口算框与所述整体框相邻且相邻边的间距小于已确定的间距阈值。
作为一个示例,匹配单元在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框,包括:
根据各脱式框在所述目标图像中的高度,选择高度最高的脱式框作为所述目标脱式框;
在除所述目标脱式框之外剩余的脱式框中查找匹配所述目标脱式框的首个脱式框;
若查找到所述首个脱式框,则将所述首个脱式框确定为新的目标脱式框,并返回在除所述目标脱式框之外剩余的脱式框中查找匹配所述目标脱式框的首个脱式框的步骤;
若未查找到所述首个脱式框,则将已查找到的每一所述首个脱式框确定为所述关联脱式框。
作为一个示例,该装置还包括:批改单元(图中未示出),用于将完整识别结果转换为横式算式;若横式算式符合运算规则,则将目标完整解题步骤和目标计算结果确定为目标脱式计算题目的正确答案。
以上对图8所示装置进行了描述。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述图像识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图9所示,本发明实施例还提供了一种电子设备,该电子设备包括总线71、处理器72、收发器73、总线接口74、存储器75和用户接口76。
收发器73,用于在处理器72的控制下接收和发送数据。
在图9中,总线架构(用总线71来代表),总线71可以包括任意数量互联的总线和桥,总线71将包括由处理器72代表的一个或多个处理器与存储器75代表的存储器的各种电路连接在一起。
总线71表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器72可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器72可以是微处理器或任何常规的处理器。结合本发明实施例所公开的图像识别方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(Flash Memory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线71还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口74在总线71和收发器73之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器73可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器73从其他设备接收外部数据,收发器73用于将处理器72处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口76,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器75可进一步包括相对于处理器72远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器75可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器75包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器75存储了操作系统751和应用程序752的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统751包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序752包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序752中。应用程序752包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述图像识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或二者的结合来实现,为了清楚说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序指令。计算机程序指令包括:汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言,例如:Smalltalk、C++以及过程式编程语言,例如:C语言或类似的编程语言。
在计算机上加载和执行计算机程序指令时,全部或部分的产生按照本发明实施例的流程或功能,计算机可以是通过计算机、专用计算机、计算机网络或其他可编辑装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如:计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、双绞线、光纤、数字用户线路(digital subscriber line,DSL))或无线(例如:红外、无线、微波)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如:软盘、磁盘、磁带)、光介质(例如:光盘)或半导体介质(例如:固态硬盘(Solid State Drive,SSD))等。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述本发明方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种图像识别方法,其特征在于,包括:
检测目标图像,得到至少一个脱式框、结尾框和口算框;其中,所述口算框包含一道脱式计算题目,所述脱式框包含一道脱式计算题目的单行解题步骤,所述结尾框包含一道脱式计算题目的计算结果;
将所述至少一个脱式框中的任一个作为目标脱式框,在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框,并合并所述目标脱式框和所有所述关联脱式框为整体框;
在所有所述结尾框中查找满足第一设定条件的结尾框,将查找到的结尾框确定为目标结尾框;
所述第一设定条件至少包括:所述结尾框的至少部分框体位于所述整体框的正下方、同时所述整体框与所述结尾框相邻且相邻边的间距小于已确定的间距阈值,并在所有所述口算框中查找满足第二设定条件的口算框,将查找到的口算框确定为目标口算框;
所述第二设定条件至少包括:所述口算框中至少有部分框体位于所述整体框的正上方、同时所述口算框与所述整体框相邻且相邻边的间距小于已确定的间距阈值;
识别出所述目标口算框包含的目标脱式计算题目、所述整体框包含的目标完整解题步骤和所述目标结尾框包含的目标计算结果,合并所述目标脱式计算题目、所述目标完整解题步骤和所述目标计算结果,得到该目标脱式计算题目的完整识别结果。
2.根据权利要求1所述的方法,其特征在于,当在所有所述口算框中没有查找到所述目标口算框时,该方法进一步包括:
基于所述整体框的上边缘在所述整体框上方绘制出一个题目框;
将绘制出的所述题目框确定为所述目标口算框。
3.根据权利要求2所述的方法,其特征在于,所述基于所述整体框的上边缘在所述整体框上方绘制出一个题目框,包括:
将所述整体框的上边缘向右侧延长目标长度,得到所述题目框的下边缘;
将所述题目框的下边缘向所述整体框的正上方移动目标距离,得到所述题目框的上边缘;
连接所述题目框的下边缘与所述题目框的上边缘中位于同侧的端点,将连接后得到的四边形确定为所述题目框。
4.根据权利要求1所述的方法,其特征在于,当在所有所述结尾框中没有查找到所述目标结尾框时,则该方法进一步包括:
基于所述整体框的下边缘在所述整体框下方绘制出一个结果框;
将绘制出的所述结果框确定为所述目标口算框。
5.根据权利要求4所述的方法,其特征在于,所述基于所述整体框的下边缘在所述整体框下方绘制出一个结果框,包括:
将所述整体框的下边缘向左侧缩进目标长度,得到所述结果框的上边缘;
将所述结果框的上边缘向所述整体框的正下方移动目标距离,得到所述结果框的下边缘;
连接所述结果框的下边缘与所述结果框的上边缘中位于同侧的端点,将连接后得到的四边形确定为所述结果框。
6.根据权利要求1所述的方法,其特征在于,所述在除所述目标脱式框之外的其他所有脱式框中查找到关联所述目标脱式框的所有关联脱式框,包括:
根据各脱式框在所述目标图像中的高度,选择高度最高的脱式框作为所述目标脱式框;
在除所述目标脱式框之外剩余的脱式框中查找匹配所述目标脱式框的首个脱式框;
若查找到所述首个脱式框,则将所述首个脱式框确定为新的目标脱式框,并返回在除所述目标脱式框之外剩余的脱式框中查找匹配所述目标脱式框的首个脱式框的步骤;
若未查找到所述首个脱式框,则将已查找到的每一所述首个脱式框确定为所述关联脱式框。
7.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的图像识别方法中的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像识别方法中的步骤。
CN202011638538.7A 2020-12-31 2020-12-31 一种图像识别方法、装置及电子设备 Active CN112686170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011638538.7A CN112686170B (zh) 2020-12-31 2020-12-31 一种图像识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011638538.7A CN112686170B (zh) 2020-12-31 2020-12-31 一种图像识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112686170A CN112686170A (zh) 2021-04-20
CN112686170B true CN112686170B (zh) 2023-10-17

Family

ID=75456619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011638538.7A Active CN112686170B (zh) 2020-12-31 2020-12-31 一种图像识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112686170B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284355A (zh) * 2018-09-26 2019-01-29 杭州大拿科技股份有限公司 一种批改试卷中口算题的方法及装置
CN110414683A (zh) * 2019-07-02 2019-11-05 科大讯飞股份有限公司 数学题解答方法及装置
CN110929582A (zh) * 2019-10-25 2020-03-27 广州视源电子科技股份有限公司 口算题自动批改方法及装置、存储介质、电子设备
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN111368784A (zh) * 2020-03-16 2020-07-03 广州文远知行科技有限公司 一种目标识别方法、装置、计算机设备和存储介质
CN111461319A (zh) * 2019-01-22 2020-07-28 斯特拉德视觉公司 可适应用户要求的基于cnn的对象检测方法及装置
CN111931730A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质
CN111931731A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590291B2 (en) * 2004-12-06 2009-09-15 Intel Corporation Method and apparatus for non-parametric hierarchical clustering
TWI419061B (zh) * 2010-01-18 2013-12-11 Pixart Imaging Inc 多物件影像辨識方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284355A (zh) * 2018-09-26 2019-01-29 杭州大拿科技股份有限公司 一种批改试卷中口算题的方法及装置
CN111461319A (zh) * 2019-01-22 2020-07-28 斯特拉德视觉公司 可适应用户要求的基于cnn的对象检测方法及装置
CN110414683A (zh) * 2019-07-02 2019-11-05 科大讯飞股份有限公司 数学题解答方法及装置
CN110929582A (zh) * 2019-10-25 2020-03-27 广州视源电子科技股份有限公司 口算题自动批改方法及装置、存储介质、电子设备
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN111368784A (zh) * 2020-03-16 2020-07-03 广州文远知行科技有限公司 一种目标识别方法、装置、计算机设备和存储介质
CN111931730A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质
CN111931731A (zh) * 2020-09-24 2020-11-13 北京易真学思教育科技有限公司 判题方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中美智能技术教育应用的比较研究;杨俊锋;包昊罡;黄荣怀;;电化教育研究(08);全文 *

Also Published As

Publication number Publication date
CN112686170A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN111860506B (zh) 识别文字的方法和装置
US11366988B2 (en) Method and system for dynamically annotating and validating annotated data
WO2023015843A1 (zh) 异常检测方法、装置、电子设备、计算机可读存储介质、计算机程序及计算机程序产品
CN110717470A (zh) 一种场景识别方法、装置、计算机设备和存储介质
CN110852107B (zh) 一种关系提取方法、装置、及存储介质
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN112041851A (zh) 一种识别文本的方法及终端设备
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN115422389B (zh) 处理文本图像的方法及装置、神经网络的训练方法
WO2022257614A1 (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN115829058B (zh) 训练样本处理方法、跨模态匹配方法、装置、设备和介质
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
WO2022227759A1 (zh) 图像类别的识别方法、装置和电子设备
CN113705650B (zh) 一种人脸图片集的处理方法、装置、介质和计算设备
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN112686170B (zh) 一种图像识别方法、装置及电子设备
CN115457329B (zh) 图像分类模型的训练方法、图像分类方法和装置
CN111695537A (zh) 一种笔画识别的方法、装置及电子设备
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN110826616A (zh) 信息处理方法及装置、电子设备、存储介质
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant