CN112651394B - 一种图像检测方法、装置及电子设备 - Google Patents
一种图像检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112651394B CN112651394B CN202011641563.0A CN202011641563A CN112651394B CN 112651394 B CN112651394 B CN 112651394B CN 202011641563 A CN202011641563 A CN 202011641563A CN 112651394 B CN112651394 B CN 112651394B
- Authority
- CN
- China
- Prior art keywords
- box
- text
- equation
- target
- text box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 118
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种图像检测方法、装置及电子设备,其中,该方法包括:检测目标图像,得到多个文本框;将任一方程式框确定为当前方程式框,并在多个文本框中查找到与当前方程式框归属于同一道目标方程式计算题目的所有目标文本框;合并每个目标文本框与当前方程式框中包含的文本,将合并得到的目标文本确定为目标方程式计算题目的完整识别结果。通过本发明实施例提供的一种图像检测方法、装置及电子设备,用以获得方程式计算题目的完整识别结果。
Description
技术领域
本发明涉及图像检测技术领域,具体而言,涉及一种图像检测方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,在通过计算机视觉技术实现方程式计算题目的识别时,多采用文本框检测模型对方程式计算题目、其解题步骤以及其计算结果在图像中的图像区域进行检测,进而得到用于标识该图像区域的文本框。之后,便可针对该文本框内所包含的方程式计算题目、解题步骤以及计算结果进行文本识别,以获得方程式计算题目的完整识别结果。
但是,受目前文本框检测模型的检测准确度的限制,目前的文本框检测模型在对方程式计算题目、其解题步骤以及其计算结果进行文本框检测时,通常会检测得到两个或多个文本框。由于这些文本框之间相互独立,因而基于这些独立的文本框无法获得方程式计算题目的完整识别结果。
发明内容
本发明实施例提供一种图像检测方法、装置、电子设备及计算机可读存储介质,用以获得方程式计算题目的完整识别结果。
(此处内容待定稿后补充)
本发明实施例提供的方法、装置、电子设备及计算机可读存储介质,相比已有技术即使将方程式计算题目及其解题步骤分别检测为多个文本框,也不加处理的分别进行文本识别,本发明实施例在文本框检测后,会将各文本框具体分类为方程式框和结尾框。在此基础上,针对当前方程式框,查找到匹配该当前方程式框的其余各方程式框和结尾框,并合并这些相匹配的文本框包含的文本,实现了方程式计算题目及其计算步骤和计算结果之间的合并,进而得到了一个方程式计算题目的完整识别结果。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的一种图像检测方法的流程图;
图2示出了本发明实施例所提供的一种图像检测方法中,方程式框和结尾框的示意图;
图3示出了本发明实施例所提供的图像检测方法中,文本框的获得流程图;
图4示出了本发明实施例所提供的图像检测方法中,当前方程式框的确定流程图;
图5示出了本发明实施例所提供的图像检测方法中,目标文本框的确定及检查流程图;
图6示出了本发明实施例所提供的图像检测装置的结构示意图;
图7示出了本发明实施例所提供的电子设备的结构示意图。
具体实施方式
所属技术领域的技术人员应当知道,本发明实施例可以实现为图像检测方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
下面将参照本发明实施例的图像检测方法、装置、电子设备及计算机可读存储介质的流程图和/或方框图描述本发明实施例。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
图1示出了本发明实施例所提供的一种图像检测方法的流程图。如图1所示,该流程包括:
步骤101,检测目标图像,得到多个文本框;其中,包含有一道方程式计算题目的文本框、以及包含有一道方程式计算题目的单行解题步骤的文本框均为方程式框,包含有一道方程式计算题目的计算结果的文本框为结尾框。
参见图2,图2示出了本发明实施例所提供的一种图像检测方法中,方程式框和结尾框的示意图。从图2可以看出,方程式框既可以包含一道方程式计算题目、也可以包含一道方程式计算题目的单行解题步骤,而结尾框包含的则是一道方程式计算题目的计算结果。
在本申请实施例中,检测目标图像中的文本,得到多个文本框有多种实现方式。下文会结合图3详细描述,这里暂不赘述。
步骤102,将任一方程式框确定为当前方程式框,并在多个文本框中查找到与当前方程式框归属于同一道目标方程式计算题目的所有目标文本框;其中,所有目标文本框中包括目标方程式框和目标结尾框。
在本申请实施例中,当前方程式框可以是前述步骤101中检测得到的任一方程式框,这里的当前方程式框仅是在命名上与其他在当前未执行本步骤102的方程式框进行区分,并非特指某一个方程式框。下文示例性列举了一种确定当前方程式框的实现方式,后续会结合图4详细描述,这里暂不赘述。
至于如何在多个文本框中查找到与当前方程式框归属于同一道目标方程式计算题目的所有目标文本框,下文会结合图5所示流程进行描述,这里暂不赘述。
步骤103,合并每个目标文本框与当前方程式框中包含的文本,将合并得到的目标文本确定为目标方程式计算题目的完整识别结果。
作为一个示例,在获得了所有的目标文本框之后,则可以识别这些目标文本框所包含的文本与当前方程式框中包含的文本,进而将识别到的这些文本进行合并,以得到目标方程式计算题目的完整识别结果。下文会基于本申请实施例中列举的各实现方式,对本步骤103中提及的合并过程进行更为详细的说明,这里暂不赘述。
至此,完成图1所示流程。
本申请实施例,相比已有技术即使将方程式计算题目及其解题步骤分别检测为多个文本框,也不加处理的分别进行文本识别,本发明实施例在文本框检测后,会将各文本框具体分类为方程式框和结尾框。在此基础上,针对每一方程式框,查找到匹配该方程式框的其余各方程式框和结尾框,并合并这些相匹配的文本框为一个目标识别框,实现了方程式计算题目及其计算步骤和计算结果之间的合并,进而通过识别上述的目标识别框便可得到一个方程式计算题目的完整识别结果。
下面对上述步骤102中如何检测目标图像中的文本,得到多个文本框进行描述。参见图3,图3示出了本发明实施例所提供的图像检测方法中,文本框的获得流程图。该流程可以包括:
步骤201,将目标图像输入至已训练的文本框检测模型中,得到多个文本框。
在执行本步骤201之前,需预先预先训练出一个文本框检测模型,以用于对目标图像中文本所在图像区域进行检测。在训练时,为了提升文本框检测模型的识别精度,可选择方程式计算题目、方程式计算题目的解题步骤、方程式计算题目的计算结果作为训练样本进行训练,以训练出文本框检测模型。
在本步骤201执行完毕后,则可以得到由文本框检测模型输出的多个文本框。但是,这些文本框并不存在具体的类别,其类别的划分需由下述步骤202执行。
需要说明的是,文本框检测模型可以是指用于预测图像样本中的文本框的具体位置的神经网络,该神经网络可以包括卷积神经网络等。
步骤202,针对每一文本框,识别该文本框所包含的文本并基于识别得到的文本确定该文本框的类型。
在本步骤202中,可以将每一文本框对应的图像经裁切后输入文本识别模型(例如上述的文本识别模型),得到每一文本框所包含的文本。
之后,便可根据识别得到的文本进行文本框分类。具体的,涉及以下三种情况:
第一种情况:若识别得到的文本中,仅包含等号、数字和未知数,而不包含其他的运算符号,则将该文本对应的文本框确定为结尾框。例如,识别得到的文本为“X=15”,则将该文本对应的文本框确定为结尾框。
第二种情况:若识别得到的文本中,仅包含等号、数字、未知数和其他运算符号,则将该文本对应的文本框确定为方程式框。例如,识别得到的文本为“X+8=7”,则将该文本对应的文本框确定为方程式框。
以上对上述步骤101中如何检测目标图像中的文本,得到多个文本框进行了描述。
下面示例性描述一种将任一方程式框确定为当前方程式框的具体实现方式。参见图4,图4示出了本发明实施例所提供的图像检测方法中,当前方程式框的确定流程图。该流程可以包括:
步骤301,将各文本框按照它在目标图像中的高度由高至低的顺序排序,得到文本框序列。
在执行本步骤301之前,可以预先基于目标图像构建一个图像坐标系。在一个例子中,该图像坐标系可以以目标图像的左上角作为原点、以水平向右为X轴正方向、以垂直向下为Y轴负方向构建。
基于已构建的图像坐标系,则可以获得每一文本框在目标图像中的高度。在一个例子中,文本框的高度可以是该文本框中下边缘任一像素点的Y轴坐标。当然,也可以根据实际情况选择文本框中上边缘任一像素点的Y轴坐标,本申请对此不作具体限定。
在获得每一个文本框在目标图像中的高度后,则可以基于按照由高至低的顺序排序,进而获得文本框序列。
步骤302,将文本框序列中的首个方程式框确定为当前方程式框。
在获得上述的文本框序列后,则可将该文本框序列中的首个方程式框确定为当前方程式框。
这里之所以要对各文本框进行排序以得到文本框序列,其原因在于:对于同一道方程式计算题目而言,其题目,计算步骤和计算结果是按序从上至下排列且相对位置较为贴近,因此,归属于同一道方程式计算题目的文本框在文本框序列中的位置也是相对靠近的,进而可以在后续步骤中较为快速的查找到归属于同一道方程式计算题目的所有文本框。
以上对上述步骤101中将任一方程式框确定为当前方程式框的一种具体实现方式进行了描述。可以理解的是,上述内容仅是举例描述如何确定出当前方程式框,并不作为对本申请的限定。
在上述通过文本框序列来确定出当前方程式框的基础上,本申请实施例还相对应的提供了一种上述步骤102的具体实现方式。参见图5,图5示出了本发明实施例所提供的图像检测方法中,当前方程式框的查找流程图。该流程可以包括:
步骤401,按照文本框序列的顺序在剩余文本框序列查找到匹配当前方程式框的首个文本框。
在本申请实施例中,上述的剩余文本框序列为排除了当前方程式框的文本框序列。
在本申请实施例中,可以基于剩余文本框序列中各文本框与当前方程式框之间的位置关系,查找到匹配当前方程式框的首个文本框。下文会对此详细描述,这里暂不赘述。
需要说明的是,本申请实施例中之所以先形成文本框序列,再按照文本框序列的顺序来查找首个文本框,其原因在于:对于每一道方程式计算题目而言,其方程式计算题目、解题步骤和计算结果在目标图像中的高度都是相近且依次降低的,因此可以在文本框序列中执行少量的首个文本框查找操作,即可完成一道方程式计算题目的完整识别。
还需说明的是,本步骤401所描述的按照文本框序列的顺序查找是指:从当前方程式框开始,向文本框序列的结尾位置逐一查找。
步骤402,判断查找到的该首个文本框是方程式框或是结尾框;若是方程式框,则转到步骤403;若是结尾框,则转到步骤404。
对于每一道方程式计算题目而言,其计算结果总是位于最下方。因此,在当前方程式框框是按照文本框序列的顺序向下逐一查找首个文本框的前提下,一旦确定出查找到的首个文本框为结尾框,就表示该结尾框就是最后一个需要合并的目标文本框。否则,表示文本框序列中还存在着与当前方程式框框归属于同一道方程式计算题目的结尾框、或者结尾框和至少一个方程式框需要被进一步地查找出来。
步骤403,将首个文本框确定为新的当前方程式框,并返回按照文本框序列的顺序在文本框序列中查找到匹配当前方程式框框的首个文本框。
需要说明的是,本步骤403是在查找到的该首个文本框是方程式框的前提下执行的。
如前述的,由于查找到的首个文本框是方程式框,则表示文本框序列中还存在着与当前方程式框框归属于同一道方程式计算题目的结尾框、或者结尾框和至少一个方程式框需要被查找出来,因此需要将首个文本框确定为新的当前方程式框框,并返回执行前述的步骤401。
步骤404,将已查找到的所有首个文本框确定为所有目标文本框。
需要说明的是,本步骤404是在查找到的该首个文本框是结尾框的前提下执行的。
如前述的,由于查找到的首个文本框是结尾框,则表示文本框序列中与当前方程式框框归属于同一道方程式计算题目的所有文本框已被查找到,不需要再执行查找步骤了。因此,可以将已经找到的所有首个文本框(包括在查找过程中被确定为新的方程式框的首个文本框)确定为各目标文本框。
需要说明的是,在执行完步骤404后,已经完成了对前述文本框序列中首个方程式框的各目标文本框的查找(即,查找到归属于目标方程式计算题目的所有目标文本框)。因此,可以将这些目标文本框和该首个方程式框从文本框序列中移除,并继续重复上述的步骤401至步骤403,以实现对下一个方程式计算题目的各文本框的查找。当然,还可以通过设置标签并改变标签值方式,对已经确定其归属于某一方程式计算题目,与还未确定其归属于某一方程式计算题目的文本框进行区分。
以上对上述步骤102的一种具体实现方式进行了描述。当然,此处仅是列举了上述步骤102的一种实现方式,并不作为对本申请实施例的限制。可以理解的是,即使在不生成文本框序列的前提下,逐一对各文本框进行查找(可以基于下述的设定条件),仍可实现上述的步骤102。
下面对上述步骤404中首个文本框的查找流程进行描述。在一种实现方式下,上述步骤404可以包括以下步骤:
步骤501,将文本框序列中当前方程式框的下一个文本框确定为待检文本框,并检查待检文本框是否满足设定条件;若满足,则转到步骤502;若否,则转到步骤503。
在执行本步骤501之前,需预先设定一个设定条件,该设定条件用于根据当前方程式框与文本框序列中任一文本框之间的位置关系,判断出该文本框是否与当前方程式框归属于同一道目标方程式题目。
至于上述设定条件的具体内容,下文会对其进行详细描述,这里暂不赘述。
步骤502将待检文本框确定为匹配当前方程式框的首个文本框。
需要说明的是,本步骤502是在待检文本框满足设定条件的前提下执行的。
若待检文本框满足设定条件,则表示该待检文本框与当前方程式框是归属于同一道方程式计算题目的两个文本框。因此,可将该待检文本框确定为匹配当前方程式框的首个文本框。
步骤503,将待检文本框的下一个文本框确定为新的待检文本框,并返回执行上述的步骤503。
需要说明的是,本步骤503是在待检文本框不满足设定条件的前提下执行的。
若待检文本框不满足设定条件,则需要继续判断文本框序列中其他的文本框是否满足该设定条件。即,重新确定出一个新的待检文本框,并返回执行步骤501。
以上对如何查找到匹配当前方程式框的首个文本框的一种实现方式进行了说明。可以理解对是,上述描述仅用作举例说明,并不作为对本申请的限定。
下面对上述步骤501中的设定条件进行详细描述:
作为一个示例,上述的设定条件至少包括:待检文本框的至少部分框体位于当前方程式框的正下方、待检文本框与当前方程式框相邻且相邻边间距小于已确定的间距阈值的间距小于已确定的间距阈值。
其中,设定条件中的文本框的至少部分框体位于当前方程式框的正上方或正下方,用于表征文本框与当前方程式框之间的方位关系。而之所以要限定上述的方位关系,其原因在于:方程式计算题目、其解题步骤以及其计算结果三者是存在固定方位的。此外,由于解题步骤和计算结果在作答过程中会存在手写偏差,因此仅需保证方程式计算题目、其单行解题步骤以及计算结果三者大致的方位即可。即上述的文本框的至少部分框体位于当前方程式框的正上方或正下方。
可选的,可以通过以下步骤确定文本框的至少部分框体位于当前方程式框的正下方:确定出文本框中的中心点。若该中心点位于当前方程式框之下,则可确定出文本框的至少部分框体位于当前方程式框的正下方。
在具体实施时,可通过判断上述中心点的X轴坐标与指定框体的X轴坐标范围,中心点的Y轴坐标与指定框体的Y轴坐标范围之间的关系,确定出中心点相较于当前方程式框之间的位置关系。
在一个例子中,为了提高判断的准确性,可以在判断待检文本框的至少部分框体是否位于当前方程式框的正下方时,判断待检文本框的至少部分框体是否位于当前方程式框的指定框体的正下方。
上述指定框体可以通过以下方式获得:将当前方程式框的两侧边缘分别向靠近当前方程式框的方向缩进预设距离;将缩进后得到的框体确定为指定框体。
需要说明的是,上述的预设距离可以根据实际情况设置,例如25个像素点,本申请对此不作具体限定。
对于设定条件中的当前方程式框与文本框的间距小于已确定的间距阈值,则用于表征当前方程式框与文本框之间的距离关系。而之所以要限定上述的距离关系,其原因在于:同一道方程式计算题目与首行解题步骤、相邻单行解题步骤、以及尾行解题步骤与计算结果之间的距离基本是很小的。因此,距离也是查找出目标文本框的重要条件之一。
在一个例子中,上述的间距阈值可以人为的根据经验设定。在另一个例子中,上述的间距阈值可以根据方程式框的框高度确定。
可选的,在根据方程式框的框高度确定间距阈值时,可以首先统计出所有方程式框的框高度均值,之后将该框高度均值的指定倍数确定为间距阈值。需要说明的是,这里的指定倍数可以根据实际情况设定,例如2倍,本申请对此不作具体限定。
当然,除上述已描述的设定条件中的内容之外,还可以额外的判断以下内容:文本框的置信度是否满足预设的第一置信度阈值、文本框所包含内容的识别结果的置信度是否满足预设的第二置信度阈值。
需要说明的是,第一置信度阈值和第二置信度阈值可以根据实际情况设定,本申请对此不作具体限定。
以上对上述步骤501中的设定条件进行了详细描述。
下面对上述步骤104中如何合并每个目标文本框与当前方程式框中包含的文本,将合并得到目标文本确定为目标方程式计算题目的完整识别结果进行描述。下面举例两种实现方式:
第一种实现方式,先查找到所有的目标文本框后,再将这些目标文本框与当前方程式框进行合并。
第二种实现方式,则是在每一次查找到首个文本框并将该首个文本框确定为新的当前方程式框时,便将该首个文本框与已有的当前方程式框进行合并,最后仅需将已有的当前方程式框与结尾框进行合并。
值得强调的是,在第二种实现方式下,每一次确定出的新的当前方程式框,其都是由本次查找到首个文本框与已有的目标方程式进行合并得到的。可以理解的是,在本实现方式下,当查找到的首个文本框为结尾框时,则仅需将已有的当前方程式框(在之前已经过了多次合并)与查找到的该结尾框进行合并即可。
下面对上述两种实现方式中的具体合并步骤进行描述。在对目标文本框和当前方程式框所包含的文本进行合并时(仅以两个文本框之间的合并为例,多次或多个文本框合并可参考此处描述),具体可包括文本识别过程和文本合并过程,下面分别描述:
在文本识别过程中,第一种情况,若当前已识别得到当前方程式框(非新的当前方程式框)所包含的文本,则仅需识别目标文本框所包含文本,其识别过程包括以下步骤:
步骤a,基于目标文本框裁切目标图像,得到经裁切得到的该目标文本框对应的目标子图像。
在本步骤a中,由于已经得到了目标文本框,因此,按照该目标文本框的尺寸和位置对目标图像进行裁切,即可得到该目标文本框对应的目标子图像。
步骤b,将上述裁切得到的目标子图像输入至已训练的文本识别模型,得到该目标子图像中包含的文本。
在执行本步骤b之前,需预先训练出一个文本识别模型,以用于识别目标子图像中包含的文本。在训练时,为了提升文本识别模型的识别精度,可选择方程式计算题目及其解题步骤和计算结果作为训练样本进行训练,以训练出文本识别模型。
至于文本识别模型的具体训练过程,可根据实际情况选择半监督机器学习算法、全监督机器学习算法等训练方式训练,本申请对此不作限定。
在执行本步骤b时,可以将目标子图像直接的输入已训练的文本识别模型(例如采用上述训练方式训练得到的文本识别模型),则可得到该文本识别模型输出的、该目标子图像所包含的文本。
在文本识别过程中,第二种情况,当前未识别得到当前方程式框(非新的当前方程式框)所包含的文本。在第二种情况下,则表示当前方程式框是直接地被确定出的,而并非是合并得到的。因此,在第二种情况下,还需要额外的对当前方程式框所包含的文本进行识别(参照上述描述的步骤a和步骤b),以得到当前方程式框所包含的文本。
执行到这里,便识别得到了当前方程式框和目标文本框各自所包含的文本。下面便可执行文本合并过程,其可以通过以下方式实现:
将目标文本框所包含的文本拼接在当前方程式框所包含的文本之后,并在两者之间插入分隔符,以得到合并后的文本。举例来说,若目标文本框所包含的文本为“3X-8=1”、当前方程式框所包含的文本为“3X-8=3-2”,分隔符为“\\”,则合并得到的文本为“3X-8=3-2\\3X-8=1”。
执行到这里,便完成了目标文本框和当前方程式框所包含文本的合并。
需要说明的是,除上述的文本合并之外,在需要向用户显示题目的检测位置时,也可以将各目标文本框与当前方程式框合并为一个整体的文本框(记为显示框)。在一个例子中,上述的显示框可以是各目标文本框与当前方程式框的外接矩形框。
需要说明的是,上述合并得到显示框的过程并不是必须的过程,该显示框可用于在进行显示。
以上对上述步骤104中如何合并每个目标文本框与当前方程式框中包含的文本,将合并得到目标文本确定为目标方程式计算题目的完整识别结果进行了描述。可以理解的是,上述内容仅是举例描述,并不作为对本申请的限定。
一旦获得了目标方程式计算题目的完整识别结果,则可以基于该完整识别结果对该目标方程式计算题目进行批改。下面示例性描述一种基于完整识别结果批改目标方程式计算题目的流程。该流程可以包括以下步骤:
步骤601,将完整识别结果转换为多个方程式算式。
在本申请实施例中,将完整识别结果转换为横式算式有多种实现方式。
作为其中一种实现方式,若完整识别结果中包含前述的分隔符,则可基于分隔符对完整识别结果进行切分,获得多个方程式算式。举例来说,若完整识别结果为“X-15=7+8\\X-15=15\\X=15+15\\X+30”,则基于分隔符切分后,可得到“X-15=7+8”、“X-15=15”、“X=15+15”、“X+30”。这里的“X-15=7+8”、“X-15=15”、“X=15+15”、“X+30”便是方程式算式。
步骤602,若每个方程式算式中未知数的计算结果均相同,则将目标方程式计算题目的完整解题步骤和目标计算结果确定为目标方程式计算题目的正确答案。
作为一个示例,对于上述步骤601得到的多个方程式算式,可分别结算该方程式算式中未知数的计算结果。
之后,则可基于这些计算结果确定目标方程式计算题目的完整解题步骤及其目标计算结果是否正确。
可选的,若这些计算结果相同,则可将目标方程式计算题目的完整解题步骤和目标计算结果确定为目标方程式计算题目的正确答案。
可选的,若这些计算结果不相同,则可将目标方程式计算题目的完整解题步骤和目标计算结果确定为目标方程式计算题目的错误答案。
以上示例性的描述了一种基于完整识别结果批改目标方程式计算题目的流程。
上文详细描述了本发明实施例提供的图像检测方法,上述方法也可以通过相应的装置实现,下面将详细描述本发明实施例提供的图像检测装置。
图6示出了本发明实施例所提供的一种图像检测装置的结构示意图。如图6所示,该图像检测装置包括:
检测单元,用于检测目标图像,得到多个文本框;其中,包含有一道方程式计算题目的文本框、以及包含有一道方程式计算题目的单行解题步骤的文本框均为方程式框,包含有一道方程式计算题目的计算结果的文本框为结尾框;
查找单元,用于将任一方程式框确定为当前方程式框,并在多个文本框中查找到与当前方程式框归属于同一道目标方程式计算题目的所有目标文本框;其中,所有目标文本框中包括目标方程式框和目标结尾框;
合并单元,用于合并每个目标文本框与当前方程式框中包含的文本,将合并得到的目标文本确定为目标方程式计算题目的完整识别结果。
作为一个示例,查找单元将任一方程式框确定为当前方程式框,并在多个文本框中查找与当前方程式框归属于同一道目标方程式计算题目的所有目标文本框,包括:
将各文本框按照它在目标图像中的高度由高至低的顺序排序,得到文本框序列;
将文本框序列中的首个方程式框确定为当前方程式框,并按照文本框序列的顺序在剩余文本框序列中查找到匹配当前方程式框的首个文本框;剩余文本框序列为排除当前方程式框的文本框序列;
若首个文本框是方程式框,则将首个文本框确定为新的当前方程式框,并返回按照文本框序列的顺序在剩余文本框序列中查找到匹配当前方程式框的首个文本框的步骤;
若首个文本框是结尾框,则将已查找到的所有首个文本框确定为所有目标文本框。
作为一个示例,查找单元在剩余文本框序列中查找到匹配当前方程式框的首个文本框,包括:
将文本框序列中当前方程式框的下一个文本框确定为待检文本框,并检查待检文本框是否满足设定条件;设定条件至少包括:待检文本框的至少部分框体位于当前方程式框的正下方、待检文本框与当前方程式框相邻且相邻边间距小于已确定的间距阈值;
若是,则将待检文本框确定为匹配当前方程式框的首个文本框;否则,将待检文本框的下一个文本框确定为新的待检文本框,并返回检查待检文本框是否满足设定条件。
作为一个示例,设定条件还包括:待检文本框与当前方程式框中包含的未知数相同。
作为一个示例,该装置进一步包括:
批改单元,用于将目标方程式计算题目的完整识别结果转换为多个方程式算式;若每个方程式算式中未知数的计算结果均相同,则将目标方程式计算题目的完整解题步骤和目标计算结果确定为目标方程式计算题目的正确答案。
以上对图6所示装置进行了描述。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述图像检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图7所示,本发明实施例还提供了一种电子设备,该电子设备包括总线71、处理器72、收发器73、总线接口74、存储器75和用户接口76。
收发器73,用于在处理器72的控制下接收和发送数据。
在图7中,总线架构(用总线71来代表),总线71可以包括任意数量互联的总线和桥,总线71将包括由处理器72代表的一个或多个处理器与存储器75代表的存储器的各种电路连接在一起。
总线71表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器72可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器72可以是微处理器或任何常规的处理器。结合本发明实施例所公开的图像检测方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(Flash Memory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线71还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口74在总线71和收发器73之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器73可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器73从其他设备接收外部数据,收发器73用于将处理器72处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口76,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器75可进一步包括相对于处理器72远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器75可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器75包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器75存储了操作系统751和应用程序752的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统751包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序752包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序752中。应用程序752包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述图像检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或二者的结合来实现,为了清楚说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序指令。计算机程序指令包括:汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言,例如:Smalltalk、C++以及过程式编程语言,例如:C语言或类似的编程语言。
在计算机上加载和执行计算机程序指令时,全部或部分的产生按照本发明实施例的流程或功能,计算机可以是通过计算机、专用计算机、计算机网络或其他可编辑装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如:计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、双绞线、光纤、数字用户线路(digital subscriber line,DSL))或无线(例如:红外、无线、微波)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如:软盘、磁盘、磁带)、光介质(例如:光盘)或半导体介质(例如:固态硬盘(Solid State Drive,SSD))等。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述本发明方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图像检测方法,其特征在于,包括:
检测目标图像,得到多个文本框;其中,包含有一道方程式计算题目的文本框、以及包含有一道方程式计算题目的单行解题步骤的文本框均为方程式框,包含有一道方程式计算题目的计算结果的文本框为结尾框;
将任一所述方程式框确定为当前方程式框,并在所述多个文本框中查找到与所述当前方程式框归属于同一道目标方程式计算题目的所有目标文本框;其中,所述所有目标文本框中包括目标方程式框和目标结尾框;
合并每个所述目标文本框与所述当前方程式框中包含的文本,将合并得到的目标文本确定为所述目标方程式计算题目的完整识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将任一所述方程式框确定为当前方程式框,并在所述多个文本框中查找与所述当前方程式框归属于同一道目标方程式计算题目的所有目标文本框,包括:
将各文本框按照它在所述目标图像中的高度由高至低的顺序排序,得到文本框序列;
将所述文本框序列中的首个方程式框确定为所述当前方程式框,并按照所述文本框序列的顺序在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框;所述剩余文本框序列为排除所述当前方程式框的文本框序列;
若所述首个文本框是方程式框,则将所述首个文本框确定为新的当前方程式框,并返回按照所述文本框序列的顺序在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框的步骤;
若所述首个文本框是结尾框,则将已查找到的所有所述首个文本框确定为所述所有目标文本框。
3.根据权利要求2所述的方法,其特征在于,所述在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框,包括:
将所述文本框序列中所述当前方程式框的下一个文本框确定为待检文本框,并检查所述待检文本框是否满足设定条件;所述设定条件至少包括:所述待检文本框的至少部分框体位于所述当前方程式框的正下方、所述待检文本框与所述当前方程式框相邻且相邻边间距小于已确定的间距阈值;
若是,则将所述待检文本框确定为匹配所述当前方程式框的所述首个文本框;否则,将所述待检文本框的下一个文本框确定为新的待检文本框,并返回检查所述待检文本框是否满足所述设定条件。
4.根据权利要求3所述的方法,其特征在于,所述设定条件还包括:所述待检文本框与所述当前方程式框中包含的未知数相同。
5.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
将所述目标方程式计算题目的完整识别结果转换为多个方程式算式;
若每个所述方程式算式中未知数的计算结果均相同,则将所述目标方程式计算题目的完整解题步骤和目标计算结果确定为所述目标方程式计算题目的正确答案。
6.一种图像检测装置,其特征在于,包括:
检测单元,用于检测目标图像,得到多个文本框;其中,包含有一道方程式计算题目的文本框、以及包含有一道方程式计算题目的单行解题步骤的文本框均为方程式框,包含有一道方程式计算题目的计算结果的文本框为结尾框;
查找单元,用于将任一所述方程式框确定为当前方程式框,并在所述多个文本框中查找到与所述当前方程式框归属于同一道目标方程式计算题目的所有目标文本框;其中,所述所有目标文本框中包括目标方程式框和目标结尾框;
合并单元,用于合并每个所述目标文本框与所述当前方程式框中包含的文本,将合并得到目标文本确定为所述目标方程式计算题目的完整识别结果。
7.根据权利要求6所述的装置,其特征在于,所述查找单元将任一所述方程式框确定为当前方程式框,并在所述多个文本框中查找与所述当前方程式框归属于同一道目标方程式计算题目的所有目标文本框,包括:
将各文本框按照它在所述目标图像中的高度由高至低的顺序排序,得到文本框序列;
将所述文本框序列中的首个方程式框确定为所述当前方程式框,并按照所述文本框序列的顺序在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框;所述剩余文本框序列为排除所述当前方程式框的文本框序列;
若所述首个文本框是方程式框,则将所述首个文本框确定为新的当前方程式框,并返回按照所述文本框序列的顺序在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框的步骤;
若所述首个文本框是结尾框,则将已查找到的所有所述首个文本框确定为所述所有目标文本框。
8.根据权利要求7所述的装置,其特征在于,所述查找单元在剩余文本框序列中查找到匹配所述当前方程式框的首个文本框,包括:
将所述文本框序列中所述当前方程式框的下一个文本框确定为待检文本框,并检查所述待检文本框是否满足设定条件;所述设定条件至少包括:所述待检文本框的至少部分框体位于所述当前方程式框的正下方、所述待检文本框与所述当前方程式框相邻且相邻边间距小于已确定的间距阈值;
若是,则将所述待检文本框确定为匹配所述当前方程式框的所述首个文本框;否则,将所述待检文本框的下一个文本框确定为新的待检文本框,并返回检查所述待检文本框是否满足所述设定条件。
9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的图像检测方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的图像检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011641563.0A CN112651394B (zh) | 2020-12-31 | 2020-12-31 | 一种图像检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011641563.0A CN112651394B (zh) | 2020-12-31 | 2020-12-31 | 一种图像检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651394A CN112651394A (zh) | 2021-04-13 |
CN112651394B true CN112651394B (zh) | 2023-11-14 |
Family
ID=75367003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011641563.0A Active CN112651394B (zh) | 2020-12-31 | 2020-12-31 | 一种图像检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651394B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818033B1 (en) * | 2012-04-27 | 2014-08-26 | Google Inc. | System and method for detecting equations |
CN105637343A (zh) * | 2014-01-20 | 2016-06-01 | 富士施乐株式会社 | 检测控制装置、程序、检测系统、存储介质和检测控制方法 |
WO2018207959A1 (ko) * | 2017-05-11 | 2018-11-15 | 주식회사 룩시드랩스 | 이미지 처리 장치 및 방법 |
WO2020097909A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京比特大陆科技有限公司 | 文本检测方法、装置及存储介质 |
CN111666799A (zh) * | 2019-03-08 | 2020-09-15 | 小船出海教育科技(北京)有限公司 | 一种口算题的校验方法及终端 |
CN111737478A (zh) * | 2020-08-07 | 2020-10-02 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111796266A (zh) * | 2020-07-14 | 2020-10-20 | 哈尔滨工业大学 | 一种匀加速运动目标rd平面检测前跟踪方法 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147786B (zh) * | 2019-04-11 | 2021-06-29 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
-
2020
- 2020-12-31 CN CN202011641563.0A patent/CN112651394B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818033B1 (en) * | 2012-04-27 | 2014-08-26 | Google Inc. | System and method for detecting equations |
CN105637343A (zh) * | 2014-01-20 | 2016-06-01 | 富士施乐株式会社 | 检测控制装置、程序、检测系统、存储介质和检测控制方法 |
WO2018207959A1 (ko) * | 2017-05-11 | 2018-11-15 | 주식회사 룩시드랩스 | 이미지 처리 장치 및 방법 |
WO2020097909A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京比特大陆科技有限公司 | 文本检测方法、装置及存储介质 |
CN111666799A (zh) * | 2019-03-08 | 2020-09-15 | 小船出海教育科技(北京)有限公司 | 一种口算题的校验方法及终端 |
CN111796266A (zh) * | 2020-07-14 | 2020-10-20 | 哈尔滨工业大学 | 一种匀加速运动目标rd平面检测前跟踪方法 |
CN111737478A (zh) * | 2020-08-07 | 2020-10-02 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112651394A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270166B2 (en) | Image identification system and image identification method | |
US20200380312A1 (en) | Method and system for dynamically annotating and validating annotated data | |
US20220284218A1 (en) | Video classification method, electronic device and storage medium | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
US20230066021A1 (en) | Object detection | |
CN113344089B (zh) | 模型训练方法、装置及电子设备 | |
US11733388B2 (en) | Method, apparatus and electronic device for real-time object detection | |
CN114724168A (zh) | 深度学习模型的训练方法、文本识别方法、装置和设备 | |
US20230154163A1 (en) | Method and electronic device for recognizing category of image, and storage medium | |
CN113378712A (zh) | 物体检测模型的训练方法、图像检测方法及其装置 | |
US20230072632A1 (en) | Obstacle detection method, electronic device and storage medium | |
CN113971728B (zh) | 图像识别方法、模型的训练方法、装置、设备及介质 | |
CN115359471A (zh) | 图像处理及联合检测模型训练方法、装置、设备和存储介质 | |
CN112651394B (zh) | 一种图像检测方法、装置及电子设备 | |
WO2023232031A1 (zh) | 一种神经网络模型的训练方法、装置、电子设备及介质 | |
CN113204665A (zh) | 图像检索方法、装置、电子设备及计算机可读存储介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN111695537A (zh) | 一种笔画识别的方法、装置及电子设备 | |
US11226350B2 (en) | Method and device for detecting obstacle speed, computer device, and storage medium | |
CN116152576B (zh) | 图像处理方法、装置、设备及存储介质 | |
US20230027813A1 (en) | Object detecting method, electronic device and storage medium | |
CN112686170B (zh) | 一种图像识别方法、装置及电子设备 | |
US20230008473A1 (en) | Video repairing methods, apparatus, device, medium and products | |
JP7122835B2 (ja) | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル | |
CN114359536A (zh) | 字符识别模型的训练方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |