CN113095210A - 一种练习册页面检测的方法、装置及电子设备 - Google Patents
一种练习册页面检测的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113095210A CN113095210A CN202110377121.8A CN202110377121A CN113095210A CN 113095210 A CN113095210 A CN 113095210A CN 202110377121 A CN202110377121 A CN 202110377121A CN 113095210 A CN113095210 A CN 113095210A
- Authority
- CN
- China
- Prior art keywords
- page
- exercise book
- frame
- detection model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种练习册页面检测的方法、装置及电子设备,其中,该方法包括:提取预设的练习册历史页面中的历史对象,将历史对象的尺寸信息作为先验知识,生成候选框;根据候选框对预设的检测模型进行训练,确定训练后的检测模型;根据训练后的检测模型对待检测的练习册目标页面进行检测,识别练习册目标页面中的目标对象。通过本发明实施例提供的练习册页面检测的方法、装置及电子设备,能够生成与历史对象的尺寸信息相匹配的候选框,使得该候选框更加符合练习册页面检测的场景;基于该候选框对练习册页面中的对象进行检测识别,对不同尺寸的对象都具有较高的检出率和准确率,比通用的物体检测模型具有更好的性能。
Description
技术领域
本发明涉及页面检测技术领域,具体而言,涉及一种练习册页面检测的方法、装置、电子设备及计算机可读存储介质。
背景技术
在学生练习册场景中,需要基于模型对练习册的页面进行识别,但是识别偏数字形式的口算页面和偏文字的教辅页面(口算题、应用题等混合的页面)之间有很大的差异,因此如果能将这两类页面区分出来,之后分别用各自适应的模型对练习册页面进行识别,能够极大地提升识别的准确率。
传统的“物体检测”方案,针对的是一般性的物体的图片,其会采用多种长宽比的候选框,但由于每张图片目标数量少(基本在20以下),少量的候选框也可以保证较好的检测效率。一种场景可参见图1所示,图1中右侧图中的虚线框即为可能被选取的候选框。而练习册页面中的待检测的内容(算式或文字等)较多,且不同页面中待检测内容的数量差异较大,传统的物体检测方案不能快速准确地确定是算式还是文本,检测效果较差。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种练习册页面检测的方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种练习册页面检测的方法,包括:
提取预设的练习册历史页面中的历史对象,并确定所述历史对象的尺寸信息;
将所述历史对象的尺寸信息作为先验知识,生成符合所述先验知识的候选框;
根据所述候选框对预设的检测模型进行训练,确定训练后的检测模型;
根据所述训练后的检测模型对待检测的练习册目标页面进行检测,识别所述练习册目标页面中的目标对象。
第二方面,本发明实施例还提供了一种练习册页面检测的装置,包括:
预处理模块,用于提取预设的练习册历史页面中的历史对象,并确定所述历史对象的尺寸信息;
先验模块,用于将所述历史对象的尺寸信息作为先验知识,生成符合所述先验知识的候选框;
训练模块,用于根据所述候选框对预设的检测模型进行训练,确定训练后的检测模型;
检测模块,用于根据所述训练后的检测模型对待检测的练习册目标页面进行检测,识别所述练习册目标页面中的目标对象。
第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的练习册页面检测的方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的练习册页面检测的方法中的步骤。
本发明实施例提供的练习册页面检测的方法、装置、电子设备及计算机可读存储介质,将历史对象的尺寸信息作为先验知识,从而能够生成与该历史对象的尺寸信息相匹配的候选框,使得该候选框更加符合练习册页面检测的场景;基于该候选框对练习册页面中的对象进行检测识别,对不同尺寸的对象都具有较高的检出率和准确率,比通用的物体检测模型具有更好的性能。并且,即使不同的练习册目标页面中目标对象的数量不同,仍然能够对页面内所有的目标对象进行全面准确地检测。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了现有物体检测方案的一种场景示意图;
图2示出了本发明实施例所提供的一种练习册页面检测的方法的流程图;
图3示出了本发明实施例中练习册页面的一种示意图;
图4示出了本发明实施例所提供的训练过程和检测过程的示意图;
图5示出了本发明实施例所提供的一种练习册页面检测的装置的结构示意图;
图6示出了本发明实施例所提供的一种用于执行练习册页面检测的方法的电子设备的结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。
图2示出了本发明实施例所提供的一种练习册页面检测的方法的流程图。如图2所示,该方法包括:
步骤101:提取预设的练习册历史页面中的历史对象,并确定历史对象的尺寸信息。
本发明实施例中,练习册历史页面为已有的练习册页面,该练习册页面可以是对练习册拍照后生成的页面,也可以是对页面的截图,本实施例对此不做限定。并且,练习册页面中包含需要识别的对象,在练习册历史页面中需要识别的对象为历史对象;具体地,该对象为练习册页面中的内容,一般情况下,练习册页面中包含算式、竖式和文本三大类的对象。如图3所示,图3示出了一种练习册页面,其中的对象1和对象4为算式,对象2为文本,对象3为竖式。
并且,对象也具有一定的尺寸,即其具有尺寸信息,该尺寸信息具体包括对象的长宽大小、长宽比等;相应地,历史对象的尺寸信息也包含长宽大小、长宽比等。
步骤102:将历史对象的尺寸信息作为先验知识,生成符合先验知识的候选框。
本发明实施例中,可以获取多个练习册历史页面,且每个练习册历史页面中可以包含一个或多个历史对象,即通过多个练习册历史页面可以确定多个历史对象的尺寸信息,将多个历史对象的尺寸信息作为先验知识,可以生成符合该先验知识的候选框。
具体地,符合先验知识的候选框,指的是候选框的尺寸信息与历史对象的尺寸信息相匹配。例如,由于算式类对象的长宽比一般较大,故候选框的长宽比也需要设置为较大值,如3:1、5:1等。而竖式类对象的长宽比也不会过于小,故长宽比不需要设置为较小的值。本实施例通过先验知识来生成具有特定尺寸信息的候选框,使得后续基于该候选框来识别练习册页面时,可以更加快速准确地识别出练习册页面中的对象。而传统的检测模型为了具有较强的泛用性,其采用的长宽比一般比较标准,如1:2/1:1/2:1,不能很好地适应算式检测的场景。
需要说明的是,本实施例中的长宽比为长度与宽度的比值,其中,长度为水平方向的度量,宽度为竖直方向上的度量,在某些情况下长度可能小于宽度;如图3中竖式类的对象3,其水平方向上的长度小于竖直方向上的宽度,但为了统一描述,仍将水平方向上的度量称为“长度”。
步骤103:根据候选框对预设的检测模型进行训练,确定训练后的检测模型。
步骤104:根据训练后的检测模型对待检测的练习册目标页面进行检测,识别练习册目标页面中的目标对象。
本发明实施例中,预先设置用于检测练习册页面中对象的检测模型,并将上述步骤102所确定的候选框作为该检测模型所用的框体,并对检测模型进行训练,从而可以得到训练后的检测模型。在需要识别某练习册页面中的对象时,将该练习册页面作为练习册目标页面输入到训练后的检测模型中,从而可以检测其中的对象,进而识别出练习册目标页面所包含的对象,即目标对象。
可选地,该检测模型也可以用于确定对象的分类标签,即基于训练后的检测模型,可以确定练习册目标页面中的目标对象的分类标签。本发明实施例中,该分类标签包括算式类、竖式类和文本类,即图3中的对象1和对象4的分类标签为算式类,对象2的分类标签为文本类,对象3的分类标签为竖式类。具体地,算式类指的是包含横向排列的数字或数学符号的式子,竖式类指的是包含纵向排列的数字或数学符号的式子,文本类指的是部分(如80%以上)或全部为文本的内容。
本发明实施例提供的一种练习册页面检测的方法,将历史对象的尺寸信息作为先验知识,从而能够生成与该历史对象的尺寸信息相匹配的候选框,使得该候选框更加符合练习册页面检测的场景;基于该候选框对练习册页面中的对象进行检测识别,对不同尺寸的对象都具有较高的检出率和准确率,比通用的物体检测模型具有更好的性能。并且,即使不同的练习册目标页面中目标对象的数量不同,仍然能够对页面内所有的目标对象进行全面准确地检测。
在上述实施例的基础上,参见图4所示,该检测模型包括转换子模型和分类子模型;其中,转换子模型用于将候选框转换为预测框,分类子模型用于根据预测框确定预测框对应的分类标签。并且,在训练过程中,上述步骤103“根据候选框对预设的检测模型进行训练”包括:
步骤A1:确定练习册样本页面,练习册样本页面中的样本对象预设有相应的真实样本框以及真实样本框对应的第一分类标签。
本发明实施例中,练习册样本页面也是一种练习册页面,其中包含一个或多个对象,即样本对象;与其他练习册页面不同的是,该练习册样本页面可以作为样本对检测模型进行训练,即练习册样本页面的样本对象设有真实的框体,即真实样本框,并且,每个真实样本框对应相应的分类标签,即第一分类标签,该第一分类标签用于表示相应真实样本框内样本对象的标签。例如,若图3所示的练习册页面为练习册样本页面,则样本对象“0.4×12=4.8”外围的框体即为真实样本框,其对应的第一分类标签为预先标注的算式类。
步骤A2:将练习册样本页面输入至检测模型,将经转换子模型所确定的、与候选框对应的样本预测框与真实样本框之间的差异,以及经分类子模型所确定的、与样本预测框对应的第二分类标签与第一分类标签之间的差异作为损失函数,对检测模型进行训练。
本发明实施例中,转换子模型本质上为一种映射,即将原始的候选框映射为与真实的框体接近的预测框,其具体可通过将样本预测框与真实样本框之间的差异作为损失函数的一部分来实现。可选地,在训练过程中,可以先计算每个候选框与真实样本框之间的重叠比例(例如,交并比),把重叠比例大于预设阈值的候选框作为有效候选框,基于该有效候选框和相应的真实样本框进行训练,即经过转换子模型所确定的、与有效候选框对应的有效样本预测框,将该有效样本预测框与真实样本框之间的差异反传给转换子模型进行学习训练,以缩小转换子模型所输出的样本预测框与真实样本框之间的差异。可选地,可以用样本预测框与真实样本框之间的重叠比例来表示二者之间的差异,该重叠比例越大,差异越小。
此外,分类子模型本质上是分类器,用于确定预测框对应的分类标签;其中,本领域技术人员可以理解,预测框对应的分类标签指的是预测框内的图像所对应的分类标签。在训练过程中,将该分类子模型所确定的样本预测框对应的第二分类标签与真实的第一分类标签作对比,将二者之间的差异反传给分类子模型进行学习训练,以使得分类子模型所输出的分类标签更加接近真实的分类标签。
在上述实施例的基础上,上述步骤104“根据训练后的检测模型对待检测的练习册目标页面进行检测”,包括:
步骤B1:将练习册目标页面输入至训练后的检测模型,根据转换子模型确定多个候选框经长宽缩放转换为相应预测框时的长宽缩放比。
步骤B2:根据预测框的长宽缩放比,选取出长宽缩放比小于预设值的部分预测框作为有效预测框,将有效预测框输入至分类子模型,确定练习册目标页面中目标对象的分类标签。
本发明实施例中,参见图4所示,在利用检测模型进行检测的过程中,在转换子模型与分类子模型之间添加筛选处理,即选取出长宽缩放比小于预设值的部分预测框作为有效预测框,只将有效预测框输入至分类子模型中来确定目标对象的分类标签。本发明实施例中,转换子模型“将候选框转换为预测框”具体包括:将候选框经位置平移和长宽缩放后确定相应的预测框。相应地,在输入练习册目标页面之后,候选框会经过位置平移和长宽缩放得到相应的预测框,故此时可以确定将每个候选框转换为相应预测框时的长宽缩放比、以及平移量。其中,长宽缩放比越大、或平移量越大,说明该候选框需要经过较大的变化才可转换为相应的预测框,此时再进行分类时的置信度较差,故可以剔除长宽缩放比较大的预测框,而将长宽缩放比小于预设值的部分预测框作为有效预测框进行分类处理,从而可以提高分类的效率和准确率。
可选地,分类子模型用于对输入的预测框进行非极大值抑制(NMS,Non-MaximumSuppression)处理,确定最终的预测框以及与最终的预测框相对应的分类标签。本发明实施例中,可以采用传统的非极大值抑制算法从多个有效预测框中选取出最终的预测框,进而可以确定相应的分类标签。其中,由于NMS是基于交并比进行选择的,而在训练过程(以及检测过程)中需要先基于交并比选取有效候选框,故在检测时分数较高的框体均在实际框附近,候选框的平移量参考性不高;若在筛选处理中基于平移量进行筛选,虽然可以减少NMS处理过程的处理量,但并不能有效提高准确率。本实施例通过长宽缩放比执行筛选处理,不仅可以提高后续NMS的处理效率,还可以保留由更适合拟合真实结果的预测框所给出的候选结果,保证了输出结果的可靠性,能够提高最终分类的准确度。
此外,在检测模型训练之后,首先对检测模型进行测试,该测试过程也可加入上述的筛选处理,即将用于测试的练习册测试页面代替“练习册目标页面”来执行上述步骤B1-B2,并通过判断练习册测试页面中测试对象的分类标签与测试对象的真实分类标签是否一致来确定检测模型的准确率。
在上述实施例的基础上,如上所述,分类标签包括算式类、竖式类和文本类。而检测模型的结果会不可避免有一定程度的误检,本实施例根据模型结果的可靠性、以及基于已有的大量练习册页面所得出的先验,对明显不合理的检测结果进行剔除、修正,保证练习册页面中对象识别的正确性。本发明实施例中,在步骤104“识别练习册目标页面中的目标对象”之后,该方法还包括根据一些先验知识对框体进行修正的过程,该过程具体包括:
步骤C1:在第一目标对象位于第二目标对象之内的情况下,若第二目标对象的分类标签为算式类,则删除第一目标对象;若第二目标对象的分类标签为竖式类,且第一目标对象的分类标签为竖式类或文本类,则将第一目标对象的分类标签修改为算式类;第一目标对象和第二目标对象为练习册目标页面中不同的目标对象。
本发明实施例中,可以基于对象的框体来确定该对象是否位于其他对象的框体内;例如,若第一目标对象的框体位于第二目标对象的框体内,则可认为第一目标对象位于第二目标对象之内。在一般情况下,算式类的框体内不会出现其他任何类别的框体,但由于训练数据中存在数字、短横式等情况,可能会有算式类框体内还包括其他的框体,例如将图3的对象1识别为一个算式类的对象,并也将其中的“4.8”识别为一个算式类对象,此时需要删除该算式类框体内的其他对象;即,若第二目标对象的分类标签为算式类,则删除第一目标对象。
并且,竖式类的框体内一般只包含算式类,不会包含其他的竖式类或文本类;因此,在第一目标对象位于第二目标对象之内的情况下,若第二目标对象的分类标签为竖式类,且第一目标对象的分类标签为竖式类或文本类,则将第一目标对象的分类标签修改为算式类。例如,图3的对象3中的“64”被别为文本类,但由于对象3为竖式类,其中只可能包含算式类,故此时可以将“64”由文本类修正为算式类。
本发明实施例提供的一种练习册页面检测的方法,将历史对象的尺寸信息作为先验知识,从而能够生成与该历史对象的尺寸信息相匹配的候选框,使得该候选框更加符合练习册页面检测的场景;基于该候选框对练习册页面中的对象进行检测识别,对不同尺寸的对象都具有较高的检出率和准确率,比通用的物体检测模型具有更好的性能。并且,即使不同的练习册目标页面中目标对象的数量不同,仍然能够对页面内所有的目标对象进行全面准确地检测。将检测模型分为转换子模型和分类子模型进行训练,在检测过程中基于长宽缩放比进行筛选处理,可以有效提高后续分类的效率和准确率。基于先验知识对检测模型直接输出的结果进行修正,可以有效排除误检的情况,能够进一步保证对目标对象的分类可靠性。
上文结合图2至图4,详细描述了本发明实施例提供的练习册页面检测的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的练习册页面检测的装置。
图5示出了本发明实施例所提供的一种练习册页面检测的装置的结构示意图。如图5所示,该练习册页面检测的装置包括:
预处理模块51,用于提取预设的练习册历史页面中的历史对象,并确定所述历史对象的尺寸信息;
先验模块52,用于将所述历史对象的尺寸信息作为先验知识,生成符合所述先验知识的候选框;
训练模块53,用于根据所述候选框对预设的检测模型进行训练,确定训练后的检测模型;
检测模块54,用于根据所述训练后的检测模型对待检测的练习册目标页面进行检测,识别所述练习册目标页面中的目标对象。
在上述实施例的基础上,所述检测模型包括转换子模型和分类子模型;所述转换子模型用于将所述候选框转换为预测框,所述分类子模型用于根据所述预测框确定所述预测框对应的分类标签;
所述训练模块53根据所述候选框对预设的检测模型进行训练包括:
确定练习册样本页面,所述练习册样本页面中的样本对象预设有相应的真实样本框以及所述真实样本框对应的第一分类标签;
将所述练习册样本页面输入至所述检测模型,将经所述转换子模型所确定的、与所述候选框对应的样本预测框与所述真实样本框之间的差异,以及经所述分类子模型所确定的、与所述样本预测框对应的第二分类标签与所述第一分类标签之间的差异作为损失函数,对所述检测模型进行训练。
在上述实施例的基础上,所述分类子模型用于对输入的所述预测框进行非极大值抑制处理,确定最终的预测框以及与所述最终的预测框相对应的分类标签。
在上述实施例的基础上,所述转换子模型将所述候选框转换为预测框包括:
将所述候选框经位置平移和长宽缩放后确定相应的预测框。
在上述实施例的基础上,所述检测模块54根据所述训练后的检测模型对待检测的练习册目标页面进行检测,包括:
将练习册目标页面输入至所述训练后的检测模型,根据所述转换子模型确定多个所述候选框经长宽缩放转换为相应预测框时的长宽缩放比;
根据所述预测框的长宽缩放比,选取出长宽缩放比小于预设值的部分预测框作为有效预测框,将所述有效预测框输入至所述分类子模型,确定所述练习册目标页面中目标对象的分类标签。
在上述实施例的基础上,所述分类标签包括算式类、竖式类和文本类;
该装置还包括修正模块;
在所述检测模块54识别所述练习册目标页面中的目标对象之后,所述修正模块用于:
在第一目标对象位于第二目标对象之内的情况下,若所述第二目标对象的分类标签为算式类,则删除所述第一目标对象;若所述第二目标对象的分类标签为竖式类,且所述第一目标对象的分类标签为竖式类或文本类,则将所述第一目标对象的分类标签修改为算式类;所述第一目标对象和所述第二目标对象为所述练习册目标页面中不同的目标对象。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述练习册页面检测的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图6所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述练习册页面检测的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述练习册页面检测的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种练习册页面检测的方法,其特征在于,包括:
提取预设的练习册历史页面中的历史对象,并确定所述历史对象的尺寸信息;
将所述历史对象的尺寸信息作为先验知识,生成符合所述先验知识的候选框;
根据所述候选框对预设的检测模型进行训练,确定训练后的检测模型;
根据所述训练后的检测模型对待检测的练习册目标页面进行检测,识别所述练习册目标页面中的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述检测模型包括转换子模型和分类子模型;所述转换子模型用于将所述候选框转换为预测框,所述分类子模型用于根据所述预测框确定所述预测框对应的分类标签;
所述根据所述候选框对预设的检测模型进行训练包括:
确定练习册样本页面,所述练习册样本页面中的样本对象预设有相应的真实样本框以及所述真实样本框对应的第一分类标签;
将所述练习册样本页面输入至所述检测模型,将经所述转换子模型所确定的、与所述候选框对应的样本预测框与所述真实样本框之间的差异,以及经所述分类子模型所确定的、与所述样本预测框对应的第二分类标签与所述第一分类标签之间的差异作为损失函数,对所述检测模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述分类子模型用于对输入的所述预测框进行非极大值抑制处理,确定最终的预测框以及与所述最终的预测框相对应的分类标签。
4.根据权利要求2所述的方法,其特征在于,所述将所述候选框转换为预测框包括:
将所述候选框经位置平移和长宽缩放后确定相应的预测框。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练后的检测模型对待检测的练习册目标页面进行检测,包括:
将练习册目标页面输入至所述训练后的检测模型,根据所述转换子模型确定多个所述候选框经长宽缩放转换为相应预测框时的长宽缩放比;
根据所述预测框的长宽缩放比,选取出长宽缩放比小于预设值的部分预测框作为有效预测框,将所述有效预测框输入至所述分类子模型,确定所述练习册目标页面中目标对象的分类标签。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述分类标签包括算式类、竖式类和文本类;
在所述识别所述练习册目标页面中的目标对象之后,还包括:
在第一目标对象位于第二目标对象之内的情况下,若所述第二目标对象的分类标签为算式类,则删除所述第一目标对象;若所述第二目标对象的分类标签为竖式类,且所述第一目标对象的分类标签为竖式类或文本类,则将所述第一目标对象的分类标签修改为算式类;所述第一目标对象和所述第二目标对象为所述练习册目标页面中不同的目标对象。
7.一种练习册页面检测的装置,其特征在于,包括:
预处理模块,用于提取预设的练习册历史页面中的历史对象,并确定所述历史对象的尺寸信息;
先验模块,用于将所述历史对象的尺寸信息作为先验知识,生成符合所述先验知识的候选框;
训练模块,用于根据所述候选框对预设的检测模型进行训练,确定训练后的检测模型;
检测模块,用于根据所述训练后的检测模型对待检测的练习册目标页面进行检测,识别所述练习册目标页面中的目标对象。
8.根据权利要求7所述的装置,其特征在于,所述检测模型包括转换子模型和分类子模型;所述转换子模型用于将所述候选框转换为预测框,所述分类子模型用于根据所述预测框确定所述预测框对应的分类标签;
所述训练模块根据所述候选框对预设的检测模型进行训练包括:
确定练习册样本页面,所述练习册样本页面中的样本对象预设有相应的真实样本框以及所述真实样本框对应的第一分类标签;
将所述练习册样本页面输入至所述检测模型,将经所述转换子模型所确定的、与所述候选框对应的样本预测框与所述真实样本框之间的差异,以及经所述分类子模型所确定的、与所述样本预测框对应的第二分类标签与所述第一分类标签之间的差异作为损失函数,对所述检测模型进行训练。
9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的练习册页面检测的方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的练习册页面检测的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377121.8A CN113095210A (zh) | 2021-04-08 | 2021-04-08 | 一种练习册页面检测的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377121.8A CN113095210A (zh) | 2021-04-08 | 2021-04-08 | 一种练习册页面检测的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095210A true CN113095210A (zh) | 2021-07-09 |
Family
ID=76675532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110377121.8A Withdrawn CN113095210A (zh) | 2021-04-08 | 2021-04-08 | 一种练习册页面检测的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095210A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN111160065A (zh) * | 2018-11-07 | 2020-05-15 | 中电科海洋信息技术研究院有限公司 | 遥感图像舰船检测方法、装置、设备及其存储介质 |
CN111652145A (zh) * | 2020-06-03 | 2020-09-11 | 广东小天才科技有限公司 | 一种公式检测的方法、装置、电子设备和存储介质 |
CN111680635A (zh) * | 2020-06-10 | 2020-09-18 | 广东小天才科技有限公司 | 一种文本识别的方法、装置、电子设备和存储介质 |
CN111767867A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 文本检测方法、模型训练方法及对应装置 |
-
2021
- 2021-04-08 CN CN202110377121.8A patent/CN113095210A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN111160065A (zh) * | 2018-11-07 | 2020-05-15 | 中电科海洋信息技术研究院有限公司 | 遥感图像舰船检测方法、装置、设备及其存储介质 |
CN111652145A (zh) * | 2020-06-03 | 2020-09-11 | 广东小天才科技有限公司 | 一种公式检测的方法、装置、电子设备和存储介质 |
CN111680635A (zh) * | 2020-06-10 | 2020-09-18 | 广东小天才科技有限公司 | 一种文本识别的方法、装置、电子设备和存储介质 |
CN111767867A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 文本检测方法、模型训练方法及对应装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190172193A1 (en) | Method and apparatus for evaluating image definition, computer device and storage medium | |
CN110111334B (zh) | 一种裂缝分割方法、装置、电子设备及存储介质 | |
CN109697724B (zh) | 视频图像分割方法及装置、存储介质、电子设备 | |
CN111626383B (zh) | 字体识别方法及装置、电子设备、存储介质 | |
CN110570348B (zh) | 一种脸部图像替换方法及设备 | |
CN114511041B (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN113642466B (zh) | 活体检测和模型训练方法、设备及介质 | |
CN113570695B (zh) | 一种图像生成方法、装置及电子设备 | |
CN111737978A (zh) | 一种购物评价情感分析的方法、装置及电子设备 | |
CN111651674A (zh) | 双向搜索方法、装置及电子设备 | |
CN113901976A (zh) | 一种恶意流量的识别方法、装置及电子设备 | |
CN111507250B (zh) | 图像识别方法、设备及存储介质 | |
CN114078471A (zh) | 网络模型处理方法、装置、设备及计算机可读存储介质 | |
CN113095210A (zh) | 一种练习册页面检测的方法、装置及电子设备 | |
CN111523322A (zh) | 需求文档质量评价模型训练方法及需求文档质量评价方法 | |
CN114003724B (zh) | 一种样本筛选方法、装置及电子设备 | |
CN114048349A (zh) | 一种推荐视频封面的方法、装置及电子设备 | |
CN113240071B (zh) | 图神经网络处理方法、装置、计算机设备及存储介质 | |
CN111899738A (zh) | 对话生成方法、装置及存储介质 | |
CN113569942B (zh) | 短视频事件分类方法、系统、电子设备及存储介质 | |
CN112861586B (zh) | 活体检测、图像分类和模型训练方法、装置、设备及介质 | |
CN113537162B (zh) | 一种视频处理方法、装置及电子设备 | |
CN116226382B (zh) | 一种给定关键词的文本分类方法、装置、电子设备及介质 | |
CN112434668A (zh) | 一种评价整洁度的方法、装置及电子设备 | |
CN112949730B (zh) | 少样本的目标检测方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210709 |
|
WW01 | Invention patent application withdrawn after publication |