CN113283445A - 一种图像处理方法、装置和计算机设备 - Google Patents
一种图像处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113283445A CN113283445A CN202110485572.3A CN202110485572A CN113283445A CN 113283445 A CN113283445 A CN 113283445A CN 202110485572 A CN202110485572 A CN 202110485572A CN 113283445 A CN113283445 A CN 113283445A
- Authority
- CN
- China
- Prior art keywords
- image
- theme
- characteristic
- abacus
- clock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012937 correction Methods 0.000 claims abstract description 18
- 239000011324 bead Substances 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 46
- 230000004044 response Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明属于教育领域,提供一种图像处理方法、装置和计算机设备,该方法包括:获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片;对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。本发明提高了题目图像的图像识别及分类的准确率,实现了更智能化的自动批改,还提高了鲁棒性。
Description
技术领域
本发明属于计算机视觉相关技术领域,特别适用于教育领域,更具体地涉及一种图像处理方法、装置和计算机设备。
背景技术
通常,在小学、初中的数学题目当中,存在大量特性题目,例如含有钟表表盘图像的题目。对于这种包含钟表图像的题目,需要对钟表指针实际代表时间进行提取分析,否则无法实现自动批改此类题目。
现有技术大多采用传统的图像处理方法,主要是对图像中时针、分针的角度进行分析来得到结果,但是该类方法在图像识别及分类上准确率不高,并且鲁棒性(Robust)不好。因此,如何更有效地提高数学题目图像的图像识别及分类的准确率、鲁棒性是非常值得去研究的问题。
因此,有必要提供一种图像处理方法,以解决上述问题。
发明内容
(一)要解决的技术问题
本发明旨在解决试题题目图像的图像识别及分类的准确率低、鲁棒性不好,以及由此导致的无法实现特性题目例如钟表类题目的自动批改等的问题。
(二)技术方案
为解决上述技术问题,本发明的一方面提出一种图像处理方法,所述方法包括如下步骤:获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片;对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
根据本发明的优选实施方式,所述特性题目图形包括钟表图形,和/或,算盘图形。
根据本发明的优选实施方式,所述题目图像中包含有作答信息;所述处理方法还包括:识别所述作答信息,根据所述特性题目图形中包含的信息生成针对该作答信息的批改信息。
根据本发明的优选实施方式,采用第一图像识别模型识别该题目图像中是否包含所述特性题目图形并获取所述特性题目图形在该题目图像中的位置信息。
根据本发明的优选实施方式,所述第一图像识别模型是基于深度神经网络的机器学习模型经训练得的,该模型使用第一训练数据集训练,所述第一训练数据集由包含特性题目图形的图片和不包含特性题目图形的图片组成,其中包含特性题目图形的图片对特性题目图形的位置、特性题目类型进行了标注,该特性题目类型包括钟表题目标签和算盘题目标签。
根据本发明的优选实施方式,所述包含特性题目图形的图片中的特性题目图形的位置以及获取所述特性题目图形在该题目图像中的位置信息,均是以四个参数x、y、w、h表示,x为特性题目图形的中心在该题目图像中的横向坐标、y为特性题目图形的中心在该题目图像中的纵向坐标,w为特性题目图形的宽度、h为特性题目图形的高度。
根据本发明的优选实施方式,采用第二图像识别模型对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息;
可选地,当识别到该题目图像中包含所述特性题目图形时,同时识别所述特性题目图片的类型;基于所述特性题目图片的类型,选择对应的第二图像识别模型进行识别,所述第二图像识别模型包括与所述特性题目图片的类型一一对应的多个识别模型;
可选地,所述第二图像识别模型包括钟表图像识别模型和算盘图像识别模型;
可选地,采用基于卷积神经网络和注意力机制建立所述钟表图像识别模型和所述算盘图像识别模型;
可选地,当所述特性题目图形是钟表图形时,使用所述钟表图像识别模型对该钟表图片中的表盘和指针进行识别,以得到时针与分针的形状信息或者相对位置信息,并进一步使用预定映射函数计算所述钟表图片的示数;当所述特性题目图形是算盘图形时,使用所述算盘图像识别模型对该算盘图形中的珠子个数和珠子位置以及珠子和位数的相对位置关系进行识别,以得到珠子个数、及珠子和位数的相对位置信息,并进一步解析计算所述算盘图形的示数。
根据本发明的优选实施方式,对包含钟表图形和算盘图形的原始图像进行特征提取,并将所提取的特征信息用作所述钟表图像识别模型和所述算盘图像识别模型的训练数据;可选地,该步骤包括:设定卷积核,使用特定数量的历史原始图像进行卷积计算,以完成一次特征提取,得到底层特征信息;通过注意力机制,对经过卷积计算得到的钟表特征图或算盘特征图进行二次特征提取,得高层特征信息,该高层特征信息用于表征钟表或算盘相关的抽象特征信息;可选地,所述钟表图像识别模型的训练数据集包括包含各种钟表图形的图片、该钟表图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括时针位置、分针位置、钟表形状、时针与分针的形状和相对位置中的至少两个;可选地,所述算盘图像识别模型的训练数据集包括包含各种算盘图形的图片、该算盘图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括珠子位置、珠子个数、珠子所对应的位数、珠子和位数的相对位置中的至少两个。
根据本发明的优选实施方式,在识别题目图像中是否包含所述特性题目图形之前,所述图像处理方法还包括:使用不同图像滤波器对所述题目图像进行滤波操作,和/或使用自适应二值化算法对所述题目图像进行二值化。
本发明第二方面提出了一种图像处理装置,所述装置包括:位置获取模块,用于获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;切割处理模块,用于根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出所述特性题目图形以获取特性题目图片;识别处理模块,用于对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行上述任一项所述的一种图像处理方法。
本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现上述任一项所述的一种图像处理方法。
(三)有益效果
与现有技术相比,本发明识别到题目图像中包含特性题目图形时,获取特性题目图形在该题目图像中的位置信息;根据该位置坐标能够在题目图像中切割出特性题目图片(即包含特性题目图形的部分,例如图钟表图形和/或算盘图形),在针对切割出特性题目图片进行识别获取该特性题目图形中包含的信息。采用先切割出特性题目图片再进行识别的方式,有效提高了试题题目图像的图像识别及分类的准确率。
例如,先切割出特性题目图片中钟表图形和/或算盘图形,再通过使用钟表图像识别模型和算盘图像识别模型,分别对钟表图片和算盘图片进行识别,能够更有效地且更精准地进行识别处理,得到更精确的钟表表盘信息、指针信息、算盘中珠子位置、珠子所对应的位数、各位数上的珠子个数等信息,由此进一步提高了数学题目图像的图像识别及分类的准确率。
进一步地,通过使用钟表图像识别模型和算盘图像识别模型,将待处理的图像输入所述钟表图像识别模型和算盘图像识别模型,能够直接输出与钟表图片或算盘图片相对应的示数,同时识别与钟表图片或算盘图片相对应的作答信息,并基于识别出的示数对该作答信息进行自动批改。由此,提高了与钟表和/或算盘相关的各题型的识别准确率,实现了更智能化的自动批改,提高了鲁棒性,还进一步优化了图像处理方法。
附图说明
图1是本发明的实施例1的图像处理方法的一示例的流程图;
图2是本发明的实施例1的图像处理方法的另一示例的流程图;
图3是本发明的实施例1的包含钟表图形的题目图像的一示例的示意图;
图4是对图3的题目图像标识并切割出所包含的钟表图形的一示例的示意图;
图5是本发明的实施例1的包含算盘图形的题目图像的一示例的示意图;
图6是对图5的题目图像标识并切割出所包含的算盘图形的一示例的示意图;
图7是本发明的实施例1的图像处理方法的又一示例的流程图;
图8是本发明的实施例2的图像处理方法的一示例的流程图;
图9示出了包含作答信息的题目图像的一示例的示意图;
图10是本发明的实施例3的图像处理装置的一示例的示意图;
图11是示例性的一种图像处理装置的工作原理示意图;
图12是本发明的一个实施例的计算机设备的结构示意图;
图13是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明提出一种图像处理方法,该方法能够更精确定位特性题目中的图片例如钟表图形,据此在题目图像中切割出题目中包含的图片例如钟表图片,并通过使用识别模型进行识别,能够更有效地进行识别处理。例如可训练钟表图像识别模型和算盘图像识别模型,分别对该钟表图片或算盘图片进行识别,得到与钟表图片或算盘图片相对应的示数,并获取相应作答信息以进一步进行自动批改,提高了与钟表和算盘相关的各题型的识别准确率,实现了更智能化的自动批改,还提高了鲁棒性。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1是本发明的实施例1的图像处理方法的一示例的流程图。
如图1所示,本发明提供了一种图像处理方法,所述方法包括如下步骤:
步骤S101,获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息。
步骤S102,根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片。
步骤S103,对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
需要说明的是,在本发明中,所述特性题目图形可包括钟表图形,和/或,算盘图形。特性题目是指一些包含图形以及需要从图形获取信息的特性题目,特性题目图形是指这些特性题目包含的图形。特性题目例如可以是与钟表图形和/或算盘图形相关的题目,包括读取钟表或者算盘的读数题,或者与钟表或者算盘的读数相关的试题(包括例如“在图中的钟表图形的表盘示数再经过特定时间之后的时间是多少?”等的题型),以及根据钟表图形和/或算盘图形填写示数的题型,等等。
此外,本领域技术人员可以理解的是,本文虽然以钟表类和/或算盘类图形为例,但本发明的应用并不限于此。本发明还可应用于其他类似的包含图形且需要从图形获取信息的特性题目。例如,所述特性题目还可以包括地图相关的题目。例如,世界地图中国家或省的名称,或相关的试题。区别仅在于识别时模型的不同,甚至仅仅在于模型使用的训练数据不同。
实施例1
在本示例中,在步骤S101中,获取题目图像例如可以是教育服务平台的用户端利用图像传感器获取题目图像,也包括是从其他存储装置获取题目图像。其中,采集设备包括数码相机、各类CCD(Charge Coupled Device,电荷耦合器件)、CDOS(Complementary MetalOxide Semiconductor,互补金属氧化物半导体图像传感器)等等。
步骤S101中,本实施例采用第一图像识别模型识别所获取的题目图像中是否包含特性题目图形,并获取所述特性题目图形在该题目图像中的位置信息,该第一图像识别模型可以是基于深度神经网络的机器学习模型。
在本示例中,特性题目图形例如可以包括钟表图形或算盘图形,以下将以此具体示例说明本发明方法。
示例性地,可以使用SSD算法,建立上述的机器学习模型(即第一图像识别模型)。但是不限于此,在其他示例中,还可以使用DSSD算法(Deconvolution Single ShotMultiBox Detector,SSD改进算法)、FSSD算法(Feature Fusion Single Shot MultiboxDetector,SSD改进算法)、RefineDet算法(Refine Detector,SSD改进算法)、RfbNet(Receptive Field Block Net,感受野模块网络)、M2Det(Multi-level&Multi-scaleDetector,多层次何多尺度检测)算法中的任意算法或者其中至少两种算法组合使用等等。其中,SSD(Single Shot Detection,单阶段目标检测模型)是一个流行且强大的目标监测网络,网络结构包含了基础网络(Base Network)、辅助卷积层(Auxiliary Convolutions)和预测卷积层(Predicton Convolutions),该基础网络层用于提取底层特征信息,该辅助卷积层用于提取高层特征信息,预测卷基层用于输出特征图的位置信息和分类信息(即特性题目类型)。
可选地,还可通过设定筛选参数,自动筛选出包含钟表图形或算盘图形的题目图像。
对于特性题目图形为钟表图形的示例,该筛选参数包括表示钟表的圆形、圆形图形内有时针和分针以及显示数字等等。
而对于特性题目图形为算盘图形的示例,该筛选参数包括表示算盘的矩形,仅有一列、两列或更多列珠子,珠子位数等等。
进一步地,根据上述筛选参数筛选对题目图像进行筛选,可以同时筛选出包含钟表图形或算盘图形的题目图像。
在本示例中,第一图像识别模型使用第一训练数据集训练,该第一训练数据集可以由包含特性题目图形的图片和不包含特性题目图形的图片组成,其中,在包含特性题目图形的图片中对特性题目图形的位置、特性题目类型进行了标注,该特性题目类型包括钟表题目标签和算盘题目标签。换言之,第一图像识别模型可以同时识别题目图像中是否包含钟表题目和算盘题目并输出钟表图形或算盘图形的位置信息。
可选地,所述第一训练数据集可以包括包含钟表题目和/或算盘题目的试卷或其他与钟表和算盘相关的文本信息,包含钟表图形和/或算盘图形的监测框信息,钟表和/或算盘在图片中的位置信息等等。其中,监测框指包含特性题目图形的矩形区域,该矩形区域也是后续步骤S102中待切割出的包含所述特性题目图形的特性题目图片的区域,具体如图4所示的包含钟表图像的矩形区域,该矩形四边形区域由ABCD表示,其中,还标注了该四边形区域的宽度w1,高度h1,以及中心点的坐标(x1,y1)。
进一步地,所述包含特性题目图形的图片中的特性题目图形的位置以及获取所述特性题目图形在该题目图像中的位置信息,均是以四个参数x、y、w、h表示,x为特性题目图形的中心在该题目图像中的横向坐标、y为特性题目图形的中心在该题目图像中的纵向坐标,w为特性题目图形的宽度、h为特性题目图形的高度。
需要说明的是,在模型训练阶段,该机器学习模型通过利用图片上钟表或算盘的位置信息以及通过不同卷积神经网络之后的特征层信息对所述模型进行训练和优化,然后学习到图片中是否包含有钟表图形和/或算盘图形以及包含的钟表图形和/或算盘图形的具体位置信息。
本实施例步骤S101中,将所获取的题目图像输入训练好的机器学习模型,当图片包含钟表图形和/或算盘图形时,输出钟表图形和/或算盘图形在该题目图像中的位置信息,即得到钟表图形和/或算盘图形在该题目图像中的位置信息。由此,通过第一图像识别模型,能够精确地识别出题目图像中是否包含钟表图形和/或算盘图形,并能够准确获得钟表图形和/或算盘图形在该题目图像中的具体位置信息。
机器学习模型能同时识别是否包含钟表图形和算盘图形,输出还包括题目类别,即钟表题目标签或算盘题目标签。
图2是本发明图像处理方法的另一示例的流程图。
如图2所示,本发明的图像处理方法,在识别题目图像中是否包含特性题目图形之前,还包括对所获取的题目图像进行预处理操作的步骤S202。
具体地,在获取题目图像之后,识别该题目图像之前,还包括:对所获取的题目图像进行预处理操作。
需要说明的是,由于图2中的步骤S203、步骤S204和步骤S205分别与图1中的步骤S101、步骤S102和步骤S103大致类似,因此,省略了对这些步骤的说明。
步骤S202对所获取的题目图像进行的预处理操作,例如为消除图像噪声干扰的处理。
具体地,所述预处理操作可以包括使用不同图像噪声滤波器或模块对所述题目图像进行滤波操作,和/或使用自适应二值化算法对所述原始图像进行二值化。
更具体地,例如可以采用高斯滤波、中值滤波、均值滤波等,使用一个指定大小且权值固定的卷积核,从左至右并从上至下在图像上进行滑动,在每次滑动时,分别计算卷积核中每一个像素点和图像相对应的像素点乘积,最后对卷积核范围内所有的点乘进行相加计算均值,最后以这个均值作为最终图像对应中心像素点的值。
具体地,自适应二值化算法可以包括大津法二值化(Ostus)算法、Niblack、Sauvola等。
需要说明的是,上述仅作为示例示例进行说明,不能理解成对本发明的限制。
接下来,在步骤S102或S203中,根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片。
当确定所述题目图像中包含钟表图形和/或算盘图形之后,根据步骤S101中的第一图像识别模型所输出的钟表图形和/或算盘图形在所述题目图像中的具体位置坐标(x,y,w,h),其中,x,y,w,h分别表征钟表图形和/或算盘图形位置中心点的横向坐标(x)、纵向坐标(y)以及宽(w)和高(h)。
例如,对于判断题目图像1中是否包含钟表图形的示例,可以将该题目图形输入第一图像识别模型,在题目图像1中包含钟表图形的情况下,输出钟表图形在该题目图像1中的位置坐标(x1,y1,w1,h1)。
进一步地,根据所述位置坐标(x1,y1,w1,h1),从所述题目图像中切割出包含钟表图形的特定区域,以得到钟表图片。通常,使用位置坐标(x1,y1,w1,h1)表示该钟表图形的监测框ABCD,并且监测框ABCD比实际的钟表图形区域的略大,由此,通过使用上述位置坐标信息进行图片切割,能够从所述题目图像中切割出完整的钟表图形(即切割出监测框区域ABCD),并且能够更精确地切割出钟表图片。
图3是示出了包含钟表图形的题目图像的一示例的示意图,而图4是示出了对图3的题目图像标识并切割出所包含的钟表图形的一示例的示意图。
如图3所示,该张题目图像中包含钟表图形,并且在该张题目图像中第二题中包含四个钟表图形。
为了更精确地识别这张图像中的钟表图形,将这张题目图像输入所述机器学习模型,则会输出与该四个钟表图形在这张题目图像中的位置坐标,即四个四边形监测框的位置坐标。使用四个四边形监测框在所述题目图像中标识出了四个钟表图形,四个钟表图片,并分别对这四个钟表图片进行下一步骤的识别。
图5是示出了包含算盘图形的题目图像的一示例的示意图,而图6是示出了对图5的题目图像标识并切割出所包含的算盘图形的一示例的示意图。
如图5所示,该张题目图像中包含两个算盘图形。将该题目图像输入第一图像识别模型,输出算盘图形在该题目图像1中两个算盘图形的位置坐标(x2,y2,w2,h2)、(x3,y3,w3,h3)。
进一步地,根据所得到的两个算盘图形的位置坐标(x2,y2,w2,h2)、(x3,y3,w3,h3),从该题目图像中依次切割出与这两个算盘图形行对应的算盘图片,如图6所示。图6还示出了已切割出的一个算盘图片。进一步地,对所切割出的算盘图片进行下一步骤的识别。
由此,根据所获得的钟表图形和/或算盘图形的位置坐标,能够更准确地在题目图像定位出待切割的钟表图形和/或算盘图形,并能够据此更准确地切割出钟表图片或算盘图片。需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
接下来,在步骤S103或S204中,对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
具体地,可以基于卷积神经网络和注意力机制建立第二图像识别模型,并使用第二训练数据集训练该第二图像识别模型。
在本示例中,步骤S103或S204可以采用第二图像识别模型对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
可选地,所述第二图像识别模型包括钟表图像识别模型和算盘图像识别模型,该钟表图像识别模型用于识别步骤S102所切割出的钟表图片,更具体地是对该钟表图片中的表盘和指针等信息进行识别。该算盘图像识别模型用于识别步骤S102所切割出的算盘图片,更具体地是对该算盘图片中珠子个数和珠子位置等信息进行识别。
在一示例中,当所述特性题目图形是钟表图形时,使用所述钟表图像识别模型对该钟表图片中的表盘和指针进行识别,以得到时针与分针的形状信息或者相对位置信息,并进一步使用预定映射函数计算所述钟表图片的示数。
在另一示例中,当所述特性题目图形是算盘图形时,使用所述算盘图像识别模型对该算盘图形中的珠子个数和珠子位置以及珠子和位数的相对位置关系进行识别,以得到珠子个数、及珠子和位数的相对位置信息,并进一步解析计算所述算盘图形的示数。
在一示例中,所述特性题目图形包括钟表图形和算盘图形,使用所述钟表图像识别模型对该钟表图片中的表盘和指针进行识别,以得到时针与分针的形状信息或者相对位置信息,并进一步使用预定映射函数计算所述钟表图片的示数;使用所述算盘图像识别模型对该算盘图形中的珠子个数和珠子位置以及珠子和位数的相对位置关系进行识别,以得到珠子个数、及珠子和位数的相对位置信息,并进一步解析计算所述算盘图形的示数。
图7是本发明的实施例1的图像处理方法的又一示例的流程图。
如图7所示,本发明的图像处理方法还包括使用训练数据集对所述第一图像识别模型和第二图像识别模型的建模和进行训练的步骤S301。
第一图像识别模型可以识别是否包括特性题目图形及其位置信息。进一步地,第一图像识别模型还可以识别出特性题目图形类型;第二图像识别模型可包括多个针对不同特性题目图形类型的识别模型,例如表图像识别模型和算盘图像识别模型。对应地,在步骤S301中,还可以包括使用训练数据集对所述钟表图像识别模型和算盘图像识别模型进行训练的步骤。
步骤S302中,使用训练好的第一图像识别模型识别是否包括特性题目图形及其位置信息;在有些实施例中,第一图像识别模型还可以特性题目图形的类型,例如是钟表图像还是算盘图像。
步骤S304中,使用训练好的第二图像识别模型对包含特性题目图形的特性题目图片进行识别,获取特性题目图形中包含的信息。在一些实施例中,第二图像识别模型包括多个针对不同特性题目图形类型的识别模型,例如钟表图像识别模型和算盘图像识别模型。这些针对某一类特性题目的识别模型,使用前有针对性对其进行优化训练,使其对某一类型的特性题目图形识别率更高、速度更快。
此外,由于图7中的步骤S302、步骤S303和步骤S304分别与图1中的步骤S101、步骤S102和步骤S103相同大致类似,因此,省略了对这些步骤的详细说明。
下面仅以钟表图像识别模型和算盘图像识别模型为例,对其建模和训练过程进行说明。
具体地,还包括建立训练数据集,所述建立训练数据集包括分别对历史的包含钟表图形和算盘图形的原始图像进行特征提取,并使用所提取的特征建立训练数据集,换言之,训练数据集中的训练数据包括所提取的特征。
需要说明的是,历史的包含钟表图形和算盘图形的原始图像,并且已标注了表图形和算盘图形在原始图像中的位置坐标(x,y,w,h)。
本步骤可以分别对历史的包含钟表图形和算盘图形的原始图像进行特征提取,并将所提取的特征信息用作训练数据。
具体地,利用卷积神经网络对输入原始图像进行卷积计算,获取到图片中浅层到深层的图像特征信息,然后,通过注意力机制,对经过卷积计算得到的钟表特征图或算盘特征图通过进行二次学习,以使该钟表图像识别模型学习到不同业务线上的数据的图像特征信息,换言之,使用所提取的图像特征信息作为训练数据,对所述钟表图像识别模型和算盘图像识别模型进行训练。
需要说明的是,本发明特别适用于在线教育服务产品,其中,该在线教育服务产品包括拍照搜题功能、在线直播课模块、作业辅导功能等等,根据所提供的不同教育服务,可对应不同的业务线,并且各业务线会产生大量相关数据。不同业务线例如在线直播课例题讲解涉及特性题目的图片和对应题目的答案,可作为训练数据输入第二图像识别模型如钟表图像识别模型和算盘图像识别模型,以对模型进行再次训练,使模型继续学习,优化识别效果。
可以先设定卷积核,利用卷积神经网络,并使用特定数量的历史原始图像进行卷积计算,得到钟表特征图或算盘特征图,以完成一次特征提取,得到底层特征信息。在本示例中,该底层特征信息包括钟表形状、时针与分针的形状和相对位置,但是不限于此,在其他示例中,还可以包括时针位置、分针位置、钟表形状、时针与分针的形状和相对位置等中的至少两个。
然后,对经过卷积计算得到的钟表特征图或算盘特征图进行二次特征提取,得高层特征信息,该高层特征信息用于表征钟表或算盘相关的抽象特征信息。
再然后,利用特征编码模块对该卷积神经网络提取的底层特征信息进一步学习,以使该钟表图像识别模型和算盘图像识别模型学习到高层特征信息,换言之,使用所提取的底层特征信息对钟表图像识别模型(或算盘图像识别模型)进行一次训练,再使用所提取的高层特征信息对钟表图像识别模型(或算盘图像识别模型)进行二次训练。
可选地,还可以同时使用所提取的底层特征信息、高层特征信息对钟表图像识别模型(或算盘图像识别模型)进行训练。
需要说明的是,针对钟表图像识别模型和算盘图像识别模型,分别使用相应的底层特征信息、高层特征信息。
可选地,上述钟表图像识别模型的训练数据集(即第二训练数据集)包括包含各种钟表图形的图片、该钟表图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括时针位置、分针位置、钟表形状、时针与分针的形状和相对位置中的至少两个。
在另一示例中,上述钟表图像识别模型的训练数据集(即第二训练数据集)包括包含钟表的图片、该钟表表征的具体时间信息、底层特征信息和高层特征信息。在该示例中,将待处理的题目图像输入所述钟表图像识别模型,则输出钟表表盘的示数。
需要说明的是,上述仅作为可选示例进行说明,不能理解成对本发明的限制。此外,在其他示例中,还包括模型优化处理,对模型使用过程中,对图像识别结果偏差超过特定值的识别结果(示数或位置坐标等),通过人工标注的方式进行校正,再使用校正后的图像或样本数据进行训练,以优化模型。
可选地,使用训练好的钟表图像识别模型对所述钟表图片中的表盘和指针进行识别,得到所述钟表图片中时针与分针的形状信息或者相对位置信息,然后根据形状信息或者相对位置信息进行计算并输出钟表读数信息。
例如,对图4中切割出的钟表图片中的表盘和指针进行识别,输出时针与分针的夹角为120度、分针的位置与竖直方向平行(或者与竖直方向的夹角为0度),时针与竖直方向的夹角为小于60度且大于30度。进一步地,根据所述时针与分针的形状信息或者相对位置信息,使用预定映射函数进行转换计算,以得到该钟表图片的示数。例如,图4的中切割出的钟表图片中表盘示数为一点三十分(或1:30)。
由此,通过使用钟表图像识别模型,对该钟表图片进行识别,能够更有效地进行识别处理,准确识别出时针与分针的形状信息或者相对位置信息,并直接输出钟表图片的示数,提高了钟表题型的识别准确率,并提高了鲁棒性。
可选地,上述算盘图像识别模型的训练数据集(即第二训练数据集)可以包括包含各种算盘图形的图片、该算盘图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括珠子位置、珠子个数、珠子所对应的位数、各位数上的珠子个数、珠子和位数的相对位置中的至少两个。
在另一示例中,所述算盘图像识别模型的训练数据集(即第二训练数据集)包括包含各种算盘图形的图片、该算盘图形表征的具体示数、底层特征信息和高层特征信息等。
具体地,将待处理的题目图像输入训练好的所述钟表图像识别模型,则输出算盘的示数。
可选地,还可以将待处理的题目图像输入训练好的所述钟表图像识别模型,则输出珠子和位数的相对位置和珠子个数信息,再根据所输出的珠子和位数的相对位置和珠子个数信息,计算得到算盘的示数。
例如,使用算盘图像识别模型对图6中切割出的算盘图片进行识别,输出珠子和位数的相对位置和珠子个数信息,根据所输出的珠子和位数的相对位置和珠子个数信息等信息,进一步解析计算,以得出结果,即写作:56490700,读作:五千六百四十九万零七百。
由此,通过使用算盘图像识别模型,对该算盘图片进行识别,能够更有效地进行识别处理,识别出珠子的位置、珠子所对应的位数、各位数上的珠子个数等信息,并直接输出算盘图片的示数,提高了算盘题型的识别准确率,并提高了鲁棒性。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
与现有技术相比,本发明通过第一图像识别模型获得钟表图形和/或算盘图形的位置坐标,并根据该位置坐标能够更准确地在题目图像标识出待切割的钟表图形和/或算盘图形,并能够更准确地切割出钟表图片或算盘图片,还能够更准确地同时切割出钟表图片或算盘图片,由此有效提高了数学题目图像的图像识别及分类的准确率。并且,通过使用钟表图像识别模型和算盘图像识别模型,分别对钟表图片和算盘图片进行识别,能够更有效地且更精准地进行识别处理,得到更精确的钟表表盘信息、指针信息、算盘中珠子位置、珠子所对应的位数、各位数上的珠子个数等信息,由此进一步提高了数学题目图像的图像识别及分类的准确率。
进一步地,通过使用钟表图像识别模型和算盘图像识别模型,将待处理的图像输入所述钟表图像识别模型和算盘图像识别模型,能够直接输出与钟表图片或算盘图片相对应的示数。由此,提高了与钟表和/或算盘相关的各题型的识别准确率,提高了鲁棒性,还进一步优化了图像处理方法。
实施例2
如图8所示,本发明的方法还包括:
步骤S401,识别题目图像中是否包含作答信息。
步骤S402,当所述题目图像中包含作答信息时,识别所述作答信息,根据所述特性题目图形中包含的信息生成针对该作答信息的批改信息。
根据所述特性题目图形中包含的信息生成针对该作答信息的批改信息,可以实现对例如钟表类题目和算盘类特性题目的自动批改。
识别题目图像中是否包含作答信息具体实现方式多样,本实施例对此不做限定。例如,作答信息一般为学生手写,可以根据字体、颜色深浅来区分。现有技术已存在多个实现方案,在此不再详述。可选地,可通过训练好的作答信息识别模型,识别题目图像中是否包含作答信息并输出识别出的作答信息例如作答文本。然后,如果是读数题(可以通过对题目文字识别得到),直接将根据本文上述方法获取的所述特性题目图形中包含的读数信息与上述作答信息进行比较,判断对错,生成批改信息。如果是其他基于读数的更深层次的问题,则需要将获取的所述特性题目图形中包含的信息结合题目文本例如通过搜索或逻辑计算获得答案信息,再与上述作答信息进行比较,判断对错,生成批改信息。
图9示出了包含作答信息的题目图像的一示例的示意图。
如图9所示,该题目图像为包含三个算盘图形及各自的作答信息。
具体地,识别所述作答信息,并将所计算的算盘示数(即正确答案)与所识别的作答信息进行比对,以根据该正确答案生成针对该作答信息的批改信息,即对该作答信息进行自动批改,该作答信息例如为试卷中手写算盘示数,例如图9中手写的3580、7350和5038。从图9中可知,正确答案分别是3690.00、9360.00和6039.00(根据本文上述方法通过对算盘图片进行图像识别得到),根据此答案,可以对各作答信息做出错误判定并进行错号标注。
在另一示例中,所述自动批改的标注还包括在标注中附带正确答案,或者在相应区域显示正确答案,即,将上述的正确答案3690.00、9360.00和6039.00分别显示在批注的错号的附近位置。
在又一示例中,在所计算的算盘示数(即正确答案)与所识别的作答信息相同时,进行正确标注。由此,通过对作答信息的识别、将该作答信息与所计算的正确答案进行比对及批改标注,实现了更智能化的自动批改。
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
与现有技术相比,本发明通过第一图像识别模型获得钟表图形和/或算盘图形的位置坐标,并根据该位置坐标能够更准确地在题目图像标识出待切割的钟表图形和/或算盘图形,并能够更准确地切割出钟表图片或算盘图片,还能够更准确地同时切割出钟表图片或算盘图片,由此有效提高了数学题目图像的图像识别及分类的准确率。并且,通过使用钟表图像识别模型和算盘图像识别模型,分别对钟表图片和算盘图片进行识别,能够更有效地且更精准地进行识别处理,得到更精确的钟表表盘信息、指针信息、算盘中珠子位置、珠子所对应的位数、各位数上的珠子个数等信息,由此进一步提高了数学题目图像的图像识别及分类的准确率。
进一步地,通过使用钟表图像识别模型和算盘图像识别模型,将待处理的图像输入所述钟表图像识别模型和算盘图像识别模型,能够直接输出与钟表图片或算盘图片相对应的示数,能够识别与钟表图片或算盘图片相对应的作答信息,并能够对该作答信息进行自动批改。由此,提高了与钟表和/或算盘相关的各题型的识别准确率,实现了更智能化的自动批改,提高了鲁棒性,还进一步优化了图像处理方法。
实施例3
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
参照图10和图11,将说明本发明的实施例3的图像处理装置500,所述图像处理装置500包括:位置获取模块501,用于获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;切割处理模块502,用于根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片;识别处理模块503,用于对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
可选地,所述特性题目图形包括钟表图形,和/或,算盘图形。
具体地,识别所述作答信息,在题目图像中包含有作答信息时,根据所述特性题目图形中包含的信息生成针对该作答信息的批改信息。
在本示例中,采用第一图像识别模型识别该题目图像中是否包含所述特性题目图形并获取所述特性题目图形在该题目图像中的位置信息。
具体地,所述第一图像识别模型是基于深度神经网络的机器学习模型经训练得的,该模型使用第一训练数据集训练,所述第一训练数据集由包含特性题目图形的图片和不包含特性题目图形的图片组成,其中在包含特性题目图形的图片中对特性题目图形的位置、特性题目类型进行了标注,该特性题目类型包括钟表题目标签和算盘题目标签。
进一步地,所述包含特性题目图形的图片中的特性题目图形的位置以及获取所述特性题目图形在该题目图像中的位置信息,均是以四个参数x、y、w、h表示,x为特性题目图形的中心在该题目图像中的横向坐标、y为特性题目图形的中心在该题目图像中的纵向坐标,w为特性题目图形的宽度、h为特性题目图形的高度。
可选地,当识别到该题目图像中包含所述特性题目图形时,同时识别所述特性题目图片的类型;基于所述特性题目图片的类型,选择对应的第二图像识别模型进行识别,所述第二图像识别模型包括与所述特性题目图片的类型一一对应的多个识别模型。
图11为一种图像处理装置500的工作原理图。该装置的第二图像识别模型包括钟表图像识别模型和算盘图像识别模型。
具体地,采用第二图像识别模型对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息,例如钟表图像和算盘图像的读数信息。
可选地,当所述特性题目图形是钟表图形时,可以使用所述钟表图像识别模型对该钟表图片中的表盘和指针进行识别,以得到时针与分针的形状信息或者相对位置信息,并进一步使用预定映射函数计算所述钟表图片的示数。
而当所述特性题目图形是算盘图形时,可以使用所述算盘图像识别模型对该算盘图形中的珠子个数和珠子位置以及珠子和位数的相对位置关系进行识别,以得到珠子个数、及珠子和位数的相对位置信息,并进一步解析计算所述算盘图形的示数。
下面对上述的钟表图像识别模型和算盘图像识别模型的建模和训练步骤进行说明。
可选地,对历史的包含钟表图形和算盘图形的原始图像进行特征提取,并将所提取的特征信息用作所述钟表图像识别模型和所述算盘图像识别模型的训练数据。
具体地,设定卷积核,使用特定数量的历史原始图像进行卷积计算,以完成一次特征提取,得到底层特征信息。
进一步地,通过注意力机制,对经过卷积计算得到的钟表特征图或算盘特征图进行二次特征提取,得高层特征信息,该高层特征信息用于表征钟表或算盘相关的抽象特征信息;
可选地,所述钟表图像识别模型的训练数据集包括包含各种钟表图形的图片、该钟表图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括时针位置、分针位置、钟表形状、时针与分针的形状和相对位置中的至少两个。
可选地,所述算盘图像识别模型的训练数据集包括包含各种算盘图形的图片、该算盘图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括珠子位置、珠子个数、珠子所对应的位数、珠子和位数的相对位置中的至少两个。
在另一示例中,在获取识别题目图像之后且在识别该题目图像中是否包含所述特性题目图形之前,还包括:使用不同图像滤波器对所述题目图像进行滤波操作,和/或使用自适应二值化算法对所述题目图像进行二值化。可以降低数据量,便于后续的识别计算。
所述装置500还可包括计算模块,该计算模块用于计算钟表图片中钟表示数和算盘图片中算盘示数(即正确答案)。例如,在得到时针与分针的形状信息或者相对位置信息后,计算模块使用预定映射函数计算所述钟表图片的示数。或者,在得到珠子个数、及珠子和位数的相对位置信息后,计算模块进一步解析计算所述算盘图形的示数。
在一示例中,使用钟表图像识别模型对待处理图像1(该图像为包含钟表题目的图像)进行识别,输入该待处理图像1,能够识别出时针与分针的形状信息或者相对位置信息,计算模块进一步计算后能够直接输出该钟表图片的示数。
在另一示例中,使用算盘图像识别模型识别待处理图像2(该图像为包含算盘题目的图像),输入该待处理图像,能够识别出珠子的位置、珠子所对应的位数、各位数上的珠子个数等信息,计算模块进一步计算后能够直接输出算盘图片中算盘示例(即正确答案)。
可选地,第一识别模型还包括作答信息识别模型,使用训练好的作答信息识别模型,识别题目图像中是否包含作答信息。
具体地,在识别出该题目图像中包含作答信息时,并识别所述作答信息。
进一步地,将所计算的算盘示数(即正确答案)与所识别的作答信息进行比对,以根据该正确答案生成针对该作答信息的批改信息,即对该作答信息进行自动批改,该作答信息例如为手写算盘示数。
在另一示例中,所述自动批改的标注还包括在标注中附带正确答案,或者在相应区域显示正确答案。
在又一示例中,在所计算的算盘示数(即正确答案)与所识别的作答信息相同时,进行正确标注。由此,通过对作答信息的识别、将该作答信息与所计算的正确答案进行比对及批改标注,实现了更智能化的自动批改。
需要说明的是,在实施例3中,省略了与实施例1、实施例2相同的部分的说明。
与现有技术相比,本发明通过第一图像识别模型获得钟表图形和/或算盘图形的位置坐标,并根据该位置坐标能够更准确地在题目图像标识出待切割的钟表图形和/或算盘图形,并能够更准确地切割出钟表图片或算盘图片,还能够更准确地同时切割出钟表图片或算盘图片,由此有效提高了数学题目图像的图像识别及分类的准确率。并且,通过使用钟表图像识别模型和算盘图像识别模型,分别对钟表图片和算盘图片进行识别,能够更有效地且更精准地进行识别处理,得到更精确的钟表表盘信息、指针信息、算盘中珠子位置、珠子所对应的位数、各位数上的珠子个数等信息,由此进一步提高了数学题目图像的图像识别及分类的准确率。
进一步地,通过使用钟表图像识别模型和算盘图像识别模型,将待处理的图像输入所述钟表图像识别模型和算盘图像识别模型,能够直接输出与钟表图片或算盘图片相对应的示数,能够识别与钟表图片或算盘图片相对应的作答信息,并能够对该作答信息进行自动批改。由此,提高了与钟表和/或算盘相关的各题型的识别准确率,实现了更智能化的自动批改,提高了鲁棒性,还进一步优化了图像处理方法。
实施例4
下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图12是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行图1的方法。
如图12所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选地,该实施例中,计算机设备还包括有I/O接口,其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图12显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。
图13是本发明的一个实施例的计算机程序产品的示意图。如图13所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括如下步骤:
获取题目图像,识别该题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;
根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出包含所述特性题目图形的特性题目图片;
对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
2.根据权利要求1所述的图像处理方法,其特征在于,
所述特性题目图形包括钟表图形,和/或,算盘图形。
3.根据权利要求1所述的图像处理方法,其特征在于,所述题目图像中包含有作答信息;所述处理方法还包括:
识别所述作答信息,根据所述特性题目图形中包含的信息生成针对该作答信息的批改信息。
4.根据权利要求1所述的图像处理方法,其特征在于:采用第一图像识别模型识别该题目图像中是否包含所述特性题目图形并获取所述特性题目图形在该题目图像中的位置信息。
5.根据权利要求4所述的图像处理方法,其特征在于,
所述第一图像识别模型是基于深度神经网络的机器学习模型经训练得的,该模型使用第一训练数据集训练,所述第一训练数据集由包含特性题目图形的图片和不包含特性题目图形的图片组成,其中包含特性题目图形的图片对特性题目图形的位置、特性题目类型进行了标注,该特性题目类型包括钟表题目标签和算盘题目标签。
6.根据权利要求5所述的图像处理方法,其特征在于,所述包含特性题目图形的图片中的特性题目图形的位置以及获取所述特性题目图形在该题目图像中的位置信息,均是以四个参数x、y、w、h表示,x为特性题目图形的中心在该题目图像中的横向坐标、y为特性题目图形的中心在该题目图像中的纵向坐标,w为特性题目图形的宽度、h为特性题目图形的高度。
7.根据权利要求1所述的图像处理方法,其特征在于,采用第二图像识别模型对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息;
可选地,当识别到该题目图像中包含所述特性题目图形时,同时识别所述特性题目图片的类型;基于所述特性题目图片的类型,选择对应的第二图像识别模型进行识别,所述第二图像识别模型包括与所述特性题目图片的类型一一对应的多个识别模型;
可选地,所述第二图像识别模型包括钟表图像识别模型和算盘图像识别模型;
可选地,采用基于卷积神经网络和注意力机制建立所述钟表图像识别模型和所述算盘图像识别模型;
可选地,当所述特性题目图形是钟表图形时,使用所述钟表图像识别模型对该钟表图片中的表盘和指针进行识别,以得到时针与分针的形状信息或者相对位置信息,并进一步使用预定映射函数计算所述钟表图片的示数;
当所述特性题目图形是算盘图形时,使用所述算盘图像识别模型对该算盘图形中的珠子个数和珠子位置以及珠子和位数的相对位置关系进行识别,以得到珠子个数、及珠子和位数的相对位置信息,并进一步计算所述算盘图形的示数。
8.根据权利要求7所述的图像处理方法,其特征在于,对包含钟表图形和算盘图形的原始图像进行特征提取,并将所提取的特征信息用作所述钟表图像识别模型和所述算盘图像识别模型的训练数据;
可选地,该步骤包括:
设定卷积核,使用特定数量的历史原始图像进行卷积计算,以完成一次特征提取,得到底层特征信息;
通过注意力机制,对经过卷积计算得到的钟表特征图或算盘特征图进行二次特征提取,得高层特征信息,该高层特征信息用于表征钟表或算盘相关的抽象特征信息;
可选地,所述钟表图像识别模型的训练数据集包括包含各种钟表图形的图片、该钟表图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括时针位置、分针位置、钟表形状、时针与分针的形状和相对位置中的至少两个;
可选地,所述算盘图像识别模型的训练数据集包括包含各种算盘图形的图片、该算盘图形表征的具体示数、底层特征信息和高层特征信息,其中,该底层特征信息包括珠子位置、珠子个数、珠子所对应的位数、珠子和位数的相对位置中的至少两个。
9.根据权利要求1所述的图像处理方法,其特征在于,在识别题目图像中是否包含所述特性题目图形之前,所述图像处理方法还包括:
使用不同图像滤波器对所述题目图像进行滤波操作,和/或使用自适应二值化算法对所述题目图像进行二值化。
10.一种图像处理装置,其特征在于,所述装置包括:
位置获取模块,用于识别题目图像中是否包含特性题目图形,并且,当识别到该题目图像中包含所述特性题目图形时,获取所述特性题目图形在该题目图像中的位置信息;
切割处理模块,用于根据所述特性题目图形在该题目图像中的位置信息,从所述题目图像中切割出所述特性题目图形以获取特性题目图片;
识别处理模块,用于对该特性题目图片进行识别,以获取所述特性题目图形中包含的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485572.3A CN113283445A (zh) | 2021-04-30 | 2021-04-30 | 一种图像处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485572.3A CN113283445A (zh) | 2021-04-30 | 2021-04-30 | 一种图像处理方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283445A true CN113283445A (zh) | 2021-08-20 |
Family
ID=77278027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485572.3A Pending CN113283445A (zh) | 2021-04-30 | 2021-04-30 | 一种图像处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283445A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722466A (zh) * | 2021-11-03 | 2021-11-30 | 北京世纪好未来教育科技有限公司 | 批改模型训练方法、批改方法、装置、电子设备和介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
-
2021
- 2021-04-30 CN CN202110485572.3A patent/CN113283445A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722466A (zh) * | 2021-11-03 | 2021-11-30 | 北京世纪好未来教育科技有限公司 | 批改模型训练方法、批改方法、装置、电子设备和介质 |
CN113722466B (zh) * | 2021-11-03 | 2022-02-15 | 北京世纪好未来教育科技有限公司 | 批改模型训练方法、批改方法、装置、电子设备和介质 |
CN113837157A (zh) * | 2021-11-26 | 2021-12-24 | 北京世纪好未来教育科技有限公司 | 题目类型识别方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949564B (zh) | 一种基于深度学习的指针式仪表自动读数方法 | |
US10769487B2 (en) | Method and device for extracting information from pie chart | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN110956138B (zh) | 一种基于家教设备的辅助学习方法及家教设备 | |
US11461638B2 (en) | Figure captioning system and related methods | |
CN111626297A (zh) | 文字书写质量评价方法、装置、电子设备和记录介质 | |
CN113283445A (zh) | 一种图像处理方法、装置和计算机设备 | |
CN111767883A (zh) | 一种题目批改方法及装置 | |
CN112396032B (zh) | 书写检测方法、装置、存储介质及电子设备 | |
CN110443242B (zh) | 读数框检测方法、目标识别模型训练方法及相关装置 | |
CN112818852A (zh) | 印章校验方法、装置、设备及存储介质 | |
CN109598185A (zh) | 图像识别翻译方法、装置、设备及可读存储介质 | |
CN114549390A (zh) | 电路板检测方法、电子装置及存储介质 | |
CN112308069A (zh) | 一种软件界面的点击测试方法、装置、设备及存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN115641308A (zh) | 一种书法字临摹评价系统 | |
CN117727017A (zh) | 一种鼠标行为特征验证码的验证方法 | |
CN109902751A (zh) | 一种融合卷积神经网络和半字模板匹配的表盘数字字符识别方法 | |
CN112991410A (zh) | 一种文本图像配准方法、电子设备及其存储介质 | |
CN116704508A (zh) | 信息处理方法及装置 | |
CN109886105B (zh) | 基于多任务学习的价格牌识别方法、系统及存储介质 | |
CN115393875B (zh) | 基于MobileNetV3的五线谱识别与简谱转换的方法及系统 | |
CN110728321A (zh) | 识别分式图像的训练方法与装置、识别方法及装置 | |
CN111046883B (zh) | 一种基于古钱币图像的智能评估方法及系统 | |
CN111783737B (zh) | 一种数学公式的识别方法和识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230627 Address after: 6001, 6th Floor, No.1 Kaifeng Road, Shangdi Information Industry Base, Haidian District, Beijing, 100085 Applicant after: Beijing Baige Feichi Technology Co.,Ltd. Address before: 100085 4002, 4th floor, No.1 Kaifa Road, Shangdi Information Industry base, Haidian District, Beijing Applicant before: ZUOYEBANG EDUCATION TECHNOLOGY (BEIJING) CO.,LTD. |
|
TA01 | Transfer of patent application right |