CN109583389A - 绘本识别方法及装置 - Google Patents
绘本识别方法及装置 Download PDFInfo
- Publication number
- CN109583389A CN109583389A CN201811466525.9A CN201811466525A CN109583389A CN 109583389 A CN109583389 A CN 109583389A CN 201811466525 A CN201811466525 A CN 201811466525A CN 109583389 A CN109583389 A CN 109583389A
- Authority
- CN
- China
- Prior art keywords
- target
- candidate frame
- matching
- draw
- draws
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明为了解决绘本识别过程中只能针对预设有二维码的绘本或者需要大量机器学习的问题,提供了一种绘本识别方法,包括的步骤:建立绘本特征数据库,提取绘本候选框,进行初步识别,进行精确识别获取最终的目标绘本,从而避免了需要识别二维码的过程,同时不需要大量的机器学习形成识别模型,识别过程简化,效率高。同时提供了相应的装置、设备和介质。
Description
技术领域
本发明属于图像处理技术领域,具体而言,涉及一种绘本识别方法、识别装置、计算机可读介质及电子设备。
背景技术
绘本(Picture Book),是以图画为主,可以连贯成为单一完整故事的书。目前绘本主要针对幼儿、儿童所设定,以适合幼儿、儿童阅读的内容为取向。绘本阅读可以帮助孩子了解世界,学习知识,更重要的是培养孩子对于阅读的爱好和兴趣。
目前主流绘本识别方法有两种:
一种是以点读笔形式的产品为代表的方法,通过笔尖的光电识别器来识别绘本中隐藏的二维点读码,然后由点读机的CPU根据点读码实现声音的播放。然而这种方法在需要识别新的绘本时,受限制比较多。要么需要购买有点读码的绘本,要么需要自己制作点读包,操作复杂。
另一种是通过图像识别来进行绘本识别的方法。但是,现有的图像识别的方法对于光照,角度十分敏感,所以需要大量的绘本数据用于训练。而且识别时距离要求近(一般小于0.5m),当距离远时识别的错误率会大大增加。
发明内容
本发明为了解决上述现有技术的缺点,针对绘本图像提出了一种操作简单,识别率高,识别可靠的绘本识别方法及装置,具体地,本发明实施例第一方面提供了一种绘本识别方法,包括如下步骤:
S110、获取绘本图像,从所述绘本图像中提取候选框;
S120、提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;
S130、对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
S140、对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;
S150、判断步骤S140中匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤S140中匹配后所获取的匹配点对最多的目标绘本作为识别结果;
S160、判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
S170、若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
进一步地,还包括如下步骤:
S180、根据所述最终识别结果获取对应关联的资源信息。
进一步地,所述资源信息为音频信息,所述绘本识别方法还包括:
S190、播放所述音频信息。
进一步地,所述步骤S160包括如下步骤:
S161、计算所述识别结果和与所述识别结果对应的目标候选框内图像的单应矩阵;
S162、将所述识别结果的左上、右下、左下、右下四个角点进行投影变换,得到在候选框中的位置;
S163、根据在候选框中的位置判断是否形状规则。
进一步地,所述步骤S140中包括:
匹配所述目标候选框与所述目标候选框对应的目标绘本集的方法包括:BruteForce简单匹配方法、快速最近邻逼近搜索匹配方法中的一种或多种。
进一步地,所述步骤S140中包括:对匹配点去除误匹配的方法包括:RANSAC、PROSAC、MLESAC,LO-RANSAC中的一种或多种。
进一步地,步骤S130中的特征向量间的距离包括:汉明距离、欧式距离、马氏距离中的一种或多种。
本发明第二方面,提供了一种绘本识别装置,包括:
候选框提取模块,用于获取绘本图像,从所述绘本图像中提取候选框;
目标候选框集提取模块,用于提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;
目标绘本集提取模块,用于对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
匹配点对生成模块,用于对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;
识别结果提取模块,用于判断匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤匹配后所获取的匹配点对最多的目标绘本作为识别结果;
识别目标判断模块,用于判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
选择模块,用于判断若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
本发明第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的方法。
本发明第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述任一所述的方法。
本发明实施例通过建立绘本特征库,对绘本先进行初识别,然后进行精确识别,不仅适用具有指定二维码标识的绘本,对于常规绘本也能识别。用户还能对自定义的绘本进行识别,例如:用户用手机拍摄目标绘本形成目标绘本样图;本发明中绘本识别方法和装置能够适应远距离的绘本识别(0.2m~1.5m)。本发明实施例中的绘本识别方法具有普适性,无需大量绘本数据训练。本发明实施例中的识别系统可适用于各种移动终端,例如智能手机,平板电脑。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明一些实例中的绘本识别方法、提取装置运行的系统架构示意图;
图2为本发明一些实例中的绘本识别方法流程图;
图3为本发明一些实施例中的绘本识别方法算法模块图示意图;
图4为本发明一些实施例中的绘本识别方法中特征库建立流程示意图;
图5为本发明一些实施例中的绘本识别方法中初步识别流程示意图;
图6为本发明一些实施例中绘本识别方法中的精确识别流程示意图;
图7为本发明另一些实施例中的绘本识别方法流程示意图;
图8为本发明一些实施例中的判断形状规则的流程示意图;
图9为本发明一些实施例中的基于上述附图中的绘本识别方法所实现的绘本识别装置的系统示意图;
图10为本发明一些实施例中绘本识别方法或者提取装置运行的计算机系统结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了可以应用本申请实施例的绘本识别方法或视关键场景提取装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持数据传输的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的图像处理请求等数据进行分析等处理,并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。
需要说明的是,本申请实施例所提供的绘本识别方法可以由服务器105执行,相应地,绘本识别装置可以设置于服务器105中。此外,本申请实施例所提供的绘本识别方法也可以由终端设备101、102、103执行,相应地,绘本识别装置也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当绘本识别方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。
图2示出了依照本发明实施例的一种绘本识别算法的一般流程,图3示出了系统包含的主要算法模块,其具体步骤如下:
S1:建立绘本特征数据库,参看图4。首先可以通过下载电子版绘本或者用摄像头拍摄绘本的每一页,获取绘本图像数据。对所有绘本图像数据提取CNN特征和SIFT特征,添加到绘本特征数据库。本发明实施例用Fast R-CNN技术提取CNN特征(卷积神经网络特征)。
S2:绘本初识别,参看图5。用Selective Search技术(选择性搜索)提取候选框,对所有候选框内图像提取CNN特征,并与绘本特征库中所有绘本图像的CNN特征向量匹配。计算特征向量间的欧式距离,取距离最小的前M个(比如10个)候选框,初步确定为目标候选框,送入下一阶段进行绘本精确识别。对每一个初步确定为目标的候选框,按照特征向量间的距离排序,保留匹配距离最小的前N个(比如5个)候选目标绘本。
S3:绘本精确识别和定位,即对步骤2中确定的每一个候选框再次识别和定位,参看图6。
首先,在候选框内提取图像的SIFT特征,基于快速最近邻逼近搜索(简称FLANN)匹配算法,匹配候选框图像和该候选框内初次匹配的前N个目标绘本,并对匹配点对运用随即抽样一致性(简称RANSAC)算法去除误匹配。
其次,评估匹配结果。若经过SIFT匹配后匹配点对最多的目标绘本与初次CNN匹配的最好的目标绘本相同,则该目标绘本即为识别结果。若不同,则选取SIFT匹配点对最多的目标绘本作为候选识别结果,后续进一步判定此结果是否准确。
然后,进一步判定候选识别结果。计算候选识别目标绘本与候选框内图像的单应矩阵。通过将目标绘本的左上、右上、左下、右下四个角点进行投影变换,得到目标绘本在候选框内的位置。若计算的目标绘本在候选框内的形状规则,比如要求形状为四边形,且四个角的角度都在(40~140)之间,则识别到目标。
最后,若在多个候选框内精确识别到目标,则选择经过SIFT匹配后匹配点对最多的结果作为最终识别结果,获取展示该绘本页面关联的资源信息。
上述CNN特征提取方法不限于Rcnn、Fast Rcnn、Faster Rcnn等特征提取方式。
上述成对图像的特征点匹配方式:不限于Brute Force简单匹配,快速最近邻逼近搜索匹配等匹配方式。
上述特征向量间的距离计算:不限于汉明距离,欧式距离,马氏距离等距离计算方式。
上述去除误匹配方式:不限于RANSAC,基于RANSCA的改进算法比如PROSAC(顺序抽样一致性算法),MLESAC,LO-RANSAC等方式。
本发明实施例的绘本识别方法获取绘本数据集中的所有绘本图像,通过提取每一张绘本样图的CNN特征和SIFT特征,建立绘本特征数据库,然后获取图像数据,上传到服务器端,并提取CNN特征。匹配图像与绘本数据集的CNN特征,初步确定目标绘本及目标绘本位置。利用SIFT特征匹配,基于快速最近邻逼近搜索(简称FLANN)匹配算法,匹配图像与初步确定的目标绘本。运用随即抽样一致性(简称RANSAC)算法去除误匹配。通过计算目标绘本在场景中的形状是否规则判定目标识别结果。从而快速可靠识别绘本能够不仅适用具有指定二维码标识的绘本,对于常规绘本也能识别。用户还能对自定义的绘本进行识别,例如:用户用手机拍摄目标绘本形成目标绘本样图;本发明中绘本识别方法和装置能够适应远距离的绘本识别(0.2m~1.5m)。本发明实施例中的绘本识别方法具有普适性,无需大量绘本数据训练。本发明实施例中的识别系统可适用于各种移动终端,例如智能手机,平板电脑。
本发明的另一些实施例如图7所示,提供了一种绘本识别方法,包括如下步骤:
S110、获取绘本图像,从所述绘本图像中提取候选框;可以通过滑动提取候选框,也可进行选择性搜索提取候选框。
S120、提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;所述绘本特征库的建立方法如下:通过下载电子版绘本或者用摄像头拍摄绘本的每一页,获取绘本图像数据,对所有绘本图像数据提取CNN特征和SIFT特征,添加到绘本特征数据库。
S130、对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
S140、对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;SIFT特征为尺度不变性变换特征。
S150、判断步骤S140中匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤S140中匹配后所获取的匹配点对最多的目标绘本作为识别结果;
S160、判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
S170、若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
通过多次初步识别和精确识别候选框中的图像,采用距离和匹配点对数量进行双重判断,使得识别精确度有效提升,同时后续采用形状规则检测,进一步保证了结果的正确性。
进一步地,为了使得识别的结果得到运用,本发明实施例还提供了根据识别结果提取资源信息的步骤,从而获得相应的绘本发声文件,或者相关的程序入口,具体的,还包括如下步骤:
S180、根据所述最终识别结果获取对应关联的资源信息。可以预先建立关联数据库,通过最终识别结果进行关联资源信息提取。
本发明实施例还能针对有声绘本进行识别,所述资源信息为音频信息,所述绘本识别方法还包括:
S190、播放所述音频信息。
上述判断形状是否规则的步骤需要判断形状例如是否为四边形,是否没有交叉线,从而判断目标绘本的正确性,具体地,如图8所示,所述步骤S160包括如下步骤:
S161、计算所述识别结果和与所述识别结果对应的目标候选框内图像的单应矩阵;
S162、将所述识别结果的左上、右下、左下、右下四个角点进行投影变换,得到在候选框中的位置;
S163、根据在候选框中的位置判断是否形状规则。
需要说明的是,匹配所述目标候选框与所述目标候选框对应的目标绘本集的方法包括:Brute Force简单匹配方法、快速最近邻逼近搜索匹配方法中的一种或多种。对匹配点去除误匹配的方法包括:RANSAC、PROSAC、MLESAC,LO-RANSAC中的一种或多种。特征向量间的距离包括:汉明距离、欧式距离、马氏距离中的一种或多种。
上述绘本识别方法,通过多次渐进识别,有效提升了识别精确率,同时能够适应远距离绘本识别。
基于上述的绘本识别方法,本发明另外一些实施例如图9所示,提供了一种绘本识别装置100,包括:
候选框提取模块110,用于获取绘本图像,从所述绘本图像中提取候选框;
目标候选框集提取模块120,用于提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;
目标绘本集提取模块130,用于对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
匹配点对生成模块140,用于对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;
识别结果提取模块150,用于判断匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤匹配后所获取的匹配点对最多的目标绘本作为识别结果;
识别目标判断模块160,用于判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
选择模块170,用于判断若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
还包括资源提取模块180,用于根据所述最终识别结果获取对应关联的资源信息,播放模块190,播放所述音频信息,数据库模块200,用于存储绘本特征库的CNN特征和SIFT特征。
上述各个模块的具体执行步骤在绘本识别方法中对应的步骤中已进行详细叙述,在此不做过多赘述。
下面参考图10,其示出了适于用来实现本申请实施例的控制设备的计算机系统800的结构示意图。图10示出的控制设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、分割单元、确定单元和选择单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待处理绘本图像的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取绘本图像,从所述绘本图像中提取候选框;提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;判断步骤S140中匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤S140中匹配后所获取的匹配点对最多的目标绘本作为识别结果;判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种绘本识别方法,其特征在于,包括如下步骤:
S110、获取绘本图像,从所述绘本图像中提取候选框;
S120、提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;
S130、对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
S140、对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;
S150、判断步骤S140中匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤S140中匹配后所获取的匹配点对最多的目标绘本作为识别结果;
S160、判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
S170、若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
2.根据权利要求1所述的绘本识别方法,其特征在于,还包括如下步骤:
S180、根据所述最终识别结果获取对应关联的资源信息。
3.根据权利要求2所述的绘本识别方法,其特征在于,所述资源信息为音频信息,所述绘本识别方法还包括:
S190、播放所述音频信息。
4.根据权利要求1所述的绘本识别方法,其特征在于,所述步骤S160包括如下步骤:
S161、计算所述识别结果和与所述识别结果对应的目标候选框内图像的单应矩阵;
S162、将所述识别结果的左上、右下、左下、右下四个角点进行投影变换,得到在候选框中的位置;
S163、根据在候选框中的位置判断是否形状规则。
5.根据权利要求1所述的绘本识别方法,其特征在于,所述步骤S140中包括:
匹配所述目标候选框与所述目标候选框对应的目标绘本集的方法包括:Brute Force简单匹配方法、快速最近邻逼近搜索匹配方法中的一种或多种。
6.根据权利要求5所述的绘本识别方法,其特征在于,所述步骤S140中包括:对匹配点去除误匹配的方法包括:RANSAC、PROSAC、MLESAC,LO-RANSAC中的一种或多种。
7.根据权利要求1所述的绘本识别方法,其特征在于,步骤S130中的特征向量间的距离包括:汉明距离、欧式距离、马氏距离中的一种或多种。
8.一种绘本识别装置,其特征在于,包括:
候选框提取模块,用于获取绘本图像,从所述绘本图像中提取候选框;
目标候选框集提取模块,用于提取所述候选框的CNN特征,将所述候选框的CNN特征与绘本特征库中的CNN特征向量进行向量匹配,获取匹配距离最小的前M个候选框作为目标候选框集;
目标绘本集提取模块,用于对所述目标候选框集中的每个目标候选框,按照与所述绘本特征库中的CNN特征向量的特征向量间的距离进行排序,获取每个目标候选框匹配距离最小的前N个绘本特征库中的绘本作为目标绘本集;
匹配点对生成模块,用于对所述目标候选框提取SIFT特征,基于SIFT特征,匹配所述目标候选框与所述目标候选框对应的目标绘本集生成匹配点对,并对匹配点对去除误匹配;
识别结果提取模块,用于判断匹配后所获取的匹配点对最多的目标绘本与步骤S130中目标绘本集中匹配距离最小的目标绘本相同时,则此目标绘本作为识别结果,否则将所述步骤匹配后所获取的匹配点对最多的目标绘本作为识别结果;
识别目标判断模块,用于判断所述识别结果在与所述识别结果对应的目标候选框中的形状规则时,则判定为识别到目标,否则判定为没有识别到目标;
选择模块,用于判断若有多个所述目标候选框识别到目标,则选择经过SIFT匹配后匹配点对最多的目标绘本作为最终识别结果。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-17中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466525.9A CN109583389B (zh) | 2018-12-03 | 2018-12-03 | 绘本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466525.9A CN109583389B (zh) | 2018-12-03 | 2018-12-03 | 绘本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109583389A true CN109583389A (zh) | 2019-04-05 |
CN109583389B CN109583389B (zh) | 2023-06-27 |
Family
ID=65926616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811466525.9A Active CN109583389B (zh) | 2018-12-03 | 2018-12-03 | 绘本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583389B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119733A (zh) * | 2019-05-15 | 2019-08-13 | 广东小天才科技有限公司 | 书页识别方法及装置、终端设备、计算机可读存储介质 |
CN110766025A (zh) * | 2019-10-09 | 2020-02-07 | 杭州易现先进科技有限公司 | 绘本识别方法、装置、系统及存储介质 |
CN110765926A (zh) * | 2019-10-21 | 2020-02-07 | 杭州易现先进科技有限公司 | 图画书识别方法、装置、电子设备和存储介质 |
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111860005A (zh) * | 2019-04-26 | 2020-10-30 | 安徽奇智科技有限公司 | 卡片识别方法、装置、介质及设备 |
CN112711965A (zh) * | 2019-10-24 | 2021-04-27 | 深圳市优必选科技股份有限公司 | 一种绘本识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512685A (zh) * | 2015-12-10 | 2016-04-20 | 小米科技有限责任公司 | 物体识别方法和装置 |
US20170262479A1 (en) * | 2016-03-08 | 2017-09-14 | Shutterstock, Inc. | User drawing based image search |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN107977599A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN108765532A (zh) * | 2018-05-04 | 2018-11-06 | 北京物灵智能科技有限公司 | 儿童绘本模型建立方法、阅读机器人及存储设备 |
-
2018
- 2018-12-03 CN CN201811466525.9A patent/CN109583389B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512685A (zh) * | 2015-12-10 | 2016-04-20 | 小米科技有限责任公司 | 物体识别方法和装置 |
US20170262479A1 (en) * | 2016-03-08 | 2017-09-14 | Shutterstock, Inc. | User drawing based image search |
CN107977599A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN108765532A (zh) * | 2018-05-04 | 2018-11-06 | 北京物灵智能科技有限公司 | 儿童绘本模型建立方法、阅读机器人及存储设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860005A (zh) * | 2019-04-26 | 2020-10-30 | 安徽奇智科技有限公司 | 卡片识别方法、装置、介质及设备 |
CN110119733A (zh) * | 2019-05-15 | 2019-08-13 | 广东小天才科技有限公司 | 书页识别方法及装置、终端设备、计算机可读存储介质 |
CN110119733B (zh) * | 2019-05-15 | 2022-10-28 | 广东小天才科技有限公司 | 书页识别方法及装置、终端设备、计算机可读存储介质 |
CN110766025A (zh) * | 2019-10-09 | 2020-02-07 | 杭州易现先进科技有限公司 | 绘本识别方法、装置、系统及存储介质 |
CN110766025B (zh) * | 2019-10-09 | 2022-08-30 | 杭州易现先进科技有限公司 | 绘本识别方法、装置、系统及存储介质 |
CN110765926A (zh) * | 2019-10-21 | 2020-02-07 | 杭州易现先进科技有限公司 | 图画书识别方法、装置、电子设备和存储介质 |
CN112711965A (zh) * | 2019-10-24 | 2021-04-27 | 深圳市优必选科技股份有限公司 | 一种绘本识别方法、装置及设备 |
CN112711965B (zh) * | 2019-10-24 | 2023-12-05 | 深圳市优必选科技股份有限公司 | 一种绘本识别方法、装置及设备 |
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111695453B (zh) * | 2020-05-27 | 2024-02-09 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
Also Published As
Publication number | Publication date |
---|---|
CN109583389B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583389A (zh) | 绘本识别方法及装置 | |
US10824874B2 (en) | Method and apparatus for processing video | |
CN109325148A (zh) | 生成信息的方法和装置 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
CN108090162A (zh) | 基于人工智能的信息推送方法和装置 | |
CN109034069A (zh) | 用于生成信息的方法和装置 | |
CN110263650A (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN109697239A (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
CN109086834B (zh) | 字符识别方法、装置、电子设备及存储介质 | |
CN109086719A (zh) | 用于输出数据的方法和装置 | |
CN108345387A (zh) | 用于输出信息的方法和装置 | |
CN109618236A (zh) | 视频评论处理方法和装置 | |
CN110334144A (zh) | 报文展示方法、装置、计算机设备及存储介质 | |
CN109255036A (zh) | 用于输出信息的方法和装置 | |
CN109614327A (zh) | 用于输出信息的方法和装置 | |
US20190147104A1 (en) | Method and apparatus for constructing artificial intelligence application | |
CN108446659A (zh) | 用于检测人脸图像的方法和装置 | |
CN109934142A (zh) | 用于生成视频的特征向量的方法和装置 | |
CN109284367A (zh) | 用于处理文本的方法和装置 | |
CN107968743A (zh) | 推送信息的方法和装置 | |
WO2024131630A1 (zh) | 车牌识别方法、装置、电子设备及存储介质 | |
CN109885708A (zh) | 证件图片的搜索方法和装置 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN103984415B (zh) | 一种信息处理方法及电子设备 | |
CN109241344A (zh) | 用于处理信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |