CN111695453A - 绘本识别方法、装置及机器人 - Google Patents
绘本识别方法、装置及机器人 Download PDFInfo
- Publication number
- CN111695453A CN111695453A CN202010461267.6A CN202010461267A CN111695453A CN 111695453 A CN111695453 A CN 111695453A CN 202010461267 A CN202010461267 A CN 202010461267A CN 111695453 A CN111695453 A CN 111695453A
- Authority
- CN
- China
- Prior art keywords
- type
- book
- picture book
- feature
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 76
- 238000012216 screening Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 238000013135 deep learning Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 20
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/131—Book
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于计算机视觉中的图像识别技术领域,提供了一种绘本识别方法、装置及机器人,所述方法包括:获取待识别绘本的特征点数量;根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。通过上述方法,能够在没有丰富纹理的图像中采集到有效的特征点。
Description
技术领域
本申请属于计算机视觉中的图像识别技术领域,尤其涉及绘本识别方法、装置、机器人及计算机可读存储介质。
背景技术
绘本,即图画书,是一类以绘画为主,并附有少量文字的书籍。绘本阅读是目前众多的面向儿童教育的人工智能(Artificial Intelligence,AI)机器人产品的重要功能之一,该功能解决了父母无时间陪伴儿童阅读的痛点,这两年逐渐成为诸多定位高端的AI低幼陪伴机器人的重要配置,即使该功能的单一产品如伴读器等也在近两年深受教育市场欢迎与关注。
绘本识别作为绘本阅读机器人的重要核心技术,其通过摄像头拍摄绘本的图像作为搜索图像,再通过图像检索算法来识别具体是哪一本绘本。但现有的图像检索算法主要通过提取绘本的局部特征,再将提取的绘本的局部特征与数据库中的特征进行匹配来实现图像的检索。由于局部特征提取有可能提取不到有效的特征,因此导致部分绘本不能识别。
故,需要提出一种新的方法以解决上述技术问题。
发明内容
本申请实施例提供了绘本识别方法,可以解决上述现有技术存在的技术问题。
第一方面,本申请实施例提供了一种绘本识别方法,包括:
获取待识别绘本的特征点数量;
根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
本申请实施例与现有技术相比存在的有益效果是:
由于第一类型绘本的特征点数量小于预设的数量阈值,因此,若仍采用局部特征提取方法提取特征点,将难以提取到有效的特征点,而由于卷积神经网络模型采集特征点的能力更强,因此,能够在没有丰富纹理的图像中采集到有效的特征点。另外,由于第二类型绘本的特征点数量较多,因此,无需通过特征点采集能力很强的模型也能采集到所需的特征点,且由于非基于卷积神经网络模型的特征比对算法的计算复杂度远小于基于卷积神经网络模型的特征比对算法的计算复杂度,因此,能够极大提高特征点的提取速度,进而提高第二类型绘本的识别速度。
第二方面,本申请实施例提供了一种绘本识别装置,包括:
特征点数量获取单元,用于获取待识别绘本的特征点数量;
绘本类型划分单元,用于根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
第一类型绘本识别单元,用于若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
第二类型绘本识别单元,用于若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
第三方面,本申请实施例提供了一种机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在机器人上运行时,使得机器人执行上述第一方面所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本申请一实施例提供的第一种绘本识别方法的流程示意图;
图2是本申请一实施例提供的第二种绘本识别方法的流程示意图;
图3是本申请一实施例提供的一种待识别绘本的示意图;
图4是本申请一实施例提供的一种不止包含内页的图像的示意图;
图5是本申请一实施例提供的一种绘本识别装置的结构示意图;
图6是本申请一实施例提供的一种机器人的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例:
现有的图像检索算法主要通过提取绘本的局部特征,再将提取的绘本的局部特征与数据库中的特征进行匹配来实现图像的检索。申请人经过分析可知,由于局部特征提取只有在纹理丰富的区域才能提取到有效的特征,而有些绘本则是由简单的图案构成,比如由点构成,或者由圆形构成等,但这些简单的图案是没有丰富的纹理的,因此通过局部特征提取通常提取不到有效的特征,从而导致绘本不能识别。
为了解决上述技术问题,本申请实施例提供了一种绘本识别方法,该绘本识别方法首先对待识别绘本进行分类,对于纹理丰富的绘本采用一种图像检索方法,而对于纹理不丰富的绘本采用另一种图像检索方法,如采用基于卷积神经网络模型的特征比对算法,由于卷积神经网络模型采集特征点的能力更强,因此,能够在没有丰富纹理的图像中采集到有效的特征点。
图1示出了本申请实施例提供的第一种绘本识别方法的流程示意图,该绘本识别方法应用于AI低幼陪伴机器人,详述如下:
步骤S11,获取待识别绘本的特征点数量;
具体地,可通过设置在AI低幼陪伴机器人上的摄像头(或通过外置摄像头)获取待识别绘本的内页的图像,识别该图像,得到对应的特征点以及特征点数量。其中,这里的特征点也称为关键点,比如图像的角点、边缘点、暗区的亮点以及亮区的暗点等。
该步骤中,若采用尺度不变特征变换(Scale-invariant feature transform,SIFT)获取待识别绘本的特征点,则主要在不同的尺度空间上查找特征点,比如查找不会因光照、仿射变换和噪音等因素而改变的点,查找到的点将作为待识别绘本的特征点。其中,待识别绘本包括封面、环衬、扉页、内页(即正文)和封底。
本实施例中,由于AI低幼陪伴机器人主要陪伴幼儿阅读绘本,因此,这里的特征点数量主要指待识别绘本的内页的特征点数量。在获取待识别绘本的内页特征点数量时,可将任一内页的特征点数量作为该待识别绘本的特征点数量,也可累加所有内页的特征点数量后,将累加值除以内页的页数所得到的值作为待识别绘本的特征点数量,此时,所述步骤S11包括:
获取待识别绘本任一内页的特征点数量;
或者,
获取待识别绘本的所有内页的特征点数量,并根据获取的所有内页的特征点数量确定单张内页的平均特征点数量,所述单张内页的平均特征点数量作为待识别绘本的特征点数量。
本实施例中,将识别的任一内页的特征点数量作为待识别绘本的特征点数量有助于提高待识别绘本的特征点数量的获取速度;另外,由于不同内页的特征点数量存在一定的差异,因此,若希望获取更准确的特征点数量,则将所有内页的特征点数量累加后再除以所有内页的页数,得到的特征点数量作为待识别绘本的特征点数量。
步骤S12,根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
本实施例中,预先对绘本库中所有绘本的内页的扫描图进行特征点提取,再计算每本绘本的单张内页的扫描图的平均特征点个数,根据计算结果以及绘本本身的图案确定用于划分绘本类型的数量阈值,以便后续根据该数量阈值将绘本划分为第一类型绘本和第二类型绘本,其中,第一类型绘本也可以称为简单图案绘本,第二类型绘本也可以称为普通绘本。
步骤S13,若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
具体地,通过已训练的卷积神经网络模型提取第一类型绘本中内页的特征点,深度学习分类网络再识别提取的特征点属于哪一个类别,其中,每一个类别与每一张内页对应。即通过识别提取的特征点属于哪一个类别来识别该特征点所在的内页,由于每一个类别预先与内页对应的绘本以及该内页对应的页码建立映射关系,因此,当确定特征点所属的类别之后能够识别出该第一类型绘本的基本信息,以及,能够识别出该特征点所在的内页的页码。其中,绘本(比如第一类型绘本)的基本信息包括以下至少一种:书名信息、作者信息和出版社信息。
步骤S14,若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
其中,非基于卷积神经网络模型的特征比对算法可以为基于特征点匹配的传统方法,例如,通过SIFT提取第二类型绘本的特征点,然后将提取的特征点与数据库存储的特征点匹配。由于预先将特征点与绘本的基本信息和内页对应的页码建立映射关系,因此,在特征点匹配成功后能够根据预先建立的映射关系确定绘本的基本信息以及内页的页码。
本申请实施例中,获取待识别绘本的特征点数量,根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本,若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。由于第一类型绘本的特征点数量小于预设的数量阈值,因此,若仍采用局部特征提取方法提取特征点,将难以提取到有效的特征点,而由于卷积神经网络模型采集特征点的能力更强,因此,能够在没有丰富纹理的图像中采集到有效的特征点。另外,由于第二类型绘本的特征点数量较多,因此,无需通过特征点采集能力很强的模型也能采集到所需的特征点,且由于非基于卷积神经网络模型的特征比对算法的计算复杂度远小于基于卷积神经网络模型的特征比对算法的计算复杂度,因此,能够极大提高特征点的提取速度,进而提高第二类型绘本的识别速度。
为了减少特征点匹配的运算量,也为了提高后续匹配的准确度,图2示出了本申请实施例提供的第二种绘本识别方法的流程示意图,在本实施例中,首先对待识别绘本的封面图像进行识别,再对封面图像识别后得到的绘本的内页进行识别,其中,步骤S21和步骤S22与上述实施例的步骤S11和步骤S12相同,此处不再赘述:
步骤S21,获取待识别绘本的特征点数量;
步骤S22,根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
步骤S23,获取所述待识别绘本的封面图像;
具体地,可通过AI低幼陪伴机器人发出语音提示,该语音提示用于指示用户将待识别绘本的封面放置在该AI低幼陪伴机器人的摄像头下,该AI低幼陪伴机器人再获取对应的封面图像。当然,若该AI低幼陪伴机器人本身没有设置摄像头,则发出的语音提示用于指示用户导入待识别绘本的封面图像。
步骤S24,根据所述封面图像获取待识别绘本的基本信息,所述基本信息至少包括书名信息、作者信息和出版社信息中的任意一种;
具体地,由于绘本的书名信息通常居中且较大,因此,将居中、最大的文字作为绘本的书名。
图3示出了一个待识别绘本的示意图,在图3中,能够快速识别出书名信息为《我是谁》。
步骤S25,根据所述待识别绘本的基本信息对所述待识别绘本进行初次筛选,得到初次筛选结果;
具体地,从本地或网络上查找与待识别绘本的基本信息匹配的绘本,得到的匹配的绘本的信息作为初次筛选结果。例如,若待识别绘本的基本信息只有书名信息,则只查找与书名信息匹配的绘本;若待识别绘本的基本信息包括书名信息和作者信息,则查找与书名信息以及作者信息都匹配的绘本。
步骤S26,若所述待识别绘本的绘本类型为第一类型绘本,则以所述初次筛选结果为依据,通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
由于对待识别绘本进行初次筛选,因此,能够极大减少内页的特征点的匹配次数。例如,假设待识别绘本的数目信息是《我是谁》,则基于卷积神经网络模型的特征比对算法从第一类型绘本提取特征点后,只需将提取的特征点与初次筛选结果(书目信息与《我是谁》)匹配的绘本的特征点进行匹配即可,而无需与其他书名信息的绘本的特征点进行匹配。
步骤S27,若所述待识别绘本的绘本类型为第二类型绘本,则以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
需要指出的是,在本实施例中,上述步骤S23、步骤S24、步骤S25是在步骤S22之后,在实际情况中,也可以在步骤S21之前,只需保证步骤S23、步骤S24以及步骤S25都在步骤S26和步骤S27之前即可。也即先判断待识别绘本是第一类型绘本还是第二类型绘本,还是先执行初次筛选的顺序都可以。
在一些实施例中,所述步骤S26中以所述初次筛选结果为依据,所述通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本,包括:
A1、获取所述第一类型绘本中将要识别的内页的图像;
例如,假设希望AI低幼陪伴机器人为用户讲解第一类型绘本,则将对应的内页放置在该AI低幼陪伴机器人的摄像头前面,该摄像头检测到绘本后,获取该第一类型绘本中的内页所对应的图像。进一步地,若放置在摄像头前面的绘本不符合要求,导致获取的内页的图像不符合要求,则发出重新放置的提示,比如,通过语音提示用户调整绘本放置的位置等。
本实施例中,由于摄像头拍摄的图片中可能除了包括内页的图像,还包括其他物体(或无物体)的图像,如图4所示。在图4中,虚线所包括的范围为内页的图像,实线所包括的范围为摄像头拍摄的整张图片。此时,为了降低后续提取到非内页的特征点,则对拍摄的图片进行裁剪,裁剪后的剩余的图像为内页的图像。
A2、从所述内页的图像中截取第一预设个数的区域图像;
其中,第一预设个数大于或等于1,例如,该第一预设个数可取为4。
在一些实施例中,为了保证后续能够从截取的区域图像中提取到有效的特征点,则该区域图像的大小大于或等于预设大小阈值,该预设大小阈值大于或等于50%。例如,假设预设大小阈值为80%,第一预设个数为4,则截取的区域图像可以为:内页的图像中左上角80%的区域图像A1、内页的图像中右上角80%的区域图像A2、内页的图像中左下角80%的区域图像A3、内页的图像中右下角80%的区域图像A4。即当截取2个或2个以上的区域图像时,不同的区域图像之间具有重叠的区域。
A3、根据已训练的卷积神经网络模型从所述内页的图像以及所述区域图像中分别提取特征向量;
具体地,所述卷积神经网络模型根据以下方式(B1~B4)训练:
B1、采集不同绘本的每一张内页的N张图像,N大于1;
其中,N大于1,比如N可以为31。
B2、对采集的所有图像进行数据增强,数据增强后的图像作为训练样本;
具体地,对图像进行数据增强,以提高后续采集的特征点的准确性。其中,对图像进行数据增加包括:增加图像的饱和度、亮度等。
B3、根据所述训练样本以及深度学习分类网络对待训练的卷积神经网络模型进行训练,且挖掘训练过程中的难分类样本,其中,所述难分类样本是指采用所述深度学习分类网络对训练样本分类后,分类准确率低于预设分类阈值所对应的训练样本;
其中,深度学习分类网络具体用于:将待训练的卷积神经网络模型从训练样本提取的特征向量进行分类,由于一个类别对应一个内页,因此,对特征向量进行分类实质是识别该特征向量属于哪一个内页。若发现深度学习分类网络不能准确识别待训练的卷积神经网络模型提取的特征向量在哪一张内页,则将该特征向量所对应的训练样本标记为难分类样本。
B4、根据所述难分类样本以及所述深度学习分类网络继续对所述待训练的卷积神经网络模型进行训练,直到所述深度学习分类网络对所述难分类样本的分类准确率大于或等于预设分类阈值。
具体地,对难分类样本进行不断的训练,直到深度学习分类网络对待训练的卷积神经网络模型从难分类样本提取的特征向量的分类准确率大于或等于预设分类阈值,此时,不同类别的特征向量在欧式空间中的距离尽可能的大,而同类别的特征向量在欧式空间中的距离尽可能的小。
A4、将提取的特征向量分别与数据库存储的特征向量匹配,所述数据库存储的特征向量为所述初次筛选结果所包括的绘本的特征向量;
在该步骤A4之前,具体地,在卷积神经网络模型训练结束后,对每个内页(类别)随机的采集M(M大于100)个样本,并用训练好的卷积神经网络模型来提取这些样本的特征向量,并将提取的特征向量存入数据库中。
本实施例中,在得到初次筛选结果所包含的绘本后,只将数据库中存储的该初次筛选结果所包含的绘本对应的特征向量与提取的特征向量匹配,以减少匹配次数。
由于在实际情况中,AI低幼陪伴机器人所能够获取的内页的图像可能是不完整的,因此,为了提高后续匹配的准确度,则将从内页的图像提取的特征向量,以及,从第一预设个数的区域图像提取的特征向量分别与数据库存储的特征向量匹配。
在一些实施例中,若从内页的图像获取到内页的页码信息,则根据所述页码信息从初次筛选结果所包括的绘本中获取相同页码信息的内页的特征向量,获取的页码信息的特征向量作为存储在数据库中与提取的特征向量匹配的特征向量。例如,假设从内页的图像获取的页码信息为第2页,初次筛选结果对应的绘本有绘本1和绘本2,则只获取绘本1的第2页的特征向量,以及获取绘本2的第2页的特征向量,再将从内页的图像以及区域图像提取的特征向量分别与从绘本1和绘本2获取的第2页的特征向量比较。通过页码信息直接定位具体内页的特征向量,从而能够极大减少需匹配的特征向量,提高待识别绘本的识别速度。
A5、若所述数据库存储的特征向量存在与所述提取的特征向量匹配的特征向量,且匹配的特征向量指向的匹配类别中存在第二预设个数的相同的匹配类别,则输出所述第一类型绘本的识别结果,其中,所述匹配类别为匹配的特征向量指向的类别,所述识别结果包括所述相同的匹配类别的类别信息,其中,一张内页对应一个类别。
其中,第二预设个数大于或等于第一预设个数。
例如,若第一预设个数为4,第二预设个数为4,即分别从内页的图像和4个区域图像中提取出对应的特征向量,将这些特征向量分别与数据库存储的特征向量匹配,每个特征向量选择排名在前X(X大于2,比如X=20)且类别最多的类别作为该特征向量的匹配类别,如果5个特征向量中的匹配类别有不小于4的类别为相同的类别,则将该相同的类别所对应的类别判定为该内页所属的类别。例如,假设5个特征向量中的匹配类别分别为类别1、类别1、类别1、类别1以及类别2,则将类别1作为内页所属的类别。
在一些实施例中,为了进一步提高识别的准确率,则结合特征向量在欧式空间的距离对内页所属的类别进行判断,此时,所述步骤A5则输出所述第一类型绘本的识别结果,包括:
若所述第二预设个数的相同的匹配类别对应的特征向量之间的距离小于或等于预设的距离阈值,则输出所述第一类型绘本的识别结果。
本实施例中,若匹配的特征向量指向的匹配类别中存在第二预设个数的相同的匹配类别,且匹配类别对应的特征向量之间的距离小于或等于预设的距离阈值,则输出该第一类型绘本的识别结果,否则,输出不能识别的提示信息。其中,这里的距离是指特征向量在欧式空间之间的距离,当两个特征向量在欧式空间之间的距离较小,表明这两个特征向量的差异越小,此时,才输出识别结果,能够进一步提高绘本的识别准确性。
在一些实施例中,对于第二类型绘本,则采用K个最近临树的方法对特征点进行匹配,此时,所述步骤S27中以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本,包括:
C1、获取所述第一类型绘本中将要识别的内页的图像;
C2、提取所述内页的图像的特征点,并在已训练的K个最近邻树中查找距离最近的特征点,其中,K大于或等于2,且所述K个最近邻树存储的特征点是所述初次筛选结果包括的绘本的特征点;
该步骤中,K的取值与AI低幼陪伴机器人的计算资源多少有关,若该AI低幼陪伴机器人的计算资源有效,则设置K取较小的值,比如,设置K=2,反之,则设置K取较大的值。
其中,K个最近邻树的训练方法如下:首先特取内页的图像中具有仿射不变的特征点,再将所有内页的特征点集合到一起,若AI低幼陪伴机器人的计算资源有限,则隔页分成K批,相邻的页放在不同的集合(如K=2,则将第1页、第3页...等奇数页放在一个集合,将第2页、第4页...等偶数页放在另一个集合),最后对每个集合分别训练最近邻搜索树(如kdtree,balltree)等。需要指出的是,由于训练时提取的特征点具有放射不变性,因此,便于提高后续进行特征点匹配的准确度。
C3、分别计算提取的所述内页的图像的特征点与查找的距离最近的特征点之间的单应性矩阵;
其中,单应性矩阵用于反应内页的图像的特征点与查找的距离最近的特征点之间的映射关系。
C4、根据计算的单应性矩阵从查找的所有特征点中删除错误匹配的特征点,得到剩余的特征点;
具体地,若计算的单应性矩阵满足预设要求,则判定内页的图像的特征点与查找的特征点匹配,否则,判定内页的图像的特征点与查找的特征点为错误匹配的关系,并删除错误匹配的特征点。
C5、若剩余的特征点数量大于或等于预设的个数阈值,则输出所述第二类型绘本的识别结果,所述识别结果包括所述内页的页码信息。
此外,该识别结果还可以包括该内页所属的绘本的基本信息。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的绘本识别方法,图5示出了本申请实施例提供的绘本识别装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图5,该绘本识别装置5可以应用于AI低幼陪伴机器人,包括:特征点数量获取单元51、绘本类型划分单元52、第一类型绘本识别单元53、第二类型绘本识别单元54,其中:
特征点数量获取单元51,用于获取待识别绘本的特征点数量;
具体地,可通过设置在AI低幼陪伴机器人上的摄像头(或通过外置摄像头)获取待识别绘本的内页的图像,识别该图像,得到对应的特征点以及特征点数量。其中,这里的特征点也称为关键点,比如图像的角点、边缘点、暗区的亮点以及亮区的暗点等。
绘本类型划分单元52,用于根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
第一类型绘本识别单元53,用于若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
第二类型绘本识别单元54,用于若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
本申请实施例中,由于第一类型绘本的特征点数量小于预设的数量阈值,因此,若仍采用局部特征提取方法提取特征点,将难以提取到有效的特征点,而由于卷积神经网络模型采集特征点的能力更强,因此,能够在没有丰富纹理的图像中采集到有效的特征点。另外,由于第二类型绘本的特征点数量较多,因此,无需通过特征点采集能力很强的模型也能采集到所需的特征点,且由于非基于卷积神经网络模型的特征比对算法的计算复杂度远小于基于卷积神经网络模型的特征比对算法的计算复杂度,因此,能够极大提高特征点的提取速度,进而提高第二类型绘本的识别速度。
在一些实施例中,为了减少特征点匹配的运算量,也为了提高后续匹配的准确度,该绘本识别装置5包括:
封面图像获取单元,用于获取所述待识别绘本的封面图像;
具体地,可通过AI低幼陪伴机器人发出语音提示,该语音提示用于指示用户将待识别绘本的封面放置在该AI低幼陪伴机器人的摄像头下,该AI低幼陪伴机器人再获取对应的封面图像。当然,若该AI低幼陪伴机器人本身没有设置摄像头,则发出的语音提示用于指示用户导入待识别绘本的封面图像。
待识别绘本的基本信息获取单元,用于根据所述封面图像获取待识别绘本的基本信息,所述基本信息至少包括书名信息、作者信息和出版社信息中的任意一种;
具体地,由于绘本的书名信息通常居中且较大,因此,将居中、最大的文字作为绘本的书名。
绘本筛选单元,用于根据所述待识别绘本的基本信息对所述待识别绘本进行初次筛选,得到初次筛选结果;
对应地,所述第一类型绘本识别单元53具体用于:
以所述初次筛选结果为依据,通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
对应地,所述第二类型绘本识别单元54具体用于:
以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
在一些实施例中,所述第一类型绘本识别单元53在以所述初次筛选结果为依据,所述通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本时,具体用于:
获取所述第一类型绘本中将要识别的内页的图像;从所述内页的图像中截取第一预设个数的区域图像;根据已训练的卷积神经网络模型从所述内页的图像以及所述区域图像中分别提取特征向量;将提取的特征向量分别与数据库存储的特征向量匹配,所述数据库存储的特征向量为所述初次筛选结果所包括的绘本的特征向量;若所述数据库存储的特征向量存在与所述提取的特征向量匹配的特征向量,且匹配的特征向量指向的匹配类别中存在第二预设个数的相同的匹配类别,则输出所述第一类型绘本的识别结果,其中,所述匹配类别为匹配的特征向量指向的类别,所述识别结果包括所述相同的匹配类别的类别信息,其中,一张内页对应一个类别。
其中,第一预设个数大于或等于1,第二预设个数大于或等于第一预设个数。
在一些实施例中,为了保证后续能够从截取的区域图像中提取到有效的特征点,则该区域图像的大小大于或等于预设大小阈值,该预设大小阈值大于或等于50%。
在一些实施例中,所述数据库存储的特征向量可通过以下方式确定:若从内页的图像获取到内页的页码信息,则根据所述页码信息从初次筛选结果所包括的绘本中获取相同页码信息的内页的特征向量,获取的页码信息的特征向量作为存储在数据库中与提取的特征向量匹配的特征向量。
在一些实施例中,所述则输出所述第一类型绘本的识别结果,包括:
若所述第二预设个数的相同的匹配类别对应的特征向量之间的距离小于或等于预设的距离阈值,则输出所述第一类型绘本的识别结果。
在一些实施例中,所述卷积神经网络模型根据以下方式训练:
采集不同绘本的每一张内页的N张图像,N大于1;
对采集的所有图像进行数据增强,数据增强后的图像作为训练样本;
根据所述训练样本以及深度学习分类网络对待训练的卷积神经网络模型进行训练,且挖掘训练过程中的难分类样本,其中,所述难分类样本是指采用所述深度学习分类网络对训练样本分类后,分类准确率低于预设分类阈值所对应的训练样本;
根据所述难分类样本以及所述深度学习分类网络继续对所述待训练的卷积神经网络模型进行训练,直到所述深度学习分类网络对所述难分类样本的分类准确率大于或等于预设分类阈值。
在一些实施例中,所述特征点数量获取单元51,具体用于:
获取待识别绘本任一内页的特征点数量;
或者,
获取待识别绘本的所有内页的特征点数量,并根据获取的所有内页的特征点数量确定单张内页的平均特征点数量,所述单张内页的平均特征点数量作为待识别绘本的特征点数量。
在一些实施例中,所述第二类型绘本识别单元54在以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本时,具体用于:
获取所述第一类型绘本中将要识别的内页的图像;
提取所述内页的图像的特征点,并在已训练的K个最近邻树中查找距离最近的特征点,其中,K大于或等于2,且所述K个最近邻树存储的特征点是所述初次筛选结果包括的绘本的特征点;
其中,K的取值与AI低幼陪伴机器人的计算资源多少有关,若该AI低幼陪伴机器人的计算资源有效,则设置K取较小的值,比如,设置K=2,反之,则设置K取较大的值。
分别计算提取的所述内页的图像的特征点与查找的距离最近的特征点之间的单应性矩阵;
根据计算的单应性矩阵从查找的所有特征点中删除错误匹配的特征点,得到剩余的特征点;
若剩余的特征点数量大于或等于预设的个数阈值,则输出所述第二类型绘本的识别结果,所述识别结果包括所述内页的页码信息。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图6为本申请一实施例提供的机器人的结构示意图。如图6所示,该实施例的机器人6包括:至少一个处理器60(图6中仅示出一个处理器)、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意各个方法实施例中的步骤:
获取待识别绘本的特征点数量;
根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
所述机器人6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该机器人可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是机器人6的举例,并不构成对机器人6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61在一些实施例中可以是所述机器人6的内部存储单元,例如机器人6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述机器人6的外部存储设备,例如所述机器人6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述机器人6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/机器人的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种绘本识别方法,其特征在于,包括:
获取待识别绘本的特征点数量;
根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
2.如权利要求1所述的绘本识别方法,其特征在于,在所述通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本之前,或,在所述通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本之前,包括:
获取所述待识别绘本的封面图像;
根据所述封面图像获取待识别绘本的基本信息,所述基本信息至少包括书名信息、作者信息和出版社信息中的任意一种;
根据所述待识别绘本的基本信息对所述待识别绘本进行初次筛选,得到初次筛选结果;
对应地,所述通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本具体包括:
以所述初次筛选结果为依据,通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
对应地,所述通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本包括:
以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
3.如权利要求2所述的绘本识别方法,其特征在于,以所述初次筛选结果为依据,所述通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本,包括:
获取所述第一类型绘本中将要识别的内页的图像;
从所述内页的图像中截取第一预设个数的区域图像;
根据已训练的卷积神经网络模型从所述内页的图像以及所述区域图像中分别提取特征向量;
将提取的特征向量分别与数据库存储的特征向量匹配,所述数据库存储的特征向量为所述初次筛选结果所包括的绘本的特征向量;
若所述数据库存储的特征向量存在与所述提取的特征向量匹配的特征向量,且匹配的特征向量指向的匹配类别中存在第二预设个数的相同的匹配类别,则输出所述第一类型绘本的识别结果,其中,所述匹配类别为匹配的特征向量指向的类别,所述识别结果包括所述相同的匹配类别的类别信息,其中,一张内页对应一个类别。
4.如权利要求3所述的绘本识别方法,其特征在于,所述则输出所述第一类型绘本的识别结果,包括:
若所述第二预设个数的相同的匹配类别对应的特征向量之间的距离小于或等于预设的距离阈值,则输出所述第一类型绘本的识别结果。
5.如权利要求3所述的绘本识别方法,其特征在于,所述卷积神经网络模型根据以下方式训练:
采集不同绘本的每一张内页的N张图像,N大于1;
对采集的所有图像进行数据增强,数据增强后的图像作为训练样本;
根据所述训练样本以及深度学习分类网络对待训练的卷积神经网络模型进行训练,且挖掘训练过程中的难分类样本,其中,所述难分类样本是指采用所述深度学习分类网络对训练样本分类后,分类准确率低于预设分类阈值所对应的训练样本;
根据所述难分类样本以及所述深度学习分类网络继续对所述待训练的卷积神经网络模型进行训练,直到所述深度学习分类网络对所述难分类样本的分类准确率大于或等于预设分类阈值。
6.如权利要求1至5任一项所述的绘本识别方法,其特征在于,所述获取待识别绘本的特征点数量,包括:
获取待识别绘本任一内页的特征点数量;
或者,
获取待识别绘本的所有内页的特征点数量,并根据获取的所有内页的特征点数量确定单张内页的平均特征点数量,所述单张内页的平均特征点数量作为待识别绘本的特征点数量。
7.如权利要求1至5任一项所述的绘本识别方法,其特征在于,所述以所述初次筛选结果为依据,通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本,包括:
获取所述第一类型绘本中将要识别的内页的图像;
提取所述内页的图像的特征点,并在已训练的K个最近邻树中查找距离最近的特征点,其中,K大于或等于2,且所述K个最近邻树存储的特征点是所述初次筛选结果包括的绘本的特征点;
分别计算提取的所述内页的图像的特征点与查找的距离最近的特征点之间的单应性矩阵;
根据计算的单应性矩阵从查找的所有特征点中删除错误匹配的特征点,得到剩余的特征点;
若剩余的特征点数量大于或等于预设的个数阈值,则输出所述第二类型绘本的识别结果,所述识别结果包括所述内页的页码信息。
8.一种绘本识别装置,其特征在于,包括:
特征点数量获取单元,用于获取待识别绘本的特征点数量;
绘本类型划分单元,用于根据所述特征点数量划分所述待识别绘本的绘本类型,所述绘本类型包括:第一类型绘本和第二类型绘本,其中,所述第一类型绘本的特征点数量小于预设的数量阈值,所述第二类型绘本的特征点数量大于或等于预设的数量阈值;
第一类型绘本识别单元,用于若所述待识别绘本的绘本类型为第一类型绘本,则通过基于卷积神经网络模型的特征比对算法识别所述第一类型绘本;
第二类型绘本识别单元,用于若所述待识别绘本的绘本类型为第二类型绘本,则通过非基于卷积神经网络模型的特征比对算法识别所述第二类型绘本。
9.一种机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010461267.6A CN111695453B (zh) | 2020-05-27 | 2020-05-27 | 绘本识别方法、装置及机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010461267.6A CN111695453B (zh) | 2020-05-27 | 2020-05-27 | 绘本识别方法、装置及机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695453A true CN111695453A (zh) | 2020-09-22 |
CN111695453B CN111695453B (zh) | 2024-02-09 |
Family
ID=72478521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010461267.6A Active CN111695453B (zh) | 2020-05-27 | 2020-05-27 | 绘本识别方法、装置及机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695453B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
CN112200230A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种训练板的识别方法、装置及机器人 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201116A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205900A (zh) * | 2015-10-23 | 2015-12-30 | 华录智达科技有限公司 | 基于视频识别的动态自适应公交客流统计装置 |
US20170255840A1 (en) * | 2014-11-26 | 2017-09-07 | Captricity, Inc. | Analyzing content of digital images |
CN107491720A (zh) * | 2017-04-01 | 2017-12-19 | 江苏移动信息系统集成有限公司 | 一种基于改进型卷积神经网络的车型识别方法 |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN107977394A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN108765532A (zh) * | 2018-05-04 | 2018-11-06 | 北京物灵智能科技有限公司 | 儿童绘本模型建立方法、阅读机器人及存储设备 |
CN109508694A (zh) * | 2018-12-10 | 2019-03-22 | 上海众源网络有限公司 | 一种人脸识别方法及识别装置 |
CN109583389A (zh) * | 2018-12-03 | 2019-04-05 | 易视腾科技股份有限公司 | 绘本识别方法及装置 |
CN110033023A (zh) * | 2019-03-11 | 2019-07-19 | 北京光年无限科技有限公司 | 一种基于绘本识别的图像数据处理方法及系统 |
CN110163300A (zh) * | 2019-05-31 | 2019-08-23 | 北京金山云网络技术有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN110909196A (zh) * | 2019-10-28 | 2020-03-24 | 北京光年无限科技有限公司 | 识别绘本阅读过程中内页封面切换的处理方法和装置 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
-
2020
- 2020-05-27 CN CN202010461267.6A patent/CN111695453B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170255840A1 (en) * | 2014-11-26 | 2017-09-07 | Captricity, Inc. | Analyzing content of digital images |
CN105205900A (zh) * | 2015-10-23 | 2015-12-30 | 华录智达科技有限公司 | 基于视频识别的动态自适应公交客流统计装置 |
CN107491720A (zh) * | 2017-04-01 | 2017-12-19 | 江苏移动信息系统集成有限公司 | 一种基于改进型卷积神经网络的车型识别方法 |
CN107977394A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN108765532A (zh) * | 2018-05-04 | 2018-11-06 | 北京物灵智能科技有限公司 | 儿童绘本模型建立方法、阅读机器人及存储设备 |
CN109583389A (zh) * | 2018-12-03 | 2019-04-05 | 易视腾科技股份有限公司 | 绘本识别方法及装置 |
CN109508694A (zh) * | 2018-12-10 | 2019-03-22 | 上海众源网络有限公司 | 一种人脸识别方法及识别装置 |
CN110033023A (zh) * | 2019-03-11 | 2019-07-19 | 北京光年无限科技有限公司 | 一种基于绘本识别的图像数据处理方法及系统 |
CN110163300A (zh) * | 2019-05-31 | 2019-08-23 | 北京金山云网络技术有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN110909196A (zh) * | 2019-10-28 | 2020-03-24 | 北京光年无限科技有限公司 | 识别绘本阅读过程中内页封面切换的处理方法和装置 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200230A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种训练板的识别方法、装置及机器人 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201116A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112200230B (zh) * | 2020-09-29 | 2023-10-13 | 深圳市优必选科技股份有限公司 | 一种训练板的识别方法、装置及机器人 |
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111695453B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909725B (zh) | 识别文本的方法、装置、设备及存储介质 | |
CN111695453A (zh) | 绘本识别方法、装置及机器人 | |
US10445569B1 (en) | Combination of heterogeneous recognizer for image-based character recognition | |
Moreira et al. | Image provenance analysis at scale | |
US10949702B2 (en) | System and a method for semantic level image retrieval | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
US9508151B2 (en) | Systems, methods, and devices for image matching and object recognition in images using image regions | |
KR101516712B1 (ko) | 의미론적 시각 검색 엔진 | |
Singh et al. | Currency recognition on mobile phones | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
Yang et al. | A framework for improved video text detection and recognition | |
US10438083B1 (en) | Method and system for processing candidate strings generated by an optical character recognition process | |
CN111126401B (zh) | 一种基于上下文信息的车牌字符识别方法 | |
Sun et al. | Detection of exact and similar partial copies for copyright protection of manga | |
CN105335760A (zh) | 一种图像数字字符识别方法 | |
CN106156794B (zh) | 基于文字风格识别的文字识别方法及装置 | |
CN111078871A (zh) | 一种基于人工智能的合同自动分类的方法及系统 | |
De Las Heras et al. | Use case visual bag-of-words techniques for camera based identity document classification | |
Úbeda et al. | Improving pattern spotting in historical documents using feature pyramid networks | |
Le et al. | Document retrieval based on logo spotting using key-point matching | |
Igorevna et al. | Document image analysis and recognition: a survey | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
Chatbri et al. | An application-independent and segmentation-free approach for spotting queries in document images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |