CN111191067A - 绘本识别方法、终端设备及计算机可读存储介质 - Google Patents
绘本识别方法、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111191067A CN111191067A CN201911359256.0A CN201911359256A CN111191067A CN 111191067 A CN111191067 A CN 111191067A CN 201911359256 A CN201911359256 A CN 201911359256A CN 111191067 A CN111191067 A CN 111191067A
- Authority
- CN
- China
- Prior art keywords
- sample
- image
- features
- feature
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000010586 diagram Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了绘本识别方法、终端设备及计算机可读存储介质,绘本识别方法,包括:获取待识别绘本页面的待识别图像;对待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征;将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的;为每个待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本;根据匹配样本所属的类别确定最佳匹配类别。通过该方法,能够提高绘本的识别率及识别结果的准确度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及绘本识别方法、终端设备及计算机可读存储介质。
背景技术
绘本,即图画书,是一类以绘画为主,并附有少量文字的书籍。绘本阅读是目前众多的面向儿童教育的AI(人工智能)机器人产品的重要功能之一,该功能解决了父母无时间陪伴儿童阅读的痛点,这两年逐渐成为诸多定位高端的AI低幼陪伴机器人的重要配置,且近两年深受教育市场欢迎与关注。
绘本识别作为绘本阅读机器人的重要核心技术,通过对图像书页内容的自动判识,进而从海量数据库检索相应的教学资源,能够有效的提高学习效率,弥补教育资源分配的不足。
如何提高绘本的识别率及识别结果的准确度则成为绘本识别中的重要问题。
发明内容
本申请主要解决的技术问题提供一种绘本识别方法、设备及计算机可读存储介质,能够提高绘本的识别率及识别结果的准确度。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种绘本识别方法,该方法包括:获取待识别绘本页面的待识别图像;对待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征;将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的;为每个待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本;根据匹配样本所属的类别确定最佳匹配类别。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,该终端设备包括处理器和与处理器电连接的存储器,存储器用于存储程序数据,处理器用于执行程序数据以实现上述的方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序数据,程序数据在被处理器执行时,用以实现上述的方法。
本申请的有益效果是:区别于现有技术的情况,由于绘本页面的图像通常由简单的图案构成,本申请的绘本识别方法,通过获取待识别绘本页面的待识别图像,并对待识别图像上的多个图像区域进行特征提取,以获得对应多个不同的图像区域的多个待匹配特征,从而能够提高获取到有效特征的概率,再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,按照相似度由高到低的顺序,为每个待匹配特征选择预定数量的样本特征,以作为匹配样本,即一个匹配样本对应一个待匹配特征,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的,因而根据匹配样本所属的类别确定最佳匹配类别,即可确定待识别绘本页面所对应最相似的样本绘本页面,从而能够提高绘本的识别率及识别结果的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的绘本识别方法一实施例的流程示意图;
图2是本申请提供的绘本识别方法一实施例的图像区域的示意图;
图3是本申请提供的绘本识别方法一实施例中步骤S150的具体流程示意图;
图4是本申请提供的绘本识别方法另一实施例的流程示意图;
图5是本申请提供的绘本识别方法另一实施例中步骤S220的具体流程示意图;
图6是本申请提供的终端设备实施例的结构示意图;
图7是本申请提供的计算机可读存储介质实施例的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
请参阅图1和图2,图1是本申请提供的绘本识别方法一实施例的流程示意图。图2是本申请提供的绘本识别方法一实施例的图像区域的示意图。
本实施例的绘本识别方法100,包括以下步骤:
S110:获取待识别绘本页面的待识别图像。
在绘本阅读过程中,可以是通过使用图像采集部件(如摄像头)拍摄待识别绘本中的页面,以获取待识别绘本页面的待识别图像。
该待识别图像可作为搜索图像,并以此为依据来进行绘本识别。
S120:对待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征。
多个图像区域可以是2个、3个、4个、5个或更多。图像区域可以是待识别图像的整体图像区域,也可以是待识别图像的局部图像区域。多个图像区域可同时包括待识别图像的整体图像区域和待识别图像的局部图像区域。
绘本页面的图像通常由简单的图案构成,若仅提取待识别图像的局部特征,由于局部特征提取只有在纹理丰富的区域才能提取到有效的特征,因此可能无法提取到有效的局部特征。且不同绘本页面的图像中可能包含相同的局部特征。本实施例中,通过对待识别图像上的多个图像区域进行特征提取,能够获得对应多个不同的图像区域的多个待匹配特征,从而提高获取到有效特征的概率,能够为更好的区分不同页面的图像提供搜索依据,进而提高绘本的识别率。
S130:将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配。其中,多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的。
同一样本绘本页面的多个样本图像进行特征提取后,所得到的样本特征属于同一类别,这样在匹配到样本特征时就能知道该特征对应是哪本绘本的哪一页。
S140:为每个待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本。
按照相似度由高到低的顺序,为每个待匹配特征选择预定数量的样本特征,以作为匹配样本。每一匹配样本可均包括多个样本特征。
S150:根据匹配样本所属的类别确定最佳匹配类别。
由于待匹配特征的数量为多个,因此匹配样本的数量也为多个。多个匹配样本均对应有所属的类别。
根据匹配样本所属的类别确定最佳匹配类别例如可以是:选取包含匹配样本最多的类别作为候选匹配类别。
由于绘本页面的图像通常由简单的图案构成,本申请所提供的绘本识别方法100一实施例,通过获取待识别绘本页面的待识别图像,并对待识别图像上的多个图像区域进行特征提取,以获得对应多个不同的图像区域的多个待匹配特征,从而能够提高获取到有效特征的概率,再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,按照相似度由高到低的顺序,为每个待匹配特征选择预定数量的样本特征,以作为匹配样本,即一个匹配样本对应一个待匹配特征,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的,因而根据匹配样本所属的类别确定最佳匹配类别,即可确定待识别绘本页面所对应最相似的样本绘本页面,从而能够提高绘本的识别率及识别结果的准确度。
可选地,图像区域的数量不小于3。图像区域的数量可为3、4、5、6或更多。
可选地,图像区域与待识别图像的面积比不小于50%,预定数量不小于20。
由于图像区域可以是待识别图像的整体图像区域,也可以是待识别图像的局部图像区域,因此图像区域与待识别图像的面积比不小于50%,即局部图像区域与待识别图像的面积比不小于50%,具体可为50%、55%、60%、65%、70%、75%、80%或更多。
可选地,图像区域与待识别图像的面积比可视图像区域的数量而定:当图像区域的数量较少时,图像区域与待识别图像的面积比可更大;当图像区域的数量较多时,图像区域与待识别图像的面积比可更小。例如,图像区域的数量为3时,图像区域与待识别图像的面积比可为85%;图像区域的数量为6时,图像区域与待识别图像的面积比可为50%。
当然,图像区域与待识别图像的面积比,也可根据图像识别的精度需求或绘本的复杂程度等其他因素而定。
可选地,步骤S120中:对待识别图像上的多个图像区域进行特征提取,还可包括:
从待识别图像的整体图像区域以及以整体图像区域的顶角为起点,从整体图像区域截取出的局部图像区域进行特征提取。
如图2所示,在一种应用场景中,待识别图像可包括四个顶角1、2、3、4,多个图像区域(以阴影部分表示)包括:待识别图像的整体图像区域E,分别以整体图像区域的顶角1、2、3、4为起点,从整体图像区域E中所截取出的局部图像区域A、B、C、D。图像区域的数量为5。其中,局部图像区域A、B、C、D的面积与整体图像区域E的面积可比为80%。通过这种方式,获得待识别图像的整体图像区域,并从整体图像区域截取出的局部图像区域,能够提高获取到有效特征的概率,从而提高绘本的识别率。
可以理解,当待识别图像的整体图像区域为不规则形状,如包括3个、5个或大于5个的顶角时,图像区域的数量相应地可为4个、6个或大于6个。其中,局部图像区域A、B、C、D的面积与整体图像区域E的面积可比可作相应地调整。
在其他应用场景中,图像区域的数量可为3,多个图像区域可包括:待识别图像的整体图像区域,以及以整体图像区域的两个相对的顶角为起点,从整体图像区域截取出的两个局部图像区域。其中,两个局部图像区域的面积与整体图像区域E的面积比可均为50%。
请参阅图3,图3是本申请提供的绘本识别方法一实施例中步骤S150的具体流程示意图。
可选地,步骤S150:根据所选择的样本特征所属的类别确定最佳匹配类别,可包括:
S151:针对每个待匹配特征,确定包含匹配样本最多的类别作为候选匹配类别。
如图2所示,在一种应用场景中,分别从5个图像区域中进行特征提取,可获得5个待匹配特征,将5个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,并按照相似度由高到低的顺序,为每个待匹配特征选择例如20个的相似度最高的样本特征,将这20个样本特征作为匹配样本。如此,则可得到5个匹配样本。
针对每个待匹配特征,可计算匹配样本中的20个样本特征一共对应了多少种类别,且每种类别下分别包含了多少个样本特征,从而确定包含匹配样本最多的类别作为候选匹配类别。
5个匹配样本,则可分别对应得到5个候选匹配类别。
S152:若多个待匹配特征的候选匹配类别为同一类别的数量大于预设的数量阈值,且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值,则将同一类别作为最佳匹配类别。
5个候选匹配类别中可能有2个、3个或4个为同一类别,或者5个候选匹配类别全为同一类别、5个候选匹配类别互为不同类别。
若多个待匹配特征的候选匹配类别为同一类别的数量大于预设的数量阈值,可说明多个待匹配特征与同一样本绘本页面的匹配度较高。其中,预设的数量阈值可根据候选匹配类别的数量确定。
且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值,可说明各待匹配特征与对应的匹配样本之间的相似度较高。
本实施例中,计算各待匹配特征与对应的匹配样本之间的特征距离是计算两者之间的余弦距离(即余弦相似度),因此,各待匹配特征与对应的匹配样本之间的特征距离越大,表示两者的相似度越高。
继续以候选匹配类别的数量为5为例,若多个待匹配特征的候选匹配类别为同一类别的数量大于3,即为4或5,且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值,可认为匹配结果高度集中,且各待匹配特征与对应的匹配样本之间的相似度高,则可将该同一类别作为最佳匹配类别。
通过对待识别图像上的多个图像区域进行特征提取,并采用特征距离和候选匹配类别为同一类别的数量进行双重判断,能够有效提高识别结果的准确度。
若多个待匹配特征的候选匹配类别为同一类别的数量小于等于3,或各待匹配特征与对应的匹配样本之间的特征距离小于等于预设的距离阈值,则可认为匹配结果较为分散,或各待匹配特征与对应的匹配样本之间的相似度不高,则拒绝识别。
通过设置一定的条件,能够有效地对得到的检索结果进行拒识别,以降级发生误检的风险,可进一步提高识别结果的准确度。
请结合参阅图4和图5,图4是本申请提供的绘本识别方法另一实施例的流程示意图。图5是本申请提供的绘本识别方法另一实施例中步骤S220的具体流程示意图。
本实施例是在上述绘本识别方法100一实施例的基础上,在步骤S110:获取待识别绘本页面的待识别图像之前,还包括:
S210:获取样本绘本页面的样本图像,其中每个样本绘本页面分别对应多个样本图像。
在一应用场景中,可以是通过下载电子版的样本绘本或者使用图像采集部件(如摄像头)拍摄样本绘本的每一页,以获取本绘本页面的样本图像。
每个样本绘本页面分别对应的多个样本图像可以包括:样本绘本页面的整体图像区域以及以整体图像区域的顶角为起点从整体图像区域截取出的局部图像区域。
S220:利用预先训练好的特征提取模型对样本图像进行特征提取,以获得样本特征。
在一应用场景中,在得到特征提取模型后,每一样本绘本页面可随机地采集200个样本图像,并利用特征提取模型对样本图像进行特征提取,以获得样本特征。
S230:将对应于同一样本绘本页面的多个样本特征划分到同一类别,以形成样本特征库。
所提取的样本特征可与该特征的标识一起插入到样本特征数据库中。这样在检索到某个样本特征时就能知道该特征对应的书号页码等信息。
标识可理解为用于对样本绘本中页面进行标识的信息,标识至少包括该样本特征对应的是哪一本样本绘本的哪一页。标识例如可包括:书本ID及页面ID、书本名称、书本描述信息、页面名称、页面描述信息,也可以为针对于特定书本与特定页面而设计的特定ID等等。
本实施例中,可确定与类别对应的标识,且每一类别对应同一样本绘本页面,因而可得到不同的标识对应于不同样本绘本的不同页面。
可选地,步骤S220:利用预先训练好的特征提取模型对样本图像进行特征提取,以获得样本特征,可包括:
S221:获取多个训练绘本页面的多个训练图像。
在一应用场景中,可以是通过下载电子版训练绘本或者使用图像采集部件(如摄像头)拍摄训练绘本的每一页,以获取多个训练绘本页面的多个训练图像。
例如,获取每一训练绘本的30个训练图像,并可对训练图像进行数据增强。
S222:利用训练图像对特征提取模型进行训练,以使得特征提取模型针对同一训练绘本页面所提取的特征之间的特征距离最小化,针对不同的训练绘本页面所提取的特征之间的特征距离最大化。
本实施例中,利用训练图像对特征提取模型进行训练,计算的是所提取的特征之间的欧式距离,因此,特征之间的特征距离越小,表示两者的相似度越高。
使得特征提取模型针对同一训练绘本页面所提取的特征之间的特征距离最小化,针对不同的训练绘本页面所提取的特征之间的特征距离最大化,则能够使得同一训练绘本页面尽可能归类到一起,不同的训练绘本页面则尽可能的分开。
本实施例中,在步骤S222中:利用训练图像对特征提取模型进行训练,可包括:利用训练图像通过siamese网络对特征提取模型进行训练。
在一应用场景中,为了保证训练绘本的每一页尽可能的分开,可采用siamese网络对特征提取模型进行训练,训练的每一轮迭代后都进行难样本挖掘,对难分类样本进行不断的训练,以使得特征提取模型针对同一训练绘本页面所提取的特征之间的欧式距离最小化,针对不同的训练绘本页面所提取的特征之间的欧式距离最大化。
本实施例中,步骤S120:对待识别图像上的多个图像区域进行特征提取,可包括:利用特征提取模型对待识别图像上的多个图像区域进行特征提取。
利用同一特征提取模型对待识别图像上的多个图像区域进行特征提取,并样本图像进行特征提取,有利于进行待匹配特征与样本特征进行的匹配,提高绘本的识别率。
请参阅图6,图6是本申请提供的终端设备实施例的结构示意图。
本实施例中,终端设备200包括处理器210和与处理器210电连接的存储器220,存储器220用于存储程序数据,处理器210用于执行程序数据以实现如下的方法:
获取待识别绘本页面的待识别图像;对待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征;将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的;为每个待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本;根据匹配样本所属的类别确定最佳匹配类别。
本实施例中,终端设备200具体可以是智能机器人、学习机、手机、电脑、服务器等。
在一应用场景中,终端设备200可包括图像采集部件(图未示),图像采集部件例如为摄像头,摄像头用于采集待识别绘本页面的待识别图像。
在一应用场景中,终端设备200可与点读笔(图未示)通讯连接,并响应于点读笔产生的触发信号而利用摄像头获取待识别绘本页面的待识别图像。例如,通过点读笔的点读操作,可触发该触发信号的产生。
在一应用场景中,终端设备200可与一个或多个点读设备(图未示)通讯连接。点读设备可以为任意配置了处理器、存储器,以及图像采集部件的电子设备,该图像采集部件可以例如为摄像头,点读设备的摄像头用于采集待识别绘本页面的待识别图像并发送给终端设备200。该点读设备例如可以为学习机、手机、平板电脑、相机等。
在一应用场景中,点读设备还可例如为与点读笔匹配配置的设备,或者配置有该点读笔的设备。其中的点读笔,可以理解为任意在点读操控下,能够利用光源发光,以在页面形成光斑的任意结构形式。点读设备还可接收终端设备200发送的当前所点读的目标音频资源,并播放目标音频资源,或者利用播放设备播放目标音频资源。
请参阅图7,图7是本申请提供的计算机可读存储介质实施例的示意图。
本实施例中,计算机可读存储介质300用于存储程序数据310,程序数据310在被处理器执行时,用以实现如下的方法:
获取待识别绘本页面的待识别图像;对待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征;将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的;为每个待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本;根据匹配样本所属的类别确定最佳匹配类别。
可以理解,本实施例中的计算机可读存储介质300可以应用于上述终端设备200,其具体的实施步骤可以参考上述实施例,这里不再赘述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法、装置以及系统,可以通过其它的方式实现。例如,以上所描述的方法、装置以及系统实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
由于绘本页面的图像通常由简单的图案构成,本申请所提供的绘本识别方法,通过获取待识别绘本页面的待识别图像,并对待识别图像上的多个图像区域进行特征提取,以获得对应多个不同的图像区域的多个待匹配特征,从而能够提高获取到有效特征的概率,再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,按照相似度由高到低的顺序,为每个待匹配特征选择预定数量的样本特征,以作为匹配样本,即一个匹配样本对应一个待匹配特征,其中多个样本特征划分成多个类别,每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的,因而根据匹配样本所属的类别确定最佳匹配类别,即可确定待识别绘本页面所对应最相似的样本绘本页面,从而能够提高绘本的识别率及识别结果的准确度。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种绘本识别方法,其特征在于,所述方法包括:
获取待识别绘本页面的待识别图像;
对所述待识别图像上的多个图像区域进行特征提取,以获得多个待匹配特征;
将所述多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配,其中所述多个样本特征划分成多个类别,每个所述类别下的所述样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的;
为每个所述待匹配特征选择预定数量的相似度最高的样本特征,以作为匹配样本;
根据所述匹配样本所属的所述类别确定最佳匹配类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像上的多个图像区域进行特征提取的步骤包括:
从所述待识别图像的整体图像区域以及以所述整体图像区域的顶角为起点,从所述整体图像区域截取出的局部图像区域进行特征提取。
3.根据权利要求1所述的方法,其特征在于,所述根据所选择的所述样本特征所属的所述类别确定最佳匹配类别的步骤包括:
针对每个所述待匹配特征,确定包含所述匹配样本最多的所述类别作为候选匹配类别;
若所述多个待匹配特征的所述候选匹配类别为同一类别的数量大于预设的数量阈值,且各所述待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值,则将所述同一类别作为所述最佳匹配类别。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别绘本页面的待识别图像的步骤之前,进一步包括:
获取样本绘本页面的样本图像,其中每个所述样本绘本页面分别对应多个样本图像;
利用预先训练好的特征提取模型对所述样本图像进行特征提取,以获得所述样本特征;
将对应于同一所述样本绘本页面的多个所述样本特征划分到同一所述类别,以形成所述样本特征库。
5.根据权利要求4所述的方法,其特征在于,所述利用预先训练好的特征提取模型对所述样本图像进行特征提取,以获得所述样本特征的步骤包括:
获取多个训练绘本页面的多个训练图像;
利用所述训练图像对所述特征提取模型进行训练,以使得所述特征提取模型针对同一所述训练绘本页面所提取的特征之间的特征距离最小化,针对不同的所述训练绘本页面所提取的特征之间的特征距离最大化。
6.根据权利要求5所述的方法,其特征在于,所述利用所述训练图像对所述特征提取模型进行训练的步骤包括:
利用所述训练图像通过siamese网络对所述特征提取模型进行训练。
7.根据权利要求5所述的方法,其特征在于,所述对所述待识别图像上的多个图像区域进行特征提取的步骤包括:
利用所述特征提取模型对所述待识别图像上的多个图像区域进行特征提取。
8.根据权利要求1所述的方法,其特征在于,所述图像区域的数量不小于3,且所述图像区域与所述待识别图像的面积比不小于50%,所述预定数量不小于20。
9.一种终端设备,其特征在于,所述终端设备包括:处理器和与所述处理器电连接的存储器,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359256.0A CN111191067A (zh) | 2019-12-25 | 2019-12-25 | 绘本识别方法、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359256.0A CN111191067A (zh) | 2019-12-25 | 2019-12-25 | 绘本识别方法、终端设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191067A true CN111191067A (zh) | 2020-05-22 |
Family
ID=70707622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911359256.0A Pending CN111191067A (zh) | 2019-12-25 | 2019-12-25 | 绘本识别方法、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191067A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626371A (zh) * | 2020-05-29 | 2020-09-04 | 歌尔科技有限公司 | 一种图像分类方法、装置、设备及可读存储介质 |
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN112001282A (zh) * | 2020-08-12 | 2020-11-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种图像识别方法 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201116A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112487929A (zh) * | 2020-11-25 | 2021-03-12 | 深圳市云希谷科技有限公司 | 儿童绘本的图像识别方法、装置、设备及存储介质 |
CN113449655A (zh) * | 2021-06-30 | 2021-09-28 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
CN113609279A (zh) * | 2021-08-05 | 2021-11-05 | 湖南特能博世科技有限公司 | 一种物料型号提取方法、装置及计算机设备 |
CN113822195A (zh) * | 2021-09-23 | 2021-12-21 | 四川云恒数联科技有限公司 | 一种基于视频分析的政务平台用户行为识别反馈方法 |
CN114359533A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
WO2023272659A1 (zh) * | 2021-06-30 | 2023-01-05 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
WO2023134402A1 (zh) * | 2022-01-14 | 2023-07-20 | 中国科学院深圳先进技术研究院 | 一种基于孪生卷积神经网络的书法字识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530622A (zh) * | 2013-11-07 | 2014-01-22 | 青岛海信网络科技股份有限公司 | 一种车辆车标识别方法 |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN110033023A (zh) * | 2019-03-11 | 2019-07-19 | 北京光年无限科技有限公司 | 一种基于绘本识别的图像数据处理方法及系统 |
CN110263198A (zh) * | 2019-06-27 | 2019-09-20 | 安徽淘云科技有限公司 | 一种检索方法及装置 |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-25 CN CN201911359256.0A patent/CN111191067A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530622A (zh) * | 2013-11-07 | 2014-01-22 | 青岛海信网络科技股份有限公司 | 一种车辆车标识别方法 |
CN107784321A (zh) * | 2017-09-28 | 2018-03-09 | 深圳市奇米教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN110033023A (zh) * | 2019-03-11 | 2019-07-19 | 北京光年无限科技有限公司 | 一种基于绘本识别的图像数据处理方法及系统 |
CN110263198A (zh) * | 2019-06-27 | 2019-09-20 | 安徽淘云科技有限公司 | 一种检索方法及装置 |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111695453B (zh) * | 2020-05-27 | 2024-02-09 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111626371A (zh) * | 2020-05-29 | 2020-09-04 | 歌尔科技有限公司 | 一种图像分类方法、装置、设备及可读存储介质 |
CN111626371B (zh) * | 2020-05-29 | 2023-10-31 | 歌尔科技有限公司 | 一种图像分类方法、装置、设备及可读存储介质 |
CN112001282A (zh) * | 2020-08-12 | 2020-11-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种图像识别方法 |
CN112201117A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201116A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112487929A (zh) * | 2020-11-25 | 2021-03-12 | 深圳市云希谷科技有限公司 | 儿童绘本的图像识别方法、装置、设备及存储介质 |
WO2023272659A1 (zh) * | 2021-06-30 | 2023-01-05 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
CN113449655A (zh) * | 2021-06-30 | 2021-09-28 | 东莞市小精灵教育软件有限公司 | 封面图像的识别方法、装置、存储介质及识别设备 |
CN113609279A (zh) * | 2021-08-05 | 2021-11-05 | 湖南特能博世科技有限公司 | 一种物料型号提取方法、装置及计算机设备 |
CN113609279B (zh) * | 2021-08-05 | 2023-12-08 | 湖南特能博世科技有限公司 | 一种物料型号提取方法、装置及计算机设备 |
CN113822195A (zh) * | 2021-09-23 | 2021-12-21 | 四川云恒数联科技有限公司 | 一种基于视频分析的政务平台用户行为识别反馈方法 |
CN114359533A (zh) * | 2021-11-18 | 2022-04-15 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
CN114359533B (zh) * | 2021-11-18 | 2022-11-04 | 珠海读书郎软件科技有限公司 | 一种基于页面文本的页码识别方法和计算机设备 |
WO2023134402A1 (zh) * | 2022-01-14 | 2023-07-20 | 中国科学院深圳先进技术研究院 | 一种基于孪生卷积神经网络的书法字识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191067A (zh) | 绘本识别方法、终端设备及计算机可读存储介质 | |
CN110837579B (zh) | 视频分类方法、装置、计算机以及可读存储介质 | |
CN112348117B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN113542777B (zh) | 直播视频剪辑方法、装置及计算机设备 | |
US20140257995A1 (en) | Method, device, and system for playing video advertisement | |
CN112381104B (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
Celikkale et al. | Visual attention-driven spatial pooling for image memorability | |
CN109766412B (zh) | 一种基于图像识别的学习内容获取方法及电子设备 | |
CN111209897B (zh) | 视频处理的方法、装置和存储介质 | |
CN109582813B (zh) | 一种文物展品的检索方法、装置、设备和存储介质 | |
CN111401238B (zh) | 一种视频中人物特写片段的检测方法及装置 | |
CN110166811B (zh) | 弹幕信息的处理方法、装置及设备 | |
CN111083141A (zh) | 一种仿冒账号的识别方法、装置、服务器和存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN111640193A (zh) | 文字处理方法、装置、计算机设备及存储介质 | |
CN112417970A (zh) | 目标对象识别方法、装置和电子系统 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN112150349A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN115062186A (zh) | 一种视频内容检索方法、装置、设备以及存储介质 | |
CN111639630B (zh) | 一种作业批改方法及装置 | |
CN103984415B (zh) | 一种信息处理方法及电子设备 | |
CN112569591A (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN112699842A (zh) | 宠物识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |