CN112464002A - 用于图形推理题图像检索的方法、装置、存储介质和设备 - Google Patents

用于图形推理题图像检索的方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN112464002A
CN112464002A CN202011413749.0A CN202011413749A CN112464002A CN 112464002 A CN112464002 A CN 112464002A CN 202011413749 A CN202011413749 A CN 202011413749A CN 112464002 A CN112464002 A CN 112464002A
Authority
CN
China
Prior art keywords
contour
graph
information
image
graphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011413749.0A
Other languages
English (en)
Inventor
邓圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fenbi Lantian Technology Co ltd
Original Assignee
Beijing Fenbi Lantian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fenbi Lantian Technology Co ltd filed Critical Beijing Fenbi Lantian Technology Co ltd
Priority to CN202011413749.0A priority Critical patent/CN112464002A/zh
Publication of CN112464002A publication Critical patent/CN112464002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本方案公开了一种用于图形推理题图像检索的方法,包括对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;基于每个图形与待选择图像集合中全部图形轮廓的轮廓相似度;根据每个图形轮廓在目标图像中轮廓权重值及每个图形轮廓在目标图像中的位置和每个图形轮廓在待选择图像中的位置之间的关系获得位置匹配权重值,对轮廓相似度进行加权平均,获得目标图像与每个待选择图像的匹配得分,从而对待选择图像进行排序输出。本方案的方法可以令考生更好的复习图形推理类的题目,提高他们备考的效率,提高就业机会。

Description

用于图形推理题图像检索的方法、装置、存储介质和设备
技术领域
本发明涉及图像识别技术领域,特别涉及一种用于图形推理题图像检索的方法、装置、存储介质和设备。
背景技术
目前市面上很多教育类的APP及装置都具有拍照搜题的功能,拍照搜题这一算法和装置的普及极大的提高了学生的学习效率,降低了老师们备课的难点,降低了家长们检查作业的成本。但目前这些装置的拍照搜题的算法大多只支持纯文字类题目的检索,其核心算法是利用光学字符识别(OCR)识别出题目图像中的文字,并根据识别结果生成文本格式的题目,从而在服务器后台的题库中匹配到该题目,获取到该题目的答案,以呈现给用户。而在行政职业能力测试、职业能力倾向测验和一些公司的笔试中有一种非常重要的题型,图形推理。如图1所示,这种题型没有文本信息,题干和选项都是一些非常相近的图形。由于图形推理题的文字特征不明显,很难通过文字搜索来查找,因此这类题很难通过传统的拍照搜题算法找到答案,因此针对这类题目急需找到一种新的算法来实现拍照搜题的功能。
发明内容
本方案的一个目的在于提供一种用于图形推理题图像检索的方法、方法,本方案的方法可以令考生更好的复习图形推理类的题目,提高他们备考的效率,提高就业机会。
本方案的另一个目的在于提供一种执行上述方法的装置和设备。
为达到上述目的,本方案如下:
一种用于图形推理题图像检索的方法,该方法包括如下步骤:
对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓在目标图像中的位置信息和每个图形轮廓在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
在一个优选的实施例中,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息之前还包括:
对获取的含有目标图像的图片进行滤波、二值化处理和边缘检测,得到全部图形的边缘信息;
基于所述边缘信息获得全部图形的轮廓信息;
过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息。
在一个优选的实施例中,所述基于所述边缘信息获得全部图形的轮廓信息包括:
对获得的边缘信息进行开闭运算以使得不连续的边缘可以连接起来;
基于OpenCV中的拓扑轮廓算法,获得全部图形的轮廓信息。
在一个优选的实施例中,所述过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息包括:
基于每个图形的轮廓周长,轮廓面积,轮廓的外接矩形的面积,轮廓的重心,轮廓的二阶矩与预设条件的比较和轮廓的层级关系对所述全部图形的轮廓进行过滤获得所述目标图像中多个图形的轮廓信息。
在一个优选的实施例中,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息包括:
基于ImageNet进行预训练的VGG16网络模型分别提取所述目标图像中每个图形轮廓的第一特征;和
基于SIFT算法,提取所述目标图像中每个图形轮廓的第二特征。
在一个优选的实施例中,将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合包括:
基于每个图形的第一特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的cos相似度;
基于预设的阈值和每个图形的cos相似度,对图形推理题图像数据库中的图像进行匹配获得待选择图像集合;
在一个优选的实施例中,基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度包括:
基于每个图形的第一特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的轮廓相似度。
在一个优选的实施例中,所述根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值包括;
基于每个图形轮廓在目标图像中的位置、面积占比、周长以及和其他图形之间的关系获得该图形轮廓的轮廓权重值。
在一个优选的实施例中,所述滤波包括高斯滤波和双边滤波,所述二值化处理为局部二值化处理,所述边缘检测是通过OpenCV中的Canny算法进行的。
第二方面,提供一种用于图形推理题图像检索的装置,该装置包括:
特征提取单元,用于对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
轮廓匹配单元,用于将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
排序单元,用于基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓特征信息在目标图像中的位置信息和每个图形轮廓特征信息在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
在一个优选的实施例中,该装置还包括预处理单元,用于对获取的含有目标图像的图片进行滤波、二值化处理和边缘检测,得到全部图形的边缘信息;
基于所述边缘信息获得全部图形的轮廓信息;
过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息。
在一个优选的实施例中,所述基于所述边缘信息获得全部图形的轮廓信息包括:
对获得的边缘信息进行开闭运算以使得不连续的边缘可以连接起来;
基于OpenCV中的拓扑轮廓算法,获得全部图形的轮廓信息。
在一个优选的实施例中,所述过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息包括:
基于每个图形的轮廓周长,轮廓面积,轮廓的外接矩形的面积,轮廓的重心,轮廓的二阶矩与预设条件的比较和轮廓的层级关系对所述全部图形的轮廓进行过滤获得所述目标图像中多个图形的轮廓信息。
在一个优选的实施例中,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息包括:
基于ImageNet进行预训练的VGG16网络模型分别提取所述目标图像中每个图形轮廓的第一特征;和
基于SIFT算法,提取所述目标图像中每个图形轮廓的第二特征。
在一个优选的实施例中,将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合包括:
基于每个图形的第一特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的cos相似度;
基于预设的阈值和每个图形的cos相似度,对图形推理题图像数据库中的图像进行匹配获得待选择图像集合;
在一个优选的实施例中,基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度包括:
基于每个图形的第一特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的轮廓相似度。。
在一个优选的实施例中,所述根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值包括;
基于每个图形轮廓特征信息在目标图像中的位置、面积占比、周长以及和其他图形之间的关系获得该图形轮廓的轮廓权重值。
在一个优选的实施例中,所述滤波包括高斯滤波和双边滤波,所述二值化处理为局部二值化处理,所述边缘检测是通过OpenCV中的Canny算法进行的。
第三方面,本方案提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的方法。
第四方面,本方案提供一种计算设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如上任一项所述的方法。
本方案的有益效果如下:
本方案的方法可以令考生更好的复习图形推理类的题目,提高他们备考的效率,提高就业机会。
附图说明
为了更清楚地说明本方案的实施,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本方案的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为图形推理题示意图;
图2为用于图形推理题图像检索的方法流程图;
图3为本方案中获取待选择图像集合的流程图;
图4为用于图形推理题图像检索的装置示意图;
图5为一种电子设备示意图;
图6为实施例的输出待选择图像排序结果示意图。
具体实施方式
下面将结合附图对本方案的实施方式作进一步地详细描述。显然,所描述的实施例仅是本方案的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本方案中的实施例及实施例中的特征可以相互组合。
说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备,不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在......时”或“当......时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在现有的装置中的拍照搜题的算法大多只支持纯文字类题目的检索,其核心算法是利用光学字符识别(OCR)识别出题目图像中的文字,并根据识别结果生成文本格式的题目,从而在服务器后台的题库中匹配到该题目,获取到该题目的答案,以呈现给用户。而图形推理题型没有文本信息,题干和选项都是一些非常相近的图形。由于图形推理题的文字特征不明显,很难通过文字搜索来查找,因此这类题很难通过传统的拍照搜题算法找到答案,因此针对这类题目急需找到一种新的算法来实现拍照搜题的功能,将欲拍摄的图形推理题目作为目标图像,针对图形推理题拍照搜题本方案提出了一套完整的解决方案,即一种用于图形推理题图像检索的方法,如图2所示,该方法包括:
S100,对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
在一个实施例中,S100中提取的图形轮廓特征信息可以是基于ImageNet进行预训练的VGG16(Visual Geometry Group Network16)网络模型提取的所述目标图像中每个图形轮廓的全局特征,将每个图形轮廓信息输入到VGG16网络模型中,取VGG16网络模型中倒数第二个卷积层输出的512位向量作为每个图形轮廓的第一特征。利用尺度不变特征转换(SIFT,Scale-invariant feature transform)算法提取每个图形轮廓的关键点以及每个关键点的特征向量作为第二特征,这种算法得到的是每个图形轮廓的局部特征。
S200,将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
如图3所示,S200进一步包括:
S210,基于每个图形的第一特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第一cos相似度;
本步骤中,将目标图像中的每个图形经VGG16模型提取出的第一特征与图形推理题图像数据库中的每个图形的已经由VGG16模型提取出的第一特征进行cos相似度计算获得目标图像中该图形的第一cos相似度;
S220,基于每个图形的第二特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第二cos相似度;
本步骤中,将目标图像中的每个图形经SIFT算法提取出的第二特征与图形推理题图像数据库中的每个图形的已经由SIFT算法提取出的第二特征进行cos相似度计算获得目标图像中该图形的第二cos相似度;
S230,基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的cos相似度;
基于预设的阈值和每个图形的cos相似度,对图形推理题图像数据库中的图像进行匹配获得待选择图像集合;
本步骤中,第一特征的VGG16权重表示为Qv,第二特征的SIFT权重表示为Qs,第一权重Qv=1/(1+log2(1+S/L),第二权重Qs=1-Qv,根据每个图形轮廓的面积S和周长L,以及预先求得第一权重Qv和第二权重Qs,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,获得该图形的cos相似度。
由于目标图像中包含多组图形,每一组图形中又包含多个图形,因而在获取每个图形的cos相似度值以后,如果目标图像的多个图形中有超过一半的图形的cos相似度值都大于预设的阈值,则图形推理题图像数据库中的该图像就作为待选择图像,多个待选择图像就形成了待选择图像集合。
S300,基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓在目标图像中的位置信息和每个图形轮廓特征在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
S300进一步包括:
基于每个图形的第一特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第一cos相似度;
本步骤中,将目标图像中的每个图形经VGG16模型提取出的第一特征与待选择图像集合中的每个图形的已经由VGG16模型提取出的第一特征进行cos相似度计算获得目标图像中该图形的第一cos相似度;基于每个图形的第二特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第二cos相似度;
本步骤中,将目标图像中的每个图形经SIFT算法提取出的第二特征与待选择图像集合中的每个图形的已经由SIFT算法提取出的第二特征进行cos相似度计算获得目标图像中该图形的第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的轮廓相似度;
本步骤中,第一特征的VGG16权重表示为W1,第二特征的SIFT权重表示为W2,第一权重W1=1/(1+log2(1+S/L),第二权重W2=1-W1,根据每个图形轮廓的面积(S)和周长(L),以及预先求得第一权重W1和第二权重W2,,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,获得该图形的轮廓相似度。
在一个优选的实施例中,在步骤S100获取轮廓特征之前还包括:
S10,对获取的含有目标图像的图片进行滤波、二值化处理和边缘检测,得到全部图形的边缘信息;
S20,基于所述边缘信息获得全部图形的轮廓信息;
S30,过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息。
由于目标图像的图片是通过拍摄获得,在一个实施例中,在将拍摄的图片传输至服务器以后,服务器对图片首先进行滤波,去掉拍摄中产生的一些噪声。滤波器使用的是OpenCV中的高斯滤波器和双边滤波器。在滤波之后,就对图片进行二值化处理,使用的是OpenCV中的局部二值化算法,二值化的目的主要是为了去掉图片中的一些阴影以及一些用滤波器无法滤除的噪声。二值化后再对图片进行边缘检测,使用的是OpenCV中的Canny算子。边缘检测的作用主要是提取图片中的一些边缘信息,因为对于目标图像为图形推理题图像来说,边缘信息非常重要,将边缘信息单独提取出来有助于后面的特征提取。
在另一个实施例中,在获得了图片的边缘信息之后,使用OpenCV中的开闭运算对图片进行形态学变换,因为边缘检测算子只对非常明显的边缘比较敏感,而实际拍照过程中,由于光线、纸质等一些不可预知的原因,实际拍摄的图片边缘往往不是非常的明显,通过边缘检测获得的边缘往往不连续,因此需要将不连续的边缘连接起来,由于OpenCV中开闭运算通过对图片进行腐蚀和膨胀可以将不连续的边缘连接起来,因此本方案采用OpenCV中的开闭运算获得连续的边缘信息。在此之后,根据这些边缘使用OpenCV中的拓扑轮廓算法提取出目标图像中每个图形的轮廓信息。
由于在实际拍摄过程中,拍摄的面积往往大于目标图像的实际范围,因此服务器接收的图片中会有很多目标图像之外的图形,因此需要对图形进行提纯,过滤掉非目标图像中图形的轮廓。
在另一个实施例中,基于每个图形的轮廓周长,轮廓面积,轮廓的外接矩形的面积,轮廓的重心,轮廓的二阶矩与预设条件的比较和轮廓的层级关系对拍摄图片中的全部图形的轮廓进行过滤获得所述目标图像中多个图形的轮廓。
本方案还提供一种用于图形推理题图像检索的装置,如图4所示,该装置1包括:
特征提取单元2,用于对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
轮廓匹配单元3,用于将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
排序单元4,用于基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓在目标图像中的位置信息和每个图形轮廓特征在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
本方案还提供一种计算机可读存储介质,该计算机可读存储介质存储有用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本方案操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如JAVA、C++等,还包括常规的过程式程序设计语言-诸如″C″语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本方案进一步提供一种电子设备。图5所示电子设备仅仅是一个示例,不应对本方案实施例的功能和使用范围带来任何限制。
如图5所示,电子设备201以通用计算设备的形式表现。电子设备201的组件可以包括但不限于:至少一个存储单元202、至少一个处理单元203、显示单元204和用于连接不同系统组件的总线205。
其中,所述存储单元202存储有程序代码,所述程序代码可以被所述处理单元203执行,使得所述处理单元203执行上述数据采集方法中描述的各种示例性实施方式的步骤。例如,所述处理单元203可以执行如图1中所示的步骤。
存储单元202可以包括易失性存储单元,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
存储单元202还可以包括具有程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线205可以包括数据总线、地址总线和控制总线。
电子设备201也可以与一个或多个外部设备207(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口206进行。应当明白,尽管图中未示出,可以结合电子设备201使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
下面结合附图,对本方案进行进一步的详细说明。
对如图1所示的图形推理题进行拍照搜题,拍照获得含有待搜索图形推理题图像的图片,拍摄的终端可以是智能手机、平板电脑、智能穿戴设备等具有拍照、数据传输功能的终端设备。
本实施例中的题目搜索是在图形推理题图像数据库中进行的,该数据库中存储了已知的图形推理题图像,数据库中的图形推理题图像是通过拍摄或类似方式获取,然后以图像的方式存储,数据库存储的一幅图像是包含了已知的一道图形推理题的题干和全部选项的图像。
本实施例中的每个图形指在二值化时由连续边缘围成的形状,以每个选项的图像或与选项图像相同表现形式的图像作为包含一组图形的基本单元,因此,每一待搜索图形推理题图像中都包含多组图形,每组图形中包含多个图形。
使用终端设备中的搜题软件调用终端设备的摄像头对待搜索图形推理题进行拍摄,获取包含要搜索的图形推理题图像的图片,通过终端设备将图片传输到服务器,服务器接收到图片后,首先对图片进行滤波,去掉拍摄中产生的一些噪声。滤波器使用的是OpenCV中的高斯滤波器和双边滤波器;
在滤波之后,就对图片进行二值化处理,使用的是OpenCV中的局部二值化算法,二值化的目的主要是为了去掉图片中的一些阴影以及一些用滤波器无法滤除的噪声;
二值化后再对图片进行边缘检测,使用OpenCV中的Canny算子,边缘检测的作用主要是提取图片中的一些边缘信息,因为对于目标图像为图形推理题图像来说,边缘信息非常重要,将边缘信息单独提取出来有助于后面的特征提取;
在获得了图片的边缘信息之后,使用OpenCV中的开闭运算对图片进行形态学变换,因为边缘检测算子只对非常明显的边缘比较敏感,而实际拍照过程中,由于光线、纸质等一些不可预知的原因,实际拍摄的图片边缘往往不是非常的明显,通过边缘检测获得的边缘往往不连续,因此需要将不连续的边缘连接起来,由于OpenCV中开闭运算通过对图片进行腐蚀和膨胀可以将不连续的边缘连接起来,因此本实施例采用OpenCV中的开闭运算获得连续的边缘信息;
在此之后,根据这些边缘信息使用OpenCV中的拓扑轮廓算法提取出待搜索图形推理题图像中每个图形的轮廓信息;
由于在实际拍摄过程中,拍摄的面积往往大于目标图像即待搜索图形推理题图像的实际范围,因此服务器接收的图片中会有很多图形推理题图像之外的图形,因此需要对图形进行提纯,过滤掉非图形推理题图像中图形的轮廓。
本实施例中使用以下两个步骤对拍摄的图片进行提纯:
一.基于每个图形的轮廓周长L,轮廓面积S,轮廓的外接矩形的面积Souter和周长Louter,轮廓的重心坐标(x1,y1),拍摄图片中心的坐标(x0,y0),轮廓的二阶矩m20,m02和拍摄图片的宽W、高H,根据以下过滤条件(需要全部满足)过滤出满足条件的轮廓:①L>(H+W)/10;②S>H*W/100;③L>Louter/4;④S>Souter/4;⑤|x1-x0|<W/4*log2(H/W+1);⑥|y1-y0|<H/4*log2(W/H+1);⑦1/4≤m20/m02≤4。
二.建立轮廓的层级关系,通过OpenCV中的拓扑轮廓算法提取出的待搜索图形推理题图像中一组图形的轮廓和每个图形的轮廓,提取出的图形轮廓按树状结构进行组织,树的根节点代表含有多组图形的待搜索图形推理题图像的原始轮廓,每个节点的子节点代表这个轮廓的内部轮廓,即每组图形轮廓中的一个图形轮廓,每个子节点会存储该轮廓在原始图像中的位置以及在父轮廓即一组图形轮廓中的位置和一些该图形轮廓自身的属性,利用图像的轮廓信息过滤出位于轮廓树第二层的节点,能作为第二层的节点需要满足以下几个条件中的一个即可:①该节点的子轮廓的数量需要≥3;②子轮廓树的面积之和需要≥该节点轮廓面积/2;③子轮廓树的最大深度≥3。
利用基于ImageNet进行预训练的VGG16(Visual Geometry Group Network 16)网络模型提取目标图像即待搜索图形推理题图像中每个图形轮廓的全局特征,将每个图形轮廓信息输入到VGG16网络模型中,取VGG16网络模型中倒数第二个卷积层输出的512位向量作为每个图形轮廓的第一特征;
利用尺度不变特征转换(SIFT,Scale-invariant feature transform)算法提取每个图形轮廓的关键点以及每个关键点的特征向量作为第二特征,这种算法得到的是每个图形轮廓的局部特征。
在获得每个图形的第一特征和第二特征之后,将待搜索图形推理题图像中每个图形的第一特征与图形推理题图像数据库的全部图像中的每个图形的第一特征进行cos相似度计算获得该图形的第一cos相似度;
将待搜索图形推理题图像中每个图形的第二特征与图形推理题图像数据库中的全部图像中的每个图形的第二特征进行cos相似度计算获得该图形的第二cos相似度;
待搜索图形推理题图像中的每个图形的VGG16权重用Qv表示,SIFT权重用Qs表示,Qv=1/(1+log2(1+S/L))(S为每个图形轮廓的面积,L为每个图形轮廓的周长),Qs=1-Qv,每个图形的第一cos相似度以sim1表示,第二cos相似度以sim2表示,该图形的cos相似度以sim表示,对每个图形的第一cos相似度和第二cos相似度进行加权、求平均获得该图形的cos相似度sim,sim1=V1,vgg·V2,vgg/||V1,vgg||2*||V2,vgg||2,sim2=V1,sift·V2,sift/||V1,sift||2*||V2,sift||2,(V1,vgg、V2,vgg表示图形的VGG特征,V1,sift、V2,sift表示图形的SIFT特征,·表示向量点积,||*||2表示向量的二阶范数),该图形的cos相似度sim=Qv*sim1+Qs*sim2。
在将待搜索图形推理题图像中的每个图形与图形推理题图像数据库中每个图形的轮廓进行比较获得该图形的cos相似度值后,如果待搜索图形推理题图像的多个图形中有一半的图形的cos相似度值都大于预设的阈值,本例中预设的阈值为0.75,不同场景下可以根据实际情况酌情调整,则图形推理题图像数据库中的该图像就作为待选择图像,多个待选择图像就形成了待选择图像集合。
在获得待选择图像集合之后,将待搜索图形推理题图像中每个图形的第一特征与待选择图像集合中的每个图形的第一特征进行cos相似度计算获得该图形的第一cos相似度;
将待搜索图形推理题图像中每个图形的第二特征与待选择图像集合中的每个图形的第二特征进行cos相似度计算获得该图形的第二cos相似度;
待搜索图形推理题图像中的每个图形的VGG16权重用Qv表示,SIFT权重用Qs表示,Qv=1/(1+log2(1+S/L)(S为每个图形轮廓的面积,L为每个图形轮廓的周长),Qs=1-Qv,每个图形的第一cos相似度以sim1表示,第二cos相似度以sim2表示,该图形的轮廓相似度以sim′表示,对每个图形的第一cos相似度和第二cos相似度进行加权、求平均获得该图形的轮廓相似度sim′,则sim1=V1,vgg·V2,vgg/||V1,vgg||2*||V2,vgg||2,sim2=V1,sift·V2,sift/||V1,sift||2*||V2,sift||2,(V1,vgg、V2,vgg表示图形的VGG特征,V1,sift、V2,sift表示图形的SIFT特征,·表示向量点积,||*||2表示向量的二阶范数),该图形的轮廓相似度sim′=Qv*sim1+Qs*sim2。
基于待搜索图形推理题图像中每个图形轮廓在待搜索图形推理题图像中的位置、面积、周长以及和其他图形轮廓之间的关系获得第一权重Q1,第一权重Q1如式a所示,Q1=[(x1-x0)2+(y1-y0)2]/(W2+H2)+S1/S0+L1/L0+(1+N1)/N0--(a);式a中(x1,y1)是某个待搜索图形轮廓的重心坐标,(x0,y0)是待搜索图形推理题图像的中心坐标,W、H是待搜索图形推理题图像的宽和高,S1、L1是该某个图形轮廓的面积和周长,S0、L0是待搜索图形推理题图像的面积和周长,N1是该某个图形轮廓的数量,N0是待搜索图形推理题图像的全部子轮廓数量)
基于待搜索图形推理题图像中每个图形轮廓在待搜索图形推理题图像中的位置与在待选择图像中的位置关系获得第二权重Q2,第二权重Q2如式b所示,Q2=1/(1+|[(x1,1-x1,0)2+(y1,1-y1,0)2]/(W1 2+H1 2)-[(x2,1-x2,0)2+(y2,1-y1,0)2]/(W2 2+H2 2)|)-(b),式b中(x1,1,y1,1)是某个待搜索图形轮廓在图形推理题图像中的重心坐标,(x1,0,y1,0)是待搜索图形推理题图像的中心点坐标,W1、H1分别表示待搜索图形推理题图像的宽和高,(x2,1,y2,1)是该待搜索图形轮廓在待选择图像中的重心坐标,(x2,0,y2,0)是待选择图像的中心点坐标,W2、H2分别表示待选择图像的宽和高)。
在获得图形推理题图像中每个图形的第一权重Q1,第二权重Q2和轮廓相似度值sim′以后,用第一权重Q1和第二权重Q2对每个图形的轮廓相似度值sim′进行加权,求平均,获得待搜索图形推理题图像与待选择图像的匹配得分,根据得分对待选择图像进行排序,并输出排序结果,如图6所示,为本实施例输出的待选择图像的排序结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (20)

1.一种用于图形推理题图像检索的方法,其特征在于,该方法包括:
对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓在目标图像中的位置信息和每个图形轮廓在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
2.根据权利要求1所述的方法,其特征在于,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息之前还包括:
对获取的含有目标图像的图片进行滤波、二值化处理和边缘检测,得到全部图形的边缘信息;
基于所述边缘信息获得全部图形的轮廓信息;
过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述边缘信息获得全部图形的轮廓信息包括:
对获得的边缘信息进行开闭运算以使得不连续的边缘可以连接起来;
基于OpenCV中的拓扑轮廓算法,获得全部图形的轮廓信息。
4.根据权利要求2所述的方法,其特征在于,所述过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息包括:
基于每个图形的轮廓周长,轮廓面积,轮廓的外接矩形的面积,轮廓的重心,轮廓的二阶矩与预设条件的比较和轮廓的层级关系对所述全部图形的轮廓进行过滤获得所述目标图像中多个图形的轮廓信息。
5.根据权利要求1所述的方法,其特征在于,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息包括:
基于ImageNet进行预训练的VGG16网络模型分别提取所述目标图像中每个图形轮廓的第一特征;和
基于SIFT算法,提取所述目标图像中每个图形轮廓的第二特征。
6.根据权利要求5所述的方法,其特征在于,将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合包括:
基于每个图形的第一特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的cos相似度;
基于预设的阈值和每个图形的cos相似度,对图形推理题图像数据库中的图像进行匹配获得待选择图像集合。
7.根据权利要求5所述的方法,其特征在于,基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度包括:
基于每个图形的第一特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的轮廓相似度。
8.根据权利要求1所述的方法,其特征在于,所述根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值包括;
基于每个图形轮廓在目标图像中的位置、面积占比、周长以及和其他图形之间的关系获得该图形轮廓的轮廓权重值。
9.根据权利要求2所述的方法,其特征在于,所述滤波包括高斯滤波和双边滤波,所述二值化处理为局部二值化处理,所述边缘检测是通过OpenCV中的Canny算法进行的。
10.一种用于图形推理题图像检索的装置,其特征在于,该装置包括:
特征提取单元,用于对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息;
轮廓匹配单元,用于将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合;
排序单元,用于基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度;
根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值;
根据每个图形轮廓特征信息在目标图像中的位置信息和每个图形轮廓特征信息在待选择图像中的位置信息之间的关系,计算每个图形轮廓的位置信息匹配权重值;
根据每个图形的所述轮廓权重值和位置信息匹配权重值对所述轮廓相似度进行加权平均值计算,获得目标图像与每个待选择图像的匹配得分,并根据匹配得分,获得待选择图像的排序结果。
11.根据权利要求10所述的装置,其特征在于,该装置还包括预处理单元,用于对获取的含有目标图像的图片进行滤波、二值化处理和边缘检测,得到全部图形的边缘信息;
基于所述边缘信息获得全部图形的轮廓信息;
过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息。
12.根据权利要求11所述的装置,其特征在于,所述基于所述边缘信息获得全部图形的轮廓信息包括:
对获得的边缘信息进行开闭运算以使得不连续的边缘可以连接起来;
基于OpenCV中的拓扑轮廓算法,获得全部图形的轮廓信息。
13.根据权利要求11所述的装置,其特征在于,所述过滤所述轮廓信息获得所述目标图像中多个图形的轮廓信息包括:
基于每个图形的轮廓周长,轮廓面积,轮廓的外接矩形的面积,轮廓的重心,轮廓的二阶矩与预设条件的比较和轮廓的层级关系对所述全部图形的轮廓进行过滤获得所述目标图像中多个图形的轮廓信息。
14.根据权利要求10所述的装置,其特征在于,所述对获取得到的目标图像进行特征提取,获得多个图形的轮廓特征信息包括:
基于ImageNet进行预训练的VGG16网络模型分别提取所述目标图像中每个图形轮廓的第一特征;和
基于SIFT算法,提取所述目标图像中每个图形轮廓的第二特征。
15.根据权利要求14所述的装置,其特征在于,将所述多个图形的轮廓特征信息作为检索特征信息,遍历图形推理题图像数据库,获得与所述检索特征信息相匹配的待选择图像集合包括:
基于每个图形的第一特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历图形推理题图像数据库,获得每个图形与数据库中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的cos相似度;
基于预设的阈值和每个图形的cos相似度,对图形推理题图像数据库中的图像进行匹配获得待选择图像集合。
16.根据权利要求14所述的装置,其特征在于,基于每个图形的轮廓特征信息,获取每个图形轮廓与所述待选择图像集合中全部图形轮廓的轮廓相似度包括:
基于每个图形的第一特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第一cos相似度;
基于每个图形的第二特征遍历待选择图像集合中的全部图形,获得每个图形与待选择图像集合中全部图形比较的cos相似度,作为第二cos相似度;
基于预设的VGG16权重和SIFT权重,分别对每个图形的第一cos相似度和第二cos相似度加权、求平均,得出该图形的轮廓相似度。
17.根据权利10所述的装置,其特征在于,所述根据每个图形轮廓在目标图像中的特定信息,计算每个图形轮廓的轮廓权重值包括;
基于每个图形轮廓特征信息在目标图像中的位置、面积占比、周长以及和其他图形之间的关系获得该图形轮廓的轮廓权重值。
18.根据权利要求11所述的装置,其特征在于,所述滤波包括高斯滤波和双边滤波,所述二值化处理为局部二值化处理,所述边缘检测是通过OpenCV中的Canny算法进行的。
19.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9任一项所述的方法。
20.一种计算设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的方法。
CN202011413749.0A 2020-12-02 2020-12-02 用于图形推理题图像检索的方法、装置、存储介质和设备 Pending CN112464002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413749.0A CN112464002A (zh) 2020-12-02 2020-12-02 用于图形推理题图像检索的方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413749.0A CN112464002A (zh) 2020-12-02 2020-12-02 用于图形推理题图像检索的方法、装置、存储介质和设备

Publications (1)

Publication Number Publication Date
CN112464002A true CN112464002A (zh) 2021-03-09

Family

ID=74800134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413749.0A Pending CN112464002A (zh) 2020-12-02 2020-12-02 用于图形推理题图像检索的方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN112464002A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064857A (zh) * 2011-10-21 2013-04-24 株式会社理光 图像查询方法及图像查询设备
CN107644105A (zh) * 2017-10-18 2018-01-30 广东小天才科技有限公司 一种搜题方法及装置
CN110413824A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 一种相似图片的检索方法及装置
CN111767421A (zh) * 2020-06-30 2020-10-13 北京字节跳动网络技术有限公司 用于检索图像方法、装置、电子设备和计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064857A (zh) * 2011-10-21 2013-04-24 株式会社理光 图像查询方法及图像查询设备
CN107644105A (zh) * 2017-10-18 2018-01-30 广东小天才科技有限公司 一种搜题方法及装置
CN110413824A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 一种相似图片的检索方法及装置
CN111767421A (zh) * 2020-06-30 2020-10-13 北京字节跳动网络技术有限公司 用于检索图像方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
JP6893233B2 (ja) 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
Goodfellow et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks
CN111563502B (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
KR101516712B1 (ko) 의미론적 시각 검색 엔진
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN115526259A (zh) 一种多模态预训练模型的训练方法和装置
CN110580516B (zh) 一种基于智能机器人的交互方法及装置
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
Surikov et al. Floor plan recognition and vectorization using combination unet, faster-rcnn, statistical component analysis and ramer-douglas-peucker
CN107644105A (zh) 一种搜题方法及装置
CN114549557A (zh) 一种人像分割网络训练方法、装置、设备及介质
CN114168768A (zh) 图像检索方法及相关设备
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
CN113837257A (zh) 一种目标检测方法及装置
CN111353325A (zh) 关键点检测模型训练方法及装置
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN114627312B (zh) 零样本图像分类方法、系统、设备及存储介质
CN111062388A (zh) 基于深度学习的广告文字的识别方法、系统、介质及设备
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
CN114359912B (zh) 基于图神经网络的软件页面关键信息提取方法及系统
CN112464002A (zh) 用于图形推理题图像检索的方法、装置、存储介质和设备
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination