CN116737981A - 插图题目的搜索方法、装置、电子设备及存储介质 - Google Patents
插图题目的搜索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116737981A CN116737981A CN202310929146.3A CN202310929146A CN116737981A CN 116737981 A CN116737981 A CN 116737981A CN 202310929146 A CN202310929146 A CN 202310929146A CN 116737981 A CN116737981 A CN 116737981A
- Authority
- CN
- China
- Prior art keywords
- image
- topic
- identified
- similarity
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 68
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种插图题目的搜索方法、装置、电子设备及存储介质,所述方法包括:将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回所述第一题目搜索结果;在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。本方案使得题目搜索相关系统具备了对非题目图像的识别能力,并且,采用轻量级图像识别模型进行识别,有助于提高识别效率。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种插图题目的搜索方法、装置、电子设备及存储介质。
背景技术
在智能教育领域,经常会遇到对用户上传的题目图像进行识别的场景。例如,在题目答疑系统中,题目答疑系统对用户上传的题目图像进行识别,并返回与该题目最相似的若干道题目及对应的答案与解析,供用户参考。
而在实际应用时,有些用户出于不明目的,会上传一些敏感图像等非题目图像至题目答疑系统中进行搜索,由于目前的题目答疑系统无法识别非题目图像,导致题目答疑系统对图像的辨别能力较差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种插图题目的搜索方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种插图题目的搜索方法,包括:
将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;
在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;
基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回所述第一题目搜索结果;
在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
根据本公开的另一方面,提供了一种插图题目的搜索装置,包括:
第一获取模块,用于将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;
第二获取模块,用于在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;
题目搜索模块,用于基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果;
第一返回模块,用于返回所述第一题目搜索结果;
第二返回模块,用于在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的插图题目的搜索方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的插图题目的搜索方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的插图题目的搜索方法。
本公开实施例中提供的一个或多个技术方案,通过将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果,在图像识别结果指示待识别图像为题目图像的情况下,将待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量,接着基于题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回第一题目搜索结果,在图像识别结果指示待识别图像为非题目图像的情况下,返回待识别图像为非题目图像的提示消息。采用本公开的方案,能够在进行题目搜索时识别出题目图像或非题目图像,对于题目图像才返回相应的题目搜索结果,对于非题目图像则进行提示,由此,使得题目搜索相关系统具备了对非题目图像的识别能力,并且,采用轻量级图像识别模型进行识别,有助于提高识别效率。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开一示例性实施例的插图题目的搜索方法的流程图;
图2示出了根据本公开另一示例性实施例的插图题目的搜索方法的流程图;
图3示出了根据本公开示例性实施例的插图题目的搜索装置的示意性框图;
图4示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下参照附图描述本公开提供的插图题目的搜索方法、装置、电子设备及存储介质。
图1示出了根据本公开一示例性实施例的插图题目的搜索方法的流程图,该方法可以由本公开实施例提供的插图题目的搜索装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中,所述电子设备包括手机、平板电脑等支持题目搜索功能的设备,也包括题目答题系统等智能学习设备。
如图1所示,该插图题目的搜索方法可以包括以下步骤:
步骤101,将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果。
其中,待识别图像可以是用户当前上传的图像,用户(例如学生)可以通过拍摄后上传、截图等方式上传待识别图像。待识别图像可能是包含插图的题目图像,也可能是敏感图像等非题目图像。
本公开实施例中,对于待识别图像,可以将待识别图像输入轻量级图像识别模型中,由轻量级图像识别模型对待识别图像进行图像识别,并输出图像识别结果。
其中,轻量级图像识别模型是预先训练得到的,考虑到题目搜索时对于响应时间的要求较高,因此本公开采用EfficientNet模型、MobileNet模型等轻量级模型训练得到轻量级图像识别模型用于图像识别。例如,EfficientNet模型具有较高的运行效率和较好的识别效果,因此可以采用EfficientNet模型作为初始模型,利用收集的大量训练样本对EfficientNet模型进行迭代训练,得到轻量级图像识别模型,用于对输入的图像进行图像识别,并输出图像识别结果。
示例性地,轻量级图像识别模型输出的图像识别结果可以仅包括类别号,例如0表示题目图像对应的类别号,1表示非题目图像对应的类别号,如果图像识别结果为0,则表示待识别图像为题目图像,如果图像识别结果为1,则表示待识别图像为非题目图像。
示例性地,轻量级图像识别模型输出的图像识别结果可以包括类别号(例如0表示题目图像,1表示非题目图像)及对应的置信度,当类别号为非题目图像的类别号且对应的置信度大于预设的置信度阈值时,则判定待识别图像为非题目图像,否则判定待识别图像为题目图像。其中,置信度阈值可以根据实际应用场景或者轻量级图像识别模型的训练效果进行设置,应用场景对于准确度的要求越高,可以设置越大的置信度阈值,但置信度阈值不超过1。例如,在高准确度识别场景,可以设置置信度阈值为0.95。
在本公开的一种可选实施方式中,在将待识别图像输入轻量级图像识别模型之前,还可以先对待识别图像进行预处理,预处理可以包括但不限于将图像缩放至固定大小、图像数据标准化,等等。
步骤102,在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量。
其中,题目图像特征提取模型是预先训练得到的,例如,可以预先收集若干题目图像作为训练样本,利用收集的训练样本对轻量级模型进行迭代训练,得到题目图像特征提取模型,用于对待识别图像进行特征提取。
本公开实施例中,获得待识别图像对应的图像识别结果之后,可以根据图像识别结果判断待识别图像是否为题目图像。如果图像识别结果指示待识别图像为题目图像,则可以将待识别图像(或者经过预处理后的待识别图像)输入预先训练的题目图像特征提取模型中,由题目图像特征提取模型进行特征提取,并输出对应的特征向量,称为第一题目特征向量。
步骤103,基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回所述第一题目搜索结果。
本公开实施例中,得到待识别图像对应的第一题目特征向量之后,可以利用第一题目特征向量在题目库中进行题目搜索,得到对应的题目搜索结果,称为第一题目搜索结果。其中,第一题目搜索结果中可以包括一个题目也可以包括多个题目,本公开对获取的第一题目搜索结果中包含的题目的个数不作限制。
示例性地,可以基于获取的第一题目特征向量在预先建好索引的题目库中进行查询,其中,题目库中的一道题目可以对应一个索引,该索引可以通过向量形式进行表示,可以将题目库中的各题目对应的特征向量作为题目的索引,题目库可以采用ES库,也可以采用Milvus等其他向量搜索库。在查询时,计算该第一题目特征向量与题目库中各索引之间的相似度,并按照相似度由高到低的顺序对各索引对应的题目进行排序,返回排序在前的N个题目作为第一题目搜索结果,N为正整数。
本公开实施例中,得到第一题目搜索结果之后,可以将第一题目搜索结果返回给用户,以供用户参考,实现待识别图像对应的题目搜索。
步骤104,在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
本公开实施例中,得到待识别图像对应的图像识别结果之后,如果图像识别结果指示待识别图像为非题目图像,则电子设备可以返回待识别图像为非题目图像的提示消息,以对用户进行提示告警相关信息,告知用户本次上传的图像不是题目图像,无法进行题目搜索。
示例性地,可以在电子设备的显示屏上以弹窗的形式显示如“图像错误,请上传包含题目的正确图像”等类似的提示消息,以对用户进行提示。
本公开实施例的插图题目的搜索方法,通过将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果,在图像识别结果指示待识别图像为题目图像的情况下,将待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量,接着基于题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回第一题目搜索结果,在图像识别结果指示待识别图像为非题目图像的情况下,返回待识别图像为非题目图像的提示消息。采用本公开的方案,能够在进行题目搜索时识别出题目图像或非题目图像,对于题目图像才返回相应的题目搜索结果,对于非题目图像则进行提示,由此,使得题目搜索相关系统具备了对非题目图像的识别能力,并且,采用轻量级图像识别模型进行识别,有助于提高识别效率。
在本公开的一种可选实施方式中,当图像识别结果指示待识别图像为非题目图像时,还可以将待识别图像(或者经过预处理后的待识别图像)输入预先训练的非题目图像特征提取模型,得到非题目特征向量,接着,基于该非题目特征向量在图像库中进行图像搜索,计算图像库中的每个图像分别与该非题目特征向量之间的相似度(称为第一相似度),在第一相似度中的最大值大于预设阈值的情况下,返回待识别图像为非题目图像的提示消息。
其中,预设阈值可以根据实际需求进行设置,本公开对预设阈值的具体取值不作限定。非题目图像特征提取模型是预先训练得到的,例如,可以预先收集若干非题目图像作为训练样本,利用收集的训练样本对轻量级模型进行迭代训练,得到非题目图像特征提取模型,用于对待识别图像进行特征提取。采用效率较高的轻量级模型训练得到题目图像特征提取模型和非题目图像特征提取模型,能够使得待识别图像的特征提取效率较高。
本公开实施例中,当图像识别结果指示待识别图像为非题目图像时,进一步将待识别图像输入非题目图像特征提取模型中进行特征提取,得到非题目特征向量,并利用该非题目特征向量在预先建好索引的图像库中进行图像搜索,其中,图像库中包含多张非题目图像,每张非题目图像可以对应一个索引,该索引可以用非题目图像的特征向量来表征。在进行图像搜索时,可以计算非题目特征向量与图像库中各索引之间的相似度作为该非题目特征向量与图像库中各非题目图像之间的相似度(称为第一相似度)。接着,可以从第一相似度中确定一个最大值,并将该最大值与预设阈值进行比较,如果该最大值大于该预设阈值,则判定待识别图像为非题目图像,返回待识别图像为非题目图像的提示消息。由此,实现了在图像识别模型识别出图像为非题目图像时,进一步通过提取特征并进行图像搜索的方式来进行二次判断,能够保证非题目图像的识别准确度。
图2示出了根据本公开另一示例性实施例的插图题目的搜索方法的流程图。如图2所示,该插图题目的搜索方法可以包括以下步骤:
步骤201,将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果。
步骤202,在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量。
步骤203,基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回所述第一题目搜索结果。
步骤204,在所述图像识别结果指示所述待识别图像非题目图像的情况下,将所述待识别图像输入预先训练的非题目图像特征提取模型,得到非题目特征向量。
步骤205,基于所述非题目特征向量在图像库中进行图像搜索,计算所述图像库中的每个图像分别与所述非题目特征向量之间的第一相似度。
步骤206,利用所述题目图像特征提取模型,获取所述待识别图像的第二题目特征向量。
步骤207,基于所述第二题目特征向量在所述题目库中进行题目搜索,计算所述题目库中的每个题目分别与所述第二题目特征向量之间的第二相似度。
能够理解的是,步骤204-步骤205和步骤206-步骤207的执行顺序不分先后,二者可以同时执行,也可以顺序执行,本实施例仅以步骤206-步骤207在步骤205之后执行作为示例来解释说明本公开,而不能作为对本公开的限制。
步骤208,在所述第一相似度中的最大值大于预设阈值,且所述第一相似度中的最大值大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息。
其中,预设阈值可以根据实际需求进行设置,本公开对其具体取值不作限定。
需要说明的是,对于本公开实施例中各步骤的具体说明,可以参见前述实施例的相关描述,此处不作赘述。
本公开实施例中,当图像识别结果指示待识别图像为非题目图像时,对待识别图像分别进行题目图像特征提取和非题目图像特征提取,其中,利用题目图像特征提取模型来提取得到第二题目特征向量,利用非题目图像特征提取模型提取得到非题目特征向量,进而计算题目库中每个题目分别与第二题目特征向量之间的相似度(称为第二相似度),以及计算图像库中每个图像分别与非题目特征向量之间的相似度(称为第一相似度),比较第一相似度中的最大值和第二相似度中的最大值、以及第一相似度中的最大值与预设阈值之间的大小关系,如果第一相似度中的最大值大于预设阈值,且第一相似度中的最大值大于第二相似度中的最大值,则判定待识别图像为非题目图像,进而返回待识别图像为非题目图像的提示消息。
在本公开的一种可选实施方式中,在第一相似度中的最大值不大于预设阈值,或者,第一相似度中的最大值不大于第二相似度中的最大值的情况下,则根据第二相似度,确定第二题目搜索结果,接着,返回第二题目搜索结果,以供用户参考,实现题目图像的题目搜索。例如,可以根据第二相似度对题目库中的各题目按照相似度由高到低的顺序进行排序,并获取排序在前的N个(N为正整数)题目作为第二题目搜索结果返回给用户。
考虑到在实际应用场景中,用户上传的非题目图像相对于题目图像要少得多,因此本公开的方案采用图像识别之前、特征提取及搜索在后的设计方式,使得在实际应用时,对于上传的题目图像执行的是一次识别、一次特征提取和一次搜索的流程,从而保证了题目搜索的效率。而对于被图像识别模型识别为非题目图像的极少数图像,则通过提取非题目特征向量和题目特征向量并分别进行搜索比较相似度的方式来二次判断上传的图像是否为非题目图像,由此,保证了处理效率的同时,也最大程度保证了准确率,相较于仅采用一个特征提取模型和一个搜索库的方式,本公开的方案的准确率获得极大提升。并且,本公开实施例中,采用题目图像特征提取模型来提取题目特征向量,采用非题目图像特征提取模型来提取非题目特征向量,这种特定的模型提取相应的特征向量的方式,相较于仅采用一个特征提取模型提取特征的方式,提取的特征向量的特征表达能力更强,有助于提高搜索结果的准确度。
本公开实施例的插图题目的搜索方法,通过在图像识别结果指示待识别图像为非题目图像时,进一步对其进行题目特征提取和非题目特征提取,并分别进行搜索,比较最大的相似度来判断待识别图像是否为非题目图像,这种多重判断和确认的方式,能够保证非题目图像判定结果的准确度。
在本公开的一种可选实施方式中,非题目图像特征提取模型还输出待识别图像的分类结果,其中,分类结果用于指示待识别图像是否为非题目图像。也就是说,非题目图像特征提取模型包括两个输出头,一个为特征输出头,另一个为分类输出头,其中,特征输出头用于输出待识别图像的非题目特征向量,分类输出头用于输出待识别图像是否为非题目图像的分类结果。这种多任务训练得到的非题目图像特征提取模型,增加的分类输出头能够使得模型提取的非题目特征向量的特征表征能力更好。
示例性地,非题目图像特征提取模型输出的分类结果可以仅包括类别号,例如0表示题目图像对应的类别号,1表示非题目图像对应的类别号,如果分类结果为0,则表示待识别图像为题目图像,如果分类结果为1,则表示待识别图像为非题目图像。
示例性地,非题目图像特征提取模型输出的分类结果可以包括类别号(例如0表示题目图像,1表示非题目图像)及对应的置信度,当类别号为非题目图像的类别号且对应的置信度大于预设的置信度阈值时,则判定待识别图像为非题目图像,否则判定待识别图像为题目图像。其中,置信度阈值可以根据实际应用场景或者非题目图像特征提取模型的训练效果进行设置,本公开对置信度阈值的具体取值不作限定。
本公开实施例中,非题目图像特征提取模型输出的分类结果可以用于对第一相似度中的最大值进行修正,以在待识别图像的图像质量较差时,修正图像搜索时的计算误差,在保证高准确性的前提下提升图像搜索结果的召回能力。
从而,本公开实施例中,在第一相似度中的最大值大于预设阈值,且第一相似度中的最大值大于第二相似度中的最大值的情况下,返回待识别图像为非题目图像的提示消息,可以包括:响应于非题目图像特征提取模型输出的分类结果指示待识别图像为非题目图像,将第一相似度中的最大值增加预设值,得到第三相似度;在第三相似度大于预设阈值,且第三相似度大于第二相似度中的最大值的情况下,返回待识别图像为非题目图像的提示消息。其中,预设值可以根据实际需求和经验进行设置,例如,预设值可以设置为0.1。如果第三相似度不大于预设阈值,或者,第三相似度不大于第二相似度中的最大值,则判定待识别图像为正常的题目图像,则根据第二相似度确定题目搜索结果,并向用户返回该题目搜索结果以供参考。例如,可以根据第二相似度,从题目库中获取相似度最高的N个题目作为题目搜索结果返回给用户,N为正整数。
在本公开实施例中,通过在非题目图像特征提取模型输出的分类结果指示待识别图像为非题目图像时,将图像搜索时计算的最大相似度增加预设值,得到第三相似度,进而将第三相似度分别与第二相似度中的最大值和预设阈值进行比较,来判断待识别图像是否为非题目图像,由此,有利于修复图像质量较差时图像搜索结果误差大的问题,在保证高准确度的同时,提升电子设备对非题目图像的召回能力,非常适用于插图题目搜索场景中。
在本公开的一种可选实施方式中,非题目图像特征提取模型和题目图像特征提取模型均采用轻量化模型,非题目图像特征提取模型的参数数量大于题目图像特征提取模型的参数数量。
例如,题目图像特征提取模型可以采用MobileNetV3-Small模型,非题目图像特征提取模型可以采用MobileNetV3-Large模型,MobileNetV3-Large模型和MobileNetV3-Small模型的网络结构相同,但两者的卷积核数量是不同的,MobileNetV3-Large模型的参数数量大于MobileNetV3-Small模型的参数数量。
考虑到用户上传的待识别图像大多数情况下为正常的题目图像,只有极少数情况下为非题目图像,因此本公开实施例中,题目图像特征提取模型采用轻量化的小体量模型,能够保证对题目图像进行特征提取的效率,而对于偶尔上传的非题目图像,则采用轻量化的大体量模型进行特征提取,非题目图像特征提取模型包含的模型参数的数量要多于题目图像特征提取模型包含的模型参数的数量,虽然包含的参数数量多会导致特征提取效率稍微低一些,但能保证提取的非题目特征向量的特征表达能力更好,从而使得图像搜索结果更准确。
在本公开的一种可选实施方式中,轻量级图像识别模型的网络结构与非题目图像特征提取模型的网络结构不同。
其中,轻量级图像识别模型的网络结构与非题目图像特征提取模型的网络结构不同,是指轻量级图像识别模型与非题目图像特征提取模型二者采用的不是同一种模型,例如均采用EfficientNet模型是不可以的,也不是同一系列的模型,例如,MobileNetV1、MobileNetV2和MobileNetV3属于同一系列的网络模型,它们的网络结构是相同的,则轻量级图像识别模型与非题目图像特征提取模型不能同是三种模型中的一种。
示例性地,轻量级图像识别模型可以采用EfficientNet模型,而非题目图像特征提取模型可以采用MobileNetV3模型,由于二者采用的是不同的模型,因此它们的网络结构是不同的。由此,能够保证对于待识别图像是否为非题目图像的判定结果的互补性,从而进一步提高非题目图像的识别准确度。
本公开示例性实施例还提供了一种插图题目的搜索装置。图3示出了根据本公开示例性实施例的插图题目的搜索装置的示意性框图,如图3所示,该插图题目的搜索装置30包括:第一获取模块310、第二获取模块320、题目搜索模块330、第一返回模块340和第二返回模块350。
其中,第一获取模块310,用于将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;
第二获取模块320,用于在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;
题目搜索模块330,用于基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果;
第一返回模块340,用于返回所述第一题目搜索结果;
第二返回模块350,用于在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
可选地,所述第二返回模块350,包括:
第一获取单元,用于在所述图像识别结果指示所述待识别图像非题目图像的情况下,将所述待识别图像输入预先训练的非题目图像特征提取模型,得到非题目特征向量;
第二获取单元,用于基于所述非题目特征向量在图像库中进行图像搜索,计算所述图像库中的每个图像分别与所述非题目特征向量之间的第一相似度;
返回单元,用于在所述第一相似度中的最大值大于预设阈值的情况下,返回所述待识别图像为非题目图像的提示消息。
可选地,所述第二返回模块350,还包括:
第三获取单元,用于利用所述题目图像特征提取模型,获取所述待识别图像的第二题目特征向量;
第四获取单元,用于基于所述第二题目特征向量在所述题目库中进行题目搜索,计算所述题目库中的每个题目分别与所述第二题目特征向量之间的第二相似度;
所述返回单元,还用于:在所述第一相似度中的最大值大于预设阈值,且所述第一相似度中的最大值大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息。
可选地,所述非题目图像特征提取模型还输出所述待识别图像的分类结果;所述返回单元,还用于:
响应于所述分类结果指示所述待识别图像为非题目图像,将所述第一相似度中的最大值增加预设值,得到第三相似度;
在所述第三相似度大于所述预设阈值,且所述第三相似度大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息。
可选地,所述第二返回模块350,还包括:
第五获取单元,用于在所述第一相似度中的最大值不大于预设阈值,或者,所述第一相似度中的最大值不大于所述第二相似度中的最大值的情况下,根据所述第二相似度,确定第二题目搜索结果;
所述返回单元,还用于返回所述第二题目搜索结果。
可选地,所述非题目图像特征提取模型和所述题目图像特征提取模型均采用轻量化模型,所述非题目图像特征提取模型的参数数量大于所述题目图像特征提取模型的参数数量。
可选地,所述轻量级图像识别模型的网络结构与所述非题目图像特征提取模型的网络结构不同。
本公开实施例所提供的插图题目的搜索装置,可执行本公开实施例所提供的任意可应用于电子设备的插图题目的搜索方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的插图题目的搜索方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的插图题目的搜索方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的插图题目的搜索方法。
参考图4,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1108可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,插图题目的搜索方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行插图题目的搜索方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (10)
1.一种插图题目的搜索方法,其中,所述方法包括:
将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;
在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;
基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果并返回所述第一题目搜索结果;
在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
2.如权利要求1所述的插图题目的搜索方法,其中,所述在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息,包括:
在所述图像识别结果指示所述待识别图像非题目图像的情况下,将所述待识别图像输入预先训练的非题目图像特征提取模型,得到非题目特征向量;
基于所述非题目特征向量在图像库中进行图像搜索,计算所述图像库中的每个图像分别与所述非题目特征向量之间的第一相似度;
在所述第一相似度中的最大值大于预设阈值的情况下,返回所述待识别图像为非题目图像的提示消息。
3.如权利要求2所述的插图题目的搜索方法,其中,所述方法还包括:
利用所述题目图像特征提取模型,获取所述待识别图像的第二题目特征向量;
基于所述第二题目特征向量在所述题目库中进行题目搜索,计算所述题目库中的每个题目分别与所述第二题目特征向量之间的第二相似度;
所述在所述第一相似度中的最大值大于预设阈值的情况下,返回所述待识别图像为非题目图像的提示消息,包括:
在所述第一相似度中的最大值大于预设阈值,且所述第一相似度中的最大值大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息。
4.如权利要求3所述的插图题目的搜索方法,其中,所述非题目图像特征提取模型还输出所述待识别图像的分类结果;
所述在所述第一相似度中的最大值大于预设阈值,且所述第一相似度中的最大值大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息,包括:
响应于所述分类结果指示所述待识别图像为非题目图像,将所述第一相似度中的最大值增加预设值,得到第三相似度;
在所述第三相似度大于所述预设阈值,且所述第三相似度大于所述第二相似度中的最大值的情况下,返回所述待识别图像为非题目图像的提示消息。
5.如权利要求3所述的插图题目的搜索方法,其中,所述方法还包括:
在所述第一相似度中的最大值不大于预设阈值,或者,所述第一相似度中的最大值不大于所述第二相似度中的最大值的情况下,根据所述第二相似度,确定第二题目搜索结果;
返回所述第二题目搜索结果。
6.如权利要求3所述的插图题目的搜索方法,其中,所述非题目图像特征提取模型和所述题目图像特征提取模型均采用轻量化模型,所述非题目图像特征提取模型的参数数量大于所述题目图像特征提取模型的参数数量。
7.如权利要求2-6任一项所述的插图题目的搜索方法,其中,所述轻量级图像识别模型的网络结构与所述非题目图像特征提取模型的网络结构不同。
8.一种插图题目的搜索装置,其中,所述装置包括:
第一获取模块,用于将待识别图像输入预先训练的轻量级图像识别模型,得到图像识别结果;
第二获取模块,用于在所述图像识别结果指示所述待识别图像为题目图像的情况下,将所述待识别图像输入预先训练的题目图像特征提取模型,得到第一题目特征向量;
题目搜索模块,用于基于所述题目特征向量在题目库中进行题目搜索,得到第一题目搜索结果;
第一返回模块,用于返回所述第一题目搜索结果;
第二返回模块,用于在所述图像识别结果指示所述待识别图像为非题目图像的情况下,返回所述待识别图像为非题目图像的提示消息。
9.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的插图题目的搜索方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的插图题目的搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310929146.3A CN116737981A (zh) | 2023-07-26 | 2023-07-26 | 插图题目的搜索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310929146.3A CN116737981A (zh) | 2023-07-26 | 2023-07-26 | 插图题目的搜索方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737981A true CN116737981A (zh) | 2023-09-12 |
Family
ID=87909763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310929146.3A Pending CN116737981A (zh) | 2023-07-26 | 2023-07-26 | 插图题目的搜索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737981A (zh) |
-
2023
- 2023-07-26 CN CN202310929146.3A patent/CN116737981A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830235B (zh) | 用于生成信息的方法和装置 | |
US11436863B2 (en) | Method and apparatus for outputting data | |
EP3989104A1 (en) | Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium | |
KR102576344B1 (ko) | 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램 | |
CN110347866B (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN115100659B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113810765B (zh) | 视频处理方法、装置、设备和介质 | |
CN113033373B (zh) | 用于训练人脸识别模型及识别人脸的方法及相关装置 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN113850235B (zh) | 一种文本处理方法、装置、设备及介质 | |
CN113850805B (zh) | 多文档检测方法、装置、电子设备及存储介质 | |
CN113792133B (zh) | 判题方法、装置、电子设备和介质 | |
CN115700845A (zh) | 人脸识别模型训练方法、人脸识别方法、装置及相关设备 | |
CN116737981A (zh) | 插图题目的搜索方法、装置、电子设备及存储介质 | |
CN114298182A (zh) | 资源召回方法、装置、设备及存储介质 | |
CN114218428A (zh) | 音频数据聚类方法、装置、设备及存储介质 | |
CN113610064B (zh) | 笔迹识别方法和装置 | |
CN113722466B (zh) | 批改模型训练方法、批改方法、装置、电子设备和介质 | |
CN113627399B (zh) | 题目处理方法、装置、设备及存储介质 | |
CN116665239A (zh) | 一种重题判断方法、装置、设备和存储介质 | |
CN116612488A (zh) | 书籍封面的识别方法、装置、电子设备及存储介质 | |
CN118397630A (zh) | 题卡识别方法、装置、电子设备及存储介质 | |
CN115761717A (zh) | 题目图像的识别方法、装置、电子设备及存储介质 | |
CN116595213A (zh) | 几何图形题目的搜索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |