CN116075820A - 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 - Google Patents
用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 Download PDFInfo
- Publication number
- CN116075820A CN116075820A CN202180038494.0A CN202180038494A CN116075820A CN 116075820 A CN116075820 A CN 116075820A CN 202180038494 A CN202180038494 A CN 202180038494A CN 116075820 A CN116075820 A CN 116075820A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- applying
- doped
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于搜索图像数据库的方法包括:接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;将第一神经网络应用于所述掺杂图像;将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及选择所述参考图像数据库的具有高于阈值相关值的相关值的至少一个图像作为匹配图像。所述方法可以包括将掩膜应用于所述掺杂图像。所述掩膜可以包括:经由第二神经网络对所述掺杂图像执行对象识别;基于所述对象识别,应用计算机视觉以相对于边界框检测标注特征;以及生成所述对象的轮廓掩膜。
Description
相关申请的交叉引用
本申请是2021年5月28日提交的美国专利申请号17/333,707的继续申请,并要求2020年5月29日提交的美国临时专利申请号63/032,432的权益,每个申请出于所有目的通过引用整体并入本文。
背景技术
技术领域
本公开涉及搜索具有标签和注释的图像。
相关技术描述
执行图像搜索由于包括图像噪声(诸如注释和标签)的参考和/或样本图像而变得复杂。此类图像噪声可能使现有的图像匹配算法混淆,并且可能降低它们的输出,因为注释和标签的相似特征被不正确地匹配。这可能对专利图像和专利图像搜索特别有影响。
因此,本公开解决了这些复杂性以便实现广泛适用于并具体适合于专利图像搜索的图像搜索工具。
以上“背景”描述的目的在于总体地呈现本公开的背景。发明人的研究(在本背景部分中对其进行描述的程度上)以及所述描述的在提交时可能未另外算作现有技术的方面既不明确地也不暗示地承认是对抗本公开的现有技术。
发明内容
本公开涉及搜索图像数据库。
根据一个实施方案,本公开还涉及一种用于搜索图像数据库的方法,其包括:通过处理电路接收对象的掺杂图像(adulterated image),所述掺杂图像包括用于视觉参考的对象注释;通过所述处理电路将第一神经网络应用于所述掺杂图像;通过所述处理电路将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及通过所述处理电路选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
根据一个实施方案,本公开还涉及一种存储计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令在由计算机执行时使所述计算机执行用于搜索图像数据库的方法,所述方法包括:接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;将第一神经网络应用于所述掺杂图像;将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
根据一个实施方案,本公开还涉及一种用于执行用于搜索图像数据库的方法的设备,其包括处理电路,所述处理电路被配置为:接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;将第一神经网络应用于所述掺杂图像;将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
以上段落是作为一般性介绍而提供的,而并不意图限制以下权利要求的范围。通过参考结合附图进行的以下详细描述,将最好地理解所描述的实施方案以及其他优点。
附图说明
通过参考在结合附图考虑时的以下详细描述,将容易更全面地认识并更好地理解本公开及其许多伴随优点,在附图中:
图1是根据本公开的示例性实施方案的机械图的图示;
图2A是根据本公开的示例性实施方案的用于搜索图像数据库的方法的流程图;
图2B是根据本公开的示例性实施方案的第一神经网络的示意图;
图3是根据本公开的示例性实施方案的第一神经网络的结果的图示;
图4是根据本公开的示例性实施方案的第一神经网络的结果的图示;
图5是根据本公开的示例性实施方案的用于搜索图像数据库的方法的流程图;
图6A是根据本公开的示例性实施方案的用于搜索图像数据库的方法的子过程的流程图;
图6B是根据本公开的示例性实施方案的第二神经网络的结果的图示;
图6C是根据本公开的示例性实施方案的轮廓掩膜的图示;
图7A是根据本公开的示例性实施方案的用于搜索图像数据库的方法的子过程的流程图;
图7B是根据本公开的示例性实施方案的编辑图像的图示;
图8是根据本公开的示例性实施方案的在训练阶段期间使用的参考图的图示;
图9A是根据本公开的示例性实施方案的用于合成注释参考图的方法的流程图;
图9B是根据本公开的示例性实施方案的在训练阶段期间使用的合成注释参考图的图示;
图9C是根据本公开的示例性实施方案的与在训练阶段期间使用的合成注释参考图对应的第一神经网络的结果的图示;
图10A是根据本公开的示例性实施方案的被部署在用于搜索图像数据库的方法中的神经网络的训练阶段的流程图;
图10B是根据本公开的示例性实施方案的被部署在用于搜索图像数据库的方法中的神经网络的训练阶段的流程图;
图11是根据本公开的示例性实施方案的用于搜索图像数据库的方法的训练阶段的流程图;
图12是人工神经网络的实施方式的一般流程图;
图13是根据本公开的示例性实施方案的卷积神经网络的实施方式的流程图;
图14A是前馈人工神经网络的示例;
图14B是根据本公开的实施方案的卷积神经网络的示例;以及
图15是根据本公开的示例性实施方案的用于执行用于搜索图像的方法的装置的硬件配置的示意图。
具体实施方式
如本文所使用的术语“一个”被定义为一个或多于一个。如本文所使用的术语“多个”被定义为两个或超过两个。如本文所使用的术语“另一个”被定义为至少第二个或更多个。如本文所使用的术语“包括”和/或“具有”被限定为包括(即,开放式语言)。在本说明书中提及“一个实施方案”、“某些实施方案”、“实施方案”、“实施方式”、“示例”或类似术语意味着结合实施方案描述的特定特征、结构或特性包括在本公开的至少一个实施方案中。因此,此类短语在本说明书的各种地方出现不一定都指代同一实施方案。此外,特定特征、结构或特性可在一或多个实施方案中以任何合适方式且无限制地组合。
基于内容的图像检索(也被称为按图像内容查询和基于内容的视觉信息检索)是将计算机视觉技术应用于图像检索问题。换句话说,它是在大型数据库中搜索数字图像的问题。
“基于内容”是指搜索分析图像的内容而不是元数据,诸如与图像相关联的关键字、标签或描述。在本背景中,术语“内容”可指代颜色、形状、纹理或可以从图像本身导出的任何其他信息。在一个示例中,术语“内容”可指代整个图像。基于内容的图像检索是期望的,因为纯粹依赖于元数据的搜索取决于注释质量和完整性。为此,让人类通过在大型数据库中输入关键字或元数据来手动注释图像可能非常耗时,并且可能无法捕获描述图像所需的关键字。
尽管任何图像都可能受到基于内容的图像检索搜索,但是执行准确且有效的图像搜索的能力对于必须比较图像以便确定类似图像以前是否注册过的监管机构至关重要。可以易于理解,这种系统可以应用于知识产权。具体地,这种方法可以应用于专利审查,并且可以用于帮助专利审查员试图将专利图或图像与专利图的参考数据库内的图像进行比较。
然而,直接将图像搜索应用于专利图可能是低效且不准确的,这是由于如图1所示,“噪声”包括标注101、基于文本的特征和仅仅试图指出或描述作为专利图的焦点的底层对象的其他描述性特征。结果,并且在理解类似底层对象可能具有不同的布置和类型的噪声的情况下,直接应用于专利图的图像搜索可能导致以繁琐方式得出不准确结果。
在解决这些缺陷时,本公开描述了一种用于从图像中删除“噪声”,从而允许将图像用于图像搜索的方法、计算机可读介质和设备。具体地,本公开的方法适用于专利图,其中标注、基于文本的特征和其他描述性特征可能不一致并且使图像的底层对象混淆。
根据一个实施方案,本公开描述了一种用于从专利图中清除“噪声”的方法。所述方法可以被部署用于生成参考图像数据库,或者可以在搜索特定‘新’图像时实时部署。
根据一个实施方案,本公开描述了一种用于搜索图像数据库的方法,所述方法包括接收对象的掺杂图像并将第一神经网络应用于掺杂图像以识别和删除“噪声”。所述方法还包括将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象。所述方法还包括选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
根据一个实施方案,光学字符识别方法可以与本文描述的方法集成。例如,如果能够识别与专利图的标注相关联的参考编号,则可以基于所识别的参考编号搜索并找到专利申请说明书中的对应语言。这种方法可以被包括作为帮助广泛搜索申请的预处理步骤。
由于它涉及专利,并且现在参考附图,可以理解附图通常包括在专利申请中以便解释主题。这些图包含“噪声”,诸如标注、基于文本的特征和其他描述性特征。例如,图包括诸如附图标记、引线和箭头的注释,如图1所示。然而,如上文所介绍,此类注释可能干扰用于图像搜索的标准图像识别算法。因此,如在本公开中所描述的,可以识别和删除注释以允许生成干净图像的数据库或用于实时生成可搜索图像。
根据一个实施方案,并且现在参考图2A和图2B,描述了用于图像搜索的方法200。应当理解,方法200可以部分地或全部地由本地或远程处理电路来执行。例如,单个装置可以执行方法200的每个步骤,或者第一装置可以向执行处理的第二装置发送请求。
在方法200的步骤205处,可以接收对象的掺杂图像。掺杂图像可以是具有“噪声”的图像。在专利申请的背景中,掺杂图像可以是具有注释(诸如标注、基于文本的特征和其他描述性特征)的专利图。例如,图1的专利图可以被认为是掺杂图像。
在方法200的子过程210处,可以将第一神经网络应用于掺杂图像。在一个实施方案中,第一神经网络可以采用像素级分类模型。神经网络可以是卷积神经网络,并且分类模型可以通过深度学习进行训练以便检测图像内的注释。
在一个实施方案中,第一神经网络可以包括至少一个编码器/解码器网络。第一神经网络可以被配置为执行语义分割任务。此外,第一神经网络可以被配置为通过基于自注意力机制捕获丰富的背景相关性来执行场景分割任务。
在一个实施方案中,第一神经网络可以包括两个模块,如图2B所示并且如稍后参考图10A中所示的训练阶段进行描述。第一神经网络的第一模块223可以接收掺杂图像222作为输入。例如,第一神经网络的第一模块223可以包括卷积层和反卷积层。在处理掺杂图像222之后,第一神经网络的第一模块223可以生成注释掩膜224。注释掩膜224然后可以由第一神经网络的第二模块226使用以便识别注释并将它们从掺杂图像中删除。为此,第一神经网络的第二模块226可以接收由第一神经网络的第一模块223生成的掺杂图像222和注释掩膜224。例如,第一神经网络的第二模块226可以包括卷积层和反卷积层。第一神经网络的第二模块226可以根据注释掩膜224来处理掺杂图像222并输出没有注释的编辑图像227。此外,输出的编辑图像227可以包括图像修复。换句话说,在注释穿过图像的底层对象的一条线并驻留在底层对象‘内’的实例中,可以将这种注释‘涂’成白色以便将其从图像中删除。
根据上文,可以理解,第一神经网络的目标是从掺杂图像中删除注释并输出干净的编辑图像。为此,第一神经网络的第二模块226可以在没有来自第一神经网络的第一模块223的输入的情况下单独用于输出编辑图像。然而,也可以理解,第一神经网络的第二模块226可能不如期望的准确和/或精确,因此将注释掩膜224作为例如初始猜测提供给第一神经网络的第二模块226不仅提高了第一神经网络的第二模块226的准确性和/或精度,而且提高了速度。此外,因为它涉及训练和图10A,因此第一神经网络的第一模块223与第一神经网络的第二模块226的结合使用提高了训练速度和训练准确性。
在一个实施方案中,第一神经网络的第一模块和第二神经网络的第二模块可以与像素级分割网络集成。例如,第一神经网络可以包括与UNet架构相结合的至少一个编码器/解码器网络。在一个实例中,第一神经网络可以是单个神经网络。在另一种情况下,第一神经网络的模块可以是单独的神经网络。
如上所述,第一神经网络的第一模块223的输出可以是注释掩膜,如图3所示,其中注释保留,但是掺杂图像的底层对象被删除。第一神经网络的第二模块226的输出可以是掺杂图像的干净版本,如图4所示,所识别的注释从掺杂图像中删除以呈现干净图像。此外,为了视觉保真度,可以对空白空间进行图像修复。
现在返回到图2A,作为图像搜索过程的一部分,可以在方法200的步骤245处处理干净的编辑图像。具体地,当目标是识别参考图像数据库内的匹配图像时,方法200的步骤245可以包括确定干净图像与参考图像数据库内的每个图像之间的相关性。
在方法200的步骤250处,可以评估确定的相关性以便选择至少一个匹配图像。在一个实施方案中,所述选择可以基于确定的相关性的排名,其中识别出参考图像数据库的前n个相关图像。在一个实施方案中,所述选择可以基于确定的相关性与阈值相关值的比较,参考图像数据库的所有图像与被选择的干净图像充分相关。
通过执行方法200,例如专利审查员可能够立即识别出具有与先前掺杂图像类似的图像的许多专利图和/或专利公开。
根据图4的目视检查或方法200的第一神经网络的输出,可以理解,某些线、箭头和数字仍然存在并且可能使图像搜索复杂化。因此,现在参考图5,描述了根据本公开的示例性实施方案的用于图像搜索的方法500。
在一个实施方案中,方法500采用参考图2A和图2B描述的第一神经网络以及掩膜处理。掩膜处理可以包括计算机视觉技术。在一个示例中,掩膜处理可以包括第二神经网络。应当理解,方法500可以部分地或全部地由本地或远程处理电路来执行。例如,单个装置可以执行方法500的每个步骤,或者第一装置可以向执行处理的第二装置发送请求。
在方法500的步骤505处,可以接收对象的掺杂图像。掺杂图像可以是具有“噪声”的图像。在专利申请的背景中,掺杂图像可以是具有注释(诸如标注、基于文本的特征和其他描述性特征)的专利图。例如,图1的专利图可以被认为是掺杂图像。
在方法500的步骤510处,可以将第一神经网络应用于掺杂图像。在一个实施方案中,第一神经网络可以采用像素级分类模型。神经网络可以是卷积神经网络,并且分类模型可以通过深度学习进行训练以便检测图像内的注释。
在一个实施方案中并且如参考图2B所述,第一神经网络可以是包括两个模块的神经网络。第一神经网络的第一模块的输出可以是掺杂图像的掩膜,如图3所示,其中注释保留,但是掺杂图像的底层对象被删除。第一神经网络的第二模块的输出可以是掺杂图像的干净版本,如图4所示,来自第一神经网络的第一模块的注释掩膜用于从掺杂图像中识别和删除注释以呈现干净图像。
同时,在方法500的子过程515处,可以将包括第二神经网络和计算机视觉技术的掩膜处理应用于掺杂图像。在一个实施方案中,第二神经网络是标签边界框检测器网络,其被配置为围绕附图标记和图形标签生成小边界框。然后可以将检测到的边界框与计算机视觉技术一起使用来检测箭头和线。检测到的边界框和检测到的箭头和线可以一起用于生成轮廓掩膜,所述轮廓掩膜将注释与图像的底层对象隔离。
具体地并且现在参考图6A至图6C,第二神经网络可以是卷积神经网络,其被配置为在子过程515的步骤620处对掺杂图像执行对象识别。在一个示例中,如图6B所示,在对应置信度值的情况下,第二神经网络可以是基于深度学习的神经网络,其被配置为识别附图标记并生成围绕附图标记和图形标签的边界框617。在子过程515的步骤625处,基于深度学习的神经网络可以被进一步配置为与边界框处理并行或串行地执行计算机视觉技术以识别与边界框相关联的箭头和线。替代地,可以通过图像处理技术来执行子过程515的步骤625。图像处理技术可以包括例如计算机视觉技术,所述计算机视觉技术被配置为与边界框处理并行或串行地执行与边界框相关联的箭头和线的识别。在任一实例中,执行子过程515的步骤625允许识别图像的底层对象的主要外形轮廓。因此,子过程515的输出可以是与图像的底层对象相关联的轮廓掩膜622(如图6C所示,在子过程515的步骤630处生成的轮廓掩膜),轮廓掩膜622将图像的底层对象隔离。
现在返回到图5,可以在方法500的子过程535处将应用第一神经网络的结果和应用掩膜处理(即,第二神经网络和计算机视觉技术)的结果单独地或以任意组合进行组合以便编辑掺杂图像。例如,作为应用第一神经网络的结果而生成的编辑的干净图像可以与在方法500的子过程515处生成的轮廓掩膜组合或融合。
为此并且现在参考图7A和图7B,可以根据子过程535来执行应用第一神经网络的结果与应用掩膜处理的结果的融合。在子过程535的步骤736处,可以接收应用第一神经网络的结果和应用掩膜处理的输出。应用掩膜处理的输出可以包括检测到的边界框和作为应用掩膜处理的结果而生成的轮廓掩膜。同时,也可能接收到掺杂图像。在子过程535的步骤737处,在应用第一神经网络的结果(即,编辑的干净图像)内识别检测到的边界框并且删除框内容。在子过程535的步骤738处,评估掺杂图像以将连接的黑色像素组识别为区域。然后可以评估每个区域以确定所述区域是否在通过应用掩膜处理生成的轮廓掩膜之外,所述区域与最近边界框之间的距离是否小于框距离阈值,以及所述区域的面积是否小于区域的大小阈值。如果确定掺杂图像内的区域满足这三个条件,则所述区域可以作为应用第一神经网络的结果从编辑的干净图像输出中擦除。
在方法500的子过程535处生成的编辑图像(其示例在图7B中示出)可以被提供给方法500的步骤540并用作图像搜索过程的一部分。具体地,当目标是识别参考图像数据库内的匹配图像时,方法200的步骤540可以包括确定编辑图像与参考图像数据库内的每个图像之间的相关性。
在方法500的步骤545处,可以评估确定的相关性以便选择至少一个匹配图像。在一个实施方案中,所述选择可以基于确定的相关性的排名,其中识别出参考图像数据库的前n个相关图像。在一个实施方案中,所述选择可以基于确定的相关性与阈值相关值的比较,参考图像数据库的所有图像与被选择的编辑图像充分相关。
在一个实施方案中,单独或以任何组合从第一神经网络、第二神经网络和/或计算机视觉技术中的任一者中提取的特征也可以单独地用于图像搜索,而无需生成组合图像。为此,干净图像或中间图像的提取特征可以用作可搜索图像(或特征),以用于与参考数据库的图像进行比较。由于它涉及专利,因此这可以允许准确搜索专利数据库以识别具有相关图像的专利文献。例如,在专利申请的审查期间,未决申请的图像可以在专利文献参考数据库的检索期间用作查询,其中检索结果是包含与查询图像匹配的图像的专利文献。
换句话说,根据一个实施方案,本公开描述了一种用于基于接收到的图像输入来搜索专利图像数据库以识别一个或多个匹配专利图像的方法。所述方法可以包括:接收对象的图像,所述图像在一个示例中是来自专利申请的注释图像;将第一神经网络应用于注释图像;基于第一神经网络的应用生成注释图像的干净图像;将对象的干净图像与包括对象的参考图像数据库的每个图像或在一个示例中来自已公开专利文献的图像相关;以及基于相关性选择包括一个匹配对象的一个或多个匹配图像。在一个实施方案中,所述方法还可以包括将掩膜处理应用于注释图像,所述掩膜处理包括被配置为检测边界框的第二神经网络和被配置为识别箭头、线等的计算机视觉技术。检测到的边界框和识别出的箭头、线等可以用于生成图像的底层对象的轮廓掩膜,所述轮廓掩膜与通过应用第一神经网络生成的干净图像结合使用以产生图像的底层对象的编辑的干净图像。
在另一个实施方案中,所述方法还可以包括:基于注释掩膜、干净图像和轮廓掩膜提取对象的特征;将对象的提取特征与包括对象的参考图像数据库的每个图像的特征相关;以及基于相关性选择包括匹配对象的一个或多个匹配图像。
除上述之外,可以理解,在深度学习中,通常需要数千张标记图像来训练分类器(例如,卷积神经网络(CNN)分类器)。通常,这些标记图像是手动标记的,这是一项需要大量时间和计算资源的任务。为此,本公开描述了一种合成数据生成方法。合成数据生成方法可以被配置为处理没有注释的专利设计图,诸如图8中的那些,并对其应用随机注释。
可以应用随机注释使得满足某些条件,诸如确保引线不彼此相交并且附图标记在图上不重叠。
为此,图9A提供了对描述生成合成注释图的方法950的描述。在生成单个标注的背景中描述了方法950,其中可以重复方法950以便根据需要注释图像。
在方法950的步骤951处,执行轮廓检测以检测图像的底层对象的线。在方法950的步骤952处,可以生成距离图。距离图可以是与图像具有相同大小的矩阵,其中矩阵的每个值是距最近黑色像素的距离。在方法950的步骤953处,可以选择随机轮廓像素作为引线起点。在一个实施方案中,可以添加随机扰动,使得引线并不总是从图线上开始。在方法950的步骤954处,可以随机选择引线终点。引线终点可能偏向图像的空白区域。在其他情况下,对引线终点的选择可能偏向矩阵(即,距离图)内的高值。在方法950的步骤955处,可以执行检查以识别引线与现有引线之间的相交点。如果检测到相交点,则可以重新生成引线。可以任选地执行步骤956和步骤957。在方法950的步骤956处,可以对引线的附加控制点进行采样以生成贝塞尔曲线。在方法950的步骤957处,可以在引线起点处生成箭头。最后,在方法950的步骤958处,可以对随机数文本和字体进行采样并将其放置在引线终点附近。可以应用附加的随机化,包括色偏和椒盐噪声。
根据方法950,图9B是合成注释图像的图示。图8可以用作视觉参考。图9C提供了合成注释的孤立视图。
除上文之外,还可以理解,由于它涉及生成训练数据库,因此本公开提供了一种用于自动地且在没有人为干预的情况下生成用于训练神经网络的训练数据库的方法。
在合成地生成训练数据库之后,可以根据图10A和图10B的流程图训练本文所述的第一神经网络和第二神经网络。通常,特别是当它涉及图10A时,可以处理未掺杂专利图(例如,机械设计图)以便生成合成注释掩膜和合成注释图像。合成注释图像可以用作训练输入,并且合成注释掩膜和未掺杂图像可以用作地面实况数据。当它涉及图10B时,合成注释图像可以作为训练输入提供,并且目标边界框可以用作地面实况数据。
参考图10A,第一神经网络可以被分为生成注释掩膜的第一模块1023和输出已删除注释的干净图像的第二模块1033。第一模块和第二模块中的每一者可以包括卷积块和反卷积块。卷积块(其可以包括一系列卷积运算和池化运算)捕获信息并将信息编码为图像数据。为了学习与卷积/反卷积过程相关联的权重,可以使用梯度反向传播以实现使损失函数(例如,均方误差)最小化的目标,这将稍后进行描述。来自第一模块的注释掩膜输出(其可以是二进制结果)可以通过二进制交叉熵来评估。通过这种方式,可以理解,第一模块是更容易解决的问题(即,它收敛得更快)。因此,它的输出可以被提供给第二模块,如图10A所示。
在每个模型都经过训练和部署之后,专利图像代替合成注释图像被馈入。
参考图10B,第二神经网络可以是对象识别神经网络。具体地,第二神经网络可以是基于卷积神经网络(CNN)的边界框检测器,并且可以基于合成数据进行训练以便识别附图标记和图号。在一个示例中,可以使用更快的R-CNN架构,尽管在不脱离本公开的精神的情况下可以采用其他架构。例如,第一模型迭代可以基于纯合成数据进行训练。然后可以使用这种模型来标记真实(即,非合成)专利图,并且这些标签可以由人工验证者检查。然后可以使用经人工验证的数据在第二次迭代中微调模型,以便提高模型的准确性。
当第一神经网络是像素级CNN时,应当理解,所述模型可能不完美,并且偶尔可能会生成缺失的注释。因此,本公开将第二神经网络描述为可以被执行以便改进第一神经网络的输出的方法。如图6A至图6C,轮廓检测(诸如可从开源OpenCV库获得)可以用于查找图像中的轮廓。可以基于大小检测主要轮廓。主要轮廓之外并在检测到的附图标记附近结束的线被假定为引线并且可以被擦除。类似地,可以擦除检测到的附图标记。
根据一个实施方案,CNN网络可以基于具有带噪声和不具有噪声的图像的合成图像数据对进行训练。这种经过训练的网络的中间层可以用作图像特征,以进一步提高相似度得分,从而忽略已知的噪声类型。
现在返回到附图,图10A和图10B是根据本公开的示例性实施方案的被部署在用于搜索图像数据库的方法中的神经网络的训练阶段860的流程图。具体地,图10A和图10B对应于在本公开的方法200和方法500内采用的神经网络。
训练阶段860可以包括至少一个神经网络的优化,所述神经网络可以随应用而变化并且可以包括残差网络、卷积神经网络、编码器/解码器网络等。
通常,至少一个神经网络中的每一者接收训练数据或者例如合成标记的训练图像作为输入。至少一个神经网络中的每一者可以被配置为输出单独的数据,但是可以输出例如相对于参考数据被最小化的估计图像、估计注释掩膜或编辑图像。在一种情况下,在它涉及图10A时,训练数据1021可以包括合成注释图1022、对应的合成注释掩膜1025和对应的干净图1027。训练阶段860可以包括由神经网络的第一模块1023估计注释掩膜1024和由神经网络的第二模块1033估计编辑图像1026。估计图1026和估计注释掩膜1024可以分别与干净图1027和合成的注释掩膜1025进行比较,以便计算目标值(即,训练数据的‘真实’值)与估计值之间的误差。可以在1028'和1028"处评估这种误差,并且所述误差允许至少一个神经网络迭代地更新并提高其预测能力。在另一种情况下,在它涉及图10B时,训练数据1021可以包括合成注释图1022和对应的‘真实’边界框1037。‘真实’边界框1037可以是人工标记的,例如注释。训练阶段860可以包括估计边界框1029。可以将估计的边界框1029与‘真实’边界框1037进行比较,以便计算目标值(即,训练数据的‘真实’值)与估计值之间的误差。可以在1028处评估这种误差,并且所述误差允许至少一个神经网络迭代地更新并提高其预测能力。
具体地,在它涉及图10A(其可以与本公开的第一神经网络相关联)时,训练阶段860可以包括训练第一神经网络的第一模块1023和第一神经网络的第二模块1033。
训练第一神经网络的每个模块和/或整体训练第一神经网络可以如关于图10A所描述的那样进行。
在一个实施方案中,训练第一神经网络的模块开始于从训练数据库获得训练数据1021。训练数据可以包括合成注释图1022和对应的合成注释掩膜1025,对应的合成注释掩膜1025是基于合成注释图1022生成的。合成注释图1022可以作为第一神经网络的第一模块1023的输入层提供。输入层可以被提供给第一神经网络的第一模块1023的隐藏层。如果神经网络的第一模块1023的架构遵循以上卷积/反卷积描述,则隐藏层可以包括:收缩阶段,所述收缩阶段包括卷积层、连接层、子采样层、池化层、批量归一化层和激活层等中的一者或多者;以及扩展阶段,所述扩展阶段包括卷积层、连接层、上采样层、反向子采样层和求和层等。激活层可以采用整流线性单元(ReLU)。隐藏层的输出成为输出层的输入。在一个示例中,输出层可以是全连接层。然后可以从第一神经网络的第一模块1023输出估计注释掩膜1024。在一个实施方案中,可以在步骤1028'处将输出与对应的合成注释掩膜1025进行比较。在实践中,可以在步骤1028'处评估其间定义的损失函数以确定是否已经满足训练阶段860的停止标准。如果确定满足误差标准并且损失函数已经被最小化,或者已经满足停止标准,则第一神经网络的第一模块1023被确定为已经过充分训练并且准备好利用未知的实时数据实施。替代地,如果确定不满足误差标准并且损失函数尚未被最小化,或者尚未满足停止标准,则重复训练阶段860并且对第一神经网络的第一模块的权重/系数进行更新。
根据一个实施方案,并且由于来自第一神经网络的第一模块1023的输出是二进制的,因此第一神经网络的第一模块1023的损失函数可以被定义为来自第一神经网络的第一模块1023的估计注释掩膜输出(掩膜NN)与对应的合成注释掩膜(掩膜合成的)之间的二进制交叉熵/对数损失,或者
∑-(ylog(p)+(1-y)log(1-p))
其中y是地面实况合成注释掩膜1025,y对于黑色像素具有值0,并且对于白色像素具有值1,并且p是来自第一神经网络的第一模块1023的概率输出,p介于0与1之间,其中目标是与y匹配。可以在图像的所有像素上对损失函数求和。
用第一神经网络的第二模块1033继续训练第一神经网络。为了改进训练,可以将第一训练网络的第一模块1023的输出与合成注释图1022一起作为输入提供给第一神经网络的第二模块1033。训练第一神经网络的第二模块1033开始于从训练数据库1021获得训练数据。训练数据可以包括合成注释图1022和对应的干净图1027,对应的干净图1027是不具有注释的合成注释图1022的版本。合成注释图1022可以与来自第一神经网络的第一模块1023的估计注释掩膜一起作为神经网络1023的输入层提供。输入层可以被提供给第一神经网络的第二模块1033的隐藏层。如果第一神经网络的第二模块1033的架构遵循以上卷积/反卷积描述,则第一神经网络的第二模块1033的隐藏层可以包括:收缩阶段,所述收缩阶段包括卷积层、连接层、子采样层、池化层、批量归一化层和激活层等中的一者或多者;以及扩展阶段,所述扩展阶段包括卷积层、连接层、上采样层、反向子采样层和求和层等。激活层可以采用整流线性单元(ReLU)。第一神经网络的第二模块1033的隐藏层的输出成为输出层的输入。在一个示例中,输出层可以是全连接层。编辑图像1026然后可以是来自第一神经网络的第二模块1033的输出并且在步骤1028”处与对应的干净图1027进行比较。在实践中,可以在步骤1028”处评估其间定义的损失函数以确定是否已经满足训练阶段860的停止标准。如果确定满足误差标准并且损失函数已经被最小化,或者已经满足停止标准,则第一神经网络的第二模块1033被确定为已经过充分训练并且准备好利用未知的实时数据实施。替代地,如果确定不满足误差标准并且损失函数尚未被最小化,或者尚未满足停止标准,则重复训练阶段860并且对第一神经网络的第二模块1033的权重/系数进行更新。
根据一个实施方案,第一神经网络的第二模块1033的损失函数可以被定义为来自第一神经网络的第二模块1033的编辑图像输出(图像NN)与对应的干净图像(图像干净)之间的均方误差,或者
其中n是训练数据的编号。这种损失可以使用优化方法而最小化,所述优化方法包括随机梯度下降等。
现在参考图10B,描述了第二神经网络1043的训练阶段860。训练神经网络1023开始于从训练数据库1021获得训练数据。训练数据可以包括合成注释图1022和对应的‘真实’边界框1037。‘真实’边界框1037可以是人工标记的,例如注释。合成注释图1022可以作为第二神经网络1043的输入层提供。输入层可以被提供给第二神经网络1043的隐藏层。如果第二神经网络1043的架构遵循以上卷积/反卷积描述,则第二神经网络1043的隐藏层可以包括:收缩阶段,所述收缩阶段包括卷积层、连接层、子采样层、池化层、批量归一化层和激活层等中的一者或多者;以及扩展阶段,所述扩展阶段包括卷积层、连接层、上采样层、反向子采样层和求和层等。激活层可以采用整流线性单元(ReLU)。第二神经网络1043的隐藏层的输出成为输出层的输入。在一个示例中,输出层可以是全连接层。可以在1029处生成对边界框的估计。可以在步骤1028处将估计的边界框1029与‘真实’边界框1037进行比较,以便计算目标值(即,训练数据的‘真实’值)与估计值之间的误差。可以在1028处评估这种误差,并且所述误差允许至少一个神经网络迭代地更新并提高其预测能力。在实践中,可以评估其间定义的损失函数以确定是否已经满足训练阶段860的停止标准。如果确定满足误差标准并且损失函数已经被最小化,或者已经满足停止标准,则第二神经网络1043被确定为已经过充分训练并且准备好利用未知的实时数据实施。替代地,如果确定不满足误差标准并且损失函数尚未被最小化,或者尚未满足停止标准,则重复训练阶段860并且对第二神经网络1043的权重/系数进行更新。
根据一个实施方案,神经网络1023的损失函数可以被定义为来自第二神经网络1043的估计的边界框图像输出(图像NN)与对应的‘真实’边界框图像(图像真实)之间的均方误差,或者
其中n是训练数据的编号。这种损失可以使用优化方法而最小化,所述优化方法包括随机梯度下降等。
现在将参考图11至图14B描述图10A和图10B中的每一者的训练阶段860。应当理解,尽管在上文被描述为具有不同的损失函数,但是图10A和图10B的神经网络可以在部署期间一起实施。
对图11至图14B的描述是概括性的,如本领域普通技术人员将理解的。图11示出了在本文描述的神经网络的优化期间执行的训练阶段的一种实施方式的流程图。
在训练阶段期间,使用来自训练数据数据库的代表性数据作为训练数据来训练神经网络,从而导致优化的神经网络是训练阶段的输出。这里的术语“数据”可以指代训练图像数据库的图像。在将训练图像用于数据的示例中,图10A和图10B的训练阶段可以是离线训练方法,其使用大量合成训练图像来训练神经网络,所述合成训练图像与对应的干净图像和注释掩膜配对,以训练神经网络以分别估计干净图像和注释掩膜。
在训练阶段期间,访问训练数据库以获得多个数据集并且迭代地更新网络以减少误差(例如,由损失函数产生的值),其中更新网络包括迭代地更新例如神经网络的每一层处的网络系数的值,使得由神经网络处理的合成注释数据越来越接近匹配目标。换句话说,神经网络推断训练数据所隐含的映射,并且损失函数或成本函数产生与神经网络当前迭代的目标和输出之间的不匹配相关的误差值。例如,在某些实施方式中,损失函数可以使用均方误差来使均方误差最小化。在多层感知器(MLP)神经网络的情况下,反向传播算法可以用于通过使用(随机)梯度下降法使基于均方误差的损失函数最小化来训练网络。可以在下文找到关于更新网络系数的更详细讨论。
训练神经网络模型本质上意味着从一组允许模型中选择使成本标准(即,使用成本函数计算的误差值)最小化的一个模型(或者,在贝叶斯框架中,确定该组允许模型上的分布)。通常,可以使用用于训练神经网络模型的众多算法中的任何一种(例如,通过应用优化理论和统计估计)来训练神经网络。
例如,用于训练神经网络的优化方法可以使用一种结合反向传播的梯度下降形式来计算实际梯度。这是通过获取成本函数关于网络参数的导数。然后在与梯度相关方向上更改这些参数来完成的。反向传播训练算法可以是:最速下降法(例如,具有可变学习率,具有可变学习率和动量,以及弹性反向传播)、准牛顿法(例如,Broyden-Fletcher-Goldfarb-Shanno、一步正割和Levenberg-Marquardt),或共轭梯度方法(例如,Fletcher-Reeves更新、Polak-Ribiére更新、Powell-Beale重新启动和缩放共轭梯度)。另外,进化方法(诸如基因表达编程、模拟退火、期望最大化、非参数方法和粒子群优化)也可以用于训练神经网络。
再次参考图11,流程图是用于使用训练数据训练神经网络的训练阶段860的实施方式的非限制性示例。训练数据中的数据可以来自训练数据库中的任何训练数据集。
在训练阶段860的步骤1180处,为神经网络的系数生成初始猜测。例如,初始猜测可以基于LeCun初始化、Xavier初始化和Kaiming初始化中的一者。
步骤1181至步骤860提供了用于训练神经网络的优化方法的非限制性示例。在训练阶段860的步骤1181中,(例如,使用损失函数/成本函数)计算误差以表示在神经网络的当前迭代中应用的神经网络的目标与输出数据之间的差异的度量(例如,距离度量)。可以使用任何已知的成本函数(包括上面描述的那些成本函数)或图像数据之间的距离度量来计算误差。此外,在某些实施方式中,可以使用合页损失(hinge loss)和交叉熵损失中的一者或多者来计算误差/损失函数。
另外,损失函数可以与正则化方法相结合以避免网络过度拟合到训练数据中表示的特定示例。正则化可以有助于防止机器学习问题中的过度拟合。如果训练时间过长,并且假定模型具有足够的表示能力,则网络将学习数据集特有的噪声,这被称为过度拟合。在过度拟合的情况下,神经网络的泛化能力很差,并且因为数据集之间的噪声不同,所以方差将很大。当偏差与方差之和最小时,出现最小总误差。因此,期望达到以可能的最简单方式解释数据的局部最小值,以将经过训练的网络表示一般解(而不是训练数据中的噪声特有的解)的可能性最大化。该目标可以通过例如提前停止、权重正则化、lasso正则化、岭正则化或弹性网络正则化来实现。
在某些实施方式中,使用反向传播训练神经网络。反向传播可以用于训练神经网络,并且与梯度下降优化方法结合使用。在前向传递期间,所述算法基于当前参数θ计算网络的预测。然后将这些预测输入到损失函数中,通过所述损失函数将所述预测与对应的地面实况标签进行比较。在反向传播期间,所述模型计算损失函数关于当前参数的梯度,之后通过在最小化损失的方向上采用预定义大小的步长来更新参数(例如,在加速方法中,诸如Nesterov动量法和各种自适应方法,可以选择步长来更快地收敛以优化损失函数。)
用于执行反向投影的优化方法可以使用梯度下降、批量梯度下降、随机梯度下降和小批量随机梯度下降中的一者或多者。另外,可以使用优化方法中的一种或多种动量更新技术来加速优化方法,这导致深度网络中的随机梯度下降的更快收敛速率,所述一种或多种动量更新技术包括例如Nesterov动量技术或自适应方法,诸如Adagrad次梯度方法、Adadelta方法的Adadelta或RMSProp参数更新变化,以及Adam自适应优化技术。所述优化方法还可以通过将雅可比矩阵结合到更新步骤中来应用二阶方法。
可以通过网络的相应层逐步执行前向和后向传递。在前向传递中,执行通过将输入馈送通过第一层,从而为后续层创建输出激活来开始。重复该过程,直到达到最后一层的损失函数。在后向传递期间,最后一层关于其自己的可学习参数(如有)并且还关于其自己的输入来计算梯度,所述输入用作前一层的上游导数。重复该过程,直至到达输入层。
返回到图11中所示的非限制性示例,训练阶段860的步骤1182确定可以计算作为网络变化的函数的误差变化(例如,误差梯度),并且该误差变化可以用于为神经网络的后续权重/系数变化选择方向和步长。通过这种方式计算误差的梯度与梯度下降优化方法的某些实施方式是一致的。在某些其他实施方式中,可以省略该步骤和/或用根据另一种优化算法(例如,非梯度下降优化算法,如模拟退火或遗传算法)的另一步骤代替该步骤,如本领域普通技术人员将理解的。
在训练阶段860的步骤1183中,为神经网络确定一组新的系数。例如,如在梯度下降优化方法或过松弛加速方法中,可以使用在步骤1182中计算的变化来更新权重/系数。
在训练阶段860的步骤1184中,使用神经网络的更新的权重/系数来计算新的误差值。
在训练阶段860的步骤1185中,使用预定义停止标准来确定网络的训练是否完成。例如,预定义停止标准可以评估新的误差和/或所执行的迭代总次数是否超过预定义值。例如,如果新的误差下降到低于预定义阈值或者如果达到最大迭代次数,则可以满足停止标准。当不满足停止标准时,训练阶段860将通过返回并使用新的权重和系数重复步骤1182而继续回到迭代循环的开始(迭代循环包括步骤1182、1183、1184和1185)。当满足停止标准时,训练阶段860完成。
图12和图13示出了神经网络的实施方式的流程图,所述神经网络的各方面可以被结合到本公开的神经网络的训练阶段和/或运行时阶段中。图12对于前馈人工神经网络(ANN)中的任何类型的层(包括例如全连接层)都是通用的。图13是CNN中的卷积层、池化层、批量归一化层和ReLU层所特有的。P3DNN可以包括图12和图13的流程图的各方面,其包括全连接层、卷积层、池化层、批量归一化层和ReLU层,如本领域普通技术人员将理解的。
在训练阶段860的步骤1287中,将与神经元(即,节点)之间的连接相对应的权重/系数应用于与例如训练图像的像素相对应的相应输入。
在步骤1288中,对加权输入求和。当连接到下一层上的给定神经元的仅非零权重/系数在上一层中表示的图像中区域定位时,步骤1287和步骤1288的组合本质上与执行卷积操作相同。
在步骤1289中,将相应阈值应用于相应神经元的加权和。
在子过程1290中,对后续层中的每一者重复加权、求和和阈值化步骤。
图13示出了神经网络的另一种实施方式的流程图。图13中所示的神经网络的实施方式对应于使用神经网络的非限制性实施方式在隐藏层处对训练图像进行操作。
在步骤1391中,卷积层的计算如前文所讨论地并根据本领域普通技术人员对卷积层的理解来执行。
在步骤1392中,在卷积之后,可以执行批量归一化以控制前一层的输出的方差,如本领域普通技术人员将理解的。
在步骤1393中,在批量归一化之后,根据上述激活的描述并根据本领域普通技术人员对激活的理解执行激活。在一个示例中,激活函数是整流激活函数,或者例如如上文讨论的ReLU。
在另一种实施方式中,步骤1393的ReLU层可以在步骤1392的批量归一化层之前执行。
在步骤1394中,来自卷积层的输出在批量归一化和激活之后是池化层的输入,所述池化层根据对池化层的上述描述并根据本领域普通技术人员对池化层的理解来执行。
在过程1395中,可以对预定义数量的层全部或部分重复卷积层、池化层、批量归一化层和ReLU层的步骤。在上述层之后(或与上述层混合),来自ReLU层的输出可以被馈送到根据为图11中的ANN层提供的描述执行的预定义数量的ANN层。
图14A和图14B示出了神经网络中的层之间的互连的各种示例。在一个示例中,神经网络可以包括全连接层、卷积层、子采样层、连接层、池化层、批量归一化层和激活层,所有这些都在上文和下文中进行了解释。在神经网络的某些优选实施方式中,卷积层靠近输入层放置,而执行高级推理的全连接层朝向损失函数放置在架构的更下方。池化层可以在卷积之后插入,并提供减少,从而降低过滤器的空间范围,因此降低可学习参数量。批量归一化层调节对异常值的梯度干扰并加速学习过程。激活函数也被结合到各种层中,以引入非线性并使得网络能够学习复杂的预测关系。激活函数可以是饱和激活函数(例如,sigmoid或双曲正切激活函数)或整流激活函数(例如,上文讨论的ReLU)。
图14A示出了具有N个输入、K个隐藏层和三个输出的一般ANN的示例。每一层由节点(也称为神经元)组成,并且每个节点对输入执行加权求和,并将加权求和的结果与阈值进行比较以生成输出。ANN构成一类函数,所述类的成员通过针对该类函数改变阈值、连接权重或架构的细节(诸如节点数量和/或其连接性)而获得。ANN中的节点可以被称为神经元(或称为神经元节点),并且神经元可以在ANN系统的不同层之间具有相互连接。最简单的ANN具有三个层,并且被称为自动编码器。神经网络可以具有三层以上的神经元,并且具有与输入神经元一样多的输出神经元其中N是例如训练图像体积中的像素的数量。突触(即,神经元之间的连接)存储被称为“权重”(也可互换地称为“系数”或“加权系数”)的值,所述值在计算中操纵数据。本公开的“权重”由先前详述的级联权重描述。ANN的输出取决于以下三种类型的参数:(i)不同层的神经元之间的互连模式,(ii)用于更新互连权重的学习过程,以及(iii)将神经元的加权输入转换为其输出激活的激活函数。
在数学上,神经元的网络函数m(x)被定义为其他函数ni(x)的组成,其可以进一步定义为其他函数的组成。这可以方便地表示为网络结构,其中箭头描绘了变量之间的依赖关系,如图14A和图14B中所示。例如,ANN可以使用非线性加权和,其中m(x)=K(∑iwini(x)),并且其中K(通常被称为激活函数)是一些预定义函数,诸如双曲正切。
在图14A中(并且类似地在图14B中),神经元(即,节点)由阈值函数周围的圆圈描绘。对于图14A中所示的非限制性示例,所述输入被描绘为围绕线性函数的圆圈并且箭头指示神经元之间的定向通信。在某些实施方式中,神经网络是前馈网络。
本公开的P3DNN操作以实现特定任务,诸如估计干净图像、在函数类F中搜索以进行学习、使用一组观察结果来找到m*∈F,这在特定最优意义(例如,停止标准)上解决了特定任务。例如,在某些实施方式中,这可以通过定义成本函数C:F→m来实现,使得对于最优解m*,(即,没有解的成本低于最优解的成本)。成本函数C是对特定解与待解决问题(例如,误差)的最佳解之间的距离的度量。学习算法迭代地搜索解空间以找到具有最小可能成本的函数。在某些实施方式中,成本在数据样本(即,训练数据)上被最小化。
图14B示出了神经网络是CNN的非限制性示例。CNN是一种对图像处理具有有益属性并且因此对图像去噪的应用具有特殊相关性的ANN。CNN使用前馈ANN,其中神经元之间的连接模式可以表示图像处理中的卷积。例如,CNN可以用于通过使用多层小神经元集合进行图像处理优化,所述多层小神经元集合处理输入图像的部分,被称为感受野。然后可以平铺这些集合的输出,使得它们重叠以获得更好的原始图像表示。如图所示,这种处理模式可以在具有卷积和池化层的多个层上重复,并且可以包括批量归一化层和激活层。
如上文一般应用,在卷积层之后,CNN可以包括局部和/或全局池化层,它们结合了卷积层中的神经元簇的输出。另外,在某些实施方式中,CNN还可以包括卷积层和全连接层的各种组合,其中在每一层的末尾或之后应用逐点非线性。
接下来,参考图15描述根据示例性实施方案的用于搜索图像的设备或装置或的硬件描述。在图15中,装置包括CPU 1500,其执行上文/下文描述的过程。过程数据和指令可以存储在存储器1502中。这些过程和指令还可以存储在存储介质盘1504(诸如硬盘驱动器(HDD)或便携式存储介质)上或者可以远程存储。另外,所要求保护的进步不受发明性过程的指令存储于其上的计算机可读介质的形式限制。例如,指令可以存储在CD、DVD上,存储在FLASH存储器、RAM、ROM、PROM、EPROM、EEPROM、硬盘或与所述装置通信的任何其他信息处理装置(诸如服务器或计算机)中。
另外,所要求保护的进步可以被提供作为结合CPU 1500和操作系统(诸如Microsoft Windows、Microsoft Windows 7、Microsoft Windows 10、UNIX、Solaris、LINUX、Apple MAC-OS以及本领域技术人员已知的其他系统)执行的实用应用程序、后台守护进程或操作系统的组件,或其组合。
为了实现所述装置,硬件元件可以由本领域技术人员已知的各种电路元件来实现。例如,CPU 1500可以是来自美国Intel的Xenon或Core处理器或来自美国AMD的Opteron处理器,或者可以是本领域普通技术人员将认识到的其他处理器类型。替代地,CPU 1500可以在FPGA、ASIC、PLD上或使用离散逻辑电路来实施,如本领域普通技术人员将认识到的。此外,CPU 1500可以被实施为并行地协同工作以执行上述发明性过程的指令的多个处理器。
图15中的装置还包括网络控制器1506(诸如来自美国Intel公司的Intel以太网PRO网络接口卡)以用于与网络1555对接。可以理解,网络1555可以是公共网络(诸如互联网)或专用网络(诸如LAN或WAN网络)或其任何组合,并且还可以包括PSTN或ISDN子网络。网络1555也可以是有线的(诸如以太网网络),或者可以是无线的(诸如蜂窝网络,包括EDGE、3G和4G无线蜂窝系统)。无线网络也可以是WiFi、蓝牙或已知的任何其他无线通信形式。
所述装置还包括显示控制器1508(诸如来自美国NVIDIA公司的NVIDIA GeForceGTX或Quadro图形适配器)以用于与显示器1510(诸如Hewlett Packard HPL2445w LCD显示器)对接。通用I/O接口1512与键盘和/或鼠标1514以及在显示器1510上或与其分离的触摸屏面板1516对接。通用I/O接口还连接到多种外围设备1518,其包括打印机和扫描仪,诸如来自Hewlett Packard的OfficeJet或DeskJet。
所述装置中还设置有声音控制器1520(诸如来自Creative的Sound Blaster X-FiTitanium)以用于与扬声器/传声器1522对接,由此提供声音和/或音乐。
通用存储控制器1524将存储介质盘1504与用于互连所述装置的所有组件的通信总线1526连接起来,所述通信总线可以是ISA、EISA、VESA、PCI等。由于显示器1510、键盘和/或鼠标1514以及显示控制器1508、存储控制器1524、网络控制器1506、声音控制器1520以及通用I/O接口1512的一般特征和功能性是已知的,因此为了简明起见,本文省略对这些特征的描述。
显而易见,鉴于以上教导,许多修改和变动是可能的。因此应当理解,在所附权利要求的范围内,本公开的实施方案可以与本文具体描述的其他不同的方式来实践。
本公开的实施方案也可以如以下附加说明中所阐述。
(1)一种用于搜索图像数据库的方法,其包括:通过处理电路接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;通过所述处理电路将第一神经网络应用于所述掺杂图像;通过所述处理电路将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及通过所述处理电路选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
(2)根据(1)所述的方法,其中应用所述第一神经网络包括通过所述处理电路编辑所述掺杂图像以删除所述对象注释,所述编辑的输出是所述对象的编辑图像。
(3)根据(1)或(2)所述的方法,其还包括通过所述处理电路将掩膜处理应用于所述掺杂图像。
(4)根据(1)至(3)中任一项所述的方法,其中应用所述掩膜处理包括:通过所述处理电路并经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征;通过所述处理电路并基于执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征;以及通过所述处理电路并基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
(5)根据(1)至(4)中任一项所述的方法,其还包括通过所述处理电路,基于应用所述第一神经网络的所述结果和应用所述掩膜处理的结果编辑所述掺杂图像,应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
(6)根据(1)至(5)中任一项所述的方法,其中所述第一神经网络是被配置为执行像素级分类的卷积神经网络。
(7)根据(1)至(6)中任一项所述的方法,其中生成所述对象的所述轮廓掩膜包括通过所述处理电路将对象分割应用于所述掺杂图像。
(8)一种存储计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令在由计算机执行时使所述计算机执行用于搜索图像数据库的方法,所述方法包括:接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;将第一神经网络应用于所述掺杂图像;将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
(9)根据(8)所述的非暂时性计算机可读存储介质,其中应用所述第一神经网络包括编辑所述掺杂图像以删除所述对象注释,所述编辑的输出是所述对象的编辑图像。
(10)根据(8)或(9)所述的非暂时性计算机可读存储介质,其还包括将掩膜处理应用于所述掺杂图像。
(11)根据(8)至(10)中任一项所述的非暂时性计算机可读存储介质,其中应用所述掩膜处理包括:经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征;基于执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征;以及基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
(12)根据(8)至(11)中任一项所述的非暂时性计算机可读存储介质,其还包括基于应用所述第一神经网络的所述结果和应用所述掩膜处理的结果编辑所述掺杂图像,应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
(13)根据(8)至(12)中任一项所述的非暂时性计算机可读存储介质,其中所述第一神经网络是被配置为执行像素级分类的卷积神经网络。
(14)根据(8)至(13)中任一项所述的非暂时性计算机可读存储介质,其中生成所述对象的所述轮廓掩膜包括将对象分割应用于所述掺杂图像。
(15)一种用于执行用于搜索图像数据库的方法的设备,其包括处理电路,所述处理电路被配置为:接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;将第一神经网络应用于所述掺杂图像;将应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
(16)根据(15)所述的设备,其中所述处理电路被进一步配置为通过编辑所述掺杂图像以删除所述对象注释来应用所述第一神经网络,所述编辑的输出是所述对象的编辑图像。
(17)根据(15)或(16)所述的设备,其中所述处理电路被进一步配置为将掩膜处理应用于所述掺杂图像。
(18)根据(15)至(17)中任一项所述的设备,其中所述处理电路被进一步配置为通过以下操作应用所述掩膜处理:经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征;基于执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征;以及基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
(19)根据(15)至(18)中任一项所述的设备,其中所述处理电路被进一步配置为基于应用所述第一神经网络的所述结果和应用所述掩膜处理的结果编辑所述掺杂图像,应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
(20)根据(15)至(19)中任一项所述的设备,其中所述处理电路被进一步配置为通过将对象分割应用于所述掺杂图像来生成所述对象的所述轮廓掩膜。
因此,前述讨论仅公开和描述了本公开的示例性实施方案。如本领域技术人员将理解的,本公开可以以其它特定形式体现而不脱离其精神或本质特性。因此,本公开的公开意图是说明性的,而不是限制本公开的范围以及其他权利要求。本公开(包括本文教导的任何容易辨别的变体)部分地限定了前述权利要求术语的范围,使得没有创造性的主题是专门针对公众的。
Claims (20)
1.一种用于搜索图像数据库的方法,其包括:
通过处理电路接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;
通过所述处理电路将第一神经网络应用于所述掺杂图像;
通过所述处理电路将所述应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及
通过所述处理电路选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
2.根据权利要求1所述的方法,其中所述应用所述第一神经网络包括
通过所述处理电路编辑所述掺杂图像以删除所述对象注释,所述编辑的输出是所述对象的所述编辑图像。
3.根据权利要求1所述的方法,其还包括
通过所述处理电路将掩膜处理应用于所述掺杂图像。
4.根据权利要求3所述的方法,其中所述应用所述掩膜处理包括
通过所述处理电路并经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征,
通过所述处理电路并基于所述执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征,以及
通过所述处理电路并基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
5.根据权利要求4所述的方法,其还包括:
通过所述处理电路,基于所述应用所述第一神经网络的所述结果和所述应用所述掩膜处理的结果编辑所述掺杂图像,所述应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
6.根据权利要求1所述的方法,其中所述第一神经网络是被配置为执行像素级分类的卷积神经网络。
7.根据权利要求4所述的方法,其中所述生成所述对象的所述轮廓掩膜包括
通过所述处理电路将对象分割应用于所述掺杂图像。
8.一种存储计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令在由计算机执行时使所述计算机执行用于搜索图像数据库的方法,所述方法包括:
接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释;
将第一神经网络应用于所述掺杂图像;
将所述应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象;以及
选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
9.根据权利要求8所述的非暂时性计算机可读存储介质,其中所述应用所述第一神经网络包括
编辑所述掺杂图像以删除所述对象注释,所述编辑的输出是所述对象的所述编辑图像。
10.根据权利要求8所述的非暂时性计算机可读存储介质,其还包括
将掩膜处理应用于所述掺杂图像。
11.根据权利要求10所述的非暂时性计算机可读存储介质,其中所述应用所述掩膜处理包括
经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征,
基于所述执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征,以及
基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
12.根据权利要求11所述的非暂时性计算机可读存储介质,其还包括
基于所述应用所述第一神经网络的所述结果和应用所述掩膜处理的结果编辑所述掺杂图像,所述应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
13.根据权利要求11所述的非暂时性计算机可读存储介质,其中所述第一神经网络是被配置为执行像素级分类的卷积神经网络。
14.根据权利要求11所述的非暂时性计算机可读存储介质,其中所述生成所述对象的所述轮廓掩膜包括
将对象分割应用于所述掺杂图像。
15.一种用于执行用于搜索图像数据库的方法的设备,其包括:
处理电路,所述处理电路被配置为
接收对象的掺杂图像,所述掺杂图像包括用于视觉参考的对象注释,
将第一神经网络应用于所述掺杂图像,
将所述应用所述第一神经网络的结果与参考图像数据库的每个图像相关,所述结果包括所述对象的编辑图像,并且所述参考图像数据库的每个图像包括参考对象,以及
选择所述参考图像数据库的具有高于阈值相关值的相关值的一个或多个图像作为匹配图像。
16.根据权利要求15所述的设备,其中所述处理电路被进一步配置为通过以下操作应用所述第一神经网络
编辑所述掺杂图像以删除所述对象注释,所述编辑的输出是所述对象的所述编辑图像。
17.根据权利要求15所述的设备,其中所述处理电路被进一步配置为
将掩膜处理应用于所述掺杂图像。
18.根据权利要求17所述的设备,其中所述处理电路被进一步配置为通过以下操作应用所述掩膜处理
经由第二神经网络对所述掺杂图像执行对象识别以识别基于文本的描述性特征,
基于所述执行所述对象识别,应用计算机视觉以相对于包含所述识别的基于文本的描述性特征的边界框检测标注特征,以及
基于所述边界框和所述检测到的标注特征,生成所述对象的轮廓掩膜。
19.根据权利要求18所述的设备,其中所述处理电路被进一步配置为基于所述应用所述第一神经网络的所述结果和所述应用所述掩膜处理的结果编辑所述掺杂图像,所述应用所述掩膜处理的所述结果是所述对象的所述生成的轮廓掩膜。
20.根据权利要求15所述的设备,其中所述处理电路被进一步配置为通过以下操作生成所述对象的所述轮廓掩膜
将对象分割应用于所述掺杂图像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063032432P | 2020-05-29 | 2020-05-29 | |
US63/032,432 | 2020-05-29 | ||
PCT/US2021/035007 WO2021243294A1 (en) | 2020-05-29 | 2021-05-28 | Method, non-transitory computer-readable storage medium, and apparatus for searching an image database |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116075820A true CN116075820A (zh) | 2023-05-05 |
Family
ID=78704691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180038494.0A Pending CN116075820A (zh) | 2020-05-29 | 2021-05-28 | 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11908053B2 (zh) |
EP (1) | EP4158491A1 (zh) |
JP (1) | JP2023528181A (zh) |
CN (1) | CN116075820A (zh) |
AU (1) | AU2021279033A1 (zh) |
CA (1) | CA3180335A1 (zh) |
MX (1) | MX2022014692A (zh) |
WO (1) | WO2021243294A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102187123B1 (ko) | 2020-02-12 | 2020-12-04 | 주식회사 카카오뱅크 | 홀로그램 검출 서비스 제공 서버 및 홀로그램 검출 방법 |
WO2021243294A1 (en) * | 2020-05-29 | 2021-12-02 | Camelot Uk Bidco Limited | Method, non-transitory computer-readable storage medium, and apparatus for searching an image database |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446099B1 (en) * | 1998-09-30 | 2002-09-03 | Ricoh Co., Ltd. | Document matching using structural information |
US7475061B2 (en) * | 2004-01-15 | 2009-01-06 | Microsoft Corporation | Image-based document indexing and retrieval |
JP5103955B2 (ja) * | 2007-03-09 | 2012-12-19 | 富士通株式会社 | 画像検索方法、装置およびプログラム |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9373160B2 (en) * | 2013-12-18 | 2016-06-21 | New York University | System, method and computer-accessible medium for restoring an image taken through a window |
US10121072B1 (en) * | 2016-12-30 | 2018-11-06 | Intuit Inc. | Unsupervised removal of text from form images |
CN111295669A (zh) * | 2017-06-16 | 2020-06-16 | 马克波尔公司 | 图像处理系统 |
US10496884B1 (en) * | 2017-09-19 | 2019-12-03 | Deepradiology Inc. | Transformation of textbook information |
FR3081245B1 (fr) | 2018-05-17 | 2020-06-19 | Idemia Identity & Security France | Procede de reconnaissance de caracteres |
WO2020135812A1 (en) * | 2018-12-29 | 2020-07-02 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for ossification center detection and bone age assessment |
US10750036B1 (en) * | 2019-08-27 | 2020-08-18 | Kyocera Document Solutions, Inc. | Rapid workflow design using machine learning |
US11176410B2 (en) * | 2019-10-27 | 2021-11-16 | John Snow Labs Inc. | Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition |
JP7468057B2 (ja) * | 2020-03-26 | 2024-04-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システム、及び情報処理プログラム |
WO2021243294A1 (en) * | 2020-05-29 | 2021-12-02 | Camelot Uk Bidco Limited | Method, non-transitory computer-readable storage medium, and apparatus for searching an image database |
-
2021
- 2021-05-28 WO PCT/US2021/035007 patent/WO2021243294A1/en unknown
- 2021-05-28 CA CA3180335A patent/CA3180335A1/en active Pending
- 2021-05-28 CN CN202180038494.0A patent/CN116075820A/zh active Pending
- 2021-05-28 US US17/333,707 patent/US11908053B2/en active Active
- 2021-05-28 EP EP21812118.4A patent/EP4158491A1/en active Pending
- 2021-05-28 AU AU2021279033A patent/AU2021279033A1/en active Pending
- 2021-05-28 JP JP2022567074A patent/JP2023528181A/ja active Pending
- 2021-05-28 MX MX2022014692A patent/MX2022014692A/es unknown
Also Published As
Publication number | Publication date |
---|---|
US20210374460A1 (en) | 2021-12-02 |
JP2023528181A (ja) | 2023-07-04 |
MX2022014692A (es) | 2023-02-22 |
US11908053B2 (en) | 2024-02-20 |
WO2021243294A1 (en) | 2021-12-02 |
AU2021279033A1 (en) | 2022-11-24 |
EP4158491A1 (en) | 2023-04-05 |
CA3180335A1 (en) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mukhoti et al. | Evaluating bayesian deep learning methods for semantic segmentation | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
US10204299B2 (en) | Unsupervised matching in fine-grained datasets for single-view object reconstruction | |
US20190130232A1 (en) | Font identification from imagery | |
CN111275046B (zh) | 一种字符图像识别方法、装置、电子设备及存储介质 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN110796057A (zh) | 行人重识别方法、装置及计算机设备 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN113158862A (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
Dutta et al. | A comparative study of deep learning models for medical image classification | |
CN113191387A (zh) | 结合无监督学习与数据自增强的文物碎片点云分类方法 | |
US11908053B2 (en) | Method, non-transitory computer-readable storage medium, and apparatus for searching an image database | |
JP2020522773A (ja) | 画像内のオブジェクトの検出および表現 | |
Varlik et al. | Filtering airborne LIDAR data by using fully convolutional networks | |
EP3910549A1 (en) | System and method for few-shot learning | |
CN111695526B (zh) | 网络模型生成方法、行人重识别方法及装置 | |
Tchuinkou et al. | R-covnet: Recurrent neural convolution network for 3d object recognition | |
Chandan et al. | Identification and grading of freehand sketches using deep learning techniques | |
CN116543389B (zh) | 基于关系网络的字符识别方法、装置、设备及介质 | |
WO2023169696A1 (en) | Training object discovery neural networks and feature representation neural networks using self-supervised learning | |
Ziani et al. | Intelligent face sketch recognition system using shearlet transform and convolutional neural network model | |
Pasbola | Sparse R-CNN Object Detection Using Proposal Boxes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |