CN111967515A - 图像信息提取方法、训练方法及装置、介质和电子设备 - Google Patents
图像信息提取方法、训练方法及装置、介质和电子设备 Download PDFInfo
- Publication number
- CN111967515A CN111967515A CN202010818332.6A CN202010818332A CN111967515A CN 111967515 A CN111967515 A CN 111967515A CN 202010818332 A CN202010818332 A CN 202010818332A CN 111967515 A CN111967515 A CN 111967515A
- Authority
- CN
- China
- Prior art keywords
- image
- descriptor
- training
- information extraction
- image information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 185
- 238000012549 training Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 229940050561 matrix product Drugs 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像信息提取方法、图像信息提取网络的训练方法、图像信息提取装置、图像信息提取网络的训练装置、计算机可读存储介质和电子设备,涉及图像处理技术领域。该图像信息提取方法包括:获取图像,提取图像的局部描述子;计算局部描述子的置信度;基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。本公开可以提高提取图像描述子的精确度。
Description
技术领域
本公开涉及图像处理技术领域,具体而言,涉及一种图像信息提取方法、图像信息提取网络的训练方法、图像信息提取装置、图像信息提取网络的训练装置、计算机可读存储介质和电子设备。
背景技术
随着终端技术的发展,视觉导航、AR(Augmented Reality,增强现实)、场景识别、无人驾驶等功能均可以基于终端来实现。为了实现这些技术,终端通常需要对图像进行一系列处理。而在对图像进行处理的过程中,特征描述子的提取尤为重要,直接影响到上层应用是否能够顺利实现。
对图像的描述可以基于全局描述子和局部描述子来实现,在例如视觉导航、图像检索等技术中,为了更准确的表达出图像,需要同时利用到全局描述子和局部描述子。
目前,在分别提取全局描述子和局部描述子的方案中,未考虑到全局描述子与局部描述子的相关性,导致全局描述子和局部描述子对图像的表征能力较差,提取到的描述子不够精确,造成图像处理的效果不理想。
发明内容
本公开提供一种图像信息提取方法、图像信息提取网络的训练方法、图像信息提取装置、图像信息提取网络的训练装置、计算机可读存储介质和电子设备,进而至少在一定程度上克服提取的描述子不精确而导致图像处理效果不佳的问题。
根据本公开的第一方面,提供了一种图像信息提取方法,包括:获取图像,提取图像的局部描述子;计算局部描述子的置信度;基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。
根据本公开的第二方面,提供了一种图像信息提取网络的训练方法,包括:获取图像信息提取网络和训练集,其中,训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像;将第一训练图像输入图像信息提取网络,得到第一训练图像的局部描述子和全局描述子;将第二训练图像输入图像信息提取网络,得到第二训练图像的局部描述子和全局描述子;根据第一训练图像的局部描述子和全局描述子以及第二训练图像的局部描述子和全局描述子,利用损失函数训练图像信息提取网络。
根据本公开的第三方面,提供了一种图像信息提取装置,包括:第一提取模块,用于获取图像,提取图像的局部描述子;置信度计算模块,用于计算局部描述子的置信度;第二提取模块,用于基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。
根据本公开的第四方面,提供了一种图像信息提取网络的训练装置,包括:网络获取模块,用于获取图像信息提取网络和训练集,其中,训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像;第一训练数据确定模块,用于将第一训练图像输入图像信息提取网络,得到第一训练图像的局部描述子和全局描述子;第二训练数据确定模块,用于将第二训练图像输入图像信息提取网络,得到第二训练图像的局部描述子和全局描述子;训练模块,用于根据第一训练图像的局部描述子和全局描述子以及第二训练图像的局部描述子和全局描述子,利用损失函数训练图像信息提取网络。
根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的图像信息提取方法或图像信息提取网络的训练方法。
根据本公开的第六方面,提供了一种电子设备,包括处理器;存储器,用于存储一个或多个程序,当一个或多个程序被处理器执行时,使得所述处理器实现上述的图像信息提取方法或图像信息提取网络的训练方法。
在本公开的一些实施例所提供的技术方案中,提取图像的局部描述子并计算局部描述子的置信度,根据局部描述子及其置信度,提取图像的全局描述子。一方面,利用局部描述子确定出全局描述子,通过一个算法处理过程实现局部描述子的提取与全局描述子的提取,提高了计算机提取图像特征描述子的速度;另一方面,基于图像信息提取网络实现局部描述子和全局描述子的提取,可以将二者提取过程相融合,使得局部描述子与全局描述子的相关性得到了提高,进而可以提高对图像的表征能力,极大程度提高了例如视觉定位、图像检索等上层应用的精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本公开实施例的图像信息提取方案的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的结构示意图;
图3示意性示出了根据本公开的示例性实施方式的图像信息提取方法的流程图;
图4示出了根据本公开示例性实施方式的图像信息提取网络的网络结构示意图;
图5示出了应用本公开图像信息提取方法的实施例中利用全局描述子进行相似场景检索的示意图;
图6示出了应用本公开图像信息提取方法的实施例中利用局部描述子进行特征点匹配的示意图;
图7示意性示出了根据本公开示例性实施方式的图像信息提取网络的训练方法的流程图;
图8示意性示出了根据本公开示例性实施方式的图像信息提取装置的方框图;
图9示意性示出了根据本公开的示例性实施方式的图像信息提取网络的训练装置的方框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,下面所有的术语“第一”、“第二”、“第三”仅是为了区分的目的,不应作为本公开内容的限制。
图1示出了本公开实施例的图像信息提取方案的示例性系统架构的示意图。
如图1所示,系统架构1000可以包括终端设备1001、1002、1003中的一种或多种,网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器1005可以是多个服务器组成的服务器集群等。
用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互,以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏的各种电子设备,包括但不限于智能手机、AR设备、平板电脑、便携式计算机和台式计算机等等。
应当注意的是,本公开示例性实施方式的图像信息提取方法和图像信息提取网络的训练方法可以仅由终端设备1001、1002、1003实现,也就是说,终端设备1001、1002、1003可以执行图像信息提取方法和图像信息提取网络的训练方法的各个步骤。然而,也可以仅由服务器1005执行图像信息提取方法和图像信息提取网络的训练方法的各个步骤。
或者,服务器1005可以执行本公开示例性实施方式的图像信息提取网络的训练方法,在得到训练后的图像信息提取网络后,服务器1005可以将该网络发送至终端设备1001、1002、1003,或由终端设备1001、1002、1003主动从服务器1005下载该网络。接下来,由终端设备1001、1002、1003利用该网络实现本公开示例性实施方式的图像信息提取的过程。
亦或者,网络的训练过程可以由一个终端设备实现,然后,该终端设备将训练后的网络发送给另一个终端设备,由该另一个终端设备执行图像信息提取的各步骤。
为了便于说明,虽然在下面的描述中,以终端设备1001、1002、1003执行图像信息提取方法且以服务器1005执行图像信息提取网络的训练方法为例,对本公开内容进行阐述,然而,通过上面的说明,本领域技术人员可以知晓的是,本公开对图像信息提取方法和图像信息提取网络的训练方法的执行端不做限制。
针对图像信息提取的过程:
首先,终端设备1001、1002、1003可以获取图像,提取图像的局部描述子;接下来,终端设备1001、1002、1003可以计算局部描述子的置信度,并基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。
在得到图像的局部描述子和全局描述子后,终端设备1001、1002、1003可以将它们应用到视觉导航场景中。具体的,终端设备1001、1002、1003可以利用全局描述子识别当前所处的地图位置,接下来,可以利用局部描述子进行图像与地图点云的特征匹配,完成匹配后,再结合PnP(Perspective-n-Point,透视n点)算法计算出当前所处的准确位置,进而提供导航定位服务。
例如,当用户处于陌生的商场环境时,用户需要通过手机导航服务去一个目标地点。在这种情况下,通过本公开方案可以精确地计算出用户当前所处的环境位置,同时基于导航算法使用户到达该目标地点。
又例如,用户处于旅游景点时,通过手机拍摄景点中的标志物,通过本公开方案可以识别出用户所处的景点位置。另外,还可以搭配AR算法,为用户提供个性化的AR服务。
在通过终端设备1001、1002、1003实现本公开图像信息提取方法的情况下,下面描述的图像信息提取装置可以配置在终端设备1001、1002、1003中。
针对图像信息提取网络训练的过程:
首先,服务器1005可以获取图像信息提取网络和训练集(又可称为训练数据),该训练集包括多个图像对,且每个图像对均包括第一训练图像和第二训练图像,第一训练图像和第二训练图像属于同一场景,可以是由于拍摄时间不同或拍摄角度不同而针对同一场景进行拍摄而得到的两张图像;接下来,服务器1005可以将第一训练图像输入图像信息提取网络,得到第一训练图像的局部描述子和全局描述子。另外,服务器1005还可以将第二训练图像输入图像信息提取网络,得到第二训练图像的局部描述子和全局描述子;然后,服务器1005可以根据第一训练图像的局部描述子和全局描述子以及第二训练图像的局部描述子和全局描述子,利用损失函数训练所述图像信息提取网络,在收敛后,得到训练后的图像信息提取网络。
在通过服务器1005实现本公开图像信息提取网络的训练方法的情况下,下面描述的图像信息提取网络的训练装置可以配置在服务器1005中。
图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。可以将上述终端设备配置为如图2所示电子设备的形式。需要说明的是,图2示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本公开的电子设备至少包括处理器和存储器,存储器用于存储一个或多个程序,当一个或多个程序被处理器执行时,使得处理器可以实现本公开示例性实施方式的图像信息提取方法或图像信息提取网络的训练方法。
具体的,如图2所示,电子设备200可以包括:处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus,USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule,SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(Application Processor,AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit,GPU)、图像信号处理器(Image Signal Processor,ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor,DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。另外,处理器210中还可以设置存储器,用于存储指令和数据。
电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中,电子设备200可以包括1个或N个摄像模组291,N为大于1的正整数,若电子设备200包括N个摄像头,N个摄像头中有一个是主摄像头。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备200的存储能力。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本公开示例性实施方式提取的图像信息包括图像的局部描述子和全局描述子。其中,局部描述子又可被称为局部特征描述子,全局描述子又可被称为全局特征描述子。
图3示意性示出了本公开的示例性实施方式的图像信息提取方法的流程图。参考图3,图像信息提取方法可以包括以下步骤:
S32.获取图像,提取图像的局部描述子。
本公开示例性实施方式中的图像,可以是终端设备通过其摄像模组拍摄的图像。例如,针对AR场景,在终端设备执行建图操作或重定位操作的情况下,终端设备需要开启摄像模组来获取场景中的图像,获取到的该图像可以作为本公开待进行信息提取的图像。
另外,本公开示例性实施方式中的图像,还可以是终端设备从其他设备或服务器获取到的图像。例如,在需要进行图像检索的场景中,终端设备从服务器下载了一图像,通过本方案随后的步骤,可以得到该图像的图像信息,并利用该图像信息搜索到相同或相似的图像,以实现图像检索。
在获取到图像后,终端设备可以提取图像的局部描述子。
具体的,终端设备可以采用第一神经网络提取图像的第一中间描述子,其中,第一神经网络可以是CNN Convolutional Neural Networks,卷积神经网络)。例如,通过CNN可以提取出128维的第一中间描述子。应当理解的是,本公开对第一神经网络的网络结果以及输出维度不做具体限制。
在本公开一些实施例中,终端设备可以将第一中间描述子作为图像的局部描述子输出。即,直接利用第一神经网络提取出的局部描述子即为本公开方案输出的局部描述子。
在本公开另一些实施例中,终端设备可以对第一中间描述子进行上采样,并将上采样后得到的结果作为图像的局部描述子。具体的,可以通过双线性插值计算出图像的局部描述子。然而,还可以采用如最近邻插值、均值插值、中值插值等方法来实现上采样,本公开对上采样的方式也不进行限制。
通过上采样,可以得到图像中每一个像素点对应的局部描述子。
此外,在采用第一神经网络从图像提取第一中间描述子之前,终端设备还可以先采用预提取网络从图像提取待处理信息。在这种情况下,采用第一神经网络对待处理信息进行处理,也就是说,将待处理信息输入该第一神经网络,以提取第一中间描述子。
具体的,可以利用VGG网络构建预提取网络,以加深网络对图像特征的提取,得到待处理信息。另外,还可以利用CNN网络构建预提取网络,本公开对预提取网络的网络结构不做限制。
S34.计算局部描述子的置信度。
在本公开采用神经网络的方式来实现图像信息提取过程的情况下,可以利用Sigmoid激活函数来计算局部描述子的置信度。其中,置信度即是局部描述子对应像素点可以作为特征点的概率。
具体的,可以将步骤S32确定出的局部描述子输入置信层,以得到局部描述子的置信度。该置信层可以例如由一个CNN网络和Sigmoid激活函数层构成。
S36.基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。
在本公开的示例性实施方式中,全局描述子是对整个图像的描述,如全局描述子可以为1024维度的向量,该向量表征的是整个图像。
首先,可以基于局部描述子和局部描述子的置信度,生成第二中间描述子。具体的,可以将局部描述子与局部描述子的置信度的乘积,确定为第二中间描述子。
接下来,可以采用第二神经网络对第二中间描述子进行处理,并根据处理的结果确定图像的全局描述子。其中,可以利用CNN网络构建第二神经网络,本公开对其网络结构不做限制。
具体的,终端设备可以采用第二神经网络对第二中间描述子进行处理,生成第三中间描述子,并对该第三中间描述子进行降维处理,以得到图像全局描述子。例如,可以通过PCA(Principal Components Analysis,主成分分析)实现第三中间描述子的降维处理。
上面描述的各神经网络可以构成本方案的图像信息提取网络。图4示出了根据本公开的示例性实施方式的图像信息提取网络的网络结构示意图。
参考图4,图像信息提取网络可以包括局部描述子提取结构和全局描述子提取结构。其中,局部描述子提取结构包括预提取网络41和第一神经网络42,全局描述子提取结构包括置信层43、矩阵乘积单元44和第二神经网络45。
结合图4所示网络结构,首先,输入的图像经过预提取网络41进行特征抽取,得到待处理信息。接下来,待处理信息经过第一神经网络42后,可以得到图像的局部描述子。另外,待处理信息经过第一神经网络42后得到第一中间描述子,再对第一中间描述子进行上采样,以得到图像的局部描述子。应当理解的是,上采样处理后可以得到图像中每一个像素点对应的局部描述子。
然后,图像的局部描述子可以经过置信层43,得到局部描述子的置信度。在矩阵乘积单元44,可以将图像的局部描述子与局部描述子的置信度相乘,以生成第二中间描述子。
随后,可以将第二中间描述子输入第二神经网络45,进行特征提取。再通过例如PCA的降维过程,最终得到图像的全局描述子。
图5示出了应用本公开图像信息提取方法的实施例中利用全局描述子进行相似场景检索的示意图。参考图5,待检索图像50经由本方案的图像信息提取过程可以得到待检索图像50的全局描述子和局部描述子。通过待检索图像50的全局描述子可以检索出检索图像集合500。
另外,针对图5所示的待检索图像50,图6示出了利用待检索图像50的局部描述子进行特征点匹配的示意图。
下面对本公开的图像信息提取网络的训练方法进行说明。虽然下面以服务器执行训练方法为例进行描述,然而,该训练方法还可以由终端设备执行。
图7示意性示出了本公开的示例性实施方式的图像信息提取网络的训练方法的流程图。参考图7,图像信息提取网络的训练方法可以包括以下步骤:
S72.获取图像信息提取网络和训练集,其中,训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像。
在本公开的示例性实施方式中,训练集包括多个图像对,针对每一个图像对均包括第一训练图像和第二训练图像,第一训练图像和第二训练图像是针对同一场景的图像,例如,可以是不同时间(如白天、夜晚)、不同拍摄角度、不同光照等情况下针对同一场景拍摄的两张图像。
另外,训练数据除包括图像对外,还可以获取图像对中训练图像之间的位姿转换关系。图像对中相同场景的训练图像在训练过程中对全局描述子进行监督学习,图像对中训练图像之间的位姿转换关系可以计算出两张训练图像之间的相似像素对,通过相似像素对可以完成对局部描述子的监督学习。
针对图像信息提取网络,如图4所示,图像信息提取网络可以包括局部描述子提取结构和全局描述子提取结构。其中,局部描述子提取结构可以包括预提取网络和第一神经网络,全局描述子提取结构可以包括置信层、矩阵乘积单元和第二神经网络。
S74.将第一训练图像输入图像信息提取网络,得到第一训练图像的局部描述子和全局描述子。
具体的,服务器将所述第一训练图像输入局部描述子提取结构,得到第一训练图像的局部描述子;将第一训练图像的局部描述子输入全局描述子提取结构,得到第一训练图像的全局描述子。
S76.将第二训练图像输入图像信息提取网络,得到第二训练图像的局部描述子和全局描述子。
具体的,服务器将第二训练图像输入局部描述子提取结构,得到第二训练图像的局部描述子;将第二训练图像的局部描述子输入全局描述子提取结构,得到第二训练图像的全局描述子。
另外,本公开对步骤S74和步骤S76的执行顺序不做限制,也可以将第一训练图像和第二训练图像同时输入网络,同时执行处理过程。
S78.根据第一训练图像的局部描述子和全局描述子以及第二训练图像的局部描述子和全局描述子,利用损失函数训练图像信息提取网络。
本公开示例性实施方式的图像信息提取网络的损失函数包括全局描述子损失函数和局部描述子损失函数。具体的,图像信息提取网络的损失函数可以是全局描述子损失函数与局部描述子损失函数之和。
全局描述子损失函数通过计算网络输出的全局描述子之间的欧氏距离作为损失函数,两张图越相似,则全局描述子的欧氏距离越小。全局描述子损失函数如公式1所示:
局部描述子通过计算网络输出的局部描述子点对的欧氏距离,局部描述子点对越相似,则点对之间的欧式距离越小。局部描述子损失函数如公式2所示:
在这种情况下,图像信息提取网络的损失函数可以如公式3所示:
L(Lg,Ll)=Lg+Ll (公式3)
通过上述损失函数的计算,执行反向传播的过程,调整图像信息提取网络各参数,直至收敛,以得到训练后的图像信息提取网络。
服务器在得到训练后的图像信息提取网络,可以利用该网络执行上述图像信息提取方法的过程。或者,服务器可以将训练后的图像信息提取网络发送至其他服务器或终端设备,由其他服务器或终端设备利用该网络执行上述图像信息提取方法的过程。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中还提供了一种图像信息提取装置。
图8示意性示出了本公开的示例性实施方式的图像信息提取装置的方框图。参考图8,根据本公开的示例性实施方式的图像信息提取装置8可以包括第一提取模块81、置信度计算模块83和第二提取模块85。
具体的,第一提取模块81可以用于获取图像,提取图像的局部描述子;置信度计算模块83可以用于计算局部描述子的置信度;第二提取模块85可以用于基于局部描述子以及局部描述子的置信度,提取图像的全局描述子。
根据本公开的示例性实施例,第一提取模块81可以被配置为执行:采用第一神经网络从图像提取第一中间描述子;对第一中间描述子进行上采样,以确定出图像的局部描述子。
根据本公开的示例性实施例,第一提取模块81在采用第一神经网络从图像提取第一中间描述子之前,还可以被配置为执行:采用预提取网络从图像提取待处理信息;其中,第一提取模块81采用第一神经网络从图像提取第一中间描述子的过程包括:第一提取模块81采用第一神经网络对待处理信息进行处理,以提取第一中间描述子。
根据本公开的示例性实施例,第二提取模块85可以被配置为执行:基于局部描述子和局部描述子的置信度,生成第二中间描述子;采用第二神经网络对第二中间描述子进行处理,根据处理的结果确定图像的全局描述子。
根据本公开的示例性实施例,第二提取模块85生成第二中间描述子的过程可以被配置为执行:将局部描述子与局部描述子的置信度的乘积,确定为第二中间描述子。
根据本公开的示例性实施例,第二提取模块85确定图像的全局描述子的过程可以被配置为执行:采用第二神经网络对第二中间描述子进行处理,生成第三中间描述子;对第三中间描述子进行降维处理,确定图像的全局描述子。
进一步的,本示例实施方式中还提供了一种图像信息提取网络的训练装置。
图9示意性示出了本公开的示例性实施方式的图像信息提取网络的训练装置的方框图。参考图9,根据本公开的示例性实施方式的图像信息提取网络的训练装置9可以包括网络获取模块91、第一训练数据确定模块93、第二训练数据确定模块95和训练模块97。
具体的,网络获取模块91可以用于获取图像信息提取网络和训练集,其中,训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像;第一训练数据确定模块93可以用于将第一训练图像输入图像信息提取网络,得到第一训练图像的局部描述子和全局描述子;第二训练数据确定模块95可以用于将第二训练图像输入图像信息提取网络,得到第二训练图像的局部描述子和全局描述子;训练模块97可以用于根据第一训练图像的局部描述子和全局描述子以及第二训练图像的局部描述子和全局描述子,利用损失函数训练图像信息提取网络。
根据本公开的示例性实施例,图像信息提取网络包括局部描述子提取结构和全局描述子提取结构。在这种情况下,第一训练数据确定模块93可以被配置为执行:将第一训练图像输入局部描述子提取结构,得到第一训练图像的局部描述子;将第一训练图像的局部描述子输入全局描述子提取结构,得到第一训练图像的全局描述子。第二训练数据确定模块95可以被配置为执行:将第二训练图像输入局部描述子提取结构,得到第二训练图像的局部描述子;将第二训练图像的局部描述子输入全局描述子提取结构,得到第二训练图像的全局描述子。
由于本公开实施方式的图像信息提取装置和图像信息提取网络的训练装置的各个功能模块与上述方法实施方式中相同,因此在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (12)
1.一种图像信息提取方法,其特征在于,包括:
获取图像,提取所述图像的局部描述子;
计算所述局部描述子的置信度;
基于所述局部描述子以及所述局部描述子的置信度,提取所述图像的全局描述子。
2.根据权利要求1所述的图像信息提取方法,其特征在于,提取所述图像的局部描述子包括:
采用第一神经网络从所述图像提取第一中间描述子;
对所述第一中间描述子进行上采样,以确定出所述图像的局部描述子。
3.根据权利要求2所述的图像信息提取方法,其特征在于,在采用第一神经网络从所述图像提取第一中间描述子之前,所述图像信息提取方法还包括:
采用预提取网络从所述图像提取待处理信息;
其中,采用第一神经网络从所述图像提取第一中间描述子包括:采用所述第一神经网络对所述待处理信息进行处理,以提取所述第一中间描述子。
4.根据权利要求1所述的图像信息提取方法,其特征在于,基于所述局部描述子以及所述局部描述子的置信度,提取所述图像的全局描述子,包括:
基于所述局部描述子和所述局部描述子的置信度,生成第二中间描述子;
采用第二神经网络对所述第二中间描述子进行处理,根据处理的结果确定所述图像的全局描述子。
5.根据权利要求4所述的图像信息提取方法,其特征在于,基于所述局部描述子和所述局部描述子的置信度,生成第二中间描述子,包括:
将所述局部描述子与所述局部描述子的置信度的乘积,确定为所述第二中间描述子。
6.根据权利要求4所述的图像信息提取方法,其特征在于,采用第二神经网络对所述第二中间描述子进行处理,根据处理的结果确定所述图像的全局描述子,包括:
采用所述第二神经网络对所述第二中间描述子进行处理,生成第三中间描述子;
对所述第三中间描述子进行降维处理,确定所述图像的全局描述子。
7.一种图像信息提取网络的训练方法,其特征在于,包括:
获取图像信息提取网络和训练集,其中,所述训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像;
将所述第一训练图像输入所述图像信息提取网络,得到所述第一训练图像的局部描述子和全局描述子;
将所述第二训练图像输入所述图像信息提取网络,得到所述第二训练图像的局部描述子和全局描述子;
根据所述第一训练图像的局部描述子和全局描述子以及所述第二训练图像的局部描述子和全局描述子,利用损失函数训练所述图像信息提取网络。
8.根据权利要求7所述的图像信息提取网络的训练方法,其特征在于,所述图像信息提取网络包括局部描述子提取结构和全局描述子提取结构;其中,将所述第一训练图像输入所述图像信息提取网络,得到所述第一训练图像的局部描述子和全局描述子,包括:
将所述第一训练图像输入所述局部描述子提取结构,得到所述第一训练图像的局部描述子;将所述第一训练图像的局部描述子输入所述全局描述子提取结构,得到所述第一训练图像的全局描述子。
9.一种图像信息提取装置,其特征在于,包括:
第一提取模块,用于获取图像,提取所述图像的局部描述子;
置信度计算模块,用于计算所述局部描述子的置信度;
第二提取模块,用于基于所述局部描述子以及所述局部描述子的置信度,提取所述图像的全局描述子。
10.一种图像信息提取网络的训练装置,其特征在于,包括:
网络获取模块,用于获取图像信息提取网络和训练集,其中,所述训练集包括多个图像对,每个图像对包括属于同一场景的第一训练图像和第二训练图像;
第一训练数据确定模块,用于将所述第一训练图像输入所述图像信息提取网络,得到所述第一训练图像的局部描述子和全局描述子;
第二训练数据确定模块,用于将所述第二训练图像输入所述图像信息提取网络,得到所述第二训练图像的局部描述子和全局描述子;
训练模块,用于根据所述第一训练图像的局部描述子和全局描述子以及所述第二训练图像的局部描述子和全局描述子,利用损失函数训练所述图像信息提取网络。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任一项所述的图像信息提取方法或如权利要求7或8所述的图像信息提取网络的训练方法。
12.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述处理器实现如权利要求1至6中任一项所述的图像信息提取方法或如权利要求7或8所述的图像信息提取网络的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818332.6A CN111967515A (zh) | 2020-08-14 | 2020-08-14 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
PCT/CN2021/095557 WO2022033111A1 (zh) | 2020-08-14 | 2021-05-24 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818332.6A CN111967515A (zh) | 2020-08-14 | 2020-08-14 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967515A true CN111967515A (zh) | 2020-11-20 |
Family
ID=73364604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010818332.6A Pending CN111967515A (zh) | 2020-08-14 | 2020-08-14 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111967515A (zh) |
WO (1) | WO2022033111A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688928A (zh) * | 2021-08-31 | 2021-11-23 | 禾多科技(北京)有限公司 | 图像匹配方法、装置、电子设备和计算机可读介质 |
WO2022033111A1 (zh) * | 2020-08-14 | 2022-02-17 | Oppo广东移动通信有限公司 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
WO2023082687A1 (zh) * | 2021-11-10 | 2023-05-19 | 上海商汤智能科技有限公司 | 一种特征检测方法、装置、计算机设备、存储介质及计算机程序产品 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116295466A (zh) * | 2022-03-31 | 2023-06-23 | 北京百度网讯科技有限公司 | 地图生成方法、装置、电子设备、存储介质、及车辆 |
CN115082772B (zh) * | 2022-07-19 | 2022-11-11 | 小米汽车科技有限公司 | 地点识别方法、装置、车辆、存储介质及芯片 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103765898A (zh) * | 2011-09-02 | 2014-04-30 | 索尼公司 | 图像处理设备、图像处理方法和程序 |
CN108229379A (zh) * | 2017-12-29 | 2018-06-29 | 广东欧珀移动通信有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
US20180314903A1 (en) * | 2017-05-01 | 2018-11-01 | Intel Corporation | Optimized image feature extraction |
CN109101946A (zh) * | 2018-08-27 | 2018-12-28 | Oppo广东移动通信有限公司 | 一种图像特征的提取方法、终端设备及存储介质 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
JP5045320B2 (ja) * | 2007-09-05 | 2012-10-10 | ソニー株式会社 | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム |
CN111967515A (zh) * | 2020-08-14 | 2020-11-20 | Oppo广东移动通信有限公司 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
-
2020
- 2020-08-14 CN CN202010818332.6A patent/CN111967515A/zh active Pending
-
2021
- 2021-05-24 WO PCT/CN2021/095557 patent/WO2022033111A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103765898A (zh) * | 2011-09-02 | 2014-04-30 | 索尼公司 | 图像处理设备、图像处理方法和程序 |
US20180314903A1 (en) * | 2017-05-01 | 2018-11-01 | Intel Corporation | Optimized image feature extraction |
CN108229379A (zh) * | 2017-12-29 | 2018-06-29 | 广东欧珀移动通信有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN109101946A (zh) * | 2018-08-27 | 2018-12-28 | Oppo广东移动通信有限公司 | 一种图像特征的提取方法、终端设备及存储介质 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022033111A1 (zh) * | 2020-08-14 | 2022-02-17 | Oppo广东移动通信有限公司 | 图像信息提取方法、训练方法及装置、介质和电子设备 |
CN113688928A (zh) * | 2021-08-31 | 2021-11-23 | 禾多科技(北京)有限公司 | 图像匹配方法、装置、电子设备和计算机可读介质 |
CN113688928B (zh) * | 2021-08-31 | 2022-09-27 | 禾多科技(北京)有限公司 | 图像匹配方法、装置、电子设备和计算机可读介质 |
WO2023082687A1 (zh) * | 2021-11-10 | 2023-05-19 | 上海商汤智能科技有限公司 | 一种特征检测方法、装置、计算机设备、存储介质及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2022033111A1 (zh) | 2022-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110121118B (zh) | 视频片段定位方法、装置、计算机设备及存储介质 | |
CN111967515A (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
WO2020224479A1 (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN111091166B (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN111476306A (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
CN111476783B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN110009059B (zh) | 用于生成模型的方法和装置 | |
CN111784776B (zh) | 视觉定位方法及装置、计算机可读介质和电子设备 | |
CN111950570B (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN112562019A (zh) | 图像色彩调整方法及装置、计算机可读介质和电子设备 | |
CN109754464B (zh) | 用于生成信息的方法和装置 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN115471662B (zh) | 语义分割模型的训练方法、识别方法、装置和存储介质 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113744286A (zh) | 虚拟头发生成方法及装置、计算机可读介质和电子设备 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN111814811A (zh) | 图像信息提取方法、训练方法及装置、介质和电子设备 | |
CN113284206A (zh) | 信息获取方法及装置、计算机可读存储介质、电子设备 | |
CN111447379B (zh) | 生成信息的方法和装置 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
CN113238652B (zh) | 视线估计方法、装置、设备及存储介质 | |
CN111292365B (zh) | 生成深度图的方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |