CN113887354A - 图像识别方法、装置、电子设备及存储介质 - Google Patents
图像识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113887354A CN113887354A CN202111108747.5A CN202111108747A CN113887354A CN 113887354 A CN113887354 A CN 113887354A CN 202111108747 A CN202111108747 A CN 202111108747A CN 113887354 A CN113887354 A CN 113887354A
- Authority
- CN
- China
- Prior art keywords
- target object
- processed
- image
- group
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 238000009877 rendering Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别方法、装置、电子设备及存储介质,通过获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像,然后对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,并且对待检测组的待处理图像进行图像拼接处理,获得全景视频帧,进而将待检测组对应的全景视频帧与目标对象识别结果进行关联,通过对采集的待处理图像进行图像识别处理,再将图像识别结果与对应的全景视频帧关联,可以简化全景视频帧的图像识别难度,提高图像识别的准确性。
Description
技术领域
本申请涉及图像处理技术领域,更具体地,涉及一种图像识别方法、装置、电子设备及存储介质。
背景技术
随着虚拟现实(Virtual Reality,VR)技术的不断发展,全景视频在各种领域的应用越来越广泛,例如VR视频直播、VR游戏、VR模拟等。全景视频中的每一帧都是经过渲染处理的全景图像,给用户身临其境的沉浸感。
然而,经过渲染处理的视频帧由于渲染方式的不同存在畸变、计算复杂等技术难题,难以进行进一步的图像处理和应用。
发明内容
鉴于上述问题,本发明提出了一种图像识别方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种图像识别方法,该图像识别方法包括:获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像;对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果;对待检测组的待处理图像进行图像拼接处理,获得全景视频帧;将待检测组对应的全景视频帧与目标对象识别结果进行关联。
第二方面,本申请实施例还提供了一种图像识别装置,该图像识别装置包括:图像获取模块、图像识别模块、图像拼接模块以及关联模块。其中,图像获取模块用于获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像。图像识别模块用于对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果。图像拼接模块用于对待检测组的待处理图像进行图像拼接处理,获得全景视频帧。关联模块用于将待检测组对应的全景视频帧与目标对象识别结果进行关联。
第三方面,本申请实施例还提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个应用程序。其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如上述第一方面所述的图像识别方法。
第四方面,本申请实施例还提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如上述第一方面所述的图像识别方法。
本发明提供的技术方案,通过获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像,然后对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,并且对待检测组的待处理图像进行图像拼接处理,获得全景视频帧,进而将待检测组对应的全景视频帧与目标对象识别结果进行关联,通过对采集的待处理图像进行图像识别处理,再将图像识别结果与对应的全景视频帧关联,可以简化全景视频帧的图像识别难度,提高图像识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。
图1示出了本申请一实施例所涉及的一种应用环境的示意图。
图2示出了本申请一实施例提出的一种图像识别方法的流程示意图。
图3示出了本申请一实施例提出的按排序顺序进行图像识别处理的流程示意图。
图4示出了本申请一实施例提出的一种确定目标对象移动区域的场景示意图。
图5示出了本申请一实施例提出的另一种确定目标对象移动区域的场景示意图。
图6示出了在多个待处理图像中检测到目标对象时的图像识别处理的流程示意图。
图7示出了通过组合图像进行图像识别处理的流程示意图。
图8示出了本申请一实施例提出的一种与主播互动的场景示意图。
图9示出了本申请一实施例提出的另一种与主播互动的场景示意图。
图10示出了本申请一实施例提出的一种图像识别装置的结构框图;
图11示出了本申请一实施例提出的一种电子设备的结构框图;
图12示出了本申请一实施例提出的一种计算机可读取存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着虚拟现实(Virtual Reality,VR)技术的不断发展,全景视频在各种领域的应用越来越广泛,例如网上购物、演唱会、比赛等的VR视频直播、VR游戏、VR模拟等。全景视频中的每一帧都是经过渲染处理的全景图像,可以提升用户的观看体验,给用户身临其境的沉浸感。
目前,全景视频制作过程主要包括:设置多个采集通道对目标区域进行拍摄,每个采集通道可以采集目标区域不同部分或角度的图像,然后将多个采集通道采集的图像进行拼接处理获得全景视频帧。
全景视频帧的拼接处理通常将多个图像进行合并,并将合并图像进行渲染处理。其中,渲染处理可以采用等距圆柱投影法。等距圆柱投影法是一种地图投影方法,在这种投影方法中:通过假设球面和圆柱面相切于赤道,将球面上的经纬线投影到圆柱面上,然后沿圆柱面的一条母线展开成平面。然而,采用等距圆柱投影法,在渲染处理过程中,离赤道位置越远的图像,畸变越严重,畸变的图像无法进行有效的图像识别,影响图像识别的准确性。
此外,渲染处理还可以采用立方体投影法,即将全景画面投影到立方体的六个表面,以得到六个画面。在这种投影方法中:虽然每个单独的画面不存在畸变问题,但是,进行图像识别时计算复杂且计算量较大,而且无法在目标对象出现在两个画面的交界处时进行图像识别。
因此,全景视频在图像识别上由于渲染方式的不同存在畸变、计算复杂等问题,难以进行进一步的图像处理和应用。
为了改善上述问题,发明人提出了本申请提供的图像识别方法、装置、电子设备及存储介质,通过获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像,然后对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,并且对待检测组的待处理图像进行图像拼接处理,获得全景视频帧,进而将待检测组对应的全景视频帧与目标对象识别结果进行关联,通过对采集的待处理图像进行图像识别处理,再将图像识别结果与对应的全景视频帧关联,可以简化全景视频帧的图像识别难度,提高图像识别的准确性。
本申请实施例提供的图像识别方法适用于任何生成全景视频的场景中。示例性地,可以应用于全景视频互联网直播技术领域。
为了便于说明本申请的技术方案,下面先结合附图对本发明实施提供的图像识别方法的其中一种应用环境进行介绍。
请参阅图1,图1为本申请实施例提供的一种直播网络系统100的结构示意图。该直播网络系统100可以包括主播终端110、服务器120和观众终端130。需要说明的是,图1是一种示例性的应用环境,本申请实施例所提供的方法还可以运行于其他的应用环境中,本申请对此不作限制。
其中,服务器110可以是一台服务器(网络接入服务器),也可以是由若干台服务器组成的服务器集群(云服务器),或者可以是一个云计算中心(数据库服务器)。
主播终端120和观看终端130可以是任何具备通信和存储功能的设备,包括但不限于PC(Personal Computer,个人计算机)、PDA(平板电脑)、智能电视、智能手机、智能可穿戴设备或其他具有网络连接功能的智能通信设备。在一些实施方式中,主播终端110的数量是一个或多个。观看终端130的数量也可以是一个或多个。
在本申请的实施例中,主播终端110和观众终端130可以安装直播应用,服务器120可以向直播应用提供直播服务。例如,主播用户可以在主播终端110使用直播应用提供的主播直播功能进行全景视频直播。又如,观众用户可以在观众终端130使用直播应用提供的直播收看功能收看全景直播视频。
在本申请的实施例中,主播终端110可以获取目标区域的图像。在一些实施方式中,主播终端110可以设置有图像采集装置,通过图像采集装置采集目标区域的图像。在另一些实施方式中,主播终端110也可以不设置图像采集装置,而是与外设的图像采集装置连接,以获取图像采集装置采集的目标区域的图像。图像采集装置可以例如是照相机、摄像头、全景相机等,本申请对此不作限制。此外,图像采集装置的数量可以是一个或多个,具体数量可以根据实际使用需要进行设置。
在一些实施方式中,主播终端110可以通过采集卡获取图像采集装置采集的图像。其中,采集卡可以例如是USB(Universal Serial BUS,通用串行总线)采集卡、数字采集卡、模拟采集卡等。在另一些实施方式中,主播终端110还可以通过网络获取图像采集装置采集的图像。
主播终端110获取目标区域的图像,并将图像拼接处理形成全景视频帧,然后将全景视频帧发送给服务器120,服务器120将所接收的全景视频帧发送给观众终端130,观众用户可以在观众终端130观看到全景视频帧的内容。
其中,主播终端110与服务器120、观众终端130与服务器120可以通过网络实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
下面将结合附图具体描述本申请的各实施例。
请参阅图2,本申请实施例提供的一种图像识别方法,可应用于上述直播网络系统,于本申请实施例提供的方法中,该方法的执行主体为生成全景视频帧的一端,例如可以是上述的主播终端。
观看全景视频时,观众可以在全景视频上选择观看角度和区域,不同观众可以选择不同的观看角度和区域,也即不同的观众在各自的观众终端上呈现的全景视频的视角不同。如果是在播放全景视频帧的一端,例如上述的观众终端进行全景视频帧的图像识别,一方面,每个观众终端的视角不同,不同的视角获得的图像识别结果不同,每个观众终端都进行图像识别需要进行大量的运算。另一方面,观众终端的类型、性能不同,在低配置的观众终端上进行全景视频帧的图像识别,会导致观众终端资源占用过大,导致卡顿等问题,图像识别结果无法保证,影响用户的使用体验。为了解决上述技术难题,本申请的实施例的图像识别方法的执行主体为生成全景视频帧的一端,例如上述的主播终端。从而,全景视频帧的图像识别处理只需要在主播终端统一进行,不需要各个观众终端重复处理,且主播终端进行图像识别的图像的区域和视角固定和全面,也即图像识别结果统一、稳定,可以提高用户的使用体验。
具体地,本申请实施例的图像识别方法包括:步骤210至步骤240。
在步骤210中,获取待检测组的待处理图像。其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像。
其中,不同采集通道对应的采集区域或角度不同。不同采集通道之间的采集区域或角度可以部分重叠,也可以完全不同。
在一些实施方式中,主播终端可以通过图像采集装置获取待处理图像。图像采集装置的数量可以是一个或多个。每个图像采集装置可以包括一个或多个采集通道,从而可以采集一个或多个采集区域的图像。
为了获得全景视频帧,图像采集装置定时采集图像。每一采集时刻,图像采集装置采集一组图像,每组图像包括当前采集时刻每一采集通道采集的图像。在本申请的实施例中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像。
进一步地,获取的图像可以存储于主播终端的存储空间,例如存储器、缓存区等。当图像处理时,可以从缓存区获取待检测组的待处理图像进行处理。
在步骤220中,对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果。
在本申请的实施例中,待检测组的待处理图像为图像采集装置获取的原始采集图像,尚未进行拼接处理。因此,待检测组的待处理图像不会有因为拼接处理导致的畸变等问题。对待检测组的待处理图像进行图像识别,可以简化图像识别的难度,提高图像识别的准确性。
其中,对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,以确定待处理图像中是否存在目标对象。当待处理图像中存在目标对象时,还可以进一步确定目标对象在待处理图像中的位置。进而,根据待处理图像在全景视频帧中的位置,可以确定目标对象在全景视频帧中的具体位置。
目标对象可以包括人、特定物品等,可以根据实际使用需要进行设置。在直播时,目标对象可以例如是主播的人脸。目标对象的数量可以是一个或者多个。例如,目标对象是主播时,主播可以是一个人,也可以是多个人。
具体地,图像识别处理可以采用模板匹配算法、Eigenface算法(特征脸方法)、Fisherfaces算法、LBPH算法(Local Binary Patterns Histograms,局部二进制编码直方图)实现,也可以通过预先训练的神经网络进行图像识别处理,本申请对此不作限制。
每个待检测组包括多张待处理图像,为了提高图像识别处理的效率,可以设置多个线程对待检测组的多张待处理图像进行图像识别处理。即每次同时对多张待处理图像进行图像识别处理。其中,线程数量可以根据实际使用需要进行设置,本申请对此不作限制。
在一些实施方式中,目标对象的数量可以为一个,在对待检测组的多张待处理图像进行图像识别处理时,若识别到目标对象,则可以停止对该检测组中未处理的待处理图像的图像识别处理,从而可以提高效率。
在一些实施方式中,目标对象的数量可以为多个。如果已知目标对象的具体数量,那么在对待检测组的多张待处理图像进行图像识别处理时,若识别到对应数量的目标对象,则可以停止对该检测组的未处理的待处理图像的图像识别处理。若不确定目标对象的具体数量,则在对待检测组的多张待处理图像进行图像识别处理时,需要对待检测组中的每一张待处理图像进行图像识别处理。
多个待处理图像覆盖目标区域的不同区域和不同角度,然而,在一些情况下,部分区域不存在目标对象,例如天花板区域、目标对象的非活动区域等无效区域。这些无效区域不可能存在目标对象,对无效区域对应的图像进行图像识别处理,不可能识别到目标对象,占用了计算资源,降低了目标对象识别的效率。为了解决这一技术难题,在一些实施方式中,可以预先确定无效区域,例如,用户可以预先在展示有采集区域信息的交互界面进行设置,选择部分采集区域作为无效区域。进而,在进行图像识别处理时,只对待处理图像中的无效区域以外的区域进行处理,从而可以减少图像识别处理的计算量,提高图像识别的效率。
在进行图像识别处理时,可以按固定顺序对待检测组的多张待处理图像进行图像识别处理。也可以按随机顺序对待检测组的多张待处理图像进行图像识别处理。
为了提高图像识别处理的效率,也可以优先对出现目标对象概率较高的待处理图像进行图像识别处理。下面以一个具体示例进行阐述。
作为一种实施方式,对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:步骤2211-步骤2213。
在步骤2211中,对待检测组的待处理图像进行排序处理以获得排序队列。
在步骤2212中,依序对排序队列中的待处理图像进行图像识别处理。
在步骤2213中,若识别到目标对象,则确定目标对象的位置信息。
其中,可以对待检测组的待处理图像进行排序处理以获得排序队列。待检测组的待处理图像的排序处理可以是固定顺序排序、随机顺序排序,也可以是按照出现目标对象的概率高低进行排序。
在一些实施方式中,对待检测组的待处理图像进行排序处理以获得排序队列可以是按照采集通道的目标分值的高低对待处理图像进行排序。采集通道的目标分值可以表示采集通道所采集的区域出现目标对象的概率。其中,采集通道的目标分值越高,出现目标对象的概率越高,采集通道所采集的待处理图像的排序越靠前。按采集通道的目标分值进行排序,优先处理出现目标对象的概率较高的待处理图像,可以提高识别目标对象的速率。
作为一种示例,在未识别到目标对象时,各采集通道的目标分值的初始值可以是相同的,此时,可以按随机顺序对待检测组的多张待处理图像进行排序。
作为一种示例,用户也可以预先对目标区域进行划分,例如可以将目标区域划分为目标对象活动范围的活动区域、以及目标对象出现概率较小的无效区域,采集通道包括活动区域的范围越大,对应的目标分值越高。采集通道包括无效区域的范围越大,对应的目标分值越低。
作为一种示例,若识别到目标对象,则可以参照所识别到的目标对象的所在的位置调整对后续采集到的待检测组的待处理图像的处理顺序。
可以理解的是,若目标对象的没有发生位置变化,则在后续采集到的待检测组的待处理图像中的相同位置识别到目标对象的概率较大。
若目标对象发生位置变化,目标对象也是以原先的位置为起点,向周围区域进行移动,则在后续采集到的待处理图像中的对应位置附近区域识别到目标对象的概率较大。因此,在识别到目标对象时,可以确定目标对象的位置信息,后续各采集通道的目标分值可以根据目标对象所在位置进行调整。下面以一个具体示例进行阐述。
作为一种实施方式,在依序对排序队列中的待处理图像进行目标对象识别处理之后,图像识别方法还包括:若识别到目标对象,调整各个采集通道的目标分值。在若识别到目标对象,则确定目标对象的位置信息之后,图像识别方法还包括:确定未进行图像识别处理的检测组作为待检测组,且返回执行获取待检测组的待处理图像的步骤,也即根据调整后的各采集通道的目标分值调整后续待处理图像的处理顺序。
其中,在识别到目标对象时,可以根据目标对象所在的位置,及时调整各个采集通道的目标分值,从而对后续待检测组进行图像识别处理时,可以快速锁定目标对象。
具体地,影响采集通道的目标分值的影响因素可以设置一种或多种。
作为一种示例,影响因素可以例如是对应的采集通道是否采集到目标对象。具体地,若识别到目标对象,可以将存在目标对象的待处理图像所对应的采集通道的目标分值调整至高于未存在目标对象的待处理图像所对应的采集通道的目标分值。从而,对后续待检测组进行图像处理时,优先处理获取过目标对象的采集通道对应的待处理图像。
作为一种示例,影响因素也可以是所采集到的目标对象的面积大小。具体地,若识别到存在目标对象的待处理图像为多张,则可以根据目标对象的面积,对多张存在目标对象的待处理图像所对应的采集通道的目标分值进行调整。其中,目标对象的面积越大,目标对象距离图像采集位置越近,所获得的目标对象的位置越准确。因此,目标对象的面积越大,目标对象所在的待处理图像所对应的采集通道的目标分值越高。
作为一种示例,影响因素也可以是目标对象的移动趋势。具体地,在识别到目标对象时,还可以预测目标对象的移动方向,根据移动方向预测目标对象的移动区域,进而若采集通道的采集区域包括所述移动区域的面积越大,则采集通道对应的目标分值越高。
可选地,在识别到目标对象时,可以获取目标对象的关键点信息。例如,目标对象为人脸时,可以获取眼睛、鼻子、嘴巴等关键点信息,根据关键点信息可以确定人脸的朝向范围。人脸的朝向范围内的区域为目标对象的预测的移动区域。具体地,落入人脸的朝向范围的角度越多,采集区域对应的采集通道的目标分值越高。如图4所示,在采集区域B1识别到人脸图像,确定人脸的朝向范围C。在图4中,采集区域B2落入人脸的朝向范围C的角度多于采集区域B3落入人脸朝向范围C的角度,所以采集范围B2所对应的采集通道的目标分数高于采集范围B3所对应的采集通道的目标分数。
可选地,在相邻待检测组图像均识别到目标对象时,若目标对象的位置发生变化,则可以结合目标对象的位置变化,确定目标对象的移动方向,目标方向移动方向所指向的采集区域为目标对象的预测移动区域。如图5所示,目标对象的移动方向D所指向的采集区域为B2,则采集区域B1为目标对象的预测移动区域,所以采集范围B2所对应的采集通道的目标分数高于其它采集通道的目标分数。
作为一种示例,影响因素还可以是与目标对象所在区域的位置关系。可以理解的是,目标对象若发生位置变化,是从原先位置向周围区域移动。因此,距离目标对象所在区域越近,目标对象出现的概率越高。具体地,在识别到目标对象时,若采集通道的采集区域越靠近目标对象所在的区域,则采集通道对应的目标分值越高。
可以理解的是,在其它实施方式中,还可以采用其它影响因素调整采集通道的目标分值,例如脚的移动姿势、目标对象所说的语音关键词等,本申请对此不作限制。
在一些实施方式中,若采用的影响因素为多个时,还可以给每个影响要素设置权重值。可以根据影响要素的重要程度不同,设置不同的权重值。例如目标分值为S,影响因素包括与目标对象所在区域的距离因素和目标对象的的移动趋势的趋势因素。设置距离因素的权重为w1以及趋势因素的权重为w2,则目标分值S=w1*S1+w2*S2,S1为在距离因素上的分值,S2为在趋势因素上的得分。
下面以一个具体的例子进行阐述。当待处理图像对应的采集通道采集到目标对象,假设满分为100,则该采集通道的目标分数为S=100。接着,可以根据距离因素、趋势因素确定其它不存在目标对象的采集通道的目标分值。假设距离因素满分为100,距离因素的权重值为0.6。趋势因素满分为100,趋势因素的权重值为0.4。
在剩下的采集通道中,采集区域距离目标对象所在区域越近,在距离因素上的分值越高,距离目标对象所在区域最近的,分值为100。采集区域落入目标对象预测的移动区域越多,在趋势因素上的分值越高,完全落入目标对象预测的移动区域,分值为100。假设采集通道F1采集到目标对象,则采集通道F1的目标分数SF1=100。采集通过F2未采集到目标对象,但在距离因素上的得分为80,在趋势因素上的得分为90,则采集通道F2的目标分数SF2=80*0.6+90*0.4=84。
通过采用多种类型的影响因素和设置影响因素的权重,可以更有效地各采集区域出现目标对象的概率,进而按照出现目标对象概率的高低确定待处理图像处理的先后顺序,可以快速识别到目标对象,提高图像处理的效率。
通常,可以按照采集时刻的先后顺序对待检测组进行图像识别处理。作为一种实施方式,可以按照采集时刻的先后顺序依次对待检测组中的所有待处理图像进行图像识别处理。作为另一种实施方式,也可以对待检测组进行跳帧处理,也即部分待检测组可以不进行图像识别处理,直接对后续的待检测组进行图像识别处理。例如,对于待检测组a1、a2以及a3,可以在对待检测组a1进行图像识别处理之后,直接跳过待检测组a2,对待检测组a3进行图像识别处理。作为又一种实施方式,还可以每次仅对待检测组的部分待处理图像进行图像识别处理,依次轮询识别,直到识别到目标对象。例如,上述待检测组的a1、a2中,每组待检测组包括6张待处理图像。可以先对待检测组a1的其中3张待处理图像进行图像识别处理。接着对待检测组a2的其中3张待处理图像进行图像识别。然后再返回去对待检测组a1的剩余的3张待处理图像进行图像识别处理,以及对待检测组a2的剩余的3张待处理图像进行图像识别处理。
在对待检测组进行图像识别处理时,由于部分采集通道对应的采集区域可能存在重叠,也即可能待处理图像中包括有重复的图像。当目标对象出现在上述重叠区域时,则可能在多张待处理图像中识别到同一目标对象。此时,可以选择其中一张识别到目标对象的待处理图像,将该待处理图像进行图像识别处理获得的图像识别结果作为目标对象识别结果。下面以一个具体示例进行阐述。
作为一种实施方式,对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:步骤2221-步骤2223。
步骤2221、若在待检测组的多个待处理图像中识别到目标对象,则分别确定每个目标对象在预设坐标系中的位置。
步骤2222、确定位置之间的距离。
步骤2223、若距离小于预设距离阈值,则确定面积最大的目标对象的位置信息。
其中,在多张待处理图像中识别到目标对象,可以分别确定每个目标对象在预设坐标系中的位置。也即,确定多张待处理图像中识别到的目标对象在同一坐标系中的位置,如果目标对象的位置之间的距离小于预设距离阈值,则确定多张待处理图像中识别到的目标对象为同一目标对象。可选地,也可以结合其它因素确定是否为同一目标对象,例如,确定多张待处理图像中识别到的目标对象的面积,例如目标对象为人脸时,可以识别人脸的外接矩形面积。如果目标对象的位置之间的距离小于预设距离阈值,且目标对象的位置之间的面积之差小于预设阈值,则确定多张待处理图像中识别到的目标对象为同一目标对象。预设坐标系可以例如是世界坐标系,可以采用目标对象在世界坐标系中的坐标表示目标对象的位置。可选地,可以根据欧式距离计算公式确定目标对象位置之间的距离。面积越大的目标对象距离图像采集装置的位置越近,图像采集装置所采集到的目标对象越清晰,因此在距离小于预设距离阈值时,可以采用面积最大的目标对象的位置信息作为目标对象识别结果。
在待处理图像数量较多,或者需要进行图像识别的次数较多时,也可以将多张待处理图像进行组合,对组合后的图像进行图像识别,以减少图像识别的次数,提高图像识别的效率。下面以一个具体示例进行阐述。
作为一种实施方式,对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:步骤2231至步骤2233。
步骤2231、将待检测组中的待处理图像进行分组。其中,每组待处理图像包括至少两个待处理图像。
步骤2232、将每组待处理图像进行组合形成组合图像。
步骤2233、对组合图像进行图像识别处理,获得目标对象识别结果。
其中,不同图像识别方式可以处理的图像的限制不同,例如部分图像识别算法对所处理的图像的最大分辨率有所限制,则每组待处理图像组合形成的组合图像的分辨率要小于图像识别算法对应的最大分辨率。
作为一种实施方式,在将每组待处理图像组合形成组合图像时,可以记录组合图像与待处理图像的位置关系。从而在组合图像中识别到目标对象时,可以根据目标对象在组合图像中的位置关系、组合图像与待处理图像的位置关系,确定目标对象在待处理图像中的位置,进而确定目标对象在全景视频帧中的位置。
对组合图像进行图像识别处理,也可以参照对单张待处理图像进行图像识别处理的方式,例如设置多个线程同时对多张组合图像进行图像识别处理、对组合图像进行排序处理等,可选地,在进行排序处理时,组合图像的目标分值可以为其所包含的所有待处理图像的目标分值之和。
在步骤230中,对待检测组的待处理图像进行图像拼接处理,获得全景视频帧。
其中,对待检测组的待处理图像通过拼接和渲染可以获得目标区域的全景视频帧,具体渲染处理方式可以参照上述阐述,在此不再赘述。
在步骤240中,将待检测组对应的全景视频帧与目标对象识别结果进行关联。
待检测组的待处理图像的图像识别处理和图像拼接处理是分开进行的,因此,需要对同一待检测组对应的全景视频帧和目标对象识别结果进行关联。
作为一种实施方式,可以为同一待检测组对应的全景视频帧和目标对象识别结果设置相同的标识,以关联同一待检测组对应的全景视频帧与目标对象识别结果,获取全景视频帧对应的目标对象识别结果时,可以根据标识,选择与全景视频帧具有相同标识的目标对象识别结果。
在一些实施方式中,在步骤240之后,本申请实施例的图像识别方法,还可以包括:
根据全景视频帧关联的目标对象识别结果对全景视频帧中的目标对象进行图像后处理,获得处理后的全景视频帧。
其中,图像后处理可以包括但不限于美颜处理、滤镜处理、水印处理、虚化处理、添加目标框等。获得目标对象识别结果之后,可以根据实际使用需要对目标对象进行对应处理,从而可以丰富全景视频的展现方式,提升用户的观赏性。
在一些实施方式中,也可以根据目标对象识别结果与用户进行互动。例如,图8所示的在直播场景中,用户可以与主播进行互动,例如用户可以为喜欢的主播打赏虚拟礼物,图8中,用户触控礼物赠送控件E1,可以出现礼物赠送交互界面E2。用户可以在礼物赠送交互界面E2选择打赏主播的礼物,如帽子等。如图9所示,用户触控赠送控件E3,则可以在后续的全景视频帧中,根据图像识别结果,确定主播的位置,在主播的头部位置处添加“帽子”E4图案。从而增强主播与用户之间的互动,增加全景视频直播过程的趣味性,提升用户的参与感。
本申请实施例提供的图像识别方法,通过获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像,然后对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,并且对待检测组的待处理图像进行图像拼接处理,获得全景视频帧,进而将待检测组对应的全景视频帧与目标对象识别结果进行关联,通过对采集的待处理图像进行图像识别处理,再将图像识别结果与对应的全景视频帧关联,可以简化全景视频帧的图像识别难度,提高图像识别的准确性。
请参阅图10,其示出了本发明一个实施例提供的图像识别装置,该图像识别装置300包括:图像获取模块310、图像识别模块320、图像拼接模块330以及关联模块340。
其中,图像获取模块310用于获取待检测组的待处理图像。其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像。
图像识别模块320用于对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果。
图像拼接模块330用于对待检测组的待处理图像进行图像拼接处理,获得全景视频帧。
关联模块340用于将待检测组对应的全景视频帧与目标对象识别结果进行关联。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。对于方法实施例中的所描述的任意的处理方式,在装置实施例中均可以通过相应的处理模块实现,装置实施例中不再一一赘述。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图11,基于上述的图像识别方法,本申请实施例还提供的另一种包括可以执行前述图像识别方法的处理器的电子设备400,电子设备400还包括一个或多个处理器410、存储器420以及一个或多个应用程序。其中,该存储器420中存储有可以执行前述实施例中内容的程序,而处理器410可以执行该存储器中存储的程序。
其中,处理器410可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器410利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行电子设备400的各种功能和处理数据。可选地,处理器410可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
存储器420可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器420可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如图像获取功能、图像识别功能、图像拼接功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如待处理图像、全景视频帧、位置信息、目标分值等)等。
请参考图12,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的图像识别方法。
计算机可读取存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
综上所述,本申请提供的一种图像识别方法、装置、电子设备及存储介质,通过获取待检测组的待处理图像,其中,待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像,然后对待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,并且对待检测组的待处理图像进行图像拼接处理,获得全景视频帧,进而将待检测组对应的全景视频帧与目标对象识别结果进行关联,通过对采集的待处理图像进行图像识别处理,再将图像识别结果与对应的全景视频帧关联,可以简化全景视频帧的图像识别难度,提高图像识别的准确性。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种图像识别方法,其特征在于,所述图像识别方法包括:
获取待检测组的待处理图像;其中,所述待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像;
对所述待检测组的待处理图像进行图像识别处理,获得目标对象识别结果;
对所述待检测组的待处理图像进行图像拼接处理,获得全景视频帧;
将所述待检测组对应的所述全景视频帧与所述目标对象识别结果进行关联。
2.根据权利要求1所述的图像识别方法,其特征在于,所述对所述待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:
对所述待检测组的待处理图像进行排序处理以获得排序队列;
依序对所述排序队列中的待处理图像进行图像识别处理;
若识别到目标对象,则确定所述目标对象的位置信息。
3.根据权利要求2所述的图像识别方法,其特征在于,所述对所述待检测组的待处理图像进行排序处理以获得排序队列,包括:
按照所述采集通道的目标分值的高低对所述待处理图像进行排序,其中,所述采集通道的目标分值越高,所述采集通道所采集的待处理图像的排序越靠前。
4.根据权利要求2所述的图像识别方法,其特征在于,所述在依序对所述排序队列中的待处理图像进行目标对象识别处理之后,所述图像识别方法还包括:
若识别到目标对象,则调整各个所述采集通道的目标分值;
在所述若识别到目标对象,则确定所述目标对象的位置信息之后,所述方法还包括:
确定未进行图像识别处理的检测组作为待检测组,且返回执行所述获取待检测组的待处理图像的步骤。
5.根据权利要求4所述的图像识别方法,其特征在于,所述若识别到目标对象,则调整各个所述采集通道的目标分值,包括:
若识别到目标对象,则将存在所述目标对象的待处理图像所对应的采集通道的目标分值调整至高于未存在目标对象的待处理图像所对应的采集通道的目标分值。
6.根据权利要求5所述的图像识别方法,其特征在于,所述图像识别方法还包括:
若识别到存在目标对象的待处理图像为多张,则根据所述目标对象的面积,对多张存在所述目标对象的待处理图像所对应的采集通道的所述目标分值进行调整,其中,所述目标对象的面积越大,所述目标对象所在的待处理图像所对应的采集通道的所述目标分值越高。
7.根据权利要求5所述的图像识别方法,其特征在于,所述若识别到目标对象,则调整各个所述采集通道的目标分值,还包括:
预测所述目标对象的移动方向;
根据所述移动方向预测所述目标对象的移动区域;
若所述采集通道的采集区域包括所述移动区域的面积越大,则所述采集通道对应的所述目标分值越高。
8.根据权利要求5所述的图像识别方法,其特征在于,所述若识别到目标对象,则调整各个所述采集通道的目标分值,还包括:
若所述采集通道的采集区域越靠近所述目标对象所在的区域,则所述采集通道对应的所述目标分值越高。
9.根据权利要求1所述的图像识别方法,其特征在于,所述对所述待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:
将所述待检测组中的待处理图像进行分组;其中,每组待处理图像包括至少两个待处理图像;
将每组待处理图像进行组合形成组合图像;
对所述组合图像进行图像识别处理,获得目标对象识别结果。
10.根据权利要求1所述的图像识别方法,其特征在于,所述对所述待检测组的待处理图像进行目标对象识别处理,获得目标对象识别结果,包括:
对所述待检测组的待处理图像中无效区域以外的区域进行图像识别处理,获得目标对象识别结果。
11.根据权利要求1所述的图像识别方法,其特征在于,所述对所述待检测组的待处理图像进行图像识别处理,获得目标对象识别结果,包括:
若在所述待检测组的多个待处理图像中识别到所述目标对象,则分别确定每个目标对象在预设坐标系中的位置;
确定所述位置之间的距离;
若所述距离小于预设距离阈值,则确定面积最大的所述目标对象的位置信息。
12.根据权利要求1所述的图像识别方法,其特征在于,在将所述待检测组对应的所述全景视频帧与所述目标对象识别结果进行关联之后,所述方法还包括:
根据所述全景视频帧关联的所述目标对象识别结果对所述全景视频帧中的目标对象进行图像后处理,获得处理后的全景视频帧。
13.一种图像识别装置,其特征在于,所述图像识别装置包括:
图像获取模块,用于获取待检测组的待处理图像;其中,所述待检测组包括多个采集通道在同一采集时刻分别采集的待处理图像;
图像识别模块,用于对所述待检测组的待处理图像进行图像识别处理,获得目标对象识别结果;
图像拼接模块,用于对所述待检测组的待处理图像进行图像拼接处理,获得全景视频帧;
关联模块,用于将所述待检测组对应的所述全景视频帧与所述目标对象识别结果进行关联。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-12任一项所述的图像识别方法。
15.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-12任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108747.5A CN113887354A (zh) | 2021-09-22 | 2021-09-22 | 图像识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108747.5A CN113887354A (zh) | 2021-09-22 | 2021-09-22 | 图像识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887354A true CN113887354A (zh) | 2022-01-04 |
Family
ID=79009843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111108747.5A Pending CN113887354A (zh) | 2021-09-22 | 2021-09-22 | 图像识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887354A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023138641A1 (zh) * | 2022-01-19 | 2023-07-27 | 阿里云计算有限公司 | 杂质检测方法、系统、装置、设备、存储介质及软件产品 |
-
2021
- 2021-09-22 CN CN202111108747.5A patent/CN113887354A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023138641A1 (zh) * | 2022-01-19 | 2023-07-27 | 阿里云计算有限公司 | 杂质检测方法、系统、装置、设备、存储介质及软件产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11755956B2 (en) | Method, storage medium and apparatus for converting 2D picture set to 3D model | |
WO2022001593A1 (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN114097248B (zh) | 一种视频流处理方法、装置、设备及介质 | |
WO2018059034A1 (zh) | 一种全景视频播放方法及装置 | |
CN111246232A (zh) | 直播互动方法、装置、电子设备及存储介质 | |
CN108616731A (zh) | 一种360度vr全景图形图像及视频实时生成方法 | |
CN114025219B (zh) | 增强现实特效的渲染方法、装置、介质及设备 | |
WO2022110591A1 (zh) | 基于连麦直播的直播画面处理方法、装置及电子设备 | |
CN112733802A (zh) | 图像的遮挡检测方法、装置、电子设备及存储介质 | |
CN113709544B (zh) | 视频的播放方法、装置、设备及计算机可读存储介质 | |
CN108134945B (zh) | Ar业务处理方法、装置及终端 | |
TWI634516B (zh) | 指示視訊內容之文件格式 | |
CN109982036A (zh) | 一种全景视频数据处理的方法、终端以及存储介质 | |
CN112785669B (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
CN114845158B (zh) | 视频封面的生成方法、视频发布方法及相关设备 | |
CN113887354A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114358112A (zh) | 视频融合方法、计算机程序产品、客户端及存储介质 | |
WO2024104144A1 (zh) | 图像合成方法和装置、存储介质及电子设备 | |
US11961190B2 (en) | Content distribution system, content distribution method, and content distribution program | |
JP6609078B1 (ja) | コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム | |
US20230056531A1 (en) | Methods and Systems for Utilizing Live Embedded Tracking Data within a Live Sports Video Stream | |
CN111507139A (zh) | 图像效果生成方法、装置和电子设备 | |
US12020469B2 (en) | Method and device for generating image effect of facial expression, and electronic device | |
US10237614B2 (en) | Content viewing verification system | |
JP7344084B2 (ja) | コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |