CN113225613B - 图像识别、视频直播方法和装置 - Google Patents

图像识别、视频直播方法和装置 Download PDF

Info

Publication number
CN113225613B
CN113225613B CN202010070867.XA CN202010070867A CN113225613B CN 113225613 B CN113225613 B CN 113225613B CN 202010070867 A CN202010070867 A CN 202010070867A CN 113225613 B CN113225613 B CN 113225613B
Authority
CN
China
Prior art keywords
image
identified
key point
images
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010070867.XA
Other languages
English (en)
Other versions
CN113225613A (zh
Inventor
施雪梅
许强强
杨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010070867.XA priority Critical patent/CN113225613B/zh
Priority to PCT/CN2021/073150 priority patent/WO2021147966A1/zh
Publication of CN113225613A publication Critical patent/CN113225613A/zh
Priority to US17/746,842 priority patent/US20220279241A1/en
Application granted granted Critical
Publication of CN113225613B publication Critical patent/CN113225613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Abstract

本申请涉及一种图像识别、视频直播方法和装置。所述方法包括:获取多个待识别图像;拼接多个所述待识别图像,得到拼接图像;将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点。采用本方法能够节省进行图像识别所需的处理资源。

Description

图像识别、视频直播方法和装置
技术领域
本申请涉及视频技术领域,特别是涉及一种图像识别、视频直播方法和装置。
背景技术
目前,随着网络技术的发展,越来越多的用户通过手机、台式电脑等的终端进行视频通讯,视频通讯可以广泛应用于视频通话、视频会议、视频直播等的应用场景。通常,在上述的应用场景中,用户可以通过本地端进行拍摄,并播放本地端拍摄到的视频,本地端还可以播放另一端拍摄到的视频,由此,用户可以通过本地端看到双方实时的视频。
通常,在上述的应用场景中,用户可以对视频图像进行特效处理。例如,在视频直播中,用户可以在双方的视频图像中贴上动画贴纸。
为了对视频图像进行特效处理,终端需要首先创建出图像识别实例,执行图像识别实例,以将图像输入至图像识别模型,通过图像识别模型输出图像中的人脸关键点、人体关键点、背景关键点等的关键点,并根据输出的关键点添加特效。对双方的视频图像添加特效,则要相应创建出两个图像识别实例进行识别。
然而,执行图像识别实例以将图像输入至图像识别模型得到图像的关键点,需要耗费终端的处理资源,通过多个图像识别实例分别得到多个图像的关键点,则会严重耗费终端大量的处理资源,影响终端的运行速度。
因此,相关技术中的图像识别方法存在着严重耗费终端处理资源的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种图像识别、视频直播方法和装置。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像识别方法,包括:
获取多个待识别图像;
拼接多个所述待识别图像,得到拼接图像;
将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点。
可选地,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点,包括:
确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;
按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标;
将所述待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
可选地,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述确定所述第一关键点坐标对应的坐标转换参数,包括:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;
根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
可选地,在所述拼接多个所述待识别图像,得到拼接图像之后,还包括:
根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;
确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;
根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
可选地,在所述拼接多个所述待识别图像,得到拼接图像之后,还包括:
确定所述待识别图像中的至少一个像素点,为基准像素点;
确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;
将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;
记录所述待识别图像与所述坐标转换参数的对应关系。
可选地,所述根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数,包括:
确定所述目标图像区域对应的待识别图像,为目标待识别图像;
确定所述目标待识别图像对应的坐标转换参数,为所述第一关键点坐标对应的坐标转换参数。
可选地,所述按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为在所述图像上的第二关键点坐标,包括:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
可选地,所述拼接多个所述待识别图像,得到拼接图像,包括:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;
拼接多个所述缩放后图像,得到所述拼接图像。
根据本公开实施例的第二方面,提供一种视频直播方法,包括:
获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
根据本公开实施例的第三方面,提供了一种图像识别装置,包括:
图像获取单元,被配置为执行获取多个待识别图像;
图像拼接单元,被配置为执行拼接多个所述待识别图像,得到拼接图像;
关键点识别单元,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元,被配置为执行根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点。
可选地,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述关键点确定单元,被配置为执行:
确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;
按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标;
将所述待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
可选地,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述关键点确定单元,被配置为执行:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;
根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
可选地,所述装置还包括:
划分单元,被配置为执行根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
可选地,所述装置还包括:
基准点确定单元,被配置为执行确定所述待识别图像中的至少一个像素点,为基准像素点;
基准坐标确定单元,被配置为执行确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;
参数计算单元,被配置为执行将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;
记录单元,被配置为执行记录所述待识别图像与所述坐标转换参数的对应关系。
可选地,所述关键点确定单元,被配置为执行:
确定所述目标图像区域对应的待识别图像,为目标待识别图像;
确定所述目标待识别图像对应的坐标转换参数,为所述第一关键点坐标对应的坐标转换参数。
可选地,所述关键点确定单元,被配置为执行:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
可选地,所述图像拼接单元,被配置为执行:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;
拼接多个所述缩放后图像,得到所述拼接图像。
根据本公开实施例的第四方面,提供了一种视频直播装置,包括:
视频流获取单元,被配置为执行获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
图像获取单元,被配置为执行从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
图像拼接单元,被配置为执行拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
关键点识别单元,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元,被配置为执行根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
特效添加单元,被配置为执行按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
特效播放单元,被配置为执行播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
根据本公开实施例的第五方面,提供一种计算机设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面、第二方面或第一方面的任一种可能的实施方式中的方法。
据本公开实施例的第六方面,提供一种存储介质,当所述存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行如第一方面、第二方面或第一方面的任一种可能的实施方式中的方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括:计算机程序代码,当所述计算机程序代码被计算机运行时,使得所述计算机执行上述各方面中的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
上述的图像识别方法中,通过获取多个待识别图像,并将多个待识别图像拼接为拼接图像,并将拼接图像输入至图像识别模型,得到拼接图像的第一关键点,并根据第一关键点确定多个待识别图像各自的第二关键点,由此,只需要将拼接图像输入至图像识别模型即可以实现对多个待识别图像的图像识别,得到多个待识别图像各自的关键点,而无须针对多个待识别图像分别执行多个图像识别实例,将多个待识别图像分别输入至图像识别模型,以对多个待识别图像分别识别出关键点,从而,节省了终端进行图像识别所需的处理资源,解决了相关技术中的图像识别方法严重耗费终端处理资源的问题。
而且,将上述的图像识别方法应用于视频通讯时添加图像特效的应用场景时,使得终端在识别图像的关键点以添加图像特效时,降低了处理资源的耗费。由于降低了处理资源的消耗,避免终端由于处理资源不足而导致视频通讯的画面卡顿、延迟等的问题。
附图说明
图1是一个实施例的一种图像识别方法的流程示意图;
图2是一个实施例的一种图像识别方法的应用环境图;
图3是一个实施例的一种视频直播的应用场景;
图4A是一个实施例的一种视频播放界面的示意图;
图4B是一个实施例的一种视频直播过程中添加图像特效的示意图;
图5是一个实施例的一种在视频播放界面添加图像特效的示意图;
图6A是一个实施例的一种图像的拼接边缘的示意图;
图6B是一个实施例的一种拼接图像的示意图;
图6C是一个实施例的一种拼接图像的关键点的示意图;
图6D是一个实施例的一种图像的关键点的示意图;
图6E是一个实施例的一种根据关键点对图像添加图像特效的示意图;
图7是一个实施例的一种确定图像的关键点步骤的流程图;
图8A是一个实施例的一种拼接图像的二维坐标系的示意图;
图8B是一个实施例的一种确定第二关键点坐标的示意图;
图9是一个实施例的一种视频直播方法的流程示意图;
图10是一个实施例的一种直播系统的结构框图;
图11是一个实施例的一种图像识别装置的结构框图;
图12是一个实施例的一种视频直播装置的结构框图;
图13是一个实施例的一种计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种图像识别方法。本实施例提供的图像识别方法,可以应用于如图2所示的应用环境中。该应用环境中包括有第一终端21、第二终端22和服务器23。其中,第一终端21和第二终端22可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器23可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,上述的图像识别方法,可以应用于在视频通话、视频会议、视频直播等的视频通讯的应用场景。更具体地,可以应用在视频通讯过程中对视频中的图像添加图像特效的应用场景。当然,还可以应用于对多个图像进行识别的应用场景中。
例如,参考图3,提供了一个实施例的一种视频直播的应用场景。如图所示,第一用户通过第一终端21在视频直播平台登录第一账户,并通过第一终端21自拍,第一终端21将拍摄得到的视频流发送至服务器23,服务器23将第一账户的视频流发送至第二终端22。另两个第二用户通过第二终端22在视频直播平台登录第二账户,并通过第二终端22自拍,第二终端22将拍摄得到的视频流发送至服务器23,服务器23将第二账户的视频流发送至第一终端21。由此,第一终端21和第二终端22均得到了第一账户和第二账户各自的视频流,即,得到了两路视频流。第一终端21和第二终端22分别可以根据两路视频流进行视频直播。第一用户和第二用户均可以在终端上观看到自身和对方的直播画面。此外,服务器23可以将两路视频流发送至其他用户的第三终端24,其他用户可以通过第三终端24观看第一用户和第二用户的直播画面。
参考图4A,提供了一个实施例的一种视频播放界面的示意图。如图所示,在第一终端21、第二终端22和其他终端24的视频播放界面上,可以同时播放第一账户对应的视频和第二账户对应的视频。上述的视频直播的应用场景中,进行视频直播的第一用户和第二用户可以实时观看到自身和对方的直播画面,并通过语音、文字等方式进行交流,自身和对方的直播画面以及双方交流的内容,还可以被其他用户实时观看,因此该应用场景通常也称为“直播连麦”。
在视频直播过程中,用户可以对视频直播中的人物、背景等内容添加图像特效。参考图4B,提供了一个实施例的一种视频直播过程中添加图像特效的示意图。如图所示,第二用户可以通过第二终端22提交一个特效指令,视频播放界面上的第一账户和第二账户的画面中,针对所显示的人脸添加有表情特效。
为了添加图像特效,终端需要创建图像识别实例,以对视频流中的连续多帧图像进行图像识别,识别出图像中的关键点,并根据图像中的关键点添加图像特效,得到添加有图像特效的图像并显示。对于上述的视频直播的应用场景中,由于存在有两路视频流,因此,终端需要对两路视频流中的图像分别创建图像识别实例,以分别将图像输出至图像识别模型,通过图像识别模型输出两路视频流中的图像的关键点。
然而,执行图像识别实例以通过图像识别模型进行图像识别需要耗费终端的处理资源,为了保证视频直播的实时性,则需要同时执行多个图像识别实例同时进行图像识别,因此,相关技术中的图像识别方法需要耗费终端大量的处理资源。对于性能较差的终端而言,执行多个图像识别实例同时对多路视频流进行图像识别,则可能会由于处理资源不足而导致画面卡顿、延迟等的问题。
针对于上述问题,申请人对相关技术中的图像识别方法进行了深入研究,申请人发现,终端创建图像识别实例后,终端则按照图像识别实例执行图像识别处理,将图像输入至图像识别模型,通过图像识别模型进行图像识别处理时,终端则会对整个图像中的每个像素点按照一定的顺序进行扫描处理,每次扫描处理会耗费终端较多的处理资源。因此,申请人提出了一种新的图像识别方法,将该图像识别方法应用于上述的应用场景中,可以通过单个图像识别实例完成图像识别,降低了对终端的处理资源的耗费,提升了图像识别的效率。
本实施例中的一种图像识别方法,以该方法应用于图2中的终端22为例进行说明,包括以下步骤:
在步骤S11中,获取多个待识别图像。
其中,待识别图像可以为当前将要进行图像识别以得到关键点的图像。
具体实现中,第一终端21和第二终端22可以安装有视频应用,第一用户可以通过第一终端21的视频应用,登录视频应用平台的第一账户,第二用户可以通过第二终端22的视频应用,登录视频应用平台的第二账户。第一终端21和第二终端22可以通过服务器23进行连接,以进行视频通讯。第一用户通过第一终端21进行拍摄,得到第一账户的视频流,通过服务器23转发至第二终端22,相应地,第二用户通过第二终端22进行拍摄,得到第二账户的视频流。由此,第二终端22得到了至少两路视频流。
第二终端22的视频应用可以提供一个视频播放界面,在该视频播放界面上,可以根据第一账户和第二账户各自的视频流中的图像进行视频播放。例如,参考图4A,第二终端22的视频播放界面上,可以划分为左右两边的分界面,左边分界面显示第一账户的视频流中的连续多帧的图像,右边分界面显示第二账户的视频流中的连续多帧的图像。
第二终端22的视频应用可以提供特效添加入口,供用户请求添加图像特效。例如,参考图5,在视频播放界面上可以设置一个“人脸表情特效”的虚拟按钮51,用户点击该虚拟按钮51,则可以针对图像中的人脸添加表情特效的图像特效。
当用户请求添加图像特效时,第二终端22可以从多路视频流提取图像。由于每一路视频流包含有多个图像,第二终端22可以分别从两路视频流中提取出一帧或连续多帧的图像,由此得到了第一账户的图像和第二账户的图像。可以将第一账户的图像和第二账户的图像作为上述的多个待识别图像。
在步骤S12中,拼接多个所述待识别图像,得到拼接图像。
其中,拼接图像可以为多个待识别图像进行拼接后得到的图像。
具体实现中,第二终端22可以将从多路视频流分别提取出的待识别图像进行拼接,将拼接得到的图像作为上述的拼接图像。
拼接图像的具体实现方式可以有多种。其中一种实现方式中,可以在待识别图像的多个图像边缘中,选取其中一条图像边缘作为拼接边缘,将多个图像按照拼接边缘进行拼接,使得各个待识别图像的拼接边缘重合,从而完成待识别图像的拼接。例如,对于两张待识别图像,选取其中一张图像右侧的图像边缘为拼接边缘,选取另一张图像左侧的图像边缘为拼接边缘,按照两张图像各自的拼接边缘进行拼接。
参考图6A,提供了一个实施例的一种待识别图像的拼接边缘的示意图。如图所示,当前存在有两张待识别图像,分别是从第一账户的视频流和第二账户的视频中所提取出的图像61和图像62。选取图像61右侧的图像边缘作为拼接边缘,选取图像62左侧的图像边缘作为拼接边缘,根据图像61和图像62的拼接边缘进行拼接。
参考图6B,提供了一个实施例的一种拼接图像的示意图。如图所示,根据图像61和图像62的拼接边缘进行拼接后,得到由图像61和图像62组成的拼接图像63。
当然,在实际应用中,可以采用其他方式将待识别图像拼接为拼接图像,例如,选取一个待识别图像的上侧图像边缘作为拼接边缘,选取另一个待识别图像的下侧的图像边缘作为拼接边缘,根据待识别图像的上下侧的拼接边缘进行拼接。
另一种实现方式中,可以首先生成一张空白图像,将多个图像添加至空白图像,将添加有多个待识别图像的图像作为上述的拼接图像。
实际应用中,本领域技术人员可以采用多种的拼接方式将多个待识别图像拼接为上述的拼接图像,本申请对具体的拼接方式不作限制。
需要说明的是,每一个图像实质上由像素数组组成,图像的每个像素点均具有对应的像素值和像素坐标。将多个图像拼接为拼接图像,实质上是根据图像中的像素数组,生成新的代表拼接图像的像素数组。将待识别图像拼接为拼接图像,即是对像素数组中的像素值像素坐标进行更改。
在步骤S13中,将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点。
其中,关键点可以为图像中具有特定特征的像素点。
其中,图像识别模型可以为用于对图像进行识别的神经网络模型。
具体实现中,第二终端22可以创建用于对拼接图像进行图像识别的图像识别实例,第二终端22可以执行图像识别实例,从而,则会将拼接图像输入至图像识别模型,第二终端22则按照图像识别实例扫描拼接图像中的各个像素点,并判断某个像素点是否为关键点。
第二终端22通过图像识别模型,可以得到拼接图像中的关键点,作为上述的第一关键点。第二终端22根据拼接图像中的第一关键点,可以确定第一关键点在以拼接图像构建的二维坐标系中的像素坐标。
参考图6C,提供了一个实施例的一种拼接图像的关键点的示意图。如图所示,经过图像识别,得到拼接图像63中具有人脸轮廓特征的关键点64。
在步骤S14中,根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点。
具体实现中,第二终端22可以利用拼接图像的第一关键点,分别确定多个图像各自的一个或多个像素点为关键点,得到上述的第二关键点。更具体地,得到拼接图像的第一关键点后,可以确定拼接图像各个第一关键点在各个图像中所对应的像素点,将拼接图像各个第一关键点在各个图像中所对应的像素点,作为各个图像中的第二关键点。
参考图6D,提供了一个实施例的一种各个图像的关键点的示意图。如图所示,确定拼接图像63的第一关键点64之后,则可以相应确定图像61和图像62各自的第二关键点65。
在得到多个图像各自的第二关键点之后,则可以根据多个图像各自的第二关键点,对图像添加图像特效,并显示添加有图像特效的图像。
参考图6E,提供了一个实施例的一种根据关键点对图像添加图像特效的示意图。如图所示,在得到图像61和图像62中具有人脸轮廓特征的第二关键点65之后,则可以在人脸上添加表情特效。
根据拼接图像的第一关键点确定待识别图像各自的第二关键点的具体实现方式可以有多种。
在一种具体实现方式中,可以在得到拼接图像之后,记录待识别图像中各个像素点在拼接图像中所对应的像素点。在得到拼接图像的第一关键点之后,确定拼接图像的第一关键点在各个待识别图像中所对应的像素点,由此得到待识别图像的第二关键点。
在另一种具体实现方式中,可以首先确定待识别图像中的某个像素点作为基准像素点,例如,将待识别图像中处于图像端点的像素点作为基准像素点,记录该基准像素点在以待识别图像构建的二维坐标系中的像素坐标,作为拼接前基准像素坐标。在得到拼接图像之后,确定该基准像素点在以拼接图像构建的二维坐标系中的像素坐标,作为拼接后基准像素坐标。计算拼接前基准像素坐标与拼接后基准像素坐标之间的坐标差值,作为坐标转换参数。在得到拼接图像的第一关键点之后,根据第一关键点在拼接图像中的像素坐标和上述的坐标转换参数,将第一关键点在拼接图像中的像素坐标转换为对应的像素点在待识别图像中的像素坐标,转换后的像素坐标所对应的像素点,即为待识别图像上的第二关键点,由此得到待识别图像的第二关键点。
当然,本领域技术人员可以采用其他方式根据拼接图像的第一关键点确定待识别图像的第二关键点。
需要说明的是,终端执行图像识别实例,则会将图像输入至图像识别模型,图像识别模型在识别图像时,实质上是终端对整个图像中的每个像素点进行扫描的处理过程,对每个图像的扫描处理会耗费终端较多的处理资源。上述的图像识别方法,将多个图像拼接为拼接图像,将拼接图像输入至图像识别模型,实质上终端只需要对拼接图像进行单次的扫描处理,而无须分别对多个图像进行多次扫描处理,由此,节省了扫描处理所需消耗的处理资源。
上述的图像识别方法中,通过获取多个待识别图像,并将多个待识别图像拼接为拼接图像,并将拼接图像输入至图像识别模型,得到拼接图像的第一关键点,并根据第一关键点确定多个待识别图像各自的第二关键点,由此,只需要将拼接图像输入至图像识别模型即可以实现对多个待识别图像的图像识别,得到多个待识别图像各自的关键点,而无须针对多个待识别图像分别执行多个图像识别实例,将多个待识别图像分别输入至图像识别模型,以对多个待识别图像分别识别出关键点,从而,节省了终端进行图像识别所需的处理资源,解决了相关技术中的图像识别方法严重耗费终端处理资源的问题。
而且,将上述的图像识别方法应用于视频通讯时添加图像特效的应用场景时,使得终端在识别图像的关键点以添加图像特效时,降低了处理资源的耗费。由于降低了处理资源的消耗,避免终端由于处理资源不足而导致视频通讯的画面卡顿、延迟等的问题。
如图7所示,在一个实施例中,提供了一种确定图像的关键点步骤的流程图,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述步骤S14,可以具体包括:
S71,确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;。
其中,坐标转换参数可以为用于将在拼接图像上的关键点坐标转换为图像上的关键点坐标的参数。。
具体实现中,第二终端22得到了第一关键点之后,可以确定第一关键点在拼接图像上的像素坐标,作为上述的第一关键点坐标。
需要说明的是,为了确定第一关键点在拼接图像上的像素坐标,可以首先根据拼接图像构建二维坐标系,拼接图像上的每个像素点,在该二维坐标系中均具有对应的像素坐标。
图8A提供了一个实施例的一种拼接图像的二维坐标系的示意图。如图所示,以拼接图像左下端的端点作为二维坐标系的原点O,以拼接图像下侧的水平边缘为X轴,以拼接图像左侧的垂直边缘为Y轴,由此构建出拼接图像的二维坐标系。拼接图像中的每个第一关键点64在该二维坐标系中均具有对应的第一关键点坐标(X1,Y1)。
第二终端22确定一个或多个的第一关键点坐标之后,可以确定该第一关键点坐标所对应的坐标转换参数。
需要说明的是,在将图像拼接为图像拼接之后,待识别图像的像素点在待识别图像上的像素坐标,会被改变为该像素点在拼接图像上的像素坐标,为了根据某个关键点在拼接图像中的像素坐标确定该关键点在待识别图像上的像素坐标,则需要利用坐标转换参数,将关键点在拼接图像中的像素坐标转换为该关键点在待识别图像上的像素坐标。
上述的坐标转换参数,可以在得到图像拼接之后,根据待识别图像的像素点在待识别图像上的像素坐标与该像素点在拼接图像上的像素坐标之间的差异得到。
例如,某个像素点在待识别图像上的像素坐标为(5,10),该像素点在拼接图像上的像素坐标为(15,10),由此可以得到待识别图像的像素点在待识别图像上的像素坐标与该像素点在拼接图像上的像素坐标之间的坐标差值为(10,0),将该坐标差值作为上述的坐标转换参数。
由于在进行图像拼接之后,不同像素点在图像上的像素坐标与该像素点在拼接图像上的像素坐标之间的差异也不同,因此,根据第一关键点坐标,确定与其对应的坐标转换参数,以便按照对应的坐标转换参数进行坐标转换。
S72,按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标。
具体实现中,第二终端22得到第一关键点坐标的坐标转换参数,按照该坐标转换参数将第一关键点坐标转换为第二关键点坐标。通过坐标转换参数,可以将拼接图像上的关键点的像素坐标,还原为待识别图像上的关键点的像素坐标。
S73,将所述待识别待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
具体实现中,确定第二关键点坐标之后,则可以在待识别图像上查找处于第二关键点坐标的像素点,作为待识别图像的第二关键点,并标记该第二关键点。
图8B提供了一个实施例的一种确定第二关键点坐标的示意图。假设拼接图像63的第一关键点64的第一关键点坐标为(15,10),坐标转换参数为一个坐标差值(10,0),将第一关键点坐标(15,10)减去坐标差值(10,0),得到第二关键点坐标(5,10),在图像62查找处于第二关键点坐标(5,10)的像素点,得到第二关键点65。
上述的图像识别方法中,通过首先确定第一关键点坐标对应的坐标转换参数,按照坐标转换参数将第一关键点坐标转换为第二关键点坐标,最后将图像中处于第二关键点坐标的像素点,作为待识别图像的所述第二关键点,由此,通过少量的坐标转换参数,即可根据拼接图像的关键点确定各个待识别图像各自的第二关键点,而无须针对待识别图像的像素点与拼接图像的像素点逐一建立对应关系,进一步节省了终端的处理资源。
在一个实施例中,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述步骤S71,可以具体包括:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
具体实现中,在将待识别图像拼接为拼接图像时,可以根据各个待识别图像中的像素点的像素坐标,确定待识别图像的图像边界,基于该待识别图像的图像边界,对拼接待识别图像后得到的拼接图像进行划分,得到拼接图像中的多个图像区域。得到拼接图像的第一关键点之后,第二终端22可以首先确定第一关键点坐标在拼接图像中所处的图像区域,作为上述的目标图像区域。然后,第二终端22进一步确定目标图像区域所对应的待识别图像,根据目标图像区域所对应的待识别图像,确定第一关键点坐标对应的坐标转换参数。
上述的图像识别方法中,通过根据第一关键点在拼接图像上所处的图像区域,确定第一关键点所对应的坐标转换参数,无须对拼接图像上每个像素点记录对应的坐标转换参数,节省了进行图像识别所需的处理资源,降低了终端消耗,提升了图像识别效率。
在一个实施例中,在所述步骤S12之后,还包括:
根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;
确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;
根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
具体实现中,第二终端22可以根据待识别图像中的像素点的像素坐标,判断像素点是否处于待识别图像的图像边界,从而确定出在待识别图像的图像边界。然后,可以查找待识别图像的图像边界在拼接图像上的像素坐标,从而得到图像区域划分坐标,基于该图像区域划分坐标,可以将拼接图像划分为若干个图像区域,每个图像区域均具有对应的待识别图像。
上述的图像识别方法中,通过待识别图像的像素点的像素坐标确定待识别图像的图像边界,利用图像边界在拼接图像上确定出图像区域划分坐标,并基于图像区域划分坐标,将拼接图像划分出分别与多个待识别图像对应的图像区域,从而通过便捷的方式得到拼接图像中分别与各个待识别图像对应的图像区域,提升了图像识别效率。
在一个实施例中,在所述步骤S12之后,还包括:
确定所述待识别图像中的至少一个像素点,为基准像素点;确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;记录所述待识别图像与所述坐标转换参数的对应关系。
具体实现中,第二终端22可以将待识别图像中任意的一个或多个的像素点,作为上述的基准像素点。例如,可以将待识别图像中处于端点的像素点作为上述的基准像素点。
然后,确定该基准像素点在待识别图像上的像素坐标,作为拼接前基准像素坐标,以及,确定该基准像素点在拼接图像上的像素坐标,作为拼接后基准像素坐标。
最后,计算拼接后基准像素坐标与拼接前基准像素坐标之间的差值,得到上述的坐标转换参数,并记录下待识别图像与该坐标转换参数之间的对应关系。
在一个实施例中,所述步骤SS72,可以具体包括:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
例如,某个第一关键点在拼接图像上的第一关键点坐标为(20,20),该第一关键点对应的坐标转换参数为坐标差值(10,0),因此,可以将第一关键点坐标(20,20)减去坐标差值(10,0),得到第二关键点坐标(10,20),将在待识别图像上处于第二关键点坐标(10,20)的像素点,作为第二关键点。由此,利用坐标转换参数,根据拼接图像的第一关键点得到图像的第二关键点。
在一个实施例中,所述步骤S12可以具体包括:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;拼接多个所述缩放后图像,得到所述拼接图像。
具体实现中,第二终端22可以分别对多个待识别图像进行缩放,以调整待识别图像的图像尺寸,得到图像尺寸相同的多个图像,作为上述的缩放后图像。第二终端22可以将多个缩放后图像进行拼接,得到上述的拼接图像。
例如,一个图像A的图像尺寸为720像素*1280像素,另一个图像B的图像尺寸为540像素*960像素,可以将另一个图像B进行缩放,得到720像素*1280像素的的缩放后图像B`,将图像A与缩放后图像B`进行拼接,得到图像尺寸为1440像素*1280像素的拼接图像。
上述的图像识别方法,通过将待识别图像缩放为图像尺寸大小相同的缩放后图像,使得终端可以将相同尺寸的图像拼接为拼接图像,降低了图像拼接处理所消耗的资源。
在一个实施例中,所述步骤S11,可以具体包括:
接收多路视频流;多路所述视频流分别来源于第一账户和第二账户;
从所述第一账户的视频流中提取出第一待识别图像,以及,从所述第二账户的视频流中提取出第二待识别图像;
在所述根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点之后,还包括:
按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
具体实现中,第二终端22可以接收到第一账户和第二账户各自的视频流,从第一账户和第二账户各自的视频流分别提取出图像,得到第一待识别图像和第二待识别图像。
通过对第一待识别图像和第二待识别图像进行拼接,得到拼接图像。创建并执行图像识别实例,从而,执行将拼接图像输入至图像识别模型的处理,图像识别模型输出拼接图像的第一关键点,可以根据第一关键点得到第一待识别图像和第二待识别图像各自的第二关键点。
根据第一待识别图像的第二关键点,可以对第一待识别图像添加图像特效,得到上述的第一特效化图像。同样地,根据第二待识别图像的第二关键点,可以对第二待识别图像添加图像特效,得到上述的第二特效化图像。
参考图6E,根据第一待识别图像61和第二待识别图像62各自的具有人脸轮廓特征的第二关键点65,在待识别图像中的人脸添加表情特效。
对于视频流中的多帧连续的待识别图像,可以重复执行上述的多个步骤,第二终端22可以得到多帧连续的特效化图像,依次显示多帧连续的特效化图像,即播放包括特效化图像的特效化直播视频。
在一个实施例中,如图9所示,还提供了一种视频直播方法,以该方法应用于图2中的终端22为例进行说明,包括以下步骤:
S91,获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
S92,从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
S93,拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
S94,将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
S95,根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
S96,按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
S97,播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
由于上述各个步骤的具体实现方式在前述实施例中已有详细说明,在此不再赘述。
上述的视频直播额方法中,通过获取第一账户和第二账户各自的直播视频流,并分别从中提取出第一待识别图像和第二待识别图像,并将第一待识别图像和第二待识别图像拼接为拼接图像,并将拼接图像输入至图像识别模型,得到拼接图像的第一关键点,并根据第一关键点确定待识别图像各自的第二关键点,由此,只需要将拼接图像输入至图像识别模型即可以实现对多个待识别图像的图像识别,得到多个待识别图像各自的关键点,而无须针对多个待识别图像分别执行多个图像识别实例,将多个待识别图像分别输入至图像识别模型,以对多个待识别图像分别识别出关键点,从而,节省了终端进行图像识别所需的处理资源,解决了相关技术中的图像识别方法严重耗费终端处理资源的问题。
而且,将上述的图像识别方法应用于视频通讯时添加图像特效的应用场景时,使得终端在识别图像的关键点以添加图像特效时,降低了处理资源的耗费。由于降低了处理资源的消耗,避免终端由于处理资源不足而导致视频通讯的画面卡顿、延迟等的问题。
在一个实施例中,如图10所示,还提供了一种直播系统100,包括:
第一终端101和第二终端102;
所述第一终端101,用于生成第一账户的直播视频流,并发送所述第一账户的直播视频流至所述第二终端102;
所述第二终端102,用于生成第二账户的直播视频流;
所述第二终端102,还用于从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
所述第二终端102,还用于将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
所述第二终端102,还用于根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
所述第二终端102,还用于按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
所述第二终端102,还用于播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
由于上述第一终端101和第二终端102所执行步骤的具体实现方式在前述实施例中已有详细说明,在此不再赘述。
为了便于本领域技术人员深入理解本申请实施例,以下将结合具体示例进行说明。在一个具体的视频直播流程中,可以包括以下步骤:
S1101,获取第一账户的视频流和第二账户的视频流;
S1102,从第一账户的视频流和第二账户的视频流中分别提取出图像,得到第一图像和第二图像;
S1103,对第一图像和第二图像进行缩放,得到图像尺寸相同的第一图像和第二图像;
S1104,将第一图像和第二图像进行拼接,得到拼接图像;
S1105,分别确定第一图像和第二图像各自的基准像素点;
S1106,确定第一图像和第二图像各自的基准像素点在第一图像和第二图像上的拼接前基准像素坐标,以及,确定第一图像和第二图像各自的基准像素点在拼接图像上的拼接后基准像素坐标;
S1107,计算第一图像和第二图像各自的拼接后基准像素坐标与拼接前基准像素坐标之间的差值,得到第一坐标转换参数和第二坐标转换参数;
S1108,建立第一图像与第一坐标转换参数的对应关系,以及,建立第二图像与第二坐标转换参数的对应关系;
S1109,创建并执行图像识别实例,将拼接图像输入至图像识别模型,得到拼接图像中的多个第一关键点;
S1110,根据多个第一关键点在拼接图像中分别所处的图像区域,确定各个第一关键点分别对应的第一图像或第二图像;
S1111,根据第一关键点对应的第一图像或第二图像,确定对应的第一坐标转换参数或第二坐标转换参数;
S1112,将第一关键点坐标减去第一坐标转换参数或第二坐标转换参数,得到第一图像或第二图像的第二关键点坐标;
S1113,将第一图像或第二图像中处于第二关键点坐标的像素点,作为第一图像或第二图像的第二关键点;
S1114,按照所第一图像和第二图像各自的第二关键点,对第一图像和第二图像添加图像特效,得到第一特效化图像和第二特效化图像;
S1115,播放第一账户的包括第一特效化图像的特效化直播视频,以及,播放第二账户的包括第二特效化图像的特效化直播视频。
应该理解的是,虽然图2、图7、图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图7、图9中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种图像识别装置1100,包括:
图像获取单元1101,被配置为执行获取多个待识别图像;
图像拼接单元1102,被配置为执行拼接多个所述待识别图像,得到拼接图像;
关键点识别单元1103,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元1104,被配置为执行根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点。
在一个实施例中,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述关键点确定单元1104,被配置为执行:
确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;
按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标;
将所述待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
在一个实施例中,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述关键点确定单元1104,被配置为执行:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;
根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
在一个实施例中,所述装置还包括:
划分单元,被配置为执行根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
在一个实施例中,所述装置还包括:
基准点确定单元,被配置为执行确定所述待识别图像中的至少一个像素点,为基准像素点;
基准坐标确定单元,被配置为执行确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;
参数计算单元,被配置为执行将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;
记录单元,被配置为执行记录所述待识别图像与所述坐标转换参数的对应关系。
在一个实施例中,所述关键点确定单元1104,被配置为执行:
确定所述目标图像区域对应的待识别图像,为目标待识别图像;
确定所述目标待识别图像对应的坐标转换参数,为所述第一关键点坐标对应的坐标转换参数。
在一个实施例中,所述关键点确定单元1104,被配置为执行:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
在一个实施例中,所述图像拼接单元1102,被配置为执行:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;
拼接多个所述缩放后图像,得到所述拼接图像。
在一个实施例中,如图12所示,提供了一种视频直播装置1200,包括:
视频流获取单元1201,被配置为执行获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
图像获取单元1202,被配置为执行从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
图像拼接单元1203,被配置为执行拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
关键点识别单元1204,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元1205,被配置为执行根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
特效添加单元1206,被配置为执行按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
特效播放单元1207,被配置为执行播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
关于图像识别装置和视频直播装置的具体限定可以参见上文中对于图像识别和视频直播方法的限定,在此不再赘述。上述图像识别装置和视频直播装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述提供的图像识别装置和视频直播装置可用于执行上述任意实施例提供的图像识别方法和视频直播方法,具备相应的功能和有益效果。
图13是根据一示例性实施例示出的一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法和视频直播方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本公开还提供一种计算机程序产品,包括:计算机程序代码,当所述计算机程序代码被计算机运行时,使得所述计算机执行上述的图像识别方法和视频直播方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种图像识别方法,其特征在于,包括:
获取多个待识别图像;所述多个待识别图像包括从获取到的第一账户的直播视频流中提取出的第一待识别图像,以及从获取到的第二账户的直播视频流中提取出的第二待识别图像;
拼接多个所述待识别图像,得到拼接图像;
将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点;所述第二关键点用于对所述第一待识别图像添加图像特效,得到第一特效化图像,以及对所述第二待识别图像添加图像特效,得到第二特效化图像。
2.根据权利要求1所述的方法,其特征在于,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点,包括:
确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;
按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标;
将所述待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
3.根据权利要求2所述的方法,其特征在于,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述确定所述第一关键点坐标对应的坐标转换参数,包括:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;
根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
4.根据权利要求3所述的方法,其特征在于,在所述拼接多个所述待识别图像,得到拼接图像之后,还包括:
根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;
确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;
根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
5.根据权利要求3所述的方法,其特征在于,在所述拼接多个所述待识别图像,得到拼接图像之后,还包括:
确定所述待识别图像中的至少一个像素点,为基准像素点;
确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;
将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;
记录所述待识别图像与所述坐标转换参数的对应关系。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数,包括:
确定所述目标图像区域对应的待识别图像,为目标待识别图像;
确定所述目标待识别图像对应的坐标转换参数,为所述第一关键点坐标对应的坐标转换参数。
7.根据权利要求5所述的方法,其特征在于,所述按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为在所述图像上的第二关键点坐标,包括:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
8.根据权利要求1所述的方法,其特征在于,所述拼接多个所述待识别图像,得到拼接图像,包括:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;
拼接多个所述缩放后图像,得到所述拼接图像。
9.一种视频直播方法,其特征在于,包括:
获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
10.一种图像识别装置,其特征在于,包括:
图像获取单元,被配置为执行获取多个待识别图像;所述多个待识别图像包括从获取到的第一账户的直播视频流中提取出的第一待识别图像,以及从获取到的第二账户的直播视频流中提取出的第二待识别图像;
图像拼接单元,被配置为执行拼接多个所述待识别图像,得到拼接图像;
关键点识别单元,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元,被配置为执行根据所述拼接图像的第一关键点,确定多个所述待识别图像各自的第二关键点;所述第二关键点用于对所述第一待识别图像添加图像特效,得到第一特效化图像,以及对所述第二待识别图像添加图像特效,得到第二特效化图像。
11.根据权利要求10所述的装置,其特征在于,所述第一关键点在所述拼接图像上的像素坐标为第一关键点坐标,所述关键点确定单元,被配置为执行:
确定所述第一关键点坐标对应的坐标转换参数;所述坐标转换参数为用于将所述第一关键点坐标转换成在所述待识别图像上确定所述第二关键点的坐标的参数;
按照所述第一关键点坐标的坐标转换参数,将所述第一关键点坐标转换为第二关键点坐标;
将所述待识别图像中处于所述第二关键点坐标的像素点,作为所述第二关键点。
12.根据权利要求11所述的装置,其特征在于,所述拼接图像包括多个图像区域,多个所述图像区域分别具有对应的待识别图像,所述关键点确定单元,被配置为执行:
在所述拼接图像中的多个所述图像区域中,确定所述第一关键点坐标在所述拼接图像中所处的目标图像区域;
根据所述目标图像区域对应的待识别图像,确定所述第一关键点坐标对应的坐标转换参数。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
划分单元,被配置为执行根据所述待识别图像中的像素点的像素坐标,确定所述待识别图像的图像边界;确定所述待识别图像的图像边界在所述拼接图像上的像素坐标,得到图像区域划分坐标;根据所述图像区域划分坐标,将所述拼接图像划分为分别与多个所述待识别图像对应的多个所述图像区域。
14.根据权利要求12所述的装置,其特征在于,所述装置还包括:
基准点确定单元,被配置为执行确定所述待识别图像中的至少一个像素点,为基准像素点;
基准坐标确定单元,被配置为执行确定所述基准像素点在所述待识别图像上的像素坐标,得到拼接前基准像素坐标,以及,确定所述基准像素点在所述拼接图像上的像素坐标,得到拼接后基准像素坐标;
参数计算单元,被配置为执行将所述拼接后基准像素坐标减去所述拼接前基准像素坐标所得到的差值,作为所述坐标转换参数;
记录单元,被配置为执行记录所述待识别图像与所述坐标转换参数的对应关系。
15.根据权利要求14所述的装置,其特征在于,所述关键点确定单元,被配置为执行:
确定所述目标图像区域对应的待识别图像,为目标待识别图像;
确定所述目标待识别图像对应的坐标转换参数,为所述第一关键点坐标对应的坐标转换参数。
16.根据权利要求14所述的装置,其特征在于,所述关键点确定单元,被配置为执行:
将所述第一关键点坐标减去所述坐标转换参数,得到所述第二关键点坐标。
17.根据权利要求10所述的装置,其特征在于,所述图像拼接单元,被配置为执行:
对多个所述待识别图像进行缩放,得到缩放后图像;多个所述缩放后图像的图像尺寸相同;
拼接多个所述缩放后图像,得到所述拼接图像。
18.一种视频直播装置,其特征在于,包括:
视频流获取单元,被配置为执行获取第一账户的直播视频流,以及,获取第二账户的直播视频流;
图像获取单元,被配置为执行从所述第一账户的直播视频流中提取出第一待识别图像,以及,从所述第二账户的直播视频流中提取出第二待识别图像;
图像拼接单元,被配置为执行拼接所述第一待识别图像和所述第二待识别图像,得到拼接图像;
关键点识别单元,被配置为执行将所述拼接图像输入图像识别模型,得到所述拼接图像的第一关键点;
关键点确定单元,被配置为执行根据所述拼接图像的第一关键点,确定所述第一待识别图像和所述第二待识别图像各自的第二关键点;
特效添加单元,被配置为执行按照所述第一待识别图像的第二关键点,对所述第一待识别图像添加图像特效,得到第一特效化图像,以及,按照所述第二待识别图像的第二关键点,对所述第二待识别图像添加图像特效,得到第二特效化图像;
特效播放单元,被配置为执行播放所述第一账户的特效化直播视频和所述第二账户的特效化直播视频;所述第一账户的特效化直播视频包括所述第一特效化图像;所述第二账户的特效化直播视频包括所述第二特效化图像。
19.一种计算机设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现权利要求1至8中任一项所述的图像识别方法,或者,实现权利要求9所述的视频直播方法。
20.一种存储介质,当所述存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行权利要求1至8中任一项所述的图像识别方法,或者,实现权利要求9所述的视频直播方法。
CN202010070867.XA 2020-01-21 2020-01-21 图像识别、视频直播方法和装置 Active CN113225613B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010070867.XA CN113225613B (zh) 2020-01-21 2020-01-21 图像识别、视频直播方法和装置
PCT/CN2021/073150 WO2021147966A1 (zh) 2020-01-21 2021-01-21 图像识别方法及装置
US17/746,842 US20220279241A1 (en) 2020-01-21 2022-05-17 Method and device for recognizing images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070867.XA CN113225613B (zh) 2020-01-21 2020-01-21 图像识别、视频直播方法和装置

Publications (2)

Publication Number Publication Date
CN113225613A CN113225613A (zh) 2021-08-06
CN113225613B true CN113225613B (zh) 2022-07-08

Family

ID=76993169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070867.XA Active CN113225613B (zh) 2020-01-21 2020-01-21 图像识别、视频直播方法和装置

Country Status (3)

Country Link
US (1) US20220279241A1 (zh)
CN (1) CN113225613B (zh)
WO (1) WO2021147966A1 (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8405720B2 (en) * 2008-08-08 2013-03-26 Objectvideo, Inc. Automatic calibration of PTZ camera system
CN107343211B (zh) * 2016-08-19 2019-04-09 北京市商汤科技开发有限公司 视频图像处理方法、装置和终端设备
CN107770484A (zh) * 2016-08-19 2018-03-06 杭州海康威视数字技术股份有限公司 一种视频监控信息生成方法、装置及摄像机
CN106791710B (zh) * 2017-02-10 2020-12-04 北京地平线信息技术有限公司 目标检测方法、装置和电子设备
CN107895344B (zh) * 2017-10-31 2021-05-11 深圳市森国科科技股份有限公司 视频拼接装置及方法
CN109068181B (zh) * 2018-07-27 2020-11-13 广州华多网络科技有限公司 基于视频直播的足球游戏交互方法、系统、终端及装置
CN109729379B (zh) * 2019-02-01 2020-05-05 广州虎牙信息科技有限公司 直播视频连麦的实现方法、装置、终端和存储介质
CN110188640B (zh) * 2019-05-20 2022-02-25 北京百度网讯科技有限公司 人脸识别方法、装置、服务器和计算机可读介质
CN111027526B (zh) * 2019-10-25 2023-06-13 江西省云眼大视界科技有限公司 一种提高车辆目标检测识别效率的方法
CN111597953A (zh) * 2020-05-12 2020-08-28 杭州宇泛智能科技有限公司 多路图像处理方法、装置及电子设备

Also Published As

Publication number Publication date
WO2021147966A1 (zh) 2021-07-29
US20220279241A1 (en) 2022-09-01
CN113225613A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109348276B (zh) 视频画面调整方法、装置、计算机设备和存储介质
CN110012209B (zh) 全景图像生成方法、装置、存储介质及电子设备
CN110300264B (zh) 图像处理方法、装置、移动终端以及存储介质
CN110119700B (zh) 虚拟形象控制方法、虚拟形象控制装置和电子设备
CN108762505B (zh) 基于手势的虚拟对象控制方法、装置、存储介质和设备
EP3681144B1 (en) Video processing method and apparatus based on augmented reality, and electronic device
CN111556336B (zh) 一种多媒体文件处理方法、装置、终端设备及介质
KR101768532B1 (ko) 증강 현실을 이용한 화상 통화 시스템 및 방법
CN105701762B (zh) 一种图片处理方法和电子设备
CN105554430A (zh) 一种视频通话方法、系统及装置
CN113727039B (zh) 视频生成方法、装置、电子设备及存储介质
CN112866577B (zh) 图像的处理方法、装置、计算机可读介质及电子设备
CN114390197A (zh) 拍摄方法和装置、电子设备及可读存储介质
CN113225451A (zh) 图像处理方法、装置和电子设备
CN113225613B (zh) 图像识别、视频直播方法和装置
CN114125297B (zh) 视频拍摄方法、装置、电子设备及存储介质
CN112367487B (zh) 视频录制方法和电子设备
CN114390206A (zh) 拍摄方法、装置和电子设备
CN113242398A (zh) 一种三维标注的音视频通话方法和系统
WO2020224158A1 (zh) 编辑方法、计算机可读存储介质及终端
CN109905766A (zh) 一种动态视频海报生成方法、系统、装置及存储介质
CN113489901B (zh) 拍摄方法及其装置
CN113923367B (zh) 拍摄方法、拍摄装置
CN117292019A (zh) 图像处理方法、装置、设备及介质
CN117641114A (zh) 视频处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant