CN112019868A - 人像分割方法、装置及电子设备 - Google Patents

人像分割方法、装置及电子设备 Download PDF

Info

Publication number
CN112019868A
CN112019868A CN201910479428.1A CN201910479428A CN112019868A CN 112019868 A CN112019868 A CN 112019868A CN 201910479428 A CN201910479428 A CN 201910479428A CN 112019868 A CN112019868 A CN 112019868A
Authority
CN
China
Prior art keywords
video frame
current video
portrait
convolution
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910479428.1A
Other languages
English (en)
Inventor
李益永
叶海佳
吴晓东
林哲
任高生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Information Technology Co Ltd
Original Assignee
Guangzhou Huya Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Information Technology Co Ltd filed Critical Guangzhou Huya Information Technology Co Ltd
Priority to CN201910479428.1A priority Critical patent/CN112019868A/zh
Publication of CN112019868A publication Critical patent/CN112019868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种人像分割方法、装置及电子设备,通过将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别,以得到当前视频帧对应的掩膜图像。并根据掩膜图像中的各个像素点的标识划定出当前视频帧中的人像区域,再将当前视频帧的人像区域与当前视频帧的上一视频帧的人像区域进行比对,确定当前视频帧的目标区域。如此,基于确定出的目标区域可对视频帧进行多样化的处理,以改善直播场景单一、直播效果不佳的问题。

Description

人像分割方法、装置及电子设备
技术领域
本申请涉及互联网直播领域,具体而言,涉及一种人像分割方法、 装置及电子设备。
背景技术
随着互联网行业的发展,带动了视频直播行业的快速发展。目前, 在视频直播领域,一般是基于主播的实时直播场景、直播动作及直播 互动信息等生成直播视频流以实现视频直播。这种直播方式无法对视 频直播效果进行多样化设置,难以满足用户多样化需求,存在直播场 景单一的问题,直播效果不尽如人意。
发明内容
有鉴于此,本申请实施例的目的在于提供一种人像分割方法、装 置及电子设备,以解决或者改善上述问题。
根据本申请实施例的一个方面,提供一种人像分割方法,所述方 法包括:
将视频采集设备实时采集到的当前视频帧导入至预先训练得到 的人像识别模型中进行识别,输出所述当前视频帧对应的掩膜图像;
根据所述掩膜图像中的各个像素点的标识划定出所述当前视频 帧中的人像区域;
将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧 的人像区域进行比对,确定所述当前视频帧的目标区域;
将所述当前视频帧的目标区域发送至直播接收终端。
目标根据本申请实施例的另一方面,提供一种人像分割装置,所 述装置包括:
识别模块,用于将视频采集设备实时采集到的当前视频帧导入至 预先训练得到的人像识别模型中进行识别,输出所述当前视频帧对应 的掩膜图像;
划定模块,用于根据所述掩膜图像中的各个像素点的标识划定出 所述当前视频帧中的人像区域;
确定模块,用于将所述当前视频帧的人像区域与所述当前视频帧 的上一视频帧的人像区域进行比对,确定所述当前视频帧的目标区域;
发送模块,用于将所述当前视频帧的目标区域发送至直播接收终 端。
根据本申请实施例的另一方面,提供一种电子设备,包括一个或 多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存 储介质存储有处理器可执行的机器可执行指令,当电子设备运行时, 处理器执行所述机器可执行指令,以执行上述的人像分割方法。
根据本申请实施例的另一方面,提供一种计算机可读存储介质, 所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指 令被执行时实现上述的人像分割方法。
基于上述任一方面,本申请实施例通过将视频采集设备实时采集 到的当前视频帧导入至预先训练得到的人像识别模型中进行识别,以 得到当前视频帧对应的掩膜图像。并根据掩膜图像中的各个像素点的 标识划定出当前视频帧中的人像区域,再将当前视频帧的人像区域与 当前视频帧的上一视频帧的人像区域进行比对,确定当前视频帧的目 标区域。如此,基于确定出的目标区域可对视频帧进行多样化的处理, 以改善直播场景单一、直播效果不佳的问题。
为使本申请实施例的上述目的、特征和优点能更明显易懂,下面 将结合实施例,并配合所附附图,作详细说明。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中 所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申 请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通 技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他相关的附图。
图1为本申请实施例提供的直播系统的示意图。
图2为本申请实施例提供的人像分割方法的流程图。
图3为本申请实施例提供的人像识别模型的层级结构示意图。
图4为图2中步骤210的子步骤的流程图。
图5为本申请实施例提供的第一卷积层的层级结构示意图。
图6为本申请实施例提供的第二卷积层的层级结构示意图。
图7为本申请实施例提供的第三卷积层的层级结构示意图。
图8为图2中步骤220的子步骤的流程图。
图9为图2中步骤230的子步骤的流程图。
图10为本申请实施例提供的电子设备的示例性组件示意图。
图11为本申请实施例提供的人像分割装置的功能模块框图。
图标:10-直播系统;100-直播提供终端;110-存储介质;120-处 理器;130-人像分割装置;131-识别模块;132-划定模块;133-确定 模块;134-发送模块;140-通信接口;200-直播服务器;300-直播接 收终端;400-视频采集设备。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结 合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、 完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并 不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未 按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的 一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现, 没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本 领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个 其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部 的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以 以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申 请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是 仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人 员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于 本申请保护的范围。
图1所示为本申请实施例提供的直播系统10的示意图,其中, 该直播系统10可以是用于实现互联网直播的服务平台。该直播系统 10可以包括直播提供终端100、直播服务器200、直播接收终端300。 直播服务器200分别与直播提供终端100和直播接收终端300通信连 接,用于为直播提供终端100以及直播接收终端300提供直播服务。 例如,直播提供终端100可以将直播视频流发送给直播服务器200, 观众可以通过直播接收终端300访问直播服务器200以观看直播视频。 其中,直播服务器200推送的直播视频流可以是当前正在直播平台中 直播的视频流或者直播完成后形成的完整视频流。可以理解,图1所 示的直播系统10仅为一种可行的示例,在其它可行的实施例中,该 直播系统10也可以仅包括图1所示组成部分的其中一部分或者还可 以包括其它的组成部分。
本实施例中,直播提供终端100和直播接收终端300可以是,但 不限于,智能手机、个人数字助理、平板电脑、个人计算机、笔记本 电脑、虚拟现实终端设备、增强现实终端设备等。其中,直播提供终 端100和直播接收终端300中可以安装用于提供互联网直播服务的互 联网产品,例如,互联网产品可以是计算机或智能手机中使用的与互 联网直播服务相关的应用程序APP、Web网页、小程序等。
本实施例中,直播系统10还可以包括用于采集主播视频帧的视 频采集设备400,视频采集设备400可以是,但不限于摄像头、数码 照相机的镜头、监控摄像头或者网络摄像头等。视频采集设备400可 以直接安装或集成于直播提供终端100。例如,视频采集设备400可 以是配置在直播提供终端100上的摄像头,直播提供终端100中的其 他模块或组件可以经由内部总线接收从视频采集设备400处发送的 视频、图像。或者,视频采集设备400也可以独立于直播提供终端 100,两者之间通过有线或无线的方式进行通信。
图2示出了本申请实施例提供的人像分割方法的流程示意图,该 人像分割方法可由图1中所示的直播提供终端100或直播服务器200 执行。应当理解,在其它实施例中,本实施例的人像分割方法其中部 分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可 以省略或删除。该人像分割方法的详细步骤介绍如下。
步骤210,将视频采集设备400实时采集到的当前视频帧导入至 预先训练得到的人像识别模型中进行识别,输出所述当前视频帧对应 的掩膜图像。
步骤220,根据所述掩膜图像中的各个像素点的标识划定出所述 当前视频帧中的人像区域。
步骤230,将所述当前视频帧的人像区域与所述当前视频帧的上 一视频帧的人像区域进行比对,确定所述当前视频帧的目标区域。
步骤240,将所述当前视频帧的目标区域发送至直播接收终端300。
在本实施例中,在步骤210中,可通过视频采集设备400实时采 集主播在直播过程中的当前视频帧,该当前视频帧中可能包含主播图 像。可将采集到的当前视频帧导入至预先训练得到的人像识别模型中 进行识别,以得到当前视频帧对应的掩膜图像。其中,人像识别模型 根据预先采集的包含主播图像的样本图像对神经网络模型进行训练 而获得。
在将当前视频帧导入至人像识别模型进行识别之前,可先对当前 视频帧进行预处理,可以包括但不限于去均值处理、归一化处理及 PCA降维处理等。请参阅图3,在本实施例中,根据神经网络模型训 练得到的人像识别模型包括第一网络层、第二网络层、第三网络层以 及第四网络层,请结合参阅图4,在上述步骤210中具体可以通过以 下方式获得当前视频帧对应的掩膜图像:
步骤211,分别利用所述第一网络层和第二网络层对所述当前视 频帧进行卷积操作,得到所述当前视频帧的特征图。
步骤212,利用所述第三网络层对所述特征图进行特征提取及特 征融合处理,得到所述当前视频帧的特征融合图像。
步骤213,利用所述第四网络层对所述特征融合图像进行卷积操 作及上采样操作,得到所述当前视频帧对应的掩膜图像。
在本实施例中,第一网络层包括多个第一卷积层(图3中D1-D4) 及多个第二卷积层(图3中C1-C6),第一卷积层和第二卷积层交替 设置。其中,相邻两个第一卷积层之间具有至少一个第二卷积层,第 二网络层包括多个依次连接的第三卷积层(图3中E1-E7)。
在上述步骤211中,在分别利用第一网络层和第二网络层对当前 视频帧进行卷积操作得到当前视频帧的特征图时,具体可以将当前视 频帧的图像依次输入第一网络层中的第一卷积层和第二卷积层进行 卷积操作,得到第一特征图像。再将得到的第一特征图像依次输入第 二网络层中的多个第三卷积层进行卷积处理,得到当前视频帧的特征 图。
其中,各个第一卷积层对输入的图像进行卷积操作得到对应的第 一卷积特征图,将该第一卷积特征图输出至该第一卷积层的下一卷积 层。该下一卷积层可以是连接在该第一卷积层之后的第二卷积层,或 者是连接在该第一卷积层之后的第二网络层中的第三卷积层。
在本实施例中,各个第一卷积层的具体层级结构可如图5中所示, 第一卷积层对输入的图像首先以卷积核1*1(Conv1*1)进行卷积操 作,再进行激励处理,例如可采用Relu6进行处理,即在得到的结果 小于或等于0时则取值为0,在大于或等于6时,则取值为6。如此, 避免出现过拟合现场。然后,再以卷积核3*3(Dwise3*3)进行卷积 操作,并进行激励处理。最后再以卷积核1*1(Conv1*1)进行卷积 操作,得到第一卷积特征图输出至下一卷积层。第一卷积层在进行卷 积操作时,其步长可设置为2。
各个第二卷积层对输入的图像进行特征提取后得到第二卷积特 征图,并将该第二卷积特征图以及输入该第二卷积层的图像一起输出 至下一卷积层。该下一卷积层可以是连接在该第二卷积层之后的第一 卷积层,也可以是其他的第二卷积层。
在本实施例中,各个第二卷积的具体层级结构可如图6中所示, 第二卷积层对输入的图像首先以卷积核1*1(Conv1*1)进行卷积操 作,并进行激励操作,同样可采用Relu6进行处理。再以卷积核3*3 (Dwise3*3)进行卷积操作,再次进行激励操作。最后再以卷积核1*1(Conv1*1)进行卷积操作,得到第二卷积特征图。再将得到的 第二卷积特征图及输入该层的图像一起输出至下一卷积层。其中,第 二卷积层在进行卷积操作时,步长可设置为1。
其中,各个第三卷积层对输入的图像进行卷积操作得到对应的第 三卷积特征图,将该第三卷积特征图输出至该第三卷积层的下一卷积 层。该下一卷积层可以是连接在该第三卷积层之后的其他第三卷积层, 也可以是连接在其后的第四网络层中的卷积层。
本实施例中,各个第三卷积层的具体层级结构可如图7中所示, 第三卷积层对输入的图像首先以卷积核3*3(Dwise3*3)进行卷积操 作,并进行激励处理,同样可采用Relu6进行处理。再以卷积核1*1 (Conv1*1)进行卷积操作,最后再进行激励操作,得到第三卷积特 征图,并输出。第三卷积层在进行卷积操作时,步长可设置为1。
在本实施例中,第三网络层包括多个第四卷积层(图3中F1-F4) 以及一个第五卷积层(图3中C7)。在上述步骤212中,具体可以通 过以下方式根据第四网络层获得当前视频帧的特征融合图像:
将当前视频帧的特征图输入至各第四卷积层分别进行特征提取 处理得到多个第四卷积特征图,并将得到的各第四卷积特征图输出至 第五卷积层。第五卷积层对各第四卷积特征图进行特征融合处理,得 到当前视频帧的特征融合图像。
在本实施例中,第四卷积层的具体层级结构与第三卷积层的层级 结构相同,而第五卷积层的层级结构与第二卷积层的层级结构相同, 在此不作赘述。
进一步地,在本实施例中,第四网络层包括上采样层(图3中 U1)以及第六卷积层(图3中C8),该第六卷积层分别连接至上采样 层以及第一网络层中的其中一个第一卷积层或其中一个第二卷积层。 图3中示例性的示出了第六卷积层C8分别连接至上采样层U1及第一网络层中的第二卷积层C3,应当理解,并不限定于该连接方式。 在上述步骤213中,具体可以通过以下方式获得当前视频帧对应的掩 膜图像:
将当前视频帧的特征融合图像输入至上采样层进行上采样操作 得到采样图像并输出至第六卷积层。第六卷积层接收所连接的第一卷 积层输出的第一卷积特征图或第二卷积层输出的第二卷积特征图以 及上采样层输出的采样图像。例如,可以是接收第一卷积特征图及采 样图像,或者也可以是接收第二卷积特征图及采样图像。第六卷积层 对接收到的图像进行融合处理得到融合图像,并对融合图像进行卷积 操作得到当前视频帧对应的掩膜图像。
在本实施例中,第六卷积层的具体层级结构与第二卷积层的层级 结构相同,在此不作赘述。此外,在第四网络层中还可包括上采样层 U2及第六卷积层C9,其中上采样层U2和上采样层U1、第六卷积层 C8和第六卷积层C9的具体操作分别相同,在此不作赘述。通过将上 采样层输出的采样图像与第一卷积特征图或第二卷积特征图进行融 合,可将上采样过程中得到的新的特征图与前面卷积过程得到的高像 素特征进行结合,以一定程度上保留前面卷积过程得到的一些重要特 征信息,提高最终的识别效果。
本实施例提供的人像识别模型,相比现有的常用神经网络模型其 层级结构更为简洁,并且其结构中不包含全连接层,可以很大程度上 减少需要训练的参数,网络结构能够更高效的运行。并且,整个层级 结构呈现为特殊的“U”形结构,即后面层级可以与前面层级实现级 联,以保留前面层级所获得的一些重要的特征信息,提高了最终的识 别精确度。将该人像识别模型运用于处理能力有限的终端设备进行人 像识别时,例如个人计算机、笔记本电脑等,可以实现快速、准确地 识别效果,避免出现现有常用的神经网络模型运用在该类终端设备进 行人像识别时,因该神经网络模型层级复杂且终端设备的处理能力限 制导致的处理效率不理想、处理滞后的问题。
本实施例中,输入至第一网络层的图像的像素可为256*256*3, 在经过第一网络层、第二网络层的处理之后,得到的图像的像素可为16*16*128。第二网络层输出的图像在经过第三网络层的处理之后, 得到的图像的像素可为16*16*16,而再经过第四网络层的处理之后, 最终得到的图像的像素可为256*256*2,输出图像以掩膜图像的形式 呈现。
通过视频采集设备400采集到的当前视频帧经过上述处理得到 对应的掩膜图像,该掩膜图像中包括多个像素点,各个像素点标识为 0或1。其中,标识为1的像素点可以是前景图像的像素点,标识为 0的像素点可能是背景图像像素点。请结合参阅图8,本实施例中,在执行上述步骤220时,具体可通过以下方式确定出当前视频帧中的 人像区域:
步骤221,利用最小矩形框框定所述掩膜图像中标识为1的所有 像素点。
步骤222,根据所述最小矩形框内标识为1的像素点在所述最小 矩形框的所有像素点中的占比,判断所述掩膜图像中是否包含人像区 域。若包含人像区域,则执行以下步骤223,若不包含人像区域,则 执行以下步骤224。
步骤223,根据所述掩膜图像中的人像区域划定出所述当前视频 帧的人像区域。
步骤224,将当前视频帧直接发送至直播接收终端300。
为了检测当前视频帧中是否包含人像图像,本实施例中,首先可 利用最小矩形框框定掩膜图像中标识为1的所有像素点。再根据该最 小矩形框内标识为1的像素点在该最小矩形框的所有像素点中的占 比,判断该掩膜图像中是否包含人像区域。若确定该掩膜图像中包含 人像区域时,可根据该掩膜图像中的人像区域划定出当前视频帧的人 像区域。若不包含人像区域,则无需进行后续的目标区域的获取,可 将当前视频帧直接发送至直播接收终端300。
可选地,在利用最小矩形框框定掩膜图像中标识为1的所有像素 点时,可通过获取掩膜图像中标识为1的所有像素点中分别在横轴方 向和纵轴方向具有极值的像素点,包括极大值和极小值。即针对掩膜 图像,可分别获得该掩膜图像的上、下、左、右四个方向上最边缘的 标识为1的像素点。再根据获取到的具有极值的像素点在掩膜图像中 的位置划设最小矩形框,该最小矩形框的各边线经过其中一个具有极 值的像素点。如此,该最小矩形框即为能够将掩膜图像中所有标识为 1的像素点框定在内的最小的矩形框。
应当理解,在该最小矩形框内除了包含标识为1的像素点之外, 还包括标识为0的像素点。本实施例中,可通过最小矩形框内标识为 1的像素点在该最小矩形框的所有像素点的占比,判断掩膜图像中是 否包含人像区域。
不失一般性地,人像图像中各个像素点之间较为集中,因此,若 标识为1的像素点对应为人像图像,则标识为1的像素点较为集中, 标识为1的像素点在最小矩形框内的占比应当较大。基于此考虑,在 本实施例中,可计算最小矩形框内由标识为1的像素点组成的区域的 第一面积,并计算最小矩形框的第二面积。再计算第一面积与第二面 积之间的比值,在该比值大于预设值时,则可确定掩膜图像中标识为 1的像素点构成的区域为人像区域。
或者,作为另一种可能的实施方式,也可以统计最小矩形框内标 识为1的像素点的个数以及最小矩形框内所有像素点的个数。再计算 标识为1的像素点的个数与最小矩形框内所有像素点的个数之间的 比值是否大于预设值,在大于预设值时,可确定标识为1的像素点构 成的区域为人像区域。
在确定掩膜图像中的人像区域的基础上,则当前视频帧中对应掩 膜图像的人像区域的区域,即为当前视频帧的人像区域。
本实施例中,考虑到人像识别模型在一些情况下可能存在识别误 差,为了保障识别结果的稳定性,在确定出当前视频帧中的人像区域 之后,将通过比对当前视频帧的人像区域与当前视频帧的上一视频帧 的人像区域的方式,确定出当前视频帧最终的目标区域。
本实施例中,请结合参阅图9,在执行上述步骤230时,具体可 以通过以下方式确定出当前视频帧的目标区域:
步骤231,计算得到所述当前视频帧的人像区域与所述当前视频 帧的上一视频帧的人像区域之间的坐标偏差值,检测所述坐标偏差值 是否小于或等于预设阈值,若小于或等于预设阈值,则执行以下步骤 232,否则,执行以下步骤233。
步骤232,根据所述上一视频帧的人像区域的坐标在所述当前视 频帧中划定出目标区域。
步骤233,将所述当前视频帧的人像区域作为所述目标区域。
一般地,主播在进行直播的过程中往往处于运动状态,相邻两帧 图像中的人像区域之间应当存在一定的位置偏差。基于此考虑,本实 施例中,可计算当前视频帧的人像区域与当前视频帧的上一视频帧的 人像区域之间的坐标偏差值。在得到的坐标偏差值小于或等于预设阈 值时,则可确定可能存在识别误差,导致未准确识别出相邻两帧之间 的人像的偏移。在这种情况下,可采用上一视频帧中的人像区域作为 最终的目标区域。即可根据上一视频帧的人像区域的坐标在当前视频 帧中划定出目标区域。
而若得到的坐标偏差值大于预设阈值时,可确定针对当前视频帧 的人像识别结果准确,可将当前视频帧的人像区域作为最终的目标区 域。
本实施例中,考虑到主播在进行直播的过程中,可能只是身体的 某些部位处于运动状态,例如头部处于运动状态,或者只有腿部处于 运动状态,或者只有手臂处于运动状态。这种情况下,若以人像区域 整体作为比对对象,则对比结果存在准确率不高的缺陷。
基于上述考虑,在本实施例中,可按相同划分规则分别将当前视 频帧的人像区域划分为多个第一子区域,将上一视频帧划分为多个第 二子区域。其中,所述的相同划分规则可以是,将人像区域划分为上、 下两部分,或者将人像区域划分为上、中、下三部分,具体地在本实 施例中不作限制。
针对当前视频帧中的每个第一子区域,计算得到第一子区域的重 心点与对应的上一视频帧的第二子区域的重心点之间的坐标偏差值。 在其中一个第一子区域的重心点与对应的第二子区域的重心点之间 的坐标偏差值大于预设阈值时,可确定对当前视频帧的识别结果准确, 可将当前视频帧的人像区域作为目标区域。而若任意一个第一子区域的重心点与对应的第二子区域的重心点之间的坐标偏差值均小于或 等于预设阈值,则将上一视频帧的人像区域作为当前视频帧的目标区 域。
在确定出当前视频帧的目标区域之后,可将当前视频帧的目标区 域发送至直播接收终端300。作为一种实施方式,可将目标区域携带 在视频流中,同视频流一并发送至直播接收终端300。作为另一种实 施方式,也可以是将目标区域的关键信息,例如目标区域的边角点的 坐标信息,单独发送至直播接收终端300。直播接收终端300在获得 当前视频帧的目标区域之后,可基于当前视频帧的目标区域实现视频 帧的多样化处理,以丰富视频直播效果。例如,可将提取出的目标区 域与不同的背景图像进行融合,以实现直播背景的多样化。又例如, 可将接收到的互动信息,例如弹幕信息、图片信息等,显示在直播界 面中当前视频帧的目标区域之外,以避免互动信息对目标区域中的主 播图像造成遮挡,提升直播效果。
本实施例中,通过对当前视频帧进行人像分析识别,以确定出当 前视频帧中包含人像的目标区域,后续可利用获得的目标区域,以为 直播场景多样化、提高直播效果提供支持。
请参阅图10,为本申请实施例提供的电子设备的示例性组件示 意图,该电子设备可为图1中所示的直播提供终端100或直播服务器 200。该电子设备可包括存储介质110、处理器120、人像分割装置 130及通信接口140。本实施例中,存储介质110与处理器120均位于电子设备中且二者分离设置。然而,应当理解的是,存储介质110 也可以是独立于电子设备之外,且可以由处理器120通过总线接口来 访问。可替换地,存储介质110也可以集成到处理器120中,例如, 可以是高速缓存和/或通用寄存器。
人像分割装置130可以理解为上述电子设备,或电子设备的处理 器120,也可以理解为独立于上述电子设备或处理器120之外的在电 子设备控制下实现上述人像分割方法的软件功能模块。
如图11所示,上述人像分割装置130可以包括识别模块131、 划定模块132、确定模块133以及发送模块134,下面分别对该人像 分割装置130的各个功能模块的功能进行详细阐述。
识别模块131,用于将视频采集设备400实时采集到的当前视频 帧导入至预先训练得到的人像识别模型中进行识别,输出所述当前视 频帧对应的掩膜图像。可以理解,该识别模块131可以用于执行上述 步骤210,关于该识别模块131的详细实现方式可以参照上述对步骤 210有关的内容。
划定模块132,用于根据所述掩膜图像中的各个像素点的标识划 定出所述当前视频帧中的人像区域。可以理解,该划定模块132可以 用于执行上述步骤220,关于该划定模块132的详细实现方式可以参 照上述对步骤220有关的内容。
确定模块133,用于将所述当前视频帧的人像区域与所述当前视 频帧的上一视频帧的人像区域进行比对,确定所述当前视频帧的目标 区域。可以理解,该确定模块133可以用于执行上述步骤230,关于 该确定模块133的详细实现方式可以参照上述对步骤230有关的内容。
发送模块134,用于将所述当前视频帧的目标区域发送至直播接 收终端300。可以理解,该发送模块134可以用于执行上述步骤240, 关于该发送模块134的详细实现方式可以参照上述对步骤240有关的 内容。
进一步地,本申请实施例还提供一种计算机可读存储介质,计算 机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实 现上述实施例提供的人像分割方法。
综上所述,本申请实施例提供的人像分割方法、装置及电子设备, 通过将视频采集设备400实时采集到的当前视频帧导入至预先训练 得到的人像识别模型中进行识别,以得到当前视频帧对应的掩膜图像。 并根据掩膜图像中的各个像素点的标识划定出当前视频帧中的人像 区域,再将当前视频帧的人像区域与当前视频帧的上一视频帧的人像 区域进行比对,确定当前视频帧的目标区域。如此,基于确定出的目 标区域可对视频帧进行多样化的处理,以改善直播场景单一、直播效 果不佳的问题。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限 于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内, 可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此, 本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种人像分割方法,其特征在于,所述方法包括:
将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别,输出所述当前视频帧对应的掩膜图像;
根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域;
将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对,确定所述当前视频帧的目标区域;
将所述当前视频帧的目标区域发送至直播接收终端。
2.根据权利要求1所述的人像分割方法,其特征在于,所述人像识别模型根据预先采集的包含主播图像的样本图像通过神经网络模型训练而得到。
3.根据权利要求1所述的人像分割方法,其特征在于,所述人像识别模型包括第一网络层、第二网络层、第三网络层以及第四网络层;
所述将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别,输出所述当前视频帧对应的掩膜图像的步骤,包括:
分别利用所述第一网络层和第二网络层对所述当前视频帧进行卷积操作,得到所述当前视频帧的特征图;
利用所述第三网络层对所述特征图进行特征提取及特征融合处理,得到所述当前视频帧的特征融合图像;
利用所述第四网络层对所述特征融合图像进行卷积操作及上采样操作,得到所述当前视频帧对应的掩膜图像。
4.根据权利要求3所述的人像分割方法,其特征在于,所述第一网络层包括多个第一卷积层及多个第二卷积层,第一卷积层和第二卷积层交替设置,相邻两个第一卷积层之间具有至少一个第二卷积层,所述第二网络层包括多个依次连接的第三卷积层;
所述分别利用所述第一网络层和第二网络层对所述当前视频帧进行卷积操作得到所述当前视频帧的特征图的步骤,包括:
将所述当前视频帧的图像依次输入所述第一网络层中的第一卷积层和第二卷积层进行卷积操作,得到第一特征图像;
将所述第一特征图像依次输入所述第二网络层中的多个第三卷积层进行卷积处理,得到所述当前视频帧的特征图;
其中,各所述第一卷积层对输入的图像进行卷积操作得到对应的第一卷积特征图,将该第一卷积特征图输出至该第一卷积层的下一卷积层;
各所述第二卷积层对输入的图像进行特征提取后得到第二卷积特征图,并将该第二卷积特征图以及输入该第二卷积层的图像一起输出至下一卷积层;
各所述第三卷积层对输入的图像进行卷积操作得到对应的第三卷积特征图,将该第三卷积特征图输出至该第三卷积层的下一卷积层。
5.根据权利要求3所述的人像分割方法,其特征在于,所述第三网络层包括多个第四卷积层以及一个第五卷积层;
所述利用所述第三网络层对所述当前视频帧的特征图进行特征提取及特征融合处理,得到所述当前视频帧的特征融合图像的步骤,包括:
将所述当前视频帧的特征图输入至各所述第四卷积层分别进行特征提取处理得到多个第四卷积特征图,并将得到的各第四卷积特征图输出至所述第五卷积层;
所述第五卷积层对各所述第四卷积特征图进行特征融合处理,得到所述当前视频帧的特征融合图像。
6.根据权利要求4所述的人像分割方法,其特征在于,所述第四网络层包括上采样层以及第六卷积层,该第六卷积层分别连接至所述上采样层以及所述第一网络层中的其中一个第一卷积层或其中一个第二卷积层;
所述利用所述第四网络层对所述当前视频帧的特征融合图像进行卷积操作及上采样操作,得到所述当前视频帧对应的掩膜图像的步骤,包括:
将所述当前视频帧的特征融合图像输入所述上采样层进行上采样操作得到采样图像并输出至所述第六卷积层;
所述第六卷积层接收所连接的第一卷积层输出的第一卷积特征图或第二卷积层输出的第二卷积特征图以及所述上采样层输出的采样图像,对接收到的图像进行融合处理得到融合图像,并对所述融合图像进行卷积操作得到所述当前视频帧对应的掩膜图像。
7.根据权利要求1-6任意一项所述的人像分割方法,其特征在于,所述根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧的人像区域的步骤,包括:
利用最小矩形框框定所述掩膜图像中标识为1的所有像素点;
根据所述最小矩形框内标识为1的像素点在所述最小矩形框的所有像素点中的占比,判断所述掩膜图像中是否包含人像区域;
若包含人像区域,则根据所述掩膜图像中的人像区域划定出所述当前视频帧的人像区域。
8.根据权利要求7所述的人像分割方法,其特征在于,所述利用最小矩形框框定所述掩膜图像中标识为1的所有像素点的步骤,包括:
获取所述掩膜图像中标识为1的所有像素点中分别在横轴方向和纵轴方向具有极值的像素点,其中,该极值包括极大值和极小值;
根据获取到的具有极值的像素点在所述掩膜图像中的位置划设最小矩形框,该最小矩形框的各边线经过其中一个具有极值的像素点。
9.根据权利要求7所述的人像分割方法,其特征在于,所述根据所述最小矩形框内标识为1的像素点在所述最小矩形框的所有像素点中的占比,判断所述掩膜图像中是否包含人像区域的步骤,包括:
计算所述最小矩形框内由标识为1的像素点组成的区域的第一面积,并计算所述最小矩形框的第二面积;
计算所述第一面积与所述第二面积之间的比值;
在所述比值大于预设值时,确定所述掩膜图像中标识为1的像素点构成的区域为人像区域。
10.根据权利要求1-6任意一项所述的人像分割方法,其特征在于,所述将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对,确定所述当前视频帧的目标区域的步骤,包括:
计算得到所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域之间的坐标偏差值;
在所述坐标偏差值小于或等于预设阈值时,根据所述上一视频帧的人像区域的坐标在所述当前视频帧中划定出目标区域;
在所述坐标偏差值大于所述预设阈值时,将所述当前视频帧的人像区域作为所述目标区域。
11.根据权利要求10所述的人像分割方法,其特征在于,所述计算得到所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域之间的坐标偏差值的步骤,包括:
按相同划分规则分别将所述当前视频帧的人像区域划分为多个第一子区域,将所述上一视频帧的人像区域划分为多个第二子区域;
针对每个所述第一子区域,计算得到所述第一子区域的重心点与对应的第二子区域的重心点之间的坐标偏差值。
12.一种人像分割装置,其特征在于,所述装置包括:
识别模块,用于将视频采集设备实时采集到的当前视频帧导入至预先训练得到的人像识别模型中进行识别,输出所述当前视频帧对应的掩膜图像;
划定模块,用于根据所述掩膜图像中的各个像素点的标识划定出所述当前视频帧中的人像区域;
确定模块,用于将所述当前视频帧的人像区域与所述当前视频帧的上一视频帧的人像区域进行比对,确定所述当前视频帧的目标区域;
发送模块,用于将所述当前视频帧的目标区域发送至直播接收终端。
13.一种电子设备,其特征在于,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行权利要求1-11中任意一项所述的人像分割方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现权利要求1-11中任意一项所述的人像分割方法。
CN201910479428.1A 2019-05-31 2019-05-31 人像分割方法、装置及电子设备 Pending CN112019868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910479428.1A CN112019868A (zh) 2019-05-31 2019-05-31 人像分割方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910479428.1A CN112019868A (zh) 2019-05-31 2019-05-31 人像分割方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112019868A true CN112019868A (zh) 2020-12-01

Family

ID=73506408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910479428.1A Pending CN112019868A (zh) 2019-05-31 2019-05-31 人像分割方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112019868A (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090245571A1 (en) * 2008-03-31 2009-10-01 National Taiwan University Digital video target moving object segmentation method and system
US20100045799A1 (en) * 2005-02-04 2010-02-25 Bangjun Lei Classifying an Object in a Video Frame
CN102855475A (zh) * 2012-09-17 2013-01-02 广州杰赛科技股份有限公司 一种校车监控方法和系统
CN103020608A (zh) * 2012-12-28 2013-04-03 南京荣飞科技有限公司 一种监狱视频监控图像中的囚服识别方法
CN103473539A (zh) * 2013-09-23 2013-12-25 智慧城市系统服务(中国)有限公司 步态识别方法和装置
CN104079798A (zh) * 2013-03-25 2014-10-01 日电(中国)有限公司 图像检测方法、装置及一种视频监控系统
CN104182718A (zh) * 2013-05-21 2014-12-03 腾讯科技(深圳)有限公司 一种人脸特征点定位方法及装置
CN106027931A (zh) * 2016-04-14 2016-10-12 平安科技(深圳)有限公司 视频录制方法及服务器
CN106709394A (zh) * 2016-12-12 2017-05-24 北京慧眼智行科技有限公司 一种图像处理方法及装置
CN107343141A (zh) * 2017-06-16 2017-11-10 广东欧珀移动通信有限公司 对焦方法、装置和计算机设备
CN107707863A (zh) * 2017-09-11 2018-02-16 广东欧珀移动通信有限公司 图像处理方法和装置、电子装置和计算机可读存储介质
CN108898118A (zh) * 2018-07-04 2018-11-27 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置和存储介质
CN109003282A (zh) * 2018-07-27 2018-12-14 京东方科技集团股份有限公司 一种图像处理的方法、装置及计算机存储介质
CN109040780A (zh) * 2018-08-07 2018-12-18 北京优酷科技有限公司 一种视频处理方法及服务器
CN109035257A (zh) * 2018-07-02 2018-12-18 百度在线网络技术(北京)有限公司 人像分割方法、装置及设备
CN109151489A (zh) * 2018-08-14 2019-01-04 广州虎牙信息科技有限公司 直播视频图像处理方法、装置、存储介质和计算机设备
CN109409243A (zh) * 2018-09-29 2019-03-01 江南大学 一种移动目标中人体视觉检测方法
CN109410245A (zh) * 2018-09-13 2019-03-01 北京米文动力科技有限公司 一种视频目标跟踪方法及设备
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109816011A (zh) * 2019-01-21 2019-05-28 厦门美图之家科技有限公司 生成人像分割模型的方法和视频关键帧提取方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100045799A1 (en) * 2005-02-04 2010-02-25 Bangjun Lei Classifying an Object in a Video Frame
US20090245571A1 (en) * 2008-03-31 2009-10-01 National Taiwan University Digital video target moving object segmentation method and system
CN102855475A (zh) * 2012-09-17 2013-01-02 广州杰赛科技股份有限公司 一种校车监控方法和系统
CN103020608A (zh) * 2012-12-28 2013-04-03 南京荣飞科技有限公司 一种监狱视频监控图像中的囚服识别方法
CN104079798A (zh) * 2013-03-25 2014-10-01 日电(中国)有限公司 图像检测方法、装置及一种视频监控系统
CN104182718A (zh) * 2013-05-21 2014-12-03 腾讯科技(深圳)有限公司 一种人脸特征点定位方法及装置
CN103473539A (zh) * 2013-09-23 2013-12-25 智慧城市系统服务(中国)有限公司 步态识别方法和装置
CN106027931A (zh) * 2016-04-14 2016-10-12 平安科技(深圳)有限公司 视频录制方法及服务器
CN106709394A (zh) * 2016-12-12 2017-05-24 北京慧眼智行科技有限公司 一种图像处理方法及装置
CN107343141A (zh) * 2017-06-16 2017-11-10 广东欧珀移动通信有限公司 对焦方法、装置和计算机设备
CN107707863A (zh) * 2017-09-11 2018-02-16 广东欧珀移动通信有限公司 图像处理方法和装置、电子装置和计算机可读存储介质
CN109035257A (zh) * 2018-07-02 2018-12-18 百度在线网络技术(北京)有限公司 人像分割方法、装置及设备
CN108898118A (zh) * 2018-07-04 2018-11-27 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置和存储介质
CN109003282A (zh) * 2018-07-27 2018-12-14 京东方科技集团股份有限公司 一种图像处理的方法、装置及计算机存储介质
CN109040780A (zh) * 2018-08-07 2018-12-18 北京优酷科技有限公司 一种视频处理方法及服务器
CN109151489A (zh) * 2018-08-14 2019-01-04 广州虎牙信息科技有限公司 直播视频图像处理方法、装置、存储介质和计算机设备
CN109410245A (zh) * 2018-09-13 2019-03-01 北京米文动力科技有限公司 一种视频目标跟踪方法及设备
CN109409243A (zh) * 2018-09-29 2019-03-01 江南大学 一种移动目标中人体视觉检测方法
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN109816011A (zh) * 2019-01-21 2019-05-28 厦门美图之家科技有限公司 生成人像分割模型的方法和视频关键帧提取方法

Similar Documents

Publication Publication Date Title
US11107232B2 (en) Method and apparatus for determining object posture in image, device, and storage medium
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
CN108446698B (zh) 在图像中检测文本的方法、装置、介质及电子设备
CN110929569B (zh) 人脸识别方法、装置、设备及存储介质
CN110472539B (zh) 一种文本检测方法、装置及计算机存储介质
US20230054515A1 (en) Image gaze correction method, apparatus, electronic device, computer-readable storage medium, and computer program product
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
EP4050305A1 (en) Visual positioning method and device
CN112712487A (zh) 一种场景视频融合方法、系统、电子设备及存储介质
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN114120163A (zh) 视频帧处理方法、装置及其相关设备和存储介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN113688839B (zh) 视频处理方法及装置、电子设备、计算机可读存储介质
WO2024099068A1 (zh) 基于图像的速度确定方法、装置、设备及存储介质
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN112218005A (zh) 一种基于人工智能的视频剪辑方法
CN113079342A (zh) 基于高分辨率影像装置的目标追踪方法及系统
CN112019868A (zh) 人像分割方法、装置及电子设备
CN112991419B (zh) 视差数据生成方法、装置、计算机设备及存储介质
CN115239551A (zh) 视频增强方法和装置
CN113822899A (zh) 图像处理方法、装置、计算机设备和存储介质
CN109328373B (zh) 图像处理方法及其相关设备、存储介质
CN112085002A (zh) 人像分割方法、装置、存储介质及电子设备
CN110740256A (zh) 门铃摄像头协作方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201201

RJ01 Rejection of invention patent application after publication