CN112752110A - 视频呈现方法及装置、计算设备、存储介质 - Google Patents
视频呈现方法及装置、计算设备、存储介质 Download PDFInfo
- Publication number
- CN112752110A CN112752110A CN202010818234.2A CN202010818234A CN112752110A CN 112752110 A CN112752110 A CN 112752110A CN 202010818234 A CN202010818234 A CN 202010818234A CN 112752110 A CN112752110 A CN 112752110A
- Authority
- CN
- China
- Prior art keywords
- image
- region
- video content
- target area
- pixel points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims description 52
- 238000005192 partition Methods 0.000 claims description 49
- 238000004891 communication Methods 0.000 claims description 25
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 238000005260 corrosion Methods 0.000 claims description 12
- 230000007797 corrosion Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000010339 dilation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003628 erosive effect Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种视频呈现方法及装置、计算设备、存储介质。该视频呈现方法,包括:获取视频内容的背景图像;比较视频内容的当前帧图像与背景图像中对应像素点的属性值,得到差值图像;基于差值图像确定当前帧图像中的目标区域;基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。通过上述视频呈现方法,可以尽可能避免诸如弹幕的附加呈现内容对视频内容中的关键部分形成遮挡。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种视频呈现方法及装置、计算设备、计算机可读存储介质。
背景技术
随着计算机技术的发展,诸如直播的视频内容形式正变得越来越流行。在这种视频内容的播放过程中,可以允许观看用户通过例如发送弹幕的方式来表达自己的想法,从而为所播放的视频内容增加互动性和趣味性。然而,由于这种弹幕内容会叠加在视频内容上,所以其可能对视频内容中的关键内容形成遮挡,例如遮挡正在直播的主播等,从而可能影响用户的观看体验,以及降低用户对视频内容所包含的信息的获取效率。
发明内容
有鉴于此,本发明提供了一种视频呈现方法、装置、计算设备及存储介质,旨在缓解、减轻或甚至消除上述问题以及可能存在的其他问题。
根据本发明的一方面,提供了一种视频呈现方法,包括:获取视频内容的背景图像;比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像;基于所述差值图像确定所述当前帧图像中的目标区域;基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在所述目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。
在一些实施例中,所述基于所述差值图像确定所述当前帧图像中的目标区域包括:对所述差值图像进行二值化处理,使得所述差值图像中属性值大于属性阈值的像素点被赋值为第一值,属性值小于属性阈值的像素点被赋值为第二值;基于被赋值为第一值的像素点的集合确定所述目标区域。
在一些实施例中,所述基于被赋值为第一值的像素点的集合确定所述目标区域包括:对经二值化处理的差值图像进行连通性处理,使得被赋值为第一值的像素点的集合形成至少一个连通区域,每个连通区域内部的所有像素点都被赋值为第一值;将所述至少一个连通区域确定为所述目标区域。
在一些实施例中,所述对经二值化处理的差值图像进行连通性处理包括:对经二值化处理的差值图像执行形态学的闭运算。
在一些实施例中,所述对经二值化处理的差值图像执行形态学闭运算包括:用预先定义的结构元素遍历该图像,得到膨胀图像,所述结构元素包括锚点,其中在所述结构元素与该图像重叠的每一区域内,若该图像在该区域内的像素点中存在为第一值的像素点,则将该图像的与所述结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值;用所述预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在所述结构元素与该图像重叠的每一区域内,若该图像在该区域内的所有像素点均为第一值,则将该图像的与所述结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值。
在一些实施例中,所述基于所述差值图像确定所述当前帧图像中的目标区域包括:对所述差值图像进行连通性处理,使得所述差值图像中的所有像素点被划分为至少一个第一连通区域和第二连通区域,所述至少一个第一连通区域中的像素点的属性值大于所述第二连通区域中的像素点的属性值;基于所述至少一个第一连通区域确定所述目标区域。
在一些实施例中,所述对经二值化处理的差值图像进行连通性处理包括:对经二值化处理的差值图像执行形态学的闭运算。
在一些实施例中,所述对所述差值图像执行形态学闭运算包括:用预先定义的结构元素遍历该图像,得到膨胀图像,所述结构元素包括锚点,其中在所述结构元素与该图像重叠的每一区域内,将该图像的与所述结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最大属性值;用所述预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在所述结构元素与该图像重叠的每一区域内,将该图像的与所述结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最小属性值。
在一些实施例中,该方法还包括:将所述至少一个第一连通区域中的像素点赋值为第一值,将所述第二连通区域中的像素点赋值为第二值。
在一些实施例中,所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:基于所确定的目标区域设置附加呈现内容的属性,使得在所述目标区域内,附加呈现内容具有大于或等于阈值透明度的透明度,所述阈值透明度大于0小于等于100%。
在一些实施例中,所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:针对视频内容的多个帧图像,确定多个图像分区中的每个分区被目标区域覆盖的概率;在被目标区域覆盖的概率小于或等于阈值概率的分区中的至少一个分区中,在视频内容上叠加附加呈现内容。
在一些实施例中,所述确定图像区域的多个分区中的每个分区被目标区域覆盖的概率包括:确定该分区中每个像素点被目标区域覆盖的概率值;确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征,作为该分区被目标区域覆盖的概率。
在一些实施例中,所述确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征包括:计算该分区中的至少一部分像素点被目标区域覆盖的概率值的平均值,作为所述统计特征。
在一些实施例中,所述比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像包括:比较所述视频内容的当前帧图像与所述背景图像中对应像素点的灰度值,得到灰度图形式的差值图像。
在一些实施例中,所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:基于所确定的目标区域在视频内容上叠加弹幕内容。
根据本发明的另一方面,提供了一种视频呈现装置,包括:获取模块,被配置为获取视频内容的背景图像;比较模块,被配置为比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像;确定模块,被配置为基于所述差值图像确定所述当前帧图像中的目标区域;叠加模块,被配置为基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在所述目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。
根据本发明的又一方面,提供了一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机可执行指令,所述计算机可执行指令当在所述处理器上执行时执行上述方面中所描述的方法。
根据本发明的又一方面,提供了一种计算机可读存储介质,其上存储计算机可执行指令,所述计算机可执行指令当在处理器上执行时执行上述方面中所描述的方法。
根据本发明的实施例提供的视频呈现方法利用某些类型的视频内容(诸如固定机位拍摄的直播视频)的背景图像较为稳定的特点,通过将视频内容的当前帧图像与背景图像进行比较得到差值图像、进而对差值图像进行处理(诸如二值化处理、连通性处理)来确定目标区域,从而可以基于所确定的目标区域按照一定规则在视频内容上叠加附加呈现内容,例如使附加呈现内容在目标区域中具有透明度、调整附加呈现内容的叠加位置等,以尽可能避免附加呈现内容在目标区域中叠加至视频内容。此外,这种防遮挡方案的计算复杂度较低,实时性较强,特别适合于需要实时处理视频内容的场景,例如直播场景。
根据在下文中所描述的实施例,本发明的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示意性示出了可以应用根据本发明的技术方案的示例场景;
图2A示意性示出了根据相关技术的方案的示例界面图;
图2B示意性示出了根据相关技术的方案的另一示例界面图;
图3示意性示出了根据本发明的一些实施例的视频呈现方法的示例流程图;
图3A示意性示出了根据本发明的一些实施例的视频呈现方法的另一示例流程图;
图4示意性示出了图3或图3A所示的方法的一具体示例的流程图;
图5A-5E示意性示出了根据本发明的一些实施例的方法的步骤的示例效果图;
图6A-6B示意性示出了根据本发明的一些实施例的方法的示例效果图;
图7示意性示出了根据本发明的一些实施例的视频呈现装置的示例框图;
图8示意性示出了根据本发明的一些实施例的计算设备的示例框图。
具体实施方式
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
1、直播:指通过一定设备采集开播方数据(例如音频、视频等数据中的一种或多种),对这些数据进行一系列处理(例如视频编码压缩等)以形成可观看可传输的媒体流,并输出至观看用户端的技术。在直播中,开播方可以称为主播。一般而言,一名主播可以在一个直播间中进行直播,用户可以进入该直播间观看该主播的直播。在观看过程中,用户可以通过发送弹幕来与其他正在观看直播的用户分享自己的想法,以及与正在进行直播的主播进行交流互动。
2、弹幕:指的是在网络上观看视频时弹出的评论性字幕。这种评论性字幕可以与视频内容一同呈现,当大量评论性字幕在视频内容上方飘过时,其效果如同诸如飞行射击游戏中的密集的炮弹,故得名弹幕。观看视频的用户在观看过程中可以发送弹幕,并且可以观看自己及他人发送的弹幕,从而可以实现交流互动,增加观看视频内容的趣味性。
3、遮罩(Mask):遮罩可以具有一定形状,当将遮罩应用于叠加的附加呈现内容时,可以设置遮罩区域中的附加呈现内容的属性,使得在遮罩区域中,附加呈现内容部分或完全透明,从而使原本可能被附加呈现内容遮挡的内容得以呈现。实现这种效果的对象也可能被称为蒙版、掩膜等。
4、帧:视频内容可以由一系列帧组成,其中每一帧是静止的图像。当多个帧按顺序播放时,可以创建运动的图像,也即构成视频。此外,帧速率(Frames Per Second,FPS)是视频内容的一个重要参数,其表示每秒所播放的帧的数量,其数值大小可以影响视频内容的连贯性和流畅性。例如,使用30的FPS创建的视频内容意味着每秒视频将包括30个静止图像(即帧)。
5、二值化:针对一组数据,基于预定阈值,将大于该阈值的数据设置为第一值,并且将不大于该阈值的数据设置为第二值,该过程可以被称为二值化。在图像处理中,二值化可以指,基于某个阈值,将例如图像上的像素点的灰度值设置为0或255,使整个图像呈现为黑白效果。在一些情况下,图像的二值化有利于图像的进一步处理,其可以使数据量减小,并且有助于凸显感兴趣的目标的轮廓。
6、形态学闭运算:数学形态学操作可以分为二值形态学和灰度形态学。数学形态学包括两个基本运算,即膨胀和腐蚀。膨胀和腐蚀通过结合又形成了开运算和闭运算。其中开运算指先腐蚀后膨胀的运算,闭运算指先膨胀后腐蚀的运算。形态学闭运算有助于去除例如亮部区域内的微小暗部。
7、连通区域:在本文中可以理解为,在一区域内部,即由该区域的最外部轮廓围成的区域范围内,所有像素点都属于该区域。针对二值化图像,连通区域可以指某个区域内部的所有像素点的灰度值均为0或均为1;针对一般灰度图像,连通区域可以指某个区域内部的所有像素点与邻居像素点的灰度值的相似度均高于阈值相似度。
图1示意性示出了可以应用根据本发明的技术方案的示例场景100。如图所示,场景100可以包括终端设备120、150和服务器130,这些设备可以通过网络160进行通信。
终端设备120例如可以是视频提供方用户110的终端设备120,视频提供方用户110例如可以是正在进行直播的主播。终端设备150例如可以是视频观看方用户140的终端设备120,视频观看方用户140例如可以是正在观看直播的观众。在一些实施例中,用户110可以使用终端设备120通过网络160将视频内容提供至服务器130,用户140可以使用终端设备150观看由服务器130通过网络160提供的视频内容,该视频内容可以是直播视频内容,也可以是其他类型的非直播视频内容。用户140在通过终端设备150观看视频内容时,可以使用终端设备150的输入装置向正在播放的视频内容添加附加呈现内容,诸如弹幕。类似地,用户110也可以在自己提供的视频内容中添加附加呈现内容,来用于解释、说明等目的。或者,部署在服务器130或终端设备120、150上的相关应用可以向视频内容中添加附加呈现内容,例如系统消息等。这种附加呈现内容可以叠加在视频内容上,来与视频内容一同呈现,例如以在显示视频内容的界面窗口中的特定位置依次浮现、滚动播放、固定呈现等方式。用户140可以在观看视频内容的同时观看自己、其他用户和/或应用本身添加的附加呈现内容。
终端设备120、150可以是任何适当的计算设备,包括但不限于智能电话、智能手表、平板电脑、笔记本电脑、台式计算机等。终端设备120、150可以是相同或不同类型的计算设备。在一些实施例中,终端设备120、150也可能是同一计算设备。示例性地,终端设备120可以包括用于输入视频的用户接口,例如用于录制视频的相机、用于从其他设备接收视频内容的通信接口等。终端设备150可以包括诸如显示屏、投影仪等的输出接口,来用于呈现视频内容,以及可以包括诸如触摸屏、键盘、麦克风等的输入接口,以供用户输入诸如弹幕的附加呈现内容。终端设备120、150上可以分别部署有用于视频提供方或视频观看方的应用程序,来为用户提供输入及上传视频、观看视频、添加附加呈现内容等功能。应理解,部署在终端设备120、150上的应用程序可以是例如客户端程序、提供视频播放功能的浏览器、可经由浏览器访问的web程序、可经由其他应用程序访问的小程序等。
服务器130可以是单个服务器或服务器群组,或者也可以是具有一定计算和通信能力的其他计算设备。在一些实施例中,终端设备120和服务器130、或者终端设备150和服务器130、或者终端设备120、150和服务器130也可以是集成在一起的。在这种情况下,终端设备120和/或终端设备150可以直接通过内在通信链接来实现信息交换,而无需通过网络160。服务器130上可以部署有相关应用,来接收终端设备120上传的视频内容、基于终端设备150的请求而向其传送视频内容等。
将在下文中参照图8进一步详细解释终端设备120、150以及服务器130的具体结构的实施例,在此不再赘述。此外,应理解,本发明的实施例中描述的视频呈现方法可以由终端设备120、150或服务器130中的任一个执行,或者也可能由其中的任两个或三个组合执行。
网络140可以是经由诸如电缆、光纤等连接的有线网络,也可以是诸如2G、3G、4G、5G、Wi-Fi、蓝牙、ZigBee、Li-Fi等的无线网络。
图2A示意性示出了根据相关技术的技术方案的示例界面200A。界面200A例如可以通过终端设备150的显示装置来显示。界面200A为示例性的直播界面,其包括主播区域201,该区域可能随主播的移动而变动。此外,界面200A还包括由附图标记202指示的弹幕呈现区域以及203指示的系统消息呈现区域等,用户发送或系统生成的弹幕消息可以在区域202中滚动呈现,一些提示性的系统消息可以在区域203中按需浮现。在区域202或203或其他区域处呈现的弹幕、系统消息等均可以被视为本文所述及的附加呈现内容。
由图2A可见,由于附加呈现内容以固定位置叠加在视频内容上,所以其可能会遮挡视频内容中的关键区域部分,例如这里的主播区域201部分地被以叠加至视频内容的方式呈现的弹幕遮挡。这可能会影响用户的观看体验,以及影响用户对直播内容中的关键信息的获取效率。例如,在主播展示所穿戴的服饰的情况下,诸如弹幕的附加呈现内容可能对所展示的服饰形成遮挡,从而阻碍用户观察服饰的一些细节,进而影响观看体验及直播效果。
为了解决上述遮挡问题,在相关技术中,可以提供关闭部分或全部附加呈现内容的呈现的选项。例如,用户可以通过点击实体或虚拟按键、手势操作等来使得界面中不再呈现诸如弹幕等的附加呈现内容。图2B示例性地示出了关闭弹幕及部分系统消息的呈现之后的界面200B。在界面200B中,用户可以观看到完整的主播区域201,例如主播所展示的服饰不会被其他附加呈现内容遮挡。然而,这种完全关闭附加呈现内容呈现功能的方法虽然易于实现,但是其实际上完全放弃了呈现上述附加呈现内容所带来的优势,例如增强互动性、提升趣味性以及向用户展示辅助信息等。此外,这种方案依赖于用户的手动切换操作,在很多情况下,用户需要反复切换有无附加呈现内容的不同显示方案来查看视频内容的关键细节和查看附加呈现内容,这会增加用户的操作成本,不利于观看体验的提升。
基于上述分析,本发明的一些实施例提供了一种用于在视频内容上叠加附加呈现内容、而尽可能不遮挡视频主体内容的视频呈现方法300。图3示意性示出了方法300的示例流程图。方法300可以由图1所示的终端设备120、终端设备150或服务器130中的任一个执行,或者也可以由其中任两个或三个的组合执行。
如图3所示,方法300包括:获取视频内容的背景图像(步骤310);比较视频内容的当前帧图像与背景图像中对应像素点的属性值,得到差值图像(步骤320);基于差值图像确定当前帧图像中的目标区域(步骤330);基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在所述目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率(步骤340)。
在步骤310,获取视频内容的背景图像。本文所述及的视频内容可以包括各种类型的视频内容。特别地,本发明的实施例中描述的技术方案尤其适合于背景图像恒定或基本恒定的视频内容,例如在固定机位处拍摄的视频内容或者在纯色背景下拍摄的视频内容,诸如背景固定的直播视频等。在本文中,“背景”或“背景图像”应理解为视频内容中始终保持不变或基本不变的部分。例如,在固定机位的直播场景中,“背景”或“背景图像”可以指除主播及主播持有或佩戴的物品之外的部分。
在一些实施例中,视频内容的背景图像可以由视频提供方提供。例如,在图1所示的场景中,用户110可以通过其终端设备120输入背景图像。或者,在视频录制开始时,可以在前一帧或多帧中仅录制背景。该一帧或多帧可以被提取来生成背景图像,例如使用其中任一帧作为背景图像,或使用其中部分或全部帧的平均图像作为背景图像等。
在另一些实施例中,也可以自动生成视频内容的背景图像。示例性地,可以比较、分析视频内容的前若干帧,基于这些帧图像中保持不变的部分建立背景模型,从而自动生成背景图像。
在步骤320,比较视频内容的当前帧图像与背景图像中对应像素点的属性值,得到差值图像。示例性地,可以将当前帧图像的各个像素点的属性值与背景图像中对应像素点的属性值相减,从而得到差值图像的各个像素点的属性值。在一些实施例中,属性值可以是灰度值,其范围为0-255。具体地,可以比较视频内容的当前帧图像与背景图像中对应像素点的灰度值,得到灰度图形式的差值图像。相较于RGB值,灰度值的数据量明显更小;而相较于对比度等属性值,灰度值可以更好的体现图像的各种细节。因此,选择灰度值作为属性值来参与处理可以较好地反映被处理图像的细节内容,同时不会过多浪费处理资源。但是,可选地,也可以选择其他属性值来参与后续处理过程。
例如,步骤320中的比较过程可以通过下式实现:
其中,B代表背景图像,fn代表当前帧图像,背景图像和当前帧图像的对应像素点的属性值(例如灰度值)分别记为B(x,y)和fn(x,y),n表示视频内容中的第n个帧。依照该公式,将当前帧图像与背景图像中的每个对应像素点的属性值进行相减,并取其绝对值,来得到差值图像Dn。可以理解,根据上式计算得到的差值图像Dn中的各个像素点的属性值可以代表当前帧图像与背景图像的差异程度。在差值图像的属性值越高的像素点处,当前帧图像与背景图像的差异程度越高;而在属性值越低的像素点处,当前帧图像与背景图像的相似程度越高。特别地,在差值图像的属性值为零的像素点处,可以认为当前帧图像与背景图像是相同的。由此,通过分析差值图像的各个像素点的属性值,可以大致区分当前帧图像中的背景区域和非背景区域,比如直播背景和主播图像。
在步骤330,基于差值图像确定当前帧图像中的目标区域。可选地,步骤330可以通过图3A所示的步骤331、332、333和334来实现,也可以通过步骤331'、332'(以及可选的333')和334来实现,各步骤将在下文具体描述。在本文中,目标区域可以是非背景区域。例如,在直播场景中,目标区域可以指包括主播及主播持有或佩戴的物品的图像区域。帧图像中可能包括不止一个目标区域,例如在多主播共同直播的情况下。
在一些实施例中,基于差值图像确定当前帧图像中的目标区域可以包括:对差值图像进行二值化处理,使得差值图像中属性值大于属性阈值的像素点被赋值为第一值,属性值小于属性阈值的像素点被赋值为第二值(步骤331);基于被赋值为第一值的像素点的集合确定目标区域。对差值图像进行二值化处理有助于更明显地区分图像中的目标区域和背景区域,同时也可以简化后续步骤中针对目标区域执行的进一步处理。
属性阈值可以是预先设定的,其设定过程可以综合考量对背景区域和目标区域的区分度、对差值图像中的误差的包容度等。例如,由于当前帧中的背景区域可能与背景图像中的相应像素点的属性值略有不同,这例如可能由光影变化或其他细微变化引起,从而,虽然特别低的属性阈值可能有利于提取更完整的目标区域,但可能会带来较多噪声点,即背景区域中的某些点可能也被设置为第一值;而若属性阈值特别高,则可能导致原本应被划分至目标区域的点被划分至背景区域。应理解,这里所述及的第一值或第二值可以指将像素点的属性值赋值为第一值或第二值,也可以指附加地为像素点赋予第一值或第二值,或者也可以指将像素点划分至目标区域或背景区域的标记或指示符等。
示例性地,在属性值为灰度值的情况下,上述二值化处理可以通过依照下方公式对差值图像中的像素点逐个进行计算来完成:
其中,Rn'代表经二值化处理后的二值化图像,灰度值为255的点一般为白色,在此被归为目标区域,灰度值为0的点一般为黑色,在此被归为背景区域。
通过上述二值化处理,所有或大部分目标区域的点将被赋值为第一值,而其余点将被赋值为第二值,从而,可以基于被赋值为第一值的点的集合确定为目标区域。例如,可以直接将被赋值为第一值的点的集合确定为目标区域。然而,在一些情况下,目标区域内部的某些像素点的属性值可能恰好与背景图像中相应像素点的属性值非常接近,从而可能在二值化过程中被误赋值为第二值。这可能导致被赋值为第一值的点的集合实际上未完全覆盖目标区域。若直接将这些被赋值为第一值的点的集合确定为目标区域,则所确定的目标区域可能存在空洞点,即所确定的目标区域内部的某些像素点被赋值为第二值而非第一值。例如,在属性值为灰度值的情况下,这可以表现为在白色区域内部存在一个或多个黑色小区域。
为了在上述情况中更准确地确定目标区域,在一些实施例中,基于被赋值为第一值的像素点的集合确定目标区域可以包括:对经二值化处理的差值图像执行形态学闭运算,来进行连通性处理,使得被赋值为第一值的像素点的集合形成至少一个连通区域,每个连通区域内部的所有像素点都被赋值为第一值(步骤332和333,下文进一步详述);将至少一个连通区域确定为目标区域(步骤334)。示例性地,视频内容中可以包括一个或多个目标区域,例如在直播场景中,可以同时存在一个或多个正在进行直播的主播,若为多个主播,其图像区域可能彼此分离;或者视频帧中可以包括主播和与主播分离放置的展示对象的图像区域等。对经二值化的差值图像进行连通性处理可以去除被赋值为第一值的点的集合限定的区域内部的被赋值为第二值的点形成的空洞,从而使得可以更完整和准确地确定目标区域。
在一些实施例中,对经二值化处理的差值图像执行形态学闭运算包括:用预先定义的结构元素遍历该图像,得到膨胀图像,结构元素包括锚点,其中在结构元素与该图像重叠的每一区域内,若该图像在该区域内的像素点中存在为第一值的像素点,则将该图像的与结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值(即步骤332中的膨胀运算);用预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在结构元素与该图像重叠的每一区域内,若该图像在该区域内的所有像素点均为第一值,则将该图像的与结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值(即步骤333中的腐蚀运算)。应理解,可以根据需要将结构元素中的任何一个像素点定义为锚点。具体地,如前所述,形态学的闭运算可以包括依次对经二值化的差值图像进行膨胀和腐蚀运算。为便于描述,以下将第一值假设为1,第二值假设为0。膨胀运算可以通过以下过程实现:用预先定义的核(即上述结构元素,其通常是对称的,并且其中各点赋值均为1)遍历图像,假设该核的锚点为中心像素点,如果与核重合的图像区域中存在为1的像素点,则将该区域的中心像素点设置为1,否则设置为0;腐蚀运算可以通过以下过程实现:用预先定义的核遍历图像,如果与核重合的图像区域中所有像素点都为1,则将该区域的中心像素点设置为1,否则设置为0。核的大小、形状等可能会影响闭运算的效果。核形状一般设置为对称形状,其大小通常可以根据视频内容的像素值确定。示例性地,在诸如opencv中,可以通过定义核并调用相关函数来执行上述过程。
此外,在另一些实施例中,上述二值化处理和连通性处理的顺序可以交换。例如,基于差值图像确定目标区域可以包括:对差值图像执行形态学闭运算,来进行连通性处理,使得差值图像中的所有像素点被划分为至少一个第一连通区域和第二连通区域,至少一个第一连通区域中的像素点的属性值大于第二连通区域中的像素点的属性值(步骤331'和332',下文进一步详述);基于至少一个第一连通区域确定目标区域(步骤334)。对差值图像进行连通性处理可以去除属性值较大的像素点的集合限定的区域内部的属性值较小的点形成的小区域,例如针对属性值为灰度值,可以去除亮部中的微小暗部,从而使得可以更完整和准确地确定目标区域。
在一些实施例中,对差值图像执行形态学闭运算包括:用预先定义的结构元素遍历该图像,得到膨胀图像,结构元素包括锚点,其中在结构元素与该图像重叠的每一区域内,将该图像的与结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最大属性值(即步骤331'中的膨胀运算);用预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在结构元素与该图像重叠的每一区域内,将该图像的与结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最小属性值(即步骤332'中的腐蚀运算)。具体地,如前所述,形态学的闭运算可以包括依次对经二值化的差值图像进行膨胀和腐蚀运算。示例性地,针对灰度图像,膨胀运算可以通过以下过程实现:用预先定义的核(即上述结构元素,其通常是对称的,并且其中各点赋值均为1)遍历图像,假设该核的锚点为中心像素点,将与核重合的图像区域中的像素点的最大值赋值给该区域的中心像素点;腐蚀运算可以通过以下过程实现:用预先定义的核遍历图像,将与核重合的图像区域中的像素点的最小值赋值给该区域的中心像素点。示例性地,在诸如opencv中,可以通过定义核并调用相关函数来执行上述过程。
在对差值图像进行诸如以上所述的连通性处理后,差值图像中属性值较高的像素点的集合形成的一个或多个区域内部的所有像素点的属性值总体上可以有所增加,其中原本属性值较低的像素点的属性值可能明显增大。从而图像中属性值较高的像素点的集合可以形成一个或多个第一连通区域,而属性值较低的像素点的集合可以形成第二连通区域(通常为单个第二连通区域)。第一连通区域中的像素点的属性值可以高于第二连通区域中的像素点的属性值,也即,实际上可以存在一阈值,第一连通区域中的像素点的属性值均大于该阈值,而第二连通区域中的像素点的属性值均小于该阈值。
可选地,为了便于确定目标区域的范围以及后续处理,在一些实施例中,可以将至少一个第一连通区域中的所有像素点的属性值赋值为第一值,而将第二连通区域中的所有像素点的属性值赋值为第二值(步骤333')。
在步骤340,基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。可选地,步骤340可以通过图3A所示的步骤341来实现,或者可以通过步骤342和343来实现,各步骤将在下文具体描述。示例性地,附加呈现内容可以包括弹幕内容。附加地或替代地,附加呈现内容也可以包括在视频内容中叠加的其他形式的内容,例如系统消息等。
在一些实施例中,基于所确定的目标区域在视频内容上叠加附加呈现内容包括:基于所确定的目标区域设置附加呈现内容的属性,使得在所述目标区域内,附加呈现内容具有大于或等于阈值透明度的透明度,所述阈值透明度大于0小于等于100%(步骤341)。示例性地,可以根据所确定的目标区域生成遮罩区域,并设置遮罩区域中附加呈现内容的透明度,例如可以将对应于目标区域的遮罩区域中的附加呈现内容的透明度设置为大于0小于等于100%的值,也即具有一定透明度或完全透明,而非目标区域中的附加呈现内容的透明度可以保持为0,以方便观看。通过上述方式,在目标区域内,附加呈现内容可以具有所设置的透明度,而不会遮挡或不会完全遮挡目标区域中的视频图像。
在另一些实施例中,基于所确定的目标区域在视频内容上叠加附加呈现内容包括:针对视频内容的多个帧图像,确定多个图像分区中的每个分区被目标区域覆盖的概率(步骤342);在被目标区域覆盖的概率小于或等于阈值概率的分区中的至少一个分区中,在视频内容上叠加附加呈现内容(步骤343)。在诸如直播的视频内容中,目标区域(例如包括主播图像的区域)可能频繁出现在帧图像的某个区域范围内,而不太可能出现在其他区域范围中。例如,主播图像可能基本上一直出现在帧图像的偏下方区域,而上方区域可能一直保持为背景区域。由此,可以通过目标区域在多个帧图像中覆盖不同图像分区的概率,来在不太可能被目标区域覆盖的位置处叠加附加呈现内容,从而尽可能避免遮挡目标区域内的视频图像。
在一些实施例中,确定多个图像分区中的每个分区被目标区域覆盖的概率包括:确定该分区中每个像素点被目标区域覆盖的概率值;确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征,作为该分区被目标区域覆盖的概率。例如,确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征包括:计算该分区中的至少一部分像素点被目标区域覆盖的概率值的平均值,作为统计特征。通过以分区中各个像素点被目标区域覆盖的概率值的统计特征来代表该分区被目标区域覆盖的概率,可以降低参与后续处理的数据量,并且有助于更容易地确定用以叠加附加呈现内容的区域。
示例性地,可以在视频内容中选取若干帧,例如在视频内容开始的一段时间内等间隔地选取若干帧,统计各个像素点在所选取的若干帧中被目标区域覆盖的概率,来作为该像素点在该视频内容中被目标区域覆盖的概率。例如,可以通过下式计算这种概率:
其中Pij表示在帧图像中第i个横坐标j个纵坐标处的像素点被目标区域覆盖的概率值。C表示所选取的帧数,例如针对每秒播放30帧的视频内容,在其开始处的30秒内,每10帧取一次值,则C为90。t表示在所选取的若干帧构成的序列中的第t个帧。Sxi表示在第t个帧中,像素点(i,j)是否被目标区域覆盖。示例性地,若被覆盖,则取值为1,反之,则取值为0。
考虑到附加呈现内容基本上不可能在单个像素点或彼此分离的几个像素点处呈现,因此,为了便于处理以及减少数据量,可以将视频帧的整体区域划分为若干分区,针对每个分区,统计分区中各个像素点被目标区域覆盖的概率值,计算出一个代表值,来代表该分区被目标分区覆盖的概率,即该分区中存在被目标区域覆盖的像素点的概率。示例性地,可以通过平均池化来实现该过程,池化的结果例如可以通过下面的公式获得:
其中,j表示分区的序号,Rj表示第j个分区,Sj表示针对该分区计算的池化结果。t表示选择参与池化的激活值的序位阈值,其取值范围可以为大于等于1且小于等于分区中的像素点的个数。i表示在该分区内激活值的索引值,ri和ai分别表示第i个激活值的序位和激活数值。例如,可以首先对分区中各像素点被目标区域覆盖的概率值按照从大到小的顺序进行排序,像素点在排序中的序号可以作为序位,其被目标区域覆盖的概率值可以作为激活数值。假设所设定的序位阈值为M,则选取排序中的前M个概率值参与计算。应理解,当t取值为1时,实际上等同于选择分区中的像素点中被目标区域覆盖的概率值最大的像素点来代表该分区被目标区域覆盖的概率;当t取值为分区中的像素点的个数时,实际上等同于将分区中所有像素点被目标区域覆盖的平均概率值作为该分区被目标区域覆盖的概率。此外,也可以选取其他的统计特征作为分区被目标区域覆盖的概率,例如各像素点被目标区域覆盖的概率值的中位值等。
随后,可以选择被目标区域覆盖的概率小于或等于预先设定的阈值概率的分区中的一个或多个分区来作为叠加附加呈现内容的区域。或者,也可以针对各分区,再次进行如上所述的池化过程,来确定由多个分区构成的更大分区被目标区域覆盖的概率,进而确定在某个或某几个更大分区中叠加附加呈现内容。
可选地,在诸如直播场景中,在直播开始时可以在预设位置处叠加附加呈现内容。例如,预设位置可以是根据经验设定的,可以被设定为根据经验不太可能被目标区域覆盖的区域位置处。
可选地,可以周期性地重复上述确定用于叠加附加呈现内容的区域的方法中的所有或部分步骤,来验证所选择的呈现区域是否合适,和/或根据验证结果来调整呈现区域。
可选地,上述关于透明度设置和位置调整的方法可以组合使用,即,可以在所确定的被目标区域覆盖的概率小于或等于阈值概率的区域中叠加附加呈现内容,同时,当附加呈现内容出现在目标区域中时,可以被设置为部分或完全透明。
或者,也可以通过其他方式来基于所确定的目标区域叠加附加呈现内容。例如,当附加呈现内容的呈现区域与目标区域存在重合部分时,重合部分的附加呈现内容直接不予显示,或者在该部分或整个目标区域中改变附加呈现内容与视频内容的叠加顺序,使得附加呈现内容在视频内容下方呈现,等等。
图3及图3A流程图所示的视频呈现方法300通过将视频内容的当前帧图像与背景图像进行比较得到差值图像、进而对差值图像进行处理来确定目标区域,从而可以通过上文所述的设置透明度、调整叠加位置等手段来基于所确定的目标区域在视频内容上叠加附加呈现内容,以尽可能避免附加呈现内容在目标区域中叠加至视频内容。考虑到这种方法利用了视频内容背景稳定的特点,以及这种防遮挡方案的计算复杂度较低,实时性较强,因此尤其适合于诸如以固定机位拍摄或具有纯色背景的直播视频内容。
下面将结合图4中的流程图以及图5A-5E、6A-6B中的界面及处理效果示意图,以在固定机位拍摄的直播内容中确定弹幕呈现位置的过程400为示例,更直观地描述关于图3及图3A描述的视频呈现方法300。
如图所示,附图标记401和402分别表示直播内容的背景图像和当前帧图像。背景图像401可以通过关于图3描述的步骤310来获取。示例性地,图5A示出了背景图像,图5B示出了当前帧图像。可见,图5B中的当前帧图像的背景与图5A中的背景图像相同,两者的区别在于,当前帧图像包括主播的图像。后续处理的目的在于将包括主播图像的主播区域确定为目标区域,并使叠加的弹幕尽可能不遮挡该区域。
在步骤403,对图5A所示的背景图像与图5B所示的当前帧图像中各个像素点的灰度值进行减运算,得到如图5C所示的差值图像。可见,在所得的差值图像中,背景区域基本上为黑色,也即减运算的结果为0,主播区域中的像素点具有大小不等的灰度值。步骤403可以根据关于图3描述的步骤320来执行。
在步骤404,对图5C所示的差值图像进行二值化处理,得到图5D所示的二值化图像。在此,二值化处理可以包括,将灰度值大于预设阈值的像素点的灰度值设置为255,即白色,将灰度值小于等于预设阈值的像素点的灰度值设置为0,即黑色。可见,在所得的二值化图像中,背景区域基本为黑色,主播区域中大部分为白色,但包含若干黑色小色块。步骤404可以根据关于图3A描述的步骤331来执行。
在步骤405和406,对图5D所示的二值化图像依次执行形态学膨胀运算和腐蚀运算,也即执行形态学闭运算,来消除图5D中的白色区域内部的黑色小色块,从而得到如图5E所示的图像。图5E的图像包括两个区域,其中白色区域为主播区域,黑色区域为除目标区域外的背景区域。步骤405和406分别可以根据关于图3A描述的步骤332和333来执行。
在步骤407,将图5E中的白色区域确定为目标区域,即,将灰度值为255的像素的集合确定为目标区域。步骤407可以根据关于图3A描述的步骤334来执行。之后,可以根据步骤408和409或者步骤410或者两者的组合来在直播视频中叠加附加呈现内容。步骤408和409或步骤410可以根据关于图3描述的步骤340中的不同实施例来执行,也即根据关于图3A描述的步骤341或步骤342和343来执行。
在步骤408,基于所确定的目标区域生成弹幕遮罩,示例性地,可以使目标区域中的弹幕完全透明。在步骤409,基于所生成的弹幕遮罩在视频内容的上方叠加弹幕层,其效果大致如图6A所示,当弹幕与主播区域重合时,弹幕不可见,从而达到防止弹幕遮挡主播区域的目的。
在步骤410,基于所确定的目标区域调整弹幕呈现位置,即在主播区域不太可能覆盖的区域部分中呈现弹幕,其效果大致如图6B所示,主播区域在视频图像的偏下方区域,而弹幕在上方区域中呈现。在图6B中,在调整弹幕呈现位置的同时,也将目标区域中的弹幕设置为不可见,从而可以实现更佳的视觉效果。
应理解,上述在直播视频中呈现弹幕的实施例仅仅是示例性的,本发明提供的视频呈现方法可以应用于其他适用的视频内容和附加呈现内容。
图7示意性示出了根据本发明的一些实施例的视频呈现装置700的示例框图。如图所示,视频呈现装置700可以包括获取模块710、比较模块720、确定模块730以及叠加模块740。
获取模块710可以被配置为获取视频内容的背景图像。比较模块720可以被配置为比较视频内容的当前帧图像与背景图像中对应像素点的属性值,得到差值图像。确定模块730可以被配置为基于差值图像确定当前帧图像中的目标区域。叠加模块740可以被配置为基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。
视频呈现装置700可以部署在图1所示的终端设备120、终端设备150或服务器130中任一个或多个的组合上,例如作为视频呈现应用被部署。应理解,视频呈现装置700可以以软件、硬件或软硬件相结合的方式实现。多个不同模块可以在同一软件或硬件结构中实现,或者一个模块可以由多个不同的软件或硬件结构实现。
此外,视频呈现装置700可以用于实施根据图3或图4描述的视频呈现方法300或400,其相关细节已经在上文中详细描述,为简洁起见,在此不再重复。视频呈现装置700可以具有与关于视频呈现方法描述的相同的特征和优势。
图8示意性示出了计算设备800的示例框图。计算设备800可以代表用以实现本文描述的各种装置或模块和/或执行本文描述的各种方法的设备。计算设备800可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其它合适的计算设备或计算系统,其可以包括从具有大量存储和处理资源的全资源设备到具有有限存储和/或处理资源的低资源设备的各种级别的设备。在一些实施例中,上面关于图1描述的终端设备120、150及服务器130或者关于图7描述的视频呈现装置700可以在一个或多个计算设备800中实现。
如图所示,示例计算设备800包括彼此通信耦合的处理系统801、一个或多个计算机可读介质802以及一个或多个I/O接口803。尽管未示出,但是计算设备800还可以包括将各种组件彼此耦合的系统总线或其他数据和命令传送系统。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或局部总线,或者还可以包括诸如控制和数据线。
处理系统801代表使用硬件执行一个或多个操作的功能。因此,处理系统801被图示为包括可被配置为处理器、功能块等的硬件元件804。这可以包括在硬件中实现专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件604不受其形成材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质802被图示为包括存储器/存储装置805。存储器/存储装置805表示与一个或多个计算机可读介质相关联的存储器/存储装置。存储器/存储装置805可以包括易失性存储介质(诸如随机存取存储器(RAM))和/或非易失性存储介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置805可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。示例性地,存储器/存储装置805可以用于存储上文实施例中提及的视频内容、视频内容的背景图像、执行视频呈现方法的各步骤所生成的结果等。计算机可读介质802可以以下面进一步描述的各种其他方式进行配置。
一个或多个输入/输出接口803代表允许用户向计算设备800键入命令和信息并且还允许使用各种输入/输出设备将信息呈现给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)、网卡、接收机等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、触觉响应设备、网卡、发射机等。示例性地,在上文描述的实施例中,用户110可以通过终端设备120的输入接口来输入视频内容和/或视频内容的背景图像、用户140可以通过终端设备150的输出接口来查看视频内容以及通过其输入接口向视频内容添加附加呈现内容等。
计算设备800还包括内容呈现策略806。内容呈现策略806可以作为计算程序指令存储在存储器/存储装置805中。内容呈现策略806可以连同处理系统801等一起实现关于图7描述的内容呈现装置700的各个模块的全部功能。
本文可以在软件、硬件、元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”等一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备800访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备800的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。作为示例而非限制,信号介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件801和计算机可读介质802代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件801体现的一个或多个指令和/或逻辑。计算设备800可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件801,可以至少部分地以硬件来实现将模块实现为可由计算设备800作为软件执行的模块。指令和/或功能可以由例如一个或多个计算设备800和/或处理系统801执行/可操作以实现本文所述的技术、模块和示例。
本文描述的技术可以由计算设备800的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。
应当理解,为清楚起见,参考不同的功能单元对本发明的实施例进行了描述。然而,将明显的是,在不偏离本发明的构思的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开的一些实施例可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
还应当理解,尽管第一、第二等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。
Claims (15)
1.一种视频呈现方法,包括:
获取视频内容的背景图像;
比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像;
基于所述差值图像确定所述当前帧图像中的目标区域;
基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在所述目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。
2.根据权利要求1所述的方法,其中所述基于所述差值图像确定所述当前帧图像中的目标区域包括:
对所述差值图像进行二值化处理,使得所述差值图像中属性值大于属性阈值的像素点被赋值为第一值,属性值小于属性阈值的像素点被赋值为第二值;
基于被赋值为第一值的像素点的集合确定所述目标区域。
3.根据权利要求2所述的方法,其中所述基于被赋值为第一值的像素点的集合确定所述目标区域包括:
对经二值化处理的差值图像执行形态学闭运算,来进行连通性处理,使得被赋值为第一值的像素点的集合形成至少一个连通区域,每个连通区域内部的所有像素点都被赋值为第一值;
将所述至少一个连通区域确定为所述目标区域。
4.根据权利要求3所述的方法,其中所述对经二值化处理的差值图像执行形态学闭运算包括:
用预先定义的结构元素遍历该图像,得到膨胀图像,所述结构元素包括锚点,其中在所述结构元素与该图像重叠的每一区域内,若该图像在该区域内的像素点中存在为第一值的像素点,则将该图像的与所述结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值;
用所述预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在所述结构元素与该图像重叠的每一区域内,若该图像在该区域内的所有像素点均为第一值,则将该图像的与所述结构元素的锚点重叠的像素点赋值为第一值,否则赋值为第二值。
5.根据权利要求1所述的方法,其中所述基于所述差值图像确定所述当前帧图像中的目标区域包括:
对所述差值图像执行形态学闭运算,来进行连通性处理,使得所述差值图像中的所有像素点被划分为至少一个第一连通区域和第二连通区域,所述至少一个第一连通区域中的像素点的属性值大于所述第二连通区域中的像素点的属性值;
基于所述至少一个第一连通区域确定所述目标区域。
6.根据权利要求5所述的方法,其中所述对所述差值图像执行形态学闭运算包括:
用预先定义的结构元素遍历该图像,得到膨胀图像,所述结构元素包括锚点,其中在所述结构元素与该图像重叠的每一区域内,将该图像的与所述结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最大属性值;
用所述预先定义的结构元素遍历所述膨胀图像,得到腐蚀图像,其中在所述结构元素与该图像重叠的每一区域内,将该图像的与所述结构元素的锚点重叠的像素点赋值为该图像在该区域内的像素点的最小属性值。
7.根据权利要求5或6所述的方法,还包括:
将所述至少一个第一连通区域中的像素点赋值为第一值,将所述第二连通区域中的像素点赋值为第二值。
8.根据权利要求1所述的方法,其中所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:
基于所确定的目标区域设置附加呈现内容的属性,使得在所述目标区域内,附加呈现内容具有大于或等于阈值透明度的透明度,所述阈值透明度大于0小于或等于100%。
9.根据权利要求1所述的方法,其中所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:
针对视频内容的多个帧图像,确定多个图像分区中的每个分区被目标区域覆盖的概率;
在被目标区域覆盖的概率小于或等于阈值概率的分区中的至少一个分区中,在视频内容上叠加附加呈现内容。
10.根据权利要求9所述的方法,其中所述确定多个图像分区中的每个分区被目标区域覆盖的概率包括:
确定该分区中每个像素点被目标区域覆盖的概率值;
确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征,作为该分区被目标区域覆盖的概率。
11.根据权利要求10所述的方法,其中所述确定该分区中的各个像素点被目标区域覆盖的概率值的统计特征包括:
计算该分区中的至少一部分像素点被目标区域覆盖的概率值的平均值,作为所述统计特征。
12.根据权利要求1所述的方法,其中所述比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像包括:
比较所述视频内容的当前帧图像与所述背景图像中对应像素点的灰度值,得到灰度图形式的差值图像,
并且其中所述基于所确定的目标区域在视频内容上叠加附加呈现内容包括:
基于所确定的目标区域在视频内容上叠加弹幕内容。
13.一种视频呈现装置,包括:
获取模块,被配置为获取视频内容的背景图像;
比较模块,被配置为比较所述视频内容的当前帧图像与所述背景图像中对应像素点的属性值,得到差值图像;
确定模块,被配置为基于所述差值图像确定所述当前帧图像中的目标区域;
叠加模块,被配置为基于所确定的目标区域在视频内容上叠加附加呈现内容,使得在所述目标区域内,附加呈现内容的透明度大于或等于阈值透明度和/或附加呈现内容的叠加概率小于或等于阈值概率。
14.一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机可执行指令,所述计算机可执行指令当在所述处理器上执行时执行权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储计算机可执行指令,所述计算机可执行指令当在处理器上执行时执行权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818234.2A CN112752110B (zh) | 2020-08-14 | 2020-08-14 | 视频呈现方法及装置、计算设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818234.2A CN112752110B (zh) | 2020-08-14 | 2020-08-14 | 视频呈现方法及装置、计算设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112752110A true CN112752110A (zh) | 2021-05-04 |
CN112752110B CN112752110B (zh) | 2023-06-27 |
Family
ID=75645339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010818234.2A Active CN112752110B (zh) | 2020-08-14 | 2020-08-14 | 视频呈现方法及装置、计算设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112752110B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778825A (zh) * | 2021-08-24 | 2021-12-10 | 北京达佳互联信息技术有限公司 | 页面指标参数的确定方法和装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485226A (zh) * | 2016-10-14 | 2017-03-08 | 杭州派尼澳电子科技有限公司 | 一种基于神经网络的视频行人检测方法 |
WO2017107523A1 (zh) * | 2015-12-24 | 2017-06-29 | 深圳市金立通信设备有限公司 | 一种弹幕显示方法及终端 |
CN108010050A (zh) * | 2017-11-27 | 2018-05-08 | 电子科技大学 | 一种基于自适应背景更新和选择性背景更新的前景检测方法 |
CN108124185A (zh) * | 2016-11-28 | 2018-06-05 | 广州华多网络科技有限公司 | 一种弹幕显示方法、装置及终端 |
CN109089170A (zh) * | 2018-09-11 | 2018-12-25 | 传线网络科技(上海)有限公司 | 弹幕显示方法及装置 |
CN110784755A (zh) * | 2019-11-18 | 2020-02-11 | 上海极链网络科技有限公司 | 一种弹幕信息的显示方法、装置、终端和存储介质 |
CN111107381A (zh) * | 2018-10-25 | 2020-05-05 | 武汉斗鱼网络科技有限公司 | 直播间弹幕显示方法、存储介质、设备及系统 |
-
2020
- 2020-08-14 CN CN202010818234.2A patent/CN112752110B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107523A1 (zh) * | 2015-12-24 | 2017-06-29 | 深圳市金立通信设备有限公司 | 一种弹幕显示方法及终端 |
CN106485226A (zh) * | 2016-10-14 | 2017-03-08 | 杭州派尼澳电子科技有限公司 | 一种基于神经网络的视频行人检测方法 |
CN108124185A (zh) * | 2016-11-28 | 2018-06-05 | 广州华多网络科技有限公司 | 一种弹幕显示方法、装置及终端 |
CN108010050A (zh) * | 2017-11-27 | 2018-05-08 | 电子科技大学 | 一种基于自适应背景更新和选择性背景更新的前景检测方法 |
CN109089170A (zh) * | 2018-09-11 | 2018-12-25 | 传线网络科技(上海)有限公司 | 弹幕显示方法及装置 |
CN111107381A (zh) * | 2018-10-25 | 2020-05-05 | 武汉斗鱼网络科技有限公司 | 直播间弹幕显示方法、存储介质、设备及系统 |
CN110784755A (zh) * | 2019-11-18 | 2020-02-11 | 上海极链网络科技有限公司 | 一种弹幕信息的显示方法、装置、终端和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778825A (zh) * | 2021-08-24 | 2021-12-10 | 北京达佳互联信息技术有限公司 | 页面指标参数的确定方法和装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112752110B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220067946A1 (en) | Video background subtraction using depth | |
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
KR102354692B1 (ko) | 규칙 기반 비디오 중요도 분석 | |
US9117112B2 (en) | Background detection as an optimization for gesture recognition | |
US8923611B2 (en) | Automatic background identification in video images | |
CN110300316B (zh) | 视频中植入推送信息的方法、装置、电子设备及存储介质 | |
US10936877B2 (en) | Methods, systems, and media for detecting two-dimensional videos placed on a sphere in abusive spherical video content by tiling the sphere | |
US10621730B2 (en) | Missing feet recovery of a human object from an image sequence based on ground plane detection | |
US11122217B2 (en) | Method and system for automatically adding effect while recording | |
US20220222831A1 (en) | Method for processing images and electronic device therefor | |
JP2020513705A (ja) | ビデオフレームの複数の部分のフィンガープリントを生成することによって立体ビデオを検出するための方法、システム、および媒体 | |
CN111860346A (zh) | 动态手势识别方法、装置、电子设备及存储介质 | |
CN112866801A (zh) | 视频封面的确定方法、装置、电子设备及存储介质 | |
CN115170400A (zh) | 一种视频修复的方法、相关装置、设备以及存储介质 | |
CN112752110B (zh) | 视频呈现方法及装置、计算设备、存储介质 | |
CN111654747B (zh) | 弹幕显示方法及装置 | |
CN112055258B (zh) | 加载直播画面的时延测试方法、装置、电子设备及存储介质 | |
CN117459662A (zh) | 一种视频播放方法、识别方法、装置、设备及存储介质 | |
CN113596354B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
US10445585B1 (en) | Episodic image selection | |
CN116137671A (zh) | 一种封面生成方法、装置、设备及介质 | |
US20210209768A1 (en) | Object movement indication in a video | |
EP3752956B1 (en) | Methods, systems, and media for detecting two-dimensional videos placed on a sphere in abusive spherical video content | |
CN115376121A (zh) | 图像识别方法、装置、电子设备和可读存储介质 | |
CN114998957A (zh) | 自动曝光数据处理方法、装置、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40048704 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |