CN116055766A - 弹幕防遮挡方法、装置、设备及存储介质 - Google Patents
弹幕防遮挡方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116055766A CN116055766A CN202310108516.7A CN202310108516A CN116055766A CN 116055766 A CN116055766 A CN 116055766A CN 202310108516 A CN202310108516 A CN 202310108516A CN 116055766 A CN116055766 A CN 116055766A
- Authority
- CN
- China
- Prior art keywords
- video
- area
- region
- video frame
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002265 prevention Effects 0.000 title claims abstract description 40
- 238000009877 rendering Methods 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims description 26
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 14
- 230000002596 correlated effect Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003405 preventing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种弹幕防遮挡方法、装置、设备及存储介质,涉及视频技术领域。方法包括:对目标视频的视频序列中的多个视频帧分别进行文字识别,得到多个视频帧各自的包括第一区域和第二区域的二值化灰度图,二值化灰度图中每个像素点对应的灰度值用于指示像素点是否属于第一区域,第一区域为视频帧中文字区域的中心区域;对于每个视频帧,若视频帧的二值化灰度图中的第一区域与视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将前一视频帧中的文字区域作为视频帧中的文字区域;基于视频帧中的文字区域生成视频帧的文字蒙版,文字蒙版用于对目标视频进行弹幕渲染以使弹幕显示在文字区域以外的区域,提高了弹幕防遮挡效果。
Description
技术领域
本公开涉及视频技术领域,尤其涉及一种弹幕防遮挡方法、装置、设备及存储介质。
背景技术
目前,多种流媒体视频都有显示弹幕的功能,而视频中的文字经常会被弹幕遮挡,影响视频观感,因此需要识别视频中的文字区域,以防止弹幕遮挡该文字区域。然而,在识别文字区域时,识别出来的文字区域可能会发生抖动,导致具有相同文字区域的多个视频帧,识别出的文字区域不同,进而导致弹幕时有时无,降低了弹幕防遮挡的效果。
发明内容
本公开提供一种弹幕防遮挡方法、装置、设备及存储介质,该方法可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,提高了弹幕防遮挡效果。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种弹幕防遮挡方法,所述方法包括:
对目标视频的视频序列中的多个视频帧分别进行文字识别,得到所述多个视频帧各自的二值化灰度图,所述二值化灰度图包括第一区域和第二区域,所述二值化灰度图中每个像素点对应的灰度值用于指示所述像素点是否属于所述第一区域,所述第一区域为所述视频帧中文字区域的中心区域,所述第二区域为所述第一区域以外的区域;
对于每个所述视频帧,若所述视频帧的二值化灰度图中的第一区域与所述视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将所述前一视频帧中的文字区域作为所述视频帧中的文字区域;
基于所述视频帧中的文字区域生成所述视频帧的文字蒙版,所述文字蒙版用于对所述目标视频进行弹幕渲染,以使弹幕显示在所述文字区域以外的区域。
根据本公开实施例的第二方面,提供一种弹幕防遮挡装置,所述装置包括:
文字识别单元,被配置为对目标视频的视频序列中的多个视频帧分别进行文字识别,得到所述多个视频帧各自的二值化灰度图,所述二值化灰度图包括第一区域和第二区域,所述二值化灰度图中每个像素点对应的灰度值用于指示所述像素点是否属于所述第一区域,所述第一区域为所述视频帧中文字区域的中心区域,所述第二区域为所述第一区域以外的区域;
文字区域确定单元,被配置为对于每个所述视频帧,若所述视频帧的二值化灰度图中的第一区域与所述视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将所述前一视频帧中的文字区域作为所述视频帧中的文字区域;
蒙版生成单元,被配置为基于所述视频帧中的文字区域生成所述视频帧的文字蒙版,所述文字蒙版用于对所述目标视频进行弹幕渲染,以使弹幕显示在所述文字区域以外的区域。
在一些实施例中,所述文字识别单元,被配置为对所述多个视频帧分别进行文字识别,得到所述多个视频帧各自的文字概率图,所述文字概率图中包括多个像素点分别对应的概率值,所述概率值表示所述像素点属于所述第一区域的概率;对于每个所述视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于所述概率阈值的像素点赋值第二灰度值,得到所述二值化灰度图,所述第一灰度值用于指示所述第一区域,所述第二灰度值用于指示所述第二区域。
在一些实施例中,所述装置还包括重合率确定单元,被配置为确定所述视频帧的二值化灰度图中的第一区域与所述前一视频帧的二值化灰度图中的第一区域的像素点的交集和并集;基于所述交集和所述并集,确定所述重合率,所述重合率与所述交集正相关且与所述并集负相关。
在一些实施例中,所述文字区域确定单元,还被配置为若所述重合率小于或等于所述预设阈值,对所述视频帧的二值化灰度图中的第一区域进行区域扩张,得到所述视频帧中的文字区域。
在一些实施例中,所述蒙版生成单元,被配置为将所述文字区域作为非填充区域,将所述文字区域以外的区域作为填充区域,以生成所述文字蒙版,所述填充区域为允许显示弹幕的区域。
在一些实施例中,所述目标视频为弹幕数量大于预设弹幕数量的视频;或者,所述目标视频为交互率大于预设交互率的视频;或者,所述目标视频为观看率大于预设观看率的视频;或者,所述目标视频为文字显示在弹幕区域的视频。
根据本公开实施例的第三方面,提供一种电子设备,该电子设备包括:
一个或多个处理器;
用于存储该处理器可执行程序代码的存储器;
其中,该处理器被配置为执行该程序代码,以实现上述弹幕防遮挡方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当该计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行上述弹幕防遮挡方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述弹幕防遮挡方法。
本公开实施例提供了一种弹幕防遮挡方法,该方法分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样将该前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,提高了弹幕防遮挡效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种实施环境的示意图。
图2是根据一示例性实施例示出的一种弹幕防遮挡方法的流程图。
图3是根据一示例性实施例示出的另一种弹幕防遮挡方法的流程图。
图4是根据一示例性实施例示出的一种识别文字区域的示意图。
图5是根据一示例性实施例示出的另一种弹幕防遮挡方法的流程图。
图6是根据一示例性实施例示出的一种弹幕防遮挡的框架示意图。
图7是根据一示例性实施例示出的一种弹幕防遮挡装置的框图。
图8是根据一示例性实施例示出的一种终端的框图。
图9是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本公开中涉及到的视频等都是在充分授权的情况下获取的。
本公开实施例提供的弹幕防遮挡方法由电子设备执行,该电子设备提供为服务器。图1是本公开实施例提供的一种实施环境示意图,参见图1,该实施环境包括:终端101、第一服务器102和第二服务器103。在本公开实施例中,终端101安装有播放视频的目标应用,第一服务器102为该目标应用的后台服务器,第二服务器103为处理视频的服务器,第二服务器可以为点播云。第一服务器102用于借助第二服务器103进行视频处理。例如,第二服务器103用于进行视频转码。
终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。终端101具有通信功能,可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个,本领域技术人员可以知晓,上述终端的数量可以更多或更少。第一服务器102和第二服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式文件系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中,第一服务器102与终端101和第二服务器103通过有线或无线通信方式进行直接或间接的连接,本公开实施例对此不作限定。可选地,上述第一服务器102和第二服务器103的数量可以更多或更少,本公开实施例对此不加以限定。当然,第一服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。其中,第一服务器102承担主要计算工作,终端101承担次要计算工作;或者,第一服务器102承担次要计算工作,终端101承担主要计算工作;或者,第一服务器102或终端101分别能够单独承担计算工作,本公开实施例对此不作限定。
图2是根据一示例性实施例示出的一种弹幕防遮挡方法的流程图,如图2所示,该方法由第二服务器执行,该方法包括以下步骤:
在步骤S201中,第二服务器对目标视频的视频序列中的多个视频帧分别进行文字识别,得到该多个视频帧各自的二值化灰度图,该二值化灰度图包括第一区域和第二区域,该二值化灰度图中每个像素点对应的灰度值用于指示该像素点是否属于第一区域,该第一区域为视频帧中文字区域的中心区域,该第二区域为第一区域以外的区域。
在本公开实施例中,该目标视频为包括文字的视频,以便识别视频中的文字区域,防止弹幕遮挡文字区域中的文字。其中,该文字区域的文字可以为视频标题、视频字幕等。
在本公开实施例中,该二值化灰度图包括灰度值为第一灰度值或第二灰度值的多个像素点,第一灰度值和第二灰度值为不同的数值,灰度值为第一灰度值的像素点属于第一区域,灰度值为第二灰度值的像素点属于第二区域。
在本公开实施例中,该文字区域的中心区域与文字区域的形状相似,且中心点相同,该中心区域的区域大小小于该文字区域的区域大小,即可以理解为中心区域为将文字区域按照预设比例缩小得到。
在步骤S202中,第二服务器对于每个视频帧,若该视频帧的二值化灰度图中的第一区域与该视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将前一视频帧中的文字区域作为该视频帧中的文字区域。
在本公开实施例中,若该视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域之间的重合率大于该预设阈值,则说明该视频帧与前一视频帧中的文字区域有较大的概率相同。若该重合率小于或等于该预设阈值,则说明该视频帧与前一视频帧中的文字区域有较大的概率不同,则对该视频帧的二值化灰度图进行后处理,以得到该视频帧中的文字区域。该预设阈值可以根据需要进行设定并更改,在此不作具体限定。
在步骤S203中,第二服务器基于该视频帧中的文字区域生成该视频帧的文字蒙版,该文字蒙版用于对目标视频进行弹幕渲染,以使弹幕显示在文字区域以外的区域。
在本公开实施例中,该文字蒙版包括多个像素值为第一值或第二值的像素点,第一值的像素点所属的区域对应于文字区域,第二值的像素点所属的区域对应于非文字区域。即在基于文字区域生成文字蒙版时,将文字蒙版上对应于文字区域的像素点赋值为第一值,将文字蒙版上对应于非文字区域的像素点赋值为第二值,以得到文字蒙版,且使第一值指示不允许显示弹幕的区域,第二值指示允许显示弹幕的区域。
在本公开实施例中,在基于文字蒙版进行弹幕渲染时,基于文字蒙版上多个像素点的像素值来控制弹幕显示,即仅在像素值为第二值的像素点组成的区域上显示弹幕,进而基于该文字蒙版进行弹幕渲染,能够保证弹幕显示在该文字区域以外的区域。
本公开实施例提供了一种弹幕防遮挡方法,该方法分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,进而提高了弹幕防遮挡效果。
在一些实施例中,对目标视频的视频序列中的多个视频帧分别进行文字识别,得到多个视频帧各自的二值化灰度图,包括:对多个视频帧分别进行文字识别,得到多个视频帧各自的文字概率图,文字概率图中包括多个像素点分别对应的概率值,概率值表示像素点属于第一区域的概率;对于每个视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于概率阈值的像素点赋值第二灰度值,得到二值化灰度图,第一灰度值用于指示第一区域,第二灰度值用于指示第二区域。
在本公开实施例中,由于概率值大的像素点有较大的概率属于第一区域,概率值小的像素点有较大的概率属于第二区域,这样基于概率阈值为多个像素点进行赋值,来划分出第一区域和第二区域,得到二值化灰度图,提高了所确定的二值化灰度图的准确性。
在一些实施例中,确定重合率的过程,包括:确定视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域的像素点的交集和并集;基于交集和并集,确定重合率,重合率与交集正相关且与并集负相关。
在本公开实施例中,基于第一区域的像素点的交集和并集来确定重合率,保证了所确定的重合率的精准性与合理性。
在一些实施例中,方法还包括:若重合率小于或等于预设阈值,对视频帧的二值化灰度图中的第一区域进行区域扩张,得到视频帧中的文字区域。
在本公开实施例中,若重合率小于预设阈值,则说明该视频帧有较大的概率与前一视频帧中的文字区域不同,进而对第一区域进行区域扩张来得到文字区域,在提高了得到文字区域的合理性的基础上提高了得到文字区域的效率。
在一些实施例中,基于视频帧中的文字区域生成视频帧的文字蒙版,包括:将文字区域作为非填充区域,将文字区域以外的区域作为填充区域,以生成文字蒙版,填充区域为允许显示弹幕的区域。
在本公开实施例中,将文字区域作为非填充区域,将文字区域以外的区域作为允许显示弹幕的填充区域,来生成文字蒙版,这样基于该文字蒙版渲染弹幕时,弹幕就仅会显示在文字区域以外的区域,而不会显示在该文字区域,有效实现了弹幕防遮挡效果。
在一些实施例中,目标视频为弹幕数量大于预设弹幕数量的视频;或者,目标视频为交互率大于预设交互率的视频;或者,目标视频为观看率大于预设观看率的视频;或者,目标视频为文字显示在弹幕区域的视频。
在本公开实施例中,弹幕数量较大、交互率较大和观看率较大的视频的受众面较广,进而对这样的视频进行弹幕防遮挡,能够提高弹幕防遮挡的有效性。由于仅在弹幕区域显示的文字才会产生被弹幕遮挡的问题,这样仅处理文字显示在弹幕区域的视频,能够提高弹幕防遮挡的有效性。
本公开实施例提供了一种弹幕防遮挡方法,该方法分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样将该前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,提高了弹幕防遮挡效果。
上述图2是进行弹幕防遮挡的基本流程,下面基于图3对弹幕防遮挡的过程进行进一步阐述。参见图3,图3是根据一示例性实施例示出的一种弹幕防遮挡的流程图,该方法由第二服务器执行,该方法包括以下步骤。
在步骤S301中,第二服务器获取目标视频的视频序列,该视频序列包括多个视频帧。
在本公开实施例中,该目标视频为筛选出的视频。在一些实施例中,该目标视频为已播放的视频,则该目标视频为弹幕数量大于预设弹幕数量的视频;或者,该目标视频为交互率大于预设交互率的视频,交互率包括点赞率、转发率、收藏率等中的至少一项;或者,该目标视频为观看率大于预设观看率的视频。该目标视频也可以为满足以上至少两项的视频。例如,该目标视频为弹幕数量大于预设弹幕数量且交互率大于预设交互率的视频。在该实施例中,弹幕数量较大、交互率较大和观看率较大的视频的受众面较广,进而对这样的视频进行弹幕防遮挡,能够提高弹幕防遮挡的有效性。
在另一些实施例中,该目标视频为未播放过的视频,由于该目标视频为包括文字的视频,为了进一步提高视频处理的有效性,该目标视频为文字显示在弹幕区域的视频。由于仅在弹幕区域显示的文字才会产生被弹幕遮挡的问题,这样仅处理文字显示在弹幕区域的视频,能够提高弹幕防遮挡的有效性。
可选地,在该目标视频为已播放的视频的情况下,该目标视频也可以为文字显示在弹幕区域的视频,即目标视频不仅满足文字显示在弹幕区域,且弹幕数量、交互率和观看率满足预设弹幕数量、预设交互率和预设观看率中的至少一项,以进一步提高弹幕防遮挡的有效性。
在本公开实施例中,为了提高对目标视频进行文字识别的效率。在一些实施例中,若该目标视频的帧率大于目标帧率且分辨率大于目标分辨率,则基于该目标帧率和目标分辨率对该目标视频进行转码,以得到该视频序列。可选地,该目标帧率和该目标分辨率分别为播放视频的目标应用支持视频播放的最低帧率和最低分辨率,而具有较低帧率和分辨率的视频便于处理,进而便于提高后续进行文字识别的效率。例如,该目标帧率为30fps,该目标分辨率为360p。该视频序列中多个视频帧的数目与该目标帧率相匹配,即该数目为该目标帧率与目标视频的时长之积。例如,该目标帧率为30fps,指视频以每秒30帧的速度播放,且多个视频帧之间具有相同的播放时间间隔,若目标视频的时长为10秒,则视频序列中多个视频帧的数目为300。
在步骤S302中,第二服务器对目标视频的视频序列中的多个视频帧分别进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图包括第一区域和第二区域,该二值化灰度图中每个像素点对应的灰度值用于指示该像素点是否属于第一区域,该第一区域为视频帧中文字区域的中心区域,该第二区域为第一区域以外的区域。
在本公开实施例中,上述第二服务器对目标视频的视频序列中的多个视频帧分别进行文字识别,得到多个视频帧各自的二值化灰度图的过程包括以下步骤:第二服务器对多个视频帧分别进行文字识别,得到多个视频帧各自的文字概率图,该文字概率图中包括多个像素点分别对应的概率值,该概率值表示该像素点属于第一区域的概率;第二服务器对于每个视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于概率阈值的像素点赋值第二灰度值,得到二值化灰度图,该第一灰度值用于指示第一区域,该第二灰度值用于指示第二区域。
在本公开实施例中,第一灰度值和第二灰度值为不同的数值,第一灰度值和第二灰度值根据灰度值算法的不同而不同,进而基于第一灰度值和第二灰度值能够区分出第一区域和第二区域。可选地,第二灰度值为0,第一灰度值为非零数值,则第二服务器对于灰度值为非零数值的像素点将其确定为属于第一区域,对于灰度值为0的像素点将其确定为属于第二区域。可选地,第一灰度值和第二灰度值为任意两个不同的非零数值。
在本公开实施例中,由于概率值大的像素点有较大的概率属于第一区域,概率值小的像素点有较大的概率属于第二区域,这样基于概率阈值为多个像素点进行赋值,来划分出第一区域和第二区域,得到二值化灰度图,提高了所确定的二值化灰度图的准确性。
在步骤S303中,第二服务器对于每个视频帧,确定该视频帧的二值化灰度图中的第一区域与该视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率。
在本公开实施例中,上述第二服务器确定重合率的过程包括以下步骤:第二服务器确定该视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域的像素点的交集和并集;第二服务器基于该交集和该并集,确定重合率,该重合率与交集正相关且与并集负相关。在本公开实施例中,基于第一区域的像素点的交集和并集来确定重合率,保证了所确定的重合率的精准性与合理性。
在一些实施例中,第二服务器获取该视频帧的二值化灰度图中的第一区域的像素点的像素标识和前一视频帧的二值化灰度图中的第一区域的像素点的像素标识,基于多个像素点的像素标识,确定两个视频帧各自对应的第一区域的像素点的交集和并集。可选地,该像素标识为像素坐标,以提高确定交集和并集的效率和准确性。
可选地,第二服务器基于交集和并集,通过下述公式(1)确定重合率。
iou=inter/(union+1e-6) (1)
其中,对于任一视频帧,iou表示该视频帧的二值化灰度图中的第一区域与该视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率,inter表示该视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域的像素点的交集,union表示该视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域的像素点的并集,1e-6为一种科学计数法,表示1乘以10的负6次方。
在步骤S304中,若该重合率大于预设阈值,第二服务器将前一视频帧中的文字区域作为该视频帧中的文字区域。
需要说明的是,若该视频帧为视频序列中的首个视频帧,则第二服务器对视频帧的二值化灰度图进行区域扩张,得到该视频帧中的文字区域。
在本公开实施例中,通过DBNet(Differentiable Binarization Network,可差分二值化)模型进行文字识别,得到二值化灰度图,然后对二值化灰度图进行区域扩张,得到该视频帧中的文字区域。
其中,该DBNet模型包括特征金字塔、自适应阈值模块和二值化模块,该特征金字塔用于对视频帧进行特征提取,得到视频帧的图像特征。该自适应阈值模块用于对图像特征进行自适应阈值预测,得到阈值特征图,该阈值特征图包括多个像素点分别对应的概率阈值。该二值化模块用于预测该图像特征对应的文字概率图。然后基于该文字概率图和该阈值特征图得到二值化灰度图。需要说明的是,在确定二值化灰度图时,多个像素点的概率阈值可以为预设的一个固定值,多个像素点也可以分别对应一个概率阈值,该多个像素点分别对应的概率阈值基于该阈值特征图得到,进而基于该文字概率图和阈值特征图得到二值化灰度图。例如,参见图4,图4是根据一示例性实施例示出的一种识别文字区域的示意图,该实施例通过DBNet模型进行文字区域识别。其中,将一视频帧输入DBNet模型,通过DBNet模型输出一张二值化灰度图,最后DBNet模型基于该二值化灰度图得到文字区域。
其中,第二服务器通过二值化模块进行区域扩张。在一种实现方式中,第二服务器基于第一区域的区域大小,从区域大小与扩张比例的对应关系中获取与该区域大小对应的扩张比例。然后基于该扩张比例,以该中心区域为基准,确定该中心区域在该二值化灰度图中的扩张范围,将该扩张范围所对应的区域作为文本区域,这样以提高区域扩张的准确性和有效性。在另一种实现方式中,通过cv2(一种计算机视觉库)对该中心区域进行轮廓提取,以得到文字区域,进而提高得到文字区域的效率。
在步骤S305中,若该重合率小于或等于预设阈值,第二服务器对该视频帧的二值化灰度图中的第一区域进行区域扩张,得到视频帧中的文字区域。
在本公开实施例中,第二服务器对第一区域进行扩张的过程与步骤S305中进行区域扩张的过程同理,在此不再赘述。在本公开实施例中,若重合率小于预设阈值,则说明该视频帧有较大的概率与前一视频帧中的文字区域不同,进而对第一区域进行区域扩张来得到文字区域,在提高了得到文字区域的合理性的基础上提高了得到文字区域的效率。
在一些实施例中,第二服务器通过文字时序稳定性增强模块来实现上述步骤S302-S305,该文字时序稳定性增强模块通过下述过程实现上述步骤S302-S305。
对于视频序列中任两个相邻的视频帧x和视频帧y,文字时序稳定性增强模块确定视频帧x的二值化灰度图中的第一区域与视频帧y的二值化灰度图中的第一区域之间的重合率的过程,包括以下步骤:分别对视频帧x和视频帧y进行二值化,得到视频帧x和视频帧y的二值化灰度图。然后通过执行逻辑“与”操作,得到视频帧x和视频帧y中第一区域的像素点的交集inter,通过执行逻辑“或”操作,得到视频帧x和视频帧y中第一区域的像素点的并集union。基于交集inter和并集union,通过上述公式(1)得到视频帧x的二值化灰度图中的第一区域与视频帧y的二值化灰度图中的第一区域之间的重合率。文字时序稳定性增强模块确定视频帧中的文字区域的过程,包括以下步骤:首先对视频序列进行二值化灰度图和文字区域的初始化,即从第一个视频帧F0开始,将第一个视频帧F0输入DBNet模型,得到第一个视频帧F0的二值化灰度图P0,然后对二值化灰度图P0进行后处理操作,得到第一个视频帧F0中的文字区域。若该视频序列包括N个视频帧,N为大于1的整数,则对于第二个视频帧到第N个视频帧,依次执行下述步骤来确定视频帧中的文字区域:对于视频帧Fi,将其输入DBNet模型,得到其二值化灰度图Pi,确定二值化灰度图Pi中的第一区域与上一视频帧Fi-1的二值化灰度图Pi-1中的第一区域之间的重合率,若该重合率大于预设阈值0.9,则将上一视频帧Fi-1中的文字区域Texti-1作为视频帧Fi中的文字区域Texti;否则,对二值化灰度图Pi进行后处理操作,得到视频帧Fi中的文字区域Texti。
在该实施例中,基于每个视频帧的二值化灰度图来判断相对于前一视频帧,其文字区域是否发生变化。若没有发生变化,则文字时序稳定性增强模块使用前一视频帧中的文字区域作为该视频帧中的文字区域的识别结果进行输出,否则计算该视频帧中的文字区域进行输出。该模块简单有效,可极大提升文字识别的时序稳定性。其中,该文字识别算法不局限于DBNet模型,也可替换为其他具有文字识别功能的模型或算法。
在步骤S306中,第二服务器基于该视频帧中的文字区域生成该视频帧的文字蒙版,该文字蒙版用于对目标视频进行弹幕渲染,以使弹幕显示在文字区域以外的区域。
在本公开实施例中,上述第二服务器基于视频帧中的文字区域生成视频帧的文字蒙版的过程,包括以下步骤:第二服务器将文字区域作为非填充区域,将文字区域以外的区域作为填充区域,以生成文字蒙版,该填充区域为允许显示弹幕的区域。在本公开实施例中,将文字区域作为非填充区域,将文字区域以外的区域作为允许显示弹幕的区域,来生成文字蒙版,这样基于该文字蒙版渲染弹幕时,弹幕就仅会显示在文字区域以外的区域,而不会显示在该文字区域,有效实现弹幕防遮挡效果。
需要说明的是,在基于DBNet模型进行文字识别时,输入的是视频序列,尽管视频序列中每个视频帧中的文字区域的位置可能基本不变,但是DBNet模型识别出来的文字区域每帧都会抖动,这在业务层面是不可接受的,抖动的文字区域会让弹幕忽有忽无,很影响观感。因此需要优化文字识别的稳定性。经过观察和实验得知,虽然文字区域会出现抖动,但是DBNet模型中间输出的二值化灰度图抖动却不大,因此,在本公开实施例中,基于二值化灰度图来确定视频帧中的文字区域是否发生变化,能够有效提升文字识别时的时序稳定性,有效保证了相同文字区域的视频帧,可以识别到相同的文字区域,降低了文字区域抖动的情况,进而可提高弹幕防遮挡的效果。
本公开实施例提供了一种弹幕防遮挡方法,该方法分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样将该前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,提高了弹幕防遮挡效果。
上述图3是以第二服务器为执行主体进行说明,下面基于图5,以终端、第一服务器和第二服务器之间的交互为例进行说明。参见图5,图5是根据一示例性实施例示出的一种弹幕防遮挡方法的流程图,该方法包括以下步骤。
在步骤S501中,第一服务器获取视频,确定该视频是否为需要进行弹幕防遮挡的目标视频。
在一些实施例中,该第一服务器为终端的后台服务器,终端上安装有播放视频的目标应用,终端用于播放视频,第一服务器用于为目标应用提供后台服务。第二服务器为处理视频的服务器,第一服务器借助于该第二服务器进行视频处理,例如,该第二服务器可用于进行视频转码、对视频进行文字识别且生成文字蒙版等。
在一些实施例中,第一服务器实时获取视频,则第一服务器每获取一个视频便确定该视频是否为目标视频。在另一些实施例中,第一服务器一次性获取多个视频,对于该多个视频中的每个视频,分别执行步骤S501,以确定该视频是否为目标视频。
在本公开实施例中,第一服务器获取的视频可以来源于目标应用已播放的视频,也可以来源于通过该目标应用上传后未播放过的视频,在此不作具体限定。
在一些实施例中,第一服务器基于预设弹幕数量、预设交互率、预设观看率和文字显示区域中的至少一项来确定该视频是否为目标视频。该视频可以为已播放的视频或未播放过的视频。在该视频为已播放的视频的情况下,则第一服务器基于预设弹幕数量、预设交互率和预设观看率中的至少一项来确定该视频是否为目标视频。即若该视频的弹幕数量、交互率和观看率满足预设弹幕数量、预设交互率和预设观看率中的至少一项,则第一服务器确定该视频为目标视频。或者,若该视频的弹幕数量、交互率和观看率满足预设弹幕数量、预设交互率和预设观看率中的至少两项,则第一服务器确定该视频为目标视频。或者,若该视频的弹幕数量、交互率和观看率分别满足预设弹幕数量、预设交互率和预设观看率,则第一服务器确定该视频为目标视频。可选地,还可以基于文字显示区域来确定目标视频,即仅在该视频的文字显示在弹幕区域的情况下,第一服务器才基于预设弹幕数量、预设交互率和预设观看率来确定目标视频,若文字显示在非弹幕区域,则第一服务器直接确定该视频不是目标视频。在该视频为未播放过的视频的情况下,若该视频的文字显示在弹幕区域,则第一服务器确定该视频为目标视频。
在步骤S502中,在该视频为目标视频的情况下,第一服务器将目标视频发送给第二服务器。
在一些实施例中,该目标视频为多个,第一服务器可以每确定一个目标视频,向第二服务器发送一个目标视频;第一服务器也可以确定目标个数的目标视频后,同时向第二服务器发送该目标个数的目标视频,在此不作具体限定。
在步骤S503中,第二服务器接收该目标视频,对该目标视频进行转码,得到不同档位的多个视频,基于目标帧率和目标分辨率进行转码,以得到目标视频的视频序列。
在本公开实施例中,不同档位的多个视频的分辨率、帧率和码率中的至少一项不同。其中,第二服务器基于预设的多个分辨率、多个帧率和多个码率对目标视频进行转码,该多个分辨率、多个帧率和多个码率之间交叉组合,进而得到不同档位的多个视频。
可选地,若该多个视频中包括目标帧率和目标分辨率的视频,则无需再基于目标帧率和目标分辨率进行转码,直接基于该视频得到目标视频的视频序列。
在步骤S504中,第二服务器对目标视频的视频序列中的多个视频帧进行文字识别,以得到多个视频帧中各自的文字区域。
在本公开实施例中,步骤S504与S302-S305同理,在此不再赘述。
在步骤S505中,第二服务器对于每个视频帧,基于该视频帧中的文字区域生成该视频帧的文字蒙版。
在本公开实施例中,步骤S505与步骤S306同理,在此不再赘述。
在一些实施例中,第二服务器对目标视频转码得到多个视频以及得到该目标视频的文字蒙版后,将其存储在第二服务器,且响应于终端的播放请求才下发视频和文字蒙版,执行过程如下步骤S506-S509所示。
在步骤S506中,终端向第一服务器发送目标视频的播放请求,该播放请求携带目标视频的视频标识和终端的配置信息。
在本公开实施例中,该配置信息包括终端支持视频播放的分辨率、码率和帧率。且该配置信息还包括该终端的终端标识,进而便于为该终端返回视频和文字蒙版。
在步骤S507中,第一服务器接收该播放请求,向第二服务器转发该播放请求。
在本公开实施例中,转发的该播放请求还携带该第一服务器的服务器标识,进而便于为该第一服务器返回视频和文字蒙版。
在步骤S508中,第二服务器接收该播放请求,基于该播放请求将转码得到的多个视频中与该配置信息匹配的目标档位的视频和该目标视频的多个视频帧的文字蒙版发送给第一服务器。
在本公开实施例中,基于目标视频转码得到的多个视频和该目标视频的多个视频帧的文字蒙版对应存储,该多个视频共用于该多个视频帧的文字蒙版,第二服务器基于播放请求携带的视频标识和配置信息查找到该目标档位的视频和该多个视频帧的文字蒙版。
在步骤S509中,第一服务器将该目标档位的视频和该多个视频帧的文字蒙版转发给终端。
在本公开实施例中,上述步骤S506-S509以不同档位的多个视频和文字蒙版存储在第二服务器为例进行了说明。在另一些实施例中,不同档位的多个视频和文字蒙版存储在第一服务器。相应地,第二服务器在执行完步骤S505后,将不同档位的多个视频和该多个视频帧的文字蒙版发送给第一服务器,第一服务器接收该多个视频和该多个视频帧的文字蒙版并存储。第一服务器响应于终端的播放请求,将目标档位的视频和该多个视频帧的文字蒙版发送给终端。
在步骤S510中,终端接收该目标档位的视频和该多个视频帧的文字蒙版,播放该目标档位的视频,且基于该多个视频帧的文字蒙版对该目标档位的视频该进行弹幕渲染,以使弹幕显示在文字区域以外的区域。
在本公开实施例中,终端基于该多个视频帧的文字蒙版,分别对该目标档位的视频的多个视频帧进行弹幕渲染。需要说明的是,由于视频序列中的多个视频帧基于目标帧率得到,而该目标档位的视频的帧率可能与该目标帧率不同,进而使得该目标档位的视频的视频帧的数目与视频序列中的多个视频帧的数目不匹配。可选地,对于该目标档位的视频的每个视频帧,将视频序列的多个视频帧中播发时间与该视频帧的播发时间之差最小的视频帧的文字蒙版作为该视频帧的文字蒙版,以对该视频帧进行弹幕渲染。在该实施例中,这样基于播放时间最接近的视频帧的文字蒙版对该视频帧进行弹幕渲染,保证了所确定的文字蒙版的准确性,进而保证了弹幕显示的准确性;且避免了分别为每个档位的视频生成文字蒙版,在保证了准确性的基础上提高了文字蒙版的生成效率,节约了资源。
参见图6,图6是根据一示例性实施例示出的弹幕防遮挡的框架示意图。该框架包括终端、第一服务器和第二服务器。第一服务器用于接收输入的视频,将视频中的目标视频发送给第二服务器。该第二服务器为点播云,该点播云还包括转码模块和文字识别算法模块,点播云调度该转码模块对目标视频进行转码以得到不同档位的多个视频,以及基于目标帧率和目标分辨率对目标视频进行转码以得到视频序列。点播云调度该文字识别算法模块对视频序列中的多个视频帧进行文字识别,以得到多个视频帧的文字蒙版。其中,转码模块得到的多个视频和文字识别算法模块得到的文字蒙版均发送到点播云进行管理。点播云再将不同档位的多个视频和文字蒙版发送给第一服务器,由第一服务器发送给终端进行视频播放。其中,终端通过播放器进行视频播放,且基于文字蒙版对视频进行弹幕渲染。
本公开实施例提供的弹幕防遮挡框架,为业界首次应用文字进行防遮挡的框架。本公开实施例首次提出对文字进行弹幕防遮挡的解决方案,这是目前视频领域中都没有的;且目标视频领域中没有考虑到文字识别的稳定性问题,而基于本公开实施例提供的方法,重点优化了文字识别的稳定性。
本公开实施例提供了弹幕防遮挡方法,基于该方法对视频中的文字进行弹幕防遮挡,提升了文字识别的稳定性,极大缓解了文字识别抖动的问题,能够给观众带来很好的视频、弹幕观看体验,进而能够给观众带来极致的观感。
本公开实施例提供了一种弹幕防遮挡方法,该方法分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样将该前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,进而提高了弹幕防遮挡效果。
图7是根据一示例性实施例示出的一种弹幕防遮挡装置的框图。参照图7,该装置包括:
文字识别单元701,被配置为对目标视频的视频序列中的多个视频帧分别进行文字识别,得到多个视频帧各自的二值化灰度图,二值化灰度图包括第一区域和第二区域,二值化灰度图中每个像素点对应的灰度值用于指示像素点是否属于第一区域,第一区域为视频帧中文字区域的中心区域,第二区域为第一区域以外的区域;
文字区域确定单元702,被配置为对于每个视频帧,若视频帧的二值化灰度图中的第一区域与视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将前一视频帧中的文字区域作为视频帧中的文字区域;
蒙版生成单元703,被配置为基于视频帧中的文字区域生成视频帧的文字蒙版,文字蒙版用于对目标视频进行弹幕渲染,以使弹幕显示在文字区域以外的区域。
在一些实施例中,文字识别单元701,被配置为对多个视频帧分别进行文字识别,得到多个视频帧各自的文字概率图,文字概率图中包括多个像素点分别对应的概率值,概率值表示像素点属于第一区域的概率;对于每个视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于概率阈值的像素点赋值第二灰度值,得到二值化灰度图,第一灰度值用于指示第一区域,第二灰度值用于指示第二区域。
在一些实施例中,装置还包括重合率确定单元,被配置为确定视频帧的二值化灰度图中的第一区域与前一视频帧的二值化灰度图中的第一区域的像素点的交集和并集;基于交集和并集,确定重合率,重合率与交集正相关且与并集负相关。
在一些实施例中,文字区域确定单元702,还被配置为若重合率小于或等于预设阈值,对视频帧的二值化灰度图中的第一区域进行区域扩张,得到视频帧中的文字区域。
在一些实施例中,蒙版生成单元703,被配置为将文字区域作为非填充区域,将文字区域以外的区域作为填充区域,以生成文字蒙版,填充区域为允许显示弹幕的区域。
在一些实施例中,目标视频为弹幕数量大于预设弹幕数量的视频;或者,目标视频为交互率大于预设交互率的视频;或者,目标视频为观看率大于预设观看率的视频;或者,目标视频为文字显示在弹幕区域的视频。
本公开实施例提供了一种弹幕防遮挡装置,分别对多个视频帧进行文字识别,得到多个视频帧各自的二值化灰度图,该二值化灰度图指示视频帧中文字区域的中心区域;而对于每个视频帧,在该视频帧中的文字区域的中心区域与其前一视频帧中的文字区域的中心区域之间的重合率大于预设阈值的情况下,说明该视频帧有较大概率与前一视频帧中的文字区域相同,这样将该前一视频帧中的文字区域作为该视频帧中的文字区域,可提高文字识别的稳定性,避免了识别到的文字区域发生抖动,进而再基于该稳定的文字区域生成文字蒙版,基于该文字蒙版对视频进行弹幕渲染,能够保证弹幕显示的稳定性,避免了弹幕时有时无,进而提高了弹幕防遮挡效果。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8示出了本公开一个示例性实施例提供的终端800的结构框图。该终端800可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器801所执行以实现本公开中方法实施例提供的弹幕防遮挡方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807和电源808中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
电源808用于为终端800中的各个组件进行供电。电源808可以是交流电、直流电、一次性电池或可充电电池。当电源808包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是根据本公开实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,存储器902用于存储可执行程序代码,处理器901被配置为执行上述可执行程序代码,以实现上述各个方法实施例提供的弹幕防遮挡方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由终端的处理器执行以完成上述弹幕防遮挡方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述弹幕防遮挡方法。在一些实施例中,本公开实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种弹幕防遮挡方法,其特征在于,所述方法包括:
对目标视频的视频序列中的多个视频帧分别进行文字识别,得到所述多个视频帧各自的二值化灰度图,所述二值化灰度图包括第一区域和第二区域,所述二值化灰度图中每个像素点对应的灰度值用于指示所述像素点是否属于所述第一区域,所述第一区域为所述视频帧中文字区域的中心区域,所述第二区域为所述第一区域以外的区域;
对于每个所述视频帧,若所述视频帧的二值化灰度图中的第一区域与所述视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将所述前一视频帧中的文字区域作为所述视频帧中的文字区域;
基于所述视频帧中的文字区域生成所述视频帧的文字蒙版,所述文字蒙版用于对所述目标视频进行弹幕渲染,以使弹幕显示在所述文字区域以外的区域。
2.根据权利要求1所述的弹幕防遮挡方法,其特征在于,所述对目标视频的视频序列中的多个视频帧分别进行文字识别,得到所述多个视频帧各自的二值化灰度图,包括:
对所述多个视频帧分别进行文字识别,得到所述多个视频帧各自的文字概率图,所述文字概率图中包括多个像素点分别对应的概率值,所述概率值表示所述像素点属于所述第一区域的概率;
对于每个所述视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于所述概率阈值的像素点赋值第二灰度值,得到所述二值化灰度图,所述第一灰度值用于指示所述第一区域,所述第二灰度值用于指示所述第二区域。
3.根据权利要求1所述的弹幕防遮挡方法,其特征在于,确定所述重合率的过程,包括:
确定所述视频帧的二值化灰度图中的第一区域与所述前一视频帧的二值化灰度图中的第一区域的像素点的交集和并集;
基于所述交集和所述并集,确定所述重合率,所述重合率与所述交集正相关且与所述并集负相关。
4.根据权利要求1所述的弹幕防遮挡方法,其特征在于,所述方法还包括:
若所述重合率小于或等于所述预设阈值,对所述视频帧的二值化灰度图中的第一区域进行区域扩张,得到所述视频帧中的文字区域。
5.根据权利要求1所述的弹幕防遮挡方法,其特征在于,所述基于所述视频帧中的文字区域生成所述视频帧的文字蒙版,包括:
将所述文字区域作为非填充区域,将所述文字区域以外的区域作为填充区域,以生成所述文字蒙版,所述填充区域为允许显示弹幕的区域。
6.根据权利要求1所述的弹幕防遮挡方法,其特征在于,
所述目标视频为弹幕数量大于预设弹幕数量的视频;或者,
所述目标视频为交互率大于预设交互率的视频;或者,
所述目标视频为观看率大于预设观看率的视频;或者,
所述目标视频为文字显示在弹幕区域的视频。
7.一种弹幕防遮挡装置,其特征在于,所述装置包括:
文字识别单元,被配置为对目标视频的视频序列中的多个视频帧分别进行文字识别,得到所述多个视频帧各自的二值化灰度图,所述二值化灰度图包括第一区域和第二区域,所述二值化灰度图中每个像素点对应的灰度值用于指示所述像素点是否属于所述第一区域,所述第一区域为所述视频帧中文字区域的中心区域,所述第二区域为所述第一区域以外的区域;
文字区域确定单元,被配置为对于每个所述视频帧,若所述视频帧的二值化灰度图中的第一区域与所述视频帧的前一视频帧的二值化灰度图中的第一区域之间的重合率大于预设阈值,将所述前一视频帧中的文字区域作为所述视频帧中的文字区域;
蒙版生成单元,被配置为基于所述视频帧中的文字区域生成所述视频帧的文字蒙版,所述文字蒙版用于对所述目标视频进行弹幕渲染,以使弹幕显示在所述文字区域以外的区域。
8.根据权利要求7所述的弹幕防遮挡装置,其特征在于,所述文字识别单元,被配置为对所述多个视频帧分别进行文字识别,得到所述多个视频帧各自的文字概率图,所述文字概率图中包括多个像素点分别对应的概率值,所述概率值表示所述像素点属于所述第一区域的概率;
对于每个所述视频帧的文字概率图,将概率值大于概率阈值的像素点赋值第一灰度值,将概率值小于或等于所述概率阈值的像素点赋值第二灰度值,得到所述二值化灰度图,所述第一灰度值用于指示所述第一区域,所述第二灰度值用于指示所述第二区域。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一项权利要求所述的弹幕防遮挡方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行权利要求1至6任一项权利要求所述的弹幕防遮挡方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108516.7A CN116055766A (zh) | 2023-01-31 | 2023-01-31 | 弹幕防遮挡方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108516.7A CN116055766A (zh) | 2023-01-31 | 2023-01-31 | 弹幕防遮挡方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116055766A true CN116055766A (zh) | 2023-05-02 |
Family
ID=86119968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310108516.7A Pending CN116055766A (zh) | 2023-01-31 | 2023-01-31 | 弹幕防遮挡方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116055766A (zh) |
-
2023
- 2023-01-31 CN CN202310108516.7A patent/CN116055766A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2625340C1 (ru) | Способ и устройство для обработки идентификатора видеофайла | |
CN111770340B (zh) | 视频编码方法、装置、设备以及存储介质 | |
US20180314916A1 (en) | Object detection with adaptive channel features | |
CN109168032B (zh) | 视频数据的处理方法、终端、服务器及存储介质 | |
CN108986117B (zh) | 视频图像分割方法及装置 | |
CN111586444B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN111603772A (zh) | 区域检测方法、装置、设备及存储介质 | |
CN113099233A (zh) | 视频编码方法、装置、视频编码设备及存储介质 | |
CN111507094B (zh) | 基于深度学习的文本处理模型训练方法、装置及设备 | |
CN114630057B (zh) | 确定特效视频的方法、装置、电子设备及存储介质 | |
CN110807769B (zh) | 图像显示控制方法及装置 | |
CN115497082A (zh) | 判断视频中字幕的方法、设备和存储介质 | |
CN116055766A (zh) | 弹幕防遮挡方法、装置、设备及存储介质 | |
CN115205164A (zh) | 图像处理模型的训练方法、视频处理方法、装置及设备 | |
CN114897688A (zh) | 视频处理方法、装置、计算机设备及介质 | |
CN109040753B (zh) | 预测模式选择方法、装置及存储介质 | |
CN114612321A (zh) | 视频处理方法、装置以及设备 | |
CN114422698A (zh) | 视频生成方法、装置、设备及存储介质 | |
CN108540726B (zh) | 连拍图像的处理方法、装置、存储介质及终端 | |
CN107957750B (zh) | 电子装置、截图方法及相关产品 | |
CN114615520B (zh) | 字幕定位方法、装置、计算机设备及介质 | |
EP4343717A1 (en) | Image layering method and apparatus, electronic device, and storage medium | |
CN113673427B (zh) | 视频识别方法、装置、电子设备及存储介质 | |
EP4102838A1 (en) | Video decoding method and apparatus, video encoding method and apparatus, and device and storage medium | |
CN115721935A (zh) | 地图画面的展示方法、数据库生成方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |