CN114339360B

CN114339360B - 一种视频处理的方法、相关装置及设备

Info

Publication number: CN114339360B
Application number: CN202111056673.5A
Authority: CN
Inventors: 苟亚明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-05-02
Anticipated expiration: 2041-09-09
Also published as: CN114339360A

Abstract

本申请实施例公开了一种视频处理的方法、相关装置及设备，用于提升用户的观看体验。本申请实施例方法包括：获取待处理视频的视频信息，待处理视频至少包括第一视频段，第一视频段由T个连续的视频帧组成，对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，K个视频图像为T个视频图像中满足图像保留条件的视频图像,根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板,基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域。

Description

一种视频处理的方法、相关装置及设备

技术领域

本申请实施例涉及视频处理技术领域，尤其涉及一种视频处理的方法、相关装置及设备。

背景技术

随着视频网站和应用程序的飞速的发展，用户可以在视频网站或应用程序上观看电视剧或者电影，当用户看到精彩或感兴趣的片段时，可能会想和其他用户分享自己的看法。鉴于视频网站或应用程序上提供弹幕评论的功能，所以视频网站或应用程序的播放页面上总会显示各种各样的弹幕，能够增进视频的观看用户之间的互动性，提高视频播放的趣味性，但在弹幕的显示过程中，弹幕信息容易遮挡视频中的用户感兴趣的关键内容，即容易遮挡视频中的关键帧图像，影响观看用户的观看体验。

传统的视频画面显示技术通常是在视频播放时，通过捕捉用户在视频上用户视觉焦点以及获取用户视觉焦点在显示装置上的位置，来确定视频中关键帧图像的遮罩区域，然后，将遮罩区域的弹幕进行消除，来避免弹幕遮挡视频的帧图像中的用户感兴趣的关键内容。

但是，捕捉用户视觉焦点，需要在用户开启摄像机权限条件下才能捕捉到用户视觉焦点，另外在投屏和分屏等情况下，不容易捕捉到用户的视觉焦点，而难以准确获取到的用户视觉焦点以及用户视觉焦点在显示装置上的位置，使得获取关键帧图像的遮罩区域准确率不高，从而影响用户的观看体验。

发明内容

本申请实施例提供了一种视频处理的方法、相关装置及设备，用于通过第一内容标签集合以及第二内容标签集合获取到与视频图像更加适配的至少一个图像模板，然后，通过将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，能够提高获取每个视频图像的弹幕弱化区域的准确度，从而减少弹幕弱化区域对于用户观看体验的影响。

有鉴于此，本申请一方面提供一种视频处理的方法，包括：

获取待处理视频的视频信息，其中，待处理视频的视频信息包括待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，待处理视频至少包括第一视频段，第一视频段由T个连续的视频帧组成，T为大于1的整数；

对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，第一内容标签集合包括至少一个候选的内容标签；

将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，第二内容标签集合包括至少一个候选的内容标签，K个视频图像为T个视频图像中满足图像保留条件的视频图像；

根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板；

基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域，其中，弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

本申请的另一方面提供一种视频处理的装置，包括：

获取单元，用于获取待处理视频的视频信息，其中，待处理视频的视频信息包括待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，待处理视频至少包括第一视频段，第一视频段由T的连续的视频帧组成，T为大于1的整数；

确定单元，用于对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，第一内容标签集合包括至少一个候选的内容标签；

处理单元，用于将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，第二内容标签集合包括至少一个候选的内容标签，K个视频图像为T个视频图像中满足图像保留条件的视频图像；

确定单元，还用于根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板；

处理单元，还用于基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域，其中，弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，确定单元具体可以用于：

根据第一内容标签集合以及第二内容标签集合的交集或并集，确定至少一个图像模板。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，处理单元具体可以用于：

在每个视频图像中获取与至少一个图像模板的尺寸相对应的多个子图像；

若从多个子图像中获取到与至少一个图像模板相匹配的目标图像，则将目标图像映射在每个视频图像的位置区域确定为弹幕弱化区域。

根据多个子图像以及至少一个图像模板，获取每个子图像与至少一个图像模板之间的相似度；

若相似度满足图像匹配条件，则将子图像作为目标图像；

将目标图像映射在每个视频图像的位置区域确定为弹幕弱化区域。

根据待处理视频的视频流信息获取解码器；

将待处理视频输入至解码器，通过解码器获取第一视频段的K个视频帧；

将第一视频段的K个视频帧保存为图片格式，得到K个视频图像。

按照解码器中配置的时间戳从待处理视频中获取第一视频段的T个视频帧；

获取第一视频段的T个视频帧中生成帧率小于预设帧率的视频帧，得到第一视频段的K个视频帧。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取待处理视频的视频信息，对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，进而将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，然后，根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板，并基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，以得到每个视频图像的弹幕弱化区域。通过上述方式，能够通过第一内容标签集合以及第二内容标签集合获取到与视频图像更加适配的至少一个图像模板，然后，通过将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，能够提高获取每个视频图像的弹幕弱化区域的准确度，从而减少弹幕弱化区域对于用户观看体验的影响。

附图说明

图1是本申请实施例中视频控制系统的一个架构示意图；

图2是本申请实施例中视频处理的方法的一个实施例示意图；

图3是本申请实施例中视频处理的方法的另一个实施例示意图；

图4是本申请实施例中视频处理的方法的另一个实施例示意图；

图5是本申请实施例中视频处理的方法的另一个实施例示意图；

图6是本申请实施例中视频处理的方法的另一个实施例示意图；

图7是本申请实施例中视频处理的方法的一个原理流程示意图；

图8(a)是本申请实施例中视频处理的方法的一个画面显示的示意图；

图8(b)是本申请实施例中视频处理的方法的一个画面显示的示意图；

图8(c)是本申请实施例中视频处理的方法的一个画面显示的示意图；

图9是本申请实施例中视频处理的装置的一个实施例示意图；

图10是本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的视频处理的方法可以应用于通过获取弹幕弱化区域完成视频处理的的场景中，作为示例，例如通过确定一综艺视频的含有目标人物的弹幕弱化区域，来将出现在弹幕弱化区域中的弹幕隐藏，并显示隐藏弹幕后的弹幕弱化区域。作为另一个示例，例如通过确定一动物介绍视频的含有目标动物的弹幕弱化区域，来将出现在弹幕弱化区域中的弹幕隐藏，并显示隐藏弹幕后的弹幕弱化区域。作为再一示例，例如通过确定一卡通动画视频的含有目标卡通人物的弹幕弱化区域，来将出现在弹幕弱化区域中的弹幕增加显示透明度，并显示弱化弹幕后的弹幕弱化区域，在上述种种场景中，为了获取弹幕弱化区域，现有技术中提供的解决方案为，通过捕捉用户在视频上用户视觉焦点以及获取用户视觉焦点在显示装置上的位置，来确定视频中的关键帧图像并形成关键帧图像的遮罩区域，然后，将遮罩区域的弹幕进行消除，并显示消除弹幕后的视频内容，但是，捕捉用户视觉焦点，需要在用户开启摄像机权限条件下才能捕捉到用户视觉焦点，另外在投屏和分屏等情况下，难以准确获取到的用户视觉焦点以及用户视觉焦点在显示装置上的位置，使得获取关键帧图像遮罩区域的准确率不高，从而影响用户的观看体验。

为了解决上述问题，本申请提出了一种视频处理的方法，该方法应用于图1所示的视频控制系统，请参阅图1，图1为本申请实施例中视频控制系统的一个架构示意图，如图1所示，服务器通过获取终端设备提供的待处理视频的视频信息，对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，进而将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，然后，根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板，并基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，以得到每个视频图像的弹幕弱化区域。通过上述方式，能够通过第一内容标签集合以及第二内容标签集合获取到与视频图像更加适配的至少一个图像模板，然后，通过将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，能够提高获取每个视频图像的弹幕弱化区域的准确度，从而减少弹幕弱化区域对于用户观看体验的影响。

可以理解的是，图1中仅示出了一种终端设备，在实际场景中可以由更多种类的终端设备参与到数据处理的过程中，例如个人电脑(personal computer，PC)或车载终端(例如车载导航终端)等，具体数量和种类因实际场景而定，具体此处不做限定。另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，服务器的数量因实际场景而定，具体此处不做限定。

需要注意的是，本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

为了解决上述问题，本申请提出了一视频处理的方法，该方法一般由服务器或终端设备执行，相应地，应用于视频处理的装置一般设置于服务器或终端设备中。

可以理解的是，如本申请所公开的视频处理的方法、相关设备以及装置，其中多个服务器/终端设备可以组成为一区块链，而服务器/终端设备为区块链上的节点。在实际应用中，可以在区块链中需要进行节点与节点之间的数据共享，每个节点上可以存储有视频数据。

下面将对本申请中视频处理的方法进行介绍，请参阅图2以及图7，本申请实施例中视频处理的方法一个实施例包括：

在步骤S101中，获取待处理视频的视频信息，其中，待处理视频的视频信息包括待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，待处理视频至少包括第一视频段，第一视频段由T个连续的视频帧组成，T为大于1的整数；

在本实施例中，由于第一视频段是反映一组镜头中主要信息内容的一帧或若干帧图像，即视频帧，可以简洁地表达镜头内容，以使用户能够通过对视频帧的非线性浏览来快速定位感兴趣的内容，因此，当用户浏览或检索待处理视频时，可以获取待处理视频的视频信息，使得后续可以根据包含有待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种的视频信息来准确获取待处理关键帧中的用户感兴趣的内容的显示区域，进而能够弱化显示区域中的弹幕信息，使得显示区域中的内容能够完全显示在目标视频的画面上，从而提升用户的观看体验。

其中，待处理视频具体可以表现为电影视频、综艺视频、直播视频或车载视频等，还可以是其他类型的视频，如创意短视频、广告视频或者体育赛事视频等，此处不作具体限制。待处理视频还可以包括第二视频段或第三视频段等由若干个连续的视频帧组成的视频段，第二视频段或第三视频段可以包含有与第一视频段中的相同或相似的人或物，也可以是不同的的人或物，第二视频段或第三视频段表达的镜头内容与第一视频段不同。

其中，视频标题是可以用于吸引用户、概括视频内容的短文本，例如，A歌手的演唱会录制视频、B舞蹈家的舞蹈表演等。视频标签具体可以表现为热点词汇、专业词汇或常见词汇等，此处不作具体限制，视频标签可以用于定位视频内容面向的观众，如中年人、少年，亦或者是某类有着相同爱好的人群等，可以用于定位视频类型，如搞笑、城市娱乐、游戏解说、影视资讯、体育赛事等等。视频简介是可以用于概括视频内容、类型或背景等关键信息的短文本或者长文本。视频字幕是可以出现在待处理视频中的文字描述，如旁白、对话或注释等，概括视频内容的短文本。

为了便于理解，结合图8(a)对步骤S101做进一步详细介绍，请参阅图8(a)，图8(a)所示意的(1)为本申请实施例中的视频处理的方法的一个画面显示的示意图，本实施例中以待处理视频的视频标题为A歌手在B节目唱歌的标题为例进行说明，图8(a)所示意的(1)展示目标人物A歌手正在唱歌的视频画面，以通过含有目标人物A歌手唱歌的视频帧完成视频处理为例，进行解释说明，请参阅图8(a)中所示意的(1)，在客户端接收到用户要通过视频播放程序浏览或观看的B节目的视频操作之后，可以通过A歌手在B节目唱歌的视频标题在视频播放器中展示图8(a)所示意的(1)目标人物A歌手正在唱歌的画面，当然，在实际产品中，客户端的应用界面上也可以不展示视频主题，而是通过语音的方式输出“请打开A歌手在B节目唱歌的视频”，当用户通过语音的方式输入“确定”、“确定浏览”或其他肯定性答复时，视为用户输入浏览A歌手在B节目唱歌的目标视频的查看指令；当用户通过语音的方式输入“关闭”、“取消浏览”等否定性答复时，视为用户输入关闭A歌手在B节目唱歌的目标视频的关闭指令等，具体针对于目标视频的指令的输入方式，此处不进行限定。

在步骤S102中，对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，第一内容标签集合包括至少一个候选的内容标签；

在本实施例中，在获取到视频视频的视频信息后，可以对视频信息进行语义识别，以获取语义识别结果，然后可以根据语义识别结果，在数据平台中获取与语义识别结果相适配的至少一个候选的内容标签，以得到第一内容标签集合。

其中，内容标签具体可以表现为视频关键字或者视频标识码(identity，ID)，还可以是其他标签形式，此处不作具体限制，其中，视频关键字可以用于概括或反映视频的主题内容，视频关键字具体可以表现为是对象名称或者专有词汇等，还可以是其他关键字，此处不作具体限制，视频标识码用于指示视频对象，可以具体表现为整数(int)型的数字串，也可以具体表现为字符串等，此处不作具体限制。

其中，对待处理视频的视频信息进行语义识别具体可以采用N-Gram语言模型或神经网络语言模型，如前馈神经网络(Feed-forward Neural Net Language Model，ffnnlm)语言模型或循环神经网络(recurrent neural network Language Model，rnnlm)语言模型等，还可以是其他语言模型，此处不作具体限制。

需要说明的是，对待处理视频的视频信息进行语义识别还可以采用语言模型与主题模型的结合来获取语义识别结果，其中，主题模型具体可以是隐含狄利克雷分布(latentdirichlet allocation，LDA)主题模型，也可以是其他主题模型，例如概率隐含语义分析(probabilistic latent semantic analysis，PLSA)主题模型，或者标签隐含狄利克雷分布(label latent dirichlet allocation，L-LDA)主题模型，具体此处不做限定。

为了便于理解，结合图8(a)对步骤S101做进一步详细介绍，请参阅图8(a)，图8(a)所示意的(1)为本申请实施例中的视频处理的方法的一个画面显示的示意图，本实施例中以待处理视频的视频标题为A歌手在B节目唱歌的标题为例进行说明，图8(a)所示意的(1)展示目标人物A歌手正在唱歌的视频画面，以通过含有目标人物A歌手唱歌的视频帧完成视频处理为例，进行解释说明，在获取到如图8(a)所示意的(1)的待处理视频的视频标题为A歌手在B节目唱歌的标题时，可以采用rnnlm语言模型结合LDA主题模型来对视频标题“A歌手在B节目唱歌”进行语义识别，可以得到“A歌手”、“B节目”或“唱歌”等标题关键词，即语义识别结果，然后，可以根据语义识别结果在标签数据库中获取到与语义识别结果相同或相似的内容标签，如“A歌手”、“A演员”、“A艺人”、“B节目”、“唱歌”、“演唱会”等第一内容标签集合。

在步骤S103中，将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，第二内容标签集合包括至少一个候选的内容标签，K个视频图像为T个视频图像中满足图像保留条件的视频图像；

在本实施例中，在获取到待处理视频后，可以将待处理视频的第一视频段中的每个视频帧转换为视频图像，以获取T个视频图像中满足图像保留条件的K个视频图像，然后，可以基于K个视频图像生成第二内容标签集合。

其中，图像保留条件具体可以表现为生成帧率小于预设帧率的视频帧，或者，不属于转场镜头的视频帧，或者，不属于无效镜头的视频帧等，还可以是其他图像保留条件，此处不作具体限制。

具体地，当获取到待处理视频时，可以采用图像处理工具或多媒体处理工具如(Fast Forward Mpeg，ffmpeg)工具等，将待处理视频的第一视频段中的每个视频帧转换为视频图像，并将T个视频图像中满足图像保留条件的K个视频图像进行保留，然后，可以基于K个视频图像生成第二内容标签集合，可以是基于K个视频图像的图像命名，如A歌手.jpeg，将命名前缀作为候选的内容标签，如“A歌手”，以得到第二内容标签集合，或者是根据命名前缀在数据平台中获取与该命名前缀相适配的至少一个候选的内容标签，以得到第二内容标签集合。

在步骤S104中，根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板；

在本实施例中，在获取到第一内容标签集合以及第二内容标签集合后，可以根据第一内容标签集合以及第二内容标签集合中的内容标签与图像模板之间的映射关系，在模板集合中获取到一个图像模板或多个图像模板，使得后续可以根据获取到的至少一个图像模板来准确获取第一视频段中的每个视频帧中的用户感兴趣的内容的显示区域，进而能够弱化显示区域中的弹幕信息，使得显示区域中的内容能够完全显示在视频帧上，从而提升用户的观看体验。

其中，图像模板是指用户感兴趣的目标人物或目标动物的参考图像，图像模板具体可以表现为包含目标人物的脸部重要特征的图像，或是包含有动物的面部或肢体重要特征的图像，还可以是其他图像模板，此处不作具体限制。

具体地，当获取到第一内容标签集合以及第二内容标签集合时，可以利用网络爬虫技术在大数据平台中进行爬取与第一内容标签集合以及第二内容标签集合匹配的图像模板，或者是从服务器数据库中获取与第一内容标签集合以及第二内容标签集合中的内容标签具有映射关系的图像模板，还可以通过其他方式确定图像模板，此处不作具体限制。

为了便于理解，请参阅图8(a)所示意的(2)，当获取到第一内容标签集合以及第二内容标签集合，如“A歌手”、“B节目”、“唱歌”等内容标签后，可以在根据这些内容标签在服务器中进行遍历，可以获取到与这些内容标签具有映射关系的图像模板，如图8(a)所示意的(2)含有A歌手的脸部的模板图像。

在步骤S105中，基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域，其中，弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

在本实施例中，在获取到至少图像模板后，可以将K个视频图像中的每个视频图像分别与获取到的至少一个图像模板进行匹配，若匹配成功，可以理解为是在该视频图像上匹配到与一个或多个图像模板中的内容相同或高相似的内容，则可以根据匹配到的内容在视频图像上的区域确定弹幕弱化区域，弹幕弱化区域可以一个弱化区域，也可以包含有多个子弱化区域，弹幕弱化区域具体可以包括在视频图像上的坐标位置以及弹幕弱化区域的高和宽，弹幕弱化区域可以用于显示视频图像中与一个或多个图像模板中的内容相同或高相似的内容，使得后续可以根据弹幕弱化区域，对部分命中或全部命中弹幕弱化区域的弹幕信息进行弱化处理，可以将弹幕弱化区域中的内容完全显示在视频帧上，从而提升用户的观看体验。

具体地，如图7所示，当获取到至少一个模板时，可以将K个视频图像中的每个视频图像分别与获取到的至少一个图像模板进行匹配，当匹配成功时，可以在视频图像上确定弹幕弱化区域(MatchArea)，其中，将K个视频图像中的每个视频图像分别与获取到的至少一个图像模板进行匹配具体可以基于灰度的匹配算法进行匹配，还可以是采用其他匹配算法进行匹配，如基于特征的匹配算法或者基于关系的匹配算法，此处不作具体限制。

其中，基于灰度的匹配算法进行匹配是根据已知图像模板到另一幅图像中寻找与图像模板相似的子图像，基于灰度的匹配算法也称作相关匹配算法，采用空间二维滑动模板与待处理关键帧进行匹配。基于灰度的图像匹配算法具体可以表现为平均绝对差算法(Mean Absolute Differences，MAD)、绝对误差和算法(Sum of Absolute Differences，SAD)、误差平方和算法(Sum of Squared Differences，SSD)或平均误差平方和算法(MeanSquare Differences，MSD)，还可以是其他算法，如归一化积相关算法(Normalized CrossCorrelation，NCC)、序贯相似性检测算法(Sequential Similiarity DetectionAlgorithm，SSDA)以及hadamard变换算法(Sum of Absolute Transformed Difference，SATD)等，此处不作具体限制。

其中，基于特征的匹配算法是通过提取视频图像中的图像特征，以及提取至少一个图像模板的图像特征，再分别生成特征描述子，最后根据描述子的相似程度，对视频图像分别与至少一个图像模板之间的特征进行匹配，图像的特征主要可以分为点、线(边缘)、区域(面)等特征，也可以分为局部特征和全局特征。基于关系的匹配算法是通过建立语义的网络，具体是通过人工智能技术将K个视频图像中的每个视频图像分别与获取到的至少一个图像模板进行匹配。

为了便于理解，结合图8(a)和图8(b)对步骤S104做进一步详细介绍，请参阅图8(b)，图8(b)所示意的(1)为本申请实施例中的视频处理的方法的另一个画面显示的示意图，本实施例中继续以待处理关键帧为含有目标人物的图像、弹幕弱化区域为A歌手的脸部显示区域为例进行说明，图8(b)所示意的(1)展示目标人物A歌手正在唱歌的画面，以通过含有目标人物A歌手的脸部的弹幕弱化区域完成视频的处理为例，进行解释说明，请参阅图8(b)中所示意的(1)，在客户端接收到用户要通过视频播放程序浏览或观看的B节目的视频操作之后，可以在视频播放器中展示图8(b)所示意的(1)目标人物A歌手正在唱歌的画面，其中，C3指的是的弹幕弱化区域，用于显示目标人物A歌手的脸部内容，当获取到如图8(a)所示意的(2)含有A歌手的脸部的图像模板时，可以基于灰度的图像匹配算法，将如图8(b)所示意的(1)视频图像与获取到的图像模板进行匹配，当匹配成功时，即在视频图像中匹配到与如图8(a)所示意的(2)含有A歌手的脸部的图像模板相似的内容如图8(b)中所示意的(1)中的C3所显示的内容，可以将C3确定为弹幕弱化区域。

可以理解的是，在获取到弹幕弱化区域后，可以获取视频图像上显示的弹幕信息，然后，对位于弱化弹幕区域内的弹幕信息进行弱化处理，其中，位于弱化弹幕区域内的弹幕信息具体可以表现为部分位于或部分命中弹幕弱化区域，或者全部位于或全部命中弹幕弱化区域，其中，对弹幕信息进行弱化处理具体可以是隐藏弹幕信息，或，增加弹幕信息的显示透明度，可以通过将弹幕弱化区域中的内容完全显示在视频图像上，即显示弹幕弱化区域对应的视频帧，可以有效避免弹幕信息遮挡弹幕弱化区域中的内容，从而提升用户的观看体验。

具体地，如图7所示，当获取到弹幕弱化区域时，可以从视频播放器中获取第一视频段的视频帧上显示的弹幕信息，具体可以是遍历视频播放器中的子视图(subviews)来获取弹幕信息，其中，弹幕信息是添加到视频播放器的播控栏层的，能够生成视频播放器的子视图，即子视图可以用于通过图像的形式将弹幕信息显示于待处理视频上，然后，如果弹幕信息位于弹幕弱化区域中会遮挡弹幕弱化区域中的内容，因此，可以将部分位于或全部位于弹幕弱化区域中的弹幕信息进行隐藏，或增加弹幕信息的显示透明度，以将弹幕弱化区域中的内容完全显示在视频帧上。

为了便于理解，结合图8(b)和图8(c)对弹幕弱化区域中的弹幕弱化处理进一步详细介绍，请参阅图8(c)，图8(c)所示意的(1)为本申请实施例中的视频处理的方法的另一个画面显示的示意图，本实施例中继续以弹幕弱化区域为A歌手的脸部显示区域，以弹幕信息为“唱得太好了”为例进行说明，图8(b)中所示意的(1)以及图8(c)所示意的(1)分别展示目标人物A歌手正在唱歌的画面，以通过含有目标人物A歌手的脸部的弹幕弱化区域完成视频的处理为例，进行解释说明，请参阅图8(c)中所示意的(1)，在客户端接收到用户要通过视频播放程序浏览或观看的B节目的视频操作之后，可以在视频播放器中展示图8(c)所示意的(1)目标人物A歌手正在唱歌的画面，其中，C1指的是界面上的“发送”图标，用于发送用户的评论；C2指的是弹幕信息，用于指示播放界面中会从不停的滚动显示评论文字，当用户编辑好评论文字，通过按压C1中的“发送”图标或者通过光标点击C1中的“发送”图标时，则客户端可以获知用户想要发表的评论，进而客户端可以将接收到的评论文字显示于视频帧中，即C2所示的“唱得太好了”，或者“不错”、“可以可以”等弹幕信息，请继续参阅图8(b)中所示意的(1)，当弹幕信息“唱得太好了”或“不错”位于C3所示意的弹幕弱化区域中时，可以增加“唱得太好了”或“不错”等弹幕信息的显示透明度，可以得到如图8(b)中所示意的(2)，弹幕信息“唱得太好了”或“不错”弱化后的目标人物A歌手正在唱歌的画面，即显示弹幕弱化区域对应的视频帧；或者，请继续参阅图8(c)所示意的(1)当弹幕信息“唱得太好了”或“不错”位于C3所示意的弹幕弱化区域中时，可以将“唱得太好了”或“不错”等弹幕信息隐藏，可以得到如图8(c)中所示意的(2)，弹幕信息“唱得太好了”或“不错”隐藏后的目标人物A歌手正在唱歌的视频帧上。

在本申请实施例中，提供了一种视频处理的方法，通过上述方式，能够通过第一内容标签集合以及第二内容标签集合获取到与视频图像更加适配的至少一个图像模板，然后，通过将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，能够提高获取每个视频图像的弹幕弱化区域的准确度，从而减少弹幕弱化区域对于用户观看体验的影响。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频处理的方法另一个可选实施例中，根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板，包括：

在本实施例中，在获取到第一内容标签集合以及第二内容标签集合后，可以根据第一内容标签集合以及第二内容标签集合中的若干个候选的内容标签，获取若干个候选的内容标签的交集，以得到目标交集内容标签，或者，获取若干个候选的内容标签的并集，以得到目标并集内容标签，然后，可以根据目标交集内容标签或者目标并集内容标签与图像模板之间的映射关系，在模板集合中获取到一个图像模板或多个图像模板，使得后续可以根据获取到的至少一个图像模板来准确获取第一视频段中的每个视频帧中的用户感兴趣的内容的显示区域，进而能够弱化显示区域中的弹幕信息，使得显示区域中的内容能够完全显示在视频帧上，从而提升用户的观看体验。

具体地，当获取到第一内容标签集合以及第二内容标签集合时，可以根据实际应用需求，比如需要获取到更加精细准确的图像模板，则可以获取若干个候选的内容标签的交集，以得到目标交集内容标签，根据目标交集内容标签与图像模板之间的映射关系，在模板集合中获取到一个图像模板或多个图像模板，或者，比如需要获取到更加全面详细的图像模板，则可以获取若干个候选的内容标签的并集，以得到目标并集内容标签，根据目标并集内容标签与图像模板之间的映射关系，在模板集合中获取到一个图像模板或多个图像模板。

为了便于理解，请参阅图8(a)所示意的(2)，当获取到第一内容标签集合如“A歌手”、“B节目”、“唱歌”等内容标签，以及第二内容标签集合如“A歌手”、“演唱会”等内容标签后，可以获取这些内容标签的交集，以得到目标交集内容标签为“A歌手”，可以根据内容标签“A歌手”获取到与该内容标签具有映射关系的图像模板，如图8(a)所示意的(2)含有A歌手的脸部的模板图像。

需要说明的是，根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板，还可以是根据第一内容标签集合以及第二内容标签集合，获取第一内容标签集合对应的预设的第一权重，以及获取第二内容标签集合对应的预设的第二权重，然后，根据对根据第一内容标签集合以及第二内容标签集合进行加权求和，获取目标内容标签，并可以根据目标内容标签与图像模板之间的映射关系，在模板集合中获取到一个图像模板或多个图像模板。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频帧的显示方法另一个可选实施例中，如图3所示，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域，包括：

在步骤S301中，在每个视频图像中获取与至少一个图像模版的尺寸相对应的多个子图像；

在步骤S302中，若从多个子图像中获取到与至少一个图像模板相匹配的目标图像，则将目标图像映射在每个视频图像的位置区域确定为弹幕弱化区域。

在本实施例中，在获取到至少一个图像模板后，可以按照每个图像模板的尺寸大小，在视频图像中遍历到与图像模板的尺寸大小相同的多个子关键帧，然后，可以将遍历到的与图像模板的尺寸大小相同的多个子图像分别与图像模板进行匹配，当匹配到与图像模板相同或高相似的子图像，即与图像模板相匹配的目标图像时，可以获取目标图像映射在视频图像的位置区域，进而目标图像的位置区域作为弹幕弱化区域，使得后续可以根据弹幕弱化区域，对部分命中或全部命中弹幕弱化区域的弹幕信息进行弱化处理，可以将弹幕弱化区域中的内容完全显示在视频图像上，从而提升用户的观看体验。

具体地，如图7所示，当获取到至少一个图像模板时，可以基于灰度的匹配算法，将视频图像作为待搜索图像，分别将至少一个图像模板中的每个图像模板作为已知模板图像，即参考图像，可以根据图像模板到视频图像中寻找与图像模板相似的子图像，即目标图像，具体可以是采用空间二维滑动图像模板与视频图像进行匹配，即先预设匹配模版的尺寸大小，在视频图像上进行滑动搜索子图像，可以遍历到与图像模板的尺寸大小相同的多个子图像，然后，可以将遍历到的与图像模板的尺寸大小相同的多个子图像分别与图像模板进行匹配，可以寻找到与图像模板相似的目标图像，可以获取目标图像在视频图像上的坐标位置，然后可以根据目标图像的坐标位置以及尺寸大小，获取目标图像映射在视频图像的位置区域，进而目标图像的位置区域作为弹幕弱化区域。

为了便于理解，结合图8(a)和图8(b)对步骤S301至步骤S302做进一步详细介绍，本实施例中继续以视频图像为含有目标人物的图像、弹幕弱化区域为A歌手的脸部显示区域为例进行说明，请参阅图8(a)，当获取到如图8(a)所示意的(1)展示的目标人物A歌手正在唱歌的视频图像时，以及获取到如图8(a)所示意的(2)展示的含有A歌手的脸部的图像模板时，可以获取到该图像模板的尺寸如M*N，即该图像模板的高为M和该图像模板的宽为N，单位可以为像素，然后，可以在如图8(a)所示意的(1)的视频图像上遍历到多个M*N大小的子图像，再将多个M*N大小的子图像分别与图像模板进行匹配，可以寻找到与图像模板相似的目标图像，即在多个M*N大小的子图像中匹配到与如图8(a)所示意的(2)含有A歌手的脸部的图像模板相似的内容如图8(b)中所示意的(1)中的C3所显示的内容，然后，可以根据在视频图像上遍历到M*N大小的目标子图像时对应的坐标位置，以及M*N尺寸大小，获取目标图像映射在视频图像的位置区域，进而目标图像的位置区域作为弹幕弱化区域，即可以将C3确定为弹幕弱化区域。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频处理的方法另一个可选实施例中，如图4所示，若从多个子图像中获取到与至少一个图像模板相匹配的目标图像，则将目标图像映射在每个视频图像的位置区域确定为弹幕弱化区域，包括：

在步骤S401中，根据多个子图像以及至少一个图像模板，获取每个子图像与至少一个图像模板之间的相似度；

在步骤S402中，若相似度满足图像匹配条件，则将子图像作为目标图像；

在步骤S403中，将目标图像映射在每个视频图像的位置区域确定为弹幕弱化区域。

在本实施例中，针对于至少一个图像模板中的每个图像模板，在视频图像上获取到多个子图像后，可以将多个子图像分别与图像模板进行匹配，具体可以是分别计算每个子图像与图像模板之间的相似度，当获取到的相似度中有唯一满足图像匹配条件的相似度时，可以将该相似度对应的子图像作为目标图像，然后，可以获取目标图像映射在视频图像的位置区域，进而目标图像的位置区域作为弹幕弱化区域，使得后续可以根据弹幕弱化区域，对部分命中或全部命中弹幕弱化区域的弹幕信息进行弱化处理，可以将弹幕弱化区域中的内容完全显示在视频图像上，从而提升用户的观看体验。

其中，计算每个子图像与图像模板之间的相似度具体可以表现为计算每个子图像与图像模板之间的距离，或者计算每个子图像与图像模板之间的余弦相似度，或者是计算每个子图像与图像模板之间的平均绝对差值等，还可以采用其他相似度计算方式，如计算每个子图像与图像模板之间的绝对误差和值或误差平方和值等，此处不做具体限制。

可以理解的是，当每个子图像与图像模板之间的相似度表现为余弦相似度时，由于余弦相似度与相似程度为正相关，可以理解为余弦相似度越大，每个子图像与图像模板之间的相似程度越高，则相似度满足图像匹配条件，将子图像作为目标图像，可以表现为先获取大于预设相似阈值的相似度，然后再从大于预设相似阈值的相似度中获取最大相似度，可以将该最大相似度对应的子图像作为目标图像，可以理解的是，也可以采用从相似度中获取最大相似度，再判断获取到最大相似度是否满足预设相似阈值的方式，具体目标图像的确定方式，此处不进行限定；同理，当每个子图像与图像模板之间的相似度表现为平均绝对差值时，由于平均绝对差值与相似程度为负相关，可以理解为平均绝对差值越小，每个子图像与图像模板之间的相似程度越高，则相似度满足图像匹配条件，将子图像作为目标图像，可以表现为先获取小于预设相似阈值的相似度，然后再从小于预设相似阈值的相似度中获取最小相似度，可以将该最小相似度对应的子图像作为目标子关键帧。

体地，如图7所示，当获取到图像模板时，可以基于平均绝对差算法，分别计算每个子图像与图像模板之间的相似度，具体可以是通过计算每个子图像与图像模板之间的平均绝对差值D(i,j)，然后，将小于预设相似阈值的最小平均绝对差值D(i,j)对应的子图像作为目标图像，具体可以先创建临时结构体变量MADInfo，可以将视频图像的宽赋值给MADInfo.keyFrameW，将高赋值给MADInfo.keyFrameH，然后，可以创建4层循环实现如下公式中对D(i,j)的计算：

其中，M×N为图像模板的尺寸大小，1≤i≤m-M+1,1≤j≤n-N+1，m为视频图像的宽，n为视频图像的高，(i,j)为获取到的子图像在视频图像上的左上角坐标值，T(s，t)为图像模板经过灰度化处理后得到的像素点，S(i+s-1，j+t-1)为当前子图像的像素点。

其中，创建临时结构体变量MADInfo包含如表1所示的属性，可以通过定义MADInfo结构体便于MAD算法中所用变量：

表1

其中，4层循环的具体步骤如下：

1)先构造一个与图像模板尺寸相同的小窗口,类似于卷积核，进而，通过用小窗口覆盖在视频图像上，小窗口覆盖的limitM*limitN图像即为M×N大小的子图像，并根据1/limitM*limitN得到dM，即

2)然后，选择出窗口覆盖区域内的所有像素点，即通过外部两层循环分别在视频图像上S(m，n)中进行s，t取值，同时，在图像模板中选择相同的像素点，即通过内部两层循环对T(s，t)进行取值。

3)采用第四层循环，针对于当前子图像，计算取值到的每个当前像素点与图像模板中取值到的像素点之间的灰度差的绝对值之和，即当前sum；

4)采用第三层循环中，对当前sum和上次循环中像素点的sum进行比较(若当前为第四层循环首次结束，则直接进入步骤5)，若小于则进入步骤5，否则进行下一次的第四层循环求和比较；

5)记录当前外层循环中像素点的取值s、t与sum*dM的值，并将sum置0，其中，将sum置0是将sum用于每次循环的复用；

6)用最后一次记录的像素点的取值s、t以及图像模板的高templateH和宽templateW，即当前子图像M×N大小，计算得到当前子图像对应的D(i,j)；

7)若计算得到当前子图像的D(i,j)小于预设相似阈值，则通过D(i,j)换算到该子图像在视频图像上的位置区域，即相对于视频播放器中的弹幕弱化区域MatchArea。

可以理解的是，在获取到弹幕弱化区域后，本实施例还可以在视频图像上获取每个弹幕信息对应的弹幕显示区域，然后，当弹幕显示区域与弹幕弱化区域之间存在重叠区域时，即可以理解为该弹幕显示区域对应弹幕信息位于弹幕弱化区域内，则根据重叠区域的面积确定弹幕显示区域对应的弹幕信息部分命中或全部命中弹幕弱化区域，即确定弹幕信息是部分位于弹幕弱化区域内，或是全部位于弹幕弱化区域内，使得后续可以对部分命中或全部命中弹幕弱化区域的弹幕信息进行弱化处理，可以将弹幕弱化区域中的内容完全显示在视频图像上，从而提升用户的观看体验。

具体地，如图7所示，当获取到弹幕弱化区域时，可以获取弹幕弱化区域内显示的弹幕信息，即获取位于目标弹幕弱化区域内弹幕信息，由于在实际使用时，弹幕信息是添加到视频播放器的播控栏层的，则可以通过视频播放器根据获取到的弹幕信息，生成可以在视频播放器的应用界面上轮播的子视图，即通过每个子视图将弹幕信息显示于视频帧对应的画面上，因此，可以根据视频帧对应的时刻，确定当前时刻的每个子视图在视频帧上的对应的坐标位置，进而，可以根据视频播放器配置的每个子视图的尺寸获取每个子视图的面积，然后，可以根据每个子视图的面积以及每个子视图的坐标位置，获取每个子视图的在视频帧上的显示区域，即弹幕信息的弹幕显示区域，并可以根据每个弹幕显示区域以及弹幕弱化区域，获取每个弹幕显示区域以及弹幕弱化区域之间的重叠区域，以及重叠区域的面积大小，然后，可以将重叠区域的面积大小与弹幕弱化区域的面积大小进行比较，若重叠区域的面积小于弹幕弱化区域的面积，则可以理解为该弹幕显示区域对应的弹幕信息部分命中弹幕弱化区域，若重叠区域的面积小于弹幕弱化区域的面积，则可以理解为该弹幕显示区域对应的弹幕信息全部命中弹幕弱化区域。

为了便于理解，结合图8(b)对弹幕弱化区域中的弹幕信息弱化处理做进一步详细介绍，请参阅图8(b)，本实施例中继续以弹幕弱化区域为A歌手的脸部显示区域，以弹幕信息为“唱得太好了”为例进行说明，请参阅图8(b)，当获取到如图8(b)所示意的(1)展示的目标人物A歌手正在唱歌的视频图像，以及获取到如C3所示的弹幕弱化区域时，可以在视频图像上获取如C2所示的弹幕信息“唱得太好了”的弹幕显示区域，请继续参阅图8(b)中所示意的(1)，当如C2所示的弹幕信息“唱得太好了”与如C3所示意的弹幕弱化区域有重叠区域时，请继续参阅图8(b)所示意的(1)，可以根据重叠区域的面积的大小确定如C2所示的弹幕信息“唱得太好了”是部分命中如C3所示意的弹幕弱化区域。

可以理解的是，在视频图像上获取每个弹幕信息对应的弹幕显示区域还可以是获取视频图像上的每个弹幕信息的移动速度和移动方向，然后，根据每个弹幕信息的移动速度和移动方向，获取每个弹幕信息在待处理关键帧上的坐标位置，然后可以根据获取到坐标位置确定弹幕显示区域。

具体地，如图7所示，当获取到弹幕弱化区域时，可以获取视频图像上的每个弹幕信息的移动速度和移动方向，并根据每个弹幕信息的移动速度以及移动方向，获取每个弹幕信息的弹幕显示区域在视频图像上的坐标位置，然后，还可以获取到每个弹幕信息对应于视频图像上的当前显示时刻，以及每个弹幕信息的初始显示时刻，进而可以根据每个弹幕信息的移动速度以及移动方向、当前显示时刻以及初始显示时刻，利用面积计算公式，可以得到每个弹幕信息的面积大小，即弹幕显示区域的面积，然后，弹幕显示区域在视频图像上的坐标位置以及弹幕显示区域的面积，确定每个弹幕信息在视频图像上的弹幕显示区域。

为了便于理解，结合图8(b)对在视频图像上获取每个弹幕信息对应的弹幕显示区域做进一步详细介绍，请参阅图8(b)，本实施例中继续以弹幕信息为“唱得太好了”为例进行说明，请参阅图8(b)，当获取到如图8(b)所示意的(1)展示的目标人物A歌手正在唱歌的视频图像时，可以在视频图像上获取如C2所示的弹幕信息“唱得太好了”的移动速度以及移动方向，根据弹幕信息“唱得太好了”的移动速度以及移动方向，获取弹幕信息“唱得太好了”在视频图像上的坐标位置，同时，可以弹幕信息“唱得太好了”的对应于视频图像上的当前显示时刻，以及弹幕信息“唱得太好了”的初始显示时刻，利用面积计算公式，可以得到弹幕信息“唱得太好了”的面积大小，则根据弹幕信息“唱得太好了”在视频图像上的坐标位置以及面积，可以获取到图8(b)中所示意的(1)中的C2所示的弹幕信息“唱得太好了”的弹幕显示区域。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频处理的方法另一个可选实施例中，如图5所示，将第一视频段中的每个视频帧转换为视频图像，包括：

在步骤S501中，根据待处理视频的视频流信息获取解码器；

在步骤S502中，将待处理视频输入至解码器，通过解码器获取第一视频段的K个视频帧；

在步骤S503中，将第一视频段的K个视频帧保存为图片格式，得到K个视频图像。

在本实施例中，在获取待处理视频时，由于获取的待处理视频是编码好的视频数据，因此，可以根据待处理视频的视频流信息获取解码器，并将待处理视频输入至解码器中解码得到第一视频段的K个视频帧，然后，由于通过解码器获取第一视频段的K个视频帧是将视频解码为预设时间内的一帧一帧的图像，如每秒一帧图像，但是对应分辨率较大的视频获取一帧图像需要消耗的时间太长，因此，为了提高对第一视频段的K个视频帧的获取效率，可以将第一视频段的K个视频帧按照预设的图片格式进行保存，可以压缩得到K个视频图像。

具体地，如图7所示，在获取到待处理视频时，可以基于多媒体处理工具ffmpeg，调用ffmpeg-i命令传入待处理视频的名称，获取视频流地址，进而，可以通过视频流地址下载待处理视频，并用过ffmpeg获取待处理视频的视频流信息，然后，可以根据待处理视频的视频流信息，针对每种流获取相应的解码器，并可以通过解码器对每种流进行解码，以获取帧数据，然后，可以调用ffmpeg-vf命令将帧数据传入选择器select，过滤输出第一视频段的K个视频帧，并可以拼接调用ffmpeg-f pickName.jpeg-s分辨率命令，将第一视频段的K个视频帧保存为jpeg图片格式的K个视频图像，可以理解的是，可以在异步任务中循环调用上述ffmpeg命令，能够产生批量的视频帧，并生成图片格式的视频图像集合保存在内存中。

其中，一个待处理视频包含有多个流(如视频流video stream，音频流audiostream，字幕等)，流是一种抽象的概念，表示一连串的数据元素，流中的数据元素称为帧Frame，一个待处理视频中，主要有两种数据：流Stream及其数据元素帧Frame，可以通过FFmpeg中与这两种数据相对应的抽象：AVStream和AVPacket对这两种数据进行编码和解码。

其中，AVStream用于描述一个媒体流，在解码的过程中，作为AVFormatContext的一个字段存在，不需要单独的处理，AVFormatContext用于描述一个多媒体文件的构成及其基本信息，存放了视频编解码过程中的大部分信息；AVpacket用于存放解码之前的数据，它只是一个容器，其数据(data)成员指向实际的数据缓冲区。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频处理的方法另一个可选实施例中，如图6所示，通过解码器获取第一视频段的K个视频帧，包括：

在步骤S601中，按照解码器中配置的时间戳从待处理视频中获取第一视频段的T个视频帧；

在步骤S602中，获取第一视频段的T个视频帧中生成帧率小于预设帧率的视频帧，得到第一视频段的K个视频帧。

在本实施例中，在获取到解码器之后，可以通过配置预设帧率，对待处理视频的流数据进行流拷贝，并按照解码器中配置的时间戳从流数据中获取第一视频段的T个连续的视频帧，当第一视频段的T个连续的视频帧中存在生成帧率小于预设帧率的视频帧时，可以理解为第一视频段的T个连续的视频帧中的视频帧的生成帧率接近于预设帧率，即该视频帧的生成帧率满足拷贝条件，即该视频帧满足图像保留条件，则将该视频帧进行保留，其中，流拷贝(Stream copy)是一种对指定流数据仅仅进行复制的拷贝(copy)模式，通过ffmpeg对流进行分离和混合，以使得从待处理视频中获取视频帧是影音同步的，可以阻止对第一视频段的K个视频帧产生多余的拷贝，避免获取到第一视频段的花屏画面对应的视频帧。

具体地，如图7所示，由于在一个待处理视频中可能会因存储的时间戳和时间戳而产生的假设恒定帧率fps，可以按设定帧率处理视频产生(快进/减缓效果)，以使得待处理视频解码无损，故可以根据该假设恒定帧率配置预设帧率，并拼接调用ffmpeg-vsync 2命令，以使第一视频段的T个视频帧的生成帧率满足设定的预设帧率，即对第一视频段的T个视频帧中生成帧率小于预设帧率的视频帧进行复制，以获取第一视频段的K个视频帧，同时，对第一视频段的T个视频帧中生成帧率大于预设帧率的视频帧进行丢弃，以避免获取到第一视频段的花屏画面对应的视频帧。

下面对本申请中的视频处理的装置进行详细描述，请参阅图9，图9为本申请实施例中视频处理的装置的一个实施例示意图，视频处理的装置20包括：

获取单元201，用于获取待处理视频的视频信息，其中，待处理视频的视频信息包括待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，待处理视频至少包括第一视频段，第一视频段由T的连续的视频帧组成，T为大于1的整数；

确定单元202，用于对待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，第一内容标签集合包括至少一个候选的内容标签；

处理单元203，用于将第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，第二内容标签集合包括至少一个候选的内容标签，K个视频图像为T个视频图像中满足图像保留条件的视频图像；

确定单元202，还用于根据第一内容标签集合以及第二内容标签集合，确定至少一个图像模板；

处理单元203，还用于基于第一视频段，将K个视频图像中的每个视频图像分别与至少一个图像模板进行匹配，得到每个视频图像的弹幕弱化区域，其中，弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的视频处理的装置的另一实施例中，确定单元202具体可以用于：

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的视频处理的装置的另一实施例中，处理单元203具体可以用于：

若相似度满足图像匹配条件，则将子图像作为目标图像；

根据待处理视频的视频流信息获取解码器；

本申请另一方面提供了另一种计算机设备示意图，如图10所示，图10是本申请实施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质330通信，在计算机设备300上执行存储介质330中的一系列指令操作。

计算机设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统333，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述计算机设备300还用于执行如图2至图6对应的实施例中的步骤。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如图2至图6所示实施例描述的方法中的步骤。

本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时，使得所述计算机或处理器执行如图2至图6所示实施例描述的方法中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视频处理的方法，其特征在于，包括：

获取待处理视频的视频信息，其中，所述待处理视频的视频信息包括所述待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，所述待处理视频至少包括第一视频段，所述第一视频段由T个连续的视频帧组成，所述T为大于1的整数；

对所述待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，所述第一内容标签集合包括至少一个候选的内容标签；

将所述第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，所述第二内容标签集合包括至少一个候选的内容标签，所述K个视频图像为T个视频图像中满足图像保留条件的视频图像；

根据所述第一内容标签集合以及所述第二内容标签集合，确定至少一个图像模板；

基于所述第一视频段，将所述K个视频图像中的每个视频图像分别与所述至少一个图像模板进行匹配，得到所述每个视频图像的弹幕弱化区域，其中，所述弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一内容标签集合以及所述第二内容标签集合，确定至少一个图像模板，包括：

根据所述第一内容标签集合以及所述第二内容标签集合的交集或并集，确定所述至少一个图像模板。

3.根据权利要求1所述的方法，其特征在于，所述将所述K个视频图像中的每个视频图像分别与所述至少一个图像模板进行匹配，得到所述每个视频图像的弹幕弱化区域，包括：

在所述每个视频图像中获取与所述至少一个图像模板的尺寸相对应的多个子图像；

若从所述多个子图像中获取到与所述至少一个图像模板相匹配的目标图像，则将所述目标图像映射在所述每个视频图像的位置区域确定为所述弹幕弱化区域。

4.根据权利要求3所述的方法，其特征在于，所述若从所述多个子图像中获取到与所述至少一个图像模板相匹配的目标图像，则将所述目标图像映射在所述每个视频图像的位置区域确定为所述弹幕弱化区域，包括：

根据所述多个子图像以及所述至少一个图像模板，获取每个子图像与所述至少一个图像模板之间的相似度；

若所述相似度满足图像匹配条件，则将所述子图像作为所述目标图像；

将所述目标图像映射在所述每个视频图像的位置区域确定为所述弹幕弱化区域。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一视频段中的每个视频帧转换为视频图像，包括：

根据所述待处理视频的视频流信息获取解码器；

将所述待处理视频输入至所述解码器，通过所述解码器获取所述第一视频段的K个视频帧；

将所述第一视频段的K个视频帧保存为图片格式，得到所述K个视频图像。

6.根据权利要求5所述的方法，其特征在于，所述通过所述解码器获取所述第一视频段的K个视频帧，包括：

按照所述解码器中配置的时间戳从所述待处理视频中获取所述第一视频段的T个视频帧；

获取所述第一视频段的T个视频帧中生成帧率小于预设帧率的视频帧，得到所述第一视频段的K个视频帧。

7.一种视频处理的装置，其特征在于，包括：

获取单元，用于获取待处理视频的视频信息，其中，所述待处理视频的视频信息包括所述待处理视频的视频标题、视频标签、视频简介以及视频字幕中的一种或多种，所述待处理视频至少包括第一视频段，所述第一视频段由T的连续的视频帧组成，所述T为大于1的整数；

确定单元，用于对所述待处理视频的视频信息进行语义识别，并基于语义识别结果确定第一内容标签集合，其中，所述第一内容标签集合包括至少一个候选的内容标签；

处理单元，用于将所述第一视频段中的每个视频帧转换为视频图像，并基于K个视频图像生成第二内容标签集合，其中，所述第二内容标签集合包括至少一个候选的内容标签，所述K个视频图像为T个视频图像中满足图像保留条件的视频图像；

所述确定单元，还用于根据所述第一内容标签集合以及所述第二内容标签集合，确定至少一个图像模板；

所述处理单元，还用于基于所述第一视频段，将所述K个视频图像中的每个视频图像分别与所述至少一个图像模板进行匹配，得到所述每个视频图像的弹幕弱化区域，其中，所述弹幕弱化区域表示待进行弹幕隐藏或弹幕透明度增加的区域。

8.根据权利要求7所述的装置，其特征在于，所述确定单元，具体用于：

9.根据权利要求7所述的装置，其特征在于，所述处理单元，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述处理单元，具体用于：

11.根据权利要求7所述的装置，其特征在于，所述处理单元，具体用于：

根据所述待处理视频的视频流信息获取解码器；

12.根据权利要求11所述的装置，其特征在于，所述处理单元，具体用于：

13.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序时实现如权利要求1至6中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。