CN109948611A

CN109948611A - 一种信息区域确定的方法、信息展示的方法及装置

Info

Publication number: CN109948611A
Application number: CN201910194525.6A
Authority: CN
Inventors: 黄浩智; 康頔; 姜文浩; 刘小蒙; 揭泽群; 凌永根; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-28
Anticipated expiration: 2039-03-14
Also published as: CN109948611B

Abstract

本申请公开了一种信息区域确定的方法，包括：获取待处理视频中的镜头集合，镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像；对镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，第一信息区域携带目标标识；根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域，第二图像为第一图像之后的一帧图像，第二信息区域为第二图像的跟踪检测结果，第二信息区域携带目标标识；若检测到第二图像中存在第三信息区域，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域。本申请还公开了一种信息展示的方法和装置。本申请考虑到视频中前后两帧图像在时域上的关系，从而得到时间连续且空间平滑的信息区域。

Description

一种信息区域确定的方法、信息展示的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种信息区域确定的方法、信息展示的方法及装置。

背景技术

随着多媒体信息的不断发展，电视剧、电影以及广播节目等越来越普及，用户可以通过电视、电脑、手机以及平板电脑等终端设备随时随地的观看节目，使得用户得到更及时，更方便，且更丰富的体验。其中，广告作为媒体的重要业务，也是用户观看度较高的核心业务之一，因此，如何在一段视频中适时地插入广告已成为人们关心的话题。

目前，通常采用基于图片的物体检测技术来检测感兴趣的区域，这些感兴趣的区域可以是图像帧(picture frame)以及公告牌(billboard)等，当检测到这些类别的区域时，即可将检测结果提取出来，然后在这些区域内植入平面广告。

然而，采用上述方法检测区域时并没有利用视频内不同图像帧在时域上的信息，对于遮挡、光照突变、运动模糊以及离焦模糊等情况，容易导致输出的检测结果在时间上不连续，并且在空间上发生突变。因此，基于图片的物体检测技术只能检测出离散的广告位。

发明内容

本申请实施例提供了一种信息区域确定的方法、信息展示的方法及装置，结合物体检测技术以及物体跟踪技术能够得到广告位，该广告位的生成考虑到视频中前后两帧图像在时域上的关系，从而可以应对遮挡、光照突变、运动模糊以及离焦模糊等情况，进而得到时间连续且空间平滑的广告位。

有鉴于此，本申请第一方面提供一种信息区域确定的方法，包括：

获取待处理视频中的镜头集合，其中，所述镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，所述N为大于或等于1的整数；

对所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，所述目标镜头为所述镜头集合中的一个镜头，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息区域携带目标标识；

根据所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息区域为所述第二图像的跟踪检测结果，所述第二信息区域携带所述目标标识；

若检测到所述第二图像中存在第三信息区域，则对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识，所述目标信息区域用于展示目标业务信息。

本申请第二方面提供一种信息区域确定装置，包括：

获取模块，用于获取待处理视频中的镜头集合，其中，所述镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，所述N为大于或等于1的整数；

检测模块，用于对所述获取模块获取的所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，所述目标镜头为所述镜头集合中的一个镜头，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息区域携带目标标识；

确定模块，用于根据所述检测模块检测得到的所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息区域为所述第二图像的跟踪检测结果，所述第二信息区域携带所述目标标识；

融合模块，用于若检测到所述第二图像中存在第三信息区域，则对所述第三信息区域以及所述确定模块确定的所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识，所述目标信息区域用于展示目标业务信息。

在一种可能的设计中，在本申请实施例的第二方面的第一种实现方式中，

所述获取模块，具体用于获取所述待处理视频；

根据所述待处理视频生成视频片段集合，其中，所述视频片段集合包括P个视频片段，所述P为大于或等于1的整数；

通过镜头边界检测模型对所述视频片段集合中的每个视频片段进行检测，得到Q个镜头边界视频片段，其中，所述镜头边界检测模型用于检测视频片段中的镜头边界，所述Q为大于或等于0，且小于或等于所述P的整数；

根据所述所述P个视频片段以及所述Q个镜头边界视频片段，确定所述镜头集合。

在一种可能的设计中，在本申请实施例的第二方面的第二种实现方式中，

所述获取模块，具体用于通过所述镜头边界检测模型对目标视频片段进行检测，得到镜头边界检测结果，其中，所述目标视频片段属于所述视频片段集合中的一个视频片段；

根据所述镜头边界检测结果确定所述目标视频片段的视频过渡类型。

在一种可能的设计中，在本申请实施例的第二方面的第三种实现方式中，

所述获取模块，具体用于若根据所述镜头边界检测结果确定为第一视频过渡类型，则确定所述目标视频片段属于所述镜头集合的一个镜头，其中，所述第一视频过渡类型表示未检测到镜头边界；

若根据所述镜头边界检测结果确定为第二视频过渡类型，则确定所述目标视频片段属于所述镜头边界视频片段，其中，所述第二视频过渡类型表示检测到突变过渡边界；

若根据所述镜头边界检测结果确定为第三视频过渡类型，则确定所述目标视频片段属于所述镜头边界视频片段，其中，所述第三视频过渡类型表示为检测到渐变过渡边界。

在一种可能的设计中，在本申请实施例的第二方面的第四种实现方式中，

所述检测模块，具体用于获取所述目标镜头中的图像集合，其中，所述图像集合中包括至少一帧图像；

通过物体检测模型对所述图像集合中的每帧图像进行检测，得到所述每帧图像的物体检测结果，其中，所述物体检测模型用于检测图像中的物体；

根据所述每帧图像的物体检测结果确定所述第一图像所对应的所述第一信息区域。

在一种可能的设计中，在本申请实施例的第二方面的第五种实现方式中，

所述检测模块，具体用于通过所述物体检测模型中的卷积神经网络CNN，提取所述图像集合中的目标图像的图像特征，其中，所述目标图像属于所述图像集合中的一帧图像；

通过所述物体检测模型中的区域提案网络RPN获取所述目标图像的业务候选区域；

根据所述目标图像的图像特征以及所述目标图像的业务候选区域，得到所述目标图像的物体检测结果；

若所述目标图像的物体检测结果满足信息区域提取条件，则确定所述目标图像为所述第一图像。

在一种可能的设计中，在本申请实施例的第二方面的第六种实现方式中，

所述确定模块，具体用于通过目标跟踪模型中的卷积神经网络CNN对所述第一信息区域进行处理，得到第一特征图；

通过所述目标跟踪模型中的所述CNN对所述第二图像进行处理，得到第二特征图，其中，所述第二特征图的特征数量大于所述第一特征图的特征数量；

将所述第一特征信息与所述第二特征信息进行匹配，得到M个匹配分值，其中，所述M为大于或等于1的整数；

根据所述M个匹配分值确定所述第二图像所对应的所述第二信息区域，其中，所述第二信息区域所对应的匹配分值为所述M个匹配分值中的最大值。

在一种可能的设计中，在本申请实施例的第二方面的第七种实现方式中，

所述检测模块，还用于在所述确定模块根据所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域之后，对所述目标镜头内的所述第二图像进行检测，得到所述第二图像的物体检测结果；

所述确定模块，还用于若所述检测模块检测得到所述第二图像的物体检测结果满足信息区域提取条件，则确定所述第二图像中存在所述第三信息区域；

所述确定模块，还用于若所述检测模块检测得到所述第二图像的物体检测结果不满足所述信息区域提取条件，则确定所述第二图像中不存在所述第三信息区域。

在一种可能的设计中，在本申请实施例的第二方面的第八种实现方式中，所述信息区域确定装置还包括执行模块；

所述获取模块，还用于在所述融合模块对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之前，获取所述第三信息区域与所述第二信息区域的重叠度；

所述执行模块，用于若所述获取模块获取的所述第三信息区域与所述第二信息区域的重叠度达到重叠度阈值，则执行所述对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域的步骤；

所述确定模块，还用于若所述获取模块获取的所述第三信息区域与所述第二信息区域的重叠度未达到所述重叠度阈值，则将所述第二信息区域确定为所述目标信息区域。

在一种可能的设计中，在本申请实施例的第二方面的第九种实现方式中，

所述确定模块，还用于若检测到所述第二图像中不存在所述第三信息区域，则将所述第二信息区域确定为所述目标信息区域。

在一种可能的设计中，在本申请实施例的第二方面的第十种实现方式中，所述信息区域确定装置还包括调整模块以及展示模块；

所述获取模块，还用于在所述融合模块对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之后，获取待展示业务信息；

所述调整模块，还用于根据所述目标信息区域对所述获取模块获取的所述待展示业务信息进行调整，得到所述目标业务信息，其中，所述目标信息区域对应区域信息，所述区域信息包括帧信息以及区域位置信息；

所述展示模块，用于在所述目标信息区域中展示所述调整模块调整后得到的所述目标业务信息。

本申请第三方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

若检测到所述第二图像中存在第三信息区域，则对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识，所述目标信息区域用于展示目标业务信息；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请四方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

本申请的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的第六方面提供了一种视频内信息展示的方法，包括：

获取待处理视频；

对所述待处理视频中的第一图像进行检测，得到第一图像所对应的第一信息区域，其中，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息区域携带目标标识；

根据所述第一信息区域确定第二图像所对应的第二信息区域，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息区域为所述第二图像的跟踪检测结果，所述第二信息区域携带所述目标标识；

若检测到所述第二图像中存在第三信息区域，则对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识；

对所述目标信息区域进行处理。

本申请的第七方面提供了一种信息展示的方法，包括：

对所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息展示位，其中，所述目标镜头为所述镜头集合中的一个镜头，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息展示位携带目标标识；

根据所述第一信息展示位域确定所述目标镜头内第二图像所对应的第二信息展示位，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息展示位为所述第二图像的跟踪检测结果，所述第二信息展示位携带所述目标标识；

若检测到所述第二图像中存在第三信息展示位，则对所述第三信息展示位以及所述第二信息展示位进行融合，得到目标信息展示位；

在所述目标信息展示位上生成信息。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种信息区域确定的方法，首先获取待处理视频中的镜头集合，其中，镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，然后可以对镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，目标镜头为镜头集合中的一个镜头，第一信息区域为第一图像的物体检测结果，且第一信息区域携带目标标识，接下来需要根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域，其中，第二图像为第一图像之后的一帧图像，第二信息区域为第二图像的跟踪检测结果，且第二信息区域携带目标标识，若检测到第二图像中存在第三信息区域，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域，其中，第三信息区域为第二图像的物体检测结果，且第三信息区域携带目标标识，目标信息区域用于展示目标业务信息。通过上述方式，结合物体检测技术以及物体跟踪技术能够得到信息区域，该信息区域的生成考虑到视频中前后两帧图像在时域上的关系，从而可以应对遮挡、光照突变、运动模糊以及离焦模糊等情况，进而得到时间连续且空间平滑的信息区域。

附图说明

图1为本申请实施例中信息区域确定系统的一个架构示意图；

图2为本申请实施例中信息区域确定方法的一个整体框架示意图；

图3为本申请实施例中信息区域确定的方法一个实施例示意图；

图4为本申请实施例中镜头内部图像的一个实施例示意图；

图5为本申请实施例中镜头边界检测模型内部的一个基本网络单元示意图；

图6为本申请实施例中突变过渡的一个效果示意图；

图7为本申请实施例中渐变过渡的一个效果示意图；

图8为本申请实施例中物体检测模型的一个结构示意图；

图9为本申请实施例中特征金字塔网络的一个结构示意图；

图10为本申请实施例中目标跟踪模型的一个结构示意图；

图11为本申请应用场景中在目标信息区域中展示目标业务信息的一个实施例示意图；

图12为本申请实施例中信息区域确定装置的一个实施例示意图；

图13为本申请实施例中信息区域确定装置的另一个实施例示意图；

图14为本申请实施例中信息区域确定装置的另一个实施例示意图；

图15为本申请实施例中服务器的一个结构示意图；

图16为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请所提供的信息区域确定方法适用于人工智能领域，具体可以应用于定位视频中适合植入广告的时间以及空间，即确定植入式广告的位置，该视频包含但不仅限于电视剧、电影以及短视频。植入式广告又称植入式营销，是指将产品或品牌及其代表性的视觉符号甚至服务内容策略性融入电影、电视剧或其他电视节目内容中，通过场景的再现，让观众留下对产品及品牌印象，进而达到营销的目的。植入式广告与传媒载体相互融合，共同建构受众现实生活或理想情境一部分，将商品或服务信息以非广告的表现方法，在受众无意识的情态下，悄无声息地灌输给受众。因其隐秘的特点，植入式广告还被称为嵌入式广告或软性广告。电视剧成为一些大中型企业植入广告较青眯的方式。现今社会，影视行业的高速发达，和人们对于电视剧的高度热衷，就决定了电视剧这个很好的商业信息传播途径。本申请中，可以针对电视节目的前景植入和后景植入设计信息区域确定方法。

关于前景植入，主要方式是针对角色手中的物品，例如，一个人拿起电话为A品牌的，或者使用的笔记本为B品牌的，这些都是一种好的植入方式。

关于后景植入，是指在拍摄的过程中出现企业的品牌或者产品，电视广告信息在电视剧中属于后景，也就是次要部分的走场，属于生活的一角。

为了便于理解，本申请提出了一种信息区域确定的方法，该方法应用于图1所示的信息区域确定系统，请参阅图1，图1为本申请实施例中信息区域确定系统的一个架构示意图，如图所示，本申请所提供的信息区域确定方法可以用于服务器，也可以应用于客户端，下面将以信息区域确定方法应用于服务器为例进行介绍，请结合图2，图2为本申请实施例中信息区域确定方法的一个整体框架示意图，如图所示，服务器利用神经网络进行镜头过渡检测，物体检测以及目标追踪，由此确定电视节目中适合植入广告的时间以及空间位置，具体地，首先对视频进行镜头检测，考到到一个视频(比如一集电视剧)由一个个镜头拼接而成，并且镜头与镜头之间有不连续的显著变化，所以镜头是适合处理的一个最小单元，因此，需要被分离出来，后续的操作只需要对镜头进行操作即可。接下来利用物体检测技术检测出想要的物体(比如可以是广告牌或者海报等平面区域)。将物体检测的结果作为初始化对象，由此进行目标跟踪。在目标跟踪的过程中，会和已有的物体检测结果相结合，将物体检测结果和目标跟踪结果融合后得到最终的跟踪结果。该跟踪结果具体可以是广告位，在该广告位中植入广告，并返回至客户端。客户端便可以在播放电视节目的过程中，在广告位上看到植入的广告。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。

本申请还可以应用于视频抠图的场景，在视频中存在多帧图像，假设多个图像中均包括用户感兴趣的物体，比如某个人物、某个动物或者某件物品等，此时，可以依次对不同的图像进行处理。首先利用物体检测技术检测出一个图像中想要的物体。将物体检测的结果作为初始化对象，由此进行目标跟踪。在目标跟踪的过程中，会和已有的物体检测结果相结合，将物体检测结果和目标跟踪结果融合后得到最终的跟踪结果。该跟踪结果具体可以是人物A所在的位置，在人物A所在的位置上贴上一个贴图(比如人物B)并返回至客户端。接下来，对后续的图像执行类似处理，即利用物体检测技术检测出人物A所在的位置。将人物A所在的位置作为初始化对象，由此进行目标跟踪。在目标跟踪的过程中，会和已有的物体检测结果相结合，将物体检测结果和目标跟踪结果融合后得到最终的跟踪结果。该跟踪结果也是人物A所在的位置，在人物A所在的位置上贴上人物B的贴图，或者直接抠出人物A所在的区域，然后返回至客户端。客户端便可以在播放电视节目的过程中，看到人物B出现在人物A本来所在的位置上，或者在人物A本来所在的位置上看不到其他的物体。

结合上述介绍，下面将对本申请中信息区域确定的方法进行介绍，请参阅图3，本申请实施例中信息区域确定的方法一个实施例包括：

101、获取待处理视频中的镜头集合，其中，镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，N为大于或等于1的整数；

本实施例中，信息区域确定装置获取待处理视频中的镜头集合，其中，待处理视频包含但不仅限于电视剧、电影、综艺节目、体育节目以及短视频。信息区域确定装置可以部署在服务器的中央处理器(Central Processing Unit，CPU)或者图形处理器(GraphicsProcessing Unit，GPU)中，也可以部署于终端设备的CPU中，CPU处理效率越高，信息区域确定装置的工作流程越快。

在镜头集合中包括了N个镜头，通常情况下，N为大于1的整数，但是对于“一镜到底”的电视节目而言，N也可以为1。相邻的两个镜头之间具有镜头边界，而相邻的两个镜头边界之间的图像帧组成一个镜头，一个镜头内部所有图像帧都是连续的，由一次连续的拍摄所得。镜头是影视造型语言中最基本的单位，也是一部影视剧的基本构成单元。

为了便于介绍，请参阅图4，图4为本申请实施例中镜头内部图像的一个实施例示意图，如图所示，一个镜头所包括的帧是从第一行第二帧图像开始，直到第五行第五帧图像结束。每一部影视剧都由一个个镜头组成，每个镜头又由多帧画面组成。打一个形象的比方，每帧画面就是文章的一个字，而每个镜头就是文章的一个句子。当然句子有长短，修辞等等之说，镜头也有长镜头短镜头，远景近景等之说。

102、对镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，目标镜头为镜头集合中的一个镜头，第一信息区域为第一图像的物体检测结果，第一信息区域携带目标标识；

本实施例中，信息区域确定装置选择镜头集合中的任意一个镜头进行检测，以目标镜头为例，信息区域确定装置采用物体检测(object detection)方法对目标镜头中每帧图像进行检测，以目标镜头中第一个被检测到物体的图像作为第一图像，比如，目标镜头包括100帧图像，第一帧图像中没有检测出感兴趣的物体，第二帧图像中检测出感兴趣的物体，于是，将第二帧图像作为第一图像。可以理解的是，感兴趣的物体包含但不仅限于广告牌、海报以及相框等适合植入平面广告的区域，这些区域可以被替换为广告商的海报。

可以理解的是，主流的物体检测方法主要是基于深度学习模型，可以分为两大类，即二阶段(two-stage)检测算法以及一阶段(one-stage)检测算法。其中，two-stage检测算法划分为两个阶段，首先产生候选区域，然后对候选区域分类。这类two-stage检测算法具体可以是区域卷积神经网络(region CNN，R-CNN)、快速区域卷积神经网络(fast regionCNN，fast R-CNN)以及更快区域卷积神经网络(faster region CNN，faster R-CNN)等。

one-stage检测算法可以同时得到候选区域以及分类，这类one-stage算法具体可以是单点多盒探测器(single shot multibox detector，SSD)、只看一次(You only lookonce，YOLO)v1算法、YOLOv2算法以及YOLOv3算法等。

103、根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域，其中，第二图像为第一图像之后的一帧图像，第二信息区域为第二图像的跟踪检测结果，第二信息区域携带目标标识；

本实施例中，信息区域确定装置根据前一帧图像(即第一图像)中的第一信息区域，可初始化一个目标跟踪器，采用目标跟踪(object tracking)算法，即可得到本帧图像的第二信息区域，其中，本帧图像也就是第一图像的下一帧图像，即第二图像。第二信息区域和第一信息区域携带同样的标识，即目标标识，同一个标识表示对应同一个业务信息。其中，信息区域具体可以是广告位，业务信息具体可以是广告，比如广告商的海报。

可以理解的是，主流的目标跟踪算法可以是均值偏移(mean shift)算法，meanshift算法是一种基于概率密度分布的跟踪方法，使目标的搜索一直沿着概率梯度上升的方向，迭代收敛到概率密度分布的局部峰值上。目标跟踪算法还可以卡尔曼滤波(Kalmanfilter)算法，Kalman Filter算法常被用于描述目标的运动模型，它不对目标的特征建模，而是对目标的运动模型进行了建模，常用于估计目标在下一帧的位置。目标跟踪算法还可以是粒子滤波(particle filter)算法，particle filter算法是一种基于粒子分布统计的算法，以跟踪为例，首先对跟踪目标进行建模，并定义一种相似度度量确定粒子与目标的匹配程度。在目标搜索的过程中，它会按照一定的分布(比如均匀分布或高斯分布)撒一些粒子，统计这些粒子的相似度，确定目标可能的位置。在这些位置上，下一帧加入更多新的粒子，确保在更大概率上跟踪上目标。目标跟踪算法还可以基于特征点的光流跟踪，即在目标上提取一些特征点，然后在下一帧计算这些特征点的光流匹配点，统计得到目标的位置。在跟踪的过程中，需要不断补充新的特征点，删除置信度不佳的特征点，以此来适应目标在运动中的形状变化。此外，目标跟踪算法还可以是其他算法，此处不做限定。

104、若检测到第二图像中存在第三信息区域，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域，其中，第三信息区域为第二图像的物体检测结果，第三信息区域携带目标标识，目标信息区域用于展示目标业务信息。

本实施例中，信息区域确定装置采用物体检测方法对第二图像进行检测，如果检测到第二图像中存在物体，即存在第三信息区域，则对第二信息区域与第三信息区域进行融合，从而得到融合后的目标信息区域。如果未检测到第二图像中存在物体，即不存在第三信息区域，则将第二信息区域作为目标信息区域。其中，第三信息区域也携带目标标识，且融合后的目标信息区域也携带目标标识，在目标信息区域中可展示目标业务信息。

具体而言，信息区域确定装置对镜头内所有图像帧都要进行物体检测。假设第一帧图像中有n1个信息区域，即存在n1个边界框(bounding box，bbox)，第二帧图像中有n2个信息区域，即存在n2个bbox，以此类推。在检测完镜头中的每帧图像之后，还需要对所有检测到的物体进行目标跟踪。为了保证跟踪不出现重复和遗漏，因此，在跟踪的过程中，会不断判断是否有物体检测的信息区域(即bbox)在当前目标跟踪的轨迹上。

如果在目标跟踪轨迹上，则可以融合物体检测得到的信息区域(即bbox)和目标跟踪的得到的信息区域(即bbox)，并且从所有候选的物体检测的信息区域(即bbox)池子里，删掉已经被分配到某条目标跟踪轨迹上的信息区域(即bbox)，这样就能够保证跟踪不出现重复的情况。而一条目标跟踪轨迹结束后，如果有剩下的物体检测得到的信息区域(即bbox)，那么在初始化下一个目标跟踪器，反复执行，直到物体检测的信息区域(即bbox)池子里面没有信息区域(即bbox)为止。这样就能够保证跟踪不出现遗漏的情况。

在实际情况中，同一帧图像中可能存在多个信息区域(即存在多个bbox)，为了识别不同帧图像中哪些信息区域(即bbox)是相同的，于是对每个信息区域设置标识，同样的标识所对应的信息区域应展示相同的业务信息，而不同标识的信息区域展示不同的业务信息。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的信息区域确定的方法第一个可选实施例中，获取待处理视频中的镜头集合，可以包括：

获取待处理视频；

根据待处理视频生成视频片段集合，其中，视频片段集合包括P个视频片段，P为大于或等于1的整数；

通过镜头边界检测模型对视频片段集合中的每个视频片段进行检测，得到Q个镜头边界视频片段，其中，镜头边界检测模型用于检测视频片段中的镜头边界，Q为大于或等于0，且小于或等于P的整数；

根据P个视频片段以及Q个镜头边界视频片段，确定镜头集合。

本实施例中，介绍了一种获取镜头集合的方法。首先，信息区域确定装置获取待处理视频，将待处理视频分割成多个视频片段，从而生成视频片段集合，其中，视频片段集合可以包括P个视频片段，每个片段包括连续的多帧图像。比如，视频片段集合包括100个视频片段，每个视频片段包括连续的16帧图像，其中相邻两帧图像可以有50％的重合度，即重合8帧图像。然后可以将视频片段集合中的每个视频片段输入至镜头边界检测模型中，由镜头边界检测(shot boundary detection，SBD)模型输出P个视频过渡类型，即每个视频片段对应一个视频过渡类型。根据P个视频过渡类型从中获取Q个镜头边界视频片段，其中，Q为大于或等于0，且小于或等于P的整数。当Q为0时，表示视频片段集合中没有镜头边界视频片段，则得到的镜头集合包括P个镜头。当Q为P时，表示视频片段集合中全部都是镜头边界视频片段，则得到的镜头集合包括0个镜头。如果连续的两个16帧视频片段都有过渡，则这两个视频片段就会被合并(因为两个视频片段具有重合)。因此，融合过后如果有Q个镜头边界视频片段，那么视频会被分为(Q+1)个镜头，即每一个边界多出来一个镜头。

具体地，镜头集合中的镜头数量N的计算方式如下：

N＝P-Q；

其中，N表示镜头集合中的镜头数量。

为了便于理解，假设检测到待处理视频的的镜头边界视频片段为和其中，“trans”表示过渡，“i₁”表示第“i₁”帧，“i₂”表示第“i₂”帧，以此类推。由此可以得到如下三个镜头，即和

其次，本申请实施例中，提供了一种获取待处理视频中的镜头集合的方法，首先获取待处理视频，然后根据待处理视频生成视频片段集合，接下来需要通过镜头边界检测模型对视频片段集合中的每个视频片段进行检测，得到Q个镜头边界视频片段，最后根据P个视频片段以及Q个镜头边界视频片段，确定镜头集合。通过上述方式，可以过滤掉一部分不符合要求的镜头，以减少后续处理的计算消耗，由此，使用镜头作为后续所有操作的基本单元，并且极大地加大处理的并行程度。一个视频中通常含有几百个镜头，而这些镜头可以被并行处理，而不是顺序处理，从而充分利用已有的计算资源。

可选地，在上述图3对应的第一个实施例的基础上，本申请实施例提供的信息区域确定的方法第二个可选实施例中，通过镜头边界检测模型对视频片段集合中的每个视频片段进行检测，可以包括：

通过镜头边界检测模型对目标视频片段进行检测，得到镜头边界检测结果，其中，目标视频片段属于视频片段集合中的一个视频片段；

根据镜头边界检测结果确定目标视频片段的视频过渡类型。

本实施例中，将介绍如何通过镜头边界检测模型对视频片段集合中的每个视频片段进行检测，以视频片段集合中的任意一个视频片段为例进行说明，该视频片段即为目标视频片段。首先将目标视频片段输入至SBD模型，该SBD模型可以输出相应的镜头边界检测结果，镜头边界检测结果具体可以是一个标签，比如标签1，最后，根据镜头边界检测结果确定该目标视频片段所对应的视频过渡类型。

可以理解的是，本申请中可以输出三类镜头边界检测结果，每类镜头边界检测结果对应一个视频过渡类型。

下面将对SBD模型进行介绍，该SBD模型可以是一个三维卷积神经网络(convolutional 3D networks，C3D)模型，利用C3D模型得到一个待处理视频中的镜头集合。具体地，SBD模型使用了3D CNN，并且使用残差神经网络(residual neural network，ResNet)作为网络骨架，SBD模型含有1个卷积层(convolutional layer，conv layer)、8个残差神经网络中提出的基本单元(residual block，ResBlock)以及1个全连接层(fullyconnected layer，fc layer)，为了便于说明，请参阅图5，图5为本申请实施例中镜头边界检测模型内部的一个基本网络单元示意图，如图所示，假设输入设为X，将某一有参网络层设为H，那么以X为输入的此层的输出将为y＝f(w^Tx+b)，其中，f表示激励函数，w表示可学习的参数，b表示可学习的偏置，也可以合并在w里面。x是这一层网络的输入。F(X)表示残差。激励函数层(如线性整流函数(rectified linear unit，relu)层)不含有可学习的参数，或者极少的参数。通常情况下，conv层和fc层一共有18个共18个权重可以学习的层，即1+2*8+1＝18，也可以称为ResNet18。可学习参数的数量一定程度上表示了模型的学习能力。

再次，本申请实施例中，提供了一种通过SBD模型对视频片段集合中的每个视频片段进行检测的方法，首先通过镜头边界检测模型对目标视频片段进行检测，得到镜头边界检测结果，然后根据镜头边界检测结果确定目标视频片段的视频过渡类型。通过上述方式，利用SBD模型对视频片段进行检测，由此对得到准确的视频过渡类型，进而选择出适合的镜头作为后续处理的目标，无需人工检测每个视频片段的视频过渡类型，从而提升方案的效率，并且节省人力。

可选地，在上述图3对应的第二个实施例的基础上，本申请实施例提供的信息区域确定的方法第三个可选实施例中，根据镜头边界检测结果确定目标视频片段的视频过渡类型，可以包括：

若根据镜头边界检测结果确定为第一视频过渡类型，则确定目标视频片段属于镜头集合的一个镜头，其中，第一视频过渡类型表示未检测到镜头边界；

若根据镜头边界检测结果确定为第二视频过渡类型，则确定目标视频片段属于镜头边界视频片段，其中，第二视频过渡类型表示检测到突变过渡边界；

若根据镜头边界检测结果确定为第三视频过渡类型，则确定目标视频片段属于镜头边界视频片段，其中，第三视频过渡类型表示为检测到渐变过渡边界。

本实施例中，将介绍三类视频过渡类型。根据上述实施例的介绍可知，对于待处理视频而言可划分为多个视频片段，假设每个视频片段包括连续的16帧图像，相邻两个视频片段之间有8帧是重合的，也就是有50％的重合度。信息区域确定装置对每个视频片段进行检测，得到每个视频片段的镜头边界检测结果，镜头边界检测结果具体可以表现为标签。标签1对应第一视频过渡类型，其中，第一视频过渡类型表示未检测到镜头边界。标签2对应第二视频过渡类型，其中，第二视频过渡类型表示未检测到突变过渡边界。标签3对应第三视频过渡类型，其中，第三视频过渡类型表示未检测到渐变过渡边界。在本申请中可以过滤到所有包含过渡边界的视频片段，当然，在实际应用中，也可以选择只过滤掉渐变过渡的视频片段。

镜头与镜头直接的分界主要有突变和渐变两种，为了便于介绍，请参阅图6，图6为本申请实施例中突变过渡的一个效果示意图，如图所示，突变过渡即直接切换到下一个镜头的帧上，如图6中的第3帧图像到第4帧图像就是一个突变过渡。请参阅图7，图7为本申请实施例中渐变过渡的一个效果示意图，如图所示，渐变过渡会合成很多过渡帧出来，缓慢地从上一个镜头的最后一帧过渡到下一个镜头的第一帧，如图7中的第2帧图像到第16帧图像就是一个渐变过渡。这些效果会使得图像变得模糊，或者含有其他特效，所以可以认为这些图像帧都不适合插入广告，需要剔除掉。

进一步地，本申请实施例中，提供了一种确定视频过渡类型的方法，即可以分为三个情形，若根据镜头边界检测结果确定为第一视频过渡类型，则确定目标视频片段属于镜头集合的一个镜头，第一视频过渡类型表示未检测到镜头边界，若根据镜头边界检测结果确定为第二视频过渡类型，则确定目标视频片段属于镜头边界视频片段，第二视频过渡类型表示检测到突变过渡边界，若根据镜头边界检测结果确定为第三视频过渡类型，则确定目标视频片段属于镜头边界视频片段，第三视频过渡类型表示为检测到渐变过渡边界。通过上述方式，能够检测出视频片段是否存在过渡，对于镜头之间的过渡和时长很短的镜头而言，不适合植入广告，因此可以直接过滤掉，以减少后续处理的计算消耗。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的信息区域确定的方法第四个可选实施例中，对镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，可以包括：

获取目标镜头中的图像集合，其中，图像集合中包括至少一帧图像；

通过物体检测模型对图像集合中的每帧图像进行检测，得到每帧图像的物体检测结果，其中，物体检测模型用于检测图像中的物体；

根据每帧图像的物体检测结果确定第一图像所对应的第一信息区域。

本实施例中，将介绍一种物体检测的方法，首先，信息区域确定装置获取目标镜头中的图像集合，其中，该图像集合中包括至少一帧图像，物体检测器需要对目标镜头中的每帧图像进行检测，物体检测器属于信息区域确定装置的一部分，物体检测器的实现方式为物体检测模型。也就是将图像集合中的每帧图像输入至物体检测模型，由物体检测模型输出每帧图像对应的物体检测结果，根据物体检测结果可以判断图像中是否存在感兴趣的物体。假设目标镜头中存在100帧图像，其中，第1帧至第5帧中均未检测到感兴趣的物体(比如广告牌、海报以及相框等适合植入平面广告的区域)，而在第6帧中检测到了感兴趣的物体，那么第6帧图像即为第一图像，第6帧图像中检测到的其中一个感兴趣的物体即为第一信息区域。

可以理解的是，在一帧图像中可能存在多个感兴趣的物体，为了便于介绍，本申请中以其中一个感兴趣的物体为例进行介绍，然而这并不应理解为对本申请的限定。

第一图像中检测到的第一信息区域作为下一帧图像目标跟踪的初始化对象。物体检测模型具体可以包括faster RCNN网络，其中，可使用基于ResNet50的特征金字塔网络(Feature pyramid network，FPN)作为faster RCNN网络的主干CNN。经过大型分类标注的数据库(ImageNet)的预训练之后，进一步在包含有广告牌、海报、相框和其他类的数据上微调成为一个二分类器，以此只检测感兴趣的物体。

FPN是在主干网络上增加一些额外的连接(lateral connections)来逐渐融合不同分辨率的特征图，直至最高的分辨率位置。可以理解的是，主干网络可以是ResNet，也可以是其他的网络，比如VGG网络或者Inception，本申请使用ResNet50，然而这不应理解为对本申请的限定。

其次，本申请实施例中，提供了一种物体检测的方法，即首先获取目标镜头中的图像集合，然后通过物体检测模型对图像集合中的每帧图像进行检测，得到每帧图像的物体检测结果，最后根据每帧图像的物体检测结果确定第一图像所对应的第一信息区域。通过上述方式，能够利用物体检测模型快速且准确地对镜头中的每帧图像进行物体检测，从而有利于方案的可行性和可操作性。

可选地，在上述图3对应的第四个实施例的基础上，本申请实施例提供的信息区域确定的方法第五个可选实施例中，通过物体检测模型对图像集合中的每帧图像进行检测，得到每帧图像的物体检测结果，可以包括：

通过物体检测模型中的卷积神经网络CNN，提取图像集合中的目标图像的图像特征，其中，目标图像属于图像集合中的一帧图像；

通过物体检测模型中的区域提案网络RPN获取目标图像的业务候选区域；

根据目标图像的图像特征以及目标图像的业务候选区域，得到目标图像的物体检测结果；

若目标图像的物体检测结果满足信息区域提取条件，则确定目标图像为第一图像。

本实施例中，将结合物体检测模型的结构对图像的检测进行具体说明。为了便于说明，将以图像集合中的一帧图像为例进行介绍，该帧图像即为目标图像，可以理解的是，在实际中，可以对每帧图像都执行如目标图像的操作，也可以对任意几帧图像执行如目标图像的操作，还可以只对镜头中的第一帧图像执行如目标图像的操作，此处不做限定。

具体地，请参阅图8，图8为本申请实施例中物体检测模型的一个结构示意图，如图所示，图8为faster RCNN的网络结构，在CNN特征提取部分采用了可以提取多层次多尺度特征的具有FPN结构的ResNet50。首先使用一个主干网络(比如CNN)对目标图像提取特征，得到图像特征，即为特征图(feature maps)。然后把目标图像的图像特征输入至物体检测模型中的区域提案网络(Region Proposal Network，RPN)，当检测到至少一个业务候选区域时，即如图8所示的物体候选框，针对每一个业务候选区域，从目标图像中把相应的业务候选区域所对应的图像特征提取出来，然后送入至分类器(classifier)进行分类，由此可以获知业务候选区域是一个什么样的区域，比如平面区域或者是非平面区域。同时，将业务候选区域所对应的图像特征送入至回归器(regressor)进行修正，由此可以对区域的大小进行调整。结合分类器和回归器的处理得到物体检测结果，其中，物体检测结果表示为回归器对应的bbox和分类器对应的物体类别。

若目标图像的物体检测结果满足信息区域提取条件，则确定目标图像为第一图像。如果物体检测结果表示业务候选区域不是平面区域，那么认为不符合信息区域提取条件，于是，需要对目标图像的下一帧图像进行上述处理。

更具体地，基于FPN的网络结构，请参阅图9，图9为本申请实施例中特征金字塔网络的一个结构示意图，如图所示，图像上面三层代表主干网络(此处是ResNet50)的输出，右面的三层是经过额外连接把低分辨率的特征图和高分辨率的特征图进行融合。虚线框放大显示了额外连接的具体操作。左边的三个特征图分别称为C1、C2和C3，需要说明的是，C1、C2和C3尺度大小是按照α倍关系递减的，在实际应用中，也α可以根据需求进行设定，例如，C1的大小是128*128，C2的大小是64*64，而C3的大小是32*32。相应的，右边的三个与之对应的特征图分别称为P1、P2和P3。其中，P3是C3经过一个核个数为256，核大小为1*1的卷积核处理得到的，P2是将P3上采样(resize)在加上C2经过1*1的卷积核处理的结果(假设核的个数都是256)，P1同理。之后P1、P2、P3分别要连接一个3*3的卷积核处理，其目的是为了降低上采样的影响(artifact)。

再次，本申请实施例中，提供了一种检测得到物体检测结果的具体方式，首先通过物体检测模型中的CNN，提取图像集合中的目标图像的图像特征，然后通过物体检测模型中的区域提案网络RPN获取目标图像的业务候选区域，再根据目标图像的图像特征以及目标图像的业务候选区域，得到目标图像的物体检测结果，若目标图像的物体检测结果满足信息区域提取条件，则确定目标图像为第一图像。通过上述方式，利用物体检测模型即可得到每个图像中是否存在信息区域，一方面无需人工检测，由此提升了方案的应用效率，另一方面无需人工标注，从而减少了人为因素导致的检测失误率高的情况，进而提升方案的可靠性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的信息区域确定的方法第六个可选实施例中，根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域，可以包括：

通过目标跟踪模型中的卷积神经网络CNN对第一信息区域进行处理，得到第一特征图；

通过目标跟踪模型中的CNN对第二图像进行处理，得到第二特征图，其中，第二特征图的特征数量大于第一特征图的特征数量；

将第一特征信息与第二特征信息进行匹配，得到M个匹配分值，其中，M为大于或等于1的整数；

根据M个匹配分值确定第二图像所对应的第二信息区域，其中，第二信息区域所对应的匹配分值为M个匹配分值中的最大值。

本实施例中，将结合目标跟踪模型的结构对图像的跟踪进行说明。具体地，请参阅图10，图10为本申请实施例中目标跟踪模型的一个结构示意图，如图所示，模板帧用的是第一信息区域，检测帧用的是第二图像，首先，可以通过目标跟踪模型中的CNN提取第一信息区域的第一特征图，以及得到第二图像的第二特征图，这个过程可称为把图像转换到特征空间。需要注意的是，第一信息区域属于第一图像，第一图像是第二图像之前的任意一帧图像。于是，使用模板帧(如第一信息区域的第一特征图)的特征和待跟踪的检测帧(如第二图像)进行互相关运算(cross correlation)，即在特征空间做模板匹配。分类分支(classification branch)用于对每个经过互相关运算的图像之间进行打分，本申请只有前景和背景两个类，所以等价是当前候选框是上一帧跟踪物体的得分是多少，或者概率是多少。回归分支(regression branch)对应物体检测里面的回归操作，即对当前候选区域进行修正，由于这些候选区域都是提前定义好的，不一定与实际要使用的信息区域正好重合，因此，需要进行修正才能更加精确。

更具体地，在特征空间对比的时候，采用滑动窗口(sliding window)的形式，输出二维图片，每一个位置存有相似度，相似度得分最高的点会被认为是当前帧被跟踪物体的位置。假设第一信息区域的特征空间为10*10，第二图像的特征空间为100*100，将滑动窗口的大小设置为10*10，步长为5，即可得到M个匹配分值，从M个匹配分值中选择最大分值所对应的窗口，该窗口即为第二信息区域。其中，匹配分值会被距离和边界框变化影响，对于上一帧检测框的中心和当前检测框的中心之间的位移变化大，以及检测框的大小或者长宽比例变化很大的情况，预测得到的匹配分值会受到更多惩罚。

图10的左半部分是孪生特征提取网络(Siamese RPN，SiamRPN)结构，上下支路的网络结构和参数相同，上面是输入模板帧的第一信息区域，靠此信息检测后一帧图像中的目标。下面是待检测的第二图像，显然，作为检测帧的第二图像的搜索区域比作为模板帧的第一信息区域的区域大。中间是RPN结构，又分为两部分，上部分是分类分支，模板帧和检测帧的经过SiamRPN后的特征再经过一个卷积层，模板帧特征经过卷积层后变为2k*256通道，k是固定(anchor)数量，因为分为两类，所以是2k。下面是边界框回归支路，因为有四个量[x,y,w,h]，所以是4k，图10中的RPN右边是输出。

其次，本申请实施例中，提供了一种确定第二信息区域的具体方式，即通过目标跟踪模型中的CNN对第一信息区域进行处理，得到第一特征图，并对第二图像进行处理，得到第二特征图，然后将第一特征信息与第二特征信息进行匹配，得到M个匹配分值，最后根据M个匹配分值确定第二图像所对应的第二信息区域。通过上述方式，能够利用目标跟踪模型对信息区域进行跟踪，如果仅仅对信息区域进行物体检测，容易发生漏检，或者同一个信息区域在相邻两帧的bbox差别很大，所以只依赖物体检测效果很不理想，因此，结合目标跟踪模型得到的信息区域能够更好地实现区域检测的可靠性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的信息区域确定的方法第七个可选实施例中，根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域之后，还可以包括：

对目标镜头内的第二图像进行检测，得到第二图像的物体检测结果；

若第二图像的物体检测结果满足信息区域提取条件，则确定第二图像中存在第三信息区域；

若第二图像的物体检测结果不满足信息区域提取条件，则确定第二图像中不存在第三信息区域。

本实施例中，介绍了一种对第二图像的处理方式。在信息区域确定装置采用目标跟踪技术对第二图像进行跟踪之后，可以得到第二信息区域，第二信息区域的生成与上一帧图像中的第一信息区域相关，其中，第一信息区域是物体检测的结果。接下来，继续采用物体检测技术对第二图像进行检测，如果第二图像的物体检测结果满足信息区域提取条件，则确定第二图像中存在第三信息区域，反之，如果第二图像的物体检测结果不满足信息区域提取条件，则确定第二图像中不存在第三信息区域。在存在第三信息区域的情况下，即可对第二信息区域和第三信息区域进行融合，得到目标信息区域。

可以理解的是，引入物体检测得到的第三信息区域来更新跟踪得到的第二信息区域，可以防止跟踪器漂移到图像的背景上，这是因为物体检测一般不会检测到背景或者非物体部分，但是跟踪算法无法保证这一点，原因之一是跟踪算法对速度要求高，所以CNN比较浅，自然能力就差一些。另一个原因是跟踪器的训练样本少，容易在跟踪的过程中漂移到背景上并开始跟踪背景。此外，引入物体检测得到的第三信息区域来更新跟踪得到的第二信息区域，还可以防止跟踪器遇到长时间遮挡后无法重新跟踪完整的物体，这是因为长时间被遮挡后，跟踪器就开始跟踪前面的遮挡物体，而不是原来的物体了，后续即使能够再次看到完整的目标，一般也无法跟踪目标的整体，而会跟踪目标的局部。

其次，本申请实施例中，在确定目标镜头内第二图像所对应的第二信息区域之后，可以对目标镜头内的第二图像进行检测，得到第二图像的物体检测结果，若第二图像的物体检测结果满足信息区域提取条件，则确定第二图像中存在第三信息区域，若第二图像的物体检测结果不满足信息区域提取条件，则确定第二图像中不存在第三信息区域。通过上述方式，在对第二图像完成目标跟踪之后，还需要进一步引入物体检测技术对第二图像进行物体检测，结合物体检测技术和目标跟踪技术对图像进行融合，可以有效地防止跟踪器漂移到背景上，并且防止跟踪器遇到长时间遮挡后无法重新跟踪完整的物体的情况。

可选地，在上述图3以及图3对应的第一个至第七个实施例的基础上，本申请实施例提供的信息区域确定的方法第八个可选实施例中，对第三信息区域以及第二信息区域进行融合，得到目标信息区域之前，还可以包括：

获取第三信息区域与第二信息区域的重叠度；

若第三信息区域与第二信息区域的重叠度达到重叠度阈值，则执行对第三信息区域以及第二信息区域进行融合，得到目标信息区域的步骤；

若第三信息区域与第二信息区域的重叠度未达到重叠度阈值，则将第二信息区域确定为目标信息区域。

本实施例中，将介绍一种信息区域融合的方式。在得到第二图像的第二信息区域之后，可以将第二信息区域与第二图像中的第三信息区域进行对比，具体地，就可以计算第二信息区域与第三信息区域之间的重叠度，该重叠度具体可以表现为交并比(Intersection over Union，IoU)。如果第三信息区域与第二信息区域的重叠度达到重叠度阈值，则融合第三信息区域以及第二信息区域，从而得到目标信息区域，并且将目标信息区域作为下一帧的目标跟踪的依据。如果第三信息区域与第二信息区域的重叠度未达到重叠度阈值，则将第二信息区域确定为目标信息区域，并且直接把目标跟踪器当前的第二信息区域不加修改的送回至目标跟踪器。

信息区域融合的策略是取两个信息区域(即bbox)中心的均值作为新的信息区域的中心，分别取两个信息区域的长宽的均值作为新的信息区域的长宽。具体地，每个信息区域都有一个中心点，取两个中心点的均值，即两个框中点连线的中点作为新的中心点。同样的，最终的信息区域长宽分别为目标跟踪器输出的信息区域和物体检测器输出的信息区域的长宽的均值。

当没有匹配的物体检测结果并且目标跟踪器的置信分数小于阈值时，即可认为目标消失，从而及时停止跟踪。当这个镜头内部所有的物体检测结果都被分配到同一个跟踪轨迹上后，认为这个镜头里面出现的所有不同的感兴趣物体已经都被跟踪。跟踪轨迹的数量即为广告位的数量，跟踪轨迹中含有的帧号和检测框的位置和大小信息即为广告位在时间和空间上的位置。跟踪轨迹是由连续很多帧的信息区域(即bbox)构成的，包含时间上的位置和空间上的位置以及空间上的大小,(frame_id,x1,y1,x2,y2)五个参数表示一个信息区域。连续的信息区域构成了跟踪轨迹。比如说有连续100帧，那么这连续100帧可以插入一个广告，这个广告连续出现了100帧，位置就是那些信息区域在每一帧上的位置。

融合是融合同一帧上的物体检测结果和目标跟踪结果，如果目标跟踪结果(第二信息区域)和位于当前帧的物体检测结果(第三信息区域)有很高的重叠度，此时，认为这个物体检测结果和目标跟踪结果匹配上了，于是可以对物体检测结果和目标跟踪结果进行融合。

更进一步地，本申请实施例中，在对第三信息区域以及第二信息区域进行融合，得到目标信息区域之前，还可以获取第三信息区域与第二信息区域的重叠度，若第三信息区域与第二信息区域的重叠度达到重叠度阈值，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域，若第三信息区域与第二信息区域的重叠度未达到重叠度阈值，则将第二信息区域确定为目标信息区域。通过上述方式，能够在两个区域之间重叠度不够高情况下，利用目标跟踪技术得到相应的信息区域，对于无法检测到信息区域的情况下，仍可以进行信息区域的追踪，避免了只使用物体检测技术所带来的弊端，防止输出的信息区域出现抖动或者缺失等情况，从而提升广告展示的效果。

可选地，在上述图3以及图3对应的第一个至第七个实施例的基础上，本申请实施例提供的信息区域确定的方法第九个可选实施例中，还可以包括：

若检测到第二图像中不存在第三信息区域，则将第二信息区域确定为目标信息区域。

本实施例中，介绍了另一种确定目标信息区域的情形，即在信息区域确定装置未检测到第二图像中存在第三信息区域时，直接将第二信息区域确定为目标信息区域。也就是说，不需要进行区域的融合，而是使用目标跟踪得到的第二信息区域作为第二图像的目标信息区域。

更进一步地，本申请实施例中，在未检测到第二图像中包括第三信息区域的情况下，则直接将第二信息区域确定为目标信息区域。通过上述方式，能够在没有检测到物体的情况下，利用目标跟踪技术得到相应的信息区域，对于无法检测到信息区域的情况下，仍可以进行信息区域的追踪，避免了只使用物体检测技术所带来的弊端，防止输出的信息区域出现抖动或者缺失等情况，从而提升广告展示的效果。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的信息区域确定的方法第十个可选实施例中，对第三信息区域以及第二信息区域进行融合，得到目标信息区域之后，还可以包括：

获取待展示业务信息；

根据目标信息区域对待展示业务信息进行调整，得到目标业务信息，其中，目标信息区域对应区域信息，区域信息包括帧信息以及区域位置信息；

在目标信息区域中展示目标业务信息。

本实施例中，将介绍如何在目标信息区域中展示目标业务信息。本申请通过检测广告位以植入广告，广告位一般来说是位于无人的部分，可以认为是背景。视频是由一个一个镜头组成的，通常情况下，不同的镜头所包含的场景是完全不同的。对于同一个场景，但是拍摄角度相差很大，以至于无人的背景部分几乎没有重叠，所以没有必要跨镜头来考虑广告植入的问题。

信息区域确定装置获取待展示业务信息，具体可以是广告商提供的广告信息。然后目标信息区域提取相应的区域信息，区域信息具体包括帧信息以及区域位置信息，通过区域信息可知适合植入广告的位置，区域信息表示为(frame_id,x1,y1,x2,y2)，其中，frame_id表示图像的帧号，即帧信息。x1表示目标信息区域在对角线上的顶点横坐标，y1表示目标信息区域的顶点纵坐标，x2表示目标信息区域在对角线上的另一顶点横坐标，y2表示目标信息区域在对角线上的另一顶点纵坐标，即x1,y1,x2,y2表示区域位置信息。

由此可见，基于区域位置信息能够对目标业务信息(如广告)进行调整，比如目标业务信息的长度和宽度为10*15，区域位置信息为10*16，此时，可以对目标业务信息进行微调，从而得到目标位置信息。为了便于介绍，请参阅图11，图11为本申请应用场景中在目标信息区域中展示目标业务信息的一个实施例示意图，在图11的左图中，S1指示的区域为广告位，在图11的右图中，S2指示的广告(如企鹅画像)已经贴在广告位上，且视频标识浮与广告的图层之上。

其次，本申请实施例中，提供了一种业务信息展示的方法，在得到目标信息区域之后，获取待展示业务信息，然后可以基于目标信息区域对应的区域信息对待展示业务信息进行调整，得到目标业务信息，最后在目标信息区域中展示目标业务信息。通过上述方式，能够在目标信息区域上展示目标业务信息，也就是在广告位上展示调整后的广告，该广告在电视节目中出现的位置和大小更符合实际需求，由此，提升方案的可行性和可操作性。

可选地，一种基于视频内信息展示的方法，首先获取待处理视频，然后对该待处理视频中的第一图像进行检测，得到第一图像所对应的第一信息区域，其中，第一信息区域为第一图像的物体检测结果，第一信息区域携带目标标识。接下来，可以采用目标跟踪算法，根据第一信息区域确定第二图像所对应的第二信息区域，该第二图像为第一图像之后的任意一帧图像，第二信息区域为第二图像的跟踪检测结果，第二信息区域携带目标标识。若检测到第二图像中存在第三信息区域，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域，其中，第三信息区域为第二图像的物体检测结果，第三信息区域携带目标标识，最后对目标信息区域进行处理，比如对目标信息区域进行抠图处理，或者将需要展示的信息帖在目标信息区域上。

可选地，一种信息展示的方法，首先，获取待处理视频中的镜头集合，其中，镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，N为大于或等于1的整数。然后对其中一个镜头，即目标镜头进行检测，得到第一图像所对应的第一信息展示位，其中，目标镜头为镜头集合中的一个镜头，第一信息区域为第一图像的物体检测结果，第一信息展示位携带目标标识。其中，信息展示位具体可以是指广告位。接下来需要采用目标跟踪技术，根据第一信息展示位域确定目标镜头内第二图像所对应的第二信息展示位，其中，第二图像为第一图像之后的一帧图像，第二信息展示位为第二图像的跟踪检测结果，第二信息展示位携带目标标识。若检测到第二图像中存在第三信息展示位，则对第三信息展示位以及第二信息展示位进行融合，得到目标信息展示位，最后在目标信息展示位上生成信息，该信息具体可以是指广告信息。

下面对本申请中的信息区域确定装置进行详细描述，请参阅图12，图12为本申请实施例中操作信息预测装置一个实施例示意图，信息区域确定装置20包括：

获取模块201，用于获取待处理视频中的镜头集合，其中，所述镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，所述N为大于或等于1的整数；

检测模块202，用于对所述获取模块201获取的所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，所述目标镜头为所述镜头集合中的一个镜头，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息区域携带目标标识；

确定模块203，用于根据所述检测模块202检测得到的所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息区域为所述第二图像的跟踪检测结果，所述第二信息区域携带所述目标标识；

融合模块204，用于若检测到所述第二图像中存在第三信息区域，则对所述第三信息区域以及所述确定模块203确定的所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识，所述目标信息区域用于展示目标业务信息。

本实施例中，获取模块201获取待处理视频中的镜头集合，其中，所述镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，所述N为大于或等于1的整数，检测模块202对所述获取模块201获取的所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，所述目标镜头为所述镜头集合中的一个镜头，所述第一信息区域为所述第一图像的物体检测结果，所述第一信息区域携带目标标识，确定模块203根据所述检测模块202检测得到的所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域，其中，所述第二图像为所述第一图像之后的一帧图像，所述第二信息区域为所述第二图像的跟踪检测结果，所述第二信息区域携带所述目标标识，若检测到所述第二图像中存在第三信息区域，则融合模块204对所述第三信息区域以及所述确定模块203确定的所述第二信息区域进行融合，得到目标信息区域，其中，所述第三信息区域为所述第二图像的物体检测结果，所述第三信息区域携带所述目标标识，所述目标信息区域用于展示目标业务信息。

本申请实施例中，提供了一种信息区域确定装置，首先获取待处理视频中的镜头集合，其中，镜头集合包括N个镜头，每个镜头包括至少一帧连续的图像，然后可以对镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，其中，目标镜头为镜头集合中的一个镜头，第一信息区域为第一图像的物体检测结果，且第一信息区域携带目标标识，接下来需要根据第一信息区域确定目标镜头内第二图像所对应的第二信息区域，其中，第二图像为第一图像之后的一帧图像，第二信息区域为第二图像的跟踪检测结果，且第二信息区域携带目标标识，若检测到第二图像中存在第三信息区域，则对第三信息区域以及第二信息区域进行融合，得到目标信息区域，其中，第三信息区域为第二图像的物体检测结果，且第三信息区域携带目标标识，目标信息区域用于展示目标业务信息。通过上述方式，结合物体检测技术以及物体跟踪技术能够得到信息区域，该信息区域的生成考虑到视频中前后两帧图像在时域上的关系，从而可以应对遮挡、光照突变、运动模糊以及离焦模糊等情况，进而得到时间连续且空间平滑的信息区域。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的信息区域确定装置20的另一实施例中，

所述获取模块201，具体用于获取所述待处理视频；

其次，本申请实施例中，提供了一种获取待处理视频中的镜头集合的装置，首先获取待处理视频，然后根据待处理视频生成视频片段集合，接下来需要通过镜头边界检测模型对视频片段集合中的每个视频片段进行检测，得到Q个镜头边界视频片段，最后根据P个视频片段以及Q个镜头边界视频片段，确定镜头集合。通过上述方式，可以过滤掉一部分不符合要求的镜头，以减少后续处理的计算消耗，由此，使用镜头作为后续所有操作的基本单元，并且极大地加大处理的并行程度。一个视频中通常含有几百个镜头，而这些镜头可以被并行处理，而不是顺序处理，从而充分利用已有的计算资源。

所述获取模块201，具体用于通过所述镜头边界检测模型对目标视频片段进行检测，得到镜头边界检测结果，其中，所述目标视频片段属于所述视频片段集合中的一个视频片段；

所述获取模块201，具体用于若根据所述镜头边界检测结果确定为第一视频过渡类型，则确定所述目标视频片段属于所述镜头集合的一个镜头，其中，所述第一视频过渡类型表示未检测到镜头边界；

所述检测模块202，具体用于获取所述目标镜头中的图像集合，其中，所述图像集合中包括至少一帧图像；

所述检测模块202，具体用于通过所述物体检测模型中的卷积神经网络CNN，提取所述图像集合中的目标图像的图像特征，其中，所述目标图像属于所述图像集合中的一帧图像；

所述确定模块203，具体用于通过目标跟踪模型中的卷积神经网络CNN对所述第一信息区域进行处理，得到第一特征图；

所述检测模块202，还用于在所述确定模块203根据所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域之后，对所述目标镜头内的所述第二图像进行检测，得到所述第二图像的物体检测结果；

所述确定模块203，还用于若所述检测模块202检测得到所述第二图像的物体检测结果满足信息区域提取条件，则确定所述第二图像中存在所述第三信息区域；

所述确定模块203，还用于若所述检测模块202检测得到所述第二图像的物体检测结果不满足所述信息区域提取条件，则确定所述第二图像中不存在所述第三信息区域。

可选地，在上述图12所对应的实施例的基础上，请参阅图13，本申请实施例提供的信息区域确定装置20的另一实施例中，所述信息区域确定装置20还包括执行模块205；

所述获取模块201，还用于在所述融合模块204对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之前，获取所述第三信息区域与所述第二信息区域的重叠度；

所述执行模块205，用于若所述获取模块201获取的所述第三信息区域与所述第二信息区域的重叠度达到重叠度阈值，则执行所述对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域的步骤；

所述确定模块203，还用于若所述获取模块201获取的所述第三信息区域与所述第二信息区域的重叠度未达到所述重叠度阈值，则将所述第二信息区域确定为所述目标信息区域。

可选地，在上述图12或图13所对应的实施例的基础上，本申请实施例提供的信息区域确定装置20的另一实施例中，

所述确定模块203，还用于若检测到所述第二图像中不存在所述第三信息区域，则将所述第二信息区域确定为所述目标信息区域。

可选地，在上述图12所对应的实施例的基础上，请参阅图14，本申请实施例提供的信息区域确定装置20的另一实施例中，所述信息区域确定装置还包括调整模块206以及展示模块207；

所述获取模块201，还用于在所述融合模块对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之后，获取待展示业务信息；

所述调整模块206，还用于根据所述目标信息区域对所述获取模块201获取的所述待展示业务信息进行调整，得到所述目标业务信息，其中，所述目标信息区域对应区域信息，所述区域信息包括帧信息以及区域位置信息；

所述展示模块207，用于在所述目标信息区域中展示所述调整模块206调整后得到的所述目标业务信息。

图15是本发明实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

在本发明实施例中，该服务器所包括的CPU 322还具有以下功能：

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

获取所述待处理视频；

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

通过所述镜头边界检测模型对目标视频片段进行检测，得到镜头边界检测结果，其中，所述目标视频片段属于所述视频片段集合中的一个视频片段；

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

若根据所述镜头边界检测结果确定为第一视频过渡类型，则确定所述目标视频片段属于所述镜头集合的一个镜头，其中，所述第一视频过渡类型表示未检测到镜头边界；

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

获取所述目标镜头中的图像集合，其中，所述图像集合中包括至少一帧图像；

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

通过所述物体检测模型中的卷积神经网络CNN，提取所述图像集合中的目标图像的图像特征，其中，所述目标图像属于所述图像集合中的一帧图像；

可选地，本申请实施例中CPU 322具体用于执行如下步骤：

通过目标跟踪模型中的卷积神经网络CNN对所述第一信息区域进行处理，得到第一特征图；

可选地，本申请实施例中CPU 322还用于执行如下步骤：

对所述目标镜头内的所述第二图像进行检测，得到所述第二图像的物体检测结果；

若所述第二图像的物体检测结果满足信息区域提取条件，则确定所述第二图像中存在所述第三信息区域；

若所述第二图像的物体检测结果不满足所述信息区域提取条件，则确定所述第二图像中不存在所述第三信息区域。

可选地，本申请实施例中CPU 322还用于执行如下步骤：

获取所述第三信息区域与所述第二信息区域的重叠度；

若所述第三信息区域与所述第二信息区域的重叠度达到重叠度阈值，则执行所述对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域的步骤；

若所述第三信息区域与所述第二信息区域的重叠度未达到所述重叠度阈值，则将所述第二信息区域确定为所述目标信息区域。

可选地，本申请实施例中CPU 322还用于执行如下步骤：

若检测到所述第二图像中不存在所述第三信息区域，则将所述第二信息区域确定为所述目标信息区域。

可选地，本申请实施例中CPU 322还用于执行如下步骤：

获取待展示业务信息；

根据所述目标信息区域对所述待展示业务信息进行调整，得到所述目标业务信息，其中，所述目标信息区域对应区域信息，所述区域信息包括帧信息以及区域位置信息；

在所述目标信息区域中展示所述目标业务信息。

本发明实施例还提供了另一种信息区域确定装置，如图16所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图16示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图16，手机包括：射频(Radio Frequency，RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图16中，触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一手机，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

手机还包括给各个部件供电的电源490(比如电池)，可选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端设备所包括的处理器480还具有以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息区域确定的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中的镜头集合，包括：

获取所述待处理视频；

3.根据权利要求2所述的方法，其特征在于，所述通过镜头边界检测模型对所述视频片段集合中的每个视频片段进行检测，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述镜头边界检测结果确定所述目标视频片段的视频过渡类型，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述镜头集合中的目标镜头进行检测，得到第一图像所对应的第一信息区域，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过物体检测模型对所述图像集合中的每帧图像进行检测，得到所述每帧图像的物体检测结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一信息区域确定所述目标镜头内第二图像所对应的第二信息区域之后，所述方法还包括：

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之前，所述方法还包括：

获取所述第三信息区域与所述第二信息区域的重叠度；

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

11.根据根据权利要求1所述的方法，其特征在于，所述对所述第三信息区域以及所述第二信息区域进行融合，得到目标信息区域之后，所述方法还包括：

获取待展示业务信息；

在所述目标信息区域中展示所述目标业务信息。

12.一种信息区域确定装置，其特征在于，包括：

13.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

14.一种视频内信息展示的方法，其特征在于，包括：

获取待处理视频；

对所述目标信息区域进行处理。

15.一种信息展示的方法，其特征在于，包括：

在所述目标信息展示位上生成信息。