CN110099298B

CN110099298B - 多媒体内容处理方法及终端设备

Info

Publication number: CN110099298B
Application number: CN201810083523.5A
Authority: CN
Inventors: 王治金; 文伟; 崔允熙; 罗中华; 陈凌颖; 薛远洋; 潘作舟; 戈志伟
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2022-12-30
Anticipated expiration: 2038-01-29
Also published as: CN110099298A

Abstract

本发明涉及图像处理技术领域，提供了一种多媒体内容处理方法及终端设备，该多媒体内容处理方法，包括：提取待播放多媒体内容对应的多媒体特征；若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；播放所述目标多媒体内容。本发明中，实现了在终端侧对多媒体内容的替换播放，提升了用户的使用体验。

Description

多媒体内容处理方法及终端设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种多媒体内容处理方法及终端设备。

背景技术

有线电视系统已经进入了千家万户，为用户提供了丰富多彩的电视内容。当前有线电视系统广告投放是由电视台招标购买，经由有线电视运营商随同电视节目播放给观众。

在现有广告替换系统中，是在广告视频流即将播放时，将原多媒体内容处理为设定好的其他广告内容。由于目前多媒体内容处理都是电视台或运营商的行为，在服务端进行，而不涉及电视和用户本身，从而使得所有用户只能根据服务器的广告安排进行对应的广告观看，体验较差。因此，如何实现在终端侧对播放广告的智能替换播放，成为当前亟待解决的技术问题。

发明内容

本发明提供多媒体内容处理方法及终端设备，以实现在终端侧对多媒体内容的替换播放，从而提升用户的使用体验。

本发明提供了一种多媒体内容处理方法，包括：

提取待播放多媒体内容对应的多媒体特征；

若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；

播放所述目标多媒体内容。

优选地，确定替换后的目标多媒体内容，包括：

确定所述待播放多媒体内容对应的待播放多媒体内容集合；

根据所述待播放多媒体内容集合，确定替换后的目标多媒体内容集合；

播放所述目标多媒体内容，包括：

将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放。

优选地，提取待播放多媒体内容对应的多媒体特征，包括：

确定待播放多媒体内容对应的显著目标；

针对确定出的显著目标分别提取多媒体特征；

根据各显著目标的多媒体特征，确定所述待播放多媒体内容对应的多媒体特征。

优选地，确定待播放多媒体内容对应的显著目标，包括：

针对待播放多媒体内容进行显著目标检测；

在检测到的显著目标中，选择出设定数目个显著目标，作为待播放多媒体内容对应的显著目标。

优选地，根据各显著目标的多媒体特征，确定所述待播放多媒体内容对应的多媒体特征，包括：

连接各显著目标的多媒体特征，作为所述待播放多媒体内容对应的多媒体特征。

优选地，通过下述方式检测所述待播放多媒体内容是否需要进行内容替换：

将待播放多媒体内容对应的多媒体特征，与特征数据库存储的与各待替换多媒体内容对应的多媒体特征进行匹配；

若存在匹配一致的待替换多媒体内容，则确认所述待播放多媒体内容需要进行内容替换。

优选地，所述特征数据库存储的多媒体特征通过如下方式确定：

确定待替换多媒体内容对应的显著目标；

针对至少一个设定缩放比例，分别对所述待替换多媒体内容的显著目标进行缩放处理，并根据缩放后的显著目标的多媒体特征，确定该设定缩放比例对应的所述待替换多媒体内容的多媒体特征。

优选地，将提取的多媒体特征，与特征数据库存储的各待替换多媒体内容对应的多媒体特征进行匹配，包括：

将待播放多媒体内容对应的多媒体特征，与特征数据库存储的、待替换多媒体内容对应至少一个设定缩放比例的多媒体特征进行匹配；

若待播放多媒体内容对应的多媒体特征与待替换多媒体内容对应任一设定缩放比例的多媒体特征匹配一致，则确认所述待播放多媒体内容与所述待替换多媒体内容匹配一致。

优选地，检测所述待播放多媒体是否需要进行内容替换之前，还包括：

获取上一次进行多媒体特征匹配且匹配一致的待替换多媒体内容对应的待替换多媒体内容集合；

确定所述待替换多媒体内容集合对应当前时间点的多媒体内容的多媒体特征；

若待播放多媒体内容的多媒体特征与所述待替换多媒体内容集合对应当前时间点的多媒体内容的多媒体特征不同，则执行检测所述待播放多媒体是否需要进行内容替换的步骤。

优选地，还包括：

若待播放多媒体内容的多媒体特征与所述待替换多媒体内容集合对应当前时间点的多媒体内容的多媒体特征相同，则判断当前时间点是否位于所述待替换多媒体内容集合对应的目标多媒体内容集合的替换播放时间段内；

若判断结果为是，则根据当前时间点确定所述目标多媒体内容集合的播放时间点，并根据确定出的播放时间点继续播放所述目标多媒体内容集合。

优选地，确定替换后的目标多媒体内容集合，包括：

根据待播放多媒体内容集合的时长、和/或用户属性信息，确定目标多媒体内容集合。

优选地，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放，包括：

将所述待播放多媒体内容集合的时长与所述目标多媒体内容集合的时长进行比较，并根据比较结果，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放。

优选地，根据比较结果，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放，包括：

若所述目标多媒体内容集合的时长与所述待播放多媒体内容集合的时长相等，则播放所述目标多媒体内容集合；和/或

若所述目标多媒体内容集合的时长不小于所述待播放多媒体内容集合的时长，则在所述目标多媒体内容集合中删除满足预设删除条件的多媒体内容，并播放删除内容后的目标多媒体内容集合；和/或

若所述目标多媒体内容集合的时长不大于所述待播放多媒体内容集合的时长，则在所述目标多媒体内容集合中插入满足预设插入条件的多媒体内容，并播放插入内容后的目标多媒体内容集合。

获取待播放多媒体内容对应的屏幕显示OSD信息；

根据获取的OSD信息，对所述目标多媒体内容集合中的目标多媒体内容进行叠加处理，并播放叠加处理后的所述目标多媒体内容集合。

优选地，所述多媒体特征包括视频指纹VFP特征。

本发明还提供了一种终端设备，包括：

提取单元，用于提取待播放多媒体内容对应的多媒体特征；

处理单元，用于若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；

播放单元，用于播放所述目标多媒体内容。

本发明还提供了一种终端设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行上述的方法。

与现有技术相比，本发明至少具有以下优点：

通过提取待播放多媒体内容对应的多媒体特征；若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；并对该替换后的目标多媒体内容进行播放。实现了在终端侧对多媒体内容的替换播放，各终端设备可以自行确定需要替换的多媒体内容以及替换后的目标多媒体内容，提高了播放多媒体内容的灵活性，提升了用户的使用体验。

附图说明

图1是本发明提供的多媒体内容处理方法的流程示意图；

图2是本发明提供的多媒体内容处理系统的整体结构图；

图3是本发明提供的VFP特征提取方法的流程示意图；

图4是本发明提供的基于VFP特征提取方法的具体处理示意图；

图5是本发明提供的显著目标检测的流程示意图；

图6是本发明提供的多尺度VFP特征存储、单尺度VFP特征匹配的广告检测方法的流程示意图；

图7是本发明提供的版本自适应方法中在线操作处理的流程示意图；

图8是本发明提供的版本自适应方法的具体示例图；

图9是本发明提供的OSD信息的处理效果的一示例图；

图10是本发明提供的OSD信息的处理效果的另一示例图；

图11是本发明提供的检测更换频道的流程示意图；

图12是本发明提供的用户频繁更换频道时保证播放点正确的处理的流程示意图；

图13是本发明提供的特征数据库创建的流程示意图；

图14是本发明提供的同一频道在不同日期所播放的内容示意图；

图15是本发明提供的基于黑边和OSD信息的广告图像提取的示例图；

图16是本发明提供的终端设备的结构示意图；

图17为本发明所提供的终端设备的结构示意图；

图18为本发明所提供的计算系统的示意框图。

具体实施方式

本发明提出一种多媒体内容处理方法及终端设备，下面结合附图，对本发明具体实施方式进行详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明利用目前智能电视等终端设备的智能系统和强大的处理器计算能力，结合ACR(Auto Content Recognition，自动内容识别)技术，设计了一套多媒体内容(如广告内容)处理的方法和对应的终端设备。本发明提出，在终端侧进行多媒体内容的替换播放，终端设备通过待播放多媒体内容对应的多媒体特征，确定替换后的目标多媒体内容，并播放目标多媒体内容，由上可见，各终端设备可以自行确定需要替换哪些多媒体内容以及替换后播放哪些多媒体内容，提高了播放多媒体内容的灵活性，提升了用户的使用体验。

本发明提供了一种多媒体内容处理方法，如图1所示，包括如下步骤：

步骤101，提取待播放多媒体内容对应的多媒体特征。

其中，本发明中的终端设备可以但不限于包括：智能电视，智能手机等。

本发明中的多媒体内容可以但不限于为音频内容和/或视频内容，可以为终端设备播放的广告内容。

上述多媒体特征可以包括视频指纹VFP(Video Finger Print，视频指纹)特征。

待播放多媒体内容可以为服务端(如电视台)实时下发给终端设备的待播放内容(如广告内容)。终端设备可以获取设备显存中存储的多媒体内容，然后提取多媒体内容的多媒体特征。

终端设备可以针对待播放的每一帧多媒体内容进行特征提取的处理，如果上述多媒体内容为视频内容，则上述待播放多媒体内容可以为待播放视频帧。

终端设备在播放多媒体内容(如广告内容)时，由于屏幕制式、分辨率等不同，所播放的多媒体内容可能会发生相应的形变，这会对提取多媒体特征造成干扰。本发明进一步提出，可以基于显著目标检测来提取多媒体特征，使得提取出的多媒体特征更加鲁棒。

具体的，该提取待播放多媒体内容对应的多媒体特征，包括：

确定待播放多媒体内容对应的显著目标；

针对确定出的显著目标分别提取多媒体特征；

进一步地，确定待播放多媒体内容对应的显著目标，包括：

针对待播放多媒体内容进行显著目标检测；

更进一步地，根据各显著目标的多媒体特征，确定所述待播放多媒体内容对应的多媒体特征，包括：

步骤102，根据提取的所述多媒体特征检测所述待播放多媒体是否需要进行内容替换。

若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，转到步骤103；否则，转到步骤105。

具体的，在检测所述待播放多媒体内容是否需要进行内容替换时，可以通过下述处理方式：

其中，特征数据库中存储有各待替换多媒体内容以及对应的多媒体特征。

本发明还提出，可以离线存储多尺度的多媒体特征，终端设备可以快速的匹配出与本设备的屏幕制式、分辨率等对应的多媒体特征，从而能够快速的根据匹配的多媒体特征检测是否需要替换待播放多媒体内容，保证了替换播放的实时性和准确性。

其中，该特征数据库存储的多媒体特征通过如下方式确定：

确定待替换多媒体内容对应的显著目标；

进一步地，将提取的多媒体特征，与特征数据库存储的各待替换多媒体内容对应的多媒体特征进行匹配，包括：

步骤103，确定替换后的目标多媒体内容。

如果待播放多媒体内容为广告内容，则在广告内容第一帧，终端设备就可以通过该帧的多媒体特征(如VFP特征)检测是否需要对该广告内容进行替换播放，如果确认替换，则可以确定目标多媒体内容(如目标广告内容)，将待播放广告内容替换播放目标广告内容。

本步骤中，确定替换后的目标多媒体内容，包括：

确定所述待播放多媒体内容对应的待播放多媒体内容集合；

播放所述目标多媒体内容，包括：

如果上述多媒体内容为视频内容，则上述待播放多媒体内容可以为待播放视频帧，待播放多媒体内容集合可以为视频段。

现有技术中，用户在观看智能电视播放的内容时，在同样的频道，所有用户都观看同样的内容，但是每个用户的兴趣点不同，如果所有用户都观看同样的内容，那么用户的观看体验就会比较差。对此本发明提出，可以根据用户观看多媒体内容的行为，分析用户属性(如用户年龄，用户喜好等)，根据用户属性来确定目标多媒体内容集合，从而实现了针对用户的个性化内容播放，例如可以针对不同年龄段的用户，替换播放不同的多媒体内容，提高了用户观看体验。

其中，该确定替换后的目标多媒体内容集合的处理，包括：

为了保证用户的观看体验，目标多媒体内容集合的时长与待播放多媒体内容集合的时长应尽可能保持一致，例如均为15秒。

其中，上述用户属性包括用户年龄、性别等；用户属性也可以包括根据用户历史行为分析出的用户感兴趣内容，如用户喜欢什么类型的多媒体内容；此外，用户属性还可以包括用户输入的感兴趣内容等。

本发明提出，可以针对待播放的每一帧多媒体内容分别进行多媒体特征的提取，如果待播放多媒体内容为广告内容，则针对该广告内容的第一帧，终端设备基于多媒体特征检测出需要进行内容替换，确定并播放替换后的多媒体内容集合(即目标多媒体内容集合)，后续针对该广告内容的每一帧，终端设备可以均进行多媒体特征提取，并根据提取的多媒体特征判断当前帧是否仍为该广告内容，若仍为该广告内容，则无需再作其他处理，可以转至处理下一帧的多媒体内容，如果不为该广告内容，可以进行上述多媒体特征匹配的操作，以检测是否需要进行内容替换。

具体的，检测待播放多媒体是否需要进行内容替换之前，还包括：获取上一次进行多媒体特征匹配且匹配一致的待替换多媒体内容对应的待替换多媒体内容集合；确定所述待替换多媒体内容集合对应当前时间点的多媒体内容的多媒体特征；若待播放多媒体内容的多媒体特征与所述待替换多媒体内容集合对应当前时间点的多媒体内容的多媒体特征不同，则执行检测所述待播放多媒体是否需要进行内容替换的步骤。

当终端设备为智能电视时，用户在观看多媒体内容时可能会频繁更换频道，例如在观看频道A时，终端设备将当前播放的广告内容a替换为内容a1，用户后续更换到频道B，紧接着又从频道B更换到频道A，此时广告内容a并没有播放完，如果终端设备此时不做处理，那么用户在更换频道前后观看的内容会有很大差别，影响了用户体验。对此本发明提出，在用户更换频道时，终端设备可以根据当前时间点确定目标多媒体内容集合的播放时间点，以保证目标多媒体内容集合能够按照正确的时间点进行播放，不影响用户的观看体验。

具体的，若待播放多媒体内容的多媒体特征与上述待替换多媒体内容集合(上一次进行多媒体特征匹配且匹配一致的待替换多媒体内容对应的待替换多媒体内容集合)对应当前时间点的多媒体内容的多媒体特征相同，则判断当前时间点是否位于该待替换多媒体内容集合对应的目标多媒体内容集合的替换播放时间段内；若判断结果为是，则根据当前时间点确定目标多媒体内容集合的播放时间点，并根据确定出的播放时间点继续播放目标多媒体内容集合。

针对需待播放多媒体内容和目标多媒体内容的时长并不是完全对应的情况，本发明提出对目标多媒体内容进行删除或插入等操作，从而使得目标多媒体内容的播放时长与待播放多媒体内容的播放时长一致，提高了用户的观看体验。

具体的，该将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放的处理，包括：

更进一步地，上述步骤中，根据比较结果，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放的处理过程，包括：

上述满足预设删除条件的多媒体内容可以但不限于为运动平缓的多媒体内容；上述满足预设插入条件的多媒体内容可以但不限于运动激烈的多媒体内容。

步骤104，播放所述目标多媒体内容。

终端设备可以将目标多媒体内容写入终端设备缓存，并进行播放，实现实时替换功能。

服务端(如电视台)在向终端设备下发多媒体内容时，可能会在待播放的多媒体内容中叠加一些图标或文字等信息，另外，用户在观看智能电视时，也可能通过遥控设备进行操控，待播放的多媒体内容中也会叠加音量调整等操控信息。这些信息都可以称为OSD(OnScreen Display，屏幕显示)信息，当待播放的多媒体内容中叠加了OSD信息时，本发明提出，可以从待播放多媒体内容中提取OSD信息，并将OSD信息叠加到目标多媒体内容中，从而能够保留OSD信息，提高了用户的观看体验。

本步骤中，将待播放多媒体内容集合，替换为目标多媒体内容集合进行播放，包括：

获取待播放多媒体内容对应的OSD信息；

根据获取的OSD信息，对目标多媒体内容集合中的目标多媒体内容进行叠加处理，并播放叠加处理后的目标多媒体内容集合。

进一步地，该获取待播放多媒体内容对应的OSD信息的处理，包括：

将待播放多媒体内容与匹配一致的待替换多媒体内容进行比较，确定待播放多媒体内容对应的OSD信息；

根据获取的OSD信息，对目标多媒体内容集合中的目标多媒体内容进行叠加处理，包括：

将获取的OSD信息，叠加到目标多媒体内容集合中的目标多媒体内容中。

步骤105，终端设备正常播放上述待播放多媒体内容，不做任何处理。

此外，同一多媒体内容可能有多个不同的版本，不同版本的内容和时长会有一些变化，这给多媒体内容的替换增加了难度，本发明提出，终端设备可以自适应的匹配出需要替换多媒体内容的版本。

本发明还提出可以自动创建特征数据库。

基于上述本发明所提供的多媒体内容处理方法，下面就该方法所解决的上述问题进行详细分析并提出对应的解决方案。在下述解决方案中，待播放多媒体内容以广告的视频帧为例，终端设备以智能电视终端为例。

该多媒体内容的处理过程可以看作是一个完整的处理系统，其结构如图2所示，包括：

该广告替换系统包含在线的电视终端和离线服务器两大部分。

在线的智能电视终端部分完成广告替换的主体功能，包括电视显存内容获取、视频指纹特征提取、广告检测、广告选取、广告替换和电视显存重写模块。

离线服务器完成用户收视的行为分析和自动创建特征数据库部分，通过网络下发到该在线的智能电视终端。

下面对该在线的智能电视终端中各功能模块分别进行阐述：

1)显存内容获取模块：获取电视显存即将播放的一帧视频数据。

2)视频指纹特征提取模块：提取当前电视显示内存中帧数据的VFP特征。

3)广告检测模块：利用ACR技术，实时在视频帧中检测即将播放的一帧视频数据是否属于特征数据库中指定的待替换的广告。

4)广告选取模块：结合用户收视行为分析，在广告数据库中选取要替换的广告。

5)广告替换模块：完成广告替换的主体功能，考虑用户的交互、OSD信息的叠加，以及广告的版本等。

6)显存重写模块：用替换后的广告帧数据写入电视缓存，并进行播放，实现实时替换功能。

7)用户观看行为分析模块：利用用户的观看大数据，分析其观看喜好、感兴趣内容，以及用户的属性信息，并推送到该智能电视终端。其中，该属性信息包括年龄、性别等属性；该感兴趣内容可以是根据用户历史行为分析得到的，也可以是用户自己输入的。

8)特征数据库：特征数据库中保存待替换广告的原始视频数据和其VFP特征数据，由服务器创建的服务器特征数据库定期将数据推送到该智能电视终端的特征数据库上。

9)广告数据库：位于电视终端本地上，且该广告数据库中存放有待替换广告。

10)自动创建特征数据库模块：自动对智能电视播放的内容进行视频指纹特征提取，检测是否为广告，并存储检测出的广告内容以及对应的视频指纹特征。

进一步地，下面对智能电视端进行广告内容替换的方法进行具体阐述。

一、视频指纹特征提取

图像ACR自动内容识别技术是产生图像的VFP特征，并利用VFP特征进行检测和检索，鲁棒的VFP特征能有效的处理图像形变带来的影响。

智能电视在播放广告时，由于制式、电视分辨率等不同，广告会发生相应的形变。同时，广告画面中可能会叠加一些图标和文字信息，对广告的VFP特征造成干扰。针对电视广告的上述特点，提出了基于显著目标检测的VFP特征提取方法，该方法达到了鲁棒的视频指纹表示特征。

原始的VFP特征提取过程通常在整个图像上提取VFP特征，但是对于同一个广告，在不同智能电视终端呈现的形式并不相同，如图4所示，可能有叠加的黑边。基于此，本发明提出，在原始提取VFP特征的方法基础上，提出了基于显著目标检测的VFP特征提取方法。

根据图3所示，VFP特征提取方法步骤描述如下：

1.显著目标检测

本发明提出，可以基于全局对比度进行显著目标检测，如图5所示，显著目标检测的主要步骤包括：

A1)基于直方图对比度的方法定义图像像素级的显著值；

B1)进行颜色空间平滑；

C1)基于图像分割方法将图像分割成各区域；

D1)计算空间对比度的权重；

E1)提取精确的图像掩模，实现显著目标区域的提取。

其中，可以利用迭代图割(grabcut)方法提取精确的图像掩模。

2.在检测出的目标区域中选取N个区域

区域记录器综合目标检测的置信度和目标区域的面积，为每个候选区域计算分值，其中，通常认为广告中主要目标物体的面积较大。然后选取分值排序最高的N个区域。

上述N为预先设定的值，特征数据库中存储的VFP特征也按照相同的N值进行处理并存储，例如N可以选取4。

3.对选取的区域进行归一化处理

把选取的区域对应的区域框的大小归一化为相同尺寸，为了方便后续匹配处理。

4.提取归一化后的每个区域的VFP特征

本发明提出，提取VFP特征的主要步骤包括：

A2)归一化后的每个区域进行颜色特征归一化处理；

设未归一化的像素值为RGB，归一化后的像素值为rgb，根据以下公式进行归一化处理：

r＝R/(R+G+B)

g＝B/(R+G+B)

b＝1-r-g

B2)空间低通滤波；

将每个像素八邻域的像素值累加后再除以8得到像素值，将该像素值赋给当前像素作为其新的像素值。

C2)纹理/颜色编码；

采用LBP方法提取该区域的纹理特征。对归一化后的颜色进行分块直方图操作，将每块的直方图串联起来作为颜色特征编码。将纹理编码和颜色编码串联起来，作为该区域的特征高维特征编码。

D2)低维嵌入；

由于高维特征不利于存储和匹配，故将高维特征采用PCA(Principal ComponentsAnalysis，主成分分析)方法进行降维处理，得到降维后的特征。

E2)二值量化。

对降维后的特征进行二值化处理，即如果每8位特征小于等于0，则取值为0；如果每8位特征大于0，则取值为1。得到的01作为最后的VFP特征。

5.连接各区域的VFP特征，形成图像的VFP特征

如果目标区域的个数小于N，则可以填0补充。

此外，本发明提出，也可能选取一个显著目标的VFP特征，作为整个图像的VFP特征。

针对待播放的视频帧，可以按照同样的上述操作流程提取视频帧的VFP特征。

如图4所示，视频帧的原始帧如图中所示，在智能电视端播放时，可能会发生变形，例如加上了黑边(如图中变形帧所示)，通过上述提取VFP特征的方法，对变形帧进行显著目标检测的结果和对原始帧进行显著目标检测的结果一致，因此避免了图像变形对后续处理的影响。按照图3所示的流程，在检测出的目标区域中选取N个区域，对选取的区域进行归一化处理，并提取每个区域的VFP特征(对应图中的目标区域VFP)，连接各区域的VFP特征，形成图像的VFP特征(对应图中的多区域VFP连接)。

二、任一视频帧的广告检测

实时的广告替换要求在广告视频的第一帧将要播放时就将检测出该广告需要进行替换播放。而为了实现在智能电视终端有限的处理资源下，保证检测的可靠性和实时性，本发明提出了一种多尺度VFP特征存储、单尺度VFP特征匹配的广告检测方法，如图6所示，包括离线操作和在线操作两个处理步骤：

离线操作：

针对特征数据库中存储的每个要替换的广告(可以称为待替换广告)的每一帧，分别执行下述多尺度VFP特征提取的操作：利用对显著目标检测到的目标区域，按预设的尺度(即缩放比例)进行缩放处理，扩充或缩减目标区域尺寸，每个目标区域均可得到对应的多个尺度的图像(例如可以得到5个不同尺寸的图像，除原尺寸外，以检测到的目标区域为基础，可以将原尺寸进行0.8、0.9、1.1、1.2倍缩放)，提取每个目标区域对应的各尺度的图像的VFP特征，然后针对每个尺度，分别将该尺度下的各目标区域的VFP特征进行连接，得到当前视频帧对应的该尺度的VFP特征，并存储于特征数据库中。例如设定有5个尺寸(对应的缩放比例为1、0.8、0.9、1.1、1.2)，特征数据库中存储的每个待替换广告的每一帧可以得到分别对应上述5个尺度的VFP特征。

在线操作：

1.智能电视终端提取待播放的每一帧图像的VFP特征，此步骤可以认为是单一尺度VFP特征提取；

2.进行VFP特征匹配，具体的，可以将提取的单一尺度VFP与特征数据库存储的各待替换广告的每一帧图像对应的多尺度VFP特征(即多个尺度分别对应的VFP特征)进行匹配。

3.得到检测结果，具体的，若待播放的图像帧的单一尺度VFP特征与特征数据库存储的某一个待替换广告的某一帧图像对应的某一尺度的VFP特征匹配一致，则确认该待播放的图像帧与该待替换广告匹配一致，也就是说，当前待播放的广告需要进行替换播放。

例如，可以计算待播放的每一帧图像的VFP特征与特征数据库中存储的各待替换广告的每一帧图像对应多尺度VFP特征的汉明距离，汉明距离最小的即为最佳匹配，如果该最佳匹配的汉明距离小于设定阈值(如阈值设为20)，则可以认为当前待播放的图像帧与上述最佳匹配对应的待替换广告匹配一致。

本发明的上述方法中，服务器承担了复杂的计算任务，而智能电视终端只负责轻量级的计算。

对于广告替换处理，可以分为几个处理方向，如版本自适应处理、时长自适应、OSD信息处理以及用户换台处理，下面分别进行阐述。

三、版本自适应

智能电视终端播放的同一广告可能存在多个版本，如何正确处理不同版本的广告替换是需要解决的问题。

本发明提出的版本自适应方法包括离线操作和在线操作两个处理步骤：

离线操作：

在创建特征数据库时，需要收集广告的全部版本。判断两个广告是否为同一广告的不同版本的方法可以为：判断该两个广告视频第一帧是否为相同帧，如果是相同帧则为同一广告；判断这两个广告是否为不同版本的方法可以为：判断两个广告视频在相同时刻和位置的帧画面是否相同，如果存在不同或两个视频时长不同，则为两个版本。

在创建特征数据库时，确定同一广告不同版本的差异帧，以及对应存储差异帧的标识以及对应的版本信息，其中，针对同一广告不同版本，在相同的时间和位置上，内容不同的帧为差异帧。

在线操作：

如图7所示，为在线操作的流程示意图，具体过程如下：

1.智能电视终端在将要播放广告的第一帧时，提取该帧的VFP特征，并与特征数据库中的各待替换广告的广告帧的VFP特征进行匹配。

2.若与某待替换广告的第一帧匹配一致，则确认当前待播放的图像帧为广告帧，而且需要进行替换播放。

3.在广告数据库中查找目标广告。

其中广告数据库中存储有目标广告，智能电视终端可以根据待替换的广告的时长、和/或用户属性信息，来确定目标广告。

4.播放目标广告。

5.针对待播放的广告的后续每一帧，智能电视终端分别进行VFP特征提取。

6.将提取的VFP特征与步骤2中匹配一致的待替换广告的当前帧的VFP特征进行比较。

7.若比较结果不一致，且待替换广告的当前帧对应有差异帧标识和版本信息，则确认当前待播放的广告有多个版本以及当前待播放的广告的版本信息。

8.根据当前待播放的广告的版本信息，重新确定目标广告，并播放重新确定的目标广告。

如图8所示，版本1和版本2是同一广告的两个版本，两个版本的前4帧的内容相同，第5帧的内容不同，第5帧即为两个版本的差异帧。

四、时长自适应

其中，在进行广告替换时，可能会根据待播放广告的时长进行查找，在广告数据库中查找与该待播放广告具有相同时长的目标广告进行替换。若查找到只有一个时长相同的目标广告时，则可以直接用该目标广告替换待播放广告；若查找到至少两个时长相同的目标广告时，则还可以根据用户的属性信息进行目标广告的确认，从而找到一个匹配度最高的目标广告进行替换。若在广告数据库中任一目标广告的时长均与该待播放广告的时长不相同时，特征数据库中待播放广告的时长在广告数据库中并没有完全对应时长的待替换广告；或者想要替换的待替换广告的时长并不匹配待播放广告的时长则可以进行下述的时长自适应处理。

其中，特征数据库中存储的是待替换广告和对应的VFP特征，待替换广告的播放时长是已知的。广告数据库中存储的是目标广告。

1.获取待播放广告和目标广告的播放时长的差值P；

2.利用帧差技术进行目标广告的运动分析，获取运动平缓内容部分和/或运动激烈内容部分；

3.如果目标广告的播放时长不小于待播放广告的播放时长，则在目标广告中删除运动平缓的P帧内容，也就是说当目标广告时长过长时需要进行抽帧处理；

如果目标广告的播放时长不大于待播放广告的播放时长，则在目标广告中插入运动激烈的P帧内容，也就是说当目标广告时长过短时需要进行插帧处理。

五、OSD信息的处理

在电视画面上产生OSD信息的来源可以包括：电视台的一些通知信息(比如天气预报、紧急情况通知等)，或者用户交互产生的叠加信息(比如调节音量、设置菜单等)。如图9所示，原始图像中叠加了OSD信息，就会产生携带OSD信息的图像。这些OSD信息如果出现在广告内容中，那么当智能电视需要进行广告替换处理时，需要将这些OSD信息按照原始样式保留下来，也就是说，替换播放后的画面也会出现这些OSD信息，以提高用户的观看体验。OSD信息的处理方式如下：

1.已知图像B(智能电视当前的待播放视频帧)和对应的原始图像A(通过VFP特征在特征数据库中匹配出的待替换的视频帧)，将图像A和图像B进行比较，获取OSD信息X，如图10所示。

2.通过图像位置相减(即图像B-图像A)可以得到OSD信息X的位置。

3.在A、B图像上OSD信息X的位置范围内，采用最邻域采样方法，计算出X的像素值和透明度t，具体计算方式如下：

X1和X2为A、B图像上OSD信息X的位置范围内，采用最邻域采样方法采样的两个点，假设X1＝X2，根据下述公式(1)、(2)、(3)，可以得到X和t。

分别在A、B两个图像上OSD信息X的位置范围内，依次遍历X所有的像素点。

4.将OSD信息X叠加到目标广告上。按照确定出的位置、像素值和透明度t，将OSD信息叠加到目标广告上，因此替换播放后的画面也会出现这些OSD信息。

六、用户换台

用户在观看智能电视播放的内容时，可能会更换频道，例如从频道A切换到频道B，再切换到频道C，之后切换回频道A，在用户观看频道A时，智能电视将当前播放的广告内容a替换为内容a1，用户后续从频道C更换到频道A时，广告内容a并没有播放完，如果智能电视此时不做处理，那么用户在更换频道前后观看的内容会有很大差别，影响了用户体验。

对此本发明提出，在用户更换频道时，终端设备可以根据当前时间点确定目标广告的播放时间点，以保证目标广告能够按照正确的时间点进行播放，不影响用户的观看体验。

如图11所示，检测用户是否更换频道的具体过程如下：

1.获取电视显存中的视频帧数据；

2.提取当前待播放视频帧的VFP特征；

3.获取上一次进行VFP特征匹配且匹配一致的待替换广告对应当前时间点的VFP特征；

4.将提取的VFP特征与该待替换广告的VFP特征进行比对；

5.若二者不同，则判断当前时间点是否位于目标广告的替换播放时间段内，即需要判断目标广告是否已播放完；

6.若当前时间点位于目标广告的替换播放时间段内，即目标广告并未播放完，则确认用户可能更换了频道。

如图12所示，为在用户频繁更换频道时，保证播放点正确的处理流程：

1.获取电视显存中的视频帧数据；

2.提取当前待播放视频帧的VFP特征；

3.将提取的VFP特征与更换频道前匹配一致的待替换广告对应当前时间点的VFP特征进行比对；

4.若二者相同，则表示用户已更换回该频道；

5.判断当前时间点是否位于目标广告的替换播放时间段内，即需要判断目标广告是否已播放完；

6.若当前时间点位于目标广告的替换播放时间段内，即目标广告并未播放完，则根据当前时间点确定目标广告的播放时间点；

7.根据确定出的播放时间点继续播放目标广告。

在每段广告替换播放期间，可以启动针对此次广告替换的守护进程，该守护进程的目的是计算当前的广告播放时间点，一旦用户将频道切换回来时，若仍然在广告替换期间，则可以从守护进程获取当前播放时间点，进行正确的广告替换播放。其中，可以通过时间计数器来计算广告播放时间点。

七、自动创建特征数据库

特征数据库中保存有待替换广告的原始图像数据和多尺度的VFP特征数据，该多尺度的VFP特征数据的计算在服务器端完成，服务器定时向用户的智能电视终端推送该特征数据库中的数据。

起初的特征数据库可以是人工创建的，包含少量的广告样本。如何自动的扩充特征数据库，使之摆脱繁重的人工耗时，是整个广告替换系统需要解决的问题。因此本发明提出了一种自动创建特征数据库的方法，如图13所示。

步骤如下：

1.按照日期和频道，全天候提取所有频道节目的VFP特征；

2.广告检测；

i.按照同一频道、相同时间不同的日期，进行VFP特征比对。考虑到每天广告播放时间会有所偏差，可以将对比的时间点前后移动Q帧。

ii.对于一个频道，每天同一时段播放的电视节目可能是不同的，但是广告在若干天内的播放时间可能是相同的，则根据对比结果，可以选取稳定的D天内的具有相同VFP特征的视频则为广告。

如图14所示，为同一频道在不同日期所播放的内容示意图，其中P₁、P₂、……P_N、P_N+1为同非广告内容，Ad为广告内容。由图14可知，同一频道每天同一时段播放的电视节目可能是不同的，但是广告在若干天内的播放时间可能是相同的。

3.不同的广告分割处理。对于接连播放的多段广告，其主体音频有着明显的区分，根据音频的VFP特征，可以将不同的广告切割出来。

4.黑边和OSD去除：

A去黑边处理：特征数据库要保存原始的广告图像信息，在检测到播放的广告存在黑边问题时，如图15中的(1)～(2)所示，可以进行如下处理：

i.将图像变换为灰度图像；

ii.在水平、垂直方向计算灰度直方图，直方图为0的区域为黑边；

iii.根据检测出的黑边，对广告图像进行去黑边处理，得到原始的广告图像。

B去OSD信息处理：

对于OSD信息，如图15中的(3)～(4)，具体处理包括：

i.动态OSD信息检测，可以利用不同日期的广告图像比较得到OSD信息，如图15中的(3)所示，该图中下方的通知信息可以认为是一种动态OSD信息，动态OSD信息的出现时间不确定；

ii.对于静态OSD信息，可以利用图像颜色一致性进行检测，如图15中的(4)所示，该图中右上方有频道标识，由于该频道播放的内容中，该标识会一直存在，因此可以认为该标识为一种静态OSD信息。

iii.利用不同频道的同一广告，对广告图像进行OSD区域补偿覆盖。

通过上述方法，可以对图15中的(1)、(2)、(3)和(4)进行处理，得到原始广告图像。

可以将得到的原始广告图像和对应的VFP特征存储在特征数据库中。

基于上述本发明所提供的方法，本发明还提供了一种终端设备，如图16所示，包括：

提取单元1601，用于提取待播放多媒体内容对应的多媒体特征；

处理单元1602，用于若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；

播放单元1603，用于播放所述目标多媒体内容。

本发明还提供了一种终端设备，如图17所示，包括：

处理器1701；以及

存储器1702，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行上述的方法。

图18示意性示出了根据本公开实施例的可用于实现本公开的基站或用户设备的计算系统的框图。

如图18所示，计算系统600包括处理器610、计算机可读存储介质620、输出接口630、以及输入接口640。该计算系统600可以执行上面参考图1描述的方法，以实现对输入的信号是否为非正常语音信号的判定。

具体地，处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行参考图1描述的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质620，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质620可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器610执行时使得处理器610执行例如上面结合图1所描述的方法流程及其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器610执行时，使得处理器610可以执行例如上面结合图1所描述的方法流程及其任何变形。

根据本公开的实施例，处理器610可以使用输出接口630和输入接口640来执行上面结合图1所描述的方法流程及其任何变形。

与现有技术相比，本发明至少具有以下优点：

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种多媒体内容处理方法，其特征在于，包括：

提取待播放多媒体内容对应的多媒体特征；

将所述多媒体特征与预存储的待替换多媒体内容对应的至少一个尺度的多媒体特征进行匹配；若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；

播放所述目标多媒体内容。

2.如权利要求1所述的方法，其特征在于，确定替换后的目标多媒体内容，包括：

确定所述待播放多媒体内容对应的待播放多媒体内容集合；

播放所述目标多媒体内容，包括：

3.如权利要求2所述的方法，其特征在于，提取待播放多媒体内容对应的多媒体特征，包括：

确定待播放多媒体内容对应的显著目标；

针对确定出的显著目标分别提取多媒体特征；

4.如权利要求3所述的方法，其特征在于，确定待播放多媒体内容对应的显著目标，包括：

针对待播放多媒体内容进行显著目标检测；

5.如权利要求3或4所述的方法，其特征在于，根据各显著目标的多媒体特征，确定所述待播放多媒体内容对应的多媒体特征，包括：

6.如权利要求2所述的方法，其特征在于，通过下述方式检测所述待播放多媒体内容是否需要进行内容替换：

7.如权利要求6所述的方法，其特征在于，所述特征数据库存储的多媒体特征通过如下方式确定：

确定待替换多媒体内容对应的显著目标；

8.如权利要求7所述的方法，其特征在于，将提取的多媒体特征，与特征数据库存储的各待替换多媒体内容对应的多媒体特征进行匹配，包括：

9.如权利要求6-8中任一项所述的方法，其特征在于，检测所述待播放多媒体是否需要进行内容替换之前，还包括：

10.如权利要求9所述的方法，其特征在于，还包括：

11.如权利要求2所述的方法，其特征在于，确定替换后的目标多媒体内容集合，包括：

12.如权利要求11所述的方法，其特征在于，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放，包括：

13.如权利要求12所述的方法，其特征在于，根据比较结果，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放，包括：

14.如权利要求2所述的方法，其特征在于，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放，包括：

获取待播放多媒体内容对应的屏幕显示OSD信息；

15.如权利要求1所述的方法，其特征在于，所述多媒体特征包括视频指纹VFP特征。

16.一种终端设备，其特征在于，包括：

提取单元，用于提取待播放多媒体内容对应的多媒体特征；

处理单元，用于将所述多媒体特征与预存储的待替换多媒体内容对应的至少一个尺度的多媒体特征进行匹配；若根据提取的所述多媒体特征，检测出所述待播放多媒体需要进行内容替换，则确定替换后的目标多媒体内容；

播放单元，用于播放所述目标多媒体内容。

17.如权利要求16所述的终端设备，其特征在于，所述处理单元用于：

确定所述待播放多媒体内容对应的待播放多媒体内容集合；

所述播放单元用于：

18.如权利要求17所述的终端设备，其特征在于，所述提取单元用于：

确定待播放多媒体内容对应的显著目标；

针对确定出的显著目标分别提取多媒体特征；

19.如权利要求18所述的终端设备，其特征在于，所述提取单元用于确定待播放多媒体内容对应的显著目标时，具体用于：

针对待播放多媒体内容进行显著目标检测；

20.如权利要求18或19所述的终端设备，其特征在于，所述提取单元用于根据各显著目标的多媒体特征，确定所述待播放多媒体内容对应的多媒体特征时，具体用于：

21.如权利要求17所述的终端设备，其特征在于，所述处理单元用于通过下述方式检测所述待播放多媒体内容是否需要进行内容替换：

22.如权利要求21所述的终端设备，其特征在于，所述特征数据库存储的多媒体特征通过所述处理单元执行如下内容确定：

确定待替换多媒体内容对应的显著目标；

23.如权利要求22所述的终端设备，其特征在于，所述处理单元用于将提取的多媒体特征，与特征数据库存储的各待替换多媒体内容对应的多媒体特征进行匹配时，包括用于：

24.如权利要求21-23中任一项所述的终端设备，其特征在于，所述处理单元在用于检测所述待播放多媒体是否需要进行内容替换之前，还用于：

25.如权利要求24所述的终端设备，其特征在于，所述处理单元还用于：

26.如权利要求17所述的终端设备，其特征在于，所述处理单元用于确定替换后的目标多媒体内容集合时，具体用于：

27.如权利要求26所述的终端设备，其特征在于，所述处理单元用于将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放时，具体用于：

28.如权利要求27所述的终端设备，其特征在于，所述处理单元用于根据比较结果，将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放时，具体用于：

29.如权利要求17所述的终端设备，其特征在于，所述处理单元用于将所述待播放多媒体内容集合，替换为所述目标多媒体内容集合进行播放时，具体用于：

获取待播放多媒体内容对应的屏幕显示OSD信息；

30.如权利要求16所述的终端设备，其特征在于，所述多媒体特征包括视频指纹VFP特征。

31.一种终端设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行权利要求1～15中任一项所述的方法。

32.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序在被处理器运行时，执行权利要求1至15中任一项所述的方法。