CN114760517A

CN114760517A - 图像活动嵌入方法及其装置、设备、介质、产品

Info

Publication number: CN114760517A
Application number: CN202210399062.9A
Authority: CN
Inventors: 巫金生
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-15
Anticipated expiration: 2042-04-15
Also published as: CN114760517B

Abstract

本申请公开一种图像活动嵌入方法及其装置、设备、介质、产品，所述方法包括：从主播用户的视频流中跟踪识别出物品图像相对应的占位区；根据所述视频流确定所述物品图像的被拍摄视角；根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像。本申请能够实现商品图像在视频流中的有效植入，使植入后的视频图像更为自然和精准，便于通过视频流植入商品广告，以适应元宇宙时代下增强现实技术的新需求。

Description

图像活动嵌入方法及其装置、设备、介质、产品

技术领域

本申请涉及电商直播技术领域，尤其涉及一种图像活动嵌入方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

直播电商方兴未艾，消费者越来越习惯在电商直播间中进行交易，不仅使电商业态产生巨大变化，也在使社会劳动就业结构得以持续优化。面对这样的场景，信息的传播已不局限于单纯地进行网页展示，而需要更多地考虑如何与直播视频流进行结合，以达致更好的信息传播效果。

示例性的需求场景中，电商平台需要通过直播视频流推送目标商品相对应的图像，以往针对这种需求，是直接将目标商品的相关图像合成至视频图像帧的某一固定区域，然后将合成后的视频流输出至观众用户的终端设备显示，这种方式下，一旦直播视频流中的环境光线、拍摄角度发生改变，会导致对所述固定区域误识别，导致部分图像帧漏合成，或者合成不准确，合成效果较差，用户观看体验自然也不理想，这从某种程度上影响了信息传播效果。

由此可见，在直播视频流中有效传播图像信息的相关技术，尚有较大的提升空间。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种图像活动嵌入方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种图像活动嵌入方法，包括如下步骤：

从主播用户的视频流中跟踪识别出物品图像相对应的占位区；

根据所述视频流确定所述物品图像的被拍摄视角；

根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像。

深化的部分实施例中，从主播用户的视频流中跟踪识别出物品图像相对应的占位区，包括如下步骤：

对所述的视频流中的当前图像帧进行目标检测，确定出候选物品图像相对应的候选框及其置信度；

根据置信度最高的候选框从所述当前图像帧中裁剪出候选物品图像；

对裁剪出的候选物品图像实施图像分割，获得其中的物品图像对应的掩膜，将其构造为占位区。

深化的部分实施例中，根据所述视频流确定所述物品图像的被拍摄视角，包括如下步骤：

调用为所述视频流中当前拍摄场景构建的环境地图；

根据所述物品图像在所述环境地图中的位置变化信息估计所述物品图像相对于拍摄相机的相对位置信息；

根据所述相对位置信息确定所述物品图像的被拍摄视角。

深化的实施例中，根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像，还包括如下步骤：

根据所述的被拍摄视角的变化量，等量调整待嵌入的立体图元的朝向，确定该立体图元的当前视角；

根据该立体图元的三维数据生成当前视角下的主视图像；

将所述主视图像与所述视频流中由所述占位区限定的图像区域进行合成；

将合成后的图像帧渲染显示于观众用户的终端设备的图形用户界面中。

扩展的部分实施例中，根据所述拍摄视角的变化调整待嵌入的立体图元的当前视角的步骤之前，包括如下步骤：

根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品。

具体的实施例中，根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品，包括如下步骤：

根据所述观众用户的用户行为数据生成其偏好特征信息；

根据所述偏好特征信息匹配出广告素材数据库中的多个广告素材；

根据所述多个广告素材的竞价信息确定目标广告素材；

从目标广告素材中获得待嵌入至所述视频流中的立体图元。

进一步的实施例中，根据所述多个广告素材的竞价信息确定目标广告素材，包括如下步骤：

将所述多个广告素材中的立体图元的摘要图像与所述物品图像进行特征匹配，确定出与该物品图像相匹配的部分广告素材，所述摘要图像为所述的立体图元的任意一个视角所对应的主视图像；

根据所述部分广告素材各自的竞价信息计算各个广告素材的效益值；

选取所述效益值最大的广告素材作为目标广告素材。

适应本申请的目的之一而提供的一种图像活动嵌入装置，包括视频分析模块、视角确定模块，以及图像嵌入模块，其中，所述视频分析模块，用于从主播用户的视频流中跟踪识别出物品图像相对应的占位区；所述视角确定模块，用于根据所述视频流确定所述物品图像的被拍摄视角；所述图像嵌入模块，用于根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像。

深化的部分实施例中，所述视频分析模块，包括：目标检测单元，用于对所述的视频流中的当前图像帧进行目标检测，确定出候选物品图像相对应的候选框及其置信度；图像裁剪单元，用于根据置信度最高的候选框从所述当前图像帧中裁剪出候选物品图像；掩膜获取单元，用于对裁剪出的候选物品图像实施图像分割，获得其中的物品图像对应的掩膜，将其构造为占位区。

深化的部分实施例中，所述视角确定模块，包括：地图调用单元，用于调用为所述视频流中当前拍摄场景构建的环境地图；空间分析单元，用于根据所述物品图像在所述环境地图中的位置变化信息估计所述物品图像相对于拍摄相机的相对位置信息；视角估计单元，用于根据所述相对位置信息确定所述物品图像的被拍摄视角。

深化的实施例中，所述图像嵌入模块，包括：朝向调整单元，用于根据所述的被拍摄视角的变化量，等量调整待嵌入的立体图元的朝向，确定该立体图元的当前视角；主视生成单元，用于根据该立体图元的三维数据生成当前视角下的主视图像；视频合成单元，用于将所述主视图像与所述视频流中由所述占位区限定的图像区域进行合成；渲染显示单元，用于将合成后的图像帧渲染显示于观众用户的终端设备的图形用户界面中。

扩展的部分实施例中，先于所述图像嵌入模块，包括：素材获取模块，用于根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品。

具体的实施例中，所述素材获取模块，包括：偏好提取单元，用于根据所述观众用户的用户行为数据生成其偏好特征信息；素材匹配单元，用于根据所述偏好特征信息匹配出广告素材数据库中的多个广告素材；竞价决策单元，用于根据所述多个广告素材的竞价信息确定目标广告素材；素材提取单元，用于从目标广告素材中获得待嵌入至所述视频流中的立体图元。

进一步的实施例中，所述竞价决策单元，包括：特征匹配子单元，用于将所述多个广告素材中的立体图元的摘要图像与所述物品图像进行特征匹配，确定出与该物品图像相匹配的部分广告素材，所述摘要图像为所述的立体图元的任意一个视角所对应的主视图像；效益计算子单元，用于根据所述部分广告素材各自的竞价信息计算各个广告素材的效益值；素材择优子单元，用于选取所述效益值最大的广告素材作为目标广告素材。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的图像活动嵌入方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的图像活动嵌入方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的技术方案至少包含如下技术优势：

首先，本申请通过识别出直播视频流中的物品图像，确定其占位区，然后所述物品图像在视频流中产生的位置变化，确定出其相对应的拍摄角度，再根据该拍摄角度调用立体图元，将立体图元对应调整视角后的主视图像替换该物品图像合成到视频流中，实现对视频流中摆设性物品的图像替换，也实现将所述的立体图元嵌入到直播视频流中，通过立体图元调整后的视角获得的主视图像向用户传播信息，在占位区的帮助下，图像过渡自然精准，不易引起漏合成的情况。

其次，本申请实现视频流中的物品图像的拍摄视角的跟踪分析，因而，即使主播用户在户外边走边直播，或者主播用户调整其摄像单元的拍摄视角，也仍可自适应地调整所述的立体图元的展示，确保需要传播的信息不受细微运动的影响。

此外，本申请采用立体图元调整拍摄视角生成待嵌入的主视图像对视频流的物品图像进行替换，不易引起观众用户的感知，可以实现更为自然的信息植入效果，例如广告植入效果，并且，立体图元能够更全面地展示某一物品，因而，在电商直播场景中，可以用于展示商品，从而实现商品的推广宣传，适应元宇宙时代的增强现实技术之需。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请示例性的电商直播场景中的网络部署架构的示意图；

图2为本申请的图像活动嵌入方法的典型实施例的流程示意图；

图3至图5为本申请示例性的同一直播活动中不同用户侧的直播间图形用户界面，其中，图3为主播用户侧的直播间界面，展示出一种茶杯图例；图4为观众用户侧的直播间界面，展示出图3被替换茶杯款式后的效果；图5同为该观众用户侧的直播间界面，展示出图4中的茶杯因应主播用户侧图3中的茶杯被转换视角后相应转换视角的效果；

图6为本申请实施例中识别出视频流的图像帧中的占位区的过程的流程示意图；

图7为本申请实施例中确定视频流的图像帧中的物品图像的被拍摄视角的过程的流程示意图；

图8为本申请实施例中根据相同物品图像的位移信息和与相机位置的相对位置信息确定所述物品图像的被拍摄视角的原理示意图；

图9为本申请实施例中根据物品图像的被拍摄视角控制立体图元调整视角生成主视图像与视频流合成的过程的流程示意图；

图10为本申请的图像活动嵌入方法的扩展实施例的流程示意图；

图11为本申请实施例中根据观众用户个性化匹配立体图元的过程的流程示意图；

图12为本申请实施例中根据物品图像的特征对多个广告素材进行筛选并确定出目标广告素材的过程的流程示意图；

图13为本申请的图像活动嵌入装置的原理框图；

图14为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

如图1所示，电商直播场景中，由代表商家的主播用户开启直播间，响应于直播间开启事件，驱动主播用户侧的终端设备的摄像单元开始采集视频流的数据帧，经编码生成视频流推送至直播间服务器，然后由服务器将其推送至进入该直播间的各个观众用户侧的终端设备，形成一个业务链条。

本申请的一种图像活动嵌入方法，可被编程为计算机程序产品，部署于所述业务链条的终端设备和/或服务器中运行而实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图2，本申请的图像活动嵌入方法，在其典型实施例中，包括如下步骤：

步骤S1100、从主播用户的视频流中跟踪识别出物品图像相对应的占位区：

可以变通多种实施例，从不同计算机设备中获得所述的占位区，例如：

一个实施例中，在主播用户侧，摄像单元采集的数据帧，被绘制为纹理图像，然后渲染到直播间的播放窗口进行输出显示。因此，可以通过图形控制器直接调用其纹理图像的图像帧对其进行占位区的识别，或者利用其编码生成的视频流再解码获得相关图像帧进行占位区的识别。主播用户侧获得的占位区，可上传给所述的服务器，或者应灵活实施的业务之需经由所述的服务器推送至各个观众用户侧的终端设备。

另一实施例中，由直播间的服务器，具体是负责接收和推送所述视频流的媒体服务器，在对所述视频流进行解码后，利用其各中的各个图像帧进行所述占位区的识别。媒体服务器所获得的占位区，可自行利用或者应灵活实施的业务之需经由所述的服务器推送至各个观众用户侧的终端设备。

以上两个实施例可以实现集中获取视频图像帧中的占位区，省去在观众用户侧的逐一实现，从而可以集中统一地生成占位区相对应的信息，提升整体运行效率。

再一实施例中，可由各个所述的观众用户侧的终端设备在接收到服务器推送的所述视频流之后，对该视频流进行解码，对解码后获得的图像帧进行所述占位区的识别。观众用户侧识别出的占位区一般只对当前观众用户生效。由观众用户侧的终端设备自行确定占位区，一般不会出现丢帧的现象，可以确保图像帧与占位区两者在时间戳上的严格同步。

对所述视频流进行占位区的识别，一般针对视频流中的图像帧逐帧进行，形成长时效的跟踪机制。针对每个图像帧进行图像分割，获得各个预期的物品的图像区域，生成各个图像区域相对应的图像掩膜作为占位区即可，对此，本领域技术人员可以根据此处的启示，结合传统技术灵活实施。所生成的占位区，与其相应的图像帧之间建立时间戳上的关联，以便后续在视频流被播放时可以通过时间戳建立两者的对应关系进行视频合成。

所述的物品图像相对应的物品，可以是背景墙、水杯、画框、盒体、摆件等，也可以是随直播人员同步运动的物品，例如汽车内的吊件等，诸如此类，相对于直播人员的人物图像较为静止的摆设性物品。

步骤S1300、根据所述视频流确定所述物品图像的被拍摄视角：

所述的物品图像所对应的物品，在现实中均是三维物品，当主播用户侧的摄像单元的拍摄视角发生改变时，物品图像所显示的内容也会相应发生改变。据此，可借助视觉SLAM技术，即同步定位和地图构建技术，根据多帧连续图像帧中地标参照物的像素的变化信息，来构造视频流的视频图像相对应的环境地图，然后根据环境地图确定所述物品图像的被拍摄视角即可。对此，本领域技术人员可以根据此处揭示的原理自行实现。

同理，所述的被拍摄视角可以由主播用户侧、服务器、观众用户侧获得，最终将被用于参与对所述视频流的图像合成。

步骤S1500、根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像：

本申请中，预备有立体图元，所述立体图元为三维建模所获得的三维模型图像数据，可以通过调整不同观察视角而生成其当前视角下的主视图像。在示例性的电商场景中，所述立体图元可以是在售卖的商品的三维模型，通过切换所述立体图元的不同主视图像，自然可以多角度观察到相应的商品的图像效果。

所述立体图元可以是为所有的观众用户统一确定的，也可以是根据观众用户侧的个人特征信息而个性化匹配的。

无论在主播用户侧、观众用户侧，还是服务器负责将所述的立体图元的图像嵌入到视频流中，当每一图像帧生成所述物品图像的被拍摄视角或者所述被拍摄视角产生变化后，便可根据该被拍摄视角对应调整待嵌入的立体图元的当前视角，例如立体图元初始被调用时以0°为基准对应物品图像的当前被拍摄视角进行展示，当一个图像帧的所述被拍摄视角逆时针旋转15°时，相应地，也将该立体图元逆时针旋转15°，将这一角度下的主视图像用于对该图像帧的图像合成。

将所述主视图像合成到所述视频流的相应图像帧中时，可以两者的时间戳保持同步合成关系，然后将所述的主视图像合成到所述的占位区所覆盖的图像区域中。由于所述占位区是对物品图像分割后生成的完整区域，具有较为精准的轮廓，因而，主视图像对应合成后，所获得的效果会更为自然完整。当然，在合成过程中，也应根据所述占位区所占的画幅，对所述的主视图像进行适度的缩放，使其适配所述的占位区的大小，对此，本领域技术人员可以灵活实施。

完成将所述的立体图元的主视图像合成到相应的图像帧中之后，便可将该图像帧交由相应的观众用户侧的终端设备负责进行图像渲染，将其显示到该终端设备的图形用户界面的播放窗口中。由于对视频流的占位区的分析是持续的过程，因而，所述立体图元的主视图像也随着视频流而及时做出调整，使得同一直播环境之下，可视范围内的所述物品图像，均被即时替换为所述的立体图元的相应主视图像，从而完美地将所述的立体图元的图像嵌入所述的视频流中。如图3所示，主播用户侧的播放窗口中的茶杯，作为所述的物品图像被识别出，经过本申请的处理后，在图4的观众用户侧的播放窗口中，被显示为另一个款式的茶杯，而当主播用户侧的摄像单元发生角度变化之后，则在图5所示的观众用户侧的播放窗口中，所述另一款式的茶杯被转换相应的视角。

通过本申请的典型实施例及其各个变通实施例，可以看出，相对于现有技术，本申请的技术方案至少包含如下技术优势：

请参阅图6，深化的部分实施例中，所述步骤S1100、从主播用户的视频流中跟踪识别出物品图像相对应的占位区，包括如下步骤：

步骤S1110、对所述的视频流中的当前图像帧进行目标检测，确定出候选物品图像相对应的候选框及其置信度：

为实现对视频流中各个图像帧的物品图像的识别，可采用诸如YoloX之类的图像目标检测模型对每个图像帧进行目标检测，从而确定出其中的各个可能的物品图像作为候选物品图像，模型对应输入这些候选物品图像的候选框及其相应的置信度。

所述的目标检测模型，可以由本领域技术人员根据本申请所揭示的原理，采用足量的训练样本对其进行训练至收敛状态，使其具备从所述的图像帧中识别出本申请所称的任意一种物品图像即可。

步骤S1120、根据置信度最高的候选框从所述当前图像帧中裁剪出候选物品图像：

考虑到节省运算量的需要，针对所述的各个候选框，可选取其中置信度最大的候选框，对应从其相应的所述图像帧中截取出候选物品图像，以便针对该候选物品图像确定其相应的占位区。

步骤S1130、对裁剪出的候选物品图像实施图像分割，获得其中的物品图像对应的掩膜，将其构造为占位区：

进而，采用一个预先训练至收敛状态的图像分割模型，所述图像分割模型可以U²net为基础网络模型，利用该图像分割模型对所述置信度最高的候选框相对应的候选物品图像进行图像分割，经分割后，获得其中的物品图像相对应的图像掩膜，该图像掩膜以二值化结果描述了各个像素点属于物品图像或不属于物品图像。据此，该图像掩膜便在事实上描述了图像帧中物品图像相对应的像素集，也即描述了所述物品图像在其相应的图像帧中的占位区，从而实现从图像帧中确定物品图像的占位区的过程。

本实施例针对图像帧实施逐帧目标检测和图像分割处理，而获得描述了物品图像所涵盖的像素点集合的占位区，可以为后续的图像合成过程提供精准到像素点的定位信息，从而确保后续视频合成后的图像效果更为自然逼真。

请参阅图7，深化的部分实施例中，所述步骤S1300、根据所述视频流确定所述物品图像的被拍摄视角，包括如下步骤：

步骤S1310、调用为所述视频流中当前拍摄场景构建的环境地图：

为了更快速地确定所述物品图像的被拍摄视角，考虑到多数的直播环境是在总体上静止的环境下实施的，据此，可以采用视觉SLAM技术，借助直播开启后在前的若干个图像帧，预先建构当前拍摄场景下的环境地图，对此，本领域技术人员均可实现。

在绘制了所述的环境地图的情况下，便可调用该环境地图为参照，更为快速地确定相机位置，从而快速估计确定出物品图像的被拍摄视角。

步骤S1320、根据所述物品图像在所述环境地图中的位置变化信息估计所述物品图像相对于拍摄相机的相对位置信息：

当所述物品图像发生拍摄视角的转变时或者整个摄像角度发生较大变化时，反映到视频流的前后两个图像帧中，两者的同一物品图像的特征点将出现变化，根据此时反映的法向图、深度图等几何信息，以所述的环境地图为参考坐标系，便可获得摄像单元相对于所述环境地图的相机位置，于是也就可以相应确定所述物品图像相对于拍摄相机的相对位置信息，所述相对位置信息主要包括前后两个图像帧之间相同像素点的位移信息以及根据环境地图估计的相机位置信息。

步骤S1330、根据所述相对位置信息确定所述物品图像的被拍摄视角：

如图8所示，A点为所述物品图像的一个图元在前一个图像帧中的位置，B点为该图元在后一图像帧中的位置，AB为物品图像中相同图元在所述环境地图中的位移距离，假设前一图像帧中相机位置居于C点，据此也可确定BC之间的距离，也即该图元到相机位置的距离，由此，利用BC与AB在所述的环境地图中的夹角，便可计算出∠ABC，从而便可参考前一图像帧的原角度相应确定当前图像帧下，所述物品图像的被拍摄视角。

通过本实施例可以看出，借助SLAM技术建构的环境地图，后续在根据视频流中的各个图像帧计算相同物品图像的被拍摄视角时，其所需计算量相对较小，可以更快速地确定物品图像的被拍摄视角，可以确保即时识别出物品图像的转换角度，从而确保及时获取立体图元的转换视角后的主视图像用于视频流的合成，使合成后的视频流能够流畅自然地展示所述的立体图元相对应视角下的图像。

请参阅图9，深化的实施例中，所述步骤S1500、根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像，还包括如下步骤：

步骤S1510、根据所述的被拍摄视角的变化量，等量调整待嵌入的立体图元的朝向，确定该立体图元的当前视角：

设前一图像帧中，所述物品图像的被拍摄视角为0°，对应地，所述立体图元在其时的朝向角度也是0°，当下一图像帧相对应的所述被拍摄角度为-15°时，可以计算出其变化量即为-15°，据此，将所述立体图元相应逆时针旋转15°，将此时的视角，确定为该立体图元的视角，根据这一原理，使立体图元的角度转换保持与所述物品图像的角度转换的同步。

步骤S1520、根据该立体图元的三维数据生成当前视角下的主视图像：

在确定好所述的立体图元的朝向后，即确定其相应的当前视角，此时，便可根据该立体图元的三维数据，对应生成该当前视角下的主视图像，该主视图像可存储对缓存中，以便如果后续图像帧相对应的被拍摄角度未发生改变时，可直接采用缓存中的所述主视图像进行合成，最大化地节省计算机设备的计算量。

步骤S1530、将所述主视图像与所述视频流中由所述占位区限定的图像区域进行合成：

继而，将所述的主视图像缩放至所述占位区大致相同的尺度，然后采用该占位区相对应的图像掩膜对所述的主视图像进行截图，获得对应的占位图像，不难理解，该占位图像刚好占据所述物品图像的全部像素点。据此，将所述的占位图像对应合成到当前图像帧中与所述占位区相对应处，将两者合二为一，合成出新的图像帧替换原图像帧，实现严丝合缝的全成效果。可以看出，此一合成过程无需依赖复杂的计算，只需简单进行像素点对齐和替换即可实现，非常高效。

步骤S1540、将合成后的图像帧渲染显示于观众用户的终端设备的图形用户界面中：

合成后的图像帧，当其由主播用户侧或服务器合成时，最终将随视频流送达观众用户侧的终端设备，当其由观众用户侧合成时，则观众用户侧的终端设备可直接调用。无论如何，观众用户侧的终端设备获得所述的图像帧后，便可将其渲染至当前直播间的图形用户界面的相应播放窗口中显示，其图形用户界面中看到的效果，会发现其中的立体图元相对应的主视图像发生了适应性的视角改变，连续多帧这样的替换效果的展示，能够为观众带来自然流畅的视觉效果，使观众不易识别出所述的立体图元是一个合成的图像，对于广告植入而言，具有非常好的无感知效果。

本实施例揭示利用物品图像的被拍摄角度控制视频流中的立体图元相对应的图像转换视角进行展示的过程，在此一过程中，在所述占位区的协助下，在进行立体图元的角度转换生成相应的主视图像，以及实现所述主视图像与相应的图像帧的合成的过程中，只需简单的图像调整和像素替换即可完成，整体计算量低，运算效率高，图像合成效果优异。

请参阅图10，扩展的部分实施例中，所述步骤S1500、根据所述拍摄视角的变化调整待嵌入的立体图元的当前视角的步骤之前，包括如下步骤：

步骤S1400、根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品：

本申请的部分实施例中，以本实施为概括，可以由观众用户侧的终端设备负责调用所述的立体图元，以此服务于观众用户的个性化匹配立体图元的需求。具体而言，接收所述视频流的观众用户由于在电商平台中的历史活动产生相应的用户行为记录数据，包括其浏览、购买相应商品的相应行为记录数据，根据这些数据，可以获得该观众用户相应的偏好特征信息，这些偏好特征信息在语义上定义了相应的观众用户的个人偏好特征。本领域技术人员可以采用各种已知的传统技术，根据所述的用户行为记录数据，实现对相应的偏好特征信息的预先提取。

所述的立体图元通常关联有其所描述展示的物品的介绍信息，对于立体图元被定义为用于可视化描述电商平台中的被售卖的商品的情况而言，所述介绍信息即为所述商品中的商品信息，包括但不限于商品标题、商品图片、商品属性数据等。不难理解，根据这些商品信息可以获得立体图元的商品特征信息。因此，可以利用观众用户的偏好特征信息与所述立体图元的语义特征信息进行语义匹配，为观众用户确定出与其个人偏好在语义上相关联的立体图元，然后从中选优用作合成到所述视频流的图像帧中的占位区的立体图元，由此便可实现将与用户的个人偏好相对应的商品的图像嵌入到所述的视频流中，在不影响主播用户的人体活动图像的情况下，实现无痕广告植入。

此处揭示的实施例，深化了本申请的技术方案的应用，可以看出，将本申请的技术方案服务于广告植入，可以获得图像感知上更为自然流畅的广告信息传播效果，由此改善电商直播过程中的用户体验。

请参阅图11，具体的实施例中，所述步骤S1400、根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品，包括如下步骤：

步骤S1410、根据所述观众用户的用户行为数据生成其偏好特征信息：

采用一个预先训练至收敛状态的第一特征提取模型，对所述的用户行为数据提取观众用户的偏好特征信息，为此，可先按照预设的规则对所述观众用户的用户行为记录数据进行梳理，获得规范化表达形式的用户行为数据，然后将所述用户行为数据编码为嵌入向量，将所述嵌入向量输入所述第一特征提取模型中进行表示学习，获得提取了所述用户行为数据的高层语义的偏好特征信息。

所述第一特征提取模型的训练过程，可由本领域技术人员采用足量的训练样本对其实施迭代训练，将其训练至收敛状态，使其适于根据所述用户行为数据提取出所述的偏好特征信息即可。

步骤S1420、根据所述偏好特征信息匹配出广告素材数据库中的多个广告素材：

本实施例中，服务于广告植入服务的需求，而预备有广告素材数据库，所述的广告素材数据库中，存储有大量的商家发布的广告素材，每个广告素材对应提供一个被广告商品的立体图元，且关联提供所述被广告商品的广告文案，所述广告文案包含所述被广告商品的部分或全部商品信息。

针对每个所述的被广告素材，借助第二特征提取模型对其进行特征提取，获得其中的被广告商品的商品特征信息，将这一商品特征信息关联该广告素材存储于所述的广告素材数据库中以便调用。

此处所采用的第二特征提取模型同样被预先训练至收敛状态，其经本领域技术人员采用足量的训练样本迭代训练至收敛状态而获得从所输入的广告素材的信息中提取出相应的高层语义的语义特征信息的表示学习能力，该语义特征信息便可作为被处理的广告素材的商品特征信息。

输入至此处的第二特征提取模型的广告素材的信息，可以是所述的广告文案，也可以是所述的商品信息，或者两者的结合，其中，可以包含图片和/或文本，无论如何，对于其中的文本，可通过编码为嵌入向量向模型输入，对于其中的图片，可以借助CNN之类的基础神经网络提取初步特征进行输入，而对于图片、文本多种模态下分别获得的语义特征信息，可以将各个模态相应的语义特征信息进行拼接而获得综合了不同模态的语义特征的商品特征信息。

为了实现所述的偏好特征信息与广告素材的匹配，可以构造一个双塔模型来实施，该双塔模型由所述第一特征提取模型和第二特征提取模型构成其两个支路，然后通过一个线性层计算两个特征提取模型输入的偏好特征信息与商品特征信息之间的相似度矩阵，将该相似度矩阵输入至预设的二分类器进行两者是否相匹配的判断，获得相应的判断结果，即确定相应的广告素材是否与当前观众用户的偏好特征信息相匹配。采用这一双塔模型针对各个广告素材的商品特征信息与当前观众用户的偏好特征信息进行联合判断，便可获得各个广告素材是否匹配当前观众用户的个人偏好的相应结果，从而，确定了符合当前观众用户的个性化偏好的多个广告素材。

所述的双塔模型，可以由本领域技术人员根据此处揭示的原理，采用足量的训练样本对其实施迭代训练达致收敛状态，使其习得根据给定的偏好特征信息和商品特征信息判断两者是否相匹配的能力即可。

步骤S1430、根据所述多个广告素材的竞价信息确定目标广告素材：

所述的广告素材实际上可来源于电商平台或第三方构建的广告竞价系统，由各个商家用户发布其广告素材，并提供相应的竞价信息，所述的竞价信息可以包括单位用户访问相应的广告素材的报价，据此，对于广告竞价系统而言，针对前一步骤中确定的多个广告素材，可判定其中报价最高的广告素材在竞价中胜出，而将该胜出的广告素材确定为匹配出的目标广告素材。

步骤S1440、从目标广告素材中获得待嵌入至所述视频流中的立体图元：

对于该目标广告素材，便可从所述的广告素材数据库中调用其立体图元，该立体图元即为待嵌入至视频流中的立体图元，通常还可包括所述广告素材所对应的商品的访问链接，以便在将所述的立体图元合成到视频流之时，在相应的占位区植入该访问链接，以响应用户触控而打开相应的商品详情页面，进一步刺激交易，达到广告直达页面的效果。

由于服务器具有访问大数据且适于服务海量的观众用户的优势，本实施例的过程可由观众用户向服务器提交请求，由服务器调用该观众用户的偏好特征信息负责实施，再将相应的立体图元推送给该观众用户。

变通的实施例中，也可以由服务器直接根据当前直播间的各个观众用户一一对应调用其偏好特征信息而获得对应的立体图元再主动推送给相应的观众用户，观众用户预先下载这些立体图元到本地缓存中，在需要合成时调用即可。

根据此处揭示的实现个性化广告植入的诸多示例，可以看出，利用观众用户的用户行为数据相对应的偏好特征信息，匹配出用户感兴趣的广告素材，可以最大化广告植入的成效，在用户无异常感知的情况下，实现对商品的推广，使信息传播效果更具定向性，从而可期望相关广告系统获取最大经济收益。

请参阅图12，进一步的实施例中，所述步骤S1430、根据所述多个广告素材的竞价信息确定目标广告素材，包括如下步骤：

步骤S1431、将所述多个广告素材中的立体图元的摘要图像与所述物品图像进行特征匹配，确定出与该物品图像相匹配的部分广告素材，所述摘要图像为所述的立体图元的任意一个视角所对应的主视图像：

由于步骤S1420中匹配出的立体图元数量可能较多，为了简化运算量以及提升对视频流中原有的物品图像的拟合度，在确定目标广告素材时，可以先进行过滤。为了便于指导过滤过程，所述的广告素材中，可以进一步包含其相应的立体图元的一个或多个摘要图像，所述的摘要图像可以是根据所述立体图元的较佳的视角而对应生成的主视图像。

据此，采用任何可行的预训练的图像特征提取模型，对所述的物品图像和任意一个摘要图像分别进行特征提取，获得其各自相应的图像特征信息，然后计算两个图像特征信息之间的相似度，当所述的相似度超过预设阈值时，即确认为两者实现特征匹配。根据这一原理，可以确定从步骤S1420所确定的多个广告素材中确定出与所述物品图像相匹配的多个立体图元，将不相匹配的多个立体图元的广告素材删除，由此余下相匹配的部分立体图元相对应的部分广告素材。可见，本步骤中，便实现对初始筛选的多个广告素材的选优，所匹配出来的广告素材中的立体图元，其在图像上是与视频流中的相应物品图像在语义上相匹配的相似图像，两者在图像上的衔接度或者在商品上的关联度更接近，一旦相互替换，会更为自然。

步骤S1432、根据所述部分广告素材各自的竞价信息计算各个广告素材的效益值：

电商平台或第三方的广告竞价系统中，可以设置更为复杂的计算规则，例如不仅提供每个广告素材的单位点击数的报价，而且提供观众用户点击总量相对应的优惠折扣等，据此，本步骤中，可提供更为深入的收益计算服务，通过计算所述部分广告素材中，各个广告素材被同等规模的观众用户点击总量所获得的价格总额，来确定各个广告素材相应的效益值。

步骤S1433、选取所述效益值最大的广告素材作为目标广告素材：

确实各个所述的广告素材的效益值后，从广告系统利益最大化出发，选取其中效益值最大的广告素材作为所述的目标广告素材即可。当视频流中存在多个物品图像需要获取多个目标广告素材时，则可根据这一原则选取对应数量的目标广告素材。

此处揭示的实施例，在参考竞价信息确定最佳的目标广告素材之前，进一步利用视频流中的所述占位区相应的物品图像与候选的广告素材的立体图元的摘要图像之间的语义相似度实现对候选的广告素材的过滤，获得优选的部分广告素材，在此基础上，再贯彻效益最大化原则，关联竞价信息确定效益最大的目标广告素材，以便将该目标广告素材中的立体图元推送至相应的观众用户侧实现个性化广告推广的效果。其中，不难理解，被显示到观众用户侧的终端设备的立体图元，本质上是被广告商品，该商品不仅符合用户的个人偏好，而且也与视频流中的所述物品图像在语义上相关联，通常是在图像上相接近，因此图像合成效果非常自然，综上，此处揭示的实施例具有广告信息传播上更为亲近受众、更为自然平滑的优势，可预期获得良好的实施效果。

请参阅图13，适应本申请的目的之一而提供的一种图像活动嵌入装置，是对本申请的图像活动嵌入方法的功能化体现，该装置包括视频分析模块1100、视角确定模块1200，以及图像嵌入模块1300，其中，所述视频分析模块1100，用于从主播用户的视频流中跟踪识别出物品图像相对应的占位区；所述视角确定模块1200，用于根据所述视频流确定所述物品图像的被拍摄视角；所述图像嵌入模块1300，用于根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像。

深化的部分实施例中，所述视频分析模块1100，包括：目标检测单元，用于对所述的视频流中的当前图像帧进行目标检测，确定出候选物品图像相对应的候选框及其置信度；图像裁剪单元，用于根据置信度最高的候选框从所述当前图像帧中裁剪出候选物品图像；掩膜获取单元，用于对裁剪出的候选物品图像实施图像分割，获得其中的物品图像对应的掩膜，将其构造为占位区。

深化的部分实施例中，所述视角确定模块1200，包括：地图调用单元，用于调用为所述视频流中当前拍摄场景构建的环境地图；空间分析单元，用于根据所述物品图像在所述环境地图中的位置变化信息估计所述物品图像相对于拍摄相机的相对位置信息；视角估计单元，用于根据所述相对位置信息确定所述物品图像的被拍摄视角。

深化的实施例中，所述图像嵌入模块1300，包括：朝向调整单元，用于根据所述的被拍摄视角的变化量，等量调整待嵌入的立体图元的朝向，确定该立体图元的当前视角；主视生成单元，用于根据该立体图元的三维数据生成当前视角下的主视图像；视频合成单元，用于将所述主视图像与所述视频流中由所述占位区限定的图像区域进行合成；渲染显示单元，用于将合成后的图像帧渲染显示于观众用户的终端设备的图形用户界面中。

扩展的部分实施例中，先于所述图像嵌入模块1300，包括：素材获取模块，用于根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品。

为解决上述技术问题，本申请实施例还提供计算机设备。如图14所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种图像活动嵌入方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的图像活动嵌入方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图13中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的图像活动嵌入装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的图像活动嵌入方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够实现商品图像在视频流中的有效植入，使植入后的视频图像更为自然和精准，便于通过视频流植入商品广告，以适应元宇宙时代下增强现实技术的新需求。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像活动嵌入方法，其特征在于，包括如下步骤：

根据所述视频流确定所述物品图像的被拍摄视角；

2.根据权利要求1所述的图像活动嵌入方法，其特征在于，从主播用户的视频流中跟踪识别出物品图像相对应的占位区，包括如下步骤：

3.根据权利要求1所述的图像活动嵌入方法，其特征在于，根据所述视频流确定所述物品图像的被拍摄视角，包括如下步骤：

调用为所述视频流中当前拍摄场景构建的环境地图；

根据所述相对位置信息确定所述物品图像的被拍摄视角。

4.根据权利要求1所述的图像活动嵌入方法，其特征在于，根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像，还包括如下步骤：

根据该立体图元的三维数据生成当前视角下的主视图像；

5.根据权利要求1至4中任意一项所述的图像活动嵌入方法，其特征在于，根据所述拍摄视角的变化调整待嵌入的立体图元的当前视角的步骤之前，包括如下步骤：

6.根据权利要求5所述的图像活动嵌入方法，其特征在于，根据接收所述视频流的观众用户的偏好特征信息匹配出相对应的立体图元，所述立体图元用于可视化描述被售卖的商品，包括如下步骤：

根据所述观众用户的用户行为数据生成其偏好特征信息；

根据所述多个广告素材的竞价信息确定目标广告素材；

从目标广告素材中获得待嵌入至所述视频流中的立体图元。

7.根据权利要求6所述的图像活动嵌入方法，其特征在于，根据所述多个广告素材的竞价信息确定目标广告素材，包括如下步骤：

选取所述效益值最大的广告素材作为目标广告素材。

8.一种图像活动嵌入装置，其特征在于，包括：

视频分析模块，用于从主播用户的视频流中跟踪识别出物品图像相对应的占位区；

视角确定模块，用于根据所述视频流确定所述物品图像的被拍摄视角；

图像嵌入模块，用于根据所述被拍摄视角的变化调整待嵌入的立体图元的当前视角，将该立体图元在当前视角下的主视图像替换所述占位区对应的物品图像。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。