CN117221465B

CN117221465B - 一种数字视频内容合成方法及系统

Info

Publication number: CN117221465B
Application number: CN202311220795.2A
Authority: CN
Inventors: 张航
Original assignee: Beijing Yuelai Health Technology Co ltd
Current assignee: Beijing Yuelai Health Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2024-04-16
Anticipated expiration: 2043-09-20
Also published as: CN117221465A

Abstract

本发明公开了一种数字视频合成方法及系统，包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接，所述方法包括：触发信息感应端采集目标内容触发信息匹配所述预设目标内容触发数据匹配目标播报信息；以此待讲解背景内容信息；根据待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；再根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容，使得生成的虚拟人物与待讲解的内容意思有很好的配合度，使得虚拟人物更加的生动。

Description

一种数字视频内容合成方法及系统

技术领域

本发明属于视频合成技术领域，具体涉及数字视频内容合成方法及系统。

背景技术

在数字视频内容合成领域中通常使用视频编辑系统，视频编辑系统是用于编辑、剪辑和处理视频素材的工具系统，从而制作出符合特定需求和目的的视频作品。视频编辑系统可以被用于制作电影、电视节目、广告、音乐视频、纪录片、教育视频等不同类型的视频作品。视频编辑系统通常包含一个向用户展示视频的界面，用户可以在其中导入视频素材、音频素材、图像素材等，并将它们按照需要进行排列、剪辑、调整、修剪和处理。视频编辑系统还可以提供一些特效、转场、字幕、音效、色彩调整、稳定和修复视频素材等功能，以帮助用户制作出更加精美和专业的视频作品。在很多实际场景中，例如景点介绍、博物馆展品介绍，或医疗康复、教学领域以及生活百科中都涉及视频介绍或文字性、图片的介绍，随着数字虚拟人物的发展，数字虚拟人物涉及虚拟偶像、虚拟代言人、数字人客服、数字人记者、数字人主播等等，播报类的数字虚拟人相较于直接使用文字、图片等内容的播报方式，数字虚拟人可以更加生动的表达播报内容。在通过人工智能技术进行生成视频内容的基础上，如何实时形成具有数字虚拟人的实时视频播放内容是亟待解决的问题。

发明内容

本发明的目的是提供数字视频内容合成方法及系统，用以解决现有技术中如何形成具有数字虚拟人的实时视频播放内容的问题。

为了实现上述目的，本发明采用以下技术方案：

本发明第一方面提供了一种数字视频内容合成方法，应用于数字视频内容合成系统，所述系统包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接，所述方法包括：

所述触发信息感应端采集目标内容触发信息，并将所述目标内容触发信息传给服务端；

所述服务端接收触发信息感应端传来的目标内容触发信息，目标内容触发信息包括目标内容触发数据，并将所述目标内容触发信息发给所述存储端；

所述存储端接收所述服务端传来的目标内容触发信息，根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；所述存储端设置有目标内容触发数据库，所述目标内容触发数据库包括若干预设目标内容触发数据；

所述存储端根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；并将待讲解背景内容信息传给所述服务端；

所述服务端接收所述存储端传来的待讲解背景内容信息，并对待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；

所述服务端根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容。

根据上述技术，触发信息感应端采集目标内容触发信息，根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；通过采集的目标内容触发信息进行内容匹配识别，找到精准的播报内容；服务端根据待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；再根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容，使得生成的虚拟人物与待讲解的内容意思有很好的配合度，使得虚拟人物更加的生动。

优选的，所述存储端再根据所述目标播报信息匹配预设的待讲解背景内容时，若无法匹配到待讲解背景内容；则将所述目标播报信息传给所述服务端；

所述服务端接收所述存储端传来的目标播报信息，并根据目标播报信息进行网络数据库搜索，以便获取待讲解背景内容。通过在网络数据库中搜索播报目标内容信息，可以匹配更多场景的播报内容。

优选的，所述服务端还连接有用户动作采集模块；所述用户动作采集模块采集用户的动作信息，并将所述动作信息传给所述服务端；

所述服务端接收所述动作采集模块传来的所述动作信息，并根据所述动作信息调整虚拟人物基础模型的播报动作。

优选的，所述服务端还连接有人脸识别模块，所述人脸识别模块采集用户人脸信息并识别用户表情信息，并将所述用户人脸信息和用户表情信息传给所述服务端；

所述服务端接收所述人脸识别模块传来的用户人脸信息和用户表情信息，并根据所述用户人脸信息和用户表情信息调整所述虚拟人物基础模型的面部特征和表情。

优选的，根据所述用户人脸信息和用户表情信息调整所述虚拟人物基础模型的面部特征和表情的方法包括：

根据所述人脸信息，识别人脸面部特征，根据人脸面部特征预估用户年纪信息及用户性别信息，根据用户性别信息匹配虚拟人物基础模型的性别特征；根据用户年纪信息匹配虚拟人物基础模型年纪特征。

优选的，所述待讲解背景内容信息包括视频文件、图片、幻灯片和/或文档。

本发明第二方面提供了一种数字视频内容合成系统，包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接；

所述触发信息感应端，用于采集触发信息，并将所述触发信息传给服务端；

所述服务端，用于接收触发信息感应端传来的目标内容触发信息，目标内容触发信息包括目标内容触发数据，并将所述目标内容触发信息发给所述存储端；

所述存储端，用于接收所述服务端传来的目标内容触发信息，根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；所述存储端设置有目标内容触发数据库，所述目标内容触发数据库包括若干预设目标内容触发数据；

所述存储端，用于根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；并将待讲解背景内容信息传给所述服务端；

所述服务端，用于接收所述存储端传来的待讲解背景内容信息，并对待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；

所述服务端，用于根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容。

所述服务端，用于接收所述存储端传来的目标播报信息，并根据目标播报信息进行网络数据库搜索，以便获取待讲解背景内容。

优选的，所述系统还包括用户动作采集模块，所述用户动作采集模块连接所述服务端；

所述用户动作采集模块，用于采集用户的动作信息，并将所述动作信息传给所述服务端；

优选的，所述系统还包括人脸识别模块，所述人脸识别模块与所述服务端连接；

所述人脸识别模块，用于采集用户人脸信息并识别用户表情信息，并将所述用户人脸信息和用户表情信息传给所述服务端；

所述服务端，用于接收所述人脸识别模块传来的用户人脸信息和用户表情信息，并根据所述用户人脸信息和用户表情信息调整所述虚拟人物基础模型的面部特征和表情。

有益效果：通过触发信息感应端采集目标内容触发信息，根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；通过采集的目标内容触发信息进行内容匹配识别，找到精准的播报内容；服务端根据待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；再根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容，使得生成的虚拟人物与待讲解的内容含义有很好的配合度，使得虚拟人物更加的生动。通过在网络数据库中搜索播报目标内容信息，可以匹配更多场景的播报内容。

附图说明

图1为实施例第一方面提供的数字视频内容合成方法流程图；

图2为实施例第二方面提供的数字视频内容合成系统模块图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

实施例：

如图1、图2所示，本实施例提供了第一方面提供了一种数字视频内容合成方法，应用于数字视频内容合成系统，所述系统包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接，其中，触发信息感应端可以但不限于是二维码扫描识别装置、RFID读写器、终端录入装置等,服务端可以但不限于由具有一定计算资源的计算机设备执行，例如由个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digital assistant，PAD)或平台服务端等电子设备；所述方法包括：采集目标内容触发信息，目标内容触发信息包括目标内容触发数据，目标内容触发信息是二维码扫描识别装置识别到的二维码信息、RFID读写器读取到的信息或终端录入装置录入的信息等，目标内容触发数据是所述信息中的指定数据字段；例如二维码表示的信息中包含的指定数据段；根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；并将待讲解背景内容信息传给所述服务端；对待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容；

可以理解的，前述执行主体并不构成对本申请实施例的限定，相应的，本方法的运行步骤可以但不限于如下述步骤S1～S6所示；

S1、所述触发信息感应端采集目标内容触发信息，并将所述目标内容触发信息传给服务端；

S2、所述服务端接收触发信息感应端传来的目标内容触发信息，目标内容触发信息包括目标内容触发数据，并将所述目标内容触发信息发给所述存储端；

S3、所述存储端接收所述服务端传来的目标内容触发信息，根据所述目标内容触发数据匹配满足触发条件的预设目标内容触发数据；所述存储端设置有目标内容触发数据库，所述目标内容触发数据库包括若干预设目标内容触发数据；

S4、所述存储端根据匹配到的所述预设目标内容触发数据匹配目标播报信息；再根据所述目标播报信息匹配预设的待讲解背景内容信息；并将待讲解背景内容信息传给所述服务端；

S5、所述服务端接收所述存储端传来的待讲解背景内容信息，并对待讲解背景内容信息进行语义识别；以便获得待讲解背景内容风格信息；

S6、所述服务端根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容。

所述服务端接收所述存储端传来的目标播报信息，并根据目标播报信息进行网络数据库搜索，以便获取待讲解背景内容。

所述服务端接收所述动作采集模块传来的所述动作信息，并根据所述动作信息调整虚拟人物基础模型的播报动作。具体示例的，根据用户招呼手势，肢体动作的识别，将动作匹配给虚拟人物，合成最终的播报视频内容。

根据所述人脸信息，识别人脸面部特征，根据人脸面部特征预估用户年纪信息及用户性别信息，根据用户性别信息匹配虚拟人物基础模型的性别特征；根据用户年纪信息匹配虚拟人物基础模型年纪特征。具体示例的，当用户是一个孩子，则匹配的是一个年龄相差不多孩子的虚拟人物基础模型。根据表情识别，可以模仿用户表情，增加虚拟人物与用户之间的关联性。

优选的，所述待讲解背景内容信息包括视频文件、图片、幻灯片和/或文档。具体实施时，待讲解背景内容信息还包括特效、转场、字幕、音效、色彩调整、稳定和修复视频素材等。

如图2所示，本发明第二方面提供了一种数字视频内容合成系统，包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接；

具体示例的，所述系统还包括语义识别模块，所述语音识别模块实时用户语音，所述人脸识别模块中还具有唇形识别算法来识别唇形，并将语音识别模块识别到的用户语音与唇型的进行匹配，精准实现用户语音识别，以便获取语音信息，并将语音信息与目前的语音交互系统对接，语音交互系统例如chatGPT,(全名：Chat Generative Pre-trainedTransformer)，是一种聊天机器人程序，将语音交互系统的反馈信息传给虚拟人物模型，通过虚拟人物模型结合所述反馈信息进行动画播放；最终实现一个可以实时交流沟通的数字人。

本实施例第三方面提供了一种存储包含有实施例第一方面的数字视频内容合成的指令的计算机可读存储介质，即计算机可读存储介质上存储有指令，当指令在计算机上运行时，执行如第一方面的数字视频内容合成方法。其中，计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，计算机可以是通用计算机、专用计算机、计算机网络，或者其它可编程装置。

本实施例第四方面提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使计算机执行如实施例第一方面的数字视频内容合成方法，其中，计算机可以是通用计算机、专用计算机、计算机网络，或者其它可编程装置。

以上所描述的多个实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台仓库代码的合并装置执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字视频内容合成方法，其特征在于，应用于数字视频内容合成系统，所述数字视频内容合成系统包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接，所述方法包括：

所述服务端根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格信息，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容；

所述存储端在根据所述目标播报信息匹配预设的待讲解背景内容时，若无法匹配到待讲解背景内容；则将所述目标播报信息传给所述服务端；

2.根据权利要求1所述的数字视频内容合成方法，其特征在于，所述服务端还连接有用户动作采集模块；所述用户动作采集模块采集用户的动作信息，并将所述动作信息传给所述服务端；

3.根据权利要求1所述的数字视频内容合成方法，其特征在于，所述服务端还连接有人脸识别模块，所述人脸识别模块采集用户人脸信息并识别用户表情信息，并将所述用户人脸信息和用户表情信息传给所述服务端；

4.根据权利要求3所述的数字视频内容合成方法，其特征在于，根据所述用户人脸信息和用户表情信息调整所述虚拟人物基础模型的面部特征和表情的方法包括：

5.根据权利要求1所述的数字视频内容合成方法，其特征在于，所述待讲解背景内容信息包括视频文件、图片、幻灯片和/或文档。

6.一种数字视频内容合成系统，其特征在于，包括触发信息感应端、服务端及存储端，所述触发信息感应端及存储端分别和所述服务端连接；

所述服务端，用于根据待讲解背景内容风格匹配虚拟人物基础模型；并根据待讲解背景内容风格信息调整所述虚拟人物基础模型的风格，形成最终虚拟人物模型；并将最终虚拟人物模型与所述待讲解背景内容进行合成，形成最终播报内容；

7.根据权利要求6所述的数字视频内容合成系统，其特征在于，所述系统还包括用户动作采集模块，所述用户动作采集模块连接所述服务端；

8.根据权利要求6所述的数字视频内容合成系统，其特征在于，所述系统还包括人脸识别模块，所述人脸识别模块与所述服务端连接；