CN116993918B

CN116993918B - 基于深度学习的主播形象建模系统及方法

Info

Publication number: CN116993918B
Application number: CN202311007244.8A
Authority: CN
Inventors: 秦德
Original assignee: Wuxi Xincai Intelligent Technology Co ltd
Current assignee: Wuxi Xincai Intelligent Technology Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-02-13
Anticipated expiration: 2043-08-11
Also published as: CN116993918A

Abstract

本发明公开了基于深度学习的主播形象建模系统及方法，涉及深度学习技术领域，该系统的检测判定模块包括采集单元、分析单元以及判定单元；采集单元采集并获取数据信息参数和模型处理信息参数，通过分析单元搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs，最后使用判定单元对适配度偏差指数Pczs进行判比，其技术要点为：系统使用时一方面可以使得整个建模系统能够完成对数据收集量的把控，在保证能够进行正常顺畅互动的前提下，使得整个系统能够高效、正常的运行，另一方面也减少了过多数据收集，从而增强对主播隐私的保护，因减少了模型的计算量，从而在一定程度上降低了成本。

Description

基于深度学习的主播形象建模系统及方法

技术领域

本发明涉及深度学习技术领域，具体为基于深度学习的主播形象建模系统及方法。

背景技术

深度学习是机器学习领域中的一个重要分支，旨在模仿人脑神经网络的结构和功能，通过构建和训练多层神经网络来实现对大规模数据进行学习和分析，在深度学习中，使用深层次的神经网络来处理输入数据，通过将多个非线性变换层，如卷积层、池化层、全连接层等串联在一起，逐步提取和表示数据中的特征，深度学习的核心思想是通过反向传播算法和梯度下降优化方法，自动学习特征表示和模型参数，从而实现对输入数据的高级抽象和建模。

在将深度学习运用到主播形象建模系统中时，主播形象建模系统中需要把主播的形象和声音建模到系统，建模的过程需要在深度学习的算法上进行处理，并利用AI机器人帮助直播，此时的主播不需要自己面对镜头互动。

现有技术存在不足为：为了保证主播形象建模系统拥有较好的性能，通常需要使得主播在封闭的房间内收集大量的形象数据和音频数据，但是收集的数据量过多则会导致整个系统后续的计算量大大增加，一方面增加整体的运作成本，另一方面也会造成主播隐私泄露的严重问题，若是收集的数据量过少则会影响系统的正常运作；

其次，对于收集主播形象数据和音频数据的环境也有要求，若是所处环境噪音较大，或是补光的光源没有正对主播，均会影响到后续形成虚拟主播的品质，即虚拟主播与主播本人相差过大的问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了基于深度学习的主播形象建模系统及方法，系统使用时一方面可以使得整个建模系统能够完成对数据收集量的把控，在保证能够进行正常顺畅互动的前提下，使得整个系统能够高效、正常的运行，另一方面也减少了过多数据收集，从而增强对主播隐私的保护，因减少了模型的计算量，从而在一定程度上降低了成本，解决了背景技术中提出的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

基于深度学习的主播形象建模系统，该系统包括：

数据收集模块，收集后续建模时需要的主播形象和声音数据；

数据预处理模块，对收集到的数据进行预处理，包括图像处理和音频处理，且图像处理包括人脸检测、关键点标定和人脸对齐操作，音频处理包括语音识别和语音合成操作；

虚拟建模模块，将主播的形象特征输入生成对抗网络中进行建模，以生成与主播相似的形象；将主播的声音特征输入到语音合成模型中进行建模，以生成与主播声音风格相似的语音；

整合系统模块，将主播形象和声音建模得到的结果进行整合，生成一个完整的主播虚拟模型，该虚拟模型通过AI机器人进行控制和操作，在直播过程中代替主播进行互动，上述需要用到同步处理技术，在进行建模和整合时，通过时间和空间上的对齐，将主播形象和声音的数据进行同步处理和整合，例如，可以根据音频的节奏和时序信息对视频进行剪辑和调整，或者根据视频的动作和表情信息对音频进行合成和调整；

还包括检测判定模块，其包括采集单元、分析单元以及判定单元；

其中，采集单元，采集并获取数据信息参数和模型处理信息参数，数据信息参数包括：外界环境干扰度Grd、数据数量Sz以及数据长度Sc，模型处理信息参数包括虚拟模型计算复杂度Fzd、针对主播形象特征进行建模时的耗时T1以及针对主播声音特征进行建模时的耗时T2；

分析单元，搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs，判定单元，将适配度偏差指数Pczs与设置的偏差指数阈值进行对比，若是适配度偏差指数Pczs大于偏差指数阈值/>，则表示收集的数据存在异常，需要执行第一策略，若是适配度偏差指数Pczs等于偏差指数阈值/>，则表示收集数据达到虚拟模型的处理需求，并与虚拟模型的处理需求完美吻合，若是适配度偏差指数Pczs小于偏差指数阈值/>，则表示收集的数据数量过少，需要执行第二策略。

进一步的，主播形象和声音数据包括图片、视频以及音频形式的数据，且图片和视频通过高清摄像探头进行捕捉和获取，音频则可以通过麦克风进行获取；

人脸检测指在图像中自动检测出人脸区域的操作，关键点标定指在人脸图像中定位出特定的关键点位置，人脸对齐指将人脸图像根据关键点的位置进行调整，语音识别指将音频信号转化为文本的过程，语音合成指根据文本生成语音信号的过程。

进一步的，生成对抗网络由生成器和判别器组成，生成器用于生成新的主播形象，判别器用于判断生成的形象与真实的主播形象之间的差异，并采用损失函数设计的方式持续优化生成器和判别器，在语音合成模型中使用循环神经网络进行语音合成。

进一步的，在数据信息参数中，外界环境干扰度Grd获取的逻辑如下：

式中，Et、Ft、St分别为光线强度、环境分贝值以及麦克风与声源之间的距离，且、/>、/>分别为光线强度、环境分贝值以及麦克风与声源之间的距离的影响因子，/>、/>、/>均大于0；

数据数量Sz为收集到图片的总数量；

数据长度Sc为收集到音频和视频数据的总时长。

进一步的，在模型处理信息参数中，虚拟模型计算复杂度Fzd=虚拟模型的浮点运算次数，针对主播形象特征进行建模时的耗时T1通过设置计时器直接获取，针对主播声音特征进行建模时的耗时T2通过设置计时器直接获取。

进一步的，在所述分析单元中，生成适配度偏差指数Pczs时依据如下公式：

其中，参数意义为：分别为外界环境干扰度Grd、数据数量Sz、数据长度Sc以及虚拟模型计算复杂度Fzd的预设比例系数，且/>均大于0，适配度偏差指数Pczs的值用于判定收集数据是否达到虚拟模型的处理需求。

进一步的，在所述判定单元中，第一策略为重新更换拍摄主播的房间，并保证房间的隔音性，同时检查麦克风和补光灯是否对准主播，确保麦克风和补光灯对准主播即可；第二策略为数据收集模块继续进行数据收集工作，直至使得适配度偏差指数Pczs等于偏差指数阈值即可。

基于深度学习的主播形象建模方法，其特征在于：包括如下步骤：

步骤一、收集后续建模时需要的主播形象和声音数据；

步骤二、对收集到的数据进行预处理，包括人脸检测、关键点标定、人脸对齐、语音识别和语音合成操作，以提取出主播的面部特征和声音特征；

步骤三、利用经过预处理后的数据，使用深度学习的算法提取主播的形象和声音特征，对于图像和音频使用卷积神经网络进行特征提取；

步骤四、将主播形象和声音建模得到的结果进行整合，生成一个完整的主播虚拟模型，该虚拟模型通过AI机器人进行控制和操作，在直播过程中代替主播进行互动；

步骤五、采集并获取数据信息参数和模型处理信息参数，搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs；

将适配度偏差指数Pczs与设置的偏差指数阈值进行对比，若是适配度偏差指数Pczs大于偏差指数阈值/>，则表示收集的数据存在异常，需要重新更换拍摄主播的房间，并保证房间具有隔音性，同时检查麦克风和补光灯是否对准主播，确保麦克风和补光灯对准主播即可，若是适配度偏差指数Pczs等于偏差指数阈值/>，则表示收集数据达到虚拟模型的处理需求，并与虚拟模型的处理需求完美吻合，若是适配度偏差指数Pczs小于偏差指数阈值/>，则表示收集的数据数量过少，需要继续进行步骤一的操作，直至使得适配度偏差指数Pczs等于偏差指数阈值/>即可。

（三）有益效果

本发明提供了基于深度学习的主播形象建模系统及方法，具备以下有益效果：

通过在建模系统中增加检测判定模块，搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs，并根据对适配度偏差指数Pczs的判定结果执行相应策略，一方面可以使得整个建模系统能够完成对数据收集量的把控，在保证能够进行正常顺畅互动的前提下，使得整个系统能够高效、正常的运行，另一方面也减少了过多数据收集，从而增强对主播隐私的保护，因减少了模型的计算量，从而在一定程度上降低了成本，通过将适配度偏差指数Pczs与偏差指数阈值对比，还能够及时发现外界环境因素对系统的影响，方便后续对数据收集环境的适应性调整，进一步保证系统中虚拟主播的品质。

附图说明

图1为本发明基于深度学习的主播形象建模系统整体模块化结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1，本发明提供基于深度学习的主播形象建模系统，该系统包括：

数据收集模块，收集后续建模时需要的主播形象和声音数据，这可以包括图片、视频以及音频形式的数据，且图片和视频可以通过高清摄像探头进行捕捉和获取，为了保证图片和视频的质量，还需要选取补光灯进行配合使用，音频则可以通过麦克风进行获取；

其中，对于数据采集时所处的环境会影响整体数据的品质，从而在后续的建模时需要进行调整处理，调整动作的发生是依据检测判定模块的结果进行的，调整内容为：重新选取室内封闭的环境，并同步检查补光灯和麦克风的位置，以降低外界环境的干扰，使得采集的数据达到需求的标准即可；

数据预处理模块，对收集到的数据进行预处理，包括图像处理和音频处理，且图像处理包括人脸检测、关键点标定和人脸对齐操作，以提取出主播的面部特征，音频处理包括语音识别和语音合成操作，以提取出主播的声音特征；

人脸检测：指在图像中自动检测出人脸区域的操作，可使用基于深度学习的方法在图像中找到人脸的位置和边界框；

关键点标定：指在人脸图像中定位出特定的关键点位置，如眼睛、鼻子及嘴巴，通过标定这些关键点，可以提取出人脸的形状信息，进一步进行后续的分析和处理，常见的关键点标定方法包括形状模型、回归模型和基于深度学习的方法；

人脸对齐：指将人脸图像根据关键点的位置进行调整，使得人脸在空间中的对齐位置更加一致，目的是减少人脸在图像中的变形和旋转，以便在后续的人脸识别时提高准确性，常见的人脸对齐方法包括基于仿射变换、基于三维模型和基于深度学习的方法；

语音识别：指将音频信号转化为文本的过程，它将音频分析为一系列音频特征，并使用搭建的语音识别模型来匹配这些特征与语音识别系统中定义的词汇表，从而识别出语音中所包含的文本内容，常见的语音识别方法包括隐马尔可夫模型（HMM）和端到端的方法；

语音合成：指根据文本生成语音信号的过程，它将输入的文本转化为语音输出，常用于语音助手、语音提示的应用，语音合成涉及到文本的语音化，包括文本预处理、音素转换和声学模型生成环节，常见的语音合成方法包括拼接法和隐马尔可夫模型合成（HMM）；

特征提取模块，利用预处理后的数据，使用深度学习的算法提取主播的形象和声音特征，对于图像（即图片+视频），可以使用卷积神经网络（CNN）进行特征提取，对于音频，也可以使用卷积神经网络（CNN）进行特征提取；

虚拟建模模块，将主播的形象特征输入生成对抗网络（GAN）中进行建模，GAN由生成器和判别器组成，生成器负责生成新的主播形象，判别器则负责判断生成的形象与真实的主播形象之间的差异，通过持续优化生成器和判别器，可以使生成的形象越来越接近真实主播的形象；将主播的声音特征输入到语音合成模型中进行建模，使用循环神经网络（RNN）进行语音合成，从而生成与主播声音风格相似的语音；

其中，进行持续的优化可以通过以下方法来实现：

损失函数设计：在GAN中，生成器和判别器之间的优化通过最小化损失函数来完成，损失函数的设计需要考虑生成器产生的形象与真实主播形象的相似度，以及判别器对于真实与生成形象的判断准确性，常用的损失函数包括生成对抗损失函数和辅助的监督损失函数，为了保证主播的隐私性，在进行持续优化的时间可根据需要进行选定，优化时间根据实际需求进行设定。

整合系统模块，将主播形象和声音建模得到的结果进行整合，生成一个完整的主播虚拟模型，该虚拟模型可以通过AI机器人进行控制和操作，并在直播过程中代替主播进行互动，该处的虚拟模型的使用为调试工作，需要在后续检测判定模块中，使得适配度偏差指数Pczs等于偏差指数阈值后才能进行正式的直播作业。

检测判定模块包括采集单元、分析单元以及判定单元；

外界环境干扰度Grd获取的逻辑如下：

式中，Et、Ft、St分别为光线强度、环境分贝值以及麦克风与声源之间的距离，且、/>、/>分别为光线强度、环境分贝值以及麦克风与声源之间的距离的影响因子，且/>、/>、/>均大于0，其中的光照强度Et通过在高清摄像镜头前设置光照强度传感器测得，环境分贝值Ft通过在室内安装分贝仪测得，麦克风与声源之间的距离则通过测量麦克风与主播嘴部之间的直线距离即可；

数据数量Sz：表示收集到图片的总数量，通过直接统计的方式即可获取；

数据长度Sc：表示收集到音频和视频数据的总时长，通过累加时长的方式即可获取；

虚拟模型计算复杂度Fzd：通过计算虚拟模型的浮点运算次数（FLOPs）来初步反应对应模型的性能和效率，且虚拟模型计算复杂度Fzd=虚拟模型的浮点运算次数，在计算虚拟模型的浮点运算次数（FLOPs）时需要考虑模型的网络结构和层操作，将各个层的FLOPs相加即可得到整个模型的FLOPs；

例如：计算卷积层的FLOPs需要考虑输入输出特征图的大小、卷积核的大小、卷积核的数量参数，将各个参数相乘即可得到卷积层的FLOPs，其余各层的原理相同，具体过程在此不多做赘述。

针对主播形象特征进行建模时的耗时T1：通过设置计时器直接获取；

针对主播声音特征进行建模时的耗时T2：通过设置计时器直接获取。

分析单元，搭建数据分析模型，生成适配度偏差指数Pczs，依据如下公式：

其中，参数意义为：分别为外界环境干扰度Grd、数据数量Sz、数据长度Sc以及虚拟模型计算复杂度Fzd的预设比例系数，且/>均大于0，且适配度偏差指数Pczs的值用于判定收集数据是否达到虚拟模型的处理需求。

判定单元，将适配度偏差指数Pczs与设置的偏差指数阈值进行对比，若是适配度偏差指数Pczs大于偏差指数阈值/>，则表示收集的数据存在异常，需要执行第一策略，若是适配度偏差指数Pczs等于偏差指数阈值/>，则表示收集数据达到虚拟模型的处理需求，并与虚拟模型的处理需求完美吻合，若是适配度偏差指数Pczs小于偏差指数阈值，则表示收集的数据数量过少，需要执行第二策略。

其中，第一策略为重新更换拍摄主播的房间，并保证房间具有隔音性，同时检查麦克风和补光灯是否对准主播，确保麦克风和补光灯对准主播即可；

第二策略为使得数据收集模块继续进行数据收集工作，直至使得适配度偏差指数Pczs等于偏差指数阈值即可，保证数据收集达到刚好够用的水平。

通过采用上述的技术方案：

在建模系统中增加检测判定模块，搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs，并根据对适配度偏差指数Pczs的判定结果执行相应策略，一方面可以使得整个建模系统能够完成对数据收集量的把控，在保证能够进行正常顺畅互动的前提下，使得整个系统能够高效、正常的运行，另一方面也减少了过多数据收集，从而增强对主播隐私的保护，因减少了模型的计算量，从而在一定程度上降低了成本，通过将适配度偏差指数Pczs与偏差指数阈值对比，还能够及时发现外界环境因素对系统的影响，方便后续对数据收集环境的适应性调整，进一步保证系统中虚拟主播的品质。

实施例2：本实施例给出了基于深度学习的主播形象建模方法，包括如下步骤：

步骤一、收集后续建模时需要的主播形象和声音数据；

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.基于深度学习的主播形象建模系统，该系统包括：

整合系统模块，将主播形象和声音建模得到的结果进行整合，生成一个完整的主播虚拟模型，该虚拟模型通过AI机器人进行控制和操作，在直播过程中代替主播进行互动；

其特征在于：还包括检测判定模块，其包括采集单元、分析单元以及判定单元；

分析单元，搭建数据分析模型，以数据信息参数和模型处理信息参数为依据，生成适配度偏差指数Pczs，

判定单元，将适配度偏差指数Pczs与设置的偏差指数阈值进行对比，若是适配度偏差指数Pczs大于偏差指数阈值/>，则表示收集的数据存在异常，需要执行第一策略，若是适配度偏差指数Pczs等于偏差指数阈值/>，则表示收集数据达到虚拟模型的处理需求，并与虚拟模型的处理需求完美吻合，若是适配度偏差指数Pczs小于偏差指数阈值/>，则表示收集的数据数量过少，需要执行第二策略；

在所述判定单元中，第一策略为重新更换拍摄主播的房间，并保证房间的隔音性，同时检查麦克风和补光灯是否对准主播，确保麦克风和补光灯对准主播即可；第二策略为数据收集模块继续进行数据收集工作，直至使得适配度偏差指数Pczs等于偏差指数阈值即可。

2.根据权利要求1所述的基于深度学习的主播形象建模系统，其特征在于：主播形象和声音数据包括图片、视频以及音频形式的数据，且图片和视频通过高清摄像探头进行捕捉和获取，音频则可以通过麦克风进行获取。

3.根据权利要求1所述的基于深度学习的主播形象建模系统，其特征在于：人脸检测指在图像中自动检测出人脸区域的操作，关键点标定指在人脸图像中定位出特定的关键点位置，人脸对齐指将人脸图像根据关键点的位置进行调整，语音识别指将音频信号转化为文本的过程，语音合成指根据文本生成语音信号的过程。

4.根据权利要求1所述的基于深度学习的主播形象建模系统，其特征在于：生成对抗网络由生成器和判别器组成，生成器用于生成新的主播形象，判别器用于判断生成的形象与真实的主播形象之间的差异，并采用损失函数设计的方式持续优化生成器和判别器，在语音合成模型中使用循环神经网络进行语音合成。

5.根据权利要求2所述的基于深度学习的主播形象建模系统，其特征在于：在数据信息参数中，外界环境干扰度Grd获取的逻辑如下：

式中，Et、Ft、St分别为光线强度、环境分贝值以及麦克风与声源之间的距离，且、/>、分别为光线强度、环境分贝值以及麦克风与声源之间的距离的影响因子，/>、/>、/>均大于0；

数据数量Sz为收集到图片的总数量；

数据长度Sc为收集到音频和视频数据的总时长。

6.根据权利要求5所述的基于深度学习的主播形象建模系统，其特征在于：在模型处理信息参数中，虚拟模型计算复杂度Fzd=虚拟模型的浮点运算次数，针对主播形象特征进行建模时的耗时T1通过设置计时器直接获取，针对主播声音特征进行建模时的耗时T2通过设置计时器直接获取。

7.根据权利要求6所述的基于深度学习的主播形象建模系统，其特征在于：在所述分析单元中，生成适配度偏差指数Pczs时依据如下公式：

8.基于深度学习的主播形象建模方法，使用所述权利要求1至7中的任一种系统，其特征在于：包括如下步骤：

步骤一、收集后续建模时需要的主播形象和声音数据；