CN115985303A

CN115985303A - 基于声音的数字人形象生成方法及其相关装置

Info

Publication number: CN115985303A
Application number: CN202211667882.8A
Authority: CN
Inventors: 王红星; 谭熙
Original assignee: Shenzhen Flash Scissor Intelligent Technology Co ltd
Current assignee: Shenzhen Flash Scissor Intelligent Technology Co ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-04-18

Abstract

本发明涉及数字人生成领域，公开了一种基于声音的数字人形象生成方法及其相关装置。该方法包括：获取语音数据；分析所述语音数据生成特征数据，以及基于分类算法，对所述特征数据进行分类处理，得到语音风格标签；将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据；将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

Description

基于声音的数字人形象生成方法及其相关装置

技术领域

本发明涉及数字人生成领域，尤其涉及一种基于声音的数字人形象生成方法及其相关装置。

背景技术

当前，数字人的虚拟形象应用在直播、新闻播报、文字阅读领域，可以不需要人为摄像而生成形象较好的背景和人物形象，提高用户的体验。但是，当前生成虚拟数字人主要是捕捉人的外表和面部表情进行动漫化处理，这就产生了声音和外貌割裂的违和感，并且对使用虚拟形象需要用户实时在外部录音录像，然后产生虚拟形象。

当前的数字人虚拟的形象生成过程还是需要外界用户形象作为基础，这种数字虚拟形象对使用者的负担太大，需要一直在镜头前进行录制。针对当前的虚拟数字人生成需要使用者持续录制导致使用者负担过大的技术问题，需要一种新的技术。

发明内容

本发明的主要目的在于解决当前的虚拟数字人生成需要使用者持续录制导致使用者负担过大的技术问题。

本发明第一方面提供了一种基于声音的数字人形象生成方法，所述基于声音的数字人形象生成方法包括：

获取语音数据；

分析所述语音数据生成特征数据，以及基于分类算法，对所述特征数据进行分类处理，得到语音风格标签；

将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据；

将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

可选的，在本发明第一方面的第一种实现方式中，所述分析所述语音数据生成特征数据包括：

基于时域，对所述语音数据的音频特征进行转换处理，生成时域特征数据。

可选的，在本发明第一方面的第二种实现方式中，所述基于分类算法，对所述特征数据进行分类处理，得到语音风格标签包括：

识别所述时域特征数据的口音种类，得到口音地区；

识别所述时域特征数据的语调，得到情绪分类；

识别所述时域特征数据的振动频率，得到年龄区间和性别；

将所述口音地区、所述情绪分类、所述年龄区间、所述性别组合为标签数据，得到语音风格标签。

可选的，在本发明第一方面的第三种实现方式中，所述将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据包括：

基于所述语音风格标签，匹配出预置肤色数据、预置五官数据、预置配饰数据、预置发型数据。

可选的，在本发明第一方面的第四种实现方式中，所述将所述匹配外貌数据进行组合拼接处理，得到数字人形象包括：

判断是否存在预置背景设置；

若存在预置背景设置，则将所述背景设置对应的背景数据、所述肤色数据、所述五官数据、所述配饰数据、所述发型数据进行组合处理，得到数字人形象；

若不存在背景设置，则对所述肤色数据、所述五官数据、所述配饰数据、所述发型数据进行组合处理，得到初步数字人形象；

根据所述初步数字人形象，从预置背景数据库中匹配出背景数据，以及将所述初步数字人形象作为新图层放置在所述背景数据上，得到数字人形象。

可选的，在本发明第一方面的第五种实现方式中，所述获取语音数据包括：

获取语音数据，对所述语音数据进行噪声过滤处理，得到过滤的语音数据。

可选的，在本发明第一方面的第六种实现方式中，在所述将所述匹配外貌数据进行组合拼接处理，得到数字人形象之后，还包括：

接收面部替换指令，获取外界面部数据；

根据预置神经网络，将所述外界面部数据替换所述数字人形象的面部数据，得到新的数字人形象。

本发明第二方面提供了一种基于声音的数字人形象生成装置，所述基于声音的数字人形象生成装置包括：

获取模块，用于获取语音数据；

分类模块，用于分析所述语音数据生成特征数据，以及基于分类算法，对所述特征数据进行分类处理，得到语音风格标签；

匹配模块，用于将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据；

组合模块，用于将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

本发明第三方面提供了一种基于声音的数字人形象生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于声音的数字人形象生成设备执行上述的基于声音的数字人形象生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于声音的数字人形象生成方法。

在本发明实施例中，通过声音的输入，定制出数字人形象的方式可以仅有音频的情况下，生成符合自己声音的数字人形象，并且基于声音生成的数字人形象可以满足直播等一些使用场景的，解决了当前的虚拟数字人生成需要使用者持续录制导致使用者负担过大的技术问题。

附图说明

图1为本发明实施例中基于声音的数字人形象生成方法的一个实施例示意图；

图2为本发明实施例中基于声音的数字人形象生成装置的一个实施例示意图；

图3为本发明实施例中基于声音的数字人形象生成装置的另一个实施例示意图；

图4为本发明实施例中基于声音的数字人形象生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于声音的数字人形象生成方法及其相关装置。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于声音的数字人形象生成方法的一个实施例包括：

101、获取语音数据；

在本实施例中，用户持续输入语音作为虚拟人生成的基础。

进一步的，在101可以执行以下步骤：

1011、获取语音数据，对所述语音数据进行噪声过滤处理，得到过滤的语音数据。

在1011步骤中，由于用户使用的麦克风会产生一些噪音或者是白噪声，产生具有噪声的语音数据，对接收到的语音数据进行噪声过滤处理，得到过滤的语音数据。

102、分析所述语音数据生成特征数据，以及基于分类算法，对所述特征数据进行分类处理，得到语音风格标签；

在本实施例中，语音数据的特征数据处理，通过分类算法对特征数据进行分类，将地区、民俗、表情、性别、年龄等特征筛选出对应标签。

进一步的，在“分析所述语音数据生成特征数据”步骤执行以下步骤：

1021、基于时域，对所述语音数据的音频特征进行转换处理，生成时域特征数据。

在1021步骤中，得到的语音数据可能是频域数据，需要将语音数据进行转换为时域，得到时域特征数据。

进一步的，“基于分类算法，对所述特征数据进行分类处理，得到语音风格标签”可以执行以下步骤：

1022、识别所述时域特征数据的口音种类，得到口音地区；

1023、识别所述时域特征数据的语调，得到情绪分类；

1024、识别所述时域特征数据的振动频率，得到年龄区间和性别；

1025、将所述口音地区、所述情绪分类、所述年龄区间、所述性别组合为标签数据，得到语音风格标签。

在1022-1025步骤中，分析时域特征数据的口音种类归属地区，识别出发音人的地区来源，从而判断当地的民俗风格。识别时域特征数据的语调，分析得出此时的用户表情和心情。以及基于振动频率得到性别和年龄区间，组合成语音风格标签。

103、将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据；

在本实施例中，置入大量与标签数据匹配的人物肤色、五官、发型、配饰等相关数据，利用K-meas等相关类型算法，得到匹配外貌数据。

进一步的，在103步骤可以执行以下步骤：

1031、基于所述语音风格标签，匹配出预置肤色数据、预置五官数据、预置配饰数据、预置发型数据。

在1031步骤，基于K-meas、SVM、ID3等类型的归类算法，肤色数据、五官数据、配饰数据、发型数据作为接下来需要拼接组合的数据。

104、将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

在本实施例中，通过对外貌的数据进行拼接绕开外部形象的持续输入而只基于语音数据生成数字人形象。

进一步的，在104步骤可以执行以下步骤：

1041、判断是否存在预置背景设置；

1042、若存在预置背景设置，则将所述背景设置对应的背景数据、所述肤色数据、所述五官数据、所述配饰数据、所述发型数据进行组合处理，得到数字人形象；

1043、若不存在背景设置，则对所述肤色数据、所述五官数据、所述配饰数据、所述发型数据进行组合处理，得到初步数字人形象；

1044、根据所述初步数字人形象，从预置背景数据库中匹配出背景数据，以及将所述初步数字人形象作为新图层放置在所述背景数据上，得到数字人形象。

在1041-1044步骤中，如果有背景设置则可以基于背景设置的背景数据和图像，将数字人显示在背景图像上。而如果没有背景设置，先将数字人的基础数据进行合成，然后将合成后的数据人图像从背景数据库中查询到相关的背景数据作为第二层图层，然后将合成数据人作为第一层图层覆盖在背景数据上，生成数字人形象。

进一步的，在104之后，还可以执行以下步骤：

105、接收面部替换指令，获取外界面部数据；

106、根据预置神经网络，将所述外界面部数据替换所述数字人形象的面部数据，得到新的数字人形象。

在105-106步骤中，对于面部情况可以定制处理，例如A用户发出声音，但是B用户需要使用形象，将B用户的面部数据和A用户发出声音的虚拟数字人进行结合和融合，得到新的数字人形象。在替换虚拟数字人脸部数据时，可以全部替换，也可以基于GAN对抗神经网络直接修改人脸部特征实现新的数字人形象生成。

上面对本发明实施例中基于声音的数字人形象生成方法进行了描述，下面对本发明实施例中基于声音的数字人形象生成装置进行描述，请参阅图2，本发明实施例中基于声音的数字人形象生成装置一个实施例包括：

获取模块201，用于获取语音数据；

分类模块202，用于分析所述语音数据生成特征数据，以及基于分类算法，对所述特征数据进行分类处理，得到语音风格标签；

匹配模块203，用于将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据；

组合模块204，用于将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

请参阅图3，本发明实施例中基于声音的数字人形象生成装置的另一个实施例包括：

获取模块201，用于获取语音数据；

其中，所述获取模块201具体用于：

其中，所述分类模块202具体用于：

其中，所述分类模块202还具体用于：

识别所述时域特征数据的口音种类，得到口音地区；

识别所述时域特征数据的语调，得到情绪分类；

识别所述时域特征数据的振动频率，得到年龄区间和性别；

其中，所述匹配模块203具体用于：

其中，所述组合模块204具体用于：

判断是否存在预置背景设置；

其中，所述基于声音的数字人形象生成装置还包括替换模块205，所述替换模块205具体用于：

接收面部替换指令，获取外界面部数据；

上面图2和图3从模块化功能实体的角度对本发明实施例中的基于声音的数字人形象生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于声音的数字人形象生成设备进行详细描述。

图4是本发明实施例提供的一种基于声音的数字人形象生成设备的结构示意图，该基于声音的数字人形象生成设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)410(例如，一个或一个以上处理器)和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于声音的数字人形象生成设备400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在基于声音的数字人形象生成设备400上执行存储介质430中的一系列指令操作。

基于声音的数字人形象生成设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的基于声音的数字人形象生成设备结构并不构成对基于声音的数字人形象生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于声音的数字人形象生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于声音的数字人形象生成方法，其特征在于，包括步骤：

获取语音数据；

将所述匹配外貌数据进行组合拼接处理，得到数字人形象。

2.根据权利要求1所述的基于声音的数字人形象生成方法，其特征在于，所述分析所述语音数据生成特征数据包括：

3.根据权利要求2所述的基于声音的数字人形象生成方法，其特征在于，所述基于分类算法，对所述特征数据进行分类处理，得到语音风格标签包括：

识别所述时域特征数据的口音种类，得到口音地区；

识别所述时域特征数据的语调，得到情绪分类；

识别所述时域特征数据的振动频率，得到年龄区间和性别；

4.根据权利要求1所述的基于声音的数字人形象生成方法，其特征在于，所述将所述语音风格标签匹配预置外貌数据，得到匹配外貌数据包括：

5.根据权利要求4所述的基于声音的数字人形象生成方法，其特征在于，所述将所述匹配外貌数据进行组合拼接处理，得到数字人形象包括：

判断是否存在预置背景设置；

6.根据权利要求1所述的基于声音的数字人形象生成方法，其特征在于，所述获取语音数据包括：

7.根据权利要求1所述的基于声音的数字人形象生成方法，其特征在于，在所述将所述匹配外貌数据进行组合拼接处理，得到数字人形象之后，还包括：

接收面部替换指令，获取外界面部数据；

8.一种基于声音的数字人形象生成装置，其特征在于，所述基于声音的数字人形象生成装置包括：

获取模块，用于获取语音数据；

9.一种基于声音的数字人形象生成设备，其特征在于，所述基于声音的数字人形象生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于声音的数字人形象生成设备执行如权利要求1-7中任一项所述的基于声音的数字人形象生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于声音的数字人形象生成方法。