CN117558259A

CN117558259A - 一种数字人播报风格控制方法及装置

Info

Publication number: CN117558259A
Application number: CN202311568987.2A
Authority: CN
Inventors: 王鹤; 宋子强; 何俊华; 林洪祥
Original assignee: Beijing Fengping Intelligent Technology Co ltd
Current assignee: Beijing Fengping Intelligent Technology Co ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-13
Anticipated expiration: 2043-11-22
Also published as: CN117558259B

Abstract

本申请提供了一种数字人播报风格控制方法及装置，该方法包括基于待播报内容确定由所述数字人进行播报的节目类型；选择与所述节目类型相匹配的播报风格，所述播报风格用于表征不同节目类型的播报语调；从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型；获取所选择的数字人模型的语速设定值及停顿设定值；根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频；将分词音频进行语音合成。本申请可以使模型发音更符合节目场景，提高了用户体验。

Description

一种数字人播报风格控制方法及装置

技术领域

本申请属于视频处理技术领域，特别涉及一种数字人播报风格控制方法及装置。

背景技术

数字人AIGC的视频技术正逐步开始应用在电商、广告、新闻播报、培训、教育等众多行业。当前数字人AIGC技术发展方向为使数字人不断向真人逼近，这主要体现在两方面，一个是姿态控制，另一个是语音控制。

在语音控制方面，通常需要采集较多的音频数据以构建音频库，但仍不能满足日益增多的数字人模型的需求，较多数字人模型在语音处理上仍具有相似性，影响了用户体验。

发明内容

为了解决上述技术问题至少之一，本申请提供了一种数字人播报风格控制方法及装置，用于基于数字人播报风格进行语音控制输出。

本申请的第一个方面，一种数字人播报风格控制方法，主要包括：

基于待播报内容确定由所述数字人进行播报的节目类型；

选择与所述节目类型相匹配的播报风格，所述播报风格用于表征不同节目类型的播报语调；

从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型；

获取所选择的数字人模型的语速设定值及停顿设定值；

根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频；

将分词音频进行语音合成。

优选的是，从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型包括：

确定待播报内容对应的节目是否具有指定数字人模型，如果存在指定数字人模型，则直接选择该指定数字人模型，如果不存在指定数字人模型，则从与所述播报风格关联的多个数字人模型中随机选择一个数字人模型。

优选的是，所述选择待播报内容的各分词音频之前进一步包括构建音频库，所述构建音频库包括：

对用于构建音频库的原始文本进行分词和词性标注；

通过语音采集设备采集声音，切割出各分词的音频；

根据不同原始文本对应的播报风格概率，将该播报风格概率赋值给该原始文本中的各个分词音频，构建各分词音频的播报风格向量；

对同一个分词的各个音频分别进行语速的快慢调整，扩充分词的音频数量。

优选的是，所述选择待播报内容的各分词音频包括：

步骤S511、根据分词的文本内容确定对应的音频集合；

步骤S512、在所述音频集合中，对每个待选音频，根据其属性值计算其与具有设定语速设定值、停顿设定值以及播报风格的数字人模型的匹配度；

步骤S513、选择匹配度最小的音频作为该分词的输出音频。

优选的是，计算匹配度y包括：

其中，a为待选音频的词性，a₁为目标待播报节目文本中的分词词性，b为待选音频的语速，b₁为所选数字人模型的语速设定值，b₂为所选数字人模型的停顿设定值，c_i为待选音频的播报风格向量中的各个值，d_i为所选数字人模型的播报风格向量中的各个值。x₁、x₂、x₃分别为词性、语速、播报风格权重，n为播报风格数量。

本申请第二方面，一种数字人播报风格控制装置，主要包括：

节目类型确定模块，用于基于待播报内容确定由所述数字人进行播报的节目类型；

播报风格确定模块，用于选择与所述节目类型相匹配的播报风格，所述播报风格用于表征不同节目类型的播报语调；

数字人模型选择模块，用于从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型；

数字人模型属性确定模块，用于获取所选择的数字人模型的语速设定值及停顿设定值；

分词音频选取模块，用于根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频；

音频合成模块，用于将分词音频进行语音合成。

优选的是，所述数字人模型选择模块包括：

指定数字人模型查询模块，用于确定待播报内容对应的节目是否具有指定数字人模型，如果存在指定数字人模型，则直接选择该指定数字人模型，如果不存在指定数字人模型，则从与所述播报风格关联的多个数字人模型中随机选择一个数字人模型。

优选的是，所述数字人播报风格控制装置还包括音频库构建模块，所述音频库构建模块包括：

分词单元，用于对用于构建音频库的原始文本进行分词和词性标注；

音频切割单元，用于通过语音采集设备采集声音，切割出各分词的音频；

播报风格向量赋值单元，用于根据不同原始文本对应的播报风格概率，将该播报风格概率赋值给该原始文本中的各个分词音频，构建各分词音频的播报风格向量；

音频数量扩充单元，用于对同一个分词的各个音频分别进行语速的快慢调整，扩充分词的音频数量。

优选的是，所述分词音频选取模块包括：

音频集合确定单元，用于根据分词的文本内容确定对应的音频集合；

匹配度计算单元，用于在所述音频集合中，对每个待选音频，根据其属性值计算其与具有设定语速设定值、停顿设定值以及播报风格的数字人模型的匹配度；

音频选择单元，用于选择匹配度最小的音频作为该分词的输出音频。

优选的是，在所述匹配度计算单元中，计算匹配度y包括：

其中，a为待选音频的词性，a₁为目标待播报节目文本中的分词词性，b为待选音频的语速，b₁为所选数字人模型的语速设定值，b₂为所选数字人模型的停顿设定值，c_i为待选音频的播报风格向量中的各个值，d_i为所选数字人模型的播报风格向量中的各个值。x₁、x₂、x₃分别为词性、语速及播报风格权重，n为播报风格数量。

本申请的第三方面，一种计算机系统，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序用于实现如上的数字人播报风格控制方法。

本申请的第四方面，一种可读存储介质，可读存储介质存储有计算机程序，计算机程序被处理器执行时用于实现上述的数字人播报风格控制方法。

本申请能够控制不同的数字人模型，以不同的语音进行播报，可以使模型发音更符合节目场景，提高了用户体验。

附图说明

图1是本申请数字人播报风格控制方法的一实施方式的流程图。

图2适于用来实现本申请实施方式的终端或服务器的计算机设备的结构示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

根据本申请第一方面，提供了一种数字人播报风格控制方法，如图1所示，主要包括：

步骤S100、基于待播报内容确定由所述数字人进行播报的节目类型。

本申请的节目类型包括多个，例如以媒体类型进行划分的新闻节目或者娱乐节目，以受众群体进行划分的年轻人节目、老年人节目、男性节目、女性节目、孕妇类节目等。

在该步骤中，节目类型可以由人工根据节目具体内容指定，也可以通过机器自动识别，例如在一些可选实施方式，基于卷积神经网络(CNN)训练一个节目类型识别模型，由该节目类型识别模型识别具体的节目类型。节目类型识别模型的具体构建步骤如下：

步骤S101、获取训练数据，所述训练数据包括输入及预期输出，输入为文本数据，预期输出为输入文本对应的节目类型。

步骤S102、设置词汇表大小和序列长度。

步骤S103、使用Tokenizer进行文本预处理。

在步骤S102及步骤S103中，Tokenizer是一个用于向量化文本，将文本转换为序列的类。计算机在处理语言文字时，是无法理解文字含义的，通常会把一个词(中文单个字或者词)转化为一个正整数，将一个文本就变成了一个序列，然后再对序列进行向量化，向量化后的数据送入模型处理。Tokenizer允许使用两种方法向量化一个文本语料库：将每个文本转化为一个整数序列(每个整数都是词典中标的索引)，或者将其转化为一个向量，其中每个标记的系数可以是二进制值、词频、TF-IDF权重等。

步骤S104、创建CNN模型。

步骤S105、编译并训练模型。

在上述步骤S104及步骤S105中，将预处理后的文本输入到CNN模型中进行训练，即可得到节目类型识别模型，具体的，将预处理后的文本输入到具有初始给定参数的CNN模型中，经计算获得输出，该输出与预期输出进行对比，对比结果用于修改CNN模型中的给定参数，直至输出与预期输出之间的差值在阈值范围内，或者训练数据全部使用完毕。

经上述训练，能够得到较好的节目类型识别模型，在输入指定文本后，或者系统读取到需要播报的文本内容后，将自动给出具体的节目类型。

步骤S200、选择与所述节目类型相匹配的播报风格，所述播报风格用于表征不同节目类型的播报语调。

不同的信息类型具有不同的播报风格，例如在新闻节目中，播音员应该采用严肃、稳重的语调以表现出新闻的严肃性和权威性，而在娱乐节目中，播音员可以采用轻松、活泼的语调，以增强娱乐性和亲和力。根据受众群体的文化背景、语言习惯和心理需求，例如针对年轻人的节目中，播音员可以采用流行的语言、音乐和文化元素，以吸引年轻观众的注意力。

在该步骤中，数据库中至少包含了播报风格检索表，其内预存了不同信息类型对应的不同播报风格，根据待播报的信息类型查询数据库即可以直接输出对应的播报风格。

在一些可选实施方式中，数字人模型的播报风格通常采用播报风格向量表示，向量中的每个值表示对应位置的播报风格占比，例如对具有[严肃、稳中、轻快、舒缓]四个播报风格的实施例，对于一个严肃性占据50％，稳重性占据50％，其他为0的数字人模型，该数字人模型的播报风格向量为[0.5,0.5,0,0]。

另外在实际操作过程中，步骤S100与步骤S200可以进行合并，基于卷积神经网络(CNN)可以直接训练一个播报风格识别模型，其原理与步骤S100中的节目类型识别模型构建方式类似，仅预期输出发生了变化。由此可以根据待播报内容直接获得播报风格。

步骤S300、从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型。

在一些可选实施方式中，从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型包括：

确定待播报内容对应的节目是否具有指定数字人模型，如果存在指定数字人模型，则直接选择该指定数字人模型，如果不存在指定数字人模型，则从与所述播报风格关联的多个数字人模型中随机选择一个数字人模型，其中，与所述播报风格关联的多个数字人模型是指播报风格向量中该播报风格占比不低于其他播报风格的数字人模型组成的集合。

在该实施例中，在系统建设层面，通常会设定多个数字人模型，这些数字人模型用于播报不同的节目，例如数字人模型A播报A节目，数字人模型B播报B节目，也有可能数字人模型A播报A1、A2等多个节目，但是习惯上某个数字人模型的播报风格需要固化，以防止观众进行角色代入影响体验。播报风格数量一般有限，通常设置在十个以内，但数字人模型很多，因此本申请在每个播报风格下设定了多个数字人模型，进行播报时，如果该节目没有指定数字人模型进行播报，则可以根据情况随机选择一个数字人模型。如果该节目存在指定数字人模型进行播报，则可以直接选择该数字人模型。

步骤S400、获取所选择的数字人模型的语速设定值及停顿设定值。

本申请中，语速设定值及停顿设定值固化在数字人模型中，用于表示数字人模型的语句输出速度及语句之间的停顿时间。

在一些可选实施方式中，通过百分比来表征语速设定值及停顿设定值，百分比值越大，语速越快、停顿时间越短。

根据上述描述，本申请的不同数字人模型以播报风格及语速、停顿来进行区分，选择一个数字人模型，实际上是选择了期望使用不同的播报风格、不同的语速属性以及不同的停顿属性来进行语音输出。播报风格通常由系统根据节目类型自行选择，语速及停顿属性可以由控制台指定。

步骤S500、根据所述语速设定值、停顿设定值以及播报风格选择待播报内容的各分词音频。

该步骤中，用于在音频库中选择具体的语音。

这里需要首先构建音频库。音频库中存储了各个分词对应的多个音频数据，即每个分词对应有一个音频集合，音频集合中的每个音频具有不同属性，具体包括如下步骤：

步骤S501、对用于构建音频库的原始文本进行分词和词性标注，基于已有的隐马尔可夫模型对待播报的原始文本进行分词和词性标注，并将分词结果转换为文本形式，在各个词语间通过特定分隔符进行分割，例如“#”。

步骤S502、通过语音采集设备采集声音，然后根据录音数据内的间歇和频率特征，结合上述步骤中获取的分词结果，得到各个词语在音频中所对应的起止时刻点，进而切割出对应词语的音频，保存为PCM格式音频，构建分词-音频的对应关系，所采集的声音资源越多，构建的分词-音频越完整，每一个分词能够对应有多个不同语气、语速的音频，用于表征不同情感，或者表征不同词性。这里对每个分词的每个音频首先添加了文本内容、词性两个属性。

步骤S503、根据不同原始文本对应的播报风格概率，将该播报风格概率赋值给该原始文本中的各个分词音频，构建各分词音频的播报风格向量。

举例来说，播报风格包括严肃、稳重、轻快、舒缓四类，一段原始文本被标记为严肃性占据70％，稳重性占据30％，其他为0。则采集的与该段原始文本对应的语音中，各个分词的音频播报风格属性均设置为向量[0.7,0.3,0,0]，

步骤S504、对同一个分词的各个音频分别进行语速的快慢调整，进行音频数量扩充，这里可以通过插值的方式对音频进行处理以增加音频时长，或者按设定步长离散音频以减少音频时长。该步骤对每个分词的每个音频添加了语速属性，同一个音频至少区分为快速、中速及慢速，形成三个扩充音频。

通过上述步骤，使得音频库中存储了大量分词音频，每个分词音频具有文本内容、词性、语速、播报风格四个属性。

备选实施方式中，还可以对每个分词进行情感属性、句式属性赋值，情感属性例如是喜怒哀乐，句式属性例如是疑问句、感叹句。可以理解的是，不同句式不同情感下每个分词的发音是不一样的，因此，增加上述两个属性更有助于提供丰富的带有感情的语音。

基于上述构建的音频库，在步骤S500中，选择待播报内容的各分词音频具体包括：

步骤S511、根据分词的文本内容确定对应的音频集合；

步骤S513、选择匹配度最小的音频作为该分词的输出音频。

在一些可选实施方式中，步骤S512中，计算匹配度y包括：

步骤S600、将分词音频进行语音合成。

本申请第二方面提供了一种与上述方法对应的数字人播报风格控制装置，主要包括：

音频合成模块，用于将分词音频进行语音合成。

在一些可选实施方式中，所述数字人模型选择模块包括：

在一些可选实施方式中，所述数字人播报风格控制装置还包括音频库构建模块，所述音频库构建模块包括：

在一些可选实施方式中，所述分词音频选取模块包括：

在一些可选实施方式中，在所述匹配度计算单元中，计算匹配度y包括：

根据本申请第三方面，一种计算机系统，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序用于实现如上的数字人播报风格控制方法。

根据本申请第四方面，一种可读存储介质，可读存储介质存储有计算机程序，计算机程序被处理器执行时用于实现上述的数字人播报风格控制方法。

下面参考图2其示出了适于用来实现本申请实施方式的计算机设备800的结构示意图。图2出的计算机设备仅仅是一个示例，不应对本申请实施方式的功能和使用范围带来任何限制。

如图2示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分708加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有设备800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。

本申请第四方面提供的计算机可读存储介质可以是上述实施方式中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时按上述方法对数据进行处理。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数字人播报风格控制方法，其特征在于，包括：

基于待播报内容确定由所述数字人进行播报的节目类型；

获取所选择的数字人模型的语速设定值及停顿设定值；

将分词音频进行语音合成。

2.如权利要求1所述的数字人播报风格控制方法，其特征在于，从与所述播报风格关联的多个数字人模型中确定需要播报的一个数字人模型包括：

3.如权利要求1所述的数字人播报风格控制方法，其特征在于，所述选择待播报内容的各分词音频之前进一步包括构建音频库，所述构建音频库包括：

对用于构建音频库的原始文本进行分词和词性标注；

通过语音采集设备采集声音，切割出各分词的音频；

4.如权利要求3所述的数字人播报风格控制方法，其特征在于，所述选择待播报内容的各分词音频包括：

步骤S511、根据分词的文本内容确定对应的音频集合；

步骤S513、选择匹配度最小的音频作为该分词的输出音频。

5.如权利要求4所述的数字人播报风格控制方法，其特征在于，计算匹配度y包括：

6.一种数字人播报风格控制装置，其特征在于，包括：

音频合成模块，用于将分词音频进行语音合成。

7.如权利要求6所述的数字人播报风格控制装置，其特征在于，所述数字人模型选择模块包括：

8.如权利要求6所述的数字人播报风格控制装置，其特征在于，所述数字人播报风格控制装置还包括音频库构建模块，所述音频库构建模块包括：

9.如权利要求8所述的数字人播报风格控制装置，其特征在于，所述分词音频选取模块包括：

10.如权利要求9所述的数字人播报风格控制装置，其特征在于，在所述匹配度计算单元中，计算匹配度y包括：