CN117765898A - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents
一种数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117765898A CN117765898A CN202211134478.4A CN202211134478A CN117765898A CN 117765898 A CN117765898 A CN 117765898A CN 202211134478 A CN202211134478 A CN 202211134478A CN 117765898 A CN117765898 A CN 117765898A
- Authority
- CN
- China
- Prior art keywords
- text data
- information
- text
- time information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,该方法包括:获取待处理文本数据,并将待处理文本数据转换为第一文本数据;获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据;确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息;获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。通过这种方式可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,以生成目标音频数据,提高了数据处理的准确性和效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
目前的歌曲填词市场上已存在各类歌唱合成模型、系统和方案,但共存的问题是数据需求大,且基本都需要以曲谱信息为特征建模,这需要耗费大量的资源成本,需要专业性极强的懂得乐理的人进行人工标注,这种方式即使耗费大量的人力财力依然很难做到大规模的数据积累。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,以生成目标音频数据,提高了数据处理的准确性和效率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
第二方面,本申请实施例提供了一种数据处理装置,包括:
第一获取单元,用于获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
第二获取单元,用于获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
第一确定单元,用于确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
第二确定单元,用于获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述处理器用于执行上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,该程序指令被执行时实现上述第一方面所述的方法。
本申请实施例可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据;获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据;确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息;获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。通过这种方式可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,以生成目标音频数据,提高了数据处理的准确性和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的另一种数据处理方法的流程示意图;
图3是本申请实施例提供的又一种数据处理方法的流程示意图;
图4是两种获取基频信息的方法示意图;
图5是本申请实施例提供的又一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提出了一种数据处理方案,通过将待处理文本数据转换为第一文本数据,并根据目标曲谱和第一文本数据确定目标曲谱的第二文本数据,确定第二文本数据中每个关键字的音素以及音素的时间信息,并根据每个关键字的音素的时间信息确定音量信息,根据目标曲谱的基频信息、音素的时间信息和音量信息确定目标音频数据,所需数据量小,且不需要曲谱建模,大大节省了成本,可以更高效、准确地生成音频数据,提高了数据处理的准确性和效率。
本申请提供了一种数据处理方法,可应用于为曲谱进行填词的场景,在某些实施例中,该数据处理方法还可以应用于其他为音频数据添加文本数据的场景。
本申请实施例中提供的数据处理方法可以应用于一种数据处理装置,在某些实施例中,该数据处理装置应用于计算机设备。在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。
下面结合附图对本申请实施例提供的数据处理方法进行示意性说明。
具体请参见图1,图1是本申请实施例提供的一种数据处理方法的流程示意图,本申请实施例的数据处理方法可以由数据处理装置执行,其中,该数据处理装置设置于计算机设备中,其中,该计算机设备的具体解释如前所述。
S101:获取待处理文本数据,并将待处理文本数据转换为第一文本数据。
本申请实施例中,计算机设备可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据。在某些实施例中,该待处理文本数据可以包括文字(如汉字)、字母、数字、标点符号等中的一种或多种字符,该第一文本数据可以包括指定类型的文字和/或标点符号。
在一个实施例中,计算机设备在将待处理文本数据转换为第一文本数据时,可以获取待处理文本数据中非指定类型的文本内容;将非指定类型的文本内容转换为指定类型的文本内容,并将转换后得到的指定类型的文本内容确定为第一文本数据。在某些实施例中,该指定类型可以包括但不限于一种或多种预设的文本类型,如指定类型为汉字。
例如,假设指定类型为汉字,待处理文本数据为“我love你”,则计算机设备可以获取到待处理文本数据中非汉字的文本内容为“love”,则可以将非汉字的文本内容“love”转换为汉字的文本内容“爱”,并将转换后得到的文本内容“我爱你”确定为第一文本数据。
在一个实施例中,计算机设备在将非指定类型的文本内容转换为指定类型的文本内容时,可以获取非指定类型的文本内容的关键字,并获取各关键字与待处理文本数据的关联度;如果关联度小于关联度阈值,则删除关键字;如果关联度大于或等于关联度阈值,则将关键字转换为指定类型的文本内容。
在一个实施例中,计算机设备在获取各关键字与待处理文本数据的关联度时,可以将各关键字与待处理文本数据输入预训练的关联预测模型,预测得到各关键字与待处理文本数据的关联度。在某些实施例中,该预训练的关联预测模型可以是通过神经网络模型训练得到的。
例如,假设指定类型为汉字,待处理文本数据为“123我love你”关联度阈值为60%,则可以获取关键字“1、2、3、我、love、你”,如果预测到关键字“1”与该待处理文本数据的关联度为20%,关键字“2”与该待处理文本数据的关联度为22%,关键字“3”与该待处理文本数据的关联度为21%,关键字“我”与该待处理文本数据的关联度为70%,关键字“love”与该待处理文本数据的关联度为80%,关键字“你”与该待处理文本数据的关联度为75%,则可以删除关键字“123”,并将关键字“我love你”转换为汉字的文本内容“我爱你”。
在一个实施例中,计算机设备在将非指定类型的文本内容转换为指定类型的文本内容时,可以利用预训练的文本转换模型将非指定类型的文本内容转换为指定类型的文本内容。其中,预训练的文本转换模型可以利用神经网络模型训练得到。
在一个实施例中,计算机设备在将待处理文本数据转换为第一文本数据时,可以获取待处理文本数据中指定类型的文本内容和非指定类型的文本内容,并删除非指定类型的文本内容,将指定类型的文本内容确定为第一文本数据。
本申请通过将待处理文本数据转换为指定类型的第一文本数据,有助于后续更高效、更好地为目标曲谱添加第二文本数据。
S102:获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据。
本申请实施例中,计算机设备可以获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据。在某些实施例中,该目标曲谱可以为不包括文字的音频,例如,一首歌包括词和曲,目标曲谱可以为一首歌的曲。
在一个实施例中,计算机设备在根据目标曲谱和第一文本数据确定第二文本数据时,可以获取目标曲谱的音符信息;根据音符信息和第一文本数据确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据。在某些实施例中,该音符信息包括但不限于音符长度、音符数量等。
本申请通过目标曲谱和第一文本数据有助于更灵活、有效地确定出与目标曲谱相匹配的第二文本数据,为后续生成目标音频数据做准备。
S103:确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息。
本申请实施例中,计算机设备可以确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息。
在一个实施例中,计算机设备在确定第二文本数据中每个关键字的音素以及每个音素的时间信息时,可以根据目标曲谱的音符信息确定目标曲谱的每个音符的时间信息;根据每个音符的时间信息,确定第二文本数据中每个关键字的音素以及每个音素的时间信息。
S104:获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。
本申请实施例中,计算机设备可以获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。
本申请实施例可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据;获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据;确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息;获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。通过这种方式可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,提高了数据处理的准确性和效率。
具体请参见图2,图2是本申请实施例提供的另一种数据处理方法的流程示意图,本申请实施例的数据处理方法可以由数据处理装置执行,其中,该数据处理装置设置于计算机设备中,其中,该计算机设备的具体解释如前所述。本申请实施例是关于如何根据目标曲谱和待处理文本数据确定第二文本数据的说明,具体地,本申请实施例的方法包括如下步骤。
S201:获取待处理文本数据,并将待处理文本数据转换为第一文本数据。
本申请实施例中,计算机设备可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据。
S202:获取目标曲谱的音符信息。
本申请实施例中,计算机设备可以获取目标曲谱的音符信息。
S203:根据音符信息和第一文本数据确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据。
本申请实施例中,计算机设备可以根据音符信息和第一文本数据确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据。在某些实施例中,该转换策略可以为预设的多个转换策略中的一种。
在一个实施例中,该音符信息可以包括音符数量,计算机设备在根据音符信息和第一文本数据确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据时,可以根据目标曲谱的音符数量确定一个或多个文本长度阈值,根据第一文本数据的文本长度,将第一文本数据与一个或多个文本长度阈值进行对比,根据对比结果确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据。
在一个实施例中,计算机设备在将第一文本数据与一个或多个文本长度阈值进行对比时,如果检测到对比结果中第一文本数据的文本长度大于或等于第一文本长度阈值,则可以从第一文本数据中选取第一文本长度阈值的文字,并将该选取的第一文本长度阈值的文字作为第二文本数据。
例如,假设目标曲谱的音符数量为14,第一文本长度阈值为14,每个字占一个音符,则可以输出14个换词后的字即为第二文本数据,如果第一文本数据的文本长度大于或等于14个字,则可以从第一文本数据中选取14个字确定第二文本数据。
在一个实施例中,计算机设备在将第一文本数据与一个或多个文本长度阈值进行对比时,如果检测到对比结果中第一文本数据的文本长度小于或等于第二文本长度阈值,则可以根据第一文本数据的文本长度确定第一文本数据中每个字所占的音符数量,根据第一文本数据中每个字所占的音符数量确定第三文本数据,如果第三文本数据的音符数量小于第二文本长度阈值,则可以对第三文本数据添加指定文字,以使得添加指定文字后的第三文本数据的文本长度(即音符数量)与目标曲谱的音符数量相匹配,并确定添加指定文字后的第三文本数据为第二文本数据,其中,第二文本长度阈值小于第一文本长度阈值。
在一个实施例中,计算机设备在对第三文本数据添加指定文字时,可以在第三文本数据的任意位置添加指定文字,此处不做具体限定。
例如,假设目标曲谱的音符数量为14,第二文本长度阈值为7,如果第一文本数据的文本长度小于或等于7个字,则可以确定第一文本数据中每个字占2个音符,根据第一文本数据中每个字所占的音符数量2确定第三文本数据,如果第三文本数据的音符长度小于7,则可以对第三文本数据添加指定文字如“啦”或“啊”等,以使得添加指定文字后的第三文本数据的文本长度为14,并确定添加指定文字后的第三文本数据为第二文本数据。
在一个实施例中,计算机设备在将第一文本数据与一个或多个文本长度阈值进行对比时,如果检测到对比结果中第一文本数据的文本长度大于第二文本长度阈值,且小于第一文本长度阈值,则可以根据目标曲谱的音符数量对第一文本数据添加指定文字,以使得添加指定文字后的第一文本数据的文本长度与目标曲谱的音符数量相匹配,并确定添加指定文字后的第一文本数据为第二文本数据。
例如,假设目标曲谱的音符数量为14,第二文本长度阈值为7,如果检测到对比结果中第一文本数据的文本长度大于7,且小于14,则可以根据目标曲谱的音符数量14对第一文本数据添加指定文字如“啦”或“啊”等,以使得添加指定文字后的第一文本数据的文本长度为14,并确定添加指定文字后的第一文本数据为第二文本数据。
本申请实施例根据目标曲谱的音符信息和第一文本数据将第一文本数据转换为第二文本数据,有助于确定出与目标曲谱更匹配的第二文本数据。
S204:确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息。
本申请实施例中,计算机设备可以确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息。
S205:获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。
本申请实施例中,计算机设备可以获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。
本申请实施例通过将待处理文本数据转换为第一文本数据,获取目标曲谱的音符信息,根据音符信息和第一文本数据确定转换策略,并按照转换策略将第一文本数据转换为第二文本数据,有助于确定出与目标曲谱更匹配的第二文本数据;通过确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息,获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据,在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,提高了数据处理的准确性和效率。
具体请参见图3,图3是本申请实施例提供的又一种数据处理方法的流程示意图,本申请实施例的数据处理方法可以由数据处理装置执行,其中,该数据处理装置设置于计算机设备中,其中,该计算机设备的具体解释如前所述。本申请实施例是关于如何根据目标曲谱和第二文本数据确定目标音频数据的说明,具体地,本申请实施例的方法包括如下步骤。
S301:获取待处理文本数据,并将待处理文本数据转换为第一文本数据。
本申请实施例中,计算机设备可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据。
S302:获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据。
本申请实施例中,计算机设备可以获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据。
S303:根据目标曲谱的音符信息确定目标曲谱的每个音符的时间信息。
本申请实施例中,计算机设备可以根据目标曲谱的音符信息确定目标曲谱的每个音符的时间信息。
S304:根据每个音符的时间信息,确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息。
本申请实施例中,计算机设备可以根据每个音符的时间信息,确定第二文本数据中每个关键字的音素以及每个音素的时间信息。在某些实施例中,音节可以是读音的基本单位,任何单词的读音可以分解为一个个音节朗读。在某些实施例中,音素可以是从音质角度划分的最小的语音单位,从发音特征上可分为两类,即元音(也叫母音)音素和辅音(也叫子音)音素。
在一个实施例中,计算机设备在根据每个音符的时间信息,确定第二文本数据中每个关键字的音素以及每个音素的时间信息时,可以将第二文本数据中的每个关键字转换成音节;根据每个音符的时间信息和第二文本数据中各关键字的音节,确定每个音节的时间信息;将每个音节拆分为音素,并根据每个音节的时间信息确定每个音素的时间信息。
在某些实施例中,对于单韵母的音节不需要拆分,音节时间即音素时间,对于声母加韵母组成的音节,只需要获得声母时间,即可知道韵母剩余时间。其中,获得声母时间可以包括一下几种方式:一种是基于经验积累和语言规则规律,将声母分为多个类别,不同类别对应时间不同;另一种是基于对目标音色的声母时间分布统计,根据时间分布将声母分为多个类别,不同类别对应时间不同。同时要考虑当一个音节所占总时长小于时长阈值时,可以对某些声母时长做缩短处理。
在一个实施例中,计算机设备在根据每个音素的时间信息确定音量信息时,可以通过预训练的音量预测模型,根据音素信息、位置信息和说话人信息预测当前时刻的音量信息。在某些实施例中,位置信息可以是当前音频时间帧(5ms)在当前音素所处的位置。在某些实施例中,该说话人信息包括目标音色。在某些实施例中,该音量预测模型可以是通过对神经网络模型进行训练得到。
本申请通过引入音量信息有助于让输出的目标音频数据的效果、音量等的一致性更好,稳定性更好。
S305:获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。
本申请实施例中,计算机设备可以获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。在某些实施例中,基音的频率即为基频,决定整个音的音高。
在一个实施例中,计算机设备在获取目标曲谱的基频信息时,可以以目标曲谱的音符为基础,利用预训练的拟人声的基频生成算法得到自然度更高的基频曲线,其中,拟人声的基频生成算法可以是通过神经网络训练得到,此处不做具体描述。
在一个实施例中,计算机设备在获取所述目标曲谱的基频信息时,可以以目标曲谱真实的基频为基础,即从目标曲谱真实人声中提取基频,人为对齐进行一次性手工修复使其连续,然后根据得到的单个音素的时间信息和发音规则,对无基频的音素时间所对应的基频曲线做归零处理,得到新的基频曲线。具体获取基频的方法如图4所示,图4是两种获取基频信息的方法示意图。
在一个实施例中,计算机设备在根据基频信息、每个音素的时间信息和音量信息确定目标音频数据时,可以将基频信息、每个音素的时间信息和音量信息输入预训练的音频合成模型中,得到梅尔频谱特征;将梅尔频谱特征转换为音频数据,并根据音频调整数据将音频数据调整为目标音频数据。在某些实施例中,音频调整数据可以包括但不限于音色、音量、变速、变调、均衡器调节、混响、伴奏、声伴音量比等。
在一个实施例中,计算机设备在根据音频调整数据将音频数据调整为目标音频数据时,可以将不同的音色调节为固定音色,其中,可以用均衡器调节音色;还可以对音频数据加入对应的固定伴奏;还可以根据用户个人喜好进行音量调节、变速调节、变调调节、均衡器调节、加混响、加伴奏、声伴音量比等调节。
在一个实施例中,计算机设备在将基频信息、每个音素的时间信息和音量信息输入预训练的音频合成模型中,得到梅尔频谱特征之前,可以利用样本数据通过神经网络模型训练得到该音频合成模型。可选地,该样本数据包括样本基频数据、样本音素信息、样本音量信息以及样本音频数据,可以将样本数据输入预设的神经网络模型进行训练,得到预测音频数据,并将预测音频数据与样本音频数据进行对比,根据对比结果确定损失函数值,如果损失函数值大于阈值,则根据损失函数值调整模型参数,将样本数据输入调整模型参数后的神经网络模型重新训练,当重新训练得到的损失函数值小于阈值时,确定得到该音频合成模型。
本申请通过将待处理文本数据转换为第一文本数据,根据目标曲谱和第一文本数据确定第二文本数据,根据目标曲谱的音符信息确定目标曲谱的每个音符的时间信息,根据每个音符的时间信息,确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息,获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。本申请提出的方案所需数据量小,且不需要曲谱建模,大大节省了成本,可以更准确地生成目标曲谱的文本数据,以合成目标音频数据,提高了数据处理的准确性和效率。
请参见图5,图5是本申请实施例提供的又一种数据处理方法的流程示意图,如图5所示,利用计算机设备的前端模块将用户输入的待处理文本数据处理成所需格式的第一文本数据,通过一系列的换词策略确定第一文本数据中每一个字在给定的目标曲谱中的音节信息,再通过音素时间模块确定每个音素的时间信息,利用基频生成算法生成目标曲谱的基频信息,利用音量预测模型生成目标曲谱的音量信息,再将基频信息、每个音素的时间信息和音量信息输入给训练好的音频合成模型,推理预测出梅尔频谱特征,再通过预训练好的声码器合成音频数据,再通过音效后处理模块进行效果、均衡、混响、伴奏等,最后通过计算机设备的用户端输出目标音频数据如歌唱音频。
请参见图6,图6是本申请实施例提供的一种数据处理装置的结构示意图。具体的,所述装置设置于计算机设备中,所述装置包括:第一获取单元601、第二获取单元602、第一确定单元603以及第二确定单元604;
第一获取单元601,用于获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
第二获取单元602,用于获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
第一确定单元603,用于确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
第二确定单元604,用于获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
进一步地,所述第一获取单元601将所述待处理文本数据转换为第一文本数据时,具体用于:
获取所述待处理文本数据中非指定类型的文本内容;
将所述非指定类型的文本内容转换为指定类型的文本内容,并将转换后得到的指定类型的文本内容确定为所述第一文本数据。
进一步地,所述第一获取单元601将所述非指定类型的文本内容转换为指定类型的文本内容时,具体用于:
获取所述非指定类型的文本内容的关键字,并获取各关键字与所述待处理文本数据的关联度;
如果所述关联度小于关联度阈值,则删除所述关键字;
如果所述关联度大于或等于关联度阈值,则将所述关键字转换为所述指定类型的文本内容。
进一步地,所述第二获取单元602根据所述目标曲谱和所述第一文本数据确定第二文本数据时,具体用于:
获取所述目标曲谱的音符信息;
根据所述音符信息和所述第一文本数据确定转换策略,并按照所述转换策略将所述第一文本数据转换为所述第二文本数据。
进一步地,所述第一确定单元603确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息时,具体用于:
根据所述目标曲谱的音符信息确定所述目标曲谱的每个音符的时间信息;
根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息。
进一步地,所述第一确定单元603根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息时,具体用于:
将所述第二文本数据中的每个关键字转换成音节;
根据所述每个音符的时间信息和所述第二文本数据中各关键字的音节,确定每个音节的时间信息;
将所述每个音节拆分为音素,并根据所述每个音节的时间信息确定每个音素的时间信息。
进一步地,所述第二确定单元604根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据时,具体用于:
将所述基频信息、每个音素的时间信息和音量信息输入预训练的音频合成模型中,得到梅尔频谱特征;
将所述梅尔频谱特征转换为音频数据,并根据音频调整数据将所述音频数据调整为目标音频数据。
本申请实施例可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据;获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据;确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息;获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。通过这种方式可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,以生成目标音频数据,提高了数据处理的准确性和效率。
请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图。具体的,所述计算机设备包括:存储器701、处理器702。
在一种实施例中,所述计算机设备还包括数据接口703,所述数据接口703,用于传递计算机设备和其他设备之间的数据信息。
所述存储器701可以包括易失性存储器(volatile memory);存储器701也可以包括非易失性存储器(non-volatile memory);存储器701还可以包括上述种类的存储器的组合。所述处理器702可以是中央处理器(central processing unit,CPU)。所述处理器702还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
所述存储器701用于存储程序,所述处理器702可以调用存储器701中存储的程序,用于执行如下步骤:
获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
进一步地,所述处理器702将所述待处理文本数据转换为第一文本数据时,具体用于:
获取所述待处理文本数据中非指定类型的文本内容;
将所述非指定类型的文本内容转换为指定类型的文本内容,并将转换后得到的指定类型的文本内容确定为所述第一文本数据。
进一步地,所述处理器702将所述非指定类型的文本内容转换为指定类型的文本内容时,具体用于:
获取所述非指定类型的文本内容的关键字,并获取各关键字与所述待处理文本数据的关联度;
如果所述关联度小于关联度阈值,则删除所述关键字;
如果所述关联度大于或等于关联度阈值,则将所述关键字转换为所述指定类型的文本内容。
进一步地,所述处理器702根据所述目标曲谱和所述第一文本数据确定第二文本数据时,具体用于:
获取所述目标曲谱的音符信息;
根据所述音符信息和所述第一文本数据确定转换策略,并按照所述转换策略将所述第一文本数据转换为所述第二文本数据。
进一步地,所述处理器702确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息时,具体用于:
根据所述目标曲谱的音符信息确定所述目标曲谱的每个音符的时间信息;
根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息。
进一步地,所述处理器702根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息时,具体用于:
将所述第二文本数据中的每个关键字转换成音节;
根据所述每个音符的时间信息和所述第二文本数据中各关键字的音节,确定每个音节的时间信息;
将所述每个音节拆分为音素,并根据所述每个音节的时间信息确定每个音素的时间信息。
进一步地,所述处理器702根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据时,具体用于:
将所述基频信息、每个音素的时间信息和音量信息输入预训练的音频合成模型中,得到梅尔频谱特征;
将所述梅尔频谱特征转换为音频数据,并根据音频调整数据将所述音频数据调整为目标音频数据。
本申请实施例可以获取待处理文本数据,并将待处理文本数据转换为第一文本数据;获取目标曲谱,并根据目标曲谱和第一文本数据确定第二文本数据;确定第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据每个音素的时间信息确定音量信息;获取目标曲谱的基频信息,并根据基频信息、每个音素的时间信息和音量信息确定目标音频数据。通过这种方式可以在节省数据成本的基础上,更高效、灵活地为目标曲谱添加文本数据,以生成目标音频数据,提高了数据处理的准确性和效率。
本申请的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请图1或图2或图3或图5所对应实施例中描述的方法,也可实现图6所述本申请所对应实施例的装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施方式中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本发明所涵盖的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本数据转换为第一文本数据,包括:
获取所述待处理文本数据中非指定类型的文本内容;
将所述非指定类型的文本内容转换为指定类型的文本内容,并将转换后得到的指定类型的文本内容确定为所述第一文本数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述非指定类型的文本内容转换为指定类型的文本内容,包括:
获取所述非指定类型的文本内容的关键字,并获取各关键字与所述待处理文本数据的关联度;
如果所述关联度小于关联度阈值,则删除所述关键字;
如果所述关联度大于或等于关联度阈值,则将所述关键字转换为所述指定类型的文本内容。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标曲谱和所述第一文本数据确定第二文本数据,包括:
获取所述目标曲谱的音符信息;
根据所述音符信息和所述第一文本数据确定转换策略,并按照所述转换策略将所述第一文本数据转换为所述第二文本数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,包括:
根据所述目标曲谱的音符信息确定所述目标曲谱的每个音符的时间信息;
根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个音符的时间信息,确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,包括:
将所述第二文本数据中的每个关键字转换成音节;
根据所述每个音符的时间信息和所述第二文本数据中各关键字的音节,确定每个音节的时间信息;
将所述每个音节拆分为音素,并根据所述每个音节的时间信息确定每个音素的时间信息。
7.根据权利要求1所述的方法,其特征在于,所述根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据,包括:
将所述基频信息、每个音素的时间信息和音量信息输入预训练的音频合成模型中,得到梅尔频谱特征;
将所述梅尔频谱特征转换为音频数据,并根据音频调整数据将所述音频数据调整为目标音频数据。
8.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取待处理文本数据,并将所述待处理文本数据转换为第一文本数据;
第二获取单元,用于获取目标曲谱,并根据所述目标曲谱和所述第一文本数据确定第二文本数据;
第一确定单元,用于确定所述第二文本数据中每个关键字的音素以及每个音素的时间信息,并根据所述每个音素的时间信息确定音量信息;
第二确定单元,用于获取所述目标曲谱的基频信息,并根据所述基频信息、每个音素的时间信息和音量信息确定目标音频数据。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,该程序指令被执行时实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134478.4A CN117765898A (zh) | 2022-09-16 | 2022-09-16 | 一种数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211134478.4A CN117765898A (zh) | 2022-09-16 | 2022-09-16 | 一种数据处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117765898A true CN117765898A (zh) | 2024-03-26 |
Family
ID=90309100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211134478.4A Pending CN117765898A (zh) | 2022-09-16 | 2022-09-16 | 一种数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117765898A (zh) |
-
2022
- 2022-09-16 CN CN202211134478.4A patent/CN117765898A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
US20230260504A1 (en) | Variational Embedding Capacity in Expressive End-to-End Speech Synthesis | |
WO2020118521A1 (en) | Multi-speaker neural text-to-speech synthesis | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN116034424A (zh) | 两级语音韵律迁移 | |
EP4029010B1 (en) | Neural text-to-speech synthesis with multi-level context features | |
KR20150146373A (ko) | 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치 | |
DE202017106303U1 (de) | Bestimmen phonetischer Beziehungen | |
WO2021134591A1 (zh) | 语音合成方法、装置、终端及存储介质 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
US20220189455A1 (en) | Method and system for synthesizing cross-lingual speech | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
CN117765898A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
Chen et al. | A Mandarin Text-to-Speech System | |
Ronanki | Prosody generation for text-to-speech synthesis | |
Govender et al. | The CSTR entry to the 2018 Blizzard Challenge | |
Yeh et al. | A consistency analysis on an acoustic module for Mandarin text-to-speech | |
Lazaridis et al. | Comparative evaluation of phone duration models for Greek emotional speech | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |