CN113889130A - 一种语音转换方法、装置、设备及介质 - Google Patents

一种语音转换方法、装置、设备及介质 Download PDF

Info

Publication number
CN113889130A
CN113889130A CN202111138586.4A CN202111138586A CN113889130A CN 113889130 A CN113889130 A CN 113889130A CN 202111138586 A CN202111138586 A CN 202111138586A CN 113889130 A CN113889130 A CN 113889130A
Authority
CN
China
Prior art keywords
information
speaker
target
source
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111138586.4A
Other languages
English (en)
Inventor
张旭龙
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111138586.4A priority Critical patent/CN113889130A/zh
Publication of CN113889130A publication Critical patent/CN113889130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

本申请涉及人工智能技术,提供一种语音转换方法、装置、设备及介质。其中的方法包括:获取来自源说话人的源语音信息;通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;对源语音信息进行说话人特征提取,得到源说话人的说话人特征;对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;输出目标语音信息,可提高语音转换后的目标语音的自然度和韵律连贯特性。

Description

一种语音转换方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音转换方法、装置、设备及介质。
背景技术
语音转换指的是:将源说话人说话的音色转化为另一个人说话的音色,同时保持源说话人说话的语义内容不变。目前实现语音转换的神经网络模型有很多,例如AutoVC模型等,AutoVC模型是基于音频编码损失的零样本(zero-shot)音频转换,多对多的非平行音频转换框架。但是经研究发现,通过AutoVC进行语音转换得到的语音还是有很明显的机器人说话的感觉,因此,如何提高语音转换后的语音的自然度是目前亟需解决的技术问题。
发明内容
本申请实施例提供了一种语音转换方法、装置、设备及介质,可提高语音转换后的目标语音的自然度和韵律连贯特性。
一方面,本申请实施例提供一种语音转换方法,该方法包括:
获取来自源说话人的源语音信息;
通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;
对源语音信息进行说话人特征提取,得到源说话人的说话人特征;
对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
输出目标语音信息。
在一个实施例中,训练后的语音转换模型包括条件自编码器,条件自编码器包括编码器和解码器;
对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息的具体实施过程为:
通过编码器将源说话人的说话人特征和内容特征进行拼接,得到第一特征,并对第一特征进行编码,得到编码后的特征;
将编码后的特征与目标基频信息进行拼接,得到第二特征;
通过解码器对第二特征进行解码,得到目标语音信息。
在一个实施例中,对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施以下过程:
显示风格设置界面,风格设置界面包括多个风格选项;
响应于对多个风格选项中目标风格选项的选择操作,确定目标风格选项,目标风格选项为多个风格选项中的任一风格选项;
根据风格标签和基频信息的对应关系,在多个基频信息中查找目标风格选项指示的风格标签对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施以下过程:
对源语音信息进行音色分析,确定源说话人的性别;
根据性别和基频信息的对应关系,在多个基频信息中查找确定的性别对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施以下过程:
对源语音信息进行基频信息提取,得到源说话人的基频信息;
在检测到对源说话人的基频信息的调整操作时,对源说话人的基频信息进行调整,得到目标基频信息。
在一个实施例中,语音转换模型的训练方法的具体实施过程为:
获取训练样本,训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息;
通过语音转换模型对第一语音信息进行内容特征提取,得到第一语音信息的内容特征;
对第一语音信息进行说话人特征提取,得到第一用户的说话人特征;
对第二语音信息进行说话人特征提取,得到第二用户的说话人特征;
对第二语音信息进行基频信息提取,得到第二用户的基频信息;
对内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息;
根据预测语音信息和第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型。
在一个实施例中,根据预测语音信息和第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型的具体实施过程为:
获取预测语音信息的第一频谱,以及第二语音信息的第二频谱;
将第一频谱和所述第二频谱进行比对,得到损失值;
基于损失值,对语音转换模型进行训练,得到训练后的语音转换模型。
另一方面,本申请实施例提供了一种语音转换装置,该语音转换装置包括:
获取单元,用于获取来自源说话人的源语音信息;
处理单元,用于通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;
处理单元,还用于对源语音信息进行说话人特征提取,得到源说话人的说话人特征;
处理单元,还用于对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
输出单元,用于输出目标语音信息。
再一方面,本申请实施例提供一种电子设备,包括处理器、存储器和通信接口,处理器、存储器和通信接口相互连接,其中,存储器用于存储支持终端执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行如下步骤:获取来自源说话人的源语音信息;通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;对源语音信息进行说话人特征提取,得到源说话人的说话人特征;对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;输出目标语音信息。
又一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述语音转换方法。
本申请实施例中,通过获取到源语音信息的内容特征、源说话人的说话人特征之后,对内容特征、源说话人的说话人特征和目标基频信息进行处理的方式,对基频、内容、说话人三个信息进行解耦合,这样不但可以控制目标语音信息中的基频,还能确保目标语音信息中的基频的一致性,可以消除目标语音信息中基频相关的扰动,进而提高语音转换后的目标语音的自然度和韵律连贯特性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音转换方法的流程示意图;
图2是本申请实施例提供的一种语音转换模型的训练方法的流程示意图;
图3是本申请实施例提供的一种语音转换模型的训练系统的架构示意图;
图4是本申请实施例提供的一种语音转换装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例中的语音转换方法可对基频(F0)、内容、说话人三个信息进行解耦合,这样不但可以控制目标语音信息中的基频,还能确保目标语音信息中的基频的一致性,进而可以消除目标语音信息中基频相关的扰动,进而提高语音转换后的目标语音的自然度和韵律连贯特性。
其中,基频指的是基音的频率,基频决定整个音的音高。
本申请实施例中的语音转换方法可以应用在第一电子设备中。其中,第一电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。
例如,第一电子设备运行有变声客户端,用户通过变声客户端输入一段语音之后,变声客户端可以对该语音进行语音转换,得到目标语音信息,并播放该目标语音信息。又如,在听声辨人场景中,第一电子设备可以为变声麦克风等,用户通过变声麦克风输入一段语音,变声麦克风可以对该语音进行语音转换,得到目标语音信息,将该目标语音信息发送至扩音设备,扩音设备可以播放该目标语音信息。又如,在听声辨人场景中,第一电子设备可以为变声扩音设备等,用户通过麦克风输入一段语音,麦克风可以将该语音发送至变声扩音设备,变声扩音设备可以对该语音进行语音转换,得到目标语音信息,并播放该目标语音信息。又如,用户将视频数据(例如动画片或者动漫等)输入至第一电子设备之后,第一电子设备可以从视频数据中获取同一表演者的语音信息,不同表演者对应不同预设基频信息,第一电子设备可以对同一表演者的语音信息进行内容特征提取,得到该表演者的内容特征,对该表演者的语音信息进行说话人特征提取,得到该表演者的说话人特征,对内容特征、该表演者的说话人特征和该表演者对应的预设基频信息进行处理,得到转换后的目标语音信息,进而第一电子设备可以将视频数据中该表演者的语音信息替换为目标语音信息。其中目标语音信息的音色不同于用户的音色,但是目标语音信息的语义内容和用户输入的语音的语义内容相同。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参见图1,图1是本申请实施例提供的一种语音转换方法的流程示意图;如图1所示的语音转换方法可由第一电子设备来执行,该方案包括但不限于步骤S101-步骤S105,其中:
S101,获取来自源说话人的源语音信息。
在一个示例中,第一电子设备可以通过第一电子设备配置的麦克风采集外界声音。例如,用户存在将指定对象的语音信息进行语音转换的需求,那么用户可以将第一电子设备移动至与源说话人距离较近的位置,以便第一电子设备可以通过麦克风采集来自源说话人的源语音信息。又如,用户存在将指定语音信息进行语音转换的需求,那么用户可以在源说话人输出源语音信息时或者在源说话人输出源语音信息之前,向第一电子设备发送语音信息采集指令,第一电子设备可以响应语音信息采集指令采集来自源说话人的源语音信息。
可选的,第一电子设备在采集到语音信息之后,可以显示语音信息确认界面,语音信息确认界面可以包括采集到的语音信息,播放按钮,以及语音信息的时长编辑控件,该时长编辑控件可以包括第一端和第二端。用户可以点击播放按钮,第一电子设备检测到用户的点击操作之后,可以播放采集到的语音信息。如果用户发现播放的语音信息中存在待语音转换的语音片段和其他语音片段,那么用户可以通过时长编辑控件对第一电子设备采集到的语音信息进行编辑,使得编辑后的语音信息仅存在待语音转换的语音片段,进而第一电子设备可以将编辑后的语音信息作为来自源说话人的源语音信息。
例如,如果第一电子设备采集到的语音信息中待语音转换的语音片段的起始时间点在采集到的语音信息的起始时间点之后,且待语音转换的语音片段的结束时间点与采集到的语音信息的结束时间点相同,那么用户可以拖拽时长编辑控件的第一端,直至第一端的位置移动至待语音转换的语音片段的起始时间点。第一电子设备可以响应用户的拖拽操作,确定编辑后的语音信息,其中编辑后的语音信息的起始时间点为时长编辑控件的第一端指示的时间点,编辑后的语音信息的结束时间点为时长编辑控件的第二端指示的时间点(即采集到的语音信息的结束时间点)。
又如,如果第一电子设备采集到的语音信息中待语音转换的语音片段的起始时间点与采集到的语音信息的起始时间点相同,且待语音转换的语音片段的结束时间点在采集到的语音信息的结束时间点之前,那么用户可以拖拽时长编辑控件的第二端,直至第二端的位置移动至待语音转换的语音片段的结束时间点。第一电子设备可以响应用户的拖拽操作,确定编辑后的语音信息,其中编辑后的语音信息的起始时间点为时长编辑控件的第一端指示的时间点(即采集到的语音信息的起始时间点),编辑后的语音信息的结束时间点为时长编辑控件的第二端指示的时间点。
又如,如果第一电子设备采集到的语音信息中待语音转换的语音片段的起始时间点在采集到的语音信息的起始时间点之后,且待语音转换的语音片段的结束时间点在采集到的语音信息的结束时间点之前,那么用户可以拖拽时长编辑控件的第一端,直至第一端的位置移动至待语音转换的语音片段的起始时间点,并拖拽时长编辑控件的第二端,直至第二端的位置移动至待语音转换的语音片段的结束时间点。第一电子设备可以响应用户的拖拽操作,确定编辑后的语音信息,其中编辑后的语音信息的起始时间点为时长编辑控件的第一端指示的时间点,编辑后的语音信息的结束时间点为时长编辑控件的第二端指示的时间点。
在另一个示例中,第一电子设备可以是从第一电子设备的本地存储器中获取到的来自源说话人的源语音信息,或者第一电子设备可以是接收其他电子设备发送的来自源说话人的源语音信息,或者第一电子设备可以是通过互联网下载得到的来自源说话人的源语音信息。例如,第一电子设备运行有即时通讯客户端,如果用户存在将即时通讯客户端中某个会话窗口中的某个语音信息进行语音转换的需求,那么用户可以长按该语音信息,第一电子设备可以响应用户的长按操作,显示语音信息控制界面,语音信息控制界面可以包括语音转换选项。用户可以点击该语音转换选项,第一电子设备可以响应用户的点击操作,获取该语音信息,并将该语音信息作为来自源说话人的源语音信息。又如,第一电子设备运行有语音转换插件,如果用户存在将某个语音信息进行语音转换的需求,那么用户可以将该语音信息上传至语音转换插件,语音转换插件在获取到该语音信息之后,可以将该语音信息作为来自源说话人的源语音信息。
S102,通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征。
第一电子设备可以通过训练后的语音转换模型将源语音信息进行时域-频域转换,也就是说,第一电子设备可以将源语音信息由时域转换到频域,进而对源语音信息进行内容特征提取,得到源语音信息的内容特征(即声学特征),内容特征可以为梅尔(mel)频谱。
S103,对源语音信息进行说话人特征提取,得到源说话人的说话人特征。
训练后的语音转换模型可以包括one-hot编码、d-vector或者x-vector等编码器,第一电子设备可以采用one-hot编码、d-vector或者x-vector等编码器对源语音信息进行说话人特征提取,得到源说话人的说话人特征。
其中,One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
d-vector是通过DNN训练得到的。深度神经网络(Deep Neural Networks,DNN)训练好后,提取每一帧语音的滤波器池能量(Filterbank Energy)特征作为DNN输入,从最后隐藏层(Last Hidden Layer)提取隐藏参数(Activations),L2正则化,然后将其累加起来,得到的向量就被称为d-vector。如果一个人录入了多条语音,那么每条语音可以得到一个d-vector,所有这些d-vectors做平均,就是这个人的表示(Representation)。
x-vector由于设置一个embedding层进行提取特征,直接基于该特征进行plda打分,因此无需特定语种的训练集。具体的,x-vector前5层是帧级别,然后做了池化后插入两层段级别的embedding,使用segment6这层作为提取xvector特征,该特征可以当做ivector进行plda打分,最后一层是softmax层,可得到训练集中所有的说话人目标(即说话人特征)。
S104,对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息。
本申请实施例在语音转换过程中加入了源说话人的说话人特征,增强了隐变量中除了内容特征的说话人音色信息表示,可提高语音转换后的目标语音的自然度和韵律连贯特性。
在一个可行的实施方式中,训练后的语音转换模型还可以包括条件自编码器,条件自编码器包括编码器和解码器。在此基础上,第一电子设备可以通过编码器将源说话人的说话人特征和内容特征进行拼接,得到第一特征,并对第一特征进行编码,得到编码后的特征,将编码后的特征与目标基频信息进行拼接,得到第二特征,通过解码器对第二特征进行解码,得到目标语音信息。
具体的,编码器可以由3层5*1的卷积层和ReLU激活函数构成,卷积层中采用512通道。每一层都接一层批正则化,最后接两层双向长短期记忆(Long Short-Term Memory,LSTM)层。解码器由三层LSTM层,再接后处理网络来优化输出的mel频谱,后处理网络包含5层5*1的卷积网络层,每个卷积层后接一层批正则化。
条件自编码器中的编码器将源说话人的说话人特征和内容特征进行拼接,然后对拼接后的特征进行编码,得到编码后的特征(即隐变量),编码后的特征与预设基频信息(即pitch序列)进行拼接,然后作为解码器的输入进行解码得到转化后的声学特征(转换特征),最终将声学特征输入到声码器即可得到转换后的目标音频波形(即目标音频信息)。经过编码器之后得到的隐变量,通常认为该隐变量包含了以内容为主的所有信息,本方案将源说话人的说话人特征和内容特征拼接之后输入编码器,增强了隐变量中除了内容以外,还包括说话人音色信息的表示。
在一个可行的实施方式中,第一电子设备对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,可以显示风格设置界面,风格设置界面包括多个风格选项,响应于对多个风格选项中目标风格选项的选择操作,确定目标风格选项,目标风格选项为多个风格选项中的任一风格选项,根据风格标签和基频信息的对应关系,在多个基频信息中查找目标风格选项指示的风格标签对应的基频信息,并将查找到的基频信息作为目标基频信息。
举例来说,第一电子设备中存储有不同风格选项(例如沧桑浑厚风格、萝莉俏皮风格)对应的预设基频信息,可以在第一电子设备中显示风格设置界面,风格设置界面包括不同风格选项,如果用户选择某一个风格选项,那么第一电子设备可以获取用户选择的风格选项对应的预设基频信息。在用户通过第一电子设备输入源语音信息之后,第一电子设备可以通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征,对源语音信息进行说话人特征提取,得到源说话人(即上述用户)的说话人特征,对内容特征、源说话人的说话人特征和用户选择的风格选项对应的预设基频信息进行处理,得到转换后的目标语音信息,其中目标语音信息的风格与用户选择的风格匹配。本申请实施例可以基于不同的效果需求设置目标基频信息,语音转换得到的目标语音信息更符合用户意愿。
在一个可行的实施方式中,第一电子设备对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,可以对源语音信息进行音色分析,确定源说话人的性别,根据性别和基频信息的对应关系,在多个基频信息中查找确定的性别对应的基频信息,并将查找到的基频信息作为目标基频信息。本申请实施例可以基于源说话人的性别设置目标基频信息,语音转换得到的目标语音信息与源说话人更匹配。
例如,第一电子设备存储有不同性别对应的预设基频信息,第一电子设备在获取到源说话人的源语音信息之后,可以对源语音信息进行音色分析,确定源说话人的性别,进而获取源说话人的性别对应的预设基频信息。在用户通过第一电子设备输入源语音信息之后,第一电子设备可以通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征,对源语音信息进行说话人特征提取,得到源说话人的说话人特征,对内容特征、源说话人的说话人特征和源说话人的性别对应的预设基频信息进行处理,得到转换后的目标语音信息,其中目标语音信息与源说话人的性别匹配。
在一个可行的实施方式中,第一电子设备对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,可以对源语音信息进行音色分析,确定源说话人的性别为第一性别,根据性别和基频信息的对应关系,在多个基频信息中查找第二性别对应的基频信息,并将查找到的基频信息作为目标基频信息,其中第二性别指的是不同于第一性别的性别,例如,如果第一性别为女性,则第二性别为男性;如果第一性别为男性,则第二性别为女性。本申请实施例可以基于源说话人的性别设置目标基频信息,语音转换得到的目标语音信息与源说话人的反差更大。
在一个可行的实施方式中,第一电子设备对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,可以对源语音信息进行基频信息提取,得到源说话人的基频信息,在检测到对源说话人的基频信息的调整操作时,对源说话人的基频信息进行调整,得到目标基频信息。本申请实施例中用户可根据自身需求调整基频信息,以确保语音转换得到的目标语音信息更符合用户意愿。
在预测阶段,由于没有目标说话人的语音,无法获取到目标说话人的pitch信息,因此可以在预测阶段采用源说话人的pitch,让pitch信息尽可能与源语音信息中的发音音调吻合,同时可以对pitch信息进行控制和微调。
S105,输出目标语音信息。
示例性的,第一电子设备可以播放目标语音信息。或者,第一电子设备可以将目标语音信息发送至其他电子设备,以便其他电子设备播放目标语音信息。或者,第一电子设备可以显示目标语音信息的标识(例如显示有目标语音信息的时长的语音图标或者目标语音信息的名称等),在用户点击该标识或者播放按钮之后,第一电子设备可以响应用户的点击操作播放目标语音信息。
本申请实施例中,获取来自源说话人的源语音信息,通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征,对源语音信息进行说话人特征提取,得到源说话人的说话人特征,对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息,输出目标语音信息,这样不但可以控制目标语音信息中的基频,还能确保目标语音信息中的基频的一致性,可以消除目标语音信息中基频相关的扰动,进而提高语音转换后的目标语音的自然度和韵律连贯特性。
请参见图2,图2是本申请实施例提供的一种语音转换模型的训练方法的流程示意图;如图2所示的语音转换模型的训练方法可由第二电子设备来执行,该方案包括但不限于步骤S201-步骤S207,其中:
S201,获取训练样本,训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息。
其中,第二电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。可选的,第二电子设备也可以为服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统等。按句话说,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。第二电子设备和第一电子设备可以为同一设备,也可以为不同设备。
S202,通过语音转换模型对第一语音信息进行内容特征提取,得到第一语音信息的内容特征。
S203,对第一语音信息进行说话人特征提取,得到第一用户的说话人特征。
S204,对第二语音信息进行说话人特征提取,得到第二用户的说话人特征。
S205,对第二语音信息进行基频信息提取,得到第二用户的基频信息。
训练阶段使用的基频信息(即pitch序列)是第二语音信息中提取的pitch值,这样做的目的是希望转换后的目标语音信息的韵律更加像第二用户。
Pitch序列的具体获取方法是通过pYin算法对应的一个python提取工具进行抽取的,输入为音频文件,输出是该音频文件对应的pitch序列值,为一维的向量,横轴是时间帧为单位。
S206,对内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息。
以图3所示的语音转换模型的训练系统的架构示意图为例,第二电子设备可以对第一语音信息进行频谱提取得到内容特征(即源特征),将内容特征和第一用户的说话人特征(即源说话人特征向量)进行拼接输入至编码器,得到隐变量Z,然后进行解码,解码中加入第二语音信息中提取的基频信息以及第二用户的说话人特征(即目标说话人特征向量),解码器输出的转换后特征即目标频谱,与对应说话人语音提取的真实频谱进行计算损失值,损失值例如均方误差(MSEloss),从而完成源说话人语音到目标说话人语音的映射。
S207,根据预测语音信息和所述第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型。
在一个可行的实施方式中,第二电子设备可以获取预测语音信息的第一频谱,以及第二语音信息的第二频谱,将第一频谱和第二频谱进行比对,得到损失值,基于该损失值,对语音转换模型进行训练,得到训练后的语音转换模型。
通过训练,条件自编码器中的编码器可以从源说话人特征向量到目标说话人特征向量学习到一种映射转换关系,从而加强语音转换的解析能力。
训练阶段通过不断调整优化语音合成模型的参数,不断减小模型输出的频谱特征与真实目标频谱特征之间的损失值,最终达到输入与输出之间的准确转换。
本申请实施例中,获取训练样本,训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息,通过语音转换模型对第一语音信息进行内容特征提取,得到第一语音信息的内容特征,对第一语音信息进行说话人特征提取,得到第一用户的说话人特征,对第二语音信息进行说话人特征提取,得到第二用户的说话人特征,对第二语音信息进行基频信息提取,得到第二用户的基频信息,对内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息,根据预测语音信息和第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型,可确保通过训练后的语音转换模型实现对基频、内容、说话人三个信息进行解耦合,进而确保通过训练后的语音转换模型进行语音转换得到的目标语音的自然度和韵律连贯特性较高。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
再请参见图4,图4是本申请实施例的提供一种语音转换装置的结构示意图。
本申请实施例的装置的一个实现方式中,装置包括如下结构。
获取单元401,用于获取来自源说话人的源语音信息;
处理单元402,用于通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;
处理单元402,还用于对源语音信息进行说话人特征提取,得到源说话人的说话人特征;
处理单元402,还用于对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
输出单元403,用于输出目标语音信息。
在一个实施例中,训练后的语音转换模型包括条件自编码器,条件自编码器包括编码器和解码器;
处理单元402对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息,包括:
通过编码器将源说话人的说话人特征和内容特征进行拼接,得到第一特征,并对第一特征进行编码,得到编码后的特征;
将编码后的特征与目标基频信息进行拼接,得到第二特征;
通过解码器对第二特征进行解码,得到目标语音信息。
在一个实施例中,输出单元403,还用于在处理单元402对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,显示风格设置界面,风格设置界面包括多个风格选项;
处理单元402,还用于响应于对多个风格选项中目标风格选项的选择操作,确定目标风格选项,目标风格选项为多个风格选项中的任一风格选项;
处理单元402,还用于根据风格标签和基频信息的对应关系,在多个基频信息中查找目标风格选项指示的风格标签对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,处理单元402,还用于在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,对源语音信息进行音色分析,确定源说话人的性别;根据性别和基频信息的对应关系,在多个基频信息中查找确定的性别对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,处理单元402,还用于在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,对源语音信息进行基频信息提取,得到源说话人的基频信息;在检测到对源说话人的基频信息的调整操作时,对源说话人的基频信息进行调整,得到目标基频信息。
在一个实施例中,获取单元401,还用于获取训练样本,训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息;
处理单元402,还用于通过语音转换模型对第一语音信息进行内容特征提取,得到第一语音信息的内容特征;
处理单元402,还用于对第一语音信息进行说话人特征提取,得到第一用户的说话人特征;
处理单元402,还用于对第二语音信息进行说话人特征提取,得到第二用户的说话人特征;
处理单元402,还用于对第二语音信息进行基频信息提取,得到第二用户的基频信息;
处理单元402,还用于对内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息;
处理单元402,还用于根据预测语音信息和所述第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型。
在一个实施例中,处理单元402根据预测语音信息和第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型,包括:
获取预测语音信息的第一频谱,以及第二语音信息的第二频谱;
将第一频谱和第二频谱进行比对,得到损失值;
基于损失值,对语音转换模型进行训练,得到训练后的语音转换模型。
本申请实施例中,获取来自源说话人的源语音信息,通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征,对源语音信息进行说话人特征提取,得到源说话人的说话人特征,对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息,输出目标语音信息,这样不但可以控制目标语音信息中的基频,还能确保目标语音信息中的基频的一致性,可以消除目标语音信息中基频相关的扰动,进而提高语音转换后的目标语音的自然度和韵律连贯特性。
再请参见图5,图5是本申请实施例提供的一种电子设备的结构示意图,本申请实施例的电子设备包括供电模块等结构,并包括处理器501、存储器502以及通信接口503。处理器501、存储器502以及通信接口503之间可以交互数据,由处理器501实现相应的数据处理方案。
存储器502可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器502也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器502还可以包括上述种类的存储器的组合。
处理器501可以是中央处理器501(central processing unit,CPU)。处理器501也可以是由CPU和GPU的组合。在电子设备中,可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中,存储器502用于存储程序指令。处理器501可以调用程序指令,实现如本申请实施例中上述涉及的各种方法。
在第一个可能的实施方式中,电子设备的处理器501,调用存储器502中存储的程序指令,用于执行如下操作:
获取来自源说话人的源语音信息;
通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征;
对源语音信息进行说话人特征提取,得到源说话人的说话人特征;
对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
通过通信接口503输出目标语音信息。
在一个实施例中,训练后的语音转换模型包括条件自编码器,条件自编码器包括编码器和解码器;
处理器501在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息时,具体实施如下过程:
通过编码器将源说话人的说话人特征和内容特征进行拼接,得到第一特征,并对第一特征进行编码,得到编码后的特征;
将编码后的特征与目标基频信息进行拼接,得到第二特征;
通过解码器对第二特征进行解码,得到目标语音信息。
在一个实施例中,处理器501,在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施如下过程:
通过通信接口503显示风格设置界面,风格设置界面包括多个风格选项;
响应于对多个风格选项中目标风格选项的选择操作,确定目标风格选项,目标风格选项为多个风格选项中的任一风格选项;
根据风格标签和基频信息的对应关系,在多个基频信息中查找目标风格选项指示的风格标签对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,处理器501,在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施如下过程:
对源语音信息进行音色分析,确定源说话人的性别;
根据性别和基频信息的对应关系,在多个基频信息中查找确定的性别对应的基频信息,并将查找到的基频信息作为目标基频信息。
在一个实施例中,处理器501,在对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还可以实施如下过程:
对源语音信息进行基频信息提取,得到源说话人的基频信息;
在检测到对源说话人的基频信息的调整操作时,对源说话人的基频信息进行调整,得到目标基频信息。
在一个实施例中,处理器501,在通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征之前,还可以实施如下过程:
获取训练样本,训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息;
通过语音转换模型对第一语音信息进行内容特征提取,得到第一语音信息的内容特征;
对第一语音信息进行说话人特征提取,得到第一用户的说话人特征;
对第二语音信息进行说话人特征提取,得到第二用户的说话人特征;
对第二语音信息进行基频信息提取,得到第二用户的基频信息;
对内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息;
根据预测语音信息和所述第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型。
在一个实施例中,处理器501在根据预测语音信息和第二语音信息,对语音转换模型进行训练,得到训练后的语音转换模型时,具体实施如下过程:
获取预测语音信息的第一频谱,以及第二语音信息的第二频谱;
将第一频谱和第二频谱进行比对,得到损失值;
基于损失值,对语音转换模型进行训练,得到训练后的语音转换模型。
本申请实施例中,获取来自源说话人的源语音信息,通过训练后的语音转换模型对源语音信息进行内容特征提取,得到源语音信息的内容特征,对源语音信息进行说话人特征提取,得到源说话人的说话人特征,对内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息,输出目标语音信息,这样不但可以控制目标语音信息中的基频,还能确保目标语音信息中的基频的一致性,可以消除目标语音信息中基频相关的扰动,进而提高语音转换后的目标语音的自然度和韵律连贯特性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种语音转换方法,其特征在于,包括:
获取来自源说话人的源语音信息;
通过训练后的语音转换模型对所述源语音信息进行内容特征提取,得到所述源语音信息的内容特征;
对所述源语音信息进行说话人特征提取,得到所述源说话人的说话人特征;
对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
输出所述目标语音信息。
2.如权利要求1所述的方法,其特征在于,所述训练后的语音转换模型包括条件自编码器,所述条件自编码器包括编码器和解码器;
所述对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息,包括:
通过所述编码器将所述源说话人的说话人特征和内容特征进行拼接,得到第一特征,并对所述第一特征进行编码,得到编码后的特征;
将所述编码后的特征与所述目标基频信息进行拼接,得到第二特征;
通过所述解码器对所述第二特征进行解码,得到所述目标语音信息。
3.如权利要求1所述的方法,其特征在于,所述对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还包括:
显示风格设置界面,所述风格设置界面包括多个风格选项;
响应于对所述多个风格选项中目标风格选项的选择操作,确定目标风格选项,所述目标风格选项为所述多个风格选项中的任一风格选项;
根据风格标签和基频信息的对应关系,在多个基频信息中查找所述目标风格选项指示的风格标签对应的基频信息,并将查找到的基频信息作为所述目标基频信息。
4.如权利要求1所述的方法,其特征在于,所述对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还包括:
对所述源语音信息进行音色分析,确定所述源说话人的性别;
根据性别和基频信息的对应关系,在多个基频信息中查找确定的性别对应的基频信息,并将查找到的基频信息作为所述目标基频信息。
5.如权利要求1所述的方法,其特征在于,所述对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息之前,还包括:
对所述源语音信息进行基频信息提取,得到所述源说话人的基频信息;
在检测到对所述源说话人的基频信息的调整操作时,对所述源说话人的基频信息进行调整,得到所述目标基频信息。
6.如权利要求1所述的方法,其特征在于,所述语音转换模型的训练方法包括:
获取训练样本,所述训练样本包括第一用户针对目标文本信息提交的第一语音信息和第二用户针对目标文本信息提交的第二语音信息;
通过语音转换模型对所述第一语音信息进行内容特征提取,得到所述第一语音信息的内容特征;
对所述第一语音信息进行说话人特征提取,得到所述第一用户的说话人特征;
对所述第二语音信息进行说话人特征提取,得到所述第二用户的说话人特征;
对所述第二语音信息进行基频信息提取,得到第二用户的基频信息;
对所述内容特征、第一用户的说话人特征、基频信息和第二用户的说话人特征进行处理,得到预测语音信息;
根据所述预测语音信息和所述第二语音信息,对所述语音转换模型进行训练,得到所述训练后的语音转换模型。
7.如权利要求6所述的方法,其特征在于,所述根据所述预测语音信息和所述第二语音信息,对所述语音转换模型进行训练,得到所述训练后的语音转换模型,包括:
获取所述预测语音信息的第一频谱,以及所述第二语音信息的第二频谱;
将所述第一频谱和所述第二频谱进行比对,得到损失值;
基于所述损失值,对所述语音转换模型进行训练,得到所述训练后的语音转换模型。
8.一种语音转换装置,其特征在于,所述装置包括:
获取单元,用于获取来自源说话人的源语音信息;
处理单元,用于通过训练后的语音转换模型对所述源语音信息进行内容特征提取,得到所述源语音信息的内容特征;
所述处理单元,还用于对所述源语音信息进行说话人特征提取,得到所述源说话人的说话人特征;
所述处理单元,还用于对所述内容特征、源说话人的说话人特征和目标基频信息进行处理,得到转换后的目标语音信息;
输出单元,用于输出所述目标语音信息。
9.一种电子设备,其特征在于,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的语音转换方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的语音转换方法。
CN202111138586.4A 2021-09-27 2021-09-27 一种语音转换方法、装置、设备及介质 Pending CN113889130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111138586.4A CN113889130A (zh) 2021-09-27 2021-09-27 一种语音转换方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111138586.4A CN113889130A (zh) 2021-09-27 2021-09-27 一种语音转换方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113889130A true CN113889130A (zh) 2022-01-04

Family

ID=79007140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111138586.4A Pending CN113889130A (zh) 2021-09-27 2021-09-27 一种语音转换方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113889130A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708876A (zh) * 2022-05-11 2022-07-05 北京百度网讯科技有限公司 音频处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708876A (zh) * 2022-05-11 2022-07-05 北京百度网讯科技有限公司 音频处理方法、装置、电子设备及存储介质
CN114708876B (zh) * 2022-05-11 2023-10-03 北京百度网讯科技有限公司 音频处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110223705B (zh) 语音转换方法、装置、设备及可读存储介质
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN111914076B (zh) 一种基于人机对话的用户画像构建方法、系统、终端及存储介质
CN112767917B (zh) 语音识别方法、装置及存储介质
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN112837669B (zh) 语音合成方法、装置及服务器
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN113035228A (zh) 声学特征提取方法、装置、设备及存储介质
CN113111812A (zh) 一种嘴部动作驱动模型训练方法及组件
CN114882862A (zh) 一种语音处理方法及相关设备
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN113077783B (zh) 小语种语音语料扩增方法、装置及电子设备和存储介质
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
CN113889130A (zh) 一种语音转换方法、装置、设备及介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
CN112580669B (zh) 一种对语音信息的训练方法及装置
CN114387946A (zh) 语音合成模型的训练方法和语音合成方法
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
CN113095435A (zh) 视频描述生成方法、装置、设备及计算机可读存储介质
CN111554300A (zh) 音频数据处理方法、装置、存储介质及设备
CN116543749B (zh) 一种基于堆栈记忆网络的多模态语音合成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination