CN112466314A - 情感语音数据转换方法、装置、计算机设备及存储介质 - Google Patents
情感语音数据转换方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112466314A CN112466314A CN202011364366.9A CN202011364366A CN112466314A CN 112466314 A CN112466314 A CN 112466314A CN 202011364366 A CN202011364366 A CN 202011364366A CN 112466314 A CN112466314 A CN 112466314A
- Authority
- CN
- China
- Prior art keywords
- emotion
- loss function
- fundamental frequency
- mel
- cepstrum coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 204
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009466 transformation Effects 0.000 claims abstract description 46
- 230000000737 periodic effect Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000003044 adaptive effect Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 171
- 125000004122 cyclic group Chemical group 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006735 deficit Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000010355 oscillation Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例属于人工智能技术领域,涉及一种情感语音数据转换方法及相关设备,可应用于智慧政务或智慧医疗领域,包括:获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。此外,本申请还涉及区块链技术,所述目标情感数据可存储于区块链中。本申请提高了情感语音数据的转换效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种情感语音数据转换方法、装置、计算机设备及存储介质。
背景技术
语音信号不仅包含语义信息,还蕴含了说话人身份、说话时的情感等其他方面信息。情感语音转换是指将语音由一种情感转换成另一种情感,同时保持语义和说话人身份等其他信息不变的技术。现实中客服服务系统面临的使用场景、用户意图、用户身份等往往十分复杂,传统的解决方案只能支持单一情感的语音播报而不能随着实际的场景进行语音情感的转换,很容易给用户带来较差的使用体验,不利于高效的沟通和问题的解决。如果客服服务系统能在交互中根据实际情况灵活选择合适的情感进行语音播报,整体的工作效率将会得到很大的提升。
传统的情感语音转换方法几乎都需要平行语料。平行语料是指说话人和文本相同而说话时情感不同的数据。录制平行语料的工作费时费力,并且还需要对齐等后续数据处理,由此导致情感语音数据转换困难、效率低下的问题。
发明内容
本申请实施例的目的在于提出一种情感语音数据转换方法、装置、计算机设备及存储介质,旨在解决情感语音数据转换效率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种情感语音数据转换方法,采用了如下所述的技术方案:
一种情感语音数据转换方法,包括以下步骤:
获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
进一步的,所述预设转换模型包括编码器、解码器和判别器,所述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数的步骤包括:
获取所述源情感语音数据的情感标签,输入所述情感标签至所述编码器,得到情感信息表征,输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征;
输入所述情感信息表征和所述内容信息表征至所述解码器,得到所述第一梅尔倒谱系数对应的待测梅尔倒谱系数;
基于所述判别器确定所述待测梅尔倒谱系数是否为真实样本数据输出,在确定所述待测梅尔倒谱系数为所述真实样本数据输出时,确定所述待测梅尔倒谱系数为所述第二梅尔倒谱系数。
进一步的,所述输入所述情感标签至所述编码器,得到情感信息表征的步骤包括:
对所述情感标签进行独热编码得到独热矢量;
将所述独热矢量输入至所述编码器中的嵌入层,所述嵌入层输出得到所述情感信息表征。
进一步的,所述输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征的步骤包括:
根据所述编码器对所述第一梅尔倒谱系数进行多层卷积处理,得到所述内容信息表征。
进一步的,在所述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数的步骤之前,包括:
获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数;
根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数,当所述最优损失函数取最小值时,确定所述预设转换模型为最优模型。
进一步的,所述根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数的步骤包括:
获取所述循环一致损失函数的第一约束值,以及所述恒等变换损失函数的第二约束值,根据所述第一约束值和所述第二约束值,分别计算所述循环一致损失函数的第一损失值和所述恒等变换损失函数的第二损失值;
对所述第一对抗损失函数、所述第二对抗损失函数、所述第一损失值、所述第二损失值和所述散度损失函数进行求和,计算得到所述最优损失函数。
进一步的,所述通过线性变换将所述第一基频转换为第二基频的步骤包括:
计算所述源情感语音数据的基频均值和基频标准差;
基于所述第一基频、所述基频均值和所述基频标准差,计算得到所述第一基频对应的所述第二基频。
为了解决上述技术问题,本申请实施例还提供一种情感语音数据转换装置,采用了如下所述的技术方案:
提取模块,用于获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
转换模块,用于通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
生成模块,用于基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述情感语音数据转换方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述情感语音数据转换方法的步骤。
上述情感语音数据转换方法,通过获取源情感语音数据,基于预设声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数,即得到该源情感语音数据的声学特征;之后,通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,可以使得在无需平行语料的情况下对原始语音数据的声学特征进行转换;最后,基于所述声码器对所述第二基频、第二梅尔倒谱系数和非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据,由此,实现了在不需要使用平行语料的情况下,对情感语音数据的高效转换,节省了情感语音数据转换时长,提升了情感转换的相似度和说话人的相似度,进一步提升了情感语音数据转换后的语音音质。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是情感语音数据转换方法的一个实施例的流程示意图;
图3是预设转换模型的结构示意图;
图4是预设转换模型中编码器、解码器和判别器的结构示意图;
图5是根据本申请的情感语音数据转换装置的一个实施例的结构示意图;
图6是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:情感语音数据转换装置500,提取模块501,转换模块502,生成模块503。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的情感语音数据转换方法一般由服务端/终端执行,相应地,情感语音数据转换装置一般设置于服务端/终端设备中。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的情感语音数据转换方法的一个实施例的流程图。所述情感语音数据转换方法,包括以下步骤:
步骤S201,获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
在本实施例中,源情感语音数据为预先采集的同一说话人的情感语音数据,通过预设的声码器可以对该源情感语音数据进行声学特征的提取,得到源情感语音数据对应的声学特征。其中,声学特征包括第一基频、非周期数据和第一梅尔倒谱系数,第一基频是指自由振荡系统的最低振荡频率,复合波中的最低频率,非周期数据是指源情感语音数据的非周期信号对应的数据,第一梅尔倒谱系数是指源情感语音数据在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。
步骤S202,通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
在本实施例中,在得到源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数时,通过线性变换将该第一基频转换为第二基频,第二基频即为目标情感数据的基频。对于第一梅尔倒谱系数则通过预设转换模型进行转换,其中,预设转换模型为预先设定的转换模型,采用的是一种VAE-GAN(Variational autoencoder-Generative AdversarialNetworks,变分自编码器-生成对抗网络)结构,包括编码器、解码器和判别器;其中,VAE中的解码器也可以看作是GAN中的生成器。具体地,编码器和解码器均由多个残差块级联组成,解码器和判别器中残差块具有相同的结构和不同的参数,判别器则为一个两类的分类器。通过该预设转换模型中的编码器对该第一梅尔倒谱系数进行编码处理得到当前源情感语音数据对应的内容信息表征和情感信息表征,而后通过解码器对该内容信息表征和情感信息表征进行解码处理则得到第一梅尔倒谱系数转换后的待测梅尔倒谱系数,之后通过判别器对待测梅尔系数是否为真实样本数据输出进行判断,若是,则确定待测梅尔倒谱系数为第一梅尔倒谱系数转换后的第二梅尔倒谱系数。如图3所示,图3为预设转换模型的结构示意图。
除此之外,对于通过声码器得到的源情感语音数据的非周期数据,由于该非周期数据对情感的转换几乎不造成影响,则不对该非周期数据进行转换处理,在目标情感数据合成的过程中可直接使用源情感语音数据的非周期数据。
步骤S203,基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
在得到第二基频和第二梅尔倒谱系数时,则基于预设的声码器对该第二基频、第二梅尔倒谱系数和非周期数据进行语音合成,得到目标情感数据。具体地,在获取到第二基频、第二梅尔倒谱系数和非周期数据时,将该第二基频、第二梅尔倒谱系数和非周期数据输入至声码器中,基于声码器中的源-滤波器经过傅里叶变换和自适应插值处理,合成目标情感数据,该目标情感数据即为源情感语音数据对应的转换后的情感数据。
需要强调的是,为进一步保证上述目标情感数据的私密和安全性,上述目标情感数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,实现了在不需要使用平行语料的情况下,对情感语音数据的高效转换,节省了情感语音数据转换时长,提升了情感转换的相似度和说话人的相似度,进一步提升了情感语音数据转换后的语音音质。
在本申请的一些实施例中,所述预设转换模型包括编码器、解码器和判别器,上述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数包括:
获取所述源情感语音数据的情感标签,输入所述情感标签至所述编码器,得到情感信息表征,输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征;
输入所述情感信息表征和所述内容信息表征至所述解码器,得到所述第一梅尔倒谱系数对应的待测梅尔倒谱系数;
基于所述判别器确定所述待测梅尔倒谱系数是否为真实样本数据输出,在确定所述待测梅尔倒谱系数为所述真实样本数据输出时,确定所述待测梅尔倒谱系数为所述第二梅尔倒谱系数。
在本实施例中,预设转换模型包括编码器、解码器和判别器,通过编码器对源情感语音数据对应的情感标签和第一梅尔倒谱系数进行处理,即可得到对应的情感信息表征和内容信息表征。其中,该情感标签可根据预设判定规则确定,亦可根据监督学习的方式得到,如喜、怒、哀、乐均为情感标签;情感信息表征为该源情感语音数据在情感上的表征数据;内容信息表征则为该源情感语音数据在语义上的表征数据。在得到情感信息表征和内容信息表征时,将该情感信息表征和该内容信息表征输入至预设转换模型的解码器中,得到该第一梅尔倒谱系数对应的待测梅尔倒谱系数。在得到待测梅尔倒谱系数时,将该待测梅尔倒谱系数输入至判别器中,通过该判别器对该待测梅尔倒谱系数进行判断,确定该待测梅尔倒谱系数是否为真实样本数据输出。若判别器对该待测梅尔倒谱系数的输出结果与真实样本数据的输出结果一致,则确定该待测梅尔倒谱系数为真实样本数据输出;若判别器对该待测梅尔倒谱系数的输出结果与真实样本数据的输出结果不一致,则确定该待测梅尔倒谱系数非真实样本数据输出。
如图4所示,图4为预设转换模型中编码器、解码器和判别器的结构示意图,图4(1)为编码器的结构图,图4(2)为解码器的结构图,图4(3)为判别器的结构图。其中,k表示每层中卷积的核大小,c表示卷积的通道数,s表示卷积的步幅大小,归一化采用实例正则化函数(IN,instance normalization),X为输入的第一梅尔倒谱系数,Cx为x的输出结果,即内容信息表征,Lj为输入的情感信息,Xi→j为第二梅尔倒谱系数。
本实施例通过预设转换模型中的编码器、解码器和判别器,实现了在无需平行语料的情况下对语音声学特征的精确转换,提高了情感语音数据转化的效率及准确率。
在本申请的一些实施例中,上述输入所述情感标签至所述编码器,得到情感信息表征包括:
对所述情感标签进行独热编码得到独热矢量;
将所述独热矢量输入至所述编码器中的嵌入层,所述嵌入层输出得到所述情感信息表征。
在本实施例中,编码器中设置有参数可训练的嵌入层,即该嵌入层的参数可以根据当前预设转换模型的最终损失函数基于梯度下降算法进行多次训练更新。在获取情感信息表征时,先获取源情感语音数据的情感标签,并对该情感标签进行独热编码,得到情感标签对应的独热矢量;而后将该独热矢量作为该嵌入层的输入参数,输入至嵌入层中,该嵌入层的输出结果则为该源情感语音数据对应的情感信息表征。特别地,在得到情感标签对应的独热矢量时,也可以将该独热矢量和内容信息表征作为解码器的输入,通过解码器输出得到第一梅尔倒谱系数对应的待测梅尔倒谱系数。
本实施例通过编码器对情感信息表征进行获取,实现了对源情感语音数据情感表征的精确获取,进一步提高了模型情感数据转换的精确度和处理效率。
在本申请的一些实施例中,上述输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征包括:
根据所述编码器对所述第一梅尔倒谱系数进行多层卷积处理,得到所述内容信息表征。
在本实施例中,还需要通过编码器对源情感语音数据的内容信息表征进行获取。具体地,内容信息表征为源情感语音数据在语义上的表征数据,在得到第一梅尔倒谱系数时,通过该编码器中的残差块对该第一梅尔倒谱系数进行多层卷积处理,即得到该第一梅尔倒谱系数对应的内容信息表征。
本实施例通过编码器对源情感语音数据的内容信息表征进行获取,实现了对源情感语音数据在语义上内容的精确获取,使得转换后的情感数据的语义不会发生较大的变化,确保了语音转换的质量。
在本申请的一些实施例中,在上述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数之前,包括:
获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数;
根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数,当所述最优损失函数取最小值时,确定所述预设转换模型为最优模型。
在本实施例中,在基于预设转换模型将第一梅尔倒谱系数转换为第二梅尔倒谱系数之前,还可以通过调整损失函数对预设转换模型进行优化,使得得到的预设转换模型为最优模型。具体地,损失函数为机器学习中用来评估模型的预测值与真实值的不一致程度,损失函数越小,则模型的鲁棒性越好,通过损失函数能够指导模型学习。获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数,根据第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数进行加权求和,即可计算得到预设转换模型的最优损失函数。在该最优损失函数取最小值时,确定该预设转换模型为最优模型。
第一损失函数的计算公式如下所示:
其中,X为源声学特征序列(即第一梅尔倒谱系数),Y为目标声学特征序列(即第二梅尔倒谱系数),DY为对抗生成网络中的鉴别器,GX→Y为生成器,E(*)为分布函数的期望值,y~PY(y)为真实数据,PY(y)为真实样本的分布,PX(x)在低维度的噪声分布,x~PX(x)为随机噪声。
第二损失函数为新增的损失函数,通过该第二损失函数可以减轻过平滑效应,计算公式如下所示:
其中,相比于第一损失函数,D′X为新增的鉴别器。
循环一致损失的计算公式如下所示:
其中,||g||1表示L1范数,通过循环一致损失函数可以对解码器进行进一步约束,提高训练稳定性。
恒等变换损失的计算公式如下所示:
通过恒等变换损失函数可以保证在解码器的输出很接近真实样本数据输出的情况下,解码器参数的稳定。
散度损失函数的计算公式如下所示:
本实施例通过获取多个不同的损失函数,根据损失函数对预设转换模型进行约束及优化,使得最终得到预设转换模型为最优模型,保证了模型的性能及稳定性,进一步提高了通过该预设转换模型对情感语音数据中特征转换的精度。
在本申请的一些实施例中,上述根据根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数包括:
获取所述循环一致损失函数的第一约束值,以及所述恒等变换损失函数的第二约束值,根据所述第一约束值和所述第二约束值,分别计算所述循环一致损失函数的第一损失值和所述恒等变换损失函数的第二损失值;
对所述第一对抗损失函数、所述第二对抗损失函数、所述第一损失值、所述第二损失值和所述散度损失函数进行求和,计算得到所述最优损失函数。
在本实施例中,在根据获取到的各个损失函数对最终模型的损失函数(即最优损失函数)进行计算时,还可以预先获取其中循环一致损失函数的第一约束值和恒等变换损失函数的第二约束值。第一约束值和第二约束值为分别预设的权重值,将该第一约束值与循环一致损失函数相乘得到第一损失值,将该第二约束值与恒等变换损失函数相乘得到第二损失值。对获取到的第一对抗损失函数、第二对抗损失函数、第一损失值、第二损失值和散度损失函数进行求和,则计算得到预设转换模型的最优损失函数。该最优损失函数的计算公式如下所示:
L=Ladv+Ladv2+λcycLcyc+λidLid+LKL
其中,第一对抗损失函数为Ladv,第二对抗损失函数为Ladv2,循环一致损失函数为Lcyc,恒等变换损失函数为Lid,散度损失函数为LKL,λcyc和λid分别为第一约束值和第二约束值。
本实施例通过获取第一约束值和第二约束值对损失函数进行约束,使得计算得到最终的损失函数更加精确,进一步提高了对预设转换模型的优化效果。
在本申请的一些实施例中,上述通过线性变换将所述第一基频转换为第二基频包括:
计算所述源情感语音数据的基频均值和基频标准差;
基于所述第一基频、所述基频均值和所述基频标准差,计算得到所述第一基频对应的所述第二基频。
在本实施例中,在将第一基频转换为第二基频时,需要计算源情感语音数据的基频均值和基频标准差,根据该第一基频、基频均值和基频标准差,计算得到第二基频。由此,即得到该第一基频线性转换后的第二基频。该第二基频的计算公式如下所示:
其中,fsrc、μsrc、σsrc分别为源情感语音数据的第一基频、基频均值和基频标准差,ftrg、μtrg、σtrg分别为目标情感数据的第二基频、目标基频均值和目标基频标准差。
本实施例通过对源情感语音数据的基频均值和基频标准差进行获取,实现了对源情感语音数据的第一基频的线性转换,节省了平行语料的处理过程,提高了情感语音数据的转换效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种情感语音数据转换装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的情感语音数据转换装置500包括:提取模块501、转换模块502和生成模块503。其中,
提取模块501,用于获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
其中,提取模块包括:
第一计算单元,用于计算所述源情感语音数据的基频均值和基频标准差;
第二计算单元,用于基于所述第一基频、所述基频均值和所述基频标准差,计算得到所述第一基频对应的所述第二基频。
在本实施例中,源情感语音数据为预先采集的同一说话人的情感语音数据,通过预设的声码器可以对该源情感语音数据进行声学特征的提取,得到源情感语音数据对应的声学特征。其中,声学特征包括第一基频、非周期数据和第一梅尔倒谱系数,第一基频是指自由振荡系统的最低振荡频率,复合波中的最低频率,非周期数据是指源情感语音数据的非周期信号对应的数据,第一梅尔倒谱系数是指源情感语音数据在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。
转换模块502,用于通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
其中,转换模块502包括:
编码单元,用于获取所述源情感语音数据的情感标签,输入所述情感标签至所述编码器,得到情感信息表征,输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征;
解码单元,用于输入所述情感信息表征和所述内容信息表征至所述解码器,得到所述第一梅尔倒谱系数对应的待测梅尔倒谱系数;
判别单元,用于基于所述判别器确定所述待测梅尔倒谱系数是否为真实样本数据输出,在确定所述待测梅尔倒谱系数为所述真实样本数据输出时,确定所述待测梅尔倒谱系数为所述第二梅尔倒谱系数。
其中,编码单元包括:
编码子单元,用于对所述情感标签进行独热编码得到独热矢量;
第一输出子单元,用于将所述独热矢量输入至所述编码器中的嵌入层,所述嵌入层输出得到所述情感信息表征。
第二输出子单元,用于根据所述编码器对所述第一梅尔倒谱系数进行多层卷积处理,得到所述内容信息表征。
在本实施例中,在得到源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数时,通过线性变换将该第一基频转换为第二基频,第二基频即为目标情感数据的基频。对于第一梅尔倒谱系数则通过预设转换模型进行转换,其中,预设转换模型为预先设定的转换模型,采用的是一种VAE-GAN(Variational autoencoder-Generative AdversarialNetworks,变分自编码器-生成对抗网络)结构,包括编码器、解码器和判别器;其中,VAE中的解码器也可以看作是GAN中的生成器。具体地,编码器和解码器均由多个残差块级联组成,解码器和判别器中残差块具有相同的结构和不同的参数,判别器则为一个两类的分类器。通过该预设转换模型中的编码器对该第一梅尔倒谱系数进行编码处理得到当前源情感语音数据对应的内容信息表征和情感信息表征,而后通过解码器对该内容信息表征和情感信息表征进行解码处理则得到第一梅尔倒谱系数转换后的待测梅尔倒谱系数,之后通过判别器对待测梅尔系数是否为真实样本数据输出进行判断,若是,则确定待测梅尔倒谱系数为第一梅尔倒谱系数转换后的第二梅尔倒谱系数。如图3所示,图3为预设转换模型的结构示意图。
除此之外,对于通过声码器得到的源情感语音数据的非周期数据,由于该非周期数据对情感的转换几乎不造成影响,则不对该非周期数据进行转换处理,在目标情感数据合成的过程中可直接使用源情感语音数据的非周期数据。
生成模块503,用于基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
在得到第二基频和第二梅尔倒谱系数时,则基于预设的声码器对该第二基频、第二梅尔倒谱系数和非周期数据进行语音合成,得到目标情感数据。具体地,在获取到第二基频、第二梅尔倒谱系数和非周期数据时,将该第二基频、第二梅尔倒谱系数和非周期数据输入至声码器中,基于声码器中的源-滤波器经过傅里叶变换和自适应插值处理,合成目标情感数据,该目标情感数据即为源情感语音数据对应的转换后的情感数据。
需要强调的是,为进一步保证上述目标情感数据的私密和安全性,上述目标情感数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例所述的情感语音数据转换装置还包括:
获取模块,用于获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数;
计算模块,用于根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数,当所述最优损失函数取最小值时,确定所述预设转换模型为最优模型。
其中,计算模块包括:
第三计算单元,用于获取所述循环一致损失函数的第一约束值,以及所述恒等变换损失函数的第二约束值,根据所述第一约束值和所述第二约束值,分别计算所述循环一致损失函数的第一损失值和所述恒等变换损失函数的第二损失值;
第四计算单元,用于对所述第一对抗损失函数、所述第二对抗损失函数、所述第一损失值、所述第二损失值和所述散度损失函数进行求和,计算得到所述最优损失函数。
在本实施例中,在基于预设转换模型将第一梅尔倒谱系数转换为第二梅尔倒谱系数之前,还可以通过调整损失函数对预设转换模型进行优化,使得得到的预设转换模型为最优模型。具体地,损失函数为机器学习中用来评估模型的预测值与真实值的不一致程度,损失函数越小,则模型的鲁棒性越好,通过损失函数能够指导模型学习。获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数,根据第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数进行加权求和,即可计算得到预设转换模型的最优损失函数。在该最优损失函数取最小值时,确定该预设转换模型为最优模型。
第一损失函数的计算公式如下所示:
其中,X为源声学特征序列(即第一梅尔倒谱系数),Y为目标声学特征序列(即第二梅尔倒谱系数),DY为对抗生成网络中的鉴别器,GX→Y为生成器,E(*)为分布函数的期望值,y~PY(y)为真实数据,PY(y)为真实样本的分布,PX(x)在低维度的噪声分布,x~PX(x)为随机噪声。
第二损失函数为新增的损失函数,通过该第二损失函数可以减轻过平滑效应,计算公式如下所示:
其中,相比于第一损失函数,D′X为新增的鉴别器。
循环一致损失的计算公式如下所示:
其中,||g||1表示L1范数,通过循环一致损失函数可以对解码器进行进一步约束,提高训练稳定性。
恒等变换损失的计算公式如下所示:
通过恒等变换损失函数可以保证在解码器的输出很接近真实样本数据输出的情况下,解码器参数的稳定。
散度损失函数的计算公式如下所示:
本实施例提出的情感语音数据转换装置,实现了在不需要使用平行语料的情况下,对情感语音数据的高效转换,节省了情感语音数据转换时长,提升了情感转换的相似度和说话人的相似度,进一步提升了情感语音数据转换后的语音音质。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如情感语音数据转换方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述情感语音数据转换方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本实施例提出的计算机设备,实现了在不需要使用平行语料的情况下,对情感语音数据的高效转换,节省了情感语音数据转换时长,提升了情感转换的相似度和说话人的相似度,进一步提升了情感语音数据转换后的语音音质。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有情感语音数据转换程序,所述情感语音数据转换程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的情感语音数据转换的步骤。
本实施例提出的计算机可读存储介质,实现了在不需要使用平行语料的情况下,对情感语音数据的高效转换,节省了情感语音数据转换时长,提升了情感转换的相似度和说话人的相似度,进一步提升了情感语音数据转换后的语音音质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种情感语音数据转换方法,其特征在于,包括下述步骤:
获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
2.根据权利要求1所述的情感语音数据转换方法,其特征在于,所述预设转换模型包括编码器、解码器和判别器,所述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数的步骤包括:
获取所述源情感语音数据的情感标签,输入所述情感标签至所述编码器,得到情感信息表征,输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征;
输入所述情感信息表征和所述内容信息表征至所述解码器,得到所述第一梅尔倒谱系数对应的待测梅尔倒谱系数;
基于所述判别器确定所述待测梅尔倒谱系数是否为真实样本数据输出,在确定所述待测梅尔倒谱系数为所述真实样本数据输出时,确定所述待测梅尔倒谱系数为所述第二梅尔倒谱系数。
3.根据权利要求2所述的情感语音数据转换方法,其特征在于,所述输入所述情感标签至所述编码器,得到情感信息表征的步骤包括:
对所述情感标签进行独热编码得到独热矢量;
将所述独热矢量输入至所述编码器中的嵌入层,所述嵌入层输出得到所述情感信息表征。
4.根据权利要求2所述的情感语音数据转换方法,其特征在于,所述输入所述第一梅尔倒谱系数至所述编码器,得到内容信息表征的步骤包括:
根据所述编码器对所述第一梅尔倒谱系数进行多层卷积处理,得到所述内容信息表征。
5.根据权利要求1所述的情感语音数据转换方法,其特征在于,在所述基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数的步骤之前,包括:
获取第一对抗损失函数、第二对抗损失函数、循环一致损失函数、恒等变换损失函数和散度损失函数;
根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数,当所述最优损失函数取最小值时,确定所述预设转换模型为最优模型。
6.根据权利要求5所述的情感语音数据转换方法,其特征在于,所述根据所述第一对抗损失函数、所述第二对抗损失函数、所述循环一致损失函数、所述恒等变换损失函数和所述散度损失函数,计算所述预设转换模型的最优损失函数的步骤包括:
获取所述循环一致损失函数的第一约束值,以及所述恒等变换损失函数的第二约束值,根据所述第一约束值和所述第二约束值,分别计算所述循环一致损失函数的第一损失值和所述恒等变换损失函数的第二损失值;
对所述第一对抗损失函数、所述第二对抗损失函数、所述第一损失值、所述第二损失值和所述散度损失函数进行求和,计算得到所述最优损失函数。
7.根据权利要求1所述的情感语音数据转换方法,其特征在于,所述通过线性变换将所述第一基频转换为第二基频的步骤包括:
计算所述源情感语音数据的基频均值和基频标准差;
基于所述第一基频、所述基频均值和所述基频标准差,计算得到所述第一基频对应的所述第二基频。
8.一种情感语音数据转换装置,其特征在于,包括:
提取模块,用于获取源情感语音数据,基于预设的声码器提取所述源情感语音数据的第一基频、非周期数据和第一梅尔倒谱系数;
转换模块,用于通过线性变换将所述第一基频转换为第二基频,基于预设转换模型将所述第一梅尔倒谱系数转换为第二梅尔倒谱系数,其中,所述预设转换模型为变分自编码器生成对抗网络结构;
生成模块,用于基于所述声码器对所述第二基频、所述第二梅尔倒谱系数和所述非周期数据进行傅里叶变换和自适应插值处理,得到目标情感数据。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的情感语音数据转换方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的情感语音数据转换方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011364366.9A CN112466314A (zh) | 2020-11-27 | 2020-11-27 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
PCT/CN2021/083126 WO2022007438A1 (zh) | 2020-11-27 | 2021-03-26 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011364366.9A CN112466314A (zh) | 2020-11-27 | 2020-11-27 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112466314A true CN112466314A (zh) | 2021-03-09 |
Family
ID=74809260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011364366.9A Withdrawn CN112466314A (zh) | 2020-11-27 | 2020-11-27 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112466314A (zh) |
WO (1) | WO2022007438A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178201A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 基于无监督的语音转换方法、装置、设备及介质 |
CN113327573A (zh) * | 2021-05-28 | 2021-08-31 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113380264A (zh) * | 2021-05-21 | 2021-09-10 | 杭州电子科技大学 | 一种用于非对称语料的语音转换方法 |
CN113421576A (zh) * | 2021-06-29 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备以及存储介质 |
CN113555027A (zh) * | 2021-07-26 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音情感转换方法、装置、计算机设备及存储介质 |
WO2022007438A1 (zh) * | 2020-11-27 | 2022-01-13 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
CN114283825A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270987B (zh) * | 2022-08-08 | 2023-11-07 | 中国电信股份有限公司 | 视觉问答网络模型的训练方法、装置、设备以及存储介质 |
CN117877517B (zh) * | 2024-03-08 | 2024-05-24 | 深圳波洛斯科技有限公司 | 基于对抗神经网络的环境音生成方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211563A (zh) * | 2019-06-19 | 2019-09-06 | 平安科技(深圳)有限公司 | 面向情景及情感的中文语音合成方法、装置及存储介质 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101014321B1 (ko) * | 2009-02-24 | 2011-02-14 | 한국전자통신연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
WO2017048730A1 (en) * | 2015-09-14 | 2017-03-23 | Cogito Corporation | Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices |
JP6922284B2 (ja) * | 2017-03-15 | 2021-08-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN109671423B (zh) * | 2018-05-03 | 2023-06-02 | 南京邮电大学 | 训练数据有限情形下的非平行文本语音转换方法 |
CN108597496B (zh) * | 2018-05-07 | 2020-08-28 | 广州势必可赢网络科技有限公司 | 一种基于生成式对抗网络的语音生成方法及装置 |
CN109346087B (zh) * | 2018-09-17 | 2023-11-10 | 平安科技(深圳)有限公司 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
KR102655628B1 (ko) * | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN109326283B (zh) * | 2018-11-23 | 2021-01-26 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN110060701B (zh) * | 2019-04-04 | 2023-01-31 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110060691B (zh) * | 2019-04-16 | 2023-02-28 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
CN110085263B (zh) * | 2019-04-28 | 2021-08-06 | 东华大学 | 一种音乐情感分类和机器作曲方法 |
CN111161740A (zh) * | 2019-12-31 | 2020-05-15 | 中国建设银行股份有限公司 | 意图识别模型训练方法、意图识别方法以及相关装置 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-27 CN CN202011364366.9A patent/CN112466314A/zh not_active Withdrawn
-
2021
- 2021-03-26 WO PCT/CN2021/083126 patent/WO2022007438A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211563A (zh) * | 2019-06-19 | 2019-09-06 | 平安科技(深圳)有限公司 | 面向情景及情感的中文语音合成方法、装置及存储介质 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
CAO YUEXIN: "Nonparallel Emotional Speech Conversion Using VAE-GAN", INTERSPEECH 2020 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022007438A1 (zh) * | 2020-11-27 | 2022-01-13 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
CN113178201A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 基于无监督的语音转换方法、装置、设备及介质 |
CN113380264A (zh) * | 2021-05-21 | 2021-09-10 | 杭州电子科技大学 | 一种用于非对称语料的语音转换方法 |
CN113327573A (zh) * | 2021-05-28 | 2021-08-31 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113421576A (zh) * | 2021-06-29 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备以及存储介质 |
CN113421576B (zh) * | 2021-06-29 | 2024-05-24 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备以及存储介质 |
CN113555027A (zh) * | 2021-07-26 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音情感转换方法、装置、计算机设备及存储介质 |
CN113555027B (zh) * | 2021-07-26 | 2024-02-13 | 平安科技(深圳)有限公司 | 语音情感转换方法、装置、计算机设备及存储介质 |
CN114283825A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022007438A1 (zh) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
CN112633003B (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN112084752B (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112634919A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
CN112699213A (zh) | 语音意图识别方法、装置、计算机设备及存储介质 | |
CN113314150A (zh) | 基于语音数据的情绪识别方法、装置及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN114495977A (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN113421554B (zh) | 语音关键词检测模型处理方法、装置及计算机设备 | |
CN113035230B (zh) | 认证模型的训练方法、装置及电子设备 | |
CN113420869B (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN114999442A (zh) | 一种基于元学习的自适应文字转语音方法及其相关设备 | |
CN115242927A (zh) | 客服对象分配方法、装置、计算机设备及存储介质 | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN113936677A (zh) | 音色转换方法、装置、计算机设备及存储介质 | |
CN113870887A (zh) | 单通道语音增强方法、装置、计算机设备及存储介质 | |
CN113990348A (zh) | 基于神经网络的语音端点检测方法、装置、设备及介质 | |
CN113160795B (zh) | 语种特征提取模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210309 |