CN111108557A - 修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质 - Google Patents
修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111108557A CN111108557A CN201880060714.8A CN201880060714A CN111108557A CN 111108557 A CN111108557 A CN 111108557A CN 201880060714 A CN201880060714 A CN 201880060714A CN 111108557 A CN111108557 A CN 111108557A
- Authority
- CN
- China
- Prior art keywords
- base
- style
- audio signal
- signal
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 161
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 9
- 238000009877 rendering Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013530 stochastic neural network Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Machine Translation (AREA)
Abstract
用于修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质。本公开涉及一种用于处理输入音频信号的方法。根据实施例,该方法包括获得作为输入音频信号的副本的基础音频信号并从该基础信号生成输出音频信号,该输出音频信号具有通过修改该基础信号而获得的风格特征,使得代表基础信号的风格的基础风格特征和参考风格特征之间的距离减小。本公开还涉及对应电子装置、计算机可读程序产品和计算机可读存储介质。
Description
技术领域
本公开涉及风格转移的技术领域。
描述了一种用于修改音频对象的风格的方法、以及对应的电子装置、计算机可读程序产品和计算机可读存储介质。
背景技术
对象的“风格”在本文中可以被定义为允许将对象分组到相关类别中的独特的方式,或者可以被定义为其中执行动作或制作人造制品的任何独特的、因此是可识别的方式。例如,在艺术领域,它可以指绘画、唱歌、音乐流派、或更一般地说可以归因于给定的艺术家、给定的文化群体或艺术潮流的创作的方式。风格可以通过使得该风格可识别的独特特性来表征。例如,在绘画中,特性可以是蓝色(例如克莱因)或笔触(brush stoke)(例如梵高)。
风格转移(transfer)是按照对象的风格类似于给定示例的风格的方式来对该对象进行转换的任务。
例如,这类计算方法在电影后期制作中特别有用,其中人们可以在不同的“风格参数”下生成同一场景的不同表现形式(renditions)。特别地,在图像处理技术领域中,它正变得越来越为公众使用。例如,某些解决方案可以允许以保留原始照片的内容的方式对照片进行转换,同时赋予其归因于著名画家的格调(touch)或风格。结果图像例如可以保持原始照片中存在的人物的脸,同时合并如某些梵高画作那样的笔触。
一些现有技术的解决方案已试图将适用于图像的现有解决方案扩展到音频处理的技术领域。但是,使用这些现有解决方案并不能带来令人满意的结果。
令人感兴趣的是,提出用于提议转移风格工艺(technics)的有效技术,该技术适用于除图像处理之外的其他技术领域。
发明内容
本原理提出了一种用于处理至少一个输入音频信号的方法。
根据本公开的至少一个实施例,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础音频信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种电子装置,该电子装置包括至少一个存储器、和被配置用于共同处理至少一个输入音频信号的一个或几个处理器。
根据本公开的至少一个实施例,所述处理包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种非瞬时计算机可读程序产品,其包括当所述软件程序由计算机运行时、在其任何实施例中、用于执行本公开的方法的程序代码指令。
根据本公开的至少一个实施例,所述非瞬时计算机可读程序产品包括程序代码指令,该程序代码指令用于在计算机运行所述非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种计算机可读取的非瞬时程序存储装置。
根据本公开的至少一个实施例,本公开涉及一种非瞬时程序存储装置,其携带软件程序,该软件程序包括程序代码指令,用于当所述软件程序由计算机运行时,在其任何实施例中执行本公开的方法。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,该程序代码指令用于在计算机运行所述非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种携带软件程序的计算机可读存储介质。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,该程序代码指令用于在计算机运行所述软件程序时,在其任何实施例中执行本公开的方法。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,用于在计算机运行所述非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
附图说明
通过阅读以下描述,将更好地理解本公开,并且将出现其他具体特征和优点,该描述参考了附图,其中:
-图1图示了示例性音频风格转移系统的简化工作流程;
-图2示出了内容声音、风格声音和结果声音的频谱图的示例;
-图3示出了可根据本公开的至少一个实施例使用的用于获得生物推动的音频特征的听觉模型的示例;
-图4示出了可以根据本公开的至少一个实施例使用的用于获得音频特征的神经网络的示例;
-图5A是图示了本公开的方法的第一示例性实施例的功能图;
-图5B是图示了本公开的方法的第二示例性实施例的功能图;
-图6图示了根据本公开的至少一个示例性实施方式的电子装置。
要注意的是,附图仅具有说明性目的,并且本公开的实施例不限于图示的实施例。
具体实施方式
本公开的至少一些原理涉及修改输入音频对象的风格。
音频对象可以是例如音频和/或视听流或内容,例如一个或几个声音产生源的音频记录和/或音频和视频记录。
所述至少一个声音产生源可以是多种类型的。例如,音频对象可以包括音频记录,包括人类的声音、人类活动产生的声音(如使用工具(例如锤子)、动物的声音、自然元素产生的声音(如波浪、雨、暴风雨、瀑布、风、岩滴……)。
特别是,音频对象的音频分量可以是几种声音产生源的混合。
为了简单起见,在下文中结合音频对象的音频分量(其是音频和/或视听类型之一)详细描述本公开。音频分量在下文中也称为“音频信号”,或更简单地称为“声音”。
图1图示了根据本公开的至少一个实施例的示例性音频风格转移系统的简化工作流程。
在至少一个实施例中,本公开旨在基于至少一个其他音频信号或“输入声音”而生成至少一个输出音频信号或“输出声音”。在至少一个实施例中,所述生成还可以考虑参考音频信号。可选地,所述生成还可以包括获得要在输出音频对象中包括的至少一个附加元素,例如音频和/或可视分量或元数据。取决于实施例,可以从输入音频对象或从要使用其风格的音频对象或从另一源获得这样的附加元素。例如,可以将附加分量或元数据与输出音频声音及时地同步。
更具体地,在本公开的至少一些实施例中,与第一“输入”声音(因此被称为“内容声音”)的结构相关的特性(至少部分地)保留在输出声音中。与第二“参考”声音(以下称为“风格声音”)的纹理相关的特性应相等地保持(至少部分地)。
对于音频信号,纹理在本文中特别包含小时间尺度上的重复图案,这些图案在此处所谓的“风格”中起主要作用。
结构尤其是指较长的时间元素,这些时间元素使音频信号捕获大多数高级含义,即“内容”。
作为示例,在其中内容声音和风格声音两者都是语音的一些实施例中,要在内容声音中保留的特性可以包括语音的单词(语音的含义)、音调和/或响度,而是从风格内容中转移的特性可与风格声音的口音有关,例如品质(timber)、节拍和节奏。
要注意的是,取决于实施例,可以将音频信号的一些特性视为“内容”特征或“风格”特征。例如,在其中内容声音和风格声音两者都是语音的一些其他实施例中,这可以是例如用于诸如音调和/或响度的特性的情况。
在一些实施例中,例如,如在下文中详细说明的一些实施例中那样,可以通过从“风格”声音中提取有意义的特性(即特征)并将它们逐渐地合并到从“内容”声音导出的声音信号中,来执行风格声音的风格的转移。
另一实施例可以涉及从每个内容和风格声音中提取有意义的特性(即特征),并通过例如优化过程生成输出声音,该输出声音的特征(准确地或紧密地)对应于从内容和风格声音两者中提取的有意义的特性。
本公开的一些实施例可以应用于消费者应用和专业声音设计两者的音频操纵和编辑的技术领域。
在专业内容编辑的技术领域中(例如在配音和翻译行业中),本公开的示例性使用情况可以包括将人声的口音或音调转换为不同的口音或音调。这种使用情况对于内置于例如智能电话或TV中的消费者应用也可以有益(of interest)。在电影制作技术领域中的另一使用情况可以包括将人声变换为仍然是一类人声(例如具有可理解的语音)、但具有从吠叫(barking)记录中获得的风格的输出声音。根据另一使用情况,内容语音可以被变换为输出语音,该输出语音可以被听成好像它是由已经说过该内容语音的人之外的人(以风格声音说话)所说的一样。
另一示例性使用情况可以涉及音乐操纵的技术领域。例如,可以通过在输出声音中保持在第一“内容”声音中播放、但是好像它们由第二乐器弹奏一样的音符,而从第一乐器的声音(用作内容声音)和第二不同的乐器的声音(用作风格声音)来生成输出声音(或风格声音)。这样的解决方案可以使音乐制作更加轻松和非常有趣。
本公开的至少一些实施例也可以在与在线图像服务(包括社交网络和消息传递)相关的消费者应用中使用。
图6描述了可以被特别配置以执行本公开的方法的一个或几个实施例的电子装置60的结构。
该电子装置可以是任何音频获取装置或音频和视频内容获取装置,例如智能电话或麦克风。它也可以是不具有任何音频和/或视频获取功能但具有音频处理功能和/或音频和视频处理功能的装置。在一些实施例中,电子装置可以包括通信接口,例如适于接收音频和/或视频流、尤其是根据本公开的方法要处理的参考(或风格)音频对象或输入音频对象的接收接口。该通信接口是可选的。实际上,在一些实施例中,电子装置可以处理在电子装置可读取的介质中存储的、由电子装置先前接收或获取的音频对象。
在图6的示例性实施例中,电子装置60可以包括经由数据和地址总线600链接在一起的不同装置,这些装置也可以携带定时器信号。例如,它可以包括微处理器61(或CPU)、图形卡62(取决于实施例,该卡可能是可选的)、ROM(或《只读存储器》)65、RAM(或《随机存取存储器》)66、至少一个输入/输出音频模块64(如麦克风、扬声器等)。该电子装置还可以包括至少一个其他输入/输出模块(如键盘、鼠标、发光二极管等)。
在图6的示例性实施例中,电子装置还可以包括至少一个通信接口67,该通信接口67被配置用于经由无线连接(特别是类型为或)、至少一个有线通信接口68、电源69的数据(特别是音频和/或视频数据)的接收和/或传送。这些通信接口是可选的。
在一些实施例中,电子装置60还可以包括、或连接到通过专用总线620直接连接到图形卡62的显示模块63,例如屏幕。
可以例如使用输入/输出音频模块64、以及可选的显示模块,以便输出信息,如结合下文描述的本公开的方法的渲染步骤所描述的。
在所示的实施例中,由于无线接口67,所以电子装置60可以与服务器(例如,一组(bank)参考音频样本或音频和视频样本的提供者)通信。
所提到的存储器中的每一个可以包括至少一个寄存器,即低容量(少数二进制数据)或高容量(特别是具有存储整个音频和/或视频文件的能力)的存储区。
当电子装置60通电时,微处理器61将程序指令660(特别是执行本文所述方法的至少一个实施例所需的程序指令)加载到RAM 66的寄存器中,并运行该程序指令。
根据变型,电子装置60包括几个微处理器。
根据另一变体,电源69在电子装置60的外部。
在图6所示的示例性实施例中,微处理器61可以被配置用于处理至少一个输入音频信号,所述处理包括:
-通过考虑至少一个参考风格特征来优化至少一个基础信号,从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,所述处理包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础音频信号生成至少一个输出音频信号,所述输出音频信号具有通过修改所述基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的基础风格特征和至少一个参考风格特征之间的距离减小。
本公开的方法的至少一个实施例涉及基于示例的风格转移。目标是将例如代表至少一个音频信号(此处也称为风格声音)的某种“风格”特征(或参考风格特征)转换为另一音频信号(此处称为内容声音),以便创建结果音频信号(在此称为风格、结果或输出声音)。
图2示出了由于本公开的方法的一些实施例的可以从内容声音和风格声音中获得的内容声音(左)、风格声音(中)和结果声音(右)的频谱图的示例。
图5A描述了本公开的方法的第一示例性实施例。在所描述的示例性实施例中,该方法可以是无监督的方法,其不需要训练阶段。
在图5A所示的示例性实施例中,方法500可以包括获得520输入音频对象和获得510参考音频对象。
可以特别地至少部分地通过例如与用户交互(例如,由于图6的电子装置60的用户界面)或者通过与存储单元或通信单元(例如图6的电子装置60的存储单元和/或通信单元)交互,来执行该获得。
在图5A所示的示例性实施例中,该方法500可以包括获得520输入音频对象和获得510参考音频对象。该方法还可以包括:从输入音频对象获得522音频分量,以及从参考音频对象获得512音频分量。取决于输入和/或参考音频对象的性质,输入和/或参考音频对象的获得、以及对应的音频分量的获得可以是单个步骤。
输入音频对象的音频分量可以是例如吉他曲,而参考(或示例)音频对象(定义要在输入对象上进行的更改)的音频分量可以是例如钢琴曲。
参考上述命名约定,在下文中将输入音频对象的音频分量称为“内容声音”,并且在下文中将参考音频对象的音频分量称为“风格声音”。
如图5A所示,该方法可以包括获得530至少一个风格特征(或风格特性)。在图5A所示的示例性实施例中,至少一个风格特征可以代表风格声音。特别是,至少一个风格特征可以例如通过由音频风格特征提取器组件(或框)1000从风格声音中提取出来,如图1所示。取决于实施例,实现这种音频风格特征提取器组件的方式可以变化。特别是,在一些实施例中,可以通过使用一些音频处理技术(例如,音频合成技术)来实现音频风格特征提取器组件。例如,在所示的实施例中,可以通过使用音频处理技术来实现音频风格特征提取器组件,该音频处理技术提取从子带、包络和/或调制波段计算出的诸如统计量的特征(即,均值、方差、高阶统计量等)。这样的音频处理技术的示例可以包括至少部分基于由乔希·H·麦克德莫特(Josh H.McDermott)公开的并且全部在文献“Sound texture perception viastatistics of the auditory periphery:Evidence fromsound synthesis,”Neuron,vol.71,no.5,pp.926–940,2011中的生物学激励的音频处理系统(例如图3所示的示例性系统所示)的音频处理技术。
根据图3,首先在第一层(第1层)中通过K个子带滤波器(例如K=10,K=20,K=30,K=40或K=50)调制输入音频信号(内容声音或风格声音)。第二层(第2层)为了其他统计量计算这些子带信号的包络。在上层(例如,层3)进行进一步的调制。例如,来自这三层的所有统计量都可以用于风格损耗(在下文中介绍)。
在其他实施例中,可以通过使用针对音频分类任务而训练的深度神经网络(DNN),来实现音频风格特征提取器组件。
在其他实施例中,可以通过使用非训练神经网络来实现音频风格特征提取器组件(如图4的示例性目的所示)。图4示出了可根据本公开的至少一个实施例使用的用于获得音频特征的神经网络的示例,该神经网络例如是非训练神经网络或随机神经网络。在这样的实施例中,可以随机地定义神经网络的权重。
风格对象的获得510和/或风格声音的获得520可以是可选的。实际上,在一些实施例中,可以从存储介质读取风格特征,或从通信接口接收风格特征。例如,可以连续使用相同的风格特征用于处理几个内容声音。特别是,可能已经根据参考风格音频对象和/或参考风格声音,而先前获得(或确定)风格特征。
在一些实施例中,在从参考风格音频对象中先前提取了风格特征之后,可以从自存储介质读取或从通信接口接收的参考风格声音获得风格特征。
在图5A所示的示例性实施例中,该方法可以包括通过优化550基础声音来生成期望的“风格”声音。取决于实施例,获得基础声音的方式可以不同。特别是,根据图5A,该方法可以包括通过复制内容声音来获得540基础信号。
在所描述的示例性实施例中,优化还可以包括从基础声音获得552至少一个风格特征(特性)。至少一个风格特征可以例如通过音频风格特征提取器组件(或框)2000从基础声音中提取出来,如图1所示。关于用于获得风格声音的风格特征的风格特征提取器,用于获得基础声音的风格特征所使用的风格特征提取器可以取决于实施例而变化。与用于风格声音所使用的风格特征提取器组件1000关联引用的示例性实施例也可以应用到用于基础声音的音频风格特征提取器组件2000。
特别是,在一些实施例中,可以通过单个风格特征提取器组件来获得基础声音和风格声音的风格特征。
在其他实施例中,可以通过两个不同或相同(或几乎相同)的风格特征提取器获得它们。特别是,在至少一些实施例中,从基础声音中提取的风格特征中的至少一些可以与从内容声音中提取的风格特征中的至少一个相同类型的特征相关。例如,可以对于两种声音使用基于相同统计量的特征。
在图5A所示的示例性实施例中,该方法可以包括将风格声音的风格特征中的至少一个与基础声音的风格特征的至少一个对应特征进行比较554。如图1所示,该比较可以特别包括计算3000风格损耗。例如,可以通过评估从内容声音提取的风格特征的统计量与从风格声音提取的风格特征的统计量之间的距离(例如欧几里得距离),来计算风格损耗。
在图5A所示的示例性实施例中,该方法可以包括通过考虑比较554的结果,来修改556基础信号。例如,可以以允许减小风格损耗的方式来执行修改。
如图5A和1所示,可以迭代执行优化‘(550,4000)。实际上,在一些实施例中,由于连续的迭代,因此优化可以允许将基础声音逐渐转换为具有风格声音的风格的输出声音。优化的这种迭代可以例如基于梯度下降方法,并且可以包括使得损耗函数最小化。该损耗函数可以例如是从比较554(并且在图1的框3000中计算出)导致的风格损耗。
取决于实施例,可以使用不同的停止标准用于结束优化的迭代。例如,优化可以迭代直到损耗函数达到某个值,例如直到损耗函数达到低于用作阈值的第一值的值为止。取决于实施例,该阈值第一值可以变化。例如,第一值可以被定义为损耗函数的目标绝对值,或者被定义为损耗函数的初始值的百分比。例如,在一些实施例中,第一值可以是范围[0;20]中的损耗函数的初始值的百分比,例如初始值的2%、5%、10%、15%。
如图5A所示,该方法可以包括渲染560参考、输入和/或输出可视对象的至少一部分。取决于实施例,并且对于音频输入和/或参考对象的性质(以及因此所得到的输出对象的性质),其仅是音频类型和/或包括视频分量,渲染可以是多种多样的。特别地,它可以包括例如通过扬声器在音频输出接口上输出音频对象的音频分量。它还可以包括在其中执行本公开的方法的装置上的显示器上至少部分地显示音频对象的视频分量、和/或在特定伴奏(support)上存储以上信息中的至少一个。此渲染是可选的。
图5B描述了本公开的方法的第二示例性实施例。如图5B所示,在第二示例性实施例中,方法500可以包括获得520输入音频对象,获得510参考音频对象,以及从输入音频对象和参考音频对象获得522、512音频分量。在图5B的实施例中,该方法还可以包括从风格声音获得530至少一个风格特征(特性)。那些步骤510、512、520、522和520可以与上面已经与图5A关联描述的那些步骤类似地执行。特别是,获得风格对象和获得风格声音可以是可选的。
在图5B所示的示例性实施例中,该方法可以进一步包括从内容声音获得524至少一个内容特征(特性)。至少一个内容特征可以例如通过音频内容特征提取器组件从内容声音中提取。关于用于获得风格声音的风格特征的风格特征提取器,用于获得内容声音的内容特征所使用的内容特征提取器可以取决于实施例而变化。
特别是,在一些实施例中,可以通过适于输出不同种类的特征(例如,通过使用相同概念模型发布的不同层的输出)的单个特征提取器组件,来获得风格声音的风格特征和内容声音的内容特征。在其他实施例中,可以通过适于输出相同种类的特征(包括风格和内容特征)的两个相似的特征提取器组件,来获得风格声音的风格特征和内容声音的内容特征。在其他实施例中,可以通过输出不同种类的特征(例如风格或内容特征)的两个不同的特征提取器组件,来获得风格声音的风格特征和内容声音的内容特征。例如,在所示的实施例中,两个特征提取器组件可以通过使用单个特征提取器来实现,所述单个特征提取器使用例如至少部分地基于生物学激励的音频处理系统的音频处理技术,如图3的示例性目的所示。
在其他实施例中,可以通过使用不同的技术来实现风格特征提取器和内容特征提取器组件。
根据图5B,该方法可以包括从获得的风格特征和获得的内容特征获得570目标特征集。
该方法还可以包括通过优化590基础声音来生成期望的“风格化”声音。优化590可以包括通过如在图5A所示的实施例中复制内容声音、或随机信号、或具有数字值的给定图案(例如仅具有“0”值、或者仅具有“1”值)的信号,来获得580基础声音。优化可以包括获得592与基础信号相关的风格和内容特征,所述风格和内容特征中的至少一个与目标特征中的至少一个具有相同的类型。在所描述的示例性实施例中,然后可以与结合图5A描述的那些类似地执行优化,除了优化590可以包括在目标特征与从基础信号获得的风格和内容特征之间执行的比较594。优化590可以包括修改596,其可以与结合图5A所示的修改556所描述的那些类似地执行。
根据图5B,该方法还可以包括渲染560参考、输入和/或输出可视对象的至少一部分。可以与已经结合图5A描述的渲染类似地执行渲染。特别是,对于图5A所示的实施例,渲染是可选的。
在一些实施例中,输出音频对象可以包括视频分量。取决于实施例,该视频分量可以是输入音频对象或参考音频对象的视频分量的副本或改变版本,或者可以从输入音频对象和参考音频对象外部的视频内容获得。。
作为示例,输入音频对象可以是人声,参考音频对象可以包括波的视频和对应的波声音,而输出音频对象可以包括与从参考音频对象中提取的波的视频适时同步的、具有“波”风格的人声。
已经结合单个输入声音和单个风格声音主要描述了以上实施例。然而,本公开的一些实施例可以应用于几个输入声音和/或几个风格声音。例如,可以通过使用从来自几个不同音频对象或来自单个音频对象的实例发布的几个不同风格声音获得的风格特征,基于从来自几个不同音频对象或来自单个音频对象的实例发布的几个不同输入声音,来生成风格化(或输出)内容。例如,可以应用这样的实施例,以通过使用相同的风格特征用于处理音频分量,向电视系列的音频分量给予统一的“音频外观”。
已经结合代表至少一个音频信号的至少一个风格特征描述了以上实施例。在变型中,风格特征可以至少部分地代表除了音频信号之外的信号,例如包括至少一个图像的视频信号。可选地,获得至少一个参考风格特征(将作为用于风格转移的目标)可以包括转换除了音频信号之外的信号的至少一个参考风格特征。
如本领域技术人员将理解的,本原理的各方面可以实施为系统、方法或计算机可读介质。因此,本公开的方面可以采取硬件实施例、软件实施例(包括固件、驻留软件、微代码等)或组合软件和硬件方面的实施例的形式,这些实施例可以全部通常在本文中称为“电路”、“模块”或“系统”。此外,本原理的各方面可以采取计算机可读存储介质的形式。可以利用一个或多个计算机可读存储介质的任何组合。
计算机可读存储介质可以采取计算机可读程序产品的形式,其被包括在一个或多个计算机可读介质中,并在其上包括有计算机可运行的计算机可读程序代码。本文所使用的计算机可读存储介质被认为是给定在其中存储信息的固有能力以及提供从中检索信息的固有能力的非瞬时存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外、或半导体系统、设备或装置、或前述的任何合适的组合。
应当理解,尽管提供了本原理可应用到的计算机可读存储介质的更具体的示例,但是以下内容仅是本领域的普通技术人员容易理解的说明性而非穷尽性列表:便携式计算机软盘、硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EEPROM或闪存)、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述的任何合适的组合。
因此,例如,本领域技术人员将认识到,本文呈现的框图表示本原理的一些实施例的说明性系统组件和/或电路的概念图。类似地,将理解的是,任何流程图表、流程图、状态转变图、伪代码等表示可以实质上在计算机可读存储介质中表示并因此由计算机或处理器运行的各种处理,无论是否明确示出了这样的计算机或处理器。
尽管这里已经参考附图描述了说明性实施例,但是应当理解,本原理不限于那些精确的实施例,并且相关领域的普通技术人员可以在不背离本原理范围的情况下在其中进行各种改变和修改。所有这些改变和修改旨在被包括在所附权利要求中阐述的本原理的范围内。
本原理特别提出了一种用于处理至少一个输入音频信号的方法。
根据本公开的至少一个实施例,该方法包括:
-通过考虑至少一个参考风格特征优化至少一个基础信号,而从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,所述至少一个参考风格特征代表至少一个参考音频信号的风格。
根据本公开的至少一个实施例,所述优化可以迭代地执行。
根据本公开的至少一个实施例,所述优化包括获得代表基础信号的风格的至少一个基础风格特征,并且通过考虑参考风格特征和基础风格特征来修改基础信号。
根据本公开的至少一个实施例,该方法包括获得代表输入信号的内容的至少一个输入内容特征。
根据本公开的至少一个实施例,所述优化包括:获得代表基础信号的内容的至少一个基础内容特征,以及通过考虑输入内容特征和基础内容特征来修改基础信号。
根据本公开的至少一个实施例,获得参考风格特征、输入内容特征、基础风格特征、和基础内容特征中的至少一个包括:在神经网络中处理输入音频信号、参考音频信号、和基础音频信号中的至少一个。
根据本公开的至少一个实施例,获得参考风格特征、输入内容特征、基础风格特征、和基础内容特征中的至少一个包括:在生物学激励的音频处理系统中处理输入音频信号、参考音频信号、和基础音频信号中的至少一个。
根据本公开的至少一个实施例,该方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础音频信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据本公开的至少一个实施例,所述至少一个参考风格特征代表至少一个参考音频信号的风格。
根据本公开的至少一个实施例,修改至少一个基础信号考虑代表所述至少一个输入信号的内容的至少一个输入内容特征和代表所述至少一个基础信号的内容的至少一个基础内容特征之间的距离。
根据本公开的至少一个实施例,通过在至少一个神经网络中处理输入音频信号、至少一个参考音频信号和/或至少一个基础音频信号中的至少一个,来获得至少一个参考风格特征、至少一个输入内容特征、至少一个基础风格特征、和至少一个基础内容特征中的至少一个。
根据本公开的至少一个实施例,获得至少一个参考风格特征包括以下至少之一:
-所述至少一个参考音频信号的子带滤波;
-获得所述至少一个子带滤波后的参考音频信号的包络;
-调制所述获得的包络。
根据本公开的至少一个实施例,获得至少一个基础风格特征包括以下至少之一:
-所述至少一个基础信号的子带滤波;
-获得所述至少一个子带滤波后的基础信号的包络;
-调制所述获得的包络。
根据另一方面,本公开涉及一种电子装置,该电子装置包括至少一个存储器、和被配置用于共同处理至少一个输入音频信号的一个或几个处理器。
根据本公开的至少一个实施例,所述处理包括:
通过考虑至少一个参考风格特征优化至少一个基础信号,而从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,输入音频信号、参考音频信号和/或基础音频信号包括语音内容。
根据本公开的至少一个实施例,输入音频信号、参考音频信号和/或基础音频信号包括除了语音内容之外的音频内容。
根据本公开的至少一个实施例,从随机数字图案和/或重复数字图案获得基础音频信号。
根据本公开的至少一个实施例,从输入音频信号获得基础音频信号。
根据本公开的至少一个实施例,基础音频信号是输入音频信号的副本。
根据本公开的至少一个实施例,所述处理包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据本公开的至少一个实施例,至少一个输入音频信号和/或至少一个参考音频信号包括语音内容。
根据本公开的至少一个实施例,至少一个输入音频信号和/或至少一个参考音频信号包括除了语音内容之外的音频内容。
根据本公开的至少一个实施例,所述至少一个参考风格特征代表至少一个参考音频信号的风格。
根据本公开的至少一个实施例,修改至少一个基础信号代表所述至少一个输入信号的内容的至少一个输入内容特征和代表所述至少一个基础信号的内容的至少一个基础内容特征之间的距离。
根据本公开的至少一个实施例,通过在至少一个神经网络中处理至少一个输入音频信号、至少一个参考音频信号和/或至少一个基础音频信号中的至少一个,来获得至少一个参考风格特征、至少一个输入内容特征、至少一个基础风格特征、和至少一个基础内容特征中的至少一个。
根据本公开的至少一个实施例,获得至少一个参考风格特征包括以下至少之一:
·所述至少一个参考音频信号的子带滤波;
·获得所述至少一个子带滤波后的信号的包络;
·调制所述获得的包络。
根据本公开的至少一个实施例,获得至少一个基础风格特征包括以下至少之一:
-所述至少一个基础信号的子带滤波;
-获得所述至少一个子带滤波后的基础信号的包络;
-调制所述获得的包络。
根据另一方面,本公开涉及一种非瞬时计算机可读程序产品,该非瞬时计算机可读程序产品包括程序代码指令,该程序代码指令用于在软件程序由计算机运行时、在其任何实施例中执行本公开的方法。
根据本公开的至少一个实施例,所述非瞬时计算机可读程序产品包括程序代码指令,用于在计算机运行非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,该方法包括通过考虑至少一个参考风格特征优化至少一个基础信号,而从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,所述非瞬时计算机可读程序产品包括程序代码指令,用于在计算机运行非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,该方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种计算机可读取的非瞬时程序存储装置。
根据本公开的至少一个实施例,本公开涉及一种非瞬时程序存储装置,其携带软件程序,该软件程序包括程序代码指令,该程序代码指令用于在软件程序由计算机运行时、在其任何实施例中执行本公开的方法。
特别地,根据本公开的至少一个实施例,所述软件程序包括程序代码指令,该程序代码指令用于在计算机运行非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,该方法包括::
-通过考虑至少一个参考风格特征优化至少一个基础信号,而从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,用于在计算机运行所述非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
根据另一方面,本公开涉及一种携带软件程序的计算机可读存储介质。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,该程序代码指令用于在软件程序由计算机运行时、在其任何实施例中执行本公开的方法。
特别地,根据本公开的至少一个实施例,所述软件程序包括程序代码指令,用于在计算机运行非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,该方法包括:
-通过考虑至少一个参考风格特征优化至少一个基础信号,而从至少一个输入音频信号中生成至少一个输出音频信号。
根据本公开的至少一个实施例,所述软件程序包括程序代码指令,用于在计算机运行所述非瞬时软件程序时,执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
Claims (16)
1.一种电子装置,包括至少一个存储器、和被配置用于共同处理至少一个输入音频信号的一个或几个处理器,所述处理包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
2.根据权利要求1所述的电子装置,其中所述至少一个输入音频信号和/或所述至少一个参考音频信号包括语音内容。
3.根据权利要求1或2所述的电子装置,其中所述至少一个输入音频信号和/或所述至少一个参考音频信号包括除语音内容之外的音频内容。
4.根据权利要求1至3中的任一项所述的电子装置,其中所述至少一个参考风格特征代表至少一个参考音频信号的风格。
5.根据权利要求1至4中的任一项所述的电子装置,其中修改所述至少一个基础信号考虑代表所述至少一个输入信号的内容的至少一个输入内容特征和代表所述至少一个基础信号的内容的至少一个基础内容特征之间的距离。
6.根据权利要求1至5中任一项所述的电子装置,其中通过在至少一个神经网络中处理所述至少一个输入音频信号、所述至少一个参考音频信号和/或所述至少一个基础音频信号中的至少一个,而获得所述参考风格特征、所述至少一个输入内容特征、所述至少一个基础风格特征和所述至少一个基础内容特征中的至少一个。
7.根据权利要求1至6中任一项所述的电子装置,其中获得所述至少一个参考风格特征包括以下至少之一:
-所述至少一个参考音频信号的子带滤波;
-获得所述至少一个子带滤波后的信号的包络;
-调制所述获得的包络。
8.根据权利要求1至7中的任一项所述的电子装置,其中获得所述至少一个基础风格特征包括以下至少之一:
-所述至少一个基础信号的子带滤波;
-获得所述至少一个子带滤波后的基础信号的包络;
-调制所述获得的包络。
9.一种用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础音频信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
10.根据权利要求9所述的方法,其中所述至少一个参考风格特征代表至少一个参考音频信号的风格。
11.根据权利要求9或10所述的方法,其中修改所述至少一个基础信号考虑代表所述至少一个输入信号的内容的至少一个输入内容特征和代表所述至少一个基础信号的内容的至少一个基础内容特征之间的距离。
12.根据权利要求9至11中的任一项所述的方法,其中通过在至少一个神经网络中处理所述至少一个输入音频信号、所述至少一个参考音频信号和/或所述至少一个基础音频信号中的至少一个,而获得所述至少一个参考风格特征、所述至少一个输入内容特征、所述至少一个基础风格特征和所述至少一个基础内容特征中的至少一个。
13.根据权利要求9至12中的任一项所述的方法,其中获得所述至少一个参考风格特征包括以下至少之一:
-所述至少一个参考音频信号的子带滤波;
-获得所述至少一个子带滤波后的信号的包络;
-调制所述获得的包络。
14.根据权利要求9至13中的任一项所述的方法,其中获得所述至少一个基础风格特征包括以下至少之一:
-所述至少一个基础信号的子带滤波;
-获得所述至少一个子带滤波后的基础信号的包络;
-调制所述获得的包络。
15.一种非瞬时计算机可读程序产品,包括程序代码指令,所述程序代码指令用于在由计算机运行所述非瞬时软件程序时、执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
16.一种计算机可读存储介质,承载有包括程序代码指令的软件程序,所述程序代码指令用于在由计算机运行所述非瞬时软件程序时、执行用于处理至少一个输入音频信号的方法,所述方法包括:
-获得作为所述至少一个输入音频信号的副本的至少一个基础音频信号;
-从所述至少一个基础信号生成至少一个输出音频信号,所述至少一个输出音频信号具有通过修改所述至少一个基础信号而获得的风格特征,使得代表所述至少一个基础信号的风格的至少一个基础风格特征和至少一个参考风格特征之间的距离减小。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17306202.7 | 2017-09-18 | ||
EP17306202.7A EP3457401A1 (en) | 2017-09-18 | 2017-09-18 | Method for modifying a style of an audio object, and corresponding electronic device, computer readable program products and computer readable storage medium |
PCT/EP2018/074875 WO2019053188A1 (en) | 2017-09-18 | 2018-09-14 | METHOD FOR MODIFYING A STYLE OF AN AUDIO OBJECT, AND ELECTRONIC DEVICE, COMPUTER READABLE PROGRAM PRODUCTS, AND CORRESPONDING COMPUTER-READABLE STORAGE MEDIUM |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111108557A true CN111108557A (zh) | 2020-05-05 |
Family
ID=60037531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880060714.8A Pending CN111108557A (zh) | 2017-09-18 | 2018-09-14 | 修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11735199B2 (zh) |
EP (2) | EP3457401A1 (zh) |
CN (1) | CN111108557A (zh) |
WO (1) | WO2019053188A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11894008B2 (en) * | 2017-12-12 | 2024-02-06 | Sony Corporation | Signal processing apparatus, training apparatus, and method |
WO2020122985A1 (en) * | 2018-12-10 | 2020-06-18 | Interactive-Al, Llc | Neural modulation codes for multilingual and style dependent speech and language processing |
CN110148424B (zh) * | 2019-05-08 | 2021-05-25 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
WO2021028236A1 (en) * | 2019-08-12 | 2021-02-18 | Interdigital Ce Patent Holdings, Sas | Systems and methods for sound conversion |
US11082789B1 (en) * | 2020-05-13 | 2021-08-03 | Adobe Inc. | Audio production assistant for style transfers of audio recordings using one-shot parametric predictions |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004910A (zh) * | 2006-01-19 | 2007-07-25 | 株式会社东芝 | 处理语音的装置和方法 |
US20070289432A1 (en) * | 2006-06-15 | 2007-12-20 | Microsoft Corporation | Creating music via concatenative synthesis |
US20130019738A1 (en) * | 2011-07-22 | 2013-01-24 | Haupt Marcus | Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer |
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3654079B2 (ja) | 1999-09-27 | 2005-06-02 | ヤマハ株式会社 | 波形生成方法及び装置 |
WO2015184615A1 (en) * | 2014-06-05 | 2015-12-10 | Nuance Software Technology (Beijing) Co., Ltd. | Systems and methods for generating speech of multiple styles from text |
US9324318B1 (en) * | 2014-10-14 | 2016-04-26 | Nookster, Inc. | Creation and application of audio avatars from human voices |
MX2017010593A (es) * | 2015-02-26 | 2018-05-07 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo. |
US9947341B1 (en) * | 2016-01-19 | 2018-04-17 | Interviewing.io, Inc. | Real-time voice masking in a computer network |
US10090001B2 (en) * | 2016-08-01 | 2018-10-02 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
-
2017
- 2017-09-18 EP EP17306202.7A patent/EP3457401A1/en not_active Withdrawn
-
2018
- 2018-09-14 CN CN201880060714.8A patent/CN111108557A/zh active Pending
- 2018-09-14 WO PCT/EP2018/074875 patent/WO2019053188A1/en unknown
- 2018-09-14 EP EP18765667.3A patent/EP3685377A1/en active Pending
- 2018-09-14 US US16/648,217 patent/US11735199B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004910A (zh) * | 2006-01-19 | 2007-07-25 | 株式会社东芝 | 处理语音的装置和方法 |
US20070289432A1 (en) * | 2006-06-15 | 2007-12-20 | Microsoft Corporation | Creating music via concatenative synthesis |
US20130019738A1 (en) * | 2011-07-22 | 2013-01-24 | Haupt Marcus | Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer |
CN104272382A (zh) * | 2012-03-06 | 2015-01-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
Non-Patent Citations (1)
Title |
---|
AMATRIAIN X ET AL: "Spectral Modeling for Higher-level Sound Transformations" * |
Also Published As
Publication number | Publication date |
---|---|
EP3457401A1 (en) | 2019-03-20 |
US20200286499A1 (en) | 2020-09-10 |
US11735199B2 (en) | 2023-08-22 |
WO2019053188A1 (en) | 2019-03-21 |
EP3685377A1 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735199B2 (en) | Method for modifying a style of an audio object, and corresponding electronic device, computer readable program products and computer readable storage medium | |
EP3816998A1 (en) | Method and system for processing sound characteristics based on deep learning | |
Han et al. | Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation | |
CN109785820A (zh) | 一种处理方法、装置及设备 | |
CN106547789B (zh) | 一种歌词生成方法及装置 | |
KR20210041567A (ko) | 신경망을 이용한 하이브리드 오디오 합성 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
US20210073611A1 (en) | Dynamic data structures for data-driven modeling | |
CN111916054B (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN109147816B (zh) | 对音乐进行音量调节的方法及设备 | |
US9147166B1 (en) | Generating dynamically controllable composite data structures from a plurality of data segments | |
CN110312161B (zh) | 一种视频配音方法、装置及终端设备 | |
Shahriar et al. | How can generative adversarial networks impact computer generated art? Insights from poetry to melody conversion | |
US20230260527A1 (en) | Audio data processing method and apparatus, device, and medium | |
Koszewski et al. | Musical instrument tagging using data augmentation and effective noisy data processing | |
CN115019824A (zh) | 视频处理方法、装置、计算机设备及可读存储介质 | |
Geroulanos et al. | Emotion Recognition in Music Using Deep Neural Networks | |
US20240105203A1 (en) | Enhanced audio file generator | |
KR102562033B1 (ko) | 음원 데이터에 대한 마스터링을 수행하기 위한 방법, 서버 및 컴퓨터프로그램 | |
KR102545954B1 (ko) | 음향을 포함하는 영상 데이터의 노이즈 제거하기 위한 방법, 서버 및 컴퓨터프로그램 | |
KR102623171B1 (ko) | 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램 | |
CN113806586B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN117877517B (zh) | 基于对抗神经网络的环境音生成方法、装置、设备及介质 | |
CN114783417B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
Haque et al. | Speech emotion recognition with transfer learning and multi-condition training for noisy environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |