CN116092508A - 音频处理方法、装置、终端、存储介质及程序产品 - Google Patents
音频处理方法、装置、终端、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116092508A CN116092508A CN202310078823.5A CN202310078823A CN116092508A CN 116092508 A CN116092508 A CN 116092508A CN 202310078823 A CN202310078823 A CN 202310078823A CN 116092508 A CN116092508 A CN 116092508A
- Authority
- CN
- China
- Prior art keywords
- user
- singing
- audio
- feature
- audio processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种音频处理方法、装置、终端、存储介质及程序产品,涉及音频技术领域。所述方法包括:获取从第一用户演唱目标歌曲的第一音频文件中提取得到的第一用户的演唱特征,第一用户的演唱特征用于表征第一用户在演唱目标歌曲时的演唱风格;根据第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,第二用户的声纹特征用于表征第二用户的音色。采用本申请实施例提供的技术方案,将音频文件中的用户音色修改为另一用户的音色,听起来像是另一用户按照该用户的演唱风格演唱歌曲,从而使得第二音频文件同时兼具两个用户的特征,相比于仅存在一个用户特征的音频,能够提升音频内容的丰富性。
Description
技术领域
本申请实施例涉及音频技术领域,特别涉及一种音频处理方法、装置、终端、存储介质及程序产品。
背景技术
目前,随着音频技术的发展,音频处理方式越来越多种多样。
在相关技术中,用户可以通过某个音频处理应用程序给自己录音、调音并播放制作的音频。
发明人在实现本申请的过程中发现,用户只能采用自己录音得到的音频进行音频处理,制作得到的音频内容较为单一。
发明内容
本申请实施例提供了一种音频处理方法、装置、终端、存储介质及程序产品,能够提升音频内容的丰富性。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种音频处理方法,所述方法包括:
获取从第一用户演唱目标歌曲的第一音频文件中提取所述第一用户的演唱特征,所述第一用户的演唱特征用于表征所述第一用户在演唱所述目标歌曲时的演唱风格;
根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,所述第二用户的声纹特征用于表征所述第二用户的音色。
根据本申请实施例的一个方面,提供了一种音频处理装置,所述装置包括:
特征获取模块,用于获取第一用户演唱目标歌曲的第一音频文件中提取得到的所述第一用户的演唱特征,所述第一用户的演唱特征用于表征所述第一用户在演唱所述目标歌曲时的演唱风格;
文件生成模块,用于根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,所述第二用户的声纹特征用于表征所述第二用户的音色。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述音频处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述音频处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品由处理器加载并执行以实现上述音频处理方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过从一个用户演唱目标歌曲对应的音频文件中,提取该用户的演唱特征,并将该用户的演唱特征与另一用户的声纹特征结合,从而得到兼具一个用户的演唱特征以及另一用户的音色的音频文件,即实现了在保留一个用户的演唱特征的情况下,将音频文件中的用户音色修改为另一用户的音色,听起来像是另一用户按照该用户的演唱风格演唱歌曲,从而使得第二音频文件同时兼具两个用户的特征,相比于仅存在一个用户特征的音频,本申请实施例提升了音频内容的丰富性。
另外,本申请实施例通过将一个用户的演唱特征与另一用户的声纹特征结合,使得生成的第二音频文件听起来像是仅由该另一个用户演唱的、但该另一用户是按照该一个用户的演唱方式演唱的,从而提升音频的趣味性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的实施环境的示意图;
图2是本申请一个实施例提供的音频处理方法的流程图;
图3是本申请一个实施例提供的音素的示意图;
图4是本申请一个实施例提供的音频处理装置的框图;
图5是本申请另一个实施例提供的音频处理装置的框图;
图6是本申请一个实施例提供的计算机设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。
请参考图1,其示出了本申请一个实施例提供的实施环境的示意图,该实施环境可以实现为音频处理系统。如图1所示,该系统10可以包括:终端设备11。
终端设备11中安装并运行有目标应用程序,如目标应用程序的客户端。可选地,客户端中登录有用户帐号。终端设备是具备数据计算、处理和存储能力的电子设备。终端设备可以是智能手机、平板电脑、PC(Personal Computer,个人计算机)、可穿戴设备等等,本申请实施例对此不作限定。该目标应用程序可以是音频类应用程序,如音乐制作应用程序、音频播放应用程序、音频直播应用程序、K歌应用程序等,本申请实施例对此不作具体限定。该目标应用程序还可以是社交应用程序、支付应用程序、视频应用程序、购物应用程序、新闻应用程序、游戏应用程序等任何具有音频处理功能的应用程序。本申请实施例提供的方法,各步骤的执行主体可以是终端设备11,如运行在该终端设备11中的客户端。
在一些实施例中,该系统10还包括服务器12,服务器12与终端设备11建立有通信连接(如网络连接),服务器12用于为目标应用程序提供后台服务。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。本申请实施例提供的方法步骤,可以由终端设备11单独执行,也可以由服务器12单独执行,也可以由终端设备11和服务器12交替执行,本申请实施例对此不作具体限定。其中,终端设备11和服务器12可以统称为计算机设备。
下面,通过几个实施例对本申请技术方案进行介绍说明。
请参考图2,其示出了本申请一个实施例提供的音频处理方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(210~220):
步骤210,获取从第一用户演唱目标歌曲的第一音频文件中提取得到的第一用户的演唱特征。
在一些实施例中,第一音频文件可以是歌曲类音频。可选地,第一音频文件还可以是配音、诗朗诵、有声读物、广播剧、相声、评书、戏曲等类型的音频,本申请实施例对此不作具体限定。
在一些实施例中,预先录制第一用户演唱的目标歌曲从而生成第一音频文件。在一些实施例中,第一音频文件可以是通过不同于目标应用程序、但与目标应用程序的客户端运行在同一终端设备上的应用程序的客户端录制并生成的音频文件,录制得到音频文件可以存储在该终端设备中,通过读取存储空间中的第一音频文件以获取第一音频文件。
在一些实施例中,第一音频文件可以是通过其他终端设备(即与目标应用程序的客户端所在终端设备不同的终端设备)录制并生成的音频文件。目标应用程序的客户端可以通过有线或无线传输(如网络连接)的方式从其他终端设备或服务器中获取到第一音频文件。
在一些实施例中,第一音频文件也可以是通过目标应用程序的客户端录制和/或制作得到的音频文件。
在一些实施例中,第一用户的演唱特征用于表征第一用户在演唱目标歌曲时的演唱风格。在一些实施例中,演唱特征可以表征用户在演唱目标歌曲时的声音特征,如通过用户演唱目标歌曲时的吐字发音、声调、音调等表征用户的演唱特征。在一些实施例中,不同的人在演唱目标歌曲时的演唱特征不相同。通过提取第一用户的演唱特征,可以从第一音频文件中获取第一用户的演唱特征的信息,即将第一用户在演唱目标歌曲时的演唱特征进行向量表示。
在一些实施例中,第一用户的演唱特征包括:第一用户的发音特征和第一用户的声音属性特征;其中,第一用户的发音特征用于表征第一用户在演唱目标歌曲时的发音,第一用户的声音属性特征用于表征第一用户在演唱目标歌曲时的声音属性。其中,发音是指用户通过口腔发出的声音,声音属性(也可以称为唱功)是指用户演唱歌曲的能力和/或水平。
在一些实施例中,发音特征包括PPG(Phonetic Posteriorgrams,语音后验概率)特征;和/或,声音属性特征包括音高特征。
在一些实施例中,通过提取出的PPG特征来指示第一用户发音时的特征(即发音特征)。PPG特征是一个时间对类别的矩阵,是语音识别过程中的一个中间特征,其表示对于一段语音的每个特定时间帧,每个语音类别(如每个音素)的后验概率。其中,音素是指是根据语音的自然属性划分出来的最小语音单位,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。依据音节里的发音动作来分析,一个动作构成一个音素。在一些实施例中,音素分为元音与辅音两大类。例如,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素。在一些实施例中,第一音频文件中的音频内容包含的音素、以及各个音素的发音时长,这些特征共同组成了第一用户的发音特征。在一些实施例中,如图3所示,各个音素可以用音素块表示,音素块的长度用于表示对应音素的发音时长;例如,音素块31的长度a1用于表示音素a的发音时长。例如,有些人发音较为饱满,则在正常语速下,元音对应的音素发音时间就相对较长;又例如,有些人语速较快,发音较为短促,则每个音素的时长都比较短;又例如,受生理音素或生活环境影响,有些人很难发出某些音素(如“h”、“n”等)。不同的人因为说话习惯不同,PPG特征也不同,因而通过PPG特征可以较好地表征用户的发音特征。
在一些实施例中,音高特征用于表征第一用户在演唱目标歌曲时的音高,如通过音高特征表征第一用户演唱目标歌曲的时的音准程度等信息。音高是指声音的音调高低,音高由声波的频率和波长决定。频率越高、波长越短,则音高越高;反之,频率越低、波长越长,则音高越低。例如,若第一用户在目标歌曲的高音部分唱不上去,则可以通过音高特征表示第一用户在演唱歌曲时难以唱出这么高的高音;若第一用户在演唱目标歌曲时某些音调经常唱不准(如总是音调偏高),则可以通过音高特征表示第一用户在演唱歌曲时,对于这些音调难以唱的准、且音调都会比标准音调偏高;若第一用户在目标歌曲的低音部分唱得很准,则可以通过音高特征表示第一用户在演唱歌曲时对于低音部分发出的音调较为准确。在一些实施例中,声音属性特征用于指示第一用户演唱目标歌曲的演唱水平(或演唱质量)。音高控制是否准确稳定、能否唱高音/低音等音高特征,可以较好地评判用户的演唱水平。
在一些实施例中,声音属性特征还可以包括能量特征、气声特征、张力特征等,本申请对此不作限定。其中,能量特征用于表征第一用户在演唱目标歌曲时的能量,能量可以用于指示第一音频文件中的音频内容的音量/响度大小;气声特征用于表征第一用户在演唱目标歌曲时的气声,如第一用户在演唱目标歌曲时使用气声发音的规律或节奏,气声是指声带不振动或几乎不振动的发音方式,;张力特征用于表征第一用户在演唱目标歌曲时的张力,张力是指第一音频文件中的音频内容的低音与高音之间、弱音与强音之间的变化。
步骤220,根据第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件。
在一些实施例中,第二用户的声纹特征用于表征第二用户的音色。将第一用户的演唱特征与第二用户的声纹特征结合,得到兼具第一用户的演唱特征和第二用户的音色的第二音频文件。也即,第二音频文件,是将第一音频文件中第一用户的音色修改为第二用户的音色、但保留了第一用户的演唱特征得到的音频文件。其中,第二用户可以是明星或歌手或第一用户的好友,第二用户可以是除第一用户之外的其他任何人。
在一些实施例中,获取第二用户的至少一个音频文件,如获取由第二用户演唱的歌曲生成的至少一个音频文件,并通过从第二用户的至少一个音频文件中提取出第二用户的声纹特征。
在一些实施例中,音频处理模型的训练过程(详见下文内容)中会获取多个样本用户的样本音频文件、并从样本音频文件中提取样本用户的声纹特征,第二用户的声纹特征也可以是样本用户的声纹特征。
在一些实施例中,该步骤220包括:根据第一用户的演唱特征和第二用户的声纹特征,生成梅尔频谱(mel spectrogram);根据梅尔频谱,生成第二音频文件。可选地,研究表明,人类对声音频率的感知并不是线性的,并且对低频信号的感知要比高频信号敏感。例如,人们可以比较容易地感知到500和1000Hz(Hertz,赫兹)的区别,却很难发现7500和8000Hz的区别。针对这种情况提出的梅尔标度(the Mel Scale),是针对声音频率的非线性变换,对于以梅尔标度为单位的信号(如声音信号),可以模拟人对于声音信号变化的线性感知。在一些实施例中,梅尔频谱也可以替换为包络谱或其他可行的频谱,本申请实施例对此不作具体限定。
在一些实施例中,通过音频处理模型根据第一用户的演唱特征和第二用户的声纹特征,生成梅尔频谱;其中,音频处理模型是基于神经网络构建的机器学习模型。也即,将第一用户的演唱特征和第二用户的声纹特征输入音频处理模型,音频处理模型就会输出对应的梅尔频谱。
在一些实施例中,音频处理模型的训练过程至少包括如下步骤:
1、获取多个样本用户的样本音频文件;
2、从样本音频文件中提取样本用户的演唱特征和声纹特征,以及样本音频文件对应的标准梅尔频谱;
3、通过音频处理模型根据样本用户的演唱特征和声纹特征,生成预测梅尔频谱;
4、根据预测梅尔频谱和标准梅尔频谱,对音频处理模型进行训练。
在一些实施例中,将从样本音频文件中提取出的样本用户的演唱特征和声纹特征输入音频处理模型,音频处理模型输出对应的预测梅尔频谱;基于预测梅尔频谱和标准梅尔频谱计算损失,并根据损失计算结果调整音频处理模型的参数、使音频处理模型的损失函数的呈梯度下降的趋势,直到得到训练完成的音频处理模型。
在一些实施例中,采用样本音频文件中的样本用户的演唱特征和声纹特征,以及样本音频文件对应的标准梅尔频谱,训练音频处理模型,从而得到可以将用户的歌曲音色修改为其他用户音色的模型。
综上所述,本申请实施例提供的技术方案中,通过从一个用户演唱目标歌曲对应的音频文件中,提取该用户的演唱特征,并将该用户的演唱特征与另一用户的声纹特征结合,从而得到兼具一个用户的演唱特征以及另一用户的音色的音频文件,即实现了在保留一个用户的演唱特征的情况下,将音频文件中的用户音色修改为另一用户的音色,听起来像是另一用户按照该用户的演唱风格演唱歌曲,从而使得第二音频文件同时兼具两个用户的特征,相比于仅存在一个用户特征的音频,本申请实施例提升了音频内容的丰富性。
另外,本申请实施例通过将一个用户的演唱特征与另一用户的声纹特征结合,使得生成的第二音频文件听起来像是仅由该另一个用户演唱的、但该另一用户是按照该一个用户的演唱方式演唱的,从而提升音频的趣味性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图4,其示出了本申请一个实施例提供的音频处理装置的框图。该装置具有实现上述音频处理方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置400可以包括:特征获取模块410和文件生成模块420。
所述特征获取模块410,用于获取从第一用户演唱目标歌曲的第一音频文件中提取得到的所述第一用户的演唱特征,所述第一用户的演唱特征用于表征所述第一用户在演唱所述目标歌曲时的演唱风格。
所述文件生成模块420,用于根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,所述第二用户的声纹特征用于表征所述第二用户的音色。
在一些实施例中,所述第一用户的演唱特征包括:所述第一用户的发音特征和所述第一用户的声音属性特征;其中,所述第一用户的发音特征用于表征所述第一用户在演唱所述目标歌曲时的发音,所述第一用户的声音属性特征用于表征所述第一用户在演唱所述目标歌曲时的声音属性。
在一些实施例中,所述发音特征包括语音后验概率PPG特征;和/或,所述声音属性特征包括音高特征。
在一些实施例中,如图5所示,所述文件生成模块420包括:频谱生成子模块421和文件生成子模块422。
所述频谱生成子模块421,用于根据所述第一用户的演唱特征和所述第二用户的声纹特征,生成梅尔频谱。
所述文件生成子模块422,用于根据所述梅尔频谱,生成所述第二音频文件。
在一些实施例中,如图5所示,所述频谱生成子模块421,用于:
通过音频处理模型根据所述第一用户的演唱特征和所述第二用户的声纹特征,生成所述梅尔频谱;
其中,所述音频处理模型是基于神经网络构建的机器学习模型。
在一些实施例中,如图5所示,所述装置400还包括:文件获取模块430、特征提取模块440、频谱生成模块450和模型训练模块460。
所述文件获取模块430,用于获取多个样本用户的样本音频文件。
所述特征提取模块440,用于从所述样本音频文件中提取所述样本用户的演唱特征和声纹特征,以及所述样本音频文件对应的标准梅尔频谱。
所述频谱生成模块450,用于通过所述音频处理模型根据所述样本用户的演唱特征和声纹特征,生成预测梅尔频谱。
所述模型训练模块460,用于根据所述预测梅尔频谱和所述标准梅尔频谱,对所述音频处理模型进行训练。
综上所述,本申请实施例提供的技术方案中,通过从一个用户演唱目标歌曲对应的音频文件中,提取该用户的演唱特征,并将该用户的演唱特征与另一用户的声纹特征结合,从而得到兼具一个用户的演唱特征以及另一用户的音色的音频文件,即实现了在保留一个用户的演唱特征的情况下,将音频文件中的用户音色修改为另一用户的音色,听起来像是另一用户按照该用户的演唱风格演唱歌曲,从而使得第二音频文件同时兼具两个用户的特征,相比于仅存在一个用户特征的音频,本申请实施例提升了音频内容的丰富性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图6,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的音频处理方法。具体来讲:
所述计算机设备600包括CPU(Central Processing Unit,中央处理单元)601、包括RAM(Random Access Memory,随机存取存储器)602和ROM(Read-Only Memory,只读存储器)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output,输入/输出)系统606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、闪存或其他固态存储器,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述音频处理方法。
在示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品由处理器加载并执行以实现上述音频处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种音频处理方法,其特征在于,所述方法包括:
获取从第一用户演唱目标歌曲的第一音频文件中提取得到的所述第一用户的演唱特征,所述第一用户的演唱特征用于表征所述第一用户在演唱所述目标歌曲时的演唱风格;
根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,所述第二用户的声纹特征用于表征所述第二用户的音色。
2.根据权利要求1所述的方法,其特征在于,所述第一用户的演唱特征包括:所述第一用户的发音特征和所述第一用户的声音属性特征;其中,所述第一用户的发音特征用于表征所述第一用户在演唱所述目标歌曲时的发音,所述第一用户的声音属性特征用于表征所述第一用户在演唱所述目标歌曲时的声音属性。
3.根据权利要求2所述的方法,其特征在于,
所述发音特征包括语音后验概率PPG特征;
和/或,
所述声音属性特征包括音高特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件,包括:
根据所述第一用户的演唱特征和所述第二用户的声纹特征,生成梅尔频谱;
根据所述梅尔频谱,生成所述第二音频文件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一用户的演唱特征和所述第二用户的声纹特征,生成梅尔频谱,包括:
通过音频处理模型根据所述第一用户的演唱特征和所述第二用户的声纹特征,生成所述梅尔频谱;
其中,所述音频处理模型是基于神经网络构建的机器学习模型。
6.根据权利要求5所述的方法,其特征在于,所述音频处理模型的训练过程如下:
获取多个样本用户的样本音频文件;
从所述样本音频文件中提取所述样本用户的演唱特征和声纹特征,以及所述样本音频文件对应的标准梅尔频谱;
通过所述音频处理模型根据所述样本用户的演唱特征和声纹特征,生成预测梅尔频谱;
根据所述预测梅尔频谱和所述标准梅尔频谱,对所述音频处理模型进行训练。
7.一种音频处理装置,其特征在于,所述装置包括:
特征获取模块,用于获取从第一用户演唱目标歌曲的第一音频文件中提取得到的所述第一用户的演唱特征,所述第一用户的演唱特征用于表征所述第一用户在演唱所述目标歌曲时的演唱风格;
文件生成模块,用于根据所述第一用户的演唱特征和第二用户的声纹特征,生成第二音频文件;其中,所述第二用户的声纹特征用于表征所述第二用户的音色。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述权利要求1至6任一项所述的音频处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述权利要求1至6任一项所述的音频处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品由处理器加载并执行以实现上述权利要求1至6任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310078823.5A CN116092508A (zh) | 2023-01-19 | 2023-01-19 | 音频处理方法、装置、终端、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310078823.5A CN116092508A (zh) | 2023-01-19 | 2023-01-19 | 音频处理方法、装置、终端、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092508A true CN116092508A (zh) | 2023-05-09 |
Family
ID=86208014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310078823.5A Pending CN116092508A (zh) | 2023-01-19 | 2023-01-19 | 音频处理方法、装置、终端、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092508A (zh) |
-
2023
- 2023-01-19 CN CN202310078823.5A patent/CN116092508A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN108806656B (zh) | 歌曲的自动生成 | |
EP3803846B1 (en) | Autonomous generation of melody | |
JP6876752B2 (ja) | 応答方法及び装置 | |
CN108806655B (zh) | 歌曲的自动生成 | |
CN110675886B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
US10971125B2 (en) | Music synthesis method, system, terminal and computer-readable storage medium | |
CN112396182B (zh) | 脸部驱动模型的训练和脸部口型动画的生成方法 | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
CN108986841B (zh) | 音频信息处理方法、装置及存储介质 | |
CN109346043B (zh) | 一种基于生成对抗网络的音乐生成方法及装置 | |
Van Nort et al. | Electro/acoustic improvisation and deeply listening machines | |
WO2022089097A1 (zh) | 音频处理方法、装置及电子设备和计算机可读存储介质 | |
CN113010138A (zh) | 文章的语音播放方法、装置、设备及计算机可读存储介质 | |
CN113691909A (zh) | 具有音频处理推荐的数字音频工作站 | |
CN109410972B (zh) | 生成音效参数的方法、装置及存储介质 | |
CN112035699A (zh) | 音乐合成方法、装置、设备和计算机可读介质 | |
CN112422999B (zh) | 直播内容处理方法及计算机设备 | |
CN116092508A (zh) | 音频处理方法、装置、终端、存储介质及程序产品 | |
Jimenez et al. | Identifying songs from their piano-driven opening chords | |
CN116034423A (zh) | 音频处理方法、装置、设备、存储介质及程序产品 | |
CN116229996A (zh) | 音频制作方法、装置、终端、存储介质及程序产品 | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Molina | Adaptive music: Automated music composition and distribution | |
KR101426763B1 (ko) | 음원 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |