CN106952642A - 音频合成的方法和装置 - Google Patents

音频合成的方法和装置 Download PDF

Info

Publication number
CN106952642A
CN106952642A CN201610006241.6A CN201610006241A CN106952642A CN 106952642 A CN106952642 A CN 106952642A CN 201610006241 A CN201610006241 A CN 201610006241A CN 106952642 A CN106952642 A CN 106952642A
Authority
CN
China
Prior art keywords
signal
scale factor
audio
audio signal
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610006241.6A
Other languages
English (en)
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201610006241.6A priority Critical patent/CN106952642A/zh
Publication of CN106952642A publication Critical patent/CN106952642A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种音频合成的方法和装置。其中,该方法包括:获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,第一音频特征值用于表征第一音频信号的音量特征,第二音频特征值用于表征第二音频信号的音量特征;使用第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;按照第二合成比例因子和第四合成比例因子对第一音频信号和第二音频信号进行合成。本发明解决了合成声音文件时音量调节的过程比较繁琐的技术问题。

Description

音频合成的方法和装置
技术领域
本发明涉及音频处理领域,具体而言,涉及一种音频合成的方法和装置。
背景技术
在有伴奏音乐的情况下录制声音时,由于需要将伴奏音乐和录制的声音进行合成。通常在合成时需要调节伴奏音乐的音量或者录制的声音的音量,使得录制的声音不会太大而掩盖伴奏音乐,也不会因为伴奏音乐的声音太大而掩盖录制的声音。因此,现有技术在需要合成录制的声音的音量和伴奏音乐的音量比较均衡的声音文件时,需要手动调节录制的声音的音量和伴奏音乐的音量,而这种手动调节使得合成过程比较繁琐。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种音频合成的方法和装置,以至少解决合成声音文件时音量调节的过程比较繁琐的技术问题。
根据本发明实施例的一个方面,提供了一种音频合成的方法,包括:获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
根据本发明实施例的另一方面,还提供了一种音频合成的装置,包括:获取单元,用于获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;更新单元,用于使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;合成单元,用于按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
在本发明实施例中,获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。由于可以自动获得体现第一音频信号和第二音频信号的音量特点的第二合成比例因子和第四合成比例因子,因此,在合成的过程中无需手动调节两个音频信号合成所需的音量,解决合成声音文件时音量调节的过程比较繁琐的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的硬件环境系统的架构图;
图2是根据本发明实施例的音频合成的方法的流程图;
图3是根据本发明实施例的音频合成的装置的示意图;
图4是根据本发明实施例的终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种可以通过本申请装置实施例执行的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种音频合成的方法。
可选地,在本实施例中,上述音频合成的方法可以应用于如图1所示的移动终端102和服务器104所构成的硬件环境中。如图1所示,移动终端102通过网络与服务器104进行连接,上述网络包括但不限于:移动通信网络、广域网、城域网或局域网,移动终端102可以是手机终端,也可以是PC终端、笔记本终端或平板电脑终端。
图1中示出的硬件环境系统的主要工作原理是:服务器104向移动终端102发送伴奏音乐文件,移动终端102播放伴奏音乐的同时,接收用户通过移动终端102的麦克风录入的声音文件。移动终端102按照本实施例所提供的音频合成的方法将伴奏音乐和录入的声音进行合成。移动终端102中设置有应用客户端,上述移动终端102的动作可以由应用客户端来执行。
图2是根据本发明实施例的音频合成的方法的流程图,以下结合图2对本发明实施例所提供的音频合成的方法做具体介绍,如图2所示,该音频合成的方法主要包括如下步骤:
步骤S202,获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,第一音频特征值用于表征第一音频信号的音量特征,第二音频特征值用于表征第二音频信号的音量特征。
第一音频信号可以是录入的声音信号,第二音频信号可以是伴奏音乐信号,将录入的声音信号和伴奏音乐信号进行合成,得到最终的声音文件。为了使得合成的声音文件中既能表现录入的声音,又能表现伴奏的声音,需要调节录入的声音的音量和伴奏的音量,使得二者的音量保持一定的比例,使得一种音频信号不会被另外一个音频信号的音量掩盖,因此,分别获取第一音频信号的第一音频特征值和第二音频信号的第二特征值。
步骤S204,使用第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子。
第一合成比例因子和第三合成比例因子为预设的比例因子,这两个比例因子可以体现两个音频信号的音量特征的比值。第一合成比例因子和第三合成比例因子可以是已经完成合成所采用的比例因子,或者是对已完成的合成所采用的比例进行优化所得到的比例因子。例如对多次合成的比例因子取平均值或者合成所采用的次数最多的比例因子。
由于预设的第一合成比例因子和预设的第三合成比例因子并不能体现第一音频信号和第二音频信号的特征,因此,采用第一音频特征值对第一合成比例进行更新,采用第二音频特征值对第三合成比例进行更新,使得得到的第二合成比例因子和第四合成比例因子可以分别体现第一音频信号和第二音频信号的音量特点。
步骤S206,按照第二合成比例因子和第四合成比例因子对第一音频信号和第二音频信号进行合成。
由于可以自动获得体现第一音频信号和第二音频信号的音量特点的第二合成比例因子和第四合成比例因子,因此,在合成的过程中无需手动调节两个音频信号合成所需的音量,解决合成声音文件时音量调节的过程比较繁琐的技术问题。
另外,通常情况下第一音频信号是没有标准的音量大小的,移动终端每次接收到的第一音频信号都可能不同,第二音频信号也可能由于不同移动终端的不同而体现不同的音量,按照预设的比例因子来调节这两个音频信号的音量会导致调节的不准确,比如,将较大音量的第一音频信号的音量调的更大,较小音量的第二音频信号的音量调的更小。
而在本实施例中,由于第二合成比例因子和第四合成比例因子可以分别体现第一音频信号和第二音频信号的音量特点,因此,在利用第二合成比例因子和第四合成比例因子进行合成时可以对第一音频信号的音量变化有更广的包容性,即使第一音频信号是有变化的,利用与第一音频信号自身的特点对其进行调节,也可以使合成所采用的比例因子更准确,使得合成得到的声音文件的第一音频信号的声音和第二音频信号的声音都能突出表现,且互相不会掩盖彼此的声音。
可选地,使用第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:采集第一音频信号的第一采样信号,根据第一采样信号获取第一音频信号的第一分贝,使用第一分贝对预设的第一合成比例因子进行更新,得到第二合成比例因子;使用第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:采集第二音频信号的第二采样信号,根据第二采样信号获取第二音频信号的第二分贝,使用第二分贝对预设的第三合成比例因子进行更新,得到第四合成比例因子。
按照相同的采样频率对第一音频信号和第二音频信号分别进行采样,例如,采用44100Hz进行采样。根据第一音频信号的第一采样信号获取第一音频信号的第一分贝。根据第二音频信号的第二采样信号获取第二音频信号的第二分贝。由于采样频率较高,由无数多个采样点组成整个音频信号,因此,第一分贝可以体现整个第一音频信号的整体音量特征。该第二分贝可以体现整个第二音频信号的整体音量特征。第一分贝作为第一音频特征值,第二分贝作为第二音频特征值,因此,利用第一分贝对第一合成比例因子进行更新,利用第二分贝对第三合成比例因子进行更新。
可选地,根据第一采样信号获取第一音频信号的第一分贝包括:
根据第一采样信号获取第一音频信号的第一分贝包括:
采用以下方式获取第一音频信号的第一能量值Ev
其中,x(i)为第一采样信号,N1为第一音频信号的采样个数;
采用以下方式将第一能量值转换为第一分贝Pv
Pv=10*lg(Ev/N1);
根据第二采样信号获取第二音频信号的第二分贝包括:
采用以下方式获取第二音频信号的第二能量值Em
其中,x(i)为第二采样信号,N2为第二音频信号的采样个数;
采用以下方式将第二能量值转换为第二分贝Pm
Pm=10*lg(Em/N2)。
在获取第一分贝时,先根据第一采样信号获取第一音频信号的第一能量值Ev,第一能量值Ev根据第一音频信号的所有采样点的采样值所计算得到的。将第一能量值Ev转换为功率DB,即第一分贝Pv,用于标识第一音频信号的整体音量。
在获取第二分贝时,先根据第二采样信号获取第二音频信号的第二能量值Em,第一能量值Em根据第二音频信号的所有采样点的采样值所计算得到的。将第二能量值Em转换为功率DB,即第二分贝Pm,用于标识第二音频信号的整体音量。
进一步地,使用第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:将预设的第一合成比例因子和第一音频特征值的比值作为第二合成比例因子;使用第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:将预设的第三合成比例因子和第二音频特征值的比值作为第四合成比例因子。
即将预设的第一合成比例因子和第一分贝的比值作为第二合成比例因子,将预设的第三合成比例因子和第二分别的比值作为第四合成比例因子。
例如,预设的第一合成比例因子为Sv,第一分贝为Pv,则第二合成比例因子t1为Sv/Pv。预设的第三合成比例因子为Sm,第二分贝为Pm,则第四合成比例因子t2为Sm/Pm
可选地,按照第二合成比例因子和第四合成比例因子对第一音频信号和第二音频信号进行合成包括:将第二合成比例因子与第一音频信号的乘积作为第一路信号;将第四合成比例因子与第二音频信号的乘积作为第二路信号;对第一路信号和第二路信号进行合成。
第二合成比例因子是根据第一音频信号得到的,可以用来调节第一音频信号的音量,将第二合成比例因子与第一音频信号相乘,得到第一路信号;第四合成比例因子是根据第二音频信号得到的,可以用来调节第二音频信号的音量,将第四合成比例因子与第二音频信号相乘,得到第二路信号。其中,第一路信号和第二路信号的和为合成后的声音文件的信号。
即合成的声音文件的信号y(n)=v(n)*t1+m(n)*t2,其中,v(n)是第一音频信号,m(n)是第二音频信号。
可选地,为了防止录入的声音信号中有过多的空白而造成第二合成比例因子不准确,在进行采样时仅采集有声信号,即采集第一音频信号的第一采样信号包括:检测第一音频信号中用于指示有声的信号和用于指示无声的信号;对第一音频信号中用于指示有声的信号进行采样,并将采样得到的音频信号作为第一采样信号。
在本实施例中,可以采用动态语音检测算法(VAD)对第一音频信号进行动态检测,以判断出第一音频信号中的有声信号部分和无声信号部分,其原理是通过一个时间段内的信号的大小来判断,经过判断后,提取有声信号的部分拼接成一个新的文件,并采集新的文件的有声信号的部分。
需要说明的是,动态语音检测是无损检测,不会破坏第一音频信号,因此,采样新的文件的有声信号相当于采样第一音频信号。但是,在进行合成时,采用第一音频信号和第二音频信号合成,并不用动态语音检测算法所拼接的新的文件来进行合成。
通过动态语音检测,去除了第一音频信号中无声信号的部分,消除了无声信号的采样值对计算第一分贝的影响,从而提高了计算第一分贝的准确性,进而提高了信号合成的准确性。
以提供跟着伴奏唱歌功能的应用程序为例进行说明。
手机上的应用程序提供伴奏音乐,通过耳机或者扬声器播放该伴奏音乐(即第二音频信号)。用于依照伴奏音乐的节奏演唱,与此同时,手机通过麦克风录制歌唱的声音(即第一音频信号)。
在录制歌唱的声音中提取第一音频特征值,从伴奏音乐中提取第二音频特征值。
获取预设的第一合成比例因子(使用第一音频特征值更新)和预设的第三合成比例因子(使用第二音频特征值更新),其中,第一合成比例因子和第三合成比例因子可以采用1.2:1的比例,也可以采用2:1的比例。若向突出录制的声音,则采用比例较大的第一合成比例因子,否则,采用较小的第一合成比例因子。上述的第一合成比例因子和第三合成比例因子可以根据需要体现的声音层次进行设置,对第一音频信号的声音和第二音频信号的声音进行预放大。同时,上述的第一合成比例因子和第三合成比例因子可以是历史合成所采用的,也可以是根据历史合成所采用的比例因子取平均值或者最优值得到的。
对录制歌唱的声音进行动态语音检测,将有声的部分拼接成新的文件。对新的文件进行采样,并计算新的文件的音频信号的能量和功率,利用计算出的功率对第一合成比例因子进行更新,得到第二合成比例因子。
对伴奏音乐进行采样,并计算伴奏音乐的能量和功率,利用伴奏音乐的功率对第三合成比例因子进行更新,得到第四合成比例因子。
利用第二合成比例因子对录制歌唱的声音信号进行处理,利用第四合成比例因子对伴奏音乐的信号进行处理,从而得到合成后的音乐。
由于第二合成比例因子和第四合成比例因子能够调节音量,因此,合成后的声音的音量主次分明,或者能够突出两种音频信号的特点。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述音频合成的方法的音频合成的装置,如图3所示,该装置包括:
获取单元20用于获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,第一音频特征值用于表征第一音频信号的音量特征,第二音频特征值用于表征第二音频信号的音量特征。
第一音频信号可以是录入的声音信号,第二音频信号可以是伴奏音乐信号,将录入的声音信号和伴奏音乐信号进行合成,得到最终的声音文件。为了使得合成的声音文件中既能表现录入的声音,又能表现伴奏的声音,需要调节录入的声音的音量和伴奏的音量,使得二者的音量保持一定的比例,使得一种音频信号不会被另外一个音频信号的音量掩盖,因此,分别获取第一音频信号的第一音频特征值和第二音频信号的第二特征值。
更新单元40用于使用第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子。
第一合成比例因子和第三合成比例因子为预设的比例因子,这两个比例因子可以体现两个音频信号的音量特征的比值。第一合成比例因子和第三合成比例因子可以是已经完成合成所采用的比例因子,或者是对已完成的合成所采用的比例进行优化所得到的比例因子。例如对多次合成的比例因子取平均值或者合成所采用的次数最多的比例因子。
由于预设的第一合成比例因子和预设的第三合成比例因子并不能体现第一音频信号和第二音频信号的特征,因此,采用第一音频特征值对第一合成比例进行更新,采用第二音频特征值对第三合成比例进行更新,使得得到的第二合成比例因子和第四合成比例因子可以分别体现第一音频信号和第二音频信号的音量特点。
合成单元60用于按照第二合成比例因子和第四合成比例因子对第一音频信号和第二音频信号进行合成。
由于可以自动获得体现第一音频信号和第二音频信号的音量特点的第二合成比例因子和第四合成比例因子,因此,在合成的过程中无需手动调节两个音频信号合成所需的音量。
另外,通常情况下第一音频信号是没有标准的音量大小的,移动终端每次接收到的第一音频信号都可能不同,第二音频信号也可能由于不同移动终端的不同而体现不同的音量,按照预设的比例因子来调节这两个音频信号的音量会导致调节的不准确,比如,将较大音量的第一音频信号的音量调的更大,较小音量的第二音频信号的音量调的更小。
而在本实施例中,由于第二合成比例因子和第四合成比例因子可以分别体现第一音频信号和第二音频信号的音量特点,因此,在利用第二合成比例因子和第四合成比例因子进行合成时可以对第一音频信号的音量变化有更广的包容性,即使第一音频信号是有变化的,利用与第一音频信号自身的特点对其进行调节,也可以使合成所采用的比例因子更准确,使得合成得到的声音文件的第一音频信号的声音和第二音频信号的声音都能突出表现,且互相不会掩盖彼此的声音。
可选地,更新单元包括:第一更新模块,用于采集第一音频信号的第一采样信号,根据第一采样信号获取第一音频信号的第一分贝,使用第一分贝对预设的第一合成比例因子进行更新,得到第二合成比例因子;第二更新模块,用于采集第二音频信号的第二采样信号,根据第二采样信号获取第二音频信号的第二分贝,使用第二分贝对预设的第三合成比例因子进行更新,得到第四合成比例因子。
按照相同的采样频率对第一音频信号和第二音频信号分别进行采样,例如,采用44100Hz进行采样。根据第一音频信号的第一采样信号获取第一音频信号的第一分贝。根据第二音频信号的第二采样信号获取第二音频信号的第二分贝。由于采样频率较高,由无数多个采样点组成整个音频信号,因此,第一分贝可以体现整个第一音频信号的整体音量特征。该第二分贝可以体现整个第二音频信号的整体音量特征。第一分贝作为第一音频特征值,第二分贝作为第二音频特征值,因此,利用第一分贝对第一合成比例因子进行更新,利用第二分贝对第三合成比例因子进行更新。
可选地,其特征在于,第一更新模块采用以下方式获取第一音频信号的第一能量值Ev:
其中,x(i)为第一采样信号,N1为第一音频信号的采样个数;
采用以下方式将第一能量值转换为第一分贝Pv
Pv=10*lg(Ev/N1);
第二更新模块采用以下方式获取第二音频信号的第二能量值Em:
其中,x(i)为第二采样信号,N2为第二音频信号的采样个数;
采用以下方式将第二能量值转换为第二分贝Pm
Pm=10*lg(Em/N2)。
在获取第一分贝时,先根据第一采样信号获取第一音频信号的第一能量值Ev,第一能量值Ev根据第一音频信号的所有采样点的采样值所计算得到的。将第一能量值Ev转换为功率DB,即第一分贝Pv,用于标识第一音频信号的整体音量。
在获取第二分贝时,先根据第二采样信号获取第二音频信号的第二能量值Em,第一能量值Em根据第二音频信号的所有采样点的采样值所计算得到的。将第二能量值Em转换为功率DB,即第二分贝Pm,用于标识第二音频信号的整体音量。
进一步地,更新单元还包括:第一确定模块,用于将预设的第一合成比例因子和第一音频特征值的比值作为第二合成比例因子;第二确定模块,用于将预设的第三合成比例因子和第二音频特征值的比值作为第四合成比例因子。
即将预设的第一合成比例因子和第一分贝的比值作为第二合成比例因子,将预设的第三合成比例因子和第二分别的比值作为第四合成比例因子。
例如,预设的第一合成比例因子为Sv,第一分贝为Pv,则第二合成比例因子t1为Sv/Pv。预设的第三合成比例因子为Sm,第二分贝为Pm,则第四合成比例因子t2为Sm/Pm
可选地,合成单元包括:第三确定模块,用于将第二合成比例因子与第一音频信号的乘积作为第一路信号;第四确定模块,用于将第四合成比例因子与第二音频信号的乘积作为第二路信号;合成模块,用于对第一路信号和第二路信号进行合成。
第二合成比例因子是根据第一音频信号得到的,可以用来调节第一音频信号的音量,将第二合成比例因子与第一音频信号相乘,得到第一路信号;第四合成比例因子是根据第二音频信号得到的,可以用来调节第二音频信号的音量,将第四合成比例因子与第二音频信号相乘,得到第二路信号。其中,第一路信号和第二路信号的和为合成后的声音文件的信号。
即合成的声音文件的信号y(n)=v(n)*t1+m(n)*t2,其中,v(n)是第一音频信号,m(n)是第二音频信号。
可选地,为了防止录入的声音信号中有过多的空白而造成第二合成比例因子不准确,在进行采样时仅采集有声信号,即第一更新模块包括:检测子模块,用于检测第一音频信号中用于指示有声的信号和用于指示无声的信号;采样子模块,用于对第一音频信号中用于指示有声的信号进行采样,并将采样得到的音频信号作为第一采样信号。
在本实施例中,可以采用动态语音检测算法(VAD)对第一音频信号进行动态检测,以判断出第一音频信号中的有声信号部分和无声信号部分,其原理是通过一个时间段内的信号的大小来判断,经过判断后,提取有声信号的部分拼接成一个新的文件,并采集新的文件的有声信号的部分。
需要说明的是,动态语音检测是无损检测,不会破坏第一音频信号,因此,采样新的文件的有声信号相当于采样第一音频信号。但是,在进行合成时,采用第一音频信号和第二音频信号合成,并不用动态语音检测算法所拼接的新的文件来进行合成。
通过动态语音检测,去除了第一音频信号中无声信号的部分,消除了无声信号的采样值对计算第一分贝的影响,从而提高了计算第一分贝的准确性,进而提高了信号合成的准确性。
实施例3
根据本发明实施例,还提供了一种用于实施上述音频合成的方法的终端,如图4所示,该终端主要包括处理器401、摄像头402、显示器403、数据接口404、存储器405、网络接口406、扬声器407和麦克风408,其中:
摄像头402主要用于对进行声音录制的用户进行图像采集。
数据接口404则主要通过数据传输的方式将第三方工具录制的音频传输给处理器401,第三方工具可以是录音设备。
存储器405主要用于存储第一音频信号和第二音频信号。
网络接口406主要用于与服务器进行通信,接收服务器发送的伴奏音频(第二音频信号)。
显示器403主要用于显示录制音频的进度或者播放音频的进度。
处理器401主要用于执行如下操作:
获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
处理器401还用于使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:采集所述第一音频信号的第一采样信号,根据所述第一采样信号获取所述第一音频信号的第一分贝,使用所述第一分贝对预设的所述第一合成比例因子进行更新,得到所述第二合成比例因子;使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:采集所述第二音频信号的第二采样信号,根据所述第二采样信号获取所述第二音频信号的第二分贝,使用所述第二分贝对预设的所述第三合成比例因子进行更新,得到所述第四合成比例因子。
处理器401还用于检测所述第一音频信号中用于指示有声的信号和用于指示无声的信号;对所述第一音频信号中所述用于指示有声的信号进行采样,并将采样得到的音频信号作为所述第一采样信号。
处理器401还用于使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:将预设的所述第一合成比例因子和所述第一音频特征值的比值作为所述第二合成比例因子;使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:将预设的所述第三合成比例因子和所述第二音频特征值的比值作为所述第四合成比例因子。
处理器401将所述第二合成比例因子与所述第一音频信号的乘积作为第一路信号;将所述第四合成比例因子与所述第二音频信号的乘积作为第二路信号;对所述第一路信号和所述第二路信号进行合成。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;
S2,使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;
S3,按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S1,使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:采集所述第一音频信号的第一采样信号,根据所述第一采样信号获取所述第一音频信号的第一分贝,使用所述第一分贝对预设的所述第一合成比例因子进行更新,得到所述第二合成比例因子;
S2,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:采集所述第二音频信号的第二采样信号,根据所述第二采样信号获取所述第二音频信号的第二分贝,使用所述第二分贝对预设的所述第三合成比例因子进行更新,得到所述第四合成比例因子。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:检测所述第一音频信号中用于指示有声的信号和用于指示无声的信号;对所述第一音频信号中所述用于指示有声的信号进行采样,并将采样得到的音频信号作为所述第一采样信号。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:将预设的所述第一合成比例因子和所述第一音频特征值的比值作为所述第二合成比例因子;使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:将预设的所述第三合成比例因子和所述第二音频特征值的比值作为所述第四合成比例因子。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将所述第二合成比例因子与所述第一音频信号的乘积作为第一路信号;将所述第四合成比例因子与所述第二音频信号的乘积作为第二路信号;对所述第一路信号和所述第二路信号进行合成。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种音频合成的方法,其特征在于,包括:
获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;
使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;
按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
2.根据权利要求1所述的方法,其特征在于,
使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:采集所述第一音频信号的第一采样信号,根据所述第一采样信号获取所述第一音频信号的第一分贝,使用所述第一分贝对预设的所述第一合成比例因子进行更新,得到所述第二合成比例因子;
使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:采集所述第二音频信号的第二采样信号,根据所述第二采样信号获取所述第二音频信号的第二分贝,使用所述第二分贝对预设的所述第三合成比例因子进行更新,得到所述第四合成比例因子。
3.根据权利要求2所述的方法,其特征在于,采集所述第一音频信号的第一采样信号包括:
检测所述第一音频信号中用于指示有声的信号和用于指示无声的信号;
对所述第一音频信号中所述用于指示有声的信号进行采样,并将采样得到的音频信号作为所述第一采样信号。
4.根据权利要求2或3所述的方法,其特征在于,
根据所述第一采样信号获取所述第一音频信号的第一分贝包括:
采用以下方式获取所述第一音频信号的第一能量值Ev:
其中,x(i)为所述第一采样信号,N1为所述第一音频信号的采样个数;
采用以下方式将所述第一能量值转换为所述第一分贝Pv
Pv=10*lg(Ev/N1);
根据所述第二采样信号获取所述第二音频信号的第二分贝包括:
采用以下方式获取所述第二音频信号的第二能量值Em
其中,x(i)为所述第二采样信号,N2为所述第二音频信号的采样个数;
采用以下方式将所述第二能量值转换为所述第二分贝Pm
Pm=10*lg(Em/N2)。
5.根据权利要求1所述的方法,其特征在于,
使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子包括:将预设的所述第一合成比例因子和所述第一音频特征值的比值作为所述第二合成比例因子;
使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子包括:将预设的所述第三合成比例因子和所述第二音频特征值的比值作为所述第四合成比例因子。
6.根据权利要求1所述的方法,其特征在于,按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成包括:
将所述第二合成比例因子与所述第一音频信号的乘积作为第一路信号;
将所述第四合成比例因子与所述第二音频信号的乘积作为第二路信号;
对所述第一路信号和所述第二路信号进行合成。
7.一种音频合成的装置,其特征在于,包括:
获取单元,用于获取第一音频信号的第一音频特征值和第二音频信号的第二音频特征值,其中,所述第一音频特征值用于表征所述第一音频信号的音量特征,所述第二音频特征值用于表征所述第二音频信号的音量特征;
更新单元,用于使用所述第一音频特征值对预设的第一合成比例因子进行更新,得到第二合成比例因子,使用所述第二音频特征值对预设的第三合成比例因子进行更新,得到第四合成比例因子;
合成单元,用于按照所述第二合成比例因子和所述第四合成比例因子对所述第一音频信号和所述第二音频信号进行合成。
8.根据权利要求7所述的装置,其特征在于,所述更新单元包括:
第一更新模块,用于采集所述第一音频信号的第一采样信号,根据所述第一采样信号获取所述第一音频信号的第一分贝,使用所述第一分贝对预设的所述第一合成比例因子进行更新,得到所述第二合成比例因子;
第二更新模块,用于采集所述第二音频信号的第二采样信号,根据所述第二采样信号获取所述第二音频信号的第二分贝,使用所述第二分贝对预设的所述第三合成比例因子进行更新,得到所述第四合成比例因子。
9.根据权利要求8所述的装置,其特征在于,所述第一更新模块包括:
检测子模块,用于检测所述第一音频信号中用于指示有声的信号和用于指示无声的信号;
采样子模块,用于对所述第一音频信号中所述用于指示有声的信号进行采样,并将采样得到的音频信号作为所述第一采样信号。
10.根据权利要求8或9所述的装置,其特征在于,
所述第一更新模块采用以下方式获取所述第一音频信号的第一能量值Ev:
其中,x(i)为所述第一采样信号,N1为所述第一音频信号的采样个数;
采用以下方式将所述第一能量值转换为所述第一分贝Pv
Pv=10*lg(Ev/N1);
所述第二更新模块采用以下方式获取所述第二音频信号的第二能量值Em
其中,x(i)为所述第二采样信号,N2为所述第二音频信号的采样个数;
采用以下方式将所述第二能量值转换为所述第二分贝Pm
Pm=10*lg(Em/N2)。
11.根据权利要求7所述的装置,其特征在于,所述更新单元还包括:
第一确定模块,用于将预设的所述第一合成比例因子和所述第一音频特征值的比值作为所述第二合成比例因子;
第二确定模块,用于将预设的所述第三合成比例因子和所述第二音频特征值的比值作为所述第四合成比例因子。
12.根据权利要求7所述的装置,其特征在于,所述合成单元包括:
第三确定模块,用于将所述第二合成比例因子与所述第一音频信号的乘积作为第一路信号;
第四确定模块,用于将所述第四合成比例因子与所述第二音频信号的乘积作为第二路信号;
合成模块,用于对所述第一路信号和所述第二路信号进行合成。
CN201610006241.6A 2016-01-06 2016-01-06 音频合成的方法和装置 Pending CN106952642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610006241.6A CN106952642A (zh) 2016-01-06 2016-01-06 音频合成的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610006241.6A CN106952642A (zh) 2016-01-06 2016-01-06 音频合成的方法和装置

Publications (1)

Publication Number Publication Date
CN106952642A true CN106952642A (zh) 2017-07-14

Family

ID=59466119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610006241.6A Pending CN106952642A (zh) 2016-01-06 2016-01-06 音频合成的方法和装置

Country Status (1)

Country Link
CN (1) CN106952642A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680571A (zh) * 2017-10-19 2018-02-09 百度在线网络技术(北京)有限公司 一种歌曲伴奏方法、装置、设备和介质
CN111435600A (zh) * 2019-01-15 2020-07-21 北京字节跳动网络技术有限公司 用于处理音频的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584979A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合系统中将背景音与文本语音混合输出的方法
CN101118746A (zh) * 2007-09-17 2008-02-06 腾讯科技(深圳)有限公司 基于双声道音频数据标定的方法及多人语音通话系统
CN102005206A (zh) * 2010-11-16 2011-04-06 上海华平信息技术股份有限公司 多路音频的混音方法
CN103237258A (zh) * 2013-03-29 2013-08-07 天脉聚源(北京)传媒科技有限公司 一种视频音量自动调节的系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584979A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合系统中将背景音与文本语音混合输出的方法
CN101118746A (zh) * 2007-09-17 2008-02-06 腾讯科技(深圳)有限公司 基于双声道音频数据标定的方法及多人语音通话系统
CN102005206A (zh) * 2010-11-16 2011-04-06 上海华平信息技术股份有限公司 多路音频的混音方法
CN103237258A (zh) * 2013-03-29 2013-08-07 天脉聚源(北京)传媒科技有限公司 一种视频音量自动调节的系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680571A (zh) * 2017-10-19 2018-02-09 百度在线网络技术(北京)有限公司 一种歌曲伴奏方法、装置、设备和介质
CN111435600A (zh) * 2019-01-15 2020-07-21 北京字节跳动网络技术有限公司 用于处理音频的方法和装置
WO2020147522A1 (zh) * 2019-01-15 2020-07-23 北京字节跳动网络技术有限公司 用于处理音频的方法和装置
CN111435600B (zh) * 2019-01-15 2021-05-18 北京字节跳动网络技术有限公司 用于处理音频的方法和装置

Similar Documents

Publication Publication Date Title
US9918174B2 (en) Wireless exchange of data between devices in live events
CN109313909B (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
US20050244011A1 (en) Method and apparatus to measure sound quality
CN108597498A (zh) 一种多麦克风语音采集方法及装置
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
CN108766454A (zh) 一种语音噪声抑制方法及装置
CN103050126A (zh) 音频信号处理设备、音频信号处理方法及程序
FR2862799A1 (fr) Dispositif et methode perfectionnes de spatialisation du son
CN106537889A (zh) 从耳机输出扬声器的听觉测量
CN107533848B (zh) 用于话音恢复的系统和方法
CN107293308A (zh) 一种音频处理方法及装置
US20050244015A1 (en) Method and apparatus to evaluate sound quality according to a measuring mode
CN101165779B (zh) 信息处理装置和方法、程序及记录介质
CN105807932A (zh) 一种调整电子设备输出数据的方法及电子设备
CN106952642A (zh) 音频合成的方法和装置
CN113329315A (zh) 音频播放设备的检测方法、装置、设备及存储介质
CN109997186A (zh) 一种用于分类声环境的设备和方法
CN110739006B (zh) 音频处理方法、装置、存储介质及电子设备
Shabtai et al. Room volume classification from room impulse response using statistical pattern recognition and feature selection
CN108573718A (zh) 一种车载播放器
CN101378606A (zh) 听筒漏声的测试方法及系统
CN115130754A (zh) 一种基于XGBoost的储层渗透率预测方法
CN114420153A (zh) 音质调整方法、装置、设备及存储介质
CN103916433A (zh) 一种卡拉ok数据处理方法、装置、物联网服务平台及终端
CN109495786B (zh) 视频处理参数信息的预配置方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170714

RJ01 Rejection of invention patent application after publication