CN101740034A - 一种实现声音变速不变调方法及变速变调系统 - Google Patents

一种实现声音变速不变调方法及变速变调系统 Download PDF

Info

Publication number
CN101740034A
CN101740034A CN200810202193A CN200810202193A CN101740034A CN 101740034 A CN101740034 A CN 101740034A CN 200810202193 A CN200810202193 A CN 200810202193A CN 200810202193 A CN200810202193 A CN 200810202193A CN 101740034 A CN101740034 A CN 101740034A
Authority
CN
China
Prior art keywords
variation
tone
speed
data
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810202193A
Other languages
English (en)
Inventor
刘盛举
郝桂堂
周琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200810202193A priority Critical patent/CN101740034A/zh
Publication of CN101740034A publication Critical patent/CN101740034A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种实现声音变速变调的系统,该系统由以下4个部分组成:输入缓存模块,将待处理声音信号数据读入缓存;变调处理模块,对声音信号进行变调处理以改变声音的音调;变速不变调处理模块,对声音信号进行变速不变调处理,以改变语速但音调不变;数据输出模块,把上述变速变调信号输出。变速不变调处理模块包括分割数据模块,采用窗口函数,根据变速系数从原始语音信号中提取出一串信号子系列(即小段声音);和连接数据模块,将这些信号子系列按它们的时间先后顺序连接起来就得到变速不变调信号。本发明的优点在于以非常低的算法复杂度实现了音频的变速不变调功能和变速变调功能,并不引入噪声,提高了处理后的声音质量。

Description

一种实现声音变速不变调方法及变速变调系统
技术领域
本发明涉及声音信号处理技术领域,具体涉及一种实现声音变速不变调的方法及其声音变速变调的系统。
背景技术
变调的过程实际上是将声音的频谱进行收缩或者扩展,同时原先各谐波成分之间的关系仍然保留;变调需借助于一定的算法实现。现在变调算法主要分为时域算法和频域算法两大类。频域算法是先对数字声音信号进行傅立叶变换运算,将数字语音信号转换成频域的频谱信号,对此频谱信号平移一差值,以改变数字语音信号的频谱,再对此频谱信号进行反傅立叶变换运算转成时域的数字语音信号,即可达成产生变调数字语音信号。但是,该方法实现的变调效果会带有金属声。原因在于频率的搬移并不是频率的线性变化。频域算法的另一种方法是在频域上用线性内插的方法来实现频率的提高与降低,从而实现声调的变化。这个方法的缺点在于:内插的方法会引入不需要的频率。特别是在某些能量大的频点,假设要升2倍频,将会引入一些能量为原频点能量一半的频率分量。这些频率分量会大大影响音频的音质。而且这些频率分量与原来有用的频率贴得很近,若要进行滤波也较麻烦。另外,上述两种方法需要进行傅立叶变换及其反变换,运算量较大。这两种比较适合大比例的音调改变,不过变调之后的声音的自然度较低。时域算法一般采用变速加变采样率的方法实现。
变速即对信号进行变速不变声的处理,也就是将一段声音的持续时间拉长或者缩短,而声音的音调不变。现在实现声音变速的方法几乎都是在时域进行的,都是对原始信号进行删除或者插入,使信号变短或变长,从而实现声音的快放或者慢放。国际专利PCT(申请号PCT/CN96/00074)和两个中国专利(公开号为CN1197976和CN1920951)认为音频信号系统可以认为是由音元所组成;音元作为一种包含独立、完整基本信息元素的最基本结构单元,可认为是一种声音分子;声音分子(音元)的不同排列、组合形式构成了不同的声源;结构、性状相同或相近的声音分子的多次重复、组合构成同一个音;紧密连接的不同音,其内的音元从一种形态变化到另一种形态是一种渐变的而非突变的过程。对于音频信号,进行以音元为基本处理(分割)单位的切割,然后在切割点处插入信息单元(比如,在切割点处插入所被切割的音元本身),使原信号的长度增长;或在切割点处,删去性状相同或相近的音元中的一个或几个,使原信号的长度缩短,从而实现对音频信号的变慢或变快放音,并获得的变速不变调放音效果。这种方法的关键点是寻找最佳匹配区。寻找最佳匹配区的方法一般有最大互相关系数法、最大归一化互相关系数法、最小平均幅度差系数法三种。众所周知,在求最大互相关系数、最大归一化互相关系数、或者最小平均幅度差系数时都要经过大量的运算,这极度增大了实现算法的复杂度,不利于变速不变调的实时性。同时,这些发明在处理两帧的连接处时把两帧数据直接连接,使得连接处不平滑而引入噪声。
发明内容
本发明的目的在于提供一种实现声音变速不变调的方法,以复杂度非常低的算法实现了声音变速不变调效果,同时保持了原始声音的自然度。
为了实现这一目的,本发明的技术方案为:一种实现声音变速不变调的方法,其特征在于该方法的技术方案包含4个主要步骤:A.输入缓存:对将要被处理的原始音频信号读入缓存中;B.分割数据:采用窗口函数,根据变速系数从原始语音信号中提取出一串信号子系列(即小段声音);C.连接数据:将这些信号子系列按它们的时间先后顺序连接起来就得到变速不变调信号;D.输出缓存:把处理过的音频信号输出出去。在分割数据时,所用到的窗口函数通过下面的方式构造:
w ( n ) = &beta; ( n ) , 0 &le; n < l T 1 , l T &le; n < l e &beta; ( l w - 1 - n ) , l e &le; n < l w - - - ( 1 )
并且,当0≤n<lT时,
0≤β(n)<β(n+1)≤1    (2)
β(n)是三角窗、Hanning窗、Hammiing窗、或者是Blackman窗的前半部分,或者是正弦窗的半部分或者是满足式(2)的其他数列;lw为窗口长度;le为一个窗口中有效数据的长度,在此被定义为窗口中权值大于0.5的数据长度;lT为窗口的过渡段的长度;lw和le,lT之间的关系如下:
lw=le+lT    (3)。
假设一次读入缓存的数据的采样数为l,当l>2lw时,利用式(1)定义的窗口把读入的音频信号分割成多个信号子系列,相邻子系列的起始位置之间的距离ls计算方式如下:
ls=le·α    (4)
其中,α为变速系数,当α>1时,声音加速;当0<α<1时,声音放慢。
当l≤2lw时,把读入的音频信号分割成两个信号子系列,分割方式是:①当α>1时,前一子系列为从本次读出数据的最前面的,长度为l/α的数据(但最后lT个采样与窗口系列式(1)中尾部lT个数据相乘),后一子系列为本次读出数据的最后的,长度为lT的那段数据(但头部的lT个采样与窗口系列式(1)的头部lT个数据相乘);②当0.5<α<1时,前一子系列为从本次所读出的数据本身(但最后lT个采样与窗口系列式(1)中尾部lT个数据相乘);后一子系列为本次读出数据的最后的、长度为lend=l·(1/α-1)+lT的那段数据,如果lend>l,则利用前一次读入数据的最后长度为ld=lend-l补足,并且头部的lT个采样与窗口系列式(1)的头部lT个数据相乘。
连接数据是把分割出来的子系列按照它们的时间先后顺序连接起来,连接处的处理方式为:把前一子系列的尾部过渡数据与后一段数据的头部过渡数据相加,即假设前一子系列尾部长度为lT的数据系列为xj(0≤j<lT),后一子系列头部长度为lT的数据系列为yj(0≤j<lT),连接处的数据系列zj(0≤j<lT),那么,
zj=xj+yj    (5)
本发明的另一目的在于提供一种实现声音变速变调的系统,该系统以极低的复杂度算法实现了声音变速变调效果,同时保持了原始声音的自然度。
为了实现这一目的,本发明的技术方案为:一种实现声音变速变调的系统,该系统由以下4个部分组成:输入缓存模块,将待处理声音信号数据读入缓存;变调处理模块,对声音信号进行变调处理以改变声音的音调;变速不变调处理模块,对声音信号进行变速不变调处理,以改变语速但音调不变;数据输出模块,把上述变速变调信号输出。变调模块是利用重采样处理技术和低通滤波处理技术实现的。变速不变调处理模块包括分割数据模块,根据变速系数利用窗口函数从原始语音信号中提取出一串信号子系列(即小段声音);和连接数据模块,将这些信号子系列按它们的时间先后顺序连接起来。
由于变调处理技术与变速不变调处理技术是相互独立的,所有在本发明中实现变速变调系统时有两种情况:(1)先对原始音频信号进行变调处理以得到变调信号,再对变调信号进行变速不变调处理,这样就得到所期望的变速变调信号;(2)先对原始音频信号进行变速不变调处理,以得到变速信号,再对变速信号进行变调处理,这样也得到所期望的变速变调信号。
本发明的优点在于以很低算法复杂度实现了音频的变速不变调功能和变速变调功能,并不引入噪声,提高了处理后的声音质量。
附图说明
图1为适用于本发明的系统环境;
图2为本发明的典型的应用实例
图3为常见的声音频率(基音频率);
图4为静音门槛曲线;
图5为遮蔽门槛曲线;
图6为原始信号分段图;
图7为信号段连接图;
图8为窗口函数中相关参数之间的关系;
图9为本发明的声音变速不变调实施例1的算法流程图;
图10为本发明的声音变速不变调实施例2的算法流程图;
图11为本发明的声音变速变调系统实施例1的逻辑框图;
图12为本发明的声音变速变调系统实施例2的逻辑框图。
具体实施方式
在本发明的较佳实施例的下述描述中,参考了作为说明书一部分的附图进行描述,所述附图说明了本发明可以采用的特定实施例。本领域技术人员应该理解在不背离本发明精神的情况下,还可以使用其它实施例或对这些实施例进行修改。这都没有超出本发明的公开范围。
1.0示范工作环境以及应用
图1示出了可以实现本发明的一种合适的系统实例。该系统只是一个合适的系统实例,并不是要将本发明的使用和功能范围局限在该系统中,也不是要将系统解释为与示范硬件系统中所示部件之一或其组合具有联系或要求。
本发明可以在许多其它通用或专用系统环境或配置中工作。适用于本发明的系统、环境和/或配置的实例可以包括(但不局限于)多媒体计算机、MP3机、MP4机、数码学习机、VCD、DVD、KTV系统、家用音响系统,等等。
如图1所示,一种执行本发明的示范系统包括以数字多媒体系统形式出现的通用设备。该系统100的部件包括(但不局限于)处理单元114、系统存储器101和系统总线112,它将处理器114、系统存储器、输入设备117、输出设备、网络设备以及其他硬件模块109等连接在一起。输入设备117包括(但不局限于)鼠标、键盘、控制键板、或者调制解调器等,负责接收用户所输入的命令或者数据,它通过用户输入接口118接入系统;输出设备,如扬声器113,通过输出外围接口与接入系统;系统可以在使用物理连接一个或多个远程设备的联网环境中运行,该远程设备115可以是个人计算机、服务器、路由器、网络PC、对等设备。系统通常包括各种存放数据的可读媒体。这些媒体可以包括(但不局限于)存储媒体和通信媒体。存储媒体包括易失和非易失、可移动和非可移动媒体,比如RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储。这些媒体可以用于任何存储信息,例如可读指令、数据结构、程序模块或其它数据的方法或技术实现。通信媒体通常包含计算机可读指令、数据结构、程序模块或其它调制数据信号(例如载波)或其它传输机制中的数据,并且包括任何信息传递媒体。通信媒体包括(但不局限于)有线媒体例如有线网络或直线连接、以及无线媒体例如声音、RF、红外线和其它无线媒体。上述媒体的任意组合也应包含在可读媒体的范畴。系统中系统存储器中的音频解码模块105和挂在系统总线音频解码模块110的作用都是把经过压缩编码的音频流解码为PCM格式的数据,但105与110是有区别的,音频解码模块105是软件,它的运行效率与系统的处理器的主频有很大的关系,而音频解码模块110是音频解码的专用芯片,它的运行效率只与它自身的运算速度有关,通常来讲它的运行效率比较高。
本发明的典型应用如图2所示,这种应用包括(但不局限于)学习语言、唱歌、听音乐、练习唱歌等。其整个应用的功能模块包括用户输入模块202、输入缓存模块203、音频解码模块204、其他处理模块205、变速变调处理模块206、播放模块207。用户输入模块202用于接收用户设置各种参数,比如变调系数η和变速系数α,输入的方式可以包括(但不局限于)键盘输入、遥控器输入、按键输入等等;输入缓存模块203用于存放读入的、压缩的音频流,这些音频流的格式包括(但不局限于)包括MP3、RM、MPG、AC3等;音频解码模块204作用是把MP3、RM、MPG、AC3等格式的音频数据解码为数字声音的波形数据;其他处理模块205的作用是对解码出来的数据进行其他方面的处理,这些处理包括(但不局限于)重采样、调整音量等;变速变调处理模块206的作用是声音进行变速、变调方面的处理,其具体方法将在后面详细阐述;播放模块207的作用是数字声音信号进行D/A转换、前置放大、功率放大等处理,把声音播放出来。
现在,已经讨论了本发明的示范操作环境和示范应用,本说明书部分的剩余内容将致力于描述实现本发明的程序模块。
2.0音频的变速不变调处理方法
当人耳听到声音时,立即可以辨别是哪种声音。对应于这种辨认的听觉印象即为音色。音色主要决定于声音的频谱,即基音和各次谐音的组成,也和波形、声压及声音的时间特性有关系。如果将留声机的唱片反向转动,声音的频谱虽然未变,音色却显著改变了。这说明音色在很大程度上与各泛音在开始时和终了时振幅上升和下降的特点有关系。在这里,本发明先定义一个概念:音波——在某单一音色的声音的基波持续一个周期内,基波和它的所有谐次波所合成的波。本发明认为,人耳能够具体分辨出声音的条件是人耳必须听到一个以上的完整的音波。图3列出了一些常听到的声音的频率。从图中可以看出,人们常听到的声音的一个音波所持续的时间多则几十毫秒,少则一百微秒,但通常是几毫秒。在一列由多个音波组成的声音中,删除一个以上的音波后只要剩下的音波中还有完整的音波,或者在这列音波持续的时刻增加一个(以上)同样的音波,人耳就有可能把这种声音分辨出来。由于声音是由时间上错落有致的、大量的音波系列组成,每个音波列所持续的时间是有限的,长的则几秒甚至数分钟,短的则几十毫秒到几毫秒甚至一毫秒以下。图4显示的是静音门槛曲线,表示在安静的环境中,某一频率的声音被听见的条件是该声音的强度必须大于它所对应的静音门槛值。在嘈杂的环境中,并不是所有强度高于静音门槛曲线中相应门槛值的声音都能被听见,这是因为强度高的声音可能会遮蔽它频率附近的强度较低的声音而使得人们不能听见,如图5所示。这也就解释了为什么在吵闹的环境中,人们说话时都放大嗓门以便于让别人听清楚。
本发明实现声音的变速不变调的技术方案如下:
利用窗口函数从原始声音信号中分割出一串信号子系列(即小段声音),该一串信号子系列包括至少两个信号子系列,根据变速系数α不同,连续两个子系列有部分信号是交叉的(如图6中的601),或者没有交叉甚至相隔一段距离(如图6中的602);将这些信号子系列按它们的时间先后顺序连接起来就改变了声音数据长度(如图7中所示),从而实现了声音的慢放或快放——达到预期的效果。当α>1时,声音的速度被加快;0.5≤α<1时,声音的速度被放慢。
上述的窗口函数是这样构造的:
w ( n ) = &beta; ( n ) , 0 &le; n < l T 1 , l T &le; n < l e &beta; ( l w - 1 - n ) , l e &le; n < l w - - - ( 1 )
并且,当0≤n<lT时,
0≤β(n)<β(n+1)≤1    (2)
β(n)可以是三角窗、Hanning窗、Hammiing窗、或者Blackman窗等窗函数的前半部分,还可以是正弦窗的半部分或者是满足式(2)的其他数列;lw为窗口长度;le为一个窗口中有效数据的长度,在本发明中被定义为窗口中权值大于0.5的数据长度;lT为窗口的过渡段的长度;如图8所示,lw和le,lT之间的关系如下:
lw=le+lT    (3)
按照式(1)构造的窗函数就是一个低通滤波器。在利用窗口函数去分割原始声音信号时,不可避免地会把一些音波一分为二,而产生新的音波。为了使新音波形成的声音的强度远低于它的静音门槛值,这要求β(n)变化平坦,即要求lT足够大。通常,lT取10ms左右即可。从发声机理知,一个完整的音包含有产生、发展、消亡的过程。与此相对应,构成该声音的音波系列也有产生、发展(成长)、消亡(演变)的变化过程及形态,即持续一段时间。窗口长度lw是影响变速效果的一个重要因素,如果帧长选择的太小,很多音波被破坏引起低频部分失真,如果lw选择过大又会引入不连续的回声。经过大量的测试,具体实施时窗口长度lw(即帧长)选择30ms~40ms为宜。
2.1变速不变调的方法的实施例1
当系统有很大的内存可用并且一下子可以处理完所有音频数据时,本发明涉及到的变速不变调处理的系统流程的实施例1如图7所示,在本实施例中,把原始信号一下子读入到输入缓存区,根据变速系数,利用本发明中所述的窗口函数从原始声音信号分割出一联串的信号子系列(即小段声音),再将这些信号子系列按它们的时间先后顺序连接起来就能得到所期望的信号。其具体步骤如下:
步骤901,系统初始化:根据声音信号的采样率和所要求的变速系数计算出窗口长度(即窗口函数的点数)以及按照式(1)构造窗口函数,和相邻段数据的起始位置之间的距离。由于一次读入缓存的数据的采样数为l>2lw,其中lw为窗口长度,因此相邻段数据的起始位置之间的距离ls计算方式如下:
ls=le·α    (4)
步骤902,输入缓存:把所有原始信号数据读入缓存;
步骤903,分割数据:采用加窗的方式从原始信号数据中提出一联串的信号子系列(即小段声音),前后两个子系列在原始信号中的距离由式(4)确定,而窗口函数由式(1)构造。
步骤904,连接数据:根据每段信号在时间上的先后顺序把步骤903得到的子系列连接起来,这就形成所求的变速信号。相邻的子系列的连接方式为:把前一子系列的窗口尾部过渡数据与后一子系列的窗口头部过渡数据相加,即假设第i段窗口尾部过渡数据系列为xj(0≤j<lT),第i+1段窗口头部过渡数据系列为yj(0≤j<lT),相应生成的数据zj,那么,
zj=xj+yj    (5)
步骤905,数据输出:把经过上述几个步骤处理得到变速不变调信号输出。
步骤906,结束。
2.2变速不变调的方法的实施例2
当系统的可用内存很小或者需要实时处理时,这时一次读入缓存的数据的采样数l≤2lw,因此每次读入一帧原始信号数据,把它处理成两段,将这两段数据连接就能得到变速的信号。具体实施方法如图10所示,其步骤如下:
步骤1001,系统初始化:与实施例1中的步骤901相同。
步骤1002,输入数据:读取帧长为l原始信号数据到输入数据模块中,其中数据长度l计算方法如下
当变速系数α>1时,
l=le·α
当变速系数0.5≤α<1时,
l=le
步骤1003,分割数据:对步骤702读入的原始信号数据分割为两段,分割的方法如下:
当变速系数α>1时,前一段数据为从本次读出数据的最前面的,长度为le的数据;后一段数据为本次读出数据的最后的,长度为lT的那段数据。
当变速系数0.5≤α<1时,前一段数据为从本次所读出的数据本身;后一段数据为本次读出数据的最后的、长度为lend=le·(1/α-1)+lT的那段数据,如果lend>le,则需要利用前一次读入数据的最后长度为ld=lend-le补足。
步骤1004,连接数据:把步骤1003所得到的两段数据连接起来。连接处的处理方式为:把前一段数据的窗口尾部过渡数据与后一段数据的窗口头部过渡数据相加,即假设前一段数据尾部长度为lT的数据系列为xj(0≤j<lT),后一段数据头部长度为lT的数据系列为yj(0≤j<lT),连接处的数据系列zj(0≤j<lT),本发明中所述窗口函数(式(1))系列的最后长为lT的系列为β(0≤j<lT),那么,
zj=xj·β(le+j)+yj·[1-β(le+j)],(0≤j<lT)    (6)
其中,β(j)为本发明中定义的窗口函数(式(1))。
步骤1005,数据输出:把经过上述几个步骤处理得到信号输出。
步骤1006,转到步骤1002,接着处理下一帧数据。
步骤1007,结束。
2.3超慢速播放处理方法
当α≤0.5时,播放的速度非常慢,其处理方式是将分割数据得到数据重复1/α次,再把它们采用上述的方法连结起来,这样就可以达到所期望的语速。为此,这里不再详述。
大量实验表明,本发明提出的方法对于变速系数α为0.5~2内的变速处理都能获得非常好的处理效果,不引入噪声,同时实现了声音的保真。
3.0音频信号的变速变调系统
本发明的音频信号的变速变调系统由以下4个部分组成:输入缓存模块,将待处理声音信号数据读入缓存;变调处理模块,先利用离散信号的重采样的方法对声音进行重采样,使声音的频谱收缩或者扩张,再对经过重采样的信号进行低通滤处理就达到变调的效果;变速不变调处理模块,对声音信号进行变速不变调处理,以改变语速但音调不变;数据输出模块,把上述变速变调信号输出。其中变速不变调处理模块包括分割数据模块,采用窗口函数,根据变速系数从原始语音信号中提取出一串信号子系列(即小段声音);和连接数据模块,将这些信号子系列按它们的时间先后顺序连接起来就得到变速不变调信号。
假设变调系数是η:当η>1时,表示升调;当η<1时,表示降调。变速系数是α,那么在对音频信号进行变速处理时,变速系数将变为α′=α/η,其中α是原来的变速系数。从上述可知,有两种实现变速不变调的方法。方法一如图11所示,先对原始音频信号进行变调系数为η的重采样和低通滤波处理1103,在对低通滤波后的信号进行变速系数为α′的变速处理1104,这样达到变调系数为η、变速系数为α的变速变调效果。方法二如图12所示:先对原始音频信号进行变速系数为α′的变速处理1203,再变速信号进行变调系数为η的重采样和低通滤波处理1204,这样也能达到变调系数为η、变速系数为α的变速变调效果。
以上所述仅为本发明的过程及方法实施例,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种实现声音变速不变调的方法,其特征在于该方法的技术方案包含4个主要步骤:
A.输入缓存:对将要被处理的原始音频信号读入缓存中;
B.分割数据:采用窗口函数,根据变速系数从原始语音信号中提取出一串信号子系列(即小段声音);
C.连接数据:将这些信号子系列按它们的时间先后顺序连接起来就得到变速不变调信号;
D.输出缓存:把处理过的音频信号输出出去。
2.如权利要求1所述的声音变速不变调的方法,其特征在于分割数据步骤利用窗口函数分割待变速声音信号,其中窗口函数通过下面的方式构造:
w ( n ) = { &beta; ( n ) , 0 &le; n < l T 1 , l T &le; n < l e &beta; ( l w - 1 - n ) , l e &le; n < l w - - - ( 1 )
并且,当0≤n<lT时,
0≤β(n)<β(n+1)≤1    (2)
β(n)是三角窗、Hanning窗、Hammiing窗、或者是Blackman窗的前半部分,或者是正弦窗的半部分或者是满足式(2)的其他数列;lw为窗口长度;le为一个窗口中有效数据的长度,在此被定义为窗口中权值大于0.5的数据长度;lT为窗口的过渡段的长度;lw和le,lT之间的关系如下:
lw=le+lT    (3)
3.如权利要求2所述的声音变速变调的方法,其特征在于:一次读入缓存的数据的采样数为l,l>2lw,利用式(1)定义的窗口把读入的音频信号分割成多个信号子系列,相邻子系列的起始位置之间的距离ls计算方式如下:
ls=le·α  (4)。
其中,α为变速系数,当α>1时,声音加速;当0<α<1时,声音放慢。
4.如权利要求2所述的声音变速变调的方法,其特征在于:一次读入缓存的数据的采样数为l,l≤2lw,把读入的音频信号分割成两个信号子系列,分割方式是:①当α>1时,前一子系列为从本次读出数据的最前面的,长度为l/α的数据(但最后lT个采样与窗口系列式(1)中尾部lT个数据相乘),后一子系列为本次读出数据的最后的,长度为lT的那段数据(但头部的lT个采样与窗口系列式(1)的头部lT个数据相乘);②当0.5≤α<1时,前一子系列为从本次所读出的数据本身(但最后lT个采样与窗口系列式(1)中尾部lT个数据相乘);后一子系列为本次读出数据的最后的、长度为lend=l(1/α-1)+lT的那段数据,如果lend>l,则利用前一次读入数据的最后长度为ld=lend-l补足,并且头部的lT个采样与窗口系列式(1)的头部lT个数据相乘。
5.如权利要求1所述的声音变速不变调的方法,其特征在于:把分割出来的子系列按照它们的时间先后顺序连接起来,连接处的处理方式为:把前一子系列的尾部过渡数据与后一段数据的头部过渡数据相加,即假设前一子系列尾部长度为lT的数据系列为xj(0≤j<lT),后一子系列头部长度为lT的数据系列为yj(0≤j<lT),连接处的数据系列zj(0≤j<lT),那么,
zj=xj+yj    (5)。
6.一种声音变速、变调系统,其特征在于:该系统由以下4个部分组成:输入缓存模块,将待处理声音信号数据读入缓存;变调处理模块,对声音信号进行变调处理以改变声音的音调;变速不变调处理模块,对声音信号进行变速不变调处理,以改变语速但音调不变;数据输出模块,把上述变速变调信号输出。
7.如权利要求6所述的声音变速、变调系统,其特征在于:变速不变调处理模块包括分割数据模块,采用窗口函数,根据变速系数从原始语音信号中提取出一串信号子系列(即小段声音);和连接数据模块,将这些信号子系列按它们的时间先后顺序连接起来就得到变速不变调信号。
8.如权利要求7所述的声音变速、变调系统,其特征在于分割数据模块利用窗口函数分割待变速声音信号,其中窗口函数通过下面的方式构造:
w ( n ) = { &beta; ( n ) , 0 &le; n < l T 1 , l T &le; n < l e &beta; ( l w - 1 - n ) , l e &le; n < l w - - - ( 6 )
并且,当0≤n<lT时,
0≤β(n)<β(n+1)≤1   (7)
β(n)是三角窗、Hanning窗、Hammiing窗、或者是Blackman窗的前半部分,或者是正弦窗的半部分或者是满足式(2)的数列;lw为窗口长度;le为一个窗口中有效数据的长度,在此被定义为窗口中权值大于0.5的数据长度;lT为窗口的过渡段的长度;lw和le,lT之间的关系如下:
lw=le+lT    (8)。
9.如权利要求6所述的实现声音变速变调的方法,其特征在于:变调处理是在时域进行的,先对音频信号进行重采样使声音的频谱收缩或扩展,再对该信号进行低通滤波处理,从而达到变调的效果,η为变调系数:当η>1时,表示升调;当η<1时,表示降调。那么在对音频信号进行变速处理时,变速系数将变为α′=α/η。
CN200810202193A 2008-11-04 2008-11-04 一种实现声音变速不变调方法及变速变调系统 Pending CN101740034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810202193A CN101740034A (zh) 2008-11-04 2008-11-04 一种实现声音变速不变调方法及变速变调系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810202193A CN101740034A (zh) 2008-11-04 2008-11-04 一种实现声音变速不变调方法及变速变调系统

Publications (1)

Publication Number Publication Date
CN101740034A true CN101740034A (zh) 2010-06-16

Family

ID=42463410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810202193A Pending CN101740034A (zh) 2008-11-04 2008-11-04 一种实现声音变速不变调方法及变速变调系统

Country Status (1)

Country Link
CN (1) CN101740034A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103632672A (zh) * 2012-08-28 2014-03-12 腾讯科技(深圳)有限公司 一种变声系统、方法及人机交互系统及方法
CN105208426A (zh) * 2015-09-24 2015-12-30 福州瑞芯微电子股份有限公司 一种音视频同步变速的方法及系统
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN105741852A (zh) * 2014-12-11 2016-07-06 司法部司法鉴定科学技术研究所 注意力自适应音频时域调整方法
CN106328111A (zh) * 2016-08-22 2017-01-11 广州酷狗计算机科技有限公司 音频处理方法及装置
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN107305767A (zh) * 2016-04-15 2017-10-31 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN108366299A (zh) * 2018-03-29 2018-08-03 上海七牛信息技术有限公司 一种媒体播放方法以及装置
CN110364177A (zh) * 2019-07-11 2019-10-22 努比亚技术有限公司 语音处理方法、移动终端及计算机可读存储介质
CN111639226A (zh) * 2020-05-13 2020-09-08 腾讯音乐娱乐科技(深圳)有限公司 一种歌词显示方法、装置及设备

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074239B (zh) * 2010-12-23 2012-05-02 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN103258539B (zh) * 2012-02-15 2015-09-23 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103632672B (zh) * 2012-08-28 2017-03-22 腾讯科技(深圳)有限公司 一种变声系统、方法及人机交互系统及方法
CN103632672A (zh) * 2012-08-28 2014-03-12 腾讯科技(深圳)有限公司 一种变声系统、方法及人机交互系统及方法
CN105741852A (zh) * 2014-12-11 2016-07-06 司法部司法鉴定科学技术研究所 注意力自适应音频时域调整方法
CN105741852B (zh) * 2014-12-11 2020-07-24 司法鉴定科学研究院 注意力自适应音频时域调整方法
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN105208426A (zh) * 2015-09-24 2015-12-30 福州瑞芯微电子股份有限公司 一种音视频同步变速的方法及系统
CN105208426B (zh) * 2015-09-24 2018-07-06 福州瑞芯微电子股份有限公司 一种音视频同步变速的方法及系统
CN107305767B (zh) * 2016-04-15 2020-03-17 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN107305767A (zh) * 2016-04-15 2017-10-31 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN106328111A (zh) * 2016-08-22 2017-01-11 广州酷狗计算机科技有限公司 音频处理方法及装置
CN106328111B (zh) * 2016-08-22 2018-09-04 广州酷狗计算机科技有限公司 音频处理方法及装置
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN107068160B (zh) * 2017-03-28 2020-04-28 大连理工大学 一种语音时长规整系统及方法
CN108366299A (zh) * 2018-03-29 2018-08-03 上海七牛信息技术有限公司 一种媒体播放方法以及装置
CN110364177A (zh) * 2019-07-11 2019-10-22 努比亚技术有限公司 语音处理方法、移动终端及计算机可读存储介质
CN111639226A (zh) * 2020-05-13 2020-09-08 腾讯音乐娱乐科技(深圳)有限公司 一种歌词显示方法、装置及设备

Similar Documents

Publication Publication Date Title
CN101740034A (zh) 一种实现声音变速不变调方法及变速变调系统
JP4245060B2 (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
CN108831437B (zh) 一种歌声生成方法、装置、终端和存储介质
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
JP4701684B2 (ja) 音声処理装置およびプログラム
CN105659630A (zh) 用于处理多媒体信号的方法和设备
ATE336775T1 (de) Intelligente text-sprache-umsetzung
RU2003129075A (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи
JP6783339B2 (ja) 音声を処理する方法及び装置
CN104575487A (zh) 一种语音信号的处理方法及装置
CN101635160A (zh) 音乐频谱分析方法、音乐频谱显示装置和音乐播放装置
CN104916284A (zh) 用于语音合成系统的韵律与声学联合建模的方法及装置
CN103109317A (zh) 掩蔽声音输出装置和掩蔽声音输出方法
CN111312208A (zh) 一种说话人不相干的神经网络声码器系统
US20240177726A1 (en) Speech enhancement
CN113724683A (zh) 音频生成方法、计算机设备及计算机可读存储介质
CN112037755A (zh) 一种基于音色克隆的语音合成方法、装置及电子设备
JPH0993135A (ja) 発声音データの符号化装置及び復号化装置
CN105023574A (zh) 一种实现合成语音增强的方法及系统
Hanna et al. Time scale modification of noises using a spectral and statistical model
CN1708785B (zh) 带宽扩展装置及方法
Hasan et al. An approach to voice conversion using feature statistical mapping
CN111435591A (zh) 声音合成方法及系统、音频处理芯片、电子设备
Okamoto Multilingual sound sopt synthesis systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100616