CN110189743A - 波形拼接中的拼接点平滑方法、装置及存储介质 - Google Patents

波形拼接中的拼接点平滑方法、装置及存储介质 Download PDF

Info

Publication number
CN110189743A
CN110189743A CN201910370819.XA CN201910370819A CN110189743A CN 110189743 A CN110189743 A CN 110189743A CN 201910370819 A CN201910370819 A CN 201910370819A CN 110189743 A CN110189743 A CN 110189743A
Authority
CN
China
Prior art keywords
frequency
phase
amplitude
voice
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910370819.XA
Other languages
English (en)
Other versions
CN110189743B (zh
Inventor
彭话易
程宁
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910370819.XA priority Critical patent/CN110189743B/zh
Publication of CN110189743A publication Critical patent/CN110189743A/zh
Application granted granted Critical
Publication of CN110189743B publication Critical patent/CN110189743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及语音信号处理领域,提出一种波形拼接中的拼接点平滑方法,应用于电子装置,方法包括:确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号段;通过窗函数对两个语音信号段分别进行加窗处理,获取分别对应的短时分析信号;基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;对新的振幅、相位和频率进行正弦波合成,获取新的语音信号段。本发明通过正弦模型对语音单元数据进行分析,将拼接处的语音信号表示为一系列的正弦波之和,能够保证合成语音的平滑过渡,有助于提高合成语音的自然度。

Description

波形拼接中的拼接点平滑方法、装置及存储介质
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种波形拼接中的拼接点平滑方法、装置及计算机可读存储介质。
背景技术
波形拼接技术是一种应用于语音合成系统当中的技术。该技术通过拼接提前录音好的单元语音数据,合成所需要的语音。其中,PSOLA技术是一种基音同步的语音分析/合成技术,首先需要准确的基音周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次,PSOLA技术是一种简单的波形映射拼接合成,这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决。
此外,用于拼接的单元语音数据往往会存在频率或者音高上的差别,因此在使用TD-PSOLA算法拼接后,会带来合成语音频谱上的不连续,而在音高的修正比较大的时候这种不连续会非常明显,表现为合成语音有卡拉声。再加上汉语是一种有调语言,音调的变化较大,因此不连续的情况会更加的明显。
发明内容
本发明提供一种波形拼接中的拼接点平滑方法、电子装置及计算机可读存储介质,其主要目的在于通过正弦模型对语音单元数据进行分析,将拼接处的语音信号表示为一系列的正弦波之和,能够保证合成语音的平滑过渡,有助于提高合成语音的自然度。
为实现上述目的,本发明提供一种波形拼接中的拼接点平滑方法,应用于电子装置,所述方法包括:
确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号段;
通过窗函数对两个所述语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对所述新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将所述新的语音信号段插入所述待拼接的两个语音单元之间,完成波形拼接处理。
优选地,所述两个语音单元分别为第一语音单元和第二语音单元,所述两个语音信号段分别为第一语音信号段和第二语音信号段;
所述拼接点为所述第一语音单元的尾部和所述第二语音单元的头部;
所述第一语音信号段为所述第一语音单元的尾部的连续两个周期内的语音信号,所述第二语音信号段为所述第二语音单元的头部的连续两个周期内的语音信号。
优选地,所述对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
基于多项式插值公式获取初步的差值振幅、差值相位和差值频率;
所述多项式差值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定;
基于距离权重对所述差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
所述权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
优选地,所述基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率的步骤包括:
通过所述短时傅里叶变换公式将所述两个短时分析信号拆分为一系列的正弦分量,并根据所述正弦分量获取对应的振幅、相位和频率;
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
优选地,所述对新的振幅、相位和频率进行正弦波合成的步骤通过下面的公式实现:
其中,f(x)为基于新的振幅、新的相位和新的频率合成的正弦波,Y(x)为n个正弦波之和表示的语音信号段;A为所述语音信号段的振幅,ω为角速度,为的相位,n表示正弦分量的个数。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,所述存储器中包括波形拼接中的拼接点平滑程序,所述波形拼接中的拼接点平滑程序被所述处理器执行时实现如下步骤:
确定取待拼接的两个语音单元的拼接点,分别截两个拼接点处的预设长度的语音信号段;
通过窗函数对两个所述语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对所述新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将所述新的语音信号段插入所述待拼接的两个语音单元之间,完成波形拼接处理。
优选地,所述两个语音单元分别为第一语音单元和第二语音单元,所述两个语音信号段分别为第一语音信号段和第二语音信号段;
所述拼接点为所述第一语音单元的尾部和所述第二语音单元的头部;
所述第一语音信号段为所述第一语音单元的尾部的连续两个周期内的语音信号,所述第二语音信号段为所述第二语音单元的头部的连续两个周期内的语音信号。
优选地,所述对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
基于多项式插值公式获取初步的差值振幅、差值相位和差值频率;
所述多项式插值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定;
基于距离权重对所述差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
所述权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
优选地,所述基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率的步骤包括:
通过所述短时傅里叶变换公式将所述两个短时分析信号拆分为一系列的正弦分量,并根据所述正弦分量获取对应的振幅、相位和频率;
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括波形拼接中的拼接点平滑程序,所述波形拼接中的拼接点平滑程序被处理器执行时,实现如上所述的波形拼接中的拼接点平滑方法中的任意步骤。
本发明提出的波形拼接中的拼接点平滑方法、电子装置及计算机可读存储介质,通过使用正弦模型对语音单元数据进行分析,将拼接处的语音信号(头部或尾部两个周期的波)表示为具有不同幅值和相位的一系列正弦波之和,再用各弦波的幅度和相位进行插值,获取新的幅值、相位和频率数据,最后通过正弦模型及新的幅值、相位和频率数据生成新的语音信号并插入到拼接处,能够保证合成语音的各弦波分量的幅度和相位平滑过渡,有助于提高合成语音的自然度。
附图说明
图1为根据本发明波形拼接中的拼接点平滑方法具体实施例的应用环境示意图;
图2为图1中波形拼接中的拼接点平滑程序具体实施例的模块示意图;
图3为本发明波形拼接中的拼接点平滑方法具体实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种波形拼接中的拼接点平滑方法,应用于一种电子装置1。参照图1所示,为根据本发明波形拼接中的拼接点平滑方法具体实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的波形拼接中的拼接点平滑程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行波形拼接中的拼接点平滑程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及波形拼接中的拼接点平滑程序10;处理器12执行存储器11中存储的波形拼接中的拼接点平滑程序10时实现如下步骤:
确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号段;
通过窗函数对两个语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将新的语音信号段插入待拼接的两个语音单元之间,完成波形拼接处理。
具体地,两个语音单元分别为第一语音单元和第二语音单元,截取的两个语音信号段分别为第一语音信号段和第二语音信号段,预设长度可以设置为两个周期;当拼接点为第一语音单元的尾部和第二语音单元的头部;第一语音信号段为第一语音单元的尾部的连续两个周期内的语音信号,第二语音信号段为第二语音单元的头部的连续两个周期内的语音信号。同理,当拼接点为第一语音单元的头部和第二语音单元的尾部;第一语音信号段为第一语音单元的头部的连续两个周期内的语音信号,第二语音信号段为第二语音单元的尾部的连续两个周期内的语音信号。
其中,所述窗函数可以为汉宁窗或者汉明窗,窗函数的长度大于一个语音信号的周期,具体可采用25ms。
进一步地,汉宁窗又称升余弦窗,汉宁窗可以看作是3个矩形时间窗的频谱之和,或者说是3个sinc(t)型函数之和,而括号中的两项相对于第一个谱窗向左、右各移动了π/t,从而使旁瓣互相抵消,消去高频干扰和漏能。可以看出,汉宁窗主瓣加宽并降低,旁瓣则显著减小,从减小泄漏观点出发,汉宁窗优于矩形窗.但汉宁窗主瓣加宽,相当于分析带宽加宽,频率分辨力下降。另外,汉明窗也是余弦窗的一种,又称改进的升余弦窗。汉明窗与汉宁窗只是在加权系数上存在差异。汗明窗加权的系数能使旁瓣达到更小。分析表明,海明窗的第一旁瓣衰减为42dB。海明窗的频谱也是由3个矩形时窗的频谱合成,其旁瓣衰减速度为20dB/(10oct),比汉宁窗衰减速度慢。
具体可根据待处理的语音信号或者设计要求选择汉宁窗、汉明窗或者高斯窗等等。
其中,对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
步骤一:基于多项式插值获取初步的差值振幅、差值相位和差值频率。
步骤二:基于距离权重对差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率。
其中,多项式插值是指用插值多项式φ(t)的极小点逼近寻求函数f(t)的极小点的方法,具体做法是:求φ′(t)的根,作为f(t)的极小点的近似,重复应用这一方法进行迭代计算,直到得出满足事先给出的精度要求为止。用二次多项式逼近f(t),称为二次插值法,用三次多项式逼近f(t),称为三次插值法。
在本发明中,为消除幅值和相位的不连续,需要对分离出来的幅值和相位的进行插值,构造出新的幅值和相位,用于之后的正弦波合成。在这里,我们以三次多项式插值的方法为例进行说明。另外由于会构造多个语音信号,为了使构造的语音信号也能够平滑的进行变换,我们使其周期随着距离变化而变化。
具体地,三次多项式插值公式为:
P(t)=B1+B2*t+B3*t2+B4*t3
其中,B1、B2、B3、B4分别为待定系数,通过相关语音单元的输入样本求得。在获取到各B值(B1、B2、B3、B4)之后,我们就可通过输入不同的变量t得到新的插值P(t)。其中,t的取值与采样点的个数相关,例如,当语音单元中有10个采样点时,t的取值为0、1、2、3、4…10。通过这些采样点,可计算出各B的值,如通过8个采样点去表示语音单元的分布,则t的取值可以为0、1.25、2.5…10。(这个公式为三次样条插值方法)我们同时对上步骤获取的与两个语音信号分别对应的振幅、相位和频率进行插值处理,获取新的振幅,新的相位和新的频率。
在步骤一基于多项式插值公式获取初步的差值振幅、差值相位和差值频率中;
多项式插值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定。
在步骤二中,基于距离权重对差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
作为示例,基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率的步骤包括:
通过所述短时傅里叶变换公式将两个短时分析信号拆分为一系列的正弦分量,并根据正弦分量获取对应的振幅、相位和频率;
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
最后,对新的振幅、相位和频率进行正弦波合成的步骤通过下面的公式实现:
其中,f(x)为基于新的振幅、新的相位和新的频率合成的正弦波,Y(x)为n个正弦波之和表示的语音信号段;A为所述语音信号段的振幅,ω为角速度,为的相位,n表示正弦分量的个数。
上述实施例提出的电子装置1,能够通过将拼接处的语音信号表示为具有不同幅值和相位的一系列正弦波之和,再用各弦波的幅度和相位进行基于距离去权重的插值,最后通过正弦模型生成新的语音信号插入到拼接处,确保合成语音的各正弦波分量的幅度和相位平滑过渡,提高合成语音的自然度。
在其他实施例中,波形拼接中的拼接点平滑程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中波形拼接中的拼接点平滑程序10具体实施例的程序模块图。
如图2所示,波形拼接中的拼接点平滑程序10可以被分割为:
语音信号截取单元210,用于确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号段。
加窗处理单元220,用于通过窗函数对两个语音信号段分别进行加窗处理,获取对应的短时分析信号。
拆分单元230,用于通过短时傅里叶变换获取各所述短时分析信号的振幅、相位和频率。
基于距离权重的多项式差值处理单元240,用于对所述振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率。
合成单元250,用于对新的振幅、相位和频率进行正弦波合成,获取新的语音信号段。
拼接单元260,用于将所述新的语音新号段插入所述待拼接的两个语音信号单元之间,完成波形拼接处理。
此外,本发明还提供一种波形拼接中的拼接点平滑方法。参照图3所示,为本发明波形拼接中的拼接点平滑方法具体实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,波形拼接中的拼接点平滑方法包括:步骤S110-步骤S160。
S110:确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号。
其中,两个语音单元分别为第一语音单元和第二语音单元,截取的两个语音信号段分别为第一语音信号段和第二语音信号段,预设长度优选2个周期;当拼接点为第一语音单元的尾部和第二语音单元的头部;第一语音信号段为第一语音单元的尾部的连续两个周期内的语音信号,第二语音信号段为第二语音单元的头部的连续两个周期内的语音信号。同理,当拼接点为第一语音单元的头部和第二语音单元的尾部;第一语音信号段为第一语音单元的头部的连续两个周期内的语音信号,第二语音信号段为第二语音单元的尾部的连续两个周期内的语音信号。
S120:通过窗函数对两个语音信号段分别进行加窗处理,获取分别对应的短时分析信号。
其中,所述窗函数可以为汉宁窗或者汉明窗,窗函数的长度大于一个语音信号的周期,具体可采用25ms。
进一步地,汉宁窗又称升余弦窗,汉宁窗可以看作是3个矩形时间窗的频谱之和,或者说是3个sinc(t)型函数之和,而括号中的两项相对于第一个谱窗向左、右各移动了π/t,从而使旁瓣互相抵消,消去高频干扰和漏能。可以看出,汉宁窗主瓣加宽并降低,旁瓣则显著减小,从减小泄漏观点出发,汉宁窗优于矩形窗.但汉宁窗主瓣加宽,相当于分析带宽加宽,频率分辨力下降。另外,汉明窗也是余弦窗的一种,又称改进的升余弦窗。汉明窗与汉宁窗只是在加权系数上存在差异。汗明窗加权的系数能使旁瓣达到更小。分析表明,海明窗的第一旁瓣衰减为42dB。海明窗的频谱也是由3个矩形时窗的频谱合成,其旁瓣衰减速度为20dB/(10oct),比汉宁窗衰减速度慢。
具体可根据待处理的语音信号或者设计要求选择汉宁窗、汉明窗或者高斯窗等等。
S130:基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率。
其中,通过所述短时傅里叶变换公式将两个短时分析信号拆分为一系列的正弦分量,并根据正弦分量获取对应的振幅、相位和频率。
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
S140:对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率。
其中,对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
步骤一:基于多项式插值获取初步的差值振幅、差值相位和差值频率。
步骤二:基于距离权重对差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率。
其中,多项式插值是指用插值多项式φ(t)的极小点逼近寻求函数f(t)的极小点的方法,具体做法是:求φ′(t)的根,作为f(t)的极小点的近似,重复应用这一方法进行迭代计算,直到得出满足事先给出的精度要求为止。用二次多项式逼近f(t),称为二次插值法,用三次多项式逼近f(t),称为三次插值法。
在本发明中,为消除幅值和相位的不连续,需要对分离出来的幅值和相位的进行插值,构造出新的幅值和相位,用于之后的正弦波合成。在这里,我们以三次多项式插值的方法为例进行说明。另外由于会构造多个语音信号,为了使构造的语音信号也能够平滑的进行变换,我们使其周期随着距离变化而变化。
具体地,三次多项式插值公式为:
P(t)=B1+B2*t+B3*t2+B4*t3
其中,B1、B2、B3、B4分别为待定系数,通过相关语音单元的输入样本求得。在获取到各B值(B1、B2、B3、B4)之后,我们就可通过输入不同的变量t得到新的插值P(t)。其中,t的取值与采样点的个数相关,例如,当语音单元中有10个采样点时,t的取值为0、1、2、3、4…10。通过这些采样点,可计算出各B的值,如通过8个采样点去表示语音单元的分布,则t的取值可以为0、1.25、2.5…10。(这个公式为三次样条插值方法)我们同时对上步骤获取的与两个语音信号分别对应的振幅、相位和频率进行插值处理,获取新的振幅,新的相位和新的频率。
在步骤一基于多项式插值公式获取初步的差值振幅、差值相位和差值频率中;
多项式插值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定。
在步骤二中,基于距离权重对差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
S150:对新的振幅、相位和频率进行正弦波合成,获取新的语音信号段。
对新的振幅、相位和频率进行正弦波合成的步骤通过下面的公式实现:
其中,f(x)为基于新的振幅、新的相位和新的频率合成的正弦波,Y(x)为n个正弦波之和表示的语音信号段;A为所述语音信号段的振幅,ω为角速度,为的相位,n表示正弦分量的个数。
S160:将新的语音信号段插入待拼接的两个语音单元之间,完成波形拼接处理。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括波形拼接中的拼接点平滑程序,所述波形拼接中的拼接点平滑程序被处理器执行时,实现以下步骤:
确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处的预设长度的语音信号段;
通过窗函数对两个所述语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对所述新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将所述新的语音信号段插入所述待拼接的两个语音单元之间,完成波形拼接处理。
本发明之计算机可读存储介质的具体实施方式与上述波形拼接中的拼接点平滑方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种波形拼接中的拼接点平滑方法,应用于电子装置,其特征在于,所述方法包括:
确定待拼接的两个语音单元的拼接点,分别截取两个拼接点处预设长度的语音信号段;
通过窗函数对两个所述语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对所述新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将所述新的语音信号段插入所述待拼接的两个语音单元之间,完成波形拼接处理。
2.根据权利要求1所述的波形拼接中的拼接点平滑方法,其特征在于,
所述两个语音单元分别为第一语音单元和第二语音单元,所述两个语音信号段分别为第一语音信号段和第二语音信号段;
所述拼接点为所述第一语音单元的尾部和所述第二语音单元的头部;
所述第一语音信号段为所述第一语音单元的尾部的连续两个周期内的语音信号,所述第二语音信号段为所述第二语音单元的头部的连续两个周期内的语音信号。
3.根据权利要求2所述的波形拼接中的拼接点平滑方法,其特征在于,所述对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
基于多项式插值公式获取初步的差值振幅、差值相位和差值频率;
所述多项式插值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定;
基于距离权重对所述差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
所述权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
4.根据权利要求1所述的波形拼接中的拼接点平滑方法,其特征在于,所述基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率的步骤包括:
通过所述短时傅里叶变换公式将所述两个短时分析信号拆分为一系列的正弦分量,并根据所述正弦分量获取对应的振幅、相位和频率;
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
5.根据权利要求1所述的波形拼接中的拼接点平滑方法,其特征在于,
所述对新的振幅、相位和频率进行正弦波合成的步骤通过下面的公式实现:
其中,f(x)为基于新的振幅、新的相位和新的频率合成的正弦波,Y(x)为n个正弦波之和表示的语音信号段;A为所述语音信号段的振幅,ω为角速度,为的相位,n表示正弦分量的个数。
6.一种电子装置,其特征在于,该电子装置包括:存储器及处理器,所述存储器中包括波形拼接中的拼接点平滑程序,所述波形拼接中的拼接点平滑程序被所述处理器执行时实现如下步骤:
确定待拼接的两个语音单元拼接点,分别截取两个拼接点处的预设长度的语音信号段;
通过窗函数对两个所述语音信号段分别进行加窗处理,获取分别对应的短时分析信号;
基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率;
对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率;
对所述新的振幅、相位和频率进行正弦波合成,获取新的语音信号段;
将所述新的语音信号段插入所述待拼接的两个语音单元之间,完成波形拼接处理。
7.根据权利要求6所述的电子装置,其特征在于,
所述两个语音单元分别为第一语音单元和第二语音单元,所述两个语音信号段分别为第一语音信号段和第二语音信号段;
所述拼接点为所述第一语音单元的尾部和所述第二语音单元的头部;
所述第一语音信号段为所述第一语音单元的尾部的连续两个周期内的语音信号,所述第二语音信号段为所述第二语音单元的头部的连续两个周期内的语音信号。
8.根据权利要求6所述的电子装置,其特征在于,所述对所述两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值,获取新的振幅、相位和频率的步骤包括:
基于多项式插值公式获取初步的差值振幅、差值相位和差值频率;
所述多项式插值公式为:
xi=B1+B2*t+B3*t2+B4*t3
其中,xi为差值振幅、差值相位或者差值频率,B1,B2,B3,B4分别为待定系数,通过语音单元的输入样本获取,变量t的取值可根据采样点的个数进行设定;
基于距离权重对所述差值振幅、差值相位和差值频率分别进行合成,获取所述新的振幅、相位和频率;
所述新的振幅、相位和频率的获取公式分别为:
其中,Yfreq为基于距离权重的多项式插值而获取的新的频率,Yphase为基于距离权重的多项式插值而获取的新的相位,Yamp为基于距离权重的多项式插值而获取的新的振幅;
为第一个语音单元的尾部语音信号插值而成的插值频率,为第二个语音单元的头部语音信号插值而成的插值频率,为第一个语音单元的尾部语音信号插值而成的插值相位,为第二个语音单元的头部语音信号插值而成的插值相位,为第一个语音单元的尾部语音信号插值而成的插值振幅,为第二个语音单元的头部语音信号插值而成的插值振幅;
所述权重的计算公式为:
其中,w为权重,i为新合成的第i个语音信号,n为新合成的语音信号的总数。
9.根据权利要求6所述的电子装置,其特征在于,所述基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率的步骤包括:
通过所述短时傅里叶变换公式将所述两个短时分析信号拆分为一系列的正弦分量,并根据所述正弦分量获取对应的振幅、相位和频率;
所述短时傅里叶变换公式为:
其中,表示拆分后的正弦分量,j表示虚数单位,ω表示与频率相关的角速度,n为短时分析信号所拆分的正弦分量的个数,ω(n)表示窗函数,y(n)为语音信号,振幅的峰值点所对应的频率为各正弦分量的频率值,各频率值的频点对应的和分别为相应的正弦分量的幅值和相位。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括波形拼接中的拼接点平滑程序,所述波形拼接中的拼接点平滑程序被处理器执行时,实现如权利要求1至5中任一项所述的波形拼接中的拼接点平滑方法的步骤。
CN201910370819.XA 2019-05-06 2019-05-06 波形拼接中的拼接点平滑方法、装置及存储介质 Active CN110189743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910370819.XA CN110189743B (zh) 2019-05-06 2019-05-06 波形拼接中的拼接点平滑方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910370819.XA CN110189743B (zh) 2019-05-06 2019-05-06 波形拼接中的拼接点平滑方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110189743A true CN110189743A (zh) 2019-08-30
CN110189743B CN110189743B (zh) 2024-03-08

Family

ID=67715583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910370819.XA Active CN110189743B (zh) 2019-05-06 2019-05-06 波形拼接中的拼接点平滑方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110189743B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN111580644A (zh) * 2020-04-14 2020-08-25 瑞声科技(新加坡)有限公司 信号处理方法、装置和电子设备
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN114827657A (zh) * 2022-04-28 2022-07-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频拼接方法、设备及存储介质
WO2023216398A1 (zh) * 2022-05-12 2023-11-16 苏州泰思特电子科技有限公司 一种雷电效应测试波形拼接方法及系统
CN117371377A (zh) * 2023-12-06 2024-01-09 杭州行芯科技有限公司 一种电流波形获取方法、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1378199A (zh) * 2001-03-26 2002-11-06 株式会社东芝 语音合成方法、语音合成装置及记录媒体
CN1692402A (zh) * 2002-11-25 2005-11-02 松下电器产业株式会社 声音合成方法以及声音合成装置
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
US20190130894A1 (en) * 2017-10-27 2019-05-02 Adobe Inc. Text-based insertion and replacement in audio narration

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1378199A (zh) * 2001-03-26 2002-11-06 株式会社东芝 语音合成方法、语音合成装置及记录媒体
CN1692402A (zh) * 2002-11-25 2005-11-02 松下电器产业株式会社 声音合成方法以及声音合成装置
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
US20190130894A1 (en) * 2017-10-27 2019-05-02 Adobe Inc. Text-based insertion and replacement in audio narration

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112562637B (zh) * 2019-09-25 2024-02-06 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN111580644A (zh) * 2020-04-14 2020-08-25 瑞声科技(新加坡)有限公司 信号处理方法、装置和电子设备
CN111580644B (zh) * 2020-04-14 2023-04-28 瑞声科技(新加坡)有限公司 信号处理方法、装置和电子设备
CN114827657A (zh) * 2022-04-28 2022-07-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频拼接方法、设备及存储介质
WO2023216398A1 (zh) * 2022-05-12 2023-11-16 苏州泰思特电子科技有限公司 一种雷电效应测试波形拼接方法及系统
CN117371377A (zh) * 2023-12-06 2024-01-09 杭州行芯科技有限公司 一种电流波形获取方法、计算机设备和存储介质
CN117371377B (zh) * 2023-12-06 2024-04-09 杭州行芯科技有限公司 一种电流波形获取方法、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110189743B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN110189743B (zh) 波形拼接中的拼接点平滑方法、装置及存储介质
US20210256379A1 (en) Audio processing with neural networks
US10515650B2 (en) Signal processing apparatus, signal processing method, and signal processing program
CN107833581B (zh) 一种提取声音的基音频率的方法、装置及可读存储介质
CN109697290B (zh) 一种信息处理方法、设备及计算机存储介质
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
Maia et al. Complex cepstrum for statistical parametric speech synthesis
CN111261177A (zh) 语音转换方法、电子装置及计算机可读存储介质
CN108269579A (zh) 语音数据处理方法、装置、电子设备及可读存储介质
CN108597527A (zh) 多声道音频处理方法、装置、计算机可读存储介质和终端
CN113421584B (zh) 音频降噪方法、装置、计算机设备及存储介质
EP1690253B1 (en) A highly optimized nonlinear least squares method for sinusoidal sound modelling
CN108806721A (zh) 信号处理器
CN109841232B (zh) 音乐信号中音符位置的提取方法和装置及存储介质
CN112289330A (zh) 一种音频处理方法、装置、设备及存储介质
CN115273822A (zh) 音频处理方法、装置、电子设备及介质
Masri et al. A review of time–frequency representations, with application to sound/music analysis–resynthesis
CN115410602A (zh) 一种语音情感识别方法、装置及电子设备
Mehta et al. Statistical properties of linear prediction analysis underlying the challenge of formant bandwidth estimation
CN110335623B (zh) 音频数据处理方法及装置
JP2019074580A (ja) 音声認識方法、装置およびプログラム
JP2015040963A (ja) 音響用フィルタ装置、音響用フィルタリング方法、およびプログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
Betser et al. Review and discussion on classical STFT-based frequency estimators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant