CN109697985A - 语音信号处理方法、装置及终端 - Google Patents
语音信号处理方法、装置及终端 Download PDFInfo
- Publication number
- CN109697985A CN109697985A CN201811593104.2A CN201811593104A CN109697985A CN 109697985 A CN109697985 A CN 109697985A CN 201811593104 A CN201811593104 A CN 201811593104A CN 109697985 A CN109697985 A CN 109697985A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- voice signal
- voice
- audio frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000009432 framing Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 24
- 238000005086 pumping Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 abstract description 27
- 230000000694 effects Effects 0.000 abstract description 13
- 230000007812 deficiency Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明提供语音信号处理方法,包括:依据设定帧长度对语音信号分帧得到帧信号,提取每帧帧信号的音频参数;语音信号包括第一语音信号和第二语音信号,音频参数对应第一音频参数和第二音频参数;将第一语音信号的帧信号与对第二语音信号的帧信号对齐匹配;将第一语音信号的帧信号的第一音频参数替换为匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。本发明还提供语音信号处理装置和终端。本发明能实现生成特定声音的效果,生成后语音信号仍保留第一语音信号对应原说话人的音调、语速发音特点,兼具第二语音信号对应变声对象声音,克服不能针对特定对象变声和变声效果差的技术缺陷。
Description
技术领域
本发明涉及语音技术领域,具体而言,本发明涉及一种语音信号处理方法、装置及终端。
背景技术
在语音处理中,经常需要对语音进行变声处理,使其声音的特性发生改变。传统的变声方案通常是将语音中的某些参数进行调整,使其偏离原本发声者的语音,比如类似morphvox pro这样的软件,将原始声音变为男声、女声、童声、机器人声音等声音。现有技术方案的基本原理是利用不同人群的基音频率差异(男声、女声、童声的基音频率逐渐升高),直接调整原始语音的基音频率,使得原始语音听起来像是另一类人发出的声音(例如是男声变女声、女声变童声)。
但这些技术方案,只能随机改动的语音的特性,而不能针对特定对象的特性进行改变,变声效果较差。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是不能针对特定对象的特性进行改变,变声效果较差的技术缺陷。
本发明提供一种语音信号处理方法,包括如下步骤:
依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
在其中一个实施例中,所述音频参数包括:基音频率、共振峰频谱包络和非周期激励信号。
在其中一个实施例中,所述依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数的步骤,包括:
依据设定帧长度对语音信号进行分帧得到帧信号;
对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率;
对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络;
根据每帧帧信号的波形、基音频率以及共振峰频谱包络分析,得到对应每帧帧信号的非周期激励信号。
在其中一个实施例中,所述对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率的步骤包括:
对每帧帧信号进行滤波获得若干候选基音频率及其周期;
根据若干所述候选基音频率在不同周期间的零交点、峰值以及下降间隔,计算得到若干所述候选基音频率的置信度;
选取置信度最高的候选基音频率作为该帧帧信号的基音频率。
在其中一个实施例中,所述对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络的步骤包括:
根据每帧帧信号的波形和基音频率对应的周期,对语音信号进行汉明窗分割得到时域信号;
对所述时域信号进行傅里叶变换得到功率谱;
截取所述功率谱的高峰部分得到共振峰频谱包络。
在其中一个实施例中,所述将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配的步骤包括:
对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数;
对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配。
在其中一个实施例中,所述对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数的步骤,包括:
对第一语音信号的帧信号和第二语音信号的帧信号进行高通滤波得到预加重的帧信号;
对所述预加重的帧信号进行加窗处理得到具有连续性的加窗帧信号;
对所述加窗帧信号进行傅里叶变换得到每帧帧信号的能量频谱;
将所述每帧帧信号的能量频谱通过三角形滤波器得到每帧帧信号对应的对数能量值;
根据离散余弦变换将所述对数能量值转换为梅尔频率倒谱系数。
在其中一个实施例中,所述对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配的步骤,包括:
根据第一语音信号的帧信号和第二语音信号的帧信号的梅尔频率倒谱系数之间的欧氏距离最小的匹配条件,将第一语音信号和第二语音信号每帧帧信号对齐匹配。
在其中一个实施例中,所述将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号的步骤,包括:
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数;
将第一语音信号中帧信号的第二音频参数重新合成语音信号。
在其中一个实施例中,所述根据第一语音信号中帧信号的第二音频参数重新合成语音信号的步骤,包括:
根据第一语音信号中帧信号的第二音频参数的非周期激励信号、共振峰频谱包络以及基音频率合成语音信号。
本发明还提供一种语音信号处理方法装置,包括:
提取单元,用于依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
对齐单元,用于将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
合成单元,用于将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
本发明还提供一种终端,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述任一项实施例所述的语音信号处理方法。
上述的语音信号处理方法、装置和移动终端,通过依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号的技术方案,能将第二语音信号的第二音频参数在第一语音信号和第二语音信号对齐匹配后替换第一语音信号中的第一音频参数,最后根据替换到第一语音信号的第二音频参数生成新的语音信号,最终实现生成特定人物声音的技术效果。生成后的语音信号仍然保留第一语音信号对应原说话人的音调、语速等发音特点,同时兼具第二语音信号对应变声对象的声音,克服了不能针对特定对象变声和变声效果较差的技术缺陷。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例的语音信号处理方法的方法流程图;
图2为实施例的语音信号利用动态时间规整对齐匹配的方法流程图;
图3为一个实施例的提取语音信号音频参数的方法流程图;
图4为一个实施例的提取语音信号基因频率的方法流程图;
图5为一个实施例的提取语音信号共振峰频谱包络的方法流程图;
图6为一个实施例的利用梅尔频率倒谱系数实现动态时间规整的方法流程图;
图7为一个实施例的提取语音信号中梅尔频率倒谱系数的方法流程图;
图8为一个实施例的根据音频参数合成语音信号的方法流程图;
图9为一个实施例的语音信号处理装置的装置结构示意图;
图10示出一个实施例提供的终端相关的手机的部分结构的框图;
图11示出一个实施例中用户、终端以及服务器之间的交互架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。本技术领域技术人员可以理解,本申请中所使用的“终端”、“终端设备”既包括无线信号接收器的设备,又包括接收和发射硬件的设备。例如,这里的终端可以是手机、笔记本电脑以及用于采集、播放或加工处理语音数据的设备。
请参考图1,为了针对特定的语音信号的特性进行改变,提升变声效果,本发明提供一种语音信号处理方法,包括如下步骤:
步骤S11:依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数。
在上述过程中,对语音信号分帧的设定帧长度可以选择在20毫秒至50毫秒之间。在本实施例中,可以选用20毫秒作为设定帧的长度。更进一步地,为了使用于分析的帧信号之间具有连续性,在分帧时每帧帧信号之间设定一定的重叠,例如是每帧帧信号与相邻的帧信号分别有5毫秒的重叠区域。
为了便于理解,上述第一语音信号可以理解为将要实现变声等声音特性改变的第一语音信号,第二语音信号可以理解为特性改变目标的第二语音信号。
步骤S12:将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配。
请参考图2,图2中展示第一语音信号(实线对应的语音信号)和第二语音信号(虚线对应的语音信号)之间对齐匹配的波形示意图。语音信号对齐匹配语音信号之间的对齐匹配可以通过一个形象的例子理解,例如讲话人在第一秒说“1、2”,第二秒说“3、4”,变声对象在第一秒说“1”,第二秒说“2”、第三秒说“3、4”。此时相当于在图2时间轴线上,同一时间节点讲话人和变声对象的讲话内容不匹配,此时很难进行语音的分析和变化。为此,在上述步骤S12中将第一语音信号和第二语音信号对齐匹配,其目的在于确定第一语音信号和第二语音信号之间相同内容的对应关系。
步骤S13:将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
对齐匹配后,第一语音信号和第二语音信号之间相同内容的对应关系能够确定,此时根据对应关系将第一语音信号中每一帧帧信号的第一音频参数替换为第二语音信号的每一帧帧信号的第二音频参数。
其后,根据第一语音信号每一帧帧信号的第二音频参数重新生成语音信号。重新生成的语音信号与原本的第一语音信号的区别在于声音的改变为第二语音信号的声音,但是仍然保留第一语音信号的语调、停顿等说话习惯。
为了提取前述音频参数,本实施例提供一种技术方案。所述音频参数包括:基音频率、共振峰频谱包络和非周期激励信号。其中,从声学的角度,基音频率通过频率的高低变化表征声音的音高变化;共振峰频谱包络表征发声动作的特点,例如是共振腔形状、嘴唇位置、舌头位置和形状等动作特点;非周期激励信号可以表征为人类发声的特有特点,缺乏非周期激励信号将会导致语音信号机械化和声音的缺陷。
请参考图3,所述语音信号处理方法中,依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数的步骤S11包括:
步骤S31:依据设定帧长度对语音信号进行分帧得到帧信号。
在本例中,分帧的设定帧长度可以设定为20毫秒,设定帧长度的选择将会影响分帧的后续提取音频参数的连续性、有效性以及分析精度。
步骤S32:对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率。
在上述过程中,基音频率的分析可以通过滤波等方法得到对应每一帧信号中频率最低的正弦波作为基音频率。还可以通过多次分析的方式,检验周期、交点等方式获得基音频率。
步骤S33:对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络。
在上述过程中,针对频谱包络可以利用每帧帧信号的波形图,将波形图中不同频率的振幅最高点连结起来形成的曲线,得到频谱包络。
步骤S34:根据每帧帧信号的波形、基音频率以及共振峰频谱包络分析,得到对应每帧帧信号的非周期激励信号。
在上述过程中,根据每帧帧信号的波形、基音频率以及共振峰频谱包络等音频参数,采集剩余非周期性变化的激励信号,得到非周期激励信号。
请参考图4,为了更好地得到基音频率,本实施例中提供一种技术方案。所述对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率的步骤S32包括:
步骤S41:对每帧帧信号进行滤波获得若干候选基音频率及其周期。
对每一帧帧信号进行滤波处理,除去杂波,并且通过周期分析得到若干波形及其对应的候选基音频率和周期,这些候选基音频率中将会分析得到真正的基音频率。
步骤S42:根据若干所述候选基音频率在不同周期间的零交点、峰值以及下降间隔,计算得到若干所述候选基音频率的置信度。
候选基音频率对应往复运动的波形,波形在周期运动时具有一系列波形特点的参数例如是不同周期内零交点、峰值以及下降间隔,可以用于计算置信度。其中零交点就是波形与横轴线的交点,峰值可以理解为极大值,下降间隔可以理解为波形值下降的时间间隔。根据零交点、峰值以及下降间隔计算置信度,置信度可以理解为不同周期内的符合程度,置信度越高的候选基音频率说明对应波形是基音频率概率越高越可信。
步骤S43:选取置信度最高的候选基音频率作为该帧帧信号的基音频率。
在上述步骤中,根据置信度的排序,选取置信度最高的候选基音频率作为该帧帧信号的基音频率。
请参考图5,为了更好地得到共振峰频谱包络,本实施例中提供一种技术方案。所述对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络的步骤S33包括:
步骤S51:根据每帧帧信号的波形和基音频率对应的周期,对语音信号进行汉明窗分割得到时域信号。
为了增强每帧帧信号的周期性,在上述步骤中,根据每帧帧信号的波形和基音频率对应的周期对每帧帧信号的语音信号进行汉明窗分割,得到一段时域信号。
步骤S52:对所述时域信号进行傅里叶变换得到功率谱。
在上述步骤中,针对时域信号进行傅里叶变换,得到对应与能量有关的功率谱,通过功率谱可以得到每帧帧信号的特征。
步骤S53:截取所述功率谱的高峰部分得到共振峰频谱包络。
在上述过程中,截取所述功率谱的高峰部分得到共振峰频谱包络,共振峰是反映声道谐振特性的重要特征,其代表发音信息。
请参考图6,为了更好地对第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号进行对齐匹配,本实施例中提供一种技术方案。所述将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配的步骤S12,包括
步骤S61:对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数。
上述过程中的梅尔频率倒谱系数表征每一帧帧信号的平均能量并且以多维方式刻画每一帧帧信号的内容,梅尔频率倒谱系数更倾向于刻画咬字等内容上的特点。因此梅尔频率倒谱系数更适合应用在本方案中,用于定位语音信号的内容。
步骤S62:对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配。
在上述过程中,梅尔频率倒谱系数可以理解为参考系或者定位标定,将第一语音信号的帧信号和第二语音信号的帧信号由原本的交错状态,通过动态时间规整,实现语音信号间通过蕴含的内容实现对齐匹配。
请参考图7,本实施例还提供一种技术方案,为了更好获取梅尔频率倒谱系数,所述对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数步骤S61,包括:
步骤S71:对第一语音信号的帧信号和第二语音信号的帧信号进行高通滤波得到预加重的帧信号。
预加重是由于人在发声过程中声带和嘴唇的影响,发音系统将会压抑语音信号中的高频部分。为了补偿所述语音信号的帧信号受到抑制以及突显高频的共振峰,可以通过高通滤波降低帧信号中低频信号的比重,突出高频信号。
步骤S72:对所述预加重的帧信号进行加窗处理得到具有连续性的加窗帧信号。
由于帧信号本身的分帧时长的限制,帧信号的周期性比较弱,因此对于预加重的帧信号需要进行加窗处理。加窗处理可以采用汉明窗或者海明窗等加窗函数,使预加重的帧信号的周期性增强。此外,还可以通过帧信号之间的相互重叠区域或者适当延长帧信号的分帧间隔以增强周期性。
步骤S73:对所述加窗帧信号进行傅里叶变换得到每帧帧信号的能量频谱。
针对加窗帧信号进行傅里叶变换得到每帧帧信号的能量频谱,能量频谱更能凸显帧信号本身的特点。
步骤S74:将所述每帧帧信号的能量频谱通过三角形滤波器得到每帧帧信号对应的对数能量值。
三角形滤波器能够对频谱进行平滑化,并消除每帧帧信号中的谐波,除去表征音调或音高等的因素,突显语音信号中每帧帧信号的共振峰,降低声调、语调等因素对后续生成的梅尔频率倒谱系数的影响。此外,三角形滤波器还能实现降维,进而降低运算量。后续得到的梅尔频率倒谱系数仅仅是一个13维的向量。
步骤S75:根据离散余弦变换将所述对数能量值转换为梅尔频率倒谱系数。
通过上述过程,将对数能量值通过离散余弦变换得到13维的向量的梅尔频率倒谱系数。所述向量表征每一帧帧信号的平均能量的特点。
请参考图2,为了更好实现动态时间规整,本实施例还提供一种技术方案,所述对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配的步骤S62,包括:
根据第一语音信号的帧信号和第二语音信号的帧信号的梅尔频率倒谱系数之间的欧氏距离最小的匹配条件,将第一语音信号和第二语音信号每帧帧信号对齐匹配。
梅尔频率倒谱系数表征每一帧帧信号中语音内容,并以语音内容所反映的梅尔频率倒谱系数作为参考系,找到第一语音信号中每一帧帧信号对应的特征点与第二语音信号中每一帧帧信号的特征点。梅尔频率倒谱系数的13维向量所构成的特征点之间的连线表示两点之间的欧氏距离,欧式距离用于表示多维空间向量之间的距离。通过两段语音信号之间每一帧帧信号的梅尔频率倒谱系数的欧氏距离最小的匹配条件,找到第一语音信号和第二语音信号之间的内容上的相似点。对齐匹配可以理解为在两段语音信号之间根据语音内容的相似度相互对齐的过程,梅尔频率倒谱系数充当的是分析、评价以及锚定的作用。
请参考图8,在本实施例中提供了一种将相应的音频参数重新合成语音信号的技术方案,所述将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号的步骤S13,包括:
步骤S81:将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数。
在上述过程中,将第一语音信号中的第一音频参数替换为经过每一帧帧信号对齐匹配的第二音频参数。对齐匹配后的第一语音信号和第二语音信号在说话内容上具有对齐一致的特点,第二语音信号的语音特点通过音频参数的替换,将第二语音信号的语音特点转嫁到第一语音信号,并保留第一语音信号的语速、语调等特点。
步骤S82:将第一语音信号中帧信号的第二音频参数重新合成语音信号。
将第一语音信号中帧信号的第二音频参数,在基于第一语音信号的基础上重新合成语音信号。语音信号的合成过程需要根据第一语音信号中帧信号的第二音频参数的非周期激励信号、共振峰频谱包络以及基音频率合成语音信号。通过非周期激励信号、共振峰频谱包络以及基音频率合成语音信号的技术方案可以参考步骤S32至步骤S34的过程,通过音频参数合成语音信号可以理解为是提取音频参数的逆向过程。其中,通过基音频率定下语音信号的声音音高,通过共振峰频谱包络确定发声特点,再通过非周期激励信号降低机械化程度。
除此之外,由于对齐匹配和替换音频参数的原因,替换后的第一语音信号和对应的对齐匹配后的第二音频参数生成的语音信号往往会存在一定的空白、杂音等非正常信号。因此,可以通过插值或者对重新生成的语音信号进行平滑处理,得到效果更好的语音信号。
上述语音信号处理方法可以应用在短视频、直播、趣味变声、模仿秀等多种场景中,上述方法在应用到第一语音信号和第二语音信号都具有相同内容的应用场景具有良好的变声处理效果。当然,本申请不排斥将上述方法应用到第一语音信号和第二语音信号具有不同内容的应用场景,也具有良好的变声处理效果。
本实施例还提供一种语音信号处理装置,包括:
提取单元91,用于依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
对齐单元92,用于将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
合成单元93,用于将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
本实施例还提供一种终端,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述任一项实施例所述的语音信号处理方法。
本发明实施例还提供了移动终端,如图10所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。以终端为手机为例:
图10示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图10,手机包括:射频电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声纹信号输出;另一方面,传声器1062将收集的声纹信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经射频电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。语音信号可以通过上述音频电路1060及其相应连接的电器元件采集或播放本申请所需要的语音信号。
在本发明实施例中,该终端所包括的处理器1080还具有以下功能:
依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
也即处理器1080具备执行上述的任一实施例语音信号处理方法的功能。
为了配合上述方法的展示,本实施例中还提供一种交互的场景,请参考图11,图11示出一个实施例中用户、终端以及服务器之间的交互架构图。其中,用户111、终端112以及服务器113之间发生交互。用户111根据终端112的提示信息(例如是一段文字或者一段语音)说出一段语音。终端112例如是手机接收到语音并转化为语音信号。终端将语音信号通过网络连接发送至服务器113处,由服务器113执行以下步骤:
依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
最终合成新的语音信号由服务器113通过网络传输至用户111的终端112处,并由终端112播放新的语音信号。
此外,上述方法也可以在终端112脱离网络连接,单机执行上述步骤并与用户111进行交互。
上述的语音信号处理方法、装置和移动终端,通过依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号的技术方案,能将第二语音信号的第二音频参数在第一语音信号和第二语音信号对齐匹配后替换第一语音信号中的第一音频参数,最后根据替换到第一语音信号的第二音频参数生成新的语音信号,最终实现生成特定人物声音的技术效果。生成后的语音信号仍然保留第一语音信号对应原说话人的音调、语速等发音特点,同时兼具第二语音信号对应变声对象的声音,克服了不能针对特定对象变声和变声效果较差的技术缺陷。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种语音信号处理方法,其特征在于,包括如下步骤:
依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
2.根据权利要求1所述的语音信号处理方法,其特征在于,所述音频参数包括:基音频率、共振峰频谱包络和非周期激励信号。
3.根据权利要求2所述的语音信号处理方法,其特征在于,所述依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数的步骤,包括:
依据设定帧长度对语音信号进行分帧得到帧信号;
对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率;
对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络;
根据每帧帧信号的波形、基音频率以及共振峰频谱包络分析,得到对应每帧帧信号的非周期激励信号。
4.根据权利要求3所述的语音信号处理方法,其特征在于,所述对每帧帧信号进行基音频率分析,得到对应每帧帧信号的基音频率的步骤包括:
对每帧帧信号进行滤波获得若干候选基音频率及其周期;
根据若干所述候选基音频率在不同周期间的零交点、峰值以及下降间隔,计算得到若干所述候选基音频率的置信度;
选取置信度最高的候选基音频率作为该帧帧信号的基音频率。
5.根据权利要求3所述的语音信号处理方法,其特征在于,所述对每帧帧信号的波形和所述基音频率进行频谱包络分析,得到对应每帧帧信号的共振峰频谱包络的步骤包括:
根据每帧帧信号的波形和基音频率对应的周期,对语音信号进行汉明窗分割得到时域信号;
对所述时域信号进行傅里叶变换得到功率谱;
截取所述功率谱的高峰部分得到共振峰频谱包络。
6.根据权利要求1所述的语音信号处理方法,其特征在于,所述将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配的步骤包括:
对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数;
对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配。
7.根据权利要求6所述的语音信号处理方法,其特征在于,所述对第一语音信号的帧信号和第二语音信号的帧信号分别进行梅尔频率倒谱分析,得到每帧帧信号对应的梅尔频率倒谱系数的步骤,包括:
对第一语音信号的帧信号和第二语音信号的帧信号进行高通滤波得到预加重的帧信号;
对所述预加重的帧信号进行加窗处理得到具有连续性的加窗帧信号;
对所述加窗帧信号进行傅里叶变换得到每帧帧信号的能量频谱;
将所述每帧帧信号的能量频谱通过三角形滤波器得到每帧帧信号对应的对数能量值;
根据离散余弦变换将所述对数能量值转换为梅尔频率倒谱系数。
8.根据权利要求6所述的语音信号处理方法,其特征在于,所述对第一语音信号的帧信号和第二语音信号的帧信号,根据梅尔频率倒谱系数和动态时间规整对齐匹配的步骤,包括:
根据第一语音信号的帧信号和第二语音信号的帧信号的梅尔频率倒谱系数之间的欧氏距离最小的匹配条件,将第一语音信号和第二语音信号每帧帧信号对齐匹配。
9.根据权利要求1所述的语音信号处理方法,其特征在于,所述将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号的步骤,包括:
将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数;
将第一语音信号中帧信号的第二音频参数重新合成语音信号。
10.根据权利要求2所述的语音信号处理方法,其特征在于,所述根据第一语音信号中帧信号的第二音频参数重新合成语音信号的步骤,包括:
根据第一语音信号中帧信号的第二音频参数的非周期激励信号、共振峰频谱包络以及基音频率合成语音信号。
11.一种语音信号处理方法装置,其特征在于,包括:
提取单元,用于依据设定帧长度对语音信号进行分帧得到帧信号,并提取每帧帧信号的音频参数;其中,所述语音信号包括第一语音信号和第二语音信号,所述音频参数对应为第一音频参数和第二音频参数;
对齐单元,用于将第一语音信号的帧信号与对第二语音信号的帧信号进行语音信号对齐匹配;
合成单元,用于将第一语音信号的帧信号的第一音频参数替换为相匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。
12.一种终端,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行权利要求1~10任一项所述的语音信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593104.2A CN109697985B (zh) | 2018-12-25 | 2018-12-25 | 语音信号处理方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593104.2A CN109697985B (zh) | 2018-12-25 | 2018-12-25 | 语音信号处理方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697985A true CN109697985A (zh) | 2019-04-30 |
CN109697985B CN109697985B (zh) | 2021-06-29 |
Family
ID=66231988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811593104.2A Active CN109697985B (zh) | 2018-12-25 | 2018-12-25 | 语音信号处理方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697985B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091807A (zh) * | 2019-12-26 | 2020-05-01 | 广州酷狗计算机科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
CN107610715A (zh) * | 2017-10-10 | 2018-01-19 | 昆明理工大学 | 一种基于多种声音特征的相似度计算方法 |
CN108269579A (zh) * | 2018-01-18 | 2018-07-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
-
2018
- 2018-12-25 CN CN201811593104.2A patent/CN109697985B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
CN107610715A (zh) * | 2017-10-10 | 2018-01-19 | 昆明理工大学 | 一种基于多种声音特征的相似度计算方法 |
CN108269579A (zh) * | 2018-01-18 | 2018-07-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091807A (zh) * | 2019-12-26 | 2020-05-01 | 广州酷狗计算机科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109697985B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
US8447592B2 (en) | Methods and apparatus for formant-based voice systems | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
KR20150016225A (ko) | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 | |
CN111445900A (zh) | 一种语音识别的前端处理方法、装置及终端设备 | |
CN114999441B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN110310621A (zh) | 歌唱合成方法、装置、设备以及计算机可读存储介质 | |
CN110364140A (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN110992926B (zh) | 语音合成方法、装置、系统和存储介质 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN113724683B (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
JP2013057735A (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
CN112908308A (zh) | 一种音频处理方法、装置、设备及介质 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
CN109697985A (zh) | 语音信号处理方法、装置及终端 | |
CN109741761B (zh) | 声音处理方法和装置 | |
CN114999440B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN113314101B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112951256B (zh) | 语音处理方法及装置 | |
CN113066472B (zh) | 合成语音处理方法及相关装置 | |
Huh et al. | A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
KR101135198B1 (ko) | 음성을 이용하여 콘텐츠를 제작하는 방법 및 장치 | |
CN104464717B (zh) | 声音合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221116 Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd. Address before: Building B-1, North District, Wanda Commercial Plaza, Wanbo business district, No. 79, Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd. |