CN106373590B - 一种基于语音实时时长调整的声音变速控制系统和方法 - Google Patents

一种基于语音实时时长调整的声音变速控制系统和方法 Download PDF

Info

Publication number
CN106373590B
CN106373590B CN201610736919.6A CN201610736919A CN106373590B CN 106373590 B CN106373590 B CN 106373590B CN 201610736919 A CN201610736919 A CN 201610736919A CN 106373590 B CN106373590 B CN 106373590B
Authority
CN
China
Prior art keywords
voice
bestperiod
length
speech signal
periodpos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610736919.6A
Other languages
English (en)
Other versions
CN106373590A (zh
Inventor
谢海欧
李文
吴小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Institute of Science and Technology
Original Assignee
Hunan Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Institute of Science and Technology filed Critical Hunan Institute of Science and Technology
Priority to CN201610736919.6A priority Critical patent/CN106373590B/zh
Publication of CN106373590A publication Critical patent/CN106373590A/zh
Application granted granted Critical
Publication of CN106373590B publication Critical patent/CN106373590B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种基于PSOLA改进的检测基本周期波形(基音)的算法,涉及一种基于语音实时时长调整的声音变速控制系统和方法。该发明通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;将搜索到的两个的语音信号重叠相加;通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制;或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。本发明在语音实时时长调整中使用搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。

Description

一种基于语音实时时长调整的声音变速控制系统和方法
技术领域
本发明涉及语音信号处理技术领域,并且更具体的,涉及一种语音时长调整中的声音变速控制系统和方法。背景技术
改变语音播放速度而不改变音调、音色和音质,这个有关语音时长调整技术的需求,早在20世纪50年代初,国内外很多学者就开始进行了广泛而深入的研究。现有方法主要包括时域法、频域法和参数法三种。但由于语音参数多, 抽取的算法比较复杂, 合成语音的自然度和清晰度都比较差。对语音信号的时长调整和基音标记修改,是语音信号处理领域中理论研究和实际应用的热门课题。为了实现高质量的时长调整和基音标记修改, 在过去几十年里, 已经提出了许多算法,但真正能在实时的语音处理方面, 尤其在语音连续的变速不变调的功能实现上不理想。语音时长调整算法PICOLA(指针间隔控制的重叠和相加,Pointer Interval Controlled Overlap and Add)提供了一种较为理想的基音检测。PICOLA假设待处理的数据从初始位置起是周期性的。随后使用前两个基本周期波形(基音)构成重叠相加的波形。通过用重叠相加的波形替代输入信号的一部分或者通过将重叠相加的波形插入输入信号中来实现语音速度控制功能。然而,PICOLA算法中基音检测的假设并非总是成立。
发明内容
本发明基于PICOLA算法,提出了一种动态搜索算法进行基音检测方法。在待处理样本的范围内搜索基音,获取准确的用来产生重叠相加的波形所需的基本周期语音信号。包括以下步骤:
通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;
从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索到相邻两个语音信号之间失真最小的波形;
将搜索到的语音信号重叠相加,通过用重叠相加的语音信号替代被搜索到的语音信号或者通过将重叠相加的语音信号插入被搜索到的相邻两个语音信号中实现速度控制。
本发明在语音实时时长调整中使用动态搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。
附图说明
图1是语音时长调整的框图;
图2是时间尺度压缩原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是压缩信号;
图3是时间尺度扩展原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是扩展信号。
具体实施方式
下面结合附图1语音时长调整的框图,对本发明作进一步详细描述。
(1)本发明将输入信号(音频解码器的音频源输出)存储在缓冲存储器中。
(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并且挑选两个语音信号之间失真最小的那对波形。这里涉及到的具体细节为动态搜索基音检测算法运用:
本发明修改了PICOLA中的检测基本周期语音信号(基音)的算法。基本周期波形的精确度决定了语音时长调整的性能。查找基本周期的新方法如下:
如果波形的基本周期是Pl,速度控制因子是γ,L是待处理的语音信号长度。那么,
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
查找基本周期语音信号的步骤如下:
1. for Pl = Lmin: Lmax
2. 根据Pl和γ计算采样长度L
3. for shiftPos = 0:L-2·Pl
Figure DEST_PATH_IMAGE010
4. periodPos = betterPosbestPeriod = betterPeriod
Lmin是待处理语音的最小基本周期,而Lmax是待处理语音的最大基本周期。语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz。所以Lmin =采样率/600Lmax =采样率/40
Figure DEST_PATH_IMAGE014
是当基本周期长度为Pl时两个语音信号之间的平均失真,
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点。挑选使失真
Figure DEST_PATH_IMAGE014A
最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期。为了降低计算成本,可以使用阈值
Figure DEST_PATH_IMAGE020
来确定基本周期位置和长度。
(3)将挑选的那对语音信号重叠相加。涉及到时间尺度压缩:
在图2中示出了压缩原理。b0是缓冲存储器中待处理数据的起始位置。周期位置(periodPos)和最佳周期(bestPeriod)使用上述方法来确定。L是最佳周期为bestPeriod时对应的需处理语音信号的长度。
波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数SA(i)=(periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod。把波形A和函数SA相乘得到SA(A);
波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数SB(i)=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod。把波形B和函数SB相乘得到SB(B);
。重叠-相加的波形C通过将窗口化的语音信号SA(A)和语音信号SB(B)线性相加获得。用语音信号C替代原始语音信号A和B。则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
(4)通过用重叠相加的语音信号替代输入信号的一部分或者通过将重叠相加的语音信号插入输入信号中实现速度控制。涉及到时间尺度扩展:
在图3中示出了扩展原理。b0是缓冲存储器中待处理语音的起始位置。使用与在用于基音检测的动态搜索方法来确定periodPosbestPeriod。语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同。
将重叠-相加的语音信号C插入语音信号A和语音信号B之间。则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
结论
本发明在语音时长调整中使用动态搜索算法进行基音检测来改进性能。精确的基本周期波形能够保持时长调整处理后语音(音调、音色)的质量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于语音实时时长调整的声音变速控制方法,其特征在于,步骤如下:
S1、将输入信号存储在缓冲存储器中;
S2、从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;
抽取中使用了动态搜索基音检测算法,并修改了语音时长调整算法中的检测基本周期语音信号的算法,基本周期波形的精确度确定了语音时长调整的性 能,查找基本周期的算法如下:
波形的基本周期为Pl,速度控制因子为γ,待处理的语音信号长度为L,则
Figure FDA0002268440400000011
Figure FDA0002268440400000012
查找基本周期语音信号的步骤如下:
(1)for Pl=Lmin:Lmax
(2)根据Pl和γ计算采样长度L;
(3)for shiftPos=0:L-2*Pl;
Figure FDA0002268440400000013
若EshiftPos(Pl)<E,则periodPos=shiftPos,bestPeriod=Pl goto (4)
(4)periodPos=betterPos,bestPeriod=betterPeriod;
其中,Lmin是待处理语音的最小基本周期,Lmax是待处理语音的最大基本周期,betterPos为最佳起始点,betterPeriod为最佳波长periodPos为周期位置,bestPeriod为最佳周期;语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz,Lmin=采样率/600;Lmax=采样率/40,EshiftPos(Pl)是基本周期长度为Pl时两个语音信号之间的平均失真,x(shiftPos+n)和y(shiftPos+Pl+n)是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点,挑选使失真EshiftPos(Pl)最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期,,使用阈值E来确定基本周期位置和长度。
S3、将搜索到的两个语音信号重叠相加;
S4、通过将重叠相加的语音信号代替原输入信号中被搜索出来的相邻的两个语音来控制语音速度变快;通过将重叠相加的语音信号插入原输入中被检索出来的相邻两个语音之间来控制语音速度变慢。
2.根据权利要求1所述的一种基于语音实时时长调整的声音变速控制方法,其特征在于,所述控制语音速度变快的方法为时间尺度压缩,其压缩原理为:
b0是缓冲存储器中待处理数据的起始位置,L是最佳周期为bestPeriod时对应的需处理语音信号的长度;波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数
SA(i)=(periodPos+bestPeriod-i)/periodPos,periodPos≤i<periodPos+bestPeriod,波形A和函数SA相乘得到SA(A);波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数
SB(i)=(i-periodPos-bestPeriod)/periodPos,
periodPos+bestPeriod≤i<periodPos+2*bestPeriod,
波形B和函数SB相乘得到SB(B),
重叠-相加的波形C通过语音信号SA(A)和语音信号SB(B)线性相加获得,用语音信号C替代原始语音信号A和B,则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
3.根据权利要求1所述的一种基于语音实时时长调整的声音变速控制方法,其特征在于,所述控制语音速度变慢的方法为时间尺度扩展,其扩展原理为:
b0是缓冲存储器中待处理语音的起始位置,使用基音检测的动态搜索方法来确定periodPos和bestPeriod,语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同;
将重叠-相加的语音信号C插入语音信号A和语音信号B之间,则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
CN201610736919.6A 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法 Expired - Fee Related CN106373590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610736919.6A CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610736919.6A CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Publications (2)

Publication Number Publication Date
CN106373590A CN106373590A (zh) 2017-02-01
CN106373590B true CN106373590B (zh) 2020-04-03

Family

ID=57902627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610736919.6A Expired - Fee Related CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Country Status (1)

Country Link
CN (1) CN106373590B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068160B (zh) * 2017-03-28 2020-04-28 大连理工大学 一种语音时长规整系统及方法
CN113643728B (zh) * 2021-08-12 2023-08-22 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP2000075862A (ja) * 1998-08-27 2000-03-14 Roland Corp 波形信号の時間軸圧縮伸長装置
CN101169935A (zh) * 2006-10-23 2008-04-30 索尼株式会社 用于扩展/压缩音频信号的装置和方法
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP2000075862A (ja) * 1998-08-27 2000-03-14 Roland Corp 波形信号の時間軸圧縮伸長装置
CN101169935A (zh) * 2006-10-23 2008-04-30 索尼株式会社 用于扩展/压缩音频信号的装置和方法
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法

Also Published As

Publication number Publication date
CN106373590A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106157976B (zh) 一种唱歌评测方法及系统
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
KR102212225B1 (ko) 오디오 보정 장치 및 이의 오디오 보정 방법
CN104934029A (zh) 基于基音同步频谱参数的语音识别系统和方法
CN112133277B (zh) 样本生成方法及装置
CN106373590B (zh) 一种基于语音实时时长调整的声音变速控制系统和方法
CN109416911B (zh) 声音合成装置及声音合成方法
JP2012108451A (ja) 音声処理装置および方法、並びにプログラム
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
ES2702455T3 (es) Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos
CN108847218A (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
WO2006017916A1 (en) Method and system for sound synthesis
CA2045612A1 (en) Time series association learning
JPH09244693A (ja) 音声合成方法及び装置
CN104282300A (zh) 一种非周期成分音节模型建立、及语音合成的方法和设备
CN108830232B (zh) 一种基于多尺度非线性能量算子的语音信号周期分割方法
US20070269056A1 (en) Method and Apparatus for Audio Signal Expansion and Compression
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
EP3513573B1 (en) A method, apparatus and computer program for processing audio signals
CN105448297A (zh) 一种获取基音周期的方法及装置
WO2017164216A1 (ja) 音響処理方法および音響処理装置
CN203748009U (zh) 一种数字助听器
KR101336137B1 (ko) 음성 시간축 변환을 위한 고속의 정규화된 상호상관도 계산 방법
CN113674723B (zh) 一种音频处理方法、计算机设备及可读存储介质
CN104093111A (zh) 一种带有汉语音调增强方法的数字助听器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200403

Termination date: 20210829

CF01 Termination of patent right due to non-payment of annual fee