CN106373590B - 一种基于语音实时时长调整的声音变速控制系统和方法 - Google Patents
一种基于语音实时时长调整的声音变速控制系统和方法 Download PDFInfo
- Publication number
- CN106373590B CN106373590B CN201610736919.6A CN201610736919A CN106373590B CN 106373590 B CN106373590 B CN 106373590B CN 201610736919 A CN201610736919 A CN 201610736919A CN 106373590 B CN106373590 B CN 106373590B
- Authority
- CN
- China
- Prior art keywords
- voice
- bestperiod
- length
- speech signal
- periodpos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000000737 periodic effect Effects 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010845 search algorithm Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种基于PSOLA改进的检测基本周期波形(基音)的算法,涉及一种基于语音实时时长调整的声音变速控制系统和方法。该发明通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;将搜索到的两个的语音信号重叠相加;通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制;或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。本发明在语音实时时长调整中使用搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。
Description
技术领域
本发明涉及语音信号处理技术领域,并且更具体的,涉及一种语音时长调整中的声音变速控制系统和方法。背景技术
改变语音播放速度而不改变音调、音色和音质,这个有关语音时长调整技术的需求,早在20世纪50年代初,国内外很多学者就开始进行了广泛而深入的研究。现有方法主要包括时域法、频域法和参数法三种。但由于语音参数多, 抽取的算法比较复杂, 合成语音的自然度和清晰度都比较差。对语音信号的时长调整和基音标记修改,是语音信号处理领域中理论研究和实际应用的热门课题。为了实现高质量的时长调整和基音标记修改, 在过去几十年里, 已经提出了许多算法,但真正能在实时的语音处理方面, 尤其在语音连续的变速不变调的功能实现上不理想。语音时长调整算法PICOLA(指针间隔控制的重叠和相加,Pointer Interval Controlled Overlap and Add)提供了一种较为理想的基音检测。PICOLA假设待处理的数据从初始位置起是周期性的。随后使用前两个基本周期波形(基音)构成重叠相加的波形。通过用重叠相加的波形替代输入信号的一部分或者通过将重叠相加的波形插入输入信号中来实现语音速度控制功能。然而,PICOLA算法中基音检测的假设并非总是成立。
发明内容
本发明基于PICOLA算法,提出了一种动态搜索算法进行基音检测方法。在待处理样本的范围内搜索基音,获取准确的用来产生重叠相加的波形所需的基本周期语音信号。包括以下步骤:
通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;
从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索到相邻两个语音信号之间失真最小的波形;
将搜索到的语音信号重叠相加,通过用重叠相加的语音信号替代被搜索到的语音信号或者通过将重叠相加的语音信号插入被搜索到的相邻两个语音信号中实现速度控制。
本发明在语音实时时长调整中使用动态搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。
附图说明
图1是语音时长调整的框图;
图2是时间尺度压缩原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是压缩信号;
图3是时间尺度扩展原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是扩展信号。
具体实施方式
下面结合附图1语音时长调整的框图,对本发明作进一步详细描述。
(1)本发明将输入信号(音频解码器的音频源输出)存储在缓冲存储器中。
(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并且挑选两个语音信号之间失真最小的那对波形。这里涉及到的具体细节为动态搜索基音检测算法运用:
本发明修改了PICOLA中的检测基本周期语音信号(基音)的算法。基本周期波形的精确度决定了语音时长调整的性能。查找基本周期的新方法如下:
如果波形的基本周期是Pl,速度控制因子是γ,L是待处理的语音信号长度。那么,
查找基本周期语音信号的步骤如下:
1. for Pl = Lmin: Lmax;
2. 根据Pl和γ计算采样长度L;
3. for shiftPos = 0:L-2·Pl
4. periodPos = betterPos,bestPeriod = betterPeriod。
Lmin是待处理语音的最小基本周期,而Lmax是待处理语音的最大基本周期。语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz。所以Lmin =采样率/600;Lmax =采样率/40。是当基本周期长度为Pl时两个语音信号之间的平均失真,和是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点。挑选使失真最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期。为了降低计算成本,可以使用阈值来确定基本周期位置和长度。
(3)将挑选的那对语音信号重叠相加。涉及到时间尺度压缩:
在图2中示出了压缩原理。b0是缓冲存储器中待处理数据的起始位置。周期位置(periodPos)和最佳周期(bestPeriod)使用上述方法来确定。L是最佳周期为bestPeriod时对应的需处理语音信号的长度。
波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数SA(i)=(periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod。把波形A和函数SA相乘得到SA(A);
波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数SB(i)=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod。把波形B和函数SB相乘得到SB(B);
。重叠-相加的波形C通过将窗口化的语音信号SA(A)和语音信号SB(B)线性相加获得。用语音信号C替代原始语音信号A和B。则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
(4)通过用重叠相加的语音信号替代输入信号的一部分或者通过将重叠相加的语音信号插入输入信号中实现速度控制。涉及到时间尺度扩展:
在图3中示出了扩展原理。b0是缓冲存储器中待处理语音的起始位置。使用与在用于基音检测的动态搜索方法来确定periodPos 和 bestPeriod。语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同。
将重叠-相加的语音信号C插入语音信号A和语音信号B之间。则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
结论
本发明在语音时长调整中使用动态搜索算法进行基音检测来改进性能。精确的基本周期波形能够保持时长调整处理后语音(音调、音色)的质量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于语音实时时长调整的声音变速控制方法,其特征在于,步骤如下:
S1、将输入信号存储在缓冲存储器中;
S2、从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;
抽取中使用了动态搜索基音检测算法,并修改了语音时长调整算法中的检测基本周期语音信号的算法,基本周期波形的精确度确定了语音时长调整的性 能,查找基本周期的算法如下:
波形的基本周期为Pl,速度控制因子为γ,待处理的语音信号长度为L,则
查找基本周期语音信号的步骤如下:
(1)for Pl=Lmin:Lmax;
(2)根据Pl和γ计算采样长度L;
(3)for shiftPos=0:L-2*Pl;
若EshiftPos(Pl)<E,则periodPos=shiftPos,bestPeriod=Pl goto (4)
(4)periodPos=betterPos,bestPeriod=betterPeriod;
其中,Lmin是待处理语音的最小基本周期,Lmax是待处理语音的最大基本周期,betterPos为最佳起始点,betterPeriod为最佳波长periodPos为周期位置,bestPeriod为最佳周期;语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz,Lmin=采样率/600;Lmax=采样率/40,EshiftPos(Pl)是基本周期长度为Pl时两个语音信号之间的平均失真,x(shiftPos+n)和y(shiftPos+Pl+n)是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点,挑选使失真EshiftPos(Pl)最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期,,使用阈值E来确定基本周期位置和长度。
S3、将搜索到的两个语音信号重叠相加;
S4、通过将重叠相加的语音信号代替原输入信号中被搜索出来的相邻的两个语音来控制语音速度变快;通过将重叠相加的语音信号插入原输入中被检索出来的相邻两个语音之间来控制语音速度变慢。
2.根据权利要求1所述的一种基于语音实时时长调整的声音变速控制方法,其特征在于,所述控制语音速度变快的方法为时间尺度压缩,其压缩原理为:
b0是缓冲存储器中待处理数据的起始位置,L是最佳周期为bestPeriod时对应的需处理语音信号的长度;波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数
SA(i)=(periodPos+bestPeriod-i)/periodPos,periodPos≤i<periodPos+bestPeriod,波形A和函数SA相乘得到SA(A);波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数
SB(i)=(i-periodPos-bestPeriod)/periodPos,
periodPos+bestPeriod≤i<periodPos+2*bestPeriod,
波形B和函数SB相乘得到SB(B),
重叠-相加的波形C通过语音信号SA(A)和语音信号SB(B)线性相加获得,用语音信号C替代原始语音信号A和B,则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
3.根据权利要求1所述的一种基于语音实时时长调整的声音变速控制方法,其特征在于,所述控制语音速度变慢的方法为时间尺度扩展,其扩展原理为:
b0是缓冲存储器中待处理语音的起始位置,使用基音检测的动态搜索方法来确定periodPos和bestPeriod,语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同;
将重叠-相加的语音信号C插入语音信号A和语音信号B之间,则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610736919.6A CN106373590B (zh) | 2016-08-29 | 2016-08-29 | 一种基于语音实时时长调整的声音变速控制系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610736919.6A CN106373590B (zh) | 2016-08-29 | 2016-08-29 | 一种基于语音实时时长调整的声音变速控制系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106373590A CN106373590A (zh) | 2017-02-01 |
CN106373590B true CN106373590B (zh) | 2020-04-03 |
Family
ID=57902627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610736919.6A Expired - Fee Related CN106373590B (zh) | 2016-08-29 | 2016-08-29 | 一种基于语音实时时长调整的声音变速控制系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106373590B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068160B (zh) * | 2017-03-28 | 2020-04-28 | 大连理工大学 | 一种语音时长规整系统及方法 |
CN113643728B (zh) * | 2021-08-12 | 2023-08-22 | 荣耀终端有限公司 | 一种音频录制方法、电子设备、介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
JP2000075862A (ja) * | 1998-08-27 | 2000-03-14 | Roland Corp | 波形信号の時間軸圧縮伸長装置 |
CN101169935A (zh) * | 2006-10-23 | 2008-04-30 | 索尼株式会社 | 用于扩展/压缩音频信号的装置和方法 |
CN102074246A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
-
2016
- 2016-08-29 CN CN201610736919.6A patent/CN106373590B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
JP2000075862A (ja) * | 1998-08-27 | 2000-03-14 | Roland Corp | 波形信号の時間軸圧縮伸長装置 |
CN101169935A (zh) * | 2006-10-23 | 2008-04-30 | 索尼株式会社 | 用于扩展/压缩音频信号的装置和方法 |
CN102074246A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106373590A (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106157976B (zh) | 一种唱歌评测方法及系统 | |
US11410637B2 (en) | Voice synthesis method, voice synthesis device, and storage medium | |
KR102212225B1 (ko) | 오디오 보정 장치 및 이의 오디오 보정 방법 | |
CN104934029A (zh) | 基于基音同步频谱参数的语音识别系统和方法 | |
CN112133277B (zh) | 样本生成方法及装置 | |
CN106373590B (zh) | 一种基于语音实时时长调整的声音变速控制系统和方法 | |
CN109416911B (zh) | 声音合成装置及声音合成方法 | |
JP2012108451A (ja) | 音声処理装置および方法、並びにプログラム | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
ES2702455T3 (es) | Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos | |
CN108847218A (zh) | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 | |
WO2006017916A1 (en) | Method and system for sound synthesis | |
CA2045612A1 (en) | Time series association learning | |
JPH09244693A (ja) | 音声合成方法及び装置 | |
CN104282300A (zh) | 一种非周期成分音节模型建立、及语音合成的方法和设备 | |
CN108830232B (zh) | 一种基于多尺度非线性能量算子的语音信号周期分割方法 | |
US20070269056A1 (en) | Method and Apparatus for Audio Signal Expansion and Compression | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
EP3513573B1 (en) | A method, apparatus and computer program for processing audio signals | |
CN105448297A (zh) | 一种获取基音周期的方法及装置 | |
WO2017164216A1 (ja) | 音響処理方法および音響処理装置 | |
CN203748009U (zh) | 一种数字助听器 | |
KR101336137B1 (ko) | 음성 시간축 변환을 위한 고속의 정규화된 상호상관도 계산 방법 | |
CN113674723B (zh) | 一种音频处理方法、计算机设备及可读存储介质 | |
CN104093111A (zh) | 一种带有汉语音调增强方法的数字助听器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200403 Termination date: 20210829 |
|
CF01 | Termination of patent right due to non-payment of annual fee |