CN106373590A - 一种基于语音实时时长调整的声音变速控制系统和方法 - Google Patents

一种基于语音实时时长调整的声音变速控制系统和方法 Download PDF

Info

Publication number
CN106373590A
CN106373590A CN201610736919.6A CN201610736919A CN106373590A CN 106373590 A CN106373590 A CN 106373590A CN 201610736919 A CN201610736919 A CN 201610736919A CN 106373590 A CN106373590 A CN 106373590A
Authority
CN
China
Prior art keywords
voice signal
voice
bestperiod
periodpos
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610736919.6A
Other languages
English (en)
Other versions
CN106373590B (zh
Inventor
谢海欧
李文
吴小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Institute of Science and Technology
Original Assignee
Hunan Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Institute of Science and Technology filed Critical Hunan Institute of Science and Technology
Priority to CN201610736919.6A priority Critical patent/CN106373590B/zh
Publication of CN106373590A publication Critical patent/CN106373590A/zh
Application granted granted Critical
Publication of CN106373590B publication Critical patent/CN106373590B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种基于PSOLA改进的检测基本周期波形(基音)的算法,涉及一种基于语音实时时长调整的声音变速控制系统和方法。该发明通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;将搜索到的两个的语音信号重叠相加;通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制;或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。本发明在语音实时时长调整中使用搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。

Description

一种基于语音实时时长调整的声音变速控制系统和方法
技术领域
本发明涉及语音信号处理技术领域,并且更具体的,涉及一种语音时长调整中的声音变速控制系统和方法。
背景技术
改变语音播放速度而不改变音调、音色和音质,这个有关语音时长调整技术的需求,早在20世纪50年代初,国内外很多学者就开始进行了广泛而深入的研究。现有方法主要包括时域法、频域法和参数法三种。但由于语音参数多, 抽取的算法比较复杂, 合成语音的自然度和清晰度都比较差。对语音信号的时长调整和基音标记修改,是语音信号处理领域中理论研究和实际应用的热门课题。为了实现高质量的时长调整和基音标记修改, 在过去几十年里, 已经提出了许多算法,但真正能在实时的语音处理方面, 尤其在语音连续的变速不变调的功能实现上不理想。语音时长调整算法PICOLA(指针间隔控制的重叠和相加,Pointer Interval Controlled Overlap and Add)提供了一种较为理想的基音检测。PICOLA假设待处理的数据从初始位置起是周期性的。随后使用前两个基本周期波形(基音)构成重叠相加的波形。通过用重叠相加的波形替代输入信号的一部分或者通过将重叠相加的波形插入输入信号中来实现语音速度控制功能。然而,PICOLA算法中基音检测的假设并非总是成立。
发明内容
本发明基于PICOLA算法,提出了一种动态搜索算法进行基音检测方法。在待处理样本的范围内搜索基音,获取准确的用来产生重叠相加的波形所需的基本周期语音信号。包括以下步骤:
通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;
从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索到相邻两个语音信号之间失真最小的波形;
将搜索到的语音信号重叠相加,通过用重叠相加的语音信号替代被搜索到的语音信号或者通过将重叠相加的语音信号插入被搜索到的相邻两个语音信号中实现速度控制。
本发明在语音实时时长调整中使用动态搜索算法进行基音检测来改进性能,精确的基本周期波形能够保持时长调整处理后语音(音调、音色、音质)的质量。
附图说明
图1是语音时长调整的框图;
图2是时间尺度压缩原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是压缩信号;
图3是时间尺度扩展原理图,其中(A)是原始信号,(B)是重叠-相加的波形,(C)是扩展信号。
具体实施方式
下面结合附图1语音时长调整的框图,对本发明作进一步详细描述。
(1)本发明将输入信号(音频解码器的音频源输出)存储在缓冲存储器中。
(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并且挑选两个语音信号之间失真最小的那对波形。这里涉及到的具体细节为动态搜索基音检测算法运用:
本发明修改了PICOLA中的检测基本周期语音信号(基音)的算法。基本周期波形的精确度决定了语音时长调整的性能。查找基本周期的新方法如下:
如果波形的基本周期是Pl,速度控制因子是γ,L是待处理的语音信号长度。那么,
查找基本周期语音信号的步骤如下:
1. for Pl = Lmin: Lmax
2. 根据Pl和γ计算采样长度L
3. for shiftPos = 0:L-2·Pl
4. periodPos = betterPosbestPeriod = betterPeriod
Lmin是待处理语音的最小基本周期,而Lmax是待处理语音的最大基本周期。语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz。所以Lmin =采样率/600Lmax =采样率/40是当基本周期长度为Pl时两个语音信号之间的平均失真,是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点。挑选使失真最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期。为了降低计算成本,可以使用阈值来确定基本周期位置和长度。
(3)将挑选的那对语音信号重叠相加。涉及到时间尺度压缩:
在图2中示出了压缩原理。b0是缓冲存储器中待处理数据的起始位置。周期位置(periodPos)和最佳周期(bestPeriod)使用上述方法来确定。L是最佳周期为bestPeriod时对应的需处理语音信号的长度。
波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数SA(i)=(periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod。把波形A和函数SA相乘得到SA(A);
波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数SB(i)=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod。把波形B和函数SB相乘得到SB(B);
重叠-相加的波形C通过将窗口化的语音信号SA(A)和语音信号SB(B)线性相加获得。用语音信号C替代原始语音信号A和B。则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
(4)通过用重叠相加的语音信号替代输入信号的一部分或者通过将重叠相加的语音信号插入输入信号中实现速度控制。涉及到时间尺度扩展:
在图3中示出了扩展原理。b0是缓冲存储器中待处理语音的起始位置。使用与在用于基音检测的动态搜索方法来确定periodPosbestPeriod。语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同。
将重叠-相加的语音信号C插入语音信号A和语音信号B之间。则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
结论
本发明在语音时长调整中使用动态搜索算法进行基音检测来改进性能。精确的基本周期波形能够保持时长调整处理后语音(音调、音色)的质量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (4)

1.一种基于语音实时时长调整的声音变速控制系统和方法,其特征在于:
(1)通过将输入信号(例如音频解码器音频源的输出)存储在缓冲存储器中;
(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号,并搜索出相邻两个语音信号之间失真最小的波形;
(3)将搜索到的两个的语音信号重叠相加;
(4)通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制;或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。
2.如权利要求1(2)所述的动态搜索基音检测算法,其特征在于修改了PICOLA中的检测基本周期语音信号(基音)的算法,基本周期波形的精确度决定了语音时长调整的性能,查找基本周期的新方法如下:
如果波形的基本周期是Pl,速度控制因子是γ,L是待处理的语音信号长度,那么,
查找基本周期语音信号的步骤如下:
(1)for Pl = Lmin: Lmax
(2)根据Pl和γ计算采样长度L
(3)for shiftPos = 0:L-2·Pl
(4)periodPos = betterPosbestPeriod = betterPeriod;
Lmin是待处理语音的最小基本周期,而Lmax是待处理语音的最大基本周期,
语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz,
所以Lmin =采样率/600Lmax =采样率/40,是当基本周期长度为Pl时两个语音信号之间的平均失真,是相邻的语音信号,shiftPos是候选基本周期语音信号的起始点,挑选使失真最小的起始点shiftPos和长度Pl,并由此确定对应的基本周期,为了降低计算成本,使用阈值来确定基本周期位置和长度。
3.如权利要求1(3)所述,其特征在于时间尺度压缩:
在图2中示出了压缩原理,b0是缓冲存储器中待处理数据的起始位置,周期位置(periodPos)和最佳周期(bestPeriod)使用上述方法来确定,L是最佳周期为bestPeriod时对应的需处理语音信号的长度;
波形A是起点位置为periodPos长度为bestPeriod的语音信号,函数SA(i)=( periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod,把波形A和函数SA相乘得到SA(A);
波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号,函数SB(i)=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod;把波形B和函数SB相乘得到SB(B);
重叠-相加的波形C通过语音信号 SA(A)和语音信号SB(B)线性相加获得,用语音信号C替代原始语音信号A和B,则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。
4.如权利要求1(4)所述的动态搜索基音检测算法,其特征在于时间尺度扩展:
在图3中示出了扩展原理.b0是缓冲存储器中待处理语音的起始位置,使用与在用于基音检测的动态搜索方法来确定periodPos 和 bestPeriod,语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同;
将重叠-相加的语音信号C插入语音信号A和语音信号B之间,则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。
CN201610736919.6A 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法 Expired - Fee Related CN106373590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610736919.6A CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610736919.6A CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Publications (2)

Publication Number Publication Date
CN106373590A true CN106373590A (zh) 2017-02-01
CN106373590B CN106373590B (zh) 2020-04-03

Family

ID=57902627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610736919.6A Expired - Fee Related CN106373590B (zh) 2016-08-29 2016-08-29 一种基于语音实时时长调整的声音变速控制系统和方法

Country Status (1)

Country Link
CN (1) CN106373590B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN113643728A (zh) * 2021-08-12 2021-11-12 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP2000075862A (ja) * 1998-08-27 2000-03-14 Roland Corp 波形信号の時間軸圧縮伸長装置
CN101169935A (zh) * 2006-10-23 2008-04-30 索尼株式会社 用于扩展/压缩音频信号的装置和方法
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP2000075862A (ja) * 1998-08-27 2000-03-14 Roland Corp 波形信号の時間軸圧縮伸長装置
CN101169935A (zh) * 2006-10-23 2008-04-30 索尼株式会社 用于扩展/压缩音频信号的装置和方法
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN107068160B (zh) * 2017-03-28 2020-04-28 大连理工大学 一种语音时长规整系统及方法
CN113643728A (zh) * 2021-08-12 2021-11-12 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品
CN113643728B (zh) * 2021-08-12 2023-08-22 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品

Also Published As

Publication number Publication date
CN106373590B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN100338650C (zh) 时标扩展方法、时标修改装置和接收音频信号的接收器
EP3588490B1 (en) Speech conversion method, computer device, and storage medium
US9786298B1 (en) Audio fingerprinting based on audio energy characteristics
JP2019527852A (ja) 音声認識処理方法及び装置
CN102903357A (zh) 一种提取歌曲副歌的方法、装置和系统
CN104517605B (zh) 一种用于语音合成的语音片段拼接系统和方法
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
CN104205212A (zh) 听觉场景中的讲话者冲突
CN109416911B (zh) 声音合成装置及声音合成方法
CN111128116B (zh) 一种语音处理方法、装置、计算设备及存储介质
CN112133277A (zh) 样本生成方法及装置
CN111667803B (zh) 一种音频处理方法及相关产品
CN106373590A (zh) 一种基于语音实时时长调整的声音变速控制系统和方法
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
CN101290775B (zh) 一种快速实现语音信号变速的方法
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
US9159334B2 (en) Voice processing device and method, and program
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
JPH09244693A (ja) 音声合成方法及び装置
CN105719641B (zh) 用于波形拼接语音合成的选音方法和装置
CN101202048A (zh) 语音变速的方法
KR101650739B1 (ko) 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
WO2017164216A1 (ja) 音響処理方法および音響処理装置
CN107068160B (zh) 一种语音时长规整系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200403

Termination date: 20210829

CF01 Termination of patent right due to non-payment of annual fee