CN113611325A

CN113611325A - 基于清浊音实现的语音信号变速方法、装置和音频设备

Info

Publication number: CN113611325A
Application number: CN202110452075.3A
Authority: CN
Inventors: 方桂萍; 肖全之; 闫玉凤
Original assignee: Zhuhai Jieli Technology Co Ltd
Current assignee: Zhuhai Jieli Technology Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-11-05
Anticipated expiration: 2041-04-26
Also published as: CN113611325B

Abstract

本发明公开了一种基于清浊音实现的语音信号变速方法、装置和音频设备，其中，所述方法包括：步骤S100，对待变速音频信号帧进行子带分解；步骤S200，对每个子带信号进行分析得到每个子带信号的子带分析结果；步骤S300，通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1；当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数；步骤S400，对合成相位后的子带集合进行子带合成得到变速后的音频信号。从而，实现了区分清、浊音进行分类变速，更贴合人的说话习惯，改善了用户听感的用户体验。

Description

基于清浊音实现的语音信号变速方法、装置和音频设备

技术领域

本发明涉及音频信号处理技术领域，具体涉及一种基于清浊音实现的语音信号变速方法、装置和音频设备。

背景技术

目前，涉及音频输出的电子产品，尤其涉及音乐播放发的电子产品。音频的播放速度会随着目标速度(播放倍数)进行拉伸缩短变化。比如：复读机，变速耳机，变速音箱等。其人声播放速度会随着背景音乐节拍的变化而变化，当背景音乐节奏感快的时候，人声的单音词长的播放速度会被拉伸或压缩。比如：k歌宝、直播声卡等。

传统方案中，一般通过在软体内嵌变速音效的算法，其通过设置固定的播放倍数，比如：1.5倍、2倍、2.5倍等的方式，进行就近变速匹配，该变速的效果不能实时贴近目标音乐需要的节奏来变化。

对于包含语音的音频信号而言，如果设置过快或过慢，都会导致音频内容听感不自然，严重影响内容的收听体验。经申请人研究发现，导致听感不自然的原因是，在变速处理过程中，当进行拉长音时，会同时将清音和浊音一起拉长，导致合成声音不自然。

因此，针对包含语音的音频信号而言，如何区分清、浊音进行分类变速，以改善用户的听感成为亟待解决的技术问题。

发明内容

基于上述现状，本发明的主要目的在于提供一种基于清浊音实现的语音信号变速方法、装置和音频设备，以针对包含语音的音频信号而言，如何区分清、浊音进行分类变速，以改善用户的听感。

为实现上述目的，本发明采用的技术方案如下：

第一方面，本发明实施例公开了一种基于清浊音实现的语音信号变速方法，包括：

步骤S100，对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；

步骤S200，对每个子带信号进行分析得到每个子带信号的子带分析结果，子带分析结果为对应的子带信号为清音信号或浊音信号；

步骤S300，通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：

当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1；

当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数；

步骤S400，对合成相位后的子带集合进行子带合成得到变速后的音频信号。

可选地，步骤S100包括：

利用高通滤波器和低通滤波器构成的二叉树状分解方式对待变速音频信号帧进行子带分解。

可选地，步骤S200包括：

步骤S211，求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值；

步骤S212，判断第一比值是否小于第一阈值；如果第一比值小于第一阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，如果第一比值大于第一阈值，则顺次执行步骤S213、步骤S214；

步骤S213，求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值；

步骤S214，判断第二比值是否小于第二阈值；如果第二比值小于第二阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，如果第二比值大于第二阈值，则顺次执行步骤S215、步骤S216；

步骤S215，求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值，其中，2≤i≤N，N为待变速音频信号帧被分解的子带数量；

步骤S216，判断第三比值是否小于第三阈值；如果第三比值小于第三阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，在步骤S216中，如果第三比值大于第三阈值，则执行步骤S217；

步骤S217，对i自加1，并顺次执行步骤S215、步骤S216；

当i＝N，且各个第三比值大于第三阈值，则确定待变速音频信号帧为浊音信号。

可选地，在步骤S300中，当子带信号为浊音信号时，包括：

将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。

可选地，新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。

可选地，在步骤S200中，如果分析出子带信号为清音信号，则执行步骤S220；

步骤S220，对子带信号所在的音频信号帧做置上复位标志；

在步骤S300中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。

步骤S220，对子带信号所在的音频信号帧做置上复位标志；

在步骤S100包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对待变速音频信号帧进行子带分解。

第二方面，本发明实施例公开了一种基于清浊音实现的语音信号变速装置，包括：

子带分解模块，用于对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；

子带分析模块，用于对每个子带信号进行分析得到每个子带信号的子带分析结果，子带分析结果为对应的子带信号为清音信号或浊音信号；

相位合成模块，用于通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：

子带合成模块，用于对合成相位后的子带集合进行子带合成得到变速后的音频信号。

可选地，子带分解模块具体用于利用高通滤波器和低通滤波器构成的二叉树状分解方式对待变速音频信号帧进行子带分解。

可选地，子带分析模块包括：

第一计算单元，用于求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值；

第一判断单元，用于判断第一比值是否小于第一阈值；如果第一比值小于第一阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，子带分析模块包括：第二计算单元和第二判断单元，如果第一比值大于第一阈值，则：

第二计算单元用于求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值；

第二判断单元用于判断第二比值是否小于第二阈值；如果第二比值小于第二阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，子带分析模块包括：第三计算单元和第三判断单元，如果第二比值大于第二阈值，则：

第三计算单元用于求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值，其中，2≤i≤N，N为待变速音频信号帧被分解的子带数量；

第三判断单元用于判断第三比值是否小于第三阈值；如果第三比值小于第三阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

可选地，在第三判断单元中，如果第三比值大于第三阈值，则执行自加单元；

自加单元，用于对i自加1，并顺次运行第三计算单元和第三判断单元；

可选地，在相位合成模块中，当子带信号为浊音信号时，用于将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。

可选地，包括：置上标志模块；在子带分析模块中，如果分析出子带信号为清音信号，则置上标志模块用于对子带信号所在的音频信号帧做置上复位标志；

在相位合成模块中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。

可选地，包括：置上标志模块；

在子带分析模块中，如果分析出子带信号为清音信号，则执行步骤S220；则置上标志模块用于对子带信号所在的音频信号帧做置上复位标志；

在子带分解模块包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对待变速音频信号帧进行子带分解。

第三方面，本发明实施例公开了一种音频设备，包括：

处理器，用于实现上述第一方面公开的方法。

第四方面，本发明实施例公开了一种音频信号处理系统，包括：第一设备和第二设备；

第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；

第二设备具有上述第二方面公开的装置。

第五方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，存储介质中存储的计算机程序用于被执行实现上述第一方面的方法。

第六方面，本发明实施例公开了一种音频设备的芯片，其上具有集成电路，集成电路被设计成用于实现第一方面的方法。

【有益效果】

依据本发明实施例公开的一种基于清浊音实现的语音信号变速方法、装置和音频设备，对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号，以便于对待变速音频信号帧进行相位展开；而后，对每个子带信号进行分析得到每个子带信号的子带分析结果，子带分析结果为对应的子带信号为清音信号或浊音信号；当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1，当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数，从而，使得对清音信号基本不变速，对浊音进行相应的变速处理，减少了拉长清音所导致的合成声音不自然现象，也就是，实现了区分清、浊音进行分类变速，更贴合人的说话习惯，改善了用户听感的用户体验。

本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

以下将参照附图对根据本发明实施例进行描述。图中：

图1为本实施例公开的一种基于清浊音实现的语音信号变速方法流程图；

图2A和图2B示例了一对高、低通滤波器的频响示意图，其中，图2A为低通滤波器的频响示意图，图2B为高通滤波器的频响示意图；

图3为本实施例公开的一种对子带信号分析得到子带分析结果的方法流程图；

图4A和图4B示例了一种浊音时域波形片段及对应频域幅度谱示意图，其中，图4A示例了一种浊音时域波形片段，图4B示例了一种浊音时域波形片段对应频域幅度谱；

图5A和图5B示例了一种清音时域波形片段及对应频域幅度谱示意图，其中，图5A示例了一种清音时域波形片段，图5B示例了一种清音时域波形片段对应频域幅度谱；

图6为本实施例公开的一种基于清浊音实现的语音信号变速装置结构示意图。

具体实施方式

为了针对包含语音的音频信号，区分清、浊音进行分类变速，以改善用户的听感，本发明实施例公开了一种基于清浊音实现的语音信号变速方法，请参考图1，为本实施例公开的一种基于清浊音实现的语音信号变速方法流程图，该基于清浊音实现的语音信号变速方法包括：步骤S100、步骤S200、步骤S300和步骤S400，其中：

步骤S100，对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号。本实施例中，在获取待变速音频信号帧后，可以通过缓冲器按先进先出缓存待变速音频信号帧，并利用例如滤波器来对待变速音频信号帧进行子带分解，每个子带信号的带宽可以小于例如4k Hz，当然，也可以适当提高带宽，或降低带宽。本实施例中，将待变速音频信号帧分解成多个带宽小于预设值的子带信号，可以利于后续的相位展开。

在可选的实施例中，可以利用高通滤波器和低通滤波器构成的二叉树状分解方式对待变速音频信号帧进行子带分解。具体地，请参考图2A和图2B，示例了一对高、低通滤波器的频响示意图，其中，图2A为低通滤波器的频响示意图，图2B为高通滤波器的频响示意图，以待变速音频信号帧的带宽为16kHz，分解成带宽为4k为例：将16k的待变速音频信号输入至一对高通滤波器(filterHP)、低通滤波器(filterLP)进行二分后，得到2个带宽均为8k的子带，信号signalHP、信号signalLP；然后，再分别送入各自对应的下一对高、低通滤波器，各自得到了2个带宽均为4k的子带，例如，信号signalHP经高通滤波器(filterHP)、低通滤波器(filterLP)进行二分后，得到信号signalHP_HP、信号signalHP_LP，信号signalLP经高通滤波器(filterHP)、低通滤波器(filterLP)进行二分后，得到信号signalLP_HP、信号signalLP_LP，也就是，合计得到了4个带宽为4k的子带信号，即，各个子带信号分别为：0-4k、4-8k、8-12k以及12-16k。

步骤S200，对每个子带信号进行分析得到每个子带信号的子带分析结果。本实施例中，所称子带分析结果为对应的子带信号为清音信号或浊音信号。在具体实施过程中，可以通过子带中频线能量平均值、频线能量最大值、幅度谱等方式来确定子带分析结果，具体地，请参考下文描述。本实施例中，在对待变速音频信号帧进行子带分解后，可以对各个子带信号分别进行傅里叶变换，将时域信号转换为频域信号，而后，在频域上对各个子带信号进行分析得到子带分析结果。需要说明的是，在对待变速音频信号帧中的各个子带进行分析的过程中，当分析得到其中一个子带信号为清音信号时，即可认为该待变速音频信号帧为清音信号，也就是，该待变速音频信号帧中的各个子带信号均按清音信号处理。

步骤S300，通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合。本实施例中，通过变速因子对各个子带信号进行相位合成后，即得到了变速后的子带信号，其中：

当子带信号为清音信号时，将对应子带信号的变速因子确定为定常数1，也就是，对清音信号基本不变速。在具体实施过程中，清音信号的变速因子可以不完全等于1，也就是可以稍微小于1，也可以稍微大于1，具体以实际场景来确定。

当子带信号为浊音信号时，将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数。在具体实施过程中，可以采用一般的方式来确定变速因子，作为示例，在具体实施过程中，可以对音频信号进行词长划分，以及节奏计算，而后，依据词长、节奏来确定子带信号的变速因子。需要说明的是，本实施例中，不同子带信号之间的变速因子可能不同，也就是，针对每个子带信号，分别采用对应的变速因子进行相位合成。

步骤S400，对合成相位后的子带集合进行子带合成得到变速后的音频信号。在具体实施过程中，可以在时域上对子带进行合成，具体地，在得到合成相位后的子带集合后，可以对各个子带进行傅里叶反变换，而后，再进行子带合成。具体地，子带的合成过程为子带分解的逆过程，例如由信号signalLP分解得到信号signalLP_LP、信号signalLP_HP，则合成过程就反过来由信号signalLP_LP、信号signalLP_HP经滤波器合成signalLP；然后依次向上送入上一级滤波器进行子带合成。在具体实施过程中，可以按先进先出的方式缓存合成的数据。

为了更精准地区分清音、浊音，请参考图3，为本实施例公开的一种对子带信号分析得到子带分析结果的方法流程图，在可选的实施例中，步骤S200包括：

步骤S211，求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值A1。本实施例中，选取2k以内的频线能量平均值来计算比值，可以确定能量是否集中在最低频区域，由此，可以确定子带信号是清音还是浊音。具体地，可以依次从低频到高频对各个子带的信号做傅里叶变换。将傅里叶变换的结果转换为幅度以及相位的表达方式。对最低子带部分(2k以内)的幅度谱，请参考图4A、图4B以及图5A、图5B示例，其中，图4A和图4B示例了一种浊音时域波形片段及对应频域幅度谱示意图，其中，图4A示例了一种浊音时域波形片段，图4B示例了一种浊音时域波形片段对应频域幅度谱；图5A和图5B示例了一种清音时域波形片段及对应频域幅度谱示意图，其中，图5A示例了一种清音时域波形片段，图5B示例了一种清音时域波形片段对应频域幅度谱。在正常的浊音分布中，浊音信号是一个周期信号，它由声门的开闭出来的气体冲激由喉头、舌头、唇形等形成的一个腔体，然后冲激得到的，从频谱上看，信号的分布是一橫橫的，比较分立；从数据来看，就是个个子带上的分布是不平均。而清音信号类似一个噪声信号，没有周期，信号分布上看起来就比较平均。

因此，通过确定2k以内的频线能量平均值与幅度谱平均能量值之间的第一比值A1的大小关系，可以区分是清音，还是浊音。

步骤S212，判断第一比值A1是否小于第一阈值。如果第一比值A1小于第一阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。本实施例中，当第一比值A1小于第一阈值，则表明低频区域的信号能量分布更符合清音特性，因此，可以确定待变速音频信号帧为清音信号，也就是，待变速音频信号帧中的各个子带信号为清音信号。在具体实施过程中，第一阈值可以是例如3左右。本实施例中，当判断出待变速音频信号帧为清音信号时，无需再对该待变速音频信号帧中的其它子带进行分析，从而减少了运算量。

如果第一比值A1大于第一阈值，则确定无法待变速音频信号帧是清音信号，还是浊音信号，需要做进一步的判断。具体地，如果第一比值A1大于第一阈值，则顺次执行步骤S213、步骤S214。

步骤S213，求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值A2。由于清音信号分布比较平均，即，频线能量最大值与线能量平均能值比较接近，因此，第二比值A2比较小；而浊音信号的分布是一橫橫的，比较分立，因此，对于浊音信号，第二比值A2比较大。

步骤S212，判断第二比值A2是否小于第二阈值。本实施例中，第二阈值可以是6左右，在具体实施例中，如果第二比值A2小于第二阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

如果第二比值A2大于第二阈值，则确定无法待变速音频信号帧是清音信号，还是浊音信号，需要做进一步的判断。具体地，如果第二比值A2大于第二阈值，则顺次执行步骤S215、步骤S216。

步骤S215，求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值A3。其中，2≤i≤N，N为待变速音频信号帧被分解的子带数量。本实施例中，计算得到第1个子带(也就是最低频率的带宽)频线能量平均值后，将其依次与第2个、第3个、第4个……子带幅度谱平均能量值进行求比，可以依次得到第三比值A3。由于浊音信号的能量主要分布在低频，大部分有效的信号都是分布在低频，高频部分占的能量比较少，因此，对于浊音而言，第三比值A3比较大；相反的，对于清音而言，频谱上比较平均分布，因此，第三比值A3比较小。因此，通过确定第三比值A3的大小，可以确定待变速音频信号帧是清音信号，还是浊音信号。

步骤S216，判断第三比值A3是否小于第三阈值。如果第三比值A3小于第三阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。本实施例中，所称第三阈值为1.5左右。

需要说明的是，在具体实施过程中，在计算第三比值A3过程中，当判断出第三比值A3小于第三阈值时，即可停止后续的第三比值A3计算，也就是，无需计算所有的第三比值A3，从而减少运算量。

在步骤S216中，如果第三比值A3大于第三阈值，则执行步骤S217。

步骤S217，对i自加1，并顺次执行步骤S215、步骤S216。作为示例，第1个子带频线能量平均值与第2个子带幅度谱平均能量值之间的第三比值A3大于第三阈值，则表明当前无法确定是清音还是浊音，因此，接下来计算下一个子带的第三比值，即，计算第1个子带频线能量平均值与第3个(即i＝2，自加1得到i＝3)子带幅度谱平均能量值之间的比值，得到新的第三比值A3，而后，判断新的第三比值A3是否小于第三阈值，以此类推。

本实施例中，当i＝N，且各个第三比值A3大于第三阈值，则确定待变速音频信号帧为浊音信号。具体地，当计算到最后一个子带的第三比值A3时，第三比值A3大于第三阈值，也就表明，所有的第三比值A3均不满足清音信号的比值关系，从而可以确定待变速音频信号帧为浊音信号。

本实施例中，按频率由低到高的顺序逐次计算第三比值A3，可以提高判断效率和准确度，因为浊音信号的能量主要分布在低频，大部分有效的信号都是分布在低频，高频部分占的能量比较少，因此，先计算低频的第三比值A3，可以有效地针对浊音信号进行排除，从而提高了准确度；并且，当低频判断出为清音信号时，无需进行后续子带的第三比值A3计算，从而减少了运算量，提高了运算效率。

在可选的实施例中，在步骤S300中，当子带信号为浊音信号时，包括：将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。本实施例中，基于上一帧信号帧对应频线输出的合成相位来计算本帧音频信号帧对应频线输出的合成相位，有利于提高频谱连续性。在具体实施过程中，新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。具体地，可以通过如下公式来得到本帧音频信号帧对应频线输出的合成相位：

angle_out^j(k)＝angle_out^j-1(k)+angle_a^j(k)*out_ov/in_ov+k*freq_bin*out_ov/fft_len……公式(1)

其中，angle_out^j(k)为本帧音频信号帧第k根频线输出的合成相位，angle_out^j-1(k)为上一帧信号帧第k根频线输出的合成相位；out_ov每次输出的数据量，in_ov每次输入的数据量，out_ov/in_ov由变速因子决定，如果变速因子为2，则out_ov为in_ov的2倍；angle_a^j(k)表示除了随着上一帧周期拓展的角度外产生的变化角度，具体可以采用公式(2)来确定；k为系数，freq_bin(k)频线间的频率差，out_ov表示本帧与上一帧的滑动块大小，fft_len是傅里叶变换的数据长度，因此，k*freq_bin*out_ov/fft_len表示，作了滑动块大小滑动的相位为k*freq_bin*(in_ov/fft_len)。而in_ov取fft_len的1/32到1/8之间，freq_bin的值为2*pi/fft_len，先进先出地移动输入缓存的数据为40ms-in_ov。

angle_a^j(k)＝mod(angle_a(k),2*pi)……公式(2)

其中，angle_a^j(k)表示除了随着上一帧周期拓展的角度外产生的变化角度；angle_a(k)表示本帧通过输入相位来计算得到的除了随着上一帧周期拓展的角度外产生的变化角度，在具体实施过程中，可以通过公式(3)来计算angle_a(k)：

angle_a(k)＝angle_in(k)-k*freq_bin*in_ov/fft_len-anagle_in_last(k)……公式(3)

其中，angle_in(k)代表的是输入的第k根频线上的相位，anagle_in_last(k)是指上一次的angle_in(k)，即，anagle_in_last^j(k)＝angle_in^j-1(k)；freq_bin(k)频线间的频率差，in_ov表示本帧与上一帧的滑动块大小，fft_len是傅里叶变换的数据长度，因此，k*freq_bin*in_ov/fft_len表示，作了滑动块大小滑动的相位。

本实施例中，通过公式(1)来输出第k根频线的累加角度，它再移动out_ov的过程中会产生多的角度由2部分构成：一部分是angle_a^j(k)，一部分是自然周期扩展的部分。所以，输出角度是由当前的angle_out再加上新产生部分。然后得到angle_out^j(k)作为本次的第k个频线上的相位输出。

在可选的实施例中，请参考图1，在步骤S200中，如果分析出子带信号为清音信号，则执行步骤S220。

步骤S220，对子带信号所在的音频信号帧做置上复位标志。从而可以标记清音到浊音的变换，以及浊音到清音的变换。

在步骤S300中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。也就是，公式(1)可以变为angle_out^j-1(k)＝angle_in^j(k)，其中，angle_in^j(k)为本帧第k根频线的输入相位，anagle_in_last^j(k)＝angle_in^j(k)；更新输入缓存数据长度为0，即，不再缓存之前的数据。在上述实施例中，由于采用基于频谱连续来运算，频率变化会导致频谱前后差别较大，因此，可以无需参考之前的相位变化，通过本帧输入的相位来计算本帧音频信号帧对应频线输出的合成相位，一方面可以减小运算量，释放缓存；另一方面，可以避免之前缓存的数据对本帧合成相位计算所带来的影响。

在可选的实施例中，请参考图1，在步骤S200中，如果分析出子带信号为清音信号，则执行步骤S220；

步骤S220，对子带信号所在的音频信号帧做置上复位标志。

在步骤S100包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对待变速音频信号帧进行子带分解。本实施例中，当子带信号所在的音频信号帧为置上的时，通过减短汉明窗进行滑动以及子带分解。通过减短汉明窗可以使得滑动数据量小，也就是，滑窗的速率快。

本实施例还公开了一种基于清浊音实现的语音信号变速装置，请参考图6，为本实施例公开的一种基于清浊音实现的语音信号变速装置结构示意图，该基于清浊音实现的语音信号变速装置包括：子带分解模块100、子带分析模块200、相位合成模块300和子带合成模块400，其中：

子带分解模块100用于对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；

子带分析模块200用于对每个子带信号进行分析得到每个子带信号的子带分析结果，子带分析结果为对应的子带信号为清音信号或浊音信号；

相位合成模块300用于通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：

子带合成模块400用于对合成相位后的子带集合进行子带合成得到变速后的音频信号。

在可选的实施例中，子带分解模块100具体用于利用高通滤波器和低通滤波器构成的二叉树状分解方式对待变速音频信号帧进行子带分解。

在可选的实施例中，子带分析模块200包括：

第一计算单元，用于求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值A1；

第一判断单元，用于判断第一比值A1是否小于第一阈值；如果第一比值A1小于第一阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

在可选的实施例中，子带分析模块200包括：第二计算单元和第二判断单元，如果第一比值A1大于第一阈值，则：

第二计算单元用于求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值A2；

第二判断单元用于判断第二比值A2是否小于第二阈值；如果第二比值A2小于第二阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

在可选的实施例中，子带分析模块200包括：第三计算单元和第三判断单元，如果第二比值A2大于第二阈值，则：

第三计算单元用于求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值A3，其中，2≤i≤N，N为待变速音频信号帧被分解的子带数量；

第三判断单元用于判断第三比值A3是否小于第三阈值；如果第三比值A3小于第三阈值，则确定待变速音频信号帧为清音信号，待变速音频信号帧中的各个子带信号为清音信号。

在可选的实施例中，在第三判断单元中，如果第三比值A3大于第三阈值，则执行自加单元；

自加单元用于对i自加1，并顺次运行第三计算单元和第三判断单元；

当i＝N，且各个第三比值A3大于第三阈值，则确定待变速音频信号帧为浊音信号。

在可选的实施例中，在相位合成模块300中，当子带信号为浊音信号时，用于将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。

在可选的实施例中，新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。

在可选的实施例中，包括：置上标志模块；在子带分析模块200中，如果分析出子带信号为清音信号，则置上标志模块用于对子带信号所在的音频信号帧做置上复位标志；

在相位合成模块300中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。

在可选的实施例中，包括：置上标志模块；

在子带分析模块200中，如果分析出子带信号为清音信号，则执行步骤S220；则置上标志模块用于对子带信号所在的音频信号帧做置上复位标志；

在子带分解模块100包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对待变速音频信号帧进行子带分解。

本实施例还公开了一种音频设备，包括：

处理器，用于实现上述实施例公开的方法。

本实施例还公开了一种音频播放设备，对待变速音频信号中的浊音进行变速播放，对清音采用原速进行播放。具体地，请参见上述实施例的描述，在此不再赘述。

本实施例还公开了一种音频信号处理系统，包括：第一设备和第二设备；第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；第二设备用于实现上述实施例公开的方法。例如，所述第一设备为耳机，所述第二设备为移动终端；再如，所述第一设备为麦克风，所述第二设备为功放。

本实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，存储介质中存储的计算机程序用于被执行实现上述实施例公开的方法。

本实施例还公开了一种音频设备的芯片，其上具有集成电路，集成电路被设计成用于实现上述实施例公开的方法。

需要说明的是，本发明中采用步骤编号(字母或数字编号)来指代某些具体的方法步骤，仅仅是出于描述方便和简洁的目的，而绝不是用字母或数字来限制这些方法步骤的顺序。本领域的技术人员能够明了，相关方法步骤的顺序，应由技术本身决定，不应因步骤编号的存在而被不适当地限制。

本领域的技术人员能够理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种基于清浊音实现的语音信号变速方法，其特征在于，包括：

步骤S200，对每个所述子带信号进行分析得到每个子带信号的子带分析结果，所述子带分析结果为对应的子带信号为清音信号或浊音信号；

步骤S400，对所述合成相位后的子带集合进行子带合成得到变速后的音频信号。

2.如权利要求1所述的基于清浊音实现的语音信号变速方法，其特征在于，所述步骤S100包括：

利用高通滤波器和低通滤波器构成的二叉树状分解方式对所述待变速音频信号帧进行子带分解。

3.如权利要求1所述的基于清浊音实现的语音信号变速方法，其特征在于，所述步骤S200包括：

步骤S211，求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值(A1)；

步骤S212，判断所述第一比值(A1)是否小于第一阈值；如果所述第一比值(A1)小于第一阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

4.如权利要求3所述的基于清浊音实现的语音信号变速方法，其特征在于，如果所述第一比值(A1)大于第一阈值，则顺次执行步骤S213、步骤S214；

步骤S213，求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值(A2)；

步骤S214，判断所述第二比值(A2)是否小于第二阈值；如果所述第二比值(A2)小于第二阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

5.如权利要求4所述的基于清浊音实现的语音信号变速方法，其特征在于，如果所述第二比值(A2)大于第二阈值，则顺次执行步骤S215、步骤S216；

步骤S215，求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值(A3)，其中，2≤i≤N，N为所述待变速音频信号帧被分解的子带数量；

步骤S216，判断所述第三比值(A3)是否小于第三阈值；如果所述第三比值(A3)小于第三阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

6.如权利要求5所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S216中，如果所述第三比值(A3)大于第三阈值，则执行步骤S217；

步骤S217，对i自加1，并顺次执行步骤S215、步骤S216；

当i＝N，且各个所述第三比值(A3)大于第三阈值，则确定所述待变速音频信号帧为浊音信号。

7.如权利要求1-6任意一项所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S300中，当子带信号为浊音信号时，包括：

8.如权利要求7所述的基于清浊音实现的语音信号变速方法，其特征在于，所述新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。

9.如权利要求7所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S200中，如果分析出所述子带信号为清音信号，则执行步骤S220；

步骤S220，对所述子带信号所在的音频信号帧做置上复位标志；

在所述步骤S300中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。

10.如权利要求1-9所述的基于清浊音实现的语音信号变速方法，其特征在于，在所述步骤S200中，如果分析出所述子带信号为清音信号，则执行步骤S220；

在所述步骤S100包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对所述待变速音频信号帧进行子带分解。

11.一种基于清浊音实现的语音信号变速装置，其特征在于，包括：

子带分解模块(100)，用于对待变速音频信号帧进行子带分解，得到多个带宽小于预设值的子带信号；

子带分析模块(200)，用于对每个所述子带信号进行分析得到每个子带信号的子带分析结果，所述子带分析结果为对应的子带信号为清音信号或浊音信号；

相位合成模块(300)，用于通过变速因子对各个子带信号进行相位合成，得到合成相位后的子带集合；其中：

子带合成模块(400)，用于对所述合成相位后的子带集合进行子带合成得到变速后的音频信号。

12.如权利要求11所述的基于清浊音实现的语音信号变速装置，其特征在于，所述子带分解模块(100)具体用于利用高通滤波器和低通滤波器构成的二叉树状分解方式对所述待变速音频信号帧进行子带分解。

13.如权利要求11所述的基于清浊音实现的语音信号变速装置，其特征在于，所述子带分析模块(200)包括：

第一计算单元，用于求取2k以内的频线能量平均值与2k以内的幅度谱平均能量值之间的第一比值(A1)；

第一判断单元，用于判断所述第一比值(A1)是否小于第一阈值；如果所述第一比值(A1)小于第一阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

14.如权利要求13所述的基于清浊音实现的语音信号变速装置，其特征在于，所述子带分析模块(200)包括：第二计算单元和第二判断单元，如果所述第一比值(A1)大于第一阈值，则：

所述第二计算单元用于求取2k以内的频线能量最大值与2k以内的频线能量平均能值之间的第二比值(A2)；

所述第二判断单元用于判断所述第二比值(A2)是否小于第二阈值；如果所述第二比值(A2)小于第二阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

15.如权利要求14所述的基于清浊音实现的语音信号变速装置，其特征在于，所述子带分析模块(200)包括：第三计算单元和第三判断单元，如果所述第二比值(A2)大于第二阈值，则：

所述第三计算单元用于求取第1个子带频线能量平均值与第i个子带幅度谱平均能量值之间的第三比值(A3)，其中，2≤i≤N，N为所述待变速音频信号帧被分解的子带数量；

所述第三判断单元用于判断所述第三比值(A3)是否小于第三阈值；如果所述第三比值(A3)小于第三阈值，则确定所述待变速音频信号帧为清音信号，所述待变速音频信号帧中的各个子带信号为清音信号。

16.如权利要求15所述的基于清浊音实现的语音信号变速装置，其特征在于，在所述第三判断单元中，如果所述第三比值(A3)大于第三阈值，则执行自加单元；

自加单元，用于对i自加1，并顺次运行所述第三计算单元和所述第三判断单元；

17.如权利要求11-16任意一项所述的基于清浊音实现的语音信号变速装置，其特征在于，在所述相位合成模块(300)中，当子带信号为浊音信号时，用于将上一帧音频信号帧对应频线输出的合成相位与新产生的变化相位相加得到本帧音频信号帧对应频线输出的合成相位。

18.如权利要求17所述的基于清浊音实现的语音信号变速装置，其特征在于，所述新产生的变化相位包括随着上一帧周期拓展的角度外产生的变化角度与变速因子的乘积，以及上一帧到本帧滑动块滑动的相位。

19.如权利要求17所述的基于清浊音实现的语音信号变速装置，其特征在于，包括：置上标志模块；在所述子带分析模块(200)中，如果分析出所述子带信号为清音信号，则所述置上标志模块用于对所述子带信号所在的音频信号帧做置上复位标志；

在所述相位合成模块(300)中，对于具有置上复位标志的信号帧，将本帧输入的各个频线的相位作为上一帧音频信号帧对应频线输出的合成相位，以得到本帧音频信号帧对应频线输出的合成相位。

20.如权利要求11-16所述的基于清浊音实现的语音信号变速装置，其特征在于，包括：置上标志模块；

在所述子带分析模块(200)中，如果分析出所述子带信号为清音信号，则执行步骤S220；则所述置上标志模块用于对所述子带信号所在的音频信号帧做置上复位标志；

在所述子带分解模块(100)包括：当子带信号所在的音频信号帧为置上的时，减短汉明窗，通过减短后的汉明窗对所述待变速音频信号帧进行子带分解。

21.一种音频设备，其特征在于，包括：

处理器，用于实现如权利要求1-10任意一项所述的方法。

22.一种音频信号处理系统，其特征在于，包括：第一设备和第二设备；

所述第一设备用于采集音频数据得到原始音频信号，并发送给所述第二设备；

所述第二设备具有如权利要求11-20任意一项所述的装置。

23.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现如权利要求1-10任意一项所述的方法。

24.一种音频设备的芯片，其上具有集成电路，其特征在于，所述集成电路被设计成用于实现如权利要求1-10任意一项所述的方法。