CN112802453B - 快速自适应预测拟合语音方法、系统、终端及存储介质 - Google Patents

快速自适应预测拟合语音方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN112802453B
CN112802453B CN202011620040.8A CN202011620040A CN112802453B CN 112802453 B CN112802453 B CN 112802453B CN 202011620040 A CN202011620040 A CN 202011620040A CN 112802453 B CN112802453 B CN 112802453B
Authority
CN
China
Prior art keywords
value
audio data
data
volume
acoustic wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011620040.8A
Other languages
English (en)
Other versions
CN112802453A (zh
Inventor
李建飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Feelstorm Technology Co ltd
Original Assignee
Shenzhen Feelstorm Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Feelstorm Technology Co ltd filed Critical Shenzhen Feelstorm Technology Co ltd
Priority to CN202011620040.8A priority Critical patent/CN112802453B/zh
Publication of CN112802453A publication Critical patent/CN112802453A/zh
Application granted granted Critical
Publication of CN112802453B publication Critical patent/CN112802453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种快速自适应预测拟合语音方法、系统、终端及存储介质,属于语音通信领域,应用于实时语音通信过程中由于通信链路异常导致的数据断流,其包括:步骤S1、获取断流前音频数据,当发生断流事件时,从数据缓冲区中读取断流前的音频数据;步骤S2、合成初始音频数据,分析断流之前的音频数据,并提取语音信号的峰值、断流时刻数据点值和主要频谱作为初始音频数据的特征值,基于所述特征值合成初始音频数据;步骤S3、调节断流后的音频音量以使初始音频数据播放时呈现音量渐弱的效果;步骤S4、获取断流恢复后的实际音频数据,并调节断流恢复后的实际音频数据的音量,以使实际音频数据播放时的音量逐渐恢复到断流前水平。本发明用于解决实时语音通信异常时播放端声音出现卡顿、爆响等异常响动使得用户体验糟糕的问题。

Description

快速自适应预测拟合语音方法、系统、终端及存储介质
技术领域
本发明涉及语音通信的技术领域,尤其是涉及一种快速自适应预测拟合语音方法、系统、终端及存储介质。
背景技术
随着21世纪移动通信技术的快速发展,通过移动终端进行实时语音通信的应用场景也越来越多,但是,在实时数字语音通信过程中,由于通信链路异常,如:数据拥塞、同频干扰、连接中断等,数据包会出现延时抵达、丢失等问题,从而导致数据断流。
在实时语音通信过程中,由于音频数据是实时播放,所以不可以大量缓存数据以及延时等待,而如果导致播放端声音出现卡顿、爆响等,用户体验就会十分糟糕。
发明内容
本发明目的一是提供一种快速自适应预测拟合语音方法,解决了实时语音通信异常时,播放端声音出现卡顿、爆响等使得用户体验糟糕的问题。
本发明的上述发明目的一是通过以下技术方案得以实现的:
一种快速自适应预测拟合语音方法,其特征在于,包括以下步骤:
步骤S1、获取断流前音频数据,当读取下一帧数据而不可得时,即判定断流事件发生,此时从音频数据缓冲区中获取断流前的音频数据作为分析样本;
步骤S2、合成初始音频数据,从分析样本中获取峰值信息和断流时刻信息,基于预设的频率获取策略获取频率信息,进而根据峰值信息和频率信息合成初始音频数据,并基于断流时刻信息确定初始音频数据中的插入时间;
步骤S3、调节初始音频数据的音量,使初始音频数据音量渐弱;
步骤S4、获取恢复后音频数据,并调节恢复后音频数据的音量,当读取下一帧数据可得时,即判定恢复事件发生,使恢复后音频数据的音量逐渐恢复到断流前水平。
通过采用上述技术方案,基于特征值合成的初始音频数据与断流前的音频数据存在相同特征,从而使断流事件的发生不会导致音频播放的卡顿和爆响等问题,而通过控制断流后的音频音量,使得断流事件发生后音频音量呈现逐渐渐弱的效果,而在断流恢复后通过控制正常音频的音量,使得音频音量逐渐恢复至断流前水平,从而使用户拥有好的体验。
本发明进一步设置为:所述步骤S2、合成初始音频数据,具体包括以下步骤:
步骤S201、获取初始音频数据的特征值,从所述分析样本中获取最大值、最小值和断流时刻的值,并基于预设的频率获取策略获取初始频率信息;
步骤S202、初始化波形特征,根据所述初始音频数据的特征值建立一个合成声波表格,为使合成声波与断流前的声波接续,合成声波中第一个数值的相位和幅度需要与分析样本中最后一个数据的相位和幅度相同,基于所述断流时刻的值即可在所述合成声波表格中找到断流后初始音频数据的插入时间。
通过采用上述技术方案,从分析样本中提取特征值,最终根据特征值建立合成声波表格,且找到合成声波表格中的断流后初始音频数据的插入时间,这样能够确保合成的音频信号能够贴近断流前的音频数据,使得断流事件的发生不会导致音频爆音问题。
本发明进一步设置为:所述步骤S201中,预设的频率获取策略包括:采用离散傅里叶变换法对所述分析样本进行频谱分析,然后选取频谱分析结果中的主要频谱作为初始音频数据的基准频率。
通过采用上述技术方案,通过对断流前的分析样本进行离散傅里叶变换以作频谱分析,从而获得断流前音频数据的主要频谱,将该主频谱作为后续初始音频数据的主频谱可以使初始音频数据在音调上更接近于断流前音频的音调。
本发明进一步设置为:所述步骤S102中,预设的频率获取策略包括:对于人声仅需关注100-1KHz频率范围,可选择100-1KHz频率范围中任何一个固定频率作为初始音频数据的基准频率。
通过采用上述技术方案,通过在人类听觉允许的频率范围内选取一个固定频率作为合成声波信号的基准频率,使得算法简单快速,并可降低对处理器性能的要求。
本发明进一步设置为:所述步骤S3中,在断流事件发生时,首先记录下音频播放器的当前音量,在当前音量为静音状态时,则不需要启动音量减小过程;在当前音量为非静音状态时,则启动音量减小过程。
通过采用上述技术方案,当音频信号发生断流事件时,音频播放端不会出现卡顿、爆响等问题。
本发明进一步设置为:所述步骤S4中,在数据断流事件发生后通信又恢复正常时,首先判断此时距断流事件发生时的间隔时长是否大于设定值,当间隔时长小于设定值时,则继续等待直至间隔时长大于设定值;当所述间隔时长大于设定值时,再判断当前音量是否为断流前水平,在当前音量为断流前水平,则无需启动音量增加过程,而在当前音量不是断流前水平时,则启动音量增加过程。
通过采用上述技术方案,当断流恢复且当前音量不是断流前水平,使得音频播放端呈现音量渐强的效果,增加用户舒适感。
本发明进一步设置为:所述音量减小过程与所述音量增加过程中调节音量的速度有三种方式:线性、指数和对数。
通过采用上述技术方案,使用线性方式调节音频音量的数据运算量最小,在系统的数据运算能力受限的情况下可使用线性方式以节约系统运算资源;而使用指数和对数的方式调节音频音量的数据运算量相对较大,在系统的数据运算能力允许的情况下,音量减小过程使用指数方式,而音量增加过程使用对数方式,这样可使得用户体验感最好;可根据使用场景具体选择线性、指数或对数的方式调节音频音量。
本发明目的二是提供一种快速自适应预测拟合语音系统,具有在实时语音通信出现数据断流时避免语音播放出现卡顿和爆响等问题的特点。
本发明的上述发明目的二是通过以下技术方案得以实现的:
一种快速自适应预测拟合语音系统,包括:
断流前数据获取模块1,当发生断流事件时,从数据缓冲区中读取断流前的音频数据;
初始音频数据合成模块2,从断流前音频数据中获取峰值和断流时刻数据作为初始音频数据的特征值,并基于预设的频率获取策略获取初始频率信息;
断流后音量调节模块3,调整断流后的音频音量以使初始音频数据播放时呈现音量渐弱的效果;
断流恢复后音量调节模块4,获取断流恢复后音频数据,并调整断流恢复后的音频音量以使实际音频数据播放时逐渐恢复到断流前水平。
本发明目的三是提供一种智能终端,具有断流事件可被快速检测到且基于断流前音频数据快速合成初始音频数据,并在嵌入式的CPC上运行的特点。
本发明的上述发明目的三是通过以下技术方案得以实现的:
一种智能终端,包括存储器和处理器,所属存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
本发明目的四是提供一种计算机可读存储介质,能够存储相应的程序,具有快速稳定拟合语音的特点。
本发明的上述发明目的四是通过以下技术方案得以实现的:
一种计算机可读存储介质,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
综上所述,本发明的有益技术效果为:通过对断流前数据进行分析并提取特征值进而合成初始音频数据,并对断流后音频音量和断流恢复后音频音量进行调节后播放,使得音频播放端的音量呈现渐变的效果,避免断流事件发生时出现音频卡顿和爆响等问题。
附图说明
图1是本发明的步骤流程示意图;
图2是本发明的控制断流后的音频音量程序流程示意图;
图3是本发明的控制断流恢复后的音频音量程序流程示意图;
图4是本发明的语音通信正常时的声音波形示意图;
图5是本发明的断流处理过程的波形示意图;
图6是本发明的断流处理全局及局部波形示意图;
图7是本发明的快速自适应预测拟合语音系统的结构框图;
图8是现有技术中语音系统的结构框图。
图中:1、断流前数据获取模块;2、初始音频数据合成模块;3、断流后音量调节模块;4、断流恢复后音量调节模块。
具体实施方式
以下结合附图1-7对本申请作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
本发明实施例提供一种快速自适应预测拟合语音方法,应用于数字语音通信过程中数据断流后合成音频数据,实现实时语音通信出现异常时播放的声音无异常响动,具体包括以下步骤:
参照图1,步骤S1、获取断流前音频数据,作为分析样本;
语音信号从整体来看其特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳态过程;但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的。因此,语音信号具有短时平稳性,任何语音信号的分析和处理必须建立在“短时”的基础上,将语音信号分为一段段来分析其特征参数。通常,每一段被称为一帧,帧长一般取10-30ms。
而在实时语音通信中音频数据被存储在音频数据缓冲区内,当读取下一帧数据而不可得时,即判定断流事件发生。
此时从音频数据缓冲区中即可获得断流前的音频数据作为分析样本,分析样本一般至少选取两帧即20-60ms时长的数据量。
步骤S2、合成初始音频数据;
当数字语音通信过程中出现数据断流事件时,为合成初始音频数据,需要知道断流之前音频数据的特征值,当从音频数据缓冲区中获得足够的分析样本后,就开始分析样本并获取初始音频数据所需的特征值。
具体包括以下步骤:
参照图2,步骤S201、获取初始音频数据的特征值;
音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体,根据声波的特征,可把音频信号分类为规则音频和不规则声音,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,其中规则音频又可以分为语音、音乐和音效。
语音信号是由许多频率不同的信号组成的复合信号,许多波形都可作为语音信号的成分,比如正弦波、方波、锯齿波等,通过傅里叶变换可知,信号可以分解成一系列的正弦波,所以语音通信过程中由断流造成的缺失波形,可以通过正弦波进行合成;
用正弦曲线来代替原来的曲线而不用方波或三角波来表示的原因在于,分解信号的方法是无穷的,但分解信号的目的是为了更加简单地处理原来的信号,而用正弦曲线来表示原信号会更加简单,因为正弦曲线拥有原信号所不具有的性质:正弦曲线保真度。当一个正弦曲线信号输入后,输出的仍是正弦曲线,只有幅度和相位可能发生变化,但是频率和波的形状仍是一样的,且只有正弦曲线才拥有这样的性质,因此选用正弦曲线来表示语音信号原波形。
声波或正弦波有三个重要参数:频率ω0、幅度An和相位φn,这也就决定了音频信号的特征,通常语音信号特征值有:波形最大值、波形最小值、最后一个数据点值和主要频谱等,而合成的关键就是被合成信号的频谱。
首先从分析样本数据中查找波形最大值Vmax、波形最小值Vmin以及最后一个数据点值Vlast,其中最后一个数据点值Vlast通过读取分析样本数据中最后一个索引所在位置的数据即可获得,下面讨论如何获得波形最大值Vmax和波形最小值Vmin
分析样本中的音频数据无序且无明显规律,另外,本方案为实时语音通信过程中出现断流事件后才能获取到分析样本,断流事件出现时间并不可控,所以想要从分析样本的音频数据中查找特征值,如果使用有序查找法如:二分查找、插值查找、斐波那契查找、二叉树查找、2-3树、以及红黑树等查找方式,均需要在断流事件发生后预先将分析样本中的数据进行排序,然后再进行查找,这样并不能降低查找算法的时间复杂度。为了简单快速的查找所需特征值,本方案采用顺序查找法,顺序查找也称线形查找,是按照序列原有顺序对定量数据进行遍历比较查询的基本查找算法,顺序查找法具体实现原理如下:
对于任意一个序列以及一个给定的元素,将给定元素与序列中元素依次比较,直到找出与给定关键字相同的元素,或者将序列中的元素与其都比较完为止。
假设每个数据元素与给定关键字相同的概率相等,则查找到与给定关键字相同元 素的平均查找长度为:;当查找不到与给定关键字相同的数 据元素时,需要n+1次比较;所以,顺序查找的时间复杂度为O(n)。
通过上述顺序查找法从分析样本中找出波形最大值Vmax和波形最小值Vmin的方法如下:
查找波形最大值Vmax,首先假设分析样本中的第一个数据为波形最大值Vmax,遍历分析样本中所有数据,依次比较每一个数据与波形最大值Vmax的大小,每遇到有数据大于波形最大值Vmax,则将该数据的值作为波形最大值Vmax遍历分析样本中剩余数据并继续作比较,直至分析样本中的数据遍历完成,最后Vmax即为分析样本中所有数据中的最大值。
查找波形最小值Vmin,首先假设分析样本中的第一个数据为波形最小值Vmin,遍历分析样本中所有数据,依次比较每一个数据与Vmin的大小,每遇到有数据小于Vmin,则将该数据的值作为波形最小值Vmin遍历分析样本中剩余数据继续作比较,直至分析样本中的数据遍历完成,最后Vmin即为分析样本中所有数据中的最小值。
关于如何确认断流前数据主要频谱,本方案提供两种分析方法,以便根据场景的不同选择不同的主要频谱分析方式,从而提高工作效率,具体分析方法为:
方法一为采用傅里叶变换法分析语音信号的频谱,但是为了能够使用计算机进行 傅里叶变换,必须将函数定义在离散点上而非连续域内,且须满足有限性或周期性条件。这 种情况下,序列 的离散傅里叶变换为:
其逆变换为:
其中,是长度为N的有限长序列 ,在本方案中则是指断流之前从音 频数据缓冲区中获得的分析样本,N是分析样本的数据量,是序列 的N点离散傅 里叶变换,是旋转因子,为了叙述简洁,常常用 分别表示N点离散傅里叶变换和N点离散傅里叶逆变换。
快速傅里叶变换是根据离散傅里叶变换的奇、偶、虚、实等特性,对离散傅里叶变 换的算法进行改进获得的,直接使用 的定义进行计算的计算复杂度为 ,由于其计算量太大,很难实时地处理问题,而快速傅里叶变换可以将复杂度改进为,将离散傅里叶变换地运算量减少了几个数量级,所以通常使用快速傅里叶变 换算法计算离散傅里叶变换。
快速傅里叶变换基本上可分为两类:时间抽取法和频率抽取法,其中时间抽取法原理如下:
将序列 补零,使得,然后将 按n的奇偶分成奇 序列 和偶序列,两个序列的长度均为 ,则式(1)可写为:
进一步可以得到:
由于:
所以式(4)可以写为:
其中 分别为 点离散傅里叶变换,由于 均以 为周期,且,所以式(5)又可表示为:
同理,可以根据上述推导进一步分解,每一次分解即为一级蝶形运算,直至进 行m次蝶形运算后,离散傅里叶变换的计算复杂度则由降低到了
频率抽取法的原理如下:
将序列 补零,使得,然后将 按前后分成两个 长度均为 的序列,式(1)改写为:
进一步可以得到:
按k的奇偶分组两组,即
进一步可化为:
,得到两个 点的离 散傅里叶变换式,同理,可以根据上述推导进一步分解,每一次分解即为一级蝶形运 算,直至进行m次蝶形运算后,这时离散傅里叶变换的计算复杂度则由降低到了
通过上述时间抽取法或频率抽取法进行快速傅里叶变换,对从音频数据缓冲区中 获得的分析样本进行快速傅里叶变换后得到的是N个复数,每个复数就对应着一个频率值 以及该频率信号的幅值和相位,第一个点对应的频率为0Hz(即直流分量),第N+1个点对应 采样频率Fs,其中任意一个采样点n所代表的信号频率:,这表明,频谱 分析得到的信号频率最大为,对频率的分辨率是。采样频率和采样时间 制约着通过快速傅里叶变换运算所能分析的信号频率上限,同时也限定了所能分析的信号 频率的分辨率。
每一个复数的模值对应该点所对应的频率值的幅度特性,具体的定量关系如下:
假设信号由以下周期的原始信号叠加而成:
其中,Y是样本信号,原始信号1是直流分量,且原始信号1的幅值为A1,频率为0;原 始信号2为,且其幅值为 A2,频率为ω2;原始信号3为,且其幅值为 A3,频率为ω3。经过离散傅里叶变换分析后得到 三个复数,只有在离散傅里叶变换得到的这三个复数所对应的频率处,其模值才明显放大, 在其他频率点,模值接近于0;第一个复数对应的模值是A1的N倍,除第一个复数之外,其它 复数对应的模值是相应原始信号幅值的N/2倍。每个复数的相位就是在该频率值下信号的 相位,分别为0、。快速傅里叶变换的结果具有对称性,通常我们只是用前半部分的 结果。同时也只有快速傅里叶变换结果的前半部分、具有一定幅值的信号频率才是真实的 信号频率。
采用上述方法对断流前的音频数据分析样本进行频谱分析,选取主要频谱作为基准频率,用于生成基准正弦波信号。
方法二为直接分析法;声音作为波的一种,频率和振幅同样是描述声音的重要属性,频率的大小与音高对应,而振幅影响声音的大小。声音的频率范围十分广泛,正常人能够听见20Hz到20000Hz的声音,老年人的高频听力会减小到10000Hz(有时甚至会减小到6000Hz)以下,低频听力也会有一定的衰减。本方案所关注的人类声音相对狭小,实际人声频率:
男:低音82~392Hz,基准音区64~523Hz;
男中音123~493Hz,男高音164~698Hz;
女:低音82~392Hz,基准音区160~1200Hz;
女低音123~493Hz,女高音220~1.1KHz。
由此可知,对于人声,仅需关注100-1KHz频率范围即可。为使算法简单快速,选择100-1KHz频率范围中任何一个固定频率Fm作为基准频率,用于生成基准正弦波信号。
参照图3,步骤S202、初始化波形特征;为避免断流事件发生后出现卡顿,需要根据输入的特征值组合,建立一个合成声波表格PCM_table,并在合成声波表格PCM_table中找到当前的相位索引Sin_index,具体实施方法如下:
步骤S2021、建立合成声波表格;从分析样本中获得特征值之后,建立一个以正弦波形为基准的合成声波表格PCM_table,该表格中的数据至少包含正弦波形一个完整周期内等间隔点对应的全部数据,其中间隔点数量的选择可根据用户需要设置,间隔点越多,合成声波表格PCM_table中的数据量越大,而合成音频播放时的声音也就越流畅;同时,需要使合成声波表格PCM_table中每个数据与该基准正弦波形对应每个间隔点的数值存在相同的比例关系,具体实现原理如下:
确定基准正弦波形的间隔点数量M,也就是合成声波表格PCM_table的容量,在本方案中选定一个周期的正弦波形作为基准信号,在基准信号上对应M个等间隔点处抽取M个采样值,并依次计算采样值与分析样本中的波形最大值Vmax的乘积作为合成声波表格PCM_table中的数据。
步骤S2022、确定断流后初始音频数据的插入时间;为避免声波跳变导致扬声器产生爆音,合成声波必须与断流前的声波接续,即对于合成的波形,第一个数值的相位和幅度均接近分析样本中最后一个数据的相位和幅度,故而还需要确定在合成声波表格PCM_table中的断流后初始音频数据的插入时间Sin_index,具体实现原理如下:
首先假设合成声波表格PCM_table中的第一个数据与分析样本最后一个数据点值Vlast的差值绝对值D-value最小,然后遍历合成声波表格PCM_table中所有数据,依次计算每一个数据与分析样本最后一个数据点值Vlast的差值绝对值后与D-value作比较,每遇到有差值绝对值小于D-value,则将该差值绝对值作为D-value遍历合成声波表格PCM_table中剩余数据继续作比较,直至合成声波表格PCM_table中的数据遍历完成,最后计算差值绝对值D-value所对应在合成声波表格PCM_table中的数据索引即为最接近分析样本中最后一个数据点值Vlast的断流后初始音频数据的插入时间Sin_index。
综上,由于步骤S2021和步骤S2022均需要执行遍历合成声波表格PCM_table的操作,故可在不影响最终结果的情况下将两步骤内容中的遍历操作合并为在同一个遍历过程中操作,可提升计算效率,具体实现原理如下:
从合成声波表格PCM_table中第一个数据开始依次操作,首先抽取第一个等间隔点处的基准信号采样值,计算其与分析样本中波形最大值Vmax的乘积后作为合成声波表格PCM_table中的第一个数据,接着计算该数据与分析样本最后一个数据点值Vlast的差值绝对值作为最小差值D-value;然后继续循环操作,抽取第二个等间隔点处的基准信号采样值,计算其与分析样本中波形最大值Vmax的乘积后作为合成声波表格PCM_table中的第二个数据,接着计算该数据与分析样本最后一个数据点值Vlast的差值绝对值并与D-value作比较,将较小的值作为D-value;依此类推,最终遍历完整个合成声波表格PCM_table后,PCM_table中将获得依据分析样本的特征值建立的基准信号采样值,并可获得最接近分析样本中最后一个数据点值Vlast的断流后初始音频数据的插入时间Sin_index。
参照图5,步骤S3、控制断流后的音频音量;由步骤S202所述方法通过特征值生成的音频数据与实际音频有较大差别,还需要辅助措施以使处理效果达到可用状态。音频信号的在断流事件发生时,首先记录下音频播放器的当前音量Vcurrent,如果当前音量Vcurrent为静音状态,则不需要启动音量减小过程;如果当前音量Vcurrent为非静音状态,则进行音量减小,音量减小过程的具体实现原理如下:
音量减小的速度有三种方式:线性(匀速)、指数(先慢后快)和对数(先快后慢);一般情况下,线性方式已能满足实际需求,且相比于指数和对数的音量增加方式,线性方式更节省计算资源,所以在本实施例中采用线性方式加以说明。
首先设置每次音量减小的幅度即音量等级ΔV1和每次减小音量操作后进行下次操作的时间间隔Δt1,且ΔV1与Δt1均为常数。
当发生断流事件后,判断当前音量Vcurrent是否为非静音状态,如果当前音量Vcurrent为非静音状态,则开启定时器,每隔Δt1时间从合成声波表格PCM_table中读取一次数据,并将其减去音量等级ΔV1后得到的差值作为输出音频数据,重复上述过程,直至当前音量Vcurrent为静音状态或者发生断流恢复事件。
参照图6,步骤S4、获取恢复后音频数据,并调节恢复后音频数据的音量;在实时数字语音通信过程中发生数据断流事件后,若通信又恢复正常,接收到实际音频数据,将采取如下步骤恢复到音频正常播放状态。
假设实时语音通信发生断流事件的时刻为Tlast_cut,通信数据流恢复的时刻为Trenew,在通信数据流恢复时,判断当前时间与发生断流事件的时刻为Tlast_cut的差值是否大于设定值ΔTW,如果差值大于设定值,则启动音量增加过程;如果差值小于设定值,则继续等待直至差值大于设定值,然后启动音量增加过程。
关于设定值ΔTw的经验公式为:
ΔTw= Δt1* Vsys_max+ Tsafe,单位:毫秒。
其中,Δt1为断流时音量减小的定时器间隔,Vsys_max为系统最大音量,Tsafe为安全常数,Tsafe取值范围:200至600毫秒。
音量调整过程的具体实现原理如下:
音量增加的速度也有三种方式:线性(匀速)、指数(先慢后快)和对数(先快后慢),而在本实施例中音量增加过程也使用线性方式。首先设置每次音量增加的幅度即音量等级ΔV2和每次增加音量操作后进行下次操作的时间间隔Δt2,且ΔV2与Δt2均为常数。
当通信数据流恢复后,判断当前音量Vcurrent是否为断流前水平,如果当前音量Vcurrent为断流前水平,则结束音量增加过程;如果当前音量Vcurrent不是断流前水平,则启动定时器,每隔Δt2时间就将实际音频数据增加音量等级ΔV2后得到的和作为输出音频数据,重复上述过程,直至当前音量等级Vcurrent为断流前水平为止。
本实施例的具体实施过程:首先,获取断流前音频数据,即在语音通信过程中出现数据断流事件时,从数据缓冲区中获取断流前的音频数据作为分析样本,然后对分析样本通过预设的频率获取策略获取初始频率信息,本实施例中所提供的预设的频率获取策略包括但不限于根据离散傅里叶变换频谱分析确定基准信号频率、根据实际人声频率确定基准信号频率这两种方法,然后通过顺序查找法从分析样本中提取特征值:波形最大值Vmax和波形最小值Vmin,并通过直接分析法获得最后一个数据点值Vlast;然后以正弦波形为基准信号建立一个合成声波表格PCM_table,基准正弦数据至少包含基准正弦波形一个完整周期内等间隔点对应的全部数据,而合成声波表格PCM_table中的数据值具体为基准正弦数据与特征值中波形最大值Vmax的乘积,接着遍历合成声波表格PCM_table中所有数据并找到最接近特征值中最后一个数据点值Vlast的断流后初始音频数据的插入时间Sin_index;当通信过程中发生断流事件时,从合成声波表格PCM_table中索引为Sin_index处开始遍历读取生成的音频数据,当遍历读取至合成声波表格PCM_table中最后一个数据,即读取至索引为(M-1)处的数据时,如果断流恢复事件并未发生,且由于合成声波表格PCM_table中的音频数据具备周期性,所以此时可以从合成声波表格PCM_table中第一个数据即从索引为0处,继续遍历读取生成的音频数据。
接着在第二步骤中通过特征值合成初始音频数据的基础上通过辅助措施对合成的音频数据进行处理,进而控制断流后的音频音量,首先在断流事件发生时记录下当前音量Vcurrent,并判断当前音量Vcurrent是否为非静音状态,如果当前音量Vcurrent为非静音状态,则开启定时器,每隔Δt1时间从合成声波表格PCM_table中读取一次数据,并将其减去音量等级ΔV1后得到的差值作为输出音频数据,重复上述过程,直至当前音量Vcurrent为静音状态或者发生断流恢复事件;其中本方案中音量减小的速度采用线性方式,即ΔV1和Δt1均为常数。
最后在上述步骤控制断流后的音频音量基础上控制断流恢复后的音频音量,当断流恢复后,首先判断当前时间距发生断流事件的时间差值是否大于设定值ΔTW,如果差值大于设定值,则启动音量增加过程:判断当前音量Vcurrent是否为断流前水平,如果当前音量Vcurrent为断流前水平,则直接读取实际音频数据并向播放器输出即可;如果当前音量Vcurrent不是断流前水平,则启动定时器,每隔Δt2时间从合成声波表格PCM_table中继续读取数据,并将其增加音量等级ΔV2后得到的和作为输出音频数据,重复上述过程,直至当前音量等级Vcurrent为断流前水平为止。如果当前时间距发生断流事件的时间差值小于设定值ΔTW,则继续等待直至差值大于设定值,然后启动音量增加过程;其中本方案中音量增加的速度也采用线性方式,即ΔV2和Δt2均为常数。
在本方案中,关键参数Fm、Tsafe、ΔTw、ΔV1、ΔV2、Δt1和Δt2都是综合考虑处理器的主频和语音信号的采样频率后确定的,而在上述实施例中,使Fm=200 Hz,Tsafe=250ms,ΔTw=376ms,ΔV1=1,ΔV2=1,Δt1=2 ms,Δt2=12 ms;以上关键参数的值只是在特定工作情况的其中一种经验值,具体取值并不局限于这些数据。
本申请实施例还公开一种快速自适应预测拟合语音系统,与上述一种快速自适应预测拟合语音方法一一对应,应用于数字语音通信过程中数据断流后合成音频数据,实现实时语音通信出现异常时播放的声音无卡顿、爆响等异常响动,参照图7,该系统包括断流前数据获取模块1、初始音频数据合成模块2、断流后音量调节模块3以及断流恢复后音量调节模块4。各功能模块详细说明如下:
断流前数据获取模块1,当发生断流事件时,从数据缓冲区中读取断流前的音频数据;
初始音频数据合成模块2,从断流前音频数据中获取峰值和断流时刻数据作为初始音频数据的特征值,并基于预设的频率获取策略获取初始频率信息;
断流后音量调节模块3,调整断流后的音频音量以使初始音频数据播放时呈现音量渐弱的效果;
断流恢复后音量调节模块4,获取断流恢复后音频数据,并调整断流恢复后的音频音量以使实际音频数据播放时逐渐恢复到断流前水平。
关于快速自适应预测拟合语音系统的限定可以参见上文中对快速自适应预测拟合语音方法的限定,在此不再赘述。上述快速自适应预测拟合语音系统中各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块以硬件形式内嵌于或独立于计算机设备中的处理中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块的操作。
本申请实施例还公开一种智能终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中存储器存储算法公式以及关键参数等。处理器用于提供计算和控制能力,处理器执行计算机程序时实现以下步骤:
步骤S1、获取断流前音频数据;
步骤S2、合成初始音频数据;
步骤S3、调节初始音频数据的音量;
步骤S4、获取断流恢复后音频数据,并调节实际音频数据的音量。
本申请实施例还公开一种计算机可读存储介质,其存储有能够被处理器加载并执行上述快速自适应预测拟合语音方法的计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤S1、获取断流前音频数据;
步骤S2、合成初始音频数据;
步骤S3、调节初始音频数据的音量;
步骤S4、获取断流恢复后音频数据,并调节实际音频数据的音量。
所述计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种快速自适应预测拟合语音方法,其特征在于,包括以下步骤:
步骤S1、获取断流前音频数据,当读取下一帧数据而不可得时,即判定断流事件发生,此时从音频数据缓冲区中获取断流前的音频数据作为分析样本;
步骤S2、合成初始音频数据,从分析样本中获取峰值信息和断流时刻信息,基于预设的频率获取策略获取频率信息,进而根据峰值信息和频率信息合成初始音频数据,并基于断流时刻信息确定初始音频数据中的插入时间;
步骤S3、调节初始音频数据的音量,使初始音频数据音量渐弱;
步骤S4、获取恢复后音频数据,并调节恢复后音频数据的音量,当读取下一帧数据可得时,即判定恢复事件发生,使恢复后音频数据的音量逐渐恢复到断流前水平;
所述步骤S2、合成初始音频数据,具体包括以下步骤:
步骤S201、获取初始音频数据的特征值,从所述分析样本中获取波形最大值、波形最小值和断流时刻的值,并基于预设的频率获取策略获取初始频率信息;
步骤S202、初始化波形特征,根据所述初始音频数据的特征值建立一个合成声波表格,为使合成声波与断流前的声波接续,合成声波中第一个数值的相位和幅度与分析样本中最后一个数据的相位和幅度相同,基于所述断流时刻的值在所述合成声波表格中找到断流后初始音频数据的插入时间;
所述S202、初始化波形特征包括:
步骤S2021、建立合成声波表格,包括:从所述分析样本中获得特征值之后,建立一个以正弦波形为基准的合成声波表格PCM_table,所述合成声波表格PCM_table中的数据至少包含正弦波形一个完整周期内等间隔点对应的全部数据,其中间隔点数量的选择根据用户需要设置;确定基准正弦波形的间隔点数量M,选定一个周期的正弦波形作为基准信号,在所述基准信号上对应M个等间隔点处抽取M个采样值,并依次计算采样值与波形最大值Vmax的乘积作为所述合成声波表格PCM_table中的数据;
步骤S2022、确定断流后初始音频数据的插入时间,包括:当确实所述合成声波表格PCM_table中的第一个数据与分析样本最后一个数据点值Vlast的差值绝对值D-value最小,遍历所述合成声波表格PCM_table中所有数据,依次计算每一个数据与所述分析样本最后一个数据点值Vlast的差值绝对值;将所述差值绝对值与所述D-value作比较;当确定所述差值绝对值小于所述差值绝对值D-value,则将所述差值绝对值作为D-value遍历所述合成声波表格PCM_table中剩余数据继续作比较,直至所述合成声波表格PCM_table中的数据遍历完成;计算所述差值绝对值D-value所对应在所述合成声波表格PCM_table中的数据索引即为最接近所述分析样本最后一个数据点值Vlast的断流后初始音频数据的插入时间Sin_index。
2.根据权利要求1所述的快速自适应预测拟合语音方法,其特征在于,所述步骤S201中,预设的频率获取策略包括:采用离散傅里叶变换法对所述分析样本进行频谱分析,然后选取频谱分析结果中的主要频谱作为初始频率信息。
3.根据权利要求1所述的快速自适应预测拟合语音方法,其特征在于,所述步骤S202中,预设的频率获取策略包括:对于人声仅需关注100-1KHz频率范围,可选择100-1KHz频率范围中任何一个固定频率作为初始频率信息。
4.根据权利要求1所述的快速自适应预测拟合语音方法,其特征在于,所述步骤S3中,断流事件发生时,首先记录下音频播放器的当前音量,在当前音量为静音状态时,则不需要启动音量减小过程;在当前音量为非静音状态时,则启动音量减小过程。
5.根据权利要求1所述的快速自适应预测拟合语音方法,其特征在于,所述步骤S4中,在断流事件发生后通信又恢复正常时,首先判断此时距断流事件发生时的间隔时长是否大于设定值,当间隔时长小于设定值时,则继续等待直至间隔时长大于设定值;当所述间隔时长大于设定值时,再判断当前音量是否为断流前水平,在当前音量为断流前水平时,则无需启动音量增加过程,而在当前音量不是断流前水平时,则启动音量增加过程。
6.根据权利要求4或5所述的快速自适应预测拟合语音方法,其特征在于,音量减小过程与音量增加过程中调节音量的速度有三种方式:线性、指数和对数。
7.一种快速自适应预测拟合语音系统,其特征在于,包括:
断流前数据获取模块(1),当发生断流事件时,从数据缓冲区中读取断流前的音频数据;
初始音频数据合成模块(2),分析断流之前的音频数据,并提取语音信号的峰值、断流时刻数据点值和主要频谱等特征值,基于特征值初始音频数据,所述初始音频数据的峰值、以及主要频谱与断流前的音频数据相似;
断流后音量调节模块(3),调整断流后的音频音量以使初始音频数据播放时呈现音量渐弱的效果;
断流恢复后音量调节模块(4),调整断流恢复后的音频音量以使初始音频数据播放时逐渐恢复到断流前水平;
所述初始音频数据合成模块(2),还具体用于:
获取初始音频数据的特征值,从分析样本中获取波形最大值、波形最小值和断流时刻的值,并基于预设的频率获取策略获取初始频率信息;
初始化波形特征,根据所述初始音频数据的特征值建立一个合成声波表格,为使合成声波与断流前的声波接续,合成声波中第一个数值的相位和幅度与分析样本中最后一个数据的相位和幅度相同,基于所述断流时刻的值在所述合成声波表格中找到断流后初始音频数据的插入时间;其中初始化波形特征包括:步骤S2021、建立合成声波表格,包括:从所述分析样本中获得特征值之后,建立一个以正弦波形为基准的合成声波表格PCM_table,所述合成声波表格PCM_table中的数据至少包含正弦波形一个完整周期内等间隔点对应的全部数据,其中间隔点数量的选择根据用户需要设置;确定基准正弦波形的间隔点数量M,选定一个周期的正弦波形作为基准信号,在所述基准信号上对应M个等间隔点处抽取M个采样值,并依次计算采样值与波形最大值Vmax的乘积作为所述合成声波表格PCM_table中的数据;步骤S2022、确定断流后初始音频数据的插入时间,包括:当确实所述合成声波表格PCM_table中的第一个数据与分析样本最后一个数据点值Vlast的差值绝对值D-value最小,遍历所述合成声波表格PCM_table中所有数据,依次计算每一个数据与所述分析样本最后一个数据点值Vlast的差值绝对值;将所述差值绝对值与所述D-value作比较;当确定所述差值绝对值小于所述差值绝对值D-value,则将所述差值绝对值作为D-value遍历所述合成声波表格PCM_table中剩余数据继续作比较,直至所述合成声波表格PCM_table中的数据遍历完成;计算所述差值绝对值D-value所对应在所述合成声波表格PCM_table中的数据索引即为最接近所述分析样本最后一个数据点值Vlast的断流后初始音频数据的插入时间Sin_index。
8.一种智能终端,其特征在于,包括存储器和处理器,所属存储器上存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。
CN202011620040.8A 2020-12-30 2020-12-30 快速自适应预测拟合语音方法、系统、终端及存储介质 Active CN112802453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620040.8A CN112802453B (zh) 2020-12-30 2020-12-30 快速自适应预测拟合语音方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620040.8A CN112802453B (zh) 2020-12-30 2020-12-30 快速自适应预测拟合语音方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112802453A CN112802453A (zh) 2021-05-14
CN112802453B true CN112802453B (zh) 2024-04-26

Family

ID=75804922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620040.8A Active CN112802453B (zh) 2020-12-30 2020-12-30 快速自适应预测拟合语音方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112802453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116094637B (zh) * 2023-04-13 2023-06-23 成都德芯数字科技股份有限公司 一种中波调幅广播的应急广播指令信号识别方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352997A (ja) * 1998-06-12 1999-12-24 Oki Electric Ind Co Ltd 音声合成装置およびその制御方法
CN1441950A (zh) * 2000-07-14 2003-09-10 康奈克森特系统公司 处理丢失帧的语音通信系统及方法
CN101789252A (zh) * 2009-01-16 2010-07-28 索尼公司 音频再现装置、信息再现系统、音频再现方法
CN104123949A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 卡帧检测方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4519934B2 (ja) * 2008-12-26 2010-08-04 株式会社東芝 音声再生装置
DE102016209279B3 (de) * 2016-05-30 2017-07-06 Continental Automotive Gmbh Verfahren und Vorrichtung zur Fortsetzung einer laufenden Wiedergabe von Audio- und/oder Videoinhalten einer ersten Quelle nach einer vorübergehenden Unterbrechung oder Überlagerung der der laufenden Wiedergabe durch eine Wiedergabe von Audio- und/oder Videoinhalten einer zweiten Quelle

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352997A (ja) * 1998-06-12 1999-12-24 Oki Electric Ind Co Ltd 音声合成装置およびその制御方法
CN1441950A (zh) * 2000-07-14 2003-09-10 康奈克森特系统公司 处理丢失帧的语音通信系统及方法
CN101789252A (zh) * 2009-01-16 2010-07-28 索尼公司 音频再现装置、信息再现系统、音频再现方法
CN104123949A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 卡帧检测方法和装置

Also Published As

Publication number Publication date
CN112802453A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
EP1903558B1 (en) Audio signal interpolation method and device
CN110312146B (zh) 音频处理方法、装置、电子设备和存储介质
CN112289334B (zh) 一种混响消除方法及装置
JP2002041089A (ja) 周波数補間装置、周波数補間方法及び記録媒体
US20130266147A1 (en) System and method for identification of highly-variable vocalizations
EP1538602B1 (en) Wideband synthesis from a narrowband signal
US20190172477A1 (en) Systems and methods for removing reverberation from audio signals
CN110111811A (zh) 音频信号检测方法、装置和存储介质
CN106098081B (zh) 声音文件的音质识别方法及装置
CN112802453B (zh) 快速自适应预测拟合语音方法、系统、终端及存储介质
CN113170260A (zh) 音频处理方法、装置、存储介质及电子设备
CN112151055B (zh) 音频处理方法及装置
JP3888239B2 (ja) デジタル音声処理方法及び装置、並びにコンピュータプログラム
CN101422054B (zh) 声像定位装置
CN106910494B (zh) 一种音频识别方法和装置
CN111477246B (zh) 语音处理方法、装置及智能终端
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3555490B2 (ja) 声質変換システム
CN111627412B (zh) 音频变速方法、装置、电子设备和计算机可读存储介质
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN114333874A (zh) 处理音频信号的方法
CN113395577A (zh) 变声播放方法和装置、存储介质及电子设备
JP4538705B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2020190606A (ja) 音声雑音除去装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant