CN116631429A - 基于voip呼叫volte通话的语音视频处理方法及系统 - Google Patents
基于voip呼叫volte通话的语音视频处理方法及系统 Download PDFInfo
- Publication number
- CN116631429A CN116631429A CN202310912374.XA CN202310912374A CN116631429A CN 116631429 A CN116631429 A CN 116631429A CN 202310912374 A CN202310912374 A CN 202310912374A CN 116631429 A CN116631429 A CN 116631429A
- Authority
- CN
- China
- Prior art keywords
- component
- audio signal
- singular
- decomposition
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000005236 sound signal Effects 0.000 claims abstract description 177
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 180
- 238000000034 method Methods 0.000 claims description 55
- 230000002596 correlated effect Effects 0.000 claims description 47
- 238000005314 correlation function Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 23
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000001427 coherent effect Effects 0.000 claims description 4
- 230000008054 signal transmission Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于VOIP呼叫VOLTE通话的语音视频处理方法及系统,涉及语音处理技术领域。利用音频采集设备获取音频信号,并对音频信号进行预处理;对原始音频信号进行分解处理,提取出相关模态分量以及非相关模态分量中的有效分量;基于相关模态分量和有效分量生成重构音频信号,信号传输系统分别将两端重构后的音频信号传输至对应接收端。通过语音信号重构的方式消除通话时的噪声,提高了通话质量。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及基于VOIP呼叫VOLTE通话的语音视频处理方法及系统。
背景技术
VOIP(基于IP的语音传输)呼叫是由VOIP技术支持的呼叫方式,主要应用于手机、电脑、平板这三种通信设备,VOIP可以在IP网络上便宜的传送语音、传真、视频和数据等业务。
VOLTE(长期演进语音承载)是一种高速无线通信标准,适用于手机、智能穿戴设备等多种类型的终端,两者都是现阶段传递语音信息的主流方式。
基于VOIP呼叫或VOLTE通话的语音通话、视频通话是目前人们最常用的沟通交流方式。噪声的大小、语音清晰度、视频的流畅度、清晰度等因素都是评估一次通话质量的关键指标,因此,在呼叫以及通话过程中采集的语音信号需要进行信号预处理,包括重采样、去噪、回声消除等流程,再将与处理后的语音信号进行编码等处理,最后将得到的码流传输给另一端。预处理的效果是保证音质的关键,预处理中不同步骤所用算法包括例如谱减法去噪、最小均方算法(LMS)、经验模态分解(EMD)等等。但是,谱减法仅适用在噪声信号是平稳的或者缓慢变化的;LMS受到远端输入信号的影响较大,如果输入信号较小,则需要较长的回声处理时间;EMD去噪时容易引起模态混叠、边界效应等问题。
发明内容
有鉴于此,本发明实施例提供基于VOIP呼叫VOLTE通话的语音视频处理方法及系统,能够消除通话时的噪声,提高通话质量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于VOIP呼叫VOLTE通话的语音视频处理方法。
本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法包括:
采集通话中的原始音频信号;
获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数;
基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量;
对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量;
利用所述相关模态分变量和所述有效分量生成重构音频信号。
可选地,采集通话中的原始音频信号,包括:
当进行VOIP呼叫或VOLTE通话时,利用音频采集设备获取音频信号;
利用维纳滤波去噪对所述音频信号进行预处理得到原始音频信号。
可选地,获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数,包括:
构建所述原始音频信号的Hankel矩阵;
利用奇异值分解算法计算所述Hankel矩阵的奇异值,并按照从大到小的顺序将所述奇异值排列为奇异值序列;
计算所述奇异值序列中每个所述奇异值的分量奇异指数。
可选地,基于下述公式计算所述分量奇异指数:
;
;
;
式中,是所述奇异值的显著指数,和分别是所述奇异值序列中第和个所述奇异值,是所述奇异值序列中的最小值,是调参因子、取值为0.0001;
其中,各个所述显著指数参照所述奇异值序列排列为显著指数序列;
是所述奇异值的关联指数,和分别是所述显著指数序列
在所述奇异值和处对应的长度为L的局部序列、L取值为5,
是序列与的皮尔逊相关系数;
是第个所述奇异值的分量奇异指数,是所述局部序列中
所有元素对应的所述奇异值的累加和。
可选地,基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量,包括:
根据最大的所述分量奇异指数生成分解所述原始音频信号的模态数量K;
利用变分模态分解算法将所述原始音频信号分解为K个模态分量;
分别计算每个所述模态分量与所述原始音频信号的互相关函数值;
利用Otsu算法计算所述互相关函数值的分割阈值,将所述互相关函数值大于等于所述分割阈值的模态分量作为所述原始音频信号的相关模态分变量,将所述互相关函数值小于分割阈值的模态分量作为所述原始音频信号的非相关模态分变量。
可选地,基于下述公式计算所述模态数量K:
;
式中,是最大的所述分量奇异指数,是最大的所述分量奇异指数
对应的所述奇异值在所述奇异值序列中的次序值。
可选地,对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量,包括:
采用小波包分解分别对所述相关模态分变量和所述非相关模态分变量进行多层分解,得到相关分解结果和非相关分解结果;
计算每层分解的层权重;并计算每个所述非相关分解结果与所述相关分解结果的信息相似度;
结合所述层权重和所述信息相似度计算每个所述非相关分解结果与所述相关分解结果的信号相关度;
选取所述信号相关度最大的10%个所述非相关分解结果作为有效分量。
可选地,基于下述公式计算所述信号相关度:
;
;
;
式中,是第y个所述相关模态分变量在第层的所述层权重,是第y个所
述相关模态分变量与所述原始音频信号之间的所述互相关函数值,是分解层数3;
是第j个所述非相关分解结果与第y个所述相关模态分变量的所述信息相似
度,是每层的所述非相关分解结果和所述相关分解结果中属于低频分解结果的数量,是第层中的第s个低频分解结果,是低频分解结果与第j个所述非相关分解
结果的交叉小波相干谱密度;
是第m个所述非相关模态分变量中第j个所述非相关分解结果的所述信号相
关度,是所述原始音频信号分解得到的所述相关模态数量。
为实现上述目的,根据本发明实施例的又一方面,提供了一种基于VOIP呼叫VOLTE通话的语音视频处理系统。
本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理系统包括:
采集模块,用于采集通话中的原始音频信号;
计算模块,用于获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数;
分解模块,用于基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量;
提取模块,用于对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量;
生成模块,用于利用所述相关模态分变量和所述有效分量生成重构音频信号。
上述发明中的一个实施例具有如下优点或有益效果:基于原始音频信号的频率响应特点构建分量奇异指数,分量奇异指数考虑了原始音频信号中的频率响应特点,通过分量奇异指数获取模态数量,是利用奇异值对应的局部分布之间的关联程度获取原始音频信号中较低频率分量的数量,避免人为设置K值的分解误差。同时基于相关模态分量和非相关模态分量地不同层的分解结果构建信号相关度,信号相关度考虑了相关模态分量和非相关模态分量在不同层分解结果之间的相似程度,能够获取原始音频信号分解后非相关模态分量中的有效信息成分,避免重构时的有效音频信息丢失。通过语音信号重构的方式消除通话时的噪声,提高了通话质量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法的主要步骤的示意图;
图2是根据本发明一个可参考实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法的主要部分的示意图;
图3是根据本发明一个可参考实施例的计算分量奇异指数的主要流程的示意图;
图4是根据本发明一个可参考实施例的分解原始音频信号的主要流程的示意图;
图5是根据本发明一个可参考实施例的提取有效分量的主要流程的示意图;
图6是根据本发明一个可参考实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法的主要流程的示意图;
图7是根据本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理系统的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
如图1所示,本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法主要包括以下步骤:
步骤S101,采集通话中的原始音频信号。
当进行VOIP呼叫或VOLTE通话时,会分别在参与通话的人附近放置音频采集设备,用于采集通话人进行通话时的音频信号,例如录音笔、录音器、手机内置话筒等音频信号采集通话人的音频信号。
在本发明实施例中,步骤S101可以采用以下方式实现:当进行VOIP呼叫或VOLTE通话时,利用音频采集设备获取音频信号;利用维纳滤波去噪对音频信号进行预处理得到原始音频信号。
为了增强音频信号的质量,消除环境干扰、或者音频采集设备中的电流声等干扰噪声,本发明利用维纳滤波去噪算法对采集的音频信号进行处理。维纳滤波去噪算法是在频域中处理图像的一种算法,是一种非常经典的图像增强算法,不仅可以进行图像降噪,还可以消除由于运动等原因带来的图像模糊。维纳滤波去噪为已有技术,具体过程可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。
在得到原始音频信号后,还可以对原始音频信号进行快速傅里叶变换(FFT),得到音频信号的波形图和语谱图。
步骤S102,获取原始音频信号的奇异值,并计算各个奇异值的分量奇异指数。
在VOIP呼叫或VOLTE通话的过程中,通话人听到回声是由于远端通话人(即其他参与通话的人)的声音被远端麦克风采集并传入通信设备,经过无线或有线传输之后达到近端的通信设备,并通过近端扬声器播放,即在整个对话过程中,近端麦克风接收到的信号包括近端通话人语音信号、近端扬声器播放的远端通话人语音、远端或近端网络波动或麦克风等硬件问题导致的噪声。通常,对于通话人的任意一句话对应的音频信号,如果是上下文信息相关的,通话人自身的发音不会发生太大的变化,相应的频谱图中相邻采样点的振幅、频率不会发生较大的变化,而接收端接收的噪声越严重,接收端音频信号中包含回声时刻的频率越大。
VMD是一种自适应、完全非递归的模态变分和信号处理的方法,具有可以确定模态分解个数(K值)的优点,其自适应性表现在根据实际情况确定所给序列的模态分解个数,随后的搜索和求解过程中可以自适应地匹配每种模态的最佳中心频率和有限带宽,并且可以实现固有模态分量(IMF)的有效分离、信号的频域划分、进而得到给定信号的有效分解成分,最终获得变分问题的最优解。本发明实施例利用变分模态分解算法(VMD)分解原始音频信号,但是对于不同K值对应的分解结果,如果原始音频信号中不包含噪声,那么在不同K值的分解结果中,存在与原始音频信号相似度较高的模态分量;如果采集的音频信号中夹杂噪声,那么不同K值的模态分量分解结果与原始音频信号是存在明显差异的。K值的大小不同,信号分解效果也不同,K值与原始音频信号中有用的频率分量个数相等时分解效果较好,K值较小时可能会出现信号分解不充分,K值过大则容易产生过分解,为此,本发明实施例提出根据原始音频信号的分量奇异指数确定K值,基于原始音频信号的频率响应特点构建的分量奇异指数,考虑了原始音频信号中的频率响应特点,能够利用奇异值对应的局部分布之间的关联程度获取原始音频信号中较低频率分量(即有用的频率分量)的数量,避免人为设置K值的分解误差。
在本发明实施例中,步骤S102可以采用以下方式实现:构建原始音频信号的Hankel矩阵;利用奇异值分解算法计算Hankel矩阵的奇异值,并按照从大到小的顺序将奇异值排列为奇异值序列;计算奇异值序列中每个奇异值的分量奇异指数。
音频信号是一个时序信号,是由一个基波和多个谐波或简谐波构成的。在进行通话过程中发出的音频信号通常是低频的、噪声是高频的。对于原始音频信号构建Hankel矩阵,利用该Hankel矩阵可以获取原始音频信号的频率响应。Hankel矩阵的构建为已有技术,具体过程可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。利用奇异值分解算法(SVD)计算Hankel矩阵的奇异值,如果Hankel矩阵的前几个奇异值较大,那么这个信号可能是低频信号;如果Hankel矩阵的前几个奇异值较小,那么这个信号很可能是高频信号,也就是噪声信号;由此,对于模态分量而言,如果是包含原始音频信号中的有效语音信息,则应该对应较小的奇异值。将Hankel矩阵的奇异值数量记为r,并按照从大到小的顺序将r个奇异值排列为奇异值序列。奇异值分解算法为已有技术,具体过程可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。
作为一种优选的实施方式,可以基于下述公式计算分量奇异指数:
;
;
;
式中,是奇异值的显著指数,和分别是奇异值序列中第和个
奇异值,是奇异值序列中的最小值,是调参因子、取值为0.0001;其中,的作用
是防止分母为0;的值越大,表示该奇异值在奇异值序列中的显著程度越大。各个奇异值
的显著指数参照奇异值序列排列为显著指数序列,即显著指数序列是指r个奇异值显著
指数组成的序列,。
是奇异值的关联指数,和分别是显著指数序列在奇异值和处对应的长度为L的局部序列、L取值为5,局部序列是指显著指数序列中由当前
的奇异值开始向前5个奇异值的显著指数组成的序列,例如当等于7时,是由中第
二个元素到第七个元素组成的,即;
是序列与的皮尔逊相关系数。需要说明的是,的值越大,局部序列中显著指数的关联性越强。
皮尔逊相关系数是用于度量两个变量之间的相关(线性相关),其值介于-1至1之间,皮尔逊相关系数的计算可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。
是第个奇异值的分量奇异指数,是局部序列中所有元素
对应的奇异值的累加和。
分量奇异指数反映了原始音频信号中频率响应的变化情况。奇异值与相邻奇异值
减去最小奇异值的结果之间差异越小,显著指数越小,原始音频信号分解出对应的频
率分量的可能性越大;局部序列之间的相关性越强,的值越大,
的值越大,原始音频信号中包含个较低频率分量的概率越大;局部序列中奇异值与相邻奇
异值的差值越大,相邻奇异值越小,的值越大,这个奇异值对应的信号
越有可能是原始音频信号中的噪声信号,即的值越大,原始音频信号x(t)包含个较低
频率分量的概率越大。
步骤S103,基于分量奇异指数将原始音频信号分解为相关模态分变量和非相关模态分变量。
分量奇异指数考虑了原始音频信号中的频率响应特点,分量奇异指数获取模态数量的有益效果在于能够利用奇异值对应的局部分布之间的关联程度获取原始音频信号中较低频率分量的数量,避免人为设置K值的分解误差。
在本发明实施例中,步骤S103可以采用以下方式实现:根据最大的分量奇异指数生成分解原始音频信号的模态数量K;利用变分模态分解算法将原始音频信号分解为K个模态分量;分别计算每个模态分量与原始音频信号的互相关函数值;利用Otsu算法计算互相关函数值的分割阈值,将互相关函数值大于等于分割阈值的模态分量作为原始音频信号的相关模态分变量,将互相关函数值小于分割阈值的模态分量作为原始音频信号的非相关模态分变量。
生成的模态数量K之后,利用变分模态分解算法将原始音频信号分解为K个模态分
量,分别计算每个模态分量与原始音频信号的互相关函数值,互相关函数值越大,则模态分
量与原始音频信号的相关度越大,利用Otsu算法获取互相关函数的分割阈值,将互相关函
数值大于等于分割阈值的模态分量作为原始音频信号的相关模态分变量,将互相关函数值
小于分割阈值的模态分量作为原始音频信号的非相关模态分变量,即在K个模态分量中包
含个相关模态分变量和个非相关模态分变量,其中。OTSU算法是阈值
分割中一种常用的算法,它可以根据图像自动生成最佳分割阈值,OTSU算法的核心思想是
类间方差最大化。OTSU算法的实现过程可以参考现有的技术方案或计算机程序,本发明实
施例不再赘述。互相关函数值就是描述在连续信号或离散序列的相关程度的一种统计度
量,互相关函数值的计算过程可以参考现有的技术方案或计算机程序,本发明实施例不再
赘述。
作为一种优选的实施方式,可以基于下述公式计算模态数量K:
;
式中,是最大的分量奇异指数,是最大的分量奇异指数对应的奇
异值在奇异值序列中的次序值,函数的含义是对参数四舍五入取整。
步骤S104,对相关模态分变量和非相关模态分变量进行小波包分解,根据分解结果从非相关模态分变量中提取有效分量。
对于步骤S103分解得到的非相关模态分变量,现有的变分模态分解算法在重构信号时,直接将所有的非相关模态分变量当作噪声信号,忽略了非相关模态分变量可能包含的有效信息,导致重构的音频信号质量降低,因此,本发明实施例从非相关模态分变量中再提取有效分量。
在本发明实施例中,步骤S104可以采用以下方式实现:采用小波包分解分别对相关模态分变量和非相关模态分变量进行多层分解,得到相关分解结果和非相关分解结果;计算每层分解的层权重;并计算每个非相关分解结果与相关分解结果的信息相似度;结合层权重和信息相似度计算每个非相关分解结果与相关分解结果的信号相关度;选取信号相关度最大的10%个非相关分解结果作为有效分量。
本发明实施例利用小波包分解对相关模态分变量和非相关模态分变量进行处理,根据分解结果,从非相关模态分变量中获取包含有效语音信号的有效分量,后续利用该有效分量和相关模态分变量重构音频信号。小波包分解的概念是用分析树来表示小波包,即利用多次叠代的小波转换分析输入讯号的细节部分,小波包分解的实现过程可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。
需要说明的是,在选取有效分量时,可以先按信号相关度从大到小对非相关分解结果进行排序,再将排序结果中前10%作为包含有效音频信息的有效分量,当前10%对应的不是整数时,可以采用四舍五入、向上取整或向下取整等方式获得整数。
优选地,本发明实施例将小波包分解层数设置为3,即对个相关模态分变量和个非相关模态分变量进行3层分解,然后再计算每个非相关模态分变量的每个非相关分
解结果与个相关模态分变量的相关分解结果的相关性,如果存在某一个非相关分解结
果与个相关模态分变量的相关分解结果具有较高的相似度,则第j个分解结果与原始音
频信号中的有效信息具有较高的相似性,即第j个分解结果包含原始音频中的有效信息的
可能性越大。
作为一种优选的实施方式,可以基于下述公式计算信号相关度:
;
;
;
式中,是第y个相关模态分变量在第层的层权重,是第y个相关模态分
变量与原始音频信号之间的互相关函数值,是分解层数3;在小波包分解相关模态分变
量的过程中,随着层数的增加,信号被分解的程度也在逐渐增大,频率的可区分性也在逐渐
增大,即对于不同层的分解结果,对信号之间的区分能力是不同的,层数越深,分解结果的
区分能力越强,因此,本发明实施例为不同层的分解结果设置不同的层权重,相关模态分变
量与原始音频信号之间的相关程度越高,分解结果的区分能力越强,对应的层权重越大。
是第j个非相关分解结果与第y个相关模态分变量的信息相似度,是每层的
分解结果中属于低频分解结果的数量,是第层中的第s个低频分解结果,是低频
分解结果与第j个非相关分解结果的交叉小波相干谱密度;
是第m个非相关模态分变量中第j个非相关分解结果的信号相关度,信号相关
度用于表征相关模态分变量与非相关模态分变量的分解结果之间的相似度,是原始音
频信号分解得到的相关模态分变量的数量。
第j个非相关分解结果与第y个相关模态分变量的底层(即第3层)中低频分解结果越相似,两个分解结果之间的交叉小波相干谱密度越大,层权重越大;第j个非相关分解结果与每个相关模态分变量中的低频分解结果的相似度越高,信号相关度的值越大,第j个非相关分解结果中存在原始音频信号中有效信息的概率越大。信号相关度考虑了相关模态分变量和非相关模态分变量在不同层分解结果之间的相似程度,能够获取原始音频信号分解后非相关模态分变量中的有效信息成分,避免重构时的有效音频信息丢失。
步骤S105,利用相关模态分变量和有效分量生成重构音频信号。
在获取了原始音频信号x(t)中的相关模态分变量和有效分量后,可以利用所有的相关模态分变量和有效分量得到重构后的音频信号(即重构音频信号),例如,将所有的相关模态分变量和有效分量作为变分模态分解算法重构音频信号时的输入以获得重构音频信号,从而完成对原始音频信号的降噪重构,信号重构的实现过程可以参考现有的技术方案或计算机程序,本发明实施例不再赘述。
进一步地,传输系统将重构音频信号传输至VOIP呼叫或VOLTE通话过程中的远端接收端(其他的参与通话方),从而实现对VOIP呼叫或VOLTE通话过程中的音频降噪。
根据本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法可以看出,基于原始音频信号的频率响应特点构建分量奇异指数,分量奇异指数考虑了原始音频信号中的频率响应特点,通过分量奇异指数获取模态数量,是利用奇异值对应的局部分布之间的关联程度获取原始音频信号中较低频率分量的数量,避免人为设置K值的分解误差。同时基于相关模态分量和非相关模态分量地不同层的分解结果构建信号相关度,信号相关度考虑了相关模态分量和非相关模态分量在不同层分解结果之间的相似程度,能够获取原始音频信号分解后非相关模态分量中的有效信息成分,避免重构时的有效音频信息丢失。通过语音信号重构的方式消除通话时的噪声,提高了通话质量。
如图2所示,在应用本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法时,可以划分为三部分:
一、利用音频采集设备获取音频信号,并对音频信号进行预处理。
当进行VOIP呼叫或VOLTE通话时,在说话人(即参与通话的人)附近放置音频采集设备,用于采集说话人的音频信号,例如录音笔、录音器等采集说话人的音频信号;为了增强音频信号的质量,消除环境干扰、或者音频采集设备中的电流声等干扰噪声,利用维纳滤波去噪算法对采集的音频信号进行处理,得到原始音频信号。
二、对原始音频信号进行分解处理,提取出相关模态分量以及非相关模态分量中的有效分量。
基于原始音频信号的频率响应特点对原始音频信号进行分解,将分解后的各个模态分量划分为相关模态分量和非相关模态分量,基于相关模态分量和非相关模态分量不同层的分解结果构建信号相关度,基于信号相关度从非相关模态分量中获取有效分量。
三、基于相关模态分量和有效分量生成重构音频信号,信号传输系统分别将两端重构后的音频信号传输至对应接收端。
根据上述步骤分别获取了原始音频信号x(t)中的个相关模态分量和有效分
量,将所有的相关模态分量和有效分量重构为音频信号(即重构音频信号),从而完成对原
始音频信号x(t)的降噪重构。
进一步地,传输系统将重构音频信号传输至VOIP呼叫或VOLTE通话过程中的远端接收端(其他的参与通话方),从而实现对VOIP呼叫或VOLTE通话过程中的音频降噪。
如图3所示,在应用本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法时,计算分量奇异指数可以参考以下流程:
一、对于原始音频信号x(t)构建Hankel矩阵:
将Hankel矩阵记为;
二、利用Hankel矩阵获取原始音频信号x(t)的频率响应;
三、利用SVD计算Hankel矩阵的奇异值:
如果Hankel矩阵的前几个奇异值较大,那么这个信号可能是低频信号;如果
Hankel矩阵的前几个奇异值较小,那么这个信号很可能是高频信号,也就是噪声信号,则对
于IMF分量而言,如果是包含原始音频信号x(t)中有效语音信息的,则应该对应较小的奇异
值;将的奇异值数量记为r,并按照从大到小的顺序将r个奇异值进行排序;
四、计算每个奇异值的分量奇异指数:
基于上述分析,此处构建分量奇异指数V,用于表征原始音频信号中频率响应的变化情况。
如图4所示,在应用本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法时,分解原始音频信号可以参考以下流程:
一、根据分量奇异指数的最大值,获取利用VMD分解原始音频信号x(t)时的模态数量K;
二、基于上述所获模态数量,利用变分模态分解VMD将原始音频信号x(t)分解为K个模态分量,分别计算每个模态分量IMF与原始音频信号x(t)的互相关函数;
三、将各个模态分量划分为关模态分变量和非相关模态分量:
利用Otsu算法获取互相关函数的分割阈值,将互相关函数值大于等于分割阈值的模态分量IMF作为原始音频信号x(t)的相关模态分变量,将互相关函数值小于分割阈值的模态分量IMF作为原始音频信号x(t)的非相关模态分变量。
如图5所示,在应用本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法时,提取有效分量可以参考以下流程:
一、利用小波包分解对相关模态分量和非相关模态分量进行处理:
将小波包分解层数设置为3,即对个相关模态分量和个非相关模态分量进行
3层分解;
二、计算每个非相关模态分量的每个分解结果与所有相关模态分量的分解结果的相关性:
如果存在某一个分解结果与个相关模态分量的分解序列具有较高的相似度,
则该分解结果与原始音频信号中的有用信息具有较高的相似性,即该分解结果包含原始音
频中的有用信息的可能性越大;
三、计算不同层的分解结果的层权重;
四、计算每个非相关分解结果的信号相关度:
构建信号相关度,用于表征相关模态分量和非相关模态分量分解结果之间的相似度;
五、将非相关分解结果按信号相关度从大到小排序,取排序结果中的10%作为包含有效音频信息的有效分量。
如图6所示,在应用本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法时,可参考以下流程:
步骤S1、当进行VOIP呼叫或VOLTE通话时,利用音频采集设备获取音频信号;
步骤S2、利用维纳滤波去噪对音频信号进行预处理得到原始音频信号;
步骤S3、构建原始音频信号的Hankel矩阵;
步骤S4、利用SVD方法计算Hankel矩阵的奇异值:
奇异值的数量记为r,并按照从大到小的顺序将r个奇异值进行排序;
步骤S5、计算每个奇异值的分量奇异指数;
步骤S6、根据分量奇异指数中的最大值,获取利用VDM分解原始音频信号x(t)时的模态数量K;
步骤S7、利用VDM将原始音频信号x(t)分解为K个模态分量(IMF);
步骤S8、分别计算每个IMF与原始音频信号x(t)的互相关函数;
步骤S9、利用Otsu算法获取互相关函数的分割阈值:
将互相关函数值大于等于分割阈值的IMF作为原始音频信号x(t)的相关模态分变量,将互相关函数值小于分割阈值的IMF作为原始音频信号x(t)的非相关模态分变量;
步骤S10、采用小波包分解分别对相关模态分量和非相关模态分量进行多层分解:
将小波包分解层数设置为3,最终将相关模态分量分解为相关分解结果、将非相关模态分量分解为非相关分解结果;
步骤S11、分别计算非相关模态分量的各个非相关分解结果与相关模态分量的各个相关分解结果之间的信号相关度;
步骤S12、将各个非相关分解结果的信号相关度按从大到小排序,取排序结果中的10%作为包含有效音频信息的有效分量;
步骤S13、根据相关模态分量和有效分量生成重构音频信号;
步骤S14、传输重构音频信号。
如图7所示,本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理系统700包括:采集模块701、计算模块702、分解模块703、提取模块704和生成模块705。
其中:
采集模块701,用于采集通话中的原始音频信号;
计算模块702,用于获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数;
分解模块703,用于基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量;
提取模块704,用于对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量;
生成模块705,用于利用所述相关模态分变量和所述有效分量生成重构音频信号。
在本发明实施例中,采集模块701还可以用于:
在进行VOIP呼叫或VOLTE通话时,利用音频采集设备获取音频信号;
利用维纳滤波去噪对所述音频信号进行预处理得到原始音频信号。
在本发明实施例中,计算模块702还可以用于:
构建所述原始音频信号的Hankel矩阵;
利用奇异值分解算法计算所述Hankel矩阵的奇异值,并按照从大到小的顺序将所述奇异值排列为奇异值序列;
计算所述奇异值序列中每个所述奇异值的分量奇异指数。
此外,可以基于下述公式计算所述分量奇异指数:
;
;
;
式中,是所述奇异值的显著指数,和分别是所述奇异值序列中第和个所述奇异值,是所述奇异值序列中的最小值,是调参因子、取值为
0.0001;其中,各个所述显著指数参照所述奇异值序列排列为显著指数序列;
是所述奇异值的关联指数,和分别是所述显著指数序列
在所述奇异值和处对应的长度为L的局部序列、L取值为5,
是序列与的皮尔逊相关系数;
是第个所述奇异值的分量奇异指数,是所述局部序列中
所有元素对应的所述奇异值的累加和。
在本发明实施例中,分解模块703还可以用于:
根据最大的所述分量奇异指数生成分解所述原始音频信号的模态数量K;
利用变分模态分解算法将所述原始音频信号分解为K个模态分量;
分别计算每个所述模态分量与所述原始音频信号的互相关函数值;
利用Otsu算法计算所述互相关函数值的分割阈值,将所述互相关函数值大于等于所述分割阈值的模态分量作为所述原始音频信号的相关模态分变量,将所述互相关函数值小于分割阈值的模态分量作为所述原始音频信号的非相关模态分变量。
此外,可以基于下述公式计算所述模态数量K:
;
式中,是最大的所述分量奇异指数,是最大的所述分量奇异指数
对应的所述奇异值在所述奇异值序列中的次序值。
在本发明实施例中,提取模块704还可以用于:
采用小波包分解分别对所述相关模态分变量和所述非相关模态分变量进行多层分解,得到相关分解结果和非相关分解结果;
计算每层分解的层权重;并计算每个所述非相关分解结果与所述相关分解结果的信息相似度;
结合所述层权重和所述信息相似度计算每个所述非相关分解结果与所述相关分解结果的信号相关度;
选取所述信号相关度最大的10%个所述非相关分解结果作为有效分量。
此外,可以基于下述公式计算所述信号相关度:
;
;
;
式中,是第y个所述相关模态分变量在第层的所述层权重,是第y个所
述相关模态分变量与所述原始音频信号之间的所述互相关函数值,是分解层数3;
是第j个所述非相关分解结果与第y个所述相关模态分变量的所述信息相似
度,是每层的所述非相关分解结果和所述相关分解结果中属于低频分解结果的数量,是第层中的第s个低频分解结果,是低频分解结果与第j个所述非相关分解
结果的交叉小波相干谱密度;
是第m个所述非相关模态分变量中第j个所述非相关分解结果的所述信号相
关度,是所述原始音频信号分解得到的所述相关模态数量。
根据本发明实施例的技术方案,本发明实施例的一种基于VOIP呼叫VOLTE通话的语音视频处理方法及系统,基于原始音频信号的频率响应特点构建分量奇异指数,分量奇异指数考虑了原始音频信号中的频率响应特点,通过分量奇异指数获取模态数量,是利用奇异值对应的局部分布之间的关联程度获取原始音频信号中较低频率分量的数量,避免人为设置K值的分解误差。同时基于相关模态分量和非相关模态分量地不同层的分解结果构建信号相关度,信号相关度考虑了相关模态分量和非相关模态分量在不同层分解结果之间的相似程度,能够获取原始音频信号分解后非相关模态分量中的有效信息成分,避免重构时的有效音频信息丢失。通过语音信号重构的方式消除通话时的噪声,提高了通话质量。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (9)
1.一种基于VOIP呼叫VOLTE通话的语音视频处理方法,其特征在于,包括:
采集通话中的原始音频信号;
获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数;
基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量;
对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量;
利用所述相关模态分变量和所述有效分量生成重构音频信号。
2.根据权利要求1所述的方法,其特征在于,采集通话中的原始音频信号,包括:
当进行VOIP呼叫或VOLTE通话时,利用音频采集设备获取音频信号;
利用维纳滤波去噪对所述音频信号进行预处理得到原始音频信号。
3.根据权利要求1所述的方法,其特征在于,获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数,包括:
构建所述原始音频信号的Hankel矩阵;
利用奇异值分解算法计算所述Hankel矩阵的奇异值,并按照从大到小的顺序将所述奇异值排列为奇异值序列;
计算所述奇异值序列中每个所述奇异值的分量奇异指数。
4.根据权利要求3所述的方法,其特征在于,基于下述公式计算所述分量奇异指数:
;
;
;
式中,是所述奇异值/>的显著指数,/>和/>分别是所述奇异值序列中第/>和/>个所述奇异值,/>是所述奇异值序列中的最小值,/>是调参因子、取值为0.0001;其中,各个所述显著指数参照所述奇异值序列排列为显著指数序列;
是所述奇异值/>的关联指数,/>和/>分别是所述显著指数序列在所述奇异值/>和/>处对应的长度为L的局部序列、L取值为5,/>是序列/>与/>的皮尔逊相关系数;
是第/>个所述奇异值的分量奇异指数,/>是所述局部序列/>中所有元素对应的所述奇异值的累加和。
5.根据权利要求1所述的方法,其特征在于,基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量,包括:
根据最大的所述分量奇异指数生成分解所述原始音频信号的模态数量K;
利用变分模态分解算法将所述原始音频信号分解为K个模态分量;
分别计算每个所述模态分量与所述原始音频信号的互相关函数值;
利用Otsu算法计算所述互相关函数值的分割阈值,将所述互相关函数值大于等于所述分割阈值的模态分量作为所述原始音频信号的相关模态分变量,将所述互相关函数值小于分割阈值的模态分量作为所述原始音频信号的非相关模态分变量。
6.根据权利要求5所述的方法,其特征在于,基于下述公式计算所述模态数量K:
;
式中,是最大的所述分量奇异指数,/>是最大的所述分量奇异指数对应的所述奇异值在所述奇异值序列中的次序值。
7.根据权利要求5所述的方法,其特征在于,对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量,包括:
采用小波包分解分别对所述相关模态分变量和所述非相关模态分变量进行多层分解,得到相关分解结果和非相关分解结果;
计算每层分解的层权重;并计算每个所述非相关分解结果与所述相关分解结果的信息相似度;
结合所述层权重和所述信息相似度计算每个所述非相关分解结果与所述相关分解结果的信号相关度;
选取所述信号相关度最大的10%个所述非相关分解结果作为有效分量。
8.根据权利要求7所述的方法,其特征在于,基于下述公式计算所述信号相关度:
;
;
;
式中,是第y个所述相关模态分变量在第/>层的所述层权重,/>是第y个所述相关模态分变量与所述原始音频信号之间的所述互相关函数值,/>是分解层数3;
是第j个所述非相关分解结果与第y个所述相关模态分变量的所述信息相似度,/>是每层的所述非相关分解结果和所述相关分解结果中属于低频分解结果的数量,/>是第/>层中的第s个低频分解结果,/>是低频分解结果/>与第j个所述非相关分解结果的交叉小波相干谱密度;
是第m个所述非相关模态分变量中第j个所述非相关分解结果的所述信号相关度,/>是所述原始音频信号分解得到的所述相关模态数量。
9.一种基于VOIP呼叫VOLTE通话的语音视频处理系统,其特征在于,包括:
采集模块,用于采集通话中的原始音频信号;
计算模块,用于获取所述原始音频信号的奇异值,并计算各个所述奇异值的分量奇异指数;
分解模块,用于基于所述分量奇异指数将所述原始音频信号分解为相关模态分变量和非相关模态分变量;
提取模块,用于对所述相关模态分变量和所述非相关模态分变量进行小波包分解,根据分解结果从所述非相关模态分变量中提取有效分量;
生成模块,用于利用所述相关模态分变量和所述有效分量生成重构音频信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310912374.XA CN116631429B (zh) | 2023-07-25 | 2023-07-25 | 基于voip呼叫volte通话的语音视频处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310912374.XA CN116631429B (zh) | 2023-07-25 | 2023-07-25 | 基于voip呼叫volte通话的语音视频处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631429A true CN116631429A (zh) | 2023-08-22 |
CN116631429B CN116631429B (zh) | 2023-10-10 |
Family
ID=87603089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310912374.XA Active CN116631429B (zh) | 2023-07-25 | 2023-07-25 | 基于voip呼叫volte通话的语音视频处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631429B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193420A1 (en) * | 2002-07-15 | 2004-09-30 | Kennewick Robert A. | Mobile systems and methods for responding to natural language speech utterance |
CN104796365A (zh) * | 2015-03-12 | 2015-07-22 | 上海电机学院 | 低信噪比下基于复杂度特征的调制信号识别方法 |
US20160242690A1 (en) * | 2013-12-17 | 2016-08-25 | University Of Florida Research Foundation, Inc. | Brain state advisory system using calibrated metrics and optimal time-series decomposition |
CN106446829A (zh) * | 2016-09-22 | 2017-02-22 | 三峡大学 | 一种基于svd与vmd模态自相关分析的水电机组振动信号降噪方法 |
CN113066502A (zh) * | 2021-03-11 | 2021-07-02 | 电子科技大学 | 基于vmd和多小波的心音分割定位方法 |
CN113537649A (zh) * | 2021-09-16 | 2021-10-22 | 南通华豪巨电子科技有限公司 | 基于神经网络与动态模式分解的电网负荷预测方法及系统 |
CN113917490A (zh) * | 2021-09-13 | 2022-01-11 | 北京理工大学 | 激光测风雷达信号去噪方法及装置 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
CN116013240A (zh) * | 2023-01-07 | 2023-04-25 | 广西大学 | 基于变分模态分解与数字滤波的钢管混凝土信号降噪方法 |
-
2023
- 2023-07-25 CN CN202310912374.XA patent/CN116631429B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193420A1 (en) * | 2002-07-15 | 2004-09-30 | Kennewick Robert A. | Mobile systems and methods for responding to natural language speech utterance |
US20160242690A1 (en) * | 2013-12-17 | 2016-08-25 | University Of Florida Research Foundation, Inc. | Brain state advisory system using calibrated metrics and optimal time-series decomposition |
CN104796365A (zh) * | 2015-03-12 | 2015-07-22 | 上海电机学院 | 低信噪比下基于复杂度特征的调制信号识别方法 |
CN106446829A (zh) * | 2016-09-22 | 2017-02-22 | 三峡大学 | 一种基于svd与vmd模态自相关分析的水电机组振动信号降噪方法 |
CN113066502A (zh) * | 2021-03-11 | 2021-07-02 | 电子科技大学 | 基于vmd和多小波的心音分割定位方法 |
CN113917490A (zh) * | 2021-09-13 | 2022-01-11 | 北京理工大学 | 激光测风雷达信号去噪方法及装置 |
CN113537649A (zh) * | 2021-09-16 | 2021-10-22 | 南通华豪巨电子科技有限公司 | 基于神经网络与动态模式分解的电网负荷预测方法及系统 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
CN116013240A (zh) * | 2023-01-07 | 2023-04-25 | 广西大学 | 基于变分模态分解与数字滤波的钢管混凝土信号降噪方法 |
Non-Patent Citations (2)
Title |
---|
LIN MEI ET AL.: "Adaptive Signal Enhancement Based on Improved VMD-SVD for Leak Loacation in Water-Supply Pipeline", 《IEEE SENSORS JOURNA 》 * |
王国东;马莉;古彦龙;王启阳;魏亮;: "基于CEEMDAN与样本熵的高压断路器机械故障诊断", 宁夏电力, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116631429B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
Richter et al. | Speech Enhancement with Stochastic Temporal Convolutional Networks. | |
CN112185410B (zh) | 音频处理方法及装置 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN115588437B (zh) | 语音增强方法、装置、设备和存储介质 | |
CN113053400B (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
US20240296856A1 (en) | Audio data processing method and apparatus, device, storage medium, and program product | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
Takeuchi et al. | Invertible DNN-based nonlinear time-frequency transform for speech enhancement | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
CN116631429B (zh) | 基于voip呼叫volte通话的语音视频处理方法及系统 | |
CN113571079A (zh) | 语音增强方法、装置、设备及存储介质 | |
Zhou et al. | Speech Enhancement via Residual Dense Generative Adversarial Network. | |
Romaniuk et al. | Efficient low-latency speech enhancement with mobile audio streaming networks | |
CN115273882A (zh) | 一种时域上同时建模语音和噪声的语音增强方法 | |
CN113611321B (zh) | 一种语音增强方法及系统 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN113571074A (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
Goswami et al. | Phase aware speech enhancement using realisation of Complex-valued LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 276000, 607, 6th Floor, Building B, Applied Science City, High tech Industrial Development Zone, Linyi City, Shandong Province Patentee after: Jinnuo Video (Shandong) Digital Technology Co.,Ltd. Country or region after: China Address before: 276000, 607, 6th Floor, Building B, Applied Science City, High tech Industrial Development Zone, Linyi City, Shandong Province Patentee before: LINYI JINNUO VIDEO DIGITAL TECHNOLOGY Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |