CN112259110A - 音频编码方法及装置、音频解码方法及装置 - Google Patents
音频编码方法及装置、音频解码方法及装置 Download PDFInfo
- Publication number
- CN112259110A CN112259110A CN202011284231.1A CN202011284231A CN112259110A CN 112259110 A CN112259110 A CN 112259110A CN 202011284231 A CN202011284231 A CN 202011284231A CN 112259110 A CN112259110 A CN 112259110A
- Authority
- CN
- China
- Prior art keywords
- dereverberation
- audio signals
- sound source
- audio
- source positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 228
- 230000000694 effects Effects 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 12
- 230000004807 localization Effects 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 abstract description 10
- 238000007906 compression Methods 0.000 abstract description 10
- 238000005070 sampling Methods 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
Abstract
本公开提供一种音频编码方法及装置、音频解码方法及装置,所述音频编码方法包括:获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。本公开实施例能够提高对多通道的音频信号进行音频压缩的效果。
Description
技术领域
本发明涉及音频编解码技术领域,尤其涉及一种音频编码方法及装置、音频解码方法及装置。
背景技术
随着电子设备向智能化发展,电子设备通常集成有语音唤醒、语音识别及声纹识别等功能以实现语音交互。为提高语音交互的效果,电子设备通常设置麦克风阵列以采集多通道的音频信号。相关技术中,在采集多通道的音频信号后,对该多通道的音频信号进行线性预测编码以对麦克风阵列的多通道音频信号进行音频压缩。然而,线性预测编码是较为简单的去相关编码算法,采用线性预测编码对多通道的音频信号进行音频压缩的效果较差。
发明内容
本公开实施例提供一种音频编码方法及装置、音频解码方法及装置,以解决采用线性预测编码对多通道的音频信号进行音频压缩的效果较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本公开实施例提供了一种音频编码方法,所述方法包括:
获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
第二方面,本公开实施例提供了一种音频解码方法,所述方法包括:
获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
第三方面,本公开实施例提供了一种音频编码装置,所述装置包括:
获取模块,用于获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
去混响模块,用于采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
波束形成模块,用于基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
编码模块,用于基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成模块,用于生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
第四方面,本公开实施例提供了一种音频解码装置,所述装置包括:
获取模块,用于获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
分离模块,用于从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
解码模块,用于基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
重构模块,用于基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
第五方面,本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的音频编码方法中的步骤;或者,所述程序被所述处理器执行时实现如第二方面所述的音频解码方法中的步骤。
第六方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的音频编码方法中的步骤;或者,所述计算机程序被处理器执行时实现如第二方面所述的音频解码方法中的步骤。
本公开实施例中,获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。这样,通过结合声源定位结果对多通道的音频信号进行编码,能够利用多个通道之间的相关性对音频信号进行压缩,从而能够提高对多通道的音频信号进行音频压缩的效果。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种音频编码方法的流程图;
图2是本公开实施例提供的一种音频解码方法的流程图;
图3是本公开实施例提供的一种音频编码装置的结构示意图;
图4是本公开实施例提供的一种音频解码装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本公开实施例提供的一种音频编码方法的流程图,如图1所示,包括以下步骤:
步骤101、获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数。
其中,可以对M个通道的音频信号进行声源定位,获取声源定位结果。可以基于波束形成算法进行声源定位,或者可以基于广义互相关算法进行声源定位,或者还可以基于子空间进行声源定位,等等,本实施例对此不进行限定。所述声源定位结果可以为声源方向信息。
另外,可以获取所述M个通道的音频信号的语音活动检测结果,在所述语音活动检测结果为人声信号的情况下,获取声源定位结果。而在所述语音活动检测结果为非人声信号的情况下,可以不对M个通道的音频信号进行编码。
步骤102、采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号。
其中,可以基于线性预测的去混响算法进行去混响,所述去混响系数可以为线性预测系数。所述去混响系数可以是通过自适应滤波算法进行估计获取到的系数,例如,可以是采用NLMS(归一化最小均方)算法进行自适应滤波;或者去混响系数还可以是通过自适应滤波算法与神经网络模型相结合进行估计获取到的系数;或者还可以是从前端引擎中获取到的去混响系数,前端引擎进行语音增强时会计算去混响系数,可以从前端引擎中获取去混响系数。
以通过麦克风阵列采集M个通道的音频信号为例,假设有M个麦克风,第m个麦克风采集的音频信号为xm(n),其对应的短时频域音频信号为Xm(f,t),m为1至M的正整数,n表示采样点,f表示频率,t表示帧数;
若采用时域去混响算法,则去混响音频信号ym(n)可以为:
其中,cm,p,q为线性预测系数,Qmin为表示语音相关时间的最大长度,Qmax为表示设定的混响最长的相关时间,Qmin及Qmax均可以为预先设置的值,p为正整数,q为正整数。
示例地,Qmin可以设置为50ms对应的采样点数,在采样率为16000Hz时,可设置Qmin为800。Qmax可以设置为0.5s对应的采样点数,在采样率为16000Hz时,可设置Qmax为8000。
若采用短时频域去混响算法,则去混响音频信号Ym(f,t)可以为:
步骤103、基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号。
其中,可以预先存储有固定波束系数,所述固定波束系数可以包括多个波束系数,可以存储有所述多个波束系数与多个角度范围的对应关系。可以确定所述声源定位结果所在的角度范围,从而可以查找到所述声源定位结果所在的角度范围对应的目标波束系数,所述目标波束系数为所述多个波束系数中的波束系数。可以基于所述目标波束系数进行固定波束形成,得到波束输出信号。
以通过麦克风阵列采集M个通道的音频信号为例,假设有M个麦克风,若在时域计算波束输出信号,波束输出信号z(n)可以为:
其中,gm(n)为目标波束系数中对应于第m个麦克风的时域滤波器,ym(n)为去混响音频信号。
若在频域计算波束输出信号,波束输出信号Z(f,t)可以为:
其中,Gm(f)为多个波束系数中对应于第m个麦克风的波束系数。
需要说明的是,进行固定波束形成后的信号相对于去混响音频信号具有更高的信噪比,同时通过对波束系数的设计和延迟处理,可以使得固定波束输出中的语音成分不会滞后于任何一个麦克风中的语音成分。
步骤104、基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流。
其中,在进行线性预测编码的过程中,可以以所述波束输出信号为参考信号,预测波束输出信号和M个去混响音频信号。示例地,可以以当前时刻的波束输出信号为参考信号,预测下一时刻的波束输出信号和M个去混响音频信号。波束输出信号具有较高的信噪比,从而在线性预测编码过程中,线性预测受噪声影响较小,能够较大程度地消除通道之间的相关性。
另外,所述基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流,可以包括:对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,得到预测残差;对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。在解码时可以通过重构的方式获取所述M个去混响音频信号中的一个去混响音频信号。
或者,所述基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流,还可以包括:对所述波束输出信号及所述M个去混响音频信号进行线性预测,得到预测残差;对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。
步骤105、生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
其中,可以按照预设规则将所述声源定位结果、所述去混响系数及所述编码码流进行组合,生成所述音频信号的编码结果。示例地,可以将所述声源定位结果和所述去混响系数插入所述编码码流的第一个字节前,作为所述编码码流的前缀;或者将所述声源定位结果和所述去混响系数插入所述编码码流的最后一个字节后,作为所述编码码流后缀。本实施例对所述编码结果中所述声源定位结果、所述去混响系数及所述编码码流的位置关系不进行限定。
另外,除搜集人声信号外,还可以搜集多通道方向性干扰信号。为搜集多通道方向性干扰信号,可以对M个通道的音频信号进行方向性干扰检测,方向性干扰检测可以通过对比多个波束的差异或者统计M个通道的音频信号的相关性获得。所述获取声源定位结果,还可以包括,在检测到存在方向性干扰的情况下,获取声源定位结果。存在方向性干扰时,多通道之间的相关性会比较强,音频压缩的效果会较好。
需要说明的是,在实际的使用中,由于混响、噪声和干扰等因素,采集的音频信号质量较差,会显著降低语音唤醒、识别或声纹识别等效果。目前,电子设备通常采用基于麦克风阵列的语音增强方法来提升语音质量,以保证语音唤醒、识别或声纹识别效果。根据对音频信号的处理顺序,可以将基于麦克风阵列的语音增强称为前端引擎,将语音唤醒、识别或声纹识别等称为后端引擎。大多数后端引擎采用机器学习算法,而机器学习算法需要大量的训练数据,并且训练数据越接近于真实数据,后端引擎的效果越好,因此电子设备通常具有数据搜集功能。考虑到传输带宽或者流量等因素,电子设备搜集的数据大多是经过前端引擎处理后的单通道音频数据。
因此,现有技术中,若对前端引擎进行更新升级,则必须重新搜集数据对后端引擎进行更新。后端引擎是基于升级前的前端引擎处理的数据训练得到的,与升级后的前端引擎不匹配,需要重新搜集数据来更新后端引擎,其涉及到的数据搜集、标注和处理过程将造成极大的成本浪费。本实施例中,通过对多通道的音频信号进行近似无损压缩,能够以较低的带宽,搜集多通道的原始音频信号,在搜集时,对M个通道的音频信号进行编码,在使用时,对编码结果进行解码,能够实现对前端引擎和后端引擎进行联合优化。
本公开实施例中,获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。这样,通过结合声源定位结果对多通道的音频信号进行编码,能够利用多个通道之间的相关性对音频信号进行压缩,从而能够提高对多通道的音频信号进行音频压缩的效果。
可选的,所述获取声源定位结果,包括:
获取所述M个通道的音频信号的语音活动检测结果;
在所述语音活动检测结果为人声信号的情况下,获取声源定位结果。
其中,可以对M个通道的音频信号进行语音活动检测(Voice ActivityDetection,VAD),获取所述M个通道的音频信号的语音活动检测结果;或者,可以从前端引擎获取M个通道的音频信号的语音活动检测结果。语音活动检测可以用于检测音频信号中的语音开始信号与语音结束信号。可以通过卷积神经网络模型,或者用于语音活动检测的其他神经网络模型进行语音活动检测;或者,还可以通过音频信号的短时能量和短时过零率进行语音活动检测,等等,本实施例对此不进行限定。
另外,为搜集多通道的背景噪声,可以在所述语音活动检测结果为非人声信号的情况下,采用线性预测编码对M个通道的音频信号进行编码。在语音活动检测结果为非人声信号的情况下,在解码时,采用线性预测解码对编码结果进行解码。
该实施方式中,对于检测为人声信号的音频信号进行编码,而对于静音或噪音信号不进行编码,能够降低音频编码的工作量。
可选的,所述编码结果还包括所述语音活动检测结果。
其中,可以将所述语音活动检测结果、所述声源定位结果、所述去混响系数及所述编码码流进行组合,生成所述音频信号的编码结果。示例地,可以将所述语音活动检测结果、所述声源定位结果及所述去混响系数依次插入所述编码码流的第一个字节前,作为所述编码码流的前缀;或者可以将所述语音活动检测结果、所述声源定位结果及所述去混响系数依次插入所述编码码流的最后一个字节后,作为所述编码码流后缀。本实施例对所述编码结果中所述语音活动检测结果、所述声源定位结果、所述去混响系数及所述编码码流的位置关系不进行限定。
该实施方式中,所述编码结果还包括所述语音活动检测结果,从而在解码时能够确认音频信号是否为人声信号,能够提高音频信号压缩的准确率。
可选的,所述基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流,包括:
对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,得到预测残差;
对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。
其中,可以以所述波束输出信号为参考信号进行线性预测编码。
需要说明的是,所述线性预测系数可以是通过自适应滤波算法进行估计获取到的系数,例如,可以是采用NLMS(归一化最小均方)算法进行自适应滤波;或者可以是通过自适应滤波算法与神经网络模型相结合进行估计获取到的系数;或者还可以是从前端引擎中获取到的线性预测系数,前端引擎进行语音增强时会计算线性预测系数,可以从前端引擎中获取线性预测系数。所述线性预测系数可以为时变的系数,采用时变的线性预测系数进行编码会存在较大的码流,为控制码率,可以对一定时长内的音频信号采用相同的线性预测系数。
该实施方式中,对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,在解码时所述M个去混响音频信号中的一个去混响音频信号可以由M-1个去混响音频信号以及波束输出信号重构,不需要在编码过程对M个去混响音频信号进行线性预测,能够降低编码过程的工作量。
可选的,用于线性预测的参考信号为所述波束输出信号。
该实施方式中,采用所述波束输出信号作为线性预测的参考信号,这样,由于波束输出信号具有较高的信噪比,因而线性预测受噪声影响相对较小,能够较大限度的消除多通道之间的相关性,从而能够进一步提高对多通道的音频信号进行音频压缩的效果。
参见图2,图2是本公开实施例提供的一种音频解码方法的流程图,如图2所示,包括以下步骤:
步骤201、获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数。
步骤202、从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流。
其中,可以从M个通道的音频信号的编码结果中拆分出声源定位结果、去混响系数及编码码流。示例地,若在音频编码时,按照预设规则将所述声源定位结果、所述去混响系数及所述编码码流进行组合,生成所述音频信号的编码结果,则在音频解码时可以按照所述预设规则从所述编码结果中拆分出声源定位结果、去混响系数及编码码流。
步骤203、基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号。
其中,所述基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号,可以包括:对所述编码码流进行解码,得到线性预测系数和预测残差和线性预测系数;基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号;根据所述声源定位结果、所述波束输出信号及所述M-1个去混响音频信号进行逆波束形成,得到重构音频信号;所述M个去混响音频信号包括所述M-1个去混响音频信号和所述重构音频信号。
或者,所述基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号,还可以包括:对所述编码码流进行解码,得到线性预测系数和预测残差和线性预测系数;基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M个去混响音频信号。
步骤204、基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
其中,所述去混响系数可以为线性预测系数。可以对所述M个通道的音频信号进行线性预测,以获取所述线性预测系数。所述音频信号的解码结果可以包括M个通道的音频信号。
以M个通道的音频信号为通过麦克风阵列采集的M个通道的音频信号为例,假设有M个麦克风,第m个麦克风采集的音频信号对应的去混响音频信号为ym(n),其对应的短时频域音频信号为Ym(f,t),m为1至M的正整数,n表示采样点,f表示频率,t表示帧数;
若采用时域去混响重构算法进行去混响重构,则第m个通道的音频信号xm(n)可以为:
其中,cm,p,q为线性预测系数,Qmin为表示语音相关时间的最大长度,Qmax为表示设定的混响最长的相关时间,Qmin及Qmax均可以为预先设置的值,p为正整数,q为正整数。
示例地,Qmin可以设置为50ms对应的采样点数,在采样率为16000Hz时,可设置Qmin为800。Qmax可以设置为0.5s对应的采样点数,在采样率为16000Hz时,可设置Qmax为8000。
若采用短时频域去混响重构算法进行去混响重构,则第m个通道的音频信号Xm(f,t)可以为:
其中,f表示频率,t表示帧数。
本公开实施例中,获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。这样,由于在编码过程通过结合声源定位结果对多通道的音频信号进行编码,在解码过程中结合声源定位结果进行解码,能够利用多个通道之间的相关性对编码结果进行解码,从而音频编、解码效果较好。
可选的,所述基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号,包括:
对所述编码码流进行解码,得到线性预测系数和预测残差;
基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号;
根据所述声源定位结果、所述波束输出信号及所述M-1个去混响音频信号进行逆波束形成,得到重构音频信号;
所述M个去混响音频信号包括所述M-1个去混响音频信号和所述重构音频信号。
其中,所述基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号,可以是,采用线性预测重构算法对波束输出信号进行重构,得到波束输出信号;以波束输出信号为参考信号,根据所述线性预测系数和预测残差进行音频信号恢复,得到M-1个去混响音频信号。
以M个通道的音频信号为通过麦克风阵列采集的M个通道的音频信号为例,假设有M个麦克风,若在时域计算重构音频信号,重构音频信号yM(n)可以为:
其中,hM(n)满足gM(n)*hM(n)=σ(n),gp(n)为波束系数中对应于第p个麦克风的时域滤波器,σ(n)为单位冲激序列,z(n)为波束输出信号,yp(n)为第p个麦克风对应的去混响音频信号,n表示采样点,p为正整数。
若在频域计算重构音频信号,重构音频信号YM(f,t)可以为:
其中,Gp(f)为多个波束系数中对应于第p个麦克风的波束系数,Yp(f,t)为第p个麦克风对应的去混响音频信号,Z(f,t)为波束输出信号。
该实施方式中,在解码时所述M个去混响音频信号中的重构音频信号可以由M-1个去混响音频信号以及波束输出信号重构,不需要在编码过程对M个去混响音频信号进行线性预测,能够降低编码过程的工作量。
可选的,用于线性预测重构的参考信号为所述波束输出信号。
该实施方式中,由于在编码过程采用所述波束输出信号作为线性预测的参考信号,从而在线性预测重构时采用所述波束输出信号作为参考信号,这样,由于波束输出信号具有较高的信噪比,因而线性预测受噪声影响相对较小,能够较大限度的消除多通道之间的相关性,从而能够进一步提高音频编、解码效果。
参见图3,图3是本公开实施例提供的一种音频编码装置的结构示意图,如图3所示,音频编码装置300包括:
获取模块301,用于获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
去混响模块302,用于采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
波束形成模块303,用于基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
编码模块304,用于基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成模块305,用于生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
可选的,所述获取模块301具体用于:
获取所述M个通道的音频信号的语音活动检测结果;
在所述语音活动检测结果为人声信号的情况下,获取声源定位结果。
可选的,所述编码结果还包括所述语音活动检测结果。
可选的,所述编码模块304具体用于:
对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,得到预测残差;
对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。
可选的,用于线性预测的参考信号为所述波束输出信号。
音频编码装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
参见图4,图4是本公开实施例提供的一种音频解码装置的结构示意图,如图4所示,音频解码装置400包括:
获取模块401,用于获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
分离模块402,用于从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
解码模块403,用于基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
重构模块404,用于基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
可选的,所述解码模块403具体用于:
对所述编码码流进行解码,得到线性预测系数和预测残差;
基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号;
根据所述声源定位结果、所述波束输出信号及所述M-1个去混响音频信号进行逆波束形成,得到重构音频信号;
所述M个去混响音频信号包括所述M-1个去混响音频信号和所述重构音频信号。
可选的,用于线性预测重构的参考信号为所述波束输出信号。
音频解码装置能够实现图2的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
请参见图5,图5是本公开实施例提供的一种电子设备的结构示意图,如图5所示,电子设备500包括:存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的程序,其中:
作为一种实施方式,在所述电子设备用于音频编码时,所述处理器501读取存储器502中的程序,用于执行:
获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
可选的,所述处理器501执行的所述获取声源定位结果,包括:
获取所述M个通道的音频信号的语音活动检测结果;
在所述语音活动检测结果为人声信号的情况下,获取声源定位结果。
可选的,所述编码结果还包括所述语音活动检测结果。
可选的,所述处理器501执行的所述基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流,包括:
对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,得到预测残差;
对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。
可选的,用于线性预测的参考信号为所述波束输出信号。
作为另一种实施方式,在所述电子设备用于音频解码时,所述处理器501读取存储器502中的程序,用于执行:
获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
可选的,所述处理器501执行的所述基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号,包括:
对所述编码码流进行解码,得到线性预测系数和预测残差;
基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号;
根据所述声源定位结果、所述波束输出信号及所述M-1个去混响音频信号进行逆波束形成,得到重构音频信号;
所述M个去混响音频信号包括所述M-1个去混响音频信号和所述重构音频信号。
可选的,用于线性预测重构的参考信号为所述波束输出信号。
在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器501代表的一个或多个处理器和存储器502代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器501负责管理总线架构和通常的处理,存储器502可以存储处理器501在执行操作时所使用的数据。
需要说明的是,本公开实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音频编码方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述音频解码方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (11)
1.一种音频编码方法,其特征在于,所述方法包括:
获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
2.根据权利要求1所述的方法,其特征在于,所述获取声源定位结果,包括:
获取所述M个通道的音频信号的语音活动检测结果;
在所述语音活动检测结果为人声信号的情况下,获取声源定位结果。
3.根据权利要求2所述的方法,其特征在于,所述编码结果还包括所述语音活动检测结果。
4.根据权利要求1所述的方法,其特征在于,所述基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流,包括:
对所述波束输出信号及所述M个去混响音频信号中的M-1个去混响音频信号进行线性预测编码,得到预测残差;
对预先获取的线性预测系数和所述预测残差进行熵编码,得到编码码流。
5.根据权利要求4所述的方法,其特征在于,用于线性预测的参考信号为所述波束输出信号。
6.一种音频解码方法,其特征在于,所述方法包括:
获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号,包括:
对所述编码码流进行解码,得到线性预测系数和预测残差;
基于所述线性预测系数和预测残差进行线性预测重构,得到波束输出信号和M-1个去混响音频信号;
根据所述声源定位结果、所述波束输出信号及所述M-1个去混响音频信号进行逆波束形成,得到重构音频信号;
所述M个去混响音频信号包括所述M-1个去混响音频信号和所述重构音频信号。
8.根据权利要求7所述的方法,其特征在于,用于线性预测重构的参考信号为所述波束输出信号。
9.一种音频编码装置,其特征在于,所述装置包括:
获取模块,用于获取声源定位结果,其中,所述声源定位结果为根据M个通道的音频信号进行声源定位的声源定位结果,M为正整数;
去混响模块,用于采用预先获取的去混响系数对所述M个通道的音频信号进行去混响,得到M个去混响音频信号;
波束形成模块,用于基于所述声源定位结果对所述M个去混响音频信号进行波束形成,得到波束输出信号;
编码模块,用于基于所述M个去混响音频信号和所述波束输出信号进行线性预测编码,得到编码码流;
生成模块,用于生成所述音频信号的编码结果,所述编码结果包括所述声源定位结果、所述去混响系数及所述编码码流。
10.一种音频解码装置,其特征在于,所述装置包括:
获取模块,用于获取M个通道的音频信号的编码结果,所述编码结果包括声源定位结果、去混响系数及编码码流,M为正整数;
分离模块,用于从所述编码结果中分离出所述声源定位结果、去混响系数及编码码流;
解码模块,用于基于所述声源定位结果对所述编码码流进行解码,获取M个去混响音频信号;
重构模块,用于基于所述去混响系数对所述M个去混响音频信号进行去混响重构,得到所述音频信号的解码结果。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频编码方法中的步骤;或者,所述程序被所述处理器执行时实现如权利要求6至8中任一项所述的音频编码方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284231.1A CN112259110B (zh) | 2020-11-17 | 2020-11-17 | 音频编码方法及装置、音频解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284231.1A CN112259110B (zh) | 2020-11-17 | 2020-11-17 | 音频编码方法及装置、音频解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259110A true CN112259110A (zh) | 2021-01-22 |
CN112259110B CN112259110B (zh) | 2022-07-01 |
Family
ID=74266004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284231.1A Active CN112259110B (zh) | 2020-11-17 | 2020-11-17 | 音频编码方法及装置、音频解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259110B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035211A (zh) * | 2021-03-11 | 2021-06-25 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US20120128160A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
CN103366749A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
WO2013176959A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
CN106233382A (zh) * | 2014-04-30 | 2016-12-14 | 华为技术有限公司 | 一种对若干个输入音频信号进行去混响的信号处理装置 |
US20170004836A1 (en) * | 2015-07-01 | 2017-01-05 | Gopro, Inc. | Audio decoder for wind and microphone noise reduction in a microphone array system |
US20180182411A1 (en) * | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Multiple input multiple output (mimo) audio signal processing for speech de-reverberation |
WO2019193248A1 (en) * | 2018-04-06 | 2019-10-10 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
WO2019204214A2 (en) * | 2018-04-16 | 2019-10-24 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for encoding and decoding of directional sound sources |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
WO2020152154A1 (en) * | 2019-01-21 | 2020-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
CN111819862A (zh) * | 2018-03-14 | 2020-10-23 | 华为技术有限公司 | 音频编码设备和方法 |
-
2020
- 2020-11-17 CN CN202011284231.1A patent/CN112259110B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US20120128160A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
CN103366749A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
WO2013176959A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
CN104321812A (zh) * | 2012-05-24 | 2015-01-28 | 高通股份有限公司 | 在呼叫期间的三维声音压缩及空中发射 |
CN106233382A (zh) * | 2014-04-30 | 2016-12-14 | 华为技术有限公司 | 一种对若干个输入音频信号进行去混响的信号处理装置 |
US20170004836A1 (en) * | 2015-07-01 | 2017-01-05 | Gopro, Inc. | Audio decoder for wind and microphone noise reduction in a microphone array system |
US20180182411A1 (en) * | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Multiple input multiple output (mimo) audio signal processing for speech de-reverberation |
CN111819862A (zh) * | 2018-03-14 | 2020-10-23 | 华为技术有限公司 | 音频编码设备和方法 |
WO2019193248A1 (en) * | 2018-04-06 | 2019-10-10 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
WO2019204214A2 (en) * | 2018-04-16 | 2019-10-24 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for encoding and decoding of directional sound sources |
WO2020152154A1 (en) * | 2019-01-21 | 2020-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
Non-Patent Citations (2)
Title |
---|
WAJEEHA EHSAN等: "A novel approach for blind separation dereverberation of speech mixtures using multiplestep linear predictive coding", 《2015 INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGIES (ICET)》 * |
何冲等: "一种基于正交非负矩阵分解的多通道线性预测语音去混响方法", 《声学技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035211A (zh) * | 2021-03-11 | 2021-06-25 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112259110B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10777215B2 (en) | Method and system for enhancing a speech signal of a human speaker in a video using visual information | |
Qian et al. | Speech Enhancement Using Bayesian Wavenet. | |
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
JP2776848B2 (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
CN111243620A (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
KR20190096855A (ko) | 사운드 처리 방법 및 장치 | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112259110B (zh) | 音频编码方法及装置、音频解码方法及装置 | |
Wang et al. | Fusing bone-conduction and air-conduction sensors for complex-domain speech enhancement | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN113077812A (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN111863009A (zh) | 上下文信息预测模型的训练方法及系统 | |
CN111276132A (zh) | 一种语音处理方法、电子设备及计算机可读存储介质 | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
CN113409792B (zh) | 一种语音识别方法及其相关设备 | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
KR101068666B1 (ko) | 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 | |
CN115116460B (zh) | 音频信号增强方法、装置、设备、存储介质及程序产品 | |
CN113053400B (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |