CN114203136A - 回声消除方法、语音识别方法、语音唤醒方法和装置 - Google Patents
回声消除方法、语音识别方法、语音唤醒方法和装置 Download PDFInfo
- Publication number
- CN114203136A CN114203136A CN202010873609.5A CN202010873609A CN114203136A CN 114203136 A CN114203136 A CN 114203136A CN 202010873609 A CN202010873609 A CN 202010873609A CN 114203136 A CN114203136 A CN 114203136A
- Authority
- CN
- China
- Prior art keywords
- data
- audio data
- audio
- echo cancellation
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 160
- 238000012545 processing Methods 0.000 claims abstract description 247
- 238000001914 filtration Methods 0.000 claims abstract description 98
- 230000005540 biological transmission Effects 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims abstract description 62
- 238000004904 shortening Methods 0.000 claims abstract description 54
- 238000001228 spectrum Methods 0.000 claims description 54
- 230000008030 elimination Effects 0.000 claims description 17
- 238000003379 elimination reaction Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 description 61
- 230000003044 adaptive effect Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 230000003111 delayed effect Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供了一种回声消除方法、语音识别方法、语音唤醒方法和装置,所述的回声消除方法包括:获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;对所述回声消除数据进行后滤波处理,得到对应的输出数据;能够降低回声消除过程的计算复杂度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种回声消除方法、一种回声消除装置、一种语音识别方法、一种语音识别装置、一种语音唤醒方法、一种语音唤醒装置、一种电子设备和一种存储介质。
背景技术
在语音识别的领域中,设备采集的语音数据中可能存在用户的音频、用户音频产生的混响、设备播放的音频的回声、设备播放的音频的回声产生的混响等,在对语音数据进行识别之前,通常需要采用回声消除方法来消除回声和混响。
一种现有的回声消除方法是利用自适应滤波器进行回声消除,其中,自适应滤波器是以输入和输出信号的统计特性的估计为依据,采取特定算法自动地调整滤波器系数,使其达到较佳滤波特性的一种装置。具体的,现有的回声消除方式可以基于音频对应的频谱和原始音频对应的频谱进行频谱匹配,将音频和原始音频进行对齐,并将对齐后的数据输入到自适应滤波器中,现有的自适应滤波器通常为基于递归最小二乘(Recursive LeastSquare,RLS)算法的自适应滤波。自适应滤波器依据输入的数据和输出的数据对自适应滤波器的系数不断进行调整,以估计回声数据和混响数据,来对语音数据中的回声和混响进行抵消。
但是采用上述方式,自适应滤波器需要过滤语音音频中的回声数据和混响数据,计算复杂度高。
发明内容
本申请实施例提供了一种回声消除方法,以降低计算复杂度。
相应的,本申请实施例还提供了一种回声消除装置、一种语音识别方法、一种语音识别装置、一种语音唤醒方法、一种语音唤醒装置、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
为了解决上述问题,本申请实施例公开了一种回声消除方法,所述的方法包括:获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;对所述回声消除数据进行后滤波处理,得到对应的输出数据。
为了解决上述问题,本申请实施例公开了一种语音唤醒方法,包括:获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;依据所述输出音频数据,唤醒对应的目标对象。
为了解决上述问题,本申请实施例公开了一种语音识别方法,包括:获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;对所述数据音频数据进行语音识别,以确定文本信息;对所述文本信息进行语义识别,以确定关键信息;依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
为了解决上述问题,本申请实施例公开了一种回声消除方法,应用于移动端,所述的方法包括:获取移动端的音频输出单元待输出的原始音频数据,并写入缓存;在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据;依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;对所述回声消除数据进行后滤波处理,得到对应的输出数据。
为了解决上述问题,本申请实施例公开了一种回声消除装置,包括:音频数据获取模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;参考数据获取模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;处理数据获取模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;回声消除数据获取模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;输出数据获取模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
为了解决上述问题,本申请实施例公开了一种语音唤醒装置,包括:音频数据确定模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;参考数据确定模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;处理数据确定模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;回声消除数据确定模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;输出数据确定模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;目标对象唤醒模块,用于依据所述输出音频数据,唤醒对应的目标对象。
为了解决上述问题,本申请实施例公开了一种语音识别装置,包括:音频数据获得模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;参考数据获得模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;处理数据获得模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;回声消除数据获得模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;输出数据获得模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;语音识别模块,用于对所述数据音频数据进行语音识别,以确定文本信息;语义识别模块,用于对所述文本信息进行语义识别,以确定关键信息;目标对象处理模块,用于依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
为了解决上述问题,本申请实施例公开了一种回声消除装置,包括:原始数据缓存模块,用于获取移动端的音频输出单元待输出的原始音频数据,并写入缓存;音频采集处理模块,用于在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据;数据延迟处理模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;数据缩短处理模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;数据回声消除模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;输出数据生成模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
为了解决上述问题,本申请实施例公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述实施例中一个或多个所述的方法。
为了解决上述问题,本申请实施例公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如上述实施例中一个或多个所述的方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,通过对音频数据进行传递参数缩短处理来过滤混响数据,然后再进行回声消除,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
附图说明
图1是本申请一个实施例的回声消除方法的示意图;
图2是本申请一个实施例的回声消除方法的流程示意图;
图3A是本申请一个实施例的数据延迟的流程示意图;
图3B是本申请一个实施例的回声消除的流程示意图;
图4是本申请一个实施例的语音唤醒方法的流程示意图;
图5A是本申请一个实施例的语音识别系统的结构示意图;
图5B是本申请一个实施例的语音识别方法的流程示意图;
图6是本申请另一个实施例的回声消除方法的流程示意图;
图7是本申请一个实施例的回声消除装置的结构示意图;
图8是本申请一个实施例的语音唤醒装置的结构示意图;
图9是本申请一个实施例的语音识别装置的结构示意图;
图10是本申请另一个实施例的回声消除装置的结构示意图;
图11是本申请一实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用在语音识别(Voice Recognition)领域,语音识别是一门交叉学科,其目的是完成用户与机器进行语音交流,让机器明白用户在说什么。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
在语音识别领域中,采集的语音音频中可能包含有用户的音频和设备播放的音频等数据,在对语音音频进行识别之前,通常会采用回声消除(Acoustic EchoCancellation,AEC)对语音音频进行处理,以消除语音音频中的回声,获得更加准确的音频识别结果。其中,回声消除技术是采用回波抵消方法,也就是通过估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。
本申请实施例可应用于各种包括音频输入\输出单元的移动设备中,如移动端(如手机)、车载设备等移动终端。其中,音频输入单元可包括麦克风等,音频输出单元可包括扬声器等。例如可以应用在对移动端的设备回声进行回声消除处理,以进行后续语音识别的场景中,其中,设备回声是指设备播放的音频经过空气传播后再次被设备采集录制的音频,移动端的设备回声可以理解为移动端的扬声器播放的音频回声。举例来说,本申请实施例可以应用在移动端(如手机)的导航场景、音乐播放场景、电视播放场景等,如图1所示,以应用在导航过程中对移动端进行唤醒为例,用户向云端服务器发出请求,云端服务器向移动端返回对应的数据,以进行导航服务,在导航服务中,用户在发出唤醒目标设备的语音音频过程中,移动端的音频输出单元(如扬声器)可能正在播放导航提示音,移动端的音频采集单元(如麦克风)采集的音频数据中包含有用户的语音音频和音频输出单元输出的音频(导航提示音),本申请实施例的方式可以对导航提示音的音频进行过滤,以获得更加清晰的音频,以依据回声消除后的音频打断移动端扬声器的播放,并进行移动端的唤醒。
下面以将本申请实施例应用在移动端为例,对本申请实施例进行描述。
具体的,如图1所示,本申请实施例的移动端从云端服务器获取待播放的原始音频数据数据,并写入到缓存中,等待播放。在播放过程中,移动端麦克风采集的音频数据中可能包含有移动端的扬声器播放的声音(回声)。本申请实施例可以获取采集的音频数据和设备播放的数据对应的原始音频数据,并对原始音频数据进行延迟处理,确定对应的参考数据;确定音频数据中的回声路径,以确定音频数据对应的传递参数。然后依据传递参数对音频数据进行传递参数缩短(shortening)处理,以过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,依据参考数据对处理数据进行回声消除(AEC)。并对回声消除后的回声消除数据进行后滤波处理,得到对应的输出数据。
其中,音箱等设备播放的数据的延迟通常是由于硬件原因导致的,因此,音箱等设备的回声消除方式通常采取的硬参考的方式,具体是利用硬件电路采集播放的数据的原始数据并进行延迟,以进行滤波处理。而移动端播放的数据的延迟原因比较复杂,数据播放产生的延迟通常不确定,因此,移动端的回声消除方式通常采取软参考的方式进行回声消除,具体的,导致移动端播放的数据延迟原因主要包括延迟漂移和延迟抖动这两点,延迟漂移是指由于移动端的扬声器和麦克风的时钟之间的不一致,导致原始音频数据和采集的音频数据之间存在时间差异;延迟抖动是指由于移动端在接收到待输出的数据之后,会将待输出的数据写入缓存中,并由应用的播放线程来获取并播放待输出的数据,然而各播放线程获取数据和播放数据需要的时间不同,导致原始音频数据和采集的音频数据之间存在时间差异。在本申请实施例中,可以采取固定延迟和动态延迟结合的方式对原始音频数据进行延迟处理,以将具有时间延迟的原始音频数据和采集的音频数据进行对齐,举例来说,不同的移动端设备声音接收的延迟不同,具体可依据设备情况预先设置固定延迟时长,并依据固定延迟时长对原始音频数据进行固定延迟处理,例如可以采取100ms或200ms的固定延迟时长。对原始音频数据进行固定延迟之后,可以对音频数据和固定延迟后的原始音频数据进行加权分析,确定固定延迟后原始音频数据对应的动态延迟时长,并依据动态延迟时长,对固定延迟后的原始音频数据进行动态延迟处理,以将经过延迟的原始音频数据与音频数据进行对齐。其中,对音频数据和固定延迟后的原始音频数据进行加权分析的过程可以采用广义互相关-相位变换方法(Generalized Cross Correlation PHAse Transformation,GCC-PHAT)进行分析,以确定对应的动态延迟时长。
在将音频数据和参考数据对齐之后,可以确定音频数据对应的传播路径信息,并依据传播路径信息,确定对应的传递参数,然后依据传递参数,对音频数据进行传递参数缩短处理,以过滤音频数据中的混响数据,得到处理数据。其中,传递参数可以理解为脉冲反应(Impulse Response,IR),是指声学中用以反映事物混响特征的一种描述手段,通过传递参数能够确定对应的混响数据。
在过滤了音频数据中的混响数据之后,可以通过自适应滤波器(AdaptiveFilter)进行回声消除,其中,自适应滤波器是以输入和输出信号的统计特性的估计为依据,采取特定算法自动地调整滤波器系数,使其达到较佳滤波特性的装置。具体的,可以将参考数据和处理数据作为自适应滤波器的输入数据,结合自适应滤波器的输出数据,确定自适应滤波器的消除参数(或称系数),并依据消除参数,模拟回声数据,之后依据回声数据,对音频数据进行回声消除处理,得到线性输出的回声消除数据和回声数据。其中,自适应滤波器可以采用盲源分离(Blind Source Separation,BSS)思想的AEC算法进行回声消除处理。
在对处理数据进行回声消除处理之后,可以通过维纳滤波器(Wiener Filtering)进行后滤波处理,维纳滤波器的本质是使估计误差(定义为期望输出与滤波器实际输出之差)均方值最小化。具体的,可以将线性的回声数据和回声消除数据输入到维纳滤波器中,以依据自适应滤波器确定的回声数据和回声消除数据,确定对应滤波参数,之后依据滤波参数和回声数据,对回声消除数据进行后滤波处理。
在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
下面以将本申请实施例应用在移动端为例,本申请提供一种回声消除方法,可以通过移动端执行,具体的,如图2所示,回声消除方法包括:
步骤202、获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。其中,音频采集单元还可以称为麦克风,移动端可以通过音频采集单元来采集音频数据。音频输出单元还可以称为扬声器、播放器等,音频采集单元可以为移动端的音频输出单元,也可以为其他设备的音频数据单元,例如音乐播放器、电视机等设备的播放器。在音频输出单元输出音频的场景中,音频数据可以包括用户的音频和音频输出单元输出的音频的回声以及相应的混响数据。本申请实施例可以过滤音频数据中音频输出单元输出的音频的回声以及相应的混响数据。
移动端在获取了音频数据和原始音频数据之后,可以在步骤204中,依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。移动端可以对原始音频数据进行延迟,以将原始音频数据和音频数据进行对齐。
对原始音频数据进行延迟的方式可以采取固定延迟加动态延迟结合的方式进行处理。可选的,作为一个实施例,所述依据所述音频数据,对所述原始音频数据进行延迟处理,得到对应的参考数据,包括:获取目标时段内的原始音频数据和音频数据;按照固定延迟时长对所述目标时段内的原始音频数据进行固定延迟处理;依据所述音频数据,对固定延迟后的原始音频数据进行动态延迟处理,得到对应的参考数据。移动端可以缓存一段时间内的音频数据和原始音频数据之后,对该段时间内的音频数据和原始音频数据进行延迟处理。具体的,移动端获取音频数据和原始音频数据之后,可以对音频数据和原始音频数据进行缓存,并在缓存了预设时长的音频数据和原始音频数据的情况下,对该时段内的原始音频数据进行固定延迟处理,之后依据音频数据和固定延迟后的原始音频数据之间的相关程度信息,确定对应的动态延迟时长,并依据动态延迟时长对固定延迟后的原始音频数据进行延迟数据,得到参考数据。
本申请实施例还可以将目标时段内的音频数据和经过固定延迟后的原始音频数据切分成多组分段数据,并确定每段分段数据对应的动态延迟时长。具体的,在一个可选的实施例中,所述依据所述音频数据,对固定延迟后的原始音频数据进行动态延迟处理,包括:对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据;确定每组分段数据对应的处理时段;在所述处理时段内,对分段数据进行加权分析,确定对应的相关程度信息;依据所述相关程度信息,确定分段数据对应的动态延迟时长;依据所述动态延迟时长,对目标时段内经过固定延迟的原始音频数据进行动态延迟处理,得到参数数据。
将目标时段内的音频数据和经过固定延迟后的原始数据进行切分,得到多组分段数据。移动端可以按帧、按频带进行切分,也可以按照预设的切分时长进行切分,具体可依据需求设置。在确定了分段数据之后,可以为分段数据分配对应的处理时段,并在处理时段内对分段数据进行处理。在一个可选的示例中,可以将上一个时段内的多组分段数据,平均分配到下一个时段内进行计算,以更合理的利用计算资源。在处理时段内可以对分段数据内的音频数据和经过固定延迟后的原始音频数据进行加权分析,以确定对应的相关程度信息,并根据相关程度信息,确定分段数据对应的动态延迟时长。然后依据动态延迟时长对目标时段内与该动态延迟时长对应的经过固定延迟的原始音频数据进行动态延迟处理,得到参数数据,以进行后续处理。其中,在一个可选的示例中,对音频数据和原始音频数据进行加权分析可以先对音频数据和原始音频数据进行傅里叶变换(Fourier Transform),并对傅里叶变换之后的数据按照公式A进行加权分析,以得到分析结果作为相关程度信息,在确定了相关程度信息之后,可以将相关程度信息转换为动态延迟时长,以进行动态延迟处理。
其中,X(t,f),D(t,f)分别为傅里叶变换后的原始音频数据和音频数据。
在对原始音频数据进行固定延迟处理和动态延迟处理,使得参考数据和音频数据对齐之后。移动端可以在步骤206中,确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。移动端可以对音频数据进行分析,确定对应的传播路径,并依据传播路径确定对应的传递参数。确定了传递参数之后,移动端可以依据传递参数确定用户的音频对应的混响数据和音频输出单元的音频对应的混响数据,并过滤掉混响数据,以进行后续的回声消除处理。
移动端可以将音频数据转换为频谱数据,并对频谱数据进行分析,以确定对应的参数。具体的,作为一个可选的实施例,所述确定所述音频数据对应的传递参数,包括:对所述音频数据进行变换,得到频谱数据;依据所述频谱数据,确定对应的传播路径信息;依据所述传播路径信息,确定对应的传递参数。其中,频域(frequency domain)是描述信号在频率方面特性时用到的一种坐标系。在一个示例中,可以采取傅里叶变换方式将音频数据变换到频域上,以得到频谱数据。
具体的,移动端可以将音频数据变换为频谱数据,并获取该频谱数据对应的历史频谱数据,并依据历史频谱数据进行预测,以确定传播路径信息。举例来说,可以获取该频谱数据对应的时段的上一时段的频谱数据,并对其进行分析,以确定传播路径信息。在确定了传播路径信息之后,依据传播路径信息,确定对应的传递参数,以依据传递参数对音频数据进行传递参数缩短处理。其中,音频数据变换的频谱数据可以作为后续的频谱数据的历史频谱数据。
在确定了传递参数之后,可以依据传递参数确定对应的混响数据,以抵消音频数据中的混响数据。具体的,作为一个可选的实施例,所述依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据,包括:对所述参考数据进行变换,得到参考频谱数据;依据所述传递参数和所述参考频谱数据,确定对应的混响数据;依据所述混响数据,对所述音频数据对应的频谱数据进行传递参数缩短处理,得到处理数据。
移动端可以将参考数据转换到频域,以得到参考频谱数据,参考数据变换到频域的方式可以参照音频数据的转换过程。确定参考频谱数据之后,可以依据传递参数、参考频谱数据和频谱数据,确定对应的混响数据。其中,混响数据可以包括用户的音频数据对应的混响数据和音频数据单元输出的数据对应的混响数据。然后依据混响数据,对音频数据对应的频谱数据进行传递参数缩短处理,以过滤音频数据对应的频谱数据中的混响数据,得到处理数据。
在确定了参考数据和处理数据之后,移动端可以在步骤208中,依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。移动端在确定了参考数据和处理数据之后,可以将参考数据和处理数据作为自适应滤波器的输入数据,并结合对应的输出数据,确定自适应滤波器的系数(或称参数),以依据自适应滤波器的系数和参考数据,确定回声数据,并依据回声数据对处理数据进行回声消除,得到回声消除数据。
移动端可以依据处理数据对应的历史处理数据的回声消除数据,确定对应的消除参数(或称消除系数、自适应滤波器的系数等),以进行回声消除。具体的,作为一个可选的实施例,所述依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据,包括:依据所述处理数据对应的消除参数和参考频谱数据,确定对应的回声数据,所述消除参数依据所述处理数据对应的历史处理数据的回声消除数据确定;依据所述回声数据,对所述处理数据进行回声消除,得到回声消除数据。在一个可选的实施例中,在确定了回声消除数据之后,移动端可以依据处理数据的回声消除数据,调整对应的消除参数。移动端可以获取处理数据对应时段之前的时段的处理数据,作为历史处理数据,举例来说,移动端可以获取处理数据对应时段的上一个时段的处理数据,作为历史处理数据。之后获取历史处理数据的消除参数,历史处理数据的消除参数可以根据历史处理数据对应的回声消除数据进行调整,以提升消除参数的准确性。在确定了消除参数之后,依据消除参数和参考频谱数据,模拟对应的回声数据,并依据回声数据,抵消处理数据中的回声,以进行回声消除,得到回声消除数据。在确定了回声消除数据之后,还可以依据回声消除数据,对消除参数进一步进行调整,以更加准确的进行下一次回声消除处理。
在确定了回声消除数据之后,移动端可以在步骤210中,对所述回声消除数据进行后滤波处理,得到对应的输出数据。移动端可以将回声消除数据和回声数据输入到维纳滤波器中,以对回声消除数据进一步进行后滤波处理,消除回声消除数据中残留的回声,得到对应的输出数据。
维纳滤波器可以依据回声消除数据和回声数据,确定对应的参数,以模拟噪声,并进行进一步滤波处理。具体的,作为一个可选的实施例,所述对所述回声消除数据进行后滤波处理,得到对应的输出数据,包括:依据所述回声数据和所述回声消除数据,确定滤波参数;依据所述滤波参数和所述回声数据,对所述回声消除数据进行后滤波处理;对后滤波处理后的数据进行转换,以确定对应的输出音频数据作为输出数据。维纳滤波器根据回声消除数据和回声数据,确定对应的滤波参数,并依据滤波参数和回声数据,模拟噪声数据,并依据该噪声数据抵消回声消除数据中的噪声,以得到后滤波处理之后的数据,并对后滤波处理后的数据进行逆转换,以将频域上的数据转换为输出音频数据,以作为输出数据输出。
在确定了输出数据之后,移动端可以对所述输出数据进行识别,确定对应的识别结果。移动端可以对输出数据进行语音识别,以确定文本信息。并对文本信息进行语义识别,以确定关键信息,并依据关键信息进行对应的处理。在一个可选的实施例中,移动端可以基于自动语音识别技术(Automatic Speech Recognition,ASR)对输出数据进行语音识别,得到文本信息。并基于自然语言处理(Natural Language Processing,NLP)对文本信息进行语义识别。其中,ASR是一种将人的语音转换为文本的技术。NLP是计算机科学、人工智能和语言学的交叉领域,目的是让计算机处理或“理解”自然语言。
移动端可以依据该关键信息对移动端进行唤醒,例如可以对导航的手机进行唤醒。移动端也可以依据该关键信息对目标对象进行控制,例如可以对移动端中的导航应用中的导航目的地、播放应用中的音乐和视频等进行控制。移动端还可以依据该关键信息确定对应的目标对象,并通过移动端对目标对象进行控制。例如可以通过移动端对电视、风扇、空调等设备进行控制。
在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
在上述实施例的基础上,本申请实施例还公开一种回声消除方法,可以通过移动端执行,该方法包括:对原始音频数据进行固定延迟和动态延迟以将原始音频数据和音频数据进行对齐的过程和对对齐后的数据进行消除的过程。
其中,如图3A所示,对原始音频数据进行固定延迟和动态延迟的过程包括:
步骤302、获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
步骤304、获取目标时段内的原始音频数据和音频数据。
步骤306、按照固定延迟时长对目标时段内的原始音频数据进行固定延迟处理。
步骤308、对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据。
步骤310、确定每组分段数据对应的处理时段。
步骤312、在处理时段内,对分段数据进行加权分析,确定对应的相关程度信息。
步骤314、依据相关程度信息,确定分段数据对应的动态延迟时长。
步骤316、依据动态延迟时长,对目标时段内经过固定延迟后的原始音频数据进行动态延迟处理,得到参考数据。
在本申请实施例中,可以对音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据进行缓存,并在音频数据和原始音频数据缓存达到目标时段对应的预设时长的情况下,对目标时段内的音频数据和原始音频数据进行处理。具体的,移动端可以对目标时段内的原始音频数据按照固定延迟时长进行延迟处理,并对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据,并确定分段数据对应的处理时段,其中,处理时段可以为通过对目标时段的下一时段进行平均切分确定。在确定了分段数据对应的处理时段之后,在处理时段内对分段数据进行加权分析,以确定分段数据中的音频数据和原始音频数据之间的相关程度信息。并依据该相关程度信息,确定分段数据对应的动态延迟时长,以依据该动态延迟时长,对目标时段内经过固定延迟后的原始音频数据进行动态延迟处理。
一种现有的将音频数据和原始音频数据进行对齐的方式是通过匹配音频数据和原始音频数据对应的频谱,来将原始音频数据和音频数据对齐,但是采用该方式,通常只能获得帧级别(一般为4ms)的延迟,而本申请实施例的方式相比于通过频谱匹配的方式将原始音频数据和音频数据对齐的方式,能够通过固定延迟结合动态延迟的方式进行数据的对齐,可以更加准确地进行数据的对齐。并且将对原始音频数据和音频数据的加权分析过程可以平均分配到一个时段内进行处理,更加合理的利用了计算资源。
如图3B所示,对对齐后的数据进行消除的过程,包括:
步骤318、对音频数据进行变换,得到频谱数据,对参考数据进行变换,得到参考频谱数据。
步骤320、依据频谱数据,确定对应的传播路径信息。
步骤322、依据传播路径信息,确定对应的传递参数。
步骤324、依据传递参数和参考频谱数据,确定对应的混响数据。
步骤326、依据混响数据,对音频数据对应的频谱数据进行传递参数缩短处理,得到处理数据。
步骤328、依据处理数据对应的消除参数和参考频谱数据,确定对应的回声数据,消除参数依据处理数据对应的历史处理数据的回声消除数据确定。
步骤330、依据回声数据,对处理数据进行回声消除,得到回声消除数据。依据处理数据的回声消除数据,调整对应的消除参数。
步骤332、依据回声数据和回声消除数据,确定滤波参数。
步骤334、依据滤波参数和回声数据,对回声消除数据进行后滤波处理。
步骤336、对后滤波处理后的数据进行转换,以确定对应的输出音频数据作为输出数据。
步骤338、对输出数据进行识别,确定对应的识别结果。
在本申请实施例中,可以对音频数据和参考数据变换到频域上,以得到频谱数据和参考频谱数据。然后依据频谱数据,确定对应的传递参数,并依据传递参数和参考频谱数据,确定的对应混响数据,以抵消音频数据对应的频谱数据中的混响,得到处理数据。之后可以将处理数据和参考频谱数据输入到自适应滤波器中,确定对应的消除参数,以依据消除参数和参考频谱数据,确定回声数据,并依据该回声数据抵消处理数据中的回声,得到回声消除数据。之后将回声消除数据和回声数据输入到维纳滤波器中,以对回声消除数据进行后滤波处理,并对后滤波处理后的数据进行转换,确定对应的输出音频数据作为输出数据。之后可以对输出数据进行识别,以进行对应的处理。
本申请实施例还可以应用在移动端播放音频过程中的唤醒场景,举例来说,本申请实施例可以应用在移动端导航过程中的音频数据的回声消除场景中,以消除音频数据中包含的导航提示音频数据,以更加准确的进行移动端的唤醒。具体的,在上述实施例的基础上,本申请实施例还公开一种语音唤醒方法,可以通过移动端执行,如图4所示,该方法包括:
步骤402、获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
步骤404、依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
步骤406、确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
步骤408、依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
步骤410、对所述回声消除数据进行后滤波处理,得到对应的输出音频数据。
步骤412、依据所述输出音频数据,唤醒对应的目标对象。
本申请实施例的语音唤醒方法的处理过程与上述回声消除方法的处理过程相似或相同,具体可参照上述实施例的方法的流程,此处不再赘述。
在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出音频数据。然后可以对输出音频进行识别,以确定对应的文本信息,并对文本信息进行识别,确定目标对象对应的关键信息。在关键信息中存在唤醒关键词的情况下,唤醒对应的目标对象(如移动端)。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。通过上述方式进行回声消除后得到的输出音频数据,能够更加准确的还原用户的音频,能够提升移动端的唤醒成功率。
本申请实施例可以应用在移动端的语音识别的场景中,以对目标对象进行控制,目标对象可以为与移动端连接的电子设备,具体的,移动端可以对音频数据进行回声消除处理,并对回声消除的音频数据进行对应的识别,以确定对应的指令,该指令可以用于对目标对象进行控制,举例来说,在如图5A所示的示例中,目标对象可以与移动端连接的空调和扫地机器人。用户可以发出语音指令给移动端,以通过移动端对空调和扫地机器人进行控制。具体的,在上述实施例的基础上,本申请实施例还公开一种语音识别方法,可以通过移动端执行,如图5B所示,该方法包括:
步骤502、获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
步骤504、依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
步骤506、确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
步骤508、依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
步骤510、对所述回声消除数据进行后滤波处理,得到对应的输出音频数据。
步骤512、对所述数据音频数据进行语音识别,以确定文本信息。
步骤514、对所述文本信息进行语义识别,以确定关键信息。
步骤516、依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
本申请实施例的语音识别方法的处理过程与上述回声消除方法的处理过程相似或相同,具体可参照上述实施例的方法的流程,此处不再赘述。
在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出音频数据。然后可以对输出音频进行语音识别,以确定对应的文本信息,并对文本信息进行语义识别,确定目标对象对应的关键信息。并依据关键信息,对目标对象进行对应的处理。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
在上述实施例的基础上,本申请实施例还提供一种回声消除方法,可以应用在移动端中,以对移动端播放的音频过程中采集的音频数据进行回声消除处理,具体的,如图6所示,该方法包括:
步骤602、获取移动端的音频输出单元待输出的原始音频数据,并写入缓存。
步骤604、在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据。
步骤606、依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
步骤608、确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
步骤610、依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
步骤612、对所述回声消除数据进行后滤波处理,得到对应的输出数据。
本申请实施例的方法的处理过程与上述方法的处理过程相似或相同,具体可参照上述实施例的方法的流程,此处不再赘述。
在本申请实施例中,能够获取待输出的数据,并写入到缓存中,在移动端的音频输出单元输出数据的过程中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,通过对音频数据进行传递参数缩短处理来过滤混响数据,然后再进行回声消除,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种回声消除装置,参照图6,具体可以包括如下模块:
音频数据获取模块702,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
参考数据获取模块704,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
处理数据获取模块706,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
回声消除数据获取模块708,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
输出数据获取模块710,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
综上,在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,通过对音频数据进行传递参数缩短处理来过滤混响数据,然后再进行回声消除,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
在上述实施例的基础上,本实施例还提供了一种回声消除装置,具体可以包括如下模块:
音频采集模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
触发处理模块,用于获取目标时段内的原始音频数据和音频数据。
固定延迟处理模块,用于按照固定延迟时长对目标时段内的原始音频数据进行固定延迟处理。
切分处理模块,用于对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据。
处理时段确定模块,用于确定每组分段数据对应的处理时段。
相关程度确定模块,用于在处理时段内,对分段数据进行加权分析,确定对应的相关程度信息。
动态延迟时长确定模块,用于依据相关程度信息,确定分段数据对应的动态延迟时长。
动态延迟处理模块,用于依据动态延迟时长,对目标时段内经过固定延迟后的原始音频数据进行动态延迟处理,得到参数数据。
频域转换处理模块,用于对音频数据进行变换,得到频谱数据,对参考数据进行变换,得到参考频谱数据。
传播路径确定模块,用于依据频谱数据,确定对应的传播路径信息。
传递参数确定模块,用于依据传播路径信息,确定对应的传递参数。
混响数据确定模块,用于依据传递参数和参考频谱数据,确定对应的混响数据。
缩短处理模块,用于依据混响数据,对音频数据对应的频谱数据进行传递参数缩短处理,得到处理数据。
回声数据确定模块,用于依据处理数据对应的消除参数和参考频谱数据,确定对应的回声数据,消除参数依据处理数据对应的历史处理数据的回声消除数据确定。
回声消除模块,用于依据回声数据,对处理数据进行回声消除,得到回声消除数据。依据处理数据的回声消除数据,调整对应的消除参数。
滤波参数确定模块,用于依据回声数据和回声消除数据,确定滤波参数。
后滤波处理模块,用于依据滤波参数和回声数据,对回声消除数据进行后滤波处理。
逆转换处理模块,用于对后滤波处理后的数据进行转换,以确定对应的输出音频数据作为输出数据。
识别处理模块,用于对输出数据进行识别,确定对应的识别结果。
在本申请实施例中,可以对音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据进行缓存,并在音频数据和原始音频数据缓存达到目标时段对应的预设时长的情况下,对目标时段内的音频数据和原始音频数据进行处理。具体的,移动端可以对目标时段内的原始音频数据按照固定延迟时长进行延迟处理,并对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据,并确定分段数据对应的处理时段,其中,处理时段可以为通过对目标时段的下一时段进行平均切分确定。在确定了分段数据对应的处理时段之后,在处理时段内对分段数据进行加权分析,以确定分段数据中的音频数据和原始音频数据之间的相关程度信息。并依据该相关程度信息,确定分段数据对应的动态延迟时长,以依据该动态延迟时长,对目标时段内经过固定延迟后的原始音频数据进行动态延迟处理。本申请实施例的方式相比于通过频谱匹配的方式将原始音频数据和音频数据对齐的方式,能够通过固定延迟结合动态延迟的方式进行数据的对齐,可以更加准确地进行数据的对齐。并且将对原始音频数据和音频数据的加权分析过程可以平均分配到一个时段内进行处理,更加合理的利用了计算资源。
在本申请实施例中,可以对音频数据和参考数据变换到频域上,以得到频谱数据和参考频谱数据。然后依据频谱数据,确定对应的传递参数,并依据传递参数和参考频谱数据,确定的对应混响数据,以抵消音频数据对应的频谱数据中的混响,得到处理数据。之后可以将处理数据和参考频谱数据输入到自适应滤波器中,确定对应的消除参数,以依据消除参数和参考频谱数据,确定回声数据,并依据该回声数据抵消处理数据中的回声,得到回声消除数据。之后将回声消除数据和回声数据输入到维纳滤波器中,以对回声消除数据进行后滤波处理,并对后滤波处理后的数据进行转换,确定对应的输出音频数据作为输出数据。之后可以对输出数据进行识别,以进行对应的处理。
在上述实施例的基础上,本实施例还提供了一种语音唤醒装置,参照图7,具体可以包括如下模块:
音频数据确定模块802,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
参考数据确定模块804,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
处理数据确定模块806,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
回声消除数据确定模块808,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
输出数据确定模块810,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据。
目标对象唤醒模块812,用于依据所述输出音频数据,唤醒对应的目标对象。
综上,在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出音频数据。然后可以对输出音频进行识别,以确定对应的文本信息,并对文本信息进行识别,确定目标对象对应的关键信息。在关键信息中存在唤醒关键词的情况下,唤醒对应的目标对象(如移动端)。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。通过上述方式进行回声消除后得到的输出音频数据,能够更加准确的还原用户的音频,能够提升移动端的唤醒成功率。
在上述实施例的基础上,本实施例还提供了一种语音识别装置,参照图8,具体可以包括如下模块:
音频数据获得模块902,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据。
参考数据获得模块904,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
处理数据获得模块906,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
回声消除数据获得模块908,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
输出数据获得模块910,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据。
语音识别模块912,用于对所述数据音频数据进行语音识别,以确定文本信息。
语义识别模块914,用于对所述文本信息进行语义识别,以确定关键信息。
目标对象处理模块916,用于依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
综上,在本申请实施例中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出音频数据。然后可以对输出音频进行语音识别,以确定对应的文本信息,并对文本信息进行语义识别,确定目标对象对应的关键信息。并依据关键信息,对目标对象进行对应的处理。在本申请实施例中,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
在上述实施例的基础上,本实施例还提供了一种回声消除装置,参照图10,具体可以包括如下模块:
原始数据缓存模块1002,用于获取移动端的音频输出单元待输出的原始音频数据,并写入缓存。
音频采集处理模块1004,用于在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据。
数据延迟处理模块1006,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据。
数据缩短处理模块1008,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据。
数据回声消除模块1010,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据。
输出数据生成模块1012,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
在本申请实施例中,能够获取待输出的数据,并写入到缓存中,在移动端的音频输出单元输出数据的过程中,能够根据音频采集单元采集的音频数据,对音频输出单元输出的数据对应的原始音频数据进行延迟处理,以确定原始音频数据对应的参考数据;并确定音频数据对应的传递参数,然后依据该传递参数对音频数据进行传递参数缩短处理,过滤音频数据中的混响数据,得到处理数据。在确定了参考数据和处理数据之后,可以依据参考数据对处理数据进行回声消除,以消除处理数据中的回声数据,确定回声消除数据。然后对回声消除数据进行后滤波处理,过滤残留的噪声,得到对应的输出数据。在本申请实施例中,通过对音频数据进行传递参数缩短处理来过滤混响数据,然后再进行回声消除,能够将过滤混响数据和回声消除的过程分隔开,降低了混响数据对回声消除过程的影响程度,能够降低回声消除过程的计算复杂度。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括服务器、终端设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端等电子设备。图11示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100。
对于一个实施例,图11示出了示例性装置1100,该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110,以及被耦合到控制模块1104的网络接口1112。
处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1100能够作为本申请实施例中所述服务端、终端等设备。
在一些实施例中,装置1100可包括具有指令1114的一个或多个计算机可读介质(例如,存储器1106或NVM/存储设备1108)以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。
对于一个实施例,控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
控制模块1104可包括存储器控制器模块,以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例,存储器1106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1104可包括一个或多个输入/输出控制器,以向NVM/存储设备1108及(一个或多个)输入/输出设备1110提供接口。
例如,NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1108可包括作为装置1100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110进行访问。
(一个或多个)输入/输出设备1110可为装置1100提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100提供接口以通过一个或多个网络通信,装置1100可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1100可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
本申请实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
本申请实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种回声消除方法、一种语音唤醒方法、一种语音识别方法、一种回声消除装置、一种语音唤醒装置、一种语音识别装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (18)
1.一种回声消除方法,其特征在于,所述的方法包括:
获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
对所述回声消除数据进行后滤波处理,得到对应的输出数据。
2.根据权利要求1所述的方法,其特征在于,所述依据所述音频数据,对所述原始音频数据进行延迟处理,得到对应的参考数据,包括:
获取目标时段内的原始音频数据和音频数据;
按照固定延迟时长对所述目标时段内的原始音频数据进行固定延迟处理;
依据所述音频数据,对固定延迟后的原始音频数据进行动态延迟处理,得到对应的参考数据。
3.根据权利要求2所述的方法,其特征在于,所述依据所述音频数据,对固定延迟后的原始音频数据进行动态延迟处理,包括:
对目标时段内的音频数据和经过固定延迟后的原始音频数据进行切分,得到分段数据;
确定每组分段数据对应的处理时段;
在所述处理时段内,对分段数据进行加权分析,确定对应的相关程度信息;
依据所述相关程度信息,确定分段数据对应的动态延迟时长;
依据所述动态延迟时长,对目标时段内经过固定延迟的原始音频数据进行动态延迟处理,得到参数数据。
4.根据权利要求1所述的方法,其特征在于,所述确定所述音频数据对应的传递参数,包括:
对所述音频数据进行变换,得到频谱数据;
依据所述频谱数据,确定对应的传播路径信息;
依据所述传播路径信息,确定对应的传递参数。
5.根据权利要求4所述的方法,其特征在于,所述依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据,包括:
对所述参考数据进行变换,得到参考频谱数据;
依据所述传递参数和所述参考频谱数据,确定对应的混响数据;
依据所述混响数据,对所述音频数据对应的频谱数据进行传递参数缩短处理,得到处理数据。
6.根据权利要求5所述的方法,其特征在于,所述依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据,包括:
依据所述处理数据对应的消除参数和参考频谱数据,确定对应的回声数据,所述消除参数依据所述处理数据对应的历史处理数据的回声消除数据确定;
依据所述回声数据,对所述处理数据进行回声消除,得到回声消除数据。
7.根据权利要求6所述的方法,其特征在于,还包括:
依据处理数据的回声消除数据,调整对应的消除参数。
8.根据权利要求6所述的方法,其特征在于,所述对所述回声消除数据进行后滤波处理,得到对应的输出数据,包括:
依据所述回声数据和所述回声消除数据,确定滤波参数;
依据所述滤波参数和所述回声数据,对所述回声消除数据进行后滤波处理;
对后滤波处理后的数据进行转换,以确定对应的输出音频数据作为输出数据。
9.根据权利要求1所述的方法,其特征在于,还包括:
对所述输出数据进行识别,确定对应的识别结果。
10.一种语音唤醒方法,其特征在于,包括:
获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;
依据所述输出音频数据,唤醒对应的目标对象。
11.一种语音识别方法,其特征在于,包括:
获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;
对所述数据音频数据进行语音识别,以确定文本信息;
对所述文本信息进行语义识别,以确定关键信息;
依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
12.一种回声消除方法,其特征在于,应用于移动端,所述的方法包括:
获取移动端的音频输出单元待输出的原始音频数据,并写入缓存;
在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据;
依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
对所述回声消除数据进行后滤波处理,得到对应的输出数据。
13.一种回声消除装置,其特征在于,包括:
音频数据获取模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
参考数据获取模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
处理数据获取模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
回声消除数据获取模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
输出数据获取模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
14.一种语音唤醒装置,其特征在于,包括:
音频数据确定模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
参考数据确定模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
处理数据确定模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
回声消除数据确定模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
输出数据确定模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;
目标对象唤醒模块,用于依据所述输出音频数据,唤醒对应的目标对象。
15.一种语音识别装置,其特征在于,包括:
音频数据获得模块,用于获取音频采集单元采集的音频数据和音频输出单元输出的数据对应的原始音频数据;
参考数据获得模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
处理数据获得模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
回声消除数据获得模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
输出数据获得模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出音频数据;
语音识别模块,用于对所述数据音频数据进行语音识别,以确定文本信息;
语义识别模块,用于对所述文本信息进行语义识别,以确定关键信息;
目标对象处理模块,用于依据所述关键信息,确定对应的目标对象,并对目标对象进行对应的处理。
16.一种回声消除装置,其特征在于,包括:
原始数据缓存模块,用于获取移动端的音频输出单元待输出的原始音频数据,并写入缓存;
音频采集处理模块,用于在移动端的音频输出单元输出数据的过程中,获取移动端的音频采集单元采集的音频数据和音频数据单元的原始音频数据;
数据延迟处理模块,用于依据所述音频数据,对所述原始音频数据进行延迟处理,确定对应的参考数据;
数据缩短处理模块,用于确定所述音频数据对应的传递参数,并依据所述传递参数对所述音频数据进行传递参数缩短处理,得到处理数据;
数据回声消除模块,用于依据所述参考数据对所述处理数据进行回声消除,得到消除后的回声消除数据;
输出数据生成模块,用于对所述回声消除数据进行后滤波处理,得到对应的输出数据。
17.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-12中一个或多个所述的方法。
18.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-12中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873609.5A CN114203136A (zh) | 2020-08-26 | 2020-08-26 | 回声消除方法、语音识别方法、语音唤醒方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873609.5A CN114203136A (zh) | 2020-08-26 | 2020-08-26 | 回声消除方法、语音识别方法、语音唤醒方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114203136A true CN114203136A (zh) | 2022-03-18 |
Family
ID=80644150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873609.5A Pending CN114203136A (zh) | 2020-08-26 | 2020-08-26 | 回声消除方法、语音识别方法、语音唤醒方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203136A (zh) |
-
2020
- 2020-08-26 CN CN202010873609.5A patent/CN114203136A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
US11323807B2 (en) | Echo cancellation method and apparatus based on time delay estimation | |
US20200227071A1 (en) | Analysing speech signals | |
WO2020125376A1 (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
CN109285554B (zh) | 一种回声消除方法、服务器、终端及系统 | |
JP2021503633A (ja) | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 | |
US11069366B2 (en) | Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium | |
US9390723B1 (en) | Efficient dereverberation in networked audio systems | |
CN110970051A (zh) | 语音数据采集方法、终端及可读存储介质 | |
US20240177726A1 (en) | Speech enhancement | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN104978966A (zh) | 音频流中的丢帧补偿实现方法和装置 | |
CN111402910B (zh) | 一种消除回声的方法和设备 | |
CN114333796A (zh) | 音视频的语音增强方法、装置、设备、介质及智能电视 | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN106847299B (zh) | 延时的估计方法及装置 | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN114203136A (zh) | 回声消除方法、语音识别方法、语音唤醒方法和装置 | |
CN117643075A (zh) | 用于言语增强的数据扩充 | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
US10854217B1 (en) | Wind noise filtering device | |
CN111048096B (zh) | 一种语音信号处理方法、装置及终端 | |
CN113113038A (zh) | 回声消除方法、装置及电子设备 | |
CN113299308A (zh) | 一种语音增强方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |