CN114141224A - 信号处理方法和装置、电子设备、计算机可读介质 - Google Patents
信号处理方法和装置、电子设备、计算机可读介质 Download PDFInfo
- Publication number
- CN114141224A CN114141224A CN202111440574.7A CN202111440574A CN114141224A CN 114141224 A CN114141224 A CN 114141224A CN 202111440574 A CN202111440574 A CN 202111440574A CN 114141224 A CN114141224 A CN 114141224A
- Authority
- CN
- China
- Prior art keywords
- signal
- sound
- reference signal
- echo signal
- echo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 238000010408 sweeping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
- G10K11/17821—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
- G10K11/17823—Reference signals, e.g. ambient acoustic environment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1787—General system configurations
- G10K11/17879—General system configurations using both a reference signal and an error signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提供了一种信号处理方法和装置,涉及语音处理、深度学习等技术领域。具体实现方案为:获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;分别对参考信号和回波信号进行信号预处理;将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。该实施方式提高了信号处理的准确率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及语音处理、深度学习等技术领域,尤其涉及一种信号处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
时间延迟估计算法(TDE,Time Delay Estimation)是用来估计两个时变信号的在时间上延迟,在通讯上主要用于在线性回声消除前端估计麦克风采集信号和喇叭回放参考信号的时间差,指导参考信号和麦克风采集的回声信号进行对齐。
时间延迟估计算法主要基于信号的相关性,对信号幅度或者能量,或者对信号相位的线性度有比较高的要求。实际的通讯产品,特别是个人PC,手持设备,大多声学线性度都较差,不论是回声的幅度还是相位,相比参考信号,失真都比较严重,它们的相关性都不够明显,往往无法直接获得准确的时延或者需要累计很长时间才能得到相对准确的时延估计。
发明内容
提供了一种信号处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
根据第一方面,提供了一种信号处理方法,该方法包括:获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;分别对参考信号和回波信号进行信号预处理;将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。
根据第二方面,又提供了一种信号处理装置,该装置包括:获取单元,被配置成获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;接收单元,被配置成从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;处理单元,被配置成分别对参考信号和回波信号进行信号预处理;估计单元,被配置成将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
本公开的实施例提供的信号处理方法和装置,首先,获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;其次,从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;再次,分别对参考信号和回波信号进行信号预处理;最后,将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。由此,在对向声音输出设备输出的参考信号和声音输入设备的回波信号进行信号预处理之后,将处理后的参考信号和回波信号输入时延估计模型,得到参考信号和回波信号之间的时间差值,通过时延估计模型自动的计算参考信号和回波信号之间的信号时延,不仅可以对线性度好的信号的进行时间延迟估计,还可以对学习线性度较差的信号进行时间延迟估计,提高了信号处理的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开信号处理方法的一个实施例的流程图;
图2是本公开中时延估计模型的一种结构示意图;
图3是本公开中时延估计模型的应用场景的一种示意图;
图4是根据本公开信号处理方法的另一个实施例的流程图;
图5是根据本公开信号处理装置的一个实施例的结构示意图;
图6是用来实现本公开实施例的信号处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了根据本公开信号处理方法的一个实施例的流程100,上述信号处理方法包括以下步骤:
步骤101,获取待测声音的参考信号。
其中,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音。
本实施例中,参考信号是输出给声音输出设备信号,控制设备(如CPU)将参考信号输出给声音输出设备,声音输出设备播放该参考信号,得到待测声音。处理方法运行于其上的执行主体可以通过多种方式得到待测声音的参考信号,如与音频产生器通信,得到音频产生器发送的参考信号;或者直接生成参考信号,并向声音输出设备发送参考信号。
本实施例中,声音输出设备是输出声音的设备,例如,声音输出设备为扬声器。
步骤102,从声音输入设备接收待测声音的回波信号。
其中,回波信号为声音输入设备回收待测声音的信号。
本实施例中,声音输入设备是采集待测声音的设备,例如,声音输入设备可以麦克风。
本实施例中,回波信号根据传输途径的差别可以区分为直接回声信号和间接回声信号。
直接回声信号:声音输出设备将音频信号播放出来后,声音输入设备直接将音频信号采集后得到的回声信号。直接回声信号不受环境的影响,与声音输出设备到声音输入设备的距离及位置有很大的关系,因此直接回声信号是一种线性信号。
间接回声信号:声音输出设备将音频信号播放出来后,音频信号经过复杂多变的墙面反射后由声音输入设备将其拾取。间接回声信号的大小与房间环境、物品摆放以及墙面吸引系数等等因素有关,因此间接回声是一种非线性信号。
传统的时间延迟估计算法的准确度高度依赖于参考信号与回波信号的线性程度,因此,传统的时间延迟估计算法对直接回声信号有较好的时延估计,但是对于间接回声信号,得到的参考信号与回波信号的时间延迟较不准确,本实施例提供的信号处理方法采用时延估计模型,不再依赖参考信号与回波信号的线性程度,可以对直接回声信号和间接回声信号均进行时延估计,提高了信号处理的准确率。
步骤103,分别对参考信号和回波信号进行信号预处理。
本实施例中,对参考信号和回波信号进行信号预处理是指将参考信号和回波信号进行时域或频域的处理,从而将参考信号和回波信号转换为适合时延估计模型输入的信号。
本实施例中,信号预处理可以包括过滤、分帧、加窗等操作,这些操作可以消除因为发音器本身和由于采集声音信号的设备所带来的混叠、高次谐波失真、高频等因素,对参考信号的质量的影响。
在本实施例的一些可选实现方式中,上述分别对参考信号和回波信号进行信号预处理,包括:对参考信号和回波信号进行子带分解以及拼接;将拼接后的信号求幅度谱,得到处理后的参考信号和回波信号。具体地,如图2所示,参考信号和回波信号均进行信号预处理,其中信号预处理包括:对参考信号和回波信号进行子带分解后再拼接,然后对拼接后的信号求幅度谱。
本可选实现方式中,参考信号与回波信号是一种宽带信号,通过对宽带信号进行分解和拼接,可以对参考信号和回波信号进行有效的分解与重构,保证了参考信号和回波信号的有效性。
本可选实现方式中,对参考信号和回波信号进行子带分解和拼接,为数字信号处理特别是宽带信号接收与处理提供了一种可选方式,便于时延估计模型对参考信号和回波信号进行时间差值估计。
在本实施例的一些可选实现方式中,上述分别对参考信号和回波信号进行信号预处理,包括:对参考信号和回波信号进行频域变换,得到处理后的参考信号和回波信号。
本可选实现方式中,可以采用短时傅里叶变换(Short Time Fourier Transform,STFT)对参考信号和回波信号进行频域变换,短时傅里叶变换是一个用于语音信号处理的通用工具,它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度,实际上,计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换。
本可选实现方式中,对参考信号和回波信号进行频域,为数字信号处理提供了另一种可选方式,便于时延估计模型对参考信号和回波信号进行时间差值估计。
步骤104,将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值。
本实施例中,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。时延估计模型的模型是基于参考信号的特征和回波信号的特征长时间上的相关性训练得出,时延估计模型可以用更多的参数在更多粒度上学习用来估计时间延迟的特征以及特征之间的关系,从而快速、准确的基于相关性得到参考信号和回波信号的时间差值。
本实施例中,时延估计模型可以包括:依次连接的卷积神经网络、时间卷积序列网络以及全连接层;卷积神经网络用于提取参考信号和回波信号的特征,参考信号的特征可以表征参考信号的特点,例如幅度、能量、相位等;相关性采集模块用于确定参考信号的特征和回波信号的特征的长时间的相关性;时延提取模块用于基于相关性,获得参考信号和回波信号的时间差值;如图2所示,时延估计模型包括:卷积神经网络(ConvolutionalNeural Networks,简称CNN)、时间卷积序列网络(Temporal convolutional network,简称TCN)、全连接层(fully connected layers,简称FC),卷积神经网络采用5层子网,每层子网是由卷积层通过Relu激活函数层激活并进行批归一(Conv2D+Relu+BN)得到,卷积神经网络用于实现参考信号的特征和回波信号的特征的提取和深度融合后进入时间卷积序列网络TCN学习参考信号和回波信号在长时间上的相关性,最后经过全连接层FC提取参考信号和回波信号的时间延迟(时间差值)tx。
本实施例中,参考信号和回波信号的时间差值是指产生参考信号之后至得到回波信号之间的时间延迟,时间差值可以为回声消除电路消除回波信号提供有效的指导。
在本实施例的一些可选实现方式中,时延估计模型通过如下步骤训练得到:获取训练样本,其中,训练样本包括样本信号和样本信号对应的回波信号;执行以下训练步骤:将样本信号和样本信号对应的回波信号输入至第一卷积神经网络,得到样本信号的特征向量和样本信号对应的回波信号的特征向量;将样本信号的特征向量和样本信号对应的回波信号的特征向量输入至第二卷积神经网络,得到样本信号和样本信号对应的回波信号在预设时间段的相关性信息;将样本信号和样本信号对应的回波信号在预设时间段的相关性信息输入全连接层,得到样本信号和样本信号对应的回波信号之间的时间差值;若第一卷积神经网络、第二卷积神经网络和全连接层满足训练完成条件,将第一卷积神经网络、第二卷积神经网络和全连接层作为时延估计模型。
本可选实现方式中,训练样本中的样本信号对应的回波信号还标注有与样本信号的时间差值,通过该标注的时间差值可以有效训练时延估计模型。
本可选实现方式中,上述训练完成条件包括以下至少一项:第一卷积神经网络、第二卷积神经网络和全连接层三者生成的时延估计网络的训练迭代次数达到预定迭代阈值,时延估计网络的损失值小于预定损失值阈值。其中,预定迭代阈值是基于时延估计网络的损失值得到的经验值。例如,时延估计网络的预定迭代阈值是5千次。时延估计网络的预定损失值阈值为0.05。
可选地,响应于时延估计网络不满足训练完成条件,则调整时延估计网络中的相关参数使得时延估计网络的损失值收敛,基于调整后的时延估计网络,继续执行上述训练步骤。
本实施例中,第二卷积神经网络可以为时间卷积网络,而第二卷积神经网络中的预设时间根据第二卷积神经网络的结构确定。
可选地,第二卷积神经网络还可以采用长短时记忆网络(Long Short TermMemory Network,LSTM)代替,其中,长短时记忆网络是一种改进之后的循环神经网络,可以解决循环神经网络无法处理长距离的依赖的问题。
可选地,本实施例中,第二卷积神经网络还可以采用门控循环单元(GatedRecurrent Unit,简称GRU),门控循环单元是长短时记忆网络的一个变体,门控循环单元在保持了长短时记忆网络的效果同时又使结构更加简单。
本实施例提供的时延估计模型训练方法,通过为第一卷积神经网络、第二卷积神经网络和全连接层设置训练完成条件,可以在第一卷积神经网络、第二卷积神经网络和全连接层满足训练完成条件之后,得到有效地、可靠地的时延估计模型。
如图3所示,时延估计模型是通讯中音频算法工作的主要模块,实践中,时延估计模型可以接收麦克风输入信号(语音信号和回波信号)和向喇叭输出的参考信号(参考信号可以是对语音信号进行处理之后的信号),对输入信号中的回波信号和回波对应的参考信号进行时间延迟估计,并用估计的时延调整参考信号,得到对齐后的参考信号,使回波信号和参考信号的对齐,进而输入信号和对齐后的参考信号共同进入AEC(Acoustic EchoCancellation,回声消除)模块进行回声消除,而本实施例的回声消除主要应用于免提电话、电话会议系统中麦克风和喇叭的回声消除等场景。
本公开的实施例提供的信号处理方法,首先,获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;其次,从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;再次,分别对参考信号和回波信号进行信号预处理;最后,将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。由此,在对向声音输出设备输出的参考信号和声音输入设备的回波信号进行信号预处理之后,将处理后的参考信号和回波信号输入时延估计模型,得到参考信号和回波信号之间的时间差值,通过时延估计模型自动的计算参考信号和回波信号之间的信号时延,不仅可以对线性度好的信号的进行时间延迟估计,还可以对学习线性度较差的信号进行时间延迟估计,提高了信号处理的准确率。
基于深度学习的计算量较大,传统图4示出了根据本公开信号处理方法的另一个实施例的流程400,上述信号处理方法包括以下步骤:
步骤401,获取多个等幅扫频信号,之后,执行步骤402。
本实施例中,扫频信号是频率在一定范围内周期变化的等幅信号。扫频信号是为了测试声音输出设备和声音输入设备而设计的信号,它主要用来测试声音输出设备、声音输入设备、或者包括声音输出设备和声音输入设备的整机的频率特性。
步骤402,将至少一个扫频信号输入声音输出设备,并获取扫频信号在声音输入设备的输出信号,之后,执行步骤403。
本实施例中,将扫频信号输入声音输出设备,声音输出设备对扫频信号进行播放,声音输入设备对声音输出设备的播放信号进行采集,采集得到的信号即为输出信号。
步骤403,基于扫频信号以及扫频信号对应的输出信号,检测声音输出设备和声音输入设备是否为非线性设备;若检测到声音输出设备和声音输入设备为非线性设备,执行步骤404;若检测到声音输出设备和声音输入设备为线性设备,执行步骤409。
本实施例中,线性设备和非线性设备是相对的概念,将测试信号输入测试设备,当测试设备的输出信号相对于输入信号偏差较大,即失真度较大,则确定测试设备为非线性设备;当测试设备的输出信号相对于输入信号偏差较小,即失真度较小,则确定测试设备不是非线性设备,为线性设备。
本实施例中,基于所有扫频信号以及各个扫频信号的输出信号,检测声音输出设备和声音输入设备是否为非线性设备包括:基于所有扫频信号以及各个扫频信号对应的输出信号,确定各个扫频信号的失真度;当确定所有扫频信号中有设定比例的扫频信号的失真度均大于预设的第一失真阈值,确定声音输出设备和该声音输出设备对应的声音输入设备为非线性设备;当所有扫频信号中有设定比例的扫频信号的失真度均小于预设的失真阈值时,确定声音输出设备和该声音输出设备对应的声音输入设备为线性设备;
可选地,上述基于所有扫频信号以及各个扫频信号的输出信号,检测声音输出设备和声音输入设备是否为非线性设备包括:基于扫频信号以及扫频信号对应的输出信号,确定扫频信号的失真度;对至少一个扫频信号中所有扫频信号的失真度进行升序排序,当该升序排序中前设定位扫频信号的失真度均小于预设的失真阈值时,确定声音输出设备和声音输入设备为线性设备;当该升序排序中前设定位扫频信号的失真度均大于预设的失真阈值,确定声音输出设备和声音输入设备为非线性设备。
上述确定扫频信号的失真度包括:针对至少一个扫频信号中的各个扫频信号,声音输出设备播放该扫频信号,声音输入设备采集该扫频信号对应的输出信号,基于该输出信号分析该扫频信号的能量分布,计算该输出信号的谐波失真度;基于该输出信号的谐波失真度,确定该扫频信号的失真度。
步骤404,获取待测声音的参考信号,之后,执行步骤405。
其中,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音。
步骤405,从声音输入设备接收待测声音的回波信号,之后,执行步骤406。
其中,回波信号为声音输入设备回收待测声音的信号。
步骤406,分别对参考信号和回波信号进行信号预处理,之后,执行步骤407。
本实施例中,对参考信号和回波信号进行信号预处理是指将参考信号和回波信号进行时域或频域的处理,从而将参考信号和回波信号转换为适合时延估计模型适合处理的信号。
步骤407,将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,之后,执行步骤408。
应当理解,上述步骤404-步骤407的操作和特征,分别与步骤101-步骤104的操作和特征相对应,因此,上述步骤101-步骤104中对于操作和特征的描述,同样适用于步骤404-步骤407,在此不再赘述。
步骤408,结束。
步骤409,采用时间延迟估计算法计算参考信号和回波信号之间的时间差值,之后,执行步骤408。
本实施例中,时间延迟估计算法是指基于信号的相关性确定参考信号和回波信号之间的时间差值,具体地,时间延迟估计算法包括:TDE算法和广义互相关(GCC,Generalized Cross Correlation)算法。其中,TDE算法采用输入信号和参考信号在能量幅值上的相关性估计时延,每一帧占用1个比特,32帧组成一个无符号整形,这样可以借助计算机异或的快速计算时间差值。广义互相关算法使用加权函数处理后,可以获得相对白化的信号,可以在零延时处获得冲激峰,进而获得信号的延迟。
本实施例提供的信号处理方法,通过设置多个等幅度扫频信号对声音输出设备和声音输入设备进行非线性和线性检测,由此可以确定声音输出设备和声音输入设备是否可以对待测声音进行线性变换,当声音输出设备和声音输入设备可以对待测声音进行线性变换时,采用时间延迟估计算法计算参考信号和回波信号的时间差值,可以借助信号幅度或者相位互相关,简单方便的得到参考信号和回波信号的时间延迟;当声音输出设备和声音输入设备无法对待测声音进行线性变换时,采用时延估计模型确定参考信号和回波信号之间的时间延迟,可以解决幅度或相位失真导致时间延迟无法估计的问题,从而快速准确的估计出低相关性信号的时间延迟。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了信号处理装置的一个实施例,该装置实施例与图1所示的方法实施例相对应。
如图5所示,本实施例提供的信号处理装置500包括:获取单元501、接收单元502、处理单元503和估计单元504。其中,获取单元501,可以被配置成获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音。接收单元502,可以被配置成从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号。上述处理单元503,可以被配置成分别对参考信号和回波信号进行信号预处理;上述估计单元504,可以被配置成将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。
在本实施例中,信号处理装置500中:获取单元501、接收单元502、处理单元503和估计单元504的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述装置500还包括:扫频单元(图中未示出),输入单元(图中未示出),检测单元(图中未示出)。其中,上述扫频单元,可以被配置成获取多个等幅扫频信号。上述输入单元,可以被配置成将至少一个扫频信号输入声音输出设备,并获取扫频信号在声音输入设备的输出信号。上述检测单元,可以被配置成基于扫频信号以及扫频信号对应的输出信号,检测声音输出设备和声音输入设备是否为非线性设备;响应于确定声音输出设备和声音输入设备为非线性设备,控制获取单元501工作。
在本实施例的一些可选的实现方式中,上述装置500还包括:时延单元(图中未示出)。上述时延单元,可以被配置成响应于确定声音输出设备和声音输入设备不是非线性设备,采用时间延迟估计算法计算参考信号和回波信号之间的时间差值。
在本实施例的一些可选的实现方式中,时延估计模型通过如下步骤训练得到:获取训练样本,其中,训练样本包括样本信号和样本信号对应的回波信号;执行以下训练步骤:将样本信号和样本信号对应的回波信号输入至第一卷积神经网络,得到样本信号的特征向量和样本信号对应的回波信号的特征向量;将样本信号的特征向量和样本信号对应的回波信号的特征向量输入至第二卷积神经网络,得到样本信号和样本信号对应的回波信号在预设时间段的相关性信息;将样本信号和样本信号对应的回波信号在预设时间段的相关性信息输入全连接层,得到样本信号和样本信号对应的回波信号之间的时间差值;若第一卷积神经网络、第二卷积神经网络和全连接层满足训练完成条件,将第一卷积神经网络、第二卷积神经网络和全连接层作为时延估计模型。
在本实施例的一些可选的实现方式中,上述处理单元503包括:拼接模块(图中未示出),幅度谱模块(图中未示出)。其中,上述拼接模块,可以被配置成对参考信号和回波信号进行子带分解以及拼接。上述幅度谱模块,可以被配置成将拼接后的信号求幅度谱,得到处理后的参考信号和回波信号。
在本实施例的一些可选的实现方式中,上述处理单元503,可以进一步被配置成对参考信号和回波信号进行频域变换,得到处理后的参考信号和回波信号。
本公开的实施例提供的信号处理装置,首先,获取单元501获取待测声音的参考信号,参考信号为向声音输出设备输出的信号,声音输出设备得到参考信号之后,输出待测声音;其次,接收单元502从声音输入设备接收待测声音的回波信号,回波信号为声音输入设备回收待测声音的信号;再次,处理单元503分别对参考信号和回波信号进行信号预处理;最后,估计单元504将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到时延估计模型输出的参考信号和回波信号之间的时间差值,时延估计模型用于表征参考信号、回波信号以及时间差值之间的对应关系。由此,在对向声音输出设备输出的参考信号和声音输入设备的回波信号进行信号预处理之后,将处理后的参考信号和回波信号输入时延估计模型,得到参考信号和回波信号之间的时间差值,通过时延估计模型自动的计算参考信号和回波信号之间的信号时延,不仅可以对线性度好的信号的进行时间延迟估计,还可以对学习线性度较差的信号进行时间延迟估计,提高了信号处理的准确率。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如信号处理方法。例如,在一些实施例中,信号处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的信号处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信号处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程信号处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种信号处理方法,所述方法包括:
获取待测声音的参考信号,所述参考信号为向声音输出设备输出的信号,所述声音输出设备得到所述参考信号之后,输出所述待测声音;
从声音输入设备接收所述待测声音的回波信号,所述回波信号为所述声音输入设备回收所述待测声音的信号;
分别对所述参考信号和所述回波信号进行信号预处理;
将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到所述时延估计模型输出的所述参考信号和所述回波信号之间的时间差值,所述时延估计模型用于表征所述参考信号、所述回波信号以及所述时间差值之间的对应关系。
2.根据权利要求1所述的方法,所述获取待测声音的参考信号之前,所述方法还包括:
获取多个等幅扫频信号;
将至少一个扫频信号输入所述声音输出设备,并获取所述扫频信号在所述声音输入设备的输出信号;
基于所述扫频信号以及所述扫频信号对应的输出信号,检测所述声音输出设备和所述声音输入设备是否为非线性设备;
响应于确定所述声音输出设备和所述声音输入设备为非线性设备,获取待测声音的参考信号。
3.根据权利要求2所述的方法,所述方法还包括:
响应于确定所述声音输出设备和所述声音输入设备不是非线性设备,采用时间延迟估计算法计算所述参考信号和所述回波信号之间的时间差值。
4.根据权利要求1所述的方法,其中,所述时延估计模型通过如下步骤训练得到:
获取训练样本,其中,所述训练样本包括样本信号和所述样本信号对应的回波信号;
执行以下训练步骤:将所述样本信号和所述样本信号对应的回波信号输入至第一卷积神经网络,得到所述样本信号的特征向量和所述样本信号对应的回波信号的特征向量;将所述样本信号的特征向量和所述样本信号对应的回波信号的特征向量输入至第二卷积神经网络,得到所述样本信号和所述样本信号对应的回波信号在预设时间段的相关性信息;将所述样本信号和所述样本信号对应的回波信号在预设时间段的相关性信息输入全连接层,得到所述样本信号和所述样本信号对应的回波信号之间的时间差值;若所述第一卷积神经网络、所述第二卷积神经网络和所述全连接层满足训练完成条件,将所述第一卷积神经网络、所述第二卷积神经网络和所述全连接层作为所述时延估计模型。
5.根据权利要求1-4之一所述的方法,其中,所述分别对所述参考信号和所述回波信号进行信号预处理,包括:
对所述参考信号和所述回波信号进行子带分解以及拼接;
将拼接后的信号求幅度谱,得到处理后的参考信号和回波信号。
6.根据权利要求1-4之一所述的方法,其中,所述分别对所述参考信号和所述回波信号进行信号预处理,包括:
对所述参考信号和所述回波信号进行频域变换,得到处理后的参考信号和回波信号。
7.一种信号处理装置,所述装置包括:
获取单元,被配置成获取待测声音的参考信号,所述参考信号为向声音输出设备输出的信号,所述声音输出设备得到所述参考信号之后,输出所述待测声音;
接收单元,被配置成从声音输入设备接收所述待测声音的回波信号,所述回波信号为所述声音输入设备回收所述待测声音的信号;
处理单元,被配置成分别对所述参考信号和所述回波信号进行信号预处理;
估计单元,被配置成将处理后的参考信号和回波信号输入预先训练的时延估计模型,得到所述时延估计模型输出的所述参考信号和所述回波信号之间的时间差值,所述时延估计模型用于表征所述参考信号、所述回波信号以及所述时间差值之间的对应关系。
8.根据权利要求7所述的装置,所述装置还包括:
扫频单元,被配置成获取多个等幅扫频信号;
输入单元,被配置成将至少一个扫频信号输入所述声音输出设备,并获取所述扫频信号在所述声音输入设备的输出信号;
检测单元,被配置成基于所述扫频信号以及所述扫频信号对应的输出信号,检测所述声音输出设备和所述声音输入设备是否为非线性设备;响应于确定所述声音输出设备和所述声音输入设备为非线性设备,控制所述获取单元工作。
9.根据权利要求8所述的装置,所述装置还包括:
时延单元,被配置成响应于确定所述声音输出设备和所述声音输入设备不是非线性设备,采用时间延迟估计算法计算所述参考信号和所述回波信号之间的时间差值。
10.根据权利要求7所述的装置,其中,所述时延估计模型通过如下步骤训练得到:
获取训练样本,其中,所述训练样本包括样本信号和所述样本信号对应的回波信号;
执行以下训练步骤:将所述样本信号和所述样本信号对应的回波信号输入至第一卷积神经网络,得到所述样本信号的特征向量和所述样本信号对应的回波信号的特征向量;将所述样本信号的特征向量和所述样本信号对应的回波信号的特征向量输入至第二卷积神经网络,得到所述样本信号和所述样本信号对应的回波信号在预设时间段的相关性信息;将所述样本信号和所述样本信号对应的回波信号在预设时间段的相关性信息输入全连接层,得到所述样本信号和所述样本信号对应的回波信号之间的时间差值;若所述第一卷积神经网络、所述第二卷积神经网络和所述全连接层满足训练完成条件,将所述第一卷积神经网络、所述第二卷积神经网络和所述全连接层作为所述时延估计模型。
11.根据权利要求7-10之一所述的装置,其中,所述处理单元包括:
拼接模块,被配置成对所述参考信号和所述回波信号进行子带分解以及拼接;
幅度谱模块,被配置成将拼接后的信号求幅度谱,得到处理后的参考信号和回波信号。
12.根据权利要求7-10之一所述的装置,其中,所述处理单元,进一步被配置成对所述参考信号和所述回波信号进行频域变换,得到处理后的参考信号和回波信号。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111440574.7A CN114141224B (zh) | 2021-11-30 | 2021-11-30 | 信号处理方法和装置、电子设备、计算机可读介质 |
US17/872,909 US20220358951A1 (en) | 2021-11-30 | 2022-07-25 | Method and apparatus for processing signal, computer readable medium |
EP22187478.7A EP4064282A3 (en) | 2021-11-30 | 2022-07-28 | Time delay estimation for echo cancellation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111440574.7A CN114141224B (zh) | 2021-11-30 | 2021-11-30 | 信号处理方法和装置、电子设备、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114141224A true CN114141224A (zh) | 2022-03-04 |
CN114141224B CN114141224B (zh) | 2023-06-09 |
Family
ID=80389619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111440574.7A Active CN114141224B (zh) | 2021-11-30 | 2021-11-30 | 信号处理方法和装置、电子设备、计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220358951A1 (zh) |
EP (1) | EP4064282A3 (zh) |
CN (1) | CN114141224B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116013337A (zh) * | 2023-01-10 | 2023-04-25 | 北京百度网讯科技有限公司 | 音频信号处理方法、模型的训练方法、装置、设备和介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118245772B (zh) * | 2024-01-26 | 2024-09-17 | 中国人民解放军军事科学院系统工程研究院 | 一种基于卷积神经网络的时频差提取方法 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080317256A1 (en) * | 2005-04-22 | 2008-12-25 | Harry Bachmann | Method for Reproducing a Secondary Path in an Active Noise Reduction System |
CN102044253A (zh) * | 2010-10-29 | 2011-05-04 | 深圳创维-Rgb电子有限公司 | 一种回声信号处理方法、系统及电视机 |
CN102118678A (zh) * | 2011-04-02 | 2011-07-06 | 嘉兴中科声学科技有限公司 | 一种使用电流传感器测量扬声器参数的方法及系统 |
CN104994249A (zh) * | 2015-05-19 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 声回波消除方法和装置 |
CN106571147A (zh) * | 2016-11-13 | 2017-04-19 | 南京汉隆科技有限公司 | 用于网络话机声学回声抑制的方法 |
CN107333018A (zh) * | 2017-05-24 | 2017-11-07 | 华南理工大学 | 一种回声时延估计及追踪方法 |
US9947338B1 (en) * | 2017-09-19 | 2018-04-17 | Amazon Technologies, Inc. | Echo latency estimation |
US20180352095A1 (en) * | 2016-03-21 | 2018-12-06 | Tencent Technology (Shenzhen) Company Limited | Echo time delay detection method, echo elimination chip, and terminal equipment |
CN109688284A (zh) * | 2018-12-28 | 2019-04-26 | 广东美电贝尔科技集团股份有限公司 | 一种回音延时检测方法 |
CN109831733A (zh) * | 2019-02-26 | 2019-05-31 | 北京百度网讯科技有限公司 | 音频播放性能的测试方法、装置、设备和存储介质 |
CN110891236A (zh) * | 2018-09-09 | 2020-03-17 | 广东思派康电子科技有限公司 | 一种多麦克风阵列产测的实现方法和装置 |
CN111223492A (zh) * | 2018-11-23 | 2020-06-02 | 中移(杭州)信息技术有限公司 | 一种回声路径延迟估计方法及装置 |
CN111524498A (zh) * | 2020-04-10 | 2020-08-11 | 维沃移动通信有限公司 | 滤波方法、装置及电子设备 |
DE102019105458A1 (de) * | 2019-03-04 | 2020-09-10 | Harman Becker Automotive Systems Gmbh | Zeitverzögerungsschätzung |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN112634923A (zh) * | 2020-12-14 | 2021-04-09 | 广州智讯通信系统有限公司 | 基于指挥调度系统的音频回声消除方法、设备、存储介质 |
CN113170024A (zh) * | 2018-11-14 | 2021-07-23 | 深圳市欢太科技有限公司 | 回声消除方法、延时估计方法、装置、存储介质及设备 |
CN113160790A (zh) * | 2021-04-08 | 2021-07-23 | 维沃移动通信有限公司 | 回声消除方法、装置、电子设备及存储介质 |
CN113192527A (zh) * | 2021-04-28 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 用于消除回声的方法、装置、电子设备和存储介质 |
US20210306466A1 (en) * | 2018-07-18 | 2021-09-30 | Google Llc | Echo Detection |
US20210319802A1 (en) * | 2020-10-12 | 2021-10-14 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for processing speech signal, electronic device and storage medium |
CN113689871A (zh) * | 2020-05-19 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 回声消除方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8718275B2 (en) * | 2011-12-22 | 2014-05-06 | Google Inc. | Low complex and robust delay estimation |
CN102780821B (zh) * | 2012-07-06 | 2014-08-13 | 歌尔声学股份有限公司 | 一种送受话端采样率偏差纠正方法和系统 |
US9565497B2 (en) * | 2013-08-01 | 2017-02-07 | Caavo Inc. | Enhancing audio using a mobile device |
US10720949B1 (en) * | 2015-03-19 | 2020-07-21 | Hrl Laboratories, Llc | Real-time time-difference-of-arrival (TDOA) estimation via multi-input cognitive signal processor |
US10446166B2 (en) * | 2016-07-12 | 2019-10-15 | Dolby Laboratories Licensing Corporation | Assessment and adjustment of audio installation |
US10636410B2 (en) * | 2017-06-15 | 2020-04-28 | Knowles Electronics, Llc | Adaptive acoustic echo delay estimation |
CN112530450A (zh) * | 2019-09-17 | 2021-03-19 | 杜比实验室特许公司 | 频域中的样本精度延迟识别 |
US11063881B1 (en) * | 2020-11-02 | 2021-07-13 | Swarmio Inc. | Methods and apparatus for network delay and distance estimation, computing resource selection, and related techniques |
US11508351B2 (en) * | 2021-03-01 | 2022-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | Multi-task deep network for echo path delay estimation and echo cancellation |
-
2021
- 2021-11-30 CN CN202111440574.7A patent/CN114141224B/zh active Active
-
2022
- 2022-07-25 US US17/872,909 patent/US20220358951A1/en active Pending
- 2022-07-28 EP EP22187478.7A patent/EP4064282A3/en active Pending
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080317256A1 (en) * | 2005-04-22 | 2008-12-25 | Harry Bachmann | Method for Reproducing a Secondary Path in an Active Noise Reduction System |
CN102044253A (zh) * | 2010-10-29 | 2011-05-04 | 深圳创维-Rgb电子有限公司 | 一种回声信号处理方法、系统及电视机 |
CN102118678A (zh) * | 2011-04-02 | 2011-07-06 | 嘉兴中科声学科技有限公司 | 一种使用电流传感器测量扬声器参数的方法及系统 |
CN104994249A (zh) * | 2015-05-19 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 声回波消除方法和装置 |
US20180352095A1 (en) * | 2016-03-21 | 2018-12-06 | Tencent Technology (Shenzhen) Company Limited | Echo time delay detection method, echo elimination chip, and terminal equipment |
CN106571147A (zh) * | 2016-11-13 | 2017-04-19 | 南京汉隆科技有限公司 | 用于网络话机声学回声抑制的方法 |
CN107333018A (zh) * | 2017-05-24 | 2017-11-07 | 华南理工大学 | 一种回声时延估计及追踪方法 |
US9947338B1 (en) * | 2017-09-19 | 2018-04-17 | Amazon Technologies, Inc. | Echo latency estimation |
US20210306466A1 (en) * | 2018-07-18 | 2021-09-30 | Google Llc | Echo Detection |
CN110891236A (zh) * | 2018-09-09 | 2020-03-17 | 广东思派康电子科技有限公司 | 一种多麦克风阵列产测的实现方法和装置 |
CN113170024A (zh) * | 2018-11-14 | 2021-07-23 | 深圳市欢太科技有限公司 | 回声消除方法、延时估计方法、装置、存储介质及设备 |
CN111223492A (zh) * | 2018-11-23 | 2020-06-02 | 中移(杭州)信息技术有限公司 | 一种回声路径延迟估计方法及装置 |
CN109688284A (zh) * | 2018-12-28 | 2019-04-26 | 广东美电贝尔科技集团股份有限公司 | 一种回音延时检测方法 |
CN109831733A (zh) * | 2019-02-26 | 2019-05-31 | 北京百度网讯科技有限公司 | 音频播放性能的测试方法、装置、设备和存储介质 |
DE102019105458A1 (de) * | 2019-03-04 | 2020-09-10 | Harman Becker Automotive Systems Gmbh | Zeitverzögerungsschätzung |
CN111524498A (zh) * | 2020-04-10 | 2020-08-11 | 维沃移动通信有限公司 | 滤波方法、装置及电子设备 |
CN113689871A (zh) * | 2020-05-19 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 回声消除方法和装置 |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
US20210319802A1 (en) * | 2020-10-12 | 2021-10-14 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for processing speech signal, electronic device and storage medium |
CN112634923A (zh) * | 2020-12-14 | 2021-04-09 | 广州智讯通信系统有限公司 | 基于指挥调度系统的音频回声消除方法、设备、存储介质 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113160790A (zh) * | 2021-04-08 | 2021-07-23 | 维沃移动通信有限公司 | 回声消除方法、装置、电子设备及存储介质 |
CN113192527A (zh) * | 2021-04-28 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 用于消除回声的方法、装置、电子设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
A.N. BIRKETT ET AL: "Nonlinear echo cancellation using a partial adaptive time delay neural network", 《PROCEEDINGS OF 1995 IEEE WORKSHOP ON NEURAL NETWORKS FOR SIGNAL PROCESSING》, pages 1 - 10 * |
王心一等: "降采样固定时延估算法在声回波对消系统中的应用", 《山东大学学报(工学版)》 * |
王心一等: "降采样固定时延估算法在声回波对消系统中的应用", 《山东大学学报(工学版)》, no. 03, 16 June 2011 (2011-06-16) * |
罗振等: "强噪声环境下声波信号时延估计方法的比较", 《沈阳航空工业学院学报》 * |
罗振等: "强噪声环境下声波信号时延估计方法的比较", 《沈阳航空工业学院学报》, no. 02, 30 April 2005 (2005-04-30) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116013337A (zh) * | 2023-01-10 | 2023-04-25 | 北京百度网讯科技有限公司 | 音频信号处理方法、模型的训练方法、装置、设备和介质 |
CN116013337B (zh) * | 2023-01-10 | 2023-12-29 | 北京百度网讯科技有限公司 | 音频信号处理方法、模型的训练方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220358951A1 (en) | 2022-11-10 |
EP4064282A3 (en) | 2023-01-18 |
EP4064282A2 (en) | 2022-09-28 |
CN114141224B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3703052B1 (en) | Echo cancellation method and apparatus based on time delay estimation | |
US10573301B2 (en) | Neural network based time-frequency mask estimation and beamforming for speech pre-processing | |
CN114141224B (zh) | 信号处理方法和装置、电子设备、计算机可读介质 | |
TWI647961B (zh) | 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置 | |
US8731911B2 (en) | Harmonicity-based single-channel speech quality estimation | |
CN108010536B (zh) | 回声消除方法、装置、系统及存储介质 | |
WO2020168981A1 (zh) | 风噪声抑制方法及装置 | |
CN106157967A (zh) | 脉冲噪声抑制 | |
CN105785324A (zh) | 基于mgcstft的线性调频信号参数估计方法 | |
CN111048061B (zh) | 回声消除滤波器的步长获取方法、装置及设备 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US20240046947A1 (en) | Speech signal enhancement method and apparatus, and electronic device | |
CN106558315A (zh) | 异质麦克风自动增益校准方法及系统 | |
JP4422662B2 (ja) | 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体 | |
CN114242098A (zh) | 一种语音增强方法、装置、设备以及存储介质 | |
CN109506135A (zh) | 管道泄漏点定位方法及装置 | |
CN112491449A (zh) | 声回波消除方法、装置、电子设备和存储介质 | |
CN114299982A (zh) | 处理音频信号的方法、装置及电子设备 | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
RU2611973C2 (ru) | Ослабление шума в сигнале | |
CN110931032A (zh) | 一种动态回声消除方法及装置 | |
CN114302286A (zh) | 一种通话语音降噪方法、装置、设备及存储介质 | |
CN110648685B (zh) | 设备检测方法、装置、电子设备和可读存储介质 | |
Blacodon et al. | Reverberation cancellation in a closed test section of a wind tunnel using a multi-microphone cesptral method | |
WO2014018662A1 (en) | Method of extracting zero crossing data from full spectrum signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |