CN113707166A - 语音信号处理方法、装置、计算机设备和存储介质 - Google Patents
语音信号处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113707166A CN113707166A CN202110371804.2A CN202110371804A CN113707166A CN 113707166 A CN113707166 A CN 113707166A CN 202110371804 A CN202110371804 A CN 202110371804A CN 113707166 A CN113707166 A CN 113707166A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- target
- echo
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 387
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000004590 computer program Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 6
- 230000006854 communication Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 19
- 230000003044 adaptive effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000002592 echocardiography Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及一种语音信号处理方法、装置、计算机设备和存储介质。该方法涉及数据库,具体包括:接收参考语音信号,对参考语音信号进行信道解码;参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态;播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;基于回声信号构建目标设备对应的训练样本集;该训练样本集可以存储在数据库中;训练样本集用于训练得到目标设备对应的目标回声消除模型;目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除处理。采用本方法能够提高回声消除模型的泛化性能。
Description
技术领域
本申请涉及信号处理技术领域,特别是涉及一种语音信号方法、装置、计算机设备和存储介质。
背景技术
回声(Echo)指麦克风将扬声器播放的声音信号采集并再度经由扬声器播放而形成原始音频带有延时的叠加的现象。回声会干扰目标音频的传递,严重影响通信体验。
传统技术中,常使用自适应滤波器(Adaptive Filter,AF)消除回声中的线性部分,再通过机器学习模型消除回声中的非线性部分。然而,由于不同播放设备的非线性路径有极大差异,机器学习模型等基于数据的算法对训练数据与实际数据的匹配度有较高要求,当训练数据的回声路径与实际数据不匹配时,机器学习模型无法正确消除音频中的回声,导致训练得到的回声消除模型的泛化性能低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高回声消除模型泛化性能的语音信号处理方法、装置、计算机设备和存储介质。
一种语音信号处理方法,所述方法包括:
接收参考语音信号,对所述参考语音信号进行信道解码;
所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
基于所述回声信号构建所述目标设备对应的训练样本集;
所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除。
在一些实施例中,所述原始语音信号对应多个发声主体,且所述原始语音信号中包含预设比例的干扰信号。
一种语音信号处理装置,所述装置包括:
信号接收模块,用于接收参考语音信号,对所述参考语音信号进行信道解码;所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
采集模块,用于播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
样本集构建模块,用于基于所述回声信号构建所述目标设备对应的训练样本集;所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收参考语音信号,对所述参考语音信号进行信道解码;
所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
基于所述回声信号构建所述目标设备对应的训练样本集;
所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除处理。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收参考语音信号,对所述参考语音信号进行信道解码;
所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
基于所述回声信号构建所述目标设备对应的训练样本集;
所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除处理。
上述语音信号处理方法、装置、计算机设备和存储介质,通过接收参考语音信号,对所述参考语音信号进行信道解码,进一步在播放解码后的参考语音信号后,采集播放的参考语音信号得到回声信号,基于所述回声信号构建所述目标设备对应的训练样本集,所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型,所述目标回声消除模型用于对目标设备采集的语音信号进行非线性回声消的,由于所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,而所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态,从而得到的回声信号为目标设备实录的回声信号,能够真实的反映目标设备的非线性路径,基于该回声信号构建的目标设备的训练样本集可以使得回声消除模型更好的学习到目标设备扬声器的回声非线性路径以得到适配目标设备的回声消除模型,从而提升回声消除模型在落地实施时的泛化性能,进而整体提高语音通信质量和用户体验。
一种语音信号处理方法,所述方法包括:
获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除处理后得到的;所述双讲语音信号是通过目标设备采集的;
将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
在一些实施例中,所述基于所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号包括:
分别获取所述近端语音信号的第一时域幅值与所述回声信号的第二时域幅值;
对所述第一时域幅值、第二时域幅值中的至少一个进行调整,以改变所述近端语音信号与所述回声信号之间的信回比;
基于调整后的所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号。
一种语音信号处理装置,所述装置包括:
信号获取模块,用于获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的;所述双讲语音信号是通过目标设备采集的;
输入模块,用于将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
输出模块,用于获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除处理后得到的;所述双讲语音信号是通过目标设备采集的;
将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除处理后得到的;所述双讲语音信号是通过目标设备采集的;
将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
上述语音信号处理方法、装置、计算机设备和存储介质,在获取到待处理语音信号后,将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述混合语音信号进行非线性回声消除处理,最后获取目标回声消除模型输出的所述待处理语音信号对应的目标语音信号,其中,待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的,所述双讲语音信号是通过目标设备采集的,而由于目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的,所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的,所述回声信号是由目标设备采集其播放的目标参考语音信号得到的,所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的,所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态,因而目标回声消除模型可以更好的学习到目标设备扬声器的回声非线性路径,那么在通过该目标回声消除模型进行非线性回声消除时,可以正确地消除非线性回声,提高语音通信质量。
附图说明
图1为一个实施例中语音信号处理方法的应用环境图;
图2为一个实施例中语音信号处理方法的流程示意图;
图3为一个实施例中语音对齐步骤的流程示意图;
图4为一个实施例中构建训练样本步骤的流程示意图;
图5为一个实施例中回声消除模型的训练步骤的流程示意图;
图6为一个实施例中语音混合处理步骤的流程示意图;
图7为另一个实施例中语音信号处理方法的流程示意图;
图8为另一个实施例中构建训练样本集步骤的流程示意图;
图9为一个实施例中搭建的会议链路的示意图;
图10为一个实施例中语音信号处理装置的结构框图;
图10A为一个实施例中样本构建模块的结构框图;
图11为另一个实施例中语音信号处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音技术、机器学习等技术,具体通过如下实施例进行说明:
本申请提供的语音信号处理方法,可以应用于如图1所示的应用环境中。其中,目标设备102、远端设备106和服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。目标设备102、远端设备106可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
需要说明的是,本申请实施例中的目标设备指的是需要消除回声的设备,对于目标设备所采集的声音信号的发声主体而言,目标设备为近端设备,而与目标设备进行语音通信的设备为远端设备,本申请提供的语音信号处理方法旨在训练得到针对目标设备的目标回声消除模型,并通过该目标回声消除模型对目标设备所采集的双讲语音信号中的非线性回声进行消除处理。
例如,远端设备106采集可以原始语音信号,并进行信道编码后得到参考语音信号,然后将该参考语音信号传输至服务器,服务器将该参考语音信号传输至目标设备,目标设备接收参考语音信号后,对参考语音信号进行信道解码,进而播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号,基于该回声信号,目标设备可以构建针对目标设备的训练样本集,该训练样本集可用于训练得到针对目标设备的目标回声消除模型,通过该目标回声消除模型可以对目标设备采集的语音信号进行非线性回声消除处理。
例如,目标设备在实际应用中会采集双讲语音信号,那么目标设备可以对采集的双讲语音信号首先进行线性回声消除处理,得到的残留有非线性回声的待处理语音信号,将该待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对混合语音信号进行非线性回声消除处理,得到目标语音信号,目标设备进一步将目标语音信号进行信道编码后发送至服务器,通过服务器将目标语音信号传输至远端设备。可以理解,这里的远端设备与训练回声消除模型时的远端设备可以是同一个设备,也可以是完全不同的设备。
在一些实施例中,如图2所示,提供了一种语音信号处理方法,以该方法应用于图1中的目标设备为例进行说明,包括以下步骤:
步骤202,接收参考语音信号,对参考语音信号进行信道解码;参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态。
其中,远端设备与目标设备处于不同的位置空间指的是远端设备与目标设备所处的位置空间可以保证远端设备和目标设备的扬声器之间不互相干扰。例如,可以将远端设备和目标设备放置在不同的房间。
原始信号是预先准备的语音信号,原始语音信号对应一个或多个发声主体,由远端设备所在位置空间中的第三方播放设备进行播放。其中的第三方播放设备指的是目标设备、远端设备之外的其他具有扬声器的播放设备,例如音响、笔记本电脑、智能手机、平板电脑等等。其中的发声主体为可以发出声音的主体,发声主体可以是生物体或者是可以模拟生物体发声的非生物体,生物体例如可以是人、动物,非生物体例如可以是智能机器人、智能音箱等等。
在一些实施例中,原始语音信号对应多个发声主体。在实际应用中,可以选用多说话人,男声女声比例均衡的语音信号作为原始语音信号。例如,可以选用新闻广播数据集作为原始语音信号。选用多个发声主体的语音信号作为原始语音信号可以增加样本数据的多样性。
在一些实施例中,原始语音信号对应多个发声主体,且原始语音信号中包含预设比例的干扰信号。其中的干扰信号为可以对原始语音信号产生干扰的信号,例如干扰信号可以是噪声。另外,在具体应用中,也可以一定比例(如,10%)在原始语音信号中加入音乐素材,模拟近端设备播放音乐时的情景。因为音乐的频谱通常与语音和噪声的频谱有所不同,因而音乐素材的加入可以增加训练样本的多样性,提升模型训练的鲁棒性。
具体地,本申请中首先需要搭建通信链路,将远端设备和目标设备之间通过服务器建立通信连接,并保持目标设备扬声器开启,远端设备扬声器关闭,将远端设备和目标设备置于不同的位置空间,以保证远端设备的扬声器和目标设备的扬声器之间不互相干扰。在一些实施例中,通信链路搭建好后,检查远端设备和目标设备的麦克风是否选择正确,并测试目标设备和远端设备的播放音量,以防止音量过大产生爆音。
在搭建好通信链路后,使用第三方播放设备在远端设备所处的位置空间播放预先准备的原始语音信号,原始信号经由远端设备的麦克风采集后进行信道编码,并传输至服务器,服务器将经过信道编码后的原始语音信号发送至目标设备,目标设备接收到该原始语音信号后,进行信道解码。
其中,信道编码指的是对数字信号进行纠、检错编码技术,由于通信过程中会存在干扰和衰落,在信号传输过程中将出现错误,故需要对数字信号采用纠、检错技术,以增强数据在信道中传输时抵御各种干扰的能力,提高系统的可靠性。通常纠错码分为两大类,即分组码和卷积码。在移动通信系统中另一种纠错方法就是信令重发,解码时先存储再逐位判决,如重发五次,三次或三次以上均为1,则判1。信道编码之所以能够检出和校正接收比特流中的差错,是因为加入了一些冗余比特,把几个比特上携带的信息扩散到更多的比特上,为此付出的代价是必须传送比该信息所需要的更多的比特。信道解码是信道编码的逆过程,可以恢复一定的传输错误。
步骤204,播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号。
具体地,目标设备对接收到的参考语音信号进行信道解码后,对解码后的参考语音信号进行播放,由于目标设备的麦克风处于开启状态,由目标设备播放的参考语音信号又会被麦克风的麦克风采集,从而形成回声信号,该回声信号为目标设备实录的回声信号,可以真实的反映目标设备扬声器的非线性路径。可以理解,理论上,原始语音信号、参考语音信号与回声信号其音频文字内容应当是一致的。其区别在于,参考语音信号与原始语音听感上区别不大,但实际上经历麦克风采集、编码、传输、解码后的语音波形已经发生了明显变化,同时由于网络状态可能出现丢包等损伤,两者携带的信息实际上并不一致。回声信号较参考语音信号经由非线性扬声器播放以及房间多次反射重新再被麦克风采集,两者听感上已经有较大区别。
可以理解,非线性回声的产生,除了目标设备扬声器的非线性,目标设备所处空间的大小与环境也会影响回声路径。因而在一些实施例,需要将近端设备置于不同面积的房间以及含有不同数量玻璃墙体的房间内分别进行参考语音信号播放和回声采集,以提高模型训练的泛化性。同时在其他一些实施例中,还可以在同一房间将目标设备放置在不同位置多次采集回声信号也有助于提升模型训练的泛化性。
步骤206,基于回声信号构建目标设备对应的训练样本集;训练样本集用于训练得到目标设备对应的目标回声消除模型;目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除。
其中,目标回声消除模型可通过有监督的训练得到。
具体地,目标设备在采集得到回声信号后,基于该回声信号即可构建训练样本集,由于该回声信号为目标设备实际采集的回声信号,因此构建的训练样本集为针对目标设备的训练样本集。在实际应用中,基于该训练样本集,可训练得到针对目标设备的回声消除模型,通过该回声消除模型,可对目标设备采集的语音信号中的非线性回声部分进行消除。
在一些实施例中,目标设备基于直接将该回声信号作为训练样本集中的训练样本,基于该训练样本训练回声消除模型时,训练目标为得到的目标回声消除模型能够将回声信号全部消除,最终得到空白的语音信号。
在其他一些实施例中,目标设备在播放解码后的参考语音信号的同时,可通过其他语音播放设备在目标设备的旁边播放其他语音信号,从而目标设备在采集播放的参考语音信号的同时也会采集其他语音播放设备播放的其他语音信号,此时,目标设备得到的回声信号实际上混合了其他语音信号,该其他语音信号由于是在目标设备的旁边播放的,通常被称为近端语音信号,目标设备可以将回声信号和近端语音信号混合的语音信号作为训练样本集中的训练样本,基于该训练样本训练回声消除模型时,训练目标为得到的目标回声消除模型能够将其中的回声信号全部消除,最终得到纯净的近端语音信号。
在另外一些实施例中,目标设备在基于回声信号构建训练样本集时,首先将回声信号与参考语音信号进行对齐,得到对齐后的回声信号,进而基于对齐后的回声信号构建训练样本集,基于对齐后的回声信号构建训练样本集,由于考虑到了线性回声消除部分的准确性,因而可以更好地训练回声消除模型。
在一些实施例中,目标设备基于回声信号构建目标设备对应的训练样本集,可以从训练样本集中获取目标训练样本;对目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据,将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据,基于训练输出数据和目标训练样本中的目标训练标签之间的差异训练回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型。
在一些实施例中,构建的训练样本集可存储于数据库中。数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
在一些实施例中,由于不同型号的设备通常来说具有差异性,因此可以将不同型号的设备视为不同的目标设备。
上述语音信号处理方法中,通过接收参考语音信号,对参考语音信号进行信道解码,进一步在播放解码后的参考语音信号后,采集播放的参考语音信号得到回声信号,基于回声信号构建目标设备对应的训练样本集,训练样本集用于训练得到目标设备对应的目标回声消除模型,目标回声消除模型用于对目标设备采集的语音信号进行非线性回声消的,由于参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,而远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态,从而得到的回声信号为目标设备实录的回声信号,能够真实的反映目标设备的非线性路径,基于该回声信号构建的目标设备的训练样本集可以使得回声消除模型更好的学习到目标设备扬声器的回声非线性路径以得到适配目标设备的回声消除模型,从而提升回声消除模型在落地实施时的泛化性能,进而整体提高语音通信质量和用户体验。
在一些实施例中,基于回声信号构建目标设备对应的训练样本集包括:将回声信号与参考语音信号进行对齐,得到对齐后的回声信号;基于对齐后的回声信号得到训练样本集。
本申请实施例中,考虑到长时间采集回声信号过程中,由于网络抖动,收集到的回声信号与参考语音信号之间的对齐可能出现漂移。而线性回声消除通常需要两者保持大致对齐。因而,目标设备在采集播放的参考语音信号得到回声信号后,可以将回声信号与参考语音信号进行对齐,得到对齐后的回声信号,进而基于对齐后的回声信号得到训练样本集。在具体实施例时,目标设备可以基于语音匹配算法(Speech Matching Algorithm)或音频对齐算法(Audio Alignment Algorithm)实现回声信号与参考语音信号之间的对齐。其中,语音匹配算法例如可以是动态时间规整算法(Dynamic Time Warping,DTW),该算法主要采用基于顺序扫描的相似度匹配策略。
在一些实施例中,如图3所示,将回声信号与参考语音信号进行对齐,得到对齐后的回声信号包括:
步骤302,分别对回声信号与参考语音信号进行切片,得到回声信号对应的回声子信号集合以及参考语音信号对应的参考子信号集合。
具体地,目标设备可以每间隔预设的时长对回声信号与参考语音信号进行切分,得到回声信号对应的回声子信号及参考语音信号对应的参考子信号,所有回声子信号组成回声子信号集合,所有参考子信号组成参考子信号集合。
举例说明,假设回声信号的时长为5秒,则目标设备可以每隔10毫秒对回声信号与参考语音信号进行切分,得到时长为10毫秒的回声子信号和参考子信号,所有回声子信号组成回声子信号集合,所有参考子信号组成参考子信号集合。
步骤304,对于回声子信号集合中每个回声子信号,计算回声子信号与参考子信号集合中每个参考子信号之间的相似度,得到相似度矩阵。
具体地,目标设备可以对回声子信号集合每个回声子信号提取对数频谱、短时能量谱等特征,得到回声特征向量,并对参考子信号集合中每个参考子信号提取对数频谱、短时能量谱等特征,得到参考特征向量,那么对于回声子信号集合中每个回声子信号,目标设备可以基于该回声子信号的回声特征向量与参考子信号集合中每个参考子信号的参考特征向量,计算该回声子信号与参考子信号集合中每个参考子信号之间的相似度,得到一个n*m的相似度矩阵,其中,n为参考子信号集合中的参考子信号数量,而n为回声子信号集合中的回声子信号数量。在具体实施例中,目标设备可以通过欧式距离、余弦相似度等方式计算回声子信号的回声特征向量与参考子信号的参考特征向量的相似度。
步骤306,基于相似度矩阵确定回声信号与参考语音信号之间的对齐路径。
其中,回声信号与参考语音信号之间的对齐路径指的是相似度矩阵的左上角位置到相似度矩阵的右下角的最短路径。路径上的元素和为路径长度。
具体地,考虑到矩阵从左上角到右下角的路径长度有以下性质:1、当前路径长度=前一步的路径长度+当前元素的大小;2、路径上的某个元素(i,j),它的前一个元素只可能为以下三者之一:a)左边的相邻元素(i,j-1);b)上面的相邻元素(i-1,j);c)左上方的相邻元素(i-1,j-1),假设矩阵为M,从矩阵左上角(1,1)到任一点(i,j)的最短路径长度为Lmin(i,j)。那么可以用递归算法求最短路径长度,具体公式如下:
Lmin(i,j)=min{Lmin(i,j-1),Lmin(i-1,j),Lmin(i-1,j-1)}+M(i,j)
上述公式可以理解为:当前元素的最短路径必然是从前一个元素的最短路径的长度加上当前元素的值。前一个元素有三个可能,取三个可能之中路径最短的那个即可。其中,起始条件为Lmin(1,1)=M(1,1)。
步骤308,基于对齐路径将回声信号与参考语音信号进行对齐,得到对齐后的回声信号。
具体地,由于对齐路径反应了相似度矩阵的左上角位置到相似度矩阵的右下角的最短路径,那么根据该对齐路径上的各个点,目标设备可以确定回声信号中每一个回声子信号片段在参考语音信号中的对齐的目标参考子信号,基于此,目标设备可以将回声信号在时间轴上进行扭曲(warping),实现回声信号与参考语音信号的对齐,得到对齐后的回声信号。
上述实施例中,目标设备通过确定回声信号与参考语音信号之间的对齐路径,基于对齐路径将回声信号与参考语音信号进行对齐,得到对齐后的回声信号,可以准确、快速地实现回声信号与参考语音信号之间的对齐。
在一些实施例中,如图4所示,基于回声信号构建目标设备对应的训练样本集包括:
步骤402,从预先建立的语料库中获取语料作为近端语音信号。
具体地,本申请实施例中,考虑到实际情况下近端语音通常由麦克风直接采集,其传播路径较为简单,也基本具有线性,因而可以使用混合处理方法代替实际采集来得到混合语音信号。通过预先收集语料建立语料库,目标设备在基于回声信号构建目标设备对应的训练样本集时,可从预先建立的语料库中获取语料,作为近端语音信号,以模拟实际采集的近端语音信号。
在一些实例中,可预先收集对应多个发声主体的语料建立语料库。例如,可以选用多说话人,男声女声比例均衡的语料。另外,可以给部分语料添加噪声,也可以给部分语料添加背景音乐。具体地,可以将噪声、背景音乐等与语料在时域上叠加,从而实现噪声、背景音乐的添加。
步骤404,基于近端语音信号与回声信号进行混合处理,得到混合语音信号。
具体地,目标设备可以基于近端语音信号与回声信号进行混合处理,从而得到同时包括近端语音信号和回声信号的混合语音信号。混合语音信号由于混合了回声信号与近端语音信号,因此也称为双讲语音信号。此外,不与近端语音信号混合的纯回声信号即为单讲语音信号,而不与回声混合的近端语音信号即为纯近端语音信号。
在一些实施例中,目标设备可以将近端语音信号与回声信号进行时域叠加,得到混合语音信号。在其他一些实施例中,考虑到时域叠加的过程中,叠加得到时域幅值可能过大导致出现爆音现象,目标设备可以在时域叠加的过程中,将叠加得到的时域幅值与预设阈值进行比对,根据比对结果来确定最终得到的混合语音信号。
步骤406,将混合语音信号作为第一训练输入数据,将近端语音信号作为对应的训练标签确定第一训练样本。
步骤408,基于第一训练样本构建目标设备对应的训练样本集。
其中,训练输入数据指的是在训练的过程中,输入回声消除模型的数据,训练标签为回声消除模型期望的输出数据。
具体地,目标设备将混合处理得到的混合语音信号作为第一训练输入数据,将近端语音信号作为该第一训练输入数据对应的训练标签确定第一训练样本,将该第一训练样本作为训练样本集中的训练样本构建目标设备对应的训练样本集。通过第一训练样本训练回声消除模型时,训练目标为消除混合语音信号中全部的回声信号,保留全部的近端语音信号。
在一些实施例中,考虑到训练样本的多样性需求,目标设备在构建训练样本集时,可以混合预设比例的单讲语音信号或者纯近端语音信号,从而有助于回声消除模型更好的进行学习。在其他一些实施例中,还可以同时混合预设比例的单讲语音信号和纯近端语音信号,
上述实施例中,由于语料库中的语料数量众多,通过从数据库中获取语料与回声信号混合来生成训练样本,可以快速生成大量的训练样本。
在一些实施例中,在基于第一训练样本和第二训练样本构建目标设备对应的训练样本集之前,上述方法还包括:将近端语音信号作为第三训练输入数据,并将近端语音信号作为对应的训练标签确定第三训练样本;基于第一训练样本和第二训练样本构建目标设备对应的训练样本集包括:基于第一训练样本、第二训练样本及第三训练样本构建目标设备对应的训练样本集。
本实施例中,考虑到训练样本的多样性需求,目标设备可以将回声信号作为第二训练输入数据,将静音信号作为对应的训练标签确定第二训练样本,进而,目标设备可以将第一训练样本和第二训练样本同时作为训练样本集中的训练样本构建目标设备对应的训练样本集。可以理解,当通过第二训练样本训练回声消除模型时,训练目标为消除全部的回声信号,得到空白语音信号。
可以理解的是,在实际应用中,通常目标设备采集的语音信号为混合了回声信号和近端人声的信号,因此,在基于第一训练样本和第二训练样本构建目标设备对应的训练样本集时,可以第一训练样本作为主要的训练样本,同时混合预设比例的第二训练样本,其中,预设比例可以根据经验进行事先设定,例如预设比例可以为10%。
在一些实施例中,在基于第一训练样本和第二训练样本构建目标设备对应的训练样本集之前,方法还包括:将近端语音信号作为第三训练输入数据,并将近端语音信号作为对应的训练标签确定第三训练样本;基于第一训练样本和第二训练样本构建目标设备对应的训练样本集包括:基于第一训练样本、第二训练样本及第三训练样本构建目标设备对应的训练样本集。
具体地,目标设备可以将近端语音信号作为第三训练输入数据,并将并将近端语音信号作为对应的训练标签确定第三训练样本,进而,目标设备可以将第一训练样本、第二训练样本和第三训练样本同时作为训练样本集中的训练样本构建目标设备对应的训练样本集。可以理解,当通过第三训练样本训练回声消除模型时,训练目标为近端语音信号得到完整保留。
可以理解的是,在实际应用中,通常目标设备采集的语音信号为混合了回声信号和人声的信号,因此,在基于第一训练样本、第二训练样本及第三训练样本构建目标设备对应的训练样本集时,可以第一训练样本作为主要的训练样本,同时混合预设比例的第二训练样本、第三训练样本,其中,预设比例可以根据经验进行事先设定,例如预设比例可以为10%。
在一些实施例中,本申请实施例提供的语音信号处理方法还包括回声消除模型的训练步骤,如图5所示,回声消除模型的训练步骤包括:
步骤502,从训练样本集中获取目标训练样本,对目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据。
通常地,回声包括线性回声和非线性回声,线性回声通常指的是是由于在免提或者会议应用中,扬声器的声音多次反馈到麦克风引起的,而非线性回声通常是由于物理电子线路的二四线匹配耦合引起的。此外,目标设备所处空间的大小和环境也会对回声的非线性路径产生影响。在进行回声消除时,通常先消除线性回声部分,再对残余的非线性回声进行消除,即先进行线性回声消除处理,再进行非线性回声消除处理。
在一些实施中,线性回声可通过自适应滤波器进行消除。自适应滤波器是以输入和输出信号的统计特性的估计为依据,采取特定算法自动地调整滤波器系数,使其达到最佳滤波特性的一种算法或装置。自适应滤波器可以是连续域的或是离散域的。离散域自适应滤波器由一组抽头延迟线、可变加权系数和自动调整系数的机构组成。自适应滤波器对输入信号序列x(n)的每一个样值,按特定的算法,更新、调整加权系数,使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小,即输出信号序列y(n)逼近期望信号序列d(n)。自适应滤波器收敛后得到的就是需要求解的回声馈路函数fe=f(fs)。当滤波器收敛稳定之后,输入远端的参考语音信号fs,就可以输出相对准确的对远端回声信号的估计值fe。把采集到的信号减去远端回声信号的估计值fe,就可以实现线性回声的消除。目标设备对目标训练样本中的目标训练输入数据进行线性回声消除处理后,得到中间训练输入数据。
可以理解,目标训练样本可以是上述的第一训练样本、第二训练样本及第三训练样本中的任意一种。
步骤504,将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据。
具体地,目标设备将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据。其中的回声消除模型可以是各种神经网络模型,包括但不限于卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent NeuralNetwork,RNN)等等。
其中,卷积神经网络包括卷积层(Convolutional Layer)和池化层(PoolingLayer)。深度神经网络包括输入层、隐含层和输出层,层与层之间是全连接的关系。循环神经网络是一种对序列数据建模的神经网络,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。循环神经网络模型,比如LSTM(Long Short-Term Memory NeuralNetwork,长短时记忆神经网络)模型,BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆神经网络)等。
步骤506,基于训练输出数据和目标训练样本中的目标训练标签之间的差异训练回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型。
其中,当目标训练样本为第一训练样本时,目标训练标签为第一训练样本对应的近端语音信号;当目标训练样本为第二训练样本时,目标训练标签为静音信号;当目标训练样本为第三训练样本时,目标训练标签为第一训练样本对应的近端语音信号。训练停止条件可以是训练次数达到预设次数、训练时长达到预设时长,训练输出数据和训练标签之间的差异达到最小值等等。
具体地,目标设备基于训练输出数据和目标训练样本中的目标训练标签之间的差异构建损失函数,基于该损失函数训练回声消除模型,在训练过程中,不断地调整回声消除模型的模型参数,当满足训练停止条件时,得到已训练的目标回声消除模型。
在一些实施例中,目标设备按照预设的深度学习优化算法确定损失函数在每次迭代过程产生的局部下降梯度。深度学习优化算法具体可以是批量梯度下降(BatchGradient Descent,BGD)、随机梯度下降(Stochastic Gradient Descent,SGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD),AdaGrad(自适应算法),RMSProp(RootMean Square Prop)或Adam(Adaptive Moment Estimation)等。目标设备将局部下降梯度反向传播至回声消除模型,以对回声消除模型对应的模型参数进行更新,当满足训练停止条件时结束训练。
以随机梯度下降法为例,假设为损失函数,f(x,Θadapt)表示输入为x和模型参数为Θadapt的回声消除模型,y为回声消除模型输入x时对应的输出目标值,训练样本集中包含n个样本{x(1),…,x(n)},其中x(i)所对应的目标为y(i),则每次迭代所对应的局部下降梯度为假设随机梯度下降算法的学习率为η,则可以将模型参数变更为Θadapt-ηg,并将变更后的模型参数作为回声消除模型当前的模型参数继续进行迭代,直至达到预设的训练停止条件时,得到目标回声消除模型。
上述实施例中,通过从训练样本集中获取目标训练样本来训练回声消除模型,由于训练样本集是基于目标设备实际采集的回声信号构建得到的,可以真实反映目标设备扬声器的回声非线性路径,因此基于目标训练样本训练得到的目标回声消除模型可以很好的适配目标设备,提升回声消除模型在落地实施时的性能。
在一些实施例中,基于近端语音信号与回声信号进行混合处理,得到混合语音信号包括:对近端语音信号添加干扰信号,得到目标近端语音信号;将目标近端语音信号与回声信号进行时域叠加,得到叠加语音信号:当叠加语音信号的时域幅值超过预设阈值时,对目标近端语音信号与回声信号的时域幅值进行缩放;对缩放后的目标近端语音信号与回声信号进行时域叠加,得到混合语音信号。
其中,干扰信号包括但不限于是噪声信号、音乐信号等等。预设阈值为预先设备的时域幅值临界值。
具体地,目标设备将近端语音信号和干扰信号进行时域叠加后,得到目标近端语音信号。目标设备进一步将目标近端语音信号与回声信号进行时域叠加,得到叠加语音信号,对于叠加语音信号,由于结合了目标近端语音信号与回声信号,其时域幅值可能非比较大,而当时域幅值超过一定的临界值时,最终得到的语音会出现爆音现象,极大地影响用户体验。基于此,可预先设置一个预设阈值,目标设备在得到叠加语音信号,将叠加语音信号与该预设阈值进行比较,当叠加语音信号的时域幅值超过预设阈值时,对目标近端语音信号与回声信号的时域幅值进行缩放,例如,可以同时对目标近端语音信号与回声信号的时域幅值缩小至原来的N(N小于1)倍,然后对缩放后的目标近端语音信号与回声信号进行时域叠加,最终得到混合语音信号。
在一些实施例中,当对目标近端语音信号与回声信号的时域幅值进行一次缩放后,可以再次将目标近端语音信号与回声信号进行时域叠加,并再次将叠加后的语音信号的时域幅值与预设阈值进行比较,当叠加后的语音信号的时域幅值仍然超过预设阈值时,再次对目标近端语音信号与回声信号的时域幅值进行缩放,如此重复多次,直至叠加后的语音信号的时域幅值不超过预设阈值时,得到混合语音信号。
在一些实施例中,如图6所示,基于近端语音信号与回声信号进行混合处理,得到混合语音信号包括:
步骤602,分别获取近端语音信号对应的第一能量值与回声信号对应的第二能量值。
步骤604,对第一能量值、第二能量值中的至少一个进行调整,以改变近端语音信号与回声信号之间的信回比。
步骤606,基于调整后的近端语音信号与回声信号进行混合处理,得到混合语音信号。
本实施例中,对第一能量值、第二能量值中的至少一个进行调整的目的是为了以不同的信回比混合数据,以模拟真实情况中回声信号远大于近端语音信号(当麦克风与扬声器离很近时常常出现),回声信号与近端语音信号能量相当,以及回声信号远小于近端能量信号的情况,信回比的计算公式可参考如下公式(2),其中,ps、pn分别为近端语音信号和回声信号的能量值:
由上面的公式可以看出,要改变信回比,可以对第一能量值、第二能量值中的至少一个进行调整,例如,可以增大第一能量值使得第一能量值远大于第二能量值,或者减少第一能量值使得第一能量值远小于第二能量值,或者对第一能量值、第二能量值同时进行调整使得第一能量值、第二能量值大小相当。
在实际应用中,近端语音信号和回声信号通常为时长较长的语音信号,目标设备可以将近端语音信号和回声信号进行切片,分别得到近端语音信号对应的近端子信号以及回声信号对应的回声子信号,进而目标设备可以在将不同的近端子信号与对应的回声子信号进行混合时,可以对近端子信号的能量值进行不同的改变得到不同的信回比,以得到多个混合语音信号,这样,不仅可以减小训练样本的内存大小,使得训练的效率提升,而且可以一次性得到多个不同信回比的训练样本,以提升样本的多样本,进而提升模型的泛化性能。
举例说明,假设近端语音信号的时长为2分钟,回声信号的时长也为2分钟,那么可以将近端语音信号切分为24个5秒的近端子信号,将回声信号也切分为24个5秒的回声子信号,则可将第一个近端子信号与第一个回声子信号进行混合,并且增大第一个近端子信号的能量值使得第一个近端子信号的能量值远大于第一个回声子信号的能量值;将第二个近端子信号与第二个回声子信号进行混合,并且减小第二个近端子信号的能量值使得第二个近端子信号的能量值远减小第二个回声子信号的能量值;将第三个近端子信号与第三个回声子信号进行混合,并且改变第三个近端子信号的能量值使得第三个近端子信号的能量值远大于第三个回声子信号的能量值,可以理解,这里的改变可以是增大或者减小,当第三个近端子信号的能量值大于第三个近端子信号的能量值时,减小第三个近端子信号的能量值,而当第三个近端子信号的能量值小于第三个近端子信号的能量值时,增大第三个近端子信号的能量值;……,依次类推,按照不同的信回比将所有混合近端子信号与对应的回声子信号进行混合。
上述实施例中,通过对第一能量值、第二能量值中的至少一个进行调整,可以改变近端语音信号与回声信号之间的信回比,从而以不同的信回比混合近端语音信号与回声信号,以对样本进行丰富,提升模型的泛化性能。
在一些实施例中,基于近端语音信号与回声信号进行混合处理,得到混合语音信号包括:基于近端语音信号与回声信号进行混合处理,得到混合语音信号包括:分别获取近端语音信号的第一时域幅值与回声信号的第二时域幅值;对第一时域幅值、第二时域幅值中的至少一个进行调整,以改变近端语音信号与回声信号之间的信回比;基于调整后的近端语音信号与回声信号进行混合处理,得到混合语音信号。
信回比除了基于能量值进行计算外,还可以基于时域幅值进行计算,具体参考以下公式(3),其中,xs、xn分别为近端语音信号和回声信号的时域幅值:
由上面的公式可以看出,要改变信回比,可以对第一时域幅值、第二时域幅值中的至少一个进行调整,例如,可以增大第一时域幅值使得第一时域幅值远大于第二时域幅值,或者减少第一时域幅值使得第一时域幅值远小于第二时域幅值,或者对第一时域幅值、第二时域幅值同时进行调整使得第一时域幅值、第二时域幅值大小相当。
在实际应用中,近端语音信号和回声信号通常为时长较长的语音信号,目标设备可以将近端语音信号和回声信号进行切片,分别得到近端语音信号对应的近端子信号以及回声信号对应的回声子信号,进而目标设备可以在将不同的近端子信号与对应的回声子信号进行混合时,可以对近端子信号的时域幅值进行不同的改变得到不同的信回比,以得到多个混合语音信号。
举例说明,假设近端语音信号的时长为2分钟,回声信号的时长也为2分钟,那么可以将近端语音信号切分为24个5秒的近端子信号,将回声信号也切分为24个5秒的回声子信号,则可将第一个近端子信号与第一个回声子信号进行混合,并且增大第一个近端子信号的时域幅值使得第一个近端子信号的时域幅值远大于第一个回声子信号的时域幅值;将第二个近端子信号与第二个回声子信号进行混合,并且减小第二个近端子信号的时域幅值使得第二个近端子信号的时域幅值远减小第二个回声子信号的时域幅值;将第三个近端子信号与第三个回声子信号进行混合,并且改变第三个近端子信号的时域幅值使得第三个近端子信号的时域幅值远大于第三个回声子信号的时域幅值,可以理解,这里的改变可以是增大或者减小,当第三个近端子信号的时域幅值大于第三个近端子信号的时域幅值时,减小第三个近端子信号的时域幅值,而当第三个近端子信号的时域幅值小于第三个近端子信号的时域幅值时,增大第三个近端子信号的时域幅值;……,依次类推,按照不同的信回比将所有混合近端子信号与对应的回声子信号进行混合。
上述实施例中,通过对第一时域幅值、第二时域幅值中的至少一个进行调整,可以改变近端语音信号与回声信号之间的信回比,从而以不同的信回比混合近端语音信号与回声信号,以对样本进行丰富,提升模型的泛化性能。
在一些具体的实施例中,本申请提供一种语音信号处理方法,以该方法应用于图1中的目标设备为例进行说明,该方法具体包括以下步骤:
1、接收参考语音信号,对参考语音信号进行信道解码。
其中,参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态。原始语音信号对应多个发声主体,且原始语音信号中包含预设比例的干扰信号。
2、播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号。
3、将回声信号与参考语音信号进行对齐,得到对齐后的回声信号。
具体地,分别对回声信号与参考语音信号进行切片,得到回声信号对应的回声子信号集合以及参考语音信号对应的参考子信号集合,对于回声子信号集合中每个回声子信号,计算回声子信号与参考子信号集合中每个参考子信号之间的相似度,得到相似度矩阵,基于相似度矩阵确定回声信号与参考语音信号之间的对齐路径,基于对齐路径将回声信号与参考语音信号进行对齐,得到对齐后的回声信号。
4、从预先建立的语料库中获取语料作为近端语音信号。
5、对近端语音信号添加干扰信号,得到目标近端语音信号。
其中,干扰信号可以是噪声信号、背景音乐等等。
6、对目标近端语音信号和对齐后的回声信号进行切片,得到目标近端语音信号对应的近端子信号,以及回声信号对应的回声子信号。
7、将近端子信号和回声子信号组成信号对,对于每一个信号对,通过改变信号对中的近端子信号和回声子信号的能量值使得不同的信号对以不同的信回比进行混合,在混合过程中,将信号对中的近端子信号和回声子信号进行时域叠加,得到叠加语音信号,判断叠加语音信号的时域幅值是否超过预设阈值,当叠加语音信号的时域幅值超过预设阈值时,对近端子信号和回声子信号的时域幅值进行缩放,对缩放后的近端子信号和回声子信号进行时域叠加,得到混合语音信号;当叠加语音信号的时域幅值不超过预设阈值时,将叠加语音信号作为该信号对最终的混合语音信号。实际应用中,建议的信噪比范围为-35dB~20dB。
5、将混合语音信号作为第一训练输入数据,将混合语音信号对应的近端语音信号作为对应的训练标签确定第一训练样本。
6、将回声子信号作为第二训练输入数据,将静音信号作为对应的训练标签确定第二训练样本。
7、将近端子信号作为第三训练输入数据,并将该近端语音信号作为对应的训练标签确定第三训练样本。
8、基于第一训练样本、第二训练样本及第三训练样本构建目标设备对应的训练样本集。
9、从训练样本集中获取目标训练样本,对目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据。
10、将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据。
11、基于训练输出数据和目标训练样本中的目标训练标签之间的差异训练回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型;目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除处理。
需要说明的是,本实施例中使用近端混合代替直接录制混有近端的回声信号有以下几点优势:1)容易计算并调节混合语音的信噪比,2)模型训练中可以使用单独的近端语音信号作为训练样本以提高模型的泛化性能,而直接录制混合语音难以得到近端语音信号,3)直接录制的混合语音信号与参考语音信号相似度较低,对齐算法难以很好的对齐。实际情况下近端语音信号通常由麦克风直接采集,其传播路径较为简单,也基本具有线性性,因而可以使用混合方法代替实际录制。在实际实验中也验证,使用实际录制的混合信号与模拟混合的近端信号效果相当。
在一些实施例中,如图7所示,提供一种语音信号处理方法,以该方法应用于计算机设备为例,该计算机设备可以为图1中的远端设备或者近端设备或者服务器,还可以是远端设备、近端设备以及服务器组成的语音通信系统,该方法具体包括以下步骤:
步骤702,获取待处理语音信号;待处理语音信号是通过对双讲语音信号进行线性回声消除处理后得到的;双讲语音信号是通过目标设备采集的。
可以理解,目标设备在与远端设备进行语音通信的过程中,远端设备的语音信号通过通信链路传输至近端设备,被目标设备的扬声器播放后又被近端设备的麦克风采集,而目标设备同时会采集近端发声主体的语音信号,因此,目标设备最终会采集到双讲语音信号。双讲语音信号为在语音通信过程中产生的混合了远端回声信号和近端语音信号的混合语音信号。这里的语音通信可以是基于网络的语音通话,例如基于社交应用程序的语音通话,也可以是基于通信基站的语音通话,例如,基于移动、连通等通信基站的语音电话。
在一些实施例中,对双讲语音信号进行线性回声消除可以是将双讲语音信号输入已训练的自适应滤波器中,通过自适应滤波器进行回声信号估计,得到估计信号,再从双讲语音信号中减去估计信号得到待处理语音信号。
步骤704,将待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对待处理语音信号进行非线性回声消除处理。
步骤706,获取目标回声消除模型输出的待处理语音信号对应的目标语音信号。
其中,目标回声消除模型是通过目标设备对应的训练样本集训练得到的;目标设备对应的训练样本集基于目标设备采集的回声信号构建的;回声信号是由目标设备采集其播放的目标参考语音信号得到的;目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态。
具体地,计算机设备将待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对混合语音信号进行非线性回声消除处理,进而获取目标回声消除模型输出的待处理语音信号对应的目标语音信号。其中,目标回声消除模型可采用上文实施例中语音信号处理方法提供的步骤训练得到,本申请在此不赘述。
上述语音信号处理方法,在获取到待处理语音信号后,将待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对混合语音信号进行非线性回声消除处理,最后获取目标回声消除模型输出的待处理语音信号对应的目标语音信号,其中,待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的,双讲语音信号是通过目标设备采集的,而由于目标回声消除模型是通过目标设备对应的训练样本集训练得到的,目标设备对应的训练样本集基于目标设备采集的回声信号构建的,回声信号是由目标设备采集其播放的目标参考语音信号得到的,目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的,初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态,因而目标回声消除模型可以更好的学习到目标设备扬声器的回声非线性路径,那么在通过该目标回声消除模型进行非线性回声消除时,可以正确地消除非线性回声,提高语音通信质量。
在一些实施例中,双讲语音信号是由目标设备在第一会议室对第一发声主体进行语音信号采集时得到的;上述方法还包括:将所述目标语音信号发送至服务器,所述服务器用于将所述目标语音信号发送至第二会议室中的远端设备;所述远端设备用于播放所述目标语音信号,并在所述第二会议室对第二发声主体进行语音信号采集。
其中,第一会议室、第二会议室为实体会议室,第一会议室和第二会议室在不同的房间。
具体地,本实施例中,计算机设备为目标设备,目标设备与远端设备建立通信连接,以使得的第一会议室的发声主体与第二会议室的发声主体之间可以进行远程会议。目标设备在得到目标语音信号后,将目标语音信号经过信道编码后发送至服务器,服务器将目标语音设备发送至第二会议室中的远端设备,远端设备对目标语音信号进行信道解码后播放目标语音信号,实现远端设备和目标设备之间的语音通信,同时,远端设备还可以在第二会议室对第二发声主体进行语音信号采集。
本申请提供一种应用场景,该应用场景应用上述的语音信号处理方法。在该应用场景中,目标设备和远端设备都安装了会议应用程序。具体地,该语音信号处理方法在该应用场景的应用如下:
(一)训练目标回声消除模型
1、构建训练样本集。如图8所示,具体包括播放语料准备、会议链路搭建、回声收集、对齐、混合近端语音信号等步骤。下面进行具体介绍:
1.1、播放语料准备
选用多说话人,男声女声比例均衡的语音作为播放语料(原始语音信号),数据来源可以选用新闻广播数据集等。也可以一定比例(如,10%)加入音乐素材,模拟近端播放音乐时的情景。因为音乐的频谱通常与语音和噪声的频谱有所不同,因而音乐素材的加入可以增加数据的多样性,提升模型训练的鲁棒性。
1.2、会议链路搭建
搭建数据采集的会议链路,如图9所示。数据采集需要近端设备和远端设备同时入会,并保持近端设备扬声器开启,远端设备扬声器关闭。两者应于不同房间接入会议,以保证远端扬声器与近端扬声器不互相干扰。会议链路搭建完毕后,务必检查系统所使用的麦克风是否选择正确,测试近端及远端的播放音量,以防音量过大产生爆音。其中,服务器为会议应用程序对应的服务器。
1.3、采集回声信号
使用音响播放1.1中准备好的原始语音信号,原始语音信号经由远端设备的会议应用程序调用麦克风采集后进行信道编码并发送至会议应用程序的服务器,服务器将该原始语音信号发送至近端设备,近端设备的会议应用程序接收到该原始语音信号后作为语音信号(far),并进行信道解码。参考信号经由近端设备扬声器播放,再被近端设备麦克风采集得到回声(Echo)。
1.4、对齐
长时间录制过程中,由于网络抖动,收集到的参考语音信号与回声信号之间的对齐可能出现漂移。而线性回声消除时通常需要两者保持大致对齐。因而,在采集完毕数据后需要对参考语音信号与回声信号进行对齐,近端设备可以采用动态时间规整算法将参考语音信号与回声信号进行对齐。
具体地,分别对回声信号与参考语音信号进行切片,得到回声信号对应的回声子信号集合以及参考语音信号对应的参考子信号集合,对于回声子信号集合中每个回声子信号,计算回声子信号与参考子信号集合中每个参考子信号之间的相似度,得到相似度矩阵,基于相似度矩阵确定回声信号与参考语音信号之间的对齐路径,基于对齐路径将回声信号与参考语音信号进行对齐,得到对齐后的回声信号。
1.5、近端语音混合
得到对齐后的参考语音信号与回声信号后,将回声信号与近端语料进行混合得到不同信噪比下的单讲、双讲、近端信号。近端语料库的准备与播放语料类似,选取多说话人、男声女声均衡的数据。其中可以给部分近端数据添加噪声(将噪声与人声在时域上叠加),也可以给部分近端数据添加背景音乐。得到对齐后的参考信号与回声信号后,对回声信号与近端语料进行混合得到不同信噪比下的单讲、双讲、近端信号。不与近端语音信号混合的纯回声信号即为单讲语音信号,不与回声信号混合的近端语音信号即为纯近端语音信号,两者混合的信号即为双讲语音信号。将双讲语音信号作为训练样本构建训练样本集,并基于双讲数据额外增加一定比例(例如10%)的单讲语音信号和纯近端语音信号有助于网络更好的学习。训练目标为经过回声消除算法后单讲语音信号全部消除,纯近端语音信号完整保留,双讲语音信号中回声被消除、近端语音被保留。在双讲语音信号混合的过程中,可以以不同信噪比(Signal to noise ratio,SNR)混合数据,以模拟真实情况中回声远大于近端(当麦克风与扬声器距离很近时常常出现),回声与近端能量相当,以及回声远小于近端能量的情况。
2、训练回声消除模型
2.1、从训练样本集中获取目标训练样本,对目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据。
2.2、将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据。
2.3、基于训练输出数据和目标训练样本中的目标训练标签之间的差异训练回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型。
(二)回声消除处理
目标设备、远端设备登录会议应用程序进行远程会议,在会议过程中,远端设备采集的远端语音信号进行信道编码后传输至会议应用程序的服务器,服务器将远端语音信号发送至目标设备,目标设备对远端语音信号解码后进行播放,并通过麦克风采集该远端语音信号以及近端语音信号得到双讲语音信号,将双讲语音信号通过已收敛的自适应滤波器进行线性回声消除,然后将残留有非线性回声的语音信号输入目标回声消除模型中进行非线性回声消除,最终得到目标语音信号,将目标语音信号通过会议应用程序的服务器发送至远端设备,远端设备接收到的目标语音信号即为消除了回声的语音信号。可以理解,这里的远端设备可以为任意的安装有会议应用程序的计算机设备。
需要说明的是,在该应用场景中,语音信号处理方法对应的计算机程序可以集成于会议应用程序的安装包中,由于不同平台的安装程序通常并不相同,例如windows与Os,Android与ios系统通常使用不同的安装包,而同一平台对应的设备常具有相似性,因而针对平台对应设备针对性地录制回声信号进行训练获得针对性模型具有可行性,那么可将同一平台对应的设备视为同一个目标设备。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图10所示,提供了一种语音信号处理装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
信号接收模块1002,用于接收参考语音信号,对参考语音信号进行信道解码;参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态;
采集模块1004,用于播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
样本集构建模块1006,用于基于回声信号构建目标设备对应的训练样本集;训练样本集用于训练得到目标设备对应的目标回声消除模型;目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除。
上述语音信号处理装置,通过接收参考语音信号,对参考语音信号进行信道解码,进一步在播放解码后的参考语音信号后,采集播放的参考语音信号得到回声信号,基于回声信号构建目标设备对应的训练样本集,训练样本集用于训练得到目标设备对应的目标回声消除模型,目标回声消除模型用于对目标设备采集的语音信号进行非线性回声消的,由于参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,而远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态,从而得到的回声信号为目标设备实录的回声信号,能够真实的反映目标设备的非线性路径,基于该回声信号构建的目标设备的训练样本集可以使得回声消除模型更好的学习到目标设备扬声器的回声非线性路径以得到适配目标设备的回声消除模型,从而提升回声消除模型在落地实施时的泛化性能,进而整体提高语音通信质量和用户体验。
在一些实施例中,样本集构建模块,还用于将回声信号与参考语音信号进行对齐,得到对齐后的回声信号;基于对齐后的回声信号得到训练样本集。
在一些实施例中,样本集构建模块,还用于分别对回声信号与参考语音信号进行切片,得到回声信号对应的回声子信号集合以及参考语音信号对应的参考子信号集合;对于回声子信号集合中每个回声子信号,计算回声子信号与参考子信号集合中每个参考子信号之间的相似度,得到相似度矩阵;基于相似度矩阵确定回声信号与参考语音信号之间的对齐路径;基于对齐路径将回声信号与参考语音信号进行对齐,得到对齐后的回声信号。
在一些实施例中,如图10A所示,样本集构建模块1006包括:
语料获取单元1006A,用于从预先建立的语料库中获取语料作为近端语音信号;
语音混合单元1006B,用于基于近端语音信号与回声信号进行混合处理,得到混合语音信号;
样本确定单元1006C,用于将混合语音信号作为第一训练输入数据,将近端语音信号作为对应的训练标签确定第一训练样本;
样本集构建单元1006D,用于基于第一训练样本构建目标设备对应的训练样本集。
在一些实施例中,样本确定单元,还用于将回声信号作为第二训练输入数据,将静音信号作为对应的训练标签确定第二训练样本;样本集构建单元,还用于基于第一训练样本和第二训练样本构建目标设备对应的训练样本集。
在一些实施例中,样本确定单元,还用于将近端语音信号作为第三训练输入数据,并将近端语音信号作为对应的训练标签确定第三训练样本;样本集构建单元,还用于基于第一训练样本、第二训练样本及第三训练样本构建目标设备对应的训练样本集。
在一些实施例中,上述装置还包括训练模块,用于从训练样本集中获取目标训练样本,对目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据;将中间训练输入数据输入回声消除模型中,通过回声消除模型对中间训练输入数据进行非线性回声消除处理,得到训练输出数据;基于训练输出数据和目标训练样本中的目标训练标签之间的差异训练回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型。
在一些实施例中,语音混合单元,还用于对近端语音信号添加干扰信号,得到目标近端语音信号;将目标近端语音信号与回声信号进行时域叠加,得到叠加语音信号:当叠加语音信号的时域幅值超过预设阈值时,对目标近端语音信号与回声信号的时域幅值进行缩放;对缩放后的目标近端语音信号与回声信号进行时域叠加,得到混合语音信号。
在一些实施例中,语音混合单元,还用于分别获取近端语音信号对应的第一能量值与回声信号对应的第二能量值;对第一能量值、第二能量值中的至少一个进行调整,以改变近端语音信号与回声信号之间的信回比;基于调整后的近端语音信号与回声信号进行混合处理,得到混合语音信号。
在一些实施例中,语音混合单元,还用于分别获取近端语音信号的第一时域幅值与回声信号的第二时域幅值;对第一时域幅值、第二时域幅值中的至少一个进行调整,以改变近端语音信号与回声信号之间的信回比;基于调整后的近端语音信号与回声信号进行混合处理,得到混合语音信号。
在一些实施例中,原始语音信号对应多个发声主体,且原始语音信号中包含预设比例的干扰信号。
在一些实施例中,如图11所示,提供了一种语音信号处理装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
信号获取模块1102,用于获取待处理语音信号;待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的;双讲语音信号是通过目标设备采集的;
输入模块1104,用于将待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对待处理语音信号进行非线性回声消除处理;目标回声消除模型是通过目标设备对应的训练样本集训练得到的;目标设备对应的训练样本集基于目标设备采集的回声信号构建的;回声信号是由目标设备采集其播放的目标参考语音信号得到的;目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态;
输出模块1106,用于获取目标回声消除模型输出的待处理语音信号对应的目标语音信号。
上述语音信号处理装置,在获取到待处理语音信号后,将待处理语音信号输入已训练的目标回声消除模型中,通过目标回声消除模型对混合语音信号进行非线性回声消除处理,最后获取目标回声消除模型输出的待处理语音信号对应的目标语音信号,其中,待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的,双讲语音信号是通过目标设备采集的,而由于目标回声消除模型是通过目标设备对应的训练样本集训练得到的,目标设备对应的训练样本集基于目标设备采集的回声信号构建的,回声信号是由目标设备采集其播放的目标参考语音信号得到的,目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的,初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的,远端设备与目标设备处于不同的位置空间且远端设备的扬声器保持关闭状态,因而目标回声消除模型可以更好的学习到目标设备扬声器的回声非线性路径,那么在通过该目标回声消除模型进行非线性回声消除时,可以正确地消除非线性回声,提高语音通信质量。
在一些实施例中,双讲语音信号是由目标设备在第一会议室对第一发声主体进行语音信号采集时得到的;上述装置还包括:发送模块,用于将目标语音信号发送至服务器,服务器用于将目标语音信号发送至第二会议室中的远端设备;远端设备用于播放目标语音信号,并在第二会议室对第二发声主体进行语音信号采集。
关于语音信号处理装置的具体限定可以参见上文中对于语音信号处理方法的限定,在此不再赘述。上述语音信号处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是目标设备,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音信号处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音信号处理方法,应用于目标设备,其特征在于,所述方法包括:
接收参考语音信号,对所述参考语音信号进行信道解码;
所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
基于所述回声信号构建所述目标设备对应的训练样本集;
所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述回声信号构建所述目标设备对应的训练样本集包括:
将所述回声信号与所述参考语音信号进行对齐,得到对齐后的回声信号;
基于对齐后的回声信号得到训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述将所述回声信号与所述参考语音信号进行对齐,得到对齐后的回声信号包括:
分别对所述回声信号与所述参考语音信号进行切片,得到所述回声信号对应的回声子信号集合以及所述参考语音信号对应的参考子信号集合;
对于所述回声子信号集合中每个回声子信号,计算所述回声子信号与所述参考子信号集合中每个参考子信号之间的相似度,得到相似度矩阵;
基于所述相似度矩阵确定所述回声信号与所述参考语音信号之间的对齐路径;
基于所述对齐路径将所述回声信号与所述参考语音信号进行对齐,得到对齐后的回声信号。
4.根据权利要求1所述的方法,其特征在于,基于所述回声信号构建所述目标设备对应的训练样本集包括:
从预先建立的语料库中获取语料作为近端语音信号;
基于所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号;
将所述混合语音信号作为第一训练输入数据,将所述近端语音信号作为对应的训练标签确定第一训练样本;
基于所述第一训练样本构建所述目标设备对应的训练样本集。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述第一训练样本构建所述目标设备对应的训练样本集之前,所述方法还包括:
将所述回声信号作为第二训练输入数据,将静音信号作为对应的训练标签确定第二训练样本;
所述基于所述第一训练样本构建所述目标设备对应的训练样本集,包括:
基于所述第一训练样本和所述第二训练样本构建所述目标设备对应的训练样本集。
6.根据权利要求5所述的方法,其特征在于,在所述基于所述第一训练样本和所述第二训练样本构建所述目标设备对应的训练样本集之前,所述方法还包括:
将所述近端语音信号作为第三训练输入数据,并将所述近端语音信号作为对应的训练标签确定第三训练样本;
所述基于所述第一训练样本和所述第二训练样本构建所述目标设备对应的训练样本集包括:
基于所述第一训练样本、所述第二训练样本及所述第三训练样本构建所述目标设备对应的训练样本集。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述训练样本集中获取目标训练样本,对所述目标训练样本中的目标训练输入数据进行线性回声消除处理,得到中间训练输入数据;
将所述中间训练输入数据输入回声消除模型中,通过所述回声消除模型对所述中间训练输入数据进行非线性回声消除处理,得到训练输出数据;
基于所述训练输出数据和所述目标训练样本中的目标训练标签之间的差异训练所述回声消除模型,当满足训练停止条件时,得到已训练的目标回声消除模型。
8.根据权利要求4所述的方法,其特征在于,所述基于所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号包括:
对所述近端语音信号添加干扰信号,得到目标近端语音信号;
将所述目标近端语音信号与所述回声信号进行时域叠加,得到叠加语音信号:
当所述叠加语音信号的时域幅值超过预设阈值时,对所述目标近端语音信号与所述回声信号的时域幅值进行缩放;
对缩放后的目标近端语音信号与回声信号进行时域叠加,得到所述混合语音信号。
9.根据权利要求4所述的方法,其特征在于,所述基于所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号包括:
分别获取所述近端语音信号对应的第一能量值与所述回声信号对应的第二能量值;
对所述第一能量值、第二能量值中的至少一个进行调整,以改变所述近端语音信号与所述回声信号之间的信回比;
基于调整后的所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号。
10.根据权利要求4所述的方法,其特征在于,所述基于所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号包括:
分别获取所述近端语音信号的第一时域幅值与所述回声信号的第二时域幅值;
对所述第一时域幅值、第二时域幅值中的至少一个进行调整,以改变所述近端语音信号与所述回声信号之间的信回比;
基于调整后的所述近端语音信号与所述回声信号进行混合处理,得到混合语音信号。
11.一种语音信号处理方法,其特征在于,所述方法包括:
获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除处理后得到的;所述双讲语音信号是通过目标设备采集的;
将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
12.一种语音信号处理装置,其特征在于,所述装置包括:
信号接收模块,用于接收参考语音信号,对所述参考语音信号进行信道解码;所述参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
采集模块,用于播放解码后的参考语音信号,并采集播放的参考语音信号得到回声信号;
样本集构建模块,用于基于所述回声信号构建所述目标设备对应的训练样本集;所述训练样本集用于训练得到所述目标设备对应的目标回声消除模型;所述目标回声消除模型用于对目标设备采集的双讲语音信号进行非线性回声消除。
13.一种语音信号处理装置,其特征在于,所述装置包括:
信号获取模块,用于获取待处理语音信号;所述待处理语音信号是通过对双讲语音信号进行线性回声消除后得到的;所述双讲语音信号是通过目标设备采集的;
输入模块,用于将所述待处理语音信号输入已训练的目标回声消除模型中,通过所述目标回声消除模型对所述待处理语音信号进行非线性回声消除处理;所述目标回声消除模型是通过所述目标设备对应的训练样本集训练得到的;所述目标设备对应的训练样本集基于目标设备采集的回声信号构建的;所述回声信号是由目标设备采集其播放的目标参考语音信号得到的;所述目标参考语音信号是由目标设备在接收到初始参考语音信号后,对初始参考语音信号进行信道解码得到的;所述初始参考语音信号是由远端设备采集原始语音信号并经过信道编码后传输的;所述远端设备与所述目标设备处于不同的位置空间且所述远端设备的扬声器保持关闭状态;
输出模块,用于获取所述目标回声消除模型输出的所述待处理语音信号对应的目标语音信号。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110371804.2A CN113707166B (zh) | 2021-04-07 | 语音信号处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110371804.2A CN113707166B (zh) | 2021-04-07 | 语音信号处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707166A true CN113707166A (zh) | 2021-11-26 |
CN113707166B CN113707166B (zh) | 2024-06-07 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902116A (zh) * | 2015-03-27 | 2015-09-09 | 腾讯科技(深圳)有限公司 | 一种音频数据与参考信号的时间对齐方法及装置 |
CN109361828A (zh) * | 2018-12-17 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 一种回声消除方法、装置、电子设备及存储介质 |
CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
US20190222691A1 (en) * | 2018-01-18 | 2019-07-18 | Knowles Electronics, Llc | Data driven echo cancellation and suppression |
CN110246515A (zh) * | 2019-07-19 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 回声的消除方法、装置、存储介质及电子装置 |
DE102018129525A1 (de) * | 2018-11-23 | 2020-05-28 | Harman Becker Automotive Systems Gmbh | Nichtlineare akustische echokompensation |
CN111477238A (zh) * | 2020-03-13 | 2020-07-31 | 大众问问(北京)信息科技有限公司 | 一种回声消除方法、装置及电子设备 |
US20200312346A1 (en) * | 2019-03-28 | 2020-10-01 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancellation using deep multitask recurrent neural networks |
CN111883154A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
CN111951819A (zh) * | 2020-08-20 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置及存储介质 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902116A (zh) * | 2015-03-27 | 2015-09-09 | 腾讯科技(深圳)有限公司 | 一种音频数据与参考信号的时间对齐方法及装置 |
US20190222691A1 (en) * | 2018-01-18 | 2019-07-18 | Knowles Electronics, Llc | Data driven echo cancellation and suppression |
CN109841206A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
DE102018129525A1 (de) * | 2018-11-23 | 2020-05-28 | Harman Becker Automotive Systems Gmbh | Nichtlineare akustische echokompensation |
CN109361828A (zh) * | 2018-12-17 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 一种回声消除方法、装置、电子设备及存储介质 |
US20200312346A1 (en) * | 2019-03-28 | 2020-10-01 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancellation using deep multitask recurrent neural networks |
CN110246515A (zh) * | 2019-07-19 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 回声的消除方法、装置、存储介质及电子装置 |
CN111477238A (zh) * | 2020-03-13 | 2020-07-31 | 大众问问(北京)信息科技有限公司 | 一种回声消除方法、装置及电子设备 |
CN111883154A (zh) * | 2020-07-17 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 回声消除方法及装置、计算机可读的存储介质、电子装置 |
CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
CN111951819A (zh) * | 2020-08-20 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3607547B1 (en) | Audio-visual speech separation | |
Koizumi et al. | DNN-based source enhancement to increase objective sound quality assessment score | |
CN111243576B (zh) | 语音识别以及模型训练方法、装置、设备和存储介质 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN111161752B (zh) | 回声消除方法和装置 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN108429994B (zh) | 音频识别、回声消除方法、装置及设备 | |
CN109036412A (zh) | 语音唤醒方法和系统 | |
CN110211575A (zh) | 用于数据增强的语音加噪方法及系统 | |
Lee et al. | Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN113823273B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN114792524B (zh) | 音频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN105448302A (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN113299306B (zh) | 回声消除方法、装置、电子设备及计算机可读存储介质 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
JPH02298998A (ja) | 音声認識装置とその方法 | |
CN113707166B (zh) | 语音信号处理方法、装置、计算机设备和存储介质 | |
CN113707166A (zh) | 语音信号处理方法、装置、计算机设备和存储介质 | |
CN111353258A (zh) | 基于编码解码神经网络的回声抑制方法及音频装置及设备 | |
CN111159501B (zh) | 一种基于多层神经网络建立判客模型的方法及判客方法 | |
CN115705839A (zh) | 语音播放方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |