CN111179957B - 一种语音通话的处理方法以及相关装置 - Google Patents

一种语音通话的处理方法以及相关装置 Download PDF

Info

Publication number
CN111179957B
CN111179957B CN202010014701.6A CN202010014701A CN111179957B CN 111179957 B CN111179957 B CN 111179957B CN 202010014701 A CN202010014701 A CN 202010014701A CN 111179957 B CN111179957 B CN 111179957B
Authority
CN
China
Prior art keywords
voice
frame
signal
delay
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010014701.6A
Other languages
English (en)
Other versions
CN111179957A (zh
Inventor
吴伟
余涛
方雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010014701.6A priority Critical patent/CN111179957B/zh
Publication of CN111179957A publication Critical patent/CN111179957A/zh
Application granted granted Critical
Publication of CN111179957B publication Critical patent/CN111179957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种语音通话的处理方法以及相关装置,通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。

Description

一种语音通话的处理方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音通话的处理方法以及相关装置。
背景技术
随着移动终端相关技术的发展,越来越多的智能设备出现在人们的生活中,其中,通过智能设备进行进行语音通话尤为突出,然而由于通话过程中麦克风也会采集本端智能设备扬声器发出的声音或对端用户发出的声音,造成回声进而影响语音的准确性。
一般,采用线性滤波器处理回声的方法进行回声消除,即对语音过程中每个频点进行固定滤波器系数的处理,以减小回声的影响。
但是,基于线性处理对硬件采集的语音质量要求较高,若硬件语音采集的质量不佳会直接影响回声消除能力的强度,故上述方法适用范围有限,且对于一般的硬件设备容易漏掉回声残余或对有效的语音产生缺失,影响回声消除的准确性,降低了用户体验。
发明内容
有鉴于此,本申请提供一种语音通话处理的方法,可以有效消除语音通话过程中的回声,提高语音通话的准确性。
本申请第一方面提供一种语音通话处理的方法,可以应用于包含语音通话功能的系统或程序中,具体包括:采集通话时间段内的语音信息;
将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
根据所述第一掩模值确定所述语音信息的信干比;
根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
可选的,在本申请一些可能的实现方式中,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述方法还包括:
获取所述第一帧的延时信息;
确定与所述第一帧的延时信息对应第一计算公式;
所述根据所述第一掩模值确定所述语音信息的信干比,包括:
将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;
根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;
所述将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱,包括:
根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;
根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。
可选的,在本申请一些可能的实现方式中,根据所述第一帧的延时信息确定延时状态,包括:
若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;
若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。
可选的,在本申请一些可能的实现方式中,所述若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动,包括:
确定第二帧的延时信息;
若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。
可选的,在本申请一些可能的实现方式中,所述采集通话时间段内的语音信息之后,所述方法还包括:
将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;
对变换后的所述语音信息进行线性滤波处理,以得到线性输出。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;
根据所述滤波器系数确定滤波估计差值;
根据所述滤波估计差值对所述滤波器系数进行更新,以得到所述第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;
所述根据所述第一掩模值确定所述语音信息的信干比,包括:
根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述对所述语音信息进行非线性处理,以得到第二掩模值,包括:
确定所述语音信息中的多个频点;
将所述模拟回声与所述多个频点进行对应,以得到每个频点中所述模拟回声的分布比例;
根据所述分布比例确定所述第二掩模值。
可选的,在本申请一些可能的实现方式中,所述根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比,包括:
基于第二计算公式对所述第一掩模值和所述第二掩模值进行计算,以得到幅度谱;
根据所述幅度谱和所述语音信息获取后验信干比;
根据所述后验信干比获取先验信干比;
根据所述后验信干比和所述先验信干比确定所述语音信息的后验概率;
所述根据所述信干比对所述语音信息进行处理,以得到用于输出的语音,包括:
根据所述后验信干比、所述先验信干比和所述后验概率确定用于指示所述干扰因素的抑制因子;
根据所述抑制因子对所述语音信息进行处理,以得到用于输出的语音。
可选的,在本申请一些可能的实现方式中,所述神经网络模型包括循环神经网络模型、深度神经网络模型或卷积神经网络模型。
本申请第二方面提供一种语音通话处理的装置,包括:采集单元,用于采集通话时间段内的语音信息;
神经网络单元,用于将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
确定单元,用于根据所述第一掩模值确定所述语音信息的信干比;
处理单元,用于根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
可选的,在本申请一些可能的实现方式中,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述采集单元,还用于获取所述第一帧的延时信息;
所述采集单元,还用于确定与所述第一帧的延时信息对应第一计算公式;
所述确定单元,具体用于将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;
所述确定单元,具体用于根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述确定单元,还用于获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;
所述确定单元,具体用于根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;
所述确定单元,具体用于根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;
所述确定单元,具体用于若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。
可选的,在本申请一些可能的实现方式中,所所述确定单元,具体用于确定第二帧的延时信息;
所述确定单元,具体用于若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。
可选的,在本申请一些可能的实现方式中,所述采集单元,还用于将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;
所述采集单元,还用于对变换后的所述语音信息进行线性滤波处理,以得到线性输出。
可选的,在本申请一些可能的实现方式中,所述采集单元,还用于确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;
所述采集单元,还用于根据所述滤波器系数确定滤波估计差值;
所述采集单元,还用于根据所述滤波估计差值对所述滤波器系数进行更新,以得到所述第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。
可选的,在本申请一些可能的实现方式中,所述采集单元,还用于基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;
所述采集单元,还用于所述根据所述第一掩模值确定所述语音信息的信干比,包括:
所述采集单元,还用于根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于确定所述语音信息中的多个频点;
所述确定单元,具体用于将所述模拟回声与所述多个频点进行对应,以得到每个频点中所述模拟回声的分布比例;
所述确定单元,具体用于根据所述分布比例确定所述第二掩模值。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于基于第二计算公式对所述第一掩模值和所述第二掩模值进行计算,以得到幅度谱;
所述确定单元,具体用于根据所述幅度谱和所述语音信息获取后验信干比;
所述确定单元,具体用于根据所述后验信干比获取先验信干比;
所述确定单元,具体用于根据所述后验信干比和所述先验信干比确定所述语音信息的后验概率;
所述处理单元,具体用于根据所述后验信干比、所述先验信干比和所述后验概率确定用于指示所述干扰因素的抑制因子;
所述处理单元,具体用于根据所述抑制因子对所述语音信息进行处理,以得到用于输出的语音。
本申请第三方面提供一种神经网络模型的训练方法,包括:
采集参考信号和采集信号,所述参考信号基于至少两种干扰因素确定,所述干扰因素包括背景回声和人声回声,所述采集信号用于指示通话过程中的有效语音;
根据所述参考信号和采集信号生成特征训练集;
将所述特征训练集输入神经网络进行至少一个循环的训练,以得到训练后的神经网络,所述训练后的神经网络用于根据语音信息获取第一掩模值,所述第一掩模值用于指示所述语音信息是所述有效语音的概率。
本申请第四方面提供一种神经网络模型的训练装置,包括:
采集单元,用于采集参考信号和采集信号,所述参考信号基于至少两种干扰因素确定,所述干扰因素包括背景回声和人声回声,所述采集信号用于指示通话过程中的有效语音;
生成单元,用于根据所述参考信号和采集信号生成特征训练集;
训练单元,用于将所述特征训练集输入神经网络进行至少一个循环的训练,以得到训练后的神经网络,所述训练后的神经网络用于根据语音信息获取第一掩模值,所述第一掩模值用于指示所述语音信息是所述有效语音的概率。
本申请第五方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的语音通话处理的方法,或上述第三方面所述的神经网络模型训练的方法。
本申请第六方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的语音通话处理的方法,或上述第三方面所述的神经网络模型训练的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,其中神经网络模型基于多个参考信号与多个采集信号进行特征训练所得;并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,由于是特征的对应模拟过程,不受硬件能力的影响,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为语音通话处理系统运行的网络架构图;
图2为本申请实施例提供的一种语音通话处理的流程架构图;
图3为本申请实施例提供的一种语音通话处理的方法的流程图;
图4为本申请实施例提供的一种语音通话处理公式的逻辑示意图;
图5为本申请实施例提供的另一种语音通话处理的方法的流程图;
图6为本申请实施例提供的一种语音通话处理的效果对比图;
图7为本申请实施例提供的一种神经网络的训练方法示意图;
图8为本申请实施例提供的另一种语音通话处理的方法的流程图;
图9为本申请实施例提供的一种语音通话处理的场景示意图;
图10为本申请实施例提供的另一种语音通话处理的场景示意图;
图11为本申请实施例提供的一种语音通话处理的流程框架图;
图12为本申请实施例提供的一种语音通话处理装置的结构示意图;
图13为本申请实施例提供的一种神经网络训练装置的结构示意图;
图14为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
本申请实施例提供了一种语音通话处理的方法以及相关装置,可以应用于包含语音通话功能的系统或程序中,通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,其中神经网络模型基于多个参考信号与多个采集信号进行特征训练所得;并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,由于是特征的对应模拟过程,不受硬件能力的影响,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
回声消除(acoustic echo cancellation,AEC):在手机语音通话过程中,手机麦克风不仅采集了近端讲话人的声音,也同时采集到扬声器播放出来的声音,麦克采集到的扬声器播放的声音称为回声,语音通话过程中,需要消除回声保留近端语音讲话声然后传输到对端。其中,麦克风采集到的语音称为采集信号,而扬声器播放出来的语音称为参考信号。
循环神经网络(recurrent neural network,RNN):深度学习的一种算法,是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
互相关:表示两个时间序列之间的相关程度,即相关度。
回声返回衰减增益(echo return loss enhancement,ERLE):评价回声消除的指标,其值越大,代表回声消除能力越强。
信干比:近端信号和干扰之比,干扰主要包括回声和噪声。
回声残余:在经过依次回声消除步骤后未消除的回声。
应理解,本申请提供的语音通话处理方法可以应用于包含语音通话功能的系统或程序中,例如游戏语音通话场景、视频会议场景、语音直播场景或网络电话(voice overinternet protocol,VOIP)通话场景等,具体的,语音通话处理系统可以运行于如图1所示的网络架构中,如图1所示,是语音通话处理系统运行的网络架构图,如图可知,语音通话处理系统可以提供与多个信息源的语音通话处理,终端通过网络建立与服务器的连接,进而连接先关联的其他终端,进而实现语音通话功能,可以理解的是,图1中示出了多种终端设备,在实际场景中可以有更多或更少种类的终端设备参与到语音通话处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多应用控制交互的场景中,具体服务器数量因实际场景而定。
应当注意的是,本实施例提供的语音通话处理方法也可以离线进行,即不需要服务器的参与,此时终端在本地与其他终端进行连接,进而进行回声消除的过程。
可以理解的是,上述语音通话处理系统可以运行于个人移动终端,例如:作为触屏操作游戏这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供语音通话处理,以得到信息源的回声消除处理结果;具体的语音通话处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着移动终端相关技术的发展,越来越多的智能设备出现在人们的生活中,其中,通过智能设备进行进行语音通话尤为突出;在语音通话过程中会包括用户之间的语音,即有效语音;以及由通话过程中麦克风采集到的本端智能设备扬声器发出的声音或对端用户发出的声音而产生的回声;还包括由于环境因素造成的噪声。由于在有效语音中掺杂了回声和噪声,进而会影响语音的准确性。
一般,采用线性滤波器处理回声的方法进行回声消除,即对语音过程中每个频点进行固定滤波器系数的处理,以减小回声的影响。
但是,单纯的线性处理对语音采集的质量要求较高,若硬件语音采集的质量不佳会直接影响回声消除能力的强度,故上述方法对硬件要求较高,对于一般的硬件设备容易漏掉回声残余或对有效的语音产生缺失,影响回声消除的准确性,降低了用户体验。
为了解决上述问题,本申请提出了一种语音通话处理的方法,该方法应用于图2所示的语音通话处理的流程框架中,如图2所示,为本申请实施例提供的一种语音通话处理的流程架构图,首先客户端采集用户的实时语音,然后输入神经网络进行处理,以得到指示有效语音概率的掩模值,进而得到输出语音;其中,该神经网络是由参考信息与采集信号进行多个循环训练得到的,参考信号包括了至少两种干扰因素。
可以理解的是,由于一般环境噪声所处的频段与有效语音不同,可以由一般滤波器进行过滤;而回声由于与有效语音所述频段近似,且往往伴随着有效语音的产生而产生,由一般滤波器难以去除,而本申请提供的语音通话处理的方法既可以是针对回声的,同时也可以是应用于噪声的消除,此处不做限定。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种语音通话处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该语音通话处理装置通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,其中神经网络模型基于多个参考信号与多个采集信号进行特征训练所得;并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,由于是特征的对应模拟过程,不受硬件能力的影响,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。
结合上述流程架构,下面将对本申请中语音通话处理的方法进行介绍,请参阅图3,图3为本申请实施例提供的一种语音通话处理的方法的流程图,本申请实施例至少包括以下步骤:
301、采集通话时间段内的语音信息。
本实施例中,采集过程可以是实时进行的,即在接收到用户发出的语音后立即进行回声消除处理。
可以理解的是,语音信息中包含了用户的有效语音与噪音,其中噪音包括本端扬声器播放的声音、对端用户的语音播放等。
可选的,在采集语音信息之后,还可以对语音信息进行线性过滤,具体的,可以根据过滤器系数处于所述语音信息的语音序列,以得到处理后的语音信息。
302、将所述语音信息输入神经网络模型,以获取第一掩模值。
本实施例中,该神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,该参考信号用于指示通话过程中的干扰因素,该采集信号用于指示通话过程中的有效语音,该第一掩模值用于指示该语音信息是该有效语音的概率。
可以理解的是,对于参考信号和采集信号的选择还应参照在实际采集语音信息过程中的前处理过程,例如:若语音信息采集之后进行了线性过滤,则对应的在训练神经网络模型时,对样本进行对应的线性过滤,以保证影响因素的一致性,在游戏场景中,若语音信息采集之后进行了线性过滤,则训练样本应是经过线性过滤的游戏背景音、经过线性过滤的远端人声以及有效语音样本。
可选的,神经网络模型可以采用循环神经网络,也可以采用深度神经网络,还可以采用卷积神经网络等,具体的模型形式因实际场景而定,此处不做限定。
在一种可能的场景中,将语音信息输出送给经过训练的的循环神经网络后,具有记忆的神经网络根据提取回声和近端人声特点,在每个频点上一一映射也形成一个具有抑制回声的第一掩模值,记为mask2。
303、根据所述第一掩模值确定所述语音信息的信干比。
本实施例中,由于通话过程中可能存在延时的问题,此时可以根据不同的计算方式确定不同延时状态下的信干比。
可选的,由于语音信息包括至少两个帧,故针对该至少两个帧中的第一帧获取其延时信息;然后确定与该第一帧的延时信息对应第一计算公式;进而将该第一掩模值代入到该第一计算公式,以确定该第一帧的幅度谱;并根据该至少两个帧中每个第一帧的幅度谱确定该语音信息的信干比。
其中,延时状态基于第一帧与相邻帧的延时差值确定,若该第一帧与相邻帧的延时差值小于延时阈值,则确定该多个帧的延时状态为延时稳定,可以将该状态记为D_flag=0;若该第一帧与该相邻帧的延时差值大于或等于该延时阈值,则确定该多个帧的延时状态为延时波动,可以将该状态记为D_flag=1。
由于需要对每个帧进行延时状态的判断,在一种场景中可以根据第二帧的状态推测第一帧的状态,具体的,首先确定第二帧的延时信息;若该第二帧的延时信息大于或等于该延时阈值,则确定预设范围内多个帧的延时信息,该预设范围包括该第一帧和该第二帧。在一种具体的场景中,若第一帧发生延时波动,则可以确定第一帧后面的20帧都是波动的。
另外,由于回声的来源可能是本端扬声器发出的,也可能是远端用户的语音,两种情况下对于幅度谱的计算是不同的,故首先获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;然后根据该第一帧的延时信息确定延时状态,该延时状态包括延时稳定和延时波动;进而根据该相关度确定不同延时状态下该第一帧对应的该第一计算公式。
通过上述可能场景的描述,可以参考图4中的运算逻辑进行第一计算公式额确定及计算,如图4所示,是本申请实施例提供的一种语音通话处理公式的逻辑示意图。
首先语音信息的输出为e(k,l),其中,e表示线性滤波输出语音,k表示频点索引,l表示帧数;然后判断延时状态值是否为0,如果D_flag=0,则表示延时稳定,此时若当前时刻的参考信号x与当前时刻的采集信号y的相关度R(x,y)大于0.9,表示当前很可能是单远端回声信号,则所求回声残余幅度谱Res2(k,l)=e(k,l)(1-mask2),若相关度R(x,y)不大于0.9,表示当前可能是双讲或采集非线性失真较大,则所求回声幅度谱Res2(k,l)=e(k,l)(1-mask2)·η。其中η为置信因子,本实施例中η可以取0.5。
另外,如果判断D_flag不等于0,表示延时状态波动,此时判断mask2是否小于0.15,若小于0.15,则当前帧回声幅度谱估计为Res2(k,l)=e(k,l)(1-mask2),如果mask2不小于0.15,继续判断互相关函数R(x,y)的大小,若R(x,y)大于0.8,则当前帧回声残余幅度谱为Res2(k,l)=e(k,l)(1-mask2),若R(x,y)不大于0.8,则Res2(k,l)=e(k,l)(1-mask2)·η。
根据上述回声幅度谱的计算过程,接下来对信干比的计算过程进行说明。
首先,对回声幅度谱Rd(k,l)进行估计:
Rd(k,l)=max{Res2(k,l)}
本公式即用于指示选取语音信息的各个频点中回声幅度谱最大的估计值作为该帧回声幅度谱。其中,k表示频点索引,l表示帧数,Res2(k,l)为当前帧回声幅度谱估计。
然后,根据所求回声幅度谱以及语音信号可以得到语音信号后验信干比γ(k,l):
Figure BDA0002358434850000141
即根据语音信息的输出与该语音信息的回声幅度谱的比值得到语音信号后验信干比。其中,k表示频点索引,l表示帧数,e(k,l)为语音信息的输出,Rd(k,l)为当前帧的回声幅度谱。
接下来,根据后验信干比得到先验信干比ε(k,l):
Figure BDA0002358434850000142
其中,k表示频点索引,l表示帧数,GH1(k,l-1)是上一帧语音的增益函数,在求解当前帧l时是已知的,α为相邻两帧的平滑因子,γ(k,l)为语音信号后验信干比。
进而,计算语音存在的后验概率P(k,l):
Figure BDA0002358434850000143
其中,k表示频点索引,l表示帧数,γ(k,l)为语音信号后验信干比,ε(k,l)为语音信号先验信干比。
304、根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
本实施例中,基于上述步骤303中的先验信干比和后验信干比,以及每个频点语音存在的后验概率,就可以得到每个频点残余回声的抑制因子。
具体的,抑制因子
Figure BDA0002358434850000151
可以参考第二计算公式进行:
Figure BDA0002358434850000152
其中,e表示线性滤波输出语音,k表示频点索引,l表示帧数,γ(k,l)表示后验信干比,ε(k,l)表示先验信干比,P(k,l)表示后验概率,v(k,l)表示下界参数。
然后,用抑制因子乘以线性输出频域信号,就得到用于输出的语音了。
结合上述实施例可知,通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,其中神经网络模型基于多个参考信号与多个采集信号进行特征训练所得;并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,由于是特征的对应模拟过程,不受硬件能力的影响,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。
上述实施例介绍了基于神经网络的语音通话的处理过程,另外,本申请还提供一种神经网络与非线性过滤相结合的语音通话的处理过程,下面将对该场景进行介绍,请参阅图5,图5为本申请实施例提供的另一种语音通话处理的方法的流程图,本申请实施例至少包括以下步骤:
501、采集通话时间段内的语音信息。
本实施例中,可参考图3所示实施例的步骤301相似,相关特征描述可以进行参考,此处不做赘述。
502、对语音信息进行线性过滤。
本实施例中,线性过滤的过程即根据过滤器系数对语音信息对应的语音序列进行加权,以消除回声的影响。具体的,可以采用自适应性滤波器,即不断的自身调节过滤器系数,将对未知系统的输入作为自适应滤波器的输入,使用来自未知系统的输出作为自适应滤波器的参考。当误差最小时,确定对应的过滤器系数进行接下来的处理过程。另外,还可以采用前一帧的输出信号用作自适应滤波器的期望响应,后一帧信号用作滤波器的输入;通过自适应滤波器可以消除输出环境的噪声对信息信号的干扰,使得输出信号更干净,信噪比更高。
503、将线性过滤后的语音信息输入神经网络模型。
本实施例中,线性过滤后的语音信息相当于图3所示实施例的步骤302中的语音信息输入,相关的特征描述可以进行参考,此处不做赘述。
504、将线性过滤后的语音信息进行非线性计算。
本实施例中,非线性计算会通过线性后所求模拟回声以及采集与参考信号之间的互相关求出线性频域输出信号每个频点回声残余和近端人声分布的情况,通过残余分布情况和近端人声的比例得出每个频点回声残余的估计值,因此形成每个频点的回声估计掩模值,记为mask1,即第二掩模值。
因此回声残余为Res1(k,l)=e(k,l)·mask1。其中,e表示线性滤波输出语音,k表示频点索引,l表示帧数。
505、获取回声残余的幅度谱。
本实施例中,回声残余的幅度谱考虑到神经网络的输出和非线性处理的输出,需要对两者输出的回声残余进行结合。
具体的可以通过如下公式实现:
Rd(k,l)=max{Res1(k,l),Res2(k,l)}
本公式即用于指示选取神经网络的输出和非线性处理的输出的回声残余幅度谱中的最大值。其中,k表示频点索引,l表示帧数,Res1(k,l)为非线性处理的输出的当前帧回声幅度谱估计;Res2(k,l)为神经网络的输出的当前帧回声幅度谱估计。
506、确定所述语音信息的信干比。
本实施例中,根据步骤505所求回声残余的幅度谱以及步骤502中的线性输出信号可以得到语音信号后验信干比γ(k,l):
Figure BDA0002358434850000171
即根据语音信息的输出与该语音信息的回声幅度谱的比值得到语音信号后验信干比。其中,k表示频点索引,l表示帧数,e(k,l)为语音信息的输出,Rd(k,l)为当前帧的回声幅度谱。
接下来,根据后验信干比得到先验信干比ε(k,l):
Figure BDA0002358434850000172
其中,k表示频点索引,l表示帧数,GH1(k,l-1)是上一帧语音的增益函数,在求解当前帧l时是已知的,α为相邻两帧的平滑因子,γ(k,l)为语音信号后验信干比。
进而,计算语音存在的后验概率P(k,l):
Figure BDA0002358434850000173
其中,k表示频点索引,l表示帧数,γ(k,l)为语音信号后验信干比,ε(k,l)为语音信号先验信干比。
507、获取用于输出的语音。
本实施例中,基于上述步骤506中的先验信干比和后验信干比,以及每个频点语音存在的后验概率,就可以得到每个频点残余回声的抑制因子。
具体的,抑制因子
Figure BDA0002358434850000174
可以参考第二计算公式进行:
Figure BDA0002358434850000175
其中,e表示线性滤波输出语音,k表示频点索引,l表示帧数,γ(k,l)表示后验信干比,ε(k,l)表示先验信干比,P(k,l)表示后验概率,v(k,l)表示下界参数。
然后,用抑制因子乘以线性输出频域信号,就得到用于输出的语音了。
通过上述实施例将神经网络与非线性过滤结合应用到了回声残余的消除过程中,进一步的提高了回声消除的准确率,保证了语音通话过程的质量,提高了用户体验。
在一种可能的场景中,通过上述图5所述的实施例对游戏中的回声进行了消除,得到如图6所示的效果图,如图6所示,是本申请实施例提供的一种语音通话处理的效果对比图。图中通过回声返回衰减增益曲线来反映回声消除的效果,其中曲线A为经过图5所述的实施例中线性处理后,神经网络和非线性计算结合处理回声残余的过程;而曲线B是线性处理后只采用非线性计算处理回声残余的过程。具体的,通过图6可以得到表1所述的数据,表1为近端检测的语音质量对比情况。
表1近端检测的语音质量对比情况
Figure BDA0002358434850000181
在游戏过程中,打开背景音讲话,不同信号回声比(signal echo ratio,SER)条件下,双讲近端语音保留量,语音质量范围0-1之间,数值越大越好,其中不同SER的信号由远端信号和近端信号叠加混合而成。
结合图6所示的曲线以及表1所示的数据可见,由于神经网络的添加以及结合应用,提高了回声消除的能力。
上述实施例介绍了神经网路在语音通话过程中的应用方法,下面结合附图对神经网络具体的训练过程进行说明。
首先,采集参考信号和采集信号,所述参考信号基于至少两种干扰因素确定,所述干扰因素包括背景回声和人声回声,所述采集信号用于指示通话过程中的有效语音,例如收集王者荣耀各种游戏背景音乐和角色打斗背景音效声,以及现实中各种人声,通过多款不同手机播放录制。在安静的录音室环境下,分别通过手机播放游戏背景音和人声,将通过手机播放并被手机麦克采集到的游戏背景音和人声作为单远端信号,此时手机会同时保存了单远端游戏背景音和人声的参考信号。通过音箱播放人声,经过手机麦克采集录音,这个时候将手机采集到的纯净人声作为单近端信号,即采集信号。
其中,在采集参考信号和采集信号之后,可以直接输入网络进行特征关联,也可以进行线性过滤过程,这是由于一般回声消除过程中会先采用线性过滤,此时,神经网络的训练样本相当于线性过滤后的回声残余与有效语音,故在这种场景中需要对样本也进行线性过滤。
Step1:求模拟回声。其中,n为样本的序号,x(n)是输入参考信号,wT(n)是滤波器系数,
Figure BDA0002358434850000191
是滤波器通过模拟回声路径所求模拟回声输出。
Figure BDA0002358434850000192
Step2:计算滤波估计差值。其中,d(n)是麦克风采集信号,e(n)是麦克风信号和模拟回声信号残差输出。
Figure BDA0002358434850000193
Step3:对滤波器系数更新。其中,μ是调节因子,修正迭代步长的偏差,δ是很小的常数。
Figure BDA0002358434850000194
Step4:循环上述Step1-Step3直到e(n)趋于0时,循环结束,最后求的w(n)就是当前滤波器系数。
通过上述线性过滤处理后,会留下回声残余。此时将做完线性滤波处理后的游戏背景音(参考信号)、做完线性滤波处理后的单远端人声(参考信号)、不做任何处理的单近端人声(采集信号)共三类音频序列做为特征训练集。
在得到特征训练集之后将所述特征训练集输入神经网络进行至少一个循环的训练,以得到训练后的神经网络,所述训练后的神经网络用于根据语音信息获取第一掩模值,所述第一掩模值用于指示所述语音信息是所述有效语音的概率。
可选的,神经网络可以选择循环神经网络模型(recurrent neural network,RNN)、深度神经网络模型或卷积神经网络模型,下面以RNN为例进行说明。
本实施例中,由于分别录制的游戏背景音和人声,因此省去了人工标注分类打标签过程,直接将不做任何处理录制的单近端人声作为需要保留的人声语音序列训练集,将另外两类作为需要消除的回声语音序列训练集,将分过类的语音序列训练集通过RNN强化训练,因为经过线性处理后的远端人声和游戏背景音序列和不做任何处理的近端人声序列频谱特征差异明显,RNN会分别提取单远端游戏背景音和人声回声残余以及近端人声特征,区分近端人声和远端背景音回声残余,并构建基于门控循环单元(gated recurrenceunit,GRU)的神经网络模型。如图7所示,是本申请实施例提供的一种神经网络的训练方法示意图。
该模型使用GRU,与简单的循环单元相比,GRU有两个额外的门。复位门决定是否将当前状态记忆,以用于计算新状态;而更新门决定当前状态将根据新输入改变多少。当这个更新门关闭时,GRU可以长时间地记住信息。
在一种具体的场景中,首先对语音数据分帧,每帧20ms,其中包括320个数据点,对这个数据点通过梅尔倒谱系数(mel frequency cepstral coefficents,MFCC)提取42维的特征,输入网络,经过第一层GRU,输出24维信息与原始输入42维特征进入第二层GRU,输出48维信息加上原始输入特征,进入第三层GRU,输出22维的点,根据22维的点拟合映射到每个频点,最终输出每个频点是有效语音概率的掩模值。
上述训练过程也可以应用于深度神经网络模型或卷积神经网络模型中,此处不做赘述。
通过上述实施例可以对神经网络进行训练,使得通过输入的语音信息可以得到该语音信息的每个频点是有效语音的概率,进而进行信干比以及抑制因子的计算,最终得到消除回声的语音并输出,保证了语音通话的精确性。
上述实施例可以应用于游戏语音通话场景,也可以用到视频会议场景,还语音直播场景或网络通话场景。下面结合附图介绍本申请提供的方法在游戏语音场景中的应用过程,例如:王者荣耀;如图8所示,是本申请实施例提供的另一种语音通话处理的方法的流程图,该过程包括如下步骤:
801、获取游戏启动指令。
本实施例中,游戏的启动指令可以是游戏开始运行,或者游戏中某一特定场景线程的触发,例如:进入战斗场景。
802、若特征元素被触发,则进行回声消除。
本实施例中,特征元素为启动语音通话功能的实体或虚拟按钮,具体的,可以通过游戏界面中相关元素的触发判断是否进行上述语音通话的处理过程,如图9所示,是本申请实施例提供的一种语音通话处理的场景示意图,图中框出的特征元素A1即为一种触发方式,即当用户触发扬声器和麦克时,游戏客户端后台自动唤起上述图3-图6所述的实施例过程。
803、输出处理后的语音信号。
本实施例中,通过播放上述回声消除后的语音信号,可以实现两个或多个用户之间的清晰的语音通话过程,提高用户体验。
另外,基于上述神经网络模型的训练过程中还涉及不同音量的样本采集过程以及不同人声背景声的过程,在游戏场景中,还可以获取游戏运行时的语音播放参数和音乐播放参数,如图10所示,是本申请实施例提供的另一种语音通话处理的场景示意图,图中示出了语音通话的音量的开关状态以及具体数值,还有背景音乐的开关状态以及具体数值,客户端可以对这些语音播放参数和音乐播放参数进行统计,以便于在样本采集过程中对神经网络进行进一步的优化,进一步提高不同场景下回声消除的准确性。
上述游戏场景的语音通话处理过程可以参考图11所示的流程,如图11所示,为本申请实施例提供的语音通话处理装置的结构示意图,首先在接收到图9指示的特征元素的触发指令后,对语音信息进行线性滤波过滤,以得到线性输出,然后对该线性输出一方面进行非线性滤波的处理得到第二掩模值,另一方面进行神经网络的处理得到第一掩模值,然后根据第一掩模值指示的回声残余与第二掩模值进行融合,得到当前通话的幅度谱,进而通过图5实施例中的计算方法计算信干比以及语音存在的概率,然后得到抑制因子,进一步对语音信息进行处理以得到输出的语音。
其中,对于神经网络的训练过程需要进行不断的统计,例如统计图10指示的常用的背景音量、语音音量等信息,以便于循环的进行特征训练优化神经模型。
可以理解的是,上述实施例以游戏场景为例进行说明,具体的也可以是应用于视频会议场景、语音直播场景或网络通话场景。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图12,图12为本申请实施例提供的一种语音通话处理装置的结构示意图,语音通话处理装置1200包括:
采集单元1201,用于采集通话时间段内的语音信息;
神经网络单元1202,用于将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
确定单元1203,用于根据所述第一掩模值确定所述语音信息的信干比;
处理单元1204,用于根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
可选的,在本申请一些可能的实现方式中,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述采集单元1201,还用于获取所述第一帧的延时信息;
所述采集单元1201,还用于确定与所述第一帧的延时信息对应第一计算公式;
所述确定单元1203,具体用于将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;
所述确定单元1203,具体用于根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述确定单元1203,还用于获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;
所述确定单元1203,具体用于根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;
所述确定单元1203,具体用于根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。
可选的,在本申请一些可能的实现方式中,所述确定单元1203,具体用于若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;
所述确定单元1203,具体用于若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。
可选的,在本申请一些可能的实现方式中,所所述确定单元1203,具体用于确定第二帧的延时信息;
所述确定单元1203,具体用于若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。
可选的,在本申请一些可能的实现方式中,所述采集单元1201,还用于将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;
所述采集单元1201,还用于对变换后的所述语音信息进行线性滤波处理,以得到线性输出。
可选的,在本申请一些可能的实现方式中,所述采集单元1201,还用于确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;
所述采集单元1201,还用于根据所述滤波器系数确定滤波估计差值;
所述采集单元1201,还用于根据所述滤波估计差值对所述滤波器系数进行更新,以得到所述第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。
可选的,在本申请一些可能的实现方式中,所述采集单元1201,还用于基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;
所述采集单元1201,还用于所述根据所述第一掩模值确定所述语音信息的信干比,包括:
所述采集单元1201,还用于根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比。
可选的,在本申请一些可能的实现方式中,所述确定单元1203,具体用于确定所述语音信息中的多个频点;
所述确定单元1203,具体用于将所述模拟回声与所述多个频点进行对应,以得到每个频点中所述模拟回声的分布比例;
所述确定单元1203,具体用于根据所述分布比例确定所述第二掩模值。
可选的,在本申请一些可能的实现方式中,所述确定单元1203,具体用于基于第二计算公式对所述第一掩模值和所述第二掩模值进行计算,以得到幅度谱;
所述确定单元1203,具体用于根据所述幅度谱和所述语音信息获取后验信干比;
所述确定单元1203,具体用于根据所述后验信干比获取先验信干比;
所述确定单元1203,具体用于根据所述后验信干比和所述先验信干比确定所述语音信息的后验概率;
所述处理单元1204,具体用于根据所述后验信干比、所述先验信干比和所述后验概率确定用于指示所述干扰因素的抑制因子;
所述处理单元1204,具体用于根据所述抑制因子对所述语音信息进行处理,以得到用于输出的语音。
通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,其中神经网络模型基于多个参考信号与多个采集信号进行特征训练所得;并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,由于是特征的对应模拟过程,不受硬件能力的影响,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。
本实施例还提供一种神经网络模型的训练装置1300,如图13所示,为本申请实施例提供的一种神经网络模型训练装置的结构示意图,包括:
采集单元1301,用于采集参考信号和采集信号,所述参考信号基于至少两种干扰因素确定,所述干扰因素包括背景回声和人声回声,所述采集信号用于指示通话过程中的有效语音;
生成单元1302,用于根据所述参考信号和采集信号生成特征训练集;
训练单元1303,用于将所述特征训练集输入神经网络进行至少一个循环的训练,以得到训练后的神经网络,所述训练后的神经网络用于根据语音信息获取第一掩模值,所述第一掩模值用于指示所述语音信息是所述有效语音的概率。
本申请实施例还提供了一种终端设备,如图14所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14,手机包括:射频(radio frequency,RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity,WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图14中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图14对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作,以及在触控面板1431上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;可选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),可选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1480还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有语音通话处理指令,当其在计算机上运行时,使得计算机执行如前述图2至图12所示实施例描述的方法中语音通话处理装置所执行的步骤。
本申请实施例中还提供一种包括语音通话处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图12所示实施例描述的方法中语音通话处理装置所执行的步骤。
本申请实施例还提供了一种语音通话处理系统,所述语音通话处理系统可以包含图13所描述实施例中的语音通话处理装置,或者图14所描述的终端设备。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,语音通话处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种语音通话的处理方法,其特征在于,包括:
采集通话时间段内的语音信息;
将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
根据所述第一掩模值确定所述语音信息的信干比;
根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
2.根据权利要求1所述的方法,其特征在于,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述方法还包括:
获取所述第一帧的延时信息;
确定与所述第一帧的延时信息对应第一计算公式;
所述根据所述第一掩模值确定所述语音信息的信干比,包括:
将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;
根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;
所述将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱,包括:
根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;
根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一帧的延时信息确定延时状态,包括:
若所述第一帧与相邻帧的延时差值小于延时阈值,则确定多个帧的延时状态为延时稳定;
若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。
5.根据权利要求4所述的方法,其特征在于,所述若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动,包括:
确定第二帧的延时信息;
若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。
6.根据权利要求5所述的方法,其特征在于,所述采集通话时间段内的语音信息之后,所述方法还包括:
将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;
对变换后的所述语音信息进行线性滤波处理,以得到线性输出。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;
根据所述滤波器系数确定滤波估计差值;
根据所述滤波估计差值对所述滤波器系数进行更新,以得到第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;
所述根据所述第一掩模值确定所述语音信息的信干比,包括:
根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比。
9.根据权利要求8所述的方法,其特征在于,所述对所述语音信息进行非线性处理,以得到第二掩模值,包括:
确定所述语音信息中的多个频点;
将所述模拟回声与所述多个频点进行对应,以得到每个频点中所述模拟回声的分布比例;
根据所述分布比例确定所述第二掩模值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比,包括:
基于第二计算公式对所述第一掩模值和所述第二掩模值进行计算,以得到幅度谱;
根据所述幅度谱和所述语音信息获取后验信干比;
根据所述后验信干比获取先验信干比;
根据所述后验信干比和所述先验信干比确定所述语音信息的后验概率;
所述根据所述信干比对所述语音信息进行处理,以得到用于输出的语音,包括:
根据所述后验信干比、所述先验信干比和所述后验概率确定用于指示所述干扰因素的抑制因子;
根据所述抑制因子对所述语音信息进行处理,以得到用于输出的语音。
11.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括循环神经网络模型、深度神经网络模型或卷积神经网络模型。
12.一种神经网络模型的训练方法,其特征在于,包括:
采集参考信号和采集信号,所述参考信号基于至少两种干扰因素确定,所述干扰因素包括背景回声和人声回声,所述采集信号用于指示通话过程中的有效语音;
根据所述参考信号和采集信号生成特征训练集;
将所述特征训练集输入神经网络进行至少一个循环的训练,以得到训练后的神经网络,所述训练后的神经网络用于根据语音信息获取第一掩模值,所述第一掩模值用于指示所述语音信息是所述有效语音的概率。
13.一种语音通话的处理装置,其特征在于,包括:
采集单元,采集通话时间段内的语音信息;
神经网络单元,用于将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
确定单元,用于根据所述第一掩模值确定所述语音信息的信干比;
处理单元,用于根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至11任一项所述的语音通话处理的方法,或权利要求12所述的神经网络模型的训练方法。
15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至11任一项所述的语音通话处理的方法,或权利要求12所述的神经网络模型的训练方法。
CN202010014701.6A 2020-01-07 2020-01-07 一种语音通话的处理方法以及相关装置 Active CN111179957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010014701.6A CN111179957B (zh) 2020-01-07 2020-01-07 一种语音通话的处理方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010014701.6A CN111179957B (zh) 2020-01-07 2020-01-07 一种语音通话的处理方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111179957A CN111179957A (zh) 2020-05-19
CN111179957B true CN111179957B (zh) 2023-05-12

Family

ID=70654519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010014701.6A Active CN111179957B (zh) 2020-01-07 2020-01-07 一种语音通话的处理方法以及相关装置

Country Status (1)

Country Link
CN (1) CN111179957B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885275B (zh) * 2020-07-23 2021-11-26 海尔优家智能科技(北京)有限公司 语音信号的回声消除方法、装置、存储介质以及电子装置
CN111951819B (zh) * 2020-08-20 2024-04-09 北京字节跳动网络技术有限公司 回声消除方法、装置及存储介质
CN112750449B (zh) * 2020-09-14 2024-02-20 腾讯科技(深圳)有限公司 回声消除方法、装置、终端、服务器及存储介质
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113241085B (zh) * 2021-04-29 2022-07-22 北京梧桐车联科技有限责任公司 回声消除方法、装置、设备及可读存储介质
CN115481649A (zh) * 2021-05-26 2022-12-16 中兴通讯股份有限公司 信号滤波方法及装置、存储介质、电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN104575511A (zh) * 2013-10-22 2015-04-29 陈卓 语音增强方法及装置
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN110164467A (zh) * 2018-12-18 2019-08-23 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN104575511A (zh) * 2013-10-22 2015-04-29 陈卓 语音增强方法及装置
CN110164467A (zh) * 2018-12-18 2019-08-23 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alexander Schasse,et al.Estimation of Subband Speech Correlations for Noise Reduction via MVDR Processing.《EEE/ACM Transactions on Audio, Speech, and Language Processing》.2014,第22卷(第9期),全文. *
韩伟等.联合优化深度神经网络和约束维纳滤波的单通道语音增强方法.《计算机应用研究》.2016,第34卷(第3期),全文. *

Also Published As

Publication number Publication date
CN111179957A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111179957B (zh) 一种语音通话的处理方法以及相关装置
CN110164420B (zh) 一种语音识别的方法、语音断句的方法及装置
CN110164469B (zh) 一种多人语音的分离方法和装置
KR102056993B1 (ko) 에코 제거 방법, 디바이스, 및 컴퓨터 저장 매체
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN108766457B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN106384597B (zh) 一种音频数据处理方法、及设备
WO2016003955A1 (en) Variable step size echo cancellation with accounting for instantaneous interference
CN110995951B (zh) 基于双端发声检测的回声消除方法、装置及系统
CN106961509B (zh) 通话参数处理方法、装置及电子设备
CN109660911A (zh) 录音音效处理方法、装置、移动终端及存储介质
CN108494954A (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN110136733B (zh) 一种音频信号的解混响方法和装置
CN108492837B (zh) 音频突发白噪声的检测方法、装置及存储介质
CN108449496A (zh) 语音通话数据检测方法、装置、存储介质及移动终端
CN108449503A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN109788423A (zh) 语音接收方法、装置及计算机可读存储介质
CN103997561A (zh) 通讯装置及其语音处理方法
CN106791245B (zh) 确定滤波器系数的方法及装置
CN115831155A (zh) 音频信号的处理方法、装置、电子设备及存储介质
CN114040285B (zh) 耳机的前馈滤波器参数生成方法、设备、耳机及存储介质
CN108449499A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN107231471A (zh) 通话音量调整方法、移动终端及存储介质
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
CN112489679B (zh) 声学回声消除算法的评估方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant