CN111654572A - 音频处理方法、装置、电子设备及存储介质 - Google Patents

音频处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111654572A
CN111654572A CN202010458758.5A CN202010458758A CN111654572A CN 111654572 A CN111654572 A CN 111654572A CN 202010458758 A CN202010458758 A CN 202010458758A CN 111654572 A CN111654572 A CN 111654572A
Authority
CN
China
Prior art keywords
audio signal
audio
deep learning
network model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010458758.5A
Other languages
English (en)
Inventor
王少华
倪忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202010458758.5A priority Critical patent/CN111654572A/zh
Publication of CN111654572A publication Critical patent/CN111654572A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/20Arrangements for preventing acoustic feed-back
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种音频处理方法、装置、电子设备及存储介质,属于通信技术领域。该方法主要包括取通话过程中的音频信号;将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。能够解决语音通讯过程中出现回声的问题。

Description

音频处理方法、装置、电子设备及存储介质
技术领域
本申请属于通信技术领域,具体涉及一种音频处理方法、装置、电子设备及存储介质。
背景技术
随着科技的发展,各种电子设备快速普及,已经成为人们日常生活必不可少的工具。通话作为电子设备通信最基本的功能,对用户的重要性不言而喻。
目前,用户在通过电子设备与其他用户进行通话的场景下,往往会出现回声。例如,在音视频会议时,从远端发送来的上行音频信号通过扬声器播放出来,声波被墙壁、天花板等反射,形成的反射波和直达播都会被会议室中的麦克风拾取,作为下行音频信号的一部分信号发送至远端,这样,会形成回声;另外,在用户拨打电话时,从电子设备的听筒泄露的声音也会被麦克风拾取,作为近端信号的一部分发送给远端,也会形成回声,这些回声具有一定的延迟,远端的用户就会感觉到清晰的回声。然而,如果不对回声进行处理,将会导致通话质量下降,影响用户体验。
发明内容
本申请实施例的目的是提供一种音频处理方法、装置、电子设备及存储介质,能够解决语音通讯过程中出现回声的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种信息显示方法,该方法包括:
获取通话过程中的音频信号;
将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;
根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
第二方面,本申请实施例提供了一种信息显示装置,该装置包括:
获取模块,用于获取通话过程中的音频信号;
确定模块,用于将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;
处理模块,用于根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面涉及的方法步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面涉及的方法步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面涉及的方法步骤。
在本申请实施例中,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。另外,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
附图说明
图1是本申请实施例提供的一种音频处理方法的应用场景示意图;
图2为本申请实施例提供的一种音频处理方法的流程图;
图3为本申请实施例提供的一种音频处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法进行详细地说明。
其中,本方案提出一种音频处理方法的架构,参照图1,该架构包括处于通话过程中的用户A和用户B。其中,当用户A和用户B同时处于讲话状态即双讲状态时,为了保证用户A通过麦克风向用户B发送的目标音频信号只有用户A的声音,需要将用户A通过麦克风获取到的用户A的音频信号中的干扰音频信号,如用户B的音频信号和用户B的音频信号产生的回声信号消除。
由此,可以将在通话过程中用户A通过麦克风获取到的音频信号,输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,即确定该音频信号是处于双讲状态下的音频信号;根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号,并将只包括用户A的声音的目标音频信号发送到用户B,以提高通话质量以及用户体验。其中,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到。这里,上行音频信号为接收音频端如用户A向对端用户B待发送的音频信号,下行音频信号为接收端如用户A接收到对端发送的音频信号。
这样,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。本申请实施例中的目标深度学习网络模型的输入以及输出都只有一维状态,由此,泛化能力好,可以适用多种场景,例如电子设备的前端开发工程化场景。另外,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
根据上述应用场景,下面结合图2对本申请实施例提供的音频处理方法进行详细说明。
图2为本申请实施例提供的一种音频处理方法的流程图。
如图2所示,该音频处理方法具体可以包括如下步骤:
首先,步骤210,获取通话过程中的音频信号。
接着,步骤220,将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到。
然后,步骤230,根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
由此,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。其次,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤220,在执行步骤220之前,本申请实施例中需要确定目标深度学习网络模型,具体可以执行如下方法:
(1)获取训练样本集。
其中,该训练样本集中的每个训练样本包括第一上行音频信号、第一下行音频信号、以及第一上行音频信号和第一下行音频信号的音频来源的第一数量信息。
基于此,通过下述方式获取第一上行音频信号、第一下行音频信号以及第一数量信息,这里,获取第一上行音频信号和第一下行音频信号的先后顺序在本申请实施例中不做限定。
首先,获取语音数据集和噪声数据集。
举例说明,大规模收集语音信号以得到语音数据集,大规模收集噪声信号以得到噪声数据集。这里,该语音信号和噪声信号可以是历史通话过程中产生的,也可是在其他非通话过程中录制的语音信号和噪声信号。
接着,对获取到的语音数据集和噪声数据集进行信号模拟,得到第一上行音频信号和第一下行音频信号。
举例说明,可以根据语音数据集和噪声数据集进行仿真模拟,得到第一上行音频信号即近端信号和第一下行音频信号即远端信号。
其中,在远端单讲情况下,确定近端信号和远端信号的方式包括:一般远端信号是高信噪比语音,可以用干净语音代替,此时的近端信号为远端信号卷积随机产生的房间脉冲冲击响应函数。
在近端单讲情况下,确定近端信号和远端信号的方式包括:只有近端信号时,近端信号就是本地的语音和噪声,可以通过随机选择上述两种数据集里的语音信号和噪声信号进行不同信噪比的混合,而远端信号为静音或比较弱的底噪。
在双讲情况下,确定近端信号和远端信号的方式包括:此时远端和近端信号同时存在。远端信号按照上述远端单讲情况的方式产生,近端信号有两部分,一部分按照上述远端单讲情况的方式的方法产生近端,叠加的另一部分按照上述近端单讲情况的方式的方法产生近端信号。
然后,根据上述得到的第一上行音频信号和第一下行音频信号,确定第一数量信息,并根据第一数量信息,得到每个状态下的标签即深度学习网络模型训练标签。
其中,在第一数量信息表示为1的情况下,代表同一时刻只存在远端或近端信号,即用户B单讲的情况,以及近端用户A单讲的情况,可以将该状态下的标签设置为0。同理,在第一数量信息表示为2的情况下,代表同一时刻同时存在远端信号和近端信号,即代表用户A和用户B同时讲话的情况,可以将该状态下的标签设置为1。当然,也可以把标签分为三类,若只存在近端信号,则标签设置为0;若只存在远端信号,则标签设置为1;若同时存在近端信号和远端信号,则标签设置为2。
由此,根据确定的每个训练样本,得到训练样本集。
(2)根据训练样本集对深度学习网络模型进行训练,以得到目标深度学习网络模型。
其中,每个训练样本执行以下步骤:
提取第一上行音频信号中的第一对数幅度频谱,以及提取第一下行音频信号中的第二对数幅度频谱;
根据第一对数幅度频谱、第二对数幅度频谱和第一数量信息对深度学习网络模型进行训练,直至满足预设训练停止条件,得到目标深度学习网络模型。
这里,上述涉及到的深度学习网络模型可以为深度神经网络模型(DeepNeuralNetworks,DNN),但是,不限于DNN网络,例如,深度学习网络模型还可以是设置合适的网络层数和节点,选择合适的激活函数如sigmoid、tanh等和代价函数如均方误差等有记忆的网络模型。
举例说明,第一对数幅度频谱、第二对数幅度频谱和双讲状态均已知,即输入输出已知,深度学习网络模型确定,基于此,训练深度学习网络模型,待收敛之后得到网络参数。具体训练过程可以包括:随机初始化网络参数;特征预处理,比如均值为零,方差归一化等;根据输出误差,反向逐层计算网络参数,可根据随机梯度下降算法更新网络参数;将输出误差小于预设阈值确定为预设训练停止条件,在满足预设训练停止条件下,停止网络参数更新,得到目标深度学习网络模型,此时的参数可认为是训练完成的目标深度学习网络模型的网络参数。
由此,基于确定的目标深度学习网络模型,该步骤220具体可以包括:
提取音频信号中的目标对数幅度频谱;
将目标对数幅度频谱输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息。
这里,在一种可能的实例中,该目标深度学习网络模型是由第一对数幅度频谱和第二对数幅度频谱确定,由此,在应用目标深度网络模型时,可以提取音频信号中的目标对数幅度频谱,这样,目标深度学习网络模型的输入以及输出都只有一维状态,由此,泛化能力好,可以适用多种场景,例如电子设备的前端开发工程化场景。
然后,涉及步骤230,在一种可能的实施例中,在数量信息满足预设条件的情况下,干扰音频信号包括在通话过程中的第二下行音频信号和回声音频信号;
通过第二下行音频信号,确定音频信号中第二上行音频信号中的回声音频信号;
根据回声音频信号的大小,对第二上行音频信号中的回声音频信号进行消除处理,得到第三上行音频信号;
将第三上行音频信号确定为目标音频信号。
举例说明,对音频信号中的干扰音频信号进行消除处理过程可以分为两个部分,即自适应回声消除部分和残留回声抑制部分。
其中,自适应回声消除部分可以使用自适应滤波器回声消除方式,即利用第二下行音频信号估计第二上行音频信号里面的回声信号大小,然后利用第二上行音频信号减去估计的回声音频信号,达到消除回声的目的,这里,通过数量信息表示双讲状态的情况下,根据双讲状态,控制双讲阶段的滤波器更新速度,防止滤波器在双讲阶段发散。
接着,残留回声抑制部分,在第二上行音频信号经过自适应回声消除部分之后,大部分回声音频信号被消掉,由于自适应滤波器会存在一定的失调,以及扬声器的非线性等特性,导致输出信号中会残留小部分的回声,通过残留回声抑制模块抑制残留回声,所以,通过残留回声抑制部分,可以加强对残留回声的抑制程度,这里,在残留回声抑制部分还可以通过数量信息,对回声音频信号进行消除处理,如在非双讲阶段,最大限度地抑制回声音频信号的回声残留;在双讲阶段,为了减小语音失真,就减弱抑制强度。由此,根据得到的数量信息,结合自适应回声消除方式,控制滤波器收敛,然后基于数量信息做残留回声后处理,最终得到输出。
综上,在本申请实施例中,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。另外,本申请实施例中的目标深度学习网络模型的输入以及输出都只有一维状态即双讲状态是一维输出,相比于直接做回声消除,该方式复杂度低,泛化性能好,可以适用多种场景,完全可以工程化,例如电子设备的前端开发工程化场景。
除此之外,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
需要说明的是,本申请实施例提供的音频处理方法,执行主体可以为音频处理装置,或者该音频处理装置中的用于执行音频处理方法的控制模块。本申请实施例中以音频处理装置执行音频处理的方法为例,结合图3说明本申请实施例提供的音频处理装置。
图3为本申请实施例提供的一种音频处理装置的结构示意图。
如图3所示,该音频处理30具体可以包括:
获取模块301,用于获取通话过程中的音频信号;
确定模块302,用于将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;
处理模块303,用于根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
这样,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。另外,通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
下面对该音频处理装置30进行详细说明,具体如下所示:
在一种可能的实施例中,上述涉及的音频处理装置还包括训练模块304;其中,
获取模块301还用于,获取训练样本集,训练样本集中的每个训练样本包括第一上行音频信号、第一下行音频信号、以及第一上行音频信号和第一下行音频信号的音频来源的第一数量信息;
训练模块304,用于根据训练样本集对深度学习网络模型进行训练,直至满足预设训练停止条件,得到目标深度学习网络模型。
基于此,本申请实施例中的处理模块303具体用于,每个训练样本执行以下步骤:
提取第一上行音频信号中的第一对数幅度频谱,以及提取第一下行音频信号中的第二对数幅度频谱;
根据第一对数幅度频谱、第二对数幅度频谱和第一数量信息对深度学习网络模型进行训练。
另外,本申请实施例中的音频处理装置30还包括模拟模块305;其中,
获取模块301还用于,获取语音数据集和噪声数据集;
模拟模块305,用于对语音数据集和噪声数据集进行信号模拟,得到第一上行音频信号和第一下行音频信号。
这样,本申请实施例中的确定模块302具体用于,提取音频信号中的目标对数幅度频谱;将目标对数幅度频谱输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息。
在另一种可能的实施例中,上述涉及的处理模块303具体可以用于,在数量信息满足预设条件的情况下,干扰音频信号包括在通话过程中的第二下行音频信号和回声音频信号;
通过第二下行音频信号,确定音频信号中第二上行音频信号中的回声音频信号;
根据回声音频信号的大小,对第二上行音频信号中的回声音频信号进行消除处理,得到第三上行音频信号;
将第三上行音频信号确定为目标音频信号。
本申请实施例中的音频处理装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的音频处理装置能够实现图1至图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。
综上,在本申请实施例中,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。另外,本申请实施例中的目标深度学习网络模型的输入以及输出都只有一维状态即双讲状态是一维输出,相比于直接做回声消除,该方式复杂度低,泛化性能好,可以适用多种场景,完全可以工程化,例如电子设备的前端开发工程化场景。
除此之外,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
可选的,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401,存储器402,存储在存储器402上并可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器510,用于获取通话过程中的音频信号;
处理器510还用于,将音频信号输入到目标深度学习网络模型,得到音频信号的音频来源的数量信息,目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;以及根据音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
由此,通过目标深度学习网络模型获取音频信号的音频来源的数量信息,有效利用了深度学习计算结果精度高的特点,确定回声消除中的关键参数即数量信息,以确定音频信号是上行音频信号和下行音频信号同时存在的情况。其次,本申请实施例中通过音频信号和数量信息,对音频信号中的干扰音频信号进行消除处理,得到目标音频信号。在保证确定干扰音频信号例如回声的同时,有效降低了计算的复杂度,提高消除干扰音频信号效率,以提高通话质量以及用户体验。
应理解的是,本申请实施例中,输入单元504可以包括图形处理器(GraphicsProcessing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器509可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。其中,可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
另外,本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述音频处理法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
获取通话过程中的音频信号;
将所述音频信号输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息,所述目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;
根据所述音频信号和所述数量信息,对所述音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
2.根据权利要求1所述的方法,其特征在于,在所述将所述音频信号输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息之前,所述方法还包括:
获取训练样本集,所述训练样本集中的每个训练样本包括所述第一上行音频信号、所述第一下行音频信号、以及所述第一上行音频信号和所述第一下行音频信号的音频来源的第一数量信息;
根据所述训练样本集对深度学习网络模型进行训练,直至满足预设训练停止条件,得到所述目标深度学习网络模型;
其中,所述根据所述训练样本集对深度学习网络模型进行训练,包括:
所述每个训练样本执行以下步骤:
提取所述第一上行音频信号中的第一对数幅度频谱,以及提取所述第一下行音频信号中的第二对数幅度频谱;
根据所述第一对数幅度频谱、所述第二对数幅度频谱和所述第一数量信息对深度学习网络模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述获取训练样本集之前,所述方法还包括:
获取语音数据集和噪声数据集;
对所述语音数据集和所述噪声数据集进行信号模拟,得到所述第一上行音频信号和所述第一下行音频信号。
4.根据权利要求2所述的方法,其特征在于,所述将所述音频信号输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息,包括:
提取所述音频信号中的目标对数幅度频谱;
将所述目标对数幅度频谱输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号和所述数量信息,对所述音频信号中的干扰音频信号进行消除处理,包括:
在所述数量信息满足预设条件的情况下,所述干扰音频信号包括在所述通话过程中的第二下行音频信号和回声音频信号;
通过所述第二下行音频信号,确定所述音频信号中第二上行音频信号中的回声音频信号;
根据所述回声音频信号的大小,对所述第二上行音频信号中的回声音频信号进行消除处理,得到第三上行音频信号;
将所述第三上行音频信号确定为所述目标音频信号。
6.一种音频处理装置,其特征在于,包括:
获取模块,用于获取通话过程中的音频信号;
确定模块,用于将所述音频信号输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息,所述目标深度学习网络模型由第一上行音频信号和第一下行音频信号训练得到;
处理模块,用于根据所述音频信号和所述数量信息,对所述音频信号中的干扰音频信号进行消除处理,得到目标音频信号。
7.根据权利要求6所述的装置,其特征在于,所述音频处理装置还包括训练模块;其中,
所述获取模块还用于,获取训练样本集,所述训练样本集中的每个训练样本包括所述第一上行音频信号、所述第一下行音频信号、以及所述第一上行音频信号和所述第一下行音频信号的音频来源的第一数量信息;
所述训练模块,用于根据所述训练样本集对深度学习网络模型进行训练,直至满足预设训练停止条件,得到所述目标深度学习网络模型;其中,所述处理模块具体用于,
所述每个训练样本执行以下步骤:
提取所述第一上行音频信号中的第一对数幅度频谱,以及提取所述第一下行音频信号中的第二对数幅度频谱;
根据所述第一对数幅度频谱、所述第二对数幅度频谱和所述第一数量信息对深度学习网络模型进行训练。
8.根据权利要求7所述的装置,其特征在于,所述音频处理装置还包括模拟模块;其中,
所述获取模块还用于,获取语音数据集和噪声数据集;
所述模拟模块,用于对所述语音数据集和所述噪声数据集进行信号模拟,得到所述第一上行音频信号和所述第一下行音频信号。
9.根据权利要求7所述的装置,其特征在于,所述确定模块具体用于,提取所述音频信号中的目标对数幅度频谱;
将所述目标对数幅度频谱输入到目标深度学习网络模型,得到所述音频信号的音频来源的数量信息。
10.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于,
在所述数量信息满足预设条件的情况下,所述干扰音频信号包括在所述通话过程中的第二下行音频信号和回声音频信号;
通过所述第二下行音频信号,确定所述音频信号中第二上行音频信号中的回声音频信号;
根据所述回声音频信号的大小,对所述第二上行音频信号中的回声音频信号进行消除处理,得到第三上行音频信号;
将所述第三上行音频信号确定为所述目标音频信号。
CN202010458758.5A 2020-05-27 2020-05-27 音频处理方法、装置、电子设备及存储介质 Pending CN111654572A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010458758.5A CN111654572A (zh) 2020-05-27 2020-05-27 音频处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010458758.5A CN111654572A (zh) 2020-05-27 2020-05-27 音频处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111654572A true CN111654572A (zh) 2020-09-11

Family

ID=72349702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010458758.5A Pending CN111654572A (zh) 2020-05-27 2020-05-27 音频处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111654572A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472943A (zh) * 2021-06-30 2021-10-01 维沃移动通信有限公司 音频处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713570A (zh) * 2015-07-21 2017-05-24 炬芯(珠海)科技有限公司 一种回声消除方法和装置
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN110944089A (zh) * 2019-11-04 2020-03-31 中移(杭州)信息技术有限公司 双讲检测方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713570A (zh) * 2015-07-21 2017-05-24 炬芯(珠海)科技有限公司 一种回声消除方法和装置
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN110944089A (zh) * 2019-11-04 2020-03-31 中移(杭州)信息技术有限公司 双讲检测方法及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时文华等: "联合稀疏非负矩阵分解和神经网络的语音增强 ", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472943A (zh) * 2021-06-30 2021-10-01 维沃移动通信有限公司 音频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111951819B (zh) 回声消除方法、装置及存储介质
CN110335620B (zh) 一种噪声抑制方法、装置和移动终端
CN108198569B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN105513596B (zh) 一种语音控制方法和控制设备
CN111524498B (zh) 滤波方法、装置及电子设备
US20110013781A1 (en) System and process for regression-based residual acoustic echo suppression
CN111968658B (zh) 语音信号的增强方法、装置、电子设备和存储介质
CN111179957A (zh) 一种语音通话的处理方法以及相关装置
CN111986689A (zh) 音频播放方法、音频播放装置和电子设备
CN110931028B (zh) 一种语音处理方法、装置和电子设备
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
CN115602184A (zh) 回声消除方法、装置、电子设备及存储介质
WO2022143522A1 (zh) 音频信号处理方法、装置和电子设备
CN113506582B (zh) 声音信号识别方法、装置及系统
CN111654572A (zh) 音频处理方法、装置、电子设备及存储介质
CN204117590U (zh) 语音采集降噪装置以及语音质量评价系统
CN113064118A (zh) 声源定位方法和装置
CN111989934B (zh) 回声消除装置、回声消除方法、信号处理芯片及电子设备
CN113489854B (zh) 声音处理方法、装置、电子设备和存储介质
CN112217948B (zh) 语音通话的回声处理方法、装置、设备及存储介质
CN110580910A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN113286047B (zh) 语音信号处理方法、装置及电子设备
CN112750449A (zh) 回声消除方法、装置、终端、服务器及存储介质
CN116980814A (zh) 信号处理方法、装置、电子设备及存储介质
CN113421579B (zh) 声音处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911