CN112866873B - 抑制啸叫的方法及相关模型的训练方法和设备、介质 - Google Patents

抑制啸叫的方法及相关模型的训练方法和设备、介质 Download PDF

Info

Publication number
CN112866873B
CN112866873B CN202011643147.4A CN202011643147A CN112866873B CN 112866873 B CN112866873 B CN 112866873B CN 202011643147 A CN202011643147 A CN 202011643147A CN 112866873 B CN112866873 B CN 112866873B
Authority
CN
China
Prior art keywords
audio signal
gain
target
sub
acoustic feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011643147.4A
Other languages
English (en)
Other versions
CN112866873A (zh
Inventor
李明子
马峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xunfei Super Brain Information Technology Co ltd
Original Assignee
Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xunfei Super Brain Information Technology Co ltd filed Critical Xi'an Xunfei Super Brain Information Technology Co ltd
Priority to CN202011643147.4A priority Critical patent/CN112866873B/zh
Publication of CN112866873A publication Critical patent/CN112866873A/zh
Application granted granted Critical
Publication of CN112866873B publication Critical patent/CN112866873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种抑制啸叫的方法及相关模型的训练方法和设备、存储介质,该方法包括:获取目标音频信号;利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益;其中,利用最大稳定增益对目标音频信号进行增益处理所得到的音频信号能够满足预设啸叫抑制要求;根据最大稳定增益得到目标增益,其中,目标增益不大于最大稳定增益;利用目标增益对目标音频信号进行增益处理,得到输出音频信号。上述方案,能够减少啸叫的产生。

Description

抑制啸叫的方法及相关模型的训练方法和设备、介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种抑制啸叫的方法及相关模型的训练方法和设备、存储介质。
背景技术
在扬声器与麦克风耦合的系统中,由于广播系统的存在,由扬声器到麦克风之间的声音被麦克风拾取后被扬声器播放出来,不断循环,最后往往产生啸叫,严重影响用户的体验,甚至还会破坏音响等扩音设备。
目前,常用的抑制啸叫的方法都是在啸叫产生后,再对啸叫进行抑制,例如通过使用陷波器来对啸叫进行控制,这样的方法效果有限,同时也会对用户的听感产生重大影响,降低用户体验。
因此,如何抑制啸叫,具有非常重要的意义。
发明内容
本申请至少提供一种抑制啸叫的方法及相关模型的训练方法和设备和存储介质,能够减少啸叫的产生。
本申请第一方面提供了一种抑制啸叫的方法,该方法包括:获取目标音频信号;利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益;其中,利用最大稳定增益对目标音频信号进行增益处理所得到的音频信号满足预设啸叫抑制要求;根据最大稳定增益得到目标增益,其中,目标增益不大于最大稳定增益;利用目标增益对目标音频信号进行增益处理,得到输出音频信号。
因此,通过利用声反馈模型对目标音频信号进行检测来得到满足预设啸叫抑制要求的最大稳定增益,并根据最大稳定增益得到目标增益,最后再利用目标增益对目标音频信号进行增益处理,以此得到的输出音频信号能够满足预设啸叫抑制要求,减少了啸叫的产生。
其中,上述的标音频信号包括若干个子目标音频信号,输出音频信号包括若干个子输出音频信号。上述的利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益,包括:将目标音频信号分成若干个子目标音频信号;利用声反馈模型分别对若干个子目标音频信号进行检测,确定与每个子目标音频信号对应的部分最大稳定增益。上述的根据最大稳定增益得到目标增益,包括:根据每个子目标音频信号的部分最大稳定增益,确定每个子目标音频信号对应的部分目标增益。上述的利用目标增益对目标音频信号进行增益处理,得到输出音频信号,包括:利用每个子目标音频信号的部分目标增益,分别对每个子目标音频信号进行增益处理,得到若干个子输出音频信号。
因此,通过将目标音频信号进行分类,可以使得声反馈模型能够针对不同类型的子目标音频信号来分别确定部分最大稳定增益,以此使得部分最大稳定增益的确定更具针对性,并能够进一步减少啸叫的产生。
其中,上述的将目标音频信号分成若干个子目标音频信号,包括:按照目标音频信号所在的频率范围,将目标音频信号分成若干个子目标音频信号,其中,不同子目标音频信号的频率范围不同。
因此,通过按照目标音频信号的频率进行分类,使得声反馈模型能够根据目标音频信号频率的不同,进行针对性确定部分最大稳定,有助于减少啸叫的产生。
其中,在利用目标增益对目标音频信号进行增益处理,得到输出音频信号之后,抑制啸叫的方法还包括:检测输出音频信号的啸叫情况;若输出音频信号存在啸叫情况,利用滤除啸叫方式对输出音频信号进行处理,以抑制输出音频信号的啸叫情况。
因此,通过对输出音频信号的啸叫情况进行检测,在存在啸叫时,通过滤除啸叫的方法来对输出音频信号进行处理,可以进一步地提高抑制啸叫的效果。
其中,上述的抑制啸叫的方法还包括以下步骤,以实现利用强化学习的方法对声反馈模型进行训练:获取样本音频信号;利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理;确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
因此,通过实施上述步骤,可以实现利用强化学习的方法对声反馈模型进行训练。
其中,上述的样本音频信号包括若干个子样本音频信号,一个策略包括若干个子策略。上述的利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,包括:将样本音频信号分成若干个子样本音频信号;利用声反馈模型对若干个子样本音频信号进行检测,确定在一策略中与每个子样本音频信号对应的部分预测最大稳定增益;并基于每个子样本音频信号的部分预测最大稳定增益,确定策略对应的预测最大稳定增益;重复执行上述利用声反馈模型对若干个子样本音频信号进行检测,确定在一策略中与每个子样本音频信号对应的部分预测最大稳定增益;并基于每个子样本音频信号的部分预测最大稳定增益,确定策略对应的预测最大稳定增益的步骤,以得到增益处理策略组;和/或,将样本音频信号分成若干个子目标音频信号,包括:按照样本音频信号所在的频率范围,将样本音频信号分成若干个子样本音频信号,其中,不同子样本音频信号的频率范围不同。
因此,通过对样本音频信号进行分类,可以使得声反馈模型能够针对不同类的样本音频信号进行针对性的训练,提高训练效果。当按照样本音频信号的频率范围进行分类时,可以使得声反馈模型能够针对不同频率的样本音频信号进行针对性的训练,提高不同频率下的样本音频信号的训练效果。
其中,在对声反馈模型进行训练时,本次训练时相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值。
因此,通过将本次训练时相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值,可以使得增益处理策略组中的预测最大稳定增益或者部分预测最大稳定增益的变化更加多样,有助于加快声反馈模型的训练速度,提高声反馈模型的训练效果。
其中,上述的确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数,包括:利用梯度上升方式对增益处理策略组的奖励函数进行处理,以获得增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
因此,通过利用梯度上升的方式,可以实现对声反馈模型的网络参数的更新。
本申请第二方面提供了一种声反馈模型进行训练的方法,该方法包括:获取样本音频信号;利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理;确定与增益处理策略组对应的奖励值,并更新声反馈模型的网络参数。
本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的抑制啸叫的方法,或实现上述第二方面中的声反馈模型进行训练的方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的抑制啸叫的方法,或实现上述第二方面中的声反馈模型进行训练的方法。
上述方案,通过利用声反馈模型对目标音频信号进行检测来得到满足预设啸叫抑制要求的最大稳定增益,并根据最大稳定增益得到目标增益,最后再利用目标增益对目标音频信号进行增益处理,以此得到的输出音频信号能够满足预设啸叫抑制要求,减少了啸叫的产生。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请抑制啸叫的方法一实施例的第一流程示意图;
图2是本申请抑制啸叫的方法一实施例的第二流程示意图;
图3是本申请抑制啸叫的方法另一实施例的流程示意图;
图4是本申请声反馈模型进行训练的方法一实施例的流程示意图;
图5是本申请电子设备一实施例的流程示意图;
图6为本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
请参阅图1,图1是本申请抑制啸叫的方法一实施例的第一流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取目标音频信号。
目标音频信号是声波的频率、幅度变化信息载体。目标音频信号可以是一定时长的音频信号,也可以是经过声音采集设备进行声音采集时,持续得到的音频信号,例如可以经过麦克风进行声音采集来得到目标音频信号。
步骤S12:利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益。
在得到目标音频信号以后,可以利用声反馈模型对目标音频信号进行检测,来确定目标音频信号的最大稳定增益。另外,利用最大稳定增益对目标音频信号进行增益处理所得到的音频信号能够满足预设啸叫抑制要求。
最大稳定增益可以理解为在不产生啸叫的情况下,对目标音频信号进行增益处理的增益最大值。预设啸叫抑制要求可以理解为在利用最大稳定增益对目标音频信号进行增益处理以后,得到的音频信号不产生啸叫的几率大于预设阈值,预设阈值例如是80%,90%等等。
可见,声反馈模型会对目标音频信号进行检测,并根据目标音频信号的具体情况,确定满足要求的最大稳定增益。
在一个实施例中,声反馈模型是利用强化学习的方法进行训练得到的。利用强化学习的方法来训练声反馈模型,使得声反馈模型能够与目标音频信号进行交互,即声反馈模型能够根据需要检测的音频信号来调整模型输出的最大稳定增益,并根据上一单位时长的目标音频信号的最大稳定增益来调整当前单位时长的目标音频信号的最大稳定增益,使得声反馈模型具有更强的适应性,也能进一步提高最大稳定增益的预测准确度。
具体而言,声反馈模型对目标音频信号进行检测后,可以确定每个单位时长内的最大稳定增益。在一个实施场景中,单位时长为10秒,目标音频信号经由麦克风进行声音采集以后,持续输入到声反馈模型中,声反馈模型可以每10秒确定一次最大稳定增益,如声反馈模型在刚刚接收到目标音频信号以后,会先确定后续10秒的最大稳定增益。在第10秒时,会再次确定第10秒到第20秒的最大稳定增益,以此类推。单位时长的设置不受限制,可以根据需要进行确定。
步骤S13:根据最大稳定增益得到目标增益,其中,目标增益不大于最大稳定增益。
在模型得到最大稳定增益以后,可以根据最大稳定增益得到目标增益。根据最大稳定增益的定义可知,在对目标音频信号进行增益时,如果增益大于最大稳定增益时,啸叫情况往往不理想。因此,在本实施例中,将目标增益设置为不大于最大稳定增益。在其他的实施例中,也可以直接以最大稳定增益为目标增益。
步骤S14:利用目标增益对目标音频信号进行增益处理,得到输出音频信号。
在确定目标增益以后,就可以利用目标增益对目标音频信号进行增益处理,对目标音频信号进行放大或缩小,从而得到输出音频信号。例如,声反馈模型确定了目标音频信号第10秒到第20秒的音频信号目标增益以后,则可以根据该目标增益来对第10秒到第20秒的音频信号进行增益处理。
上述实施例,通过利用声反馈模型对目标音频信号进行检测来得到满足预设啸叫抑制要求的最大稳定增益,并根据最大稳定增益得到目标增益,最后再利用目标增益对目标音频信号进行增益处理,以此得到的输出音频信号能够满足预设啸叫抑制要求,减少了啸叫的产生。
在一个实施例中,声反馈模型能够将目标音频信号分成若干个子目标音频信号,并分别确定子目标音频信号的最大稳定增益。具体而言,步骤S12包括以下步骤S121和步骤S122。
步骤S121:将目标音频信号分成若干个子目标音频信号。
在一个实施例中,可以将目标音频信号分成若干个子目标音频信号,使得声反馈模型能够根据不同类型的子目标音频信号针对性的确定与其对应的最大稳定增益,以此来提高抑制啸叫的效果。
在一些实施例中,可以根据目标音频信号的音量来进行分类,也可以根据目标音频信号的频率范围来进行分类。
在一个具体实施场景中,声反馈模型可以根据目标音频信号所在的频率范围,将目标音频信号分成若干个子目标音频信号,并且不同子目标音频信号的频率范围不同。也即,目标音频信号可以包括若干个子目标音频信号。例如,可以将目标音频信号分为3个子目标音频信号,这3个子目标音频信号分别为低频目标音频信号、中频目标音频信号和高频目标音频信号。在其他的实施例中,也可以按照其他的分类标准来对目标音频信号进行分类。
步骤S122:利用声反馈模型分别对若干个子目标音频信号进行检测,确定与每个子目标音频信号对应的部分最大稳定增益。
在将目标音频信号分成若干个子目标音频信号,声反馈模型会分别对这若干个子目标音频信号进行检测,以此来确定与每个子目标音频信号对应的部分最大稳定增益。
在一个实施例中,声反馈模型会在确定每个单位时长的目标音频信号时,确定该单位时长目标样本音频信号包括的若干个子目标音频信号的部分最大稳定增益。在一个具体实施场景中,以按照目标音频信号的频率对目标音频信号进行分类为例,在本实施场景中,单位时长为15秒,声反馈模型接收到目标音频信号以后,会先确定从开始到第15秒的目标音频信号中的与低频目标音频信号对应的部分最大稳定增益,与中频目标音频信号对应的部分最大稳定增益,以及和高频目标音频信号对应的部分最大稳定增益。在第15秒后,声反馈模型会再确定第15秒至第30秒的目标音频信号中与各个子目标音频信号对应的部分最大稳定增益,并以此类推。
对应于将目标音频信号包括若干个子目标音频信号,上述的步骤S13具体可以为:根据每个子目标音频信号的部分最大稳定增益,确定每个子目标音频信号对应的部分目标增益。
在确定了与每个子目标音频信号对应的部分最大稳定增益以后,就可以依据该部分最大稳定增益,来确定每个子目标音频信号对应的部分目标增益。同样的,部分目标增益也不大于部分最大稳定增益。由此可以实现针对不同类的子目标音频信号分别确定部分最大稳定增益。
例如,在第15秒至第30秒的目标音频信号中,确定的低频目标音频信号的最大稳定增益为20分贝,则可以确定该低频目标音频信号的目标增益为18分贝,15分贝等等,只要不大于20分贝即可。
同样的,在确定每个子目标音频信号对应的部分目标增益以后,上述的步骤S14具体可以是:利用每个子目标音频信号的部分目标增益,分别对每个子目标音频信号进行增益处理,得到若干个子输出音频信号。
因为声反馈模型将目标音频信号分成了若干个子目标音频信号,所以对目标音频信号进行增益处理以后得到的输出音频信号也会包括若干个子输出音频信号。也即,输出音频信号会包括若干个子输出音频信号。
通过将目标音频信号进行分类,可以使得声反馈模型能够针对不同类型的子目标音频信号来分别确定部分最大稳定增益,以此使得部分最大稳定增益的确定更具针对性,并能够进一步减少啸叫的产生。
请参阅图2,图2是本申请抑制啸叫的方法一实施例的第二流程示意图。
在步骤S14之后,为了进一步地提高抑制啸叫的效果,可以在得到输出音频信号以后,继续执行步骤S15和步骤S16。
步骤S15:检测输出音频信号的啸叫情况;
因为得到的输出音频信号仍然可能会存在啸叫的情况,因此为了进一步提高的抑制啸叫的效果,可以检测输出音频信号的啸叫情况,以此来确定是否需要滤除啸叫。
例如,可以检测输出音频信号中的每一个频点的功率,当某一个频点的功率大于预设阈值时,则可以认为输出音频信号的存在啸叫情况。
当输出音频信号存在啸叫的情况时,还可以进一步的检测,以确定存在啸叫的频点。例如,可以通过峰值均值功率比(Peak-to-Average Power Raio,PAPR)来确定存在啸叫的频点,当某一频点的峰值均值功率比值大于预设阈值,则可以确定该频点存在啸叫。
在一个实施例中,峰值均值功率比值计算公式如下:
Figure GDA0003673152320000091
其中,Py(t)的峰值功率,|Y(ωi,t)2|为某一频点的功率,PARP(ωi,t)则为该频点的峰值均值功率比值。
在其他实施例中,还可以通过计算峰值邻近功率比(Peak-to-Neighboring PowerRaio,PNPR),峰值谐波功率比(Peak-to-Harmonics Power Raio,PHPR),帧间峰值保持度(Interframe Peak Magnitude Persistence,IPMP),帧间幅度斜率偏差度(InterframeMagnitude Slope Deviation,IMSD)等特征值来确定存在啸叫的频点。
若检测到输出音频信号的存在啸叫情况,则可以继续执行步骤S16,若检测到输出音频信号的不存在啸叫情况,则无需进一步的操作。
步骤S16:利用滤除啸叫方式对输出音频信号进行处理,以抑制输出音频信号的啸叫情况。
输出音频信号的存在啸叫情况,可以采用滤除啸叫的方法的来进一步的抑制啸叫。例如,可以利用陷波滤波器对存在啸叫的频点进行处理,以此来抑制啸叫。
因此,通过对输出音频信号的啸叫情况进行检测,在存在啸叫时,通过滤除啸叫的方法来对输出音频信号进行处理,可以进一步地提高抑制啸叫的效果。
请参阅图3,图3是本申请抑制啸叫的方法另一实施例的流程示意图。本实施例的内容是对上述实施例提及的声反馈模型进行训练的方法,以实现利用强化学习的方法对声反馈模型进行训练。具体而言,该训练的方法包括以下步骤:
步骤S21:获取样本音频信号。
样本音频信号可以是由声音采集设备采集得到的音频信号,也可以经由仿真技术进行仿真得到的。
在一个实施例中,在利用仿真模型来得到样本音频信号时,仿真模型的公式如下:
y(t)=x(t)+G*x(t-n)*h
其中,y为麦克风接收信号,x为说话人说话的信号,G为扬声器的增益,h为扬声器到麦克风的传递函数,n为麦克风接收到扬声器发出的延时。h可以通过Image Method仿真,通过调节G控制啸叫的程度,以此来得到存在啸叫情况和不存在啸叫情况的样本音频信号。
步骤S22:利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理。
在得到样本音频信号以后,就可以利用样本音频信号来训练声反馈模型。具体的,可以利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组。一个增益处理策略组可以包含若干个策略。若干个策略对应的预测最大稳定增益可以相同,也可以不同。每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理,也即,每个策略都会包含与样本音频信号对应的预测最大稳定增益。
在一个实施例中,在一个策略中,声反馈模型会确定样本音频信号中每个单位时长的预测最大稳定增益,也即,如果样本音频信号的时长是数个单位时长,则与该样本音频信号对应的预测最大稳定增益也会包括与数个单位时长对应的预测最大稳定增益,与每个单位时长对应的预测最大稳定增益可以相同,也可以不相同。
在一个具体实施场景中,单位时长是10秒,样本音频信号的时长是60秒,即样本音频信号包括6个单位时长的音频信号,则声反馈模型会确定与这6个单位时长的音频信号的预测最大稳定增益。具体的,在将样本音频信号输入到声反馈模型以后,声反馈模型可以先确定开始到第10秒的预测最大稳定增益,然后在第10秒时,确定第10秒到第20秒的预测最大稳定增益,以此类推。
在一个实施例中,可以将样本音频信号分成若干个子样本音频信号,声反馈模型可以分别这若干个子样本音频信号的部分预测最大稳定增益。具体的,步骤S22可以包括以下步骤S221至S223。
步骤S221:将样本音频信号分成若干个子样本音频信号。
关于本步骤的详细描述,请参阅上述步骤S121,区别在于,将步骤S121中的目标音频信号替换为样本音频信号,进而分类得到若干个子样本音频信号。
步骤S222:利用声反馈模型对若干个子样本音频信号进行检测,确定在一策略中与每个子样本音频信号对应的部分预测最大稳定增益;并基于每个子样本音频信号的部分预测最大稳定增益,确定策略对应的预测最大稳定增益。
在将样本音频信号分成干个子样本音频信号以后,声反馈模型会确定在一个策略中与每个子样本音频信号对应的部分预测最大稳定增益。
在一个实施例中,声反馈模型会在确定每个单位时长的样本音频信号时,确定该单位时长样本音频信号包括的若干个子样本音频信号的部分预测最大稳定增益。
在一个具体实施场景中,当按照样本音频信号的频率范围进行分类后,得到了低频样本音频信号,中频样本音频信号和高频样本音频信号。在本实施场景中,单位时长是15秒,声反馈模型接收到样本音频信号以后,会先确定从开始到第15秒的样本音频信号中的与低频样本音频信号对应的部分预测最大稳定增益,与中频样本音频信号对应的部分预测最大稳定增益,以及和高频样本音频信号对应的部分预测最大稳定增益。在第15秒后,声反馈模型会再确定第15秒至第30秒的样本音频信号中与各个子样本音频信号对应的部分预测最大稳定增益,并以此类推。
在得到每个子样本音频信号的部分预测最大稳定增益以后,所有子样本音频信号的部分预测最大稳定增益的集合,即为一个策略中,与样本音频信号对应的预测最大稳定增益。
由此,可以得到一个策略中包含的与样本音频信号对应的预测最大稳定增益。
步骤S223:重复上述利用声反馈模型对若干个子样本音频信号进行检测,确定在一策略中与每个子样本音频信号对应的部分预测最大稳定增益;并基于每个子样本音频信号的部分预测最大稳定增益,确定策略对应的预测最大稳定增益的步骤,以得到增益处理策略组。
重复步骤S222,即可以得到若干个策略中包含的与样本音频信号对应的预测最大稳定增益,由此就可以得到增益处理策略组。
因此,通过对样本音频信号进行分类,可以使得声反馈模型能够针对不同类的样本音频信号进行针对性的训练,提高训练效果。
步骤S23:确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
在确定了一个增益处理策略组以后,就可以根据强化学习中的奖励函数,来确定与增益处理策略组对应的最大奖励值,并将在计算最大奖励值时得到的关于声反馈模型的网络参数,用于更新声反馈模型的网络参数。
在一个实施例中,影响奖励值大小的因素可以包括在不存在啸叫的情况下,预测最大稳定增益或是部分预测最大稳定增益的大小。
在一个实施例中,可以利用梯度上升方式对增益处理策略组的奖励函数进行处理,获得增益处理策略组对应的最大奖励值。具体而言就是利用梯度上升算法(GRadientAscent Pulse Engineering,GRAPE)来计算得到增益处理策略组对应的最大奖励值。
因此,通过利用梯度上升的方式,可以实现对声反馈模型的网络参数的更新。
上述的技术方案,实现了利用强化学习的方法来对声反馈模型的训练。
在一个实施例中,在对声反馈模型进行训练时,可以将本次相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值设置为不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值。
相邻的两个预测最大稳定增益,即在一个增益处理策略组中,预测最大稳定增益的大小是相邻的,例如,在一个增益处理策略组中,声反馈模型确定的一个单位时长的样本音频信号的预测最大稳定增益5分贝,另一个单位时长的样本音频信号的预测最大稳定增益为5.1分贝,在其他单位时长确定的预测最大稳定增益中,没有处于5分贝和5.1分贝之间的其他值,则5分贝和5.1分贝为相邻的两个预测最大稳定增益,其差值为0.1分贝。相邻的两个部分预测最大稳定增益的定义和相邻的两个预测最大稳定增益相同。
以此,就可以在多个增益处理策略组中,设置多个不同的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值,由此,可以使得增益处理策略组中的预测最大稳定增益或者部分预测最大稳定增益的变化更加多样,有助于加快声反馈模型的训练速度,提高声反馈模型的训练效果。
请参阅图4,图4是本申请声反馈模型进行训练的方法一实施例的流程示意图。具体的,该实施例包括以下步骤:
步骤S31:获取样本音频信号。
请参阅上述步骤S21,此处不再赘述。
步骤S32:利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理。
请参阅上述步骤S22,此处不再赘述。
步骤S33:确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
请参阅上述步骤S23,此处不再赘述。
由此,实现了利用强化学习的方法来对声反馈模型进行训练。
请参阅图5,图5是本申请电子设备一实施例的流程示意图。电子设备50包括相互耦接的存储器51和处理器52,存储器51中存储有程序指令,处理器52用于执行程序指令以实现上述任一抑制啸叫的方法实施例中的步骤,或实现上述任一声反馈模型进行训练的方法实施例中的步骤。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一抑制啸叫的方法实施例中的步骤,或实现上述任一声反馈模型进行训练的方法实施例中的步骤。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
处理器52用于执行程序指令以实现上述任一抑制啸叫的方法时,具体用于获取目标音频信号;利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益;其中,利用最大稳定增益对目标音频信号进行增益处理所得到的音频信号能够满足预设啸叫抑制要求;根据最大稳定增益得到目标增益,其中,目标增益不大于最大稳定增益;利用目标增益对目标音频信号进行增益处理,得到输出音频信号。
因此,通过利用声反馈模型对目标音频信号进行检测来得到满足预设啸叫抑制要求的最大稳定增益,并根据最大稳定增益得到目标增益,最后再利用目标增益对目标音频信号进行增益处理,以此得到的输出音频信号能够满足预设啸叫抑制要求,减少了啸叫的产生。
在一个实施例中,目标音频信号包括若干个子目标音频信号,输出音频信号包括若干个子输出音频信号。处理器52用于利用声反馈模型对目标音频信号进行检测,确定目标音频信号的最大稳定增益,包括:根据目标音频信号所在的频率范围,将目标音频信号分成若干个子目标音频信号,其中,不同子目标音频信号的频率范围不同;利用声反馈模型分别对若干个子目标音频信号进行检测,确定与每个子目标音频信号对应的部分最大稳定增益。处理器52用于根据最大稳定增益得到目标增益,包括:根据每个子目标音频信号的部分最大稳定增益,确定每个子目标音频信号对应的部分目标增益。处理器52用于利用目标增益对目标音频信号进行增益处理,得到输出音频信号,包括:利用每个子目标音频信号的部分目标增益,分别对每个子目标音频信号进行增益处理,得到若干个子输出音频信号。
因此,通过将目标音频信号进行分类,可以使得声反馈模型能够针对不同类型的子目标音频信号来分别确定部分最大稳定增益,以此使得部分最大稳定增益的确定更具针对性,并能够进一步减少啸叫的产生。
在一个实施例中,在处理器52用于利用目标增益对目标音频信号进行增益处理,得到输出音频信号之后,处理器52还用于检测输出音频信号的啸叫情况;若输出音频信号存在啸叫情况,利用滤除啸叫方式对输出音频信号进行处理,以抑制输出音频信号的啸叫情况。
因此,通过对输出音频信号的啸叫情况进行检测,在存在啸叫时,通过滤除啸叫的方法来对输出音频信号进行处理,可以进一步地提高抑制啸叫的效果。
在一个实施例中,上述的声反馈模型是利用强化学习的方法进行训练得到的。
因此,通过利用强化学习训练声反馈模型,可以使得声反馈模型具有更强的适应性,也能进一步提高最大稳定增益的预测准确度。
在一个实施例中,处理器52还用于执行获取样本音频信号;利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理;确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数,以实现利用强化学习的方法对声反馈模型进行训练。
因此,通过实施上述方法,可以实现利用强化学习的方法对声反馈模型进行训练。
在一个实施例中,样本音频信号包括若干个子样本音频信号,一个策略包括若干个子策略。处理器52用于利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,包括:根据样本音频信号所在的频率范围,将样本音频信号分成若干个子样本音频信号,其中,不同子样本音频信号的频率范围不同;利用声反馈模型对若干个子样本音频信号进行检测,确定在一策略中与每个子样本音频信号对应的部分预测最大稳定增益;并基于每个子样本音频信号的部分预测最大稳定增益,确定策略对应的预测最大稳定增益;重复上一步骤,以得到增益处理策略组。
因此,通过对样本音频信号进行分类,可以使得声反馈模型能够针对不同类的样本音频信号进行针对性的训练,提高训练效果。
在一个实施例中,本次训练时相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值。
因此,通过将本次训练时相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值,可以使得增益处理策略组中的预测最大稳定增益或者部分预测最大稳定增益的变化更加多样,有助于加快声反馈模型的训练速度,提高声反馈模型的训练效果。
在一个实施例中,处理器52用于确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数,包括:利用梯度上升方式对增益处理策略组的奖励函数进行处理,以获得增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
因此,通过利用梯度上升的方式,可以实现对声反馈模型的网络参数的更新。
处理器52用于执行程序指令以实现上述任一声反馈模型进行训练的方法时,具体用于获取样本音频信号;利用声反馈模型对样本音频信号进行检测,确定样本音频信号的增益处理策略组,其中,增益处理策略组包含若干个策略,每个策略为采用策略对应的预测最大稳定增益来对样本音频信号进行增益处理;确定与增益处理策略组对应的最大奖励值,并更新声反馈模型的网络参数。
因此,上述的技术方案实现了利用强化学习的方法来对声反馈模型进行训练。
请参阅图6,图6为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一抑制啸叫的方法,或任一对声反馈模型进行训练的方法。
上述方案,通过利用声反馈模型对目标音频信号进行检测来得到满足预设啸叫抑制要求的最大稳定增益,并根据最大稳定增益得到目标增益,最后再利用目标增益对目标音频信号进行增益处理,以此得到的输出音频信号能够满足预设啸叫抑制要求,减少了啸叫的产生。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种抑制啸叫的方法,其特征在于,包括:
获取目标音频信号;
利用声反馈模型对所述目标音频信号进行检测,确定所述目标音频信号的最大稳定增益;其中,利用所述最大稳定增益对所述目标音频信号进行增益处理所得到的音频信号满足预设啸叫抑制要求,所述声反馈模型是利用强化学习的方法进行训练得到的;
根据所述最大稳定增益得到目标增益,其中,所述目标增益不大于所述最大稳定增益;
利用所述目标增益对所述目标音频信号进行增益处理,得到输出音频信号;
所述方法包括以下步骤,以实现利用强化学习的方法对所述声反馈模型进行训练:
获取样本音频信号;
利用所述声反馈模型对所述样本音频信号进行检测,确定所述样本音频信号的增益处理策略组,其中,所述增益处理策略组包含若干个策略,每个所述策略为采用所述策略对应的预测最大稳定增益来对所述样本音频信号进行增益处理;
确定与所述增益处理策略组对应的最大奖励值,并更新所述声反馈模型的网络参数,其中,所述最大奖励值是根据强化学习中的奖励函数计算得到的。
2.根据权利要求1所述的方法,其特征在于,所述目标音频信号包括若干个子目标音频信号,所述输出音频信号包括若干个子输出音频信号;
所述利用声反馈模型对所述目标音频信号进行检测,确定所述目标音频信号的最大稳定增益,包括:
将所述目标音频信号分成所述若干个子目标音频信号;
利用声反馈模型分别对所述若干个子目标音频信号进行检测,确定与每个所述子目标音频信号对应的部分最大稳定增益;
所述根据所述最大稳定增益得到目标增益,包括:
根据每个所述子目标音频信号的所述部分最大稳定增益,确定每个所述子目标音频信号对应的部分目标增益;
所述利用所述目标增益对所述目标音频信号进行增益处理,得到输出音频信号,包括:
利用每个所述子目标音频信号的所述部分目标增益,分别对每个所述子目标音频信号进行增益处理,得到若干个子输出音频信号。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标音频信号分成所述若干个子目标音频信号,包括:按照所述目标音频信号所在的频率范围,将所述目标音频信号分成所述若干个子目标音频信号,其中,不同子目标音频信号的频率范围不同。
4.根据权利要求1所述的方法,其特征在于,在所述利用所述目标增益对所述目标音频信号进行增益处理,得到输出音频信号之后,所述方法还包括:
检测所述输出音频信号的啸叫情况;
若所述输出音频信号存在啸叫情况,利用滤除啸叫方式对所述输出音频信号进行处理,以抑制所述输出音频信号的啸叫情况。
5.根据权利要求1所述的方法,其特征在于,所述样本音频信号包括若干个子样本音频信号,一个所述策略包括若干个子策略;
所述利用所述声反馈模型对所述样本音频信号进行检测,确定所述样本音频信号的增益处理策略组,包括:
将所述样本音频信号分成所述若干个子样本音频信号;
利用所述声反馈模型对所述若干个子样本音频信号进行检测,确定在一策略中与每个所述子样本音频信号对应的部分预测最大稳定增益;并基于每个所述子样本音频信号的部分预测最大稳定增益,确定所述策略对应的预测最大稳定增益;
重复执行上述利用所述声反馈模型对所述若干个子样本音频信号进行检测,确定在一策略中与每个所述子样本音频信号对应的部分预测最大稳定增益;并基于每个所述子样本音频信号的部分预测最大稳定增益,确定所述策略对应的预测最大稳定增益的步骤,以得到所述增益处理策略组;和/或,
所述将所述样本音频信号分成所述若干个子样本音频信号,包括:按照所述样本音频信号所在的频率范围,将所述样本音频信号分成所述若干个子样本音频信号,其中,不同子样本音频信号的频率范围不同。
6.根据权利要求1所述的方法,其特征在于,在对所述声反馈模型进行训练时,本次训练时相邻的两个所述预测最大稳定增益或者部分预测最大稳定增益的差值不同于上一次训练时的相邻的两个预测最大稳定增益或者部分预测最大稳定增益的差值。
7.根据权利要求6所述的方法,其特征在于,所述确定与所述增益处理策略组对应的最大奖励值,并更新所述声反馈模型的网络参数,包括:
利用梯度上升方式对所述增益处理策略组的奖励函数进行处理,以获得所述增益处理策略组对应的最大奖励值,并更新所述声反馈模型的网络参数。
8.一种声反馈模型进行训练的方法,其特征在于,包括:
获取样本音频信号;
利用所述声反馈模型对所述样本音频信号进行检测,确定所述样本音频信号的增益处理策略组,其中,所述增益处理策略组包含若干个策略,每个所述策略为采用所述策略对应的预测最大稳定增益来对所述样本音频信号进行增益处理,其中,利用所述预测最大稳定增益对所述样本音频信号进行增益处理所得到的音频信号满足预设啸叫抑制要求;
确定与所述增益处理策略组对应的最大奖励值,并更新所述声反馈模型的网络参数,其中,所述最大奖励值是根据强化学习中的奖励函数计算得到的。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至7任一项所述的抑制啸叫的方法,或实现权利要求8所述的声反馈模型进行训练的方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至7任一项所述的抑制啸叫的方法,或实现权利要求8所述的声反馈模型进行训练的方法。
CN202011643147.4A 2020-12-30 2020-12-30 抑制啸叫的方法及相关模型的训练方法和设备、介质 Active CN112866873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011643147.4A CN112866873B (zh) 2020-12-30 2020-12-30 抑制啸叫的方法及相关模型的训练方法和设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011643147.4A CN112866873B (zh) 2020-12-30 2020-12-30 抑制啸叫的方法及相关模型的训练方法和设备、介质

Publications (2)

Publication Number Publication Date
CN112866873A CN112866873A (zh) 2021-05-28
CN112866873B true CN112866873B (zh) 2022-12-27

Family

ID=76000917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011643147.4A Active CN112866873B (zh) 2020-12-30 2020-12-30 抑制啸叫的方法及相关模型的训练方法和设备、介质

Country Status (1)

Country Link
CN (1) CN112866873B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724575A (zh) * 2022-06-09 2022-07-08 广州市保伦电子有限公司 一种啸叫检测方法、装置以及系统
CN114724573A (zh) * 2022-06-09 2022-07-08 广州市保伦电子有限公司 一种啸叫抑制方法、装置、计算机可读存储介质以及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480610B1 (en) * 1999-09-21 2002-11-12 Sonic Innovations, Inc. Subband acoustic feedback cancellation in hearing aids
DK3429232T3 (en) * 2007-06-12 2023-03-06 Oticon As Online anti-tilbagekoblingssystem til et høreapparat
CN103929704B (zh) * 2014-04-02 2017-09-22 厦门莱亚特医疗器械有限公司 一种基于变换域的自适应声反馈消除的方法和系统
GB201617015D0 (en) * 2016-09-08 2016-11-23 Continental Automotive Systems Us Inc In-Car communication howling prevention
CN111583949A (zh) * 2020-04-10 2020-08-25 南京拓灵智能科技有限公司 啸叫抑制的方法、装置和设备

Also Published As

Publication number Publication date
CN112866873A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112866873B (zh) 抑制啸叫的方法及相关模型的训练方法和设备、介质
EP2992605B1 (en) Frequency band compression with dynamic thresholds
EP1947903B1 (en) Bass enhancing apparatus and method
US20060233391A1 (en) Audio data processing apparatus and method to reduce wind noise
EP3048779B1 (en) Sound volume adjusting method and device
CN102164203B (zh) 信息处理设备和方法
CN111402911B (zh) 一种啸叫检测与抑制方法
JP4130835B2 (ja) 音響フィードバック抑制機能付き補聴器
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CA2483798A1 (en) Hearing aid and processes for adaptively processing signals therein
US8503694B2 (en) Sound capture system for devices with two microphones
US7317800B1 (en) Apparatus and method for processing an audio signal to compensate for the frequency response of loudspeakers
CN103262572A (zh) 振鸣抑制装置、助听器、振鸣抑制方法及集成电路
CN102143426A (zh) 用于抑制听力设备中的声学反馈的方法及对应的听力设备
JP2010515292A (ja) 自動利得制御の方法及び装置
CN113452855A (zh) 啸叫处理方法、装置、电子设备及存储介质
CN111081233B (zh) 一种音频处理方法及电子设备
CN106066782B (zh) 一种数据处理方法及电子设备
US8428917B2 (en) Signal processing device and signal processing method
GB2490092A (en) Reducing howling by applying a noise attenuation factor to a frequency which has above average gain
CN111726730A (zh) 声音播放装置及其调整输出声音的方法
CN105513606B (zh) 语音信号处理方法、装置和系统
JP6443554B2 (ja) 収音装置および収音方法
JP2008227681A (ja) 音響特性補正システム
US20110188641A1 (en) Method and apparatus for removing noise signal from input signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant