CN113921023B - 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 - Google Patents

一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 Download PDF

Info

Publication number
CN113921023B
CN113921023B CN202111521697.3A CN202111521697A CN113921023B CN 113921023 B CN113921023 B CN 113921023B CN 202111521697 A CN202111521697 A CN 202111521697A CN 113921023 B CN113921023 B CN 113921023B
Authority
CN
China
Prior art keywords
audio
howling
neural network
network model
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111521697.3A
Other languages
English (en)
Other versions
CN113921023A (zh
Inventor
李强
朱勇
王尧
叶东翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202111521697.3A priority Critical patent/CN113921023B/zh
Publication of CN113921023A publication Critical patent/CN113921023A/zh
Application granted granted Critical
Publication of CN113921023B publication Critical patent/CN113921023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备,属于音频编解码技术领域。本申请主要包括,利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量;以及将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数。本申请能在达到较好的啸叫抑制功效的同时,能够降低系统复杂度,减少运算量,降低系统延时,提升用户体验。

Description

一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备
技术领域
本申请涉及音频编解码技术领域,尤其涉及一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备。
背景技术
蓝牙音频有很多典型的应用场景,譬如说基于蓝牙的卡拉OK、基于蓝牙的无线麦克风/音箱等,从数据流的角度,可以抽象为图1所示,可以看出,此图中存在从扬声器到麦克风的反馈路径(如虚线箭头所示),此闭环状态使得当系统在增益增大到一定状态时有可能趋于不稳定,产生自激振荡发生啸叫。为了避免啸叫,可以基于深度学习对啸叫进行抑制。现有技术中基于深度学习抑制啸叫时均需要将音频数据转换到频域,或者借助其他额外的硬件设备,系统复杂,运算量大,不利于具体实施。
发明内容
针对现有技术存在的问题,本申请主要提供一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备,通过利用编解码过程中的纯净音频谱系数及含啸叫音频谱系数训练神经网络模型,进一步利用训练好的申请网络模型抑制啸叫,能够降低系统复杂度,减少运算量,降低系统延时,提升用户体验。
为了实现上述目的,本申请采用的一个技术方案是:提供一种蓝牙音频啸叫抑制方法,其包括:利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量;以及将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数;其中,纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。
本申请采用的另一个技术方案是:提供一种蓝牙音频啸叫抑制装置,其包括,模型训练模块,用于利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;特征提取模块,用于在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量;以及啸叫抑制模块,用于将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数;其中,纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。
本申请采用的另一个技术方案是:提供一种蓝牙设备,其包括编码器以及解码器,编码器和/或解码器设置有上述的蓝牙音频啸叫抑制装置。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行第一种方案中的一种蓝牙音频啸叫抑制方法。
本申请的技术方案可以达到的有益效果是:提供一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备,本申请通过利用编解码过程中的纯净音频谱系数及含啸叫音频谱系数训练神经网络模型,进一步利用训练好的申请网络模型在编解码过程中抑制啸叫,能够较好地对音频中的啸叫进行抑制,同时降低系统复杂度,减少运算量,降低系统延时,提升用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是蓝牙音频啸叫发生过程示意图;
图2是本申请一种蓝牙音频啸叫抑制方法的一个具体实施方式流程示意图;
图3是本申请一种蓝牙音频啸叫抑制方法的一个具体实施例中对深度神经网络模型训练的示意图;
图4是本申请一种蓝牙音频啸叫抑制装置的一个具体实施方式的示意图;
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了检测以便于进一步避免啸叫,现有技术中,可以在音频处理的路径上插入一个模块,譬如在音频编码器之前或音频解码器之后插入,用来检测啸叫的产生进而避免啸叫。现有方案中现有技术在啸叫的抑制和检测过程中用到深度学习时,只能进行啸叫的检测或者抑制两者中的一者,还需要进行反复地时频转换或者利用其他的设备,例如进行线性调频z变换(记为czt)和傅里叶变换及其反变换(记为FFT和IFFT)算量很大,对系统要求很高,在通常基于嵌入式系统的处理器蓝牙音频设备上实施较为困难。
本申请通过利用编解码过程中的纯净音频谱系数及含啸叫音频谱系数训练神经网络模型,进一步利用训练好的申请网络模型在编解码过程中抑制啸叫,能够降低系统复杂度,减少运算量,降低系统延时,提升用户体验。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2示出了本申请一种蓝牙音频啸叫抑制方法的一个具体实施方式。
在图2示出的本申请蓝牙音频啸叫抑制方法包括:过程S201,利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;过程S202,在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量;以及,过程S203,将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数。其中纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。
本申请通过利用编解码过程中的纯净音频谱系数及含啸叫音频谱系数训练神经网络模型,进一步利用训练好的申请网络模型在编解码过程中抑制啸叫,能够降低系统复杂度,减少运算量,降低系统延时,提升用户体验。
图2的过程S201表示的利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型,能够便于利用训练得到的啸叫抑制神经网络模型进行啸叫的抑制。
具体的,上述纯净音频谱系数及相应含啸叫音频谱系数包括对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。直接利用编解码过程中得到的谱系数对模型进行训练,既避免了额外的算力需求与相关的代码空间需求,也避免了增加算法延迟。
在本申请的具体实例中,上述纯净音频可以从公开的数据集中获取,也可以通过自己录制获取。
在本申请的具体实例中,上述相应含啸叫音频可以使用软件仿真,在上述纯净语音中添加啸叫信号获取,也可以通过录制蓝牙音频播放过程中的啸叫语音获取。
在本申请的一个具体实例中,对上述利用纯净音频信号以及含啸叫音频信号利用LC3编码器进行蓝牙音频编码,具体包括,对纯净音频信号或者含啸叫音频信号进行麦克风输入,模数转换(A/D)、自动增益(ADC)以及降噪处理,之后进行低延迟修正离散余弦变换(LD-MDCT)。
具体的,根据LC3标准对输入的一帧音频数据完成加窗和LD-MDCT计算(即低延迟改进型离散余弦变换):
当前帧的音频数据
Figure 349992DEST_PATH_IMAGE001
Figure 248940DEST_PATH_IMAGE002
上述公式中,基于LC3标准规范,以配置16kHz采样率、10ms帧长为例,
Figure 40179DEST_PATH_IMAGE003
是160,Z是60,
Figure 118993DEST_PATH_IMAGE004
是窗函数系数,X(k)是当前帧时域音频数据
Figure 679287DEST_PATH_IMAGE005
对应的频域谱系数。
在本申请的可选实施例中,还可以对上述利用纯净音频信号以及含啸叫音频信号利用可以基于MDCT变换的其他音频编解码器,如AAC-LC、eAAC、eAAC+、 AAC-LD和AAC-ELD进行编解码得到相应的音频谱系数。
在本申请的一个具体实施例中,上述利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练的过程包括,将纯净音频谱系数与相应含啸叫音频谱系数输入神经网络模型;以纯净音频谱系数作为参考,将相应含啸叫音频谱系数利用神经网络模型经非线性处理后得到处理后音频谱系数;调整神经网络模型的隐藏层的权重和偏移使得处理后音频谱系数与纯净音频谱系数的均方误差最小时,冻结神经网络模型的权重和偏移。
可选的,上述神经网络模型可以是深度神经网络模型(DNN),长短期记忆人工神经网络模型(LSTM),或者卷积循环神经网络(CRNN)等。
具体的,利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对深度神经网络模型(DNN),简单示意如图3所示,(工具所限,图中只示出了少量神经元,实际的神经元数量以表述为准)。
此深度神经网络隐藏层的前向传播函数如下所示,
Figure 513251DEST_PATH_IMAGE006
其中
Figure 463890DEST_PATH_IMAGE007
是含啸叫的谱系数,Wji是神经网络的权重(Weight),i是隐藏层的输入的索引,j是隐藏层的输出索引,bj是隐藏层第j个偏移(bias)。以第一隐藏层为例,输入6帧谱系数,总长960,即i=1~n中的n=960,输出大小1920,即j=1~1920。f()是激活函数,可以选择常用的ReLU函数,表达式如下:
Figure 910177DEST_PATH_IMAGE008
在本申请的一个具体实施例中,上述调整神经网络模型的权重和偏移的过程包括,基于反向传播更新神经网络隐藏层的权重W(Weights)与偏移b(bias)。使得神经网络输出的结果和期望结果的误差越来越小。具体的,如以下公式所示,
Figure 262661DEST_PATH_IMAGE009
上式中
Figure 267526DEST_PATH_IMAGE010
是学习率,其影响收敛的速度,E是损失函数,计算神经网络输出层与参考纯净语音谱系数之间的差别,计算方法如下
Figure 767777DEST_PATH_IMAGE011
其中k是输出神经元的数量,Xclean(n)是神经网络训练时用来参考的纯净语音经特征提取得到的参考纯净语音谱系数。
在本申请的具体实施例中,以语音应用中典型的配置16kHz采样率、10ms帧长为例,每帧谱系数k=160。
在本申请的一个具体实施例中,上述离线训练的过程包括利用个人计算机(PC)进行训练。在本具体实施例中,得到上述啸叫抑制神经网络模型后,需将的隐藏层的偏移和权重转换为定点数。通常在PC上训练时基于浮点 ,而嵌入式系统未必有浮点单元,所有需要量化操作将权重和偏移转换为定点数。优选的,将32位的浮点权重与偏移系数转换成8位定点数,既可以节省计算资源也可以节省存储资源。
可选的,上述离线训练也可以选用GPU进行离线训练。
图2的过程S202表示的在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量,能够便于将当前帧特征向量作为啸叫抑制神经网络模型的输入得到无啸叫的频谱系数。
在本申请的一个具体实施例中,上述利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量的过程包括,利用当前帧音频谱系数及其前预定帧音频谱系数进行拼接得到当前帧特征向量,音频当前帧与历史帧有较强的相关性,将当前帧与其前预定帧拼接得到当前特征向量有助于神经网络在快速收敛的同时保持稳定。
在本申请的一个具体实施例中,上述预定帧频谱系数可以取5~10帧。可选的,取当前帧音频谱系数的前5帧频谱系数与当前帧频谱系数进行拼接得到当前帧特征向量,在拼接得到当前特征向量时,用到的历史帧也会增加系统的复杂度,拼接的帧数越多系统计算量越大,可以根据系统可以使用的资源而定。
在本申请的一个具体实施例中,在LC3蓝牙音频编码过程中,利用经模数转换(A/D)、自动增益(ADC)以及降噪处理,直至完成低延迟修正离散余弦变换(LD-MDCT)得到当前帧音频谱系数得到当前帧特征向量。
在本申请的一个具体实施例中,在LC3蓝牙音频解码过程中,利用解码至完成低延迟修正离散余弦逆变换得到的当前帧音频谱系数得到当前帧特征向量。
在本申请的其他具体实施例汇总,利用基于MDCT变换的其他音频编解码器,如AAC-LC、eAAC、eAAC+、 AAC-LD和AAC-ELD进行编解码至完成MDCT变换得到的当前帧音频谱系数得到当前帧特征向量。
图2的过程S203表示的将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数。能够最终在编码或者解码的过程中,直接利用一个训练好的神经网络模型,有啸叫时输出抑制啸叫后的语音,无啸叫时神经网络模型输出无啸叫语音(此时神经网络对语音的改变很小,不影响音质)。避免现有技术中需要进行时频转换或者需要借助其他硬件设备,降低系统复杂性,减少运算量,降低系统延时,提高用户体验。
在本申请的一个具体实施例中,上述当前帧特征向量由当前帧音频谱系数及其前5帧音频谱系数拼接得到。上述利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数时,对啸叫抑制神经网络的配置为:
输入层大小960,对应6帧谱系数,(1+5)* 160 = 960
三个隐藏层大小分别为1920、1920、1920,
输出层大小为160,对应一帧谱系数,此即抑制啸叫后的谱系数,用于完成后续编码。
将当前帧的谱系数记为
Figure 188394DEST_PATH_IMAGE012
, k=0,1,2,…,159
将当前帧与N(取5)帧历史帧的谱系数拼接组成输入:
Figure 723281DEST_PATH_IMAGE013
, k=0,1,2,…,159。
在本申请的一个具体实施例中本申请的牙音频啸叫抑制方法还包括,利用无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数继续进行剩余的蓝牙编解码步骤。
在本申请的一个具体实施例中,上述啸叫抑制过程是在LC3蓝牙音频编码过程中进行的,在获得无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数后,继续进行剩余的变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术与残差编码以及码流封装,以完成编码。
图4示出了本申请一种蓝牙音频啸叫抑制装置。
在图4示出的蓝牙音频啸叫抑制装置中,包括,模型训练模块401,用于利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;特征提取模块402,用于在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量;以及啸叫抑制模块403,用于将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数;其中,纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。
本申请装置通过利用编解码过程中的纯净音频谱系数及含啸叫音频谱系数训练神经网络模型,进一步利用训练好的申请网络模型在编解码过程中抑制啸叫,能够降低系统复杂度,减少运算量,降低系统延时,提升用户体验。
用于利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型的模型训练模块401,能够便于利用训练得到的啸叫抑制神经网络模型进行啸叫的抑制。
具体的,上述纯净音频谱系数及相应含啸叫音频谱系数包括对纯净音频信号以及含啸叫音频信号进行蓝牙音频编码和/或解码时,经离散余弦变换步骤得到的音频谱系数。直接利用编解码过程中得到的谱系数对模型进行训练,既避免了额外的算力需求与相关的代码空间需求,也避免了增加算法延迟。
用于在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数得到当前帧特征向量特征提取模块402,能够便于将当前帧特征向量作为啸叫抑制神经网络模型的输入得到无啸叫的频谱系数。
用于将当前帧特征向量作为输入,利用啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数的啸叫抑制模块403,能够避免现有技术中,基于频域判断啸叫时,通常使用的离散傅里叶变换将时域信号转换到频域运算复杂度特别高的方法,本申请利用编码器中已有的时频变换,较大的节省了算力。
在本申请的一个具体实施例中,本申请的蓝牙音频啸叫抑制装置还包括量化模块,用于离线训练利用个人计算机进行时,在得到所述啸叫抑制神经网络模型后,将所述啸叫抑制神经网络模型的隐藏层的偏移和权重转换为定点数。在本具体实施例中,得到上述啸叫抑制神经网络模型后,需将的隐藏层的偏移和权重转换为定点数。通常在PC上训练时基于浮点 ,而嵌入式系统未必有浮点单元,所有需要量化操作将权重和偏移转换为定点数。优选的,将32位的浮点权重与偏移系数转换成8位定点数,既可以节省计算资源也可以节省存储资源。
在本申请的一个具体实施例中,本申请的蓝牙音频啸叫抑制装置还包括继续解码模块,用于利用无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数继续进行剩余的蓝牙编解码步骤,以便最终完成相应的蓝牙音频编解码工作。
在本申请的一个具体实施例中,本申请提供的蓝牙音频啸叫抑制装置可用于执行上述任一实施例描述的蓝牙音频啸叫抑制方法。
在本申请的一个具体实施例中,本申请一种蓝牙音频啸叫抑制装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本申请的一个具体实施方式中,一种蓝牙设备,包括编码器以及解码器编码器和/或解码器设置有上述任一实施例描述的蓝牙音频啸叫抑制装置。
在本申请的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述方案中的蓝牙音频啸叫抑制方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (6)

1.一种蓝牙音频啸叫抑制方法,其特征在于,包括,
利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对深度神经网络模型进行离线训练得到啸叫抑制神经网络模型;
在蓝牙音频编码和/或解码过程中,利用经离散余弦变换得到的当前帧音频谱系数及其前预定帧音频谱系数进行拼接得到当前帧特征向量;以及
将所述当前帧特征向量作为输入,利用所述啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数;
其中,所述纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行所述蓝牙音频编码和/或解码时,经所述离散余弦变换步骤得到的音频谱系数,所述神经网络模型为深度神经网络模型;
所述利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练的过程包括,将所述纯净音频谱系数与所述相应含啸叫音频谱系数输入所述神经网络模型;以所述纯净音频谱系数作为参考,将所述相应含啸叫音频谱系数利用所述神经网络模型经非线性处理后得到处理后音频谱系数;以及,调整所述神经网络模型的隐藏层的权重和偏移使得所述处理后音频谱系数与所述纯净音频谱系数的均方误差最小时,冻结所述神经网络模型的隐藏层的权重和偏移。
2.根据权利要求1所述的蓝牙音频啸叫抑制方法,其特征在于,所述调整所述神经网络模型的隐藏层的权重和偏移的过程包括,
基于反向传播调节所述神经网络模型的隐藏层的权重和偏移。
3.根据权利要求1所述的蓝牙音频啸叫抑制方法,其特征在于,
所述离线训练的过程包括,利用个人计算机进行训练;
在得到所述啸叫抑制神经网络模型后,将所述啸叫抑制神经网络模型的隐藏层的权重和偏移转换为定点数。
4.一种蓝牙音频啸叫抑制装置,其特征在于,包括,
模型训练模块,用于利用包括大量纯净音频谱系数及相应含啸叫音频谱系数的训练集,对神经网络模型进行离线训练得到啸叫抑制神经网络模型;
特征提取模块,用于在蓝牙音频编码和/或解码过程中,对经离散余弦变换得到的当前帧音频谱系数及其前预定帧音频谱系数进行拼接得到当前帧特征向量;以及
啸叫抑制模块,用于将所述当前帧特征向量作为输入,利用所述啸叫抑制神经网络模型输出无啸叫的当前帧音频谱系数,或者抑制啸叫后的当前帧音频谱系数;
其中,所述纯净音频谱系数及相应含啸叫音频谱系数包括,对纯净音频信号以及含啸叫音频信号进行所述蓝牙音频编码和/或解码时,经所述离散余弦变换步骤得到的音频谱系数,所述神经网络模型为深度神经网络模型;
所述模型训练模块,还用于将所述纯净音频谱系数与所述相应含啸叫音频谱系数输入所述神经网络模型;以所述纯净音频谱系数作为参考,将所述相应含啸叫音频谱系数利用所述神经网络模型经非线性处理后得到处理后音频谱系数;以及,调整所述神经网络模型的隐藏层的权重和偏移使得所述处理后音频谱系数与所述纯净音频谱系数的均方误差最小时,冻结所述神经网络模型的隐藏层的权重和偏移。
5.一种蓝牙设备,包括编码器以及解码器,其特征在于,
所述编码器和/或所述解码器设置有如权利要求4所述的蓝牙音频啸叫抑制装置。
6.一种计算机可读存储介质,其存储计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-3中任一项所述的蓝牙音频啸叫抑制方法。
CN202111521697.3A 2021-12-14 2021-12-14 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 Active CN113921023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111521697.3A CN113921023B (zh) 2021-12-14 2021-12-14 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111521697.3A CN113921023B (zh) 2021-12-14 2021-12-14 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备

Publications (2)

Publication Number Publication Date
CN113921023A CN113921023A (zh) 2022-01-11
CN113921023B true CN113921023B (zh) 2022-04-08

Family

ID=79249170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111521697.3A Active CN113921023B (zh) 2021-12-14 2021-12-14 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备

Country Status (1)

Country Link
CN (1) CN113921023B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243162B (zh) * 2022-07-14 2023-09-29 中国科学院声学研究所 一种基于深度学习的闭环系统声反馈抑制方法
CN117351925B (zh) * 2023-12-06 2024-04-12 科大讯飞(苏州)科技有限公司 啸叫抑制方法、装置、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500902A (en) * 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
RU2010115283A (ru) * 2007-09-19 2011-10-27 Квэлкомм Инкорпорейтед (US) Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN109831732A (zh) * 2019-02-25 2019-05-31 天津大学 基于智能手机的智能啸叫抑制装置和方法
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111210021A (zh) * 2020-01-09 2020-05-29 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN112309408A (zh) * 2020-11-10 2021-02-02 北京百瑞互联技术有限公司 一种扩展lc3音频编解码带宽的方法、装置及存储介质
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN113724725A (zh) * 2021-11-04 2021-11-30 北京百瑞互联技术有限公司 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379412B (zh) * 2019-09-05 2022-06-17 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500902A (en) * 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
RU2010115283A (ru) * 2007-09-19 2011-10-27 Квэлкомм Инкорпорейтед (US) Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN109831732A (zh) * 2019-02-25 2019-05-31 天津大学 基于智能手机的智能啸叫抑制装置和方法
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111210021A (zh) * 2020-01-09 2020-05-29 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN112309408A (zh) * 2020-11-10 2021-02-02 北京百瑞互联技术有限公司 一种扩展lc3音频编解码带宽的方法、装置及存储介质
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN113724725A (zh) * 2021-11-04 2021-11-30 北京百瑞互联技术有限公司 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《一种带啸叫检测与抑制的D类功放系统设计》;杨川等;《现代制造技术与装备》;20211130;全文 *

Also Published As

Publication number Publication date
CN113921023A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN113921023B (zh) 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
CN104966517B (zh) 一种音频信号增强方法和装置
CN113724725B (zh) 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
CN112634856A (zh) 语音合成模型训练方法和语音合成方法
CN111370005B (zh) 产生错误隐藏信号的装置、方法和计算机可读介质
WO2013078974A1 (zh) 非激活音信号参数估计方法及舒适噪声产生方法及系统
WO2015007114A1 (zh) 解码方法和解码装置
Howard et al. A neural acoustic echo canceller optimized using an automatic speech recognizer and large scale synthetic data
CN113707127B (zh) 一种基于线性自注意力的语音合成方法及系统
Mimura et al. Exploring deep neural networks and deep autoencoders in reverberant speech recognition
CN117854536A (zh) 一种基于多维语音特征组合的rnn降噪方法及系统
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
CN112687262A (zh) 语音转换方法、装置、电子设备及计算机可读存储介质
Skariah et al. Review of speech enhancement methods using generative adversarial networks
Zhao et al. Time Domain Speech Enhancement using self-attention-based subspace projection
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
Vicente-Peña et al. Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition
Zhao Control system and speech recognition of exhibition hall digital media based on computer technology
Ebrahim Kafoori et al. Robust recognition of noisy speech through partial imputation of missing data
CN117153196B (zh) Pcm语音信号处理方法、装置、设备及介质
Peláez-Moreno et al. A comparison of front-ends for bitstream-based ASR over IP
Lin et al. Unsupervised speech enhancement with deep dynamical generative speech and noise models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.