CN116645973B - 定向音频增强方法、装置、存储介质及电子设备 - Google Patents
定向音频增强方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116645973B CN116645973B CN202310890074.6A CN202310890074A CN116645973B CN 116645973 B CN116645973 B CN 116645973B CN 202310890074 A CN202310890074 A CN 202310890074A CN 116645973 B CN116645973 B CN 116645973B
- Authority
- CN
- China
- Prior art keywords
- target
- information
- phase difference
- enhancement
- audio enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 69
- 230000005236 sound signal Effects 0.000 claims description 132
- 239000011295 pitch Substances 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000003491 array Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 13
- 230000008901 benefit Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 239000010410 layer Substances 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000714 time series forecasting Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开定向音频增强方法、装置、存储介质及电子设备,该方法根据各种麦克风阵列允许使用的间距信息计算方向融合特征,通过这一方向融合特征涵盖了各种可行间距条件下对于音频输入信号,进行针对目标方向的音频增强所需的信息。根据该方向融合特征对音频输入信号进行目标方向的定向音频增强。这一方法的优势在于对各种可能间距条件下的音频增强场景都可以进行音频增强处理,并且可以达到较好的音频增强效果,从而解决音频定向增强能力差,适用范围窄的问题。该方法基于定向音频增强模型实施,该定向音频增强模型可为各种可能间距条件下的音频增强场景提供音频增强服务,具备很好的泛化能力,解决了定向音频增强模型泛化能力差的问题。
Description
技术领域
本申请实施例涉及人工智能领域,尤其涉及定向音频增强方法、装置、存储介质及电子设备。
背景技术
定向语音增强旨在从混合语音信号中增强来自给定角度的语音信号,而非所有说话人的语音信号,或者说并非来自所有角度的语音信号。基于传统信号处理的定向语音增强方法在嘈杂、混响程度严重的声学环境中的干扰信号抑制能力非常有限。而基于神经网络训练出的定向音频增强模型为高性能的语音增强提供了可能,但是目前基于神经网络训练出的定向音频增强模型泛化能力较差,为实际的落地应用造成了困难。
发明内容
为了解决上述至少一个技术问题,本申请实施例提供定向音频增强方法、装置、存储介质及电子设备,以解决相关技术中音频定向增强能力差,适用范围窄的问题。
一方面,本申请实施例提供了一种定向音频增强方法,所述方法包括:
获取目标输入音频信号、用于进行定向音频增强的目标方向和所述目标输入音频信号对应的通道间相位差信息,所述目标输入音频信号由目标麦克风阵列输出;
获取间距集合,所述间距集合包括目标麦克风阵列允许使用的间距信息,所述目标麦克风阵列包括至少两个麦克风;
根据所述通道间相位差信息、所述间距集合和所述目标方向,确定所述间距集合中每一所述间距信息所对应的方向特征;
融合各所述间距信息分别对应的方向特征,得到方向融合特征;
根据所述方向融合特征对所述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
另一方面,本申请实施例提供一种定向音频增强装置,所述装置包括:
信号获取模块,用于获取目标输入音频信号、用于进行定向音频增强的目标方向和所述目标输入音频信号对应的通道间相位差信息,所述目标输入音频信号由目标麦克风阵列输出;
间距信息获取模块,用于获取间距集合,所述间距集合包括目标麦克风阵列允许使用的间距信息,所述目标麦克风阵列包括至少两个麦克风;
方向特征确定模块,用于根据所述通道间相位差信息、所述间距集合和所述目标方向,确定所述间距集合中每一所述间距信息所对应的方向特征;融合各所述间距信息分别对应的方向特征,得到方向融合特征;
增强模块,用于根据所述方向融合特征对所述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种定向音频增强方法。
另一方面,本申请实施例提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种定向音频增强方法。
另一方面,本申请实施例提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述的一种定向音频增强方法。
本申请实施例提供定向音频增强方法、装置、存储介质及电子设备。该定向音频增强方法可以根据各种麦克风阵列允许使用的间距信息计算方向融合特征,然后通过这一方向融合特征涵盖了各种可行的间距条件下对于音频输入信号,进行针对目标方向的音频增强所需的信息。然后根据该方向融合特征即可对音频输入信号进行目标方向的定向音频增强。这一定向音频增强方法的显著优势在于可以对各种可能的间距条件下的音频增强场景都可以进行音频增强处理,并且可以达到较好的音频增强效果,从而解决了相关技术中音频定向增强能力差,适用范围窄的问题。该定向音频增强方法可以基于定向音频增强模型实施,该定向音频增强模型可以适用于为各种可能的间距条件下的音频增强场景提供音频增强服务,显然其自身具备很好的泛化能力,这也解决了相关技术中语音增强模型或者定向音频增强模型的泛化能力差的技术问题。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案和优点,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的定向音频增强方法的实施框架示意图;
图2是本申请实施例提供的定向音频增强方法的流程示意图;
图3是本申请实施例提供的基于平面波传播模型的信号相位差示意图;
图4是本申请实施例提供的用于得到目标方向融合特征的方法流程示意图;
图5是本申请实施例提供的定向音频增强模型的训练方法的流程示意图;
图6是本申请实施例提供的定向音频增强模型训练过程示意图;
图7是本申请实施例提供的定向音频增强效果示意图;
图8是本申请实施例提供的一种定向音频增强装置的框图;
图9是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:
云技术(Cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个资源都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交换系统、机电一体化等技术。人工智能软件技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究,其属于机器学习领域。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
Transformer:一种采用自注意力(SelfAttention)结构抽取序列各元素之间两两交互关系的模型,被广泛应用于自然语言处理、图像处理、和时序预测领域。Transformer就是一个基于多头注意力机制的模型,本质上是一个Encoder-Decoder(编码-解码)模型。Transformer Encoder模型的输入是一句话的字嵌入表示和其对应的位置编码信息,模型的核心层是一个多头注意力机制。多头注意力机制就是使用多个注意力机制进行单独计算,以获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组合,得到最终的结果。Add&Norm层会把Multi-Head Attention(多注意力)层的输入和输出进行求和并归一化处理后,传递到Feed Forward(前向传递)层,最后会再进行一次Add&Norm处理,输出最终的词向量阵列。Transformer是一个全连接(或者是一维卷积)加Attention的结合体。算法的并行性好,符合目前的硬件环境。
MLP(Multi-Layer Perceptron),即多层感知器,是一种趋向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练MLP。MLP是感知器的推广,克服了感知器无法实现对线性不可分数据识别的缺点。实际上,MLP本身可以使用任何形式的激活函数,譬如阶梯函数或逻辑乙形函数,但为了使用反向传播算法进行有效学习,激活函数限制为可微函数。由于具有良好可微性,很多乙形函数,尤其是双曲正切函数及逻辑乙形函数,被采用为激活函数。
麦克风阵列是将两个或多个麦克风的信号耦合为一个信号的传感器,信号强度更高,可以通过芯片,消除环境中各种干扰。
双麦阵列:包含两个麦克风信号的麦克风阵列。在两个麦克风的正前方形成一个接收区域,进而削减两个麦克风侧向的收音效果。其在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。而这些分析都可以由极坐标图以波束形式来显示语音信号的强度与角度。
相较于传统的语音分离或者音频增强技术,定向语音增强(Directional SpeechEnhancement, D-SE)旨在从混合语音信号中增强来自给定角度的语音信号,而非所有说话人的语音信号,或者说并非来自所有角度的语音信号。D-SE假设已知目标说话人的准确方向和位置,可以增强来自目标方向的语音信号,同时抑制其它方向的干扰信号和噪声。D-SE的问题定义和空间滤波在一定程度上有相似之处,均旨在增强来自某个方向,或者增强来自某个方向范围的信号。因此,最为直接的一类D-SE方法是对目标方向直接应用固定波束形成或自适应波束形成算法。但是,基于传统信号处理的D-SE方法在嘈杂、混响程度严重的声学环境中的干扰信号抑制能力非常有限。
近来一些研究结合信号处理和深度学习,提出了一系列基于深度神经网络的D-SE方法,一种比较有效的D-SE方法以方向特征作为目标方向信号的线索,使得深度学习模型可以更好地分离出目标输出信号,这个目标输出信号就可以被理解为定向音频增强后的结果。该类方向特征基于目标方向角计算混合音频信号中,来自目标方向的信号成分所占的比重,可作为一种粗糙的目标输出信号估计手段。但是,该类方向特征需要精确的麦克风间距信息,且采用某一间距对应的方向特征训练的深度学习模型往往也只能适用于该间距,而不能泛化至其它间距的麦克风阵列,也就是说,如果使用其他间距的目标麦克风阵列,该已经被训练好的深度学习模型可能失效,需要被重新训练才能为其他间距的麦克风阵列提供定向音频增强服务。
有鉴于此,本申请实施例提供定向音频增强方法、装置、存储介质及电子设备。该定向音频增强方法可以根据各种麦克风阵列允许使用的间距信息计算方向融合特征,然后通过这一方向融合特征涵盖了各种可行的间距条件下对于音频输入信号,进行针对目标方向的音频增强所需的信息。然后根据该方向融合特征即可对音频输入信号进行目标方向的定向音频增强。这一定向音频增强方法的显著优势在于可以对各种可能的间距条件下的音频增强场景都可以进行音频增强处理,并且可以达到较好的音频增强效果,从而解决了相关技术中音频定向增强能力差,适用范围窄的问题。该定向音频增强方法可以基于定向音频增强模型实施,该定向音频增强模型可以适用于为各种可能的间距条件下的音频增强场景提供音频增强服务,显然其自身具备很好的泛化能力,这也解决了相关技术中语音增强模型或者定向音频增强模型的泛化能力差的技术问题。
请参阅图1,图1是本说明书实施例提供的定向音频增强方法的实施框架示意图,如图1所示,该实施框架可以至少包括客户端10、服务器20,客户端10和服务器20通过网络30通信,该实施框架也可以被认为是定向音频增强系统,该定向音频增强系统用于训练定向音频增强模型以及基于该定向音频增强模型提供定向音频增强服务。服务器20可以位于云环境,该服务器20为该云环境中的定向音频增强系统中的节点,该节点为云环境中的任意节点。
该服务器20可以首先训练定向音频增强模型。在得到定向音频增强模型的情况下,服务器20可以对外提供定向音频增强服务。在获取到客户端10发出的定向音频增强请求的情况下,或者在接收到客户端10的需要被进行定向音频增强的目标输入音频信号的情况下,可以获取目标输入音频信号、用于进行定向音频增强的目标方向和上述目标输入音频信号对应的通道间相位差信息,上述目标输入音频信号由目标麦克风阵列输出;获取间距集合,上述间距集合包括目标麦克风阵列允许使用的间距信息,上述目标麦克风阵列包括至少两个麦克风;根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征;融合各上述间距信息分别对应的方向特征,得到方向融合特征;根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
本申请实施例的上述框架可以提供各种场景下的应用所需的定向音频增强能力,该应用包括但不限于云技术、云游戏、云渲染、人工智能、智慧交通、辅助驾驶、视频媒体、智能社区、即时通信等。该框架中各组件可以是终端设备或服务器。终端设备包括但不限于手机、电脑、智能语音交换设备、智能家电、车载终端等。
以下介绍本申请实施例的一种定向音频增强方法,图2示出了本申请实施例提供的一种定向音频增强方法的流程示意图,该定向音频增强方法可以基于定向音频增强模型执行。本申请实施例提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境),上述方法可以包括:
S201. 获取目标输入音频信号、用于进行定向音频增强的目标方向和上述目标输入音频信号对应的通道间相位差信息,上述目标输入音频信号由目标麦克风阵列输出。
目标麦克风阵列可以是图1中的客户端10,或者受控于客户端10,其具体指的是本申请实施例中用于进行音频定向增强的麦克风阵列。目标麦克风阵列中包括至少两个麦克风。各麦克风采集到的音频信号会经过目标麦克风阵列混合,然后该目标麦克风阵列输出多通道混合信号,在一些情况下一个麦克风可以对应一个通道。该多通道混合信号就是步骤S201中的目标输入音频信号。该目标输入音频信号为一种音频信号,在一些场景中,其可以是一种语音信号。
目标麦克风阵列所输出的多通道混合信号在时频域的一种表示方式如下:
(1)
其中,是多通道混合信号的复数频谱,C是所有音频信号的数量,N是点源和非点源噪声频谱的和。点源噪声表示噪声在某个角度或位置产生的噪声,比如风扇、电脑播放的音乐;而非点源噪声则为环境噪声或底噪,并没有一个具体的发声位置。
是第c个多通道音频信号的复数频谱,t表示时间信息,f表示频率信息,c为大于或等于1,小于或等于C的整数。
多通道中的通道数量可以指目标麦克风阵列的麦克风数量。在本申请的一个实施方式中,目标麦克风阵列所采集到的信号为被建模为音频信息/>和噪音/>的混合信号。
定向音频增强的目的是,给定目标方向θ,从多通道混合信号中提取目标方向θ下的目标音频,并抑制其它干扰信号。
上述目标输入音频信号对应的通道间相位差信息包括目标麦克风组合的目标相位差,目标麦克风组合可以指目标麦克风阵列中任意两个麦克风形成的组合,当然,可以将相邻的两个麦克风形成一个麦克风组合。上述目标麦克风组合包括第一麦克风和第二麦克风,上述第一麦克风为上述目标麦克风阵列中的任一麦克风,上述第二麦克风为上述目标麦克风阵列中不同于上述第一麦克风的其他麦克风,上述目标相位差为上述第一麦克风和上述第二麦克风之间的真实相位差。本申请实施例中的目标麦克风阵列可以包括至少两个麦克风,对于任何两个麦克风所形成的麦克风组合,本申请实施例处理方式是相同的,因此,后文以目标麦克风组合为例对定向音频增强方法进行详细说明。
本申请实施例中目标相位差就是上述第一麦克风和上述第二麦克风之间的真实相位差,或者说,是上述第一麦克风和上述第二麦克风分别对应的两个通道信号频谱的相位差。本申请实施例中通过IPD(Interaural Phase Difference)表示目标相位差。
S202. 获取间距集合,上述间距集合包括目标麦克风阵列允许使用的间距信息,上述目标麦克风阵列包括至少两个麦克风。
目标麦克风阵列可以使用多种间距来布局麦克风,为了使得本申请实施例可以达到不定间距场景下的定向音频增强效果,本申请实施例将各种可以用来布局麦克风阵列的间距信息都收集起来,形成间距集合。所谓的不定间距场景下的定向音频增强效果,指的是在实际进行音频增强的时候,并不需要已知当前所使用的目标麦克风阵列中究竟使用了哪一种间距布局麦克风,也能够达到定向音频增强效果。
S203.根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征。
上述间距集合中每一上述间距信息所对应的方向特征,包括:针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征。上述根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征,包括:根据上述目标相位差、上述间距集合和上述目标方向,确定针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征。
方向特征是一类基于声源方向θ来预先从混合音频信号中提取目标方向信号成分的特征。本申请实施例对于方向特征的含义进行下述说明。请参考图3,其示出基于平面波传播模型的信号相位差示意图。
如图3所示,假设平面波传播模型、时频点(t, f)上只被来自目标方向θ的信号主导,那么来自方向θ的信号到达目标麦克风组合的两个麦克风之间的采样点差(TimeDifference of Arraival, TDOA)为,在时频域上会体现为一个固定相位差,请参考下式:
(2)
其中,是来自目标方向θ的脉冲信号在两个麦克风之间、第f个频段上的理论相位差(Target Phase Difference, TPD),F是总频点数,d是两个麦克风之间的物理距离,/>= d·fs·cosθ / v,fs是信号采样频率,v是声速,M1和M2指向两个麦克风。
方向特征定义为TPD和对应的IPD在每个时频点的相似度,请参考下式:
其中,IPD的含义在前文已有阐述。Y是时频域表征(复数),∠表示取复数的相位。M1和M2分别表示第M对麦克风的二个麦克风分别对应的索引,表示多来自合信号频谱第M1个通道的频谱。上式的设计思想是,若时频点(t, f)被来自于θ的声源所主导,那么其对应的IPD应与理论相位差TPD具有较高的相似度,否则较低。本申请文字部分M1和M2,与相关公式以及说明书附图中的/>和/>具备相同含义。
间距未知时,TPD无法计算,因此相关技术中基于固定间距方向特征的D-SE模型无法在TPD未知的情况下训练和测试,也无法提供定向音频增强服务。
本申请实施例中,上述根据上述目标相位差、上述间距集合和上述目标方向,确定针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征,包括:针对上述间距集合中的每一上述间距信息,根据上述间距信息和上述目标方向计算理论相位差信息(TPD);根据上述理论相位差信息和上述麦克风组合的目标相位差(IPD)之间的相似度,计算针对上述目标麦克风组合,上述间距信息所对应的目标方向特征。
S204. 融合各上述间距信息分别对应的方向特征,得到方向融合特征。
上述方向融合特征包括上述目标麦克风组合对应的目标方向融合特征。为了得到在无需已知需要进行定向音频增强的目标麦克风阵列所使用的具体间距下依然可以进行定向音频增强,本申请实施例需要融合各上述间距信息分别对应的目标方向特征,得到目标方向融合特征。当然,本申请实施例对具体的融合方式不做限定。在一个可行的实施方式中,可以采用变换后拼接(Transform-and-concatenate, TAC)的方式进行融合,或变换后平均(Transform-and-average, TAA)的方式进行融合。具体来说,在一个实施方式中,可以将每个目标方向特征输入一个相同的多层感知器(Multi-Layer Perceptron, MLP)中得到变换后的特征,然后沿特征维度拼接或是平均多个该变换后的特征,得到目标方向融合特征。每个方向特征V可以被理解为一个T×F的阵列,特征维度是F,T是帧数。
当然,除了TAC和TAA方法之外,也可以设计自注意力或互注意力模块,为每个目标方向特征分配不同的权重,之后进行拼接或平均操作,得到目标方向融合特征。通过将多个目标方向特征经由变换和聚合,得到目标方向融合特征,该目标方向融合特征是一种不定间距方向特征。
上述方向融合特征包括上述目标麦克风组合所对应的目标方向融合特征。对于目标方向融合特征的获取方式,在一个实施例中,请参考图4,其示出一种具体的得到目标方向融合特征的方法流程示意图,可以通过下述方式得到目标方向融合特征:
S401. 根据目标麦克风阵列的最小间距和最大间距确定间距集合。
假设使用的目标麦克风阵列中的最小间距和最大间距分别为d1和dI,则可以通过插值的方式设定间距集合。具体地,可以将间距集合表示为d = {d1, d2, …, dI},其中,不失一般性,,I为间距集合中的元素总数量,i为下标,i为大于或等于1的整数,dI与/>具备相同含义。
S402. 针对每一间距,根据目标方向计算该间距对应的理论相位差信息。
理论相位差信息的计算方法可以参考下式:
(4),相关参数含义同上文基于同一构思,不做赘述。
S403. 针对每一间距,计算理论相位差信息和对应的目标相位差之间的相似度,得到该间距对应的目标方向特征。
目标方向特征的计算方法可以参考下式:
相关参数含义同上文基于同一构思,不做赘述。
S404. 融合各目标方向特征,得到目标方向融合特征。
当然,本申请实施例对融合方式不做限定。除了TAC和TAA方法之外,也可以为每个目标方向特征分配不同的权重,之后进行拼接或平均操作,得到目标方向融合特征。通过将多个目标方向特征经由变换和聚合,得到目标方向融合特征,该目标方向融合特征是一种不定间距方向特征。
S205. 根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
本申请实施例中的音频增强指的就是保留目标方向指向的音频信号,并且抑制来自其他方向的音频信号。在一个实施例中,上述根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号,包括:根据上述方向融合特征和上述目标输入音频信号,拟合用于进行音频增强的掩码信息;融合上述掩码信息和上述目标输入音频信号,得到上述目标输出信号。
本申请实施例中通过上述方向融合特征和上述目标输入音频信号,拟合用于进行音频增强的掩码信息可以通过训练好的定向音频增强模型来实现,也就是说,通过该训练好的定向音频增强模型,使用上述方向融合特征和上述目标输入音频信号可以拟合出目标方向对应的掩码信息,该掩码信息可以被用于抑制非目标方向相关的音频信号,而掩码信息的获取并不需要明确知道目标麦克风阵列正在使用的间距。在一个具体的操作步骤中将该掩码信息与该目标输入音频信号直接相乘,就可以达到抑制效果,得到上述目标输出信号。
本申请实施例中的方法可以基于定向音频增强模型实施,也就是说,由该定向音频增强模型可以执行前文中的步骤S202至步骤S205中的各种操作。
请参考图5,其示出该定向音频增强模型的训练方法的流程示意图。上述定向音频增强模型通过下述方法训练:
S501. 获取训练数据,上述训练数据包括样本输入音频信号、样本通道间相位差信息、参考方向信息、间距集合和增强参考信号,上述样本输入音频信号对应上述目标麦克风阵列的音频输出信号,上述样本通道间相位差信息指向上述目标麦克风阵列中两个麦克风之间的真实相位差信号,上述增强参考信号为对上述样本输入音频信号进行针对上述参考方向信息的定向音频增强后得到的标准信号,上述标准信号为满足音频增强要求的信号。
该样本通道间相位差信息就可以理解为前文中的IPD。本申请实施例对于音频增强要求不做限定,可以根据实际情况和具体的音频增强场景由本领域技术人员进行设定。
S502. 将上述训练数据输入预设模型,上述预设模型执行下述操作:根据上述样本输入音频信号、上述样本通道间相位差信息、上述参考方向信息和上述间距集合得到增强音频信号;根据上述增强音频信号和上述增强参考信号之间的差异,调整上述预设模型的参数,得到上述定向音频增强模型。
本申请实施例对于预设模型的结构不做限定,比如,其可以是卷积神经网络、深度卷积神经网络或者循环神经网络等。本申请实施例中该预设模型所做的操作与前文基于相同发明构思,在此不做赘述。其中,卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征进行学习、有稳定的效果且对数据没有额外的特征工程要求。循环神经网络(Recurrent Neural Network, RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
简单来说,上述根据上述样本输入音频信号、上述样本通道间相位差信息、上述参考方向信息和上述间距集合得到增强音频信号,包括:根据上述样本通道间相位差信息和上述参考方向信息,确定上述间距集合中每一上述间距信息所对应的样本方向特征;融合各上述间距信息分别对应的样本方向特征,得到样本方向融合特征;根据上述样本方向融合特征对上述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号。
上述根据上述样本方向融合特征对上述样本输入音频信号进行音频增强,得到定向音频增强后的目标输出信号,包括:根据上述样本方向融合特征和上述样本输入音频信号,拟合用于进行音频增强的掩码信息;融合上述掩码信息和上述样本输入音频信号,得到上述增强音频信号。
本申请实施例并不限定上述增强音频信号和上述增强参考信号之间差异的衡量手段,相关技术中用于衡量不同的音频信号的差异的方法均可以考虑采用。在一个实施例中,上述根据上述增强音频信号和上述增强参考信号之间的差异,调整上述预设模型的参数,得到上述定向音频增强模型,包括:根据上述增强音频信号和上述增强参考信号,计算信噪比信息;根据上述信噪比信息,调整上述预设模型的参数,得到上述定向音频增强模型。也就是说,训练时所采用的损失函数是信噪比(Signal-to-Noise Ratio, SNR)。
本申请实施例中可以基于梯度下降法对上述参数进行调整。梯度下降法是机器学习和深度学习领域中进行网络参数调整时经常使用的、通过梯度下降的方式对网络参数进行一阶最优化调整的方法。本申请实施例中梯度下降法可以引导预设模型中的参数向减少训练损失的方向进行调整。当调整次数达到预设的次数阈值,或者当上述差异小于预设的损失阈值的情况下,停止调参,得到上述定向音频增强模型。
请参考图6,其示出定向音频增强模型训练过程示意图。其输入为样本输入音频信号、样本通道间相位差信息、参考方向信息、间距集合和增强参考信号,其中样本输入音频信号为目标麦克风阵列所接收到的多通道混合信号,参考方向信息即为图6中需要进行定向增强的目标方向(θ),间距集合即为图6中的d。以多通道混合信号的复数谱特征(Y)、样本通道间相位差信息(IPD)和参考方向信息作为输入,得到方向融合特征。预设模型可以采用一个深度神经网络进行针对该多通道混合信号的时频掩蔽(Mask)估计。该深度神经网络不限结构,可采用常见的循环神经网络(Recurrent neural network, RNN)、长短时记忆网络(Long-short Term Memory, LSTM)、卷积神经网络(Convolution Neural Network,CNN)、Transformer等。将估计的时频掩蔽与复数谱特征相乘即可得到估计的增强音频信号,也就是目标信号估计环节的结果,根据该增强音频信号与增强参考信号的差异调整预设模型参数,得到定向音频增强模型。
图6中的STFT为短时傅里叶变换(STFT,Short-time Fourier Transform),相应的,iSTFT为其对应的逆变换。STFT是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。它的思想是:选择一个时频局部化的窗函数,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使f(t)g(t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。短时傅里叶变换使用一个固定的窗函数,窗函数一旦确定了以后,其形状就不再发生改变,短时傅里叶变换的分辨率也就确定了。如果要改变分辨率,则需要重新选择窗函数。短时傅里叶变换用来分析分段平稳信号或者近似平稳信号犹可,但是对于非平稳信号,当信号变化剧烈时,要求窗函数有较高的时间分辨率;而波形变化比较平缓的时刻,主要是低频信号,则要求窗函数有较高的频率分辨率。
本申请实施例的定向音频增强方法可以根据各种麦克风阵列允许使用的间距信息计算方向融合特征,然后通过这一方向融合特征涵盖了各种可行的间距条件下对于音频输入信号,进行针对目标方向的音频增强所需的信息。然后根据该方向融合特征即可对音频输入信号进行目标方向的定向音频增强。这一定向音频增强方法的显著优势在于可以对各种可能的间距条件下的音频增强场景都可以进行音频增强处理,并且可以达到较好的音频增强效果,从而解决了相关技术中音频定向增强能力差,适用范围窄的问题。该定向音频增强方法可以基于定向音频增强模型实施,该定向音频增强模型可以适用于为各种可能的间距条件下的音频增强场景提供音频增强服务,显然其自身具备很好的泛化能力,这也解决了相关技术中语音增强模型或者定向音频增强模型的泛化能力差的技术问题。
请参考图7,其示出本申请的定向音频增强效果示意图。图7中的定向语音增强模型就是前文训练好的定向音频增强模型。图7是本申请实施例使用目标麦克风阵列实录一个房间内的对话场景中的定向音频增强效果测试结果,该目标麦克风阵列是四麦线阵,每个麦克风对应的基础间距为3.5厘米,通过组合不同的麦克风对,可以得到间距分别为3.5厘米、7厘米、10.5厘米的双麦录音场景。具体地,将所训练的不定间距的定向音频增强模型分别在7厘米和10.5厘米间距的双麦录音场景上进行了测试,其中,不定间距的定向音频增强模型对阵型是未知的。结果如图7 所示,显而易见,在实录数据上,本申请实施例训练得到的不定间距的定向音频增强模型也可以和已知间距的D-SE模型取得相似的定向音频增强性能。
本申请实施例提出了一种面向不定间距麦克风阵列的定向音频增强方法,该方法可在未知目标麦克风阵列间距细节的情况下,定向增强来自某个方向的音频信号,使得同一个定向音频增强模型可支持不同型号的传感器设备或者说麦克风阵型。该方法适用于移动通信、线下会议、助听器、音频增强现实等场景。与相关技术中的基于固定阵列的定向音频增强方法相比,本申请实施例所提出的方法不需要阵型信息,可以更便捷地适应多变的场景需求。
请参考图8,其示出本实施例中一种定向音频增强装置的框图,上述装置包括:
信号获取模块801,用于获取目标输入音频信号、用于进行定向音频增强的目标方向和上述目标输入音频信号对应的通道间相位差信息,上述目标输入音频信号由目标麦克风阵列输出;
间距信息获取模块802,用于获取间距集合,上述间距集合包括目标麦克风阵列允许使用的间距信息,上述目标麦克风阵列包括至少两个麦克风;
方向特征确定模块803,用于根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征;融合各上述间距信息分别对应的方向特征,得到方向融合特征;
增强模块804,用于根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
在一个实施例中,上述增强模块804用于执行下述操作:
根据上述方向融合特征和上述目标输入音频信号,拟合用于进行音频增强的掩码信息;
融合上述掩码信息和上述目标输入音频信号,得到上述目标输出信号。
在一个实施例中,上述目标输入音频信号对应的通道间相位差信息包括目标麦克风组合的目标相位差,上述目标麦克风组合包括第一麦克风和第二麦克风,上述第一麦克风为上述目标麦克风阵列中的任一麦克风,上述第二麦克风为上述目标麦克风阵列中不同于上述第一麦克风的其他麦克风,上述目标相位差为上述第一麦克风和上述第二麦克风之间的真实相位差;上述间距集合中每一上述间距信息所对应的方向特征,包括:针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征;
上述方向特征确定模块803用于执行下述操作:
根据上述目标相位差、上述间距集合和上述目标方向,确定针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征。
在一个实施例中,上述方向特征确定模块803用于执行下述操作:
针对上述间距集合中的每一上述间距信息,根据上述间距信息和上述目标方向计算理论相位差信息;
根据上述理论相位差信息和上述麦克风组合的目标相位差之间的相似度,计算针对上述目标麦克风组合,上述间距信息所对应的目标方向特征。
在一个实施例中,上述装置还包括训练模块805,上述训练模块805用于执行下述操作:
获取训练数据,上述训练数据包括样本输入音频信号、样本通道间相位差信息、参考方向信息、间距集合和增强参考信号,上述样本输入音频信号对应上述目标麦克风阵列的音频输出信号,上述样本通道间相位差信息指向上述目标麦克风阵列中两个麦克风之间的真实相位差信号,上述增强参考信号为对上述样本输入音频信号进行针对上述参考方向信息的定向音频增强后得到的标准信号,上述标准信号为满足音频增强要求的信号;
将上述训练数据输入预设模型,上述预设模型执行下述操作:
根据上述样本输入音频信号、上述样本通道间相位差信息、上述参考方向信息和上述间距集合得到增强音频信号;
根据上述增强音频信号和上述增强参考信号之间的差异,调整上述预设模型的参数,得到上述定向音频增强模型。
在一个实施例中,上述训练模块805用于执行下述操作:
根据上述增强音频信号和上述增强参考信号,计算信噪比信息;
根据上述信噪比信息,调整上述预设模型的参数,得到上述定向音频增强模型。
在一个实施例中,上述训练模块805用于执行下述操作:
根据上述样本通道间相位差信息和上述参考方向信息,确定上述间距集合中每一上述间距信息所对应的样本方向特征;
融合各上述间距信息分别对应的样本方向特征,得到样本方向融合特征;
根据上述样本方向融合特征对上述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号。
在一个实施例中,上述训练模块805用于执行下述操作:
根据上述样本方向融合特征和上述样本输入音频信号,拟合用于进行音频增强的掩码信息;
融合上述掩码信息和上述样本输入音频信号,得到上述增强音频信号。
本申请实施例中装置部分与方法实施例基于相同发明构思,在此不做赘述。
进一步地,图9示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图,上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图9所示,设备9可以包括一个或多个(图中采用92a、92b,……,92n来示出)处理器92(处理器92可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器94、以及用于通信功能的传输装置96。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备9还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
应当注意到的是上述一个或多个处理器92和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分地体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备9(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器94可用于存储应用软件的软件程序以及模块,如本申请实施例中上述的方法对应的程序指令/数据存储装置,处理器92通过运行存储在存储器94内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种定向音频增强方法。存储器94可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器94可进一步包括相对于处理器92远程设置的存储器,这些远程存储器可以通过网络连接至设备9。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置96用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备9的通信供应商提供的无线网络。在一个实例中,传输装置96包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置96可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备9(或移动设备)的用户界面进行交换。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请实施例中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述存储介质中的指令可以执行一种定向音频增强方法,上述方法包括:
获取目标输入音频信号、用于进行定向音频增强的目标方向和上述目标输入音频信号对应的通道间相位差信息,上述目标输入音频信号由目标麦克风阵列输出;
获取间距集合,上述间距集合包括目标麦克风阵列允许使用的间距信息,上述目标麦克风阵列包括至少两个麦克风;
根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征;
融合各上述间距信息分别对应的方向特征,得到方向融合特征;
根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号。
在一个实施例中,上述根据上述方向融合特征对上述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号,包括:
根据上述方向融合特征和上述目标输入音频信号,拟合用于进行音频增强的掩码信息;
融合上述掩码信息和上述目标输入音频信号,得到上述目标输出信号。
在一个实施例中,上述目标输入音频信号对应的通道间相位差信息包括目标麦克风组合的目标相位差,上述目标麦克风组合包括第一麦克风和第二麦克风,上述第一麦克风为上述目标麦克风阵列中的任一麦克风,上述第二麦克风为上述目标麦克风阵列中不同于上述第一麦克风的其他麦克风,上述目标相位差为上述第一麦克风和上述第二麦克风之间的真实相位差;
上述间距集合中每一上述间距信息所对应的方向特征,包括:针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征;
上述根据上述通道间相位差信息、上述间距集合和上述目标方向,确定上述间距集合中每一上述间距信息所对应的方向特征,包括:
根据上述目标相位差、上述间距集合和上述目标方向,确定针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征。
在一个实施例中,上述根据上述目标相位差、上述间距集合和上述目标方向,确定针对上述目标麦克风组合,上述间距集合中每一上述间距信息所对应的目标方向特征,包括:
针对上述间距集合中的每一上述间距信息,根据上述间距信息和上述目标方向计算理论相位差信息;
根据上述理论相位差信息和上述麦克风组合的目标相位差之间的相似度,计算针对上述目标麦克风组合,上述间距信息所对应的目标方向特征。
在一个实施例中,上述方法基于定向音频增强模型实施,上述定向音频增强模型通过下述方法训练:
获取训练数据,上述训练数据包括样本输入音频信号、样本通道间相位差信息、参考方向信息、间距集合和增强参考信号,上述样本输入音频信号对应上述目标麦克风阵列的音频输出信号,上述样本通道间相位差信息指向上述目标麦克风阵列中两个麦克风之间的真实相位差信号,上述增强参考信号为对上述样本输入音频信号进行针对上述参考方向信息的定向音频增强后得到的标准信号,上述标准信号为满足音频增强要求的信号;
将上述训练数据输入预设模型,上述预设模型执行下述操作:
根据上述样本输入音频信号、上述样本通道间相位差信息、上述参考方向信息和上述间距集合得到增强音频信号;
根据上述增强音频信号和上述增强参考信号之间的差异,调整上述预设模型的参数,得到上述定向音频增强模型。
在一个实施例中,上述根据上述增强音频信号和上述增强参考信号之间的差异,调整上述预设模型的参数,得到上述定向音频增强模型,包括:
根据上述增强音频信号和上述增强参考信号,计算信噪比信息;
根据上述信噪比信息,调整上述预设模型的参数,得到上述定向音频增强模型。
在一个实施例中,上述根据上述样本输入音频信号、上述样本通道间相位差信息、上述参考方向信息和上述间距集合得到增强音频信号,包括:
根据上述样本通道间相位差信息和上述参考方向信息,确定上述间距集合中每一上述间距信息所对应的样本方向特征;
融合各上述间距信息分别对应的样本方向特征,得到样本方向融合特征;
根据上述样本方向融合特征对上述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号。
在一个实施例中,上述根据上述样本方向融合特征对上述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号,包括:
根据上述样本方向融合特征和上述样本输入音频信号,拟合用于进行音频增强的掩码信息;
融合上述掩码信息和上述样本输入音频信号,得到上述增强音频信号。
以上仅为本申请实施例的较佳实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种定向音频增强方法,其特征在于,所述方法包括:
获取目标输入音频信号、用于进行定向音频增强的目标方向和所述目标输入音频信号对应的通道间相位差信息,所述目标输入音频信号由目标麦克风阵列输出;
获取间距集合,所述间距集合包括目标麦克风阵列允许使用的间距信息,所述目标麦克风阵列包括至少两个麦克风;
根据所述通道间相位差信息、所述间距集合和所述目标方向,确定所述间距集合中每一所述间距信息所对应的方向特征;
融合各所述间距信息分别对应的方向特征,得到方向融合特征;
根据所述方向融合特征对所述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号;
其中,所述根据所述通道间相位差信息、所述间距集合和所述目标方向,确定所述间距集合中每一所述间距信息所对应的方向特征,包括:
针对所述间距集合中的每一间距信息,根据所述间距信息和所述目标方向计算理论相位差信息;其中,所述理论相位差信息的计算方法参考下式:,/>表示针对目标方向/>、间距信息/>和频段/>情况下的理论相位差信息;F 是总频点数、/>= />·fs·cosθ / v,fs是信号采样频率,v是声速;
根据所述理论相位差信息,和,所述目标麦克风阵列的目标麦克风组合对应的目标相位差之间的相似度,计算针对所述目标麦克风组合的、所述间距信息所对应的目标方向特征,所述目标输入音频信号对应的通道间相位差信息包括所述目标麦克风组合对应的目标相位差;
目标方向特征的计算方法参考下式:
;
其中,M1和M2分别表示所述目标麦克风的二个麦克风分别对应的索引,表示第M1个通道的频谱,(t, f)表示时频点,/>表示第M2个通道的频谱。
2.根据权利要求1所述的方法,其特征在于,所述根据所述方向融合特征对所述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号,包括:
根据所述方向融合特征和所述目标输入音频信号,拟合用于进行音频增强的掩码信息;
融合所述掩码信息和所述目标输入音频信号,得到所述目标输出信号。
3.根据权利要求1或2所述的方法,其特征在于,所述目标麦克风组合包括第一麦克风和第二麦克风,所述第一麦克风为所述目标麦克风阵列中的任一麦克风,所述第二麦克风为所述目标麦克风阵列中不同于所述第一麦克风的其他麦克风,所述目标相位差为所述第一麦克风和所述第二麦克风之间的真实相位差。
4.根据权利要求1所述的方法,其特征在于,所述方法基于定向音频增强模型实施,所述定向音频增强模型通过下述方法训练:
获取训练数据,所述训练数据包括样本输入音频信号、样本通道间相位差信息、参考方向信息、所述间距集合和增强参考信号,所述样本输入音频信号对应所述目标麦克风阵列的音频输出信号,所述样本通道间相位差信息指向所述目标麦克风阵列中两个麦克风之间的真实相位差信号,所述增强参考信号为对所述样本输入音频信号进行针对所述参考方向信息的定向音频增强后得到的标准信号,所述标准信号为满足音频增强要求的信号;
将所述训练数据输入预设模型,所述预设模型执行下述操作:
根据所述样本输入音频信号、所述样本通道间相位差信息、所述参考方向信息和所述间距集合得到增强音频信号;
根据所述增强音频信号和所述增强参考信号之间的差异,调整所述预设模型的参数,得到所述定向音频增强模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述增强音频信号和所述增强参考信号之间的差异,调整所述预设模型的参数,得到所述定向音频增强模型,包括:
根据所述增强音频信号和所述增强参考信号,计算信噪比信息;
根据所述信噪比信息,调整所述预设模型的参数,得到所述定向音频增强模型。
6.根据权利要求4所述的方法,其特征在于,所述根据所述样本输入音频信号、所述样本通道间相位差信息、所述参考方向信息和所述间距集合得到增强音频信号,包括:
根据所述样本通道间相位差信息和所述参考方向信息,确定所述间距集合中每一所述间距信息所对应的样本方向特征;
融合各所述间距信息分别对应的样本方向特征,得到样本方向融合特征;
根据所述样本方向融合特征对所述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述样本方向融合特征对所述样本输入音频信号进行音频增强,得到定向音频增强后的增强音频信号,包括:
根据所述样本方向融合特征和所述样本输入音频信号,拟合用于进行音频增强的掩码信息;
融合所述掩码信息和所述样本输入音频信号,得到所述增强音频信号。
8.一种定向音频增强装置,其特征在于,所述装置包括:
信号获取模块,用于获取目标输入音频信号、用于进行定向音频增强的目标方向和所述目标输入音频信号对应的通道间相位差信息,所述目标输入音频信号由目标麦克风阵列输出;
间距信息获取模块,用于获取间距集合,所述间距集合包括目标麦克风阵列允许使用的间距信息,所述目标麦克风阵列包括至少两个麦克风;
方向特征确定模块,用于根据所述通道间相位差信息、所述间距集合和所述目标方向,确定所述间距集合中每一所述间距信息所对应的方向特征;融合各所述间距信息分别对应的方向特征,得到方向融合特征;
增强模块,用于根据所述方向融合特征对所述目标输入音频信号进行音频增强,得到定向音频增强后的目标输出信号;
所述方向特征确定模块,具体用于:
针对所述间距集合中的每一间距信息,根据所述间距信息和所述目标方向计算理论相位差信息;其中,所述理论相位差信息的计算方法参考下式:,/>表示针对目标方向/>、间距信息/>和频段/>情况下的理论相位差信息;F 是总频点数、/>= />·fs·cosθ / v,fs是信号采样频率,v是声速;
根据所述理论相位差信息,和,所述目标麦克风阵列的目标麦克风组合对应的目标相位差之间的相似度,计算针对所述目标麦克风组合的、所述间距信息所对应的目标方向特征,所述目标输入音频信号对应的通道间相位差信息包括所述目标麦克风组合对应的目标相位差;
目标方向特征的计算方法参考下式:
;
其中,M1和M2分别表示所述目标麦克风的二个麦克风分别对应的索引,表示第M1个通道的频谱,(t, f)表示时频点,/>表示第M2个通道的频谱。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至7中任一项所述的一种定向音频增强方法。
10.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1至7中任一项所述的一种定向音频增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310890074.6A CN116645973B (zh) | 2023-07-20 | 2023-07-20 | 定向音频增强方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310890074.6A CN116645973B (zh) | 2023-07-20 | 2023-07-20 | 定向音频增强方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645973A CN116645973A (zh) | 2023-08-25 |
CN116645973B true CN116645973B (zh) | 2023-09-29 |
Family
ID=87623283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310890074.6A Active CN116645973B (zh) | 2023-07-20 | 2023-07-20 | 定向音频增强方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645973B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153192B (zh) * | 2023-10-30 | 2024-02-20 | 科大讯飞(苏州)科技有限公司 | 音频增强方法、装置、电子设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347027A (zh) * | 2011-07-07 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及其语音增强方法 |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
CN103268766A (zh) * | 2013-05-17 | 2013-08-28 | 泰凌微电子(上海)有限公司 | 双麦克风语音增强方法及装置 |
CN107465986A (zh) * | 2016-06-03 | 2017-12-12 | 法拉第未来公司 | 使用多个麦克风检测和隔离车辆中的音频的方法和装置 |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109597022A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 声源方位角运算、定位目标音频的方法、装置和设备 |
CN110970049A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 多人声识别方法、装置、设备及可读存储介质 |
CN111919252A (zh) * | 2018-03-29 | 2020-11-10 | 索尼公司 | 声源方向估计装置、声源方向估计方法及程序 |
CN114333886A (zh) * | 2021-12-22 | 2022-04-12 | 深圳市锐尔觅移动通信有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN115359805A (zh) * | 2022-07-15 | 2022-11-18 | 深圳职业技术学院 | 声音信号阵列采集方法、系统、终端、介质及采集装置 |
CN115932733A (zh) * | 2022-12-19 | 2023-04-07 | 上海富瀚微电子股份有限公司 | 声源定位及语音增强方法、装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4247195B2 (ja) * | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
KR101519104B1 (ko) * | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
-
2023
- 2023-07-20 CN CN202310890074.6A patent/CN116645973B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347027A (zh) * | 2011-07-07 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及其语音增强方法 |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
CN103268766A (zh) * | 2013-05-17 | 2013-08-28 | 泰凌微电子(上海)有限公司 | 双麦克风语音增强方法及装置 |
CN107465986A (zh) * | 2016-06-03 | 2017-12-12 | 法拉第未来公司 | 使用多个麦克风检测和隔离车辆中的音频的方法和装置 |
CN111919252A (zh) * | 2018-03-29 | 2020-11-10 | 索尼公司 | 声源方向估计装置、声源方向估计方法及程序 |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110503969A (zh) * | 2018-11-23 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109597022A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 声源方位角运算、定位目标音频的方法、装置和设备 |
CN110970049A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 多人声识别方法、装置、设备及可读存储介质 |
CN114333886A (zh) * | 2021-12-22 | 2022-04-12 | 深圳市锐尔觅移动通信有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN115359805A (zh) * | 2022-07-15 | 2022-11-18 | 深圳职业技术学院 | 声音信号阵列采集方法、系统、终端、介质及采集装置 |
CN115932733A (zh) * | 2022-12-19 | 2023-04-07 | 上海富瀚微电子股份有限公司 | 声源定位及语音增强方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116645973A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
Laufer-Goldshtein et al. | Semi-supervised sound source localization based on manifold regularization | |
Dorfan et al. | Tree-based recursive expectation-maximization algorithm for localization of acoustic sources | |
CN107925821A (zh) | 监控 | |
US11205443B2 (en) | Systems, methods, and computer-readable media for improved audio feature discovery using a neural network | |
Vesperini et al. | Localizing speakers in multiple rooms by using deep neural networks | |
Comanducci et al. | Source localization using distributed microphones in reverberant environments based on deep learning and ray space transform | |
CN116645973B (zh) | 定向音频增强方法、装置、存储介质及电子设备 | |
Majumder et al. | Few-shot audio-visual learning of environment acoustics | |
Bianco et al. | Semi-supervised source localization in reverberant environments with deep generative modeling | |
Yin et al. | Integration of deep learning and soft robotics for a biomimetic approach to nonlinear sensing | |
Zhang et al. | A new regional localization method for indoor sound source based on convolutional neural networks | |
Seewald et al. | Combining srp-phat and two kinects for 3d sound source localization | |
JP2021167977A (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
Chen et al. | Sound localization by self-supervised time delay estimation | |
Gburrek et al. | Geometry calibration in wireless acoustic sensor networks utilizing DoA and distance information | |
Ding et al. | Microphone array acoustic source localization system based on deep learning | |
Falcon Perez | Machine-learning-based estimation of room acoustic parameters | |
Kwak et al. | Convolutional neural network trained with synthetic pseudo-images for detecting an acoustic source | |
Gburrek et al. | Deep neural network based distance estimation for geometry calibration in acoustic sensor networks | |
CN112989134B (zh) | 节点关系图的处理方法、装置、设备及存储介质 | |
Essid et al. | Multiview approaches to event detection and scene analysis | |
Liu et al. | Binaural sound source localization based on weighted template matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |