CN107925818B - 用于声音处理节点装置的声音处理节点 - Google Patents
用于声音处理节点装置的声音处理节点 Download PDFInfo
- Publication number
- CN107925818B CN107925818B CN201580082419.9A CN201580082419A CN107925818B CN 107925818 B CN107925818 B CN 107925818B CN 201580082419 A CN201580082419 A CN 201580082419A CN 107925818 B CN107925818 B CN 107925818B
- Authority
- CN
- China
- Prior art keywords
- sound processing
- processing node
- weights
- sound
- minimum variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 281
- 238000000034 method Methods 0.000 claims abstract description 110
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 239000013598 vector Substances 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000009977 dual effect Effects 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 125000002015 acyclic group Chemical group 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明涉及一种用于声音处理节点(101a‑c)装置(100)的声音处理节点(101a),其中,所述声音处理节点(101a‑c)用于接收多个声音信号,其中,所述声音处理节点(101a)包括:处理器(103a),用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器(103a)用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
Description
技术领域
本发明大体涉及音频信号处理。具体地,本发明涉及用于声音处理节点装置的声音处理节点、包括多个声音处理节点的系统,以及在声音处理节点装置内操作声音处理节点的方法。
背景技术
在语音处理领域,工程师面临的主要挑战之一是如何在噪声和干扰环境中保持语音清晰度的质量。这发生在许多实际的场合,例如在繁忙的街道上使用手机或者在鸡尾酒会上试图理解某人的经典例子。解决此问题的一个常用方法是利用声源和多个记录设备的空间分集支持特定的到达方向。这个过程被称为波束成形。
虽然对于声学过程,更传统的波束成形器由物理连接的麦克风阵列组成,但是在过去的几十年中,由于传感器和电池技术的改进,使用无线传感器网络(wireless sensornetwork,简称WSN)也是可行的。这样的系统由大量小型、低成本的声音处理节点组成,其中,这些声音处理节点既能够记录传入的声音信号,又能够在整个网络中传输这些信息。
这种无线声音处理节点的使用使得可以部署不同尺寸的网络,而不需要为每个应用重新设计硬件。但是,与专用系统不同,这种WSN有自己特定的设计考虑。WSN的主要缺点在于:由于数据收集的分散性,没有一个位置可以计算波束成形器的输出。这也影响了WSN对统计最佳的波束成形方法设计中所需的协方差矩阵进行估计的能力。
解决这个问题的一个简单方法是添加一个额外的中心点或融合中心,将所有的数据传输到这个中心点进行处理。但是,这个中心点存在一些缺点。首先,如果此中心点失效,整个网络的性能就会受到影响,这意味着需要额外的成本来提供冗余,从而解决这个问题。其次,中央位置的规格,例如,内存要求和处理能力随网络大小而变化,因此,必须超过规定的范围,从而确保网络能够按要求运行。第三,对于某些网络拓扑而言,这样的集中系统也会带来过多的传输成本,这会导致每个节点的电池寿命损耗。
这些集中式拓扑的替代方案是利用节点本身的计算能力,并从网络内部解决同样的问题。因为向网络添加额外的节点也增加了可用的处理能力,这种分布式拓扑具有额外的好处:消除单点故障,同时提供计算可扩展性。分布式方法面临的主要挑战在于缺乏一个中心点,在这个中心点上所有的系统数据都是可用的。这需要替代方案的设计以及典型的迭代算法。
尽管在文献中已经存在多种用于提供分布式波束成形算法的方法,但是它们具有其局限性。其中,最值得注意的是基于硬件的需求,例如,内存使用仍然经常随着网络的规模而扩展,使得在即时或不同大小的网络中使用相同的硬件平台部署这些算法是不切实际的。这种约束与这些“分布式”算法访问某种形式的全局数据的需求有关,无论是否以压缩形式。因此,本领域当前需要真正分布式的、统计最佳的波束成形方法,特别是用于无线传感器网络。
发明内容
本发明的目标在于提供一种分布式的、统计最佳的波束成形方法,特别是用于无线传感器网络。
上述以及其他目标通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
根据第一方面,本发明涉及一种用于声音处理节点装置的声音处理节点,所述声音处理节点用于接收多个声音信号,其中,所述声音处理节点包括:处理器,用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
使用线性约束最小方差方法的凸松弛版本,从而允许声音处理节点装置的每个声音处理节点以完全分布的方式确定定义波束成形信号的多个权重。
在一种实现方式中,声音处理节点可以包括用于接收单个声音信号的单个麦克风或用于接收多个声音信号的多个麦克风。通常,声音处理节点接收的声音信号数量决定了权重的数量。多个权重通常是复数值,即包括时间/相位偏移。在一种实现方式中,处理器用于确定多个不同的频率点的多个权重。线性约束最小方差方法将波束成形信号的噪声功率最小化,同时遵守维持多个声音信号的期望响应的线性约束。
在根据第一方面所述的声音处理节点的第一种可能的实现方式中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器用于使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数α提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。
该实现方式通过允许调整参数α,允许处理器提供多个权重的鲁棒值。
在根据第一方面第一种实现方式所述的声音处理节点的第二种可能的实现方式中,所述处理器用于基于以下等式和约束使用所述鲁棒线性约束最小方差方法的变换版本,确定所述多个权重:
其中,
wi表示所述多个权重的第i个权重;
V表示所有声音处理节点(101a-c)的集合;
N表示声音处理节点(101a-c)的总数;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在第一方面第一种实现方式所述的声音处理节点的第三种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
通过利用强大的对偶性,该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第一方面第三种实现方式所述的声音处理节点的第四种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用所述对偶变量λ,确定所述多个权重:
其中,所述多个权重wi由以下等式定义的矢量yi定义:
其中,
V表示所有声音处理节点的集合;
mi表示第ii个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点的总数;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器有效地确定定义波束成形信号的多个权重,因为可以通过反转(M+P)维矩阵确定最佳λ,因此对于声音处理节点的较大装置而言,该矩阵远小于传统方法所要求的N维矩阵。
在根据第一方面第三种实现方式所述的声音处理节点的第五种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用所述对偶变量λ,确定所述多个权重:
其中,
λi定义第i个声音处理节点上对偶变量λ的本地估计;
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置的边缘的一组声音处理节点;
所述多个权重wi由以下等式定义的矢量yi定义:
其中,
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点的总数;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式对于装置定义声音处理节点的即时网络的声音处理节点是特别有用的,因为只需要一些待更新网络的其余节点,就可以添加新的声音处理节点。
在根据第一方面第五种实现方式所述的声音处理节点的第六种可能的实现方式中,所述处理器用于基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。
在根据第一方面第六种实现方式所述的声音处理节点的第七种可能的实现方式中,所述处理器用于基于分布式算法,通过迭代地求解以下等式确定所述多个权重:
其中,
N(i)定义与第i个声音处理节点相邻的一组声音处理节点;
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将变量λi,k+1和ψij,k+1分配给相邻的声音处理节点。
在根据第一方面第五种实现方式所述的声音处理节点的第八种可能的实现方式中,所述处理器用于基于最小和消息传递算法确定所述多个权重。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。
在根据第一方面第八种实现方式所述的声音处理节点的第九种可能的实现方式中,所述处理器用于基于最小和消息传递算法,使用以下等式确定所述多个权重:
其中,mji表示第i个声音处理节点从另一声音处理节点j接收的消息,其中,该消息mji由以下等式定义:
其中,N(j)定义与第j个声音处理节点相邻的一组声音处理节点。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将消息mji分配给相邻的声音处理节点。
在根据第一方面或其第一至第九种可能的实现方式中任意一种所述的声音处理节点的第十种可能的实现方式中,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
该实现方式允许对协方差矩阵进行分布式估计,例如,在存在时变噪声场的情况下。
在根据第一方面第十种实现方式所述的声音处理节点的第十一种可能的实现方式中,所述多个声音信号的无偏协方差由以下等式定义:
其中,
M表示所有声音处理节点的麦克风的总数。
根据第二方面,本发明涉及一种包括根据第一方面所述的多个声音处理节点的声音处理系统,其中,所述多个声音处理节点用于交换变量,所述变量用于使用所述线性约束最小方差方法的变换版本确定所述多个权重。
根据第三方面,本发明涉及用于操作声音处理节点装置的声音处理节点的方法,其中,所述声音处理节点用于接收多个声音信号。所述方法包括:通过使用线性约束最小方差方法的变换版本确定所述多个权重,基于采用多个权重加权的多个声音信号确定波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
根据本发明第三方面的方法可以由根据本发明第一方面的声音处理节点执行。根据本发明第三方面的方法的其他特征由根据本发明第一方面的声音处理节点的功能及其不同的实现形式直接获得。
更具体地,在根据第三方面所述的方法的第一种可能的实现方式中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,确定的步骤包括以下步骤:使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数αα提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。
该实现方式通过允许调整参数α,允许处理器提供多个权重的鲁棒值。
在根据第三方面第一种实现方式所述的方法的第二种可能的实现方式中,确定的步骤包括以下步骤:基于以下等式和约束使用所述鲁棒线性约束最小方差方法的变换版本,确定所述多个权重:
其中,
wi表示所述多个权重的第i个权重;
V表示所有声音处理节点的集合;
N表示声音处理节点(101a-c)的总数;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第三方面的第一种实现方式所述的方法的第三种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
通过利用强大的对偶性,该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第三方面第三种实现方式所述的方法的第四种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用所述对偶变量λ,确定所述多个权重:
其中,所述多个权重wi由以下等式定义的矢量yi定义:
其中,
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点的总数;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器有效地确定定义波束成形信号的多个权重,因为可以通过反转(M+P)维矩阵确定最佳λ,因此对于声音处理节点的较大装置而言,该矩阵远小于传统方法所要求的N维矩阵。
在根据第三方面第三种实现方式所述的方法的第五种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用所述对偶变量λ,确定所述多个权重:
其中,
λi定义第i个声音处理节点上对偶变量λ的本地估计;
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置的边缘的一组声音处理节点;
所述多个权重wi由以下等式定义的矢量yi定义:
其中,
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点的总数;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式对于装置定义声音处理节点的即时网络的声音处理节点是特别有用的,因为只需要一些待更新网络的其余节点,就可以添加新的声音处理节点。
在根据第三方面的第五种实现方式所述的方法的第六种可能的实现方式中,确定的步骤包括以下步骤:基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。
在根据第三方面的第六种实现方式所述的方法的第七种可能的实现方式中,确定的步骤包括以下步骤:基于分布式算法,通过迭代地求解以下等式确定所述多个权重:
其中,
N(i)定义与第i个声音处理节点相邻的一组声音处理节点;
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重的有效计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将变量λi,k+1和ψij,k+1分配给相邻的声音处理节点。
在根据第三方面的第五种实现方式所述的方法的第八种可能的实现方式中,确定的步骤包括以下步骤:基于最小和消息传递算法确定所述多个权重。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。
在根据第三方面的第八种实现方式所述的方法的第九种可能的实现方式中,确定的步骤包括以下步骤:基于最小和消息传递算法,使用以下等式确定所述多个权重:
其中,mji表示第i个声音处理节点从另一声音处理节点j接收的消息,其中,该消息mji由以下等式定义:
其中,N(j)定义与第j个声音处理节点相邻的一组声音处理节点。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将消息mji分配给相邻的声音处理节点。
在根据第三方面或其第一至第九种可能的实现方式中任意一种所述的方法的第十种可能的实现方式中,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
该实现方式允许对协方差矩阵进行分布式估计,例如,在存在时变噪声场的情况下。
在根据第三方面第十种实现方式所述的方法的第十一种可能的实现方式中,所述多个声音信号的无偏协方差由以下等式定义:
其中,
M表示所有声音处理节点的麦克风的总数。
根据第四方面,本发明涉及一种计算机程序,包括用于在计算机上运行时,执行根据本发明第三方面所述的方法的程序代码。
本发明可以用硬件和/或软件实现,进一步地,例如由处理器实现。
附图说明
本发明的具体实现形式将结合以下附图进行描述,其中:
图1示出了根据实施例的描述了根据包括声音处理节点的实施例的声音处理节点装置的示意图;
图2示出了根据实施例的描述了操作声音处理节点的方法的示意图;
图3示出了根据实施例的声音处理节点的示意图;
图4示出了根据实施例的声音处理节点的示意图;
图5示出了根据实施例的声音处理节点装置的示意图。
在各附图中,相同的或至少功能等同的特征使用相同的参考标号。
具体实现形式以下结合附图进行详细描述,所述附图是描述的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其他方面,并做出结构或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。
例如,可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用,反之亦然。例如,如果描述了特定方法步骤,则对应设备可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特征可以相互组合,除非另外明确说明。
图1示出了根据实施例的根据包括声音处理节点101a的实施例的声音处理节点101a-c的装置或系统100。声音处理节点101a-c用于接收来自一个或多个目标源的多个声音信号,例如,来自一个或多个扬声器的语音信号,其位于与声音处理节点装置100不同的位置上。为此,声音处理节点101a-c的装置100的每个声音处理节点101a-c可以包括一个或多个麦克风105a-c。在图1所示的示例性实施例中,声音处理节点101a包括两个以上麦克风105a,声音处理节点101b包括一个麦克风105b,声音处理节点101c包括两个麦克风。
在图1所示的示例性实施例中,声音处理节点101a-c的装置100包括三个声音处理节点,即声音处理节点101a-c。然而,例如从下文的详细描述中可以理解,本发明还可以以具有更少或更多声音处理节点的声音处理节点装置或系统的形式实现。除了不同数量的麦克风之外,声音处理节点101a-c可以基本相同,即所有声音处理节点101a-c都可以包括以基本相同的方式配置的处理器103a-c。
声音处理节点101a的处理器103a用于基于采用多个权重加权的多个声音信号确定波束成形信号。所述处理器103a用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
通常,声音处理节点101a接收的声音信号数量,即声音处理节点101a的麦克风105数量决定要确定的权重数量。定义波束成形信号的多个权重通常是复数值,即包括时间/相移。在一个实施例中,处理器103用于确定多个不同的频率点的多个权重。在一个实施例中,波束成形信号是采用多个权重加权的声音处理节点101a接收的声音信号之和。线性约束最小方差方法将波束成形信号的噪声功率最小化,同时遵守维持多个声音信号的期望响应的线性约束。使用线性约束最小方差方法的凸松弛版本,从而允许声音处理节点101a-c装置的每个声音处理节点以完全分布的方式进行处理。
图2示出了根据实施例的描述操作声音处理节点101a的方法200的示意图。该方法200包括步骤201:通过使用线性约束最小方差方法的变换版本确定多个权重,基于采用多个权重加权的多个声音信号确定波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
下面将描述声音处理节点101a、声音处理节点101a-c的装置100以及方法200的另一实现方式、实施例以及方面。
在一个实施例中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器用于使用参数α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数α提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。在数学上,用于确定特定频率点的多个权重的参数α α参数化的鲁棒线性约束最小方差方法可以以优化问题的形式表述如下:
s.t.DHw=s (1)
其中,R∈CM×M为协方差矩阵,D∈CM×P表示来自目标源定义的特定方向的P个信道矢量的集合,s∈CP×1为这些方向上的期望响应,ω∈CM×1为具有多个待确定权重作为分量的权重矢量,M表示声音处理节点101a-c的麦克风105a-c的总数。可以理解的是,在极限α→0中,等式(1)定义的鲁棒线性约束最小方差方法变成线性约束最小方差方法。
因为真正协方差矩阵R的信息不可能总是可用的,因此在一个实施例中,处理器103a用于使用多个声音信号的无偏协方差近似协方差矩阵R。在一个实施例中,多个声音信号的无偏协方差由以下等式定义:
其中,Y(l)表示声音处理节点101a-c接收的声音信号的矢量,M表示声音处理节点101a-c的麦克风105a-c的总数。每个Y(l)可以表示频域音频的噪声或无噪声帧。在实际应用中,由于每帧音频的长度(大约20ms),因此除了噪声场的时间变化性质之外,在变得明显不相关之前使用非常少量的帧通常是可行的。因此,在一个实施例中,每个Y(l)可以表示包含目标源语音以及任一干扰信号的噪声帧。在一个实施例中,可以将M限制为大约50帧,这意味着噪声场至少半秒是“静止的”(由于50%的帧重叠)。在许多场景下,由于噪声场的变化较快,例如汽车中驾驶时所体验的,可以使用明显较少的帧。
通过在基于节点的变量集上划分目标和约束(由下标i表示),可以将等式1重写为:
等式4定义的原始问题的拉格朗日函数具有以下形式:
为了一个原始可行的解决方案,然后每个因此,在最优性 其中,表示最佳对偶变量。通过限制对偶变量的形式,使得所有的V。保持一致的同一个最佳解决方案,同时减少需要引入的对偶变量的数量。这允许构造一个等价的原始拉格朗日函数的形式:
因此,有可能构造等式5中的等价凸优化问题,其仅引入M个双重约束。其具有以下形式:
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式8确定多个权重wi。可以将上述等式8重写成以下形式:
其中,
给出一个原始的拉格朗日函数:
在一个实施例中,也可以以以下简化的方式写入矩阵Bi:
可以通过计算等式11中关于每个yi的复偏导数并将这些导数等于0,找到对偶问题,即:
因此,由此产生的对偶问题可以表示为:
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式13、12和10确定多个权重wi。给定等式13,可以通过反转(M+P)维矩阵找到最佳λ。对于大量声音处理节点装置来说,该矩阵远小于通常所需的N维矩阵。由于维度D矩阵的反转是本发明的O(D3)操作实施例,因此当M+P<N时,计算复杂度也大大降低。
通过在每个声音处理节点101a-c上引入局部估计λi并添加沿着声音处理节点λi=λj的装置100的每个边缘应该保持的约束,可以将等式13示为等价于以下分布式的优化问题:
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式14、12和10确定多个权重Wi。在这种情况下,给出限制Dij=-Dji=±I,其中,I表示单位矩阵。应该注意的是,声音处理节点101a-c的对应装置100的边缘可以是完全自我配置的,并且除了其任一端的声音处理节点以外,任何人都不知道的。因此,在一个实施例中,声音处理节点可以简单地监控其可以从哪个其他声音处理节点接收报文(给定的特定传输范围和/或报文质量),并且由此推断出独立于声音处理节点装置100定义的网络结构的其他部分的相邻声音处理节点。这对于声音处理节点的网络的即时形成是特别有用的,因为不需要以任何方式更新网络的其余部分就可以将新的声音处理节点添加到网络中。
如果在可替代实施例中对诸如非循环或树形拓扑的网络拓扑的施加更大限制,则在使用声音处理节点101a-c的装置100之前,可能需要额外的“离线”处理。
与传统方法相比,上述实施例的主要益处之一在于:就如何解决分布式问题以及上述任一对声音处理节点101a-c的装置100的基本网络拓扑施加的限制,它们提供了广泛的灵活性。例如,最普通的一类无向网络拓扑是那些可能包含循环路径的网络拓扑,这是无线传感器网络中的一个共同特征,特别是当使用即时的网络形成方法时。与传统的最佳分布式方法(其中,循环网络拓扑经常被忽略)相反,周期的引入不影响本文公开的不同实施例解决鲁棒LCMV问题的能力。例如,在一种标准形式中,等式14定义的问题需要由诸如原始对偶法乘法器(primal dual method of multiplier,简称BiADMM)等的分布式算法解决,正如张国强和理查德·赫斯登在2015IEEE国际会议的“声学、语音和信号处理(Acoustics,Speech and Signal Processing,简称ICASSP)”会议上发表的《图上乘法器的双向交替方向法》一文第(3571-3575页,IEEE 2015年出版)中所描述的一样。因此,使用简化的双更新方法,可以示出一种迭代地求解声音处理节点101a-c的循环网络中的等式14,该方式由BiADMM更新方案给出并定义为:
N(i)定义与第i个声音处理节点相邻的一组声音处理节点,Rpij表示确定收敛速度的正定矩阵,
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于迭代求解等式15确定多个权重。
图3示出了具有处理器103a的声音处理节点101a的实施例的示意图。处理器103a用于基于迭代地求解等式15确定多个权重,即例如使用原始对偶法乘法器(primal dualmethod of multiplier,简称BiADMM)或交替方向乘法器(alternating direction methodof multiplier,简称ADMM)。
在图3所示的实施例中,除了处理器103a和多个麦克风105a之外,声音处理节点101a还可以包括:缓冲器307a,用于存储多个麦克风105a接收的声音信号的至少一部分;接收器309a,用于从相邻的声音处理节点接收变量,从而确定多个权重;缓存311a,用于至少暂时存储从相邻的声音处理节点接收的变量;发射器313a,用于将变量发送到相邻的声音处理节点,从而确定多个权重。
在图3所示的实施例中,声音处理节点101a的接收器309a用于从相邻的声音处理节点接收等式15定义的变量λi,k+1和ψij,k+1,发射器313a用于将等式15定义的变量发送到相邻的声音处理节点。在一个实施例中,接收器309a和发射器313a可以以单个通信接口的形式实现。
如上所述,处理器103a可以用于确定频域中的多个权重。因此,在一个实施例中,处理器103a还可以用于使用傅里叶变换将多个麦克风105a接收的多个声音信号变换到频域中。
在图3所示的实施例中,声音处理节点101a的处理器103a用于针对每个迭代N(i)计算对偶变量和一个原始变量,其涉及的M+P维矩阵的反转是最昂贵的操作。然而,如果这个反转的矩阵本地存储在声音处理节点101a中,由于它在迭代之间不变,因此这可以简化为矩阵乘法。另外,在一个实施例中,声音处理节点101a可以用于将更新变量传输给相邻的声音处理节点以确定多个权重,例如图1所示的声音处理节点101b和101c。在本发明的实施例中,这可以通过声音处理节点之间的任何无线广播或定向传输方案实现。但是,应该注意的是,BiADMM本质上是不受报文丢失影响的。因此,如果愿意忍受与报文丢失相关的收敛时间的增加,则不需要握手例程。在一个实施例中,处理器103a用于运行迭代算法,直到收敛可以在能够对下一个音频块进行处理的点上实现。
在一个可替代实施例中,如要通过消除所有循环路径的存在而对声音处理节点的网络拓扑施加更大限制,因该方法特别适用。该方法确保声音处理节点之间的有限传输内的收敛。该实施例利用这样一个事实,即无需在每个声音处理节点上存储每个Bi HAi -1Bi求解等式13,而是只可以存储全局求和。因此,通过最小和消息传递算法沿着声音处理节点的网络对数据进行聚集,可以仅使用本地传递的信息唯一地重建每个声音处理节点上的全局问题。因此,在一个实施例中,每个声音处理节点的处理器,例如,声音处理节点101a的处理器103a用于通过求解以下等式生成分布式问题的解决方案:
其中,将从声音处理节点i到另一声音处理节点j的每个消息定义为:
可表示为:
其中,
因此,由于音频块之间数据的M-1帧的重复使用,在静态目标源的情况下,只有M+P个新变量引入到最终矩阵中。这意味着通过重复使用这些重复的值,可以减少声音处理节点之间需要传输的数据量。然而,如果允许块之间的目标源变化,即如果实时估计目标源的位置,则需要传输另外的变量导致一个总值尽管这增加了传输每个节点到节点通信的值数量,但是其益处在于:树形图中的最小和算法仅需要2N个传输就能达成一致。与上述基于迭代的实施例相反,这使得非循环消息传递的实施例具有吸引力,因为可以对为每个音频块和已知数量的声音处理节点达成一致所需的时间进行精确的限定。
图4示出了具有处理器103a的声音处理节点101a的实施例的示意图。该处理器103a用于基于最小和消息传递算法确定多个权重,例如使用等式17、18和19。
在图4所示的实施例中,除了处理器103a和多个麦克风105a之外,声音处理节点101a还可以包括:缓冲器307a,用于存储多个麦克风105a接收的声音信号的至少一部分;接收器309a,用于从相邻的声音处理节点接收变量,从而确定多个权重;缓存311a,用于至少暂时存储从相邻的声音处理节点接收的变量;发射器313a,用于将变量发送到相邻的声音处理节点,从而确定多个权重。
在图4所示的实施例中,声音处理节点101a的接收器309a用于从相邻的声音处理节点接收等式18定义的消息,发射器313a用于将等式18定义的消息发送到相邻的声音处理节点。在一个实施例中,接收器309a和发射器313a可以以单个通信接口的形式实现。
如上所述,处理器103a可以用于确定频域中的多个权重。因此,在一个实施例中,处理器103a还可以用于使用傅里叶变换将多个麦克风105a接收的多个声音信号变换到频域中。
本发明的实施例可以以自动语音听写系统的形式实现,这在用于捕获会议内容的商业环境中是一种有用的工具。然而,一个共同的问题是,随着用户数量的增加,音频记录中的噪声也会由于会议中的移动和额外通话而发生。这个问题可以部分地通过波束成形解决,但是必须利用配备有集中式系统的专用空间或者将个人麦克风连接到每个人以试图改善每个扬声器的SNR,这可能是一种侵犯和恼人的过程。相反,通过利用在任一会议上存在的现有麦克风,即那些附着在那些现有手机上的麦克风,可以使用本发明实施例形成即时的波束成形网络,从而实现相同的目标。此外,这种方法的好处在于:它实现了自然扩展的架构,因为在会议中有更多成员时,节点(手机)的数量反过来也会增加。当与本发明实施例不同的网络大小独立性相结合时,这提供了一种非常灵活的解决方案,从而提供作为自动语音听写系统的前端的自动语音波束成形。
图5示出了可以用于商务会议情境中的声音处理节点101a-f的装置100的另一实施例。示例性的六个声音处理节点101a-f由六部手机101a-f定义,这些手机101a-f用于记录桌子左端扬声器501的声音并对其进行波束成形。这里,虚线箭头表示从每部手机,即声音处理节点101a-f到目标源的方向,而实线双箭头表示节点101a-f之间的通信的信道。右侧的圆表示声音处理节点101a的传输范围503,定义了与相邻的声音处理节点101b和101c的相邻连接,通过初始观察示例性传输范围503中可以接收的报文,对其进行确定。正如上面的进一步详细描述,声音处理节点101a-f的网络使用这些通信信道,从而不仅在相邻节点之间对与所选求解器的实现相关的任何其他基于节点的变量进行传输,还对估计的对偶变量λi进行传输。在专用节点到节点协议不可用的情况下,该通信可以通过多种无线协议实现,包括但不限于基于LTE、蓝牙以及基于WiFi的系统。在这个过程中,每个声音处理节点101a-f都可以存储波束成形的信号的记录,然后稍后可以由会议的任一与会者对其进行回放。与会者还可以通过离其最近的手机“实时”访问该信息。
在以固定结构无线传感器网络的形式对传感器节点进行装置的情况下,本发明的实施例可以提供类似的传输(以及由此的功耗)、计算(以更小的矩阵反转问题的形式)以及存储器需求作为其他传统的在树型网络中运行的算法,同时提供每个块的最佳波束成形器,而不是随着时间收敛。特别地,在大声学空间中语音增强的情况下,可以使用具有大量声音处理节点装置。特别适用于非循环网络的上述实施例提供了比传统算法的完全连接实现方式更好的性能。因此,对于任何现有的分布式波束成形器应用来说,本发明实施例都是潜在的工具,其中,块最佳的波束成形器是期望的。
此外,本发明实施例还提供了以下优点。本发明实施例允许使用大规模WSN以完全分布的方式解决鲁棒LCMV问题,而不需要在给定不同网络大小的情况下改变操作平台。因为给定了相同的输入数据,所以本发明实施例没有提供鲁棒LCMV解决方案的近似方案,而是解决与集中式实现相同的问题。由于基础算法是LCMV型波束成形器,因此通过一次允许多个约束函数,本发明实施例提高了与基于MVDR的方法相同的灵活性。另外,由于可以在每个音频块重新估计协方差矩阵,因此本发明实施例无需额外的修改就可以跟踪非平稳噪声场。本发明实施例提供的非缩放分布式性质使得在硬件级别设计声音处理节点架构是实用的。不管所需的部署规模如何,该声音处理节点架构都可以通过WSN用于声学波束成形。如果网络需要增加更多的节点(假设原始节点不可用),那么这些声音处理节点也可以包含不同数量的节点麦克风,从而允许不同规格节点架构的混合与匹配。本发明实施例提供的声音处理节点装置的分布式性质也具有消除对昂贵的集中式系统的需求以及与这些组件相关联的可扩展性问题的益处。最后,分布式优化公式的广义性质为设计者在选择如何实现本发明实施例方面提供了广泛的灵活性。这使得他们在选择时权衡不同的性能度量,例如,在他们想要使用分布式求解器,在他们实现节点之间的通信算法,或者如果他们想要对网络拓扑施加额外的限制以利用有限收敛方法时候。
尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其他实施方式或实施例中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有利。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变形在详细的说明书或权利要求书中使用,这类术语和所述术语“包含”是类似的,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但所属领域的技术人员应了解,多种替代和/或等效实施方式可在不脱离本发明的范围的情况下所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。
尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域普通技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其他应用。虽然已参考一个或多个特定实施例描述了本发明,但本领域普通技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。
Claims (12)
1.一种用于声音处理节点(101a-c)装置(100)的声音处理节点(101a),其特征在于,所述声音处理节点(101a-c)用于接收多个声音信号,其中,所述声音处理节点(101a)包括:处理器(103a),用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器(103a)用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本;所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器(103a)用于使用参数α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,基于以下等式和约束:
其中,所述多个权重wi由以下等式定义的矢量yi定义:
其中,
其中,
wi表示所述多个权重的第i个权重;
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
2.根据权利要求1所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
3.根据权利要求2所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用对偶变量λ,确定所述多个权重:
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
4.根据权利要求2所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用对偶变量λ,确定所述多个权重:
其中,
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置(100)的边缘的一组声音处理节点;
λi定义沿着每个边λi=λj的约束下第i个声音处理节点的对偶变量λ的局部估计;
所述多个权重wi由以下等式定义的矢量yi定义:
其中,
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
其中,Ai,Bi和C由以下等式定义:
其中,
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
5.根据权利要求4所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
7.根据权利要求4所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于最小和消息传递算法确定所述多个权重。
9.根据上述权利要求中任一项所述的声音处理节点(101a),其特征在于,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器(103a)用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
11.一种声音处理系统(100),其特征在于,包括根据上述权利要求中任一项所述的多个声音处理节点(101a-c),其中,所述多个声音处理节点(101a-c)用于交换变量,所述变量用于使用所述线性约束最小方差方法的变换版本确定所述多个权重。
12.一种用于操作声音处理节点(101a-c)装置(100)的声音处理节点(101a)的方法(200),其特征在于,所述声音处理节点(101a-c)用于接收多个声音信号,其中,所述方法(200)包括:
通过使用线性约束最小方差方法的变换版本确定多个权重,基于采用所述多个权重加权的多个声音信号确定(201)波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本;
所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,基于以下等式和约束:
其中,所述多个权重wi由以下等式定义的矢量yi定义:
其中,
其中,
wi表示所述多个权重的第i个权重;
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2015/073907 WO2017063706A1 (en) | 2015-10-15 | 2015-10-15 | A sound processing node of an arrangement of sound processing nodes |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107925818A CN107925818A (zh) | 2018-04-17 |
CN107925818B true CN107925818B (zh) | 2020-10-16 |
Family
ID=54427708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580082419.9A Active CN107925818B (zh) | 2015-10-15 | 2015-10-15 | 用于声音处理节点装置的声音处理节点 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10313785B2 (zh) |
EP (1) | EP3311590B1 (zh) |
CN (1) | CN107925818B (zh) |
WO (1) | WO2017063706A1 (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
EP3530001A1 (en) | 2016-11-22 | 2019-08-28 | Huawei Technologies Co., Ltd. | A sound processing node of an arrangement of sound processing nodes |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
WO2020083479A1 (en) * | 2018-10-24 | 2020-04-30 | Huawei Technologies Co., Ltd. | A sound processing apparatus and method |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
CN110519676B (zh) * | 2019-08-22 | 2021-04-09 | 云知声智能科技股份有限公司 | 一种去中心化的分布式麦克风拾音的方法 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112652310B (zh) * | 2020-12-31 | 2024-08-09 | 乐鑫信息科技(上海)股份有限公司 | 分布式语音处理系统及方法 |
CN113780533B (zh) * | 2021-09-13 | 2022-12-09 | 广东工业大学 | 基于深度学习及admm的自适应波束成形方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1919251A1 (en) * | 2006-10-30 | 2008-05-07 | Mitel Networks Corporation | Beamforming weights conditioning for efficient implementations of broadband beamformers |
CN103181192A (zh) * | 2010-10-25 | 2013-06-26 | 高通股份有限公司 | 利用多麦克风的三维声音捕获和再现 |
CN103605122A (zh) * | 2013-12-04 | 2014-02-26 | 西安电子科技大学 | 相干mimo雷达的收发稳健降维自适应波束形成方法 |
CN103701515A (zh) * | 2013-12-11 | 2014-04-02 | 北京遥测技术研究所 | 一种数字多波束形成方法 |
CN104246796A (zh) * | 2012-04-13 | 2014-12-24 | 高通股份有限公司 | 使用多模匹配方案的对象辨识 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630677B2 (en) * | 2011-07-15 | 2014-01-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Distributed beam selection for cellular communication |
US9615172B2 (en) * | 2012-10-04 | 2017-04-04 | Siemens Aktiengesellschaft | Broadband sensor location selection using convex optimization in very large scale arrays |
-
2015
- 2015-10-15 CN CN201580082419.9A patent/CN107925818B/zh active Active
- 2015-10-15 WO PCT/EP2015/073907 patent/WO2017063706A1/en unknown
- 2015-10-15 EP EP15790475.6A patent/EP3311590B1/en active Active
-
2018
- 2018-03-29 US US15/940,635 patent/US10313785B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1919251A1 (en) * | 2006-10-30 | 2008-05-07 | Mitel Networks Corporation | Beamforming weights conditioning for efficient implementations of broadband beamformers |
CN103181192A (zh) * | 2010-10-25 | 2013-06-26 | 高通股份有限公司 | 利用多麦克风的三维声音捕获和再现 |
CN104246796A (zh) * | 2012-04-13 | 2014-12-24 | 高通股份有限公司 | 使用多模匹配方案的对象辨识 |
CN103605122A (zh) * | 2013-12-04 | 2014-02-26 | 西安电子科技大学 | 相干mimo雷达的收发稳健降维自适应波束形成方法 |
CN103701515A (zh) * | 2013-12-11 | 2014-04-02 | 北京遥测技术研究所 | 一种数字多波束形成方法 |
Non-Patent Citations (4)
Title |
---|
A novel adaptive phase-only beamforming algorithm based on semidefinite relaxation;Cheng-jun Lu;《2013 IEEE International Symposium on Phased Array Systems and Technology》;20140206;第I部分 * |
Distributed Node-Specific LCMV Beamforming in Wireless Sensor Networks;Alexander Bertrand; Marc Moonen;《IEEE Transactions on Signal Processing》;20120131;摘要,第VI部分 * |
Dual-Domain Adaptive Beamformer Under Linearly and Quadratically Constrained Minimum Variance;MASAHIRO YUKAWA;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;20130601;全文 * |
Robust Beamforming by Linear Programming;JIANG XUE ET AL;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;20140401;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107925818A (zh) | 2018-04-17 |
EP3311590A1 (en) | 2018-04-25 |
US10313785B2 (en) | 2019-06-04 |
US20180270573A1 (en) | 2018-09-20 |
EP3311590B1 (en) | 2019-08-14 |
WO2017063706A1 (en) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107925818B (zh) | 用于声音处理节点装置的声音处理节点 | |
Ferrer et al. | Active noise control over adaptive distributed networks | |
Heusdens et al. | Distributed MVDR beamforming for (wireless) microphone networks using message passing | |
Koutrouvelis et al. | A low-cost robust distributed linearly constrained beamformer for wireless acoustic sensor networks with arbitrary topology | |
Uddin et al. | Applications of independent component analysis in wireless communication systems | |
O'Connor et al. | Distributed sparse MVDR beamforming using the bi-alternating direction method of multipliers | |
O'Connor et al. | Diffusion-based distributed MVDR beamformer | |
Zhang et al. | Frequency-invariant sensor selection for MVDR beamforming in wireless acoustic sensor networks | |
Hu et al. | Distributed sensor selection for speech enhancement with acoustic sensor networks | |
Hioka et al. | Distributed blind source separation with an application to audio signals | |
Kindt et al. | 2d acoustic source localisation using decentralised deep neural networks on distributed microphone arrays | |
Zeng et al. | Distributed delay and sum beamformer for speech enhancement in wireless sensor networks via randomized gossip | |
Mao et al. | Roar-fed: Ris-assisted over-the-air adaptive resource allocation for federated learning | |
CN105429912A (zh) | 具有信道估计机制的计算系统及其操作方法 | |
Zeng et al. | Clique-based distributed beamforming for speech enhancement in wireless sensor networks | |
Amini et al. | Rate-constrained noise reduction in wireless acoustic sensor networks | |
Taseska et al. | Near-field source extraction using speech presence probabilities for ad hoc microphone arrays | |
US10869125B2 (en) | Sound processing node of an arrangement of sound processing nodes | |
Lawin-Ore et al. | Analysis of the average performance of the multi-channel Wiener filter for distributed microphone arrays using statistical room acoustics | |
Van Chien | Spatial Resource Allocation in Massive MIMO Communications: From Cellular to Cell-Free | |
Hu et al. | Fast Subnetwork Selection for Speech Enhancement in Wireless Acoustic Sensor Networks | |
CN115087011B (zh) | 灵活帧结构仿真系统的下行信号检测方法及装置 | |
Hassani et al. | Multi-task wireless acoustic sensor network for node-specific speech enhancement and DOA estimation | |
CN115087005B (zh) | 灵活帧结构仿真系统的上行信号检测方法及装置 | |
Didier et al. | One-Shot Distributed Node-Specific Signal Estimation with Non-Overlapping Latent Subspaces in Acoustic Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |