CN107925818B - 用于声音处理节点装置的声音处理节点 - Google Patents

用于声音处理节点装置的声音处理节点 Download PDF

Info

Publication number
CN107925818B
CN107925818B CN201580082419.9A CN201580082419A CN107925818B CN 107925818 B CN107925818 B CN 107925818B CN 201580082419 A CN201580082419 A CN 201580082419A CN 107925818 B CN107925818 B CN 107925818B
Authority
CN
China
Prior art keywords
sound processing
processing node
weights
sound
minimum variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580082419.9A
Other languages
English (en)
Other versions
CN107925818A (zh
Inventor
郎玥
金文宇
托马斯·谢尔森
理查德·休斯顿斯
威廉·巴斯蒂安·柯雷金安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN107925818A publication Critical patent/CN107925818A/zh
Application granted granted Critical
Publication of CN107925818B publication Critical patent/CN107925818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种用于声音处理节点(101a‑c)装置(100)的声音处理节点(101a),其中,所述声音处理节点(101a‑c)用于接收多个声音信号,其中,所述声音处理节点(101a)包括:处理器(103a),用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器(103a)用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。

Description

用于声音处理节点装置的声音处理节点
技术领域
本发明大体涉及音频信号处理。具体地,本发明涉及用于声音处理节点装置的声音处理节点、包括多个声音处理节点的系统,以及在声音处理节点装置内操作声音处理节点的方法。
背景技术
在语音处理领域,工程师面临的主要挑战之一是如何在噪声和干扰环境中保持语音清晰度的质量。这发生在许多实际的场合,例如在繁忙的街道上使用手机或者在鸡尾酒会上试图理解某人的经典例子。解决此问题的一个常用方法是利用声源和多个记录设备的空间分集支持特定的到达方向。这个过程被称为波束成形。
虽然对于声学过程,更传统的波束成形器由物理连接的麦克风阵列组成,但是在过去的几十年中,由于传感器和电池技术的改进,使用无线传感器网络(wireless sensornetwork,简称WSN)也是可行的。这样的系统由大量小型、低成本的声音处理节点组成,其中,这些声音处理节点既能够记录传入的声音信号,又能够在整个网络中传输这些信息。
这种无线声音处理节点的使用使得可以部署不同尺寸的网络,而不需要为每个应用重新设计硬件。但是,与专用系统不同,这种WSN有自己特定的设计考虑。WSN的主要缺点在于:由于数据收集的分散性,没有一个位置可以计算波束成形器的输出。这也影响了WSN对统计最佳的波束成形方法设计中所需的协方差矩阵进行估计的能力。
解决这个问题的一个简单方法是添加一个额外的中心点或融合中心,将所有的数据传输到这个中心点进行处理。但是,这个中心点存在一些缺点。首先,如果此中心点失效,整个网络的性能就会受到影响,这意味着需要额外的成本来提供冗余,从而解决这个问题。其次,中央位置的规格,例如,内存要求和处理能力随网络大小而变化,因此,必须超过规定的范围,从而确保网络能够按要求运行。第三,对于某些网络拓扑而言,这样的集中系统也会带来过多的传输成本,这会导致每个节点的电池寿命损耗。
这些集中式拓扑的替代方案是利用节点本身的计算能力,并从网络内部解决同样的问题。因为向网络添加额外的节点也增加了可用的处理能力,这种分布式拓扑具有额外的好处:消除单点故障,同时提供计算可扩展性。分布式方法面临的主要挑战在于缺乏一个中心点,在这个中心点上所有的系统数据都是可用的。这需要替代方案的设计以及典型的迭代算法。
尽管在文献中已经存在多种用于提供分布式波束成形算法的方法,但是它们具有其局限性。其中,最值得注意的是基于硬件的需求,例如,内存使用仍然经常随着网络的规模而扩展,使得在即时或不同大小的网络中使用相同的硬件平台部署这些算法是不切实际的。这种约束与这些“分布式”算法访问某种形式的全局数据的需求有关,无论是否以压缩形式。因此,本领域当前需要真正分布式的、统计最佳的波束成形方法,特别是用于无线传感器网络。
发明内容
本发明的目标在于提供一种分布式的、统计最佳的波束成形方法,特别是用于无线传感器网络。
上述以及其他目标通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
根据第一方面,本发明涉及一种用于声音处理节点装置的声音处理节点,所述声音处理节点用于接收多个声音信号,其中,所述声音处理节点包括:处理器,用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
使用线性约束最小方差方法的凸松弛版本,从而允许声音处理节点装置的每个声音处理节点以完全分布的方式确定定义波束成形信号的多个权重。
在一种实现方式中,声音处理节点可以包括用于接收单个声音信号的单个麦克风或用于接收多个声音信号的多个麦克风。通常,声音处理节点接收的声音信号数量决定了权重的数量。多个权重通常是复数值,即包括时间/相位偏移。在一种实现方式中,处理器用于确定多个不同的频率点的多个权重。线性约束最小方差方法将波束成形信号的噪声功率最小化,同时遵守维持多个声音信号的期望响应的线性约束。
在根据第一方面所述的声音处理节点的第一种可能的实现方式中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器用于使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数α提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。
该实现方式通过允许调整参数α,允许处理器提供多个权重的鲁棒值。
在根据第一方面第一种实现方式所述的声音处理节点的第二种可能的实现方式中,所述处理器用于基于以下等式和约束使用所述鲁棒线性约束最小方差方法的变换版本,确定所述多个权重:
Figure GDA0002374226330000021
Figure GDA0002374226330000022
Figure GDA0002374226330000023
其中,
wi表示所述多个权重的第i个权重;
Figure GDA0002374226330000024
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数,即
Figure GDA0002374226330000025
N表示声音处理节点(101a-c)的总数;
Figure GDA0002374226330000026
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在第一方面第一种实现方式所述的声音处理节点的第三种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
通过利用强大的对偶性,该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第一方面第三种实现方式所述的声音处理节点的第四种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用所述对偶变量λ,确定所述多个权重:
Figure GDA0002374226330000031
其中,所述多个权重wi由以下等式定义的矢量yi定义:
Figure GDA0002374226330000032
其中,
Figure GDA0002374226330000033
Figure GDA0002374226330000034
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点的集合;
mi表示第ii个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure GDA0002374226330000035
其中,Ai,Bi和C由以下等式定义:
Figure GDA0002374226330000036
Figure GDA0002374226330000037
Figure GDA0002374226330000038
其中,
N表示声音处理节点的总数;
M表示所有声音处理节点的麦克风的总数,即
Figure GDA0002374226330000039
Figure GDA0002374226330000041
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器有效地确定定义波束成形信号的多个权重,因为可以通过反转(M+P)维矩阵确定最佳λ,因此对于声音处理节点的较大装置而言,该矩阵远小于传统方法所要求的N维矩阵。
在根据第一方面第三种实现方式所述的声音处理节点的第五种可能的实现方式中,所述处理器用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用所述对偶变量λ,确定所述多个权重:
Figure GDA0002374226330000042
Figure GDA0002374226330000043
其中,
λi定义第i个声音处理节点上对偶变量λ的本地估计;
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置的边缘的一组声音处理节点;
所述多个权重wi由以下等式定义的矢量yi定义:
Figure GDA0002374226330000044
其中,
Figure GDA0002374226330000045
Figure GDA0002374226330000046
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure GDA0002374226330000047
其中,Ai,Bi和C由以下等式定义:
Figure GDA0002374226330000048
Figure GDA0002374226330000049
Figure GDA00023742263300000410
其中,
N表示声音处理节点的总数;
M表示所有声音处理节点的麦克风的总数,即
Figure GDA0002374226330000051
Figure GDA0002374226330000052
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式对于装置定义声音处理节点的即时网络的声音处理节点是特别有用的,因为只需要一些待更新网络的其余节点,就可以添加新的声音处理节点。
在根据第一方面第五种实现方式所述的声音处理节点的第六种可能的实现方式中,所述处理器用于基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。
在根据第一方面第六种实现方式所述的声音处理节点的第七种可能的实现方式中,所述处理器用于基于分布式算法,通过迭代地求解以下等式确定所述多个权重:
Figure GDA0002374226330000053
Figure GDA0002374226330000054
其中,
N(i)定义与第i个声音处理节点相邻的一组声音处理节点;
Rpij表示确定收敛速率的正定矩阵,其由以下等式定义为
Figure GDA0002374226330000055
Figure GDA0002374226330000056
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将变量λi,k+1和ψij,k+1分配给相邻的声音处理节点。
在根据第一方面第五种实现方式所述的声音处理节点的第八种可能的实现方式中,所述处理器用于基于最小和消息传递算法确定所述多个权重。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。
在根据第一方面第八种实现方式所述的声音处理节点的第九种可能的实现方式中,所述处理器用于基于最小和消息传递算法,使用以下等式确定所述多个权重:
Figure GDA0002374226330000061
其中,mji表示第i个声音处理节点从另一声音处理节点j接收的消息,其中,该消息mji由以下等式定义:
Figure GDA0002374226330000062
其中,N(j)定义与第j个声音处理节点相邻的一组声音处理节点。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将消息mji分配给相邻的声音处理节点。
在根据第一方面或其第一至第九种可能的实现方式中任意一种所述的声音处理节点的第十种可能的实现方式中,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
该实现方式允许对协方差矩阵进行分布式估计,例如,在存在时变噪声场的情况下。
在根据第一方面第十种实现方式所述的声音处理节点的第十一种可能的实现方式中,所述多个声音信号的无偏协方差由以下等式定义:
Figure GDA0002374226330000063
其中,
Figure GDA0002374226330000064
表示第i个声音处理节点接收的声音信号的矢量;
M表示所有声音处理节点的麦克风的总数。
根据第二方面,本发明涉及一种包括根据第一方面所述的多个声音处理节点的声音处理系统,其中,所述多个声音处理节点用于交换变量,所述变量用于使用所述线性约束最小方差方法的变换版本确定所述多个权重。
根据第三方面,本发明涉及用于操作声音处理节点装置的声音处理节点的方法,其中,所述声音处理节点用于接收多个声音信号。所述方法包括:通过使用线性约束最小方差方法的变换版本确定所述多个权重,基于采用多个权重加权的多个声音信号确定波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
根据本发明第三方面的方法可以由根据本发明第一方面的声音处理节点执行。根据本发明第三方面的方法的其他特征由根据本发明第一方面的声音处理节点的功能及其不同的实现形式直接获得。
更具体地,在根据第三方面所述的方法的第一种可能的实现方式中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,确定的步骤包括以下步骤:使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数αα提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。
该实现方式通过允许调整参数α,允许处理器提供多个权重的鲁棒值。
在根据第三方面第一种实现方式所述的方法的第二种可能的实现方式中,确定的步骤包括以下步骤:基于以下等式和约束使用所述鲁棒线性约束最小方差方法的变换版本,确定所述多个权重:
Figure GDA0002374226330000071
Figure GDA0002374226330000072
Figure GDA0002374226330000073
其中,
wi表示所述多个权重的第i个权重;
Figure GDA0002374226330000074
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点的集合;
M表示所有声音处理节点的麦克风的总数,即
Figure GDA0002374226330000075
N表示声音处理节点(101a-c)的总数;
Figure GDA0002374226330000076
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第三方面的第一种实现方式所述的方法的第三种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
通过利用强大的对偶性,该实现方式允许声音处理节点的处理器高效地确定定义波束成形信号的多个权重。
在根据第三方面第三种实现方式所述的方法的第四种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用所述对偶变量λ,确定所述多个权重:
Figure GDA0002374226330000077
其中,所述多个权重wi由以下等式定义的矢量yi定义:
Figure GDA0002374226330000078
其中,
Figure GDA0002374226330000081
Figure GDA0002374226330000082
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure GDA0002374226330000083
其中,Ai,Bi和C由以下等式定义:
Figure GDA0002374226330000084
Figure GDA0002374226330000085
Figure GDA0002374226330000086
其中,
N表示声音处理节点的总数;
M表示所有声音处理节点的麦克风的总数,即
Figure GDA0002374226330000087
Figure GDA0002374226330000088
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式允许声音处理节点的处理器有效地确定定义波束成形信号的多个权重,因为可以通过反转(M+P)维矩阵确定最佳λ,因此对于声音处理节点的较大装置而言,该矩阵远小于传统方法所要求的N维矩阵。
在根据第三方面第三种实现方式所述的方法的第五种可能的实现方式中,确定的步骤包括以下步骤:使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用所述对偶变量λ,确定所述多个权重:
Figure GDA0002374226330000089
Figure GDA00023742263300000810
其中,
λi定义第i个声音处理节点上对偶变量λ的本地估计;
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置的边缘的一组声音处理节点;
所述多个权重wi由以下等式定义的矢量yi定义:
Figure GDA0002374226330000091
其中,
Figure GDA0002374226330000092
Figure GDA0002374226330000093
表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure GDA0002374226330000094
其中,Ai,Bi和C由以下等式定义:
Figure GDA0002374226330000095
Figure GDA0002374226330000096
Figure GDA0002374226330000097
其中,
N表示声音处理节点的总数;
M表示所有声音处理节点的麦克风的总数,即
Figure GDA0002374226330000098
Figure GDA0002374226330000099
定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
该实现方式对于装置定义声音处理节点的即时网络的声音处理节点是特别有用的,因为只需要一些待更新网络的其余节点,就可以添加新的声音处理节点。
在根据第三方面的第五种实现方式所述的方法的第六种可能的实现方式中,确定的步骤包括以下步骤:基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。
在根据第三方面的第六种实现方式所述的方法的第七种可能的实现方式中,确定的步骤包括以下步骤:基于分布式算法,通过迭代地求解以下等式确定所述多个权重:
Figure GDA0002374226330000101
Figure GDA0002374226330000102
其中,
N(i)定义与第i个声音处理节点相邻的一组声音处理节点;
Rpij表示确定收敛速率的正定矩阵,其由以下等式定义为
Figure GDA0002374226330000103
Figure GDA0002374226330000104
该实现方式允许定义循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重的有效计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将变量λi,k+1和ψij,k+1分配给相邻的声音处理节点。
在根据第三方面的第五种实现方式所述的方法的第八种可能的实现方式中,确定的步骤包括以下步骤:基于最小和消息传递算法确定所述多个权重。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行有效的计算。
在根据第三方面的第八种实现方式所述的方法的第九种可能的实现方式中,确定的步骤包括以下步骤:基于最小和消息传递算法,使用以下等式确定所述多个权重:
Figure GDA0002374226330000105
其中,mji表示第i个声音处理节点从另一声音处理节点j接收的消息,其中,该消息mji由以下等式定义:
Figure GDA0002374226330000106
其中,N(j)定义与第j个声音处理节点相邻的一组声音处理节点。
该实现方式允许定义非循环网络拓扑的声音处理节点装置的声音处理节点的处理器对多个权重进行非常有效的计算。在一种实现方式中,声音处理节点可以用于通过任何无线广播或定向传输方案将消息mji分配给相邻的声音处理节点。
在根据第三方面或其第一至第九种可能的实现方式中任意一种所述的方法的第十种可能的实现方式中,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
该实现方式允许对协方差矩阵进行分布式估计,例如,在存在时变噪声场的情况下。
在根据第三方面第十种实现方式所述的方法的第十一种可能的实现方式中,所述多个声音信号的无偏协方差由以下等式定义:
Figure GDA0002374226330000111
其中,
Figure GDA0002374226330000112
表示频域中第i个声音处理节点接收的声音信号的矢量;
M表示所有声音处理节点的麦克风的总数。
根据第四方面,本发明涉及一种计算机程序,包括用于在计算机上运行时,执行根据本发明第三方面所述的方法的程序代码。
本发明可以用硬件和/或软件实现,进一步地,例如由处理器实现。
附图说明
本发明的具体实现形式将结合以下附图进行描述,其中:
图1示出了根据实施例的描述了根据包括声音处理节点的实施例的声音处理节点装置的示意图;
图2示出了根据实施例的描述了操作声音处理节点的方法的示意图;
图3示出了根据实施例的声音处理节点的示意图;
图4示出了根据实施例的声音处理节点的示意图;
图5示出了根据实施例的声音处理节点装置的示意图。
在各附图中,相同的或至少功能等同的特征使用相同的参考标号。
具体实现形式以下结合附图进行详细描述,所述附图是描述的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其他方面,并做出结构或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。
例如,可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用,反之亦然。例如,如果描述了特定方法步骤,则对应设备可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特征可以相互组合,除非另外明确说明。
图1示出了根据实施例的根据包括声音处理节点101a的实施例的声音处理节点101a-c的装置或系统100。声音处理节点101a-c用于接收来自一个或多个目标源的多个声音信号,例如,来自一个或多个扬声器的语音信号,其位于与声音处理节点装置100不同的位置上。为此,声音处理节点101a-c的装置100的每个声音处理节点101a-c可以包括一个或多个麦克风105a-c。在图1所示的示例性实施例中,声音处理节点101a包括两个以上麦克风105a,声音处理节点101b包括一个麦克风105b,声音处理节点101c包括两个麦克风。
在图1所示的示例性实施例中,声音处理节点101a-c的装置100包括三个声音处理节点,即声音处理节点101a-c。然而,例如从下文的详细描述中可以理解,本发明还可以以具有更少或更多声音处理节点的声音处理节点装置或系统的形式实现。除了不同数量的麦克风之外,声音处理节点101a-c可以基本相同,即所有声音处理节点101a-c都可以包括以基本相同的方式配置的处理器103a-c。
声音处理节点101a的处理器103a用于基于采用多个权重加权的多个声音信号确定波束成形信号。所述处理器103a用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
通常,声音处理节点101a接收的声音信号数量,即声音处理节点101a的麦克风105数量决定要确定的权重数量。定义波束成形信号的多个权重通常是复数值,即包括时间/相移。在一个实施例中,处理器103用于确定多个不同的频率点的多个权重。在一个实施例中,波束成形信号是采用多个权重加权的声音处理节点101a接收的声音信号之和。线性约束最小方差方法将波束成形信号的噪声功率最小化,同时遵守维持多个声音信号的期望响应的线性约束。使用线性约束最小方差方法的凸松弛版本,从而允许声音处理节点101a-c装置的每个声音处理节点以完全分布的方式进行处理。
图2示出了根据实施例的描述操作声音处理节点101a的方法200的示意图。该方法200包括步骤201:通过使用线性约束最小方差方法的变换版本确定多个权重,基于采用多个权重加权的多个声音信号确定波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本。
下面将描述声音处理节点101a、声音处理节点101a-c的装置100以及方法200的另一实现方式、实施例以及方面。
在一个实施例中,所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器用于使用参数α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,其中,所述参数α提供了所述权重的大小的最小化与所述波束成形信号的能量之间的平衡点。在数学上,用于确定特定频率点的多个权重的参数α α参数化的鲁棒线性约束最小方差方法可以以优化问题的形式表述如下:
Figure GDA0002374226330000121
s.t.DHw=s (1)
其中,R∈CM×M为协方差矩阵,D∈CM×P表示来自目标源定义的特定方向的P个信道矢量的集合,s∈CP×1为这些方向上的期望响应,ω∈CM×1为具有多个待确定权重作为分量的权重矢量,M表示声音处理节点101a-c的麦克风105a-c的总数。可以理解的是,在极限α→0中,等式(1)定义的鲁棒线性约束最小方差方法变成线性约束最小方差方法。
因为真正协方差矩阵R的信息不可能总是可用的,因此在一个实施例中,处理器103a用于使用多个声音信号的无偏协方差近似协方差矩阵R。在一个实施例中,多个声音信号的无偏协方差由以下等式定义:
Figure GDA0002374226330000122
其中,Y(l)表示声音处理节点101a-c接收的声音信号的矢量,M表示声音处理节点101a-c的麦克风105a-c的总数。每个Y(l)可以表示频域音频的噪声或无噪声帧。在实际应用中,由于每帧音频的长度(大约20ms),因此除了噪声场的时间变化性质之外,在变得明显不相关之前使用非常少量的帧通常是可行的。因此,在一个实施例中,每个Y(l)可以表示包含目标源语音以及任一干扰信号的噪声帧。在一个实施例中,可以将M限制为大约50帧,这意味着噪声场至少半秒是“静止的”(由于50%的帧重叠)。在许多场景下,由于噪声场的变化较快,例如汽车中驾驶时所体验的,可以使用明显较少的帧。
通过在基于节点的变量集上划分目标和约束(由下标i表示),可以将等式1重写为:
Figure GDA0002374226330000131
Figure GDA0002374226330000132
其中,wi∈Cmi×1和mi表示声音处理节点i上麦克风的数量。通过引入附加的NM变量,可以将
Figure GDA0002374226330000133
等式3写成如下形式的分布式优化问题:
Figure GDA0002374226330000134
Figure GDA0002374226330000135
Figure GDA0002374226330000136
其中,
Figure GDA0002374226330000137
表示音频帧l期间声音处理节点i上进行的声音信号测量的矢量。该步骤虽然大大增加了方法的维度使得可以对方法进行分配,但是尺寸的这种增加可以在本发明实施例中通过使用紧凸松弛部分地解决。
等式4定义的原始问题的拉格朗日函数具有以下形式:
Figure GDA0002374226330000138
其中,
Figure GDA0002374226330000139
是与每个
Figure GDA00023742263300001310
相关联的对偶变量,μ(p)是与约束
Figure GDA00023742263300001311
相关联的对偶变量。由于原始问题是凸的且明确可行,本发明提出通过利用强对偶性解决双域中的这个问题。针对每个
Figure GDA00023742263300001312
取复偏导数,会发现:
Figure GDA00023742263300001313
Figure GDA00023742263300001314
为了一个原始可行的解决方案,然后每个
Figure GDA00023742263300001315
因此,在最优性
Figure GDA00023742263300001316
Figure GDA00023742263300001317
其中,
Figure GDA00023742263300001318
表示最佳对偶变量。通过限制对偶变量的形式,使得所有的
Figure GDA00023742263300001319
V。保持一致的同一个最佳解决方案,同时减少需要引入的对偶变量的数量。这允许构造一个等价的原始拉格朗日函数的形式:
Figure GDA00023742263300001320
因此,有可能构造等式5中的等价凸优化问题,其仅引入M个双重约束。其具有以下形式:
Figure GDA0002374226330000141
Figure GDA0002374226330000142
Figure GDA0002374226330000143
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式8确定多个权重wi。可以将上述等式8重写成以下形式:
Figure GDA0002374226330000144
Figure GDA0002374226330000145
其中,
Figure GDA0002374226330000146
Figure GDA0002374226330000147
Figure GDA0002374226330000148
Figure GDA0002374226330000149
给出一个原始的拉格朗日函数:
Figure GDA00023742263300001410
在一个实施例中,也可以以以下简化的方式写入矩阵Bi
Figure GDA00023742263300001411
可以通过计算等式11中关于每个yi的复偏导数并将这些导数等于0,找到对偶问题,即:
Figure GDA00023742263300001412
Figure GDA00023742263300001413
因此,由此产生的对偶问题可以表示为:
Figure GDA00023742263300001414
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式13、12和10确定多个权重wi。给定等式13,可以通过反转(M+P)维矩阵找到最佳λ。对于大量声音处理节点装置来说,该矩阵远小于通常所需的N维矩阵。由于维度D矩阵的反转是本发明的O(D3)操作实施例,因此当M+P<N时,计算复杂度也大大降低。
通过在每个声音处理节点101a-c上引入局部估计λi并添加沿着声音处理节点λi=λj的装置100的每个边缘应该保持的约束,可以将等式13示为等价于以下分布式的优化问题:
Figure GDA0002374226330000151
Figure GDA0002374226330000152
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于等式14、12和10确定多个权重Wi。在这种情况下,给出限制Dij=-Dji=±I,其中,I表示单位矩阵。应该注意的是,声音处理节点101a-c的对应装置100的边缘可以是完全自我配置的,并且除了其任一端的声音处理节点以外,任何人都不知道的。因此,在一个实施例中,声音处理节点可以简单地监控其可以从哪个其他声音处理节点接收报文(给定的特定传输范围和/或报文质量),并且由此推断出独立于声音处理节点装置100定义的网络结构的其他部分的相邻声音处理节点。这对于声音处理节点的网络的即时形成是特别有用的,因为不需要以任何方式更新网络的其余部分就可以将新的声音处理节点添加到网络中。
如果在可替代实施例中对诸如非循环或树形拓扑的网络拓扑的施加更大限制,则在使用声音处理节点101a-c的装置100之前,可能需要额外的“离线”处理。
与传统方法相比,上述实施例的主要益处之一在于:就如何解决分布式问题以及上述任一对声音处理节点101a-c的装置100的基本网络拓扑施加的限制,它们提供了广泛的灵活性。例如,最普通的一类无向网络拓扑是那些可能包含循环路径的网络拓扑,这是无线传感器网络中的一个共同特征,特别是当使用即时的网络形成方法时。与传统的最佳分布式方法(其中,循环网络拓扑经常被忽略)相反,周期的引入不影响本文公开的不同实施例解决鲁棒LCMV问题的能力。例如,在一种标准形式中,等式14定义的问题需要由诸如原始对偶法乘法器(primal dual method of multiplier,简称BiADMM)等的分布式算法解决,正如张国强和理查德·赫斯登在2015IEEE国际会议的“声学、语音和信号处理(Acoustics,Speech and Signal Processing,简称ICASSP)”会议上发表的《图上乘法器的双向交替方向法》一文第(3571-3575页,IEEE 2015年出版)中所描述的一样。因此,使用简化的双更新方法,可以示出一种迭代地求解声音处理节点101a-c的循环网络中的等式14,该方式由BiADMM更新方案给出并定义为:
Figure GDA0002374226330000153
Figure GDA0002374226330000154
N(i)定义与第i个声音处理节点相邻的一组声音处理节点,Rpij表示确定收敛速度的正定矩阵,
其由以下等式定义为
Figure GDA0002374226330000155
Figure GDA0002374226330000156
因此,在一个实施例中,声音处理节点101a的处理器103a用于基于迭代求解等式15确定多个权重。
图3示出了具有处理器103a的声音处理节点101a的实施例的示意图。处理器103a用于基于迭代地求解等式15确定多个权重,即例如使用原始对偶法乘法器(primal dualmethod of multiplier,简称BiADMM)或交替方向乘法器(alternating direction methodof multiplier,简称ADMM)。
在图3所示的实施例中,除了处理器103a和多个麦克风105a之外,声音处理节点101a还可以包括:缓冲器307a,用于存储多个麦克风105a接收的声音信号的至少一部分;接收器309a,用于从相邻的声音处理节点接收变量,从而确定多个权重;缓存311a,用于至少暂时存储从相邻的声音处理节点接收的变量;发射器313a,用于将变量发送到相邻的声音处理节点,从而确定多个权重。
在图3所示的实施例中,声音处理节点101a的接收器309a用于从相邻的声音处理节点接收等式15定义的变量λi,k+1和ψij,k+1,发射器313a用于将等式15定义的变量发送到相邻的声音处理节点。在一个实施例中,接收器309a和发射器313a可以以单个通信接口的形式实现。
如上所述,处理器103a可以用于确定频域中的多个权重。因此,在一个实施例中,处理器103a还可以用于使用傅里叶变换将多个麦克风105a接收的多个声音信号变换到频域中。
在图3所示的实施例中,声音处理节点101a的处理器103a用于针对每个迭代N(i)计算对偶变量和一个原始变量,其涉及的M+P维矩阵的反转是最昂贵的操作。然而,如果这个反转的矩阵本地存储在声音处理节点101a中,由于它在迭代之间不变,因此这可以简化为矩阵乘法。另外,在一个实施例中,声音处理节点101a可以用于将更新变量传输给相邻的声音处理节点以确定多个权重,例如图1所示的声音处理节点101b和101c。在本发明的实施例中,这可以通过声音处理节点之间的任何无线广播或定向传输方案实现。但是,应该注意的是,BiADMM本质上是不受报文丢失影响的。因此,如果愿意忍受与报文丢失相关的收敛时间的增加,则不需要握手例程。在一个实施例中,处理器103a用于运行迭代算法,直到收敛可以在能够对下一个音频块进行处理的点上实现。
在一个可替代实施例中,如要通过消除所有循环路径的存在而对声音处理节点的网络拓扑施加更大限制,因该方法特别适用。该方法确保声音处理节点之间的有限传输内的收敛。该实施例利用这样一个事实,即无需在每个声音处理节点上存储每个Bi HAi -1Bi求解等式13,而是只可以存储全局求和。因此,通过最小和消息传递算法沿着声音处理节点的网络对数据进行聚集,可以仅使用本地传递的信息唯一地重建每个声音处理节点上的全局问题。因此,在一个实施例中,每个声音处理节点的处理器,例如,声音处理节点101a的处理器103a用于通过求解以下等式生成分布式问题的解决方案:
Figure GDA0002374226330000161
其中,将从声音处理节点i到另一声音处理节点j的每个消息定义为:
Figure GDA0002374226330000162
每个消息由(M+P)维半正定矩阵组成,其只有一个需要传输的唯一变量
Figure GDA0002374226330000163
但是,通过考虑每个Bi HAi -1Bi的参数化形式,其中,
Figure GDA0002374226330000171
Figure GDA0002374226330000172
可表示为:
Figure GDA0002374226330000173
其中,
Figure GDA0002374226330000174
因此,由于音频块之间数据的M-1帧的重复使用,在静态目标源的情况下,只有M+P个新变量引入到最终矩阵中。这意味着通过重复使用这些重复的值,可以减少声音处理节点之间需要传输的数据量。然而,如果允许块之间的目标源变化,即如果实时估计目标源的位置,则需要传输另外的变量
Figure GDA0002374226330000175
导致一个总值
Figure GDA0002374226330000176
尽管这增加了传输每个节点到节点通信的值数量,但是其益处在于:树形图中的最小和算法仅需要2N个传输就能达成一致。与上述基于迭代的实施例相反,这使得非循环消息传递的实施例具有吸引力,因为可以对为每个音频块和已知数量的声音处理节点达成一致所需的时间进行精确的限定。
图4示出了具有处理器103a的声音处理节点101a的实施例的示意图。该处理器103a用于基于最小和消息传递算法确定多个权重,例如使用等式17、18和19。
在图4所示的实施例中,除了处理器103a和多个麦克风105a之外,声音处理节点101a还可以包括:缓冲器307a,用于存储多个麦克风105a接收的声音信号的至少一部分;接收器309a,用于从相邻的声音处理节点接收变量,从而确定多个权重;缓存311a,用于至少暂时存储从相邻的声音处理节点接收的变量;发射器313a,用于将变量发送到相邻的声音处理节点,从而确定多个权重。
在图4所示的实施例中,声音处理节点101a的接收器309a用于从相邻的声音处理节点接收等式18定义的消息,发射器313a用于将等式18定义的消息发送到相邻的声音处理节点。在一个实施例中,接收器309a和发射器313a可以以单个通信接口的形式实现。
如上所述,处理器103a可以用于确定频域中的多个权重。因此,在一个实施例中,处理器103a还可以用于使用傅里叶变换将多个麦克风105a接收的多个声音信号变换到频域中。
本发明的实施例可以以自动语音听写系统的形式实现,这在用于捕获会议内容的商业环境中是一种有用的工具。然而,一个共同的问题是,随着用户数量的增加,音频记录中的噪声也会由于会议中的移动和额外通话而发生。这个问题可以部分地通过波束成形解决,但是必须利用配备有集中式系统的专用空间或者将个人麦克风连接到每个人以试图改善每个扬声器的SNR,这可能是一种侵犯和恼人的过程。相反,通过利用在任一会议上存在的现有麦克风,即那些附着在那些现有手机上的麦克风,可以使用本发明实施例形成即时的波束成形网络,从而实现相同的目标。此外,这种方法的好处在于:它实现了自然扩展的架构,因为在会议中有更多成员时,节点(手机)的数量反过来也会增加。当与本发明实施例不同的网络大小独立性相结合时,这提供了一种非常灵活的解决方案,从而提供作为自动语音听写系统的前端的自动语音波束成形。
图5示出了可以用于商务会议情境中的声音处理节点101a-f的装置100的另一实施例。示例性的六个声音处理节点101a-f由六部手机101a-f定义,这些手机101a-f用于记录桌子左端扬声器501的声音并对其进行波束成形。这里,虚线箭头表示从每部手机,即声音处理节点101a-f到目标源的方向,而实线双箭头表示节点101a-f之间的通信的信道。右侧的圆表示声音处理节点101a的传输范围503,定义了与相邻的声音处理节点101b和101c的相邻连接,通过初始观察示例性传输范围503中可以接收的报文,对其进行确定。正如上面的进一步详细描述,声音处理节点101a-f的网络使用这些通信信道,从而不仅在相邻节点之间对与所选求解器的实现相关的任何其他基于节点的变量进行传输,还对估计的对偶变量λi进行传输。在专用节点到节点协议不可用的情况下,该通信可以通过多种无线协议实现,包括但不限于基于LTE、蓝牙以及基于WiFi的系统。在这个过程中,每个声音处理节点101a-f都可以存储波束成形的信号的记录,然后稍后可以由会议的任一与会者对其进行回放。与会者还可以通过离其最近的手机“实时”访问该信息。
在以固定结构无线传感器网络的形式对传感器节点进行装置的情况下,本发明的实施例可以提供类似的传输(以及由此的功耗)、计算(以更小的矩阵反转问题的形式)以及存储器需求作为其他传统的在树型网络中运行的算法,同时提供每个块的最佳波束成形器,而不是随着时间收敛。特别地,在大声学空间中语音增强的情况下,可以使用具有大量声音处理节点装置。特别适用于非循环网络的上述实施例提供了比传统算法的完全连接实现方式更好的性能。因此,对于任何现有的分布式波束成形器应用来说,本发明实施例都是潜在的工具,其中,块最佳的波束成形器是期望的。
此外,本发明实施例还提供了以下优点。本发明实施例允许使用大规模WSN以完全分布的方式解决鲁棒LCMV问题,而不需要在给定不同网络大小的情况下改变操作平台。因为给定了相同的输入数据,所以本发明实施例没有提供鲁棒LCMV解决方案的近似方案,而是解决与集中式实现相同的问题。由于基础算法是LCMV型波束成形器,因此通过一次允许多个约束函数,本发明实施例提高了与基于MVDR的方法相同的灵活性。另外,由于可以在每个音频块重新估计协方差矩阵,因此本发明实施例无需额外的修改就可以跟踪非平稳噪声场。本发明实施例提供的非缩放分布式性质使得在硬件级别设计声音处理节点架构是实用的。不管所需的部署规模如何,该声音处理节点架构都可以通过WSN用于声学波束成形。如果网络需要增加更多的节点(假设原始节点不可用),那么这些声音处理节点也可以包含不同数量的节点麦克风,从而允许不同规格节点架构的混合与匹配。本发明实施例提供的声音处理节点装置的分布式性质也具有消除对昂贵的集中式系统的需求以及与这些组件相关联的可扩展性问题的益处。最后,分布式优化公式的广义性质为设计者在选择如何实现本发明实施例方面提供了广泛的灵活性。这使得他们在选择时权衡不同的性能度量,例如,在他们想要使用分布式求解器,在他们实现节点之间的通信算法,或者如果他们想要对网络拓扑施加额外的限制以利用有限收敛方法时候。
尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其他实施方式或实施例中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有利。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变形在详细的说明书或权利要求书中使用,这类术语和所述术语“包含”是类似的,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但所属领域的技术人员应了解,多种替代和/或等效实施方式可在不脱离本发明的范围的情况下所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。
尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域普通技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其他应用。虽然已参考一个或多个特定实施例描述了本发明,但本领域普通技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。

Claims (12)

1.一种用于声音处理节点(101a-c)装置(100)的声音处理节点(101a),其特征在于,所述声音处理节点(101a-c)用于接收多个声音信号,其中,所述声音处理节点(101a)包括:处理器(103a),用于基于采用多个权重加权的多个声音信号确定波束成形信号,其中,所述处理器(103a)用于使用线性约束最小方差方法的变换版本确定所述多个权重,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本;所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,所述处理器(103a)用于使用参数α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,基于以下等式和约束:
Figure FDA0002374226320000011
Figure FDA0002374226320000012
Figure FDA0002374226320000013
其中,所述多个权重wi由以下等式定义的矢量yi定义:
Figure FDA0002374226320000014
其中,
Figure FDA0002374226320000015
其中,
wi表示所述多个权重的第i个权重;
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数,即
Figure FDA0002374226320000037
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
2.根据权利要求1所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本确定所述多个权重,其中,所述线性约束最小方差方法的另一变换版本是通过将所述线性约束最小方差方法的变换版本进一步变换为双域获得的。
3.根据权利要求2所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式使用对偶变量λ,确定所述多个权重:
Figure FDA0002374226320000021
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure FDA0002374226320000022
其中,Ai,Bi和C由以下等式定义:
Figure FDA0002374226320000023
Figure FDA0002374226320000024
Figure FDA0002374226320000025
其中,
N表示声音处理节点(101a-c)的总数;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数,即
Figure FDA0002374226320000026
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
4.根据权利要求2所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于使用所述线性约束最小方差方法的另一变换版本,基于以下等式和以下约束使用对偶变量λ,确定所述多个权重:
Figure FDA0002374226320000027
Figure FDA0002374226320000028
其中,
Dij=-Dji=±I,I表示单位矩阵;
E定义了声音处理节点装置(100)的边缘的一组声音处理节点;
λi定义沿着每个边λi=λj的约束下第i个声音处理节点的对偶变量λ的局部估计;
所述多个权重wi由以下等式定义的矢量yi定义:
Figure FDA0002374226320000031
其中,
Figure FDA0002374226320000032
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
mi表示第i个声音处理节点的麦克风数量;
对偶变量λ通过以下等式与所述矢量yi相关联:
Figure FDA0002374226320000033
其中,Ai,Bi和C由以下等式定义:
Figure FDA0002374226320000034
Figure FDA0002374226320000035
Figure FDA0002374226320000036
其中,
N表示声音处理节点(101a-c)的总数;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数,即
Figure FDA0002374226320000037
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
S(p)表示第p个方向的期望的响应。
5.根据权利要求4所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于分布式算法,特别是乘法器的原始对偶法,确定所述多个权重。
6.根据权利要求5所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于分布式算法,通过迭代地求解以下等式确定所述多个权重:
Figure FDA0002374226320000038
Figure FDA0002374226320000039
其中,
N(i)定义与第i个声音处理节点相邻的一组声音处理节点;
Rpij表示确定收敛速率的正定矩阵,其由以下等式定义为
Figure FDA0002374226320000041
Figure FDA0002374226320000042
7.根据权利要求4所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于最小和消息传递算法确定所述多个权重。
8.根据权利要求7所述的声音处理节点(101a),其特征在于,所述处理器(103a)用于基于最小和消息传递算法,使用以下等式确定所述多个权重:
Figure FDA0002374226320000043
其中,mji表示第i个声音处理节点从另一声音处理节点j接收的消息,其中,该消息mji由以下等式定义:
Figure FDA0002374226320000044
其中,N(j)定义与第j个声音处理节点相邻的一组声音处理节点,mkj表示第k个声音处理节点从另一声音处理节点j接收的消息。
9.根据上述权利要求中任一项所述的声音处理节点(101a),其特征在于,所述线性约束最小方差方法是基于协方差矩阵R的,其中,所述处理器(103a)用于使用所述多个声音信号的无偏协方差近似所述协方差矩阵R。
10.根据权利要求9所述的声音处理节点(101a),其特征在于,所述多个声音信号的无偏协方差由以下等式定义:
Figure FDA0002374226320000045
其中,
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数。
11.一种声音处理系统(100),其特征在于,包括根据上述权利要求中任一项所述的多个声音处理节点(101a-c),其中,所述多个声音处理节点(101a-c)用于交换变量,所述变量用于使用所述线性约束最小方差方法的变换版本确定所述多个权重。
12.一种用于操作声音处理节点(101a-c)装置(100)的声音处理节点(101a)的方法(200),其特征在于,所述声音处理节点(101a-c)用于接收多个声音信号,其中,所述方法(200)包括:
通过使用线性约束最小方差方法的变换版本确定多个权重,基于采用所述多个权重加权的多个声音信号确定(201)波束成形信号,其中,通过将凸松弛应用于所述线性约束最小方差方法,获得所述线性约束最小方差方法的变换版本;
所述线性约束最小方差方法为鲁棒线性约束最小方差方法,其中,使用参数α α参数化的鲁棒线性约束最小方差方法的变换版本,确定所述多个权重,基于以下等式和约束:
Figure FDA0002374226320000051
Figure FDA0002374226320000052
Figure FDA0002374226320000053
其中,所述多个权重wi由以下等式定义的矢量yi定义:
Figure FDA0002374226320000054
其中,
Figure FDA0002374226320000055
其中,
wi表示所述多个权重的第i个权重;
Yi (l)表示第i个声音处理节点接收的声音信号的矢量;
V表示所有声音处理节点(101a-c)的集合;
M表示所有声音处理节点(101a-c)的麦克风(105a-c)的总数,即
Figure FDA0002374226320000056
N表示声音处理节点(101a-c)的总数;
Di (p)定义与第p个方向相关联的信道矢量;
P表示方向的总数;
s(p)表示第p个方向的期望的响应。
CN201580082419.9A 2015-10-15 2015-10-15 用于声音处理节点装置的声音处理节点 Active CN107925818B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/073907 WO2017063706A1 (en) 2015-10-15 2015-10-15 A sound processing node of an arrangement of sound processing nodes

Publications (2)

Publication Number Publication Date
CN107925818A CN107925818A (zh) 2018-04-17
CN107925818B true CN107925818B (zh) 2020-10-16

Family

ID=54427708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580082419.9A Active CN107925818B (zh) 2015-10-15 2015-10-15 用于声音处理节点装置的声音处理节点

Country Status (4)

Country Link
US (1) US10313785B2 (zh)
EP (1) EP3311590B1 (zh)
CN (1) CN107925818B (zh)
WO (1) WO2017063706A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
EP3530001A1 (en) 2016-11-22 2019-08-28 Huawei Technologies Co., Ltd. A sound processing node of an arrangement of sound processing nodes
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
WO2020083479A1 (en) * 2018-10-24 2020-04-30 Huawei Technologies Co., Ltd. A sound processing apparatus and method
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN110519676B (zh) * 2019-08-22 2021-04-09 云知声智能科技股份有限公司 一种去中心化的分布式麦克风拾音的方法
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112652310B (zh) * 2020-12-31 2024-08-09 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
CN113780533B (zh) * 2021-09-13 2022-12-09 广东工业大学 基于深度学习及admm的自适应波束成形方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1919251A1 (en) * 2006-10-30 2008-05-07 Mitel Networks Corporation Beamforming weights conditioning for efficient implementations of broadband beamformers
CN103181192A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 利用多麦克风的三维声音捕获和再现
CN103605122A (zh) * 2013-12-04 2014-02-26 西安电子科技大学 相干mimo雷达的收发稳健降维自适应波束形成方法
CN103701515A (zh) * 2013-12-11 2014-04-02 北京遥测技术研究所 一种数字多波束形成方法
CN104246796A (zh) * 2012-04-13 2014-12-24 高通股份有限公司 使用多模匹配方案的对象辨识

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630677B2 (en) * 2011-07-15 2014-01-14 Telefonaktiebolaget Lm Ericsson (Publ) Distributed beam selection for cellular communication
US9615172B2 (en) * 2012-10-04 2017-04-04 Siemens Aktiengesellschaft Broadband sensor location selection using convex optimization in very large scale arrays

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1919251A1 (en) * 2006-10-30 2008-05-07 Mitel Networks Corporation Beamforming weights conditioning for efficient implementations of broadband beamformers
CN103181192A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 利用多麦克风的三维声音捕获和再现
CN104246796A (zh) * 2012-04-13 2014-12-24 高通股份有限公司 使用多模匹配方案的对象辨识
CN103605122A (zh) * 2013-12-04 2014-02-26 西安电子科技大学 相干mimo雷达的收发稳健降维自适应波束形成方法
CN103701515A (zh) * 2013-12-11 2014-04-02 北京遥测技术研究所 一种数字多波束形成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A novel adaptive phase-only beamforming algorithm based on semidefinite relaxation;Cheng-jun Lu;《2013 IEEE International Symposium on Phased Array Systems and Technology》;20140206;第I部分 *
Distributed Node-Specific LCMV Beamforming in Wireless Sensor Networks;Alexander Bertrand; Marc Moonen;《IEEE Transactions on Signal Processing》;20120131;摘要,第VI部分 *
Dual-Domain Adaptive Beamformer Under Linearly and Quadratically Constrained Minimum Variance;MASAHIRO YUKAWA;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;20130601;全文 *
Robust Beamforming by Linear Programming;JIANG XUE ET AL;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;20140401;全文 *

Also Published As

Publication number Publication date
CN107925818A (zh) 2018-04-17
EP3311590A1 (en) 2018-04-25
US10313785B2 (en) 2019-06-04
US20180270573A1 (en) 2018-09-20
EP3311590B1 (en) 2019-08-14
WO2017063706A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
CN107925818B (zh) 用于声音处理节点装置的声音处理节点
Ferrer et al. Active noise control over adaptive distributed networks
Heusdens et al. Distributed MVDR beamforming for (wireless) microphone networks using message passing
Koutrouvelis et al. A low-cost robust distributed linearly constrained beamformer for wireless acoustic sensor networks with arbitrary topology
Uddin et al. Applications of independent component analysis in wireless communication systems
O'Connor et al. Distributed sparse MVDR beamforming using the bi-alternating direction method of multipliers
O'Connor et al. Diffusion-based distributed MVDR beamformer
Zhang et al. Frequency-invariant sensor selection for MVDR beamforming in wireless acoustic sensor networks
Hu et al. Distributed sensor selection for speech enhancement with acoustic sensor networks
Hioka et al. Distributed blind source separation with an application to audio signals
Kindt et al. 2d acoustic source localisation using decentralised deep neural networks on distributed microphone arrays
Zeng et al. Distributed delay and sum beamformer for speech enhancement in wireless sensor networks via randomized gossip
Mao et al. Roar-fed: Ris-assisted over-the-air adaptive resource allocation for federated learning
CN105429912A (zh) 具有信道估计机制的计算系统及其操作方法
Zeng et al. Clique-based distributed beamforming for speech enhancement in wireless sensor networks
Amini et al. Rate-constrained noise reduction in wireless acoustic sensor networks
Taseska et al. Near-field source extraction using speech presence probabilities for ad hoc microphone arrays
US10869125B2 (en) Sound processing node of an arrangement of sound processing nodes
Lawin-Ore et al. Analysis of the average performance of the multi-channel Wiener filter for distributed microphone arrays using statistical room acoustics
Van Chien Spatial Resource Allocation in Massive MIMO Communications: From Cellular to Cell-Free
Hu et al. Fast Subnetwork Selection for Speech Enhancement in Wireless Acoustic Sensor Networks
CN115087011B (zh) 灵活帧结构仿真系统的下行信号检测方法及装置
Hassani et al. Multi-task wireless acoustic sensor network for node-specific speech enhancement and DOA estimation
CN115087005B (zh) 灵活帧结构仿真系统的上行信号检测方法及装置
Didier et al. One-Shot Distributed Node-Specific Signal Estimation with Non-Overlapping Latent Subspaces in Acoustic Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant