CN108735227A - 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 - Google Patents
一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 Download PDFInfo
- Publication number
- CN108735227A CN108735227A CN201810648958.XA CN201810648958A CN108735227A CN 108735227 A CN108735227 A CN 108735227A CN 201810648958 A CN201810648958 A CN 201810648958A CN 108735227 A CN108735227 A CN 108735227A
- Authority
- CN
- China
- Prior art keywords
- sound source
- angle value
- arrival angle
- arrival
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000926 separation method Methods 0.000 claims abstract description 39
- 230000002708 enhancing effect Effects 0.000 claims abstract description 32
- 238000012986 modification Methods 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明提供一种用于对麦克风阵列拾取的语音信号进行声源分离的方法和系统。该方法包括:接收语音信号,并检测语音信号中的声源数量n;判断n是否大于1,若n>1,则计算各声源的波达方向角度值;将波达方向角度值按照大小顺序排序,并计算相邻两个波达方向角度值之差;判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则执行下一步,若否,则修正两个或多个波达方向角度值,并执行下一步;基于波达方向角度值和/或修正后的波达方向角度值对语音信号进行波束形成得到n个增强语音信号,并对n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。该方法和系统以获得更优的声源分离性能。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统。
背景技术
鸡尾酒会问题是语音信号处理领域的一个传统问题。例如,公共场合中可能存在多个说话人同时说话,另外还会存在各种环境噪声、背景音乐等,这就是典型的鸡尾酒会问题。因此,当使用麦克风阵列同时接收到多个不同声源的语音信号时,如何能够准确分离来自这多个不同声源的语音信号是长久以来困扰人机语音交互应用的难题。
另外,目前业内出现了用于实时完成会议纪要的会议转写系统,从而高效地完成会议纪要的功能,但是这一系统对于出现多人同时发言(如果会议讨论过程中出现激烈争论时)的情况就会失效,现有的语音识别系统完全无法应对多说话人语音识别的场景。
因此,目前仍不存在能够在实际环境中稳定可靠地分离麦克风阵列所同时接收到的多个语音信号的系统和方法,需要提出新的技术方案。
发明内容
本发明旨在解决上面描述的问题。
根据本发明的第一方面,提供了一种用于对麦克风阵列拾取的语音信号进行声源分离的方法,包括:
步骤1,接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,n≥1;
步骤2,判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
步骤3,将波达方向角度值按照大小顺序排序得到θ1,θ2,…,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
步骤4,判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则执行步骤5,若否,则修正两个或多个所述波达方向角度值,并执行所述步骤5;
步骤5,基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号,并对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
其中,所述步骤4还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用麦克风线性阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
其中,所述步骤4还包括采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值1≤j≤m-1;
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值m+2≤k≤n。
其中,所述步骤4还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
其中,所述步骤2还包括:若n=1,则计算该声源的波达方向角度值;
所述方法还包括:基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号,对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
根据本发明的另一方面,还提供了一种用于对麦克风阵列拾取的语音信号进行声源分离的系统,所述系统包括:
声源检测模块,用于接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,n≥1;
角度计算模块,用于判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
间隔计算模块,用于将波达方向角度值按照大小顺序排序得到θ1,θ2,…,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
角度修正模块,用于判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则将所述波达方向角度值提供给波束形成模块,若否,则修正两个或多个所述波达方向角度值,并将所述波达方向角度值和/或所述修正后的波达方向角度值提供给所述波束形成模块;
所述波束形成模块,用于基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号;
声源分离模块,用对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
其中,所述角度修正模块采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用线性麦克风阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
其中,所述角度修正模块还采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值m+2≤k≤n。
其中,所述角度修正模块还采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
其中,所述角度计算模块还用于若n=1,则计算该声源的波达方向角度值;
所述波束形成模块还用于基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号;
所述声源分离模块还用于对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
本发明的对语音信号进行声源分离的方法及系统,采用创新的方法计算各声源的波束形成时的目标增强方向,即通过对各声源的波达方向角度值进行修正,并接着使用波束形成预滤波得到各声源的增强信号后进行盲源分离。本发明的方法及系统充分使用了声源分布的空间信息,先使用空域滤波进行初级分离,然后使用传统的盲源分离算法进行二次分离,从而可以获得更优的声源分离性能,有效降低交叉信号残留。因此,有效改善传统的盲源分离算法分离效果不理想的问题,从而有助于加速盲源分离技术实用化的进程,推动了人机语音交互领域“鸡尾酒效应问题”的解决。
参照附图来阅读对于示例性实施例的以下描述,本发明的其他特性、特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与相关的文字描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1示例性地示出了根据本发明实施例的对麦克风阵列拾取的语音信号进行声源分离的方法的流程图;
图2示例性地示出了根据本发明实施例的对麦克风阵列拾取的语音信号进行声源分离的系统方法的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
鸡尾酒会问题是语音信号处理领域的一个传统问题。例如,公共场合中可能存在多个说话人同时说话,另外还会存在各种环境噪声、背景音乐等,这就是典型的鸡尾酒会问题。因此,当使用麦克风阵列同时接收到多个不同声源的语音信号时,如何能够准确分离来自这多个不同声源的语音信号是长久以来困扰人机语音交互应用的难题。
尽管人们已经提出了可以用于声源分离的许多算法,其中包括:基于机器学习的深度神经网络算法、最大熵算法、最小互信息算法、最大似然算法、独立分量分析算法、遗传算法、基于麦克风阵列的波束形成算法等。然而,在这些传统算法中,除了基于麦克风阵列的波束形成算法之外,其他算法都没有使用各声源在空间中的位置分布信息,导致最终的语音信号分离结果差强人意(即,交叉信号残留较大)。然而,基于麦克风阵列的波束形成算法虽然使用了声源的位置信息,但是由于波束形成算法空间分辨率的限制,单纯使用该算法依然会造成较大的交叉信号残留。
本发明实施例中的对语音信号进行声源分离的方法和系统,通过大量实验数据,确定最佳的空域滤波条件,以有效降低交叉信号残留,获得较优的声源分离性能。其中,通过对各声源的波达方向角度值进行修正,并且在修正的过程中选择合适的参数值,来实现对声源的较佳分离。
图1示例性地示出了根据本发明实施例的对麦克风阵列拾取的语音信号进行声源分离的方法的流程图。图1中,该方法包括下述步骤:
步骤101,接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,且n≥1;
步骤102,判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
步骤103,将波达方向角度值按照大小顺序排序得到θ1,θ2,…,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
步骤104,判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则执行步骤105,若否,则修正两个或多个所述波达方向角度值,并执行所述步骤105;
步骤105,基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号,并对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
在本发明的一个具体实施例由含有多于一颗麦克风的麦克风阵列和信号处理算法实现。麦克风阵列负责拾取一个或多个用户的语音,然后检测并发声源数量,如果有多个声源则可以对每个声源的波达方向角度值进行估计。然后判断估计出的各声源的波达方向角度值是否需要进行修正,如果需要,则采用修正算法进行修正,并基于修正后的波达方向角度值对各声源进行波束形成得到各声源方向上的增强信号,并将该增强信号作为接下来盲源分离算法的输入信号,进行盲源分离。
步骤101中,检测语音信号中的声源数量的方法由多种,例如,可以采用(1)基于特征值的方法、(2)基于聚类的方法、(3)基于DOA的方法。该三类方法均为现有技术,在此不再赘述。
步骤102中,当判断n>1时,则存在多个声源,需要对各声源进行分离;当判断n=1时,则仅存在一个声源,只需要将该声源与周围噪音进行分离。该步骤中,可采用波达方向估计算法,例如GCC(General Cross Correlation,广义互相关)算法,计算声源的波达方向角度值。通常可采用现有的波达方向估计算法来估计各声源的波达方向角度值,因此在此不再赘述。下面先详细描述存在多个声源的情况,仅存在一个声源的情况将在后面描述。
步骤103中,存在多个声源时,得到多个声源的波达方向角度值,对这多个波达方向角度值按照大小顺序进行排序得到θ1,θ2,…,θn。在具体的实施例中,可以按照从大到小的顺序排序,也可以按照从小到大的顺序排序。根据拾音所采用的麦克风阵列的阵型,计算相邻两个波达方向角度值之差。当使用线性麦克风阵列进行拾音时,n个声源的波达方向角度值形成n-1个角度间隔,当使用圆形麦克风阵列进行拾音时,n个声源的波达方向角度值形成n个角度间隔。
步骤104中,判断步骤103中计算得到的角度间隔是否大于或等于设定角度间隔阈值C,如果大于或等于,则在步骤105中,基于各声源的波达方向角度值进行波束形成。如果存在小于C的角度间隔,则对波达方向角度值进行修正,然后再进行波束形成。需要说明的是,在进行修正时,根据实际情况,可以仅修正形成最小角度间隔的两个波达方向角度值,也可以接着修正这两个波达方向角度值两侧的一个或多个波达方向角度值,以使部分或所有角度间隔大于或等于C。当所有角度间隔均大于或等于C时,基于形成均大于或等于C的角度间隔的波达方向角度值进行波束形成的效果最好,即能够最大程度地降低交叉信号残留,从而对各声源进行最佳的分离。这里,C值的设定参考后面步骤中所使用的波束形成算法的空间分辨率,即主瓣宽度。
步骤105中,使用波束形成算法对n个声源信号进行增强,得到n个单通道增强语音信号。波束成形算法可以使用目前现有的MVDR(最小方差畸变)算法,也可以使用最基础的DS(延迟相加)算法,或其他的波束成形算法。当计算得到的所有角度间隔都大于或等于设定角度间隔阈值C时,则直接基于估计的波达方向角度值进行波束形成;当计算得到角度间隔中至少有一个小于C时,则对全部或部分波达方向角度值进行修正。若对所有波达方向角度值进行修正,则基于所有修正的波达方向角度值进行波束形成;若对部分波达方向角度值进行修正,则基于所有修正后的波达方向角度值和未进行修正的波达方向角度值进行波束形成。
在修正波达方向角度值时,从形成最小角度间隔的声源的波达方向角度值开始进行修正。由于该最小角度间隔位于角度阵列(使用线性麦克风阵列或圆形麦克风阵列进行拾音时形成的角度阵列)的中间或两端时,采用不同的修正方式,因此下面对该最小角度间隔位于中间或两端的情况分别讨论。
其中,步骤104还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用线性麦克风阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
这里的2≤m≤n-2(使用线性麦克风阵列进行拾音)以及2≤m≤n-1(使用圆形麦克风阵列进行拾音)就表示该最小的角度间隔Δθm位于角度阵列的中间。采用上述公式修正后,最小的角度间隔不再小于C。对形成最小角度间隔的两个波达方向角度值进行修正,可以部分地改善信号的交叉残留。为了实现更好地消除信号交叉残留的效果,可以对剩下的部分或全部波达方向角度值继续进行修正。
进一步地,步骤104还包括采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值1≤j≤m-1;
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值m+2≤k≤n。
当然,最佳的修正效果是,从形成最小角度间隔的两个波达方向角度值向两侧的角度值均进行修正,从而使得所有的角度间隔均大于或等于C,如下面所述的修正过程。当然,可能存在某些特殊情况,在对波达方向角度值进行修正时,不能使得所有的角度间隔均大于或等于C,在这种情况下,采用上述修正方式即可,即只修正部分波达方向角度值。
具体地,步骤104还包括采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第1个声源的波达方向角度值与修正后的第2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第1个声源的波达方向角度值
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第n个声源的波达方向角度值与修正后的第n-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第n个声源的波达方向角度值
在上述具体实施例中,即是遍历所有波达方向角度值,并对其进行修正,以实现最佳的分离效果。
另外,当最小角度间隔位于使用线性麦克风阵列或圆形麦克风阵列拾音时形成的角度阵列两端时,步骤104还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
上述修正方法给出对于使用线性麦克风阵列或圆形麦克风阵列拾音,且当最小角度间隔位于角度阵列的两端时,进行修正的公式。
下面说明对波达方向角度值进行修正时可能遇到的一些特殊情况的处理。
当用于拾音的是线性麦克风阵列时(即按线性阵列布置波达方向角度值),且m=1时,若第一个声源和第2个声源的波达方向间隔小于所述设定角度间隔阈值C时,则保持第1个声源方向不变,修正第m+1个声源的波达方向角度值,如上面采用的公式,对于第m=3,4,…,n个声源,依次类推,如果修正后第n个声源的方向角度大于180度,则限定为180度;m=n时,若第n个声源和第n-1个声源的波达方向间隔小于所述设定角度间隔阈值C时,则保持第n个声源方向不变,修正第n-1个声源的波达方向角度值,如上面采用的公式,对于第m=n-2,n-3,…,1个声源,依次类推,若修正后第1个声源的方向角度小于0度,则限定为0度。
当用于拾音的是圆形阵列时(即按圆形阵列布置波达方向角度值),且m=1时,若第一个声源和第2个声源的波达方向间隔小于所述设定角度间隔阈值C时,则保持第1个声源方向不变,修正第m+1个声源的波达方向角度值,如上面采用的公式,对于第m=3,4,…,n个声源,依次类推,如果修正后第n个声源的方向角度大于360度,则限定为360度;m=n时,若第1个声源和第n个声源的波达方向间隔小于所述设定角度间隔阈值C时,则保持第1个声源方向不变,修正第n个声源的波达方向角度值,如上面采用的公式,对于第m=n-1,n-2,n-3,…,1个声源,依次类推,若修正后第1个声源的方向角度小于0度,则限定为0度。
采用上述方式,可以最大可能地修正各声源的波达方向角度值,使间隔大于或等于设定角度间隔阈值C。
另外,当步骤102中判断声源个数为1时,步骤102还包括:若n=1,则计算该声源的波达方向角度值。上述方法还包括:基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号,对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
当仅存在一个声源时,基于该声源的波达方向角度值进行波束形成,得到增强语音信号。将该增强语音信号与经由麦克风阵列拾取的原始语音信号进行盲源分离,从而得到该单个声源的经分离的语音信号。
本发明还提供了一种用于对麦克风阵列拾取的语音信号进行声源分离的系统,所述系统包括:
声源检测模块201,用于接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,n≥1;
角度计算模块202,用于判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
间隔计算模块203,用于将波达方向角度值按照大小顺序排序得到θ1,θ2,...,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
角度修正模块204,用于判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则将所述波达方向角度值提供给波束形成模块,若否,则修正两个或多个所述波达方向角度值,并将所述波达方向角度值和/或所述修正后的波达方向角度值提供给所述波束形成模块;
所述波束形成模块205,用于基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号;
声源分离模块206,用对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
其中,所述角度修正模块204采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用线性麦克风阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
其中,所述角度修正模块204还采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值1≤j≤m-1;
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值m+2≤k≤n。
其中,所述角度修正模块204还采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
其中,所述角度计算模块202还用于若n=1,则计算该声源的波达方向角度值;
所述波束形成模块205还用于基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号;
所述声源分离模块206还用于对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
本发明的对语音信号进行声源分离的方法及系统,采用创新的方法计算各声源的波束形成时的目标增强方向,即通过对各声源的波达方向角度值进行修正,并接着使用波束形成预滤波得到各声源的增强信号后进行盲源分离。本发明的方法及系统充分使用了声源分布的空间信息,先使用空域滤波进行初级分离,然后使用传统的盲源分离算法进行二次分离,从而可以获得更优的声源分离性能,有效降低交叉信号残留。因此,有效改善传统的盲源分离算法分离效果不理想的问题,从而有助于加速盲源分离技术实用化的进程,推动了人机语音交互领域“鸡尾酒效应问题”的解决。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。
Claims (10)
1.一种用于对麦克风阵列拾取的语音信号进行声源分离的方法,其特征在于,包括:
步骤1,接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,n≥1;
步骤2,判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
步骤3,将波达方向角度值按照大小顺序排序得到θ1,θ2,...,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
步骤4,判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则执行步骤5,若否,则修正两个或多个所述波达方向角度值,并执行所述步骤5;
步骤5,基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号,并对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
2.如权利要求1所述的声源分离的方法,其特征在于,所述步骤4还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用麦克风线性阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
3.如权利要求2所述的声源分离的方法,其特征在于,所述步骤4还包括采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值
4.如权利要求1所述的声源分离的方法,其特征在于,所述步骤4还包括采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
5.如权利要求1所述的声源分离的方法,其特征在于,
所述步骤2还包括:若n=1,则计算该声源的波达方向角度值;
所述方法还包括:基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号,对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
6.一种用于对麦克风阵列拾取的语音信号进行声源分离的系统,其特征在于,所述系统包括:
声源检测模块,用于接收语音信号,并检测所述语音信号中的声源数量n,n为自然数,n≥1;
角度计算模块,用于判断n是否大于1,若n>1,则计算各声源的波达方向角度值;
间隔计算模块,用于将波达方向角度值按照大小顺序排序得到θ1,θ2,...,θn,并按下述方式计算相邻两个波达方向角度值之差:
方式一,当使用线性麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,
方式二,当使用圆形麦克风阵列进行拾音时,得到第i个声源与第i+1个声源的角度间隔Δθi=|θi+1-θi|,1≤i≤n-1,以及第n个声源与第1个声源的角度间隔Δθn=|θ1-θn|;
角度修正模块,用于判断所有角度间隔是否均大于或等于设定角度间隔阈值C,若是,则将所述波达方向角度值提供给波束形成模块,若否,则修正两个或多个所述波达方向角度值,并将所述波达方向角度值和/或所述修正后的波达方向角度值提供给所述波束形成模块;
所述波束形成模块,用于基于所述波达方向角度值和/或所述修正后的波达方向角度值对所述语音信号进行波束形成得到n个增强语音信号;
声源分离模块,用对所述n个增强语音信号执行盲源分离算法,得到相应于n个声源的n个分离的语音信号。
7.如权利要求6所述的声源分离的系统,其特征在于,所述角度修正模块采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm,其中θm表示第m个声源与第m+1个声源的角度间隔,并按下述算法修正所述波达方向角度值:
算法一,当使用线性麦克风阵列进行拾音时,若2≤m≤n-2,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
算法二,当使用圆形麦克风阵列进行拾音时,若2≤m≤n-1,则修正后的第m个声源和第m+1个声源的波达方向角度值分别为
8.如权利要求7所述的声源分离的系统,其特征在于,所述角度修正模块还采用下述方式修正所述波达方向角度值:
判断第m-1个声源的波达方向角度值与修正后的第m个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-1个声源的波达方向角度值然后判断第m-2个声源的波达方向角度值与修正后的第m-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m-2个声源的波达方向角度值以此类推,直到判断第j个声源的波达方向角度值与修正后的第j+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第j个声源的波达方向角度值
判断第m+2个声源的波达方向角度值与修正后的第m+1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+2个声源的波达方向角度值然后判断第m+3个声源的波达方向角度值与修正后的第m+2个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第m+3个声源的波达方向角度值以此类推,直到判断第k个声源的波达方向角度值与修正后的第k-1个声源的波达方向角度值之间的角度间隔是否大于或等于所述设定角度间隔阈值C,若小于所述设定角度间隔阈值C,则修正第k个声源的波达方向角度值
9.如权利要求6所述的声源分离的系统,其特征在于,所述角度修正模块还采用下述方式修正所述波达方向角度值:
获取最小的角度间隔Δθm;
当使用线性麦克风阵列进行拾音时,
m=1时,
m=n-1时,
当使用圆形麦克风阵列进行拾音时,
m=1时,
m=n时,
10.如权利要求6所述的声源分离的系统,其特征在于,
所述角度计算模块还用于若n=1,则计算该声源的波达方向角度值;
所述波束形成模块还用于基于该声源的波达方向角度值对所述语音信号进行波束形成得到一个增强语音信号;
所述声源分离模块还用于对该增强语音信号和接收的所述语音信号执行盲源分离算法,得到相应于该声源的分离的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648958.XA CN108735227B (zh) | 2018-06-22 | 2018-06-22 | 对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648958.XA CN108735227B (zh) | 2018-06-22 | 2018-06-22 | 对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108735227A true CN108735227A (zh) | 2018-11-02 |
CN108735227B CN108735227B (zh) | 2020-05-19 |
Family
ID=63930429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810648958.XA Active CN108735227B (zh) | 2018-06-22 | 2018-06-22 | 对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108735227B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109655720A (zh) * | 2018-12-18 | 2019-04-19 | 北京三听科技有限公司 | 基于二维传感器阵列的局放检测方法及装置 |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110459239A (zh) * | 2019-03-19 | 2019-11-15 | 深圳壹秘科技有限公司 | 基于声音数据的角色分析方法、装置和计算机可读存储介质 |
CN110503969A (zh) * | 2018-11-23 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110554357A (zh) * | 2019-09-12 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 声源定位方法和装置 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111312214A (zh) * | 2020-03-31 | 2020-06-19 | 广东美的制冷设备有限公司 | 空调器的语音识别方法、装置、空调器和可读存储介质 |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
CN112863525A (zh) * | 2019-11-26 | 2021-05-28 | 北京声智科技有限公司 | 一种语音波达方向的估计方法、装置及电子设备 |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
WO2021179416A1 (zh) * | 2020-03-10 | 2021-09-16 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
CN113870877A (zh) * | 2020-06-12 | 2021-12-31 | 青岛海尔电冰箱有限公司 | 电器运行状态判断方法、检测装置、冰箱及可读存储介质 |
CN118191734A (zh) * | 2024-05-16 | 2024-06-14 | 杭州爱华仪器有限公司 | 一种多声源定位方法、装置、程序、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3537962B2 (ja) * | 1996-08-05 | 2004-06-14 | 株式会社東芝 | 音声収集装置及び音声収集方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN103873977A (zh) * | 2014-03-19 | 2014-06-18 | 惠州Tcl移动通信有限公司 | 基于多麦克风阵列波束成形的录音系统及其实现方法 |
CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
CN107578784A (zh) * | 2017-09-12 | 2018-01-12 | 音曼(北京)科技有限公司 | 一种从音频中提取目标源的方法及装置 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
-
2018
- 2018-06-22 CN CN201810648958.XA patent/CN108735227B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3537962B2 (ja) * | 1996-08-05 | 2004-06-14 | 株式会社東芝 | 音声収集装置及び音声収集方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN103873977A (zh) * | 2014-03-19 | 2014-06-18 | 惠州Tcl移动通信有限公司 | 基于多麦克风阵列波束成形的录音系统及其实现方法 |
CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
CN107578784A (zh) * | 2017-09-12 | 2018-01-12 | 音曼(北京)科技有限公司 | 一种从音频中提取目标源的方法及装置 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12119005B2 (en) | 2018-11-23 | 2024-10-15 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method for wake-up speech detection, apparatus, and storage medium |
CN110503969A (zh) * | 2018-11-23 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
US11710490B2 (en) | 2018-11-23 | 2023-07-25 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method, apparatus and storage medium for detecting wake-up words based on multi-path audio from microphone array |
CN110503969B (zh) * | 2018-11-23 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109655720A (zh) * | 2018-12-18 | 2019-04-19 | 北京三听科技有限公司 | 基于二维传感器阵列的局放检测方法及装置 |
CN109655720B (zh) * | 2018-12-18 | 2020-12-01 | 杭州听测科技有限公司 | 基于二维传感器阵列的局放检测方法及装置 |
CN111435598B (zh) * | 2019-01-15 | 2023-08-18 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
US11817112B2 (en) | 2019-01-15 | 2023-11-14 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method, device, computer readable storage medium and electronic apparatus for speech signal processing |
CN110459239A (zh) * | 2019-03-19 | 2019-11-15 | 深圳壹秘科技有限公司 | 基于声音数据的角色分析方法、装置和计算机可读存储介质 |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110554357A (zh) * | 2019-09-12 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 声源定位方法和装置 |
CN112863525A (zh) * | 2019-11-26 | 2021-05-28 | 北京声智科技有限公司 | 一种语音波达方向的估计方法、装置及电子设备 |
CN112863525B (zh) * | 2019-11-26 | 2023-03-21 | 北京声智科技有限公司 | 一种语音波达方向的估计方法、装置及电子设备 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
WO2021179416A1 (zh) * | 2020-03-10 | 2021-09-16 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
CN111312214B (zh) * | 2020-03-31 | 2022-12-16 | 广东美的制冷设备有限公司 | 空调器的语音识别方法、装置、空调器和可读存储介质 |
CN111312214A (zh) * | 2020-03-31 | 2020-06-19 | 广东美的制冷设备有限公司 | 空调器的语音识别方法、装置、空调器和可读存储介质 |
CN113870877A (zh) * | 2020-06-12 | 2021-12-31 | 青岛海尔电冰箱有限公司 | 电器运行状态判断方法、检测装置、冰箱及可读存储介质 |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
CN118191734A (zh) * | 2024-05-16 | 2024-06-14 | 杭州爱华仪器有限公司 | 一种多声源定位方法、装置、程序、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108735227B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735227A (zh) | 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 | |
US11172122B2 (en) | User identification based on voice and face | |
EP3707716B1 (en) | Multi-channel speech separation | |
US9286908B2 (en) | Method and system for noise reduction | |
WO2016183791A1 (zh) | 一种语音信号处理方法及装置 | |
Kanda et al. | Acoustic modeling for distant multi-talker speech recognition with single-and multi-channel branches | |
WO2019080553A1 (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
US20160198258A1 (en) | Sound pickup device, program recorded medium, and method | |
CN106448722A (zh) | 录音方法、装置和系统 | |
CN106653041A (zh) | 音频信号处理设备、方法和电子设备 | |
JP6065028B2 (ja) | 収音装置、プログラム及び方法 | |
KR102401959B1 (ko) | 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치 | |
JP6540730B2 (ja) | 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法 | |
JP6131989B2 (ja) | 収音装置、プログラム及び方法 | |
CN113903353B (zh) | 一种基于空间区分性检测的定向噪声消除方法及装置 | |
CN113514801A (zh) | 基于深度学习的麦克风阵列声源定位方法及声源识别方法 | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
US20110029309A1 (en) | Signal separating apparatus and signal separating method | |
JP2008135933A (ja) | 音声強調処理システム | |
US20190324117A1 (en) | Content aware audio source localization | |
JP6436180B2 (ja) | 収音装置、プログラム及び方法 | |
JP2016163135A (ja) | 収音装置、プログラム及び方法 | |
Abutalebi et al. | Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions | |
KR101658001B1 (ko) | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |