CN112562730A - 一种声源分析方法及系统 - Google Patents
一种声源分析方法及系统 Download PDFInfo
- Publication number
- CN112562730A CN112562730A CN202011333240.5A CN202011333240A CN112562730A CN 112562730 A CN112562730 A CN 112562730A CN 202011333240 A CN202011333240 A CN 202011333240A CN 112562730 A CN112562730 A CN 112562730A
- Authority
- CN
- China
- Prior art keywords
- angle
- noise ratio
- audio
- signal
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 description 4
- 230000036039 immunity Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种声源分析方法及系统,方法包括:获取高信噪比音频角度,获取低信噪比音频角度;基于高信噪比音频角度进行投票统计,得到第一说话人位置;基于低信噪比音频角度和第一说话人位置进行投票统计,得到噪声位置。本发明能够有效的分析出声源中的说话人位置和噪声位置。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种声源分析方法及系统。
背景技术
传统的SRP(Steered Responser Power,可控响应功率)算法声源定位技术,对回声消除后的信号在空间各个方向做固定波束形成,波束输出功率最大的方向即为当前帧的声源方向,但是无法对声源类型做出判别。
因此,如何有效的对声源进行分析,以判别出声源的不同类型,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种声源分析方法,能够有效的判别出声源的不同类型。
本发明提供了一种声源分析方法,包括:
获取高信噪比音频角度;
获取低信噪比音频角度;
基于所述高信噪比音频角度进行投票统计,得到第一说话人位置;
基于所述低信噪比音频角度和所述第一说话人位置进行投票统计,得到噪声位置。
优选地,所述方法还包括:
获取视频角度;
基于所述高信噪比音频角度和所述视频角度进行投票统计,得到第二说话人位置;
基于所述低信噪比音频角度和所述第二说话人位置进行投票统计,得到噪声位置。
优选地,所述获取高信噪比音频角度,包括:
获取原始角度;
当信噪比大于预设值时,基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
优选地,所述获取低信噪比音频角度,包括:
获取原始角度;
基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
优选地,所述获取视频角度包括:
基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标;
将所述人脸坐标或头部坐标转化到与麦克风阵列统一的坐标系中,得到视频角度。
一种声源分析系统,包括:
第一获取模块,用于获取高信噪比音频角度;
第二获取模块,用于获取低信噪比音频角度;
第一分析模块,用于基于所述高信噪比音频角度进行投票统计,得到第一说话人位置;
第二分析模块,用于基于所述低信噪比音频角度和所述第一说话人位置进行投票统计,得到噪声位置。
优选地,所述系统还包括:
第三获取模块,用于获取视频角度;
第三分析模块,用于基于所述高信噪比音频角度和所述视频角度进行投票统计,得到第二说话人位置;
第四分析模块,用于基于所述低信噪比音频角度和所述第二说话人位置进行投票统计,得到噪声位置。
优选地,所述第一获取模块具体用于:
获取原始角度;
当信噪比大于预设值时,基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
优选地,所述第二获取模块具体用于:
获取原始角度;
基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
优选地,所述第三获取模块具体用于:
基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标;
将所述人脸坐标或头部坐标转化到与麦克风阵列统一的坐标系中,得到视频角度。
综上所述,本发明公开了一种声源分析方法,当需要对声源进行分析时,首先获取高信噪比音频角度,获取低信噪比音频角度;然后基于高信噪比音频角度进行投票统计,得到第一说话人位置;基于低信噪比音频角度和第一说话人位置进行投票统计,得到噪声位置。本发明能够有效的分析出声源中的说话人位置和噪声位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种声源分析方法实施例1的方法流程图;
图2为本发明公开的一种投票区间的划分示意图;
图3为本发明公开的一种投票统计示意示意图;
图4为本发明公开的仅使用高信噪比音频角度筛选出说话人角度的流程示意图;
图5为本发明公开的噪声角度统计的流程示意图;
图6为本发明公开的一种声源分析方法实施例2的方法流程图;
图7为本发明公开的结合视频角度判决说话人角度的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种声源分析方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、获取高信噪比音频角度;
当需要对声源进行分析,确定出说话人位置和噪声位置时,首先获取高高信噪比音频角度;其中,高信噪比音频角度由原始声源定位结果处理得到。
具体的,在获取高信噪比音频角度时,原始角度由波束形成方位估计得到,在求得波束输出的功率后,在所有可能的(0-360°)声源位置范围搜索波束输出功率最大值,从而求得声源定位的原始角度。本发明可以基于联合可控响应功率和相位变换(SRP-PHAT)进行声源定位,具有较好的抗噪性、抗混响性及较强的鲁棒性,在弱噪声和适度混响的环境下仍然有较好的表现。
高信噪比音频角度是在获得原始角度后,根据SNR(SIGNAL NOISE RATIO,信噪比)高低对角度进行筛选得到的。本发明的信噪比是根据预估信噪比和计算信号的倒谱距离得到的。当SNR大于n dB时,则认为存在有效语音信号输出,并输出当前帧的定位角度,若SNR小于n dB,则认为当前帧的信号是噪声,无有效语音信号,此时该角度不进行更新。
为了剔除输出角度中的噪声,可以将经过上述处理的角度缓存7帧,并进行中值滤波,输出得到场景分析需要的高信噪比音频角度,该高信噪比音频角度用于说话人方位统计。
S102、获取低信噪比音频角度;
同时,获取低信噪比音频角度;其中,低信噪比音频角度由原始声源定位结果处理得到。
具体的,在获取低信噪比音频角度时,与高信噪比音频角度的原始角度获得方式相同,不同的是,该角度有更宽松的筛选条件,即在宽松条件内的所有角度均认为是有效输出,否则不更新该角度的值。为了保留噪声的原始信息,该角度不经中值滤波直接进行输出,得到场景分析需要的低信噪比音频角度,该低信噪比音频角度用于噪声方位统计。
S103、基于高信噪比音频角度进行投票统计,得到第一说话人位置;
然后,根据获取到的高信噪比音频角度进行投票统计,得到说话人位置。
其中,投票统计可以以6路麦克风信号为自变量,波束形成角度为统计结果的集合,该集合范围为0-360°,为了使统计结果方差不至于过大,角度区间的划分不宜过大,所以,等间距划分角度区间,如图2所示,与波束形成角度搜索区间相对应。每帧统计一个角度,帧数随时间增加,在一段时间内,缓存定位的角度值,角度将落在不同的区间内。投票统计示例如图3所示,若角度落在第a个区间内,则对a区间进行投票,票数最高的区间为期望区间,假定计算角度在区间内呈均匀分布,进行数值平均得到期望角度,并抛弃其他区间的角度。
具体的,根据高信噪比音频角度进行投票统计,得到说话人位置的流程图如图4所示。
S104、基于低信噪比音频角度和第一说话人位置进行投票统计,得到噪声位置。
同时,根据获取到的低信噪比音频角度,以及基于高信噪比音频角度进行投票统计得到的说话人位置,进行投票统计,得到噪声位置。
具体的,基于低信噪比音频角度和说话人位置进行投票统计,得到噪声位置的流程图如图5所示:
第一步:用低信噪比音频角度对buffer进行更新,buffer使用循环buffer以提高效率。
第二步:缓存说话人角度并进行投票,用于从噪声的统计结果中去除说话人角度,以减少错误统计的结果。说话人角度存在的区间内,噪声角度不投票。
第三步:进行噪声方位投票统计。每次投票统计各区间:得票次数和该区间得票平均值。
第四步:当前角度与音频角度对比,差别在15°以内的剔除。
第五步:筛选有效角度占总区间段的比例,投票大于阈值的认为是有效的噪声角度,若统计角度无效,则使用历史噪声角度。
第六步:如果是有效的噪声角度,则用该角度对历史值进行更新。
综上所述,本实施例能够基于获取到的高信噪比音频角度和低信噪比音频角度,通过投票统计,分析出声源中的说话人位置和噪声位置。
如图6所示,为本发明公开的一种声源分析方法实施例2的方法流程图,所述方法可以包括以下步骤:
S601、获取视频角度;
当需要对声源进行分析,确定出说话人位置和噪声位置时,获取视频角度。
具体的,视频角度的获得共分为两个步骤:首先利用人脸识别得到人脸坐标或骨架识别得到头部坐标,然后再由该坐标转化到与麦克风阵列统一的坐标系中并计算从而得到视频角度。由于摄像头可视角度有一定范围,因此视频角度的范围大致在0-70°之间。
S602、获取高信噪比音频角度;
同时,获取高高信噪比音频角度;其中,高信噪比音频角度由原始声源定位结果处理得到。
具体的,在获取高信噪比音频角度时,原始角度由波束形成方位估计得到,在求得波束输出的功率后,在所有可能的(0-360°)声源位置范围搜索波束输出功率最大值,从而求得声源定位的原始角度。本发明可以基于联合可控响应功率和相位变换(SRP-PHAT)进行声源定位,具有较好的抗噪性、抗混响性及较强的鲁棒性,在弱噪声和适度混响的环境下仍然有较好的表现。
高信噪比音频角度是在获得原始角度后,根据SNR(SIGNAL NOISE RATIO,信噪比)高低对角度进行筛选得到的。本发明的信噪比是根据预估信噪比和计算信号的倒谱距离得到的。当SNR大于n dB时,则认为存在有效语音信号输出,并输出当前帧的定位角度,若SNR小于n dB,则认为当前帧的信号是噪声,无有效语音信号,此时该角度不进行更新。
为了剔除输出角度中的噪声,可以将经过上述处理的角度缓存7帧,并进行中值滤波,输出得到场景分析需要的高信噪比音频角度,该高信噪比音频角度用于说话人方位统计。
S603、获取低信噪比音频角度;
同时,获取低信噪比音频角度;其中,低信噪比音频角度由原始声源定位结果处理得到。
具体的,在获取低信噪比音频角度时,与高信噪比音频角度的原始角度获得方式相同,不同的是,该角度有更宽松的筛选条件,即在宽松条件内的所有角度均认为是有效输出,否则不更新该角度的值。为了保留噪声的原始信息,该角度不经中值滤波直接进行输出,得到场景分析需要的低信噪比音频角度,该低信噪比音频角度用于噪声方位统计。
S604、基于高信噪比音频角度和视频角度进行投票统计,得到第二说话人位置;
然后,根据获取到的高信噪比音频角度和视频角度进行投票统计,得到说话人位置。
其中,投票统计可以以6路麦克风信号为自变量,波束形成角度为统计结果的集合,该集合范围为0-360°,为了使统计结果方差不至于过大,角度区间的划分不宜过大,所以,等间距划分角度区间,如图2所示,与波束形成角度搜索区间相对应。每帧统计一个角度,帧数随时间增加,在一段时间内,缓存定位的角度值,角度将落在不同的区间内。投票统计示例如图3所示,若角度落在第a个区间内,则对a区间进行投票,票数最高的区间为期望区间,假定计算角度在区间内呈均匀分布,进行数值平均得到期望角度,并抛弃其他区间的角度。
具体的,根据高信噪比音频角度和视频角度进行投票统计,得到说话人位置的流程图如图7所示:
第一步:移动说话人投票的buffer。
第二步:判断在高信噪比角度是否在视频角度的范围内,若超出范围直接判定该角度为噪声。
第三步:如果高信噪比角度在视频角度范围内,则判定该角度为有效角度,并用该角度对buffer进行更新。
第四步:进行说话人角度投票统计。每次投票统计各区间的得票次数和该区间投票角度平均值。
第五步:如果投票选出的区间角度范围以内,得票次数n次以上,则选出纯音频角度筛选出的说话人角度。
第六步:结合视频角度判决说话人角度:当视频角度有效,且视频角度和音频估计角度相差小于等于15°时,视频角度和音频角度各占50%的权重,得到说话人角度;当视频角度和音频估计角度相差大于15°时,若音频角度测量的结果在有效范围内,则说话人角度全部采用音频角度估计结果,否则说话人角度采用缓存的说话人角度历史值。当视频角度无效时,直接判断音频角度测量的结果是否在有效范围内,若在有效范围内,说话人角度全部采用音频角度估计结果,并缓存说话人角度历史值,否则仍采用说话人角度历史值。
S605、基于低信噪比音频角度和第二说话人位置进行投票统计,得到噪声位置。
同时,根据获取到的低信噪比音频角度,以及基于高信噪比音频角度进行投票统计得到的说话人位置,进行投票统计,得到噪声位置。
具体的,基于低信噪比音频角度和说话人位置进行投票统计,得到噪声位置的流程图如图5所示:
第一步:用低信噪比音频角度对buffer进行更新,buffer使用循环buffer以提高效率。
第二步:缓存说话人角度并进行投票,用于从噪声的统计结果中去除说话人角度,以减少错误统计的结果。说话人角度存在的区间内,噪声角度不投票。
第三步:进行噪声方位投票统计。每次投票统计各区间:得票次数和该区间得票平均值。
第四步:当前角度与音频角度对比,差别在15°以内的剔除。
第五步:筛选有效角度占总区间段的比例,投票大于阈值的认为是有效的噪声角度,若统计角度无效,则使用历史噪声角度。
第六步:如果是有效的噪声角度,则用该角度对历史值进行更新。
综上所述,本实施例能够基于获取到的视频角度、高信噪比音频角度和低信噪比音频角度,通过投票统计,分析出声源中的说话人位置和噪声位置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种声源分析方法,其特征在于,包括:
获取高信噪比音频角度;
获取低信噪比音频角度;
基于所述高信噪比音频角度进行投票统计,得到第一说话人位置;
基于所述低信噪比音频角度和所述第一说话人位置进行投票统计,得到噪声位置。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取视频角度;
基于所述高信噪比音频角度和所述视频角度进行投票统计,得到第二说话人位置;
基于所述低信噪比音频角度和所述第二说话人位置进行投票统计,得到噪声位置。
3.根据权利要求1或2所述的方法,其特征在于,所述获取高信噪比音频角度,包括:
获取原始角度;
当信噪比大于预设值时,基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
4.根据权利要求1或2所述的方法,其特征在于,所述获取低信噪比音频角度,包括:
获取原始角度;
基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
5.根据权利要求2所述的方法,其特征在于,所述获取视频角度包括:
基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标;
将所述人脸坐标或头部坐标转化到与麦克风阵列统一的坐标系中,得到视频角度。
6.一种声源分析系统,其特征在于,包括:
第一获取模块,用于获取高信噪比音频角度;
第二获取模块,用于获取低信噪比音频角度;
第一分析模块,用于基于所述高信噪比音频角度进行投票统计,得到第一说话人位置;
第二分析模块,用于基于所述低信噪比音频角度和所述第一说话人位置进行投票统计,得到噪声位置。
7.根据权利要求6所述的系统,其特征在于,还包括:
第三获取模块,用于获取视频角度;
第三分析模块,用于基于所述高信噪比音频角度和所述视频角度进行投票统计,得到第二说话人位置;
第四分析模块,用于基于所述低信噪比音频角度和所述第二说话人位置进行投票统计,得到噪声位置。
8.根据权利要求6或7所述的系统,其特征在于,所述第一获取模块具体用于:
获取原始角度;
当信噪比大于预设值时,基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
9.根据权利要求6或7所述的系统,其特征在于,所述第二获取模块具体用于:
获取原始角度;
基于信噪比高低对所述原始角度进行筛选,得到高信噪比音频角度。
10.根据权利要求7所述的系统,其特征在于,所述第三获取模块具体用于:
基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标;
将所述人脸坐标或头部坐标转化到与麦克风阵列统一的坐标系中,得到视频角度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333240.5A CN112562730A (zh) | 2020-11-24 | 2020-11-24 | 一种声源分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333240.5A CN112562730A (zh) | 2020-11-24 | 2020-11-24 | 一种声源分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562730A true CN112562730A (zh) | 2021-03-26 |
Family
ID=75043465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011333240.5A Pending CN112562730A (zh) | 2020-11-24 | 2020-11-24 | 一种声源分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562730A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
CN102866385A (zh) * | 2012-09-10 | 2013-01-09 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
US20130142349A1 (en) * | 2011-09-05 | 2013-06-06 | Goertek Inc. | Method, device and system for eliminating noises with multi-microphone array |
CN105046236A (zh) * | 2015-08-11 | 2015-11-11 | 南京航空航天大学 | 一种基于多次投票的迭代式标签噪声识别算法 |
US20160125882A1 (en) * | 2014-11-03 | 2016-05-05 | Matteo Contolini | Voice Control System with Multiple Microphone Arrays |
CN206114888U (zh) * | 2016-09-07 | 2017-04-19 | 北京声智科技有限公司 | 语音声源测向装置 |
CN107976651A (zh) * | 2016-10-21 | 2018-05-01 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
CN109243453A (zh) * | 2018-10-29 | 2019-01-18 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质、电子装置 |
US10206036B1 (en) * | 2018-08-06 | 2019-02-12 | Alibaba Group Holding Limited | Method and apparatus for sound source location detection |
CN110706717A (zh) * | 2019-09-06 | 2020-01-17 | 西安合谱声学科技有限公司 | 一种基于麦克风阵列板的人声检测定向方法 |
CN111383629A (zh) * | 2020-03-20 | 2020-07-07 | 深圳市未艾智能有限公司 | 语音处理方法和装置、电子设备以及存储介质 |
CN111551921A (zh) * | 2020-05-19 | 2020-08-18 | 北京中电慧声科技有限公司 | 一种声像联动的声源定向系统及方法 |
CN113539288A (zh) * | 2021-07-22 | 2021-10-22 | 南京华捷艾米软件科技有限公司 | 一种语音信号去噪方法及装置 |
-
2020
- 2020-11-24 CN CN202011333240.5A patent/CN112562730A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
US20130142349A1 (en) * | 2011-09-05 | 2013-06-06 | Goertek Inc. | Method, device and system for eliminating noises with multi-microphone array |
CN102866385A (zh) * | 2012-09-10 | 2013-01-09 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
US20160125882A1 (en) * | 2014-11-03 | 2016-05-05 | Matteo Contolini | Voice Control System with Multiple Microphone Arrays |
CN105046236A (zh) * | 2015-08-11 | 2015-11-11 | 南京航空航天大学 | 一种基于多次投票的迭代式标签噪声识别算法 |
CN206114888U (zh) * | 2016-09-07 | 2017-04-19 | 北京声智科技有限公司 | 语音声源测向装置 |
CN107976651A (zh) * | 2016-10-21 | 2018-05-01 | 杭州海康威视数字技术股份有限公司 | 一种基于麦克风阵列的声源定位方法及装置 |
US10206036B1 (en) * | 2018-08-06 | 2019-02-12 | Alibaba Group Holding Limited | Method and apparatus for sound source location detection |
CN109243453A (zh) * | 2018-10-29 | 2019-01-18 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质、电子装置 |
CN110706717A (zh) * | 2019-09-06 | 2020-01-17 | 西安合谱声学科技有限公司 | 一种基于麦克风阵列板的人声检测定向方法 |
CN111383629A (zh) * | 2020-03-20 | 2020-07-07 | 深圳市未艾智能有限公司 | 语音处理方法和装置、电子设备以及存储介质 |
CN111551921A (zh) * | 2020-05-19 | 2020-08-18 | 北京中电慧声科技有限公司 | 一种声像联动的声源定向系统及方法 |
CN113539288A (zh) * | 2021-07-22 | 2021-10-22 | 南京华捷艾米软件科技有限公司 | 一种语音信号去噪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3703052B1 (en) | Echo cancellation method and apparatus based on time delay estimation | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN109599124B (zh) | 一种音频数据处理方法、装置及存储介质 | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
RU2642353C2 (ru) | Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи | |
US7590248B1 (en) | Head related transfer function filter generation | |
US20080247274A1 (en) | Sensor array post-filter for tracking spatial distributions of signals and noise | |
JP2019191558A (ja) | 音声を増幅する方法及び装置 | |
CN107863099B (zh) | 一种新型双麦克风语音检测和增强方法 | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
US10049685B2 (en) | Integrated sensor-array processor | |
CN104898086A (zh) | 适用于微型麦克风阵列的声强估计声源定向方法 | |
CN112185408A (zh) | 音频降噪方法、装置、电子设备以及存储介质 | |
CN113259832A (zh) | 麦克风阵列的检测方法、装置、电子设备及存储介质 | |
Morita et al. | Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments | |
CN114627899A (zh) | 声音信号检测方法及装置、计算机可读存储介质、终端 | |
CN111627456B (zh) | 噪音排除方法、装置、设备及可读存储介质 | |
CN113409800A (zh) | 一种监控音频的处理方法、装置、存储介质及电子设备 | |
CN112562730A (zh) | 一种声源分析方法及系统 | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
WO2013132216A1 (en) | Method and apparatus for determining the number of sound sources in a targeted space | |
CN112669865A (zh) | 一种主麦克风的切换方法、装置、设备及可读存储介质 | |
CN113740803A (zh) | 一种基于音视频特征的发言人定位跟踪方法及装置 | |
CN111048096A (zh) | 一种语音信号处理方法、装置及终端 | |
CN113409802B (zh) | 语音信号的增强处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |