CN117528305A - 拾音控制方法、装置及设备 - Google Patents

拾音控制方法、装置及设备 Download PDF

Info

Publication number
CN117528305A
CN117528305A CN202311494281.6A CN202311494281A CN117528305A CN 117528305 A CN117528305 A CN 117528305A CN 202311494281 A CN202311494281 A CN 202311494281A CN 117528305 A CN117528305 A CN 117528305A
Authority
CN
China
Prior art keywords
frequency domain
sub
band
domain signal
angle value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311494281.6A
Other languages
English (en)
Inventor
皮东
刘金刚
郭秋涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisoc Chongqing Technology Co Ltd
Original Assignee
Unisoc Chongqing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisoc Chongqing Technology Co Ltd filed Critical Unisoc Chongqing Technology Co Ltd
Priority to CN202311494281.6A priority Critical patent/CN117528305A/zh
Publication of CN117528305A publication Critical patent/CN117528305A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供的一种拾音控制方法、装置及设备,通过麦克风阵列获取多路声音信号,对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;根据每个子带频域信号所对应的声源角度值确定综合角度值;基于综合角度值对声音信号进行拾音处理。不同频段子带受高频混叠的影响不同,综合多个子带的声源角度值确定最终的综合角度值,可有效降低高频混叠的影响。

Description

拾音控制方法、装置及设备
技术领域
本申请涉及信号处理技术领域,具体地涉及一种拾音控制方法、装置及设备。
背景技术
近几年来,手机、电视、智能音箱等终端产品通常配置两个及以上数量的麦克风,传统单麦克风降噪算法对于干扰的抑制效果有限,具有空间特性的麦克风阵列(自适应波束)算法得到了广泛的使用。自适应波束算法有个关键步骤:获得噪声的协方差矩阵,当目标声源方向明确时,往往会采用波达方向定位技术(Direction Of Arrival,DOA)来进行噪声协方差矩阵更新的控制。
然而,目前使用DOA技术往往都是考虑当前帧数据进行处理,得到声源估计角度,从而进行判断数据是目标帧还是非目标帧情况,但是,在语音信号处理过程中,数据帧往往较短,音频数据多为宽带信号以及终端产品各麦克风位置,都有可能造成估计角度不正确且角度频繁跳变问题,导致当前帧的错误判断,噪声协方差矩阵更新出现问题,难以准确消除干扰声源,导致听感不适。
发明内容
有鉴于此,本申请提供一种拾音控制方法、装置及设备,以利于解决高频混叠对拾音的影响。
第一方面,本申请实施例提供一种拾音控制方法,包括:
对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
根据每个子带频域信号所对应的声源角度值确定综合角度值;
基于所述综合角度值对所述声音信号进行拾音处理。
一种可选的实施例中,所述根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值,包括:
对于任一子带,确定不同子带频域信号之间互功率谱;
对所述互功率谱进行加权平滑处理;
对加权平滑处理后的互功率谱进行傅里叶反变换,得到时域信号;
基于所述时域信号的极值点,确定当前子带对应的声源角度值。
一种可选的实施例中,所述对所述互功率谱进行加权平滑处理,包括:
确定每一帧子带频域信号所对应的频域能量;
基于每一帧子带频域信号所对应的频域能量,确定当前帧子带频域信号的自适应权重;
基于所述自适应权重对所述互功率谱进行加权平滑处理。
一种可选的实施例中,所述基于每一帧子带频域信号所对应的频域能量,确定当前帧子带频域信号的自适应权重,包括:
若当前帧子带频域信号所对应的频域能量小于预设的能量阈值,则当前帧子带频域信号的自适应权重为第一权重;
若当前帧子带频域信号所对应的频域能量大于所述能量阈值,则当前帧子带频域信号的自适应权重为第二权重;
其中,所述第一权重小于所述第二权重。
一种可选的实施例中,所述基于所述时域信号的极值点,确定当前子带对应的声源角度值,包括:
在所述时域信号的极值点中筛选出有效极值点;
根据所述有效极值点确定对应的声源角度值。
一种可选的实施例中,所述根据每个子带频域信号所对应的声源角度值确定综合角度值,包括:
将每个子带频域信号对应的声源角度值输入角度确定模型,得到所述综合角度值。
一种可选的实施例中,所述基于所述综合角度值对所述声音信号进行拾音处理,包括:
对于任一帧声音信号,若当前帧声音信号的综合角度值位于预设的角度范围内,则将当前帧声音信号确定为目标帧声音信号;
若当前帧声音信号的综合角度值位于预设的角度范围之外,则将当前帧声音信号确定为非目标帧声音信号。
第二方面,本申请实施例提供了一种拾音控制装置,包括:
分析模块,用于对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
处理模块,用于对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
确定模块,用于根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
所述确定模块,还用于根据每个子带频域信号所对应的声源角度值确定综合角度值;
所述处理模块,还用于基于所述综合角度值对所述声音信号进行拾音处理。
第三方面,本申请实施例提供了一种电子设备,包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被所述处理器执行时,触发所述电子设备执行上述第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行第一方面任一项所述的方法。
采用本申请实施例所提供的方案,通过麦克风阵列获取多路声音信号,对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;根据每个子带频域信号所对应的声源角度值确定综合角度值;基于综合角度值对声音信号进行拾音处理。不同频段子带受高频混叠的影响不同,综合多个子带的声源角度值确定最终的综合角度值,可有效降低高频混叠的影响。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种拾音控制方法的流程示意图;
图2为本申请实施例提供的另一种拾音控制方法的流程示意图;
图3为本申请实施例提供的一种拾音控制装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
电子设备的麦克风可接收当前环境中的各种声音信号,某些声音信号为目标声音信号,而某些声音信号为干扰声音信号,例如,用户打电话时,用户语音输入的声音信号即为目标声音信号,除了用户语音输入的声音信号以外的声音信号皆可看做干扰声音信号。为了保证用户通话顺利进行,电子设备会抑制干扰目标信号。目标声音信号和干扰声音信号可通过声源角度的不同进行区别,电子设备可预设角度范围,位于该角度值范围内的声音信号即为目标声音信号,而位于该角度值范围外的声音信号即为干扰声音信号。仍以用户打电话为例,当用户把手机贴近耳部时,用户的嗓子所发出的声音信号通常位于预设的角度范围内,该声音信号不会被抑制,而位于打电话用户对面的用户所发出的声音通常会被判定为干扰声音信号,电子设备对干扰声音信号抑制后,与用户通话的对方只会听到用户的声音。
对于配置了多个麦克风的电子设备,电子设备可基于声音信号到达不同麦克风所需的时间判定声音信号的声源角度。现有的声源角度判断方法通常是先对双麦克风接收的信号进行傅里叶变换,然后计算全频带互功率谱,再基于声源定位算法对全频带互功率谱进行加权处理。对加权后的全频带互功率谱进行傅里叶反变换,得到时域信号,通过时域信号的极值点与声源角度的对应关系确定最终的声源角度。该方法的缺陷是没有考虑到高频混叠问题,即使理想环境仅有一个目标声源也会容易导致角度的错判,从而导致目标帧错判为非目标帧,同时只有干扰声源持续的一段时间,会出现估计角度频繁跳变问题,导致自适应波束对干扰声源被削的忽大忽小。
针对上述问题,本申请提供了一种拾音控制方法,通过将全频带信号划分为多个子带,基于每个子带求出的声源角度值确定综合角度值,可有效消除高频混叠的影响。
图1为本申请实施例提供的一种拾音控制方法的示意图。该方法应用于设置了两个及以上麦克风的电子设备,如智能手机、智能手表等。如图1所示,该方法可包括:
步骤101,对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
步骤102,对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
步骤103,根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
步骤104,根据每个子带频域信号所对应的声源角度值确定综合角度值;
步骤105,基于综合角度值对声音信号进行拾音处理。本申请实施例以配置了两个麦克风的电子设备为执行主体对上述拾音控制方法进行说明,两个麦克风并列设置于电子设备某处,且存在一定间距。电子设备第一个麦克风接收的声音信号为第一声音信号,第二个麦克风接收的声音信号为第二声音信号。电子设备通过麦克风采集了声音信号后,会先对声音信号进行信号分析。信号分析具体可包括:分帧加窗处理、去直流处理以及傅里叶变换等操作。电子设备对第一声音信号和第二声音信号分别进行信号分析,得到第一声音信号对应的第一频域信号X1和第二声音信号对应的第二频域信号X2
在步骤102中,电子设备将X1和X2划分为多个子带,每个子带包含不同频段的频域数据。例如,X1和X2全频带涵盖的范围为500Hz至8000Hz,则电子设备可将500Hz到2000Hz划分为第一子带,将2000Hz到4000Hz划分为第二子带,将4000Hz到6000Hz划分为第三子带,将6000Hz到8000Hz划分为第四子带。通常情况下,子带划分的方式和设备采样频率、麦克风间距有关,采样频率越大以及麦克风间距越大,则高频混叠越严重,相应子带划分就越多。
子带划分完成后,电子设备以子带频域信号为单位,基于子带频域信号所包含的频域信息确定对应的声源角度,不同子带频域信号得出的声源角度可能并不相同。最终,电子设备会综合不同子带所确定声源角度确定综合角度值,该综合角度值用于表示当前声音信号的声源角度。
一种可选的实施例中,电子设备根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值的具体步骤可包括:对于任一子带,确定不同子带频域信号之间互功率谱;对互功率谱进行加权平滑处理;对加权平滑处理后的互功率谱进行傅里叶反变换,得到时域信号;基于时域信号的极值点,确定当前子带对应的声源角度值。
上述子带的划分对X1和X2是相同的,对于任一子带,电子设备会计算X1和X2在当前子带的互功率谱。具体的,电子设备可基于公式计算X1和X2之间互功率谱,其中,其中i为子带索引,k为频点索引,/>是加权因子,每个子带中包含多个频点。
互功率谱计算完成后,电子设备可对互功率谱进行加权平滑处理,具体步骤包括:确定每一帧子带频域信号所对应的频域能量;基于每一帧子带频域信号所对应的频域能量,确定当前帧子带频域信号的自适应权重;基于自适应权重对互功率谱进行加权平滑处理。具体的,若当前帧子带频域信号所对应的频域能量小于预设的能量阈值,则当前帧子带频域信号的自适应权重为第一权重γ1;若当前帧子带频域信号所对应的频域能量大于能量阈值,则当前帧子带频域信号的自适应权重为第二权重γ2,其中,γ1小于γ2。之后,电子设备可基于公式Si,smooth(k,l)=(1-γ)*Si,smooth(k,l-1)+γ*Si(k)对频域数据进行加权平滑处理,其中,Si(k)为当前帧频域数据的互功率谱,Si,smooth(k,l-1)为前一帧频域数据的经过加权平滑处理后的互功率谱,Si,smooth(k,l)为当前帧经过加权平滑处理后的互功率谱。
本申请实施例中,通过上述互功率谱加权平滑处理,可有效利用过去帧修正当前帧的互功率谱以及减弱设备自噪数据带来的影响,有效减弱了角度判断时的估计角度频繁跳跃现象,进而减弱了拾音后的听感不适问题。
在步骤104中,电子设备基于任一子带的互功率谱可得到当前子带对应的声源角度值。首先,电子设备需对各子带的互功率谱进行傅里叶反变换,对任一子带的互功率谱进行反变换时,电子设备需将其他子带的互功率谱置0,然后基于傅里叶反变换公式计算得到对应时域信号。之后,电子设备对时域信号进行极值点搜索,搜索方式可采用二次求导法。电子设备会对搜索到的极值点进行筛选,去除干扰极值点,剩余的为有效极值点。可选的,电子设备可将远小于最大极值点的极值点删除,或者,将小于极值阈值的极值点删除。电子设备根据每个极值点可得到一个对应时延值,再根据时延值可得到声源角度值。
对于任一帧声音信号,电子设备可基于不同子带得到该帧声音信号的多个声源角度值,之后,电子设备可基于多个声源角度值确定一个最终的综合角度值,并根据该综合角度值判断该帧声音信号是否为目标声音信号。若综合角度值位于预设的角度范围内,则该帧声音信号为目标声音信号,若综合角度值位于预设的角度范围外,则该帧声音信号为干扰目标信号。
一种可选的实施例中,电子设备可将每个子带对应的声源角度值输入角度确定模型,得到综合角度值。同一帧声音信号,通过不同子带所确定的声源角度值不一定相同,而不同子带的声源角度值和实际的声源角度值之间存在对应关系。电子设备可通过大量不同子带的声源角度值和实际声源角度值训练角度确定模型,角度确定模型训练完成后,电子设备将各子带的声源角度值输入角度确定模型,角度确定模型可输入对应的综合角度值,该综合角度值与实际的声源角度接近。
一种可选的实施例中,电子设备多个子带中共有的声源角度值确定为综合角度值。例如,第一个子带确定了一个声源角度值为50度,第二个声源角度值确定了两个角度值为40度和50度,第三个子带确定了两个角度值为50度和60度,则电子设备可将50度确定为当前帧声音信号的综合角度值。
本申请实施例中,高频混叠对不同子带的影响是不同的,通过将全频带划分为多个子带,可得到各子带的声源角度值,再根据各子带的声源角度值可得到最终的综合角度值。相比于直接通过全频带得到的声源角度,该综合角度值通常更接近实际的声源角度,有效降低了高频混叠对电子设备拾音的影响。
图2为本申请实施例提供的另一种拾音控制方法的流程示意图。如图2所示,该方法可包括:
步骤201,电子设备对预处理后的声音信号进行傅里叶变换;
步骤202,将全频带划分为多个子带;
步骤203,加权计算各子带互功率谱;
步骤204,对各子带的互功率谱进行加权平滑处理;
步骤205,对加权平滑后的互功率谱进行傅里叶反变换;
步骤206,对傅里叶反变换得到的时域信号进行极值点搜索及筛选;
步骤207,基于筛选出的有效极值点确定对应的声源角度值;
步骤208,确定综合角度值并以此判断当前帧数据帧是否为目标数据帧。
在步骤201中,电子设备需先对接收的声音信号进行预处理,包括分帧加窗等。傅里叶变换后可得到频域数据,电子设备每个麦克风都接收声音信号,每个声音信号都有对应的频域数据。
在步骤202中,电子设备基于频段范围将频域数据划分为多个子带,每个子带包含不同频段范围的频域数据。其中,不同的麦克风对应的频域数据通常以相同的规则划分子带。
计算互功率谱可得到不同声音信号之间时延差值,根据时延差值可确定声音角度值。电子设备先对互功率谱进行加权平滑处理,加权平滑处理完成后,电子设备对互功率谱进行傅里叶反变换可得到对应的时域信号,根据时域信号的极值点可得到对应的声源角度值。
电子设备先进行极值点搜索及筛选,删除异常的极值点,然后根据剩余的有效极值点确定对应的声源角度值。最后,基于各子带的声源角度值,电子设备可得到综合角度值,并以此判断当前帧数据帧是否为目标数据帧。电子设备基于判断结果对声音信号进行有针对性的抑制处理,保留预设的角度范围内的声音信号。
通过划分多子带,电子设备可有效降低高频混叠的影响,更好的获取目标声音信号,提高用户的体验。
图3为本申请实施例提供的一种拾音控制装置的结构示意图。该装置可部署于电子设备,如图3所示,该装置可包括:分析模块310、处理模块320和确定模块330。
分析模块310,用于对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
处理模块320,用于对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
确定模块330,用于根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
确定模块330,还用于根据每个子带频域信号所对应的声源角度值确定综合角度值;
处理模块320,还用于基于综合角度值对声音信号进行拾音处理。
具体流程可参照上述方法流程图中的描述。
与上述实施例相对应,本申请还提供了一种电子设备。图4为本申请实施例提供的一种电子设备的结构示意图,所述电子设备400可以包括:处理器401、存储器402及通信单元403。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的电子设备的结构并不构成对本申请实施例的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,所述通信单元403,用于建立通信信道,从而使所述电子设备可以与其它设备进行通信。接收其他设备发是的用户数据或者向其他设备发送用户数据。
所述处理器401,为电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序、指令、和/或模块,以及调用存储在存储器内的数据,以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit,IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器401可以仅包括中央处理器(central processing unit,CPU)。在本申请实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
所述存储器402,用于存储处理器401的执行指令,存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当存储器402中的执行指令由处理器401执行时,使得电子设备400能够执行图1所示实施例中的部分或全部步骤。
具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的拾音控制方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
具体实现中,本申请还提供一种计算机程序产品,其中,计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行本申请提供的拾音控制方法的各实施例中的部分或全部步骤。
本申请实施例还提供一种非临时性计算机可读存储介质,上述非临时性计算机可读存储介质存储计算机指令,上述计算机指令使上述计算机执行本申请实施例提供的拾音控制方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例和终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

Claims (10)

1.一种拾音控制方法,其特征在于,包括:
对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
根据每个子带频域信号所对应的声源角度值确定综合角度值;
基于所述综合角度值对所述声音信号进行拾音处理。
2.根据权利要求1所述的方法,其特征在于,所述根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值,包括:
对于任一子带,确定不同子带频域信号之间互功率谱;
对所述互功率谱进行加权平滑处理;
对加权平滑处理后的互功率谱进行傅里叶反变换,得到时域信号;
基于所述时域信号的极值点,确定当前子带对应的声源角度值。
3.根据权利要求2所述的方法,其特征在于,所述对所述互功率谱进行加权平滑处理,包括:
确定每一帧子带频域信号所对应的频域能量;
基于每一帧子带频域信号所对应的频域能量,确定当前帧子带频域信号的自适应权重;
基于所述自适应权重对所述互功率谱进行加权平滑处理。
4.根据权利要求3所述的方法,其特征在于,所述基于每一帧子带频域信号所对应的频域能量,确定当前帧子带频域信号的自适应权重,包括:
若当前帧子带频域信号所对应的频域能量小于预设的能量阈值,则当前帧子带频域信号的自适应权重为第一权重;
若当前帧子带频域信号所对应的频域能量大于所述能量阈值,则当前帧子带频域信号的自适应权重为第二权重;
其中,所述第一权重小于所述第二权重。
5.根据权利要求2所述的方法,其特征在于,所述基于所述时域信号的极值点,确定当前子带对应的声源角度值,包括:
在所述时域信号的极值点中筛选出有效极值点;
根据所述有效极值点确定对应的声源角度值。
6.根据权利要求1所述的方法,其特征在于,所述根据每个子带频域信号所对应的声源角度值确定综合角度值,包括:
将每个子带频域信号对应的声源角度值输入角度确定模型,得到所述综合角度值。
7.根据权利要求1所述的方法,其特征在于,所述基于所述综合角度值对所述声音信号进行拾音处理,包括:
对于任一帧声音信号,若当前帧声音信号的综合角度值位于预设的角度范围内,则将当前帧声音信号确定为目标帧声音信号;
若当前帧声音信号的综合角度值位于预设的角度范围之外,则将当前帧声音信号确定为非目标帧声音信号。
8.一种拾音控制装置,其特征在于,包括:
分析模块,用于对麦克风阵列获取的多路声音信号进行信号分析,得到第一频域信号;
处理模块,用于对第一频域信号进行子带划分,得到多个子带频域信号,其中,各子带频域信号包括不同频段的频域信息;
确定模块,用于根据各子带频域信号所包括的频域信息,确定各子带频域信号所对应的声源角度值;
所述确定模块,还用于根据每个子带频域信号所对应的声源角度值确定综合角度值;
所述处理模块,还用于基于所述综合角度值对所述声音信号进行拾音处理。
9.一种电子设备,其特征在于,包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被所述处理器执行时,使所述电子设备执行权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。
CN202311494281.6A 2023-11-09 2023-11-09 拾音控制方法、装置及设备 Pending CN117528305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311494281.6A CN117528305A (zh) 2023-11-09 2023-11-09 拾音控制方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311494281.6A CN117528305A (zh) 2023-11-09 2023-11-09 拾音控制方法、装置及设备

Publications (1)

Publication Number Publication Date
CN117528305A true CN117528305A (zh) 2024-02-06

Family

ID=89743240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311494281.6A Pending CN117528305A (zh) 2023-11-09 2023-11-09 拾音控制方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117528305A (zh)

Similar Documents

Publication Publication Date Title
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
CN107945815B (zh) 语音信号降噪方法及设备
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
US9060052B2 (en) Single channel, binaural and multi-channel dereverberation
US10818302B2 (en) Audio source separation
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
WO2019113253A1 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN112216295B (zh) 一种声源定位方法、装置及设备
US20200286501A1 (en) Apparatus and a method for signal enhancement
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN110310651B (zh) 波束形成的自适应语音处理方法、移动终端及存储介质
RU2616534C2 (ru) Ослабление шума при передаче аудиосигналов
CN110808058B (zh) 语音增强方法、装置、设备及可读存储介质
CN117528305A (zh) 拾音控制方法、装置及设备
US20130223639A1 (en) Signal processing device, signal processing method and signal processing program
CN114420153A (zh) 音质调整方法、装置、设备及存储介质
KR20210137906A (ko) 바람 소음 감소를 위한 시스템 및 방법
CN109074811B (zh) 音频源分离
JPWO2020039597A1 (ja) 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム
US20240212701A1 (en) Estimating an optimized mask for processing acquired sound data
CN114333876B (zh) 信号处理的方法和装置
CN117121104A (zh) 估计用于处理所获取的声音数据的优化掩模

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination