CN113380267A - 对音区进行定位的方法、装置、存储介质及电子设备 - Google Patents

对音区进行定位的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113380267A
CN113380267A CN202110487889.0A CN202110487889A CN113380267A CN 113380267 A CN113380267 A CN 113380267A CN 202110487889 A CN202110487889 A CN 202110487889A CN 113380267 A CN113380267 A CN 113380267A
Authority
CN
China
Prior art keywords
preset number
sound signals
filter
separated
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110487889.0A
Other languages
English (en)
Other versions
CN113380267B (zh
Inventor
程光伟
朱长宝
牛建伟
余凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Horizon Robotics Science and Technology Co Ltd
Original Assignee
Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Horizon Robotics Science and Technology Co Ltd filed Critical Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority to CN202110487889.0A priority Critical patent/CN113380267B/zh
Publication of CN113380267A publication Critical patent/CN113380267A/zh
Application granted granted Critical
Publication of CN113380267B publication Critical patent/CN113380267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开实施例公开了一种对音区进行定位的方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:获取预设数量个麦克风采集的预设数量的混合声音信号;利用预设的第一滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第一分离声音信号;确定预设数量的第一分离声音信号分别对应的音区标识;基于预设数量的第一分离声音信号,利用预设的第二滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号;基于预设数量的第一分离声音信号和预设数量的第二分离声音信号,确定预设数量的第二分离声音信号分别对应的音区标识。本公开实施例可以解决现有的盲源分离后的信号的音区不确定的问题。

Description

对音区进行定位的方法、装置、存储介质及电子设备
技术领域
本公开涉及计算机技术领域,尤其是一种对音区进行定位的方法、装置、计 算机可读存储介质及电子设备。
背景技术
随着语音识别技术的发展,语音交互的应用领域越来越广。当某个场景包含 多个声源时,为了单独提取某个声源的信号,通常需要采用一些手段进行分区拾 音。例如在车辆内部的场景,由于车内环境具有低混响、噪声分布范围较小、距 离近等特点,因此适合对车内的声源进行分区拾音。即针对特定位置(座位)进 行语音增强,将特定音区说话人的语音从中分离出来,以满足不同的实际应用需 求,并抑制发动机噪声、胎噪、音乐噪声等。
目前进行分区拾音的方法包括:利用分布式的多麦克风实现多音区的拾音, 基于盲源分离算法进行分区拾音等。
发明内容
本公开的实施例提供了一种对音区进行定位的方法、装置、计算机可读存储 介质及电子设备。
本公开的实施例提供了一种对音区进行定位的方法,该方法包括:获取预设 数量个麦克风采集的预设数量的混合声音信号,其中,一个麦克风对应于一个音 区和一路混合声音信号;利用预设的第一滤波器对预设数量的混合声音信号进行 信号分离,得到预设数量的第一分离声音信号;确定预设数量的第一分离声音信 号分别对应的音区标识;基于预设数量的第一分离声音信号,利用预设的第二滤 波器对预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信 号;基于预设数量的第一分离声音信号和预设数量的第二分离声音信号,确定预 设数量的第二分离声音信号分别对应的音区标识。
根据本公开实施例的另一个方面,提供了一种对音区进行定位的装置,该装 置包括:获取模块,用于获取预设数量个麦克风采集的预设数量的混合声音信号, 其中,一个麦克风对应于一个音区和一路混合声音信号;第一分离模块,用于利 用预设的第一滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的 第一分离声音信号;第一确定模块,用于确定预设数量的第一分离声音信号分别 对应的音区标识;第二分离模块,用于基于预设数量的第一分离声音信号,利用 预设的第二滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第 二分离声音信号;第二确定模块,用于基于预设数量的第一分离声音信号和预设 数量的第二分离声音信号,确定预设数量的第二分离声音信号分别对应的音区标 识。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机 可读存储介质存储有计算机程序,计算机程序用于执行上述对音区进行定位的方 法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处 理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执 行指令,并执行指令以实现上述对音区进行定位的方法。
基于本公开上述实施例提供的对音区进行定位的方法、装置、计算机可读存 储介质及电子设备,通过利用第一滤波器对预设数量的混合声音信号进行信号分 离,得到预设数量的第一分离声音信号和每路分离声音信号对应的音区标识,然 后基于得到的第一分离声音信号和预设的第二滤波器对预设数量的混合声音信 号进行信号分离,得到预设数量的第二分离声音信号,最后基于第一分离声音信 号和第二分离声音信号,确定每个第二分离声音信号分别对应的音区标识,实现 了将第一滤波器和第二滤波器相结合,不仅可以从混合声音信号中分离出第二分 离声音信号,还可以根据第一滤波器的输出确定出第二分离声音信号的音区标识, 即同时实现了声音信号分离和对分离后的声音信号进行音区定位,解决了现有的 盲源分离后的信号的音区不确定的问题。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目 的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解, 并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本 公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的对音区进行定位的方法的流程示意图。
图3是本公开的实施例的对音区进行定位的方法的一个应用场景的示意图。
图4是本公开另一示例性实施例提供的对音区进行定位的方法的流程示意图。
图5是本公开另一示例性实施例提供的对音区进行定位的方法的流程示意图。
图6是本公开另一示例性实施例提供的对音区进行定位的方法的流程示意图。
图7是本公开一示例性实施例提供的对音区进行定位的装置的结构示意图。
图8是本公开另一示例性实施例提供的对音区进行定位的装置的结构示意图。
图9是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实 施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公 开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相 对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅 用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们 之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一 个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确 限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表 示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联 对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处, 其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按 照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本 公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但 在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一 项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可 与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机 系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/ 或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、 厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产 品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分 布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算 机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包 括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或 者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施, 分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分 布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储 介质上。
申请概述
目前进行分区拾音的方法包括:利用分布式的多麦克风实现多音区的拾音, 基于盲源分离算法进行分区拾音。其中,分布式麦克风阵列由于麦克间距较远, 高频混叠严重,单一的算法实现很难实现全场景最优。盲源分离算法存在声道映 射问题,即分离后的信号无法正确地与声源所在的音区对应。
示例性系统
图1示出了可以应用本公开的实施例的对音区进行定位的方法或对音区 进行定位的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102、服务器103 和预设数量个麦克风104。其中,预设数量个麦克风104分别对应于一个音区。 例如,当该系统架构设置在车辆上时,车辆上的每个座位附近可以分别设置 一个麦克风,每个座位所在的空间即为一个音区。
网络102用于在终端设备101和服务器103之间提供通信链路的介质。 网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等 等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或 发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如语音交 互应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记 本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP (便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以 及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上传的 混合声音信号进行信号分离的后台音频处理服务器。后台音频处理服务器可 以对接收到的预设数量的混合声音信号进行处理,得到处理结果(例如第二分 离声音信号和对应的音区标识)。
需要说明的是,本公开的实施例所提供的对音区进行定位的方法可以由 服务器103执行,也可以由终端设备101执行,相应地,对音区进行定位的 装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络、服务器和麦克风。在 混合声音信号不需要从远程获取的情况下,上述系统架构可以不包括网络,只 包括麦克风和服务器,或只包括麦克风和终端设备。
示例性方法
图2是本公开一示例性实施例提供的对音区进行定位的方法的流程示意 图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103) 上,如图2所示,该方法包括如下步骤:
步骤201,获取预设数量个麦克风采集的预设数量的混合声音信号。
在本实施例中,电子设备可以获取预设数量个麦克风采集的预设数量的混 合声音信号。其中,麦克风的数量可以为预设的任意数量,相应的,每个麦克风 对其所在的区域采集一路混合声音信号,即一个麦克风对应于一个音区和一路混 合声音信号。音区可以是麦克风所在的区域。通常,音区可以是人为划分的区域, 在某个音区的麦克风由于其距离该音区内的声源较近,因此其采集的声音信号主 要来自该音区。对于某个麦克风,虽然其距离其他音区较远,但还会采集到其他 音区的声音,因此,每个麦克风采集的声音信号包含本音区发出的声音信号,也 包括其他音区发出的声音信号,即采集得到混合声音信号。
作为示例,如图3所示,预设数量为4,该方法的应用场景为车内,即预先 将四个麦克风设置在车内,麦克风a、b、c、d分别设置在四个座椅的旁边。可 以将四个座椅所在的空间分别划分为相应的音区(即图中虚线框内的区域),每 个音区可以对应于一个音区标识,例如1L、1R、2L、2R,麦克风a、b、c、d 分别采集对应的音区的声音信号。
步骤202,利用预设的第一滤波器对预设数量的混合声音信号进行信号分离, 得到预设数量的第一分离声音信号。
在本实施例中,电子设备可以利用预设的第一滤波器对预设数量的混合声 音信号进行信号分离,得到预设数量的第一分离声音信号。
其中,第一滤波器可以用于对混合声音信号进行分离,分离后的各路声音信 号与音区的对应关系是确定的,也即与各麦克风的对应关系是确定的。
作为示例,第一滤波器可以是MCAF(Multichannel Adaptive Filter,多通道 自适应滤波器)。MCAF在分离信号的同时,可以使分离后的信号和音区按固定 顺序一一映射;同时MCAF算法采用Kalman滤波或者RLS(Recursive Least Squares,递归最小二乘)等方式,具有更快的收敛速度。
对于每个麦克风,MCAF可以将该麦克风采集的混合声音信号作为主信号, 将其它麦克风采集的混合声音信号作为参考信号,对该麦克风采集的混合声音信 号进行滤波处理,得到该麦克风对应的第一分离声音信号。最终可以得到预设数 量的第一分离后信号。作为示例,在如图3所示的场景下,对于麦克风a,MCAF 将其采集的混合声音信号S1作为主信号,将麦克风b、c、d采集的混合声音信 号S2、S3、S4作为参考信号,得到麦克风a对应的第一分离声音信号Z1。对于 其他麦克风,采用相同的方法,可以得到其他三路第一分离声音信号Z2、Z3、 Z4。
步骤203,确定预设数量的第一分离声音信号分别对应的音区标识。
在本实施例中,电子设备可以确定预设数量的第一分离声音信号分别对应 的音区标识。通常,根据第一滤波器的特性,各个第一分离声音信号与音区的 对应关系是确定的,因此,可以将各个第一分离声音信号与音区标识建立对应关 系。例如,以座舱为例,某个座位对应的麦克风采集的混合声音信号,经过分离 后得到该座位对应的麦克风的第一分离信号。
步骤204,基于预设数量的第一分离声音信号,利用预设的第二滤波器对预 设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号。
在本实施例中,电子设备可以基于预设数量的第一分离声音信号,利用预 设的第二滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第二 分离声音信号。其中,第二滤波器用于对混合声音信号进行分离,分离后的各路 信号与各音区的对应关系不确定。为解决这一问题,在第二滤波器更新过程中, 引入了第一滤波器输出的第一分离声音信号,即第二滤波器可以将上一时刻输出 的第一分离声音信号和第二分离声音信号相融合,利用融合的信号进行第二滤波 器的更新,在下一时刻继续利用更新后的第二滤波器输出的第二分离声音信号和 第一滤波器输出的第一分离声音信号进行再次更新,如此反复执行迭代更新。由 于上述融合后的各个声道的信号可以反映各声道与麦克风的映射关系,因此更新 后的第二滤波器输出的第二分离声音信号与麦克风(或音区)的映射关系的正确 性大大提高。
作为示例,第二滤波器可以为基于BSS(盲源分离,Blind Source Separation) 算法的滤波器。盲源分离能很好地将混合的信号分离开,同时在环境噪声(高斯 噪声)较强时,分离后的性能更佳。
步骤205,基于预设数量的第一分离声音信号和预设数量的第二分离声音信 号,确定预设数量的第二分离声音信号分别对应的音区标识。
在本实施例中,电子设备可以基于预设数量的第一分离声音信号和预设数 量的第二分离声音信号,确定预设数量的第二分离声音信号分别对应的音区标识。
具体地,虽然步骤204输出的预设数量的第二分离声音信号与音区的映射关 系的正确性大大提高了,但仍无法保证各路第二分离声音信号和音区的映射关系 完全正确。由于第一分离声音信号与音区标识之间的对应关系是确定的,因此, 可以将预设数量的第一分离声音信号和预设数量的第二分离声音信号进行相似 性匹配,即对于每个第一分离声音信号,确定与该第一分离声音信号最相似的第 二分离声音信号,从而确定每个第二分离声音信号对应的音区标识。作为示例, 可以利用匈牙利算法的最优分配原则,确定每个第二分离声音信号对应的第一分 离声音信号。
本公开的上述实施例提供的方法,通过利用第一滤波器对预设数量的混合 声音信号进行信号分离,得到预设数量的第一分离声音信号和每路分离声音信号 对应的音区标识,然后基于得到的第一分离声音信号和预设的第二滤波器对预设 数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号,最后基 于第一分离声音信号和第二分离声音信号,确定每个第二分离声音信号分别对应 的音区标识,实现了将第一滤波器和第二滤波器相结合,不仅可以从混合声音信 号中分离出第二分离声音信号,还可以根据第一滤波器的输出确定出第二分离声 音信号的音区标识,即同时实现了高质量的声音信号分离和对分离后的声音信号 进行音区定位,解决了现有的盲源分离后的信号的音区不确定的问题。
在一些可选的实现方式中,上述步骤202可以如下执行:
首先,基于预设的第一最小代价函数,以及预设的功率谱阈值,对第一滤波 器进行迭代更新。
作为示例,当第一滤波器为MCAF时,第一最小代价函数为:
Figure BDA0003051170660000081
其中,i,j为麦克风的标识,hi为第i个麦克风对其他所有麦克风的相对传 递函数,hij为第i个麦克风对第j个麦克风的相对传递函数,xi、xj为第i,j个 麦克风采集到的混合声音信号,γ为遗忘因子,在[0,1]范围内,n为第i个麦克 风采集的混合声音信号的帧数,t为帧数的变量,M为麦克风的个数。
在式(1)中,基于预设的功率谱阈值hth,对hi进行限制。例如,若hi>hth, 限定hi=hth*hi/|hth|,若hi<hth,hi保持不变。
利用上述第一最小代价函数,可以逐帧地对MCAF的参数迭代更新。
然后,基于迭代更新后的第一滤波器,对预设数量的混合声音信号进行信号 分离。
作为示例,可以利用迭代更新后的MCAF,对预设数量的混合声音信号进行 信号分离,得到预设数量的第一分离声音信号。
本实现方式通过在第一滤波器的更新过程中,引入功率谱阈值限制,可以使 更新过程中代价函数的函数值不致产生与预期值较大的差距,提高代价函数收敛 速度与滤波的准确性。
在一些可选的实现方式中,步骤202还可以如下执行:
首先,基于预设的包括传递函数功率谱的第一最小代价函数,对第一滤波器 进行迭代更新。
作为示例,当第一滤波器为MCAF时,根据麦克风距离声源的距离越远, 能量衰减越大的原则,靠近声源的麦克风和原始信号s之间的传函功率谱h0,大 于其它麦克风和信号s之间的传递函数的功率谱hi,即相对传递函数功率谱|hi/h0| 小于1。因此,在上述式(1)所示的第一最小代价函数中加入传递函数功率谱, 得到新的如下的第一最小代价函数:
Figure BDA0003051170660000091
基于该第一最小代价函数进行迭代更新,可以使MCAF输出的各路信号分 别对应一个距离声源最近的麦克风,而不被过度抑制。
然后,基于迭代更新后的第一滤波器,对预设数量的混合声音信号进行信号 分离。
本实现方式通过将传递函数引入到最小代价函数中,可以使输出的各个第一 分离信号分别对应于一个距离声源最近的麦克风,且不被过度抑制,从而提高对 混合声音信号进行分离的准确性。
进一步参考图4,示出了对音区进行定位的方法的又一个实施例的流程示 意图。如图4所示,在上述图2所示实施例的基础上,步骤204可以包括如下步 骤:
步骤2041,将预设数量的混合声音信号输入第二滤波器,得到预设数量的待 定分离声音信号。
其中,待定分离声音信号的声道与第一分离声音信号的声道一一对应。作为 示例,第二滤波器可以基于BSS算法实现,若预设数量为4,第二滤波器接收四 路混合声音信号S1、S2、S3、S4的输入,针对每路混合声音信号,经过滤波后 输出相应的分离后声音信号,四路分离后的声音信号Y1、Y2、Y3、Y4为待定 分离声音信号,分别与四路第一分离声音信号Z1、Z2、Z3、Z4对应。需要说明 的是,此时的Y1、Y2、Y3、Y4与音区标识虽然对应,但对应关系的准确性不 能保证。
步骤2042,基于第一滤波器,对预设数量的第一分离声音信号进行噪声估计, 得到预设数量的第一分离声音信号分别对应的噪声抑制量。
作为示例,噪声估计可以通过现有的NS(Noise Suppression)算法实现。 继续上述示例,通过执行该步骤,可以得到Z1、Z2、Z3、Z4分别对应的噪声 抑制量Sup1、Sup2、Sup3、Sup4。
步骤2043,基于得到的噪声抑制量和预设的噪声抑制量阈值,确定预设数量 的待定分离声音信号分别对应的、第一滤波器的第一输出功率权重和第二滤波器 的第二输出功率权重。
继续上述示例,设Sup1、Sup2、Sup3、Sup4分别对应的噪声抑制量阈值分 别为Supth(例如6dB),基于如下公式,可以得到Y1、Y2、Y3、Y4分别对应的 第二输出功率权重α1、α2、α3、α4:
Figure BDA0003051170660000101
相应的,Z1、Z2、Z3、Z4分别对应的第一输出功率权重可以为1-α1、1-α2、 1-α3、1-α4。
步骤2044,基于第一滤波器的第一输出功率权重、第二滤波器的第二输出功 率权重和第一分离声音信号,调整待定分离声音信号,得到预设数量的第二分离 声音信号。
具体地,根据第一输出功率权重和第二输出功率权重,可以分别对同一麦克 风对应的第一分离声音信号和第二分离声音信号进行加权求和(例如对于麦克风 a,对其对应的Z1和Y1进行加权求和为
Figure BDA0003051170660000102
Figure BDA0003051170660000103
angle(Y)为相位),再利用加权求和后的功率值,对第二滤波器进行迭 代更新,通过迭代更新的后的第二滤波器,调整Y1、Y2、Y3、Y4,得到最终的 各路第二分离声音信号。迭代更新的后的第二滤波器在更新时由于融入了第一滤 波器输出的信号,因此,第二滤波器输出的Y1、Y2、Y3、Y4与麦克风a、b、c、d的对应关系(即与音区的对应关系)是正确对应关系的概率大大提高。
继续上述示例,当噪声抑制量较大时,表示噪声较强,α值较大,对应的1-α 值较小,此时第二滤波器(例如BSS)的更新受第一滤波器(例如MCAF)的影 响程度较小。当噪声抑制量较小时,表示噪声较弱,人声较强,α值较小,对应 的1-α值较大,此时第二滤波器的更新受第一滤波器的影响程度较大,从而可以 根据在人声较强时第二滤波器的声音分离性能较好,在噪声较强时第一滤波器的 声音分离性能较好的特点,提高第二滤波器的声音分离性能。
上述图4对应实施例提供的方法,通过确定噪声抑制量,基于噪声抑制量 确定输出功率权重,可以实现针对不同的混合声音信号计算不同的输出功率 权重,从而根据第一输出功率权重和第二输出功率权重的大小,有针对性地 调整第一滤波器的输出信号对第二滤波器的更新的影响程度,有助于提高得 到的第二分离声音信号的质量。此外,第二滤波器输出的第二分离声音信号 与实际的音区存在映射关系不确定问题,通过将不存在音区映射问题的第一 滤波器输出的第一分离声音信号融入第二滤波器,大大提高第二滤波器的音 区映射的确定性,实现了在对混合声音信号进行高质量地分离的基础上,还 能够确定各路分离后的声音信号对应的音区。
在一些可选的实现方式中,如图5所示,步骤2044可以包括如下子步骤:
步骤20441,对于预设数量的待定分离声音信号中的每路待定分离声音信号, 基于该待定分离声音信号对应的第一输出功率权重和第二输出功率权重,对该待 定分离声音信号对应的第一分离声音信号进行功率加权运算,得到功率加权数据。
作为示例,可以按照如下公式进行功率加权运算:
Figure BDA0003051170660000111
其中,α表示第二输出功率权重,Y表示第二滤波器的输出的待定分离声音 信号,1-α表示第一输出功率权重,Z表示第一滤波器输出的第一分离声音信号, angle(Y)表示Y的相位,D与Y的相位保持一致。
继续上述图4对应实施例中的示例,将麦克风a对应的Y1、Z1、α1、1-α1代 入上式(4),得到麦克风a对应的功率加权数据D1,同理,对其他麦克风对应 的待定分离声音信号和第一分离声音信号,利用该公式,得到D2、D3、D4。
需要说明的是,上式(4)仅仅是计算功率加权数据的一个示例行的公式, 还可以采用其他形式的公式计算计算功率加权数据,凡是基于第一输出功率权重 和第二输出功率权重计算功率加权数据的方法,均在本步骤涵盖的范围内。
步骤20442,基于功率加权数据,利用预设的第二最小代价函数,对第二滤 波器进行迭代更新。
作为示例,麦克风采集的信号x可以认为是原始信号s经过加卷a(a表示声 源到麦克风的房间脉冲响应)获得的,对应的频域F为XF=AF*SF;XF、SF和AF分别对应x、s和a的频域的第F子带信号,即
SF=[FFTF(s1) FFTF(s2) …FFTF(sM)]T
XF=[FFTF(x1) FFTF(x2) …FFTF(xM)]T
Ai F=[FFTF(ai1) FFTF(ai2) …FFTF(aiM)]T
Figure BDA0003051170660000121
FFT为快速傅里叶变换(Fast Fourier Transform),FFTF表示FFT变换后取 第F个频带信号。当第二滤波器为BSS滤波器时,BSS通过ICA(独立成分分 析,IndependentComponent Analysis)等算法通过在概率分布上假设多个说话人 的声源分布独立,最小化混合信号的联合概率分布和独立声源的边缘概率分布的 KL散度值,求解解混矩阵W。利用W估算输出的信号
Figure BDA0003051170660000122
WA可以 分解为PD,P为置换矩阵,影响解混后信号子带排序、声道顺序等问题,D为对 角阵,影响到输出信号功率的缩放问题。
BSS的第二最小代价函数为:
ΔW=(I-E(D*DH))*W,Wt=Wt-1+ηΔW, (5)
其中,Wt表示当前时刻的一帧信号对应的解混矩阵,Wt-1表示上一时刻的 一帧信号对应的解混矩阵。E()代表对括号内的数据均方,统计一段时间信号 的平均值,I代表单位矩阵,η为步长。
步骤20443,基于更新后的第二滤波器,确定预设数量的第二分离声音信号。
将预设数量的混合声音信号输入更新后的第二滤波器,可以得到较高质量的 第二分离声音信号。
本实现方式通过利用第一输出功率权重和第二输出功率权重,对第一滤波器 和第二滤波器输出的信号进行功率加权运算,基于加权后的数据进行第二滤波器 的更新,实现了将第一滤波器的输出信号与第二滤波器相结合,使得在分离混合 声音信号时可以将第一滤波器和第二滤波器的特点(例如人声较强时第二滤波器 的声音分离性能较好,在噪声较强时第一滤波器的声音分离性能较好)相融合, 提高了第二分离声音信号的质量。
在一些可选的实现方式中,如图6所示,步骤20442可以包括如下子步骤:
步骤204421,确定预设数量个麦克风当前所处场景的场景类型。
其中,场景类型可以包括超定场景和非超定场景。超定场景为声源的数量小 于麦克风的数量的场景。例如只有一个人说话时属于超定场景。作为示例,可以 通过确定各个麦克风采集的语音信号的音量来确定场景类型。例如某个麦克风采 集的语音信号的音量较大,其他麦克风采集的语音信号的音量均较小,确定为超 定场景。再例如,若每个麦克风采集的语音信号的音量相近,则确定为非超定场 景。
步骤204422,若场景类型符合预设场景,调整第二最小代价函数的步长。
作为示例,预设场景可以为上述超定场景,此时可以将第二最小代价函数的 步长降低至预设值,以降低第二滤波器每次更新时参数的变化量。调整步长可以 通过调整上述公式(5)中的η值的大小来实现。
当第一滤波器为MCAF,第二滤波器为BSS时,对于BSS,由于超定场景 下上述图5对应实施例的步骤20442中描述的A不可逆,W得不到最优解,但 此时MCAF不受影响,因此可以降低BSS的更新步长,即在BSS更新时,降低 BSS输出的信号对BSS更新的影响,增强MCAF对BSS更新的影响。
步骤204423,基于步长调整后的第二最小代价函数,对第二滤波器进行迭代 更新。
作为示例,可以将上述公式(5)中的η值降低至预设值,再基于公式(5) 对第二滤波器进行迭代更新。
本实现方式通过确定麦克风所处的场景的场景类型,根据不同的场景类型调 整第二最小代价函数的步长,可以使第二滤波器的更新过程可以适应不同的场景 类型,例如在超定场景下通过降低步长增强第一滤波器的输出信号对第二滤波器 的更新的影响来使第二滤波器的输出信号适应超定场景,从而进一步提高了第二 分离信号的质量。
在一些可选的实现方式中,步骤204421可以如下执行:
首先,确定预设数量的混合声音信号两两之间的互相关系数。
其中,混合声音信号可以为频域功率谱信号,其可以是向量的形式,从而确 定各向量两两之间的互相关系数。
然后,确定预设数量的第一分离声音信号分别对应的噪声抑制量。
其中,噪声抑制量的确定方法可以采用现有技术,例如上述图4对应实施例 的步骤2042中描述的NS算法。
最后,基于各个互相关系数与预设互相关系数之间的大小关系,和/或,基于 各个噪声抑制量与预设噪声抑制量之间的大小关系,确定预设数量个麦克风当前 所处场景的场景类型。
具体地,在确定场景类型时,可以基于如下两个条件判断:
条件一,可以将各个互相关系数与预设互相关系数阈值比较,若某个互相关 系数大于等于预设互相关系数阈值,确定其对应的两路混合声音信号的相关性较 大,即该两路混合声音信号来自同一个声源的可能性较大。
条件二,可以将确定出的各个噪声抑制量与预设噪声抑制量比较,若存在至 少N(N为大于等于1的预设值)个噪声抑制量大于等于预设噪声抑制量,可以 确定至少N个麦克风采集的信号中噪声含量较大,人声含量较小。
当满足上述两个条件中的至少一个时,可以确定场景类型为超定场景。
本实现方式通过确定互相关系数和噪声抑制量来判断预设数量个麦克风当 前所处场景的场景类型,可以实现无需人工干预准确地判断场景类型,有助于进 一步根据场景类型调整第二滤波器的第二最小代价函数,提高输出第二分离声音 信号的效率和质量。
示例性装置
图7是本公开一示例性实施例提供的对音区进行定位的装置的结构示意图。 本实施例可应用在电子设备上,如图7所示,对音区进行定位的装置包括:获取 模块701,用于获取预设数量个麦克风采集的预设数量的混合声音信号,其中, 一个麦克风对应于一个音区和一路混合声音信号;第一分离模块702,用于利用 预设的第一滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第 一分离声音信号;第一确定模块703,用于确定预设数量的第一分离声音信号分 别对应的音区标识;第二分离模块704,用于基于预设数量的第一分离声音信号, 利用预设的第二滤波器对预设数量的混合声音信号进行信号分离,得到预设数量 的第二分离声音信号;第二确定模块705,用于基于预设数量的第一分离声音信 号和预设数量的第二分离声音信号,确定预设数量的第二分离声音信号分别对应的音区标识。
在本实施例中,获取模块701可以获取预设数量个麦克风采集的预设数量的 混合声音信号。其中,一个麦克风对应于一个音区和一路混合声音信号。音区可 以是麦克风所在的区域。通常,音区可以是人为划分的区域,在某个音区的麦克 风由于其距离该音区内的声源较近,因此其采集的声音信号主要来自该音区。对 于某个麦克风,虽然其距离其他音区较远,但还会采集到其他音区的声音,因此, 每个麦克风采集的声音信号包含本音区发出的声音信号,也包括其他音区发出的 声音信号,即采集得到混合声音信号。
作为示例,如图3所示,四个麦克风设置在车内,麦克风a、b、c、d分别 设置在四个座椅的旁边。可以将四个座椅所在的空间分别划分为相应的音区(即 图中虚线框内的区域),每个音区可以对应于一个音区标识,例如1L、1R、2L、 2R,麦克风a、b、c、d分别采集对应的音区的声音信号。
在本实施例中,第一分离模块702可以利用预设的第一滤波器对预设数量的 混合声音信号进行信号分离,得到预设数量的第一分离声音信号。
其中,第一滤波器可以用于对混合声音信号进行分离,分离后的各路声音信 号与音区的对应关系是确定的,也即与各麦克风的对应关系是确定的。
作为示例,第一滤波器可以是MCAF(Multichannel Adaptive Filter,多通道 自适应滤波器)。MCAF在分离信号的同时,可以使分离后的信号和音区按固定 顺序一一映射;同时MCAF算法采用Kalman滤波或者RLS(Recursive Least Squares,递归最小二乘)等方式,具有更快的收敛速度。
对于每个麦克风,MCAF可以将该麦克风采集的混合声音信号作为主信号, 将其它麦克风采集的混合声音信号作为参考信号,对该麦克风采集的混合声音信 号进行滤波处理,得到该麦克风对应的第一分离声音信号。最终可以得到预设数 量的第一分离后信号。作为示例,在如图3所示的场景下,对于麦克风a,MCAF 将其采集的混合声音信号S1作为主信号,将麦克风b、c、d采集的混合声音信 号S2、S3、S4作为参考信号,得到麦克风a对应的第一分离声音信号Z1。对于 其他麦克风,采用相同的方法,可以得到其他三路第一分离声音信号Z2、Z3、 Z4。
在本实施例中,第一确定模块703可以确定预设数量的第一分离声音信号分 别对应的音区标识。通常,根据第一滤波器的特性,各个第一分离声音信号与 音区的对应关系是确定的,因此,可以将各个第一分离声音信号与音区标识建立 对应关系。
在本实施例中,第二分离模块704可以基于预设数量的第一分离声音信号, 利用预设的第二滤波器对预设数量的混合声音信号进行信号分离,得到预设数量 的第二分离声音信号。其中,第二滤波器用于对混合声音信号进行分离,分离后 的各路信号与各音区的对应关系不确定。为解决这一问题,在第二滤波器更新过 程中,引入了第一滤波器输出的第一分离声音信号,可以突出输出的第二分离声 音信号与音区的对应关系。
作为示例,第二滤波器可以为基于BSS(盲源分离,Blind Source Separation) 算法的滤波器。盲源分离能很好地将混合的信号分离开,同时在环境噪声(高斯 噪声)较强时,分离后的性能更佳。但分离后的信号和音区的映射关系不确定。
在本实施例中,第二确定模块705可以基于预设数量的第一分离声音信号和 预设数量的第二分离声音信号,确定预设数量的第二分离声音信号分别对应的音 区标识。
具体地,由于第一分离声音信号与音区标识之间的对应关系是确定的,因此, 可以将预设数量的第一分离声音信号和预设数量的第二分离声音信号进行相似 性匹配,即对于每个第一分离声音信号,确定与该第一分离声音信号最相似的第 二分离声音信号,从而确定每个第二分离声音信号对应的音区标识。作为示例, 可以利用匈牙利算法的最优分配原则,确定每个第二分离声音信号对应的第一分 离声音信号。
参照图8,图8是本公开另一示例性实施例提供的对音区进行定位的装置的 结构示意图。
在一些可选的实现方式中,第一分离模块702包括:第一更新单元7021,用 于基于预设的第一最小代价函数,以及预设的功率谱阈值,对第一滤波器进行迭 代更新;第一分离单元7022,用于基于迭代更新后的第一滤波器,对预设数量的 混合声音信号进行信号分离。
在一些可选的实现方式中,第一分离模块702包括:第二更新单元7023,用 于基于预设的包括传递函数功率谱的第一最小代价函数,对第一滤波器进行迭代 更新;第二分离单元7024,用于基于迭代更新后的第一滤波器,对预设数量的混 合声音信号进行信号分离。
在一些可选的实现方式中,第二分离模块704包括:第三分离单元7041,用 于将预设数量的混合声音信号输入第二滤波器,得到预设数量的待定分离声音信 号,其中,待定分离声音信号的声道与第一分离声音信号的声道一一对应;估计 单元7042,用于基于第一滤波器,对预设数量的第一分离声音信号进行噪声估计, 得到预设数量的第一分离声音信号分别对应的噪声抑制量;确定单元7043,用于 基于得到的噪声抑制量和预设的噪声抑制量阈值,确定预设数量的待定分离声音 信号分别对应的、第一滤波器的第一输出功率权重和第二滤波器的第二输出功率 权重;调整单元7044,用于基于第一滤波器的第一输出功率权重、第二滤波器的 第二输出功率权重和第一分离声音信号,调整待定分离声音信号,得到预设数量 的第二分离声音信号。
在一些可选的实现方式中,调整单元7044包括:运算子单元70441,用于对 于预设数量的待定分离声音信号中的每路待定分离声音信号,基于该待定分离声 音信号对应的第一输出功率权重和第二输出功率权重,对该待定分离声音信号对 应的第一分离声音信号进行功率加权运算,得到功率加权数据;更新子单元70442, 用于基于功率加权数据,利用预设的第二最小代价函数,对第二滤波器进行迭代 更新;确定子单元70443,用于基于更新后的第二滤波器,确定预设数量的第二 分离声音信号。
在一些可选的实现方式中,更新子单元70442进一步用于:确定预设数量个 麦克风当前所处场景的场景类型;若场景类型符合预设场景,调整第二最小代价 函数的步长;基于步长调整后的第二最小代价函数,对第二滤波器进行迭代更新。
在一些可选的实现方式中,更新子单元70442进一步用于:确定预设数量的 混合声音信号两两之间的互相关系数;确定预设数量的第一分离声音信号分别对 应的噪声抑制量;基于各个互相关系数与预设互相关系数之间的大小关系,和/ 或,基于各个噪声抑制量与预设噪声抑制量之间的大小关系,确定预设数量个麦 克风当前所处场景的场景类型。
本公开上述实施例提供的对音区进行定位的装置,通过利用第一滤波器对预 设数量的混合声音信号进行信号分离,得到预设数量的第一分离声音信号和每路 分离声音信号对应的音区标识,然后基于得到的第一分离声音信号和预设的第二 滤波器对预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音 信号,最后基于第一分离声音信号和第二分离声音信号,确定每个第二分离声音 信号分别对应的音区标识,实现了将第一滤波器和第二滤波器相结合,不仅可以 从混合声音信号中分离出第二分离声音信号,还可以根据第一滤波器的输出确定 出第二分离声音信号的音区标识,即同时实现了声音信号分离和对分离后的声音 信号进行音区定位,解决了现有的盲源分离后的信号的音区不确定的问题。
示例性电子设备
下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如 图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机 设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所 采集到的输入信号。
图9图示了根据本公开实施例的电子设备的框图。
如图9所示,电子设备900包括一个或多个处理器901和存储器902。
处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执 行能力的其他形式的处理单元,并且可以控制电子设备900中的其他组件以执行 期望的功能。
存储器902可以包括一个或多个计算机程序产品,计算机程序产品可以包括 各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失 性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache) 等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算 机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行程 序指令,以实现上文的本公开的各个实施例的对音区进行定位的方法以及/或者其 他期望的功能。在计算机可读存储介质中还可以存储诸如混合声音信号、第一分 离声音信号、第二分离声音信号等各种内容。
在一个示例中,电子设备900还可以包括:输入装置903和输出装置904, 这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置903可以 是麦克风、鼠标、键盘等设备,用于输入声音信号及其他命令、数据等。在该电 子设备是单机设备时,该输入装置903可以是通信网络连接器,用于从终端设备 101和服务器103接收所输入的声音信号。
该输出装置904可以向外部输出各种信息,包括确定出的第二分离声音信号。 该输出设备904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连 接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备900中与本公开有关的组件中 的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用 情况,电子设备900还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包 括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行 本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对音区进 行定位的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用 于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设 计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语 言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地 在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在 远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程 序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上 述“示例性方法”部分中描述的根据本公开各种实施例的对音区进行定位的方法 中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介 质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于 电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组 合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线 的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本 公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、 效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了 示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用 上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是 与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对 于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关 之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且 不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域 技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、 系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括 但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和 /或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇 “诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固 件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法 的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述 的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施 为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可 读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以 分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使 用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的, 并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本 公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征 一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开 的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例, 但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种对音区进行定位的方法,包括:
获取预设数量个麦克风采集的预设数量的混合声音信号,其中,一个麦克风对应于一个音区和一路混合声音信号;
利用预设的第一滤波器对所述预设数量的混合声音信号进行信号分离,得到预设数量的第一分离声音信号;
确定所述预设数量的第一分离声音信号分别对应的音区标识;
基于所述预设数量的第一分离声音信号,利用预设的第二滤波器对所述预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号;
基于所述预设数量的第一分离声音信号和所述预设数量的第二分离声音信号,确定所述预设数量的第二分离声音信号分别对应的音区标识。
2.根据权利要求1所述的方法,其中,所述利用预设的第一滤波器对所述预设数量的混合声音信号进行信号分离,包括:
基于预设的第一最小代价函数,以及预设的功率谱阈值,对所述第一滤波器进行迭代更新;
基于迭代更新后的第一滤波器,对所述预设数量的混合声音信号进行信号分离。
3.根据权利要求1所述的方法,其中,所述利用预设的第一滤波器对所述预设数量的混合声音信号进行信号分离,包括:
基于预设的包括传递函数功率谱的第一最小代价函数,对所述第一滤波器进行迭代更新;
基于迭代更新后的第一滤波器,对所述预设数量的混合声音信号进行信号分离。
4.根据权利要求1所述的方法,其中,所述基于所述预设数量的第一分离声音信号,利用预设的第二滤波器对所述预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号,包括:
将所述预设数量的混合声音信号输入所述第二滤波器,得到预设数量的待定分离声音信号,其中,待定分离声音信号的声道与第一分离声音信号的声道一一对应;
基于所述第一滤波器,对所述预设数量的第一分离声音信号进行噪声估计,得到所述预设数量的第一分离声音信号分别对应的噪声抑制量;
基于得到的噪声抑制量和预设的噪声抑制量阈值,确定所述预设数量的待定分离声音信号分别对应的、所述第一滤波器的第一输出功率权重和所述第二滤波器的第二输出功率权重;
基于所述第一滤波器的第一输出功率权重、所述第二滤波器的第二输出功率权重和所述第一分离声音信号,调整所述待定分离声音信号,得到所述预设数量的第二分离声音信号。
5.根据权利要求4所述的方法,其中,所述基于所述第一滤波器的第一输出功率权重、所述第二滤波器的第二输出功率权重和所述第一分离声音信号,调整所述待定分离声音信号,得到所述预设数量的第二分离声音信号,包括:
对于所述预设数量的待定分离声音信号中的每路待定分离声音信号,基于该待定分离声音信号对应的第一输出功率权重和第二输出功率权重,对该待定分离声音信号对应的第一分离声音信号进行功率加权运算,得到功率加权数据;
基于所述功率加权数据,利用预设的第二最小代价函数,对所述第二滤波器进行迭代更新;
基于更新后的所述第二滤波器,确定所述预设数量的第二分离声音信号。
6.根据权利要求5所述的方法,其中,所述基于所述功率加权数据,利用预设的第二最小代价函数,对所述第二滤波器进行迭代更新,包括:
确定所述预设数量个麦克风当前所处场景的场景类型;
若所述场景类型符合预设场景,调整所述第二最小代价函数的步长;
基于步长调整后的第二最小代价函数,对所述第二滤波器进行迭代更新。
7.根据权利要求6所述的方法,其中,所述确定所述预设数量个麦克风当前所处场景的场景类型,包括:
确定所述预设数量的混合声音信号两两之间的互相关系数;
确定所述预设数量的第一分离声音信号分别对应的噪声抑制量;
基于各个互相关系数与预设互相关系数之间的大小关系,和/或,基于各个噪声抑制量与预设噪声抑制量之间的大小关系,确定所述预设数量个麦克风当前所处场景的场景类型。
8.一种对音区进行定位的装置,包括:
获取模块,用于获取预设数量个麦克风采集的预设数量的混合声音信号,其中,一个麦克风对应于一个音区和一路混合声音信号;
第一分离模块,用于利用预设的第一滤波器对所述预设数量的混合声音信号进行信号分离,得到预设数量的第一分离声音信号;
第一确定模块,用于确定所述预设数量的第一分离声音信号分别对应的音区标识;
第二分离模块,用于基于所述预设数量的第一分离声音信号,利用预设的第二滤波器对所述预设数量的混合声音信号进行信号分离,得到预设数量的第二分离声音信号;
第二确定模块,用于基于所述预设数量的第一分离声音信号和所述预设数量的第二分离声音信号,确定所述预设数量的第二分离声音信号分别对应的音区标识。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的方法。
CN202110487889.0A 2021-04-30 2021-04-30 对音区进行定位的方法、装置、存储介质及电子设备 Active CN113380267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487889.0A CN113380267B (zh) 2021-04-30 2021-04-30 对音区进行定位的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487889.0A CN113380267B (zh) 2021-04-30 2021-04-30 对音区进行定位的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113380267A true CN113380267A (zh) 2021-09-10
CN113380267B CN113380267B (zh) 2024-04-19

Family

ID=77570558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487889.0A Active CN113380267B (zh) 2021-04-30 2021-04-30 对音区进行定位的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113380267B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116095254A (zh) * 2022-05-30 2023-05-09 荣耀终端有限公司 音频处理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043566A1 (en) * 2007-08-09 2009-02-12 Kabushiki Kaisha Toshiba Speech processing apparatus and method
US20090097670A1 (en) * 2007-10-12 2009-04-16 Samsung Electronics Co., Ltd. Method, medium, and apparatus for extracting target sound from mixed sound
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置
CN110139246A (zh) * 2019-05-22 2019-08-16 广州小鹏汽车科技有限公司 车载蓝牙通话的处理方法和装置、汽车以及机器可读介质
CN110675892A (zh) * 2019-09-24 2020-01-10 北京地平线机器人技术研发有限公司 多位置语音分离方法和装置、存储介质、电子设备
CN111383661A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 基于车载多音区的音区判决方法、装置、设备和介质
JP2020134566A (ja) * 2019-02-13 2020-08-31 パナソニックIpマネジメント株式会社 音声処理システム、音声処理装置及び音声処理方法
CN111696573A (zh) * 2020-05-20 2020-09-22 湖南湘江地平线人工智能研发有限公司 声源信号处理方法及装置、电子设备和存储介质
CN112349292A (zh) * 2020-11-02 2021-02-09 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备
CN112509584A (zh) * 2020-12-03 2021-03-16 北京声智科技有限公司 声源位置确定方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090043566A1 (en) * 2007-08-09 2009-02-12 Kabushiki Kaisha Toshiba Speech processing apparatus and method
US20090097670A1 (en) * 2007-10-12 2009-04-16 Samsung Electronics Co., Ltd. Method, medium, and apparatus for extracting target sound from mixed sound
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置
JP2020134566A (ja) * 2019-02-13 2020-08-31 パナソニックIpマネジメント株式会社 音声処理システム、音声処理装置及び音声処理方法
CN110139246A (zh) * 2019-05-22 2019-08-16 广州小鹏汽车科技有限公司 车载蓝牙通话的处理方法和装置、汽车以及机器可读介质
CN110675892A (zh) * 2019-09-24 2020-01-10 北京地平线机器人技术研发有限公司 多位置语音分离方法和装置、存储介质、电子设备
CN111383661A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 基于车载多音区的音区判决方法、装置、设备和介质
CN111696573A (zh) * 2020-05-20 2020-09-22 湖南湘江地平线人工智能研发有限公司 声源信号处理方法及装置、电子设备和存储介质
CN112349292A (zh) * 2020-11-02 2021-02-09 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备
CN112509584A (zh) * 2020-12-03 2021-03-16 北京声智科技有限公司 声源位置确定方法、装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116095254A (zh) * 2022-05-30 2023-05-09 荣耀终端有限公司 音频处理方法和装置

Also Published As

Publication number Publication date
CN113380267B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
US10123113B2 (en) Selective audio source enhancement
US8583428B2 (en) Sound source separation using spatial filtering and regularization phases
US7995767B2 (en) Sound signal processing method and apparatus
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
US11817112B2 (en) Method, device, computer readable storage medium and electronic apparatus for speech signal processing
CN112349292B (zh) 信号分离方法和装置、计算机可读存储介质、电子设备
CN111081267B (zh) 一种多通道远场语音增强方法
CN110673096B (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
WO2022012206A1 (zh) 音频信号处理方法、装置、设备及存储介质
CN112652320B (zh) 声源定位方法和装置、计算机可读存储介质、电子设备
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
CN113380267B (zh) 对音区进行定位的方法、装置、存储介质及电子设备
CN111226277B (zh) 语音增强方法及装置
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN111540365B (zh) 语音信号确定方法、装置、服务器及存储介质
CN110689900B (zh) 信号增强方法和装置、计算机可读存储介质、电子设备
CN112802490A (zh) 一种基于传声器阵列的波束形成方法和装置
CN112346012A (zh) 声源位置确定方法和装置、可读存储介质、电子设备
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
US20220208206A1 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
CN115910037A (zh) 语音信号的提取方法、装置、可读存储介质及电子设备
JP2010085733A (ja) 音声強調システム
Liao et al. Incorporating spatial information in binaural beamforming for noise suppression in hearing aids
Stenzel et al. Blind‐Matched Filtering for Speech Enhancement with Distributed Microphones
CN113393858B (zh) 语音分离方法和系统、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant