CN110178178B

CN110178178B - 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割

Info

Publication number: CN110178178B
Application number: CN201780069538.XA
Authority: CN
Inventors: 巴勃罗·佩索·帕拉达; 杜什杨特·夏尔马; 帕特里克·内勒
Original assignee: Nuance Communications Inc
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-09-14
Filing date: 2017-09-14
Publication date: 2023-10-10
Anticipated expiration: 2037-09-14
Also published as: WO2018053077A1; US20200184986A1; US20180075860A1; EP3513404A1; US10424317B2; CN110178178A; US10847171B2

Abstract

本发明所公开的方法和系统涉及确定最佳麦克风对和分割声音信号。所述方法和系统可包括接收包括来自一个或多个音频来源(例如会议参与者)的语音和/或背景噪声的声音信号的集合。该方法和系统可包括计算TDOA，并基于TDOA并经由稳健统计确定最佳麦克风对。该方法和系统还可以包括分割来自多个来源的声音信号。

Description

具有环境自动语音识别(ASR)的麦克风选择和多个讲话者分割

相关申请的交叉引用

本专利申请要求于2017年1月11日递交的、名称为“METHOD FOR MICROPHONESELECTION AND MULTI-TALKER SEGMENTATION WITH AMBIENT AUTOMATED SPEECHRECOGNITION(ASR)”、序列号为15/403,481的美国非临时专利申请以及于2016年9月14日递交的、名称为“MICROPHONE SELECTION AND MULTI-TALKER SEGMENTATION WITHAPPLICATION TO AMBIENT AUTOMATED SPEECH RECOGNITION(ASR)”、序列号为62/394,286的美国临时专利申请的优先权，两个专利申请的全部内容通过引用并入本文中。

技术领域

这里描述的多个方面一般涉及计算机、计算机系统和自动语音识别。更具体地，这里描述的多个方面用于执行麦克风选择和多个讲话者分割，以选择用于执行自动语音识别(ASR)的合适输入流。

背景技术

讲话者分割聚类系统对于帮助克服自动会议转录系统面临的主要挑战越来越重要。这些系统旨在通过一个有源音频来源将音频信号分割成均匀的部分，并回答“谁在什么时候说话？”的问题。讲话者分割聚类在多种应用中提供重要信息，例如为讲话者编索引和多个讲话者音频流的丰富转录。可在多个场景中生成音频流，诸如呼叫中心、广播新闻或会议。通常，音频来源和/或麦克风的位置可能是未知的。另外，记录可能被噪声、混响或非语音声音事件(例如音乐)扭曲，从而降低了分割聚类的表现(参见X.Anguera的Speakerdiarization:a review of recent research)。

当多麦克风记录可用时，当前算法仅能利用空间信息。该信息通常与到达时间延迟(TDOA)有关，该时间延迟表示两个不同麦克风中相同信号的时间延迟。在单麦克风情况下，该特征的计算是不可行的，并且诸如梅尔倒频谱参数(MFCC)和/或感知线性预测(PLP)的常见语音特征可用于进行分割聚类。此外，这些当前算法使用来自阵列系统的多麦克风信息，其中，每个麦克风相对于参考点的相对位置是已知的。

尽管TDOA先前已经在许多不同领域中使用，但是由于可能由环境噪声、混响和/或人的讲话者的头部运动产生的过多噪声，该参数不用于麦克风选择。此外，位于距音频来源很远的麦克风经常产生不可靠的TDOA估计。

发明内容

以下概述仅用于说明目的，并不旨在限制或约束详细描述。以下概述仅以简化形式呈现各种所描述的方面，作为下面提供的更详细描述的序言。

根据一个或多个说明性方面，空间信息可用于选择可用的感知最佳麦克风信号，且可随后用于执行讲话者分割。例如可在多个麦克风处接收多个音频信号。可在固定的间隔在这些音频信号之间确定到达时间延迟(TDOA)，并且基于TDOA，音频信号可与音频来源或干扰中的一者相关联。结果，TDOA可基于它们与声源或干扰的关联而聚集在一起。TDOA可针对不同的可能麦克风对聚集，并且可针对这些不同的可能麦克风对确定置信度测量。基于置信度测量，可选择最佳麦克风对。此外，基于聚集，可为每个音频信号识别音频来源，并且可对音频信号进行分割。

这里的发明内容不是这里描述的新颖特征的详尽列表，并且不旨在限制权利要求。以下更详细地描述这些和其他特征。

附图说明

参考以下描述、权利要求和附图，将更好地理解本发明的这些和其他特征、方面和优点。本发明通过附图以示例的方式示出，并且不限于附图，其中，相同的附图标记表示相似的元件。

图1描绘了可用于实现本文描述的一个或多个说明性方面的网络架构和数据处理装置的一个示例。

图2描绘了用于选择麦克风对和对音频信号分割的一个示例性方法，其可用于实现本文描述的一个或多个说明性方面。

图3描绘了广义的分割聚类框图，其表示可用于实现本文描述的一个或多个说明性方面的已知分割聚类系统的一般架构。

图4描绘了可用于实现本文描述的一个或多个说明性方面的TDOA概念。

图5描绘了根据本文描述的一个或多个说明性方面的用于三对麦克风的方法的框图。

图6描绘了根据本文描述的一个或多个说明性方面的用于该对麦克风的信道内的对齐的表示。

图7描绘了根据本文描述的一个或多个说明性方面的信道之间的对齐的表示。

图8描绘了根据本文描述的一个或多个说明性方面的HMM架构。

图9描绘了根据本文描述的一个或多个说明性方面的指示麦克风和音频来源的位置的模拟房间。

图10描绘了根据本文描述的一个或多个说明性方面的设置配置的表格。

图11描绘了根据本文描述的一个或多个说明性方面的为每个评估条件分配标签的表格。

图12描绘了根据本文描述的一个或多个说明性方面的在该评估中使用的记录的细节。

图13描绘了根据本文描述的一个或多个说明性方面的分割聚类结果的示例。

图14描绘了根据本文描述的一个或多个说明性方面实现的平均讲话者错误的比较。

图15描绘了根据本文描述的一个或多个说明性方面，利用RT05数据库中的不同方法实现的DER(RRDER(％))的相对减少。

图16描绘了根据本文描述的一个或多个说明性方面的根据置信度测量范围分组的讲话者标签估计的准确度。

图17描绘了根据本文描述的一个或多个说明性方面的整体分割聚类结果。

具体实施例

参考了形成了本发明的一部分的附图对各种说明性实施例的以下描述中，附图通过图示的方式示出了可实践本发明的各方面的各种实施例。应当理解的是，在不脱离本发明的范围的情况下，可利用其他实施例并且可进行结构或功能修改。

应理解的是，本文使用的措辞和术语是出于描述的目的，不应视为限制性的。相反，这里使用的短语和术语将被赋予其最广泛的解释和含义。“包括”和“包含”及其变型的使用旨在涵盖其后列出的项目及其等同物以及其他项目及其等同物。术语“安装”、“连接”、“联接”、“定位”、“接合”和类似术语的使用意味着包括直接和间接安装、连接、联接、定位和接合。

图1描绘了可用于实现本文描述的一个或多个说明性方面的网络架构和数据处理设备的一个示例。各种网络节点103、网络节点105、网络节点107和网络节点109可经由诸如因特网的广域网(WAN)101互连。还可以或替代地使用其他网络，包括专用内联网、公司网络、局域网(LAN)、无线网络、个人网络(PAN)等。网络101用于说明目的，并且可用更少或额外的计算机网络更换。LAN可具有任何已知LAN拓扑中的一个或多个，并且可使用各种不同协议中的一个或多个，例如以太网。设备103、设备105、设备107、设备109和其他设备(未示出)可通过双绞线、同轴电缆、光纤、无线电波或其他通信媒介连接到一个或多个网络。

设备103、设备105、设备107、设备109可以是具有多个计算机实现的对话组件的自动对话系统，用于与用户进行自动对话过程。设备103、设备105、设备107、设备109可允许人机对话布置。根据一些方面，设备103、设备105、设备107、设备109可包括多个计算机实现的对话组件，其可被配置为相互通信和使用上下文来缩窄理解、识别和/或推理错误。在一些实施例中，设备103、设备105、设备107、设备109可基于语言提示、对话上下文、和/或一般知识来检测和/或解析回指。

这里使用的并且在附图中描绘的术语“网络”可以不仅指代其中远程存储设备经由一个或多个通信路径联接在一起的系统，而且还指代可以不时地联接到具有存储能力的该系统的独立设备。因此，术语“网络”不仅包括“物理网络”而且包括“内容网络”，其包括可归因于单个实体的数据，其驻留在所有物理网络上。

组件可包括数据服务器103、网络服务器105、麦克风135、麦克风140和客户端计算机107、客户端计算机109。数据服务器103提供数据库和控制软件的整体访问、控制和管理，用于执行本文所描述的一个或多个说明性方面。数据服务器103可连接到网络服务器105，用户通过网络服务器105与所请求的数据交互并获得数据。或者，数据服务器103可充当网络服务器本身，并且直接连接到因特网。数据服务器103可通过网络101(例如因特网)，经由直接或间接连接，或经由某些其他网络，连接到网络服务器105。音频来源145、音频来源150可通过麦克风135、麦克风140向数据服务器103提供输入，例如记录语音。音频来源145、音频来源150可以是例如在会议期间参与和说话的个体。麦克风135、麦克风140和音频来源145、音频来源150的位置可能是未知的。在一个示例中，麦克风135、麦克风140可包括智能手机上的麦克风。在另一示例中，麦克风135、麦克风140可安装在房间中。用户还可使用远程计算机107、远程计算机109与数据服务器103交互，例如使用网络浏览器经由由网络服务器105托管的一个或多个外部公开的网站连接到数据服务器103。客户端计算机107、客户端计算机109可与数据服务器103一起使用，以访问存储在其中的数据，或者可用于其他目的。例如如本领域中已知的，用户可从客户端设备107使用因特网浏览器访问网络服务器105，或者通过执行通过计算机网络(例如因特网)与网络服务器105和/或数据服务器103通信的软件应用程序。

服务器和应用程序可组合在相同的物理机器上，并保留单独的虚拟或逻辑地址，或者可驻留在单独的物理机器上。图1仅示出了可使用的网络架构的一个示例，并且本领域技术人员将理解，如本文进一步描述的，所使用的特定网络架构和数据处理设备可变化，并且是仅次于它们提供的功能。例如由网络服务器105和数据服务器103提供的服务可组合在单个服务器上。

每个组件103、组件105、组件107、组件109可以是任何类型的已知计算机、服务器或数据处理设备。例如数据服务器103可包括控制数据服务器103的整体操作的处理器111。数据服务器103还可包括RAM 113、ROM 115、网络接口117、输入/输出接口119(例如键盘、鼠标、显示器、打印机等)和存储器121。I/O 119可包括用于读取、写入、显示和/或打印数据或文件的各种接口单元和驱动器。存储器121还可存储用于控制数据处理设备103的整体操作的操作系统软件123，用于指示数据服务器103执行本文描述的多个方面的控制逻辑125，以及提供辅助、支援和/或其他功能的其他应用软件127，其可以或可以不与本文描述的其他方面结合使用。控制逻辑在这里也可称为数据服务器软件125。数据服务器软件的功能可以是基于编码到控制逻辑中的规则自动进行的操作或决定，由用户手动提供输入到系统中，和/或基于用户输入的自动处理的组合(例如查询、数据更新等)。

存储器121还可存储用于执行本文描述的一个或多个方面的数据，包括第一数据库129和第二数据库131。在一些实施例中，第一数据库可包括第二数据库(例如作为单独的表格、报告等)。也就是说，根据系统设计，信息可存储在单个数据库中，或者分成不同的逻辑数据库、虚拟数据库或物理数据库。设备105、设备107、设备109可具有与关于设备103描述的类似或不同的架构。本领域技术人员将理解，如本文所述的数据处理设备103(或设备105、设备107、设备109)的功能可以是例如跨多个数据处理设备，以将处理负载分布到多个计算机上，以根据地理位置、用户访问级别、服务质量(QoS)等分割事务。

本文描述的一个或多个方面可体现在计算机可用或可读数据和/或计算机可执行指令中，诸如在由一个或多个计算机或如本文所述的其他设备执行的一个或多个程序模块中。通常，程序模块包括执行特定任务或在由计算机或者其他设备中的处理器执行时，执行特定抽象数据类型的例程、程序、对象、组件、数据结构等。模块可用源代码编程语言编写，该语言随后被编译用于执行，或者可用诸如(但不限于)HTML或XML的脚本语言编写。计算机可执行指令可存储在计算机可读媒介上，例如硬盘、光盘、可移动存储媒介、固态存储器、RAM等。如本领域技术人员将理解，在各种实施例中，可根据需要组合或分布程序模块的功能性。另外，功能可整体或部分地体现在固件或硬件等同物中，例如集成电路、现场可编程门阵列(FPGA)等。可使用特定数据结构来更有效地实现一个或多个方面，并且在本文描述的计算机可执行指令和计算机可用数据的范围内预期这样的数据结构。

所公开的实施例可通过例如设备103、设备105、设备107、设备109、设备135、设备140上的应用程序来实现。例如应用程序可以是基于语音的个人助理应用程序(例如SIRI、NINA、Dragon Mobile Assistant等)。可实现这样的个人助理应用程序的应用程序的示例可包括基于电话的应用程序、移动设备应用程序、基于文本消息的应用程序(例如SMS、TMS)、电子邮件应用程序、网络浏览器、文字处理应用程序、和/或任何基于文本或基于语音的应用程序。

图2描绘了用于选择麦克风对和分割音频信号的一个示例性方法200，其可用于实现本文描述的一个或多个说明性方面。

在步骤210，诸如麦克风135、麦克风140的多个麦克风可接收多个音频信号。例如诸如音频来源145、音频来源150的两个人可在房间中讲话，并且房间可具有位于整个房间的三个麦克风。麦克风可位于固定或临时位置。例如在医生的办公室中，可在检查区域附近安装两个麦克风，并且可在医生的桌子附近安装一个麦克风。在另一示例中，麦克风可包括智能手机麦克风。在该示例中，音频来源145、音频来源150可将他们的智能电话带到会议并记录会议。麦克风可包括来自单个智能手机的多个麦克风，或者可包括来自不同设备的麦克风的组合。或者，麦克风可包括固定位置处的两个麦克风和在临时位置处的麦克风的组合。以下关于图4和图9进一步讨论该概念。

在步骤220，可确定在麦克风处接收的音频信号之间的TDOA。可在不同的麦克风对之间确定TDOA。例如如果使用三个麦克风来收集音频信号，则方法200可计算三个TDOA。以下关于图4进一步讨论该概念。

在步骤230，可聚集来自不同麦克风对的TDOA。例如TDOA可与音频来源相关联，或者，TDOA可与背景噪声相关联。与音频来源相关联的TDOA可聚集在一起，并且与背景噪声相关联的TDOA也可聚集在一起。可使用诸如高斯混合模型(GMM)的统计模型来执行聚集。可从TDOA估计以无监督的方式学习GMM。GMM还可通过期望最大化(EM)方法进行训练。EM方法可包括对GMM的均值和方差的线性约束。可应用对均值的线性约束，以确保与语音相关联的GMM以TDOA密度函数的最大值为中心。可应用对方差的线性约束，以确保与背景噪声相关联的GMM具有大于与语音相关联的任何GMM的方差的方差。方差的线性约束还可确保与讲话者混合相关联的GMM具有相同的方差。使用GMM和EM方法的该计算在下面关于“基于稳健TDOA建模的多信道分割聚类”和图5至图8进一步描述。

在步骤240，可基于聚集，为不同的麦克风对生成置信度测量。例如置信度测量可被计算为不同GMM中的讲话者混合的后验概率(每对麦克风可生成一个GMM)。下面关于“置信度测量”和等式1.39进一步描述置信度测量的计算。

在步骤250，可基于置信度测量来选择麦克风对。例如可选择具有最低不确定性的对。这可包括在模型中产生最低分割聚类错误率(DER)的麦克风对。关于“对齐”和“信道选择”，下面进一步描述该方法。

在步骤260，可基于聚集信息来对音频信号分割。例如对每个时间帧最大化后验，以提取讲话者分割信息。在该示例中，讲话者指数与在给定帧中提供最高后验的混合相关。关于“改进的系统”，下面进一步描述该方法。

图3描绘了广义的分割聚类框图，其表示可用于实现本文描述的一个或多个说明性方面的已知分割聚类系统300的一般架构。已知的分割聚类方法(参见X.Anguera的Speaker diarization:a review of recent research)分为两大类：自下而上和自上而下。前者可针对具有许多聚集(通常多于预期数量的音频来源)的整个音频输入初始化，其可连续地合并，直到每个聚集仅剩下一个音频来源。后者可从一个聚集开始，并添加新聚集，直到所有音频来源都被正确建模。语音信号310的特征提取320、聚集初始化330、分割/合并过程340和/或停止准则350是这些系统中的重要问题，文献中已经提出了不同的解决方案，包括X.Anguera Miro的Speaker diarization:a review of recent research和T.Stafylakis的A review of recent advances in speaker diarization withbayesian methods。

已知的分割聚类方法可分为两个主要组：单信道和多信道方法。

单信道讲话者分割聚类算法使用诸如MFCC和/或PLP系数的语音相关特征来区分不同的音频来源，所述MFCC和/或PLP系数可通常从近距离谈话麦克风捕获的数据中提取。这在R.Sinha的The Cambridge University March 2005speaker diarisation system和S.Tranter的An overview of automatic speaker diarization systems中有所描述。日志Mel滤波器组(Log Mel-filterbank)也用于基于深度神经网络(DNN)的系统(参见R.Milner的The 2015Sheffield system for longitudinal diarisation of broadcastmedia)或广泛用于讲话者识别的i-vector特征(参见G.Sell的Speaker diarization withplda i-vector scoring and unsupervised calibration)。

当多信道信号可用时，可使用TDOA估计来执行分割聚类。在D.Vijayasenan的Aninformation theoretic combination of MFCC and TDOA features for speakerdiarization中提出了将这些TDOA与MFCC组合的框架。在N.Evans的Speaker diarizationusing unsupervised discriminant analysis of inter-channel delay features中描述了可使用从麦克风的所有组合获得的TDOA来执行分割聚类。然后，可将无监督的判别分析方法(例如类似线性判别分析(LDA)的等式)应用于这些TDOA，以将输入空间变换为新的特征空间。这些新特征可用于使用凝聚聚集方法进行分割聚类。T.Oku的Low-latencyspeaker diarization based on bayesian information criterion with multiplephoneme classes中的分割聚类系统基于对音素、元音和辅音类的估计，其可从音素识别器中提取。可使用贝叶斯信息准则(BIC)来计算讲话者改变点和讲话者聚集(参见G.Schwarz的Estimating the dimension of a model)。该准则可从适合于从两个连续语音段计算的MFCC特征的高斯模型计算。在一个示例中，可通过针对不同片段和针对不同音素类别使用不同模型来计算准则。T.Hori的Low-latency real-time meeting recognition andunderstanding using distant microphones and omni-directional camera介绍了实时会议分析器。有介绍完整系统的若干块(例如去混响、源分离、语音识别)以及可基于聚集到达方向(DOA)的讲话者分割聚类。可通过对字长度上的每帧分割聚类决策求平均，来提取讲话者分割聚类决策。基于波束成形的讲话者分割聚类的前端在X.Anguera的Acousticbeamforming for speaker diarization of meetings中介绍。波束成形使用TDOA，其可从具有相位变换的广义互相关(GCC-PHAT)计算(参见C.H.Knapp的The generalizedcorrelation method for estimation of time delay)，并且可通过双遍维特比解码(dual pass viterbi decoding)进行后处理。第一遍可从N个最佳TDOA列表中选择最可能的路径(可从一对麦克风计算)，并且第二遍可找到在第一遍中计算的不同麦克风对之间的路径的给定组合的最佳路径。

虽然语音特征通常用于分割聚类系统，但视觉提示也可包括在系统中，以改善最终的分割聚类表现(参见E.El Khoury的Audiovisual diarization of people in videocontent)。

基于稳健TDOA建模的多信道分割聚类。

图4描绘了可用于实现本文描述的一个或多个说明性方面的TDOA概念。假设麦克风1 430用作参考，TDOA_spk1可以是正的。TDOA _spk2的大小可类似于TDOA_spk1，并且可以是负的。

在多信道分割聚类系统中，在时间指数n处的第p个麦克风处的接收信号y_p(n)可由等式1.1和等式1.2给出：

在该计算中，x_i,p(n)可包括在第p个麦克风处第i个音频来源的贡献，h_i,p(m)可包括第i个音频来源和第p个麦克风之间的房间脉冲响应，以及v_p(n)可包括第p个麦克风处存在的加性噪声。

TDOA是在多麦克风环境中提取的常见特征。该参数可表示当两个不同麦克风记录相同信号时，到达时间的差异。图4示出了从两个麦克风430、麦克风440和两个不同音频来源410、音频来源420获得的TDOA。在一个示例中，选择麦克风1 430作为参考信号，音频来源410的TDOA(TDOA_spk1)是正的。由于音频来源420更靠近麦克风2 440，并且因此信号首先到达该麦克风，然后到达麦克风1 430，音频来源420(TDOA_spk2)的TDOA是负的，如示例性过程400所示。因此，TDOA可与某个音频来源相关联以执行分割聚类。

基线系统。

被称为最佳几何基线(OG)的基线系统可依赖于用于计算TDOA的麦克风中的一者(例如麦克风135)可更靠近一个音频来源145(例如参与会议的第一个人)，和另一个麦克风(例如麦克风140)可更靠近音频来源150(可包括会议中的第二参与者)的事实。因此，在该假设下，当其中一个音频来源正在通话时可获得正TDOA，而当另一个音频来源正在通话时可获得负TDOA。在大多数真实场景中，麦克风的位置可能是未知的。为了比较，提出了与下面描述的改进系统的方法，该基线的输入特征与我们系统中使用的TDOA特征相同。

改进的系统。

图5描绘了根据本文描述的一个或多个说明性方面的用于三对麦克风的方法的框图。在改进的系统中，可以以稳健的方式对TDOA进行建模，以更准确地执行讲话者的分割聚类。可在框535、框540、框545处使用GCC-PHAT来估计TDOA。GCC-PHAT可通过等式1.3计算频域中的两个信号之间的归一化互相关联：

其中，X(f)和Y(f)可包括两个输入信号的傅立叶变换。可通过最大化R_PHAT(τ)，通过等式1.4找到帧l的

其中，R_PHAT(τ)可包括等式1.3的逆傅立叶变换。

可选择用于计算傅立叶变换X(f)和Y(f)的帧大小作为TDOA变化的稳健性和时间分辨率之间的平衡。在一个示例中，可使用500ms的帧大小和连续帧之间具有87.5％的重叠。

可通过N_mic麦克风设置计算的不同TDOA流J的总数(在本部分中从这点开始称为信道)可由等式1.5给出，

例如目标可以是在给定TDOA样本τ_l的情况下，针对不同帧l，找到最大化讲话者模型θ_i的后验概率的讲话者指数i。这可通过等式1.6和等式1.7给出：

等式1.7的分母可独立于i，因此可从最大化中删除。因此，最终的最大化表达式可包括等式1.8：

图5示出了用于具有三对麦克风的设置的方法500的框图，所述麦克风包括第一麦克风对(麦克风505、麦克风510)、第二麦克风对(麦克风515、麦克风520)和第三麦克风对(麦克风525、麦克风530)。下面结合关于“讲话者模型的计算”和“局部建模”进一步描述图5中的建模块550。针对“对齐”描述了信道555内的对齐以及信道560之间的对齐。下面关于“信道选择”、“信道组合”和“隐马尔可夫模型(HMM)”描述解码块565。

说话者模型的计算。

高斯混合模型(GMM)可由θ＝(λ，μ，σ)表示，并且可通过先验矢量(λ)、平均矢量(μ)和协方差矩阵(σ)来参数化。各个混合的参数可用θ_i＝(λ_i，μ_i，σ_i)表示。

在这种方法中，可考虑总共N_spk+1个混合，例如通过等式组1.9，N_spk混合以建模音频来源的TDOA和额外混合以建模噪声估计：

背景噪声模型：θ_B＝(λ_N,μ_N,σ_N).

说话者1模型：θ₁＝(λ₁,μ₁,σ₁).

说话者2模型：θ₂＝(λ₂,μ₂,σ₂).

…

说话者N_spk模型：

给定数据(例如TDOA)的模型参数的最大似然估计(MLE)(参见G.McLachlan的TheEM algorithm and extensions)可用于通过等式1.10获得θ：

在常见应用中，由于寄生噪声、重叠音频来源、非语音声学事件和/或混响，τ可能是不准确的。在该示例中，θ对于这些异常值可能是稳健的。

为了以稳健的方式估计这些模型参数θ，可对期望最大化(EM)算法中的均值和标准偏差应用线性约束。

对均值的线性约束。

可通过矩阵和矢量C先验地确定对均值的线性约束。限定这些约束使得噪声模型μB的均值可独立于讲话者的均值。讲话者的均值可用常数分开，以避免音频来源的均值非常接近彼此，例如μ₁≈μ₂。因此，均值的线性约束可由等式1.11给出：

μ＝Mβ+C， (1.11)

其可写成等式1.12和1.13：

μ_B＝β₁， (1.13)

μ1＝β₂，

λ₂＝β₂+C₂，

…

可通过等式1.14来计算作为最高峰τ_max1(可由等式1.15给出)和密度估计p(τ)的第N_spk个最高峰/>(可由等式1.16给出)之间的差异。密度估计p(τ)可使用高斯核(Gaussian Kernel)/>经由等式1.17由τ计算得到：

其中，σ可包括高斯核的标准偏差。可使用Silverman的经验法则(参见B.W.Silverman的Density estimation for statistics and data analysis)，通过等式1.18计算该值，

σ^*＝(0.9N^-1/5.min(σ，IQR/1.34)， (1.18)

其中，σ和四分位数范围(IQR)可包括分别根据输入数据τ计算的标准偏差和四分位数范围。为了提供对p(τ)的估计的稳健性，可从τ中去除正和负极值。可按照相同的过程，计算C中剩余的未知元素。在该示例中，N_spk可由讲话者型号ID号代替。

密度核可用于估计概率密度，这是因为它们独立于箱宽(参见C.M.Bishop的Pattern Recognition and Machine Learning(Information Science andStatistics))，因此可准确地估计峰值。

等式1.11中的另一个未知项β可通过最大化给定TDOA的模型参数的似然性来确定。这种最大化问题可使用期望-条件最大化(ECM)来解决(参见D.Chauveau的ECM and MMalgorithms for normal mixtures with constrained parameters)。

标准偏差的线性约束。

可通过矢量G先验地固定对标准偏差的线性约束。可定义该矢量，使得噪声模型的偏差可比讲话者模型的偏差更宽，因为可能存在具有极端的TDOA值的异常值。两个音频来源的头部移动可能相似，因此讲话者模型的标准偏差可能相同。因此，标准差的线性约束可由等式1.19、等式1.20和等式1.21给出：

由于γ的所有元素都是非负的，所以

在这种情况下，可通过最大化给定输入数据的参数的似然性来估计γ项。这种最大化问题可通过采用最小-最大算法来解决(参见D.Chauveau的ECM and MM algorithmsfor normal mixtures with constrained parameters)。

另外，可应用方差地和方差上限来夹持下边界和上边界，从而避免不太可能的值。

局部建模。

为了处理在不同位置讲话的相同音频来源(例如在房间内走动的会议参与者)，可确定用于长度为Nw<<N_TDOA的小时间分析窗口的θ参数，其中，音频来源是静态的。在该示例中，音频来源可不改变该时间分析窗口中的位置，因此先前通过等式1.10给出的建模可由等式1.22给出：

其中：

并且其中，N₀可包括重叠帧的数量，并且v可表示分析窗口。

可将重叠的TDOA的后验重新计算为两个分析窗口之间的重叠后验的平均值。

对齐。

图6描绘了根据本文描述的一个或多个说明性方面的用于该对麦克风的信道内的对齐的表示600。可利用两种不同的对齐，来确保讲话者指数表示两个连续分析窗口之间(信道555内的对齐)和同一窗口中的信道之间(信道560之间的对齐)的相同讲话者。

信道内的对齐。

信道555内的对齐旨在针对给定信道，找到两个连续分析窗口之间的音频来源的对应关系。所采用的解决方案可基于重叠的连续窗口，如图6所示。

为简单起见，在两个连续帧中共同的TDOA(例如重叠的TDOA)表示为τ₀。N₀表示重叠帧的数量。信道内的对齐可寻找决策矢量d，使得满足等式1.23、等式1.24、等式1.25、等式1.26和等式1.27：

/>

其中，和d₂＝{d₂(1)，d₂(2)，...，d₂(N_o)}可表示分别用于信道j的v窗口和v+1窗口之间的重叠帧中的估计的讲话者指数。如果那么P(θ₁ ^v+1，j|τ^v+1，j)和P(θ₂ ^v+1，j|τ^v+1，j)可交换。例如这适用于N_spk＝2。在另一个示例中，可通过创建d将其扩展为N_spk的任何值，使其包含具有额外决策置换的N_spk！矢量。

信道之间的对齐。

图7描绘了根据本文描述的一个或多个说明性方面的信道560之间的对齐的表示700。图7示出了信道710、信道720、信道730之间的对齐。信道560之间的对齐可验证θ₁ ^v，1是否表示用θ₁ ^v，j建模的音频来源或者用θ₂ ^v，j for j＝{2，...，J}建模的音频来源的TDOA。在一个示例中，通过找到d可对N_spk＝2执行该验证，使得满足等式1.28、等式1.29、等式1.30、等式1.31和等式1.32：

其中，如果/>则P(θ₁ ^v，j|τ^v，j)和P(θ₂ ^v，j|τ^v，j)可交换。图7显示了对于J＝3的符号。在另一个示例中，通过形成d可将该方法应用于任何N_spk>2的情况，使得该方法包括具有额外决策置换的N_spk！矢量。

先前的对齐可能具有O(N_spk!)的复杂性。因此，在这些示例中，当有三个以上的音频来源时，执行时间可能会迅速增加。为了降低这种复杂性，可使用遗传算法(GA)来执行随机搜索(参见L.Scrucca的GA:A package for genetic algorithms in R)。

信道选择。

在可由等式1.22给出的局部建模过程中，可将J个不同模型拟合到可从J个信道(例如J个不同的麦克风对)提取的数据，并且可使用最优模型来分割聚类等式1.6。先验地，更靠近音频来源的对可包括最佳对。在该示例中，音频来源和麦克风的位置可能是未知的，另外，噪声可能降低在靠近噪声源的那些麦克风对中计算的TDOA。

信道选择可旨在选择最佳对以进行分割聚类，例如提供最低分割聚类错误率(DER)的模型。在该示例中，标签可能是未知的，因此DER可能不会被直接最小化。在这个例子中，模型选择中常用的度量标准(称为贝叶斯信息准则)(参见K.P.Burnham的Modelselection and multimodel inference:a practical information-theoreticapproach)可通过等式1.34给出，并可用于通过等式1.33和等式1.34查找最佳麦克风对j：

其中，

给定数据τ的模型θ的似然性，例如P(τ|θ)，

N_fp：待估计的自由参数的数量，和

N_TDOA：TDOA样本的总数。

由于在等式1.33中比较的模型可共享相同的N_fp和N_TDOA，因此，等式1.33可选择在给定TDOA估计的情况下使其似然性最大化的模型。

信道的组合。

下面描述两种方法，以组合可用信道之间的信息并执行最大后验(MAP)。

最大值(MAX)。

在最大值(MAX)情况下，可跨等式1.35给出的J个信道执行MAP(等式1.6)：

其中，i＝{1，…，N_spk}和j＝{1，2，…，J}。

平均值(AVG)。

在平均值(AVG)情况下，可对等式1.36给出的J个信道的平均值执行MAP(等式1.6)：

其中，i＝{1，...，N_spk}。

HMM。

图8描绘了根据本文描述的一个或多个说明性方面的HMM架构。可实现如图2所示的隐马尔可夫模型(HMM)800，以避免来自一个音频来源的非常短的表达(参见C.Mitchell的Modeling duration in a hidden markov model with the exponential family)。例如HMM的每个状态可表示一个音频来源。在该示例中，可以以等式集1.37计算转移概率a_qr和观测概率b_q：

a₁₂＝a₂₁

a₁₁＝1-a₁₂

a₂₂＝1-a₂₁

b₁(τ_l)＝P(θ₁ ^v|τ_l)

b₂(τ_l)＝P(θ₂ ^v|τ_l) (1.37)

其中，a₂₁可被计算为TDOA帧增量与平均讲话者持续时间的比率。在一个示例中，可假设大约平均讲话者持续时间为2.5s(参见X.Anguera Miro的Speaker diarization:areview of recent research)和TDOA帧增量为62.5ms。在该示例中，a₂₁＝0.025。该比率可从以下事实得出：相同状态下的步数是几何分布的(参见C.R.Shelton的Tutorial onstructured continuous-time markov processes)，其预期值为1/(1-a_qq)。因此1/(1-a_qq)可设置为帧中的平均讲话者持续时间。对于N_spk>2，所有状态仍然可互连，并且1/(1-a_qq)仍然可被计算为帧中的平均讲话者持续时间。在这个例子中，a_qr＝(1-a_qq)/(N_spk-1)。

因此，可通过应用维特比算法(其可由等式1.38给出)来提取帧l的讲话者估计标签：

其中，

δ_q(1)＝π_qb_q(τ₁)，

并且其中，可包括初始状态概率。

置信度测量。

置信度测量CM_l可指示在时刻l处估计的讲话者指数的可靠性，并且可通过等式1.39直接从问题公式(可由等式1.6给出)计算，如：

CM_l＝maxP(θ_i|τ_l) (1.39)

其中，根据遵循的策略来选择或组合信道，可计算出i＝{1，…，N_spk}和P(θ_i|τ_l)。

另外，通过找到使这些表达最大化的j，可使用诸如等式1.33或等式1.35的表达式来选择具有先验最佳语音信号的麦克风。

实验装置。

图9描绘了根据本文描述的一个或多个说明性方面的指示麦克风和音频来源的位置的模拟房间900。麦克风可在固定位置或在临时位置，并且音频来源可在由音频来源910、音频来源920、音频来源930、音频来源940表示的多个位置。

在一个示例中，模拟房间900可包括医生的办公室。音频来源910可以是医生，而另一个音频来源(例如音频来源940)可以是患者。麦克风可分布在房间900周围。在该示例中，为了实现稳健的ASR表现，可选择最佳麦克风信道用于ASR。可对接收的音频进行分割，以区分医生的话语和患者的话语。上述方法可用于检测最可靠的麦克风对并且稳健地分割音频，将其标记为谁说话以及何时说话。该方法可能不需要知道麦克风的位置。

在另一示例中，模拟可包括会议，其中，音频来源可包括会议中的参与者。每个参与者可将他或她自己的智能手机带到会议中，并使用录音应用程序记录会议。在会议结束时，音频记录应用程序可使用空间信息，来选择用于执行ASR和分割的最佳麦克风信号。上述方法可用于帮助识别与智能手机前端的自发多方会议中的最佳麦克风对。最佳麦克风对可对应于单个智能手机的多个麦克风或来自不同智能手机的麦克风的组合。如上所述，所描述的方法可能不需要校准的麦克风或麦克风的任何特殊阵列配置。

可考虑两个不同的数据库，来评估上述方法：包括模拟会议场景的人工数据库和包括从真实会议中提取的记录的真实数据库。

模拟房间的脉冲响应。

人工数据库可被设计为在不同的受控环境(例如麦克风/音频来源位置或混响水平)下测试所呈现方法的表现。在一个示例中，该数据库的主要特征可包括：

·两个不同的女性讲话者。

·总录音长度为28秒。

·包括十种不同的话语，每位讲话者五种。

·无其他噪声。

·为了创建表示会话语音的录音，十种话语中的三种话语很短：0.26秒、0.17秒和0.45秒。

·图9显示了使用的设置。图10显示了房间的尺寸和音频来源和麦克风的位置。

图10描绘了根据本文描述的一个或多个说明性方面的指示设置配置1000的表格。设置配置1000对应于图9中的音频来源910、音频来源920、音频来源930、音频来源940和麦克风的位置。方括号内的值表示x、y和z值。在该示例中，对于每个音频来源910、音频来源920、音频来源930、音频来源940，可有两个位置，而麦克风位置和房间大小可以是固定的。如上所述，房间可包括会议室或医生办公室。在另一示例中，每个音频来源可有多个位置，房间大小可以是固定的，并且麦克风可位于临时位置。在该示例中，麦克风可包括智能手机麦克风。

图11描绘了根据本文描述的一个或多个说明性方面的、为每个评估条件分配标签的表格。用于设置的三个房间声学参数1100、混响时间(T60)、清晰度指数(C50)和直接混响比(DRR)的值显示在图11中。

真实会议语料库。

真实数据库包括来自RT-05评估语料库的会议室会议(参见J.G.Fiscus的Therich transcription 2005spring meeting recognition evaluation)。该语料库是国家标准技术局转录系列的一部分，旨在推广和改进语音研究工具。此语料库中包含的会议提供了真实场景，以及多个音频来源之间的高度交互式讨论。在该改进的系统中，该算法在多个远距离麦克风上进行评估，该麦克风可放置在音频来源之间的桌子上。这可提供灵活的配置，这是因为麦克风可放置在房间的任何地方。这也可能呈现具有挑战性的场景(参见J.G.Fiscus的The rich transcription 2005spring meeting recognitionevaluation)。

图12描绘了根据本文描述的一个或多个说明性方面的在该评估中使用的记录的细节1200。来自不同站点的共有十个录音，包括AMI(增强型多方互动项目)、CMU(卡内基梅隆大学交互系统实验室)、ICSI(国际计算机科学研究所)、NIST(国家标准技术局)和VT(弗吉尼亚理工学院)。该评估集的长度约为每次录制2小时12分钟。

评估。

分析了所提出的方法，并将其与讲话者时间错误方面的上述基线进行了比较。

结果。

模拟房间脉冲响应。

在上面关于图9描述的人工设置，具有50％重叠的15秒的时间分析窗口可用于局部建模。

图13描绘了根据本文描述的一个或多个说明性方面的分割聚类结果1310、分割聚类结果1320的示例。蓝色和黄色段代表不同的音频来源。地面实况(顶部图)中的空白空间代表沉默。图13示出了使用MAX的R₁S₁的模拟记录和分割聚类结果的波形。在该模拟情况下，假设是完美语音活动检测，则无错误地执行分割聚类。

图14描绘了根据本文描述的一个或多个说明性方面实现的平均讲话者错误的比较。图14示出了使用所呈现的不同方法和OG基线平均实现的讲话者错误1410。在应用本节的方法时，可获得较低的错误。使用AVG+HMM方法可获得最佳表现，讲话者错误率(RRDER％)比基线相对降低30.8％。因此，改进的方法平均优于OG基线，即使它可能不假设麦克风在任何特定位置，并且它可在具有多于两个音频来源的场景中使用。

真实会议语料库。

对于真实评估集，音频来源可以是静止的。因此，为了优化结果，时间分析窗口可包括整个记录的大小。因此，可能不执行本地建模。此外，在该示例中，由于在设置正确数量的音频来源时开放源分割聚类工具的限制，使用最大数量的音频来源(例如十个)获得这些结果。在上述改进系统的情况下，对于测试记录，音频来源的数量被设置为十。同样，在该示例中，在开放源分割聚类工具系统中，将最大数量的音频来源设置为十。因此，可在相同的测试条件下比较两个系统。

图15描绘了根据本文描述的一个或多个说明性方面的在RT05数据库上实现的平均RRDER与不同方法的比较。图15示出了与基线(例如开放源分割聚类工具)平均实现的RRDER速率1510，以及在该工作中讨论的不同方法。图15首先表明，基线开放源分割聚类工具平均提供比所讨论的任何方法更差的表现。其次，使用AVG+HMM方法实现了此评估集的最佳方法，当与基线开放源分割聚类工具相比，其导致RRDER％为40.2％。第三，将HMM结合到系统中往往会改善表现。

开放源分割聚类工具可通过凝聚过程，在内部估计音频来源的数量。因此，它可尝试迭代地减少设置为十的音频来源的最大数量，直到达到最佳值。改进的方法不会尝试减少音频来源的数量，因此，它在记录中可用的每个TDOA流建立十个高斯模型。通过在后一种方法中设置正确数量的音频来源，RRDER增加到基线以下56.7％。该结果表明，改进的方法可能对高估音频来源的数量不是非常敏感。

图16描绘了根据本文描述的一个或多个说明性方面的、根据置信度测量范围分组的讲话者标签估计的准确度。不同的点表示在不同的RT05录音中实现的准确度。黑线表示每个置信度测量范围的这些点的平均值。图16示出了利用AVG+HMM获得的置信度测量1610，假设相对于讲话者标签估计准确度，音频来源的确切数量是已知的。每个置信度测量带和RT05中的十个不同记录计算该准确度。在此示例中，置信度测量带的宽度设置为0.1。另外，计算这些点的平均值并用黑线表示。随着准确度的增加，它显示了置信度测量的上升趋势。平均而言，置信度低于0.5的估计准确度为55％，而置信度高于0.5的估计准确度为77％。

图17描绘了根据本文描述的一个或多个说明性方面的整体分割聚类结果。从使用MREC帧滴管语音(dropper voice)活动检测(VAD)得到整体的分割聚类结果1710。这些整体的分割聚类结果1710反映了利用现有方法从RTDOA得到的端到端分割聚类结果。总体分割聚类结果1710反映了RTDOA与MFCC特征在第二阶段聚集和分割中的组合。

结合MFCC特征的RTDOA方法可减少整体DER，并且与现有的讲话者聚集和分割技术相比较，可产生图17中描绘的相对减少。

结论

本文已经描述了基于以具有特定约束的无监督方式对空间特征(例如TDOA估计)建模进行分割聚类的方法。

在相同的测试条件下，一种或多种方法优于已知方法，例如开放源分割聚类工具。此外，该方法还在来自RT05的实际会议记录中进行了评估，其中，它降低了基线开放源分割聚类工具的讲话者错误率(40.2％相对错误减少)。通过在每次记录中采用确切数量的音频来源，已经实现了改进方法的进一步减少。在这种情况下，RRDER％是56.7。可使用外部算法潜在地估计录制中的音频来源数量(参阅E.Zwyssig的Determining the number ofspeakers in a meeting using microphone array features)。

另外，讲话者估计的置信度测量表明，从改进方法中提取的后验概率与估计的准确度有关。

尽管用结构特征和/或方法行径专用的语言描述了本主题，但应理解的是，所附权利要求书中定义的主题不必限于上述具体特征或行径。而是，上述具体特征和行径是作为实现权利要求的示例形式而公开。

Claims

1.一种用于识别音频来源的方法，包括：

接收多个音频信号，其中，由多个麦克风的一对或多对接收所述多个音频信号中的每个音频信号；

针对每个音频信号，确定对应于针对所述多个麦克风的所述一对或多对的所述多个音频信号的接收时间差的到达时间延迟TDOA；

聚集所述TDOA以与所述音频来源或干扰中的一者相关联，产生聚集信息，其中，至少一个TDOA与所述音频来源相关联，以及至少一个TDOA与所述干扰相关联；和

使用由聚集所述TDOA产生的所述聚集信息分割由所述多个麦克风的所述一对或多对所接收的所述多个音频信号的每个音频信号，以识别所述音频来源。

2.根据权利要求1的所述方法，其中，所述多个麦克风包括至少三个麦克风，所述方法还包括：

为所述至少三个麦克风的可能对执行所述聚集，产生额外聚集信息；

基于所述额外聚集信息，针对所述至少三个麦克风的每对可能对，生成置信度测量；和

基于所述置信度测量，选择麦克风的一对所述可能对。

3.根据权利要求2的所述方法，其中，所述置信度测量由以下确定：

CM_l＝max P(θ_i|τ_l)，

其中，i＝{1，…，N_spk}，N_spk为讲话者的数量，τ_l为TDOA样本，和

其中，θ_i是讲话者模型，P(θ_i|τ_l)是基于信道选择策略确定的，是讲话者模型θ_i的后验概率。

4.根据权利要求1的所述方法，其中，使用统计模型执行所述聚集。

5.根据权利要求4的所述方法，其中，所述统计模型包括高斯混合模型GMM。

6.根据权利要求5的所述方法，其中，在多个小时间分析窗口的每个小时间分析窗口，确定所述GMM的多个输入参数，并且其中，所述GMM由以下确定：

其中，

其中，N₀包括多个重叠帧，

其中，v表示所述小时间分析窗口中的一者，和

其中，N_w包括每个小时间分析窗口的长度，

其中，θ为所述GMM，为给定数据τ的模型θ的似然性，

其中，τ为TDOA。

7.根据权利要求4的所述方法，其中，使用条件期望最大化来训练所述统计模型。

8.根据权利要求7的所述方法，还包括将线性约束应用于多个均值，其中，所述多个均值的至少第一均值与讲话者模型相关联，以及所述多个均值的至少第二平均值与噪声模型相关联，其中，所述线性约束由以下确定：

μ_B＝β₁，

μ₁＝β₂，

μ₂＝β₂+C₂，

…

其中，μ_B为噪声模型的均值，μi是第i个音频来源的均值，C为用于确定对均值的线性约束的矢量。

9.根据权利要求8的所述方法，还包括通过以下确定C_Nspk：

其中，

和/>

σ^*＝0.9N^-1/5·min(σ，IQR/1.34)，

其中，σ包括标准偏差，

其中，p(τ)为密度估计，

其中，N_TDOA是TDOA样本的总数，

其中，τ_maxNspk是第N_spk个最高峰，N_spk为讲话者的数量，

其中，τ_max1为最高峰，和

其中，IQR包括根据输入数据τ计算的四分位数范围。

10.根据权利要求7的所述方法，还包括将线性约束应用于多个标准偏差，其中，所述多个标准偏差的至少第一标准偏差与讲话者模型相关联，以及所述多个标准偏差的至少第二标准偏差与噪声模型相关联，其中，所述线性约束由以下确定：

σ_B＝1/Υ₁，

其中，Y项通过最大化给定输入数据的参数的似然性来估计。

11.根据权利要求1的所述方法，其中，所述多个麦克风中的至少一个麦克风放置在临时位置。

12.根据权利要求11的所述方法，其中，所述多个麦克风中的所述至少一个麦克风包括移动设备。

13.根据权利要求1的所述方法，其中，所述干扰包括背景噪声。

14.根据权利要求5的所述方法，还包括确定讲话者指数，其基于所述TDOA最大化每个GMM的后验概率MAP，并且其中，所述MAP通过以下最大化：

其中，P(τ|θ)是给定数据τ的模型θ的似然性，

其中，P(θ_i|τ_l)是基于信道选择策略确定的，是讲话者模型θ_i的后验概率。

15.一种用于选择麦克风对的方法，包括：

接收多个音频信号，每个音频信号由多个麦克风的一对或多对接收；

针对每个音频信号，确定对应于由所述一对或多对的所述多个音频信号的接收时间差的到达时间延迟TDOA；

针对所述多个麦克风的一个或多个麦克风对的每个麦克风对，基于所述TDOA，确定一个或多个高斯混合模型GMM；

确定最大化与所述GMM相关联的后验概率MAP的讲话者指数；和

至少部分地基于所述MAP，选择所述多个麦克风的所述一对或多对的所述麦克风对。

16.一种用于选择麦克风对的方法，包括：

通过多个麦克风的一对或多对的接收多个音频信号；

针对所述多个麦克风的一个或多个麦克风对的每个麦克风对，确定高斯混合模型GMM，其中，基于所述TDOA确定所述GMM而无需监督；

确定最大化与所述GMM相关联的后验概率MAP的讲话者指数；和

17.根据权利要求16的所述方法，其中，所述确定GMM还包括：

聚集所述TDOA以与音频来源相关联，产生聚集信息，其中，至少一个TDOA与语音相关联，以及至少一个TDOA与背景噪声相关联。

18.根据权利要求17的所述方法，还包括：

为麦克风的额外对执行所述聚集，从而产生额外聚集信息；

基于所述额外聚集信息，产生所述麦克风的额外对的置信水平；和

至少部分地基于所述置信水平，选择所述多个麦克风的所述一对或多对的所述麦克风对。

19.根据权利要求17的所述方法，还包括：基于所述聚集，对所述多个音频信号进行分割，以在固定间隔处识别所述音频来源。

20.根据权利要求18的所述方法，其中，所述置信度测量由以下确定：

CM_l＝max P(θ_i|τ_l)，

其中，i＝{1，…，N_spk}，N_spk为讲话者的数量，τ_l为给定TDOA样本，和