CN115552920A

CN115552920A - 用于多麦克风信号处理的数据增强的系统和方法

Info

Publication number: CN115552920A
Application number: CN202180033647.2A
Authority: CN
Inventors: D·夏尔马; P·A·纳伊勒; 龚嵘; S·克鲁奇宁; L·米兰诺维奇
Original assignee: Nuance Communications Inc
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-05-08
Filing date: 2021-05-07
Publication date: 2022-12-30
Also published as: WO2021226507A1; CN115606198A; EP4147227A1; CN115516555A; EP4147230A4; US20210350809A1; EP4147228A4; EP4147230A1; CN115516553A; US11232794B2; US11837228B2; US20210350814A1; EP4147228A1; CN115605953A; EP4147458A4; EP4147458A1; US20210350815A1; US20210350813A1; WO2021226574A1; US20210352405A1

Abstract

一种方法，计算机程序产品和计算系统，用于从多个麦克风中的每个麦克风接收语音信号从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

Description

用于多麦克风信号处理的数据增强的系统和方法

相关申请

本申请要求于2020年5月8日提交的以下美国临时申请第63/022,269号的权利，其全部内容通过引用并入本文。

背景技术

自动临床文档化(ACD)可用于例如将转录的对话(例如，医生、患者和/或其他参与者，例如患者的家庭成员、护士、医生助理等)语音转换为格式化(例如，医疗)报告。这样的报告可以被检查，例如以确保医生、抄写员等报告的准确性。

为了提高ACD的语音处理的准确性，数据增强可以允许通过增强现有数据以表示新的条件，来生成用于机器学习系统的新训练数据。例如，数据增强已被用于提高对真实世界部署中的语音的噪声和混响以及其他不可预测特征的鲁棒性(例如，与受控环境相比，当在真实世界环境中捕获语音信号时的问题和不可预测特性)。

音频记录系统的各种物理特性可能导致语音处理性能的降低。例如，微电子机械系统(MEMS)麦克风通常可以包括机械设备，其感测声学空气压力并且在大多数流行的消费设备(例如，移动电话、视频会议系统和多麦克风阵列系统)中形成用于声学信号采集的主传感器。

MEMS麦克风可能存在各种缺陷。例如，这些MEMS麦克风的已知缺陷通常包括麦克风灵敏度缺陷、麦克风自噪声、麦克风频率响应和谐波失真。

当设计多麦克风系统或阵列时，通常假设系统或阵列中的所有麦克风完全匹配良好。然而，这在现实世界系统中通常并不准确。因此，虽然传统方法试图估计这些缺陷并对其进行补偿(例如，通常仅考虑麦克风灵敏度)，或者通过依赖昂贵的校准过程来建立缺陷并补偿这些缺陷(这在大规模上是不可行的)，但底层增强算法依赖于完全匹配的麦克风。

发明内容

在一种实现方式中，由计算机执行的计算机实现的方法可以包括但不限于：接收来自多个麦克风中的每个麦克风的语音信号，从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括：将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括：至少部分地基于针对一个或多个基于自噪声的增强信号的预定信噪比，将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可以包括将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。

在另一实现中，计算机程序产品驻留在计算机可读介质上，并具有存储在其上的多个指令。当由处理器执行时，指令使处理器执行操作包括但不限于：从多个麦克风中的每个麦克风接收语音信号，从而定义多个信号。可以接收与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括：将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括：至少部分地基于针对一个或多个基于自噪声的增强信号的预定信噪比，将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可以包括：将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。

在另一实现中，计算系统包括处理器，并且存储器被配置为执行包括但不限于：从多个麦克风中的每个麦克风接收语音信号，从而定义多个信号的操作。处理器还可以被配置为接收与麦克风自噪声相关联的一个或多个噪声信号。处理器还可以被配置为至少部分基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

可以包括一个或多个以下特征。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：模拟代表麦克风自噪声的模型。接收与麦克风自噪声相关联的一个或多个噪声信号可以包括：测量来自至少一个麦克风的自噪声。至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行一个或多个基于自噪声的增强可以包括：将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将噪声信号添加到来自每个麦克风的语音信号可以包括至少部分地基于一个或多个基于自噪声的增强信号的预定信噪比，将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号。将来自一个或多个噪声信号的噪声信号添加到来自每个麦克风的语音信号可包含将来自一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的语音信号。多个麦克风可以定义麦克风阵列。

一个或多个实现的细节在附图和下面的描述中阐述。其他特征和优点将从说明书、附图和权利要求书中显而易见。

附图说明

图1是耦合到分布式计算网络的自动临床文档化计算机系统和数据增强过程的示意图；

图2是并入图1的自动临床文档化计算机系统的模块化ACD系统的示意图；

图3是被包括在图2的模块化ACD系统内的混合媒体ACD设备的示意图；

图4是图1的数据增强过程的一个实现的流程图；

图5至图6是根据图1的数据增强过程的各种实现的模块化ACD系统的示意图；

图7是图1的数据增强过程的一个实现的流程图；

图8是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图；

图9是图1的数据增强过程的一个实现的流程图；

图10是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图；

图11是根据图1的数据增强过程的一个实现的麦克风频率响应的示意图；

图12是图1的数据增强过程的一个实现的流程图；以及

图13是根据图1的数据增强过程的一个实现的模块化ACD系统的示意图。

各种附图中相同的附图标记表示相同的元件。

具体实施方式

系统概述：

参考图1，示出了数据增强过程10。如下面将更详细地讨论的，数据增强过程10可以被配置为使临床就诊信息的收集和处理自动化以生成/存储/分发医学记录。

数据增强过程10可以被实现为服务器侧过程、客户端侧过程或混合服务器侧/客户端侧过程。例如，数据增强过程10可以经由数据增强过程10s被实现为纯粹的服务器侧过程。备选地，数据增强过程10可以经由数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4中的一个或多个来实现为纯粹的客户端侧过程。备选地，数据增强过程10可以经由数据增强过程10s与数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4中的一个或多个相结合来实现为混合服务器侧/客户端侧过程。

因此，本公开中使用的数据增强过程10可以包括数据增强过程10s、数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和数据增强过程10c4的任意组合。

数据增强过程10S可以是服务器应用，并且可以驻留在自动临床文档化(ACD)计算机系统12上并且可以由其执行，ACD计算机系统12可以被连接到网络14(例如，互联网或局域网)。ACD计算机系统12可以包括各种组件，其示例可以包括但不限于：个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。

如本领域中已知的，SAN可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、RAID设备和NAS系统中的一个或多个。ACD计算机系统12的各种组件可以执行一个或多个操作系统，其示例可以包括但不限于：例如，MicrosoftWindows Server^tm、Redhat Linux^tm、Unix或定制操作系统。

可以存储在耦合到ACD计算机系统12的存储设备16上的数据增强过程10s的指令集合和子例程可以由包括在ACD计算机系统12内的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备16的示例可以包括但不限于：硬盘驱动器；RAID设备；随机存取存储器(RAM)；只读存储器(ROM)；以及所有形式的闪存存储设备。

网络14可以被连接到一个或多个辅助网络(例如，网络18)，其示例可以包括但不限于：例如，局域网；广域网；或内联网。

各种IO请求(例如，IO请求20)可以从数据增强过程10s、数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和/或数据增强过程10c4发送到ACD计算机系统12。IO请求20的示例可以包括但不限于数据写入请求(即，将内容写入ACD计算机系统12的请求)和数据读取请求(即，从ACD计算机系统12读取内容的请求)。

可以(分别)存储在(分别)耦合到ACD客户端电子设备28、30、32、34的存储设备20、22、24、26上的数据增强过程10c1、数据增强过程10c2、数据增强过程10c3和/或数据增强过程10c4的指令集合和子例程可以由(分别)并入ACD客户端电子设备28、30、32、34中的一个或多个处理器(未示出)和一个或多个存储器架构(未示出)来执行。存储设备20、22、24、26可以包括但不限于：硬盘驱动器；光盘驱动器；RAID设备；随机存取存储器(RAM)；只读存储器(ROM)，以及所有形式的闪存存储设备。ACD客户端电子设备28、30、32、34的示例可以包括但不限于，个人计算设备28(例如，智能电话、个人数字助理、膝上型计算机、笔记本计算机和台式计算机)、音频输入设备30(例如，手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表中的麦克风)和音频记录设备)、显示设备32(例如，平板计算机、计算机监控器和智能电视)，机器视觉输入设备34(例如，RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)、混合设备(例如，包括一个或多个上述参考设备的功能的单个设备；未示出)、音频呈现设备(例如，扬声器系统、耳机系统或耳塞系统；未示出)、各种医学设备(例如，医学成像设备、心脏监控器、体重秤、体温计和血压机；未示出)以及专用网络设备(未示出)。

用户36、38、40、42可以通过网络14或通过辅助网络18直接访问ACD计算机系统12。此外，ACD计算机系统12可以通过辅助网络18连接到网络14，如链路线44所示。

各种ACD客户端电子设备(例如，ACD客户端电子设备28、30、32、34)可以直接或间接耦合到网络14(或网络18)。例如，个人计算设备28被示为经由硬连线网络连接直接耦合到网络14。此外，机器视觉输入设备34被示为经由硬连线网络连接直接耦合到网络18。音频输入设备30被示为经由在音频输入设备30和无线接入点(即，WAP)48之间建立的无线通信信道46无线耦合到网络14，WAP 48被示为直接耦合到网络14。WAP 48可以是例如能够在音频输入设备30和WAP 48之间建立无线通信信道46的IEEE 802.11a、802.11b、802.11g、802.11n、Wi-Fi和/或蓝牙设备。显示设备32被示为通过在显示设备32和WAP 52之间建立的无线通信信道50无线耦合到网络14，WAP 52被示为直接耦合到网络14。

各种ACD客户端电子设备(例如，ACD客户端电子设备28、30、32、34)可以各自执行操作系统，其示例可以包括但不限于Microsoft Windows^tm、Apple Macintosh^tm、RedhatLinux^tm或定制操作系统，其中各种ACD客户端电子设备(例如，ACD客户端电子设备28、30、32、34)和ACD计算机系统12的组合可以形成模块化ACD系统54。

还参考图2，示出了模块化ACD系统54的简化示例实施例，其被配置为使临床文档化自动化。模块化ACD系统54可以包括：机器视觉系统100，其被配置为获得关于患者就诊的机器视觉就诊信息102；音频记录系统104，其被配置为获得关于患者就诊的音频就诊信息106；以及计算机系统(例如，ACD计算机系统12)，其被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106。模块化ACD系统54还可以包括：显示呈现(rendering)系统108，其被配置为呈现视觉信息110；以及音频呈现系统112，其被配置为呈现音频信息114，其中ACD计算机系统12可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。

机器视觉系统100的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备34，其示例可以包括但不限于，RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。音频记录系统104的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备30，其示例可以包括但不限于，手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备)。显示呈现系统108的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备32，其示例可以包括但不限于，平板计算机、计算机监控器和智能电视)。音频呈现系统112的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，音频呈现设备116，其示例可以包括但不限于，扬声器系统、耳机系统和耳塞系统)。

如下面将更详细地讨论的，ACD计算机系统12可以被配置为访问一个或多个数据源118(例如，多个单独的数据源120、122、124、126、128)，其示例可以包括但不限于，用户简档数据源、声纹数据源、声音特性数据源(例如，用于适配自动语音识别模型)、脸纹数据源、类人数据源、话语标识符数据源、可穿戴令牌标识符数据源、交互标识符数据源、医疗状况症状数据源、处方兼容性数据源、医疗保险覆盖范围数据源和家庭保健数据源中的一个或多个。虽然在该特定示例中示出了数据源118的五个不同示例，但这仅用于说明目的，并不旨在作为本公开的限制，因为其他配置是可能的并且被认为在本公开的范围内。

如下面将更详细地讨论的，模块化ACD系统54可以被配置为监控临床环境中的监控空间(例如，监控空间130)，其中该临床环境的示例可以包括但不限于：医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施。因此，上述患者就诊的示例可以包括但不限于，患者访问一个或多个上述临床环境(例如，医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)。

当上述临床环境更大或需要更高级别的分辨率时，机器视觉系统100可以包括多个分立机器视觉系统。如上所述，机器视觉系统100的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备34，其示例可以包括但不限于RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统)。因此，机器视觉系统100可以包括RGB成像系统、红外成像系统、紫外成像系统、激光成像系统、声纳成像系统、雷达成像系统和热成像系统中的每一个中的一个或多个。

当上述临床环境更大或需要更高级别的分辨率时，音频记录系统104可以包括多个分立的音频记录系统。如上所述，音频记录系统104的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备30，其示例可以包括但不限于手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能电话、平板计算机和/或手表内的麦克风)和音频记录设备)。因此，音频记录系统104可以包括手持麦克风、翻领麦克风、嵌入式麦克风(诸如嵌入眼镜、智能手机、平板计算机和/或手表内的麦克风)和音频记录设备中的每一个中一个或多个。

当上述临床环境更大或需要更高级别的分辨率时，显示呈现系统108可以包括多个分立的显示呈现系统。如上所述，显示呈现系统108的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，ACD客户端电子设备32，其示例可以包括但不限于，平板计算机、计算机监控器和智能电视)。因此，显示呈现系统108可以包括平板计算机、计算机监控器和智能电视中的每一个中的一个或多个。

当上述临床环境更大或需要更高级别的分辨率时，音频呈现系统112可以包括多个分立的音频呈现系统。如上所述，音频呈现系统112的示例可以包括但不限于：一个或多个ACD客户端电子设备(例如，音频呈现设备116，其示例可以包括但不限于，扬声器系统、耳机系统或耳塞系统)。因此，音频呈现系统112可以包括扬声器系统、耳机系统或耳塞系统中的每一个中的一个或多个。

ACD计算机系统12可以包括多个分立计算机系统。如上所述，ACD计算机系统12可以包括各种组件，其示例可以包括但不限于：个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统、以及基于云的存储平台。因此，ACD计算机系统12可以包括个人计算机、服务器计算机、一系列服务器计算机、小型计算机、大型计算机、一个或多个网络附接存储(NAS)系统、一个或多个存储区域网络(SAN)系统、一个或多个平台即服务(PaaS)系统、一个或多个基础设施即服务(IaaS)系统、一个或多个软件即服务(SaaS)系统、基于云的计算系统和基于云的存储平台中的每一个中的一个或多个。

还参考图3，音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如，音频记录系统104可以包括多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)，其可以形成麦克风阵列200。如下面将更详细地讨论的，模块化ACD系统54可以被配置为经由包括在音频记录系统104内的分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)形成一个或多个音频记录波束(beam)(例如，音频记录波束220、222、224)。

例如，模块化ACD系统54还可以被配置为将一个或多个音频记录波束(例如，音频记录波束220、222、224)引导(steer)到上述患者就诊的一个或多个就诊参与者(例如，就诊参与者226、228、230)。就诊参与者(例如，就诊参与者226、228、230)的示例可以包括但不限于：医疗专业人员(例如，医生、护士、医生助理、实验室技术人员、物理治疗师、抄写员(例如，转录员)和/或参与患者就诊的工作人员)、患者(例如，正在为患者就诊访问上述临床环境的人)和第三方(例如，参与患者就诊的患者的朋友、患者的亲属和/或患者的熟人)。

因此，模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)来形成音频记录波束。例如，模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备210来形成音频记录波束220，从而使得能够捕获由就诊参与者226产生的音频(例如，语音)(因为音频采集设备210指向(即，定向)就诊参与者226)。此外，模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备204、206来形成音频记录波束222，从而使得能够捕获由就诊参与者228产生的音频(例如，语音)(因为音频采集设备204、206指向(即，定向)就诊参与者228)。此外，模块化ACD系统54和/或音频记录系统104可以被配置为利用音频采集设备212、214来形成音频记录波束224，从而使得能够捕获由就诊参与者230产生的音频(例如，语音)(因为音频采集设备212、214指向(即，定向)就诊参与者230)。此外，模块化ACD系统54和/或音频记录系统104可以被配置为利用零控预编码(null-steering precoding)来消除讲话者之间的干扰和/或噪声。

如本领域所公知的，零控预编码是一种空间信号处理方法，通过该方法，多天线发射机可以使无线通信中的多用户干扰信号归零，其中零控预编码可以减轻背景噪声和未知用户干扰的影响。

具体地，零控预编码可以是一种用于窄带信号的波束成形方法，其可以补偿在天线阵列的不同元件处从特定源接收信号的延迟。一般而言，为了提高天线阵列的性能，可以对传入信号进行求和以及求平均，其中可以对某些信号进行加权并且可以对信号延迟进行补偿。

机器视觉系统100和音频记录系统104可以是独立设备(如图2所示)。另外地/备选地，机器视觉系统100和音频记录系统104可以组合成一个封装(package)以形成混合媒体ACD设备232。例如，混合媒体ACD设备232可以被配置为安装到上述临床环境(例如，医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的结构(例如，墙、天花板、梁、柱)，从而允许容易地安装它们。此外，模块化ACD系统54可以被配置为在上述临床环境更大或需要更高级别的分辨率时，包括多个混合媒体ACD设备(例如，混合媒体ACD设备232)。

模块化ACD系统54还可以被配置为至少部分地基于机器视觉就诊信息102将一个或多个音频记录波束(例如，音频记录波束220、222、224)引导到患者就诊的一个或多个就诊参与者(例如，就诊参与者226、228、230)。如上所述，混合媒体ACD设备232(以及其中包括的机器视觉系统100/音频记录系统104)可以被配置为监控患者就诊的一个或多个就诊参与者(例如，就诊参与者226、228、230)。

具体地，机器视觉系统100(作为独立系统或作为混合媒体ACD设备232的组件)可以被配置为检测上述临床环境(例如，医生办公室、医疗设施、医疗实践、医疗实验室、紧急护理设施、医疗诊所、急诊室、手术室、医院、长期护理设施、康复设施、护理室和临终关怀设施)内的类人形状。并且当机器视觉系统100检测到这些类人形状时，模块化ACD系统54和/或音频记录系统104可以被配置为利用一个或多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)来形成指向每个检测到的类人形状(例如，就诊参与者226、228、230)的音频记录波束(例如，音频记录波束220、222、224)。

如上所述，ACD计算机系统12可以被配置为(分别)从机器视觉系统100和音频记录系统104接收机器视觉就诊信息102和音频就诊信息106；并且可以被配置为(分别)向显示呈现系统108和音频呈现系统112提供视觉信息110和音频信息114。根据模块化ACD系统54(和/或混合媒体ACD设备232)的配置方式，ACD计算机系统12可以被包括在混合媒体ACD设备232内或混合媒体ACD设备232外部。

如上所述，ACD计算机系统12可以执行数据增强过程10的全部或一部分，其中数据增强过程10的指令集合和子例程(其可以存储在例如存储设备16、20、22、24、26中的一个或多个上)可以由ACD计算机系统12和/或一个或多个ACD客户端电子设备28、30、32、34来执行。

数据增强过程：

在与本公开一致的一些实现中，可以提供用于多通道语音处理系统(例如，神经增强(例如，波束成形)、多通道、端到端自动语音识别(MCE2E)系统等)的训练数据的数据增强的系统和方法，其具有一系列损坏配置文件，这允许底层语音处理算法“学习”以变得对麦克风系统的缺陷更加鲁棒。例如并且如上所述，数据增强允许通过增强现有数据以表示新的条件来为机器学习系统生成新的训练数据。例如，数据增强已被用于提高对真实世界部署中的语音的噪声和混响以及其他不可预测特性的鲁棒性(例如，与受控环境相比，当在真实世界环境中捕获语音信号时的问题和不可预测特性)。

在一些实现中，音频记录系统的各种物理特性可能导致语音处理性能的降低。例如，微电子机械系统(MEMS)麦克风通常可以包括机械设备，其感测声学空气压力并且在大多数流行的消费设备(例如，移动电话、视频会议系统和多麦克风阵列系统)中形成用于声学信号采集的主传感器。在一些实现中，麦克风通常可以包括分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)、放大器和/或模数转换系统。

在一些实现中，MEMS麦克风可能受到各种缺陷的影响。例如，这些MEMS麦克风中的已知缺陷通常包括麦克风灵敏度缺陷、麦克风自噪声、麦克风频率响应和谐波失真。如下面将更详细地讨论的，麦克风灵敏度通常包括麦克风对给定声压级别的响应。这可以因设备而异(例如，在麦克风阵列中因麦克风而异)。麦克风自噪声通常包括麦克风在完全安静的环境中输出的噪声量。在一些实现中，该噪声的频谱形状可能使得它对某些频率的影响比对其他频率的影响更大，并且不同的麦克风可能具有不同的自噪声级别/特性。在一些实现中，麦克风可以在不同频率处具有非平坦幅度和/或非线性频率响应。在一些实现中，麦克风或麦克风阵列的外壳可以将频谱整形引入麦克风频率响应。谐波失真可以是对给定纯音输入信号的麦克风输出的失真量的测量。虽然已经提供了麦克风缺陷的几个示例，但是可以理解，在本公开的范围内，当使用多个麦克风(例如，如麦克风阵列104中)执行语音处理操作时，其他缺陷可能会引入问题。

在设计神经波束成形或MCE2E系统时，通常假设系统或阵列中的所有麦克风完全匹配良好。然而，至少出于上述原因，这在现实世界系统中通常并不准确。因此，虽然传统方法试图估计这些缺陷并对其进行补偿(例如，通常仅考虑麦克风灵敏度)，或者通过依赖昂贵的校准过程来建立缺陷并补偿这些缺陷(这在大规模上是不可行的)，但底层增强算法通常依赖于完全匹配的麦克风。

如下面将更详细地讨论的，本公开的实现可以通过用允许底层语音处理算法‘学习’以变得对麦克风系统缺陷更鲁棒的一系列损坏简档来增强用于波束成形和MCE2E系统的训练数据，来解决麦克风之间的缺陷。在一些实现中，(多个)底层语音处理系统可以学习以结合系统的优化标准来解决一系列麦克风系统或阵列缺陷；而不是依赖外部校准数据或辅助处理，其本身可能不是传统系统中理想的。本公开的实现还可以避免底层语音处理系统的任何额外处理开销，并且不需要昂贵且耗时的麦克风系统校准数据。本公开的实现可以通过在训练期间学习麦克风系统的缺陷来解决麦克风系统性能随时间推移而降低的问题。

如上所述并且至少参考图4至图6，数据增强过程10可以从多个麦克风中的每个麦克风接收400信号，从而定义多个信号。可以对多个信号执行402一个或多个基于麦克风间增益的增强，从而定义一个或多个麦克风间增益增强的信号。

还参考图5，并且在一些实现中，音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如，音频记录系统104可以包括多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)，其可以形成麦克风阵列200。在一些实现中，每个音频采集设备或麦克风可以包括麦克风组件、放大器和模数转换系统。如上所述，每个麦克风(例如，音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。例如，麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中，麦克风配件、放大器、模数转换系统和/或麦克风外壳的组合可以改变与麦克风阵列200接收的信号相关联的麦克风间增益。

例如，假设麦克风202相对于其他麦克风引入例如两分贝增益，而麦克风212相对于其他麦克风引入例如一分贝增益。在该示例中，麦克风间增益不匹配可能导致语音处理系统(例如，语音处理系统300)进行错误或不准确的信号处理。因此，数据增强过程10可以对现有训练数据和/或从各种麦克风接收的信号执行402增强，以生成麦克风间增益增强的信号。这些麦克风间增益增强的信号可用于训练语音处理系统300以考虑麦克风阵列200中的麦克风之间的增益不匹配。

在一些实现中，数据增强过程10可以从多个麦克风中的每个麦克风接收400信号，从而定义多个信号。再次参考图5，并且在一些实现中，麦克风阵列200可以处理来自各种源的语音(例如，音频就诊信息106A-106C)。因此，麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如，多个信号500)。在一些实现中，数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收400信号。

在一些实现中，数据增强过程10可以对多个信号执行402一个或多个基于麦克风间增益的增强，从而定义一个或多个麦克风间增益增强的信号。基于麦克风间增益的增强信号通常可以包括信号或训练数据的增益的增强，该信号或训练数据表示与麦克风阵列中的麦克风之间的相对增益级别相关联的可变性或缺陷。如上所述，基于麦克风间增益的增强信号可以允许语音处理系统(例如，语音处理系统300)考虑麦克风增益级别之间的不匹配或变化，而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。

在一些实现中，对多个信号执行402一个或多个基于麦克风间增益的增强可以包括将来自多个增益级别的增益级别应用404于来自每个麦克风的信号。再次参考图5，并且在一些实现中，数据增强过程10可以将多个增益级别(例如，多个增益级别502)应用404于多个信号(例如，多个信号500)。在一些实现中，从多个麦克风(例如，麦克风阵列200)接收400的多个信号500可以在执行402一个或多个基于麦克风间增益的增强之前的任何时间被接收。例如，多个信号500可以包括使用麦克风阵列200生成的训练数据。在一些实现中，多个信号可以包括在语音信号的实时处理期间接收400的信号。以此方式，多个信号可用于在相对于接收多个信号时的任何时间执行402基于麦克风间增益的增强。

在一些实现中，多个增益级别可以与特定麦克风或特定麦克风阵列相关联。例如，假设讲话者在会议室中讲话，会议室内部署了电话会议系统的麦克风阵列。在该示例中，麦克风阵列的麦克风的属性可以在由麦克风阵列处理的语音信号中引入基于麦克风间增益的变化。现在假设讲话者在分离的计算设备内向虚拟助手讲话。在该示例中，尽管环境特征保持不变(即，会议室)，但虚拟助手的麦克风阵列可以具有可能与电话会议系统的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中，麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此，数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。

在一些实现中，数据增强过程10可以接收对目标麦克风阵列的选择。目标麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中，数据增强过程10可以通过提供与目标麦克风阵列相关联的特定的基于麦克风间增益的特性来接收对目标麦克风阵列的选择。在一些实现中，数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中，数据增强过程10可以接收对麦克风阵列的各种特性(例如，麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如，经由图形用户界面)，以定义目标麦克风阵列。如下面将更详细地讨论的，并且在一些实现中，数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例，但是可以理解，可以在本公开的范围内以各种方式选择目标麦克风阵列(例如，由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。

在一些实现中，数据增强过程10可以至少部分地基于目标麦克风阵列对多个信号执行402一个或多个基于麦克风间增益的增强。如下面将更详细地讨论的，出于各种原因，可能希望增强与特定麦克风阵列相关联的多个信号。例如，并且在一些实现中，数据增强过程10可以对多个信号执行一个或多个基于麦克风间增益的增强，以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中，数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统，这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。

在另一示例中，数据增强过程10可以对多个信号执行402一个或多个基于麦克风间增益的增强，以生成用于语音处理系统的附加训练数据，该语音处理系统在相同或相似类型的麦克风阵列之间具有不同级别的增益不匹配或变化。以此方式，数据增强过程10可以通过用表示麦克风阵列的麦克风中的缺陷的各种增益级别来增强训练数据集合，来训练语音处理系统对增益的变化更加鲁棒。虽然已经提供了两个用于利用麦克风间增益增强的信号的示例，但是可以理解，在本公开的范围内，数据增强过程10可以出于各种其他目的对多个信号执行基于麦克风间增益的增强。例如，并且在一些实现中，基于麦克风间增益的增强可以用于用新的适配数据(例如，基于麦克风间增益的增强)适配语音处理系统。

在一些实现中，可以使用一个或多个机器学习模型来模拟要应用于多个信号的多个增益级别。例如，可以使用一个或多个机器学习模型来模拟麦克风阵列的多个增益级别，该一个或多个机器学习模型被配置为“学习”麦克风阵列或单个麦克风的特性如何影响从麦克风阵列接收的信号的增益级别。如本领域中已知的，机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。例如，根据可用信号的性质，机器学习方法通常可以分为三类：有监督学习、无监督学习和强化学习。如本领域中已知的，有监督学习可以包括向计算设备呈现示例输入及其期望的输出，其由“教师”给出，其中目标是学习将输入映射到输出的一般规则。在无监督学习的情况下，学习算法不会被赋予标签，让它自己找到输入中的结构。无监督学习本身可以是目标(发现数据中的隐藏模式)，或者可以是达到目的的一种手段(特征学习)。如本领域中已知的，强化学习通常可以包括在动态环境中交互的计算设备，在该动态环境中，计算设备必须执行特定目标(例如驾驶车辆或与对手玩游戏)。当程序在自己的问题空间中导航时，程序会被提供类似于奖励的反馈，它试图最大化这些奖励。虽然已经提供了机器学习方法的三个示例，但是可以理解，在本公开的范围内，其他机器学习方法也是可能的。因此，数据增强过程10可以利用机器学习模型(例如，机器学习模型302)来模拟麦克风阵列或单个麦克风的特性如何影响从麦克风阵列接收的信号的增益级别。

在一些实现中，可以从一个或多个麦克风阵列测量要应用404于多个信号的多个增益级别。例如并且如上所述，数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中，数据增强过程10可以确定麦克风阵列的每个麦克风的增益级别。例如，数据增强过程10可以定义麦克风阵列的增益级别范围(例如，通常针对每个麦克风和/或麦克风阵列)。如下面将更详细地讨论的，数据增强过程10可以定义麦克风阵列的增益级别的分布(例如，通常针对每个麦克风和/或麦克风阵列)。在一些实现中，增益级别的分布可以是频率的函数，使得通常针对特定麦克风和/或麦克风阵列，作为频率的函数观察到不同的增益级别。

在一些实现中，将来自多个增益级别的增益级别应用404于来自每个麦克风的信号可以包括：将来自预定义的增益级别范围的增益级别应用406于来自每个麦克风的信号。例如，预定义的增益级别范围可以包括最大增益级别和最小增益级别。在一个示例中，预定义的增益级别范围可以是默认的增益级别范围。在另一示例中，可以根据特定麦克风阵列的训练数据集来确定预定义的增益级别范围。在另一示例中，预定义的增益级别范围可以手动定义(例如，由用户通过用户界面)。虽然已经描述了可以如何定义增益级别范围的几个示例，但是可以理解，在本公开的范围内可以以各种方式定义预定义的增益级别范围。

继续上面的示例，假设麦克风202相对于其他麦克风引入例如两分贝增益，而麦克风212相对于麦克风阵列200的其他麦克风引入例如一分贝增益，尽管麦克风202、204、206、208、210、212、214、216、218是相同的。在该示例中，数据增强过程10可以将预定义的增益级别范围定义为例如零分贝到例如两分贝。数据增强过程10可以对来自每个麦克风202、204、206、208、210、212、214、216、218的每个信号应用406增益级别502，其范围从例如零分贝到例如两分贝。因此，数据增强过程10可以通过将预定义的增益级别范围中的多个增益级别应用406于每个麦克风的信号以生成麦克风间增益增强的信号504，来对每个信号执行402一个或多个基于麦克风间增益的增强。

在一些实现中，将来自多个增益级别的增益级别应用404于来自每个麦克风的信号可以包括：将来自预定义的增益级别范围的随机增益级别应用408于来自每个麦克风的信号。例如，数据增强过程10可以将从预定义的增益级别范围中随机选择的增益级别应用于每个麦克风的信号，以生成一个或多个麦克风间增益增强的信号(例如，麦克风间增益增强的信号504)。

在一些实现中，可以通过指定跨麦克风的最大和最小变化的参数来控制增益变化。例如，数据增强过程10可以接收对增益级别变化参数的选择(例如，从用户经由用户界面)，以定义跨多个麦克风的增益级别的最大和/或最小变化。例如，增益级别变化参数可以包括增益级别的分布。在一些实现中，增益级别变化参数可以包括增益级别中的随机变化、根据高斯分布的增益级别变化、根据泊松分布的增益级别变化、和/或被配置为由机器学习模型学习的增益级别变化。因此，应当理解，增益级别变化参数可以包括任何类型的增益级别分布，从中可以将增益级别应用于一个或多个信号。在一些实现中，增益级别变化参数可以包括针对特定麦克风阵列或麦克风类型定义的默认增益级别变化参数。以此方式，数据增强过程10可以限制一个或多个麦克风间增益增强的信号的增益级别的变化。

在一些实现中，对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括：将一个或多个信号转换410到频域。还参考图6并且在一些实现中，数据增强过程10可以将从多个麦克风(例如，多个麦克风202、204、206、208、210、212、214、216、218)接收的多个信号转换410为信号的频域表示(例如，多个基于频域的信号600)。在一些实现中，将一个或多个信号转换410到特征域可以包括从信号获得频率分量。在一些实现中，数据增强过程10可以通过对信号应用短时傅立叶变换(STFT)来从信号获得频率分量。虽然讨论了作为从信号获得频率分量的方式的STFT，但是可以理解，在本公开的范围内，可以使用其他变换来从信号中导出频率分量和/或将信号的时域表示转换为信号的频域表示。

在一些实现中，对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括：将多个增益级别应用412于被转换到频域的一个或多个信号的多个频带。例如，麦克风阵列的增益级别可变性可能与频率相关。在一些实现中，数据增强过程10可以为多个频带定义多个增益级别。例如，数据增强过程10可以针对定义各种频带的增益级别的向量(例如，增益级别向量602)。在该示例中，增益级别向量602的每个条目可以对应于特定频率或频带。在一些实现中，数据增强过程10可以对每个频带应用412相同的增益级别，或者可以对从麦克风阵列接收的多个信号中的每个麦克风信号的每个频带应用412不同的增益级别。

在一些实现中，对一个或多个信号执行402一个或多个基于麦克风间增益的增强可以包括以下一项或多项：放大414一个或多个信号的至少一部分和衰减416一个或多个信号的至少一部分。例如，假设增益级别向量602为特定频带指定大于1的增益级别。在该示例中，数据增强过程10可以将来自每个麦克风的信号的频带放大414增益级别。在另一示例中，假设增益级别向量602为另一频带指定了小于1的增益级别。在该示例中，数据增强过程10可以将来自每个麦克风的信号的频带衰减416增益级别。因此，数据增强过程10可以通过放大414和/或衰减416麦克风阵列的每个麦克风的信号来对一个或多个信号执行402一个或多个基于麦克风间增益的增强。以此方式，数据增强过程10可以增强训练数据以解释或表示麦克风阵列的麦克风之间的麦克风间增益级别不匹配。

如上所述并且至少参考图7至图8，数据增强过程10可以从多个麦克风中的每个麦克风接收700语音信号，从而定义多个信号。可以接收702与麦克风自噪声相关联的一个或多个噪声信号。可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号，对多个信号执行704一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

还参考图8，并且在一些实现中，音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如，音频记录系统104可以包括多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)，其可以形成麦克风阵列200。在一些实现中，每个音频采集设备或麦克风可以包括麦克风配件、放大器和/或模数转换系统。如上所述，每个麦克风(例如，音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。例如，麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中，麦克风配件、放大器和/或模数转换系统的组合可能引入与麦克风阵列200接收的信号相关联的麦克风“自噪声”。如上所述，“自噪声”可以指麦克风在没有外部噪声的环境中定位时输出的噪声量。这种噪声的频谱形状可能对某些频率或频带的影响比其他频率或频带更大，并且不同的麦克风可能具有不同的自噪声级别或特性。

例如，假设麦克风204输出第一噪声信号，而麦克风214输出第二噪声信号。在该示例中，由每个麦克风输出的自噪声信号可能导致语音处理系统(例如，语音处理系统300)进行错误或不准确的信号处理。因此，数据增强过程10可以对现有训练数据和/或从各种麦克风接收700的信号执行704增强，以生成基于麦克风自噪声的增强信号。这些基于麦克风自噪声的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200的特定麦克风输出的自噪声。

在一些实现中，数据增强过程10可以从多个麦克风中的每个麦克风接收700信号，从而定义多个信号。再次参考图8，并且在一些实现中，麦克风阵列200可以处理来自各种源的语音(例如，音频就诊信息106A-106C)。因此，麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如，多个信号500)。在一些实现中，数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收700信号。

在一些实现中，数据增强过程10可以接收702与麦克风自噪声相关联的一个或多个噪声信号。如上所述，并且在一些实现中，每个麦克风可以在没有任何外部噪声的情况下输出噪声信号。输出噪声信号或麦克风自噪声的特性可以基于麦克风配件、放大器和/或模数转换系统的机电属性。再次参考图8，数据增强过程10可以从各种源(例如，一个或多个机器学习模型、部署在无噪声环境中的麦克风的测量等)接收702与麦克风自噪声相关联的一个或多个噪声信号(例如，一个或多个噪声信号800)。

在一些实现中，接收702与麦克风自噪声相关联的一个或多个噪声信号可以包括：模拟706表示麦克风自噪声的模型。例如，可以使用一个或多个机器学习模型来模拟一个或多个噪声信号，该一个或多个机器学习模型被配置为“学习”麦克风阵列或单个麦克风的特性如何生成噪声。如上所述并且如本领域中已知的，机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中，机器学习模型(例如，机器学习模型302)可以被配置为模拟麦克风的操作，以生成与麦克风自噪声相关联的一个或多个噪声信号(例如，一个或多个噪声信号800)。

在一些实现中，接收702与麦克风自噪声相关联的一个或多个噪声信号可以包括：测量708来自至少一个麦克风的自噪声。例如并且如上所述，数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中，数据增强过程10可以确定麦克风阵列的每个麦克风的自噪声(例如，一个或多个噪声信号800)。例如，数据增强过程10可以定义麦克风阵列的自噪声信号的分布(例如，通常针对每个麦克风和/或麦克风阵列)。在一些实现中，自噪声信号的分布可以是频率的函数，使得通常针对特定麦克风和/或麦克风阵列，作为频率的函数观察到不同的噪声响应。

在一些实现中，数据增强过程10可以至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号来对多个信号执行704一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。基于自噪声的增强信号通常可以包括信号或训练数据的增强，以包括表示由麦克风生成的自噪声的噪声。如上所述，基于自噪声的增强信号可以允许语音处理系统(例如，语音处理系统300)考虑由麦克风输出的自噪声，而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。

在一些实现中，一个或多个噪声信号可以与特定麦克风或麦克风阵列相关联。例如，假设讲话者在临床环境中讲话，该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中，麦克风阵列的麦克风的属性可以输出由麦克风阵列处理的语音信号中的各种噪声信号或噪声信号分布。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中，尽管环境特征保持相同(即，临床环境)，但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中，麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此，数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。

在一些实现中，数据增强过程10可以接收对目标麦克风阵列的选择。目标麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中，数据增强过程10可以通过提供与目标麦克风阵列相关联的特定自噪声特性来接收对目标麦克风阵列的选择。在一些实现中，数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中，数据增强过程10可以接收对麦克风阵列的各种特性(例如，麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如，经由图形用户界面)，以定义目标麦克风阵列。如下面将更详细地讨论的，并且在一些实现中，数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例，但是可以理解，可以在本公开的范围内以各种方式选择目标麦克风阵列(例如，由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。

在一些实现中，数据增强过程10可以至少部分地基于目标麦克风阵列对多个信号执行704一个或多个基于自噪声的增强。如下面将更详细地讨论的，出于各种原因，可能希望增加与特定麦克风阵列相关联的多个信号。例如，并且在一些实现中，数据增强过程10可以对多个信号执行一个或多个基于自噪声的增强，以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中，数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统，这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。

在另一示例中，数据增强过程10可以对多个信号执行704一个或多个基于自噪声的增强，以生成用于语音处理系统的附加训练数据，其在相同或相似类型的麦克风或麦克风阵列中具有变化的自噪声。以此方式，数据增强过程10可以通过用表示麦克风阵列的麦克风中的缺陷的自噪声信号来增强训练数据集，来训练语音处理系统对麦克风自噪声更加鲁棒。虽然已经提供了用于利用基于自噪声的增强信号的两个示例，但是可以理解，在本公开的范围内，数据增强过程10可以针对各种其他目的对多个信号执行基于自噪声的增强。例如，并且在一些实现中，基于自噪声的增强可用于用新的适配数据(例如，基于自噪声的增强信号)来适配语音处理系统。

在一些实现中，至少部分地基于与麦克风自噪声相关联的一个或多个噪声信号对多个信号执行704一个或多个基于自噪声的增强可以包括：将来自一个或多个噪声信号的噪声信号添加710到来自每个麦克风的信号。例如，假设数据增强过程10接收702与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号。在该示例中，数据增强过程10可以将与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号添加到多个信号(例如，多个信号500)中的来自每个麦克风的信号。因此，数据增强过程10可以为来自每个麦克风的信号生成一个或多个基于自噪声的增强信号(例如，基于自噪声的增强信号802)。以此方式，数据增强过程10可以允许利用麦克风204的自噪声和麦克风214的自噪声来生成训练数据。虽然已经描述了麦克风阵列200中的两个麦克风的两个自噪声信号的示例，但是可以理解，在本公开的范围内，可以将任意数量的麦克风的任意数量的自噪声信号添加到来自每个麦克风的信号，以生成一个或多个基于自噪声的增强信号。

在一些实现中，将噪声信号添加710到来自每个麦克风的信号可以包括：至少部分地基于一个或多个基于自噪声的增强信号的预定义信噪比，将来自一个或多个噪声信号的噪声信号添加712到来自每个麦克风的信号。例如，数据增强过程10可以接收对一个或多个基于自噪声的增强信号的信噪比(SNR)的选择。在一些实现中，可以接收SNR比作为SNR参数的选择(例如，从用户经由用户界面)。在一些实现中，SNR参数可以包括为特定麦克风阵列或麦克风类型定义的默认SNR参数。

在一些实现中，将来自一个或多个噪声信号的噪声信号添加710到来自每个麦克风的信号可以包括：将来自一个或多个噪声信号的随机噪声信号添加714到来自每个麦克风的信号。例如并且如上所述，数据增强过程10可以接收与麦克风阵列的一个或多个麦克风的麦克风自噪声相关联的一个或多个噪声信号。继续上面的示例，假设数据增强过程10接收702与麦克风204的自噪声相关联的第一噪声信号和与麦克风214的自噪声相关联的第二噪声信号。在该示例中，数据增强过程10可以将随机噪声信号(例如，第一噪声信号和/或第二噪声信号)添加714到来自每个麦克风的信号(例如，来自每个麦克风202、204、206、208、210、212、214、216、218的信号)。以此方式，数据增强过程10可以为语音处理系统生成更多样的训练数据，其允许语音处理系统对麦克风阵列中的麦克风配件的麦克风自噪声更鲁棒。

如上所述并且至少参考图9至图11，数据增强过程10可以从多个麦克风中的每个麦克风接收900信号，从而定义多个信号。可以接收902与至少一个麦克风相关联的一个或多个麦克风频率响应。可以至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强，从而定义一个或多个基于麦克风频率响应的增强信号。

还参考图10，并且在一些实现中，音频记录系统104可以包括具有多个分立麦克风配件的定向麦克风阵列200。例如，音频记录系统104可以包括多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)，其可以形成麦克风阵列200。在一些实现中，每个音频采集设备或麦克风可以包括麦克风配件、放大器和模数转换系统。如上所述，每个麦克风(例如，音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。

例如，麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中，麦克风配件、放大器、模数转换系统和/或每个麦克风的外壳的组合可能引入麦克风频率响应。在一些实现中，麦克风频率响应可以指幅度方面的非平坦频率响应和相位方面的非线性频率响应，其指示不同频率处的麦克风灵敏度的改变。典型的MEMS麦克风展示了非平坦频率响应形状。例如，麦克风外壳还可以将频谱整形引入麦克风频率响应。还参考图11，并且在一些实现中，麦克风频率响应可以作为应用于麦克风的各种类型的覆盖物或垫片的函数而变化。因此，应当理解，麦克风的频率响应可以包括针对麦克风的不同物理特性的信号幅度和/或相位的变化。在一些实现中，改变麦克风阵列的一个或多个麦克风的麦克风频率响应可能导致语音处理系统对语音信号的错误处理。

例如，假设麦克风206以第一麦克风频率响应为特征，而麦克风216以第二频率响应为特征。在该示例中，由每个麦克风产生的麦克风频率响应可能导致语音处理系统(例如，语音处理系统300)进行错误或不准确的信号处理。因此，数据增强过程10可以对现有训练数据和/或从各种麦克风接收的信号900执行904增强，以生成基于麦克风频率响应的增强信号。这些基于麦克风频率响应的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200中的特定麦克风生成的频率响应。

在一些实现中，数据增强过程10可以从多个麦克风中的每个麦克风接收信号900，从而定义多个信号。再次参考图10，并且在一些实现中，麦克风阵列200可以处理来自各种源的语音(例如，音频就诊信息106A-106C)。因此，麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如，多个信号500)。在一些实现中，数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收900信号。

在一些实现中，数据增强过程10可以接收902与至少一个麦克风相关联的一个或多个麦克风频率响应。如上所述，并且在一些实现中，每个麦克风可以基于麦克风的物理特性来生成频率响应。麦克风频率响应的形状(例如，在幅度和相位方面)可以基于麦克风配件、放大器、模数转换系统和/或麦克风外壳的机电属性。再次参考图10，数据增强过程10可以从各种源(例如，一个或多个机器学习模型、从对至少一个麦克风的频率响应的测量等)接收902与至少一个麦克风相关联的一个或多个麦克风频率响应(例如，一个或多个麦克风频率响应1000)。

在一些实现中，接收902与至少一个麦克风相关联的一个或多个频率响应可以包括：模拟906表示麦克风频率响应的一个或多个模型。例如，可以使用一个或多个机器学习模型来模拟一个或多个麦克风频率响应，该一个或多个机器学习模型被配置为“学习”各个麦克风的频率响应。如上所述并且如本领域中已知的，机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中，机器学习模型(例如，机器学习模型302)可以被配置为模拟麦克风的操作以生成一个或多个频率响应(例如，一个或多个麦克风频率响应1000)。

在一些实现中，接收902与至少一个麦克风相关联的一个或多个频率响应可以包括：测量908来自至少一个麦克风的频率响应。例如并且如上所述，数据增强过程10可以从麦克风阵列接收多个信号。在一些实现中，数据增强过程10可以确定麦克风阵列的每个麦克风的频率响应。例如，数据增强过程10可以定义麦克风阵列的频率响应的分布(例如，通常针对每个麦克风和/或麦克风阵列)。

在一些实现中，数据增强过程10可以至少部分地基于一个或多个麦克风频率响应对多个信号执行一个或多个基于麦克风频率响应的增强，从而定义一个或多个基于麦克风频率响应的增强信号。基于麦克风频率响应的增强信号通常可以包括信号或训练数据的增强，以包括作为频率的函数的信号或训练数据的相位和/或幅度的增强。如上所述，基于麦克风频率响应的增强信号可以允许语音处理系统(例如，语音处理系统300)考虑作为麦克风的频率的函数的相位和/或幅度变化，而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。

在一些实现中，一个或多个麦克风频率响应可以与特定麦克风或麦克风阵列相关联。例如，假设讲话者在临床环境中讲话，该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中，麦克风阵列的麦克风的属性可以生成各种频率响应。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中，尽管环境特征保持相同(即，临床环境)，但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中，麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此，数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。

在一些实现中，数据增强过程10可以接收对目标麦克风或麦克风阵列的选择。目标麦克风或麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中，数据增强过程10可以通过提供与目标麦克风或麦克风阵列相关联的特定频率响应来接收对目标麦克风或麦克风阵列的选择。在一些实现中，数据增强过程10可以利用图形用户界面来从目标麦克风阵列的库中接收对目标麦克风阵列的选择。在一个示例中，数据增强过程10可以接收对麦克风阵列的各种特性(例如，麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如，经由图形用户界面)，以定义目标麦克风阵列。如下面将更详细地讨论的，并且在一些实现中，数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例，但是可以理解，可以在本公开的范围内以各种方式选择目标麦克风阵列(例如，由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。

在一些实现中，数据增强过程10可以至少部分地基于目标麦克风或麦克风阵列对多个信号执行904一个或多个基于麦克风频率响应的增强。如下面将更详细地讨论的，出于各种原因，可能希望增强与特定麦克风阵列相关联的多个信号。例如，并且在一些实现中，数据增强过程10可以对多个信号执行一个或多个基于麦克风频率响应的增强，以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中，数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统，这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。

在另一示例中，数据增强过程10可以对多个信号执行一个或多个基于麦克风频率响应的增强，以生成用于语音处理系统的附加训练数据，其在相同或相似类型的麦克风阵列之中具有变化的频率响应。以此方式，数据增强过程10可以通过用各种频率响应或频率响应分布来增强训练数据集，来训练语音处理系统对频率响应的变化更鲁棒。虽然已经提供了用于利用基于麦克风频率响应的增强信号的两个示例，但是可以理解，在本公开的范围内，数据增强过程10可以针对各种其他目的对多个信号执行基于麦克风频率响应的增强。例如，并且在一些实现中，基于频率响应的增强可用于用新的适配数据适配语音处理系统(例如，基于麦克风频率响应的增强)。

在一些实现中，至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括：至少部分地基于一个或多个麦克风频率响应来增强910多个信号的一个或多个幅度分量和相位分量。如上所述，并且在一些实现中，每个信号可以包括幅度分量和相位分量。继续上面的示例，假设麦克风206输出第一麦克风频率响应，而麦克风216输出第二频率响应。在该示例中，数据增强过程10可以利用与麦克风206相关联的第一麦克风频率响应幅度分量和/或相位分量和/或与麦克风216相关联的第二麦克风频率响应的幅度分量和/或相位分量来增强来自每个麦克风(例如，麦克风202、204、206、208、210、212、214、216、218)的信号。

在一些实现中，至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括：利用一个或多个麦克风频率响应对多个信号进行滤波912。例如，数据增强过程10可以利用一个或多个麦克风频率响应(例如，一个或多个麦克风频率响应1000)对来自多个信号(例如，多个信号500)中的每个麦克风信号进行滤波。如本领域中已知的，对信号进行滤波可以包括在时域中对信号进行卷积并且在频域中将信号相乘。例如，信号卷积是组合两个信号以形成第三信号的数学方法，而在时域中卷积信号相当于在频域中将信号的频谱相乘。在一些实现中，利用一个或多个麦克风频率响应(例如，一个或多个麦克风频率响应1000)对多个信号(例如，多个信号500)进行滤波912可以生成一个或多个基于麦克风频率响应的增强信号(例如，一个或多个基于麦克风频率响应的增强信号1002)。

继续上面的示例，数据增强过程10可以至少部分地基于一个或多个麦克风频率响应，通过利用与麦克风206相关联的麦克风频率响应对多个信号500进行滤波912，来对多个信号执行一个或多个基于麦克风频率响应的增强，以生成一个或多个基于麦克风频率响应的增强信号1002。在该示例中，利用与麦克风206相关联的麦克风频率响应对多个信号500进行滤波可以生成多个信号的幅度和/或相位增强或变化。以此方式，数据增强过程10可以生成增强信号(例如，一个或多个基于麦克风频率响应的增强信号1002)，其允许语音处理系统在处理语音信号时考虑特定麦克风的频率响应。

在一些实现中，至少部分地基于一个或多个麦克风频率响应对多个信号执行904一个或多个基于麦克风频率响应的增强可以包括：利用从一个或多个麦克风频率响应中随机选择的麦克风频率响应对多个信号进行滤波914。例如，数据增强过程10可以至少部分地基于一个或多个麦克风频率响应，通过利用从一个或多个麦克风频率响应1000中随机选择的幅度分量和/或相位分量对多个信号500进行滤波914，来对多个信号执行904一个或多个基于麦克风频率响应的增强。在该示例中，数据增强过程10可以从与麦克风206相关联的麦克风频率响应和/或与麦克风216相关联的麦克风频率响应中随机选择幅度分量和/或相位分量，以利用来自多个信号500的麦克风信号进行滤波914。虽然已经提供了例如两个频率响应的示例，但是可以理解，在本公开的范围内，数据增强过程10可以至少部分地基于一个或多个麦克风频率响应，通过从任意数量的麦克风频率响应中随机选择的幅度分量和/或相位分量对多个信号500进行滤波914，来对多个信号执行904一个或多个基于麦克风频率响应的增强。

如上所述并且至少参考图12至图13，数据增强过程10可以从多个麦克风中的每个麦克风接收1200信号，从而定义多个信号。可以确定1202与至少一个麦克风相关联的谐波失真。可以至少部分地基于与至少一个麦克风相关联的谐波失真，对多个信号执行1204一个或多个基于谐波失真的增强，从而定义一个或多个基于谐波失真的增强信号。

还参考图13，并且在一些实现中，音频记录系统可以包括具有多个分立麦克风组件的定向麦克风阵列200。例如，音频记录系统104可以包括多个分立音频采集设备(例如，音频采集设备202、204、206、208、210、212、214、216、218)，其可以形成麦克风阵列200。在一些实现中，每个音频采集设备或麦克风可以包括麦克风配件、放大器和模数转换系统。如上所述，每个麦克风(例如，音频采集设备202、204、206、208、210、212、214、216、218)在每个麦克风的配置或操作中可能具有缺陷和/或不匹配。

例如，麦克风阵列200中的每个麦克风可以包括影响每个麦克风处理语音信号的能力的各种物理特性。在一些实现中，麦克风配件、放大器和/或模数转换系统的组合可能引入谐波失真。在一些实现中，谐波失真可以指对给定纯音输入信号的麦克风输出上的失真量的测量。在一些实现中，改变与麦克风阵列的一个或多个麦克风相关联的总谐波失真值可能导致语音处理系统对语音信号的错误处理。

例如，假设麦克风208输出第一总谐波失真，而麦克风218输出第二总谐波失真。在该示例中，由每个麦克风产生的总谐波失真可能导致语音处理系统(例如，语音处理系统300)进行错误或不准确的信号处理。因此，数据增强过程10可以对现有训练数据和/或从各种麦克风接收1200的信号执行1204增强，以生成基于谐波失真的增强信号。这些基于谐波失真的增强信号可用于训练语音处理系统300以考虑由麦克风阵列200中的特定麦克风生成的谐波失真。

在一些实现中，数据增强过程10可以从多个麦克风中的每个麦克风接收1200信号，从而定义多个信号。再次参考图13，并且在一些实现中，麦克风阵列200可以处理来自各种源的语音(例如，音频就诊信息106A-106C)。因此，麦克风202、204、206、208、210、212、214、216、218可以生成表示由麦克风阵列200处理的语音的信号(例如，多个信号500)。在一些实现中，数据增强过程10可以从麦克风202、204、206、208、210、212、214、216、218中的一些或每一个接收1200信号。

在一些实现中，数据增强过程10可以确定1202与至少一个麦克风相关联的总谐波失真。例如，并且如上所述，总谐波失真可以指对给定纯音输入信号的麦克风输出上的失真量的测量。麦克风的输出可以包括基波信号和相加在一起的多个谐波。在一些实现中，数据增强过程10可以接收与至少一个麦克风相关联的总谐波失真(例如，总谐波失真1300)。在一些实现中，数据增强过程10可以通过测量1206来自至少一个麦克风的总谐波失真来确定1202与至少一个麦克风相关联的总谐波失真。

例如，数据增强过程10可以通过每个麦克风(例如，麦克风配件、放大器和/或模数转换系统的组合)输入频率为“ω”的正弦信号。在该示例中，可以以原始频率(即“ω”)的N*ω(谐波)的倍数来添加附加内容。数据增强过程10可以通过测量来自输出信号的输入信号中不存在的附加信号内容来确定每个麦克风的总谐波失真。在一些实现中，数据增强过程10可以确定每个麦克风的多个谐波阶数(例如，输入频率的倍数)。如下面将更详细地讨论的，总谐波失真的谐波阶数可以用作参数(例如，谐波失真参数)以执行一个或多个基于谐波失真的增强。

再次参考图13，并且在一些实现中，假设数据增强过程10向至少一个麦克风(例如，麦克风208、218)提供纯正弦输入。在该示例中，数据增强过程10可以测量1206来自麦克风208、218的输出的任何附加内容(即，不包括在输入信号中的内容)。因此，数据增强过程10可以至少部分地基于来自麦克风208、218的输出的附加内容来确定1202麦克风208输出第一总谐波失真，而麦克风218输出第二总谐波失真。虽然已经描述了确定例如与两个麦克风相关联的两个总谐波失真的示例，但是可以理解，在本公开的范围内可以确定1202任意数量的麦克风的任意数量的总谐波失真。

在一些实现中，确定1202与至少一个麦克风相关联的总谐波失真可以包括模拟表示总谐波失真的一个或多个模型。例如，可以使用一个或多个机器学习模型来模拟总谐波失真，该一个或多个机器学习模型被配置为“学习”各个麦克风的总谐波失真。如上所述并且如本领域中已知的，机器学习模型通常可以包括被训练为识别某些类型的模式的算法或算法组合。在一些实现中，机器学习模型(例如，机器学习模型302)可以被配置为模拟麦克风的操作，以生成与至少一个麦克风相关联的总谐波失真(例如，总谐波失真1300)。

在一些实现中，确定1202与至少一个麦克风相关联的总谐波失真可以包括：接收1208与至少一个麦克风相关联的谐波失真参数。再次参考图13，并且在一些实现中，谐波失真参数(例如，谐波失真参数1302)可以指示与至少一个麦克风相关联的谐波的阶数。例如，谐波失真参数1302可以是与麦克风的输出相关联的或在麦克风的输出处生成的多个谐波(例如，谐波失真参数“1”可以引用一阶谐波；谐波失真参数“2”可以引用一阶和二阶谐波；以及谐波失真参数“n”可以引用“n”阶谐波)。在一些实现中，数据增强过程10可以利用图形用户界面来接收对谐波失真参数1302的选择。在一些实现中，谐波失真参数1302可以是可以由用户定义或选择的值来更新或替换的缺省值。

在一些实现中，数据增强过程10可以响应于确定1202与至少一个麦克风相关联的总谐波失真，来接收1208与至少一个麦克风相关联的谐波失真参数。例如，并且如上所述，当测量或模拟总谐波失真时，数据增强过程10可以确定由至少一个麦克风输出的谐波的数量。继续上面的示例，假设数据增强过程10确定1202麦克风208输出具有例如五次谐波的总谐波失真。以此方式，数据增强过程10可以将谐波失真参数1302定义为例如5，以表示与麦克风208相关联的谐波的阶数。

在一些实现中，数据增强过程10可以至少部分地基于与至少一个麦克风相关联的总谐波失真来对多个信号执行一个或多个基于谐波失真的增强，从而定义一个或多个基于谐波失真的增强信号。基于谐波失真的增强信号(例如，基于谐波失真的增强信号1304)通常可以包括信号或训练数据的增强，以包括表示由麦克风输出的谐波分量相加的信号中的增强。如上所述，基于谐波失真的增强信号可以允许语音处理系统(例如，语音处理系统300)考虑在麦克风的输出信号中生成的谐波分量，而不需要在具有麦克风阵列的传统语音处理系统中使用的昂贵且复杂的信号补偿技术。

在一些实现中，一个或多个总谐波失真(例如，总谐波失真1300)可以与特定麦克风或麦克风阵列相关联。例如，假设讲话者在临床环境中讲话，该临床环境中部署有模块化ACD系统54的麦克风阵列。在该示例中，麦克风阵列的麦克风的属性可以输出各种总谐波失真。现在假设讲话者向位于临床环境中的分离计算设备内的虚拟助手讲话。在该示例中，尽管环境特征保持相同(即，临床环境)，但虚拟助手的麦克风阵列可以具有可能与模块化ACD系统54的麦克风阵列不同地影响信号处理的因素和特性。在一些实现中，麦克风阵列之间的区别可能对语音处理系统的性能具有各种影响。因此，数据增强过程10可以允许由一个麦克风阵列接收的语音信号用于训练具有其他麦克风阵列的语音处理系统和/或用于用新的适配数据适配语音处理系统或模型。

在一些实现中，数据增强过程10可以接收对目标麦克风或麦克风阵列的选择。目标麦克风或麦克风阵列可以包括一种类型的麦克风或麦克风阵列。在一些实现中，数据增强过程10可以通过提供与目标麦克风或麦克风阵列相关联的特定总谐波失真来接收对目标麦克风或麦克风阵列的选择。在一些实现中，数据增强过程10可以利用图形用户界面来接收在目标麦克风阵列的库中对目标麦克风阵列的选择。在一个示例中，数据增强过程10可以接收对麦克风阵列的各种特性(例如，麦克风阵列的类型、麦克风阵列的麦克风的布置等)的选择(例如，经由图形用户界面)，以定义目标麦克风阵列。在一些实现中，数据增强过程10可以接收目标麦克风阵列的特性的范围或分布。虽然已经描述了图形用户界面的示例，但是可以理解，在本公开的范围内可以以各种方式选择目标麦克风阵列(例如，由用户手动选择、通过数据增强过程10自动选择、预定义的目标麦克风阵列等)。

在一些实现中，数据增强过程10可以至少部分地基于与至少一个麦克风相关联的总谐波失真来对多个信号执行1204一个或多个基于谐波失真的增强。如下面将更详细地讨论的，出于各种原因，可能希望增强与特定麦克风阵列相关联的多个信号。例如，并且在一些实现中，数据增强过程10可以对多个信号执行一个或多个基于谐波失真的增强，以利用多个信号训练具有目标麦克风阵列的语音处理系统。在该示例中，数据增强过程10可以利用由不同麦克风阵列接收的语音信号来训练语音处理系统，这可以允许语音处理系统使用增强的训练信号集合与各种麦克风阵列一起有效地利用。

在另一示例中，数据增强过程10可以对多个信号执行1204一个或多个基于谐波失真的增强，以生成用于语音处理系统的附加训练数据，其在相同或相似类型的麦克风阵列之间具有变化的总谐波失真。以此方式，数据增强过程10可以通过用各种谐波失真或谐波失真分布来增强训练数据集，来训练语音处理系统对谐波失真的变化更加鲁棒。虽然已经提供了用于利用基于谐波失真的增强信号的两个示例，但是可以理解，在本公开的范围内，数据增强过程10可以出于各种其他目的对多个信号执行基于谐波失真的增强。例如，并且在一些实现中，基于谐波失真的增强可用于利用新的适配数据(例如，基于谐波失真的增强1304)适配语音处理系统。

在一些实现中，至少部分地基于谐波失真参数对多个信号执行1204一个或多个基于谐波失真的增强可以包括：至少部分地基于谐波失真参数和谐波失真系数表来生成1210基于谐波失真的增强信号。例如，数据增强过程10可以利用谐波失真参数1302和谐波失真系数表来生成一个或多个基于谐波失真的增强信号(例如，基于谐波失真的增强信号1306)。在一些实现中，数据增强过程10可以参考来自被测量设备的样本(例如，从多个麦克风测量的总谐波失真)的共同总谐波失真系数表(例如，谐波失真系数表1306)。在一些实现中，数据增强过程10可以至少部分地基于如下公式1中所示的谐波失真参数和谐波失真系数表来生成1210基于谐波失真的增强信号，其中“N”是最高谐波失真的阶数(例如，基于谐波失真参数)，并且“p[N]”表示第N次谐波对总谐波失真的贡献：

(1)谐波失真信号＝p[0]·x^N-1+p[1]·x^N-2+…+p[N-2]·x+p[N-1]

在一些实现中，数据增强过程10可以至少部分地基于从至少一个麦克风测量的总谐波失真来生成1212谐波失真系数表。在一个示例中，假设数据增强过程10测量1206与麦克风208相关联的总谐波失真。如上所述，假设数据增强过程10向麦克风208提供纯正弦输入。在该示例中，假设数据增强过程10针对来自麦克风208的输出的任何附加内容(即，不包括在输入信号中的内容)测量1206，并且确定麦克风208输出具有例如5个谐波分量(例如，麦克风208的输出信号中的1到5次谐波)的总谐波失真。数据增强过程10可以至少部分地基于麦克风208的输出信号来生成1212具有一个或多个谐波失真系数的谐波失真系数表1306。虽然上面的示例描述了从单个麦克风的总谐波失真生成具有谐波失真系数的谐波失真系数表，但是可以理解，在本公开的范围内，数据增强过程10可以为任意数量的麦克风生成1212具有任意数量的谐波失真系数的谐波失真系数表1306。

继续上面的示例，假设数据增强过程10确定1202麦克风208输出具有例如5次谐波的第一总谐波失真。在该示例中，数据增强过程10可以将麦克风208的谐波失真参数1302定义为“5”，指示5个谐波分量或阶数。在一些实现中，数据增强过程10可以查找或标识一个或多个谐波失真系数以利用麦克风208的谐波失真参数“5”应用于公式1。因此，数据增强过程10可以至少部分地基于谐波失真参数1302和谐波失真系数表1306，从多个信号(例如，多个信号500)生成一个或多个基于谐波失真的增强信号1304。以此方式，数据增强过程10可以增强多个信号500以对麦克风208的谐波失真更鲁棒。尽管以上示例包括至少部分地基于与一个麦克风相关联的谐波失真参数来生成一个或多个基于谐波失真的增强信号，但是可以理解，在本公开的范围内，针对任意数量的麦克风确定的任意数量的谐波失真参数和/或总谐波失真，可以生成任意数量的基于谐波失真的增强信号。一般信息：

如本领域技术人员将理解的，本公开可以被实施为一种方法、系统或计算机程序产品。因此，本公开可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)，或者是结合了软件和硬件方面的实施例的形式，本文通常可以将其统称为“电路”、“模块”或“系统”。此外，本公开可以采取计算机可用存储介质上的计算机程序产品的形式，在该介质中实施有计算机可用程序代码。

可以利用任何适合的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非穷举列表)可以包括以下内容：具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、诸如支持互联网或内联网的那些传输介质的传输介质、或磁存储设备。计算机可用或计算机可读介质也可以是在其上打印程序的纸张或其他适合的介质，因为程序可以通过例如对纸张或其他介质的光学扫描来电子捕获，然后在必要时以适当的方式编译、解释或以其他方式处理，然后存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是可以包含、存储、通信、传播或传输由指令执行系统、装置或设备使用或与之结合的程序的任何介质。该计算机可用介质可以包括传播的数据信号，其具有在基带中或作为载波的一部分实施在其中的计算机可用程序代码。计算机可用程序代码可以使用任何适当的介质来传输，包括但不限于互联网、有线、光纤电缆、RF等。

用于执行本公开的操作的计算机程序代码可以用面向对象的编程语言编写，例如Java、Smalltalk、C++等。然而，用于执行本公开的操作的计算机程序代码也可以用传统过程编程语言来编写，诸如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上且部分在远程计算机上或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过局域网/广域网/互联网(例如，网络14)连接到用户的计算机。

参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开。可以理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机/专用计算机/其他可编程数据处理装置的处理器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现一个或多个流程图和/或框图框中指定的功能/动作的装置。

这些计算机程序指令也可以存储在计算机可读存储器中，其可以指示计算机或其他可编程数据处理装置以特定方式运行，使得存储在计算机可读存储器中的指令产生包括实现一个或多个流程图和/或框图框中指定的功能/动作的指令装置的制品。

计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上，以使在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供用于实现一个或多个流程图和/或框图框中指定的功能/动作的步骤。

附图中的流程图和框图可以示出根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就此而言，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现(多个)指定逻辑功能的一个或多个可执行指令。还应注意的是，在一些备选实现中，框中注明的功能可以以附图中注明的顺序发生。例如，事实上，连续显示的两个框可以基本上同时执行，或者这些框有时可以相反的顺序执行，根本不执行，或者根据所涉及的功能与任何其他流程图的任何组合来执行。还应注意的是，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。

本文使用的术语仅用于描述特定实施例的目的，并不旨在限制本公开。如本文所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示。还应当理解，当在本说明书中使用时，术语“包括”和/或“包含”指定了所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

所附权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同形式旨在根据具体要求保护的内容，包括用于结合其他要求保护的元件执行功能的任何结构、材料或动作。本公开的描述是为了说明和描述的目的而提出的，但并不旨在穷尽本公开或将本公开限于所公开的形式。在不背离本公开的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了最好地解释本公开的原理和实际应用，并且使本领域普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。

已经描述了多个实现。在如此详细地并且参考其实施例描述了本申请的公开之后，显然，在不背离所附权利要求中限定的本公开的范围的情况下，修改和变型是可能的。

Claims

1.一种在计算设备上执行的计算机实现的方法，包括：

接收来自多个麦克风中的每个麦克风的语音信号，从而定义多个信号；

接收与麦克风自噪声相关联的一个或多个噪声信号；以及

至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

2.根据权利要求1所述的计算机实现的方法，其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：模拟表示麦克风自噪声的模型。

3.根据权利要求1所述的计算机实现的方法，接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：测量来自至少一个麦克风的自噪声。

4.根据权利要求1所述的计算机实施的方法，其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括：将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

5.根据权利要求4所述的计算机实现的方法，其中将噪声信号添加到来自每个麦克风的所述语音信号包括：至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比，将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

6.根据权利要求4所述的计算机实现的方法，其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括：将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。

7.根据权利要求1所述的计算机实现的方法，其中所述多个麦克风定义麦克风阵列。

8.一种计算机程序产品，所述计算机程序产品驻留在非瞬态计算机可读介质上，所述非瞬态计算机可读介质上存储有多个指令，所述指令在由处理器执行时，使所述处理器执行操作，所述操作包括：

接收与麦克风自噪声相关联的一个或多个噪声信号；以及

9.根据权利要求8所述的计算机程序产品，其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：模拟表示麦克风自噪声的模型。

10.根据权利要求8所述的计算机程序产品，其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：测量来自至少一个麦克风的自噪声。

11.根据权利要求8所述的计算机程序产品，其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括：将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

12.根据权利要求11所述的计算机程序产品，其中将噪声信号添加到来自每个麦克风的所述语音信号包括：至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比，将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

13.根据权利要求11所述的计算机程序产品，其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括：将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。

14.根据权利要求8所述的计算机程序产品，其中所述多个麦克风定义麦克风阵列。

15.一种计算系统，包括：

存储器；以及

处理器，被配置为接收来自多个麦克风中的每个麦克风的语音信号，从而定义多个信号，其中所述处理器还被配置为接收与麦克风自噪声相关联的一个或多个噪声信号，并且其中所述处理器还被配置为至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行一个或多个基于自噪声的增强，从而定义一个或多个基于自噪声的增强信号。

16.根据权利要求15所述的计算系统，其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：模拟表示麦克风自噪声的模型。

17.根据权利要求15所述的计算系统，其中接收与麦克风自噪声相关联的所述一个或多个噪声信号包括：测量来自至少一个麦克风的自噪声。

18.根据权利要求15所述的计算系统，其中至少部分地基于与麦克风自噪声相关联的所述一个或多个噪声信号对所述多个信号执行所述一个或多个基于自噪声的增强包括：将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

19.根据权利要求18所述的计算系统，其中将噪声信号添加到来自每个麦克风的所述语音信号包括：至少部分地基于针对所述一个或多个基于自噪声的增强信号的预定义信噪比，将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号。

20.根据权利要求18所述的计算系统，其中将来自所述一个或多个噪声信号的噪声信号添加到来自每个麦克风的所述语音信号包括：将来自所述一个或多个噪声信号的随机噪声信号添加到来自每个麦克风的所述语音信号。