CN114746937A

CN114746937A - 用于嘈杂的环境中的谈话隔离和安全性的使用深度神经网络动态频谱掩膜的参与者调谐过滤

Info

Publication number: CN114746937A
Application number: CN202080082205.2A
Authority: CN
Inventors: J·林顿; J·萨姆恩; P·比克; M·李; S·斯瑞恩瓦斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-12-02
Filing date: 2020-11-26
Publication date: 2022-07-12
Also published as: WO2021111259A1; DE112020005166T5; GB2606296A; US11257510B2; GB202209433D0; JP2023504132A; DE112020005166B4; US20210166714A1

Abstract

提供了隔离和放大所选择的参与者之间的谈话。接收多个频谱掩膜。所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者。复合频谱掩模是通过多个频谱掩模的加性叠加生成的。该复合频谱掩膜被应用于由麦克风捕捉的声音，以滤除与该复合频谱掩膜不匹配的声音并放大与该复合频谱掩膜匹配的剩余声音。

Description

用于嘈杂的环境中的谈话隔离和安全性的使用深度神经网络动态频谱掩膜的参与者调谐过滤

技术领域

本公开一般涉及频谱掩膜，尤其涉及用于嘈杂的环境中的参与谈话隔离和安全性的使用深度神经网络动态频谱掩膜谈话的参与者调谐过滤。

背景技术

在电信中，频谱掩膜是应用于声音的数学定义的过滤器。频谱掩膜一般旨在减少与频谱掩膜不匹配的声音。通常通过仅允许与频谱掩模匹配的那些声音通过来衰减这些不想要的声音。

发明内容

根据一个说明性实施例，提供一种用于隔离和放大所选参与者之间的谈话的方法。接收多个频谱掩膜。所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者。复合频谱掩模是通过多个频谱掩模的加性叠加生成的。该复合频谱掩膜被应用于由麦克风捕捉的声音，以滤除与该复合频谱掩膜不匹配的声音并放大与该复合频谱掩膜匹配的剩余声音。根据其他说明性实施例，提供一种用于隔离和放大所选参与者之间的谈话的移动设备和计算机程序产品。

不同的说明性实施例还将与复合频谱掩膜匹配的放大的剩余声音传输到对应于谈话的参与者的音频输出设备。进一步，音频输出设备邻近谈话的参与者的耳朵。

此外，不同的说明性实施例将谈话的参与者的语音样本发送到云环境的深度神经网络服务器，用于生成对参与者个性化的频谱掩膜，并从深度神经网络服务器接收对参与者个性化的频谱掩膜。不同的说明性实施例将对参与者个性化的频谱掩模与对应于所述谈话中包括的所选择的一组参与者的多频谱掩膜组合以形成所述复合频谱掩膜，使用所述复合频谱掩膜来过滤传入音频信号，以仅允许所选择的一组参与者与所述参与者之间的所述谈话保留在音频信号中，以及向所述音频输出设备传输仅包括所选择的一组参与者与所述参与者之间的所述谈话的所述音频信号。此外，不同的说明性实施例在对应于参与者和所选择的一组参与者的移动设备之间共享针对参与者个性化的频谱掩膜和对应于所选择的一组参与者的多个频谱掩膜，使得每个移动设备生成其自身的复合频谱掩膜，以用于过滤到每个移动设备的传入音频信号。

从第一方面来看，本发明提供了一种用于隔离和放大所选参与者之间的谈话的方法，所述方法包括：接收多个频谱掩膜，所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选参与者组中的相应参与者；通过所述多个频谱掩模的加性叠加来生成复合频谱掩模；以及将所述复合频谱掩模应用于由麦克风所捕获的声音以滤除与所述复合频谱掩模不匹配的声音并放大与所述复合频谱掩模匹配的剩余声音。

优选地，本发明提供一种方法，还包括：将与所述复合频谱掩膜匹配的放大的剩余声音传输到与所述谈话的参与者对应的音频输出设备。

优选地，本发明提供了一种方法，还包括：执行所述谈话的实时字幕；以及在附接有所述音频输出设备的移动设备屏幕或智能眼镜中的一个上向所述谈话的参与者显示所述谈话的所述实时字幕，用于读取所述谈话的文本以及收听所述谈话。

优选地，本发明提供一种方法，其中音频输出设备邻近谈话的参与者的耳朵。

优选地，本发明提供一种方法，还包括：将所述谈话的参与者的语音样本发送到云环境的深度神经网络服务器，用于生成对所述参与者个性化的频谱掩膜；以及从所述深度神经网络服务器接收对所述参与者个性化的所述频谱掩膜。

优选地，本发明提供一种方法，进一步包括：将对参与者个性化的频谱掩膜与对应于包括在谈话中的所选择的一组参与者的多个频谱掩膜进行组合以形成复合频谱掩膜；使用所述复合频谱掩膜过滤传入音频信号，以仅允许所选择的一组参与者和所述参与者之间的所述谈话保留在音频信号中；以及将仅包括所选择的一组参与者和所述参与者之间的所述谈话的所述音频信号传输到所述音频输出设备。

优选地，本发明提供一种方法，所述方法进一步包括：在对应于所述参与者和所选择的一组参与者的移动设备之间共享针对所述参与者个性化的所述频谱掩膜和对应于所选择的一组参与者的所述多个频谱掩膜，使得每个移动设备生成其自身的复合频谱掩膜，以用于过滤到每个移动设备的传入音频信号。

优选地，本发明提供一种方法，其中基于参与者的偏好，将对谈话的参与者个性化的频谱掩膜从复合频谱掩膜中排除。

优选地，本发明提供一种方法，其中所选择的一组参与者指示谁被授权参与谈话。

优选地，本发明提供一种方法，其中所述方法由移动设备执行。

优选地，本发明提供一种方法，其中所述移动设备从对应于包括在谈话中的所选择的一组参与者的移动设备无线地接收所述多个频谱掩模。

从第二方面来看，本发明提供了一种用于隔离和放大所选择的参与者之间的谈话的移动设备，所述移动设备包括：总线系统；连接到所述总线系统的存储设备，其中所述存储设备存储程序指令；以及连接到所述总线系统的处理器，其中所述处理器执行所述程序指令以：接收多个频谱掩膜，所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者；通过所述多个频谱掩模的加性叠加来生成复合频谱掩模；以及将所述复合频谱掩模应用于由麦克风所捕获的声音以滤除与所述复合频谱掩模不匹配的声音并放大与所述复合频谱掩模匹配的剩余声音。

优选地，本发明提供一种移动设备，其中处理器进一步执行程序指令以：将与复合频谱掩膜匹配的放大的剩余声音传输到对应于谈话的参与者的音频输出设备。

优选地，本发明提供一种移动设备，其中所述处理器还执行所述程序指令以：执行所述谈话的实时字幕；以及在附接有所述音频输出设备的移动设备屏幕或智能眼镜之一上向所述谈话的参与者显示所述谈话的所述实时字幕，用于读取所述谈话的文本以及收听所述谈话。

优选地，本发明提供一种移动设备，其中音频输出设备邻近谈话的参与者的耳朵。

优选地，本发明提供了一种移动设备，其中处理器还执行程序指令以：将谈话的参与者的语音样本发送到云环境的深度神经网络服务器，用于生成对参与者个性化的频谱掩膜；以及从所述深度神经网络服务器接收对所述参与者个性化的所述频谱掩模。

优选地，本发明提供一种移动设备，其中所述处理器进一步执行所述程序指令以：将对所述参与者个性化的所述频谱掩膜与对应于包括在所述谈话中的所选择的一组参与者的所述多个频谱掩膜进行组合以形成所述复合频谱掩膜；使用所述复合频谱掩膜来过滤传入音频信号，以仅允许所述选择的一组参与者与所述参与者之间的所述谈话保留在音频信号中；以及将仅包括所述选择的一组参与者与所述参与者之间的所述谈话的所述音频信号传输到所述音频输出设备。

优选地，本发明提供一种移动设备，其中所述处理器进一步执行所述程序指令以：在对应于所述参与者和所选择的一组参与者的移动设备之间共享针对所述参与者个性化的所述频谱掩膜和对应于所选择的一组参与者的所述多个频谱掩膜，使得每个移动设备生成其自身的复合频谱掩膜以用于过滤到每个移动设备的传入音频信号。

从第三方面来看，本发明提供了一种用于隔离和放大所选择的参与者之间的谈话的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有与其体现的程序指令，所述程序指令可由移动设备执行以使所述移动设备执行一种方法，所述方法包括：接收多个频谱掩膜，所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者；通过所述多个频谱掩模的加性叠加来生成复合频谱掩模；以及将所述复合频谱掩模应用于由麦克风所捕获的声音以滤除与所述复合频谱掩模不匹配的声音并放大与所述复合频谱掩模匹配的剩余声音。

优选地，本发明提供一种计算机程序产品，所述计算机程序产品还包括：将与所述复合频谱掩膜匹配的经放大的剩余声音传输到与所述谈话的参与者相对应的音频输出设备。

优选地，本发明提供了一种计算机程序产品，还包括：执行所述谈话的实时字幕；以及在附接有所述音频输出设备的移动设备屏幕或智能眼镜中的一个上向所述谈话的参与者显示所述谈话的所述实时字幕，用于读取所述谈话的文本以及收听所述谈话。

优选地，本发明提供了一种计算机程序产品，其中音频输出设备邻近谈话的参与者的耳朵。

优选地，本发明提供了一种计算机程序产品，所述计算机程序产品还包括：将所述谈话的参与者的语音样本发送到云环境的深度神经网络服务器，用于生成对所述参与者个性化的频谱掩膜；以及从所述深度神经网络服务器接收对所述参与者个性化的所述频谱掩模。

优选地，本发明提供一种计算机程序产品，所述计算机程序产品进一步包括：将对所述参与者个性化的所述频谱掩膜与对应于包括在所述谈话中的所选择的一组参与者的所述多个频谱掩膜进行组合以形成所述复合频谱掩膜；使用所述复合频谱掩膜过滤传入音频信号，以仅允许所选择的一组参与者和所述参与者之间的所述谈话保持在音频信号中；以及将仅包括所选择的一组参与者和所述参与者之间的所述谈话的所述音频信号传输到所述音频输出设备。

优选地，本发明提供一种计算机程序产品，所述计算机程序产品进一步包括：在对应于所述参与者和所选择的一组参与者的移动设备之间共享针对所述参与者个性化的所述频谱掩膜和对应于所选择的一组参与者的所述多个频谱掩膜，使得每个移动设备生成其自身的复合频谱掩膜以用于过滤到每个移动设备的传入音频信号。

因此，不同的说明性实施例通过使用来自移动设备的与所选择的一组参与者对应的共享频谱掩膜以生成用于滤除外来声音的复合频谱掩膜，使得仅参与者的语音保留在输出到音频输出设备的音频信号中来在所选择的一组参与者和参与者之间提供清晰和安全的谈话。

附图说明

图1是可以实现说明性实施例的数据处理系统网络的图形表示；

图2是可以实现说明性实施例的数据处理系统的图；

图3是示出了可以实现说明性实施例的云计算环境的图；

图4是根据说明性实施例示出云计算环境的抽象层的示例的图；

图5是示出根据说明性实施例的音频过滤系统的示例的图；

图6是示出根据说明性实施例的音频过滤应用频谱掩膜组合过程的示例的示图；

图7是示出了根据示例性实施方式的嘈杂的环境通信过程的实例的示图；

图8是示出根据说明性实施例的音频过滤过程的示例的示图；

图9是示出根据说明性实施例的替代音频过滤过程的示例的图；

图10是展示了根据说明性实施例的用于接收个性化频谱掩模的过程的流程图；

图11A-图11B是示出根据说明性实施例的用于对传入音频信号进行过滤的过程的流程图；以及

图12是示出根据说明性实施例的用于隔离和放大所选择的参与者之间的谈话的过程的流程图。

具体实施方式

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线传输的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

现在参考附图，并且具体参见图1-图5，提供了可以实现说明性实施例的数据处理环境的图。应当理解，图1-图5仅意味着示例，并且不旨在断言或暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境做出许多修改。

图1示出了可以实现说明性实施例的数据处理系统网络的图形表示。网络数据处理系统100是其中可以实施说明性实施例的计算机、数据处理系统和其他设备的网络。网络数据处理系统100包含网络102，网络102是用于提供计算机、数据处理系统和在网络数据处理系统100内连接在一起的其他设备之间的通信链路的媒介。网络102可包括连接，诸如例如有线通信链路、无线通信链路、光纤电缆等。

在所描绘的示例中，服务器104和服务器106连同存储装置108连接到网络102。服务器104和服务器106可以是例如具有到网络102的高速连接的服务器计算机。此外，服务器104和服务器106向客户端设备用户提供个性化频谱掩膜生成服务。而且，应当注意，服务器104和服务器106可各自表示一个或多个云环境中的多个计算节点。或者，服务器104和服务器106可各自表示一个或多个数据中心中的服务器群集。

客户端110、客户端112和客户端114也连接到网络102。客户端110、112和114是服务器104和服务器106的客户端。在该示例中，客户端110、112和114被示为具有到网络102的无线通信链路的移动通信设备，诸如例如蜂窝电话、智能电话等。然而，应当注意，客户端110、112和114仅是示例并且可以表示具有到网络102的无线通信链路的其他类型的移动通信设备，诸如例如膝上型计算机、手持式计算机、智能手表、游戏设备等。客户端110、112和114的用户可以使用客户端110、112和114来访问由服务器104和服务器106提供的个性化频谱掩膜生成服务。

存储装置108是能够以结构化格式或非结构化格式存储任何类型的数据的网络存储设备。此外，存储装置108可以表示多个网络存储设备。进一步，存储装置108可以存储多个不同客户端设备的标识符和网络地址、多个不同用户的标识符、多个不同用户的语音样本、多个不同用户的个性化频谱掩膜等。此外，存储装置108可存储其他类型的数据，诸如可包括例如与客户端设备用户相关联的用户名、密码和生物模板的认证或凭证数据。

此外，应当注意，网络数据处理系统100可以包括任何数量的附加服务器、客户端、存储设备和未示出的其他设备。位于网络数据处理系统100中的程序代码可以存储在计算机可读存储介质上并且下载到计算机或其他数据处理设备以供使用。例如，程序代码可存储在服务器104上的计算机可读存储介质上，且经由网络102下载到客户端110以在客户端110上使用。

在所描绘的实例中，网络数据处理系统100可实施为许多不同类型的通信网络，例如电信网络、互联网、内联网、个人区域网(PAN)、局域网(LAN)、广域网(WAN)或其任何组合。图1旨在仅作为示例，而不是作为对于不同说明性实施例的架构限制。

现在参见图2，描绘了根据说明性实施例的数据处理系统的图。数据处理系统200是移动通信装置(诸如图1中的客户端110)的示例，实现说明性实施例的处理的计算机可读程序代码或指令可以被定位在所述移动通信装置中。在该示例中，数据处理系统200包括通信结构202，其提供处理器单元204、存储器206、持久性存储设备208、通信单元210、输入/输出(I/O)单元212和显示器214之间的通信。

处理器单元204用于执行可以被加载到存储器206中的软件应用程序和程序的指令。处理器单元204可以是一组一个或多个硬件处理器设备或者可以是多核处理器，这取决于特定的实施方式。

存储器206和持久性存储设备208是存储设备216的示例。计算机可读存储设备是能够存储信息(诸如，例如但不限于，数据、功能形式的计算机可读程序代码、和/或在瞬时基础或持续基础上的其他合适的信息)的任何硬件。进一步，计算机可读存储设备排除传播介质。在这些实例中，存储器206可为(例如)随机存取存储器(RAM)或任何其他合适的易失性或非易失性存储装置，例如快闪存储器。持久性存储设备208可以采取各种形式，这取决于特定的实施方式。例如，持久性存储设备208可包含一个或多个装置。例如，持久性存储设备208可以是磁盘驱动器、固态驱动器或上述的一些组合。

在该示例中，持久性存储设备208存储音频过滤应用218。然而，应当注意，即使音频过滤应用218被示为驻留在持久性存储设备208中，在替代说明性实施例中，音频过滤应用218可以是与持久性存储设备208分开的硬件和软件组件的组合。在另替代的说明性实施例中，音频过滤应用218的第一组组件可以位于数据处理系统200中，并且音频过滤应用218的第二组组件可以位于第二数据处理系统中，诸如例如图1中的服务器104。

音频过滤应用218通过加性叠加来控制将对应于谈话的参与者的频谱掩膜进行组合以仅隔离和放大谈话的每个参与者的音频信号(即，语音)的过程以提高谈话的清晰度和安全性。用户220表示对应于数据处理系统200的用户的标识符。应注意，用户220还是经由网络(诸如，图1中的网络102)与一个或多个其他移动通信设备用户的谈话的参与者。

语音样本222表示用户220的语音的生物计量样本。换言之，语音样本222是用户220的语音的记录。用户220将语音样本222从数据处理系统200发送到频谱掩膜生成计算机，诸如图1中的服务器104。

频谱掩膜生成计算机利用深度学习神经网络来生成频谱掩膜224，该频谱掩膜224基于语音样本222对于用户220是个性化的。深度学习(也称为深度结构化学习或分级学习)是基于人工神经网络的机器学习的一部分。机器学习可以是监督的、半监督的、或无监督的。深度学习架构(诸如深度神经网络、递归神经网络和卷积神经网络)已经被应用于包括语音识别、音频识别、自然语言处理、机器翻译等的领域。深度神经网络包括输入层和输出层之间的多个层。深度神经网络移动通过多个层，计算每个输出的概率。频谱掩膜224过滤传入音频信号，使得仅保留与频谱掩膜224匹配的信号(即，几乎排他地，对应于用户220的语音信号)。换言之，频谱掩膜224滤除与频谱掩膜224不匹配的所有其他音频信号。

频谱掩膜226的集合表示对应于移动通信设备的其他用户的一个或多个先前共享和存储的频谱掩膜的集合，移动通信设备包括示例性实施方式的音频过滤应用。音频过滤应用218可以恰好在与其他移动通信设备用户的谈话之前或开始时在显示器214中向用户220显示频谱掩膜226的集合以用于选择频谱掩膜226的集合中的一些、全部或不选择。所选择的一组谈话参与者228表示用户220已经选择参与通过数据处理系统200和它们各自的移动通信设备中的每个与用户220的谈话的一个或多个其他移动通信设备用户。

如果所选择的谈话参与者(即，所选择的一组谈话参与者228)的一个或多个频谱掩膜未列在频谱掩膜集合226中，则音频过滤应用218可请求下载或自动发起对与所选择的谈话参与者对应的未包括在频谱掩膜集合226中的那些频谱掩膜的无线下载。之后，音频过滤应用218生成复合频谱掩膜230，复合频谱掩膜230是对应于用户220和所选择的一组谈话参与者228的所有频谱掩膜的组合。可替代地，音频过滤应用218可基于用户220的偏好仅使用对应于所选择的一组谈话参与者228而不对应于用户220的共享频谱掩膜来生成复合频谱掩膜230。

音频过滤应用218使用对应于用户220和所选择的一组谈话参与者228的频谱掩膜的加性叠加来生成复合频谱掩膜230。音频过滤应用218利用复合频谱掩膜230来仅隔离和放大谈话的每个参与者的音频信号以形成音频信号232。换言之，音频信号232仅由谈话参与者语音和最小的其他外来音频信号(诸如背景噪声)组成。由此，音频过滤应用218通过在谈话期间将复合频谱掩膜230应用于所有传入音频信号，将传入音频信号变换到几乎排他地包含谈话参与者语音的不同状态或事物(即，音频信号232)。

音频过滤应用218将音频信号232发送到音频输出设备234。音频输出设备234表示音频输出设备的标识符，音频输出设备例如有线地或无线地连接至数据处理系统200的头戴式耳机、听筒或头戴式受话器等。音频输出设备234位于用户220的一个或两个耳朵中、之上或附近，以便清楚和安全地收听音频信号232。

在此实例中，通信单元210提供经由网络与其他计算机、数据处理系统和装置的通信。通信单元210可通过使用物理和无线通信链路两者提供通信。物理通信链路可以利用例如有线、电缆、通用串行总线、或任何其他物理技术来建立用于数据处理系统200的物理通信链路。无线通信链路可以利用例如短波、高频、超高频、微波、无线保真(Wi-Fi)、

技术、全球移动通信系统(GSM)、码分多址(CDMA)、第二代(2G)、第三代(3G)、第四代(4G)、4G长期演进(LTE)、高级LTE、第五代(5G)、或任何其他无线通信技术或标准来建立用于数据处理系统200的无线通信链路。

输入/输出单元212允许与可以连接到数据处理系统200的其他设备进行数据的输入和输出。例如，输入/输出单元212可以通过小键盘、键盘、鼠标、麦克风和/或一些其他合适的输入设备为用户输入提供连接。显示器214提供向用户显示信息的机制，并且可以包括允许用户通过例如用户界面或输入数据进行屏幕上选择的触摸屏能力。

用于操作系统、应用和/或程序的指令可以位于存储设备216中，存储设备216通过通信结构202与处理器单元204通信。在这个说明性的示例中，指令是持久性存储设备208上的功能形式。这些指令可以被加载到存储器206中用于由处理器单元204运行。不同实施例的过程可以由处理器单元204使用计算机实现的指令来执行，所述计算机实现的指令可以位于存储器(诸如存储器206)中。这些程序指令被称为可以由处理器单元204中的处理器读取和运行的程序代码、计算机可用程序代码或计算机可读程序代码。在不同的实施方式中，程序指令可实施在不同的物理计算机可读存储设备上，诸如存储器206或持久性存储设备208。

程序代码236以功能形式位于选择性可移除的计算机可读介质238上，并且可被加载到或转移到数据处理系统200上以供处理器单元204运行。程序代码236和计算机可读介质238形成计算机程序产品240。在一个示例中，计算机可读介质238可以是计算机可读存储介质242或计算机可读信号介质244。计算机可读存储介质242可以包括，例如，光盘或磁盘，光盘或磁盘被插入或放置到作为持久性存储设备208的一部分的驱动器或其他设备中，用于转移到存储设备上，例如作为持久性存储设备208的一部分的硬盘驱动器。计算机可读存储介质242还可以采取持久性存储设备的形式，例如连接到数据处理系统200的硬盘驱动器、拇指驱动器或闪存。在一些实例中，计算机可读存储介质242可能不能从数据处理系统200移除。

可替代地，程序代码236可以使用计算机可读信号介质244转移至数据处理系统200。计算机可读信号介质244可以是例如包含程序代码236的传播的数据信号。例如，计算机可读信号介质244可以是电磁信号、光信号和/或任何其他合适类型的信号。这些信号可以通过通信链路(例如，无线通信链路、光纤电缆、同轴电缆、电线和/或任何其他合适类型的通信链路)传输。换言之，在说明性实例中，通信链路和/或连接可以是物理或无线的。计算机可读介质还可采取非有形介质的形式，诸如包含程序代码的通信链路或无线传输。

在一些说明性实施例中，程序代码236可以经由网络从另一设备或数据处理系统通过计算机可读信号介质244下载到持久性存储设备208，以在数据处理系统200内使用。例如，存储在数据处理系统中的计算机可读存储介质中的程序代码可以通过网络从数据处理系统下载到数据处理系统200。提供程序代码236的数据处理系统可以是服务器计算机、客户端计算机或能够存储和传输程序代码236的一些其他设备。

为数据处理系统200示出的不同组件不意味着对可以实现不同实施例的方式提供架构限制。不同的说明性实施例可以在数据处理系统中实现，该数据处理系统包括除了或代替为数据处理系统200示出的那些组件之外的组件。图2中示出的其他组件可以不同于示出的说明性实例。不同的实施例可以使用能够执行程序代码的任何硬件设备或系统来实现。作为一个示例，数据处理系统200可以包括与无机组件集成的有机组件和/或可以完全由不包括人类的有机组件组成。例如，存储装置可以由有机半导体组成。

作为另一示例，数据处理系统200中的计算机可读存储设备是可存储数据的任何硬件装置。存储器206、持久性存储设备208和计算机可读存储介质242是有形形式的物理存储设备的示例。

在另一示例中，总线系统可用于实现通信结构202，并且可包括一个或多个总线，诸如系统总线或输入/输出总线。当然，可以使用在附接到总线系统的不同组件或设备之间提供数据传送的任何合适类型的架构来实现总线系统。此外，通信单元可包括用于发送和接收数据的一个或多个设备，诸如调制解调器或网络适配器。进一步，存储器可以是例如存储器206或诸如在可能存在于通信结构202中的接口和存储器控制器集线器中发现的高速缓存。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，说明性实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源的共享池，所述可配置计算资源诸如例如是网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务，其可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

这些特性可包括例如按需自助服务、广泛网络接入、资源池、快速弹性和测量服务。按需自助服务允许云消费者单方面地按需自动提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。广泛的网络接入提供通过网络可用和通过标准机制访问的能力，该标准机制促进异构瘦客户机平台或厚客户机平台(例如移动电话、膝上型计算机和个人数字助理)的使用。资源池允许提供者的计算资源被池化以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需要动态地分配和重新分配。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够在较高抽象层次上指定位置，例如国家、州或数据中心。快速弹性提供能够被快速和弹性地提供(在一些情况下自动地)以快速缩小和快速释放以快速放大的能力。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。测量的服务允许云系统通过在适合于服务类型的某个抽象级别(诸如例如存储、处理、带宽和活跃用户账户)处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型可包括例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。软件即服务是提供给消费者使用提供者在云基础设施上运行的应用的能力。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。平台即服务是提供给消费者以将消费者创建或获取的使用由提供者支持的编程语言和工具创建的应用部署到云基础结构上的能力。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。基础架构即服务是提供给消费者供应处理、存储、网络和消费者能够部署并运行任意软件的其他基本计算资源的能力，所述任意软件可包括操作系统和应用程序。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制，以及对所选联网组件(诸如例如主机防火墙)的可能受限的控制。

部署模型可以包括例如私有云、社区云、公共云和混合云。私有云是仅为组织操作的云基础设施。私有云可由组织或第三方管理，并且可存在于场所内或场所外。社区云是由若干组织共享的云基础设施，并且支持共享了诸如任务、安全要求、策略和合规性考虑之类的问题的特定社区。社区云可由组织或第三方管理，并且可存在于场所内或场所外。公共云是公众或大型行业组可用的云基础设施，并且由销售云服务的组织拥有。混合云是由两个或更多个云(诸如例如私有云、社区云和公共云)组成的云基础设施，这些云保持为唯一实体，但通过使数据和应用可移植性的标准化或专有技术(诸如例如云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图3，描绘了图示可以实现说明性实施例的云计算环境的图。在这个说明性的示例中，云计算环境300包括云消费者使用的本地计算设备可以与其通信的一组一个或多个云计算节点310，本地计算设备诸如智能电话320A、台式计算机320B、膝上型计算机320C和/或汽车计算机系统320N。云计算节点310可以是例如图1中的服务器104和服务器106。本地计算设备320A-320N可以是例如图1中的客户端110-114。

云计算节点310可彼此通信并且可被物理地或虚拟地分组成一个或多个网络，诸如上文所述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境300提供基础设施、平台和/或软件作为服务，云消费者无需为其维护本地计算设备(诸如本地计算设备320A-320N)上的资源。应当理解，本地计算设备320A-320N的类型仅旨在是说明性的，并且云计算节点310和云计算环境300可以使用例如网络浏览器通过任何类型的网络和/或网络可寻址连接与任何类型的计算机化设备通信。

现在参见图4，描绘了根据说明性实施例的说明抽象模型层的图。在这个说明性示例中示出的功能抽象层的集合可以由云计算环境提供，诸如图3中的云计算环境300。应事先理解，图4中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能。

云计算环境400的抽象层包括硬件和软件层402、虚拟化层404、管理层406和工作负载层408。硬件和软件层402包括云计算环境的硬件和软件组件。硬件组件可包括例如主机410、基于RISC(精简指令集计算机)架构的服务器412、服务器414、刀片服务器416、存储设备418以及网络和联网组件420。在一些说明性实施例中，软件组件可包括例如网络应用服务器软件422和数据库软件424。

虚拟化层404提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器426；虚拟存储428；虚拟网络430，包括虚拟专用网络；虚拟应用和操作系统432；以及虚拟客户端434。

在一个示例中，管理层406可以提供以下描述的功能。资源供应436提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价438在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户440为消费者和系统管理员提供对云计算环境的访问。服务水平管理442提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行444提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层408提供可以利用云计算环境的功能的示例。可以由工作负载层408提供的示例工作负载和功能可以包括地图和导航446、软件开发和生命周期管理448、虚拟教室教育交付450、数据分析处理452、交易处理454和音频信号过滤456。

在嘈杂环境中进行谈话的问题是，谈话的参与者难以清楚且安全地听到其他参与者正在说什么。一些当前的解决方案使用实验神经网络来放大嘈杂的环境中的谈话，但这些当前的解决方案中没有一个使用已经可用的硬件和频谱掩膜技术。

深度学习技术的最近发展使得有可能创建体现个体的语音的详细特征的定制的个体频谱掩模。这些深度学习技术使得可以创建高度特定和有效的过滤器以将个体的语音与背景噪声隔离。

说明性实施例使用例如已经存在于移动电话和有线或无线耳塞中的硬件组件来隔离和放大嘈杂的环境中的所选个体之间的谈话。说明性实施例利用提前调谐到谈话的各个参与者的动态生成的复合频谱掩膜。

说明性实施例利用预倾斜的深度神经网络动态频谱掩膜来实现嘈杂的环境中的参与者之间的清楚和安全的谈话。说明性实施例提供动态频谱掩膜深度神经网络作为云服务，其被绑定到驻留在移动电话上的音频过滤应用。移动电话的用户可以记录一个或多个个体的语音样本，将语音样本上传到云服务，并且使动态频谱掩膜深度神经网络被调谐到每个体的语音。可选地，可以在谈话期间记录个体的语音并且使用现有的说话者日记技术来隔离个体的语音或者从语音邮件消息中单独地捕获个体的语音。应注意，说明性实施例偏好较长语音样本，且各个频谱掩膜质量可取决于用于捕获语音样本的编解码器的语音样本长度和带宽。因此，当说明性实施例用说话者的语言包括的每个音素的多个语音样本、在静默的环境中并且用宽带宽编码器在长度上捕获语音样本时，可以改善单独的频谱掩膜质量。

一旦说明性实施例使用动态频谱掩膜深度神经网络生成个体的个性化动态频谱掩膜，说明性实施例就将该频谱掩膜下载到该个体的移动设备。此外，说明性实施例可以在将频谱掩膜下载到移动设备之后删除个人在云环境上的数据。

在谈话之前或在谈话开始时，个体可以在与谈话的参与者相对应的移动设备之间共享他们的频谱掩膜，使得希望参与谈话的每个个体将具有存储在他们相应的移动设备上的所有参与者的频谱掩膜。移动设备可以经由例如蓝牙、Wi-Fi、近场通信、电子邮件、短消息服务等共享频谱掩膜。

当参与者准备好在他们相应的移动设备上使用说明性实施例的音频过滤应用进行谈话时，参与者将例如头戴式受话器放置在他们的耳朵上或听筒放置在他们的耳朵中并激活音频过滤应用。进一步，参与者向音频过滤应用指示谁被授权参与谈话。参与者可经由联系人列表和蓝牙、Wi-Fi、小消息服务器、电子邮件等来促进该选择。可替代地，参与者可在音频过滤应用的用户界面中选择个体。

接下来，音频过滤应用通过对谈话中的每个参与者的频谱图的加性叠加来生成合成或复合频谱掩膜。可替代地，音频过滤应用可根据该用户对音频过滤应用是否应当放大该用户自己的语音的偏好从除该特定移动设备的用户之外的每个参与者生成复合频谱掩膜。音频过滤应用程序接着将此复合频谱掩膜应用于通过移动设备的麦克风传入的声音，滤除与复合频谱图不匹配的所有声音，且通过听筒或头戴式受话器放大与复合频谱图匹配的剩余声音。因此，说明性实施例在谈话期间有效地滤除任何其他人的(例如，非参与者的)语音和几乎所有其他外来噪声。

在替代说明性实施例中，单个音频过滤应用可与多个无线耳塞、头戴式耳机和/或头戴式受话器一起使用，使得一个移动设备可服务于若干参与者。在另一替代说明性实施例中，音频过滤应用可包括执行谈话的实时字幕(可选地利用说话者二聚(diarisation)用于单独的说话者标识)的能力，使得音频过滤应用可在文本输出设备(诸如例如，附接有听筒的移动设备屏幕或智能眼镜)上向参与者显示谈话的实时字幕，以用于阅读谈话的文本而不是收听谈话或用于同时阅读和收听。此外，说明性实施例还包括自动增益控制，以对所选择的语音音量进行归一化。此外，说明性实施例可以可选地训练个体的频谱掩膜以便不仅包括正常讲话而且包括低声讲话。

对于包含敏感内容的谈话，参与者可通过故意移入嘈杂环境中并使用说明性实施例的音频过滤应用来保护他们的信息交换，以使其他个人非常难以窃听谈话。可选地，音频过滤应用可以使用移动设备的外部扬声器来故意输出音频过滤应用主动滤除的异相、不可识别的音素或语音片段，以便降低窃听的可能性或使窃听更加困难。在说明性的替代实施例中，执法者可以使用音频过滤应用来借助于远程附接的麦克风或更专用的录音设备(如，例如，激光麦克风)挑选嘈杂的环境中的“感兴趣人物”之间的谈话。

因此，说明性实施例提供了克服关于在嘈杂环境中在移动通信设备用户之间提供清晰和安全的谈话的技术问题的一个或多个技术方案。因此，这些一个或多个技术方案在移动设备通信领域中提供了技术效果和实际应用。

现在参见图5，描绘了根据说明性实施例的示出音频过滤系统的示例的图。音频过滤系统500可以在数据处理系统的网络(如图1中的网络数据处理系统100)或云计算环境(如图3中的云计算环境300)中实现。音频过滤系统500是用于在嘈杂的环境中的参与者谈话隔离、放大、以及安全的用于使用深度神经网络动态频谱掩膜进行谈话参与者调谐过滤的硬件和软件组件的系统。

在此实例中，音频过滤系统500包含频谱掩膜产生服务器502、移动设备504、移动设备506和移动设备508。然而，应注意，音频过滤系统500可包括任何数量的服务器、移动设备和未示出的其他设备。频谱掩膜生成服务器502、移动设备504、移动设备506、和移动设备508可以分别是例如图1中的服务器104、客户端110、客户端112、和客户端114。

用户510表示移动设备504的用户。移动设备504可以是例如智能电话或其他移动通信设备。用户510将语音样本512输入到移动设备504中。移动设备504记录语音样本512并且利用音频过滤应用514(诸如图2中的音频过滤应用218)来将语音样本512发送到频谱掩膜生成服务器502，在该示例中，频谱掩膜生成服务器502驻留在云环境515中。频谱掩膜生成服务器502利用深度学习神经网络组件516和图形处理单元518基于语音样本512来生成对应于用户510的个性化动态频谱掩膜520。个性化动态频谱掩膜520是预测时间序列模型，该预测时间序列模型在声音被处理时逐时刻(可能大约每毫秒一次)预测用户510的语音的下一可能的频率签名。换句话说，个性化动态频谱掩膜520预测用户510在谈话期间的词语声音序列。频谱掩膜生成服务器502向移动设备504发送个性化动态频谱掩膜520。

单独的个体的存储的频谱掩膜522表示对应于用户510的个人动态频谱掩膜520，以及对应于先前与移动设备504共享的其他移动通信设备用户的其他频谱掩膜。在该示例中，移动设备506和移动设备508对应于用户510被选择为谈话中的参与者的其他用户。因此，在524，移动设备506和移动设备508经由例如蓝牙技术分别与移动设备504无线共享它们各自的频谱掩膜(频谱掩膜526和频谱掩膜528)。在接收频谱掩膜526和频谱掩膜528之后，音频过滤应用514将个人动态频谱掩膜520与频谱掩膜526和频谱掩膜528组合以形成用于对移动设备504、移动设备506和移动设备508的麦克风馈送进行过滤以仅允许用户510和移动设备506和移动设备508的用户的语音被听到的复合频谱掩膜。

现在参见图6，描绘了根据说明性实施例的示出音频过滤应用频谱掩膜组合过程的示例的图示。音频过滤应用频谱掩膜组合过程600可以在移动设备中实现，诸如图1中的客户端110、图2中的数据处理系统200、图3中的智能电话320A或图5中的移动设备504。在此实例中，音频过滤应用频谱掩膜组合过程600组合参与者1频谱掩膜602和参与者2频谱掩膜604。然而，应当注意，音频过滤应用频谱掩膜组合过程600可以将对应于谈话中的任何数量的所选参与者的任何数量的频谱掩膜组合。

在参与者1与参与者2之间的谈话开始时，音频过滤应用(例如，图2中的音频过滤应用218或图5中的音频过滤应用514)将参与者1频谱掩膜602和参与者2频谱掩膜604组合成复合频谱掩膜606。复合频谱掩膜606使用频域中的逻辑ORing，从而创建仅允许参与者1和参与者2的语音而不允许输出音频信号中的其他外来声音的过滤器。

现在参见图7，描绘了根据说明性实施例的示出嘈杂的环境通信过程的示例的图示。网络环境通信过程700包含移动设备702和移动设备704。在移动设备702和移动设备704上运行的说明性实施例的音频过滤应用分别向参与者710和参与者712之间的谈话的传入音频信号应用复合频谱掩膜706和复合频谱掩膜708，使得参与者710和参与者712能够清晰且安全地听到彼此以及自身听到，而不包括来自嘈杂的环境的其他声音。

现在参见图8，描绘了根据说明性实施例的示出音频过滤过程的示例的图示。音频过滤过程800包括移动设备802和音频输出设备804，音频输出设备804有线地或无线地耦合到移动设备802。音频输出设备804可以是例如耳塞、具有听筒的智能眼镜等。应当注意，替代音频或除了音频之外，替代的说明性实施例可以将谈话的音频信号转换成文本格式并且在智能眼镜或移动设备屏幕上输出文本。

移动设备802存储频谱掩膜806，其对应于作为移动设备802的用户的谈话参与者808。而且，应当注意，音频输出设备804由谈话参与者808佩戴在谈话参与者808的一个或两个耳朵附近或之中。

在810处，移动设备802接收来自嘈杂的环境的所有声音，包含来自对应于谈话参与者812和谈话参与者814的移动设备的麦克风馈送。在816，移动设备802使用复合频谱掩膜来过滤传入声音，该复合频谱掩膜是由谈话参与者808选择的频谱掩膜的组合，该复合频谱掩膜包括频谱掩膜806以及对应于谈话参与者812和814的频谱掩膜。在818，移动设备802经由蓝牙或有线将经过滤的音频信号发送给音频输出设备804，以供谈话参与者808清楚且安全地听到和/或看到谈话。

现在参见图9，描绘了根据说明性实施例的示出替代音频过滤过程的示例的图示。替代音频过滤过程900包含移动设备902和有线或无线地耦合到移动设备902的音频输出设备904。

移动设备902存储频谱掩膜906，其对应于作为移动设备902的用户的谈话参与者908。而且，音频输出设备904由谈话参与者908佩戴在谈话参与者908的一个或两个耳朵附近或之中。

在910处，移动设备902经由激光监视设备918从嘈杂的环境912接收包含谈话参与者914和谈话参与者916的语音的所有声音。激光监视设备918可以是例如激光传声器。在920处，移动设备802使用复合频谱掩膜来过滤传入声音，复合频谱掩膜是由谈话参与者908选择的频谱掩膜的组合。复合频谱掩膜包括频谱掩膜806以及对应于谈话参与者914和916的频谱掩膜。在922处，移动设备902经由蓝牙或有线将经过滤音频信号发送到音频输出设备904以供谈话参与者908清晰且安全地听到和/或看到谈话。

现在参见图10，示出了根据说明性实施例的用于接收个性化频谱掩模的过程的流程图。图10中所示的过程可以在移动设备中实现，例如图1中的客户端110、图2中的数据处理系统200、图3中的智能电话320A或图5中的移动设备504。

当移动设备接收到记录移动设备的用户的语音样本的输入时，该过程开始(步骤1002)。移动设备记录用户的语音样本(步骤1004)。移动设备经由网络将用户的语音样本发送到云环境的动态频谱掩膜深度神经网络服务器，以用于生成对用户个性化的频谱掩膜(步骤1006)。

随后，移动设备经由网络从动态频谱掩膜深度神经网络服务器接收针对用户个性化的频谱掩膜(步骤1008)。移动设备将对用户个性化的频谱掩模存储在移动设备的存储设备中(步骤1010)。此后，该过程终止。

现在参见图11A-图11B，示出了根据说明性实施例的用于对传入音频信号进行过滤的过程的流程图。图11A-图11B中所示的过程可在移动设备中实施，例如图1中的客户端110、图2中的数据处理系统200、图3中的智能电话320A或图5中的移动设备504。

当移动设备从移动设备的用户接收到激活移动设备上的音频过滤应用的输入时，该过程开始(步骤1102)。响应于在步骤1102中激活移动设备上的音频过滤应用，移动设备连接至在无线范围内(诸如，例如，在蓝牙范围内)也具有激活的音频过滤应用的其他移动设备(步骤1104)。之后，移动设备显示对应于在无线范围内具有激活的音频过滤应用的其他移动设备的用户的频谱掩膜的列表(步骤1106)。

移动设备从移动设备的用户接收对频谱掩膜列表中对应于要被包括在谈话中的一个或多个其他移动设备用户的一个或多个频谱掩膜的选择(步骤1108)。当该一个或多个频谱掩模中的一个或多个尚未存储在移动设备的存储设备上时，该移动设备下载在该频谱掩模列表中所选择的一个或多个频谱掩模中的一个或多个(步骤1110)。移动设备使用音频过滤应用将在频谱掩膜列表中选择的一个或多个频谱掩膜与对应于存储在存储设备上的用户的频谱掩膜进行组合以形成复合频谱掩膜(步骤1112)。

移动设备激活移动设备的麦克风以捕获包括一个或多个其他移动设备用户与用户之间的谈话的传入音频信号(步骤1114)。移动设备使用复合频谱掩膜过滤传入音频信号，以仅允许一个或多个其他移动设备用户与用户之间的谈话保留在音频信号中(步骤1116)。移动设备将仅包括一个或多个其他移动设备用户和用户之间的谈话的音频信号发送到连接到该移动设备的听筒、头戴式耳机或头戴式受话器中的一个(步骤1118)。

移动设备确定是否接收到要停用音频过滤应用的输入(步骤1120)。如果移动设备确定未接收到用以停用音频过滤应用程序的输入(步骤1120的无输出)，那么过程返回到步骤1116，其中移动设备继续使用复合频谱掩膜来过滤传入音频信号。如果移动设备确定接收到去激活音频过滤应用的输入(步骤1120的“是”输出)，则处理此后终止。

现在参见图12，示出了根据说明性实施例的用于隔离和放大所选择的参与者之间的谈话的过程的流程图。图12中所示的过程可在移动设备中实施，例如图1中的客户端110、图2中的数据处理系统200、图3中的智能电话320A或图5中的移动设备504。

当移动设备接收到多个频谱掩膜时，所述过程开始(步骤1202)。所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者。移动设备通过多个频谱掩模的加性叠加来生成复合频谱掩模(步骤1204)。

移动设备将复合频谱掩膜应用于由移动设备的麦克风捕获的声音，从而滤除与复合频谱掩膜不匹配的声音且放大与复合频谱掩膜匹配的剩余声音(步骤1206)。移动设备将与复合频谱掩膜匹配的经放大的剩余声音传输到在对应于移动设备的谈话中的参与者的一只或两只耳朵中或之上的音频输出设备(步骤1208)。此后，该过程终止。

因此，本发明的说明性实施例提供了一种用于谈话参与者调谐过滤的计算机实现的方法、计算机系统和计算机程序产品，其使用深度神经网络动态频谱掩膜进行参与者谈话隔离、放大和在嘈杂环境中的安全。已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于隔离和放大所选择的参与者之间的谈话的方法，所述方法包括：

接收多个频谱掩膜，所述多个频谱掩膜中的每个频谱掩膜对应于包括在谈话中的所选择的一组参与者中的相应参与者；

通过所述多个频谱掩模的加性叠加生成复合频谱掩模；以及

将所述复合频谱掩膜应用于由麦克风所捕获的声音以滤除与所述复合频谱掩膜不匹配的声音并放大与所述复合频谱掩膜匹配的剩余声音。

2.根据权利要求1所述的方法，进一步包括：

将与所述复合频谱掩膜匹配的经放大的剩余声音传输到对应于所述谈话的参与者的音频输出设备。

3.根据权利要求2所述的方法，进一步包括：

执行所述谈话的实时字幕；以及

在附接有所述音频输出设备的移动设备屏幕或智能眼镜之一上向所述谈话的参与者显示所述谈话的所述实时字幕，用于读取所述谈话的文本以及收听所述谈话。

4.根据权利要求2所述的方法，其中所述音频输出设备邻近于所述谈话的所述参与者的耳朵。

5.根据权利要求2所述的方法，进一步包括：

将所述谈话的所述参与者的语音样本发送至云环境的深度神经网络服务器，用于生成对所述参与者个性化的频谱掩膜；以及

从所述深度神经网络服务器接收对所述参与者个性化的所述频谱掩膜。

6.根据权利要求5所述的方法，进一步包括：

将对所述参与者个性化的所述频谱掩膜与对应于包括在所述谈话中的所选择的一组参与者的所述多个频谱掩膜进行组合以形成所述复合频谱掩膜；

使用所述复合频谱掩膜过滤传入音频信号，以仅允许所选择的一组参与者和所述参与者之间的所述谈话保持在音频信号中；以及

将仅包括所选择的一组参与者与所述参与者之间的所述谈话的所述音频信号传输到所述音频输出设备。

7.根据权利要求6所述的方法，进一步包括：

在对应于所述参与者和所选择的一组参与者的移动设备之间共享针对所述参与者个性化的所述频谱掩膜和对应于所选择的一组参与者的所述多个频谱掩膜，使得每个移动设备生成其自身的复合频谱掩膜以用于过滤到每个移动设备的传入音频信号。

8.根据权利要求5所述的方法，其中基于所述参与者的偏好，将对所述谈话的参与者个性化的所述频谱掩膜从所述复合频谱掩膜中排除。

9.根据权利要求1所述的方法，其中所选择的一组参与者指示谁被授权参与所述谈话。

10.根据权利要求1所述的方法，其中所述方法由移动设备执行。

11.根据权利要求10所述的方法，其中所述移动设备从对应于所述谈话中包括的所选择的一组参与者的移动设备无线地接收所述多个频谱掩膜。

12.一种用于隔离和放大所选择的参与者之间的谈话的移动设备，所述移动设备包括：

总线系统；

存储设备，连接至所述总线系统，其中所述存储设备存储程序指令；以及

处理器，连接至所述总线系统，其中所述处理器执行所述程序指令以：

通过所述多个频谱掩模的加性叠加生成复合频谱掩模；以及

13.根据权利要求12所述的移动设备，其中所述处理器进一步执行所述程序指令以：

14.根据权利要求13所述的移动设备，其中所述处理器进一步执行所述程序指令以：

执行所述谈话的实时字幕；以及

15.根据权利要求13所述的移动设备，其中所述音频输出设备邻近于所述谈话的所述参与者的耳朵。

16.根据权利要求13所述的移动设备，其中所述处理器进一步执行所述程序指令以：

17.根据权利要求16所述的移动设备，其中所述处理器进一步执行所述程序指令以：

18.根据权利要求17所述的移动设备，其中所述处理器进一步执行所述程序指令以：

19.一种用于隔离和放大所选择的参与者之间的谈话的计算机程序产品，所述计算机程序产品包括具有体现在其中的程序指令的计算机可读存储介质，所述程序指令可由移动设备执行以使所述移动设备执行方法，所述方法包括：

通过所述多个频谱掩模的加性叠加生成复合频谱掩模；以及

20.根据权利要求19所述的计算机程序产品，进一步包括：

21.根据权利要求20所述的计算机程序产品，进一步包括：

执行所述谈话的实时字幕；以及

22.根据权利要求20所述的计算机程序产品，其中所述音频输出设备邻近所述谈话的所述参与者的耳朵。

23.根据权利要求20所述的计算机程序产品，进一步包括：

24.根据权利要求23所述的计算机程序产品，进一步包括：

将仅包括所选择的一组参与者和所述参与者之间的所述谈话的所述音频信号传输到所述音频输出设备。

25.根据权利要求24所述的计算机程序产品，进一步包括：