CN116420188A - 从呼叫和音频消息中对其他说话者进行语音过滤 - Google Patents

从呼叫和音频消息中对其他说话者进行语音过滤 Download PDF

Info

Publication number
CN116420188A
CN116420188A CN202180074499.9A CN202180074499A CN116420188A CN 116420188 A CN116420188 A CN 116420188A CN 202180074499 A CN202180074499 A CN 202180074499A CN 116420188 A CN116420188 A CN 116420188A
Authority
CN
China
Prior art keywords
speech
user
audio
audio data
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180074499.9A
Other languages
English (en)
Inventor
马修·谢里菲
维克托·克尔布内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN116420188A publication Critical patent/CN116420188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/40Applications of speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

一种方法(400)包括:接收对应于语音命令(118)的原始音频数据(102)的第一实例;以及接收原始音频数据的第二实例,所述第二实例对应于用户(102)所说的基于音频的通信(150)的可听内容(126)的话语。在语音过滤辨识例程(200)确定为用户的语音激活语音过滤时,该方法还包括:获得用户的相应说话者嵌入(318)并使用相应说话者嵌入处理原始音频数据的第二实例以生成用于基于音频的通信的增强音频数据(152),所述增强音频数据(152)隔离用户说出的可听内容的话语并且排除不是用户说出的一个或多个附加声音的至少一部分。该方法还包括将增强音频数据传输到接收者设备(105)。

Description

从呼叫和音频消息中对其他说话者进行语音过滤
技术领域
本公开涉及从呼叫和音频消息中对其他说话者进行语音过滤。
背景技术
启用话音的环境允许用户仅大声说出查询或命令,并且自动助理将应对并回答查询和/或使命令被执行。可以使用分布在环境的各个房间和/或区域的连接的麦克风设备的网络来实现启用话音的环境(例如,家庭、工作场所、学校等)。因此,连接的麦克风设备可以实现自动助理,并且用户可以通过提供口述话语来与自动助理交互,自动助理可以通过执行动作、控制另一设备和/或提供响应内容(例如,视觉和/或听觉自然语言输出)来响应该口述话语。
自动助理可以将对应于用户的口述话语的音频数据转换成对应的文本(或其他语义表示)。例如,自动助理可以包括话音辨识引擎,它试图辨识口述话语的各种特性,诸如产生的声音(例如,音素)、发音顺序、话音节奏、语调等,以及然后识别由这些特性表示的文本单词或短语。自动助理可以采用语音过滤技术作为对用户所说的话语执行的预处理步骤,以帮助话音辨识引擎关注说出话语的用户的语音。
发明内容
本公开的一个方面提供了一种用于在基于音频的通信中激活语音过滤的方法。该方法包括:在数据处理硬件处接收原始音频数据的第一实例,原始音频数据的第一实例对应于启用助理的设备的用以促进启用助理的设备的用户和接收者之间基于音频的通信的基于语音的命令。基于语音的命令由用户说出并由启用助理的设备捕获。该方法还包括:在数据处理硬件处接收原始音频数据的第二实例,原始音频数据的第二实例对应于用户所说并且由启用助理的设备捕获的用于基于音频的通信的可听内容的话语。原始音频数据的第二实例捕获不是用户说出的一个或多个附加声音。该方法还包括由数据处理硬件执行语音过滤辨识例程,以基于原始音频数据的第一实例确定是否为基于音频的通信中的至少用户的语音激活语音过滤。当语音过滤辨识例程确定至少对用户的语音激活语音过滤时,该方法包括:由数据处理硬件获得表示用户的语音特性的用户的相应说话者嵌入;以及,由数据处理硬件使用用户的相应说话者嵌入处理原始音频数据的第二实例,以生成用于基于音频的通信的增强音频数据,增强音频数据隔离用户说出的可听内容的话语并且排除不是用户说出的一个或多个附加声音的至少一部分。该方法还包括由数据处理硬件将增强音频数据传输到与接收者相关联的接收者设备。增强音频数据当被接收者设备接收到时,使接收者设备可听地输出用户说出的可听内容的话语。
本公开的另一方面提供了一种用于在基于音频的通信中激活语音过滤的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括:接收原始音频数据的第一实例,原始音频数据的第一实例对应于启用助理的设备的用以促进启用助理的设备的用户和接收者之间基于音频的通信的基于语音的命令。基于语音的命令由用户说出并由启用助理的设备捕获。该操作还包括:接收原始音频数据的第二实例,原始音频数据的第二实例对应于用户所说并且由启用助理的设备捕获的用于基于音频的通信的可听内容的话语。原始音频数据的第二实例捕获不是用户说出的一个或多个附加声音。该操作还包括执行语音过滤辨识例程,以基于原始音频数据的第一实例确定是否为基于音频的通信中的至少用户的语音激活语音过滤。当语音过滤辨识例程确定至少对用户的语音激活语音过滤时,该操作还包括:获得表示用户的语音特性的用户的相应说话者嵌入;以及,使用用户的相应说话者嵌入处理原始音频数据的第二实例,以生成用于基于音频的通信的增强音频数据,增强音频数据隔离用户说出的可听内容的话语并且排除用户未说出的一个或多个附加声音的至少一部分。该操作还包括将增强音频数据传输到与接收者相关联的接收者设备。增强音频数据当被接收者设备接收到时,使接收者设备可听地输出用户说出的可听内容的话语。
本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中显而易见。
附图说明
图1A和图1B是用于激活语音过滤以关注基于音频的通信中的一个或多个语音的示例系统。
图2是示例语音过滤辨识例程。
图3是包括用于生成增强音频数据的语音过滤模型的示例语音过滤引擎。
图4是在基于音频的通信中激活语音过滤的方法的示例操作布置的流程图。
图5是可用于实现本文描述的系统和方法的示例计算设备的示意图。
各个附图中相同的附图标记指示相同的元件。
具体实施方式
用户可以使用自动助理来传输音频通信,诸如发送/接收音频消息和与远程接收者拨打电话呼叫(例如,音频和/或视频)。当用户处于嘈杂的环境中(例如,在繁忙的地方、汽车内或嘈杂的家庭中)时,音频通信的接收者可能由于高背景噪声水平而难以听到或理解音频通信的内容。
本文中的实施方式涉及通过从音频通信中去除不需要的背景噪声来应用语音过滤以关注传输到另一用户(或从另一用户接收)的基于音频的通信中的一个或多个语音。当启用助理的设备捕获的音频数据包括用户所说的传达基于音频的通信的可听内容的话语以及不需要的噪声时,应用语音过滤可以通过去除不需要的背景噪声来生成音频数据的增强版本,以便最终接收者接收到清晰和一致的基于音频的通信。如本文所用,基于音频的通信可指音频消息、电话呼叫、视频呼叫(例如,音频-视频呼叫)或广播音频。例如,启用助理的设备可以记录用户所说的音频消息的内容,然后通过消息传递或电子邮件平台将音频消息发送给接收者。可以在启用助理的设备处、在音频消息在到接收者的路由中的同时在基于云的中间节点处、或者一旦音频消息被收到在接收者客户端设备处应用语音过滤以从传达音频消息的音频数据中去除不需要的背景噪声。因此,当接收者希望回放音频消息时,接收者客户端设备可听地输出音频消息的增强版本,该版本不包括最初在用户说出传达音频消息的内容的话语时捕获的不需要的背景噪声。同样,启用助理的设备可以促进电话呼叫并实时应用语音过滤以去除不需要的背景噪声。与音频消息一样,可以应用语音过滤,以在启用助理的设备本地或沿到接收者设备的通信路径的任何点处从电话呼叫的音频数据中去除不需要的噪声。
图1A和图1B示出了通过从基于音频的通信150中去除不需要的背景噪声来进行语音过滤以至少关注传输给另一用户103(或从另一用户103接收的)的基于音频的通信150中的用户102的语音的示例系统100。系统100包括启用助理的设备(AED)104,其执行用户102可以通过话音与之交互的数字助理109。在所示示例中,AED 104对应于智能扬声器。然而,AED 104可以包括其他计算设备,诸如但不限于智能电话、平板电脑、智能显示器、台式机/笔记本电脑、智能手表、智能电器、耳机或车辆信息娱乐设备。AED 104包括数据处理硬件10和存储指令的存储器硬件12,所述指令当在数据处理硬件10上执行时使数据处理硬件10执行操作。AED 104包括一个或多个麦克风16的阵列,这些麦克风被配置为捕获声学声音,诸如指向AED 104的话音。AED 104还可以包括音频输出设备(例如,扬声器)16,或者与音频输出设备(例如,扬声器)16通信,该音频输出设备可以输出音频,诸如来自从其他用户103接收的基于音频的通信150的可听内容和/或来自数字助理109的合成话音。
图1A示出了用户102在AED 104附近说出第一话语106,“Ok Computer,send thefollowing audio message to Bob(好的计算机,将以下音频消息发送给鲍勃)”。AED 104的麦克风16接收话语106并处理对应于第一话语106的原始音频数据。音频数据的初始处理可以涉及过滤音频数据并将音频数据从模拟信号转换为数字信号。当AED 104处理音频数据时,AED可以将音频数据存储在存储器硬件12的缓冲器中用于附加处理。利用缓冲器中的音频数据,AED 104可以使用热词检测器108来检测原始音频数据是否包括热词110。热词检测器108被配置为识别音频数据中包括的热词,而不对音频数据执行话音辨识。在所示示例中,如果热词检测器108在音频数据中检测到作为热词110的特性的声学特征,则热词检测器108可以确定话语106“Ok Computer,send the following audio message to Bob”包括热词110“ok计算机(好的计算机)”。声学特征可以是作为话语106的短期功率谱的表示的梅尔频率倒谱系数(MFCC),或者可以是话语106的梅尔标度过滤器组能量。
当热词检测器108确定对应于话语106的音频数据包括热词110时,AED 104可以触发唤醒过程以启动对对应于话语106的音频数据的话音辨识。例如,在AED 104上运行的自动话音辨识器(ASR)116可以对与话语106相对应的音频数据执行话音辨识和语义解释。ASR116可以至少处理原始音频数据中跟随热词110的部分以生成接收到的原始音频数据的话音辨识结果,且对话音辨识结果执行语义解释以确定话语106包括用以促进用户102和接收者103之间基于音频的通信150的基于语音的命令118。在这个例子中,ASR 116可以处理“send the following audio message to Bob(将以下音频消息发送给鲍勃)”的原始音频数据的第一实例,并识别基于语音的命令118。
在一些实施方式中,ASR 116位于服务器120上作为AED 104的补充或替代。在热词检测器108响应于检测到在话语106中的热词110触发AED 104以唤醒时,AED 104可以通过网络132将对应于话语106的原始音频数据的第一实例传输到服务器120。AED 104可以为服务器120传输音频数据的包括热词110的部分以确认热词110的存在。备选地,AED 104可以仅将音频数据的与热词110之后的话语106的部分相对应的部分传输到服务器120。服务器120执行ASR 116以执行话音辨识并将音频数据的话音辨识结果(例如,转录)返回给AED104。AED 104进而识别话语106中的单词,并且AED 104执行语义解释以识别语音命令118。AED 104(和/或服务器120)可以识别用于数字助理109的基于语音的命令118,所述基于语音的命令118用以促进通过网络132从AED 104到与接收者103相关联的接收者设备105的可听消息的基于音频的通信150。之后,AED 104保持麦克风16打开并接收原始音频数据的第二实例,其对应于用户说出并由AED 104捕获的音频消息150的可听内容126的话语124。在所示示例中,可听内容126的话语124包括“Hi Bob,how are you?(嗨,鲍勃,你好吗?)”原始音频数据的第二实例还捕获用户102未说出的一个或多个附加声音128,诸如背景噪声。
在接收到与可听内容的话语相对应的原始音频数据的第二实例之前或之后,AED104执行语音过滤辨识例程(“例程”)200以基于对应于基于语音的命令118的原始音频数据的第一实例确定是否至少对于在基于音频的通信(例如,音频消息)150中用户102的语音激活语音过滤。当例程200确定不激活语音过滤时,AED 104将简单地将对应于可听消息155的可听内容126的话语124的原始音频数据的第二实例传输到接收者设备105。这里,接收者设备105将简单地向鲍勃接收者103回放包括“Hi Bob,how are you?(嗨,鲍勃,你好吗?)”的可听内容126的话语124的可听内容126的话语124以及由原始音频数据的第二实例捕获的任何背景噪声。当例程200确定激活语音过滤时,AED104使用语音过滤引擎300为基于音频的通信150生成增强音频数据152,其隔离用户说出的可听内容126的话语124并且排除不是用户102说出的一个或多个附加声音的至少一部分。也就是说,当例程200确定除了用户102之外对于其他个体激活语音过滤时,并且当一个或多个附加声音的至少一部分包括另一个体说出的可听内容的附加话语时,语音过滤器引擎300将生成增强音频数据152,其不排除可听内容的附加话语。否则,如果例程200确定仅为用户102激活语音过滤,则语音过滤器引擎300将生成增强音频数据152,该数据仅隔离用户102的语音并排除由原始音频数据的第二实例捕获的不是用户102说出的任何其他声音。
虽然下面参照图3更详细地描述,当例程200确定为用户102的语音激活语音过滤时,AED 104(或服务器120)指令语音过滤引擎获得表示用户的语音特性的用户102的相应说话者嵌入318(图3),并使用相应的说话者嵌入来处理与可听内容126的话语124相对应的原始音频数据的第二实例,以生成音频消息150的增强音频数据152,其隔离用户102说出的可听内容126的话语124,并且排除不是用户102说出的诸如背景噪声128的一种或多种附加声音。图1A示出AED 104(或服务器120)将音频消息150的增强音频数据152传输到接收者103的接收者设备105,由此接收者设备105可听地输出增强音频数据152以允许接收者103听到由用户102说出的可听内容126“Hi Bob,how are you?(嗨,鲍勃,你好吗?)”的话语124而没有听到最初在AED 104的环境中捕获的背景噪声128。
在一些示例中,音频消息150不被传输到接收者设备105,而是存储在AED 104上以供预期接收者稍后检索。在这些示例中,接收者103可以调用AED 104来用语音过滤器引擎300生成的增强音频数据152以隔离传达音频消息150的可听内容的用户102的话音,来可听地回放记录的音频消息150。在其他示例中,例程200和语音过滤器引擎300的功能可以在接收者设备105上执行,使得接收者设备105仅接收基于音频的通信150中的原始音频数据。在这些示例中,接收者设备105可以确定至少为发送者102的语音激活语音过滤并且处理原始音频数据以隔离传达基于音频的通信150的可听内容的发送者102的语音。在一些另外的示例中,AED 104将原始音频数据301(图3)和增强音频数据152都发送到接收者设备105,以允许接收者103利用至少针对用户102的语音激活的语音过滤选择原始音频数据的回放以收听基于音频的通信的可听内容而无需语音过滤、或者选择增强音频数据152的回放以收听基于音频的通信150的可听内容,其中针对至少用户102的语音激活语音过滤。此外,AED104可以发送增强音频数据152的多个版本,每个版本关联于应用于不同的语音组合的语音过滤。这样,接收者103可以在回放增强音频数据152的不同版本之间切换以收听隔离的语音的不同组合。
接收者设备105和/或AED 104可以在图形用户界面(GUI)中显示指示当前是否至少针对用户102的语音激活语音过滤的图形指示符。GUI可以进一步渲染一个或多个控件,用于至少对用户的语音激活/停用语音过滤。这里,用户可以选择控件以在在没有语音过滤的情况下回放原始音频数据以收听基于音频的通信的可听内容和在至少为用户102的语音激活语音过滤的情况下回放增强音频数据152以收听基于音频的通信150的可听内容之间进行选择。可以提供指示控件选择的用户输入指示作为用户反馈315,用于训练下面讨论的语音过滤辨识例程200的分类模型210。AED 104还可以包括物理按钮,可以选择该物理按钮来激活或停用语音过滤。然而,接收者设备将不会被提供这些类型的用于激活或停用语音过滤的控件。
图2示出了在AED 104(或服务器120)上执行的语音过滤辨识例程200的示例,用于确定是否至少为基于音频的通信150中的用户102的语音激活语音过滤。执行语音过滤辨识例程200可以包括执行分类模型210,该分类模型210被配置为接收与基于音频的通信150相关联的场境输入202,并且生成分类结果212作为输出,该分类结果指示以下之一:为基于音频的通信中的一个或多个语音激活语音过滤;或不对于任何语音激活语音过滤。当基于场境输入202的分类结果212要激活对一个或多个语音的语音过滤时,结果212可以指定一个或多个语音中的每一个。
在一些示例中,场境输入202中的一个或多个从对与基于语音的命令118相对应的原始音频数据的第一实例的话音辨识结果执行语义解释来得出。这里,ASR 116(图1A和图1B)可以生成对应于基于语音的命令118的原始音频数据的第一实例的话音辨识结果,并对所述话音辨识结果执行语义解释,以识别/确定场境输入202中的一个或多个,诸如基于音频的通信150的接收者103。这些场境输入202可以包括基于音频的通信150的接收者103的身份和/或至少对于在基于音频的通信中用户102的语音激活语音过滤的明确指令。分类模型210可以确定识别的接收者103是否包括指示针对基于音频的通信中的语音激活语音过滤是合适的特定接收者类型。例如,当识别的接收者103包括企业时,分类模型210可以确定激活语音过滤。另一方面,当识别的接收者103包括用户102的朋友或家人时,分类模型210可以确定不激活语音过滤。在附加示例中,当基于语音的命令118包括对于激活语音过滤的明确指令时,分类模型210确定至少为用户的语音激活语音过滤。例如,说“call theplumber and cancel out the background noise(呼叫管道工并消除背景噪声)”的基于语音的命令118包括对于激活语音过滤的明确命令并识别接收者(例如,管道工),该接收者包括其中语音过滤可能是合适的特定接收者类型。在另一个例子中,说“call mom so thatthe kids can speak with her(给妈妈打电话,这样孩子们可以和她说话)”的基于语音的命令118识别“kids(孩子们)”也是基于音频的通信的参与者,并识别接收者(例如,妈妈),其包括其中语音过滤可能不合适的特定接收者类型。在该示例中,分类结果212可以是在随后的孩子和妈妈之间基于音频的通信(例如,电话呼叫)期间针对用户102的每个孩子的语音激活语音过滤。
在另外的示例中,AED 104(或服务器120)以其他方式处理原始音频数据的第一实例(例如,图1A中的话语106或图1B中的话语156)以得出可能对例程200有意义的场境输入202以确定激活语音过滤是否合适。例如,当原始音频数据的第一实例包括语音命令118、168之前的前导音频和/或热词110、160时,例程200可以从前导音频和/或热词中提取音频特征以确定在启动语音命令时AED 104的环境的背景噪声水平。此处,背景噪声水平可用作馈送到分类模型210的场境输入202,其指示对应于基于音频的通信150的可听内容的话语的原始音频数据的后续第二实例将捕获背景噪声的可能性。例如,较高的背景噪声水平可能指示激活语音过滤比背景噪声水平低时更合适。
类似地,场境输入202可以包括AED 104的位置。在这种情况下,位于用户102的家庭或办公室环境中的AED 104可能比如果AED 104位于诸如火车站的公共场所时更不太可能激活语音过滤。分类模型210还可以在确定是否激活语音过滤时将AED 104的类型考虑为场境输入。此处,某些特定类型的AED可能比其他类型更适合激活语音过滤。例如,在多用户环境中诸如智能扬声器的共享AED 104可能比诸如电话的个人AED 104更适合激活语音过滤,因为共享AED 104比靠近用户102的嘴巴拿着的电话更可能捕获背景声音。
参考图1B和图2,在一些实施方式中,场境输入202之一包括由在AED 104处实施或以其他方式与AED 104通信的图像捕获设备18捕获的图像数据20(图1B)。例如,图1B示出了AED 104捕获用户说出的话语156的原始音频数据的第一实例,其对应于AED 104的用以促进作为用户102和接收者鲍勃103之间的基于音频的通信的视频呼叫150的语音命令168(即,经由在AED 104上执行的数字助理109)。AED 104可以包括配置用于语音呼叫的平板电脑或智能显示器,因此,图像捕获设备18可以捕获指示至少用户102在图像帧中并因此参与视频呼叫的图像数据20。图1B示出了捕获用户102和另一个体107(例如,用户102的女儿)的图像数据20。AED 104接收捕获说出“Ok Computer,video call Bob(好的计算机,视频呼叫鲍勃)”的用户102的话语156的原始音频数据的第一实例,其中,热词160“Ok Computer(好的计算机)”在语音命令168“video call Bob(视频呼叫鲍勃)”之前。到目前为止,馈送给语音过滤辨识例程200的分类模型210的场境输入202可以包括被识别为用户兄弟的接收者“Bob(鲍勃)”、AED 104的类型(诸如配置用于视频呼叫的共享智能显示器)、AED 104的环境、从前导和/或热词160中提取的音频特征得出的背景噪声水平以及指示用户102和另一个体107可能是将随接收者103一起发生的在视频呼叫150中的参与者的图像数据20。场境输入202可以进一步指示对话语156的辨识结果执行的语义解释没有识别对于激活语音过滤的任何明确指令。
基于接收到的指令AED 104用以促进与接收者鲍勃103的视频呼叫150的语音命令168,AED 104可以通过首先经由网络132与关联于接收者103的接收者设备105建立连接来发起视频呼叫150。之后,AED 104保持麦克风16打开并接收原始音频数据的第二实例,其对应于用户说出并由AED 104捕获的视频呼叫150的可听内容178的话语176。在所示示例中,可听内容178的话语176包括“Hi Uncle Bob(嗨,鲍勃叔叔)”。原始音频数据的第二实例还捕获不是用户102说出的附加声音,诸如背景噪声179和另一个体107说出的附加话语180,其包括在可听内容178“Hi Uncle Bob(嗨,鲍勃叔叔)”之后的可听内容“We miss you(我们想念你)”。虽然被辨识为不是用户102说出的附加声音,但附加话语180是由图像数据20指示为语音呼叫的可能参与者的另一个体107说出的,因此包含旨在接收者103听到的可听内容。因此,当执行例程200导致分类模型210生成指示为用户102和另一个体107的语音激活语音过滤的分类结果212时,语音过滤引擎300将应用语音过滤以生成增强音频数据152,其排除背景噪声179并隔离视频呼叫150中用户102和另一个体107的语音。
虽然下面参照图3更详细地描述,但是当例程200确定为用户102和另一个体107的语音激活语音过滤时,AED 104(或服务器120)指令语音过滤引擎300获得对于用户102和另一个体107中的每一个的相应的说话者嵌入318(图3)。可以通过下述方式获得用户102的相应说话者嵌入318:处理原始音频数据(例如,热词160)的第一实例的音频特征以生成验证嵌入并将其匹配到存储的说话者嵌入318。如果没有存储的说话者嵌入318可用(例如,用户102没有向AED 104注册),则可以直接使用作为验证嵌入的相应说话者嵌入318用于对后续话音中用户102的语音应用语音过滤。当个体107是AED的注册用户时,个体107和可选的用户102的相应说话者嵌入318可以通过经由面部辨识基于图像数据20识别个体107来获得。可选地,可以从图像数据20中提取个体107的面部图像,并且可以通过从与提取的面部图像中移动的个体的嘴唇同步的音频中提取音频特征来解析说话者嵌入318。语音过滤引擎300使用相应的说话者嵌入318来处理原始音频数据的第二实例以生成用于视频呼叫150的增强音频数据152,其将话语176(由用户102说出)和附加话语180(由另一个体107说出)隔离并排除背景噪声179。因此,结合图像数据20,AED 104(或服务器120)可以在视频呼叫150期间将增强音频数据152传输到接收者103的接收者设备105。接收者设备105可以可听地输出增强音频数据152,以允许接收者103听到用户102所说的话语178“Hi Uncle Bob”和另一个体(例如,用户的女儿)107所说的附加话语180“We miss you”,而听不到最初在AED 104的环境中捕获的背景噪声179。
继续参考图2,语音过滤辨识例程200可以连续执行,使得分类模型210基于场境输入202连续更新分类结果212。在这样做时,例程200可以动态地调整在AED 104和接收者设备105之间正进行的基于音频的通信会话期间语音过滤对哪些语音是活跃的。例如,分类模型210最初可以生成分类结果212,其指示仅针对用户102的语音激活语音过滤,使得语音过滤器引擎300生成增强音频数据152,其仅隔离用户的语音并且排除不是用户说出的所有其他声音。然而,在接收到传达音频消息的可听内容的原始音频数据的第二实例时,ASR 116通过话音辨识和语义解释可以指示可听内容的话音辨识结果识别至少一个其他参与基于音频的通信150的个体。在一个示例中,可听内容的话语可以包括用户102说“Hi Bob,it’sme and Alex(嗨,鲍勃,是我和亚历克斯)”,由此话语的辨识和随后的语义解释可以识别除了用户之外,Alex(亚历克斯)也是基于音频的通信150的参与者。因此,分类模型210可以接收用户102和Alex是参与者的场境输入202,并生成更新的分类结果212,该结果激活针对用户102和Alex的语音的语音过滤。如果没有基于场境输入202的此更新,Alex所说的任何话语都将被排除在基于音频的通信之外,即使这些话语可能包含旨在供接收者103收听的可听内容。在一些示例中,在当前基于语音的通信题续/会话期间,语音过滤辨识例程200简单地确定对于在当前传出的基于音频的通信中的相同语音重新激活针对先前基于音频的通信激活的语音过滤。
执行语音过滤辨识例程200可以包括执行分类模型210作为基于启发式的模型或训练的机器学习模型。在一些实施方式中,当分类模型210是训练的机器学习模型时,训练的机器学习模型基于在语音过滤器引擎300基于由模型210针对相同特定场境输入202生成的分类结果212对基于音频的通信应用语音过滤之后接收到的用户反馈215被重新训练/调整,以自适应地学习如何针对特定场境输入202激活语音过滤。这里,用户反馈215可以指示语音过滤对于其活跃的语音的接受或可以指示随后的指示对于语音的调整的用户输入指示,语音过滤针对所述语音是活跃的。例如,如果应用语音过滤以仅隔离用户的语音,则用户可以提供用户输入指示,以指示用户不希望将不是用户说出的特定语音和/或其他声音从基于通信的音频中隔离。因此,AED 104可以执行训练过程,该过程基于场境输入202、关联的分类结果212和获得的用户反馈215持续保留机器学习分类模型210,以便分类模型210基于过去用户在相似场境中的行为/反应自适应地学习输出为用户102个性化的语音过滤分类结果212。
现在参考图3,当语音过滤辨识例程200确定至少为用户102的语音激活语音过滤时,语音过滤引擎300可以使用频率变换器303(其可以在ASR 116处实现)来生成用于由AED104捕获的接收到的原始音频数据301的频率表示302。这里,原始音频数据301可以包括用于基于音频的通信的可听内容的一个或多个话语。频率表示302可以是例如以在线方式处理的流式音频数据(例如,实时或近实时,诸如在电话或视频呼叫中)或先前已记录(诸如,在音频消息中)并提供给语音过滤器引擎的非流式音频数据。语音过滤器引擎还从说话者嵌入引擎317接收说话者嵌入318。
说话者嵌入318是给定人类说话者的嵌入,并且可以基于使用说话者嵌入模型处理来自给定说话者的音频数据的一个或多个实例而获得。如本文所述,在一些实施方式中,说话者嵌入318先前由说话者嵌入引擎基于来自给定说话者的音频数据的先前实例生成。在那些实施方式中的一些中,说话者嵌入318与给定说话者的账户和/或给定说话者的客户端设备相关联,并且可以基于来自其中已经授权账户的AED 104的频率表示302来利用频率表示302提供说话者嵌入318以供利用。说话者嵌入引擎317可以确定表示由用于激活语音过滤的例程200识别的一个或多个人类说话者中的每一个的语音特性的相应说话者嵌入318。在一些实施方式中,说话者嵌入引擎317使用说话者嵌入模型(未描绘)处理捕获的原始音频数据301的部分以生成说话者嵌入。附加地或备选地,说话者嵌入引擎317可以选择使用语音指纹识别、图像辨识、密码和/或其他验证技术预生成的说话者嵌入(例如,先前使用注册过程生成的说话者嵌入)以确定当前活跃的人类说话者,因此,确定当前活跃的人类说话者的说话者嵌入。在许多实施方式中,归一化引擎312对一个或多个所选说话者嵌入318中的每一个进行归一化。
语音过滤引擎300可以可选地使用功率压缩过程来处理频率表示302以生成功率压缩304。在许多实施方式中,功率压缩过程均衡(或部分均衡)相对于音频数据中的响亮声音的较安静声音的重要性。附加地或备选地,语音过滤器引擎300可以可选地使用归一化过程来处理频率表示302以生成归一化306,并且可以可选地使用归一化过程来处理说话者嵌入318以生成归一化312。
语音过滤器引擎300可以包括被训练以处理原始音频数据301的频率表示302的语音过滤器模型112以及对应于人类说话者的说话者嵌入318以生成预测掩码322,其中,频率表示可以用预测的掩码322处理以生成修正的频率表示310,其隔离人类说话者的话语。代替使用预测掩码322,在不脱离本公开的范围的情况下,其他类型的语音过滤模型112是可能的。例如,端到端语音过滤器模型或基于生成对抗网络(GAN)的模型可以直接生成过滤后的频谱图。
更具体地,频率表示302可以被应用作为对于语音过滤器模型112的卷积神经网络(CNN)部分314的输入。在一些实施方式中,CNN部分314是一维卷积神经网络。在许多实施方式中,由CNN部分314生成的卷积输出以及说话者嵌入318被应用为语音过滤器模型112的递归神经网络(RNN)部分316的输入。这里,RNN部分316可以包括单向记忆单元(例如,长短期记忆单元(LSTM)、门控循环单元(GRU)和/或附加记忆单元)。附加地或备选地,RNN部分316生成的RNN输出可以作为输入应用到语音过滤器模型112的完全连接的前馈神经网络部分320以生成预测掩码322。在一些示例中,CNN部分314被省略并且频率表示302和说话者嵌入318两者被作为输入应用到RNN 316。
引擎300可以用预测掩码322处理频率表示302以生成修正频率表示310。例如,可以将频率表示302与预测掩码322进行卷积308以生成修正频率表示310。波形合成器324可以对修正频率表示310应用逆频率变换以生成增强音频数据152,其人类说话者的话语用于回放。增强音频数据152可以:当原始音频数据301仅捕获来自与说话者嵌入318相对应的说话者的话语时,与原始音频数据301相同;当原始音频数据301缺少来自与说话者嵌入318相对应的说话者的话语时为空/零;或者,当原始音频数据301包括来自说话者的话语和附加声音(例如,其他人类说话者的重叠话语和/或附加的背景噪声)时,在来自与说话者嵌入318对应的说话者的话语的同时排除附加声音。
图4提供了用于在基于音频的通信150中激活语音过滤以至少关注用户102的语音的示例方法400的流程图。在操作402,方法400包括接收对应于用于启用助理的设备104的用以促进启用助理的设备104的用户102和接收者103之间的基于音频的通信150的基于语音的命令118的原始音频数据的第一实例。基于语音的命令118由用户102说出并且由启用助理的设备104捕获。
在操作404,方法400包括接收原始音频数据的第二实例,该第二实例对应于用户102说出并由启用助理的设备104捕获的用于基于音频的通信150的可听内容126的话语124。原始音频数据的第二实例捕获不是用户102说出的一个或多个附加声音。
在操作406,方法400包括执行语音过滤辨识例程200以基于原始音频数据的第一实例确定是否至少针对基于音频的通信150中的用户102的语音激活语音过滤。在操作408,当语音过滤辨识例程确定至少为用户的语音激活语音过滤时,方法400还包括获得表示用户的语音特性的用户102的相应说话者嵌入318。在操作410,方法400包括使用说话者嵌入318处理原始音频数据的第二实例以生成用于基于音频的通信150的增强音频数据152,其用户102所说的可听内容的话语并且排除不是用户说出的一个或多个附加声音的至少一部分。
在操作412,方法400包括将增强音频数据152传输到与接收者103相关联的接收者设备105。增强音频数据152在被接收者设备105接收到时,使接收者设备105可听地输出用户102说出的可听内容126的话语124。
软件应用(即,软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中,软件应用可被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交网络应用和游戏应用。
非暂时性存储器可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
图5是可用于实现本文档中描述的系统和方法的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他合适的计算机。此处所示的组件、它们的联系和关系以及它们的功能仅意味着是示例性的,并不意味着限制本文档中描述和/或要求保护的发明的实施方式。
计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540、以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每一个都使用各种总线互连,并且可以安装在公共主板上或以其他合适的方式安装。处理器510可以处理用于在计算设备500内执行的指令,包括存储在存储器520中或存储设备530上以在诸如耦合到高速接口540的显示器580的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息的指令。在其他实施方式中,可以合适地使用多个处理器和/或多条总线以及多个存储器和多种存储器类型。此外,可以连接多个计算设备500,每个设备提供必要操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质、易失性存储单元或非易失性存储单元。非暂时性存储器520可以是用于在临时或永久的基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备530能够为计算设备500提供大容量存储。在一些实施方式中,存储设备530是计算机可读介质。在各种不同的实施方式中,存储设备530可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备或设备阵列(包括在存储区域网络或其他配置中的设备)。在另外的实施方式中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令,这些指令在执行时执行一种或多种方法,例如上述方法。信息载体是计算机或机器可读介质,诸如存储器520、存储设备530或处理器510上的存储器。
高速控制器540管理计算设备500的带宽密集型操作,而低速控制器560管理较低带宽密集型操作。这种职责分配只是示范性的。在一些实施方式中,高速控制器550耦合到存储器520、显示器580(例如,通过图形处理器或加速器)以及高速扩展端口550,其可以接受各种扩展卡(未示出)。在一些实施方式中,低速控制器560耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出设备,例如键盘、指向设备、扫描仪或网络设备(例如交换机或路由器)。
计算设备500可以以多种不同的形式实现,如图所示。例如,它可以实现为标准服务器500a或在一组这样的服务器500a中多次实现,实现为膝上型计算机500b,或实现为机架服务器系统500c的一部分。
本文描述的系统和技术的各种实施方式可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式,该程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用的或通用的,其耦合到存储系统、至少一个输入设备和至少一个输出设备以从其接收数据和指令并向其发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的,术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、用于向可编程处理器提供机器指令和/或数据的可编程逻辑设备(PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也可以由专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。例如,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或者可操作地耦合到其以从其接收数据或向其传送数据或两者。然而,计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及,CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)并且选用地具有键盘和指示设备的计算机上实现本公开的一个或多个方面,指示设备例如是鼠标或轨迹球,用户可以通过其向计算机提供输入。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、话音或触觉输入。另外,计算机可以通过向用户使用的设备发送文件以及从用户使用的设备接收文件(例如,通过响应于从在用户客户端设备上的Web浏览器收到的请求,将网页发送到Web浏览器)来与用户进行交互。
已经描述了许多实施方式。然而,应当理解,在不脱离本公开的精神和范围的情况下可以进行各种修改。因此,其他实施方式在所附权利要求的范围内。

Claims (30)

1.一种方法(400)包括:
在数据处理硬件(10)处接收原始音频数据(301)的第一实例,所述第一实例对应于针对启用助理的设备(104)的、用以促进在所述启用助理的设备(104)的用户(102)和接收者(103)之间的基于音频的通信的语音命令(118),所述语音命令(118)由所述用户(102)说出并由所述启用助理的设备(104)捕获;
在所述数据处理硬件(10)处接收所述原始音频数据(301)的第二实例,所述第二实例对应于由所述用户(102)说出并且由所述启用助理的设备(104)捕获的所述基于音频的通信的可听内容(126、178)的话语,所述原始音频数据(301)的所述第二实例捕获不是由所述用户(102)说出的一个或多个附加声音;
由所述数据处理硬件(10)执行语音过滤辨识例程(200),以基于所述原始音频数据(301)的所述第一实例来确定是否至少针对在所述基于音频的通信中的所述用户(102)的语音而激活语音过滤;
在所述语音过滤辨识例程(200)确定至少针对所述用户(102)的所述语音而激活语音过滤时:
由所述数据处理硬件(10)获得表示所述用户(102)的语音特性的所述用户(102)的相应说话者嵌入(318);以及
由所述数据处理硬件(10)使用所述用户(102)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的增强音频数据(152),所述增强音频数据(152)隔离由所述用户(102)说出的可听内容(126、178)的所述话语并且排除不是由所述用户(102)说出的所述一个或多个附加声音的至少一部分;以及
由所述数据处理硬件(10)将所述增强音频数据(152)传输到与所述接收者(103)相关联,所述增强音频数据(152)在被所述接收者设备(105)接收到时,使所述接收者设备(105)以可听方式输出由所述用户(102)说出的可听内容(126、178)的所述话语。
2.根据权利要求1所述的方法(400),进一步包括:
由所述数据处理硬件(10)使用话音辨识器(116)处理所述原始音频数据(301)的所述第一实例以生成话音辨识结果(212);以及
由所述数据处理硬件(10)对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行语义解释,以确定所述原始音频数据(301)的所述第一实例包括用以促进在所述用户(102)和所述接收者(103)之间的所述基于音频的通信的所述语音命令(118)。
3.根据权利要求2所述的方法(400),其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
基于对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行的所述语义解释,来识别所述基于音频的通信的所述接收者(103);
确定所识别的所述基于音频的通信的接收者(103)是否包括特定接收者类型,所述特定接收者类型指示至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活所述语音过滤是合适的;以及
在所识别的所述基于音频的通信的接收者(103)包括所述特定接收者类型时,确定至少针对所述用户(102)的所述语音而激活语音过滤。
4.根据权利要求3所述的方法(400),其中,所述接收者类型包括企业。
5.根据权利要求2-4中任一项所述的方法(400),其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
基于对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行的所述语义解释,来确定所述语音命令(118)是否包括用于至少针对所述用户(102)的所述语音而激活语音过滤的明确指令;以及
在所述语音命令(118)包括用于至少针对所述用户(102)的所述语音而激活语音过滤的所述明确指令时,确定至少针对所述用户(102)的所述语音而激活语音过滤。
6.根据权利要求5所述的方法(400),进一步包括,在执行所述语音过滤例程(200)确定所述语音命令(118)包括用于针对所述用户(102)和另一个体(107)的语音而激活语音过滤的明确指令时:
对于所述另一个体(107),由所述数据处理硬件(10)获得表示所述另一个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述另一个体(107)说出的所述基于音频的通信的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述另一个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述另一个体(107)的相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例以生成所述基于音频的通信的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
7.根据权利要求1-6中任一项所述的方法(400),其中:
所述原始音频数据(301)的所述第一实例包括前导音频和针对所述启用助理的设备(104)的、在用以促进所述基于音频的通信的所述语音命令(118)之前的热词(110、160);以及
执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
从所述前导音频和/或热词(110、160)中提取音频特征以确定所述启用助理的设备(104)的环境的背景噪声水平;以及
基于所述启用助理的设备(104)的环境的所述背景噪声水平,确定至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤。
8.根据权利要求1-7中任一项所述的方法(400),进一步包括:
由所述数据处理硬件(10)确定所述启用助理的设备(104)的类型,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于所述启用助理的设备(104)的所述类型。
9.根据权利要求1-8中任一项所述的方法(400),进一步包括:
由所述数据处理硬件(10)确定所述启用助理的设备(104)所位于的环境,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于所述启用助理的设备(104)所位于的所述环境。
10.根据权利要求1-9中任一项所述的方法(400),进一步包括,在由所述启用助理的设备(104)促进的所述基于音频的通信包括视频呼叫(150)时:
在所述数据处理硬件(10)处,从所述启用助理的设备(104)的图像捕获设备(18)接收指示至少所述用户(102)正在参与所述视频呼叫(150)的图像数据(20),
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于指示至少所述用户(102)正在参与所述视频呼叫(150)的所述图像数据(20)。
11.根据权利要求10所述的方法(400),进一步包括,在执行所述语音过滤辨识例程(200)基于指示所述用户(102)和至少一个其他个体(107)正在参与所述视频呼叫(150)的所述图像数据(20)来确定针对所述用户(102)和所述至少一个其他个体(107)的语音而激活语音过滤时:
对于所述至少一个其他个体(107),由所述数据处理硬件(10)获得表示所述至少一个其他个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述至少一个其他个体(107)说出的所述视频呼叫(150)的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述至少一个其他个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述至少一个其他个体(107)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述视频呼叫(150)的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
12.根据权利要求1-11中任一项所述的方法(400),进一步包括:
由所述数据处理硬件(10)使用话音辨识器(116)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的所述音频内容(126、178)的话音辨识结果(212);以及
由所述数据处理硬件(10)对所述基于音频的通信的所述可听内容(126、178)的所述话音辨识结果(212)执行语义解释,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于对所述基于音频的通信的所述可听内容(126、178)的所述话音辨识结果(212)执行的所述语义解释。
13.根据权利要求12所述的方法(400),进一步包括,在执行所述语音过滤辨识例程(200)基于对所述可听内容(126、178)的所述话音辨识结果(212)执行的所述语义解释指示所述可听内容(126、178)识别参与在所述用户(102)和所述接收者(103)之间的所述基于音频的通信的至少一个其他个体(107)来确定针对所述用户(102)和至少一个其他个体(107)的语音而激活语音过滤时:
对于所述至少一个其他个体(107),由所述数据处理硬件(10)获得表示所述至少一个其他个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述至少一个其他个体(107)说出的所述基于音频的通信的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述至少一个其他个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述至少一个其他个体(107)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
14.根据权利要求1-13中任一项所述的方法(400),其中,所述基于音频的通信包括音频呼叫、电话呼叫、视频呼叫(150)、音频消息(150)或广播音频中的一个。
15.根据权利要求1-14中任一项所述的方法(400),进一步包括,由所述数据处理硬件(10)在显示在与所述数据处理硬件(10)通信的屏幕上的图形用户界面GUI中显示:
用于指示当前是否至少针对所述用户(102)的所述语音而激活语音过滤的图形指示符;以及
用于针对至少所述用户(102)的所述语音而激活/停用语音过滤的控件。
16.一种系统(100),包括:
数据处理硬件(10);以及
与所述数据处理硬件(10)通信的存储器硬件(12),所述存储器硬件(12)存储指令,所述指令在所述数据处理硬件(10)上执行时,使所述数据处理硬件(10)执行操作,所述操作包括:
接收原始音频数据(301)的第一实例,所述第一实例对应于针对启用助理的设备(104)的、用以促进在所述启用助理的设备(104)的用户(102)和接收者(103)之间的基于音频的通信的语音命令(118),所述语音命令(118)由所述用户(102)说出并由所述启用助理的设备(104)捕获;
接收所述原始音频数据(301)的第二实例,所述第二实例对应于由所述用户(102)说出并且由所述启用助理的设备(104)捕获的所述基于音频的通信的可听内容(126、178)的话语,所述原始音频数据(301)的所述第二实例捕获不是由所述用户(102)说出的一个或多个附加声音;
执行语音过滤辨识例程(200),以基于所述原始音频数据(301)的所述第一实例来确定是否至少针对在所述基于音频的通信中的所述用户(102)的语音而激活语音过滤;
在所述语音过滤辨识例程(200)确定至少针对所述用户(102)的所述语音而激活语音过滤时:
获得表示所述用户(102)的语音特性的所述用户(102)的相应说话者嵌入(318);以及
使用所述用户(102)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的增强音频数据(152),所述增强音频数据(152)隔离由所述用户(102)说出的可听内容(126、178)的所述话语并且排除不是由所述用户(102)说出的所述一个或多个附加声音的至少一部分;以及
将所述增强音频数据(152)传输到与所述接收者(103)相关联的接收者设备,所述增强音频数据(152)在被所述接收者设备(105)接收到时,使所述接收者设备(105)以可听方式输出由所述用户(102)说出的可听内容(126、178)的所述话语。
17.根据权利要求16所述的系统(100),其中,所述操作进一步包括:
使用话音辨识器(116)处理所述原始音频数据(301)的所述第一实例以生成话音辨识结果(212);以及
对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行语义解释,以确定所述原始音频数据(301)的所述第一实例包括用以促进在所述用户(102)和所述接收者(103)之间的所述基于音频的通信的所述语音命令(118)。
18.根据权利要求17所述的系统(100),其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
基于对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行的所述语义解释,来识别所述基于音频的通信的所述接收者(103);
确定所识别的所述基于音频的通信的接收者(103)是否包括特定接收者类型,所述特定接收者类型指示至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活所述语音过滤是合适的;以及
在所识别的所述基于音频的通信的接收者(103)包括所述特定接收者类型时,确定至少针对所述用户(102)的所述语音而激活语音过滤。
19.根据权利要求18所述的系统(100),其中,所述接收者类型包括企业。
20.根据权利要求17-19中任一项所述的系统(100),其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
基于对所述原始音频数据(301)的所述第一实例的所述话音辨识结果(212)执行的所述语义解释,来确定所述语音命令(118)是否包括用于至少针对所述用户(102)的所述语音而激活语音过滤的明确指令;以及
在所述语音命令(118)包括用于至少针对所述用户(102)的所述语音而激活语音过滤的所述明确指令时,确定至少针对所述用户(102)的所述语音而激活语音过滤。
21.根据权利要求20所述的系统(100),其中,所述操作进一步包括,在执行所述语音过滤例程(200)确定所述语音命令(118)包括用于针对所述用户(102)和另一个体(107)的语音而激活语音过滤的明确指令时:
对于所述另一个体(107),获得表示所述另一个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述另一个体(107)说出的所述基于音频的通信的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述另一个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述另一个体(107)的相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例以生成所述基于音频的通信的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
22.根据权利要求16-21中任一项所述的系统(100),其中:
所述原始音频数据(301)的所述第一实例包括前导音频和针对所述启用助理的设备(104)的、在用以促进所述基于音频的通信的所述语音命令(118)之前的热词(110、160);以及
执行所述语音过滤辨识例程(200)以确定是否至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤包括:
从所述前导音频和/或热词(110、160)中提取音频特征以确定所述启用助理的设备(104)的环境的背景噪声水平;以及
基于所述启用助理的设备(104)的环境的所述背景噪声水平,确定至少针对所述基于音频的通信中的所述用户(102)的所述语音而激活语音过滤。
23.根据权利要求16-22中任一项所述的系统(100),其中,所述操作进一步包括:
确定所述启用助理的设备(104)的类型,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于所述启用助理的设备(104)的所述类型。
24.根据权利要求16-23中任一项所述的系统(100),其中,所述操作进一步包括:
确定所述启用助理的设备(104)所位于的环境,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于所述启用助理的设备(104)所位于的所述环境。
25.根据权利要求16-24中任一项所述的系统(100),其中,所述操作进一步包括,在由所述启用助理的设备(104)促进的所述基于音频的通信包括视频呼叫(150)时:
从所述启用助理的设备(104)的图像捕获设备(18)接收指示至少所述用户(102)正在参与所述视频呼叫(150)的图像数据(20),
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于指示至少所述用户(102)正在参与所述视频呼叫(150)的所述图像数据(20)。
26.根据权利要求25所述的系统(100),其中,所述操作进一步包括,在执行所述语音过滤辨识例程(200)基于指示所述用户(102)和至少一个其他个体(107)正在参与所述视频呼叫(150)的所述图像数据(20)来确定针对所述用户(102)和所述至少一个其他个体(107)的语音而激活语音过滤时:
对于所述至少一个其他个体(107),获得表示所述至少一个其他个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述至少一个其他个体(107)说出的所述视频呼叫(150)的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述至少一个其他个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述至少一个其他个体(107)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述视频呼叫(150)的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
27.根据权利要求26所述的系统(100),其中,所述操作进一步包括:
使用话音辨识器(116)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的所述音频内容(126、178)的话音辨识结果(212);以及
对所述基于音频的通信的所述可听内容(126、178)的所述话音辨识结果(212)执行语义解释,
其中,执行所述语音过滤辨识例程(200)以确定是否至少针对所述用户(102)的所述语音而激活语音过滤是进一步基于对所述基于音频的通信的所述可听内容(126、178)的所述话音辨识结果(212)执行的所述语义解释。
28.根据权利要求27所述的系统(100),其中,所述操作进一步包括,在执行所述语音过滤辨识例程(200)基于对所述可听内容(126、178)的所述话音辨识结果(212)执行的所述语义解释指示所述可听内容(126、178)识别参与在所述用户(102)和所述接收者(103)之间的所述基于音频的通信的至少一个其他个体(107)来确定针对所述用户(102)和至少一个其他个体(107)的语音而激活语音过滤时:
对于所述至少一个其他个体(107),获得表示所述至少一个其他个体(107)的语音特性的相应说话者嵌入(318),
其中:
不是由所述用户(102)说出的、由所述原始音频信号的所述第二实例捕获的所述一个或多个附加声音包括由所述至少一个其他个体(107)说出的所述基于音频的通信的可听内容(126、178)的附加话语(180)和不是由所述用户(102)或所述至少一个其他个体(107)中的任何一个说出的背景噪声(128、179);以及
处理所述原始音频数据(301)的所述第二实例以生成所述增强音频数据(152)包括:使用所述用户(102)和所述至少一个其他个体(107)的所述相应说话者嵌入(318)处理所述原始音频数据(301)的所述第二实例,以生成所述基于音频的通信的所述增强音频数据(152),所述增强音频数据(152)隔离所述可听内容(126、178)的所述附加话语(180)和所述话语并排除所述背景噪声(128、179)。
29.根据权利要求16-28中任一项所述的系统(100),其中,所述基于音频的通信包括音频呼叫、电话呼叫、视频呼叫(150)、音频消息(150)或广播音频中的一个。
30.根据权利要求16-29中任一项所述的系统(100),其中,所述操作进一步包括,在显示在与所述数据处理硬件(10)通信的屏幕上的图形用户界面GUI中显示:
用于指示当前是否至少针对所述用户(102)的所述语音而激活语音过滤的图形指示符;以及
用于至少针对所述用户(102)的所述语音而激活/停用语音过滤的控件。
CN202180074499.9A 2020-10-30 2021-10-26 从呼叫和音频消息中对其他说话者进行语音过滤 Pending CN116420188A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/086,296 US11462219B2 (en) 2020-10-30 2020-10-30 Voice filtering other speakers from calls and audio messages
US17/086,296 2020-10-30
PCT/US2021/056718 WO2022093872A1 (en) 2020-10-30 2021-10-26 Voice filtering other speakers from calls and audio messages

Publications (1)

Publication Number Publication Date
CN116420188A true CN116420188A (zh) 2023-07-11

Family

ID=78820481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180074499.9A Pending CN116420188A (zh) 2020-10-30 2021-10-26 从呼叫和音频消息中对其他说话者进行语音过滤

Country Status (6)

Country Link
US (2) US11462219B2 (zh)
EP (1) EP4238090A1 (zh)
JP (1) JP2023548157A (zh)
KR (1) KR20230098266A (zh)
CN (1) CN116420188A (zh)
WO (1) WO2022093872A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220172728A1 (en) * 2020-11-04 2022-06-02 Ian Perera Method for the Automated Analysis of Dialogue for Generating Team Metrics
US11404061B1 (en) * 2021-01-11 2022-08-02 Ford Global Technologies, Llc Speech filtering for masks
US11830514B2 (en) * 2021-05-27 2023-11-28 GM Global Technology Operations LLC System and method for augmenting vehicle phone audio with background sounds

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3010017A1 (en) 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
US10431211B2 (en) 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US10553235B2 (en) 2017-08-28 2020-02-04 Apple Inc. Transparent near-end user control over far-end speech enhancement processing

Also Published As

Publication number Publication date
US11462219B2 (en) 2022-10-04
US20220139388A1 (en) 2022-05-05
KR20230098266A (ko) 2023-07-03
EP4238090A1 (en) 2023-09-06
JP2023548157A (ja) 2023-11-15
WO2022093872A1 (en) 2022-05-05
US20230005480A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
KR102509464B1 (ko) 발언 분류기
US10552118B2 (en) Context based identification of non-relevant verbal communications
JP7244665B2 (ja) エンドツーエンドの音声変換
WO2021159688A1 (zh) 声纹识别方法、装置、存储介质、电子装置
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
US20230005480A1 (en) Voice Filtering Other Speakers From Calls And Audio Messages
EP4004906A1 (en) Per-epoch data augmentation for training acoustic models
JP7136868B2 (ja) 話者ダイアライゼーション
WO2014120291A1 (en) System and method for improving voice communication over a network
US11568878B2 (en) Voice shortcut detection with speaker verification
WO2023040523A1 (zh) 音频信号的处理方法、装置、电子设备及存储介质
US12033641B2 (en) Voice shortcut detection with speaker verification
US20080147394A1 (en) System and method for improving an interactive experience with a speech-enabled system through the use of artificially generated white noise
CN117795597A (zh) 用于自动语音辨识的联合声学回声消除、语音增强和话音分离
Islam et al. Feature Fusion Based Audio‐Visual Speaker Identification Using Hidden Markov Model under Different Lighting Variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination