CN108028979A - 协作音频处理 - Google Patents

协作音频处理 Download PDF

Info

Publication number
CN108028979A
CN108028979A CN201680052898.4A CN201680052898A CN108028979A CN 108028979 A CN108028979 A CN 108028979A CN 201680052898 A CN201680052898 A CN 201680052898A CN 108028979 A CN108028979 A CN 108028979A
Authority
CN
China
Prior art keywords
audio
audio signal
capturing device
user
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680052898.4A
Other languages
English (en)
Other versions
CN108028979B (zh
Inventor
金莱轩
埃里克·维瑟
拉格胡佛·沛瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108028979A publication Critical patent/CN108028979A/zh
Application granted granted Critical
Publication of CN108028979B publication Critical patent/CN108028979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Abstract

一种产生音频输出的方法包含在用户装置(810)处显示图形用户接口GUI(800)。所述GUI表示具有多个区(801到809)的区域,且多个音频捕获装置(810、820、830)位于所述区域中。所述方法还包含从所述多个音频捕获装置接收音频数据。所述方法进一步包含接收指示所述多个区中的所选区的输入。所述方法还包含基于来自所述多个音频捕获装置的子集的音频数据在所述用户装置处产生音频输出。所述子集中的每一音频捕获装置位于所述所选区中。

Description

协作音频处理
优先权要求
本申请案要求2015年9月18日申请的共同拥有的第14/859,128号美国非临时专利申请案的优先权,所述美国非临时专利申请案的内容以全文引用的方式并入本文中。
技术领域
本发明大体上涉及音频处理。
背景技术
技术的进步已带来更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如便携式无线电话、个人数字助理(PDA)及寻呼装置等,其体积小,重量轻,且易于用户携带。更具体来说,便携式无线电话(例如蜂窝式电话及因特网协议(IP)电话等)可经由无线网络传达语音及数据包。另外,许多此类无线电话包含并入于其中的其它类型的装置。举例来说,无线电话也可包含数字静态摄像机、数字视频摄像机、数字记录器及音频档案播放器。而且,此类无线电话可处理可执行指令,包含可用以对因特网进行存取的软件应用(例如网页浏览器应用等)。因而,这些无线电话可包含显著的计算能力。
一些电子装置(例如,无线电话)可具有多个麦克风。如果例如用户话音等的目标声音是由第一麦克风检测,则由另一麦克风捕获的信号可用于对由第一麦克风捕获的信号执行噪声抑制。由于单一装置上的多个麦克风之间的声学几何结构为固定的,因此其它麦克风的信号可用于噪声抑制。也可使用来自其它装置的音频信号;然而,习知多麦克风处理算法要求存取几何信息,例如麦克风等之间或一个麦克风相对于其它麦克风的位置的距离。
发明内容
根据本文中所揭示的技术的一个实例,执行噪声降低的方法包含在第一装置的第一麦克风处捕获第一音频信号。方法还包含在第一装置处从第二装置接收表示第二音频信号的音频数据。通过第二装置的第二麦克风捕获第二音频信号。方法进一步包含至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低。
根据本文中所揭示的技术的另一实例,第一装置包含经配置以捕获第一音频信号的第一麦克风。第一装置还包含经配置以从第二装置接收表示第二音频信号的音频数据的接收器。通过第二装置的第二麦克风捕获第二音频信号。第一装置进一步包含经配置以至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低的处理器。
根据本文中所揭示的技术的另一实例,非暂时性计算机可读媒体包含用于执行噪声降低的指令。所述指令在由第一装置的处理器执行时使得所述处理器执行包含接收在第一装置的第一麦克风处捕获的第一音频信号的操作。操作还包括从第二装置接收表示第二音频信号的音频数据。通过第二装置的第二麦克风捕获第二音频信号。操作进一步包含至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低。
根据本文中所揭示的技术的另一实例,第一装置包括用于捕获第一音频信号的装置。第一装置还包含用于从第二装置接收表示第二音频信号的音频数据的装置。通过第二装置的麦克风捕获第二音频信号。第一装置还包含用于至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低的装置。
根据本文中所揭示的技术的另一实例,操作装置的方法包含在第一用户装置处从第二用户装置接收音频数据。音频数据是基于在第二用户装置的麦克风处捕获的音频信号。方法还包含基于音频数据执行说话者验证功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值。方法进一步包含响应于可能性值超出阈值而启用第一用户装置的一或多个功能。
根据本文中所揭示的技术的另一实例,设备包含处理器及存储可由所述处理器执行以执行操作的指令的存储器。操作包含在第一用户装置处从第二用户装置接收音频数据。音频数据基于在第二用户装置的麦克风处捕获的音频信号。操作还包含基于音频数据执行说话者验证功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值。操作进一步包含响应于可能性值超出阈值而启用第一用户装置的一或多个功能。
根据本文中所揭示的技术的另一实例,非暂时性计算机可读媒体包含用于操作装置的指令。所述指令在由处理器执行时使得所述处理器执行包含在第一用户装置处从第二用户装置接收音频数据的操作。音频数据基于在第二用户装置的麦克风处捕获的音频信号。操作还包含基于音频数据执行说话者验证功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值。操作进一步包含响应于可能性值超出阈值而启用第一用户装置的一或多个功能。
根据本文所中揭示的技术的另一实例,设备包含用于在第一用户装置处从第二用户装置接收音频数据的装置。音频数据基于在第二用户装置的麦克风处捕获的音频信号。设备还包含用于基于音频数据执行说话者验证功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值的装置。设备进一步包含用于响应于可能性值超出阈值而启用第一用户装置的一或多个功能的装置。
根据本文中所揭示的技术的另一实例,产生音频输出的方法包含在用户装置处显示图形用户接口(GUI)。GUI表示具有多个区的区域,且多个音频捕获装置位于所述区域中。方法还包含从多个音频捕获装置中的至少一者接收音频数据。方法进一步包含接收指示多个区中的所选区的输入。方法还包含基于来自多个音频捕获装置的子集的音频数据在用户装置处产生音频输出。子集中的每一音频捕获装置位于所选区中。
根据本文中所揭示的技术的另一实例,设备包含处理器及存储可由所述处理器执行以执行操作的指令的存储器。操作包含在用户装置处显示图形用户接口(GUI)。GUI表示具有多个区的区域,且多个音频捕获装置位于所述区域中。操作还包含从多个音频捕获装置中的至少一者接收音频数据。操作进一步包含接收指示多个区中的所选区的输入。操作还包含基于来自多个音频捕获装置的子集的音频数据在用户装置处产生音频输出。子集中的每一音频捕获装置位于所选区中。
根据本文中所揭示的技术的另一实例,非暂时性计算机可读媒体包含指令,所述指令在由处理器执行时使得所述处理器执行包含在用户装置处显示图形用户接口(GUI)的操作。GUI表示具有多个区的区域,且多个音频捕获装置位于所述区域中。操作还包含从多个音频捕获装置中的至少一者接收音频数据。操作进一步包含接收指示多个区中的所选区的输入。操作还包含基于来自多个音频捕获装置的子集的音频数据在用户装置处产生音频输出。子集中的每一音频捕获装置位于所选区中。
根据本文中所揭示的技术的另一实例,设备包含用于在用户装置处显示图形用户接口(GUI)的装置。GUI表示具有多个区的区域,且多个音频捕获装置位于所述区域中。设备还包含用于从多个音频捕获装置中的至少一者接收音频数据的装置。设备进一步包含用于接收指示多个区中的所选区的输入的装置。设备还包含用于基于来自多个音频捕获装置的子集的音频数据在用户装置处产生音频输出的装置。子集中的每一音频捕获装置位于所选区中。
附图说明
图1为可操作以使用从多个装置捕获的音频信号来抑制噪声的系统;
图2为可操作以使用从多个装置捕获的音频信号来抑制噪声的噪声降低电路的图;
图3为可操作以使用从多个装置捕获的音频信号来抑制噪声的另一系统;
图4为用于使用从多个装置捕获的音频信号执行噪声降低的方法;
图5为可操作以使用音频数据执行说话者验证及说话者辨识的系统;
图6为用于使用音频数据的说话者验证及说话者辨识的方法流程图;
图7为用于使用音频数据执行说话者验证及说话者辨识的方法;
图8为用户装置的图形用户接口(GUI);
图9为用于基于区域的一或多个所选区产生音频输出的方法;且
图10为可操作以支持本文中所揭示的一或多个方法、系统、设备及/或计算机可读媒体的各种方面的用户装置的图。
具体实施方式
参考图式描述本发明的特定实施方案。在描述中,贯穿图式通过共同参考编号指定共同特征。
参考图1,展示可操作以使用从多个装置捕获的音频信号抑制噪声的系统100。系统100包含第一装置110、第二装置120、第三装置130及第四装置140。每一装置110、120、130、140可为可操作以经由麦克风捕获周围音频声音的电子装置。尽管在系统100中描绘四个装置110、120、130、140,但在其它实施方案中,可使用额外(或更少)装置实施本文中所描述的噪声抑制技术。作为非限制性实例,可使用十个装置或两个装置实施本文所描述的噪声抑制技术。
根据一个实施方案,装置110、120、130、140中的一或多者可为无线通信装置(例如,移动电话)。然而,在其它实施中,装置110、120、130、140中的一或多者可为可操作以捕获音频信号且可操作以发射所捕获的音频信号的其它电子装置。作为非限制性实例,装置110、120、130、140中的一或多者可为平板计算机、个人数字助理(PDA)、膝上型计算机、计算机、显示装置、游戏控制台、音乐播放器、无线电、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、摄像机、导航装置、机顶盒、电视、洗衣机等。
第一装置110包含收发器112、麦克风114及处理器116。根据一个实施方案,作为收发器112的替代,第一装置110可包含接收器及发射器。第二装置120包含收发器122、麦克风124及处理器126。根据一个实施方案,作为收发器122的替代,第二装置120可包含接收器及发射器。第三装置130包含收发器132、麦克风134及处理器136。根据一个实施方案,作为收发器132的替代,第三装置130可包含接收器及发射器。第四装置140包含收发器142、麦克风144及处理器146。根据一个实施方案,作为收发器142的替代,第四装置140可包含接收器及发射器。
每一装置110、120、130、140的麦克风114、124、134、144可经配置以捕获周围音频信号。举例来说,麦克风114可经配置以捕获第一音频信号102,麦克风124可经配置以捕获第二音频信号104,麦克风134可经配置以捕获第三音频信号106,且麦克风144可经配置以捕获第四音频信号108。第一音频信号102可包含“主要”分量(例如,话音(S)分量或目标分量)及次要分量(例如,噪声分量)。第一音频信号102的次要分量可源自(或可产生于)其它音频信号104、106、108。作为非限制性实例,第一音频信号102的第一音频水平(A1)(或能量水平)可表达为其中S为话音分量(或“目标”分量),N2为与第二音频信号104相关联的噪声分量,N3为与第三音频信号106相关联的噪声分量,N4为与第四音频信号108相关联的噪声分量,D2为第一装置110与第二装置120之间的距离,D3为第一装置110与第三装置130之间的距离,且D4为第一装置110与第四装置140之间的距离。
话音分量(S)及每一噪声分量(N2、N3、N4)可具有不同频率。举例来说,话音分量(S)可具有频率(f1),噪声分量(N2)可具有频率(f2),噪声分量(N3)可具有频率(f3),且噪声分量(N4)可具有频率(f4)。如下文所描述,可在最大合并操作期间由处理器116使用每一噪声分量的频率,以产生用于在第一装置110处对第一音频信号102执行噪声降低的非目标参考信号。噪声分量(N2)可由第二装置120产生或在相对接近第二装置120内产生。噪声分量(N3)可由第三装置130产生或在相对接近第三装置130内产生。噪声分量(N4)可由第四装置140产生或在相对接近第四装置140内产生。然而,噪声分量(N2到N4)中的一或多者也可通过第一装置110的麦克风114捕获。由于噪声分量(N2到N4)在麦克风114处捕获,故第一音频水平(A1)可至少部分地基于所述噪声分量(N2到N4),如上述方程式中所指示。
第二音频信号104的第二音频水平(A2)可表达为第三音频信号106的第三音频水平(A3)可表达为第四音频信号108的第四音频水平(A4)可表达为应理解,用于音频信号102、104、106、108的音频水平的表式(例如,数学公式)仅为实例且不应被认作限制。举例来说,无需基于上述方程式表达音频水平(A1到A4),但应理解,噪声源离麦克风愈远,麦克风处的噪声的音频水平愈小。
第一装置110可经配置以对第一音频信号102执行噪声降低操作,从而增强第一音频信号102的主要分量(例如,话音(S))。在执行噪声降低操作之前,其它装置120、130、140可将表示对应音频信号104、106、108的音频数据154、156、158分别发射到第一装置110。举例来说,在用麦克风124捕获第二音频信号104之后,第二装置120可使用收发器122将表示第二音频信号104的第二音频数据154发射到第一装置110。在通过麦克风134捕获第三音频信号106之后,第三装置130可使用收发器132将表示第三音频信号106的第三音频数据156发射到第一装置110。在通过麦克风144捕获第四音频信号108之后,第四装置140可使用收发器142将表示第四音频信号108的第四音频数据158发射到第一装置110。
音频数据154、156、158可分别具有对应音频信号104、106、108的大体上类似性质。作为非限制性实例,音频数据154、156、158可分别包含所捕获音频信号104、106、108的复本。因此,为了易于描述及说明,第二音频数据154可与第二音频信号104互换地使用,第三音频数据156可与第三音频信号106互换地使用,且第四音频数据156可与第四音频信号108互换地使用。然而,应理解,每一收发器122、132、142分别发射所捕获音频信号104、106、108的复本或表示。
在从对应收发器122、132、142接收到音频信号104、106、108之后,处理器116的噪声降低电路118可对音频信号104、106、108执行增益预调节操作。增益预调节操作可正规化每一音频信号104、106、108的水平。为了执行增益预调节操作,噪声降低电路118可追踪第一音频信号102(例如,“主输入”信号)与其它音频信号104、106、108(例如,“子输入”信号)之间的能量(水平)差,且可递回地更新应用于每一音频信号104、106、108的增益调节因数,从而正规化每一音频信号104、106、108的水平。如本文中所使用,“子输入”信号包含在麦克风处捕获的任何音频信号,其相对于在麦克风处捕获的主信号为背景噪声。
为了说明,噪声降低电路118可将增益调节因数(G2)应用于由第二装置120提供的第二音频信号104以产生第二增益经调整音频信号(未展示),可将增益调节因数(G3)应用于由第三装置130提供的第三音频信号106以产生第三增益经调整音频信号(未展示),且可将增益调节因数(G4)应用于由第四装置140提供的第四音频信号108以产生第四增益经调整音频信号(未展示)。如本文中所使用,应用增益因数可包含提高(或降低)对应信号的音频水平。应用于第二音频信号104的增益调节因数(G2)可为一值,使得第二增益经调整音频信号的音频水平小于第一音频信号102的话音(S)水平,且使得第二增益经调整音频信号的音频水平大于第一音频信号102的次要分量应用于第三音频信号106的增益调节因数(G3)可为一值,使得第三增益经调整音频信号的音频水平小于第一音频信号102的话音(S)水平,且使得第三增益经调整音频信号的音频水平大于第一音频信号102的次要分量应用于第四音频信号108的增益调节因数(G4)可为一值,使得第四增益经调整音频信号的音频水平小于第一音频信号102的话音(S)水平,且使得第四增益经调整音频信号的音频水平大于第一音频信号102的次要分量
为执行增益预调节操作,噪声降低电路118可使用最小统计追踪以降低信道当中的能量正规化,使得每一音频信号102、104、106、108具有环境稳态噪声的大体上类似音频水平。举例来说,当主功率(例如,第一音频信号102的第一音频水平(A1))明显高于子功率(例如,其它信号104、106、108的音频水平)时,噪声降低电路118可提供小于主功率(包含某一余量)的增益经调整子功率以降低对噪声的高估。当子功率明显高于主功率时,噪声降低电路118可提供高于主功率(包含某一余量)的增益经调整子功率以确保对噪声的高估。
在已通过噪声降低电路118将增益调节因数应用于音频信号104、106、108以产生增益经调整音频信号之后,噪声降低电路118可对增益经调整音频信号执行最大合并操作以产生非目标参考信号(未展示)。如关于图2更详细地描述,最大合并操作可从增益经调整音频信号选择(例如,“合并”)不同噪声分量以产生非目标参考信号。举例来说,最大合并操作可在每一频率下选择具有最大增益的噪声分量,且可组合所选噪声分量以产生非目标参考信号。噪声降低电路118可经配置以使用非目标参考信号对第一音频信号102执行噪声降低。举例来说,噪声降低电路118可通过组合非目标参考信号与第一音频信号102来“降低”第一音频信号102的噪声分量作为组合非目标参考信号与第一音频信号102的结果,噪声降低电路118可通过降低第一音频信号102中的噪声来增强第一音频信号102的话音(S)分量。
图1的系统100可使得第一装置110能够使用通过其它装置120、130、140的麦克风124、134、144捕获的音频信号104、106、108来降低第一音频信号102的噪声分量。举例来说,噪声降低电路118可使用非目标源抑制(例如,噪声抑制)以将麦克风124、134、144的响应聚合为用于增强通过麦克风114捕获的目标音频(例如,第一音频信号102的话音(S)分量)的非目标参考信号。关于图1描述的技术可使得能够在不使用几何结构信息(例如麦克风114、124、134、144等之间的距离)的情况下产生非目标参考信号。举例来说,增益预调节操作可使得噪声抑制电路118能够通过调整音频信号104、106、108的增益来正规化来自每一麦克风114、124、134、144的噪声。最大合并操作可使得噪声抑制电路118能够合并来自降低第一音频信号102的噪声的经正规化噪声的噪声分量。举例来说,最大合并操作可通过在每一频率下合并具有最高增益(例如,最高能量水平)的噪声分量来产生信号以大体上消除来自第一音频信号102的噪声。
参考图2,展示图1的噪声降低电路118的图。噪声降低电路118包含增益调整电路210、最大合并电路220及噪声抑制电路230。
增益调整电路210可经配置以接收第一音频信号102、第二音频信号104、第三音频信号106及第四音频信号108。如关于图1所描述,第一音频信号102可通过与噪声降低电路118相关联的装置(例如,图1的第一装置110)捕获,且其它音频信号104、106、108可通过远程装置(例如,图1的装置120、130、140)捕获且发射到噪声降低电路118。
增益调整电路210可经配置以将增益调节因数(G2)应用于第二音频信号104以产生第二增益经调整音频信号204。为确定增益调节因数(G2),增益调整电路210可比较第一音频信号102的话音(S)水平与第二音频信号104的第二音频水平(A2),且比较第一音频信号102的次要分量的音频水平与第二音频信号104的第二音频水平(A2)。增益调节因数(G2)可为一值,当所述值应用于第二音频信号104时使得第二增益经调整音频信号204的音频水平小于第一音频信号102的话音(S)水平,且使得第二增益经调整音频信号204的音频水平大于第一音频信号102的次要分量的音频水平。可将第二增益经调整音频信号204提供到最大合并电路220。由于第二增益经调整音频信号204基于第二音频信号104,故第二增益经调整音频信号204可具有具备频率(f2)的主要分量。
增益调整电路210可使用麦克风增益校准方案确定增益调节因数(G2),使得每一麦克风信道可具有对背景环境噪声的大体上类似灵敏度增益。根据一个实施方案,可基于以下伪码操作增益调整电路210:
基于所述伪码,delta_1可对应于目标处的信号能量(例如,第一音频信号102的第一音频水平(A1))除以子装置处的信号能量(例如,第二音频信号104的第二音频水平(A2))且可与偏压因数(bias_1)相比较。如果delta_1大于偏压因数(bias_1),则第二增益因数(G2)的上余量可能小于delta_1乘以余量。另外,delta_1也可对应于目标处的信号能量除以子装置处的信号能量。如果delta_2小于偏压因数(bias_2),则第二增益因数(G2)的下余量可能大于对第二音频信号104的噪声水平的高估除以偏压因数(bias_2)。
增益调整电路210也可经配置以将增益调节因数(G3)应用于第三音频信号106,从而产生第三增益经调整音频信号206。为确定增益调节因数(G3),增益调整电路210可比较第一音频信号102的话音(S)水平与第三音频信号106的第三音频水平(A3),且比较第一音频信号102的次要分量的音频水平与第三音频信号106的第三音频水平(A3)。增益调节因数(G3)可为一值,当所述值应用于第三音频信号106时使得第三增益经调整音频信号206的音频水平小于第一音频信号102的话音(S)水平,且使得第三增益经调整音频信号206的音频水平大于第一音频信号102的次要分量的音频水平。可将第三增益经调整音频信号206提供到最大合并电路220。由于第三增益经调整音频信号206基于第三音频信号106,故第三增益经调整音频信号206可具有具备频率(f3)的主要分量。根据一个实施方案,增益调整电路210可使用上述伪码确定增益调节因数(G3)。
增益调整电路210也可经配置以将增益调节因数(G4)应用于第四音频信号108,从而产生第四增益经调整音频信号208。为确定增益调节因数(G4),增益调整电路210可比较第一音频信号102的话音(S)水平与第四音频信号108的第四音频水平(A4),且比较第一音频信号102的次要分量的音频水平与第四音频信号108的第四音频水平(A4)。增益调节因数(G4)可为一值,当所述值应用于第四音频信号108时使得第四增益经调整音频信号208的音频水平小于第一音频信号102的话音(S)水平,且使得第四增益经调整音频信号208的音频水平大于第一音频信号102的次要分量的音频水平。可将第四增益经调整音频信号208提供到最大合并电路220。由于第四增益经调整音频信号208基于第四音频信号108,故第四增益经调整音频信号208可具有具备频率(f4)的主要分量。根据一个实施方案,增益调节电路210可使用上述伪码确定增益处理因数(G4)。
最大合并电路220可经配置以对增益经调整音频信号204、206、208执行最大合并操作,从而产生非目标参考信号222。举例来说,最大合并电路220可“合并”增益经调整音频信号204、206、208以确定用于每一频率(f2到f4)的“最大”增益。举例来说,假定第二增益经调整信号204包含在频率(f2)下具有增益(大于在频率(f2)下用于其它增益经调整信号206、208的信号分量的增益)的信号分量,最大合并电路220可在频率(f2)下选择第二增益经调整信号204的信号分量以将所述信号分量包含于非目标参考信号222中。假定第三增益经调整信号206包含在频率(f3)下具有增益(大于在频率(f3)下用于其它增益经调整信号204、208的信号分量的增益)的信号分量,最大合并电路220可在频率(f3)下选择第三增益经调整信号206的信号分量以将所述信号分量包含于非目标参考信号222中。假定第四增益经调整信号208包含在频率(f4)下具有增益(大于在频率(f4)下用于其它增益经调整信号204、206的信号分量的增益)的信号分量,最大合并电路220可在频率(f4)下选择第四增益经调整信号208的信号分量以将所述信号分量包含于非目标参考信号222中。
最大合并电路220可组合每一频率(f2到f4)的所选信号分量以产生非目标参考信号222。可将非目标参考信号222提供到噪声抑制电路230。噪声抑制电路230可组合非目标参考信号222与第一音频信号102以产生目标信号232。目标信号232可包含第一音频信号102中的大量话音(S)及第一音频信号102中的经减少噪声量。举例来说,在频率(f2)下,非目标参考信号222中的第二增益经调整信号204的信号分量可大体上抑制第一音频信号102的次要分量在频率(f3)下,非目标参考信号222中的第三增益经调整信号206的信号分量可大体上抑制第一音频信号102的次要分量在频率(f4)下,非目标参考信号222中的第四增益经调整信号208的信号分量可大体上抑制第一音频信号102的次要分量
图2的噪声降低电路118可使用由其它装置120、130、140的麦克风124、134、144捕获的音频信号104、106、108降低第一音频信号102的噪声分量举例来说,噪声降低电路118可使用非目标源抑制(例如,噪声抑制)以将麦克风124、134、144的响应聚合为用于增强由麦克风114捕获的目标音频事件(例如,第一音频信号102的话音(S)分量)的非目标参考信号222。
参考图3,展示可操作以结合图1到2的技术使用从多个装置捕获的音频信号抑制噪声的系统300。系统300包含音频水平估计器302、音频水平估计器304、音频水平估计器308、增益预调节器314、增益预调节器316、增益预调节器318、最大合并电路220及噪声抑制电路230。根据一个实施方案,系统300中的组件中的一些(或全部)可集成到图1的噪声降低电路118中。
可将第一音频信号102提供到音频水平估计器302。音频水平估计器302可测量第一音频信号102的第一音频水平(A1),且可产生指示所述第一音频水平(A1)的信号322。可将信号322提供到增益预调节器314、316、318。
可将第二音频信号104提供到音频水平估计器304且提供到增益预调节器314。音频水平估计器304可测量第二音频信号104的第二音频水平(A2),且可产生指示所述第二音频水平(A2)的信号324。可将信号324提供到增益预调节器314。增益预调节器314可经配置以将增益调节因数(G2)应用于第二音频信号104以产生第二增益经调整音频信号204。为确定增益调节因数(G2),增益预调节器314可比较第一音频信号102的话音(S)水平与第二音频信号104的第二音频水平(A2),且比较第一音频信号102的次要分量的音频水平与第二音频信号104的第二音频水平(A2)。增益调节因数(G2)可为一值,当所述值应用于第二音频信号104时使得第二增益经调整音频信号204的音频水平小于第一音频信号102的话音(S)水平,且使得第二增益经调整音频信号204的音频水平大于第一音频信号102的次要分量的音频水平。可将第二增益经调整信号204提供到最大合并电路220。
可将第三音频信号106提供到音频水平估计器306且提供到增益预调节器316。音频水平估计器306可测量第三音频信号106的第三音频水平(A3),且可产生指示所述第三音频水平(A3)的信号326。可将信号326提供到增益预调节器316。增益预调节器316可经配置以将增益调节因数(G3)应用于第三音频信号106以产生第三增益经调整音频信号206。为确定增益调节因数(G3),增益预调节器316可比较第一音频信号102的话音(S)水平与第三音频信号106的第三音频水平(A3),且比较第一音频信号102的次要分量的音频水平与第三音频信号106的第三音频水平(A3)。增益调节因数(G3)可为一值,当所述值应用于第三音频信号106时使得第三增益经调整音频信号206的音频水平小于第一音频信号102的话音(S)水平,且使得第三增益经调整音频信号206的音频水平大于第一音频信号102的次要分量的音频水平。可将第三增益经调整信号206提供到最大合并电路220。
可将第四音频信号108提供到音频水平估计器308且提供到增益预调节器318。音频水平估计器308可测量第四音频信号108的第四音频水平(A4),且可产生指示所述第四音频水平(A4)的信号328。可将信号328提供到增益预调节器318。增益预调节器318可经配置以将增益调节因数(G4)应用于第四音频信号108以产生第四增益经调整音频信号208。为确定增益调节因数(G4),增益预调节器318可比较第一音频信号102的话音(S)水平与第四音频信号108的第四音频水平(A4),且比较第一音频信号102的次要分量的音频水平与第四音频信号108的第四音频水平(A4)。增益调节因数(G4)可为一值,当所述值应用于第四音频信号108时使得第四增益经调整音频信号208的音频水平小于第一音频信号102的话音(S)水平,且使得第四增益经调整音频信号208的音频水平大于第一音频信号102的次要分量的音频水平。可将第四增益经调整信号208提供到最大合并电路220。
可以如关于图2所描述的大体上类似方式操作最大合并电路220。举例来说,最大合并电路220可基于增益经调整音频信号204、206、208产生非目标参考信号222。可将非目标参考信号222提供到噪声抑制电路230。可以如关于图2所描述的大体上类似方式操作噪声抑制电路230。举例来说,噪声抑制电路230可基于非目标参考信号222及第一音频信号102产生目标信号232。
图3的系统300可使用由其它装置120、130、140的麦克风124、134、144捕获的音频信号104、106、108降低第一音频信号102的噪声分量举例来说,噪声降低电路118可使用非目标源抑制(例如,噪声抑制)以将麦克风124、134、144的响应聚合为用于增强由麦克风114捕获的目标音频事件(例如,第一音频信号102的话音(S)分量)的非目标参考信号222。
参考图4,展示用于使用从多个装置捕获的音频信号来执行噪声降低的方法400。可使用图1的第一装置110、图1到2的噪声降低电路118、图3的系统300,或其一组合来执行方法400。
在402处,方法400包含在第一装置的第一麦克风处捕获第一音频信号。举例来说,参考图1,麦克风114可捕获第一音频信号102。
在404处,可在第一装置处从第二装置接收表示第二音频信号的音频数据。可通过第二装置的第二麦克风捕获第二音频信号。举例来说,参考图1,麦克风124可捕获第二音频信号104。第一装置110的收发器112可从第二装置120接收表示第二音频信号104的音频数据154。根据一个实施方案,方法400也可包含从第三装置接收表示第三音频信号的音频数据。可通过第三装置的第三麦克风捕获第三音频信号。举例来说,参考图1,麦克风134可捕获第三音频信号106。收发器112可从第三装置130接收表示第三音频信号106的音频数据156。
在406处,可至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低。举例来说,参考图1到2,噪声降低电路118可至少部分地基于表示第二音频信号104的音频数据154产生目标信号232。为了说明,增益调整电路210可将增益调节因数(G2)应用于表示第二音频信号104的音频数据154以产生第二增益经调整音频信号204。最大合并电路220可至少部分地基于第二增益经调整音频信号204产生非目标参考信号222,且噪声抑制电路230可基于所述非目标参考信号222产生目标信号232(例如,对第一音频信号102执行噪声抑制)。因此,方法400可包含在第一装置处至少部分地基于表示第二音频信号的音频数据对第一音频信号执行噪声降低。根据方法400的一个实施方案,也可基于表示第三音频信号的音频数据对第一音频信号执行噪声降低。为了说明,增益调整电路210可将增益调节因数(G3)应用于表示第三音频信号106的音频数据156以产生第三增益经调整音频信号206。非目标参考信号222还可基于第三增益经调整音频信号206。
根据一个实施方案,方法400可包含对第二音频信号执行第一增益预调节以产生第一增益经调整音频信号,且对第三音频信号执行第二增益预调节以产生第二增益经调整音频信号。根据方法400的“第一增益经调整音频信号”可对应于图2的第二增益经调整音频信号204,且根据方法400的“第二增益经调整音频信号”可对应于图2的第三增益经调整音频信号206。对第二音频信号执行第一增益预调节可包含将增益调节因数应用于第二音频信号。根据一个实施方案,可基于第一音频信号及第二音频信号的能量水平执行第一增益预调节。
根据一个实施方案,方法400可包含基于第一增益经调整音频信号及第二增益经调整音频信号产生非目标参考信号。可使用最大合并操作产生非目标参考信号,且执行噪声降低可包含组合第一音频信号与非目标参考信号。
图4的方法400可使用由其它装置120、130、140的麦克风124、134、144捕获的音频信号104、106、108降低第一音频信号102的噪声分量举例来说,噪声降低电路118可使用非目标源抑制(例如,噪声抑制)以将麦克风124、134、144的响应聚合为用于增强由麦克风114捕获的目标音频事件(例如,第一音频信号102的话音(S)分量)的非目标参考信号222。经增强目标音频事件可使得第一装置110内的音频处理电路能够执行语音触发功能。举例来说,第一音频信号102可包含来自第一装置110的用户的话音。话音可包含在第一装置110处起始语音触发功能的一或多个命令。通过抑制非目标源增强目标音频事件(例如,增强话音)可使得音频处理电路能够更准确地检测话音以执行语音触发功能。
参考图5,展示可操作以使用音频数据执行说话者验证及说话者辨识的系统500。系统500包含第一用户装置510及第二用户装置520。每一用户装置510、520可为可操作以经由麦克风捕获周围音频声音的电子装置。尽管在系统500中描绘两个用户装置510、520,但在其它实施中,可使用额外用户装置实施本文所描述的语音辨识技术。作为非限制性实例,可使用八个用户装置实施本文所描述的语音辨识技术。根据一个实施方案,第一用户装置510可对应于图1的第一装置110,且可操作以执行关于图1到4描述的噪声抑制技术。
根据一个实施方案,用户装置510、520中的一或多者可为无线通信装置(例如,移动电话)。然而,在其它实施方案中,用户装置510、520中的一或多者可为可操作以执行语音辨识技术的其它电子装置。作为非限制性实例,用户装置510、520中的一或多者可为膝上型计算机、计算机、平板计算机、PDA等。第一用户装置510可与具有第一语音的第一说话者(A)相关联,且第二用户装置520可与具有第二语音的第二说话者(B)相关联。举例来说,可在第一说话者(A)处注册第一用户装置510,且可在第二说话者(B)处注册第二用户装置520。
第一用户装置510包含收发器512、麦克风513、处理器514及存储器515。根据一个实施方案,作为收发器512的替代,第一用户装置510可包含接收器及发射器。处理器514包含说话者验证电路516及特征向量产生电路517。存储器515包含话音模型518。如下文所描述,话音模型518包含指示第一说话者(A)的第一语音的音频性质的数据。
第二用户装置520包含收发器522、麦克风523、处理器524及存储器525。根据一个实施方案,作为收发器522的替代,第二用户装置520可包含接收器及发射器。处理器524包含说话者验证电路526及特征向量产生电路527。存储器525包含话音模型528。如下文所描述,话音模型528包含指示第二说话者(B)的第二语音的音频性质的数据。
第一说话者(A)可能说话且产生包含第一语音的第一音频信号502。根据系统500的布局,第一说话者(A)可相对地接近第二用户装置520。因此,第二用户装置520的麦克风523可捕获包含第一语音的第一音频信号502。在捕获第一音频信号502后,特征向量产生电路527即可经配置以基于第一音频信号502产生一或多个模型(例如,话音模型)。特征向量产生电路527可基于一或多个模型产生第一音频数据506(例如,一或多个特征向量)。在产生第一音频数据506后,收发器522即可将第一音频数据506发射到第一用户装置510。第一音频数据506可直接发射到第一用户装置510或间接发射到第一用户装置510。直接发射的非限制性实例包含IEEE 802.11(例如,“Wi-Fi”)同级间发射、红外线发射等。间接发射的非限制性实例包含蜂窝式发射、基于网络发射、基于云端发射等。
根据另一实施方案,第二用户装置520可将第一音频信号502(或第一音频信号502的复本)发射到第一用户装置510。在从第二用户装置520接收到第一音频信号502后,第一用户装置510的特征向量产生电路517即可经配置以基于第一音频信号502产生一或多个模型(例如,话音模型)。举例来说,与在第二用户装置520处产生且发射到第一用户装置510相反,第一音频数据506可在第一用户装置510处产生。
第一用户装置510可从第二用户装置520接收第一音频数据506(或从由第二用户装置520提供的第一音频信号502的复本产生第一音频数据506),且可基于第一音频数据506执行说话者验证功能及/或说话者辨识功能,从而将说话的人员(例如,第一说话者(A))与相关联于第一用户装置510处的语音触发命令的一或多个人匹配。举例来说,收发器512可经配置以接收第一音频数据506,且说话者验证电路516可基于第一音频数据506执行说话者验证功能以确定与第一音频数据506相关联的语音是否属于第一说话者(A)。
为了说明,说话者验证电路516可经配置以基于第一音频数据506中的一或多个特征向量确定可能性值(例如,分数值或“最大可能性”),所述可能性值指示第一说话者(A)是否与第一用户装置510处的语音触发命令相关联。举例来说,说话者验证电路516可从存储器515检索话音模型518。话音模型518可指示与第一用户装置510处的语音触发命令相关联的一或多个人的音频性质(例如,频率、音调等)。举例来说,可使用语音模型及/或音频模型指示话音模型518中的第一语音的音频性质。在检索到话音模型518后,说话者验证电路516即可比较第一音频数据506中的一或多个特征向量与话音模型518中的语音/音频模型。
说话者验证电路516可基于所述比较确定可能性值(第一说话者(A)与第一用户装置510处的语音触发命令相关联)。举例来说,说话者验证电路516可比较一或多个特征向量的频率、音调,或其组合与话音模型518中的语音/音频模型的频率、音调,或其组合。如果频率/音调大体上相同,则可能性值可能相对较高(例如,可能满足阈值)。如果频率/音调大体上不相同,则可能性值可能相对较低(例如,可能不满足阈值)。在确定可能性值后,说话者验证电路516即可确定所述可能性值是否满足阈值。如果可能性值满足阈值,则处理器514可在第一用户装置510处启用一或多个功能。举例来说,处理器514可启用一或多个语音触发功能,例如进行呼叫、提供信息等。根据一个实施方案,第一音频数据506可包含第一音频信号502的复本,且语音触发功能可基于第一音频信号502的复本中的话音。
第二说话者(B)可能说话且产生包含第二语音的第二音频信号504。第二说话者(B)可相对地接近第一用户装置510。因此,第一用户装置510的麦克风513可捕获包含第二语音的第二音频信号504。在捕获第二音频信号504后,特征向量产生电路517即可经配置以基于第二音频信号504产生一或多个模型(例如,话音模型)。特征向量产生电路517可基于一或多个模型产生第二音频数据508(例如,一或多个特征向量)。在产生第二音频数据508后,收发器512即可将第二音频数据508发射到第二用户装置520。
第二用户装置520可接收第二音频数据508,且可基于第二音频数据508执行说话者验证功能及/或说话者辨识功能,以将说话的人员(例如,第二说话者(B))与相关联于第二用户装置520处的语音触发命令的一或多个人匹配。举例来说,收发器522可经配置以接收第二音频数据508,且说话者验证电路526可基于第二音频数据508执行话音验证功能以确定与第二音频数据508相关联的语音是否属于第二说话者(B)。
为了说明,说话者验证电路526可经配置以基于第二音频数据508中的一或多个特征向量确定可能性值(例如,分数值或“最大可能性”),所述可能性值指示第二说话者(B)是否与第二用户装置520处的语音触发命令相关联。举例来说,说话者验证电路526可从存储器525检索话音模型528。话音模型528可指示与第二用户装置520处的语音触发命令相关联的一或多个人的音频性质。举例来说,可使用语音模型及/或音频模型指示话音模型528中的第二语音的音频性质。在检索到话音模型528后,说话者验证电路526即可比较第二音频数据508中的一或多个特征向量与话音模型528中的语音/音频模型。
说话者验证电路526可基于所述比较来确定可能性值(第二说话者(B)与第二用户装置520处的语音触发命令相关联)。在确定可能性值后,说话者验证电路526即可确定所述可能性值是否满足阈值。如果所述可能性值满足阈值,则处理器524可在第二用户装置520处启用一或多个功能。举例来说,处理器524可启用一或多个语音触发功能,例如进行呼叫、提供信息等。根据一个实施方案,第二音频数据508可包含第二音频信号504的复本,且语音触发功能可基于第二音频信号504的所述复本中的话音。
图5的系统500可使得用户(例如,第一说话者(A)及/或第二说话者(B))能够靠近并非所述用户自身的装置的用户装置说话,且在用户自身的装置处启用语音触发功能性。举例来说,第一说话者(A)可能靠近第二说话者(B)的装置(例如,第二用户装置520)说话,且可在第一说话者(A)的装置(例如,第一用户装置510)处启用语音触发功能性。由于用户装置510、520共享特征向量(例如,音频数据506、508)而并非语音或音频模型(例如,话音模型518、528),故未与其它用户装置共享专有语音或音频模型。
参考图6,展示用于使用音频数据的说话者验证及说话者辨识的方法流程图600。可使用图1的第一装置110、图5的第一用户装置510、图5的第二用户装置520,或其组合执行方法流程图600中的步骤。为了易于说明,除非另外指出,否则关于图5的系统500解释方法流程图600。
第一用户装置510可接收第一用户装置输入610。举例来说,第一用户装置510可接收图5的第二音频信号504。如下文所描述,第一用户装置510也可将第一用户装置输入610提供到第二用户装置520以用于协作噪声抑制。第二用户装置520可接收第二用户装置输入620。举例来说,第二用户装置520可接收图5的第一音频信号502。如下文所描述,第二用户装置520可将第二用户装置输入620提供到第一用户装置510以用于协作噪声抑制。
在611处,第一用户装置510可执行协作噪声抑制以大体上降低或抑制与第二用户装置输入620相关联的噪声。第一用户装置510可使用关于图1描述的噪声抑制技术来抑制由第一用户装置510捕获的噪声(与第二用户装置输入620相关联)。举例来说,第二用户装置520可为第一用户装置510提供(例如,“共享”)第二用户装置输入620以抑制噪声干扰及回响。第一用户装置510可对装置输入610、620执行增益预调节操作及最大合并操作以大体上分离第一用户装置输入610。在621处,第二用户装置520可执行协作噪声抑制以大体上降低或抑制与第一用户装置输入610相关联的噪声。第二用户装置520可使用关于图1描述的噪声抑制技术以抑制由第二用户装置520捕获的噪声(与第一用户装置输入610相关联)。举例来说,第一用户装置510可为第二用户装置520提供第一用户装置输入610以抑制噪声干扰及回响。第二用户装置520可对装置输入610、620执行增益预调节操作及最大合并操作以大体上分离第二用户装置输入620。
在612处,在已抑制与第二用户装置输入620相关联的噪声之后,第一用户装置510可基于第一用户装置输入610产生特征(例如,一或多个特征向量)。在614处,在已抑制与第一用户装置输入610相关联的噪声之后,第二用户装置520可基于第二用户装置输入620产生特征。第一用户装置510可将所产生特征(例如,图5的第一音频数据506)提供到第二用户装置520,且第二用户装置520可将所产生特征(例如,图5的第二音频数据508)提供到第一用户装置510。共享所产生特征可使得每一用户装置510、520能够执行说话者验证功能,如下文所描述,而无需共享个别说话者模型(例如,图5的话音模型518、528)。
在613处,第一用户装置510可针对在第一用户装置510处产生的特征向量且针对在第二用户装置520处产生的特征向量执行说话者识别/验证及最大值选择。举例来说,对于给定帧,第一用户装置510可选择特征向量的最大值。在614处,第一用户装置510可确定在第一用户装置510处产生的特征向量的最大值指示第一用户装置输入610是与第一用户装置510的说话者相关联的可能性。第一用户装置510还可确定在第二用户装置520处产生的特征向量的最大值指示第二用户装置输入620是与第一用户装置510的说话者相关联的可能性。
在615处,第一用户装置510可基于说话者验证执行识别动作(例如,语音触发功能)。举例来说,在验证第一用户装置输入610与来自第一用户装置510的经授权用户的话音相关联后,第一用户装置510即可基于第一用户装置输入610执行功能。作为非限制性实例,当第一用户装置输入610对应于陈述“圣地亚哥今天的天气如何?”的用户话音时,第一用户装置510可输出陈述“今天如往常一样晴朗,其中最高温度华氏80度且最低温度华氏65度”的消息。在验证第二用户装置输入620与来自第一用户装置510的经授权用户的话音相关联后,第一用户装置510即可基于第二用户装置输入620执行类似功能。根据一个实施方案,第一用户装置510可指示(例如,发送消息指令)第二用户装置520(或另一装置)输出消息。
在623处,第二用户装置520可针对在第一用户装置510处产生的特征向量且针对在第二用户装置520处产生的特征向量执行说话者识别/验证及最大值选择。举例来说,对于给定帧,第二用户装置520可选择特征向量的最大值。在624处,第二用户装置520可确定在第一用户装置510处产生的特征向量的最大值指示第一用户装置输入610是与第二用户装置520的说话者相关联的可能性。第二用户装置520还可确定在第二用户装置520处产生的特征向量的最大值指示第二用户装置输入620是与第二用户装置520的说话者相关联的可能性。
在625处,第二用户装置510可基于说话者验证执行识别动作(例如,语音触发功能)。举例来说,在验证第一用户装置输入610与来自第二用户装置520的经授权用户的话音相关联后,第二用户装置520即可基于第一用户装置输入610执行功能。替代地,在验证第二用户装置输入620与来自第二用户装置520的经授权用户的话音相关联后,第二用户装置520即可基于第二用户装置输入620执行类似功能。
图6的方法流程图600可使得用户能够靠近并非用户自身的装置的用户装置说话,且在用户自身的装置处启用语音触发功能性。举例来说,可将来自在用户装置510、520处捕获的输入610、620的特征向量提供到每一用户装置510、520以用于说话者验证。在验证输入与来自装置的经授权用户的话音相关联后,装置即可执行与输入相关联的动作。
参考图7,展示用于使用音频数据执行说话者验证及说话者辨识的方法700。可使用图1的第一装置110、图5的第一用户装置510或图5的第二用户装置520执行方法700。
在702处,方法700包含在第一用户装置处从第二用户装置接收音频数据。音频数据可基于在第二用户装置的麦克风处捕获的音频信号。举例来说,参考图7,第一用户装置510可从第二用户装置520接收第一音频数据。第一音频数据506可基于在第二用户装置520的麦克风523处捕获的第一音频信号502。
在704处,可基于音频数据执行说话者验证功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值。举例来说,参考图5,说话者验证电路516可基于第一音频数据506中的一或多个特征向量确定可能性值,所述可能性值指示第一说话者(A)是否与第一用户装置510处的语音触发命令相关联。举例来说,说话者验证电路516可从存储器515检索话音模型518。在检索到话音模型518后,说话者验证电路516即可比较第一音频数据506中的一或多个特征向量与话音模型518中的语音/音频模型。说话者验证电路516可基于所述比较确定可能性值。
在706处,可响应于可能性值超出阈值而启用第一用户装置的一或多个功能。举例来说,参考图5,说话者验证电路516可确定可能性值是否满足阈值。如果可能性值满足阈值,则处理器514可在第一用户装置510处启用一或多个功能。举例来说,处理器514可启用一或多个语音触发功能,例如进行呼叫、提供信息等。
根据方法700的一个实施方案,音频数据基于音频信号包含一或多个特征向量。执行说话者验证功能可包含比较一或多个特征向量与存储于第一用户装置处的话音模型,及基于所述比较确定可能性值。话音模型可指示特定语音的音频性质及一或多个额外话音的音频性质。特定语音可与第一用户装置相关联。根据方法700的一个实施方案,一或多个功能可包含语音触发功能(例如,音频呼叫)。
图7的方法700可使得用户(例如,第一说话者(A)及/或第二说话者(B))能够靠近并非所述用户自身的装置的用户装置说话,且在用户自身的装置处启用语音触发功能性。举例来说,第一说话者(A)可能靠近第二说话者(B)的装置(例如,第二用户装置520)说话,且可在第一说话者(A)的装置(例如,第一用户装置510)处启用语音触发功能性。由于用户装置510、520共享特征向量(例如,音频数据506、508)而并非语音或音频模型(例如,话音模型518、528),故未与其它用户装置共享专有语音或音频模型。
参考图8,展示用户装置的图形用户接口(GUI)800。根据一个实施方案,GUI 800可为图1的第一装置110、图5的第一用户装置510或图5的第二用户装置520的GUI。
GUI 800可显示具有多个区的区域的表示。区域的非限制性实例可包含房间、建筑物的一部分、室外区域等。一或多个音频捕获装置810、820、830可位于所述区域中。根据图8,第一音频捕获装置810可位于所述区域中,第二音频捕获装置820可位于所述区域中,且第三音频捕获装置830可位于所述区域中。在图8的实施中,GUI 800可为第一音频捕获装置810的GUI。因此,第一音频捕获装置810可表示显示GUI 800的装置。根据特定实施方案,第一音频捕获装置810可对应于图1的第一装置110、图5的第一用户装置510或图5的第二用户装置520。
第一音频捕获装置810可经配置以捕获第一音频信号812,第二音频捕获装置820可经配置以捕获第二音频信号822,且第三音频捕获装置820可经配置以捕获第三音频信号832。每一音频捕获装置810、820、830可操作以执行关于图1描述的噪声抑制技术及关于图5描述的说话者验证技术。作为非限制性实例,第二音频捕获装置820及第三音频捕获装置830可经配置以分别将第二音频信号822及第三音频信号832发送到第一音频捕获装置810。第一音频捕获装置810可对音频信号812、822、832执行增益预调节操作及最大合并操作以大体上分离第一音频信号812。
如上文所述,GUI 800可显示包含音频捕获装置810、820、830的区域的表示。举例来说,GUI 800可显示区域的第一区801、区域的第二区802、区域的第三区803、区域的第四区804、区域的第五区805、区域的第六区806、区域的第七区807、区域的第八区808及区域的第九区809的表示。根据GUI 800,第一音频捕获装置810可位于第五区805中,第二音频捕获装置820可位于第一区801中,且第三音频捕获装置830可位于第九区809中。根据一个实施方案,可使用室内导航工具获得每一音频捕获装置810、820、830的位置。可使用室内导航工具确定第一音频捕获装置810与第二音频捕获装置820之间的距离(D1),且也可使用所述室内导航工具确定第一音频捕获装置810与第三音频捕获装置830之间的距离(D2)。另外,可使用具有三维效应的网格(未展示)绘示距离(D1、D2)。作为非限制性实例,如果第二音频捕获装置820比第三音频捕获装置830离第一音频捕获装置810更远,则第二音频捕获装置820可显得比第三音频捕获装置830“更小”。根据另一实施方案,可通过GUI 800的用户人工地输入每一音频捕获装置810、820、830的位置。
第一音频捕获装置810可经配置以从第二音频捕获装置820接收音频数据及从第三音频捕获装置830接收音频数据。举例来说,第二音频捕获装置820可将第二音频信号822发射到第一音频捕获装置810,且第三音频捕获装置830可将第三音频信号832发射到第一音频捕获装置810。第一音频捕获装置810可包含经配置以从第二音频捕获装置820接收音频数据及从第三音频捕获装置830接收音频数据的接收器。第二音频捕获装置820及第三音频捕获装置830可为移动电话、平板计算机、个人数字助理(PDA)、膝上型计算机、计算机、显示装置、游戏控制台、音乐播放器、无线电、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、摄像机、导航装置、机顶盒、电视、洗衣机等。
第一音频捕获装置810可接收指示GUI 800的一或多个所选区801到809的用户输入。作为非限制性实例,用户输入可指示已选择第一区801(例如,包含第二音频捕获装置820的区)。第一音频装置810可包含经配置以接收输入的接口。基于用户输入,第一音频捕获装置810可基于来自第二音频捕获装置820的音频数据产生音频输出。举例来说,如果用户输入指示第一区801经选择,则第一音频捕获装置810可产生对应于第二音频信号822的音频输出。第一音频捕获装置810可包含经配置以投射对应于第二音频信号822的音频输出的扬声器。在所指示实例中,可在第一音频捕获装置810处抑制基于来自其它区802到809(例如,未选区)的音频数据的音频输出。第一音频捕获装置810可使用关于图1描述的音频抑制技术以抑制来自其它区802至809的音频输出。根据一些实施方案,可将抑制从完全抑制(具有指示符零)缩放到无抑制(具有指示符一百)。根据其它实施方案,抑制可为二进位。举例来说,来自其它区802到809的音频输出可经抑制或未抑制。
根据其它实施方案,可基于用户输入在第一音频捕获装置810处产生从多个音频捕获装置捕获的音频数据。举例来说,用户输入可指示已经选择第一区801、第五区805及第九区809。基于用户输入,第一音频捕获装置810可基于来自第二音频捕获装置820、第一音频捕获装置810及第三音频捕获装置830的音频数据分别产生音频输出。举例来说,如果用户输入指示第一区801、第五区805及第九区809经选择,则第一音频捕获装置810可分别产生对应于第二音频信号822、第一音频信号810及第三音频信号832的音频输出。来自多个捕获装置810、820、830的音频输出可经混合为单信道输出或可经编码为呈多个信道的形式的输出,例如多信道输出等。除了选择待由第一音频捕获装置810输出的音频之外,GUI 800可使得用户能够将音频效应、滤波、特定处理或其它选项应用于所选区中的音频捕获装置。
GUI 800可使得第一音频捕获装置810的用户能够选择性地输出从区域的不同区801到809捕获的音频。举例来说,GUI 800可使得用户装置能够抑制来自区域的特定区的音频且输出来自区域的其它区的音频。
参考图9,展示用于基于区域的一或多个所选区产生音频输出的方法900。可使用图1的第一装置110、图5的第一用户装置510、图5的第二用户装置520、图8的第一音频捕获装置810、图8的第二音频捕获装置820或图8的第三音频捕获装置830执行方法900。
在902处,方法900包含在用户装置处显示GUI。GUI可表示具有多个区的区域,且多个音频捕获装置可位于所述区域中。举例来说,参考图8,第一音频捕获装置810(例如,根据方法900的用户装置)可显示GUI 800。GUI 800可表示具有多个区801到809的区域。多个音频捕获装置可位于区域中。举例来说,第二音频捕获装置820可位于区域的第一区801中,第一音频捕获装置810可位于第五区805中,且第三音频捕获装置830可位于第九区809中。
在904处,可接收来自多个音频捕获装置中的至少一者的音频数据。举例来说,参考图8,第二音频捕获装置820可将第二音频信号822发射到第一音频捕获装置810,且第三音频捕获装置830可将第三音频信号832发射到第一音频捕获装置810。第一音频捕获装置810可从第二音频捕获装置820接收音频数据(例如,第二音频信号822)及从第三音频捕获装置830接收音频数据(例如,第三音频信号832)。另外,第一音频捕获装置810可捕获第一音频信号812。
在906处,可接收指示多个区中的所选区的输入。举例来说,参考图8,第一音频捕获装置810可接收指示GUI 800的一或多个所选区801到809的用户输入。作为非限制性实例,用户输入可指示已选择第一区801(例如,包含第二音频捕获装置820的区)。
在908处,可基于来自多个音频捕获装置的子集的音频数据产生音频输出。子集中的每一音频捕获装置可位于所选区中。举例来说,参考图8,基于用户输入,第一音频捕获装置810可基于来自第二音频捕获装置820的音频数据产生音频输出。举例来说,如果用户输入指示第一区801经选择,则第一音频捕获装置810可产生对应于第二音频信号822的音频输出。产生音频输出可包含:将对应于第二音频信号822的音频存储于第一音频捕获装置810处;将对应于第二音频信号822的音频存储于另一装置处;在第一音频捕获装置810处呈现对应于第二音频信号822的音频;在第一音频捕获装置810处产生第二音频信号822的表示等。在所指示实例中,可在第一音频捕获装置810处抑制基于来自其它区802到809(例如,未选区)的音频数据的音频输出。举例来说,方法900可包含降低来自其它区802到809的音频的音频水平。第一音频捕获装置810可使用关于图1描述的音频抑制技术以抑制来自其它区802到809的音频输出。方法900也可包含在GUI处显示每一音频捕获装置的位置。
方法900也可包含在GUI处产生区域的图像,及在GUI处描绘图像内的多个区。可基于区域、基于区域的内容(例如,区域的大小、区域中的多个音频捕获装置、图像的复杂度等)、基于用户偏好定义图1的区801到809。
图9的方法900可使得用户装置(例如,第一音频捕获装置810)的用户能够使用GUI800选择性地输出从区域的不同区801到809捕获的音频。举例来说,方法900可使得用户装置能够抑制来自区域的特定区的音频且输出来自区域的其它区的音频。
参考图10,展示用户装置1000。用户装置1000包含耦合到存储器1054的处理器1010,例如数字信号处理器等。处理器1010包含图1的噪声降低电路118、图5的说话者验证电路516及图5的特征向量产生电路517。存储器1054包含图5的话音模型518。
处理器1010可经配置以执行存储于存储器1054中的软件(例如,一或多个指令1068的程序)。处理器1010可经配置以根据图4的方法400、图6的方法600及/或图9的方法900操作。举例来说,处理器1010可执行关于图1到4描述的噪声抑制技术、关于图5到7描述的语音辨识技术及/或关于图8到9描述的技术。
无线接口1040可耦合到处理器1010且耦合到天线1043。举例来说,无线接口1040可经由收发器1042耦合到天线1043,使得可将经由天线1043接收的无线数据提供到处理器1010。
编码器/解码器(编解码器)1034也可耦合到处理器1010。扬声器1036及麦克风1038可耦合到编解码器1034。显示控制器1026可耦合到处理器1010且耦合到显示装置1028。根据一个实施方案,显示装置1028可显示图8的GUI 800。在特定实施方案中,将处理器1010、显示控制器1026、存储器1054、编解码器1034及无线接口1040包含于系统级封装或系统单芯片装置1022中。在特定实施方案中,输入装置1030及电力供应器1044耦合到系统单芯片装置1022。此外,在特定实施方案中,如图10中所说明,显示器1028、输入装置1030、扬声器1036、麦克风1038、天线1043及电力供应器1044位于系统单芯片装置1022外部。然而,显示装置1028、输入设备1030、扬声器1036、麦克风1038、天线1043及电力供应器1044中的每一者可耦合到系统单芯片装置1022的一或多个组件,例如一或多个接口或控制器等。
结合所描述的实施方案,第一设备包含用于捕获第一音频信号的装置。举例来说,用于捕获第一音频信号的所述装置可包含图1的麦克风114、图5的麦克风513、图5的麦克风523、图10的麦克风1038、一或多个其它装置、电路、模块、指令,或其任何组合。
第一设备也可包含用于从第二装置接收第二音频信号的装置。可通过第二装置的麦克风捕获第二音频信号。举例来说,用于接收第二音频信号的所述装置可包含图1的收发器112、图5的收发器512、图5的收发器522、图10的收发器1042、一或多个其它装置、电路、模块、指令,或其任何组合。
第一设备也可包含用于至少部分地基于所述第二音频信号对第一音频信号执行噪声降低的装置。举例来说,用于执行噪声降低的所述装置可包含图1的处理器116,图1、2及7的噪声降低电路118,图3的系统300,图10的处理器1010,一或多个其它装置,电路,模块,指令,或其任何组合。
结合所描述的实施方案,第二设备包含用于在第一用户装置处从第二用户装置接收音频数据的装置,所述音频数据基于在第二用户装置的麦克风处捕获的音频信号。举例来说,用于接收音频数据的所述装置可包含图5的收发器512、图10的收发器1042、一或多个其它装置、电路、模块、指令,或其任何组合。
第二设备也包含用于基于音频数据执行语音辨识功能,以确定指示由所述音频数据表示的语音与特定语音匹配的可能性的可能性值的装置。举例来说,用于执行语音辨识功能的所述装置可包含图5及10的说话者验证电路516、图10的处理器1010、一或多个其它装置、电路、模块、指令,或其任何组合。
第二设备也可包含用于响应于可能性值超出阈值而启用第一用户装置的一或多个功能的装置。举例来说,用于启用一或多个功能的所述装置可包含图5的处理器514、图10的处理器1010、一或多个其它装置、电路、模块、指令,或其任何组合。
结合所描述的实施,第三设备包含用于在用户装置处显示图形用户接口(GUI)的装置。GUI可表示具有多个区的区域,且多个音频捕获装置可位于所述区域中。举例来说,用于显示GUI的所述装置可包含图1的处理器116、图5的处理器514、图5的处理器524、图8的第一音频捕获装置810的处理器、图8的第二音频捕获装置820的处理器、图8的第三音频捕获装置830的处理器、图10的处理器1010、一或多个其它装置、电路、模块、指令,或其任何组合。
第三设备也可包含用于从多个音频捕获装置接收音频数据的装置。举例来说,用于接收音频数据的所述装置可包含图1的收发器112、图5的收发器512、图5的收发器522、图8的第一音频捕获装置810的收发器、图8的第二音频捕获装置820的收发器、图8的第三音频捕获装置830的收发器、图10的收发器1042、一或多个其它装置、电路、模块、指令,或其任何组合。
第三设备也可包含用于接收指示多个区中的所选区的输入的装置。举例来说,用于接收输入的所述装置可包含图1的处理器116、图5的处理器514、图5的处理器524、图8的第一音频捕获装置810的处理器、图8的第二音频捕获装置820的处理器、图8的第三音频捕获装置830的处理器、图10的处理器1010、一或多个其它装置、电路、模块、指令,或其任何组合。
第三设备还可包含用于基于来自多个音频捕获装置的子集的音频数据产生音频输出的装置。子集中的每一音频捕获装置可位于所选区中。举例来说,用于产生音频输出的所述装置可包含图1的处理器116、图5的处理器514、图5的处理器524、图8的第一音频捕获装置810的处理器、图8的第二音频捕获装置820的处理器、图8的第三音频捕获装置830的处理器、图10的处理器1010、一或多个其它装置、电路、模块、指令,或其任何组合。
所属领域的技术人员将进一步理解,结合本文中所揭示的方面而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由处理器执行的计算机软件,或两者的组合。上文已大体在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。此功能性实施为硬件抑或处理器可执行指令取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以变化方式实施所描述的功能性,但此类实施决策不应被解译为导致脱离本发明的范围。
结合本文中所揭示的方面而描述的方法或算法的步骤可直接体现于硬件、由处理器执行的软件模块,或其两者的组合中。软件模块可驻留于以下各者中:随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、电可抹除可编程只读存储器(EEPROM)、寄存器、硬盘、可装卸式磁盘、紧密光盘只读存储器(CD-ROM),或此项技术中已知的任何其它形成的非暂态(例如,非暂时性)存储媒体。例示性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代例中,存储媒体可集成到处理器。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端机中。在替代例中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端机中。
提供所揭示方面的先前描述以使得所属领域的技术人员能够制作或使用所揭示方面。所属领域的技术人员将易于了解对这些方面的各种修改,且本文中定义的原理可应用于其它方面而不脱离本发明的范围。因此,本发明并不意欲限于本文中所展示的方面,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (30)

1.一种产生音频输出的方法,所述方法包括:
在用户装置处显示图形用户接口GUI,所述GUI表示具有多个区的区域,其中多个音频捕获装置位于所述区域中;
从所述多个音频捕获装置中的至少一者接收音频数据;
接收指示所述多个区中的所选区的输入;及
基于来自所述多个音频捕获装置的子集的数据在所述用户装置处产生所述音频输出,其中所述子集中的每一音频捕获装置位于所述所选区中。
2.根据权利要求1所述的方法,其进一步包括降低来自不位于所述所选区中的每一音频捕获装置的音频的音频水平。
3.根据权利要求1所述的方法,其中从所述多个音频捕获装置接收所述音频数据包括:
从位于所述多个区中的第一区中的第一音频捕获装置无线地接收第一音频信号;及
从位于所述多个区中的第二区中的第二音频捕获装置无线地接收第二音频信号。
4.根据权利要求3所述的方法,其中所述所选区包含所述第一区,且其中产生所述音频输出包括在所述用户装置处产生所述第一音频信号的表示。
5.根据权利要求3所述的方法,其进一步包括在所述用户装置处抑制所述第二音频信号。
6.根据权利要求1所述的方法,其中基于室内导航工具确定每一音频捕获装置的位置。
7.根据权利要求1所述的方法,其中基于用户输入确定每一音频捕获装置的位置。
8.根据权利要求1所述的方法,其中所述音频输出包括单信道输出或多信道输出。
9.根据权利要求1所述的方法,其进一步包括在所述GUI处显示每一音频捕获装置的位置。
10.根据权利要求1所述的方法,其进一步包括:
在所述GUI处产生所述区域的图像;及
在所述GUI处描绘所述图像内的所述多个区。
11.一种设备,其包括:
处理器;及
存储器,其存储可执行以使得所述处理器执行操作的指令,所述操作包括:
在用户装置处显示图形用户接口GUI,所述GUI表示具有多个区的区域,其中多个音频捕获装置位于所述区域中;
从所述多个音频捕获装置中的至少一者接收音频数据;
接收指示所述多个区中的所选区的输入;及
基于来自所述多个音频捕获装置的子集的数据在所述用户装置处产生音频输出,其中所述子集中的每一音频捕获装置位于所述所选区中。
12.根据权利要求11所述的设备,其中所述操作进一步包括降低来自不位于所述所选区中的每一音频捕获装置的音频的音频水平。
13.根据权利要求11所述的设备,其中从所述多个音频捕获装置接收所述音频数据包括:
从位于所述多个区中的第一区中的第一音频捕获装置无线地接收第一音频信号;及
从位于所述多个区中的第二区中的第二音频捕获装置无线地接收第二音频信号。
14.根据权利要求13所述的设备,其中所述所选区包含所述第一区,且其中产生所述音频输出包括在所述用户装置处产生所述第一音频信号的表示。
15.根据权利要求13所述的设备,其中所述操作进一步包括在所述用户装置处抑制所述第二音频信号。
16.根据权利要求11所述的设备,其中基于室内导航工具确定每一音频捕获装置的位置。
17.根据权利要求11所述的设备,其中基于用户输入确定每一音频捕获装置的位置。
18.根据权利要求11所述的设备,其中所述音频输出包括单信道输出或多信道输出。
19.根据权利要求11所述的设备,其中所述操作进一步包括在所述GUI处显示每一音频捕获装置的位置。
20.根据权利要求11所述的设备,其进一步包括:
接收器,其经配置以接收所述音频数据;
接口,其经配置以接收所述输入;及
扬声器,其经配置以投射所述音频输出。
21.一种非暂时性计算机可读媒体,其包括用于产生音频输出的指令,所述指令在由处理器执行时使得所述处理器执行包括以下操作的操作:
在用户装置处显示图形用户接口GUI,所述GUI表示具有多个区的区域,其中多个音频捕获装置位于所述区域中;
从所述多个音频捕获装置中的至少一者接收音频数据;
接收指示所述多个区中的所选区的输入;及
基于来自所述多个音频捕获装置的子集的数据在所述用户装置处产生所述音频输出,其中所述子集中的每一音频捕获装置位于所述所选区中。
22.根据权利要求21所述的非暂时性计算机可读媒体,其中所述操作进一步包括降低来自不位于所述所选区中的每一音频捕获装置的音频的音频水平。
23.根据权利要求21所述的非暂时性计算机可读媒体,其中从所述多个音频捕获装置接收所述音频数据包括:
从位于所述多个区中的第一区中的第一音频捕获装置无线地接收第一音频信号;及
从位于所述多个区中的第二区中的第二音频捕获装置无线地接收第二音频信号。
24.根据权利要求23所述的非暂时性计算机可读媒体,其中所述所选区包含所述第一区,且其中产生所述音频输出包括在所述用户装置处产生所述第一音频信号的表示。
25.根据权利要求23所述的非暂时性计算机可读媒体,其中所述操作进一步包括在所述用户装置处抑制所述第二音频信号。
26.根据权利要求21所述的非暂时性计算机可读媒体,其中基于室内导航工具确定每一音频捕获装置的位置。
27.根据权利要求21所述的非暂时性计算机可读媒体,其中基于用户输入确定每一音频捕获装置的位置。
28.一种设备,其包括:
用于在用户装置处显示图形用户接口GUI的装置,所述GUI表示具有多个区的区域,其中多个音频捕获装置位于所述区域中;
用于从所述多个音频捕获装置中的至少一者接收音频数据的装置;
用于接收指示所述多个区中的所选区的输入的装置;及
用于基于来自所述多个音频捕获装置的子集的数据在所述用户装置处产生音频输出的装置,其中所述子集中的每一音频捕获装置位于所述所选区中。
29.根据权利要求28所述的设备,其中所述音频输出包括单信道输出或多信道输出。
30.根据权利要求28所述的设备,其进一步包括用于在所述GUI处显示每一音频捕获装置的位置的装置。
CN201680052898.4A 2015-09-18 2016-07-28 用于产生音频输出的方法、设备和计算机可读介质 Active CN108028979B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/859,128 2015-09-18
US14/859,128 US9706300B2 (en) 2015-09-18 2015-09-18 Collaborative audio processing
PCT/US2016/044563 WO2017048376A1 (en) 2015-09-18 2016-07-28 Collaborative audio processing

Publications (2)

Publication Number Publication Date
CN108028979A true CN108028979A (zh) 2018-05-11
CN108028979B CN108028979B (zh) 2021-03-30

Family

ID=56853793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680052898.4A Active CN108028979B (zh) 2015-09-18 2016-07-28 用于产生音频输出的方法、设备和计算机可读介质

Country Status (7)

Country Link
US (1) US9706300B2 (zh)
EP (1) EP3351014B1 (zh)
JP (1) JP6397158B1 (zh)
KR (1) KR101923357B1 (zh)
CN (1) CN108028979B (zh)
TW (1) TWI607373B (zh)
WO (1) WO2017048376A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133320A (zh) * 2019-06-07 2020-12-25 雅马哈株式会社 语音处理装置及语音处理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013996B2 (en) 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9928848B2 (en) * 2015-12-24 2018-03-27 Intel Corporation Audio signal noise reduction in noisy environments
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US9860644B1 (en) 2017-04-05 2018-01-02 Sonos, Inc. Limiter for bass enhancement
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10341762B2 (en) * 2017-10-11 2019-07-02 Sony Corporation Dynamic generation and distribution of multi-channel audio from the perspective of a specific subject of interest
US11343374B1 (en) * 2017-12-14 2022-05-24 Amazon Technologies, Inc. Message aggregation and comparing
US10715470B1 (en) * 2017-12-14 2020-07-14 Amazon Technologies, Inc. Communication account contact ingestion and aggregation
US20210055394A1 (en) * 2018-01-03 2021-02-25 Signify Holding B.V. System and methods for reducing noise in sensor measurements in connected lighting systems
KR20210009189A (ko) * 2019-07-16 2021-01-26 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US20230282224A1 (en) * 2022-02-23 2023-09-07 Qualcomm Incorporated Systems and methods for improved group communication sessions

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199395A1 (en) * 2003-04-04 2004-10-07 Egan Schulz Interface for providing modeless timelines based selection of an audio or video file
WO2006066618A1 (en) * 2004-12-21 2006-06-29 Freescale Semiconductor, Inc. Local area network, communication unit and method for cancelling noise therein
US20100119072A1 (en) * 2008-11-10 2010-05-13 Nokia Corporation Apparatus and method for generating a multichannel signal
WO2012042295A1 (en) * 2010-09-27 2012-04-05 Nokia Corporation Audio scene apparatuses and methods
CN102484667A (zh) * 2009-09-22 2012-05-30 阿瓦雅公司 用于在协作环境下控制音频的方法和系统
CN104618570A (zh) * 2013-10-22 2015-05-13 诺基亚公司 多麦克风的音频捕获
US20150156874A1 (en) * 2013-11-29 2015-06-04 Fujitsu Limited Laminated substrate and method of manufacturing laminated substrate
CN104702787A (zh) * 2015-03-12 2015-06-10 深圳市欧珀通信软件有限公司 一种应用于移动终端的声音采集方法和移动终端

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674451B1 (en) * 1999-02-25 2004-01-06 International Business Machines Corporation Preventing audio feedback
US20020049979A1 (en) * 2000-05-18 2002-04-25 Patrick White Multiple camera video system which displays selected images
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
US9113240B2 (en) 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
US8831761B2 (en) * 2010-06-02 2014-09-09 Sony Corporation Method for determining a processed audio signal and a handheld device
EP2652737B1 (en) 2010-12-15 2014-06-04 Koninklijke Philips N.V. Noise reduction system with remote noise detector
CN103688245A (zh) * 2010-12-30 2014-03-26 安比恩特兹公司 利用一群数据获取装置进行信息处理
WO2013079993A1 (en) 2011-11-30 2013-06-06 Nokia Corporation Signal processing for audio scene rendering
US9408011B2 (en) 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
KR101253451B1 (ko) * 2012-02-29 2013-04-11 주식회사 팬택 음원의 위치를 감지할 수 있는 모바일 디바이스 및 그 제어 방법
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9966067B2 (en) 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US9173023B2 (en) 2012-09-25 2015-10-27 Intel Corporation Multiple device noise reduction microphone array
US9412375B2 (en) * 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
EP2936829A4 (en) 2012-12-18 2016-08-10 Nokia Technologies Oy SPACE AUDIO DEVICE
JP5958717B2 (ja) * 2013-07-19 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム、指向性制御方法、収音システム及び収音制御方法
GB2517690B (en) 2013-08-26 2017-02-08 Canon Kk Method and device for localizing sound sources placed within a sound environment comprising ambient noise
JP6206003B2 (ja) * 2013-08-30 2017-10-04 沖電気工業株式会社 音源分離装置、音源分離プログラム、収音装置及び収音プログラム
WO2015035093A1 (en) 2013-09-05 2015-03-12 Daly George William Systems and methods for acoustic processing of recorded sounds
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US9253527B2 (en) 2013-11-14 2016-02-02 Smiletime Inc Social multi-camera interactive live engagement system
US10051364B2 (en) * 2014-07-03 2018-08-14 Qualcomm Incorporated Single channel or multi-channel audio control interface
US10013996B2 (en) 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199395A1 (en) * 2003-04-04 2004-10-07 Egan Schulz Interface for providing modeless timelines based selection of an audio or video file
WO2006066618A1 (en) * 2004-12-21 2006-06-29 Freescale Semiconductor, Inc. Local area network, communication unit and method for cancelling noise therein
US20100119072A1 (en) * 2008-11-10 2010-05-13 Nokia Corporation Apparatus and method for generating a multichannel signal
CN102484667A (zh) * 2009-09-22 2012-05-30 阿瓦雅公司 用于在协作环境下控制音频的方法和系统
WO2012042295A1 (en) * 2010-09-27 2012-04-05 Nokia Corporation Audio scene apparatuses and methods
CN104618570A (zh) * 2013-10-22 2015-05-13 诺基亚公司 多麦克风的音频捕获
US20150156874A1 (en) * 2013-11-29 2015-06-04 Fujitsu Limited Laminated substrate and method of manufacturing laminated substrate
CN104702787A (zh) * 2015-03-12 2015-06-10 深圳市欧珀通信软件有限公司 一种应用于移动终端的声音采集方法和移动终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133320A (zh) * 2019-06-07 2020-12-25 雅马哈株式会社 语音处理装置及语音处理方法
CN112133320B (zh) * 2019-06-07 2024-02-20 雅马哈株式会社 语音处理装置及语音处理方法

Also Published As

Publication number Publication date
KR101923357B1 (ko) 2018-11-28
JP2018530778A (ja) 2018-10-18
EP3351014A1 (en) 2018-07-25
US20170085985A1 (en) 2017-03-23
JP6397158B1 (ja) 2018-09-26
KR20180045035A (ko) 2018-05-03
TW201723802A (zh) 2017-07-01
TWI607373B (zh) 2017-12-01
WO2017048376A1 (en) 2017-03-23
EP3351014B1 (en) 2020-03-25
US9706300B2 (en) 2017-07-11
CN108028979B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108028979A (zh) 协作音频处理
CN108028050A (zh) 协同音频处理
CN110164469B (zh) 一种多人语音的分离方法和装置
KR102471499B1 (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
US8983844B1 (en) Transmission of noise parameters for improving automatic speech recognition
CN108346433A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN106716526A (zh) 用于增强声源的方法和装置
CN107181845A (zh) 一种麦克风确定方法和终端
CN107871494A (zh) 一种语音合成的方法、装置及电子设备
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
JP2019184809A (ja) 音声認識装置、音声認識方法
CN113889135A (zh) 一种估计声源波达方向的方法、电子设备及芯片系统
US11783809B2 (en) User voice activity detection using dynamic classifier
US20210110838A1 (en) Acoustic aware voice user interface
US11792570B1 (en) Parallel noise suppression
US20220246160A1 (en) Psychoacoustic enhancement based on audio source directivity
US20240031765A1 (en) Audio signal enhancement
WO2024059427A1 (en) Source speech modification based on an input speech characteristic
WO2017111634A1 (en) Automatic tuning of speech recognition parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant