CN117941343A - 多源音频处理系统和方法 - Google Patents

多源音频处理系统和方法 Download PDF

Info

Publication number
CN117941343A
CN117941343A CN202280061509.XA CN202280061509A CN117941343A CN 117941343 A CN117941343 A CN 117941343A CN 202280061509 A CN202280061509 A CN 202280061509A CN 117941343 A CN117941343 A CN 117941343A
Authority
CN
China
Prior art keywords
source
audio
signal
source separation
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280061509.XA
Other languages
English (en)
Inventor
C·C·尼格曼
G·E·洛森布姆
A·M·阿圭拉
M·G·斯科格莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QSC LLC
Original Assignee
QSC LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QSC LLC filed Critical QSC LLC
Publication of CN117941343A publication Critical patent/CN117941343A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/318Received signal strength
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/509Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种会议系统,该会议系统包括多个麦克风和音频处理系统,该音频处理系统对音频信号执行盲源分离操作以识别不同音频源。该系统处理分离音频源以识别或分类这些源并且生成包括源分离内容的输出流。

Description

多源音频处理系统和方法
优先权申请的交叉引用
在与本申请一起提交的申请数据表中明确了外国或国内优先权要求的任何和所有申请根据37C.F.R.§1.57据此以引用方式并入本文。
背景技术
本发明整体涉及处理由一个或多个阵列麦克风或其他类型的麦克风检测到的声音的音频系统。
发明内容
在一些方面,本文描述的技术涉及一种会议系统,该会议系统包括:多个麦克风,该多个麦克风包括定位在会议环境中的至少第一麦克风和第二麦克风,第一麦克风被配置为响应于检测到的声音而生成至少一个第一音频信号,第二麦克风被配置为响应于检测到的声音而生成至少一个第二音频信号;和一个或多个处理器,该一个或多个处理器执行音频处理系统并且操作地耦接到该多个麦克风。音频处理系统可以被配置为:对第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;对第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;处理第一多个源分离音频信号中的第一源分离信号以识别对应于第一源分离信号的第一类型的音频源;处理第二多个源分离音频信号中的第二源分离信号以识别对应于第二源分离信号的第二类型的音频源;以及从第一源分离信号和第二源分离信号中的一者或两者生成包括音频内容的输出音频流。输出流可以至少部分地基于到达方向信息和信号强度信息中的一者或多者而生成。
在一些方面,本文描述的技术涉及一种会议系统,其中第一类型的音频源和第二类型的音频源是相同的类型。
在一些方面,本文描述的技术涉及一种会议系统,其中第一源分离信号和第二源分离信号对应于相同的人类发言人语音源。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被进一步配置为使用到达方向和信号强度信息中的一者或多者来确定人类发言人的物理位置,并且随着人类发言人移动跟踪人类发言人的物理位置。
在一些方面,本文描述的技术涉及一种会议系统,其中第一类型和第二类型中的至少一者是语音源,并且音频处理系统使用语音活动检测技术来识别语音源。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的到达方向信息。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的信号强度信息。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为基于所识别的第一类型而对第一源分离信号应用第一音频信号处理操作,并且至少基于所识别的第二类型而对第二源分离信号应用第二音频信号处理操作,其中第一音频处理操作和第二音频处理操作是不同的。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为:识别第一多个源分离音频信号和第二多个源分离音频信号之中的一个或多个残余回波信号;以及使用残余回波信号来增强声学回波消除。
在一些方面,本文描述的技术涉及一种会议系统,其中麦克风中的一个或多个麦克风包括阵列麦克风,并且音频处理系统被配置为基于基于阵列麦克风的单独麦克风元件之间的时间或相位延迟而确定第一多个源分离音频信号中的一个或多个源分离音频信号以及第二多个源分离音频信号中的一个或多个源分离音频信号的到达方向。
在一些方面,本文描述的技术涉及一种会议系统,其中第一类型是噪声源,第二类型是语音源,并且音频处理系统被配置为相对于来自第二源分离信号的内容在输出音频流中省略或减少来自第一源分离信号的贡献。
在一些方面,本文描述的技术涉及一种会议方法,该会议方法包括:利用操作地耦接到定位在会议环境中的多个麦克风的一个或多个处理器:对由该多个麦克风中的第一麦克风生成的至少一个第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;对由该多个麦克风中的第二麦克风生成的至少一个第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;处理第一多个源分离音频信号中的第一源分离信号以识别对应于第一源分离信号的第一类型的音频源;处理第二多个源分离音频信号中的第二源分离信号以识别对应于第二源分离信号的第二类型的音频源;以及生成用于回放的输出音频流。根据一些实施方案,输出音频流包括来自第一源分离信号和第二源分离信号中的一者或两者的音频内容。输出流的生成可以至少部分基于到达方向信息和信号强度信息中的一者或多者。
在一些方面,本文描述的技术涉及一种方法,其中第一类型的音频源和第二类型的音频源是相同的类型。
在一些方面,本文描述的技术涉及一种方法,其中第一源分离信号和第二源分离信号对应于相同的人类发言人语音源。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:利用该一个或多个处理器,使用到达方向和信号强度信息中的一者或多者来确定人类发言人的物理位置,以及随着人类发言人移动跟踪人类发言人的物理位置。
在一些方面,本文描述的技术涉及一种方法,其中第一类型和第二类型中的至少一者是语音源,并且该方法包括使用语音活动检测技术来识别语音源。
在一些方面,本文描述的技术涉及一种方法,该方法包括:利用该一个或多个处理器,在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的到达方向信息。
在一些方面,本文描述的技术涉及一种方法,该方法包括:利用该一个或多个处理器,在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的信号强度信息。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:利用该一个或多个处理器,基于所识别的第一类型而对第一源分离音频信号应用第一音频信号处理操作,并且至少基于所识别的第二类型而对第二源分离音频信号应用第二音频信号处理操作,其中第一音频处理操作和第二音频处理操作是不同的。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:利用一个或多个处理器:识别第一源分离音频信号和第二源分离音频信号之中的一个或多个残余回波信号;以及使用残余回波信号来改进声学回波消除。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:利用该一个或多个处理器,基于单独麦克风元件之间的时间或相位延迟而确定第一多个源分离音频信号中的一个或多个源分离音频信号以及第二多个源分离音频信号中的一个或多个源分离音频信号的到达方向。
在一些方面,本文描述的技术涉及一种方法,其中第一类型是噪声源,第二类型是语音源,并且该方法进一步包括:利用该一个或多个处理器,相对于来自第二源分离信号的内容在输出音频流中省略或减少来自第一源分离信号的贡献。
在一些方面,本文描述的技术涉及一种存储指令的非暂态计算机可读存储介质,这些指令在由计算系统执行时使得计算系统执行操作,这些操作包括:对由多个麦克风中的第一麦克风生成的至少一个第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;对由该多个麦克风中的第二麦克风生成的至少一个第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;处理第一多个源分离音频信号中的第一源分离信号以识别对应于第一源分离信号的第一类型的音频源;处理第二多个源分离音频信号中的第二源分离信号以识别对应于第二源分离信号的第二类型的音频源;以及生成用于回放的输出音频流。输出音频流可以包括来自第一源分离信号和第二源分离信号中的一者或两者的音频内容。输出流的生成可以至少部分基于到达方向信息和信号强度信息中的一者或多者。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中第一类型和第二类型的音频源是相同的类型。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中第一源分离信号和第二源分离信号对应于相同的人类发言人语音源。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:使用到达方向和信号强度信息中的一者或多者来确定人类发言人的物理位置,以及随着人类发言人移动跟踪人类发言人的物理位置。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中第一类型和第二类型中的至少一者是语音源,并且操作进一步包括使用语音活动检测技术来识别语音源。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的到达方向信息。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:在生成输出音频流时使用与第一源分离信号和第二源分离信号中的一者或两者相关的信号强度信息。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:基于所识别的第一类型而对第一源分离音频信号应用第一音频信号处理操作,并且至少基于所识别的第二类型而对第二源分离音频信号应用第二音频信号处理操作,其中第一音频处理操作和第二音频处理操作是不同的。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:识别第一源分离音频信号和第二源分离音频信号之中的一个或多个残余回波信号;以及使用残余回波信号来改进声学回波消除。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:基于单独麦克风元件之间的时间或相位延迟而确定第一多个源分离音频信号中的一个或多个源分离音频信号以及第二多个源分离音频信号中的一个或多个源分离音频信号的到达方向。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中第一类型是噪声源,第二类型是语音源,并且其中操作进一步包括相对于来自第二源分离信号的内容在输出音频流中省略或减少来自第一源分离信号的贡献。
在一些方面,本文描述的技术涉及一种会议系统,该会议系统包括:多个麦克风,该多个麦克风各自被配置为检测声音并且响应于所检测到的声音而生成一个或多个音频信号;和一个或多个处理器,该一个或多个处理器执行音频处理系统并且经由网络耦接到该多个麦克风,该音频处理系统被配置为:对音频信号执行一个或多个源分离操作以生成各自对应于音频源的多个源分离音频信号;处理源分离音频信号以识别音频源中的每个音频源的类型;并且更新存储的听觉场景数据库以指示至少:i)音频源;以及ii)音频源中的每个音频源的所识别的类型。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被进一步配置为更新数据库以针对音频源中的每个音频源指示检测到音频源的该多个麦克风中的一个或多个检测麦克风。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的子类型,并且更新数据库以指示音频源的子类型。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的唯一标识,并且更新数据库以指示音频源的唯一标识
在一些方面,本文描述的技术涉及一种会议系统,其中唯一标识中的至少一个唯一标识是唯一人类发言人的唯一标识。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于源分离音频信号的音频源的物理位置,并且更新数据库以指示音频源的位置。
在一些方面,本文描述的技术涉及一种会议系统,其中音频处理系统被配置为更新数据库以针对该多个麦克风中的每个麦克风指示该麦克风检测到音频源中的哪个音频源。
在一些方面,本文描述的技术涉及一种会议方法,该会议方法包括:利用操作地耦接到定位在会议环境中的多个麦克风的一个或多个处理器:对由麦克风生成的一个或多个音频信号执行一个或多个源分离操作以生成各自对应于音频源的多个源分离音频信号;处理源分离音频信号以识别音频源中的每个音频源的类型;以及更新存储的听觉场景数据库以指示至少:i)音频源;以及ii)音频源中的每个音频源的所识别的类型。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:更新数据库以针对音频源中的每个音频源指示检测到音频源的该多个麦克风中的一个或多个检测麦克风。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的子类型,并且更新数据库以指示音频源的子类型。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的唯一标识,并且更新数据库以指示音频源的唯一标识
在一些方面,本文描述的技术涉及一种方法,其中唯一标识中的至少一个唯一标识是唯一人类发言人的唯一标识。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的物理位置,并且更新数据库以指示音频源的位置。
在一些方面,本文描述的技术涉及一种方法,该方法进一步包括:更新数据库以针对该多个麦克风中的每个麦克风指示该麦克风检测到音频源中的哪个音频源。
在一些方面,本文描述的技术涉及一种存储指令的非暂态计算机可读存储介质,这些指令在由计算系统执行时使得计算系统执行操作,这些操作包括:对由多个麦克风生成的一个或多个音频信号执行一个或多个源分离操作以生成各自对应于音频源的多个源分离音频信号;处理源分离音频信号以识别音频源中的每个音频源的类型;以及更新存储的听觉场景数据库以指示至少:i)音频源;以及ii)音频源中的每个音频源的所识别的类型。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:更新数据库以针对音频源中的每个音频源指示检测到音频源的该多个麦克风中的一个或多个检测麦克风。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的子类型,并且更新数据库以指示音频源的子类型。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的唯一标识,并且更新数据库以指示音频源的唯一标识
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中唯一标识中的至少一个唯一标识是唯一人类发言人的唯一标识。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:进一步处理源分离音频信号的至少一个子集,以针对子集中的每个源分离音频信号识别对应于该源分离音频信号的音频源的物理位置,并且更新数据库以指示音频源的位置。
在一些方面,本文描述的技术涉及一种非暂态计算机可读存储介质,其中操作进一步包括:更新数据库以针对该多个麦克风中的每个麦克风指示该麦克风检测到音频源中的哪个音频源。
附图说明
图1示出了根据某些实施方案的音频/视频系统。
图2A至图2B示出了音频系统的阵列麦克风所处的会议室。
图2C示出了多房间会议环境,其中音频系统的麦克风相对于各种声音进行部署。
图3A示出了根据某些实施方案的被配置为分离声音源并处理分离源的音频处理引擎的示例。
图3B至图3G示出了根据某些实施方案的图3A的音频处理系统的部分的详细视图。
图4A至图4C示出了根据某些实施方案的由音频处理系统生成和维护的数据的示例。
图5描绘了根据某些实施方案的由音频处理系统分离、分类和处理的检测到的音频数据流。
图6示出了根据某些实施方案的被配置为分离声音源并执行数字信号处理操作的音频处理系统的示例的一部分。
图7是描绘根据某些实施方案的使用由音频系统检测到的分离声音源来执行听觉场景分析的方法的流程图。
图8示出了可以在本文描述的音频系统中使用的不同麦克风阵列几何形状的示例。
图9示出了与本文描述的音频系统和方法兼容的麦克风阵列的示例。
具体实施方式
出于概括本公开的目的,本文已经描述了本公开的某些方面、优点,和新颖特征。应当理解,不一定可根据本文所公开的公开内容的任何特定实施方案来实现所有这些优点。因此,本文所公开的系统和方法可以实现或优化如本文所教导的一个优点或一组优点的方式来体现或执行,而不必实现如本文所教导或建议的其他优点。
本文描述了用于对由一个或多个麦克风阵列或其他类型的麦克风捕获的音频源进行分离和分类的系统和对应的方法。该系统可以部署在各种环境中,包括电话会议室、演讲厅或其他协作空间。该系统可以识别语音并分离声音源,包括通过将语音与噪声源或其他音频源分离。
为了将期望的语音与不想要的噪声或源分离,一些系统依赖于自适应波束成形或主要依赖于声音源方向性的技术。一些系统可以通过将检测到的能量水平与预期的语音水平进行比较来过滤噪声。然而,不想要的噪声可能具有与在麦克风处测量的期望的语音相似的响度,或者比期望的语音更响。在这种情况下,可能难以区分声音源,特别是在相似的能量或频率水平下来自相同方向的那些声音源,并且噪声可能传递到网络通信信道以用于在输出流中回放。
由于上述限制,对于一些麦克风系统来说,识别并分离声音源(例如,语音和非语音点源、扩散源等)是一种挑战,特别是在诸如会议室、演讲厅和协作空间的易变环境中。由本文描述的系统解决的一些挑战可以包括:1)不良房间声学;2)多个同时说话者(可以在近场或远场);3)包括噪声类型的不同声音源(例如,纸张翻动、脚步、相邻房间中的说话者、HVAC系统等);以及4)点或扩散噪声。
本文描述的某些实施方案不依赖于或不主要或单独地依赖于检测到的方向性或能量水平,并且可以采用盲源分离,例如,连同其他技术一起,来识别并分离声音源。其他实施方案可以依赖于方向性或能量水平结合盲源分离。
此外,与需要规定放置以便避免麦克风之间的重叠或干扰的一些现有系统相比,本文描述的基于源分离的处理技术可以允许结合具有各种几何形状而不限于刚性预定义几何形状的麦克风阵列,并且可以允许麦克风放置和安装的灵活性。该系统可以附加地实现利用语音控制和命令的改进的用户体验,以及特定于说话者的改进的个性化音频设置。
音频处理系统概述
音频处理系统包括在空间中接收和分发声音的复杂的计算机-控制设备。此类设备可用于商业场所、酒吧、餐馆、会议室、音乐厅、教堂或任何其他需要从源接收音频输入并将其传送到一个或多个扩音器以供人们听到的环境。一些现代系统结合集成音频、视频和控制(AV&C)功能,以提供集成系统架构。此类系统的一个示例是QSC,LLC提供的Q-SYSTM Ecosystem,它提供了可扩展的基于软件的平台。参考图1示出并描述了音频/视频系统100的简化表示。
示的示例性系统100包括一组部署的设备110、可以包括一个或多个处理器122和存储装置/存储器123的处理核心120、包括联网设备并且将处理核心120连接到部署的设备110的网络130、一个或多个网络存储设备131以及一个或多个服务114。数据可以经由第一网络信道137和第二网络信道139向和从处理核心120传送,第一网络信道和第二网络信道可以各自包括一个或多个逻辑数据流。
络存储装置131可以是经由互联网或另一广域网或局域网连接到处理核心120和/或部署的设备110的云存储装置。音频环境储存库112可以驻留在处理核心120本地的一个或多个存储设备123上和/或网络存储131上,并且可以维护关于其中部署有系统100的音频环境的各种信息,如本文将更详细讨论的。
服务114可以经由互联网或另一广域网或局域网与处理核心120和/或部署的设备110通信,并且可以包括音频处理服务,诸如云/边缘语音命令处理服务、转录服务或人工智能处理。
部署的设备110可以包括一个或多个麦克风阵列140或其他麦克风、扩音器150、相机160、控制设备170和第三方设备180。
所示的实施方案的处理器122可以包括一个或多个通用微处理器,尽管另选配置可以包括为音频数字信号处理而定制设计的音频处理引擎,其可以是定制设计的专用集成电路。如图所示,音频处理系统121可以包括音频处理引擎125、混合器/控制引擎127和听觉场景分析器129,其可以在处理器122上执行。虽然本文描述的操作在一些情况下出于说明的目的被描述为由驻留在系统100的处理核心120上的音频处理引擎125、混合器/控制引擎127和听觉场景分析器129执行,但是在其他实施方案中,包括回波消除、盲源分离或其他数字信号处理操作中的一些或全部的操作中的一个或多个操作可以在每个单独的麦克风系统140上对由该麦克风系统140检测到的信号执行而不是在处理核心120中执行。
麦克风系统140可以包括一个或多个阵列麦克风,包括布置成阵列的多个单独麦克风元件,但是也可以包括其他类型的麦克风系统。本文参考图8和图9描述了兼容的麦克风系统的示例。相机160可以包括一个或多个数字视频相机,其可以指向固定方向或具有可移动的指向,例如,经由机动万向节。控制设备170可以包括任何适当的用户输入设备,诸如触摸屏、计算机终端等。虽然图1中未示出,但是系统100还可以包括适当的支持部件,诸如一个或多个音频放大器或视频桥接设备。
扩音器150可以是独立的扩音器,或者集成在显示器、联网电话等内的扩音器。
第三方设备180可包括一台或多台笔记本电脑、台式机或其他计算机、智能手机或其他移动设备、投影仪、屏幕、灯、窗帘/遮光帘、风扇以及可在此类设备上执行的第三方应用程序,包括诸如Zoom或Teams的第三方会议应用程序或像Apple的/>的数字语音助手。
虽然在图1中被示为单独的部件,但是根据具体实施,麦克风系统140、扩音器150、相机160、控制设备170和/或第三方设备180可集成在一起。例如,麦克风阵列、扩音器、相机和触摸屏中的一些或全部可集成到通用封装中。
在操作中,麦克风140检测环境中的声音,将该声音转换为数字音频信号,并且通过网络130将该音频信号流传输到处理核心120。音频处理系统121可以接收音频信号,并对信号执行数字信号处理和/或其他处理。例如,音频处理引擎125可以执行固定或自适应回波消除、用于分离从环境中的不同源发出的音频的盲源分离、以及包括放大、其他类型的噪声处理、空间滤波或其他音频处理的其他数字信号处理的任何组合。处理器122可以执行附加的后处理,其可以包括人工智能(AI)、机器学习(ML)和其他操作。本文描述了关于这些和其他操作的更多细节,包括参考图2至图7。在一些实施方案中,代替麦克风140将原始数字音频信号发送到处理核心120,麦克风系统140本身上的一个或多个处理器在将信号发送到处理核心120之前执行回波消除放大、盲源分离或其他数字信号处理中的一些或全部。
混合器/控制引擎127可以被配置为将由音频处理引擎125分离、分类和以其他方式处理的音频流混合在一起,以构造用于由系统100回放的输出流。例如,混合器/控制引擎127可以经由第二网络信道139提供音频/视频数据输出流,以用于由系统100中的扩音器150、第三方设备180或其他部署的设备110回放。混合器/控制引擎127还可以被配置为调整系统100中的一个或多个设备的操作。例如,混合器/控制引擎127可以被配置为发出命令来控制或影响麦克风140、扩音器150、相机160、控制设备170、第三方设备180或其他部署的设备110中的任一者的操作。
如将在本文中更详细描述的,听觉场景分析器129可以被配置为处理数据以生成并维护其中部署有系统100的环境的听觉“场景”的表示。输入数据可以包括但不限于由系统100(例如,由麦克风140、相机160或其他部署的设备110)检测到的数据、由系统100生成的数据(例如,由音频处理系统121或其部件生成的数据)、先前提供给系统100的数据(例如,与部署的环境相关的信息,诸如数字地图或蓝图、部署的设备110的列表或与部署的设备相关的信息等)以及在环境储存库112中维护的数据。
第一网络信道137将数据从部署的设备110传送到处理核心120。例如,第一网络信道137可以向处理核心120传输但不限于:来自麦克风140的原始或经处理的音频数据流;由相机160捕获的原始或经处理的视频数据流;触摸屏或其他用户界面输入数据或来自控制设备170的其他控制数据;以及来自第三方设备180的视频和音频数据流。在相机160包括集成麦克风的情况下,除了视频数据之外,处理核心120还可以通过第一网络信道137从相机160接收音频数据。
第二网络信道139可以将数据从处理核心120传送到部署的设备110。例如,如先前所指示的,第二网络信道139可以传输用于控制部署的设备110的命令信息和/或用于由部署的设备110回放的音频和视频内容。关于音频和视频内容,第二网络信道139可以向部署的设备110传输但不限于:用于由扩音器150中的一个或多个扩音器回放的音频数据流,例如,在由音频处理引擎125处理并由混合器/控制引擎127混合之后;用于由相机160回放的视频数据流;以及用于由第三方设备180中的一个或多个第三方设备回放的视频和/或音频数据流,例如,在由音频处理引擎125和混合器/控制引擎127处理之后。关于命令信息,第二网络信道139可以向部署的设备110传输但不限于:给麦克风140的命令,以调整麦克风140中的一个或多个麦克风的灵敏度、方向性或其他操作;给扩音器150的命令,以调整扩音器150中的一个或多个扩音器的音量或其他音频输出特性;物理地调整扩音器150中的一个或多个扩音器的指向方向的命令;调整相机160中的一个或多个相机的曝光、聚焦、变焦、帧速率、分辨率或其他操作的命令;经由物理移动来调整相机160中的一个或多个相机的指向方向的命令,或者经由电子摇摄、倾斜、缩放(EPTZ)的数字调整的命令;更新控制设备170、第三方设备180或其他部署的设备110的用户界面的命令,包括更新图形用户界面显示或输出数字生成的语音或其他音频(例如,来自虚拟会议主持人的“会议开始”);以及激活或停用麦克风140、扩音器150、相机160、控制设备170或其他部署的设备110中的任一者的命令。
识别和分离会议室/会议环境中的声音源
根据某些实施方案,音频系统100被配置为区分音频环境中的声音内容的不同源。作为一个示例,在会议室环境中将主讲人与噪声源诸如风扇和/或其他说话者区分开可能是有帮助的。在这种情况下,音频系统100可以处理由麦克风140中的一个或多个麦克风检测到的声音以强调主发言人的语音,诸如通过过滤掉由其他声音源生成的声音,或者相对于其他声音源放大或以其他方式强调主发言人的语音。
图2A示出了会议室环境200a的示例,其包括会议桌202,其中麦克风140被安装或以其他方式放置在桌202的中心。麦克风140可以例如经由以太网线缆连接(未示出)连接到处理核心120或者无线地连接到网络130。麦克风140周围的声音环境被分成四个象限,各自对应于不同的区域1-4,其中四个人202a-d中的一个人各自定位在区域1-4中的一个区域内。噪声源206可以是任何噪声源,诸如风扇、电视或来自定位在区域3中的个人204c后面的另一说话者的语音。根据某些实施方案,系统100可以采用本文描述的声音源分离技术中的任一种,包括结合盲源分离的那些声音源分离技术中的任一种,以区分环境200a中的各种音频源。例如,根据某些实施方案,一个或多个处理器122将盲源分离算法与一个或多个其他处理技术组合地应用于由麦克风140检测到的音频,以识别并分离环境中的声音源202a-d、206。在一些实施方案中,麦克风系统140是包括多个麦克风元件的阵列麦克风,并且处理核心120对所检测到的声音应用盲源分离算法以逐个源地区分声音内容,从而将声音内容分离成与四个扬声器204a-d和噪声源206相对应的五个独立信号流。处理核心120然后可以对分离信号应用附加处理,诸如通过输出或放大输出流中的语音内容的水平,以及过滤掉或降低输出流中的噪声内容的水平。如将诸如相对于图3至图7更详细地解释的,多个不同的附加处理操作可以与盲源分离组合,包括声学回波消除、音频源分类、人工智能等。
图2B示出了在四个人204a-d通常坐在或站在桌子202后面、观看诸如电视屏幕或投影仪的显示器208、并且噪声源206位于人202a-d后面的场景中的会议室200b。根据某些实施方案,系统100可以采用本文描述的声音源分离技术中的任一种,包括结合盲源分离的那些声音源分离技术中的任一种,以区分图2B所示的场景中的各种音频源。例如,处理核心120可以将盲源分离与一个或多个其他处理技术组合地应用,以将由麦克风140检测到的信号分离成与来自四个人202a-d的语音、来自噪声源206的声音和来自显示器208的声音相对应的多达六个独立信号。在这种情况下,盲源分离将允许系统100区分来自两个人204c、204d的语音,即使个人204c位于个人204d与麦克风140之间。盲源分离还允许系统100区分来自个人204b的声音与来自噪声源206的声音,即使个人204b位于噪声源206与麦克风140之间,并且即使来自个人204b的语音和来自噪声源206的声音具有相似的能量或频率水平。
图2C示出了其中部署有音频系统100的环境200c的另一示例。环境200c包括在音频/视频会议中与第二房间200e一起联网的第一房间200d。系统100包括定位在第一房间200d各处的四个麦克风140a-d、定位在第二房间200e中的两个麦克风140e-f、每个房间中便于进行视频会议的显示器208a-b、以及每个房间200d、200e中的扩音器150a-150c,它们可以与麦克风140或显示器208a-b分开容纳和/或集成在一起。麦克风140a-f、显示器208a-b、扩音器150a-150c、投影仪214以及用户设备212中的一个或多个用户设备可以经由有线或无线连接连接到网络130和处理核心120。
环境200d包括九个人204a-204i,包括第一房间200d中的第一个人208a,其向位于第一房间200d中的六个其他个人204b-g递送演示。演示者204a的语音由第一房间200d中的麦克风140a-140d中的一个或多个麦克风进行检测,根据本文描述的任何技术进行处理,并且由系统100经由第一房间200d和第二房间200e中的扩音器150a-150c中的一个或多个扩音器进行广播。如图所示,每个个人在其附近可以具有手机、笔记本电脑和/或其他附加声音源212,其可以输出语音和/或非语音声音。环境200c进一步包括附加的非语音源,诸如安装在第一房间200d中的投影到屏幕208a上的顶置投影仪214的风扇,以及安装在第二房间200e中的吊扇216。也可以存在其他类型的噪声源,诸如播放环境音乐的一个或多个扩音器,其不连接到音频系统100。房间200d、200e还可以包括一个或多个相机(未示出),该一个或多个相机记录视频流,并且系统100处理该视频流以用于通过网络130进行实时传输以及在显示器200a-b上进行实况回放。
根据某些实施方案,系统100可以采用本文描述的声音源分离技术中的任一种,包括结合盲源分离的那些声音源分离技术中的任一种,以区分环境200c中的各种音频源。例如,根据某些实施方案,系统100可以将盲源分离与一个或多个其他处理技术组合地使用,以处理由每个单独麦克风104a-f检测到的信号,从而针对每个源生成独立信号/数据流。作为示例,系统100可以将由房间200d前面的麦克风140a检测到的声音处理成对应于至少以下源的组成信号:1)来自个人204a的语音;2)由个人204a的手机或笔记本电脑212生成的语音(例如,扬声器手机呼叫)或非语音(例如,铃声)声音;3)由顶置投影仪214中的风扇生成的声音;4)由第一房间200d中的其他个人204b-g中的一个或多个个人生成的语音或非语音声音;以及5)由与第一房间200d中的其他个人204b-g相关联的笔记本电脑或手机212生成的语音或非语音声音。系统100可以类似地将由第一房间200d中的其他麦克风140b-d中的每个麦克风检测到的声音区分为与由相应麦克风140检测到的房间中的各种声音源中的每个声音源相对应的独立组成信号。类似地,在第二房间200e中,系统100可以将两个麦克风140f-e中的每个麦克风检测到的声音分离成与第二房间200e中的至少以下源相对应的组成信号:1)来自两个人204h-i的语音或非语音声音;2)由笔记本电脑或手机212生成的语音或非语音声音;以及3)由吊扇216生成的声音。
在一些实施方案中,系统100不仅使用与由给定麦克风140检测到的声音相对应的信号,而且使用与由其他麦克风140中的一个或多个麦克风检测到的声音相对应的信号,对由该麦克风140检测到的声音执行声音源分离。例如,系统100可以使用本文包括参考图3A至图7描述的部件(诸如参考例如图1和图3A至图3G描述的音频处理系统121)或方法中的任一者来实现参考图2A至图2C描述的操作中的任何操作。
使用盲源分离的音频处理
图3A示出了音频处理系统121的示例。音频处理引擎125可以被实现为音频/视频系统100中的处理核心100的微处理器122上的软件或固件。所示的音频处理引擎125连接到一个或多个麦克风阵列140,该一个或多个麦克风阵列各自具有多个单独麦克风元件M1-Mn,并且其可以是本文描述的麦克风的任何组合,具体取决于实施方案。例如,系统100可以连接到图2A、图2B或图2C中所示的房间200a、200b、200d、200e中所示的麦克风140中的一些或全部。
音频处理引擎125包括多个所示音频源处理级中的一些或全部,包括回波消除器301、被配置为检测和提取由麦克风阵列140检测到的声音源的盲源分离器302、被配置为对所提取的声音源进行分类的源分类器304、被配置为对来自语音声音源的内容进行扫描、选择、标测和以其他方式处理的语音源处理器306、以及被配置为对源执行数字信号处理或其他音频处理的音频信号处理单元308,这些音频源处理级可以逐个源地定制、优化和/或个性化。
根据实施方案,可以包括声学回波消除器(AEC)301。所示AEC 301连接在麦克风阵列140与BSS 302之间,并对由麦克风阵列140输出的信号执行固定或自适应声学回波消除,以减少回波和/或混响并生成一个或多个经回波消除的信号。例如,AEC 301可以通过处理所检测到的输入信号、一个或多个参考信号(例如,远端信号)和/或一个或多个残余回波信号,将线性AEC应用于阵列140的麦克风元件中的每个麦克风元件。例如,参考图2C,当在第一房间200d(远端)中生成的声音被第一房间200d中的一个或多个麦克风140a-d检测到、在第二房间200e(近端)中的扩音器上播放、被第二房间200e(近端)中的麦克风140e-f中的一个或多个麦克风检测到并且作为回波被第一房间200d(远端)中的扩音器回放时,可能出现回波。AEC 301可以处理由第一房间200d中的麦克风检测到的远端信号、由第二房间200e中的麦克风140e-f检测到的近端信号、以及由音频处理引擎125检测到的任何残余回波,以减少或防止在第一房间200d(远端)中输出此类回波。
虽然所示的实施方案不包括波束成形器,但是在一些其他实施方案中,可以任选地包括波束成形器,并且在这种情况下,可以将其定位在麦克风阵列140和AEC 301中。波束成形器可以使用不同的权重将从每个阵列140中的M1-Mn中的元件接收的信号进行组合,使得在特定角度下的信号经历相长干涉,而其他经历相消干涉。波束成形器可以是使用固定权重将波束指向固定方向的固定波束成形器,或者是自适应波束成形器,其中权重可以调整以改变波束的方向。虽然波束成形器可以定位在AEC 301之前,但在其他具体实施中,该顺序可被颠倒。
源分离
如图3B所示,BSS 302可以被配置为将来自麦克风140 1-n的经回波消除的信号分离成输出信号组312,包括与由系统100中的第一麦克风阵列140检测到的分离源相对应的第一信号组312_1到与由第n麦克风阵列140检测到的分离源相对应的第n信号组312_n。源312可以包括但不限于:语音和非语音点源(例如,语音、视频投影仪风扇等)以及扩散源(例如,残余回波、混响等)。在音频处理引擎125包括AEC 301的情况下,BSS 302可以接收并分离从AEC 301输出的经回波消除的麦克风信号。在所示的实施方案中,给定麦克风140的分离源的数量取决于该麦克风140拾取了多少个源。虽然图3B所示的BSS 302逐个麦克风140逐个麦克风140地提取源,但是在一些实施方案中,BSS 302可以更细粒度地分离源,诸如通过分离由麦克风阵列140内的单独麦克风元件M1-Mn中的每个麦克风元件检测到的不同或单独源。
在一些实施方案中,BSS 302使用独立分量分析(ICA)将信号分离成多个统计学上独立的子分量。例如,BSS 302可以分解混合分量输入信号并提取独立信号,并且可以将具有非高斯直方图或低复杂度的那些独立信号确定为源分量。在2012年8月12日公开的名称为“Microphone Array Based Speech Recognition System and Target SpeechExtracting Method of the System”的美国专利申请公开号2009/0150146描述了独立分量分析的某些示例,并且其全部内容以引用方式并入本文。根据一些实施方案,BSS 302可以包括完全卷积时域音频分离网络,其实现用于端到端时域语音分离的深度学习框架。在这种情况下,BSS 302可以使用线性编码器来生成为分离单独扬声器(或其他声音源)而进行优化的波形的表示。可以通过将一组加权函数(例如,掩码)应用于编码器输出来实现分离。可以使用线性解码器将经修改的编码器表示反转回波形。可以使用由堆叠的1-D膨胀卷积块组成的时间卷积网络(TCN)来找到掩码,这允许网络在保持小模型大小的同时对语音信号的长期依赖性进行建模。在Conv-TasNet中示出和描述了此类技术的示例:SurpassingIdeal Time-Frequency Masking for Speech Separation,Yi Luo、Nima Mesgarani,2019年5月15日,其内容以引用方式并入本文。
音频处理系统121可以附加地处理所检测到的音频内容,以确定麦克风140间或麦克风内的水平差、麦克风140间或麦克风内的时间差、麦克风140间或麦克风内的相位差、或检测到的音高中的一者或多者,并且BSS 302可以使用该信息中的一些或全部来辅助细化或验证源分离。
BSS 302可以任选地实现机器学习或其他人工智能,并且可以响应于训练数据而针对特定部署的环境自适应地训练和调谐人工智能算法。BSS 302可以应用任何适当的人工智能算法,包括基于DNN、机器学习等的算法,以针对特定环境进行调谐或调整。例如,BSS302可以实现卷积时域音频分离网络,其包括深度机器学习框架,诸如Conv-TasNet,或者在时域中操作的多尺度神经网络,诸如Wave-U-Net。训练数据可以包括记录的口语单词(例如,LibriSpeech,其包括约1000小时的16kHz口语英语)和/或组织的噪声样本(例如,FSD50K,其包括人类标记的声音事件的数据集)的公开可用的语料库。BSS 302可以另选地或附加地训练由音频处理系统121检测到的数据,该数据可以被检测并即时地被用作训练数据,或者被存储并在稍后时间被访问,以训练、再训练或微调神经网络或其他机器学习或AI模型。
虽然在所示的实施方案中盲源分离器302定位在AEC 301之后,但是在其他实施方案中盲源分离器302定位在AEC 301之前。
对源进行分类
源分类器304接收由BSS 302分离的源信号,并且被配置为对源进行分类或以其他方式进行区分或归类。例如,参考图3C,源分类器304可以将用于麦克风140 1-n中的每个麦克风的分离源312_1-312_n分类成不同分组或类型的源。例如,在所示的实施方案中,源分类器304将分离源312_1-312_n分类成语音点源322(例如,房间或其他环境中的单独说话者、输出语音内容的扩音器)、非语音点源324(例如,狗吠、咯咯作响的空调通风孔)和扩散源326(例如,扩散风扇或空调背景噪声、混响、残余回波)。虽然示出了某些分组的分离源,但是可以根据具体实施以各种另选方式对源进行归类/组织。
所示的源分类器304包括扩散/点源检测器321、语音活动检测器320(其可以是人工智能VAD(AI VAD))、语音源分类器327、扩散源分类器329、非语音源分类器331,以及事件活动检测器(EAD)325(其可以是人工智能EAD(AI EAD))。
扩散/点源检测器321被配置为处理成组分离源信号312_1-312_n,并且检测这些源中的哪个源是点源并且哪个源是扩散源。在一些实施方案中,扩散/点源检测器321确定如果在多个麦克风140上检测到具有类似振幅的相同源,则该源是扩散源,或更可能是扩散源。另一方面,如果在多个麦克风140上检测到具有显著不同振幅的源,则扩散/点源检测器321可以将该源识别为点源,或识别为更可能是点源。根据实施方案,可以使用各种其他算法或因素来确定是点源还是扩散源。
VAD 320可以被配置为处理所检测到的点源,并确定哪些是语音源并且哪些不是语音源。例如,在某些实施方案中,VAD 320:1)诸如经由频谱减法来应用降噪,2)逐段或逐帧地识别输入信号上的特征,并且3)诸如在值超过阈值时对每段应用分类规则以识别语音或非语音内容。
语音分类器327可以被配置为根据一些实施方案将语音源进一步分类成更细粒度的分类(例如,男性语音与女性语音、成人与儿童语音、可理解的语音与不可理解的语音声音,诸如婴儿哭声)。在一些实施方案中,语音分类器327可以通过分析所检测到的语音源音频内容并将其与已知语音音频样本或某些类型的语音的已知特性(例如,与已知音高、音调或男性、女性或儿童语音的频率值或值范围)进行比较来整体或部分地执行分类。
扩散源分类器329可以被配置为处理由扩散/点源检测器321提供的扩散源信号,并且将扩散源中的每个扩散源分类成不同类型或类别(例如,残余回波、混响等)。在一些实施方案中,扩散源分类器329可以通过分析所检测到的扩散源音频内容并将其与各种扩散源的已知音频样本或与某些类型的扩散源的已知特性(例如,与不同扩散源的音高、音调或频率)进行比较来整体或部分地执行分类。
非语音分类器331可以被配置为处理由VAD 320提供的非语音点源,并将非语音点源分类成不同类型或类别(例如,键入、纸张起皱、音乐、狗吠等)。在一些实施方案中,非语音源分类器331可以通过分析所检测到的扩散源音频内容并将其与各种非语音点源的已知音频样本或与某些类型的非语音点源的已知特性(例如,与不同非语音点源的音高、音调或频率)进行比较来整体或部分地执行分类。例如,非语音源分类器331可以查询已知非语音数据样本数据库并将其与所检测到的非语音点源内容的样本进行比较。非语音源分类器331输出经归类的非语音源作为一组经分类的非语音源324。
事件活动检测器(EAD)325可以被配置为处理由非语音分类器331提供的非语音源,并且检测可以是特定音频触发器或声音签名的一个或多个“事件”。系统100然后可以基于所检测到的事件而采取动作或使得采取动作。作为一个示例,EAD 325可以检测窗玻璃破裂的声音,这可以触发混合器/控制引擎127启动联网手机以向执法机构进行自动呼叫,或者引起一些其他类型的警报或动作。作为另一示例,EAD 325可以检测来自音频源的声音何时超过相对音量阈值,以便显著地改变声学环境,诸如在窗外景观美化者打开了吹叶机或割草机的情况下。混合器/控制引擎127可以通过命令扩音器150中的一个或多个扩音器增加音量,或者通过向麦克风140发出调整灵敏度的命令来进行响应。作为另一示例,EAD 325可以检测咳嗽,并且实现机器学习或其他AI以分析咳嗽,诸如检测特定类型的疾病。在一些实施方案中,EAD 325检测门打开的声音,并且作为响应,混合器/控制引擎127命令部署的设备110采取一个或多个动作以开始会议(例如,开始记录音频/视频,开始显示视频和捕获/再现视频或音频等)。
参考图3A和图3C,如图所示,回波消除器301可以从扩散源分类器329接收残余回波消除信号,其可以用于调整/改进回波消除。例如,AEC 301可以处理残余回波反馈以改进非线性回波消除。更一般地,对于数字信号处理或音频处理块(例如,噪声抑制、噪声选通、自动混合、均衡、基于说话者的个性化、压缩等)中的任一者,可以基于由盲源分离器302分离的信号来确定残余、信噪比或其他性能参数并将其输入到数字信号处理或音频处理块中以改进性能。
源分类器304中的块中的任何块(扩散/点源检测器321、VAD 320、语音源分类器327、扩散源分类器329、非语音源分类器331和/或EAD 325)可以应用机器学习或其他AI算法,包括基于DNN、机器学习等的那些算法,以针对特定环境进行调谐或调整或其他。在这种情况下,支持AI的模块可以处理训练数据,以例如针对特定部署的环境对算法进行调谐。
训练数据可以包括公开可用的数据语料库。例如,VAD 320和语音源分类器327中的一者或两者可以在记录的口语单词(例如,LibriSpeech,其包括约1000小时的16kHz英语口语)的数据库上训练。扩散/点源检测器321、扩散源分类器329、非语音源分类器331和EAD中的一些或全部可以在组织的噪声样本的数据库(例如,FSD50K,其包括人类标记的声音事件的数据集)上训练。此外,任何块可以另选地或附加地训练由音频处理引擎125检测到的数据,该数据可以被检测并即时地被用作训练数据,或者被存储并在稍后时间被访问,以训练、重新训练或微调神经网络或其他机器学习或AI模型。
应当理解,图3C的源分类器304的每个操作块320、321、327、325、329、331的输出可以包括数据流,该数据流包括以任何适当的方式组织的任何数量的分类源。例如,输出流可以通过检测麦克风140和/或检测的地点(例如,会议室、远程连接的智能手机或笔记本电脑等)来组织源。
语音源处理——扫描、选择和标测源
图3D示出了根据某些实施方案的语音源处理器306的详细视图。语音源处理器306从源分类器304接收对应于语音点源322的信号。语音源处理器306包括语音生物测定引擎330,其可以被配置为将点语音源流322标测到音频环境中的唯一说话者,以及其他功能。语音生物测定引擎357可以生成一个或多个房间(诸如图2C的环境200c的房间200d、200e)中存在的说话者的流动列表,并且通过处理由源分类器304提供的点语音源流322来识别在任何给定时间哪个发言人正在说话。
语音生物测定引擎330可以向每个发言人分配唯一声学语音签名。例如,声音生物测定引擎330可以执行登记和验证阶段,以记录和提取来自不同说话者的声纹的多个特征,并且然后将点语音源流322中的分离源中的语音样本与先前创建的声纹进行比较。语音样本可以与多个声纹进行比较以确定最佳匹配,诸如存储在语音指纹储存库359中的存储器中的声纹,其可以存储在存储装置121、网络存储装置131或其他适当的位置中。在一些实施方案中,语音生物测定引擎357可以实现文本相关识别,诸如通过使用普通通行短语或其他提示来登记和验证说话者,或者实现文本无关识别,其中利用不依赖于说话者的有意识知识或登记提示的语音识别算法来识别发言人。根据实施方案,语音生物测定引擎357可以应用各种不同的AI或非AI算法,包括频率估计、马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、线性预测编码(LPC)等。余弦相似性可以用于将语音与声纹进行比较。
生物测定引擎357可以利用生物测定信息来补充点语音源流322。例如,生物测定引擎357可以在点语音源流322中插入标记,其中每个标记指示与增强的点语音源流322中的源相关联的生物测定识别的说话者。
语音源处理器306可以包括语音命令处理引擎332,其被配置为处理补充点语音源流322,例如以对语音源执行AI“唤醒词”扫描,并选择和标测用于语音命令服务的源。例如,语音命令处理引擎332可以识别预先确定的唤醒词的话语,从唤醒词之后说出的语音中提取命令以用于控制语音命令服务,诸如基于云的语音命令服务(例如,Amazon Alexa、Siri等),且/或将对应的元数据嵌入到点语音源流322。语音命令处理引擎332可以附加地格式化点语音源流322以与外部语音命令服务兼容。
语音源处理器306还可以包括转录处理引擎334,该转录处理引擎被配置为扫描、选择和标测用于转录的主要语音源。例如,针对补充点语音源流322中的语音内容,转录处理引擎334可以识别并处理流中与说出语音内容的说话者相对应的标记,且/或将点语音源流322转换为与转录处理软件兼容的格式。以这种方式,本地或远程音频转录软件可以处理音频流以生成嵌入了准确识别每个说话者的信息的转录。
语音源处理器306可以附加地包括语音通信处理引擎336,该语音通信处理引擎可以处理补充点语音源流322以扫描、选择和标测语音通信的语音源。例如,第三扫描/标测块336可以识别并输出语音源内容,该语音源内容将被发送到第二网络信道139以被再现并经由扩音器150、第三方设备150或其他部署的设备110可听见地广播给环境中的用户。语音通信处理引擎336还可以过滤掉某些其他语音内容。作为示例,在电话会议用户说出唤醒词之后说出命令(例如,“Alexa,调高音量”)的情况下,语音命令处理引擎336可以从发送到网络信道139以经由扩音器150、第三方设备180或其他部署的设备110中的一者或多者广播给其他用户的语音数据中排除该话语。语音源处理器306可以附加地重新格式化点语音源流322以与外部语音通信协议或应用兼容。
语音源处理器306还可以包括自然语言处理器(NLP)348,该自然语言处理器可以被配置为将基于规则的人类语言建模与机器学习组合以处理并“理解”语音源内容。NLP348可以执行各种NLP任务,包括语音转文本、部分语音标记、词义消歧、命名实体识别、情绪或情感分析等。基于哪个生物测定识别的说话者说出了语音,NLP 348可以应用定制NLP算法来执行这些和其他任务。例如,NLP 348可以检测与每个识别的说话者相关的情绪和情感信息。作为一个示例,NLP 348可以被配置为处理来自给定说话者的语音源内容以检测情绪或情感,并且将指示情绪/情感的元数据传递到转录语音服务360,该转录语音服务可以使用情绪/情感元数据将上下文信息添加到转录的语音(例如,John[开玩笑地说]:“Mike,你是最烂的!”)。或者,作为另一示例,在电话会议中,混合器/控制引擎127可以响应于由NLP348检测到的说话者的情绪,以使得显示在第三方设备180或环境100中的其他显示器上的化身改变外观,反映出说话者的情绪。
语音源处理器306中的引擎中的任何引擎(语音生物测定引擎330、语音命令处理引擎332、转录处理引擎334、语音通信处理引擎336和/或NLP 348)可以应用机器学习或其他AI算法,包括基于DNN、机器学习等的那些算法,以针对特定环境进行调谐或调整或其他。在这种情况下,支持AI的模块可以处理训练数据,以例如针对特定部署的环境对算法进行调谐。例如,声音生物测定引擎330可以实现机器学习以改进对唯一发言人的识别,并且语音命令处理引擎332可以实现机器学习或其他AI以改进唤醒词检测。
训练数据可以包括公开可用的数据语料库或定制的数据集。例如,语音生物测定引擎330、语音命令处理引擎332、转录处理引擎334、语音通信处理引擎336和NLP 348中的一者或多者可以在包括记录的声音指纹的数据或来自不同组发言人(例如,男性、女性、儿童、成人等)的其他片段上训练。此外,任何块可以另选地或附加地训练由音频处理引擎125检测到的数据,该数据可以被检测并即时地被用作训练数据,或者被存储并在稍后时间被访问,以训练、重新训练或微调神经网络或其他机器学习或AI模型。
虽然语音处理器306将语音点源流322例示为由各种引擎330、332、334、336、348按顺序处理的单个流,但是在一些实施方案中,引擎中的一个或多个引擎可以输出独立流。例如,语音命令处理引擎332可以输出独立流以用于传输到语音命令服务358,并且转录处理引擎334可以输出独立流以用于传输到转录处理服务360。这些独立流可以由音频信号处理单元308接收并处理,或者直接转发到适当的服务114,具体取决于实施方案。
源定制音频信号处理
图3E示出了音频信号处理单元308的实施方案,该音频信号处理单元通常可以被配置为将音频信号处理应用于源分离数据流322、324、326,其中可以基于与源相关的信息对信号处理操作中的一些或全部进行定制、优化和/或个性化。例如,音频信号处理单元308可以被配置为基于源的类型或基于说话者的标识或另一源的标识而将定制数字信号处理或其他定制处理应用于音频内容。所示的音频信号处理单元308包括自动增益控制器(AGC)342、均衡器(EQ)344、噪声抑制器345和压缩器346。
AGC 342可以将闭环反馈放大或开环前馈放大应用于所接收的输入流中的音频内容,包括点语音源322、非语音点源流324和扩散源流326,以保持期望的信号振幅或对语音内容进行概述,诸如以均衡来自不同源的平均音量。AGC 342可以被配置为例如逐个发言人地(例如,针对每个唯一发言人的不同定制曲线)或者基于源的类型(例如,针对人类语音与非语音源的不同定制曲线)应用定制反馈控制。
EQ 344例如通过调整音频内容内不同频带的音量来均衡音频内容。EQ 344可以被配置为例如逐个扬声器地(例如,针对每个唯一扬声器的不同定制曲线)或者基于源的类型(例如,针对人类语音与非语音源的不同定制曲线)应用自定义均衡曲线。针对每个生物统计识别的发言人应用特定EQ设置可以改进声音质量,因为每种语音是唯一的,并且在音高、音色和音调上有差异。
噪声抑制器345可以实现噪声选通、频谱掩蔽或其他降噪技术,以降低源流322、324、326中的噪声。噪声抑制器345可以根据源(例如,逐个扬声器地(例如,针对每个唯一扬声器的不同定制曲线))或基于源的类型(例如,针对人类语音与非语音源的不同定制曲线)实现定制噪声抑制算法。
压缩器346可以对音频内容应用动态范围压缩。例如,压缩器可以根据声音源应用定制的动态范围压缩算法。可以基于源的类型(例如,语音源、非语音源、扩散源)或特别识别的唯一源(例如,生物测定识别的说话者1与生物测定识别的说话者2、噪声源1与噪声源2)应用不同的压缩算法。
AGC 342、EQ 344、噪声抑制器345和DR压缩器350可以根据实施方案以通常任何顺序布置,并且这些块中的任何块可以实现机器学习或AI算法,其可以处理训练数据以针对部署的环境进行调谐。
现在参考图3A和图3E,音频信号处理单元308可以输出一个或多个输出流,包括用于传输到混合器/控制引擎127的流,其可以包括语音点源流322、非语音点源流324和可以输出到混合器/控制引擎127的扩散源流326。所示的音频信号处理单元308附加地包括数据流提取器352,该数据流提取器可以提取、格式化和/或封装附加的数据流,诸如用于传输到服务114或其他部件。这些数据流可以包括用于云语音命令服务358、转录处理服务360和/或AI处理服务366的流,例如,其可以是系统100的一部分或远程的(例如,第三方云服务)。在一些其他实施方案中,语音源处理器306将这些流中的一个或多个流(例如,语音转录流或语音命令流)直接转发到服务114,并且在这种情况下,这些流不首先由音频信号处理单元308处理。
声音转录流可以包括由转录处理引擎334生成的内容。传输到AI处理服务366的数据流可以由AI处理服务366用于调谐或训练AI模型,该模型可以在从多个音频/视频系统100接收的聚合数据上训练。作为示例,分离的、分类的、非语音源内容可以由AI处理服务366用于训练AI模型(例如,基于神经网络的模型)以识别并抑制噪声(例如,风扇、键入、纸张起皱等)。在一些实施方案中,音频处理引擎125执行机载AI处理,并且可以抑制部署的环境特有的噪声。语音命令源流可以包括唤醒词、由授权个人说出唤醒词的指示、或者从语音源处理器306的语音命令处理引擎332中提取的其他语音命令。
一些语音命令系统被设计为响应于仅由选定的个人或一组个人说出的唤醒词。因为音频处理引擎125采用盲源分离、语音活动检测、生物测定和/或其他描述的技术,所以音频处理引擎125不仅可以可靠地提取唤醒词,而且可以可靠地提取说出唤醒词的特定源,从而减少误报。在检测到唤醒词已由授权的说话者说出时,音频处理引擎125可以通知语音命令服务358唤醒词已由授权的说话者说出。可以向语音命令服务358发出的命令的一个示例是“打开会议室”。在接收到此类命令时,语音命令服务358可以作出响应,通过向系统100发出适当的命令,使得混合器/控制引擎127命令部署的设备110中的任一个设备激活,诸如以启用麦克风140、扩音器150、相机160、用户接口或其他控制设备170、显示器、投影仪或麦克风系统100的其他部件。作为另一示例,系统100可以被配置为当讲师发出“开始课程录制”的命令时开始在演讲厅中进行记录,同时忽略其他语音。在这种情况下,音频处理系统121通知语音命令服务358已说出唤醒词,并且语音命令服务358可以作出响应,通过向系统100发出命令以使得混合器/控制引擎127命令一个或多个麦克风140和相机160激活,并且使得混合器/控制引擎127在传输到部署的设备110以用于通过第二网络信道139广播的广播流中和/或在用于存储的记录流中包括/放大与讲师的语音相对应的分离音频源,同时排除/抑制由其他说话者说出的语音。
检测信噪比和到达方向
参考图3A,音频处理引擎125可以包括方向性引擎317和信号强度引擎338。
方向性引擎318可以处理由BSS 302提供的分离源信号312_1-312n;由源分类器304输出的分类点源流322、324;由语音源处理器306输出的增强语音源流322;或由音频信号处理单元308输出的经处理的点源流322、324,以确定与点源相关的方向信息。例如,所确定的方向信息可以包括指示声音源在麦克风140处或在麦克风140中的单独麦克风元件M1-Mn处的到达角(例如,高度和方位角)的角度。根据实施方案,方向性引擎318可以使用麦克风元件M1-Mn之间的时间或相位延迟来确定所提取的源的到达方向。
由方向性引擎318生成的DOA或其他方向性信息可以用于改进性能。例如,响应于方向性信息,混合器/控制引擎127可以调整提供给扩音器150和其他部署的设备的输出流的合成,或者混合器/控制引擎127可以控制部署的设备的操作(例如,控制一个或多个相机160的物理或数字摇摄/跟踪,以摇摄到由BSS 302提取的特定说话者或其他源)。或者,在音频处理系统101包括波束成形器的情况下,混合器/控制引擎127可以响应于DOA信息而控制麦克风140将波束集中在说话者或其他提取的声音源上,或者禁止波束检测来自给定方向的声音,诸如以避免拾取来自噪声源的声音。方向性信息也可以用于测绘出房间中的各种源的位置。下面将更详细地讨论方向性信息的使用。
信号强度引擎338可以确定源中的一些或全部的实际或估计SNR或其他信号强度/质量度量。例如,信号强度引擎338可以使用所检测到的信号和噪声电压的均方根来计算SNR,例如,使用公式SNR=20*log10(Vrms信号/Vrms噪声)或一些其他适当的公式。虽然所示的实施方案计算由源分类器304输出的分类源流322、324、326的SNR,但是信号强度引擎338可以另选地或附加地计算由BSS 302输出的源流312_1-312_n或由语音源处理器306或音频处理单元308输出的源流322、324、326的信号强度。
信号强度引擎338输出所确定的信号强度的指示,其可以由系统100中的各种部件使用,包括由音频处理引擎125中的部件(例如,BSS 302、语音源处理器306、源分类器304和音频处理单元308)、由混合器/控制引擎127或由听觉场景分析器129使用。例如,混合器/控制引擎127可以响应于测量的信号强度信息来调整合成输出音频流,和/或控制部署的设备110的操作,诸如麦克风140和扩音器150。作为一个示例,听觉场景分析器129可以使用信号强度信息来计算检测麦克风140与声音源之间的距离或估计距离。下面将更详细地讨论信号强度信息的使用。
使用分离源内容的智能混合和设备控制
图3F示出了混合器/控制引擎127的示例,该混合器/控制引擎通常可以接收源分离/分类的音频流322、324、326和其他数据(例如,信号强度和方向数据),并且基于对所接收的流和数据的处理而协调音频环境的操作。
例如,如图所示,混合器/控制引擎127可以接收经分离和分类的声音源,并且将它们一起混合成用于扩音器150、第三方设备180(例如,智能手机、笔记本电脑等)和环境中的其他音频输出设备中的每一者的独立定制输出流。混合器/控制引擎127将混合输出流提供给第二网络信道139,诸如用于流式传输到一个或多个联网会议室或其他系统中部署的设备110,以用于在扩音器150、联网手机等上回放。混合器/控制引擎127可以类似地基于从相机160或第三方设备180接收的数据而生成视频输出流,例如用于流式传输以在部署的设备110中的一个或多个设备上显示,诸如笔记本电脑、智能手机或其他第三方设备180或独立显示器,诸如会议室200d、200e中的显示器208a-208b。
关于音频输出流的合成,混合器/控制引擎127可以使用本文描述的技术中的任一种逐个源地将音频内容包括在输出流中,诸如以包括和/或放大某些期望源(诸如一个或多个语音源)、以排除或衰减某些其他源(诸如噪声源)。
混合器/控制引擎127还可以基于对经分离和分类的源、信号强度数据和/或方向数据的处理而控制部署的设备110。例如,混合器/控制引擎127可以生成命令流,这些命令流通过第二网络信道139被传送以用于控制扩音器150、麦克风140、相机160、控制设备170和/或第三方设备180。
下面将进一步详细讨论混合器/控制引擎127编排音频环境的操作。
示例性环境储存库
图4A至图4C示出了由音频处理系统100生成和维护的数据的示例。图4A示出了听觉环境或听觉场景表400的示例,包含与其中部署有音频系统100的听觉环境相关的信息。环境表400可以是关系数据库,具有指向包括图4B的源表402和图4C的麦克风表在内的其他表的指针,以及指向环境中的各个地点的地图的指针表(未示出)。数据库及其组成表400、402、404可以存储在例如图1和图3A的环境储存库112中,并且可以由听觉场景分析器129或系统100的其他适当的部件生成。
环境表400包括用于环境中的每个地点的行,每行由地点索引V1-Vn来进行索引。地点类型字段指定每个列出的地点的类型(例如,会议室、远程连接、剧院、音乐厅、演讲厅、户外区域、小房间、大房间等)。地点ID字段包括唯一地识别地点的信息,并且可以是字母数字串或其他适当的标识符。地点地图/地形图字段包括指向地点的存储的地图或地形表示的指针,该地图或地形表示可以包括地点的3D表示。地点字段中的Mics指定在每个地点中部署哪些麦克风140,并且包括指向麦克风表404中针对每个列出的麦克风140的条目的指针。在地点字段中检测到的源包括由系统100在环境中检测到的源的流动列表,并且包含指向源格402中针对每个列出的源的条目的指针的列表。
所示的表格包括两个会议室地点(NY会场和SF会场)和远程连接,诸如连接到雇员1的笔记本电脑的web会议连接。
如图4B所示,源表402包括用于在环境中识别的每个源的行,每行由源索引S1-Sn来进行索引。指定源的类型或分类的源类型字段,以及指定子类型或子类别的源子类型。这些字段可以由听觉场景分析器129利用由图3A和图3E的源分类器304、BSS 302、语音源处理器306或音频信号处理器308的任何组合确定的信息来填充。
唯一个人ID字段包含唯一地识别所识别的说话者的信息,诸如由音频处理引擎125的语音源处理器306的生物测定引擎330识别的说话者,并且可以包括识别该个人的字母数字串。例如,该字段中的条目可以指向雇员数据库。唯一非个人ID字段包含唯一地识别非个人源的信息,并且还可以包括字母数字串。源位置字段包括指定其中已检测到所识别的源Sn的地点的条目,并且可以包括指向地点表400的指针。检测麦克风字段指定哪些麦克风140已检测到源,并且包括指向麦克风表404的针对每个检测麦克风140的指针。
源位置字段包括指定源在环境内的检测位置的信息。位置信息可以是相对信息,并且在所示的示例中包括距每个检测麦克风140的距离和极角,而在其他实施方案中,位置信息附加地或另选地包括地点内的源的三维x、y、z坐标位置,例如,参考地点地图。
所示的源表402列出了五个源:1)由位于第一地点Va(例如,会议室)内的成人男性雇员1说出的语音(S1);2)由位于雇员1所在的第一地点Va中的雇员1的智能手机生成的声音(S2)(例如,铃音、音乐等);3)由第二地点Vb内的成人女性雇员2生成的键入声音(S3);4)由第二地点Vb内的雇员2说出的语音;以及5)在第一地点Va中检测到的扩散交通噪声。
图4C的麦克风表404包含用于环境中的每个麦克风的行,每行由麦克风索引M1-Mn来进行索引。Mic类型字段指定麦克风的类型。虽然所示的实施方案包括单个Mic类型字段,但是多个字段可以用于提供更细粒度的信息,诸如其中第一字段定义mic类别(例如,阵列、单个元件等),并且附加字段定义附加信息,诸如子类型、制造商信息、型号等。
放置类别字段指定放置位置的类型或类别(例如,天花板、墙壁、笔记本电脑、讲台/桌),并且可以由音频处理系统121用于处理由麦克风140检测到的声音。放置地点字段指定麦克风140被放置在哪个地点Vn中,并且包括指向地点表400中的对应条目的指针。地点位置字段指定麦克风140在地点内的位置,并且可以包括麦克风相对于存储在地点地图数据库中的地点地图的x、y、z坐标。检测到的源字段包含由麦克风140检测到的源的流动列表,并且可以包括指向源表402中的对应条目的指针。麦克风表402还可以包含由方向性引擎318生成的方向信息,以及由信号强度引擎338生成的信号强度信息。源到达方向字段存储在相应麦克风140处针对每个源检测到的到达方向,并且检测到的源SNR/水平字段存储在相应麦克风140处检测到的每个源的SNR或信号幅度/能量水平。
所示的麦克风表404列出了四个麦克风,包括:1)第一类型的第一阵列麦克风M1,其放置在第一地点Va中的天花板上;2)第一类型的第二阵列麦克风M2,其放置在第二地点Vb中的墙壁上;3)第二类型的阵列麦克风M3,其集成在第三地点Vc内的笔记本电脑中,其中笔记本电脑可以经由网络会议远程连接到第一Va和第二地点Vb;以及4)安装到第一地点Va内的讲台或桌上的单元件麦克风M4,其例如可以由演讲者使用。
听觉场景分析——分析场景并填充环境储存库
现在参考图3A和图3G,听觉场景分析器129可以被配置为处理一组初始化数据372,以便生成其中部署有系统100的听觉“场景”的初始表示374。分析器129可以进一步处理由系统100检测到和/或生成的检测到的数据376,以动态地补充并更新初始听觉“场景”,并且输出共同表示听觉场景的当前状态的更新的听觉场景数据378。听觉场景数据378可以被组织成数据库,该数据库可以包括类似于图4A至图4C的那些的表。听觉场景数据378可以由音频处理系统121以各种方式使用以改进性能和用户体验。
由分析器129用于构造听觉场景的初始表示374的初始化数据372可以在音频/视频会议或其他事件开始之前提供给分析器129,诸如在设置/配置期间,例如,通过管理员的手动输入,或者在由处理核心120实现的自动发现过程期间。例如,听觉场景分析器129可以在环境部署或配置时利用初始数据填充表400、402、404,诸如安装者或其他管理员与系统100所执行的管理应用的用户界面交互以添加针对每个地点的条目,利用每个地点的地图填充环境表400,为每个地点分配地点ID,为每个安装的麦克风140填充地点字段中的Mics,等等。
如图3G所示,初始化数据372可以包括初始地点数据。地点可以是音频环境中的不同物理和/或虚拟位置。在公司音频/视频会议中,地点可以包括一组联网的会议室、笔记本电脑/智能手机远程连接、联网电话连接等。在体育场中,地点可以包括户外球场/赛地或其部分、餐馆、私人包厢、走廊/过道/走道等。初始地点数据可以包括图4A的环境表400中所示的地点信息中的一些(例如,地点列表,其中每个地点具有索引、类型、ID、初始地图/地形图、地点中的麦克风140和/或其他部署的设备110的初始列表等)。管理员可以与GUI交互以输入地点、地点类型、地点ID/名称和/或部署在每个地点中的麦克风的初始列表,可以向系统100提供一个或多个数字地点地图,和/或提供关于地点的其他物理信息(例如,实际或相对大小[例如,小、中、大房间、室内或室外环境等)。根据实施方案,系统100可以在自动发现过程期间填充初始化数据372中的至少一些,诸如以检测远程连接和/或麦克风140或安装在每个地点中的其他部署的设备110。
初始化数据372还可以包括与部署的设备110相关的初始数据,该初始数据可以手动输入或自动发现,具体取决于信息的类型和实施方案。这可以包括图4C描绘的麦克风表404中示出的信息中的一些,诸如部署的设备的列表、类型(例如,麦克风、扩音器、相机、显示器等)、子类型(例如,阵列麦克风、单元件麦克风、高音扩音器、低音扩音器、全范围扩音器等)、关于特定设备的更细粒度的信息(例如,制造商/品牌、型号、技术规范/能力,诸如相机传感器分辨率、扩音器最大分贝输出、麦克风灵敏度等)、设备放置信息(例如,放置在墙壁、天花板、讲台、集成笔记本电脑相机或麦克风等)、放置地点和/或地点内的位置。在一些实施方案中,部署的设备110具有GPS收发器或允许电子地确定设备110在环境内的位置的其他功能。系统100可以询问部署在每个地点中的麦克风140,以填充图4C的表404的地点字段中的Mics中的信息中的一些或全部。
可以使用各种其他初始化数据372。例如,在所示的实施方案中,初始化数据372包括参与者信息,该参与者信息可以包括预期参与或实际参与音频/视频会议或其他事件的人的列表,以及关于那些参与者的信息。初始参与者信息可以包括已经RSVP过、登记过和/或被邀请出席活动的预期参与者的列表,以及与那些参与者相关的信息(例如,工作状态或与主办公司或组织的其他关系、活动中的角色[例如,主发言人,授权发言人,非参与者组织者或支持人员],预期个人出席活动的地点等)。
如所指示的,输入数据还包括检测到的数据376,其可以由分析器129使用以动态地更新和丰富听觉场景表示。检测到的数据376可以包括由系统100实时检测到/生成的任何数据,或者由系统100先前检测到/生成并存储的数据,例如从处理核心120本地的存储装置123或网络存储装置131访问的数据。检测到的数据376可以包括但不限于:分离源流数据(例如,语音点源322、非语音点源324、扩散源326)、信号强度数据(例如,来自信号强度引擎338的SNR数据)和方向数据(例如,来自方向性计算器318的DOA或其他方向信息)。例如,检测到的数据可以包括由音频处理引擎125或混合器/控制引擎127的部件中的任何部件输出的数据。除了音频之外,检测到的数据还可以包括其他类型的检测到的数据,包括例如由相机160捕获的视频数据。
如图所示,分析器129处理初始听觉场景表示和检测到的数据376,以生成听觉场景输出数据378,其可以表示听觉场景的更新或当前状态。
由听觉场景分析器129生成的听觉场景数据378可以包括各种信息,并且在所示的实施方案中,其包括更新的地点数据、更新的部署的设备数据、更新的参与者数据和音频源数据。
关于地点数据,分析器129可以基于由音频处理引擎125执行的源分离和分类来更新地点数据,以添加在每个地点中检测到的音频源的列表,如图4A的环境表400中所示。分析器129可以动态地生成、更新、补充或细化地点地图,诸如通过处理由麦克风140检测到的源分离音频数据或对由相机160检测到的视频执行图像处理以确定房间或其他地点中的对象/遮挡(例如,桌、墙壁等)的存在。此外,管理员可以向系统100提供包含地点的初始结构地图的文件,并且系统100可以在其“学习”关于该地点的信息时更新和细化该地图,诸如通过处理由麦克风140检测到的声音,或者通过执行由相机160收集的图像处理数据,以识别环境内的附加结构、遮挡等。
关于源数据,分析器129可以处理由音频处理引擎125提供的源流数据、信号强度和/或方向数据,以维护音频环境中的源的列表和关于源的各种信息。例如,分析器129可以通过处理源流数据来填充图4B的源表402的一些或全部。
分析器129还可以生成更新的部署的设备数据,该更新的部署的设备数据可以包括图4C的麦克风表404中的任何信息的新的或更新的值。例如,分析器129可以通过处理方向数据和信号强度数据来填充麦克风表404的源到达方向和检测到的源SNR/水平列,并且可以基于源流数据而填充检测到的源列。
分析器129还可以生成更新的参与者信息。例如,分析器129可以通过处理源流数据来识别环境中生物测定确认的说话者的存在,从而检测参与者的存在,并且相应地更新或细化初始参与者信息。场景分析器129可以例如通过保持在时间窗口内(例如,在最后1、5或10分钟内)发言的说话者的流动列表来跟踪会议室或其他环境中的唯一说话者的数量。
听觉场景分析——位置跟踪
听觉场景分析器129或其他适当的部件可以进一步处理来自方向性引擎318的方向性信息和来自音频处理引擎的语音或非点源数据流322、324,以跟踪系统100中的一个或多个点音频源的位置。
例如,场景分析器129可以将由语音源处理器306添加到语音点源数据流322的语音识别信息与从方向性引擎318接收的语音源到达方向信息和/或来自信号强度引擎338的信号强度指示进行组合,以计算并跟踪唯一说话者在地点内的位置。在一些实施方案中,场景分析器129使用所接收的DOA和SNR来计算相对于麦克风140的源位置,并且然后通过将源到麦克风140的相对位置与地点内的麦克风位置(图4C的地点位置)进行比较来识别源在地点内的位置。以这种方式,场景分析器129可以生成位置信息以动态地跟踪说话者或其他点源在房间或其他环境内的移动或位置。场景分析器129可以为每个说话者或其他点源生成位置和/或移动信息(例如,相对于麦克风的方向、环境内的坐标、移动的速率/方向等),其可以由音频/视频系统100用于不同目的。此类位置信息可以在图4B的源表402的源位置列中更新。
此外,位置信息可以用于将说话者从切换麦克风140“切换”到接收麦克风140。切换可以通过使切换麦克风静音并使接收麦克风解除静音来实现,其中静音和解除静音可以通过混合器/控制引擎127调整输出流以去除与由切换麦克风140检测到的说话者相关联的分离语音内容并且添加与由接收麦克风140检测到的说话者相关联的分离语音源内容来实现。或者静音和解除静音可以通过混合器/控制引擎127命令切换麦克风140进入静音模式并且命令接收麦克风140激活来实现。在其他具体实施中,切换可以通过混合器/控制引擎127在输出流中逐渐减少来自切换麦克风140的说话者的语音源内容的贡献同时在输出流中逐渐增加来自接收麦克风140的说话者的语音源内容的贡献来实现,或者通过混合器/控制引擎127命令切换麦克风140逐渐降低灵敏度同时命令接收麦克风140逐渐增加灵敏度来实现。
位置信息还可以用于控制相机操作,例如,移动机动相机160或调整电子摇摄、倾斜、变焦(EPTZ)以随着说话者在房间内移动跟踪说话者,或者在相机160之间切换,诸如当主要说话者从第一相机160的视场移动到第二相机160的视场时。
除了来自方向性引擎318的到达方向信息之外,可以使用来自信号强度引擎338的信噪比估计或其他信号强度指示,以例如与位置数据组合,在相机160或麦克风140之间切换说话者。
分析器129通常可以使用位置信息来更新一个或多个地点地图,诸如存储在图4A的环境表402中的那些地图,以包括在地点内识别的源中的一些或全部的最新位置。分析器129可以随着说话者在整个环境中移动动态地更新位置。
源分离数据流结构和格式化
图5示出了根据某些实施方案的由系统100检测到的音频数据流的示例的时间顺序视图500,其中这些流已经被音频处理引擎125分离和处理。例如,音频处理引擎125或其他适当的部件可以构造源音频流502、504以包括以任何适当的方式封装/格式化的源分离有效载荷数据(音频信号水平或频率内容)和元数据(例如,时间戳、源指示符、生物测定标识符、源储存库241或表400、402、404中的任何信息)。例如,元数据通常可以由音频处理引擎125的各种部件在处理源流时即时地添加/嵌入到源流中。
所示的音频源流502、504包括由第一麦克风140(Mic 1)检测到的四个分离源流502和由第二麦克风140(Mic 2)检测到的四个分离源流504。这两个麦克风140(Mic 1和Mic2)具有重叠的覆盖区域,并且例如可以定位在相同房间内。例如,Mic 1可以是位于房间中接近第一说话者的阵列麦克风140,并且Mic 2可以是位于房间中接近第二说话者的阵列麦克风140。
音频处理引擎125将由Mic 1检测到的声音分离成四个独立音频数据流:1)由第一说话者说出的语音S1;2)来自第一说话者的智能手机的铃音S2;3)来自第二说话者的笔记本电脑的键入S3;4)由第二说话者说出的语音S4;以及5)扩散背景交通噪声S5。
Mic 1位于更靠近第一说话者而不是第二说话者的房间中,使得Mic 1检测到具有强信号水平的第一说话者的语音S1、具有强信号水平的铃音S2、具有中等信号水平的第二说话者的语音S4和具有弱信号水平的背景交通噪声S5(例如,通过墙壁/窗检测到的),但是离第二说话者不够近而不能检测到他们的键入声音S4。
Mic 2位于更靠近第二说话者而不是第一说话者的房间中,使得Mic 2检测到具有中等信号水平的第一说话者的语音S1、具有中等信号水平的铃音S2、具有中等信号水平的第二说话者的键入S3和具有强信号水平的第二说话者的语音S4,但是不检测背景交通噪声S5。
虽然为了说明的目的,图5将信号水平描绘为落入三个基本类别“弱”、“中等”和“强”,但是系统100可以提取和保持与所检测到的信号能量相关的各种更细粒度的信息(例如,平均信号功率、平均信号包络、信噪比等)。
如图所示,系统可以检测麦克风间延迟506、508、510,其中每个麦克风间延迟是Mic 1检测到源声音的时间与Mic 2检测到相同源声音的时间之间的时间段,反之亦然。例如,延迟506是在Mic 1检测到来自第一说话者的语音S1的时间与Mic 2检测到相同语音的时间之间的时段,延迟508是在Mic 1检测到来自第一说话者的手机的铃音的时间与Mic 2检测到铃音的时间之间的时段,并且延迟510是在Mic 2检测到来自第二说话者的语音的时间与Mic 1检测到相同语音的时间之间的时段。虽然在图5中未示出,但是麦克风内延迟也可以由系统100检测和跟踪,其指示来自分离音频源流的声音由麦克风内的第一麦克风元件检测到的时间与相同声音由相同麦克风内的第二麦克风元件检测到的时间之间的延迟。
虽然在图5中未示出,但是音频处理引擎125除了提取信号水平/能量差以及麦克风间或麦克风内时间延迟差之外,还可以提取其他信息,诸如麦克风140间或麦克风内相位差或检测到的音高。
音频处理引擎125可以在处理音频源流时使用所检测到的信号/能量水平信息和麦克风间或麦克风内延迟信息中的任一者。
现在将出于说明音频处理系统100的某些功能性的目的而描述若干示例性场景。
使用信号强度测量来分离语音和非期望噪声
作为示例性使用情况场景,参考图2C,第一房间200d中的麦克风140a检测由在房间200d前面的个人204a发出的语音和从靠近个人204g的智能手机212朝向房间200d的后面发出的同时铃音噪声。BSS 302将组合的检测到的信号分离成两个点源。源分类器304将两个分离源分类为点源(扩散/点源检测器321),将语音声音分类为由男性说出的语音(VAD320)(语音分类器引擎327),并且将铃音分类为非语音(VAD 320)和手机铃音(非语音分类器331)。语音源处理器306将该语音与声音指纹数据库359进行比较,并将该语音识别为是由雇员1说出的。音频处理单元308的块342、344、345、350基于源的识别而将定制处理应用于所识别的点源流。音频处理系统100可以附加地1)更新环境储存库112中的数据库以反映该处理,例如,以类似于参考图4A至图4C描述的方式,并且2)将元数据嵌入到源流中,包括识别源的元数据、信号强度信息和/或方向信息,例如以类似于参考图5描述的方式。
混合器/控制引擎127接收语音点源流(雇员1),提取并分析流中的元数据以确定它是期望的人类语音。例如,混合器/控制引擎127可以查询数据库以确定人类语音通常是期望的和/或雇员1是已知/授权的说话者。因此,混合器/控制引擎127通过第二网络信道139将语音内容流式传输到远端房间200e(相对于说话者204a的远端)中的扩音器150c。混合器/控制引擎127可以附加地将语音内容路由到近端房间200d(相对于说话者204a的近端)中的麦克风150a、150b中的一者或两者。混合器/控制引擎127类似地接收非语音点源流(铃音),提取并分析流中的元数据以确定其是作为不期望噪声的音调,并从递送到扩音器150a-150c的输出流中排除手机铃音。
混合器/控制引擎127可以附加地使用信号强度信息来改进听觉体验。例如,混合器/控制引擎127可以处理与近端房间200d中的麦克风140a-140d相对应的语音点源,以确定四个麦克风140a-140d中的每个麦克风正在检测由个人204a说出的语音。针对每个识别的检测麦克风140a、140b、140c、140d,信号强度引擎338可以计算SNR、估计SNR、或与个人204a的语音相关联的其他信号强度指示,其可以存储在环境储存库112中,诸如存储在类似于麦克风表404的表中和/或嵌入在类似于图5的数据流500的每个麦克风140的数据流中。基于所计算的信号强度,混合器/控制引擎127可以在到扩音器150a-150c的输出流中选择或强调(例如,放大)由具有相对高的信号强度的一个或多个麦克风140(例如,最靠近个人204a的麦克风140a)检测到的声音,和/或在输出流中取消选择和/或削弱(例如,抑制或消除)由具有相对低的SNR的一个或多个其他麦克风140(例如,最远离个人204a的麦克风140d)检测到的声音。
除了或代替音频混合器/控制引擎127调整输出流的合成,混合器/控制引擎127可以调整部署的设备110的操作以改进系统操作。例如,混合器/控制引擎127可以通过第二网络信道139发出调整麦克风140的操作的命令,诸如通过停用针对个人204a的语音具有相对低的信号强度的一个或多个麦克风140(例如,离个人204a最远的麦克风140d和/或离从个人204g的手机212发出的铃音最近的麦克风140b)或降低其灵敏度。此外,混合器/控制引擎127可以响应于信号强度测量而发出命令以控制扩音器150中的一个或多个扩音器的操作。作为示例,当铃音开始播放时,信号强度测量可以指示当铃音在近端房间200d中播放时由近端房间200d中的麦克风140a-140d检测到的个人语音SNR的暂时降低。作为响应,混合器/控制引擎127可以命令第一房间200d中的扩音器150a、150b在播放铃音时增加响度,从而暂时抵消铃音的影响。当铃音结束时,例如响应于所检测到的说话者204a语音的信号强度增加和/或响应于麦克风140a-140d不再检测到铃音,混合器/控制引擎127可以命令扩音器150a、150b返回到它们先前的响度水平。
在另一场景中,铃音或其他噪声源位于远端房间200e中。在这种情况下,混合器/控制引擎127可以在提供给扩音器150a-150c的输出流中选择或强调(例如,放大)来自由具有相对高的信号强度的一个或多个麦克风检测到的声音对说话者204a的语音的贡献(例如,房间200e中远离噪声源的麦克风140a-140d中的一些或全部,和/或在输出流中取消选择和/或削弱(例如,抑制或消除)来自由房间200e中靠近噪声源的麦克风140e、140f检测到的声音的贡献。混合器/控制引擎127可以附加地或另选地调整房间200e中的麦克风140e、140f的操作以抵消噪声源,诸如通过停用麦克风140e、140f或降低其灵敏度,和/或通过在存在噪声源时增加远端房间中的扩音器150c的音量,并且在不再存在噪声源时将音量返回到先前水平。这可以允许相对于房间噪声响度的一致的远端扬声器响度,从而改进收听体验。
虽然已经在期望的点语音源和不期望的蜂窝手机铃音点噪声源的上下文中描述了这些示例性场景,但是所描述的技术不限于这些特定噪声源。例如,可以针对其他点噪声源采取类似的方法,诸如真空吸尘器和/或由房间200d、200e中的任一者中的人发出的不期望的笑声。
基于检测区域使用方向性信息来处理源
在一些实施方案中,混合器/控制引擎127至少部分地基于方向性信息而将音频内容包括在输出流中。例如,混合器/控制引擎127可以基于由方向性引擎318提供的方向数据而接收每个分离源的DOA,并且基于DOA而将源一起分组到方向覆盖区域中。混合器/控制引擎127例如可以将落入第一DOA范围内的一个或多个源一起分组到第一区域中,将落入第二DOA范围内的一个或多个源一起分组到第二区域中,等等。混合器/控制引擎127然后可以逐区域地合成音频输出流。
仅作为一个示例,如果乐队、管弦乐队或其他演出人员正在音乐会地点的舞台上进行表演,则地点中的给定麦克风140的特定DOA范围可以被指定为对应于从舞台发出的声音。混合器/控制引擎127可以将具有指定区域内的DOA的源分组在一起,并且仅将那些源添加到音频输出流,诸如流到场地中的一个或多个扩音器150以用于回放的那些输出流和/或流到一个或多个智能手机或其他第三方设备180以用于实况流的那些输出流。
多Mic共存
当多个麦克风阵列140同时拾取单个说话者时,可能引起说话者水平由于抵消(降低的说话者水平)或加成(增加的说话者水平)而发生不可预测的变化。一些基于方向的解决方案依赖于针对每个麦克风仔细瞄准波束/波瓣以避免重叠。通过使用位置数据以及语音生物测定,音频处理引擎125可以识别唯一说话者、说话者相对于麦克风中的每个麦克风的相对位置,并且通过从远侧麦克风阵列140中消除或减少与单个说话者相对应的源分离内容来防止该说话者被远侧麦克风阵列140再次拾取。
音频处理引擎125可以使用来自SNR估计引擎338的SNR估计和/或来自位置信息数据库341的位置数据来确定要抵消哪些麦克风140。例如,当音频处理引擎125检测到多个麦克风阵列140拾取了第一生物测定识别的说话者的分离声音内容时,音频处理引擎125可以抵消或减少来自除了最靠近说话者或具有最高SNR的麦克风之外的所有检测麦克风的该说话者的内容。或者,音频处理引擎125可以基于位置、DOA和/或SNR利用权重而混合来自多个麦克风阵列的该说话者的内容。
对盲源分离信号的音频处理
图6详细示出了音频处理系统的一部分600,并且可以是例如图3A至图3E的音频处理引擎125的一部分。如图所示,固定或自适应AEC 301从麦克风元件M1-Mn接收到n个输入信号。输入信号中的每个输入信号包括混合源组合信号分量Scomb、回波分量E和噪声分量N。
AEC 301还接收参考信号(例如,远端信号),AEC 301在回波消除过程中使用该参考信号。AEC 301输出n个信号,每个信号包括组合信号分量Scomb、残余回波分量Eres和噪声分量N,该噪声分量通常可以包括任何不想要的信号。
分离器/分类器601将经回波消除的信号分离成n个独立源信号,各自包括分离源分量Sn和噪声分量N。分离器/分类器601可以附加地对分离信号进行分类或附加地处理这些信号。例如,分离器/分类器601可以包括图3A至图3E的盲源分离器302、源分类器304和语音源处理器306的功能性的任何组合。分离器/分类器601还输出残余回波分量Eres,该分量被提供给AEC 301以消除残余回波。
音频处理块602接收n个分离源信号。根据所示的实施方案,音频处理块602执行一个或多个音频数字信号处理操作以从源分离信号中去除或减少噪声分量N,从而输出用于每个麦克风的干净的源分离信号S1-Sn以供后续处理和输出,诸如通过图3A至图3E的语音源处理器306或音频处理引擎125的音频处理单元308。音频数字信号处理操作包括但不限于混合、均衡、参数过滤、峰值限制、噪声选通、频谱掩蔽和动态范围压缩/扩展。虽然示出了单个DSP操作,但是在一些具体实施中,可以例如以任何顺序按顺序执行所列出的DSP操作或其他操作中的任何操作。音频处理块602可以是例如图3A和图3E的音频处理单元308。
如图所示,音频处理块602可以接收源分离信号作为反馈以用于噪声抑制或其他数字信号处理操作。例如,根据数字信号处理操作的类型,音频处理块602处理输出信号S1以改进对输出信号S1的噪声抑制,处理输出信号S2以改进对输出信号S2的噪声抑制,等等。根据实施方案,音频处理块602可以接收其他信号作为反馈以用于改进音频处理块602的操作。例如,音频处理块602可以处理输出信号S2-Sn中的一些或全部,以抑制输出信号S1和/或其他信号(例如,远端信号)中的噪声。
听觉场景分析方法
图7示出了对其中部署有音频处理系统100的环境执行听觉场景分析的示例性方法700。
在步骤702处,音频处理引擎125可以任选地利用任选的声学回波消除器301将固定或自适应声学回波消除应用于由麦克风阵列140检测到的音频信号,如参考图3A至图3E所述。在一些其他实施方案中,代替回波消除或除了回波消除之外,音频处理引擎125可以应用波束成形。
在步骤704处,盲源分离器302可以使用本文(例如,相对于图3A和图3B)描述的技术中的任一种将检测到的音频内容的源分离成初始的一组分离源。
在步骤706处,音频处理引擎125使用附加信息来细化、验证或以其他方式辅助源分离。例如,音频处理引擎125可以处理所检测到的音频内容,以确定麦克风140间或麦克风内的水平差、麦克风140间或麦克风内的时间差、麦克风140间或麦克风内的相位差、或检测到的音高中的一者或多者,并且使用该信息中的一些或全部来辅助细化或验证源分离。在步骤706处,音频处理引擎125还可以使用深度神经网络模型或其他人工智能模型来细化、验证或以其他方式辅助源分离。
在步骤708处,音频处理引擎125可以使用本文(例如,相对于图3A和图3C)描述的技术中的任一种将所识别的源分类和归类到经分类的声音源集合中,例如分类和归类到语音、非语音和扩散分类和/或子分类中。
在步骤710处,音频处理引擎125使用一个或多个深度神经网络模型或其他人工智能模型来细化、验证或以其他方式辅助源分类。
在步骤712处,音频场景分析器129或音频处理系统121的其他部件确定或更新音频环境中的一个或多个经分离的、分类的源的位置、环境中的一个或多个麦克风的位置、或与听觉场景相关的其他相关信息,其可以包括存储在图4A至图4C的表400、402、404中或图3A的环境储存库112中的任何信息。音频处理系统121可以使用各种不同类型的信息以便确定源的位置,包括但不限于检测到的源的到达方向(例如,从到达方向块318、328)和检测到的源的信号幅度。
作为一个示例,参考图2C,音频处理系统121可以分离并分类由个人204a说出的语音,并且确定个人204a相对于麦克风140b的位置,通过使用到达方向来确定个人204a相对于麦克风140b所处的近似角度、使用幅度来确定麦克风140b与个人204a之间的估计距离、以及使用角度和幅度连同麦克风140b的已知位置一起来确定个人204a在房间200d中的估计位置。
音频处理系统121可以使用来自多个麦克风140的信息来确定音频环境中的源的位置。作为示例,再次参考图2C,麦克风140d还可以检测由个人204a说出的语音,并且音频处理系统121可以使用与个人204a的检测到的语音相对应的所确定的到达方向和幅度来确定个人204a相对于麦克风140d所处的估计角度以及麦克风140d与个人204a之间的估计距离,并且使用该角度和距离连同麦克风140d的已知位置一起来确定个人204a在房间200d中的估计位置。
音频处理系统121然后可以使用由麦克风140b检测到的声音确定的近似位置、使用由麦克风140d检测到的声音确定的近似位置以及这两个麦克风140b、140d的已知位置来细化或确认个人204a的估计位置。
在步骤714处,音频处理引擎125可以更新环境储存库112中的听觉场景的表示,诸如更新包括图5A至图5C的表500、502、504的关系数据库。
柔性麦克风几何结构
本文描述的系统所采用的音频处理技术(包括使用盲源分离的那些技术)允许灵活的麦克风设计。本文描述的任何系统可以部署各种不同类型的麦克风阵列或不同类型的麦克风阵列的组合。图8示出了一些示例,其中单独麦克风元件1-n被布置成以下几何形状:对802、线性804、正方形806、矩形808、随机810和圆形812。根据实施方案,在阵列140中包括附加的麦克风元件可以实现更准确的源分离。
在一些实施方案中,系统100可以包括一个或多个麦克风,除了具有多个元件的一个或多个阵列140之外,该一个或多个麦克风还包括单个麦克风元件。例如,系统100可对由单个麦克风140检测到的音频或对从单个远程笔记本电脑、智能手机或其他会议设备接收到的音频流执行源分离和本文描述的其他技术。
柔性麦克风放置和安装
配置仅依赖于或主要依赖于用于源检测的方向性的麦克风系统通常涉及仔细瞄准波瓣以避免噪声源或特定于房间空间的其他干扰,通常以限制参与者移动到特定覆盖区域为代价。作为一个示例,如果两个麦克风阵列140被放置在桌上,并且在依赖于波束成形的系统中,每个麦克风140的一个波束可能指向桌上麦克风之间的空间,并且那些波束将干扰其他波束/与其他波束重叠,并且在没有稳健的源分离的情况下,安装者可以决定禁用那些波束以避免干扰。
本文描述的提供稳健的源分离的实施方案允许更灵活的放置和安装。例如,当设置两个或更多个麦克风阵列140时,安装者不必禁用重叠的麦克风140或这些麦克风140内的波束,因为由多个麦克风140检测到的任何源可以被音频处理引擎125提取并适当地处理。此外,因为音频处理引擎125可以连续地执行对会议室空间或其他音频环境的听觉分析,包括通过跟踪部件和人在空间内的位置,所以音频处理引擎125可以随着音频源的位置或性质改变而自动地调整配置。
本文描述的基于源分离的音频处理技术还使得能够在音频环境中灵活地放置麦克风。例如,不是必须将麦克风以固定位置和取向安装在桌上(例如,安装到在桌中钻出的孔,其中波瓣指向椅子),稳健的源分离允许用户调整麦克风140的位置/取向(例如,使得以固定取向钻孔/安装到桌是任选的),或者允许用户相对于麦克风140自由移动,同时保持一致的性能和源检测。
麦克风阵列的示例
图9描绘了作为兼容麦克风阵列140的一个示例的布置在板216a上的包括麦克风202a-202p的麦克风阵列140的视图。
在一个实施方案中,麦克风202a-202p被容纳在安装到板216a(未示出)的底部的集成电路封装中,并且顶板216a包括多个圆孔302,每个圆孔对应于麦克风202a-202p中的对应麦克风并且暴露对应麦克风的下侧的一部分。孔302可促进麦克风204a-204p检测从顶板216a的顶部穿过外壳200入射到麦克风系统140上的声波。
图9中所示的实施方案的麦克风202a-202p每个都是基于全向压电MEMS的声学麦克风换能器,能够检测10Hz至20,000Hz的频率范围内的声音以及80Hz至8,000Hz的高线性度频率范围内的声音,并且被容纳在安装在顶板216a上的集成电路封装中。在其他实施方案中,可使用其他类型的麦克风,诸如动圈式麦克风或电容式麦克风。
所示实施方案的麦克风202a-202p包括第一组九个麦克风202a-202i和第二组七个麦克风202j-202p。处理器122可处理和/或组合从第一组麦克风202a-202i输出的信号以生成第一频率范围内的声音内容,并且处理和/或组合从第二组麦克风202j-202p输出的信号以生成第二频率范围内的输出声音内容。
例如,处理器122可使用一个或多个第一滤波器(例如,带通滤波器)对第一组麦克风202a-202i输出的信号进行滤波,并且组合滤波后的输出以生成第一频率范围内的处理后的音频;使用一个或多个第二滤波器(例如,带通滤波器)对第二组麦克风202j-202p输出的信号进行滤波,并组合滤波后的输出以生成第二频率范围内的处理后的音频。
根据一些实施方案的第二频率范围高于第一频率范围,但是这些频率范围可稍微重叠。在一些实施方案中,第一频率范围的最大频率和第二频率范围的最小值是第一组和第二组具有相似噪声性能的值。对于第一频率范围和第二频率范围,多种可能的值是可能的。这里仅举几个示例:
第一频率范围(Hz) 第二频率范围(Hz)
20-1,200 1,200-20,000
80-1,200 1,200-20,000
20-2,000 2,000-20,000
80-2,000 2,000-20,000
20-3,000 3,000-20,000
80-3,000 3,000-20,000
80-1,200 1,200-8,000
80-2,000 2,000-8,000
80-3,000 3,000-8,000
虽然所提供的示例表明第一频率范围和第二频率范围在单个值(1,200Hz、2,000Hz或3,000Hz)处完全重叠,但是在一些实施方案中,这些范围可具有更大重叠,诸如重叠5Hz、10Hz、100Hz、1,000Hz、2,000Hz、3,000Hz、5,000Hz或更多Hz,或者重叠这些数量之间的值。取决于实施方案,组合的第一频率范围和第二频率范围可至少覆盖某些语音频带,诸如300Hz至3,400Hz、50Hz至7,000Hz、50Hz至14,000Hz或20Hz至20,000Hz。频率范围可相对较宽,不仅捕获语音带宽,还捕获其他声音,以改进噪声处理或其他目的。
术语/附加实施方案
本文使用的条件语言,诸如“可以”、“能够”、“可能”、“可”、“例如”等,除非另外具体说明,或在使用的上下文中另有理解,否则通常旨在传达某些实施方案包括某些特征、元件和/或状态,而其他实施方案不包括某些特征、元件和/或状态。因此,这种条件语言一般不旨在暗示特征、元件和/或状态以任何方式是一个或多个实施方案所需要的,也不旨在暗示一个或多个实施方案必然包括逻辑,该逻辑用于在有或没有作者输入或提示的情况下决定这些特征、元件和/或状态是否包括在任何特定实施方案中或者是否将在任何特定实施方案中执行。
取决于实施方案,本文所述的方法中的任一方法的某些动作、事件或功能可以不同的顺序执行,可被添加、合并或完全省略(例如,并非所有描述的动作或事件都为该方法的实践所必需)。此外,在某些实施方案中,动作或事件可同时执行,例如通过多线程处理、中断处理或多处理器或处理器核心,而不是顺序执行。
结合本文公开的实施方案描述的各种例示性逻辑块、模块、电路和算法步骤可被实现为电子硬件、计算机软件或两者的组合。为了清楚地例示硬件和软件的这种可互换性,上文已大体上根据其功能描述了各种例示性部件、块、模块、电路和步骤。这种功能是作为硬件还是软件取决于特定应用和施加在整个系统上的设计约束。对于每个特定应用,可以不同的方式来实现所述的功能,但是这种实现决策不应被解释为导致偏离本公开的范围。
结合本文公开的实施方案描述的各种例示性逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件或它们的被设计为执行本文所述的功能的任何组合实现或执行。通用处理器可以是微处理器,但在替代实施方案中,该处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可被实现为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器、或任何其他这种配置。
结合本文公开的实施方案描述的方法和算法的块可直接体现在硬件、由处理器执行的软件模块、或者硬件和软件模块的组合中。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域已知的任何其他形式的计算机可读存储介质中。示例性存储介质耦接到处理器,使得处理器可从存储介质读取信息以及向存储介质写入信息。在替代实施方案中,存储介质可集成到处理器中。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代实施方案中,处理器和存储介质可以作为分立部件驻留在用户终端中。
虽然上述详细描述已经示出、描述并指出了应用于各种实施方案的新颖特征,但是应当理解,在不脱离本公开的实质的情况下,可对所示的设备或算法的形式和细节进行各种省略、替换和改变。如将认识到,本文所述的公开内容的某些实施方案可以不提供本文阐述的所有特征和优势的形式来体现,因为一些特征可与其他特征分开使用或实践。本文公开的某些公开内容的范围由所附权利要求而不是由前述描述来说明。落入权利要求的等同物的含义和范围内的所有改变均被包括在其范围内。

Claims (23)

1.一种会议系统,包括:
多个麦克风,所述多个麦克风包括定位在会议环境中的至少第一麦克风和第二麦克风,所述第一麦克风被配置为响应于检测到的声音而生成至少一个第一音频信号,所述第二麦克风被配置为响应于检测到的声音而生成至少一个第二音频信号;和
一个或多个处理器,所述一个或多个处理器执行音频处理系统并且操作地耦接到所述多个麦克风,所述音频处理系统被配置为:
对所述第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;
对所述第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;
处理所述第一多个源分离音频信号中的第一源分离信号以识别对应于所述第一源分离信号的第一类型的音频源;
处理所述第二多个源分离音频信号中的第二源分离信号以识别对应于所述第二源分离信号的第二类型的音频源;以及
从所述第一源分离信号和所述第二源分离信号中的一者或两者生成包括音频内容的输出音频流,所述输出流至少部分地基于到达方向信息和信号强度信息中的一者或多者而生成。
2.根据权利要求1所述的会议系统,其中所述第一类型的音频源和所述第二类型的音频源是相同的类型。
3.根据权利要求2所述的会议系统,其中所述第一源分离信号和所述第二源分离信号对应于相同的人类发言人语音源。
4.根据权利要求3所述的会议系统,其中所述音频处理系统被进一步配置为使用到达方向和信号强度信息中的一者或多者来确定所述人类发言人的物理位置,并且随着所述人类发言人移动跟踪所述人类发言人的所述物理位置。
5.根据权利要求1所述的会议系统,其中所述第一类型和所述第二类型中的至少一者是语音源,并且所述音频处理系统使用语音活动检测技术来识别所述语音源。
6.根据权利要求1所述的会议系统,其中所述音频处理系统被配置为在生成所述输出音频流时使用与所述第一源分离信号和所述第二源分离信号中的一者或两者相关的到达方向信息。
7.根据权利要求1所述的会议系统,其中所述音频处理系统被配置为在生成所述输出音频流时使用与所述第一源分离信号和所述第二源分离信号中的一者或两者相关的信号强度信息。
8.根据权利要求1所述的会议系统,其中所述音频处理系统被配置为基于所识别的第一类型而对所述第一源分离信号应用第一音频信号处理操作,并且至少基于所识别的第二类型而对所述第二源分离信号应用第二音频信号处理操作,其中所述第一音频处理操作和所述第二音频处理操作是不同的。
9.根据权利要求1所述的会议系统,其中所述音频处理系统被配置为:
识别所述第一多个源分离音频信号和所述第二多个源分离音频信号之中的一个或多个残余回波信号;以及
使用所述残余回波信号来增强声学回波消除。
10.根据权利要求1所述的会议系统,其中所述麦克风中的一个或多个麦克风包括阵列麦克风,并且所述音频处理系统被配置为基于基于所述阵列麦克风的单独麦克风元件之间的时间或相位延迟而确定所述第一多个源分离音频信号中的一个或多个源分离音频信号以及所述第二多个源分离音频信号中的一个或多个源分离音频信号的到达方向。
11.根据权利要求1所述的会议系统,其中所述第一类型是噪声源,所述第二类型是语音源,并且所述音频处理系统被配置为相对于来自所述第二源分离信号的内容在所述输出音频流中省略或减少来自所述第一源分离信号的贡献。
12.一种会议方法,包括:
利用操作地耦接到定位在会议环境中的多个麦克风的一个或多个处理器:
对由所述多个麦克风中的第一麦克风生成的至少一个第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;
对由所述多个麦克风中的第二麦克风生成的至少一个第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;
处理所述第一多个源分离音频信号中的第一源分离信号以识别对应于所述第一源分离信号的第一类型的音频源;
处理所述第二多个源分离音频信号中的第二源分离信号以识别对应于所述第二源分离信号的第二类型的音频源;以及
生成用于回放的输出音频流,所述输出音频流包括来自所述第一源分离信号和所述第二源分离信号中的一者或两者的音频内容,所述生成至少部分基于到达方向信息和信号强度信息中的一者或多者。
13.根据权利要求12所述的方法,其中所述第一类型的音频源和所述第二类型的音频源是相同的类型。
14.根据权利要求13所述的方法,其中所述第一源分离信号和所述第二源分离信号对应于相同的人类发言人语音源。
15.根据权利要求14所述的方法,进一步包括:利用所述一个或多个处理器,使用到达方向和信号强度信息中的一者或多者来确定所述人类发言人的物理位置,并且随着所述人类发言人移动跟踪所述人类发言人的所述物理位置。
16.根据权利要求12所述的方法,其中所述第一类型和所述第二类型中的至少一者是语音源,并且所述方法包括使用语音活动检测技术来识别所述语音源。
17.根据权利要求12所述的方法,包括:利用所述一个或多个处理器,在生成所述输出音频流时使用与所述第一源分离信号和所述第二源分离信号中的一者或两者相关的到达方向信息。
18.根据权利要求12所述的方法,包括:利用所述一个或多个处理器,在生成所述输出音频流时使用与所述第一源分离信号和所述第二源分离信号中的一者或两者相关的信号强度信息。
19.根据权利要求12所述的方法,进一步包括:利用所述一个或多个处理器,基于所识别的第一类型而对所述第一源分离音频信号应用第一音频信号处理操作,并且至少基于所识别的第二类型而对所述第二源分离音频信号应用第二音频信号处理操作,其中所述第一音频处理操作和所述第二音频处理操作是不同的。
20.根据权利要求12所述的方法,进一步包括:利用所述一个或多个处理器:
识别所述第一源分离音频信号和所述第二源分离音频信号之中的一个或多个残余回波信号;以及
使用残余回波信号来改进声学回波消除。
21.根据权利要求12所述的方法,进一步包括:利用所述一个或多个处理器,基于单独麦克风元件之间的时间或相位延迟而确定所述第一多个源分离音频信号中的一个或多个源分离音频信号以及所述第二多个源分离音频信号中的一个或多个源分离音频信号的到达方向。
22.根据权利要求12所述的方法,其中所述第一类型是噪声源,所述第二类型是语音源,并且所述方法进一步包括:利用所述一个或多个处理器,相对于来自所述第二源分离信号的内容在所述输出音频流中省略或减少来自所述第一源分离信号的贡献。
23.一种存储指令的非暂态计算机可读存储介质,所述指令在由计算系统执行时使得所述计算系统执行操作,所述操作包括:
对由多个麦克风中的第一麦克风生成的至少一个第一音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第一多个源分离音频信号;
对由所述多个麦克风中的第二麦克风生成的至少一个第二音频信号执行一个或多个盲源分离操作以生成各自对应于不同音频源的第二多个源分离音频信号;
处理所述第一多个源分离音频信号中的第一源分离信号以识别对应于所述第一源分离信号的第一类型的音频源;
处理所述第二多个源分离音频信号中的第二源分离信号以识别对应于所述第二源分离信号的第二类型的音频源;以及
生成用于回放的输出音频流,所述输出音频流包括来自所述第一源分离信号和所述第二源分离信号中的一者或两者的音频内容,所述生成至少部分基于到达方向信息和信号强度信息中的一者或多者。
CN202280061509.XA 2021-10-12 2022-10-11 多源音频处理系统和方法 Pending CN117941343A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163254901P 2021-10-12 2021-10-12
US63/254,901 2021-10-12
PCT/US2022/077882 WO2023064750A1 (en) 2021-10-12 2022-10-11 Multi-source audio processing systems and methods

Publications (1)

Publication Number Publication Date
CN117941343A true CN117941343A (zh) 2024-04-26

Family

ID=85797120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280061509.XA Pending CN117941343A (zh) 2021-10-12 2022-10-11 多源音频处理系统和方法

Country Status (5)

Country Link
US (1) US20230115674A1 (zh)
CN (1) CN117941343A (zh)
AU (1) AU2022364987A1 (zh)
CA (1) CA3228068A1 (zh)
WO (1) WO2023064750A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230410058A1 (en) * 2022-06-21 2023-12-21 Avaya Management L.P. Virtual meeting participation
US20230421702A1 (en) * 2022-06-24 2023-12-28 Microsoft Technology Licensing, Llc Distributed teleconferencing using personalized enhancement models

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
EP2337328B1 (en) * 2008-10-20 2014-12-03 Huawei Device Co., Ltd. Method, system and apparatus for processing 3d audio signal
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
EP3963902A4 (en) * 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION

Also Published As

Publication number Publication date
WO2023064750A1 (en) 2023-04-20
US20230115674A1 (en) 2023-04-13
AU2022364987A1 (en) 2024-02-22
CA3228068A1 (en) 2023-04-20

Similar Documents

Publication Publication Date Title
KR102639491B1 (ko) 개인화된 실시간 오디오 프로세싱
US20230115674A1 (en) Multi-source audio processing systems and methods
US20220230642A1 (en) Speaker Attributed Transcript Generation
TWI570624B (zh) A volume adjustment method of the user terminal, a volume adjustment device, and a terminal device
Jin et al. Speaker segmentation and clustering in meetings.
US20200184991A1 (en) Sound class identification using a neural network
WO2019089486A1 (en) Multi-channel speech separation
CA2795189C (en) Automatic gain control
CA3132837A1 (en) Customized output to optimize for user preference in a distributed system
US20210407516A1 (en) Processing Overlapping Speech from Distributed Devices
US11211080B2 (en) Conversation dependent volume control
JP2004004239A (ja) 音声認識対話装置およびプログラム
WO2008075305A1 (en) Method and apparatus to address source of lombard speech
US11792570B1 (en) Parallel noise suppression
US20240087597A1 (en) Source speech modification based on an input speech characteristic
US20230223033A1 (en) Method of Noise Reduction for Intelligent Network Communication
WO2023021390A1 (en) Muting specific talkers using a beamforming microphone array
AU2013260672B2 (en) Automatic gain control
CN116783900A (zh) 基于子带域声学回声消除器的声学状态估计器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication