CN105637860B - 针对自动化的说话者追踪系统的声学回声控制 - Google Patents
针对自动化的说话者追踪系统的声学回声控制 Download PDFInfo
- Publication number
- CN105637860B CN105637860B CN201480057051.6A CN201480057051A CN105637860B CN 105637860 B CN105637860 B CN 105637860B CN 201480057051 A CN201480057051 A CN 201480057051A CN 105637860 B CN105637860 B CN 105637860B
- Authority
- CN
- China
- Prior art keywords
- audio
- processor
- acoustic echo
- circuit
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000004891 communication Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/20—Details of telephonic subscriber devices including a rotatable camera
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
一种处理系统可以包括:追踪麦克风阵列;音频追踪器电路,其被连接到追踪麦克风阵列以基于来自阵列的音频输入来追踪音频源;通信麦克风;处理器。处理器可以包括音频电路以从通信麦克风接收音频输入并且处理音频输入以将声学回声消除(AEC)和声学回声抑制(AES)处理中的一个或多个应用到音频输入。处理器还可以包括计算电路以计算AEC和/或AES处理之后和之前的信号功率的比和控制电路以基于由计算电路计算的比来生成声学回声存在指示。处理器可以经由发送电路、经由处理器和音频追踪器之间的数据通信信道来将声学回声存在指示发送到音频追踪设备。
Description
技术领域
本申请一般地涉及说话者追踪系统和声学回声控制。
背景技术
在典型的说话者(speaker)追踪系统中,声学回声控制基于输出给说话者的音频输出(即,音频输出返回)而被执行。
附图说明
通过参考以下具体描述并结合附图进行考虑时,对所公开的实施例及其带来的优点的更完整的认识将能够被容易地获得同时也变得更好理解,其中:
图1是执行音频追踪的传统硬件装置的示意图;
图2是执行音频追踪的另一硬件装置的示意图;
图3是处理器的示意图;
图4是另一处理器的示意图;以及
图5是示例性算法的流程图。
具体实施方式
概述
根据示例性实现方式,一种处理器可以包括以下各项:音频电路,其被配置为从通信麦克风接收音频输入,并且处理音频输入以将声学回声消除(AEC)和声学回声抑制(AES)处理中的一个或多个应用到音频输入;计算电路,其被配置为计算AEC和/或AES处理之后与之前的信号功率的比;控制电路,其被配置为基于由计算电路计算的比来生成声学回声存在指示(acoustic echo presence indication);发送电路,其被配置为将声学回声存在指示发送到音频追踪设备。
计算电路还可以被配置为将该比值与预定义的阈值进行比较,并且控制电路可以被配置为基于相对于预定义的阈值的比值来生成声学回声存在指示,并且将声学回声存在指示发送到音频追踪设备。
预定义的阈值可以为0.9,其中比值大于0.9指示微不足道的、无关紧要的声学回声或者无声学回声,比值为0.9或小于0.9指示强回声。预定义的阈值还可以为大约或近似0.9,在0.9+/-1%、2%、3%、4%或5%和任意中间值的范围内,或者在0.9+/-0.1、0.2、0.3、0.4或0.5的范围内。预定义的阈值还可以为大约或近似0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99,在0.1%、0.5%、1%、2%、3%、4%或5%和任意中间值的范围内(相关值上限为1),或者在近似值的0.1、0.2、0.3、0.4或0.5范围内(相关值上限为1)。
预定义的阈值还可以是满足以下范围的任意值:0.8≤阈值≤0.9、0.75≤阈值≤0.95、0.85≤阈值≤0.95、0.88≤阈值≤0.9、0.9≤阈值≤0.92、0.89≤阈值≤0.91、0.85≤阈值≤0.9、0.8<阈值<0.9、0.75<阈值<0.95、0.85<阈值<0.95、0.88<阈值<0.9、0.9<阈值<0.92、0.89<阈值<0.91或0.85≤阈值≤0.9。
计算电路可以被配置为计算针对每一时间帧的全频段信号的比。
计算电路可以被配置为计算针对每一时间帧的众多窄带信号的比。
计算电路可以被配置为计算短时傅里叶变换域中的众多频率点(frequency bin)的比。
声学回声指示可以包括标识与该声学回声指示相对应的声学回声的信息。
该信息可以包括标识全频段信号和存在该声学回声的标志。
该信息可以包括分别标识不同窄带信号或频率点以及存在各自的声学回声的众多标志。
该信息可以包括比值。
该信息可以包括指示以下一项或多项的数据:比如何被计算、时间帧的持续时间、包括该回声的全频段或窄带。
处理器还可以包括被配置为基于音频追踪设备的源追踪结果来从音频追踪设备接收响应数据的接收电路。
处理器还可以包括用以对被连接到处理器的相机或麦克风进行致动的一个或多个致动器,其中响应数据包括用于处理器的致动器命令或指示符,用以对相机或麦克风进行致动来将相机或麦克风朝音频源定向。
响应数据可以包括音频源的位置,并且处理器包括被配置为基于响应数据来标识音频源的视频电路。
一种处理系统可以包括以下各项:追踪麦克风阵列;音频追踪器电路,其被连接到追踪麦克风阵列并且被配置为基于来自追踪麦克风阵列的音频输入来追踪音频源;通信麦克风;处理器(例如,以上和本文所讨论的处理器)。
处理系统还可以包括被连接到处理器的音频输出电路的扩音器(loudspeaker),其中音频追踪器电路不从处理器的音频输出电路接收音频输出返回。
处理系统还可以包括被配置为经由网络来与其它处理系统交互以在处理系统之间建立和执行会议的网络电路。
处理系统还可以包括用以从相机采集视频并且对视频进行编码/解码的视频电路。
一种方法可以包括以下各项:由音频电路从通信麦克风接收音频输入;由音频电路处理音频输入以将声学回声消除(AEC)和声学回声抑制(AES)处理中的一个或多个应用到音频输入;由计算电路计算AEC和/或AES处理之后与之前的信号功率的比;由控制电路基于所进行的计算中计算的比来生成声学回声存在指示;以及由发送电路将声学回声存在指示发送到音频追踪设备。
一种非暂态计算机可读介质包括计算机可执行指令,当该计算机可执行指令被计算机处理器执行时,使得计算机处理器执行该方法。该方法或对应的计算机处理的步骤可以由与计算机硬件组件或者被计算机软件或计算机代码配置的计算机硬件组件相对应的以下各种装置执行,包括:编码、转换、解码、处理、发送和接收装置。
示例性实现方式的详细说明
在附图中,相似标号贯穿若干视图指定等同或对应的部分。此外,如本文所使用的,词语“一(a)”、“一(an)”等除非以其他方式进行表述通常表达“一个或多个”的意思。
本公开的各方面涉及视频会议系统和网真(telepresence)系统。然而,本公开的教导不限于这些系统。
视频会议和网真系统可以包括编解码器。编解码器是处理数据(尤其是数字数据)的编码器-解码器。在视频会议和网真系统的情况下,编解码器对音频和视频数据进行编码和解码。原始音频和视频数据可以包括数字或模拟信号。编解码器可以将模拟信号处理或编码成数字信号。
图1是传统硬件装置的示例;在图1中,编解码器由通信信道(例如,数字数据通信信道)连接到音频追踪器。编解码器还可以被连接到多个音频通信麦克风和用于输出音频的多个扩音器(可以被简称为扬声器),这些音频通信麦克风被意图用于在视频会议中对演讲或音频进行中继,该音频来自直接的源(例如音频通信麦克风)或者来自远程位置。编解码器还可以被连接到多个相机和监控显示器(未示出)。
音频追踪器包括音频处理器,音频处理器执行算法以使用麦克风阵列来追踪说话者。在图1中,音频追踪器从音频追踪麦克风阵列接收音频输入。该阵列包括多个麦克风。
2013年3月12日递交的美国专利8,395,653被通过引用结合于此,该文献描述了从麦克风阵列采集音频并且执行音频处理(包括回声消除、音频滤波和源追踪)的音频处理器(其可以是数字信号处理器(DSP))。该音频处理器还处理用于在相机视图之间进行切换、用于检测会话模式和本文所描述的其他目的的规则。
2004年4月7日递交的美国专利7,586,513被通过引用结合于此,该文献描述了使用麦克风阵列来追踪源的示例性音频源追踪系统和算法。本公开的各方面可以使用这种音频源追踪算法和硬件或者其他算法/硬件组合。
说话者追踪系统可以使用音频和面部追踪技术来自动定位并聚焦于近端中的活动说话者。在一个实现方式中,与音频追踪算法相结合的麦克风阵列被用来估计活动说话者的位置。
当远端的参与者开始说话或制造噪音时,这些声音将由近端扩音器回放并且由以上提到的近端麦克风阵列采集。扩音器和麦克风之间的这种声学耦合被称为声学回声。
如果声学回声不能被有效地控制/移除,则音频追踪器可能将声学回声视为近端演讲信号,并且将错误结果发送到说话者追踪系统,这将导致近镜头给予不正确的说话者。这些问题危害视频会议的质量。例如,当说话者音量为高时或者当追踪相机被设在说话者附近时,追踪相机可能错误地描向说话者。
移除不想要的声学回声(声学回声消除/抑制)是优选的,并且可以在电话会议或视频会议系统中被认为对于自然演讲/音频通信是理想的。
对于声学回声消除(AEC),使用自适应滤波器来对声学路径建模。通过用参考信号(由回放的信号)与所估计的回声路径卷积来估计回声。然后,通过从麦克风信号减去所估计的回声而消除回声。在回声路径中存在相位改变(这通常发生在与个体计算机进行电话会议期间)的情况下,以上途径可能失败。作为解决方案,声学回声抑制(AES)方法已经被用来通过使用谱减法将回声移除。意图是通过估计回声信号的幅度谱而忽略相位来实现鲁棒性。
一种处理音频追踪系统中的声学回声的实现方式是将回声参考信号(由扬声器回放的信号)传送到音频追踪模块/系统。然后,声学回声控制方法被用来或者从多个麦克风信号中移除回声或者使用所估计的信号回声比来控制音频追踪算法。图1中示出了这种系统的传统示例。这里,音频输出返回可以是来自处理器的单独输出或者是来自处理器去往说话者的共享输出的一部分。
在视频会议应用中,说话者追踪器通常与视频会议编解码器共同被使用。如图1所示,为了获得参考信号,需要额外的音频电缆来将编解码器的音频输出信道连接到说话者追踪器。这些连接对于追踪器的鲁棒性是必要的,但增加了复杂度。
鲁棒的声学回声估计和消除不是简单的任务。在具有多个麦克风的说话者追踪系统中实现合适的AEC/AES可能显著增加追踪系统的计算复杂度。
根据本公开的各方面和教导,声学回声存在指示在处理器(例如,编解码器)中被生成,并且这些指示经由通信信道被发送到音频追踪器(有时被称为说话者追踪系统或源追踪器)。音频追踪器使用这些指示来对声学回声问题实现鲁棒的音频追踪。
声学回声存在指示是通过使用被连接到处理器(例如,编解码器)的麦克风和在编解码器中的回声消除器/抑制器之后与之前的信号功率比而计算的数据。
各种优点可以根据本公开的示例性实现方式而被实现,包括:音频追踪器和编解码器之间的更简单和更少的电缆连接;音频追踪器的DSP中的更低的信号处理电力消耗;更低的硬件开销;以及因为编解码器/客户端中的回声消除器/抑制器是相对更精细的,所以编解码器/客户端可以向音频追踪器提供非常鲁棒的声学回声估计和指示结果。
图2是根据示例性实现方式执行音频追踪的硬件的示意性图示。
对于视频会议应用(例如,示例性的基于房间的视频会议应用),说话者追踪器可以被连接到已经集成AEC/AES解决方案的视频会议编解码器(例如,由制造的C60、C90等)。大体上,为了改善音频通信质量,若干会议麦克风按照图1和图2被连接到编解码器并被分布在房间中。具有若干分布式麦克风的编解码器可以非常准确地检测存在于房间中的声学回声。
在该示例中,对比于图1中的示例,说话者/音频追踪器中所实现的额外的AEC/AES模块是冗余的,并且可能增加系统的复杂度(硬件连接、计算功率等)。也就是说,在一些实现方式或示例中不包括该“额外的”AEC/AES模块。
在图2的示例性实现方式中,处理器可以生成声学回声存在指示,并经由通信信道将这些指示发送到说话者追踪系统,无需音频返回信道也不使用音频返回信道。说话者追踪系统(即,音频追踪器)基于这些指示来对声学回声问题实现鲁棒的音频追踪。
例如,可以通过计算编解码器中的回声消除器/抑制器之后与之前的信号功率比(即,之后:之前)来获得该指示。可以针对每一时间帧的全频段信号或者针对每一时间帧的众多窄带信号(例如,短时傅里叶变换域中的众多频率点)计算该比。比的范围从0到1。当存在强回声时,该比小于1。接近于1的比与沉默、仅近端谈话或双方谈话(即,对于该时间帧或频率点,近端声音明显强于远端声音)相对应。接近于1的比指示了微不足道的、无关紧要的回声或者无回声。
处理器可以通过将该比与预定的值进行比较来确定是否存在重要的回声,以及基于所进行的比较来确定是否发送对应的回声存在指示。例如,当比低于(或者低于或等于)阈值(例如,0.9)时,对应的回声存在指示可以被发送。另一方面,例如,当比高于(或者高于或等于)阈值(例如,0.9)时,不发送回声存在指示。以上值和范围可以基于针对特定房间设置的最初配置或用户偏好进行调整。例如,声学测试可以在房间内被执行,其中视频会议系统将被使用或安装,样本音频信号可以被从说话者发送,并且回声存在的阈值可以被确定以供随后的视频会议使用。此外,默认设置可以是用户基于房间规模或其他房间特性所选择的。
预定义的阈值还可以为大约或近似0.9,在0.9+/-1%、2%、3%、4%或5%和任意中间值的范围内,或者在0.9+/-0.1、0.2、0.3、0.4或0.5的范围内。预定义的阈值还可以为大约或近似0.80、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99,在0.1%、0.5%、1%、2%、3%、4%或5%和任意中间值的范围内(相关值上限为1),或者在近似值的0.1、0.2、0.3、0.4或0.5范围内(相关值上限为1)。
预定义的阈值还可以是满足以下范围的任意值:0.8≤阈值≤0.9、0.75≤阈值≤0.95、0.85≤阈值≤0.95、0.88≤阈值≤0.9、0.9≤阈值≤0.92、0.89≤阈值≤0.91、0.85≤阈值≤0.9、0.8<阈值<0.9、0.75<阈值<0.95、0.85<阈值<0.95、0.88<阈值<0.9、0.9<阈值<0.92、0.89<阈值<0.91或0.85≤阈值≤0.9。
当针对一个时间帧(或者针对一个时间帧中的一个频率点)检测到回声时,音频追踪器从处理器接收回声存在指示,然后音频追踪器移除或抑制音频追踪器的处理缓冲器中的被破坏的数据(整个帧或被破坏的频率点)。该指示包括标识声学回声的信息。例如,该指示可以是针对全频段信号的标志(例如,“1”表示回声出现,并且“0”表示无回声)或者是众多针对不同窄带信号/频率点的标志,或者可以包括这个比的值以及指示以下项的信息:该比如何被计算(例如,针对每一时间帧的全频段信号、针对每一时间帧的短时傅里叶变换域中的众多频率点、或者以其他方式)、时间帧的持续时间、和/或包括该回声的窄带或全频段。以上的各种组合可以被使用。
下面讨论示例性实现方式和实验结果。
示例情境1
当远端参与者正在谈话并且会议室中的声学回声被会议麦克风采集时,在编解码器中的AEC/AES之后和之前的信号功率比小于(或者小于或等于)阈值0.9,回声存在指示由处理器发送到音频追踪器。
示例情境2
当近端和远端都沉默或者近端参与者正在说话而远端沉默时,在编解码器中的AEC/AES之后和之前的信号功率比非常接近1或大于阈值0.9,音频追踪器不会从处理器接收关于回声存在的任何指示。
示例情境3
当近端和远端参与者同时都在说话(双方谈话)时,假定近端和远端演讲信号是非静态的并且在各种频率点和时间帧上不是完全重叠:当针对某些频率点和时间帧的回声功率比近端演讲弱得多时,音频追踪器不会从处理器得到任何回声存在指示或通知;并且当针对某些频率点和时间帧的回声功率比近端演讲强得多时,音频追踪器会从处理器接收回声存在指示或通知。
示例情境4
所提出的解决方案的鲁棒性还通过改变常规会议室中的开会麦克风位置(分布式桌面麦克风)进行测试。实验结果表明存在回声时的追踪性能是令人满意的并且相当鲁棒的。在所有开会麦克风都离追踪麦克风很远(大于4米)的一些极端情况下,针对最近回声尾部的指示有时可能漏掉。然而,由于最近回声尾部的持续时间很短并且它们的功率通常很低,因此它们可以容易地被音频追踪器或说话者追踪引导器作为瞬间的和空间上随机的噪声信号检测到和忽略掉。
图3和图4中的每一个示出了示例性处理系统或处理器300/400。根据本文所提供的描述,这些处理器中的一个或多个可以被用于或者被用来执行一个或多个算法或其部分、或者一个或多个架构块或其部分。例如,这些处理器示出了实现本文所描述的各种算法和功能的计算机化系统或电路。然而,由于对应的功能可能不是所有实现方式所期望的,因此示例性实现方式可以不包括这些图中所示的所有硬件结构。
示例性处理器可以使用一个或多个微处理器或其等同形式(例如,中央处理单元(CPU)、至少一个专用处理器ASP(未示出)、电路和/或一个或多个其他电路)而被实现。微处理器是使用诸如存储器电路(例如,ROM、EPROM、EEPROM、闪存存储器、静态存储器、DRAM、SDRAM和它们的等同形式)之类的计算机可读存储介质的电路,该计算机可读存储介质被配置为控制微处理器执行和/或控制本公开的处理和系统。其他存储介质可以经由可以控制硬盘驱动器或光盘驱动器的控制器(例如盘控制器)来进行控制。
在替换实现方式中,微处理器或其各方面可以包括或仅包括用于增强或完全实现本公开的逻辑设备。这种逻辑设备包括但不限于:专用集成电路(ASIC)、现场可编程门阵列(FPGA)、通用阵列逻辑(GAL)和其等同形式。微处理器可以是分立器件或单个处理机构。此外,本公开可以受益于多核CPU的并行处理能力。多处理装置中的一个或多个处理器还可以被用来执行存储器中所包含的指令序列。替换地,硬连线电路可以代替软件指令或结合软件指令而被使用。因此,本文所讨论的示例性实现方式不受限于硬件电路和软件的任何具体组合。
在另一方面,根据本公开的处理结果可以经由显示控制器在监视器上显示。显示控制器优选地包括至少一个图形处理单元以改进计算效率,图形处理单元可以由多个图形处理核心提供。此外,I/O(输入/输出)接口被提供用于从可以作为外围设备而被连接到I/O接口的麦克风、扬声器、相机、鼠标、键盘、基于触摸的显示屏或平板接口等输入信号和/或数据。例如,用于控制本公开的各种处理或算法的参数的键盘或定点设备可以被连接到I/O接口以提供额外的功能和配置选项、或者控制显示特性。此外,监视器可以被提供触敏接口以用于提供命令/指令接口。
以上提到的组件可以经由用于发送或接收数据(包括可控制参数)的网络接口被耦合到网络(例如,互联网或本地内联网)。中央总线被提供以将以上硬件组件连接在一起,并且提供用于它们之间的数字通信的至少一条路径。
合适的软件(例如,操作系统或应用)可以被明确地存储在处理系统的计算机可读介质上,包括存储器和存储设备。计算机可读介质的其它示例为压缩盘、硬盘、软性盘、磁带、磁光盘、PROM(EPROM、EEPROM、闪速EPROM)、DRAM、SRAM、SDRAM、或任意其它磁性介质、压缩盘(例如,CD-ROM)、或计算机可以从其读取的任意其它介质。软件可以包括但不限于设备驱动、操作系统、开发工具、应用软件、和/或图形用户界面。
以上提到的介质上的计算机代码元素可以为任意可解释或可执行的代码机制,包括但不限于脚本、可解释程序、动态链接库(DLL)、Java类和完全可执行程序。此外,本公开方面的处理部分为了更好的性能、可靠性和/或开销可以是分布式的。
本文所描述的过程和例程可以被实现为系统、方法或计算机程序产品,并且可以经由一个或多个专用电路或程序化处理器而被执行。相应地,本文所提供的描述可以采用专用硬件、硬件上所执行的专用软件(包括固件、常驻软件、微代码等)的形式,或者通过被具体算法和处理代码配置的通用处理器和专用硬件组件的组合来实现。硬件组件被称为“电路”、“模块”、“单元”、“设备”或“系统”。由硬件执行的可执行代码被实现在诸如计算机程序产品之类的有形存储器设备上。示例包括CD、DVD、闪存驱动、硬盘单元、ROM、RAM和其它存储器设备。
在图3中,在示例性实现方式中,处理器300可以由硬件架构的计算机系统实现,该计算机系统已经通过编程而被修改以执行本文所描述的算法。图4的处理器400可以以相似的方式被实现。
在一个实现方式中,处理器300独立于处理器400。在另一实现方式中,处理器300和400被集成至单个机器。此外,处理器300和400的各方面可以分布在多个联网的计算机硬件组件或电路之中。在图4中,被连接到多个麦克风和相机的处理器400被示出。这些麦克风可以被分组成两个集合:一个集合出于音频追踪目的用以提供音频追踪麦克风阵列,与图2中所示一致;并且另一个集合出于音频通信目的用以提供音频通信麦克风,与图2中所示一致。尽管图4中示出了一个音频处理器,但多个音频处理器可以被提供,例如专用于音频追踪的一个或一组处理器和专用于音频通信目的的一个或一组处理器。
图5以与经由图3-4中所示的示例性处理器中的一个或多个所描述的处理和硬件相对应的流程图的方式,示出了由处理器用于音频追踪的示例性算法500。
在图5中,在S502,处理器(例如,编解码器)从通信麦克风(例如,会议麦克风)接收音频输入。在S504,处理器根据以上描述计算信号功率的比。在S506,处理器将所计算的比与阈值进行比较以确定声学回声存在指示是否应该被生成。当比较产生声学回声存在指示应该被生成的指示时,在S508,处理器生成指示并且将经由通信信道将指示发送到音频追踪器。音频追踪器然后基于声学回声存在指示来执行音频追踪算法,以使得在音频追踪器处的单独处理的声学回声算法是不必要的,并且使得接收音频输出返回是不必要的。在S510,音频追踪器基于音频追踪器的处理结果来将响应数据发送到处理器。在S512,响应数据可以包括用于处理器的致动器命令或者指示符,用于对相机或麦克风致动器进行致动以将相机和/或麦克风朝向说话者或音频源定向。响应数据还可以包括音频源的位置,在S514,处理器使用该音频源的位置来标识音频源。当使用视频会议系统时,处理器可以突出显示或者以其他可视化的方式来标识视频流中的音频源。
这里引用了根据本公开的实现方式的方法、系统和计算机程序产品的流程图和框图。其各方面由计算机程序指令实现。这些计算机程序指令可以被提供给通用计算机的处理器、专用计算机或者其它可编程数据处理装置,以产生机器,从而使得经由计算机的处理器或其它可编程数据处理装置执行的指令创建用于实现流程图和/或一个或多个框图块中所指定的功能/动作的装置。
这些计算机程序指令还可以被存储在计算机可读介质中,该计算机可读介质可以指导计算机或其它可编程数据处理装置以特定方式运行,以使得计算机可读介质中所存储的指令生成包括指令装置的制品,其中该指令装置实现流程图和/或一个或多个框图块中所指定的功能/动作。
计算机程序指令还可以被载入至计算机或其它可编程数据处理装置,以使得一系列可操作步骤在计算机或其它可编程装置上被执行,从而生成计算机实现的处理,以使得在该计算机或其它可编程装置上执行的指令提供用于实现流程图和/或一个或多个框图块中所指定的功能/动作的处理。
多个实现方式已经被描述。然而,应该认识到,可以在不背离本公开的精神和范围的情况下做出各种修改。例如,如果所公开的技术的步骤以其他的顺序被执行,如果所公开的系统中的组件以其他的方式被组合,或者如果组件被其它组件替换或补充,则可能实现有利的结果。本文所描述的功能、处理和算法可在硬件或者由硬件执行的软件中执行,该硬件包括被配置为执行程序代码和/或计算机指令以执行本文所描述的功能、处理和算法的计算机处理器和/或可编程电路。此外,一些实现方式可以在不同于本文所描述的那些模块或硬件的模块或硬件上执行。因此,其它实现方式也在可能要求保护的范围内。
Claims (20)
1.一种处理器,包括:
音频电路,所述音频电路被配置为从通信麦克风接收音频输入,并且处理所述音频输入以将声学回声消除AEC和声学回声抑制AES处理中的一个或多个应用到所述音频输入;
计算电路,所述计算电路被配置为计算所述AEC或所述AES处理之后与之前的信号功率的比;
控制电路,所述控制电路被配置为基于由所述计算电路计算的所述比来生成声学回声存在指示;和
发送电路,所述发送电路被配置为将所述声学回声存在指示发送到音频追踪设备。
2.如权利要求1所述的处理器,其中:
所述计算电路还被配置为将所述比的值与预定义的阈值进行比较,以及
所述控制电路被配置为基于相对于所述预定义的阈值的所述比的值来生成所述声学回声存在指示,并且将所述声学回声存在指示发送到所述音频追踪设备。
3.如权利要求2所述的处理器,其中:
所述预定义的阈值为0.9,
比值大于0.9指示微不足道的、无关紧要的声学回声或者无声学回声,以及
比值为0.9或小于0.9指示强回声。
4.如权利要求1所述的处理器,其中,所述计算电路被配置为计算针对每一时间帧的全频段信号的比。
5.如权利要求1所述的处理器,其中,所述计算电路被配置为计算针对每一时间帧的窄带信号的比。
6.如权利要求5所述的处理器,其中,所述计算电路被配置为计算短时傅里叶变换域中的多个频率点的比。
7.如权利要求1所述的处理器,其中,所述声学回声指示包括标识与所述声学回声指示相对应的声学回声的信息。
8.如权利要求7所述的处理器,其中,所述信息包括标识全频段信号和所述声学回声的存在的标志。
9.如权利要求7所述的处理器,其中,所述信息包括众多用以分别标识不同窄带信号或频率点以及各自的所述声学回声的存在的标志。
10.如权利要求7所述的处理器,其中,所述信息包括所述比的值。
11.如权利要求7所述的处理器,其中,所述信息包括指示以下一项或多项的数据:所述比如何被计算、时间帧的持续时间、包括所述回声的全频段或窄带。
12.如权利要求1所述的处理器,还包括:
接收电路,所述接收电路被配置为基于所述音频追踪设备的源追踪结果来从所述音频追踪设备接收响应数据。
13.如权利要求12所述的处理器,还包括:
一个或多个制动器,所述一个或多个致动器对被连接到所述处理器的相机或麦克风进行致动,
其中,所述响应数据包括用于所述处理器的致动器命令或指示符,用以对所述相机或所述麦克风进行致动来将所述相机或所述麦克风朝音频源定向。
14.如权利要求12所述的处理器,其中,所述响应数据包括所述音频源的位置,并且所述处理器包括被配置为基于所述响应数据来标识所述音频源的视频电路。
15.如权利要求1所述的处理器,其中,所述音频追踪设备基于所述声学回声存在指示来执行音频追踪算法。
16.一种处理系统,包括:
追踪麦克风阵列;
音频追踪器电路,所述音频追踪器电路被连接到所述追踪麦克风阵列,并且被配置为基于来自所述追踪麦克风阵列的音频输入来追踪音频源;
通信麦克风;和
处理器,所述处理器包括:
音频电路,所述音频电路被配置为从所述通信麦克风接收音频输入,并且处理所述音频输入以将声学回声消除AEC或声学回声抑制AES处理应用到所述音频输入;
计算电路,所述计算电路被配置为计算所述AEC或所述AES处理之后与之前的信号功率的比;
控制电路,所述控制电路被配置为基于由所述计算电路计算的所述比来生成声学回声存在指示;和
发送电路,所述发送电路被配置为经由所述处理器和所述音频追踪器之间的数据通信信道来将所述声学回声存在指示发送到音频追踪设备,
其中,所述音频追踪器电路被配置为基于声学回声存在指示来追踪所述音频源。
17.如权利要求16所述的处理系统,还包括:
扩音器,被连接到所述处理器的音频输出电路,其中,所述音频追踪器电路不从所述处理器的音频输出电路接收音频输出返回。
18.如权利要求16所述的处理系统,还包括:
网络电路,所述网络电路被配置为经由网络与其他处理系统交互以在所述处理系统之间建立和执行会议。
19.如权利要求16所述的处理系统,还包括:
视频电路,所述视频电路从相机采集视频并且对所述视频进行编码/解码。
20.一种方法,包括:
由音频电路从通信麦克风接收音频输入;
由所述音频电路处理所述音频输入以将声学回声消除AEC或声学回声抑制AES处理应用到所述音频输入;
由计算电路计算所述AEC或所述AES处理之后与之前的信号功率的比;
由控制电路基于所进行的计算中计算的所述比来生成声学回声存在指示;以及
由发送电路将所述声学回声存在指示发送到音频追踪设备,其中,所述音频追踪设备能够基于声学回声存在指示来追踪所述音频源。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361893640P | 2013-10-21 | 2013-10-21 | |
US61/893,640 | 2013-10-21 | ||
US14/098,064 | 2013-12-05 | ||
US14/098,064 US9385779B2 (en) | 2013-10-21 | 2013-12-05 | Acoustic echo control for automated speaker tracking systems |
PCT/US2014/059409 WO2015061029A1 (en) | 2013-10-21 | 2014-10-07 | Acoustic echo control for automated speaker tracking systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105637860A CN105637860A (zh) | 2016-06-01 |
CN105637860B true CN105637860B (zh) | 2019-03-22 |
Family
ID=52826185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480057051.6A Active CN105637860B (zh) | 2013-10-21 | 2014-10-07 | 针对自动化的说话者追踪系统的声学回声控制 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9385779B2 (zh) |
EP (1) | EP3061242B1 (zh) |
CN (1) | CN105637860B (zh) |
WO (1) | WO2015061029A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3101612A1 (en) * | 2015-06-03 | 2016-12-07 | Skullcandy, Inc. | Audio devices and related methods for acquiring audio device use information |
KR101715198B1 (ko) * | 2015-11-18 | 2017-03-10 | 광주과학기술원 | 가변 전력 예산을 이용한 음성 강화 방법 |
US10171971B2 (en) | 2015-12-21 | 2019-01-01 | Skullcandy, Inc. | Electrical systems and related methods for providing smart mobile electronic device features to a user of a wearable device |
US10389885B2 (en) | 2017-02-01 | 2019-08-20 | Cisco Technology, Inc. | Full-duplex adaptive echo cancellation in a conference endpoint |
US10586538B2 (en) | 2018-04-25 | 2020-03-10 | Comcast Cable Comminications, LLC | Microphone array beamforming control |
US10819857B1 (en) * | 2019-01-22 | 2020-10-27 | Polycom, Inc. | Minimizing echo due to speaker-to-microphone coupling changes in an acoustic echo canceler |
US10867615B2 (en) * | 2019-01-25 | 2020-12-15 | Comcast Cable Communications, Llc | Voice recognition with timing information for noise cancellation |
US10652663B1 (en) | 2019-04-30 | 2020-05-12 | Cisco Technology, Inc. | Endpoint device using the precedence effect to improve echo cancellation performance |
CN111131616B (zh) * | 2019-12-28 | 2022-05-17 | 科大讯飞股份有限公司 | 基于智能终端的音频共享方法及相关装置 |
US11586407B2 (en) * | 2020-06-09 | 2023-02-21 | Meta Platforms Technologies, Llc | Systems, devices, and methods of manipulating audio data based on display orientation |
CN112201268A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 回声消除方法、回声消除装置及存储介质 |
TWI770762B (zh) * | 2021-01-11 | 2022-07-11 | 圓展科技股份有限公司 | 影音系統及其控制方法 |
TWI753741B (zh) * | 2021-01-11 | 2022-01-21 | 圓展科技股份有限公司 | 聲源追蹤系統及其方法 |
US11470162B2 (en) * | 2021-01-30 | 2022-10-11 | Zoom Video Communications, Inc. | Intelligent configuration of personal endpoint devices |
CN113488076A (zh) * | 2021-06-30 | 2021-10-08 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5463618A (en) * | 1993-05-28 | 1995-10-31 | Matsushita Electric Industrial Co., Ltd. | Echo canceller |
EP1633121A1 (en) * | 2004-09-03 | 2006-03-08 | Harman Becker Automotive Systems GmbH | Speech signal processing with combined adaptive noise reduction and adaptive echo compensation |
CN101420586A (zh) * | 2007-10-22 | 2009-04-29 | 中兴通讯股份有限公司 | 会议电视系统中消除电学回声的方法及装置 |
CN101461257A (zh) * | 2006-05-30 | 2009-06-17 | 微软公司 | 自适应声学回声消除 |
CN103325379A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于声学回声控制的方法与装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6553122B1 (en) * | 1998-03-05 | 2003-04-22 | Nippon Telegraph And Telephone Corporation | Method and apparatus for multi-channel acoustic echo cancellation and recording medium with the method recorded thereon |
US6434110B1 (en) | 1998-03-20 | 2002-08-13 | Cirrus Logic, Inc. | Full-duplex speakerphone circuit including a double-talk detector |
JP4568439B2 (ja) * | 2001-01-22 | 2010-10-27 | パナソニック株式会社 | エコー抑圧装置 |
US7613310B2 (en) | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
NO318096B1 (no) | 2003-05-08 | 2005-01-31 | Tandberg Telecom As | Arrangement og fremgangsmate for lokalisering av lydkilde |
NO319467B1 (no) | 2003-12-29 | 2005-08-15 | Tandberg Telecom As | System og fremgangsmate for forbedret subjektiv stereolyd |
US7903137B2 (en) * | 2004-10-15 | 2011-03-08 | Lifesize Communications, Inc. | Videoconferencing echo cancellers |
JP4569618B2 (ja) * | 2006-11-10 | 2010-10-27 | ソニー株式会社 | エコーキャンセラ及び通話音声処理装置 |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US8842851B2 (en) * | 2008-12-12 | 2014-09-23 | Broadcom Corporation | Audio source localization system and method |
US8824699B2 (en) | 2008-12-24 | 2014-09-02 | Nxp B.V. | Method of, and apparatus for, planar audio tracking |
US8204198B2 (en) | 2009-06-19 | 2012-06-19 | Magor Communications Corporation | Method and apparatus for selecting an audio stream |
NO332437B1 (no) | 2010-01-18 | 2012-09-17 | Cisco Systems Int Sarl | Apparat og fremgangsmate for a supprimere et akustisk ekko |
US8818175B2 (en) * | 2010-03-08 | 2014-08-26 | Vumanity Media, Inc. | Generation of composited video programming |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9288331B2 (en) | 2011-08-16 | 2016-03-15 | Cisco Technology, Inc. | System and method for muting audio associated with a source |
US9826085B2 (en) * | 2012-02-14 | 2017-11-21 | Koninklijke Philips N.V. | Audio signal processing in a communication system |
WO2013147901A1 (en) | 2012-03-31 | 2013-10-03 | Intel Corporation | System, device, and method for establishing a microphone array using computing devices |
-
2013
- 2013-12-05 US US14/098,064 patent/US9385779B2/en active Active
-
2014
- 2014-10-07 CN CN201480057051.6A patent/CN105637860B/zh active Active
- 2014-10-07 EP EP14790906.3A patent/EP3061242B1/en active Active
- 2014-10-07 WO PCT/US2014/059409 patent/WO2015061029A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5463618A (en) * | 1993-05-28 | 1995-10-31 | Matsushita Electric Industrial Co., Ltd. | Echo canceller |
EP1633121A1 (en) * | 2004-09-03 | 2006-03-08 | Harman Becker Automotive Systems GmbH | Speech signal processing with combined adaptive noise reduction and adaptive echo compensation |
CN101461257A (zh) * | 2006-05-30 | 2009-06-17 | 微软公司 | 自适应声学回声消除 |
CN101420586A (zh) * | 2007-10-22 | 2009-04-29 | 中兴通讯股份有限公司 | 会议电视系统中消除电学回声的方法及装置 |
CN103325379A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于声学回声控制的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105637860A (zh) | 2016-06-01 |
EP3061242B1 (en) | 2017-12-06 |
WO2015061029A1 (en) | 2015-04-30 |
US9385779B2 (en) | 2016-07-05 |
US20150110282A1 (en) | 2015-04-23 |
EP3061242A1 (en) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105637860B (zh) | 针对自动化的说话者追踪系统的声学回声控制 | |
US8842851B2 (en) | Audio source localization system and method | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
US9215543B2 (en) | Microphone mute/unmute notification | |
TW201830382A (zh) | 混合後迴聲消除系統及方法 | |
JP2014510452A (ja) | ノイズ、エコーおよびロケーション外(out−of−location)信号の合成された抑制 | |
JP6959917B2 (ja) | 音響装置における再生管理のためのイベント検出 | |
US10623854B2 (en) | Sub-band mixing of multiple microphones | |
EP3903305A1 (en) | Context-based speech synthesis | |
CN114121031A (zh) | 设备语音降噪、电子设备和存储介质 | |
US20220254358A1 (en) | Multi-channel speech compression system and method | |
US11924624B2 (en) | Multi-channel speech compression system and method | |
JP2023551704A (ja) | サブ帯域ドメイン音響エコーキャンセラに基づく音響状態推定器 | |
Borse et al. | Implementation of Speech Enhancement Algorithm and its Wireless Transmission | |
WO2023141608A1 (en) | Single-channel speech enhancement using ultrasound | |
Xu et al. | Personalized Dereverberation of Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |