CN112151063A - 使用视频数据促进的音频源增强 - Google Patents
使用视频数据促进的音频源增强 Download PDFInfo
- Publication number
- CN112151063A CN112151063A CN202010587240.1A CN202010587240A CN112151063A CN 112151063 A CN112151063 A CN 112151063A CN 202010587240 A CN202010587240 A CN 202010587240A CN 112151063 A CN112151063 A CN 112151063A
- Authority
- CN
- China
- Prior art keywords
- audio
- signal
- video
- audio source
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 92
- 230000005236 sound signal Effects 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000001514 detection method Methods 0.000 claims description 97
- 230000008569 process Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 210000000887 face Anatomy 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Geometry (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Abstract
提供了用于使用视频数据促进的音频信号增强的系统和方法。在一个示例中,方法包括接收包括由多个音频输入设备检测的音频输入的多信道音频信号。该方法还包括接收由视频输入设备捕获的图像。方法还包括至少部分地基于图像确定第一信号。第一信号指示与目标音频源相关联的可能性。方法还包括至少部分地基于多信道音频信号和第一信号来确定第二信号。第二信号指示与归因于目标音频源的音频分量相关联的可能性。方法还包括至少部分地基于第二信号来处理多信道音频信号以生成输出音频信号。
Description
技术领域
根据一个或多个实施例,本申请总体上涉及音频信号处理,并且更特别地涉及例如使用视频数据促进的音频源增强。
背景技术
近年来,音频和视频会议系统已经得到普及。在存在噪声和/或其它干扰音频声音的情况下,目标音频信号的质量降级。这样的音频质量降级尤其是在拥挤的公共环境(诸如办公室区域、呼叫中心、自助餐厅等等)中可以容易地注意到。因此,即使在嘈杂环境中也实现目标音频信号的较高音频质量的音频增强解决方案是合意的。
发明内容
根据本文中还讨论的各种实施例,提供了用于使用视频数据的音频信号增强的系统和方法。在一些实施例中,这样的系统和方法即使在嘈杂环境中也可以提供允许目标音频(例如,一个或多个目标音频源的话音)的增强的受监督音频/视频架构。在一些方面,这样的系统和方法可以用于提供音频信号,并且在一些情况下提供视频信号,以供在语音应用(诸如通过互联网协议的语音应用)中使用。
在一个或多个实施例中,方法包括接收包括由多个音频输入设备检测的音频输入的多信道音频信号。方法还包括接收由视频输入设备捕获的图像。方法还包括至少部分地基于图像来确定第一信号。第一信号指示与目标音频源相关联的可能性。方法还包括至少部分地基于多信道音频信号和第一信号来确定第二信号。第二信号指示与归因于目标音频源的音频分量相关联的可能性。方法还包括至少部分地基于第二信号来处理多信道音频信号以生成输出音频信号。
在一个或多个实施例中,系统包括视频子系统和音频子系统。视频子系统被配置成接收由视频输入设备捕获的图像。视频子系统包括识别部件,其被配置成至少部分地基于图像来确定第一信号。第一信号指示与目标音频源相关联的可能性。音频子系统被配置成接收包括由多个音频输入设备检测的音频输入的多信道音频信号。音频子系统包括被配置成至少部分地基于多信道音频信号和第一信号来确定第二信号的逻辑部件。第二信号指示与归因于目标音频源的音频分量相关联的可能性。音频子系统还包括音频处理部件,其被配置成至少部分地基于第二信号来处理多信道音频信号以生成输出音频信号。
本公开的范围由权利要求限定,所述权利要求通过引用并入到本部分中。通过考虑一个或多个实施例的以下具体实施方式,将向本领域技术人员提供对本公开的较完整的理解,以及其附加优点的实现。将对附图的附页进行参考,所述附图将首先被简要描述。
附图说明
参考以下附图和后面的具体实施方式,可以较好地理解本公开的各方面及其优点。应当认识到,相同的参考标号用于标识附图中的一个或多个中图示的相同元件,其中所述附图中的示出是为了图示本公开的实施例的目的,而不是为了限制本公开的实施例的目的。附图中的部件不一定是按比例的,而是将重点放在清楚地图示本公开的原理上。
图1图示了根据本公开的一个或多个实施例的示例操作环境,在其中系统可以操作以促进音频源增强。
图2图示了根据本公开的一个或多个实施例的用于促进音频源增强的音频/视频处理系统的高级图。
图3图示了根据本公开的一个或多个实施例的包括视频子系统和音频子系统的示例系统。
图4A图示了输入视频帧的示例。
图4B图示了根据本公开的一个或多个实施例的通过处理图4A的输入视频帧的背景获得的输出视频帧的示例。
图5图示了根据本公开的一个或多个实施例的包括用于支持多个目标音频源的视频子系统和音频子系统的示例系统。
图6图示了根据本公开的一个或多个实施例的使用视频数据促进的音频源增强的示例过程的流程图。
图7图示了根据本公开的一个或多个实施例的用于实现音频源增强的示例电子系统。
具体实施方式
以下阐述的具体实施方式旨在作为主题技术的各种配置的描述,而不旨在表示可以在其中实践主题技术的唯一仅有配置。所附附图并入本文中并构成具体实施方式的一部分。具体实施方式包括用于提供对主题技术的透彻理解的目的的具体细节。然而,对于本领域技术人员而言将清楚明白的是,主题技术不限于本文中所阐述的具体细节,并且可以使用一个或多个实施例来实践。在一个或多个实例中,以框图形式示出了结构和部件,以便避免使主题技术的概念模糊。主题公开的一个或多个实施例由一个或多个附图图示和/或结合一个或多个附图描述,并且在权利要求中阐述。
本文中提供了各种技术来提供使用视频数据促进的音频源增强。在一些实施例中,本文中提供了受监督音频/视频系统架构,以使用视频数据促进音频信道噪声降低。在这点上,音频模态和视频模态被一起利用以促进选择性音频源增强。使用各种实施例的情况下,相对于在其中仅利用音频模态的情况,即使在嘈杂环境中也可以提供目标音频(例如,一个或多个目标音频源的话音)的较高质量。在一些方面,音频/视频系统可以认证某一用户(例如,目标音频源)并且自动控制语音应用会话(例如,呼叫)的流、监督音频噪声降低以仅增强此认证的用户且去除不想要的(例如,与其它说话者相关联的)周围噪声以及当认证的用户不存在或不参加呼叫时,将语音应用会话自动设置成睡眠模式。
音频源增强技术可以在单麦克风或多麦克风环境中实行。这样的技术通常用于增强目标音频源和/或降低或去除噪声。在一些情况下,这样的技术可以通过对噪声空间或频谱统计做出假设来增强目标音频源和/或降低或去除噪声。作为示例,通常对于会议应用,可以执行音频源增强以仅增强来自主会议用户的话音,从而抑制所有其余声音。在一些情况下,可以增强来自(例如,各自被识别为主会议用户的)多个用户的话音,同时抑制所有其余声音。
尽管本公开主要与语音应用(诸如通过因特网协议的语音(VoIP)应用)相关联地描述,但是可以利用各种实施例来促进其中可能期望音频源增强的任何应用中的音频源增强。此外,尽管通常针对多信道音频实现方式描述本公开,但在一些实施例中,本公开的实施例可应用于单信道音频实现方式。
图1图示了根据本公开的一个或多个实施例的示例操作环境100,在其中系统105可以操作以促进音频源增强。操作环境100包括系统105、目标音频源110(例如,用户的语音)和噪声源115A-C。系统105包括音频/视频(A/V)处理系统120、音频输入设备125A-D(例如,麦克风)、视频输入设备130(例如,相机)、音频输出设备135A和135B(例如,扬声器)以及视频输出设备140(例如,显示器)。在图1中图示的示例中,操作环境100被图示为房间145(例如,会议室、家庭的房间)的内部,但是设想的是,操作环境100可以包括其它区域,诸如车辆的内部、室外体育场或机场。
注意的是,虽然系统105被描绘为包括四个音频输入设备、一个视频输入设备、两个音频输出设备和一个视频输出设备,但是系统105可以包括比图1中所示出的更少或更多的音频输入设备、视频输入设备、音频输出设备和/或视频输出设备。此外,虽然系统105被描绘为围绕这些音频和视频设备中的各种,但是各种设备可以被提供在分离的外壳中和/或被提供为分离的系统的一部分,其中音频/视频处理系统120与音频输入设备125A-D、视频输入设备130、音频输出设备135A和135B和/或视频输出设备140分离并且通信地耦合到音频输入设备125A-D、视频输入设备130、音频输出设备135A和135B和/或视频输出设备140。在这点上,在一些方面,音频输入设备125A-D、视频输入设备130、音频输出设备135A和135B和/或视频输出设备140可以是音频/视频处理系统120的部分和/或以其它方式通信地耦合到音频/视频处理系统120。
音频/视频处理系统120可以接收来自音频输入设备125A-D的音频信号和来自视频输入设备130的视频信号(例如,视频帧)。音频输入设备125A-D可以捕获(例如,检测、感测)音频信号。在一些情况下,音频信号可以被称为形成多信道音频信号,其中每个信道与音频输入设备125A-D中的一个相关联。视频输入设备130可捕获(例如,检测、感测)视频信号。视频信号可以被称为视频帧或图像。音频/视频处理系统120可以使用音频处理技术来处理音频信号,以检测由目标音频源110产生的目标音频150并增强目标音频150。目标音频150是多信道音频信号的音频分量。可以通过对目标音频150增强(例如,增加幅度和/或清晰度)和/或对除了目标音频150之外的任何声音抑制(例如,减小幅度)来增强目标音频150。音频/视频处理系统120可以向音频输出设备135A和/或135B提供音频信号,以及向视频输出设备140提供视频信号(例如,静止图像或视频)。音频输出设备135A和/或135B可以输出音频信号,并且视频输出设备140可以输出视频信号以用于由一个或多个用户使用(consumption)。
目标音频源110可以是其语音将由音频/视频处理系统120增强的人。在实施例中,目标音频源110可以是参加(例如,参与)语音应用的人。例如,该人可以参加VoIP呼叫。目标音频源110可被称为(例如,至少出于VoIP呼叫的目的)授权的用户或认证的用户。目标音频源110产生将由音频/视频处理系统120增强的目标音频150(例如,话音)。除了目标音频源110之外,操作环境100中的其它音频源包括噪声源115A-C。在各种实施例中,除了目标音频150之外的所有音频被作为噪声处理。在图1中图示的示例中,噪声源115A、115B和115C分别包括播放音乐的扬声器、播放电视节目的电视机和具有转换的非目标扬声器。将认识到,在各种操作环境中可能存在其它噪声源。
音频/视频处理系统120可以处理多信道音频信号以生成增强的音频信号。在生成增强的音频信号时,音频/视频处理系统120考虑到目标音频150和(例如,由噪声源115A-C产生的)噪声可以从不同的方向到达系统105的音频输入设备125A-D,每个音频源的位置可以随时间改变,并且目标音频150和/或噪声可以反射离开房间145内的固定装置(例如,墙壁)。例如,噪声源115A-C可以在房间145内的不同位置处产生噪声,和/或目标音频源110可以在于房间145周围行走时说话。在一些实施例中,可以通过使用来自视频输入设备130的视频信号来促进对多信道音频输入的处理以获得增强的音频信号,如本文中进一步描述的。
作为示例,音频/视频处理系统120可以包括空间滤波器(例如,波束成形器),其接收音频信号、识别由目标音频源110产生的目标音频150的方向,并且在使用相长干涉和噪声消除技术的情况下输出增强音频信号(例如,也称为增强目标信号),其增强由目标音频源110产生的目标音频150(例如,话音或其它感兴趣的声音)。可以通过使用视频信号(例如,从视频信号导出的数据)来促进空间滤波器检测信号和/或增强信号的操作。
音频/视频处理系统120可以提供增强的音频信号以供在语音应用(诸如话音辨别引擎或语音命令处理器)中使用,或者在VoIP呼叫期间作为到VoIP应用的输入信号。作为示例,仅为了解释的目的,考虑VoIP应用。在各种实施例中,为了促进传输侧,音频/视频处理系统120可以用于促进跨网络的(例如,用于会议应用的)VoIP通信。VoIP通信可以仅包括语音(例如,仅包括音频信号)或者可以包括语音和视频。在一些情况下,音频/视频处理系统120可以处理来自视频输入设备130的图像(诸如使图像模糊),并且提供模糊的图像以供在VoIP呼叫中使用。可以为VoIP呼叫提供处理的图像。为了促进接收侧,音频/视频处理系统120可以(例如,直接地或经由网络)从远程设备接收信号(例如,音频信号,并且在一些情况下,视频信号),并且输出接收的信号以用于VoIP通信。例如,接收的音频信号可以经由音频输出设备135A和/或135B输出,并且接收的视频信号可以经由视频输出设备140输出。
在传输侧上可以利用一个或多个模数转换器(ADC)来数字化来自一个或多个输入设备(例如,音频输入设备、视频输入设备)的模拟信号(例如,音频信号、视频信号),并且在接收侧上可以利用一个或多个数模转换器(DAC)来从将由一个或多个输出设备(例如,音频输出设备、视频输入设备)提供的数字信号生成模拟信号(例如,音频信号、视频信号)。
图2图示了根据本公开的一个或多个实施例的用于促进音频源增强的音频/视频处理系统200的高级图。然而,可能不需要所有描绘的部件,并且一个或多个实施例可以包括在图中未示出的附加部件。在不脱离如本文中所阐述的权利要求的范围的情况下,可以做出部件的布置和类型的变化,包括附加的部件、不同的部件和/或较少的部件。在实施例中,音频/视频处理系统200可以是图1的音频/视频处理系统120、可以包括图1的音频/视频处理系统120或者可以是图1的音频/视频处理系统120的一部分。为了解释的目的,关于图1的操作环境100描述了音频/视频处理系统200,尽管音频/视频处理系统200可以用于其它操作环境中。
音频/视频系统200包括视频子系统205和音频子系统210。视频子系统205从视频输入设备220(诸如相机)接收输入视频帧c(l)(例如,图像)作为输入,并且生成输出视频帧ĉ(l)和监督信号(在图2中表示为监督)。视频子系统205提供(例如,传输)用于在语音应用215(诸如VoIP应用)中使用的输出视频帧ĉ(l),并且向音频子系统210提供(例如,传输)监督信号。输出视频帧ĉ(l)可以是视频输入帧c(l)或其处理的版本。在一方面,输入视频帧c(l)可被模糊以获得输出视频帧ĉ(l)。例如,不包括目标音频源的输入视频帧c(l)的一部分可以被模糊。
音频子系统210接收监督信号和多信道音频输入信号作为输入,该多信道音频输入信号由操作环境中的音频输入设备阵列检测到的M个音频信号x1(l)、……、xM(l)的集合形成,其中l表示时间样本。每个音频信号可由对应的音频输入设备提供并且可与音频信道(例如,也简称为信道)相关联。在图2中,音频输入设备225A 提供音频信号xl(l),并且音频输入设备225B提供音频信号xM(l)。音频输入设备225A与225B之间的省略号可表示一个或多个附加音频输入设备,或无附加输入设备(例如,M=2)。为了解释的目的,音频输入设备225A和225B是(例如,形成麦克风阵列的)麦克风,并且音频信号x1(l)和xM(l)是麦克风信号,尽管在其它实施例中,音频输入设备225A、225B和/或其它音频输入设备可以是用于向音频子系统210提供音频信号的其它类型的音频输入设备。
在一些方面,M可以至少为二,以便促进空间音频处理来增强目标音频。当多个音频输入设备可用时,多个音频输入设备可被利用来执行空间处理以改进话音增强技术的性能。这样的空间分集可以用于波束成形和/或其它方法中,以较好地检测/提取期望的源信号(例如,目标音频源的语音)并抑制干扰源信号(例如,其它人的噪声和/或语音)。在其它方面,M可以是一(例如,单麦克风),其具有适当的单音频输入处理来增强目标音频。
音频子系统210可以包括多信道噪声降低部件和门部件。多信道噪声降低部件可以促进由感兴趣的扬声器提供的音频信号的增强(例如,这样的目标音频源的话音的增强)。在实施例中,可以通过外部语音活动检测(VAD)来控制多信道噪声降低部件。在一些情况下,多信道噪声降低部件可以被配置成在几何上是自由的(例如,用户可以在360º空间中的任何地方)。门部件可以使发送到语音应用215的信号静音(例如,生成静音音频)。例如,当目标音频源不在视频输入设备220的视域中和/或不与语音应用215接合时,门部件可以使发送到语音应用215的信号静音。可以基于由视频子系统205提供和连续更新的数据(例如,一个或多个状态变量)来控制选择性静音。
多信道噪声降低部件和门部件可以至少部分地基于多信道音频输入信号和监督信号来操作。对于每个时间样本l,音频子系统210生成输出音频信号s(l)(例如,增强的音频信号),并且提供(例如,传输)输出音频信号s(l)以用于在语音应用215中使用。输出音频信号s(l)可增强与由目标音频源产生的目标音频(例如,话音)相关联的多信道音频输入信号的音频分量。在这点上,音频子系统210可分析音频信号中的每个(例如,分析每个音频信道)并且利用来自视频子系统205的数据(诸如监督信号)来确定是否存在与目标音频源相关联的这样的音频分量并且处理音频分量以获得输出音频信号s(l)。
在一些实施例中,音频/视频处理系统200可用于引导语音应用会话(例如,会议、VoIP呼叫)的流。在一方面,如果确定目标音频源不在视频输入设备的视域中或以其它方式不参加语音应用会话,则音频/视频处理系统200可以(例如,在不需要由用户手动操作的情况下)打开或关闭视频输入设备(例如,相机)和/或音频输入设备(例如,麦克风)中的一个或多个、减少回放声音和/或其它操作。在一些情况下,当目标音频源不存在或不参加会话时,语音应用会话可以被设置(例如,自动设置)成睡眠模式。
例如,如果目标音频源的注视指向视频输入设备220和/或目标音频源在视频输入设备220的阈值距离内,则可以确定目标音频源参加会话。在一些情况下,目标音频源是否参加可以取决于目标音频源的特性,诸如历史数据和/或目标音频源的关于目标音频源相对于视频输入设备220的行为的偏好。例如,这样的历史数据和/或偏好可以指示目标音频源是否具有在说话(或以其它方式参与会话)时处于视频输入设备220的视域外部的习惯和/或目标音频源在说话(或以其它方式参与会话)时是否注视视频输入设备。
使用各种实施例的情况下,音频/视频处理系统200可以认证某个用户(例如,指定/识别目标音频源)并自动控制语音应用会话。音频噪声降低可以被监督以增强认证的用户并去除任何周围噪声,包括可归因于视频输入设备220的视域外部或内部的任何未授权的扬声器的噪声。在一些情况下,当目标音频源不存在或不参加会话时,语音应用会话可以被设置(例如,自动设置)成睡眠模式。
视频子系统205和音频子系统210中的每个可以包括适当的输入/接口电路,以分别接收和处理视频信号和音频信号。这样的输入/接口电路可以用于实现抗混叠滤波、模数转换和/或其它处理操作。注意的是,图2图示了音频/视频处理系统200的传输侧。在一些情况下,音频/视频处理系统200还包括接收侧以接收音频信号和/或视频信号并将接收的信号提供给输出设备。
图3图示了根据本公开的一个或多个实施例的包括视频子系统305和音频子系统310的示例系统300。然而,可能不需要所有描绘的部件,并且一个或多个实施例可以包括在图中未示出的附加部件。在不脱离如本文中所阐述的权利要求的范围的情况下,可以做出部件的布置和类型的变化,包括附加的部件、不同的部件和/或较少的部件。在实施例中,视频子系统305可以是图2的视频子系统205或其一部分、可以包括图2的视频子系统205或其一部分、可以是图2的视频子系统205或其一部分的一部分,或者可以以其它方式实现图2的视频子系统205或其一部分。在实施例中,音频子系统310可以是图2的音频子系统210或其一部分、可以包括图2的音频子系统210或其一部分、可以是图2的音频子系统210或其一部分的一部分、或者可以以其它方式实现图2的音频子系统210或其一部分。
视频子系统305包括面部检测部件315、面部识别部件320、唇部运动检测部件325和视频处理部件330。面部检测部件315(例如,也被称为面部检测器和/或由面部检测器实现)从视频输入设备(例如,相机)接收输入视频帧c(l)。在这点上,视频输入设备可捕获输入视频帧c(l)并将输入视频帧c(l)提供给面部检测部件315。输入视频帧c(l)包括视频输入设备的视域(例如,也称为视野)内的图像数据。
对于输入视频帧c(1),面部检测部件315针对输入视频帧c(1)中的面部进行检测,并针对输入视频帧c(1)中的每个检测到的面部生成面部检测信号。如果在输入视频帧c(l)中没有检测到面部,则由面部检测部件315生成的面部检测信号可以指示在输入视频帧c(l)中没有检测到面部。在图3中,面部检测部件315检测输入视频帧c(1)中的N个面部,并生成面部检测信号bn(1),其中n=1、……、N并且每个面部检测信号与在输入视频帧c(1)中检测到的相应面部相关联。在这点上,面部检测部件315针对视频输入设备的视域中存在的每个说话者提供面部检测信号。因此,面部检测信号bn(l)可以被称为检测到的面部或被称为对应于检测到的面部。例如,b1(l)是与第一说话者相关联(例如,相对应)的面部检测信号,b2(l)是与第二说话者相关联的面部检测信号等等。注意的是,与每个说话者相关联的索引/识别符(例如,第一、第二)通常可以是任意的,并且用于方便识别不同的说话者。面部检测部件315向面部识别部件320提供面部检测信号bn(l)。
面部检测部件315可以确定输入视频帧c(1)中的任何面部的位置。面部检测信号bn(l)可以是或可以包括指示检测到的面部的位置的数据。通过非限制性示例,面部检测部件315可以利用梯度直方图方法、Viola Jones方法、卷积神经网络(CNN)方法(例如,诸如多任务CNN(MTCNN)方法)和/或通常适于促进面部检测的任何其它方法。在一些情况下,这些方法中的每个可以使用通用模式的集合来对人类面部进行建模,所述通用模式如果被应用于正确位置和正确尺度处的面部图像则输出高响应。在一方面,面部检测信号bn(l)中的每个是表示在输入视频帧c(l)中检测到的面部的位置和大小的边界框(例如,也被称为面部框)。例如,检测到的面部的位置和/或大小可以被表示为输入视频帧c(l)的坐标。在一些情况下,可以视觉地调整输入视频帧c(l),使得输入视频帧c(l)中的每个检测到的面部具有围绕其绘制的边界框。
在一些方面,除了位置和大小之外,面部检测部件315和/或其它检测部件可以识别检测到的面部的特征,诸如面部界标。在一个示例中,基于MTCNN的面部检测器可以针对每个检测到的面部输出两只眼睛、鼻子和嘴的两个极值的近似位置的坐标。这些面部界标可以用于将面部对准/约束到通用正面,这通常促进面部辨别(例如,使得面部辨别较容易)。在一方面,面部检测部件315可以包括用于输出边界框的面部检测器和用于识别面部界标的一个或多个界标检测器。
面部识别部件320(例如,也称为识别部件、辨别部件或面部识别器)从面部检测部件315接收面部检测信号bn(1),并处理面部检测信号bn(1)以确定面部检测信号bn(1)中的任何一个是否与目标音频源(例如,授权的用户)相关联。目标音频源可以是使用(诸如用于会议应用的)音频/视频处理系统300的用户。在这点上,在实施例中,目标音频源是其目标音频(例如,语音)将由音频/视频处理系统300增强的用户。
基于面部检测信号bn(1)中的任何一个是否与目标音频源相关联的确定,面部识别部件320生成面部检测信号b(1)和面部检测状态Fd(1)。在一些情况下,面部识别部件320还可以基于该确定来生成信号d(l)。信号d(l)可以包括促进输入视频帧c(l)的处理的数据,诸如边界框和/或面部界标检测。面部识别部件320可以确定面部检测信号bn(l)中的一个最可能与目标音频源相关联。该面部检测信号可以被提供为面部检测信号b(l)。面部识别部件320将面部检测信号b(l)传输到唇部运动检测部件325。例如,如果与面部检测信号b3(l)相关联的面部被确定为具有(例如,与其余面部检测信号相比的)作为目标音频源的最高可能性,则面部识别部件320设置b(1)=b3(l),并将面部检测信号b(l)传输到唇部运动检测部件325。在一些情况下,面部识别部件320可以确定检测到的面部中没有一个可以与目标音频源相关联(例如,检测到的面部中没有一个具有作为目标音频源的至少最小阈值可能性)。
由面部识别部件320生成的面部检测状态Fd(1)可以指示授权的用户是否被确定存在于输入视频帧c(1)中。在这点上,面部检测状态是指示由面部检测状态Fd(l)识别的音频源是目标音频源的可能性(例如,概率、置信度得分)的信号。在一个方面,面部检测状态Fd(l)可以是二进制信号。例如,在这些情况下,仅当在视频输入设备的视域中检测到目标音频源(例如,目标音频源被确定为在视频输入设备的视域中)时,面部检测状态Fd(l)才可以是1,以及在其它情况下是0。在一些情况下,面部检测状态Fd(l)可考虑目标音频源是否被确定为与语音应用接合。在这些情况下,仅当目标音频源在视频输入设备的视域中被检测到并且参加语音应用时,面部检测状态Fd(l)才可以是1,以及在其它情况下是0。例如,可以基于目标音频源的注视的方向和/或估计在目标音频源和视频输入设备之间的距离来确定目标音频源被接合。在另一方面,面部检测状态Fd(l)不是二进制的,并且可以是由面部检测状态Fd(l)识别的音频源是目标音频源的可能性(例如,在0和1之间)。
在一些方面,为了进行确定,面部识别部件320可以确定与面部检测信号bn(1)相关联的检测到的面部中的任何一个是否足够接近先前面部识别符(在图3中表示为先前ID),也称为预定义面部识别符。先前面部识别符可以是音频/视频处理系统300的目标音频源(例如,授权/认证的用户)的面部,或者可以与音频/视频处理系统300的目标音频源的面部相关联。在一方面,先前面部识别符可以是目标音频源的数据(诸如图像),其可以与在输入视频帧c(l)中检测到的面部进行比较。
作为一个示例,可以在激活的登记/注册阶段期间确定先前面部识别符。例如,在一些情况下,意图使用音频/视频处理系统305和/或与促进语音应用相关联的其它部件的人可能需要订阅或以其它方式注册以使用相关联的装备和/或软件。先前面部识别符可以是预先注册的面部。在这点上,用户将自己预先注册为音频/视频处理系统300的授权的用户(例如,至少为了使用语音应用(诸如图2的语音应用215)的目的)。然后,用户可以在登记/注册之后立即和/或在稍后的时间继续利用语音应用。作为另一示例,(为了语音应用会话的目的)可以通过假设目标音频源是视频输入设备的视野中的主正面,而在语音应用会话(例如,呼叫)开始时确定先前面部识别符。在这点上,音频/视频处理系统305将位于通信地耦合到音频/视频处理系统305的视频输入设备前方的用户识别为目标音频源。在一些情况下,可以基于面部的大小和/或注视的方向将面部确定/识别为与授权的用户相关联。例如,如果人的注视远离视频捕获设备(例如,人未与视频捕获设备接合)或者如果人走过视频捕获设备,则在视频捕获设备的视域前方具有最大面部的人可以被确定为不是授权的用户。在一些情况下,意图在没有先前登记/注册的情况下使用音频/视频处理系统305来促进应用(例如,语音应用)的人是否可以取决于来自音频/视频处理系统305的所有者和/或制造商的设置和/或与促进应用相关联的其它部件,取决于来自应用的提供商的设置(例如,安全设置、隐私设置)和/或取决于其它实体和/或因素。
在一些方面,用户的辨别/识别不涉及确定用户的实际身份,并且不涉及存储用户的数据(例如,诸如面部界标特性的生物统计)。在这点上,辨别/识别用户可以涉及能够在一个会话或多个会话期间(例如,基于面部特性和/或在不确定任何实际身份的情况下)将某个用户与其它用户区分开,其中利用从分析包含面部的图像和/或分析音频(例如,语音)获得的做出这样的区分的数据。
在一些方面,深度视频嵌入可以用作面部检测信号bn(l)的处理或作为面部检测信号bn(l)的处理的一部分,以确定面部(例如,面部界标)是否足够接近先前的面部识别符。面部识别部件320可以使用基于深度卷积神经网络(DCNN)的方法来辨别面部,诸如目标音频源的面部。在这样的方法中,面部识别部件320可以在输入视频帧c(1)中接收面部界标(例如,人的唇部、鼻子、眼睛、前额等的位置、大小和/或形状)。在一些情况下,面部界标可以由面部识别部件320从面部检测部件315接收。DCNN可以被训练以将给定的面部图像补片嵌入(例如,映射)到D维向量f中。该DCNN独立于环境条件差异和/或影响面部图像的微小姿势差异而将相同个体的面部图像映射到相同或类似的向量f。在任何两个面部(例如,具有嵌入向量f1的第一面部和具有嵌入向量f2的第二面部)之间的类似性可以经由它们的对应的嵌入向量f1和f2之间的度量(诸如L2类似性或余弦类似性)来确定(例如,计算、表示)。为了避免假阳性,两个不同个体的面部向量之间的类似性优选地足够大(例如,面部向量之间的类似性高于阈值)。
为了训练这样的网络,假设面部数据集的可用性。在一些情况下,面部数据集可以包括具有变化的姿势、照明、化妆和其它现实世界条件的可用的个人的面部图像(例如,MS-Celeb-1M、CASIA-Webface)。DCNN的每个训练批可以包括从面部数据集采样的数据三元组。每个数据三元组可以包括个体的面部图像(例如,称为锚(a))、具有一些现实世界变化的相同个体的另一面部图像(例如,称为阳性(p))和不同个体的面部图像(例如,称为阴性(n))。为了开始训练过程,可以随机初始化DCNN的权重。该随机初始化的DCNN可以用于确定对于给定三元组的三个面部图像中的每个的面部向量,以便最小化三元组损失。如果锚与阳性面部向量之间的距离大,或者相反地,如果锚与阴性面部向量之间的距离小,则三元组损失可能需要使DCNN恶化(penalize)。
在一些方面,可替代地或除了前述方法以外,面部识别部件320可以利用其它方法来促进目标音频源的检测。面部识别部件320可以使用本征面部方法(例如,除面部图像集合的协方差矩阵的本征向量外还涉及学习分类器)来执行面部辨别,和/或可以计算针对数据集的所有面部的线边缘图并且利用分类器来区分传入的面部图像。各种方法可以利用先前已经登记(例如,先前为了使用语音应用或其它应用的目的而注册)的用户面部。
唇部运动检测部件325接收面部检测信号b(1),并检测与(例如,被确定为目标音频源的)该检测到的面部相关联的任何唇部运动。目标音频源是否正在说话可以至少部分地基于任何检测到的唇部运动。唇部运动部件325生成唇部运动检测状态Lp(l),并将唇部运动检测状态Lp(1)传输到音频监督逻辑部件340。唇部运动检测状态Lp(l)指示目标音频源的唇部是否正在移动的概率(例如,可能性、置信度得分)。在一些情况下,唇部运动检测状态Lp(l)指示目标音频源是否正在说话的概率(例如,可能性、置信度得分)。
为了检测唇部运动,唇部运动检测部件325可以识别(例如,放置、定位)与面部检测信号b(1)相关联的检测到的面部的唇部上的多个界标。在一些情况下,对于给定的面部,可以确定(例如,估计)上唇部和下唇部之间的相对距离,以确定唇部是张开的还是闭合的。如果相对距离跨(例如,由视频输入设备捕获的)帧改变足够(例如,改变超过阈值量),则唇部运动检测部件325可以确定唇部正在移动。
视频处理部件330可以接收包括边界框和面部界标检测的面部检测输出作为输入。作为示例,在一个实施例中,视频处理部件330被实现为背景模糊部件。在这样的实施例中,这样的信息(总地表示信号d(l))可以用于限定面部周围的遮罩(mask)。该遮罩识别/表示输入视频帧c(1)的将由背景模糊部件模糊的部分。无论使用面部界标的边界框还是凸包多边形,都可以执行检测到的面部区域的形态学膨胀,使得人的毛发和颈部不被弄模糊。模糊本身可以是高斯模糊、盒模糊或通常任何其它类型的模糊。模糊可以从输入视频帧c(l)中去除高频信息,使得如果在输入视频帧c(l)中存在其它人,则在应用模糊之后不能辨别他们的面部。在一些情况下,整个背景区可以由单个颜色代替。单个颜色可以是场景的平均背景。在一些情况下,可以利用用户选择的静态背景或用户选择的移动背景来代替背景区。作为示例,独立于授权用户的实际位置,背景区可以利用办公室背景或(例如,由授权的用户选择的)自然启发的背景代替。在一些情况下,去除、代替和/或模糊背景区可以增强(例如,目标音频源、其它人和/或位置的)隐私。
基于信号d(1),背景模糊部件可以模糊检测到的授权的用户的面部周围的任何区域。在一个方面,信号d(l)提供识别输入视频帧c(l)的围绕检测到的授权的用户的面部的区域的遮罩区域。可替代地,信号d(1)提供面部的区域,使得背景模糊部件模糊面部区域外部的任何区域。在一些情况下,模糊可以(例如,为授权的用户和/或授权的用户的周围环境)提供隐私和/或(例如,当输入视频帧的其它方面被模糊时)促进目标音频源的检测。在一些情况下,如果没有检测到目标音频源,则整个输入视频帧被模糊或消隐。
图4A和4B图示了根据本公开的一个或多个实施例的通过处理输入视频帧c(l)的背景获得的输入视频帧c(l)(标记为405)和输出视频帧ĉ(l)(标记为410)的示例。在图4A中,输入视频帧405包括(例如,由面部识别部件320)确定为目标音频源的人415、立体声系统420、人425和人430。如图4B中所示,处理输入视频帧405,使得输出视频帧410包括人415,并且输入视频帧405的其余部分(例如,其背景)利用对角线背景代替。注意的是,在一些情况下,视频子系统305可包括对象检测部件(例如,也被称为对象检测器)以检测输入视频帧中可以是噪声源的对象,诸如立体声系统420。检测到的对象可以被识别并用于促进音频噪声降低。
由于背景模糊部件在每一帧处接收面部检测输入,因此背景模糊部件可以实现与授权的用户的移动一致(例如,跟踪授权的用户的移动)的背景的模糊。例如,当目标音频源直立、移动他或她的头部等等时,背景的模糊可能跟随目标音频源。在一些情况下,可以对由视频输入设备在视频帧中捕获的目标音频源的整个身体进行分割,使得目标音频源的手和/或其它身体部分不被弄模糊。例如,通过不弄模糊授权的用户的身体部分,授权的用户可以使用身体语言和手势来传达数据。可以使用基于DCNN的语义分割或身体姿势估计(例如,基于DCNN的OpenPose)来执行分割。
尽管前述内容描述了视频处理部件330将模糊应用于输入视频帧c(1)的实施例,但是视频处理部件330可以以替代应用模糊或除了应用模糊之外的其它方式来处理输入视频帧c(1)。作为一个示例,滤波器可以应用于输入视频帧c(l)以增强目标音频源的可见性。作为另一示例,在某些应用中,可将滤波器应用于输入视频帧c(l)以调整目标音频源的外观,诸如为了隐私考虑和/或基于目标音频源的偏好。在一些情况下,视频处理部件330是可选的。例如,在一些情况下,不利用处理部件,使得输出视频帧ĉ(l)可与输入视频帧c(l)相同。
现在转到音频子系统310,音频子系统310包括音频VAD部件335、音频监督逻辑部件340和音频处理部件345。音频VAD部件335接收(由音频输入x1(1)、……、xM(l)形成的)多信道音频信号,并且至少部分地基于对多信道音频信号执行VAD技术来生成VAD信号a(l)。音频VAD部件335可以是外部的(例如,基于神经网络推断的)基于音频的VAD。音频VAD部件335可利用任何适当的VAD技术来识别音频信号的不同部分并确定音频信号的任何部分(例如,任何音频分量)是否可归因于目标音频源。在这点上,VAD可用于确定目标音频源是否正在说话(例如,产生目标音频)。在一些实施例中,VAD可以与诸如广义特征值(GEV)波束成形(例如,也称为最大SNR波束成形)技术和受监督独立向量分析(IVA)技术之类的多信道语音增强技术一起利用。例如,并入广义本征向量跟踪的波束成形技术可以用于增强所接收的音频信号中的目标音频。
在一些方面,音频VAD部件335可用于确定音频输入是话音还是非话音,并且视频子系统305(例如,由视频子系统305提供的Lp(1)和Fd(1))可用于确定活动是目标音频(例如,目标话音)还是干扰音频(例如,干扰话音)。在这点上,音频VAD部件335在一些情况下不用于在两个(或更多)扬声器之间进行区分。例如,VAD信号a(l)可以指示人正在说话的概率(例如,可能性、置信度得分)。当目标音频源不在说话时,与识别目标音频源正在说话相关联的假阳性可以在单独利用音频模态时发生,并且类似地可以在单独利用视频模态时发生。例如,对于视频模态,唇部运动检测状态Lp(1)有时可能产生假阳性。作为示例,在对话期间,说话者可以在不发出声音的情况下产生唇部的移动。使用各种实施例的情况下,可以通过将音频和视频模态组合在一起来减少当目标音频源实际上不说话时与识别目标音频源正在说话相关联的错误检测。在一种情况下,音频和视频模态可以通过取最小值a(l)和Lp(l)(例如,a(l)和Lp(l)中的较小值)来组合,以减少每个模态的错误检测,如关于音频监督逻辑部件340所讨论的。
音频监督逻辑部件340生成音频-视频VAD监督信号p(1)和硬门信号g(1)。至少部分地基于面部检测状态Fd(l)、唇部运动检测状态Lp(l)和VAD信号a(l)来生成信号p(l)和g(l)。在一些情况下,音频监督逻辑部件340可以应用面部检测状态Fd(l)、唇部运动检测状态Lp(l)和VAD信号a(l)的非线性组合来生成信号p(l)和g(l)。面部检测状态Fd(l)和唇部运动检测状态Lp(l)可共同提供图2中图示的监督信号。在这点上,面部检测状态Fd(l)和唇部运动检测状态Lp(l)提供促进通过音频子系统310的音频处理的数据。
作为示例,(仅为了解释的目的)假设所有状态变量(例如,Lp(1)、Fd(1)、a(1)和/或其它)是二进制的或限制在0和1之间的范围内,p(1)可以被定义为a(1)和Lp(1)之间的最小值(例如,p(1)=min(a(1),Lp(1))。在该示例情况下,在利用“min”组合时,可以假设每个模态(例如,音频和视频)被设计成产生具有比假阴性更多的假阳性的目标话音检测。类似地,作为示例,g(1)可以被定义为Fd(1)和a(1)之间的最小值(例如,g(1)=min(a(1),Fd(1))。在一些情况下,对于g(1),可以应用时间平滑来防止门控产生令人不快的快速不连续性。
在一些方面,来自视频子系统305的这样的数据可促进VAD(诸如基于神经网络的VAD)的利用,其通常用于在存在孤立地观察干扰噪声的高置信度的情况下、甚至在噪声包括由(一个或多个)干扰扬声器产生的话音的情况下,识别信号的部分。在这样的情况下,可以通过利用音频模态以及视频模态(例如,通过视频子系统305的监督)而不是排他地利用音频模态来促进噪声降低。
音频-视频VAD监督信号p(1)可以控制自适应多信道滤波器的噪声和语音统计的估计。音频-视频VAD监督信号p(l)可指示多信道音频信号的音频分量实际上属于目标音频源(例如,正对正确音频分量执行增强)的概率(例如,可能性、置信度得分)。硬门信号g(1)可用于使输出信号硬静音或不静音。例如,当存在没有目标音频源在视频捕获设备的视域中或参加呼叫的高概率(例如,至少部分地基于Fd(l)和Lp(l)的值)时,硬门信号g(l)可以用于使输出信号硬静音。在一方面,音频监督逻辑部件340和音频处理部件345可以共同实现音频子系统310的多信道噪声降低部件和门部件。
在一些实施例中,音频/视频处理系统300可用于引导语音应用会话(例如,会议、VoIP呼叫)的流。在一方面,如果确定目标音频源不在视频输入设备的视域中或以其它方式不参加语音应用会话,则音频/视频处理系统300可以(例如,在不需要由用户手动操作的情况下)打开或关闭视频输入设备(例如,相机)和/或音频输入设备(例如,麦克风)中的一个或多个、减少回放声音和/或其它操作。在一些情况下,当目标音频源不存在或不参加会话时,语音应用会话可以被设置(例如,自动设置)成睡眠模式。在一种情况下,当面部检测状态Fd(l)具有指示目标音频源不在视频输入设备的视域中的状态(例如,值)时,音频/视频处理系统300可以使音频回放静音(例如,将输出音频信号s(l)设置为零)。使音频回放静音还可以在语音应用会话的下行链路中改进隐私。
视频子系统305和音频子系统310中的每个可以包括适当的输入/接口电路,以分别接收和处理视频信号和音频信号。这样的输入/接口电路可以用于实现抗混叠滤波、模数转换和/或其它处理操作。注意的是,图3图示了音频/视频处理系统300的传输侧。在一些情况下,音频/视频处理系统300还包括接收侧以接收音频信号和/或视频信号并将接收的信号提供给输出设备。
因此,使用各种实施例的情况下,通过利用视频信号(例如,c(1))来促进从多信道音频信号生成增强的音频信号(例如,s(1))。从视频输入信号(例如,c(l))和音频输入信号(例如,多信道音频信号)辨别/识别用户并且生成适当的输出视频信号(例如,ĉ(l))和输出音频信号(例如,s(l))可以涉及能够在应用(例如,语音应用)的一个会话或多个会话期间将某个用户与其它用户进行区分。某个用户与其它用户的区分可以被表示为概率(例如,可能性、置信度得分),并且可以至少部分地基于输出信号,诸如bn(l)、b(l)、d(l)、Lp(l)、Fd(l)、a(l)、p(l)和g(1),其通过由视频子系统305对视频信号的适当分析以及由音频子系统310对视频子系统305的音频信号和输出信号(例如,Lp(1)、Fd(1))的适当分析而获得。
图5图示了根据本公开的一个或多个实施例的包括视频子系统505和音频子系统510的示例系统500。然而,可能不需要所有描绘的部件,并且一个或多个实施例可以包括图中未示出的附加部件。在不脱离如本文中所阐述的权利要求的范围的情况下,可以做出部件的布置和类型的变化,包括附加的部件、不同的部件和/或较少的部件。在实施例中,视频子系统505可以是图2的视频子系统205或其一部分,可以包括图2的视频子系统205或其一部分,可以是图2的视频子系统205或其一部分的一部分,或者可以以其它方式实现图2的视频子系统205或其一部分。在实施例中,音频子系统510可以是图2的音频子系统210或其一部分,可以包括图2的音频子系统210或其一部分,可以是图2的音频子系统210或其一部分的一部分,或者可以以其它方式实现图2的音频子系统210或其一部分。
视频子系统505包括面部检测部件515、面部识别部件520、唇部运动检测部件525和视频处理部件530。音频子系统510包括音频VAD部件535、音频监督逻辑部件540和音频处理部件545。对图3的描述总体上应用到图5,为了清楚起见,提供了图3和图5之间的差异的示例和其它描述。在这点上,图5的音频/视频处理系统500的部件可以以与图3的音频/视频处理系统300的各种对应部件相同或类似的方式实现。
在图5中,音频/视频处理系统500可用于促进针对多个目标音频源的音频信号增强(例如,同时的音频信号增强)。在这点上,可以针对多个目标音频源生成增强的音频流。作为示例,针对第m个目标音频源(例如,第m个认证的用户),面部识别部件520可以提供面部检测信号bm(l)、信号dm(l)和面部检测状态Fdm(l);唇部运动检测部件525可以提供唇部运动检测状态Lpm(l);音频VAD部件535可提供VAD信号am(l);音频监督逻辑部件540可以提供音频-视频VAD监督信号pm(l)和硬门信号gm(l);视频处理部件530可提供输出视频帧ĉm(l);以及音频处理部件545可提供输出音频信号sm(l)。面部识别部件520可以至少部分地基于多个先前面部识别符(表示为先前ID)将每个检测到的面部与多个目标音频源中的一个相关联。图3图示了图5的示例情况,其中音频/视频处理系统300容纳单个目标音频源。
图6图示了根据本公开的一个或多个实施例的用于使用视频数据促进的音频源增强的示例过程600的流程图。为了解释的目的,本文中参考图3的音频/视频处理系统300描述了示例过程600,尽管示例过程600可以与其它系统一起利用。注意的是,一个或多个操作可以如期望的那样被组合、省略和/或以不同的顺序执行。
在框605处,视频子系统305接收由视频输入设备(例如,相机)捕获的图像(例如,输入视频帧c(1))。在框610处,音频子系统310接收包括由多个音频输入设备(例如,麦克风)检测到的音频输入(例如,x1(l)、……、xM(l))的多信道音频信号。
在框615处,视频子系统305至少部分地基于图像来确定指示与目标音频源相关联的可能性(例如,概率、置信度得分)的第一信号。在一些方面,第一信号可指示图像中的检测到的面部是目标音频源的面部的可能性。在一些情况下,第一信号可以是由面部识别部件320生成的面部检测状态Fd(l)。面部检测状态Fd(l)可以是二进制信号或非二进制信号。
在框620处,音频子系统310确定指示与归因于目标音频源的音频相关联的可能性的第二信号。可以至少部分地基于在框615处由视频子系统305生成的第一信号来确定第二信号。在一些情况下,可以还基于检测到的唇部运动(例如,唇部运动检测状态Lp(l))和音频VAD信号(例如,a(l))来确定第二信号。在一些方面,第二信号可指示在多信道音频信号中检测到的音频分量属于目标音频源的可能性。在一些情况下,第二信号可以是由音频监督逻辑部件340生成的音频-视频VAD监督信号p(l)。
在框625处,音频子系统310至少部分地基于第二信号来处理多信道音频信号,以生成输出音频信号(例如,增强的音频信号s(1))。在框630处,视频子系统305处理图像以生成输出视频信号(例如,ĉ(l))。在一方面,视频子系统305可将模糊应用于图像。在框635处,音频/视频处理系统300传输输出音频信号(例如,以用于在语音应用中使用)。在框640处,音频/视频处理系统300传输输出视频信号(例如,以用于在语音应用中使用)。在一些情况下,诸如当语音应用涉及仅语音呼叫时,框630和640可以是可选的。
图7图示了根据本公开的一个或多个实施例的用于实现音频源增强的示例电子系统700。然而,可能不需要所有描绘的部件,并且一个或多个实施例可以包括图中未示出的附加部件。在不脱离如本文中所阐述的权利要求的范围的情况下,可以做出部件的布置和类型的变化,包括附加的部件、不同的部件和/或较少的部件。
电子系统700包括一个或多个处理器705、存储器710、输入部件715、输出部件720和通信接口725。电子系统700的各种部件可以通过总线或其它电子通信接口进行对接和通信。电子系统700,例如,可以是或者可以耦合到移动电话、平板电脑、膝上型计算机、台式计算机、汽车、个人数字助理(PDA)、电视机、扬声器(例如,具有图像捕获能力的会议扬声器)或者通常接收(例如,来自音频输入设备和视频输入设备的)音频和视频信号并且将信号直接传输或经由网络传输到其它设备的任何电子设备。
(一个或多个)处理器705可包括以下中的一个或多个:处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件(PLD)(例如,现场可编程门阵列(FPGA))、数字信号处理(DSP)设备或可通过硬接线、执行软件指令或两者的组合来配置以执行本文中所讨论的用于音频源增强的各种操作的其它设备。在这点上,(一个或多个)处理器705可以可操作以执行存储在存储器710和/或其它存储器部件中的指令。在实施例中,(一个或多个)处理器705可以分别执行对图1、2、3和5的音频/视频处理系统120、200、300和500的各种部件的操作。作为示例,(一个或多个)处理器705可以从音频输入设备(例如,图1中的125A-D)接收多信道音频输入信号,并且从视频输入设备(例如,图1中的130)接收图像并且处理这些音频和视频信号。
存储器710可以被实现为可操作以存储数据的一个或多个存储器设备,该数据包括音频数据、视频数据和程序指令。存储器710可以包括一种或多种类型的存储器设备,包括易失性和非易失性存储器设备,诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、硬盘驱动器和/或其它类型的存储器。
输入部件715可以包括一个或多个设备以接收输入。在一方面,输入部件715可以包括可以包括触摸屏、触摸板显示器、小键盘、一个或多个按钮、拨号盘或旋钮和/或可操作以使用户能够与电子系统700交互的其它部件。在一些情况下,输入部件715可以包括(一个或多个)音频输入设备(例如,麦克风)或(一个或多个)视频输入设备(例如,相机)。例如,输入部件715可以向(一个或多个)处理器705提供输入音频信号和输入视频信号。在其它情况下,输入部件715不包括为了音频源增强的目的而向(一个或多个)处理器705提供输入音频信号和输入视频信号的(一个或多个)音频输入设备和/或(一个或多个)视频输入设备。输出部件720可以包括用于发出音频和/或视频输出的一个或多个设备。在一些情况下,输出部件720可以包括(一个或多个)音频输出设备(例如,扬声器)或(一个或多个)视频输入设备(例如,显示器)。
通信接口725促进电子系统700与网络和外部设备之间的通信。例如,通信接口725可以实现电子系统700与一个或多个本地设备(诸如外部设备730)之间的Wi-Fi(例如,IEEE802.11)或蓝牙连接,或者实现到无线路由器的连接以经由网络740提供到外部设备735的网络访问。在各种实施例中,通信接口725可以包括用于促进电子系统700与其它设备之间的直接或间接通信的有线和/或其它无线通信部件。作为示例,电子系统700的(一个或多个)用户可以经由电子系统700与网络740之间以及网络740与外部设备735之间的无线通信与外部设备735的(一个或多个)用户进行VoIP呼叫。
在可适用的情况下,由本公开提供的各种实施例可以使用硬件、软件或硬件和软件的组合来实现。此外,在可适用的情况下,在不脱离本公开的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下,在不脱离本公开的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以被分离成包括软件、硬件或两者的子部件。此外,在可适用的情况下,设想的是软件部件可以被实现为硬件部件,反之亦然。
根据本公开,软件(诸如程序代码和/或数据)可以存储在一个或多个计算机可读介质上。还设想的是,本文中所确定的软件可使用联网的和/或以其它方式的一个或多个通用或专用计算机和/或计算机系统来实现。在可适用的情况下,本文中所描述的各种步骤的顺序可以被改变、组合成复合步骤和/或分离成子步骤以提供本文中所描述的特征。
前述公开不旨在将本公开限制于公开的精确形式或特定使用领域。因此,设想的是根据本公开,对本公开的各种替代实施例和/或修改(无论本文中明确描述还是暗示)是可能的。已经像这样描述了本公开的实施例,本领域普通技术人员将认识到,在不脱离本公开的范围的情况下,可以在形式和细节上做出改变。因此,本公开仅由权利要求限制。
Claims (20)
1.一种方法,包括:
接收包括由多个音频输入设备检测的音频输入的多信道音频信号;
接收由视频输入设备捕获的图像;
至少部分地基于所述图像来确定第一信号,其中所述第一信号指示与目标音频源相关联的可能性;
至少部分地基于所述多信道音频信号和所述第一信号来确定第二信号,其中所述第二信号指示与归因于所述目标音频源的音频分量相关联的可能性;以及
至少部分地基于所述第二信号来处理所述多信道音频信号以生成输出音频信号。
2.根据权利要求1所述的方法,其中所述处理增强了归因于所述目标音频源的所述音频分量,并且其中所述多个音频输入设备包括麦克风的阵列。
3.根据权利要求1所述的方法,还包括:
接收多个图像;
将所述多个图像中的音频源识别为所述目标音频源;以及
至少部分地基于所述多个图像对所述音频源执行唇部运动检测,其中所述第二信号还基于所述唇部运动检测。
4.根据权利要求1所述的方法,其中所述处理所述多信道音频信号包括至少部分地基于以下内容来处理所述多信道音频信号以生成静音的音频:所述目标音频源是否被确定为在所述图像中、所述目标音频源相对于所述视频输入设备的位置、所述目标音频源的注视的方向和/或是否检测到所述目标音频源的唇部运动。
5.根据权利要求1所述的方法,其中所述第一信号是二进制信号,并且其中所述二进制信号至少部分地基于所述目标音频源被确定为在所述图像中而处于第一状态。
6.根据权利要求1所述的方法,还包括:
检测所述图像中的至少一个面部;以及
至少部分地基于预定义面部识别符来将所述至少一个面部中的一个识别为所述目标音频源。
7.根据权利要求1所述的方法,还包括对所述多信道音频信号执行音频语音活动检测(VAD)以生成VAD信号,其中至少部分地基于所述VAD信号来确定所述第二信号。
8.根据权利要求1所述的方法,还包括:
确定所述目标音频源在所述图像中的位置;以及
至少部分地基于所述位置来处理所述图像以生成输出视频信号。
9.根据权利要求8所述的方法,还包括通过网络将所述输出音频信号和所述输出视频信号传输到外部设备。
10.根据权利要求8所述的方法,其中所述处理所述图像包括至少部分地基于所述位置来模糊所述图像的一部分以生成所述输出视频信号。
11.根据权利要求8所述的方法,其中如果确定所述目标音频源不在所述图像中,则所述输出视频信号包括完全模糊的图像或完全消隐的图像。
12.根据权利要求1所述的方法,还包括至少部分地基于所述图像来确定所述目标音频源的注视的方向,其中所述第一信号和/或所述第二信号还基于所述注视的所述方向。
13.根据权利要求1所述的方法,还包括传输所述输出音频信号以用于在通过因特网协议的语音(VoIP)应用中使用。
14.根据权利要求13所述的方法,还包括至少基于所述目标音频源相对于所述视频输入设备的位置来将所述VoIP应用的会话设置成睡眠模式。
15.一种系统,包括:
视频子系统,其配置成接收由视频输入设备捕获的图像,所述视频子系统包括:
识别部件,其配置成至少部分地基于所述图像来确定第一信号,其中所述第一信号指示与目标音频源相关联的可能性;以及
音频子系统,其配置成接收包括由多个音频输入设备检测的音频输入的多信道音频信号,所述音频子系统包括:
逻辑部件,其配置成至少部分地基于所述多信道音频信号和所述第一信号来确定第二信号,其中所述第二信号指示与归因于所述目标音频源的音频分量相关联的可能性;以及
音频处理部件,其配置成至少部分地基于所述第二信号来处理所述多信道音频信号以生成输出音频信号。
16.根据权利要求15所述的系统,其中所述视频子系统还包括视频处理部件,所述视频处理部件配置成至少部分地基于所述目标音频源在所述图像中的位置来处理所述图像以生成输出视频信号。
17.根据权利要求16所述的系统,其中所述视频处理部件包括背景模糊部件,所述背景模糊部件配置成至少部分地基于所述位置来模糊所述图像的一部分以生成所述输出视频信号。
18.根据权利要求15所述的系统,其中:
所述识别部件还配置成将多个图像中的音频源识别为所述目标音频源;
所述视频子系统还包括唇部运动检测部件,所述唇部运动检测部件配置成至少部分地基于所述多个图像来对所述音频源执行唇部运动检测;以及
所述第二信号还基于所述唇部运动检测。
19.根据权利要求15所述的系统,其中所述音频子系统还包括音频语音活动检测(VAD)部件,其配置成对所述多信道音频信号执行VAD以生成VAD信号,其中至少部分地基于所述VAD信号来确定所述第二信号。
20.根据权利要求15所述的系统,其中所述音频处理部件配置成至少部分地基于以下内容来处理所述多信道音频信号以生成静音的音频:所述目标音频源是否被确定为在所述图像中、所述目标音频源相对于所述视频输入设备的位置、所述目标音频源的注视的方向和/或是否检测到所述目标音频源的唇部运动。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/455668 | 2019-06-27 | ||
US16/455,668 US11082460B2 (en) | 2019-06-27 | 2019-06-27 | Audio source enhancement facilitated using video data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151063A true CN112151063A (zh) | 2020-12-29 |
Family
ID=73887691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010587240.1A Pending CN112151063A (zh) | 2019-06-27 | 2020-06-24 | 使用视频数据促进的音频源增强 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11082460B2 (zh) |
JP (1) | JP2021007216A (zh) |
CN (1) | CN112151063A (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2565315B (en) * | 2017-08-09 | 2022-05-04 | Emotech Ltd | Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
FR3103955A1 (fr) * | 2019-11-29 | 2021-06-04 | Orange | Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant |
EP4073792A1 (en) * | 2019-12-09 | 2022-10-19 | Dolby Laboratories Licensing Corp. | Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics |
TWI740339B (zh) * | 2019-12-31 | 2021-09-21 | 宏碁股份有限公司 | 自動調整特定聲源的方法及應用其之電子裝置 |
US11234090B2 (en) * | 2020-01-06 | 2022-01-25 | Facebook Technologies, Llc | Using audio visual correspondence for sound source identification |
US11087777B1 (en) | 2020-02-11 | 2021-08-10 | Facebook Technologies, Llc | Audio visual correspondence based signal augmentation |
US11460927B2 (en) * | 2020-03-19 | 2022-10-04 | DTEN, Inc. | Auto-framing through speech and video localizations |
KR20210128074A (ko) * | 2020-04-16 | 2021-10-26 | 엘지전자 주식회사 | 립리딩 기반의 화자 검출에 따른 오디오 줌 |
US11915716B2 (en) | 2020-07-16 | 2024-02-27 | International Business Machines Corporation | Audio modifying conferencing system |
US11303465B2 (en) | 2020-07-16 | 2022-04-12 | International Business Machines Corporation | Contextually aware conferencing system |
US11190735B1 (en) * | 2020-07-16 | 2021-11-30 | International Business Machines Corporation | Video modifying conferencing system |
US11082465B1 (en) * | 2020-08-20 | 2021-08-03 | Avaya Management L.P. | Intelligent detection and automatic correction of erroneous audio settings in a video conference |
WO2022146169A1 (en) * | 2020-12-30 | 2022-07-07 | Ringcentral, Inc., (A Delaware Corporation) | System and method for noise cancellation |
WO2023021390A1 (en) * | 2021-08-14 | 2023-02-23 | Clearone, Inc. | Muting specific talkers using a beamforming microphone array |
WO2023234939A1 (en) * | 2022-06-02 | 2023-12-07 | Innopeak Technology, Inc. | Methods and systems for audio processing using visual information |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590941B2 (en) * | 2003-10-09 | 2009-09-15 | Hewlett-Packard Development Company, L.P. | Communication and collaboration system using rich media environments |
US20110099017A1 (en) * | 2009-10-26 | 2011-04-28 | Ure Michael J | System and method for interactive communication with a media device user such as a television viewer |
US20120013620A1 (en) * | 2010-07-13 | 2012-01-19 | International Business Machines Corporation | Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media |
KR101971697B1 (ko) * | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치 |
US9609273B2 (en) * | 2013-11-20 | 2017-03-28 | Avaya Inc. | System and method for not displaying duplicate images in a video conference |
KR102217191B1 (ko) * | 2014-11-05 | 2021-02-18 | 삼성전자주식회사 | 단말 장치 및 그 정보 제공 방법 |
US9445050B2 (en) * | 2014-11-17 | 2016-09-13 | Freescale Semiconductor, Inc. | Teleconferencing environment having auditory and visual cues |
WO2016081624A1 (en) * | 2014-11-18 | 2016-05-26 | Branch Media Labs, Inc. | Automatic identification and mapping of consumer electronic devices to ports on an hdmi switch |
EP3101838A1 (en) * | 2015-06-03 | 2016-12-07 | Thomson Licensing | Method and apparatus for isolating an active participant in a group of participants |
US10867610B2 (en) * | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
-
2019
- 2019-06-27 US US16/455,668 patent/US11082460B2/en active Active
-
2020
- 2020-06-02 JP JP2020096190A patent/JP2021007216A/ja active Pending
- 2020-06-24 CN CN202010587240.1A patent/CN112151063A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20200412772A1 (en) | 2020-12-31 |
US11082460B2 (en) | 2021-08-03 |
JP2021007216A (ja) | 2021-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11082460B2 (en) | Audio source enhancement facilitated using video data | |
US11343446B2 (en) | Systems and methods for implementing personal camera that adapts to its surroundings, both co-located and remote | |
EP3855731B1 (en) | Context based target framing in a teleconferencing environment | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US9652915B2 (en) | System and method having biometric identification intrusion and access control | |
US20190311718A1 (en) | Context-aware control for smart devices | |
US8416998B2 (en) | Information processing device, information processing method, and program | |
US20190215464A1 (en) | Systems and methods for decomposing a video stream into face streams | |
CN112088402A (zh) | 用于说话者识别的联合神经网络 | |
CN111370014A (zh) | 多流目标-语音检测和信道融合 | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
JP6562790B2 (ja) | 対話装置および対話プログラム | |
US10325600B2 (en) | Locating individuals using microphone arrays and voice pattern matching | |
WO2022206602A1 (zh) | 语音唤醒方法、装置、存储介质及系统 | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
Huang et al. | Audio-visual speech recognition using an infrared headset | |
KR20130054131A (ko) | 디스플레이장치 및 그 제어방법 | |
US11743588B1 (en) | Object selection in computer vision | |
Liciotti et al. | Advanced integration of multimedia assistive technologies: A prospective outlook | |
Anderson et al. | Robust tri-modal automatic speech recognition for consumer applications | |
Martinson et al. | Learning speaker recognition models through human-robot interaction | |
US11425412B1 (en) | Motion cues for video encoding | |
Xiong et al. | Detection of mouth movements and its applications to cross-modal analysis of planning meetings | |
CN118098256A (zh) | 会议终端的音频数据处理方法、设备及存储介质 | |
Luerssen et al. | Adaptive multimodal perception for a virtual museum guide |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |