CN104012074A - 用于数据处理系统的智能音频和视频捕捉系统 - Google Patents
用于数据处理系统的智能音频和视频捕捉系统 Download PDFInfo
- Publication number
- CN104012074A CN104012074A CN201280061091.9A CN201280061091A CN104012074A CN 104012074 A CN104012074 A CN 104012074A CN 201280061091 A CN201280061091 A CN 201280061091A CN 104012074 A CN104012074 A CN 104012074A
- Authority
- CN
- China
- Prior art keywords
- video
- equipment
- camera
- doa
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 11
- 238000009877 rendering Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000005728 strengthening Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract 3
- 230000009467 reduction Effects 0.000 description 17
- 238000013461 design Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/296—Synchronisation thereof; Control thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/243—Image signal generators using stereoscopic image cameras using three or more 2D image sensors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
- H04N2007/145—Handheld terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
计算系统包括用于检测计算系统的位置信息(包括位置和方向)的方向检测设备、耦合到所述定位检测设备的多传感器系统,所述多传感器系统用于捕捉环境输入数据,所述传感器系统包括至少音频捕捉系统和三维(3D)图像捕捉系统的其中之一,并且所述环境输入数据至少包括音频或图像中的其中之一、和至少一个耦合至所述定向检测设备和所述多传感器系统的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。
Description
相关申请案交叉申请
本发明要求2011年12月12日由周炯等人递交的发明名称为“用于数据处理系统的智能音频和视频捕捉系统(Smart Audio and Video CaptureSystems for Data Processing Systems)”的第13/323157号美国专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文本中,如全文再现一般。
技术领域
本发明涉及通信网络,尤其涉及用于数据处理系统的智能音频和视频捕捉系统。
背景技术
不同的制造商向消费者市场提供了不同的平板电脑,例如自2010年发行的产品。平板电脑,也称为个人平板电脑(例如苹果公司的iPad),是相比其他类型计算设备在文档、邮件、网上冲浪、社会活动和个人娱乐方面提供若干优势的便携设备。一般而言,平板电脑具有录音系统,使得该平板电脑能够录音,例如使能语音通信或媒体应用。该录音系统中由麦克风转换的数字数据用于进行识别、编码和传输等多种目的。由于声音环境包括噪音。为了获取清晰的声音,增强或者从噪音中分离出麦克风中记录的目标声音。一些平板电脑还具有三维(3D)视频摄像头功能,其可以用于实施与其它平板电脑或设备用户的3D视频会议。
发明内容
在一项实施例中,本发明包括计算系统,所述计算系统包括用于检测计算系统的位置信息(包括位置和方向)的定位检测设备、耦合到所述定位检测设备的多传感器系统,所述多传感器系统用于捕捉环境输入数据,所述传感器系统至少包括音频捕捉系统和三维(3D)图像捕捉系统的其中之一,并且所述环境输入数据至少包括音频或图像中的其中之一、和至少一个耦合至所述方向检测设备和所述多传感器系统的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。
在另一项实施例中,本发明包括录音系统,所述录音系统包括耦合到一个或多个麦克风的到达方向(DOA)估计部件,用于使用接收的定位信息估计检测的声音信号的DOA;耦合到所述DOA估计部件的降噪部件,用于使用所述DOA估计降低所述检测的声音信号中的噪声;以及耦合到所述降噪部件和所述DOA估计部件的去混响部件,用于使用所述DOA估计去除检测的声音信号中的混响效果。
在另一项实施例中,本发明包括三维(3D)视频捕捉系统,所述3D视频捕捉系统包括耦合到至少两个摄像头的摄像头配置设备,用于基于检测的所述3D视频捕捉系统的方向信息布置所述摄像头中的至少一些摄像头,以正确地捕捉3D视频和3D图像的其中之一;以及耦合到所述摄像头配置设备的方向检测设备,用于检测所述方向信息。
在又一项实施例中,本发明包括实施在便携设备上的录音方法,所述方法包括检测所述便携设备的方向、基于所述检测的方向调整麦克风阵列设备、使用所述调整的麦克风阵列设备记录声音信号以及基于所述检测的方向估计所述声音信号的到达方向(DOA)。
在又一项实施例中,本发明包括实施在便携设备上的三维(3D)视频捕捉方法,所述方法包括检测所述便携设备的方向、基于所述检测的方向配置多个摄像头以及使用所述配置的摄像头捕捉视频或图像。
结合附图和权利要求书,可从以下的详细描述中更清楚地理解这些和其他特征。
附图说明
为了更完整地理解本发明,现在参考以下结合附图和详细描述进行的简要描述,其中相同参考标号表示相同部分。
图1是平板电脑设计的示意图。
图2是录音系统的示意图。
图3是信号处理部件的示意图。
图4是改进的平板电脑设计的实施例的示意图。
图5是改进的录音系统的实施例的示意图。
图6是改进的信号处理部件的实施例的示意图。
图7是改进的3D视频捕捉系统的实施例的示意图。
图8是改进的录音方法的实施例的流程图。
图9是改进的3D视频捕捉方法的实施例的流程图。
图10是通用计算机系统的实施例的示意图。
具体实施方式
最初应理解,尽管下文提供一个或多个实施例的说明性实施方案,但可使用任意数目的当前已知或现有的技术来实施所公开的系统和/或方法。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术,包含本文所说明并描述的示范性设计和实施方案,而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。
新兴和未来的平板电脑可包括高级麦克风阵列,这些高级麦克风阵列可能集成到平板电脑中以提供更好的录音质量,例如,具有更高的信噪比(SNR)。高级麦克风整列设备可用于替代当前使用的检测目标声音的全向(单向)麦克风。麦克风阵列可以更适应声音传入的方向,因此可以具有更好的噪声消除属性。一种实施麦克风阵列的方法可以是基于声音源的方向和麦克风间的距离使用由阵列中的麦克风接收的声音信号的相位差来强调目标声音,从而抑制噪声。这可以通过不同的算法实现。
例如,为了增强接收的声音信号,可以使用可实施多重信号分类(MUSIC)算法的相干信号子空间过程。该算法可要求预估信号方向,其中信号方向的估计错误可显著影响该过程的最终估计。电话会议系统、人机界面和助听器等一些应用可能需要足够准确地估计声音信号的DOA。这些应用可能涉及闭室中的声音源的DOA估计。因此,来自不同方向的大量混响的存在可显著降低DOA估计算法的性能。这样,在一个充满混响的房间中,就可能需要一个更加可靠的预估计DOA来定位说话人。此外,由于与目标声音相比噪声源可能具有不同的方向,因此更加精确估计的DOA可以加强噪音消除。
另一个可能需要注意的重要场景是估计或识别平板电脑的3D视频摄像头系统的用户的脸部位置。例如,当用户与另一使用平板电脑的用户参与3D视频会议时,用户可能没有以指定的正确位置持有平板电脑或3D视频摄像头系统可能不知道平板电脑的方向。当没有以正确的位置持有平板电脑时,当前3D视频摄像头使市场中的平板电脑不一定能够捕捉正确的3D视频或图像。可能需要使用位置感知系统和摄像头配置系统,该摄像头配置系统使用位置或方向信息来自适应地配置系统的3D摄像头,以捕捉正确的3D视频/图像。
本文所揭示的是使用平板电脑允许改进的录音和3D视频/图像捕捉的系统和方法。这些系统可用于检测和获取平板电脑的方向或位置信息并且使用这些信息提高平板电脑中的录音子系统和/或3D视频捕捉子系统的性能。本文使用的术语位置信息和方向信息可互换以指示平板电脑的方向和/或倾斜(例如,单位为度),例如平板电脑的水平对齐方式等指定位置。这些系统可包括方向检测设备、麦克风调整设备、摄像头配置设备、录音子系统、3D视频捕捉或其组合。方向检测设备可用于生成平板电脑的位置/方向信息,该信息可由麦克风调整设备和/或摄像头配置设备使用。麦克风调整设备可使用该信息调整麦克风中的传感角度并使该角度与目标声音的方向对齐。位置/方向信息还可用于在录音子系统中实施信号处理方案。视频配置设备可使用该信息重新布置摄像头用于捕捉视频/图像。该信息还可用于在3D视频捕捉子系统中实施相应过程,以获取正确的3D视频或图像。
图1示出了平板电脑101的平板电脑设计100的实施例。平板电脑101可以是以平板电脑外壳的一侧上的平面屏幕为特征的任意便携计算设备。显示屏可用于观看,且还可以是用于打字的触摸屏。平板电脑101可能不要求连接用于基础操作的单独的接口设备,对于台式电脑情况可能并非如此。平板电脑101可以是不可折叠或不要求机械操作的固定设备,例如笔记本。与其它类型的计算设备(例如,笔记本)相比,平板电脑101可提供更少的特性/功能并且具有较低的定价和成本。平板电脑101还可更轻且更加便携。平板电脑101与智能手机等其它通信设备的不同可能在于平板电脑101可能尺寸更大、提供更多的计算功能和功能、和/或不必配备蜂窝接口。平板电脑101可能具有与至少一些当前的可用平板电脑(市场中还称之为pad)类似的特性,例如苹果iPad、惠普(HP)平板电脑、三星Galaxy平板电脑、联想IdeaPad、戴尔Latitude平板电脑以及其它平板电脑或pad。
平板电脑设计100相对其宽度或长度以及平板电脑101的一侧上的平面显示屏(例如,触摸屏)而言可能具有相对较小的厚度。平板电脑101的顶部和底部边缘可能比平板电脑101的其余(侧)边缘更宽。因此,长度或顶部和底部边缘可对应于平板电脑101的长度,且侧边缘的长度可对应于平板电脑101的宽度。显示屏可包括平板电脑101的整个表面的实质区域。平板电脑设计100还可包括例如,位于围绕屏幕的平板电脑101的一边上的麦克风102以及例如,通常位于平板电脑101的另一边上的一个或两个摄像头104,如图1(a)所示。麦克风102可以是全向麦克风或麦克风阵列设备,其是平板电脑101的录音系统的一部分,用于接收用户的声音并使能声音通信、录音、通信或其组合。摄像头104可以是平板电脑101的视频捕捉系统的一部分,用于拍摄图像或视频以及使能视频会议或呼叫,或者两者。摄像头104可以是3D摄像头,且视频捕捉系统可以是捕捉3D图像或视频的3D视频捕捉系统。3D摄像头是能够捕捉“RGB”信息和3G信息的单个设备。在一些实施例中,需要至少两个摄像头104来(同时)从不同角度捕捉相同图像的两个帧。随后可根据3D处理方案处理这两个帧以呈现类似3D的图像。相同的概念可用于3D视频捕捉。
通常,可根据平板电脑101的指定方向优化录音系统。例如,可以针对平板电脑101的垂直位置优化录音系统,如图1(a)所示。在该位置,麦克风102可以位于平板电脑101的底部边缘(例如,围绕底部边缘的中心)。因此,录音系统正确地处理由麦克风102检测到的目标声音或用户的语音,以去除任何噪声。除了噪声以外,麦克风102可例如围绕用户或目标声音的其它源接收用户的语音或任意目标声音。随后录音系统可在计算噪音的时候假设平板电脑101以正确的方向(垂直位置)持有或放置并且麦克风102相应地位于(底部边缘的)合适的位置。然而,当(例如,如图1(b)所示180度)改变或旋转平板电脑101的位置/方向时,麦克风102可能不再位于正确的位置(例如,相对声音目标),因此录音系统(假设平板电脑101的垂直位置)可能无法正确地处理检测的声音/语音以及伴随噪声。因此,可能无法优化录音系统的输出。例如,在语音呼叫场景,通信的用户语音可仍然包括大量噪声或另一侧的接受者可能听不清楚。
类似地,可根据平板电脑101的选择的方向(例如,图1(a)的垂直位置)优化3D视频捕捉系统,其中两个摄像头104可能位于平板电脑101的顶部边缘(例如,围绕顶部边缘的中心)。在此场景下,可由3D视频捕捉系统正确地处理摄像头104捕捉的视频或图像以正确地生成类似3D的场景。当摄像头104捕捉(例如,用户面部或任意目标场景)图像/视频帧时,3D视频捕捉系统可通过考虑(位于顶部边缘的)摄像头104的相应位置来处理捕捉的帧,假设以正确的方向(垂直位置)持有或放置平板电脑101。然而,当(例如,如图1(b)所示180度)改变或旋转平板电脑101的位置/方向时,摄像头104可能不再位于正确的位置(例如,相对目标图像/视频),因此3D录像系统(假设平板电脑101的垂直位置)可能无法正确地处理捕捉的视频/图像。因此,可能无法优化3D视频捕捉系统的输出。例如,在视频会议场景中,另一侧的观看者可能看不清楚通信用户的3D视频。
图2示出了录音系统200的实施例,基于平板电脑设计100,该录音系统可用于平板电脑101中。录音系统200可包括麦克风201、耦合到麦克风201的信号处理设备202和用于进一步信号处理的耦合到信号处理设备202的至少一个额外的处理部件203。录音系统200的部件可以如图2所示进行布置,并且可以使用硬件、软件或使用二者结合来实施。麦克风201可对应于麦克风102。信号处理设备202可用于从麦克风201接收检测的声音/音频作为输入、处理该声音/音频(例如,用以消除或抑制噪声)并将处理的(清晰的)声音作为输出发送到额外的处理部件203。信号处理设备202的过程可包括但不限于降噪和去混响。额外的处理部件203可用于接收清晰的声音作为输入,进一步处理清晰的声音(例如,实施声音识别、编码和/或传输),并且相应地提供数字声音数据作为输出。
图3示出了信号处理部件300的实施例,基于平板电脑设计100,该信号处理部件可用于平板电脑101中。该信号处理部件300可对应于录音系统200的信号处理部件202。该信号处理部件300可包括降噪块301和耦合到降噪块301的去混响块302。信号处理部件300的部件可以如图3所示进行布置,并且可以使用硬件、软件或二者结合来实施。降噪块301可用于接收可能具有噪声和/或混响效果的收集的声音(例如,来自麦克风201)信号、处理该声音信号以降低或消除噪声并随后将处理的信号转发到去混响块302。去混响块302可用于接收来自降噪块301的处理的信号、进一步处理声音信号以消除或降低声音中的任意混响效果并随后转发清晰的声音作为输出。
图4示出了平板电脑401的改进的平板电脑设计400的实施例。平板电脑401可以是以平板电脑外壳的一侧上的平面屏幕为特征的任意便携计算设备。平板电脑401的部件的配置可与平板电脑101的相应部件类似,包括可能是触摸屏的屏幕。平板电脑401还可包括例如位于屏幕周围的平板电脑401的一个边缘上的麦克风402。麦克风402可以是麦克风阵列设备,其可包括以阵列配置布置的多个麦克风。平板电脑401还可包括至少两个摄像头404,其可以是用于捕捉3D视频/图像的3D摄像头。摄像头404可位于平板电脑401的一个或不同边缘上。例如,平板电脑401可包括大约四个摄像头404,其中每个摄像头位于平板电脑401的四个边缘的一个边缘上。将摄像头404沿平板电脑401的不同的边缘分布可以允许当捕捉视频/图像时考虑平板电脑400的不同的位置/方向,从而根据位置/方向有更好的3D视频/图像处理。平板电脑401的部件可以如图4(a)所示进行布置,其可以对应于一个可能的位置(例如,右上位置)用于持有和操作平板电脑401。
图4(b)、(c)和(d)分别示出了持有或操作平板电脑401的其它可能方向,与图(4)的方向呈90度、180度和270度角。在不同的方向,麦克风402和摄像头404的位置来自固定的目标,例如用户的面部可能不同。如果相对于平板电脑的指定的正确方向而言,使用假设目标的确定方向的典型的声音/视频处理方案,那么针对平板电脑的不同方向的固定目标处理声音/视频的结果可能导致处理错误(降低的声音/视频质量)。
相反,为了允许在不同的方向持有和操作平板电脑401,平板电脑401可包括改进的录音和/或3D视频捕捉系统(未示出)。当录音和/或捕捉3D视频时,改进的录音/3D视频捕捉系统可以基于平板电脑401的位置/方向信息在平板电脑401的任意方向或位置(倾斜)适当地处理声音/视频。平板电脑401可包括用于检测位置信息的方向检测设备(未示出)。录音系统可以使用位置信息以估计信号的DOA并且相应地处理由麦克风402录制的声音。例如,可以考虑基于位置信息的选择阵列中的一些麦克风检测的声音。类似地,3D视频捕捉系统可以使用位置信息以过滤和处理摄像头404捕捉的视频/图像。例如,可以考虑基于位置信息选择的一些摄像头404捕捉的视频/图像。
方向检测设备可用于生成方向信息、位置数据和/或角度数据,其可由麦克风调整设备(未示出)和/或视频配置设备(未示出)使用。麦克风调整设备可用于基于方向信息选择麦克风或控制麦克风中的传感器用于阵列中的声音处理考虑,并且可能是录音系统的一部分。视频配置设备可以用于基于方向信息为视频处理考虑选择或布置摄像头404(例如,指导摄像头中的传感器),并且可能是3D视频捕捉系统的一部分。
例如,当相对于水平平面旋转平板电脑时,方向检测设备中的位置检测器可以检测平板电脑401的相对位置或对地面的倾斜并且相应地生成位置信息数据。位置信息数据可以在麦克风调整设备中使用。例如,麦克风调整设备可以(例如,相对于用户的面部或嘴部)相应地控制麦克风阵列的最大传感角度,和/或可将该信息传递给信号处理设备(未示出)以在麦克风阵列收集的声音信号上指导信号处理过程。信号处理设备可以是录音系统的一部分。信号处理过程可以包括降噪、去混响、语音增强和/或其它声音增强过程。位置信息数据还可以用于3D视频配置设备/系统中以指导和配置至少一对摄像头404用于捕捉3D视频和图像。
图5示出了改进的录音系统500的实施例,基于平板电脑设计400,该录音系统可用于平板电脑401中。录音系统500可包括至少两个麦克风501、耦合到麦克风501的信号处理设备502以及至少一个用于进一步信号处理的耦合到信号处理设备502的额外的处理部件503。此外,录音系统500可包括耦合到信号处理设备502的麦克风调整设备505、耦合到麦克风调整设备505的方向检测设备504。录音系统500的部件可以如图5所示进行布置,并且可以使用硬件、软件或使用二者来实施这些部件。
麦克风501可以是两个独立的全向麦克风、两个独立的麦克风阵列或两个麦克风阵列中的两个麦克风(传感器)。在其它实施例中,录音系统500可包括两个以上独立的麦克风501,例如位于平板电脑的一个或多个边缘上。发往信号处理设备502的输入可包括来自各个麦克风501的收集的声音信号以及来自麦克风调整设备505的位置信息数据。方向检测设备504可包括加速计和/或方向/旋转检测设备,用于提供方向/旋转信息。根据水平平面等平板电脑的指定位置或方向,可以检测方向/旋转信息。此外或作为替代,方向检测设备504可包括面部/嘴部识别设备,其可以用来估计平板电脑相对于用户的位置/方向信息。
来自方向检测设备504的位置信息数据可以被发送到麦克风调整设备505,该麦克风调整设备505可以用于控制麦克风501(或麦克风阵列)的最大传感角度。可以控制麦克风501使得用户的嘴部在最大传感角度内对齐,因此更好地进行传入声音信号方向的对齐检测并且远离噪声源。此外或作为替代,麦克风调整设备505可以向信号处理设备502发送位置信息数据。信号处理设备502可以使用位置信息数据实施降噪/去混响过程以获取清晰的声音。此外,信号处理设备502可以实施声音的DOA估计,如下文进一步论述。随后可以将清晰的声音发送到额外的处理部件503,其可用于进行信号识别、编码和/或传输。
图6示出了改进的信号处理部件600的实施例,基于平板电脑设计400,该信号处理部件可用于平板电脑401中。该信号处理部件600可对应于录音系统500的信号处理设备502。信号处理部件600可包括降噪块601、耦合到降噪块601的去混响块602以及耦合到降噪块601和去混响块602的DOA估计块603。信号处理部件600的部件可以如图6所示进行布置,并且可以使用硬件、软件或使用二者来实施这些部件。
DOA估计块603可用于从每个麦克风(例如,麦克风501)接收可能带有噪声的收集的声音并且基于(例如,来自方向检测设备504和/或麦克风调整设备505)接收的位置信息实施DOA。DOA估计块603可以使用位置信息数据以估计传入声音信号的DOA。可以使用DOA估计算法,例如MUSIC算法实现DOA估计。DOA估计块603的输出(DOA估计信息)可以作为输入分别发送到降噪块601和去混响块602以基于DOA信息实现改进的降噪和去混响。来自每个麦克风的收集的信号还可以发送到降噪块601,在降噪块601中可以使用DOA信息进行降噪过程。降噪块601可以将处理的信号转发到去混响块602,去混响块602可以使用DOA信息进一步处理声音信号以消除或降低声音中的任意混响效果,并且随后转发清晰的声音作为输出。
图7示出了3D视频捕捉系统700的实施例,基于平板电脑设计400,该视频捕捉系统可用于平板电脑401中。3D视频捕捉系统700可包括方向检测设备701、耦合到方向检测设备701的摄像头配置设备702以及耦合到摄像头配置设备702的多个摄像头703至706。摄像头703至706可能是,例如对应于摄像头404的3D摄像头。方向检测设备704可用于提供方向/旋转信息,例如类似方向检测设备504。例如,方向检测设备704可包括加速计、其它方向/旋转检测设备、脸部/嘴部识别设备,或其组合,其可用来估计平板电脑相对于用户的位置/方向信息。
方向检测设备701可以向摄像头配置设备702发送估计的位置信息数据,其可以用于(例如,根据位置信息)从摄像头703至706选择正确的或合适的摄像头对。在用户坐在摄像头前面的假设下选择摄像头,这可能是平板电脑用户的典型场景或最一般的情况。例如,如果平板电脑相对于用户的脸部旋转约90度(图4(d)所示),选择的正确的摄像头对可能是位于顶部或底部边缘上(在图4(a)的初始(垂直)位置)的摄像头。
图8示出了录音方法800的实施例的流程图,其可以在平板电脑401中实施。例如,可使用录音系统500实施录音方法800。方法800可开始于方框810,在方框810,可以检测平板电脑的位置。方向检测设备504可以检测位置/方向。在方框820,可以基于位置信息调整平板电脑的麦克风。例如,麦克风调整设备505可以控制麦克风501(或麦克风阵列)的最大传感角度。在方框830,可以(例如,由至少两个麦克风501)记录声音信号。在方框840,可以基于位置信息估计信号的DOA。例如,DOA估计块603可以基于位置信息实施算法以获取DOA。在方框850,可以基于DOA估计降低信号中的噪声。降噪块601可以使用DOA估计以降低或消除信号中的噪声。在方框860,可以基于DOA估计消除信号中的混响效果。例如,去混响块602可以使用DOA估计以去除信号中的混响效果。在方框870,可以传输清晰的声音。清晰的声音可以通过去除检测的声音信号中的噪声、混响效果和/或其它错误的结果产生。方法800随后可以结束。
图9示出了3D视频捕捉方法900的实施例,其可以在平板电脑401中实施。例如,3D视频捕捉方法900可使用3D视频捕捉系统700实施。方法900可开始于方框910,在方框910可以检测平板电脑的位置。方向检测设备701可以检测位置/方向。在方框920,可以基于位置信息配置多个摄像头。例如,摄像头配置设备702可以根据位置信息从摄像头703至706选择合适的摄像头对。在方框930,(例如,选择的摄像头)可以捕捉视频/图像。在方框940,可以使用3D视频/图像处理方案处理捕捉的视频/图像。在方框950,可以传输3D视频/图像。方法900随后可以结束。
在一些实施例中,上述部件可在任何通用电脑系统或智能设备部件上实施,其具有足够的处理能力、存储资源和吞吐能力来处理其上的必要工作量。图10示出了一种典型的通用电脑系统1000,其适用于实施本文所揭示的部件的一项或多项实施例。电脑系统1000包括处理器1002(可称为中央处理器单元或CPU),其与包括辅助存储器1004、只读存储器(ROM)1006、随机存取存储器(RAM)1008的存储装置,输入/输出(I/O)1010和网络连接装置1012进行通信。处理器1002可作为一个或多个CPU芯片实施,或者可以是一个或多个专用集成电路(ASIC)的一部分。
辅助存储器1004通常由一个或多个磁盘驱动器或磁带驱动器组成,用于数据的非易失性存储,且如果RAM1008的大小不足以保存所有工作数据,那么所述辅助存储器还用作溢流数据存储设备。辅助存储器1004可以用于存储程序,当选择执行这些程序时,所述程序将加载到RAM1008中。ROM1006用于存储在程序执行期间读取的指令以及可能读取的数据。ROM1006为非易失性存储设备,其存储容量相对于辅助存储器1004的较大存储容量而言通常较小。RAM1008用于存储易失性数据,并且可能用于存储指令。ROM1006和RAM1008两者的存取速度通常比辅助存储器1004的存取速度快。
本发明公开至少一项实施例,且所属领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。应当理解的是,本发明已明确阐明了数值范围或限制,此类明确的范围或限制应包括涵盖在上述范围或限制(如从大约1至大约10的范围包括2、3、4等;大于0.10的范围包括0.11、0.12、0.13等)内的类似数量级的迭代范围或限制。例如,每当公开具有下限Rl和上限Ru的数值范围时,具体是公开落入所述范围内的任何数字。具体而言,特别公开所述范围内的以下数字:R=R1+k*(Ru–R1),其中k为从1%到100%范围内以1%递增的变量,即,k为1%、2%、3%、4%、7%、...、70%、71%、72%、...、97%、96%、97%、98%、99%或100%。此外,还特此公开了,上文定义的两个R值所定义的任何数值范围。相对于权利要求的某一要素,术语“可选择”的使用表示该要素可以是“需要的”,或者也可以是“不需要的”,二者均在所述权利要求的范围内。使用如“包括”、“包含”和“具有”等较广术语应被理解为提供对如“由...组成”、“基本上由...组成”以及“大体上由...组成”等较窄术语的支持。因此,保护范围不受上文所述的限制,而是由所附权利要求书定义,所述范围包含所附权利要求书的标的物的所有等效物。每项和每条权利要求作为进一步公开的内容并入说明书中,且权利要求书是本发明的实施例。所述揭示内容中的参考的论述并不是承认其为现有技术,尤其是具有在本申请案的在先申请优先权日期之后的公开日期的任何参考。本发明中所引用的所有专利、专利申请案和公开案的揭示内容特此以引用的方式并入本文本中,其提供补充本发明的示例性、程序性或其他细节。
虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的系统和方法可以以许多其他特定形式来体现。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或部件可以在另一系统中组合或合并,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其他系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦接或直接耦接或通信的其他项也可以采用电方式、机械方式或其他方式通过某一接口、装置或中间部件间接地耦接或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。
Claims (27)
1.一种计算系统,其特征在于,包括:
方向检测设备,用于检测包括计算系统的位置和方向的位置信息;
耦合到所述方向检测设备的多传感器系统,其中所述多传感器系统用于捕捉环境输入数据,所述多传感器系统包括音频捕捉系统和三维(3D)图像捕捉系统中的至少一个,并且环境输入数据包括音频和图像中的至少一个。
至少一个耦合到所述方向检测设备的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。
2.根据权利要求1所述的计算系统,其特征在于,所述音频捕捉系统用于检测声音信号以及所述的至少一个信号处理部件用于基于所述计算系统的所述位置信息修改所述声音信号。
3.根据权利要求1所述的计算系统,其特征在于,所述3D图像捕捉系统用于捕捉图像以及所述的至少一个信号处理部件用于基于所述位置信息修改所述图像。
4.根据权利要求1所述的计算系统,其特征在于,所述音频捕捉系统包括:
至少两个用于检测声音信号的麦克风,其中所述至少一个信号处理部件耦合到所述麦克风并且用于降低所述检测的声音信号中的噪声。
5.根据权利要求4所述的计算系统,其特征在于,所述两个麦克风是两个单向麦克风。
6.根据权利要求4所述的计算系统,其特征在于,所述两个麦克风对应于至少一个麦克风阵列设备。
7.根据权利要求4所述的计算系统,其特征在于,所述检测的声音信号由所述至少一个信号处理部件进一步处理以实施声音识别、编码和传输中的至少一种。
8.根据权利要求4所述的计算系统,其特征在于,所述音频捕捉系统进一步包括:
耦合到所述至少一个信号处理部件的麦克风调整设备,用于根据所述位置信息控制所述麦克风的最大传感角度。
9.根据权利要求1所述的计算系统,其特征在于,所述方向检测设备包括加速计和方向/旋转检测设备中的至少一个,所述方向/旋转检测设备用于提供方向/旋转信息。
10.根据权利要求1所述的计算系统,其特征在于,所述3D图像捕捉系统包括:
至少两个摄像头,每个用于捕捉图像;以及
耦合到所述摄像头的摄像头配置设备,用于布置或选择所述摄像头以正确地捕捉3D图像。
11.根据权利要求10所述的计算系统,其特征在于,所述摄像头是接近所述计算系统的不同边缘的摄像头。
12.根据权利要求1所述的计算机系统,其特征在于,所述音频捕捉系统和所述3D图像捕捉系统是平板电脑系统的一部分,用于使能视频会议、语音呼叫、人机界面和助听器中的至少一个。
13.根据权利要求1所述的计算系统,其特征在于,所述位置信息用于获取基本上没有噪声和基本上没有混响效果的基本上清晰的声音数据以及相对于用户而言位于所述平板电脑的多个方向的任意一个方向的3D图像。
14.录音系统,其特征在于,包括:
耦合到一个或多个麦克风的到达方向(DOA)估计部件,用于使用接收的方向信息估计检测的声音信号的DOA;
耦合到所述DOA估计部件的降噪部件,用于使用所述DOA估计降低所述检测的声音信号中的噪声;以及
耦合到所述降噪部件和所述DOA估计部件的去混响部件,用于使用所述DOA估计去除所述检测的声音信号中的混响效果。
15.根据权利要求14所述的录音系统,其特征在于,所述方向信息是由耦合到所述DOA估计部件的方向检测设备提供的。
16.根据权利要求14所述的录音系统,其特征在于,所述DOA估计部件基于多重信号分类(MUSIC)算法和所述方向信息估计所述检测的声音信号的DOA。
17.一种三维(3D)视频捕捉系统,其特征在于,包括:
耦合到至少两个摄像头的摄像头配置设备,用于基于所述3D视频捕捉系统的检测的方向信息布置所述摄像头中的至少一些摄像头以正确地捕捉3D视频和3D图像中的一个;以及
耦合到所述摄像头配置设备的方向检测设备,用于检测所述方向信息。
18.根据权利要求17所述的3D视频捕捉系统,其特征在于,所述方向信息是由耦合到所述摄像头配置设备的方向检测设备提供的。
19.根据权利要求17所述的3D视频捕捉系统,其特征在于,用于捕捉所述3D视频或图像的所述选择的摄像头包括两个接近平板电脑设备的相反边缘的摄像头。
20.根据权利要求17所述的视频捕捉系统,其特征在于,所述两个摄像头中的至少一个摄像头包括3D摄像头。
21.一种在便携设备上实施的录音方法,其特征在于,包括:
检测所述便携设备的方向;
基于所述检测的方向调整麦克风阵列设备;
使用所述调整的麦克风阵列设备记录声音信号;以及
基于所述检测的方向估计所述声音信号的到达方向(DOA)。
22.根据权利要求21所述的在所述便携设备上实施的所述录音方法,其特征在于,进一步包括:
基于所述DOA估计降低所述声音信号中的噪声;
基于所述DOA估计消除所述声音信号中的去混响效果;以及
传输所得的清晰的声音信号。
23.权利要求22所述的在所述便携设备上实施的所述录音方法进一步包括在为编码、语音识别和声音增强的至少一个传输之前处理所述清晰的声音。
24.权利要求21所述的在所述便携设备上实施的所述录音方法,其特征在于,相对于所述便携设备的用户的所述面部或嘴部,通过控制所述麦克风阵列设备的最大传感角度调整所述麦克风阵列设备。
25.一种在便携设备上实施的三维(3D)视频捕捉方法,其特征在于,包括:
检测所述便携设备的方向;
基于所述检测的方向配置多个摄像头;以及
使用所述配置的摄像头捕捉视频或图像。
26.根据权利要求25所述的3D视频捕捉方法,其特征在于,进一步包括:
使用3D视频或图像处理方案处理所述捕捉的视频或图像;以及
传输所述3D视频或图像。
27.根据权利要求25所述的3D视频捕捉方法,其特征在于,通过选择所述摄像头的子集方式配置所述摄像头用于根据所述便携设备的所述检测的方向捕捉所述视频或图像以获取正确的3D视频或图像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/323,157 | 2011-12-12 | ||
US13/323,157 US9246543B2 (en) | 2011-12-12 | 2011-12-12 | Smart audio and video capture systems for data processing systems |
PCT/CN2012/086425 WO2013086979A1 (en) | 2011-12-12 | 2012-12-12 | Smart audio and video capture systems for data processing systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104012074A true CN104012074A (zh) | 2014-08-27 |
CN104012074B CN104012074B (zh) | 2017-07-21 |
Family
ID=48571625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280061091.9A Active CN104012074B (zh) | 2011-12-12 | 2012-12-12 | 用于数据处理系统的智能音频和视频捕捉系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9246543B2 (zh) |
EP (2) | EP3376763A1 (zh) |
CN (1) | CN104012074B (zh) |
WO (1) | WO2013086979A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104967717A (zh) * | 2015-05-26 | 2015-10-07 | 努比亚技术有限公司 | 终端语音交互模式下的降噪方法及装置 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
WO2016183791A1 (zh) * | 2015-05-19 | 2016-11-24 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN106303357A (zh) * | 2016-08-30 | 2017-01-04 | 福州瑞芯微电子股份有限公司 | 一种远场语音增强的视频通话方法与系统 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106898348A (zh) * | 2016-12-29 | 2017-06-27 | 北京第九实验室科技有限公司 | 一种出声设备的去混响控制方法和装置 |
CN107430857A (zh) * | 2015-04-07 | 2017-12-01 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN107852440A (zh) * | 2015-08-21 | 2018-03-27 | 三星电子株式会社 | 用于由电子设备处理声音的方法及其电子设备 |
CN108353150A (zh) * | 2015-12-01 | 2018-07-31 | 高通股份有限公司 | 用于产生视频数据的电子装置 |
CN111883186A (zh) * | 2020-07-10 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 录音设备、语音采集方法及装置、存储介质及电子设备 |
TWI799165B (zh) * | 2022-03-04 | 2023-04-11 | 圓展科技股份有限公司 | 拍攝發聲目標的系統及方法 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200145B (zh) | 2007-09-24 | 2020-10-27 | 苹果公司 | 电子设备中的嵌入式验证系统 |
US8600120B2 (en) | 2008-01-03 | 2013-12-03 | Apple Inc. | Personal computing device control using face detection and recognition |
US9002322B2 (en) | 2011-09-29 | 2015-04-07 | Apple Inc. | Authentication with secondary approver |
US9223404B1 (en) * | 2012-01-27 | 2015-12-29 | Amazon Technologies, Inc. | Separating foreground and background objects in captured images |
US20130271579A1 (en) * | 2012-04-14 | 2013-10-17 | Younian Wang | Mobile Stereo Device: Stereo Imaging, Measurement and 3D Scene Reconstruction with Mobile Devices such as Tablet Computers and Smart Phones |
WO2013186593A1 (en) * | 2012-06-14 | 2013-12-19 | Nokia Corporation | Audio capture apparatus |
EP2904817A4 (en) * | 2012-10-01 | 2016-06-15 | Nokia Technologies Oy | APPARATUS AND METHOD FOR REPRODUCING RECORDED AUDIO DATA WITH CORRECT SPACE ORIENTATION |
US9426573B2 (en) * | 2013-01-29 | 2016-08-23 | 2236008 Ontario Inc. | Sound field encoder |
EP2962299B1 (en) * | 2013-02-28 | 2018-10-31 | Nokia Technologies OY | Audio signal analysis |
EP2819430A1 (en) * | 2013-06-27 | 2014-12-31 | Speech Processing Solutions GmbH | Handheld mobile recording device with microphone characteristic selection means |
US9898642B2 (en) | 2013-09-09 | 2018-02-20 | Apple Inc. | Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs |
US9565416B1 (en) | 2013-09-30 | 2017-02-07 | Google Inc. | Depth-assisted focus in multi-camera systems |
US9544574B2 (en) * | 2013-12-06 | 2017-01-10 | Google Inc. | Selecting camera pairs for stereoscopic imaging |
JP6148163B2 (ja) * | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
US10482461B2 (en) | 2014-05-29 | 2019-11-19 | Apple Inc. | User interface for payments |
US11959749B2 (en) * | 2014-06-20 | 2024-04-16 | Profound Positioning Inc. | Mobile mapping system |
US9710724B2 (en) * | 2014-09-05 | 2017-07-18 | Intel Corporation | Multi-camera device |
US9940637B2 (en) | 2015-06-05 | 2018-04-10 | Apple Inc. | User interface for loyalty accounts and private label accounts |
US20160358133A1 (en) | 2015-06-05 | 2016-12-08 | Apple Inc. | User interface for loyalty accounts and private label accounts for a wearable device |
KR101910383B1 (ko) * | 2015-08-05 | 2018-10-22 | 엘지전자 주식회사 | 차량 운전 보조 장치 및 이를 구비한 차량 |
FR3046014A1 (fr) * | 2015-12-21 | 2017-06-23 | Orange | Procede de gestion de ressources sur un terminal |
DK179186B1 (en) | 2016-05-19 | 2018-01-15 | Apple Inc | REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION |
US10621581B2 (en) | 2016-06-11 | 2020-04-14 | Apple Inc. | User interface for transactions |
CN114693289A (zh) | 2016-06-11 | 2022-07-01 | 苹果公司 | 用于交易的用户界面 |
DK201670622A1 (en) | 2016-06-12 | 2018-02-12 | Apple Inc | User interfaces for transactions |
US9842330B1 (en) | 2016-09-06 | 2017-12-12 | Apple Inc. | User interfaces for stored-value accounts |
DK179978B1 (en) | 2016-09-23 | 2019-11-27 | Apple Inc. | IMAGE DATA FOR ENHANCED USER INTERACTIONS |
US10496808B2 (en) | 2016-10-25 | 2019-12-03 | Apple Inc. | User interface for managing access to credentials for use in an operation |
CN108089152B (zh) * | 2016-11-23 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 一种设备控制方法、装置及系统 |
US10362270B2 (en) | 2016-12-12 | 2019-07-23 | Dolby Laboratories Licensing Corporation | Multimodal spatial registration of devices for congruent multimedia communications |
WO2018140253A1 (en) * | 2017-01-24 | 2018-08-02 | Commscope Technologies Llc | Alignment apparatus using a mobile terminal and methods of operating the same |
CN108696712A (zh) * | 2017-03-03 | 2018-10-23 | 展讯通信(上海)有限公司 | 基于ims的3d视频通话方法、装置及终端 |
KR102185854B1 (ko) * | 2017-09-09 | 2020-12-02 | 애플 인크. | 생체측정 인증의 구현 |
KR102389678B1 (ko) | 2017-09-09 | 2022-04-21 | 애플 인크. | 생체측정 인증의 구현 |
US10462370B2 (en) | 2017-10-03 | 2019-10-29 | Google Llc | Video stabilization |
CN110069123B (zh) * | 2018-01-22 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 一种校验信息点采集合法性的方法和装置 |
US11022511B2 (en) | 2018-04-18 | 2021-06-01 | Aron Kain | Sensor commonality platform using multi-discipline adaptable sensors for customizable applications |
US10171738B1 (en) | 2018-05-04 | 2019-01-01 | Google Llc | Stabilizing video to reduce camera and face movement |
US11170085B2 (en) | 2018-06-03 | 2021-11-09 | Apple Inc. | Implementation of biometric authentication |
US10860096B2 (en) | 2018-09-28 | 2020-12-08 | Apple Inc. | Device control using gaze information |
US11100349B2 (en) | 2018-09-28 | 2021-08-24 | Apple Inc. | Audio assisted enrollment |
US11328352B2 (en) | 2019-03-24 | 2022-05-10 | Apple Inc. | User interfaces for managing an account |
US11687635B2 (en) | 2019-09-25 | 2023-06-27 | Google PLLC | Automatic exposure and gain control for face authentication |
CN113544692B (zh) | 2019-10-10 | 2024-09-06 | 谷歌有限责任公司 | 用于面部认证的摄像头同步和图像标记 |
CN111551921A (zh) * | 2020-05-19 | 2020-08-18 | 北京中电慧声科技有限公司 | 一种声像联动的声源定向系统及方法 |
US11816194B2 (en) | 2020-06-21 | 2023-11-14 | Apple Inc. | User interfaces for managing secure operations |
US11190689B1 (en) | 2020-07-29 | 2021-11-30 | Google Llc | Multi-camera video stabilization |
EP4264460A1 (en) | 2021-01-25 | 2023-10-25 | Apple Inc. | Implementation of biometric authentication |
EP4047939A1 (en) | 2021-02-19 | 2022-08-24 | Nokia Technologies Oy | Audio capture in presence of noise |
US20240077868A1 (en) * | 2022-09-07 | 2024-03-07 | Schweitzer Engineering Laboratories, Inc. | Configurable multi-sensor input |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1720764A (zh) * | 2002-12-06 | 2006-01-11 | 皇家飞利浦电子股份有限公司 | 个性化的环绕声头戴耳机系统 |
US20070237339A1 (en) * | 2006-04-11 | 2007-10-11 | Alon Konchitsky | Environmental noise reduction and cancellation for a voice over internet packets (VOIP) communication device |
CN101300897A (zh) * | 2005-11-01 | 2008-11-05 | 皇家飞利浦电子股份有限公司 | 包括声音跟踪装置的助听器 |
CN101674410A (zh) * | 2008-09-12 | 2010-03-17 | Lg电子株式会社 | 在移动终端上调整图像的显示方向 |
CN101852846A (zh) * | 2009-03-30 | 2010-10-06 | 索尼公司 | 信号处理设备、信号处理方法和程序 |
CN101872469A (zh) * | 2009-04-21 | 2010-10-27 | 索尼公司 | 电子设备、显示控制方法和程序 |
CN101924979A (zh) * | 2009-06-02 | 2010-12-22 | 奥迪康有限公司 | 提供增强定位提示的助听装置及其使用和方法 |
CN102047318A (zh) * | 2008-05-30 | 2011-05-04 | 佳能株式会社 | 图像显示设备及其控制方法和计算机程序 |
CN102104767A (zh) * | 2009-10-16 | 2011-06-22 | 苹果公司 | 具有透视失真校正的脸部姿势改进 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7015954B1 (en) * | 1999-08-09 | 2006-03-21 | Fuji Xerox Co., Ltd. | Automatic video system using multiple cameras |
US7688306B2 (en) * | 2000-10-02 | 2010-03-30 | Apple Inc. | Methods and apparatuses for operating a portable device based on an accelerometer |
JP4061473B2 (ja) * | 2002-04-26 | 2008-03-19 | 日本電気株式会社 | 折り畳み型携帯電話機 |
JP4266148B2 (ja) | 2003-09-30 | 2009-05-20 | 株式会社東芝 | 電子機器 |
US7817805B1 (en) | 2005-01-12 | 2010-10-19 | Motion Computing, Inc. | System and method for steering the directional response of a microphone to a moving acoustic source |
TWI294585B (en) | 2005-10-28 | 2008-03-11 | Quanta Comp Inc | Audio system of a tablet personal computer and the speaker orientating method thereof |
US7565288B2 (en) * | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
JP4643698B2 (ja) | 2008-09-16 | 2011-03-02 | レノボ・シンガポール・プライベート・リミテッド | マイクロフォンを備えるタブレット・コンピュータおよび制御方法 |
US8401178B2 (en) | 2008-09-30 | 2013-03-19 | Apple Inc. | Multiple microphone switching and configuration |
US8570423B2 (en) * | 2009-01-28 | 2013-10-29 | Hewlett-Packard Development Company, L.P. | Systems for performing visual collaboration between remotely situated participants |
JP5407848B2 (ja) | 2009-12-25 | 2014-02-05 | 富士通株式会社 | マイクロホンの指向性制御装置 |
CN102713664B (zh) * | 2010-01-12 | 2016-03-16 | 诺基亚技术有限公司 | 协作式位置/方位估计 |
US8874090B2 (en) * | 2010-04-07 | 2014-10-28 | Apple Inc. | Remote control operations in a video conference |
US20110298887A1 (en) * | 2010-06-02 | 2011-12-08 | Maglaque Chad L | Apparatus Using an Accelerometer to Capture Photographic Images |
KR101685980B1 (ko) * | 2010-07-30 | 2016-12-13 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
US9274744B2 (en) * | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US10726861B2 (en) * | 2010-11-15 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semi-private communication in open environments |
US8937646B1 (en) * | 2011-10-05 | 2015-01-20 | Amazon Technologies, Inc. | Stereo imaging using disparate imaging devices |
-
2011
- 2011-12-12 US US13/323,157 patent/US9246543B2/en active Active
-
2012
- 2012-12-12 CN CN201280061091.9A patent/CN104012074B/zh active Active
- 2012-12-12 WO PCT/CN2012/086425 patent/WO2013086979A1/en active Application Filing
- 2012-12-12 EP EP18163954.3A patent/EP3376763A1/en not_active Ceased
- 2012-12-12 EP EP12856814.4A patent/EP2781083A4/en not_active Ceased
-
2015
- 2015-12-14 US US14/968,225 patent/US20160100156A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1720764A (zh) * | 2002-12-06 | 2006-01-11 | 皇家飞利浦电子股份有限公司 | 个性化的环绕声头戴耳机系统 |
CN101300897A (zh) * | 2005-11-01 | 2008-11-05 | 皇家飞利浦电子股份有限公司 | 包括声音跟踪装置的助听器 |
US20070237339A1 (en) * | 2006-04-11 | 2007-10-11 | Alon Konchitsky | Environmental noise reduction and cancellation for a voice over internet packets (VOIP) communication device |
CN102047318A (zh) * | 2008-05-30 | 2011-05-04 | 佳能株式会社 | 图像显示设备及其控制方法和计算机程序 |
CN101674410A (zh) * | 2008-09-12 | 2010-03-17 | Lg电子株式会社 | 在移动终端上调整图像的显示方向 |
CN101852846A (zh) * | 2009-03-30 | 2010-10-06 | 索尼公司 | 信号处理设备、信号处理方法和程序 |
CN101872469A (zh) * | 2009-04-21 | 2010-10-27 | 索尼公司 | 电子设备、显示控制方法和程序 |
CN101924979A (zh) * | 2009-06-02 | 2010-12-22 | 奥迪康有限公司 | 提供增强定位提示的助听装置及其使用和方法 |
CN102104767A (zh) * | 2009-10-16 | 2011-06-22 | 苹果公司 | 具有透视失真校正的脸部姿势改进 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
CN107430857B (zh) * | 2015-04-07 | 2021-08-06 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN107430857A (zh) * | 2015-04-07 | 2017-12-01 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
WO2016183791A1 (zh) * | 2015-05-19 | 2016-11-24 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN107534725A (zh) * | 2015-05-19 | 2018-01-02 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN107534725B (zh) * | 2015-05-19 | 2020-06-16 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN104967717B (zh) * | 2015-05-26 | 2016-09-28 | 努比亚技术有限公司 | 终端语音交互模式下的降噪方法及装置 |
CN104967717A (zh) * | 2015-05-26 | 2015-10-07 | 努比亚技术有限公司 | 终端语音交互模式下的降噪方法及装置 |
CN107852440A (zh) * | 2015-08-21 | 2018-03-27 | 三星电子株式会社 | 用于由电子设备处理声音的方法及其电子设备 |
CN108353150A (zh) * | 2015-12-01 | 2018-07-31 | 高通股份有限公司 | 用于产生视频数据的电子装置 |
CN106328156B (zh) * | 2016-08-22 | 2020-02-18 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106303357A (zh) * | 2016-08-30 | 2017-01-04 | 福州瑞芯微电子股份有限公司 | 一种远场语音增强的视频通话方法与系统 |
CN106303357B (zh) * | 2016-08-30 | 2019-11-08 | 福州瑞芯微电子股份有限公司 | 一种远场语音增强的视频通话方法与系统 |
CN106898348B (zh) * | 2016-12-29 | 2020-02-07 | 北京小鸟听听科技有限公司 | 一种出声设备的去混响控制方法和装置 |
US10410651B2 (en) | 2016-12-29 | 2019-09-10 | Beijing Xiaoniao Tingting Technology Co., LTD. | De-reverberation control method and device of sound producing equipment |
CN106898348A (zh) * | 2016-12-29 | 2017-06-27 | 北京第九实验室科技有限公司 | 一种出声设备的去混响控制方法和装置 |
CN111883186A (zh) * | 2020-07-10 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 录音设备、语音采集方法及装置、存储介质及电子设备 |
TWI799165B (zh) * | 2022-03-04 | 2023-04-11 | 圓展科技股份有限公司 | 拍攝發聲目標的系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
US9246543B2 (en) | 2016-01-26 |
US20130147923A1 (en) | 2013-06-13 |
EP2781083A1 (en) | 2014-09-24 |
US20160100156A1 (en) | 2016-04-07 |
EP2781083A4 (en) | 2015-06-10 |
EP3376763A1 (en) | 2018-09-19 |
WO2013086979A1 (en) | 2013-06-20 |
CN104012074B (zh) | 2017-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104012074A (zh) | 用于数据处理系统的智能音频和视频捕捉系统 | |
US11375329B2 (en) | Systems and methods for equalizing audio for playback on an electronic device | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
EP2753061B1 (en) | Method for obtaining image data and electronic device for processing method thereof | |
US9007524B2 (en) | Techniques and apparatus for audio isolation in video processing | |
US10424314B2 (en) | Techniques for spatial filtering of speech | |
CN104053088A (zh) | 一种麦克风阵列调整方法、麦克风阵列及电子设备 | |
CN110970057A (zh) | 一种声音处理方法、装置与设备 | |
US11496830B2 (en) | Methods and systems for recording mixed audio signal and reproducing directional audio | |
US11277688B2 (en) | Apparatus, method and computer program for audio module use in an electronic device | |
CN107079219A (zh) | 面向用户体验的音频信号处理 | |
CN108781310B (zh) | 选择要增强的视频的音频流的方法、装置、设备、介质 | |
WO2017215158A1 (zh) | 通信终端声音处理控制方法、装置及通信终端 | |
CN113608167B (zh) | 声源定位方法、装置及设备 | |
JP6711118B2 (ja) | 画像管理システム、プログラム及び情報端末 | |
US10296801B2 (en) | Systems and methods for providing a continuous check scanner utilizing a tablet computer and camera | |
AU2014321133A1 (en) | Multi-channel microphone mapping | |
JP6191333B2 (ja) | 情報処理装置、通信システムおよびプログラム | |
JP6645129B2 (ja) | 通信装置、制御方法及び制御プログラム | |
CN117044233A (zh) | 情境感知声景控制 | |
CN117636928A (zh) | 一种拾音装置及相关音频增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |