CN106030614A - 基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机的系统和方法 - Google Patents

基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机的系统和方法 Download PDF

Info

Publication number
CN106030614A
CN106030614A CN201580005858.XA CN201580005858A CN106030614A CN 106030614 A CN106030614 A CN 106030614A CN 201580005858 A CN201580005858 A CN 201580005858A CN 106030614 A CN106030614 A CN 106030614A
Authority
CN
China
Prior art keywords
image
method described
angular displacement
value
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580005858.XA
Other languages
English (en)
Inventor
艾夏·希文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gao Hei F Ed Ltd
Original Assignee
Gao Hei F Ed Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gao Hei F Ed Ltd filed Critical Gao Hei F Ed Ltd
Publication of CN106030614A publication Critical patent/CN106030614A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/75Circuitry for compensating brightness variation in the scene by influencing optical camera components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Abstract

一种包括具有第一中心视线的第一数码摄像机和具有与第一中心视线平行且对立的第二中心视线的第二数码摄像机的装置。一种基于估计人的视线方向和第一数码摄像机的视线之间的角偏差来控制第一数码摄像机的方法。在第二数码摄像机所拍摄的作为图像文件的图像中检测人脸,使用脸部检测算法。基于所拍摄的图像估计角偏差a,该角偏差被被限定在第二中心视线和从第二摄像机到所检测的人脸的假想线之间,而且基于所拍摄的图像估计角偏差β,该角偏差被被限定在从第二摄像机到所检测的人脸的假想线和人脸的视线方向之间。

Description

基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机 的系统和方法
相关申请的交叉引用
这个申请要求2015年3月12日提交的美国临时专利申请62/131,854、2014年11月27日提交的美国临时专利申请62/085,284、2014年10月6日提交的美国临时专利申请62/060,020、2014年4月22日提交的美国临时专利申请61/982,482、以及2015年4月5日提交的美国临时专利申请62/143,117的优先权。为任何目的,所有上述临时申请被共同指定而且通过引用全部并入文中。
技术领域
这个公开文件大体上涉及一种基于前置摄像机所拍摄的图像来控制后置摄像机的设备和方法,尤其涉及使用所拍摄的图像的图像处理来估计用户的视线方向和后置摄像机的视场的偏差。
背景技术
除非在文中另有说明,在此章节中描述的材料不是这个申请中的权利要求书的现有技术而且不能说包括在这一章节中的就是现有技术。
图1示出一个框图,图示说明了包括计算机系统11和相关联的因特网22连接的系统10。这样的配置通常是用于连接到因特网22并且执行服务器端或客户端(或两者相结合)软件的计算机(主机)。计算机系统11可以用作便携式电子装置,例如笔记本/膝上型电脑、媒体播放器(例如,MP3或视频播放器)、台式计算机、膝上型电脑、手机、个人数字助理(PDA)、图象处理装置(例如数码摄像机或视频机)、任何其他手持式或固定位置计算装置,或这些装置中任何几个的组合。要注意的是虽然图1图示说明了计算机系统11的各种部件,但是意图不在于表示任一具体的部件互连架构或方式;就这样的细节而论的话是不恰当的。还应当认识到网络计算机、手持计算机、手机和其他具有较少部件的数据处理系统或许还可以使用更多部件。例如,图1的计算机可以是苹果的Macintosh计算机或笔记本电脑、或IBM的兼容PC。计算机系统11包括总线13、互连、或其他用于传输信息的通信机构、以及处理器127,通常以集成电路的形式耦合到总线13上用来处理信息并且用来执行计算机可执行的指令。计算机系统11还包括耦合到总线13上用于存储信息和要由处理器127执行的指令的主内存125a,比如随机存取存储器(RAM)或其他动态存储装置。主内存125a还可以用于在执行要由处理器127执行的指令的过程中存储临时变量或其他中间信息。计算机系统11还包括只读存储器(ROM)125b(或其他非易失性存储器)或耦合到总线13上的其他静态存储装置,用来存储供处理器127使用的静态信息和指令。存储装置125c可以是磁盘或光盘,比如用于从硬盘读取和写入硬盘的硬盘驱动(HDD),用于从磁盘读取和写入磁盘的磁盘驱动器,和/或用于从移动的光盘读取和写入可移动的光盘驱动(比如DVD),存储装置125c耦合到总线13上用于存储信息和指令。硬盘驱动、磁盘驱动、以及光盘驱动可以分别通过硬盘驱动接口、磁盘驱动器接口、以及光盘驱动接口连接到系统总线13上。这些驱动和它们的相关联的计算机可读介质为通用的计算装置提供对计算机可读指令、数据结构、程序模块和其他数据的非易失性存储。通常,计算机系统11包括存储在非易失性存储器125b中的操作系统(OS),用于管理计算机资源并给应用和程序提供对计算机资源和接口的访问。操作系统通常处理系统数据和用户输入,并且通过分配并管理任务和内部系统资源来响应,比如控制和分配内存、把系统请求按优先顺序排列、控制输入和输出装置、便利网络连接以及管理文件。操作系统的不起限制作用的例子是微软Windows、Mac操作系统X、以及Linux。
计算机系统11可以经由总线13耦合到显示器17,比如阴极射线管(CRT)、液晶显示器(LCD)、纯平显示器、触屏显示器或者类似的用于向用户显示文本和图像数据的装置。显示器17可以经由支持该显示器的视频适配器来连接。显示器17使用户得以观看、进入、和/或编辑与系统10的操作有关的信息。包括字母数字的和其他按键的输入装置18耦合到总线13上,用于将信息和命令选择传送到处理器127。另一类型用户输入装置是光标控制19,比如用于将方向信息和命令选择传送到处理器127和用于控制在显示器17上的光标移动的鼠标、轨迹球、或光标方向键。这个光标控制19通常具有两个轴上的两个自由度,两个轴是第一轴(比如x)和第二轴(比如y),使该装置得以指定平面中各个位置。
计算机系统11可以用于实现文中所述的这些方法和技术。根据一个实施例,这些方法和技术被计算机系统11执行,作为对处理器127执行包含在主内存125a中的一个或多个指令的一个或多个序列的响应。这样的指令可以被从另一个计算机可读介质比如存储装置125c读入主内存125a。在主内存125a中包含的指令序列的执行导致处理器127执行文中所述的处理步骤。在替换实施例中,硬连线的电路可以替代软件或者与软件指令结合使用以实现该布局。因而,本发明的实施例不限于硬件电路和软件的任何特定结合。
文中使用的术语"处理器"包括但不限于任何集成电路或任何其他能够执行至少一个指令上的操作的电子装置(或电子装置的集合),包括但不限于微处理器(μP)、微控制器(μθ)、数字信号处理器(DSP)、或者它们的任何组合。处理器比如处理器127也可以是精简指令集核心(RISC)处理器、复杂指令集计算(CISC)微处理器、微控制器单元(MCU)、或者基于CISC的中央处理单元(CPU)。处理器127的硬件可以集成到单基片(例如硅"模")上,或者可以分布在两个或多个基片之中。进一步来说,处理器127的诸多方面的功能可以仅仅实现为与处理器127相关联的软件(或固件)。
术语"内存”和"存储"在文中可交换使用并指可以暂时或永久保持或存储信息(可以在以后取回)比如数字数据的任何物理部件,通常用在计算机或其他数字电子装置中。内存可以存储计算机程序或任何其他计算机可读指令的序列、或数据(比如文件、文本、数量、音频和视频)、以及表示为位或字节的串或结构的任何其他形式的信息。存储信息的物理手段可以是静电的、铁电体的、磁性的、声音的、光学的、化学的、电子的、电气的、或机械的。内存可以是集成电路(IC、a.k.a.芯片或微芯片)的形式。替换地或此外,内存可以是由各电子元件(模块)封装的功能组件的形式。这样的模块可以基于印刷电路板,比如根据PC机内存卡国际联合会(PCMCIA)PCMCIA2.0标准的PC卡,或者按照JEDEC(联合电子设备工程会议)的JESD-21C标准来标准化的单列直插式内存模块(SIMM)或双列直插式内存模块(DIMM)。进一步地,内存可以是独立地刚性地封闭的盒子的形式,比如外部的硬盘驱动(HDD)。内存的容量通常是以字节(B)为特征,在这里前缀“K”用于表示千=210=10241=1024,前缀“M”用于表示兆=220=10242=1,048,576,前缀“G”用于表示千兆=230=10243=1,073,741,824,前缀“T”用于表示兆兆=240=10244=1,099,511,627,776。
各种形式的计算机可读介质可以用来将一个或多个指令的一个或多个序列携带至用于执行的处理器127。例如指令可以最初被装在远程计算机的磁盘上。远程计算机可以将指令加载到它的动态内存中并且使用调制解调器在电话线路上发送指令。计算机系统11本地的调制解调器可以在电话线上接收该数据并使用红外发射器将该数据转化成红外信号。红外检测器可以接收在红外信号中携带的数据而且适当的电路可以将数据放在总线13上。总线13将数据携带到主内存125a,处理器127从主内存125a取回并执行指令。在由处理器127执行之前或之后,被主内存125a接收的指令优选存储在存储装置125c上。
计算机系统11通常包括耦合到总线13上的通信接口129。通信接口129提供到网络链路128上的双向数据通信耦合,网络链路128连接到局域网(LAN)24。例如,通信接口129可以是综合服务数字网络(ISDN)卡或调制解调器以提供到对应类型电话线上的数据通信连接。作为另一个不起限制作用的例子,通信接口129可以是局域网(LAN)卡以提供到兼容的LAN的数据通信连接。例如,可以使用基于IEEE802.3标准的以太网连接,比如10/100BaseT、1000BaseT(千兆以太网)、10千兆以太网(根据IEEE标准委员会的802.3ae-2002as标准的10GE或10GbE或10GigE)、40千兆以太网(40GbE)、或100千兆以太网(根据以太网标准IEEEP802.3ba的100GbE)。这些技术在思科系统、公司公开号1-587005-001-3(6/99)的"连网技术手册"第七章:"以太网技术"、从第7-1到7-38页中描述,好像在文中完全描述了一样为任何目的整体并入。在这样的情况下,通信接口129通常包括LAN收发机或调制解调器,比如标准微系统公司(SMSC)LAN91C11110/100以太网收发机,其在标准微系统公司(SMSC)数据页“LAN91C11110/100Non-PCI以太网单片MAC+PHY”、版本15(02-20-04)中描述的,好像在文中完全描述了一样为任何目的整体并入。
因特网服务提供商(ISP)26是提供访问、使用或参与因特网22的服务的组织。因特服务提供商26可以用各种形式组织,比如商业性的、集体所有的、非营利的、或私有的。因特网服务通常由ISP提供,包括因特网访问、因特网中转、域名注册、虚拟主机、以及主机托管。各种不同的ISP结构在Robert D.Doverspike、K.K。Ramakrishnan和Chris Chase写的、书题为"Guide to Reliable Internet Services and Applications"、2010年出版(ISBN:978-1-84882-827-8)的书第2章:"Structural Overview of ISP Networks"中描述,好像在文中完全描述了一样为任何目的整体并入。
连接到因特网22上的计算机系统的布局20在图2中示出。示出计算机系统或工作站27,包括主机28,其封住了其上通常安装有处理器127和内存125a、125b和125c的主板。工作站27包括键盘212(对应于输入装置18)、打印机211、计算机鼠标(对应于光标控制19)、以及显示器29(对应于显示器17)。图2图示说明经由因特网22连接的各种不同装置,比如经由路由器或网关25和ISP26连接到因特网22上的客户装置#1 21a、客户装置#2 21b、数据服务器#1 23a、数据服务器#2 23b、以及工作站27。
操作系统。操作系统(OS)是管理计算机硬件资源并为电脑程序提供公共服务的软件。操作系统是计算机系统中任何系统软件的必不可少的组成部分,大多数应用程序通常需要运行操作系统。对于硬件功能比如输入/输出和内存分配,操作系统在程序和计算机硬件之间扮演中介的角色,虽然应用代码通常直接由硬件执行并且将频繁地对OS函数进行系统调用或被它中断。通常被操作系统支持的公共特性包括进程管理、中断处理、内存管理、文件系统、设备驱动程序、网络连接(比如TCP/IP和UDP)、和输入/输出(I/O)处理。受欢迎的现代操作系统的例子包括安卓、BSD、iOS、Linux、OS X、QNX、微软Windows、Windows Phon、以及IBM z/OS。
图3中所示的摄像机30可以是数码摄像机,其在特定控制时将拍摄的图像转换成电信号,或者可以是摄影机,其中从拍摄的图像向电子信号的转换是连续的(例如每秒24个帧数)。摄像机30优选为数码摄像机,其中视频或静止图像使用电子图像传感器32来转换。数码摄像机30包括用来将所接收的光聚焦到小半导体图像传感器32上的镜头71(或很少的镜头)。图像传感器32通常包括面板,其具有微小的光敏二极管(光电管)组成的矩阵,将图像光转换成电荷然后转换成电信号,因而通过记录光强来创建视频图片或静止图像。电荷耦合器件(CCD)和CMOS(互补的金属氧化物半导体)常用作光敏二极管。可以使用线阵或面阵的光敏元件,这些光敏传感器可以支持单色(黑和白)、彩色或者两者均支持。例如,可以使用CCD传感器KAI-2093图像传感器1920(H)X1080(V)行间CCD图像传感器或者KAF-50100图像传感器8176(H)X6132个(V)全帧CCD图像传感器,可以从纽约洲罗切斯特市的伊斯曼柯达公司的图像传感器业务中获得。
图像处理器框33从图像传感器32接收模拟信号。框33中的模拟前端(AFE)过滤、放大、以及使用模拟数字(A/D)转换器来数字化该信号。AFE进一步提供相关双采样(CDS),而且提供增益控制,以适应变化的光照条件。就CCD传感器32来说,CCD的AFE(模拟前端)部件可以在数字图像处理器33和传感器32之间使用。这样的AFE可以基于来自美国得克萨斯洲达拉斯市的德克萨斯仪器公司的VSP2560“用于数码摄像机的CCD模拟前端”。框33进一步包含数字图像处理器,其从AFE接收数字数据,并且处理图像的此数字表示以处理各种不同的行业标准并执行各种不同的计算指令和算法。优选地,还可以有其他的图像增强处理被框33执行,比如生成更大的像素密度或者调节色彩平衡、对比度、以及亮度。进一步地,框33可以对原始的数字图像数据执行其他的数据管理功能和处理。通常,那些竖直/水平基准信号和像素时钟的定时关系在这个框中被处理。来自美国得克萨斯洲的达拉斯市的德克萨斯仪器公司的数字媒体片上系统器件TMS320DM357是在单片(和相关的电路)中实现图像处理器33的部分或全部、视频压缩器34的部分或全部以及收发机35的部分或全部的器件的一个例子。除镜头或镜头系统之外,滤色器可以位于成像光学器件和光传感器阵列32之间以完成预定的调色操作。
处理框33将从光传感器阵列32收到的原始数据(可以是任何内部的相机格式,包括在Bayer格式变换之前或之后)转换成标准图像文件格式的颜色校正图象。摄影头30进一步包括连接器39a、和位于连接器39a和图像处理器33之间的发射器或收发机35。收发机35还包括磁隔离部件(例如变压器型)、平衡、电涌保护、以及提供经由连接器39a的正确且标准的接口所需的其他合适的部件。就连接到有线的介质来说,连接器39进一步包含用于调节暂态、过电压和闪电的保护电路、以及任何其他用于减少或消除有线介质上的无用信号造成的损害的保护装置。还可以使用带通滤波器仅仅使得所需要的通信信号通过,拒绝或阻止所述路径中的其他信号。变压器可以用于隔离和减少共模干扰。还可以使用有线驱动程序和有线接收器以向有线介质发送和从有线介质接收适当水平的信号。还可以使用平衡器来补偿有线介质的任何频变特性。
由图像处理器33执行的其他图像处理功能可以包括调整色彩平衡、gamma和亮度,过滤图形噪声,使用维纳滤波器过滤噪声,改变缩放因子,裁剪,施加增强滤波片,施加平滑过滤器,施加对象依赖的过滤器,施加坐标变换。图像数据的其他增强可以包括施加数学算法以生成更大的像素密度或调整色彩平衡、对比度和/或亮度。
图象处理可以进一步包括通过比较当前图像与基准图像并计算不同像素的数量进行运动检测的算法,在此假设图像传感器32或数码摄像机30在固定位置并因而假设拍摄的相同图像。由于如下因素造成图像本质上是不同的:诸如不同的光照、相机闪光、以及CCD暗电流,预处理有利于减少假阳性警报的数量。当摄像机本身正在移动时或者当必须在包含可被忽略的其他运动的范围中检测特定对象的运动时,必须有更复杂的算法来检测运动。
图象处理可以进一步包括视频增强,比如视频去噪、图像稳定、反锐化掩模、以及超分辨。进一步地,图象处理可以包括视频内容分析(VCA),基于多重图像分析视频内容以检测并确定暂时事件,常用于娱乐、医疗保健、零售、汽车业、运输、家庭自动化、安全和安保方面。VCA功能性包括视频运动检测(VMD)、视频跟踪,和自运动估计,以及识别、行为分析、以及其他形式的态势感知。动态掩模功能性涉及基于信号本身来阻档视频信号的一部分,例如因为隐私问题。自运动估计功能性涉及确定摄像机的位置或者估计摄像机相对刚性场景的运动,通过分析它的输出信号。运动检测用于确定所观察的场景中相对运动的存在,而同时目标检测用于确定某种物体或实体的存在,例如人或车,以及着火和烟雾探测。类似地,面部识别和自动的号码牌识别可以用于识别,因此可以识别人或车。篡改检测用于确定是否摄像机或输出信号被篡改,视频跟踪用于确定视频信号中人或物体的位置,可以相对于外部基准网格。图形被定义为在图像中具有可辨别特征的任何形状,可辨别特征当与其他形状相比时提供与众不同的标识。图形识别也可以用来发现所观察的图形之间的差异以及相同点而且基于这些感知到的差异和相同点将图形分成适当的种类;而且可以包括用于正确地识别离散图形的任何程序,离散图形比如作为预定的图形种类的一员的字母数字字符。进一步地,视频或图象处理可以使用或基于Al Bovik编辑的、Academic出版社出版的、ISBN:0-12-119790-5、书题为"Handbook of Image&Video Processing"的书中公开的算法和技术,好像在文中完全描述了一样为任何目的整体并入。
控制器37,位于摄像机装置或模块30内,可以基于离散逻辑或集成装置,比如处理器、微处理器或微型电子计算机,可以是通用装置或可者是专用处理器件,比如ASIC、PAL、PLA、PLD,可现场编程门阵列(FPGA)、门阵列、或其他定制的或可编程的器件。就可编程的器件来说以及在其他实现方式中,需要内存。控制器37通常包括内存,其可以包括静态RAM(随机存取存储器)、动态RAM、闪存、ROM(只读存储器),或任何其他数据存储介质。内存可以包括数据、程序、和/或指令以及可由处理器执行的任何其他软件或固件。控制逻辑可被实现在硬件中或在软件中,比如存储在内存器中的固件。控制器37控制和监视器件操作,比如初始化、配置、接口、以及命令。术语"处理器"意在包括任何集成电路或者其他能够对至少一个指令执行操作的电子器件(或器件的集合),包括但不限于精简指令集核心(RISC)处理器、CISC微处理器、微控制器单元(MCUs)、基于CISC的中央处理单元(CPU),和数字信号处理器(DSPs)。这样的器件的硬件可以集成到单基片(例如硅"模")上,或者分布在两个或更多个基片之中。进一步来说,处理器的各种不同的功能方面可以仅仅被实现为与该处理器相关联的软件或固件。
数码摄像机装置或模块30需要电力用于它的所述功能比如拍摄、存储、操纵、以及发送图像。可以使用专用电源比如电池或者经由连接器39b至外部电源的专用连接。电源38包含DC/DC转换器。在另一个实施例中,电源38是经由AC插头作为连接器39b和电线从AC电源馈送的电力,因而可以包括AC/DC(交流/直流)转换器,用于将交流电源(通常115V AC/60Hz或220V AC/50Hz)转换成所需的DC电压或多个电压。这样的电源在本领域中已知并通常涉及将发电站公司所供应的120或240伏特AC电转化成用于电子装置的被调适后的低电压DC电。在一个实施例中,电源38集成到单个器件或电路中,以共用公共电路。进一步地,电源38可以包括升压转换器,例如本领域已知的降压升压转换器、电荷泵、逆变器和调节器,按照需要将电力从一种形式转换成另一种期望的形式。虽然电源38(分立或集成)可以是集成部件并且容纳在摄像机30的壳体之内,它可以封装为一个独立的壳体经由线缆连接到摄像机30的组件。例如,可以使用小的出口可外接电源的降压变压器形状(也称为“壁疣(wall-wart)”、"充电器"、"插头包"、"可外接电源的适配器"、"适配器块"、"家用电源适配器"、"电源适配器"、或AC电源适配器)。进一步地,电源38可以是线性或开关类型
可以用来表示所拍摄的图像的各种不同格式是TIFF(标记图像文件格式)、原始格式、AVI、DV、MOV、WMV、MP4、DCF(用于摄像机格式的设计规则)、ITU-T H.261、ITU-T H.263、ITU-T H.264、ITU-T CCIR 601、ASF、Exif(可交换的图像文件格式),和DPOF(数字影像打印格式)标准。在许多情况下,视频数据在传送之前被压缩,以使其得以在压缩带宽传输系统上传输。图3中示出视频压缩器34(或视频编码器)位于图像处理机33和收发机35之间的,使数字视频信号得以在线缆或空中传输之前压缩。有些情况,不需要压缩,因此排除对这样的压缩器34的需要。这样的压缩可以是有损或无损类型。常用压缩算法是JPEG(联合照相专家组)和MPEG(运动图像专家组)。上述和其他图像或视频压缩技术可以利用帧内压缩,通常是基于对准部分单个帧或单个帧之间的差异。帧间压缩可进一步用于视频流,基于记录各帧之间的差异。图象处理的其他例子包括游程编码和增量调制。进一步地,图像可以动态抖动,以使所显示的图象看起来有更高的分辨率和质量。
单镜头或镜头阵列31被定位成收集代表主题或风景的光能并且聚焦光能到光传感器阵列32上。通常,光传感器阵列32是感光的像素的矩阵,其生成代表通过成像光学技术引导在像素上的光能的电信号。
虽然上面对于使用单镜头31和单传感器32来拍摄单图像已经举了数码摄像机30的例子,应当明白的是多重图像可以同样地考虑,只要使用多重图像拍摄机构。图4中所示的数码摄像机40是两个拍摄机构的例子。镜头31a和31b分别与传感器32a和32b相关联,传感器32a和32b依次分别连接到图像处理器33a和33b。在使用压缩函数的情况下,视频压缩器34a和34b分别压缩从处理器33a和33b接收的数据。在一个实施例中,使用两个收发机(例如每一个与收发机35一样)和两个端口(例如每一个与端口39a一样类型)。进一步地,可以采用两个通信介质(每一个与上述的相似或相同),每一个携带与各自的镜头对应的图像。进一步地,可以利用频分/频域多路复用技术(FDM)来使用相同介质。在这样的情况下,每个信号携带在专用频带中,与相同介质上同时携带的其它信号不同。这些信号被结合到介质上并且使用多路复用器41中采用的各种不同的过滤方案与介质分开。在另一个实施例中,使用时分/时域多路复用技术(TDM)来携带多重图像。来自视频压缩器34a和34b的数字数据流被多路复用器41多路复用到单个流中,多路复用器41用作时分复用器。组合后的信号然后馈送到单收发机35中从而传输到介质上。还可以使用两个或更多个图像拍摄部件来提供立体视频,可以是该内容的3-D或任何其他立体像,或者改进所显示的图象功能性质量的其他方法。
对可连接到计算机上的便携式电子摄像机的一个现有技术的例子在授予Parulski等人的名称为“Hand-Manipulated Electronic Camera Tethered to aPersonal Computer”的美国专利5,402,170中公开。数字式电子摄像机可以接受各种不同类型的输入/输出卡或内存卡被公开在授予Fukuoka的名称为“Digital Image CapturingDevice having an Interface for Receiving a Control Program”的美国专利7,432,952中,使用磁盘驱动组件将图像转移出电子摄像机被公开在Roberts等人的名称为“Electronic Still Video Camera with Direct Personal Computer(PC)CompatibleDigital Format Output”美国专利5,138,459中,好像在文中完全描述了一样为任何目的整体并入。具有人脸检测装置的摄像机公开在如下文献中:授予Ray等人的名称为“FaceDetecting Camera and Method”的美国专利6,940,545、以及Binder的公开号为2012/0249768、名称为“System and Method for Control Based on Face or Hand GestureDetection”的美国专利申请,好像在文中完全描述了一样为任何目的整体并入。
脸部检测(也称为脸部定位)包括在数字获取的图像内识别一组像素的算法,其涉及人脸部的存在、位置和尺寸。常用的脸部检测算法主要关注前面的人脸部的检测,而且其他算法尝试解决多视角脸部检测的更一般的和困难的问题。就是说,脸部检测是沿着从脸部至观察者的轴(旋转平面中的)旋转,或者沿着竖直或左右轴(旋转平面之外的)旋转,或两种旋转都有。各种不同的脸部检测技术和装置(例如摄像机)具有如下美国专利文献中所公开的脸部检测特征:RE33,682、RE31,370、4,047,187、4,317,991、4,367,027、4,638,364、5,291,234、5,386,103、5,488,429、5,638,136、5,642,431、5,710,833、5,724,456、5,781,650、5,812,193、5,818,975、5,835,616、5,870,138、5,978,519、5,987,154、5,991,456、6,097,470、6,101,271、6,128,397、6,148,092、6,151,073、6,188,777、6,192,149、6,249,315、6,263,113、6,268,939、6,282,317、6,301,370、6,332,033、6,393,148、6,404,900、6,407,777、6,421,468、6,438,264、6,456,732、6,459,436、6,473,199、6,501,857、6,504,942、6,504,951、6,516,154、6,526,161、6,940,545、7,110,575、7,315,630、7,317,815、7,466,844、7,466,866和7,508,961,好像在文中完全描述了一样为任何目的整体并入。
图像。数字图象是数字表示(通常为二进制)的二维图像。取决于图像分辨率是否是固定的,它可以是向量或光栅类型的。光栅图像具有数字值的有限集,称为图象元素或像素。数字图象含有固定行和列的像素,像素是图像中最小的个体元素,保持表示在任一特定点处给定颜色的亮度的量化值。通常,像素储存在计算机内存中作为光栅图像或光栅地图,小整数组成的二维排列,这些数值通常以压缩形式传输或存储。光栅图像可由各种输入装置和技术来创建,比如数码摄像机、扫描器、坐标测量机、地震学剖析、机载雷达、以及更多种装置。通用图像格式包括GIF、JPEG、以及PNG。
图形交换格式(更为熟知的是它的缩写词GIF)是位图图像格式,其对于每幅图像支持高达8位每像素,使单图像得以引用它的选自24位RGB颜色彩空间的高达256种不同颜色的调色板。它还支持动画和使高达256种颜色的独立调色板用于每一帧。GIF图象使用Lempel-Ziv-Welch(LZW)无损数据压缩技术来压缩以减少文件大小,却不影响视觉质量。GIF(图形交换格式)标准版本89a从www.w3.org/Graphics/GIF/spec-gif89a.txt处可得到。
JPEG(最常与文件扩展名.jpg或.jpeg一起看到)是用于数字图象的有损压缩的常用方法,特别是那些由数字摄影产生的图像。压缩度可以调整,在存储尺寸和图象质量之间具有可选择的权衡并且通常取得10:1的压缩而图象质量几乎感觉不到有损失。JPEG/Exif连同JPEG/JFIF一起是数码摄像机和其他摄影图像拍摄装置最常用的图像格式。术语"JPEG"是创建该标准的联合照相专家组的缩写词。JPEG/JFIF支持的最大图像尺寸是65535x65535像素——1至4G像素(1000兆象素)的最大的图像尺寸,取决于纵横比(从全景的3:1到正方形)。JPEG按照题为“Information technology—Digital compression andcoding of continuous-tone still images:Requirements and guidelines”的ISO/IEC10918-1:1994来标准化。
可移植网络图形技术(PNG)是支持无损数据压缩的光栅图形文件格式,作为图形交换格式(GIF)的改进替换而创建,是在因特网上常用的无损图像压缩格式。PNG支持基于调色板的图像(调色板是24位RGB或32位RGB一种颜色)、灰度图像(有或没有alpha通道)、以及全色的非基于调色板的RGB图像(有或没有alpha通道)。PNG为在因特网上转移图像而设计,不用于专业人员质量印刷制图,因此不支持非RGB色彩空间比如CMYK。PNG被发布为题为“Information technology—Computer graphics and image processing—PortableNetwork Graphics(PNG):Functional specification”的ISO/IEC15948:2004标准。
元数据。文中所用的术语"元数据"是指描述特别特征、属性、或其他数据的参数,尤其是文件(比如程序文件)和对象。这样的数据通常是描述、解释、定位信息资源,还使信息资源更容易取回和使用。元数据通常包括与数据结构的设计和说明有关的结构元数据和或“关于数据的容器的数据”,以及关于申请数据的各个实例或数据内容的描述性元数据。元数据可以包括数据的创建方式、数据的用途、创建的时间与日期、数据的创建者或作者、数据被创建在计算机网络上的位、以及使用的标准。
例如,与计算机字处理文件相关联的元数据可能包括文档的标题、作者的名字、文档所属的公司、文档创建和最后修改的日期、描述文档的关键词、以及其他描述文件,和其他描述的数据。虽然信息中的一些也可以被归入文件本身(例如标题、作者、以及数据),但是元数据可以是与相关联的实际文档分开存储的数据集合。编制元数据的一种常用格式是可扩展标记语言(XML)。XML提供形式语法,其支持任意描述有时称为"标签"的创建。元数据入口的一个例子可能是<title>战争与和平<title>,这里加括号的词划定了这组字符的开头和结尾,其构成由元数据描述的文档的标题。在字处理文件的例子中,元数据(有时称为"文档属性")被作者、编辑者、或文档管理者手动输入。元数据概念进一步在如下文献中描述:题为:"Understanding Metadata"的国家信息标准组织(NISO)小册子(ISBN:1-880124-62-9),题为“The Dublin Core Metadata Element Set”的IETF RFC5013、以及题为“Encoding Dublin Core Metadata in HTML”的IETF RFC2731,好像在文中完全描述了一样为任何目的整体并入。从文件或对象提取元数据在如下专利文献中描述:授予Bedingfield的题为“Systems,Methods and Computer Products for Content-DerivedMetadata”的美国专利8,700,626和Yang等人的公开号为2012/0278705、题为“System andMethod for Automatically Extracting Metadata from Unstructured ElectronicDocuments”的美国专利申请,都好像在文中完全描述了一样为任何目的整体并入。
元数据可以在同一文件、对象、或结构中内部存储为数据(这也被称为内部的或嵌入式元数据),或在与所述数据分开的文件或域中外部存储。数据存储库通常存储与数据分离的元数据,但是可以设计为支持嵌入式元数据方法。元数据可以以人可读的形式或二进制形式存储。以人可读的格式比如XML存储元数据是有用处的,因为用户无需专业工具就可以理解并编辑它,不过,这些格式对于存储容量、通信时间、以及处理速度来说不是最优的。二进制的元数据格式在这些方面是有效率的,但是需要专门的函数库将二进制信息转换成人可读的内容。
标签。标签是与非层次关键词有关的一种元数据或分配给数字图象的术语,描述图像并使它得以通过浏览或搜索被再次发现。标签可以随着系统不同而非正式地亲自地被物品的创建者或被它的阅览器选择。
色彩空间。色彩空间是颜色的特定组织,使颜色得以在模拟和数字表示中可再现表示。色彩模型是抽象的数学模型,其描述颜色可以表示为数量元组(例如RGB中三个元组/通道或CMYK中四个元组/通道)的方法。当定义色彩空间时,通常的参考标准是CIELAB或CIEXYZ色彩空间,其被专门设计成包括普通人可以看见的所有颜色。颜色通常在用以CMYK色彩模型为基础的色彩空间进行的打印中创建,CMYK色彩模型使用颜料的减法混色的原色(蓝绿色(C)、洋红色(M)、黄色(Y),和黑色(K))。创建给定的色彩空间的三维表示,我们可以分配品红色的数量给该表征的X轴,分配蓝绿色的数量给它的Y轴,分配黄色的数量给它的Z轴。最终得到的3-D空间为每种可能的颜色提供独一无二的位置,其可以通过组合这三种颜料而创建。颜色通常用以RGB色彩模型为基础的色彩空间在计算机监视器上创建,RGB色彩模型使用加法混色的原色(红色、绿色、以及蓝色)。三维表征会分配三种颜色的每一种给X、Y和Z轴。普遍的色彩模型包括RGB、CMYK、HSL、YUV、YCbC、以及YPbPr颜色格式。
色彩空间和各种不同的色彩空间模型在如下文章中描述:斯洛文尼亚的theUniversity of Ljubljana(卢布尔雅那大学)的Marko Tkalcic和Jurij F.Tasic写的题为:"Colour spaces-perceptual,historical and applicational background"的文章、the Association of Moving Image Archivists的期刊“The Tech Review”第4期2012年5月刊发的Andrew Oran和Vince Roth写的题为“Color Space Basics”的文章,都好像在文中完全描述了一样为任何目的整体并入。色彩空间或模型之间的转换在如下文章中描述:Adrian Ford和Alan Roberts写的题为“Colour Space Conversions”的文章(1998年8月11日)、2004年Philippe Colantoni和Al写的题为“Color Space Transformations”的文章,都好像在文中完全描述了一样为任何目的整体并入。
色彩空间将(从混合光、颜料等等)物理上产生的颜色范围映射成眼睛中对准的色觉的客观描述,通常就三刺激值来说,但是通常不在由圆锥体光谱感光度定义的LMS空间中。与色彩空间有关联的三激励值可以概念化三原色相加色彩模型中的三原色的数量。在一些色彩空间中,包括LMS和XYZ空间,使用的原色不是真实的颜色,从这种意义上来说它们不能由任何光谱产生。
CIE色彩空间。CIE1931标准在1931年由国际照明委员会(CIE)创建并包括CIE1931RGB、CIE1931XYZ、CIELUV、以及CIEUVW色彩模型。当在光照好的情形下判断不同颜色的相对的亮度(亮度)时,人往往感觉光谱的绿色部分内的光线比同等电能的红色或蓝色光线更明亮。因而描述所感知的不同波长的亮度的发光度函数大略相当于M圆锥体的光谱灵敏度。CIE模型通过定义Y为亮度来利用此事实。Z准等于蓝色的刺激,或者S圆锥体响应,X是选为非负整数的圆锥体响应曲线的混合(线性组合)。因而XYZ三刺激值是相当于,但不同于人眼的LMS圆锥体响应。定义Y为亮度对于任一给定的Y值具有有用的结果,XZ平面包含在这个亮度处所有的可能的色品。CIE色彩空间在Gemot Hoffmann写的题为:"CIE ColorSpace"的论文中做了描述,都好像在文中完全描述了一样为任何目的整体并入。
RGB色彩空间。RGB是红-绿-蓝的缩写。RGB色彩空间是基于RGB色彩模型的任意相加混色彩空间。一个特定的RGB色彩空间由红色、绿色、和蓝色加法混合原色的三个色品而定义,通过由这些原色定义的三角形可以产生任何色品。色彩空间的完整规定还需要白色点色品和gamma校正曲线。RGB(红色、绿色、以及蓝色)描述为了产生给定的颜色需要发射何种光。光加在一起以创建不同于黑暗的形式。RGB存储用于红色、绿色和蓝色的各个数值。RGB是色彩模型,由此色彩模型得到许多不同的RGB色彩空间,比如RGBA,其是具有指示透明度的附加通道alpha的RGB。RGB色彩空间在如下文章中描述:由BabelColor公司的DannyPascale发表的题为“A Review of RGB Color Spaces...from xyY to R'G'B”的文章、由来自the Laboratory of audio-visual Communication(视听传播实验室)(EPFL)的Sabine Susstrunk、Robert Buckley和Steve Swen写的题为“Standard RGB ColorSpaces”的文章,都好像在文中完全描述了一样为任何目的整体并入。RGB色彩空间包括RGB、sRGB、AdobeRGB、Adobe宽色域RGB、ProPhotoRGB色彩空间、苹果RGB、ISO RGB、ROMMRGB、国际电信联盟(ITU)无线电通信部分(ITUR)推荐ITU-R BT.709,和ITU-R BT.202。
亮度加色差(chroma/chrominance)(YUV)。一些色彩空间基于将代表亮度信息的分量(Y)与代表色差信息的那些分量(U+V或I+Q)分开。YUV是通常用作彩色图像的管线一部分的色彩空间,它将彩色图像或视频进行编码,考虑了人的感知,使色度分量的带宽得以减小,因而通常使传送误差或压缩假像能够比使用“直接”RGB表示更有效地被人类感知掩盖。其他色彩空间具有相似的属性,而且实现或探讨Y'UV属性的主要原因是与符合某些Y'UV标准的模拟或数字电视或者摄影器材接口。
Y'UV模型定义色彩空间,有一个亮度(Y')和两个色差(UV)分量。Y'UV色彩模型用在PAL和SECAM复合色彩视频标准。以前的黑-白系统仅仅使用亮度(Y')信息。色彩信息(U和V)分别经由子载波来添加,以使黑白接收机仍然能够以接收机本来的黑白格式接收并显示彩色图片传输。Luminance(亮度)由Y表示而且Luma(亮度)由Y'表示——基本符号(’)表示gamma压缩,“Luminance(亮度)”意思是感知的(色彩学)的亮度,而“Luma(亮度)”是电子(显示电压)亮度。用在模拟元件视频中的YPbPr彩色彩模型和用在数字视频中的它的数字版本YCbCr或多或少来源于它,有时称为Y'UV。(CB/PB和CR/PR是与在蓝色-黄色和红色-蓝绿色的轴上灰色的偏差,而U和V是蓝色亮度差和红色亮度差。)在模拟NTSC电视广播系统中使用的Y'lQ色彩空间与它有关系,虽然是更复杂的方式。YCbCr、Y'CbCr、或YPb/Cb Pr/Cr,还写作YCBCR或Y'CBCR,是用作视频和数字摄影系统中的彩色图像管线的一部分的色彩空间家族。Y'是亮度分量而且CB和CR是蓝色差异和红色差异的色差分量。Y'(有’符号)不同于Y,Y是luminance(亮度),Y'意思是光强基于gamma校正的RGB各原色而被非线性编码。基于YUV色彩空间的色彩模型包括(在PAL中使用的)YUV、(在SECAM中使用的)YDbDr、(在NTSC中使用的)YIQ、(在ITU-R BT.601、BT.709、以及BT.2020中描述的)YCbCr、YPbPr、xvYCC、以及YCgCo。YUV家族在如下文章中进一步描述:工程研究和申请的国际期刊(IJERA)ISSN:2248-9622的第2卷第2期2012年3月-4月第152页-156页发表的,问题2、2012年四月3月、pp.152-156,由Tirupati(蒂鲁帕蒂)的the University College of Engineering(工程大学)的Gnanatheja Rakesh和Sreenivasulu Reddy写的题为“YCoCg color Image Edgedetection”的文章,好像在文中完全描述了一样为任何目的整体并入。
色相和饱和度。HSL(色相-饱和度-亮度)和HSV(色相-饱和度-纯度)是在RGB色彩模型中两个最常用的圆筒形坐标表示的点,当今在颜色选择器中、在图像编辑软件中、以及在图像分析和计算机视觉中常用。这两种表示重新整理RGB的几何位置试图比Cartesian(立方)表示更加直观且更与知觉相关,通过将这些数值映射到由传统的彩色轮盘疏松激发的圆筒。围绕中心竖直轴的角对应于"色相"而且与该轴的距离对应于"饱和度"。这头两个数值给两个方案它们名字中的‘H’和‘S’。高度对应于第三数值,相对于饱和度的可感知的亮度的系统表示。
可感知的亮度是颜色以数字格式表示的非常困难的方面(参见缺点章节),而且这已经导致两个系统尝试解决此问题:HSL(表示亮度的L)和HSV或HSB(表示纯度的V或表示亮度的B)。第三模型HSI(表示灰度的I)在计算机视觉应用中常用、试图平衡其它两个系统的优点和缺点。虽然通常是一致的,但是这些定义不被标准化。HSV和HSL色彩模型在如下文章中描述:Darrin Cardanu写的题为"Adventures in HSV Space"的文章、以及DouglasA.Kerr写的题为“The HSV and HSL Color Models and the Infamous Hexcones”的文章(第3期,2008年5月12日),都好像在文中完全描述了一样为任何目的整体并入。
光流。光流或光流法是视觉场景中对象、表面、以及边缘的视运动的模式,由观察者(眼睛或摄像机)和场景之间的相对运动导致的。运动估计和视频压缩方案已经作为光流研究的主要方面进行开发研究,通常使用基于梯度的光流估计。运动估计是确定运动向量的过程,其描述了从一个2D个图像到另一个的变换,通常图像来自视频序列中的相邻帧。这些运动向量可以由平移模型或者由许多其他模型来表示,其可以逼近真实的摄像机的运动,比如所有的三个维度中的旋转和平移以及缩放。光流技术在如下文章中描述:DavidJ.Fleet和Yair Weiss写的题为“Optical Flow Estimation”、以及J.L.Baron、DJ.Fleet、和S.S.Beauchemin写的题为“Performance of Optical Flow Techniques”的文章,好像在此完全阐明,都好像在文中完全描述了一样为任何目的整体并入。
数字摄影在如下文章中描述:Robert Berdan写的(从www.caiiadianphoiographer.com下载的)题为“Digital Photography Basics forBeginners”的文章、以及由Que Publishing在2004年四月出版(ISBN-0-7897-3120-7)的导引中Joseph Ciaglia等人写的题为“Absolute Beginner's Guide to DigitalPhotography”的文章,都好像在文中完全描述了一样为任何目的整体并入。
孔径。摄像机孔径是测量单元,其限定镜头中开口的尺寸(通常在f制光圈中测量),其可以被调整为控制光到达胶片或数字传感器的数量,并且确定一束光线的锥角以到达图象平面中的焦点。孔径确定允许进入的光线是怎样平行的,如果孔径狭窄,则高度平行的光线被允许进入,导致在图象平面上的锐聚焦,而如果孔径是宽的,则不平行光束被允许进入,导致仅仅具有某个焦距的光线的锐聚焦。通常,摄像机孔径是指孔径光阑的直径,而不是实物光阑或开口本身。大多数数码摄像机提供自动的孔径控制,其使镜头得以在最大孔径处观看和测定,在曝光期间将镜头向下停到工作孔径,并且在曝光之后将镜头返回最大的孔径。
摄影镜头的孔径光阑通常可以被调整为控制到达胶片或图像传感器的光的数量。与快门速度变化相结合,孔径尺寸调节图像传感器度曝光程度。通常,快的快门需要更大的孔径以确保足够曝光量,并且慢的快门需要更小的孔径以避免过度曝光。镜头孔径通常被规定为光圈f数,焦距与有效孔径直径之比。镜头通常标记有一套“f制光圈”,光圈f数可以设置成这套“f制光圈”。较低的光圈表示较大的孔径开口,其使更多光到达胶片或图像传感器。摄影中语"一个f制光圈"涉及因数Λ/2(approx.1.41)change in f-number,which inturn corresponds to a factor of 2change in light intensity.Typ(近似1.41)在光圈上的改变,进而对应于因数2在光强上的改变。摄影中使用的典型孔径范围大约为覆盖6级的f/2.8-f/22或f/2-f/16,其可以每两级划分成宽的、中间的、以及狭窄的,大略地(使用约数)f/2-f/4、f/4-f/8、以及f/8-f/16或者(用于较慢镜头)f/2.8-f/5.6,f/5.6-f/l1、以及f/1l-f/22。
曝光指数(ISO)。曝光指数(EI)评级(a.k.a。ISO设置)是指曝光和传感器数据值之间的关系,其可以通过设置传感器的信号增益而取得,而且由数码摄像机制造商指定以便由摄像机产生的图象文件具有与用相同EI比率的胶片得到的明亮度相似的明亮度。通常很少的EI选择是通过调整数字领域中图像传感器的信号增益来提供的。
焦距。光焦点,还称为像点,是从对象上的点发出的光线汇聚的地方,虽然焦点在概念上是一点,物理上焦点具有空间范围,称为弥散圆。图像或像点或区域,如果来自对象各点的光被几乎尽可能地汇聚在图像中则在焦点上,如果光没有汇聚好则不在焦点上。对于镜头,或球面镜或抛物柱面镜,它是平行于轴线的平行光被聚焦其上的点。由于光可在两个方向中任一方向通过镜头,镜头具有两个焦点——每个侧面上一个。在从镜头或镜子的主平面至焦点的空中距离称为焦距。焦点不是可调的摄影镜头称为固定焦点镜头或者有时称为免聚焦,焦点在制造时设置,而且保持固定。它通常被设置成超焦距,以便景深范围从一半焦距到无穷远的距离一直下降,这对用于拍摄大于一米的人或物的大多数摄像机来说是可接受的。
对于可更换镜头的摄像机,镜头座系统的镜座焦距(FFD)(也称为镜座到胶片距离、镜座焦深、镜后距离(FBD)、镜座焦长度(FFL)、或对准,取决于用途和来源)是从安装盘(摄像机上的金属环和镜头的后部)到胶片或传感器平面的距离。此数值对不同的摄像机系统是不同的,在所有的焦距内清楚地在焦点上呈现图像的距离范围通常被测量为百分之一毫米而且称为焦深(不与相似命名的景深相混淆)。
自动聚焦(AF)系统依靠一个或多个传感器确定正确的焦点。一些AF系统依靠单传感器而其他的AF系统使用传感器阵列。大多数现代的SLR摄像机使用镜后的光学AF传感器,分立的传感器阵列提供照度测定,虽然后者可被编程为把它的测定优先到与一个或多个AF传感器在同一区域。镜后光学自动聚焦常常比用普通的取景器手动取得的聚焦更快速而且更精确,虽然更精确的手动聚焦可以用专用附件比如聚焦放大镜实现。在镜头的最大孔径处景深(DOF)1/3之内的自动聚焦准确度在专业的AF SLR摄像机中是不罕见的。大多数多传感器AF摄像机使有源传感器得以手动选择,许多还提供使用算法来自动选择传感器,试图辨别主题的位置。
曝光时间。快门速度(或曝光时间)是摄影时数码摄像机快门打开的持续时间间隔的长度,以便到达胶片或图像传感器的光的数量与曝光时间成比例。摄像机的快门速度、镜头的亮度(光圈f数)、以及场景的亮度一起确定到达胶片或传感器(曝光)的光的数量,曝光数值(EV)是列入快门速度和光圈f数的量。除它在曝光上的效果之外,快门速度改变了摄影中运动出现的方式。非常短的快门速度可以用于冻结快速移动的物体,例如在体育赛事中为了艺术效果非常长的快门速度用于有意地模糊移动主题。短的曝光时间有时称为"快的",长的曝光时间称为"慢的"。对孔径的调整控制景深,对象被可接受地锐化的距离范围;这样的调整需要通过快门速度的改变来补偿。快门速度是用来控制摄像机的数字传感器或胶片所记录的光的数量的几种方法之一,还可以用来操控最终图像超出其发光度的视觉效果。
一种基于访问具有相关数值的基准图像数据库来对所拍摄的图像进行评级的方法和设备,该方法和设备还选择基准图像以形成基准图像的元数据子集,在如下文献中描述:LUU等人的名称为“Method,Apparatus,and System for Rating Images”公开号为2012/0213445的美国专利申请,好像在文中完全描述了一样为任何目的整体并入。一种作为图像采集控制通过分析所拍摄的图像中的口区域来取消不满意的场景的方法和设备,在如下文献中描述:授予Steinberg等人的名为“Digital Image Acquisition Control andCorrection Method and Apparatus”的美国专利8,265,348,好像在文中完全描述了一样为任何目的整体并入。一种用于在服务器中通过使用图像识别处理来促进数字图象分析的设备和方法,使用户得以meta标记图像显示图像,在如下文献中描述:授予Walker等人的名称为“Systems and Methods for Suggesting Meta-Information to a Camera User”的美国专利8,558,921,好像在文中完全描述了一样为任何目的整体并入。
使用中央系统确定图像被拍摄的位置的系统和方法将所提交的图像与图像库中的图像作比较以识别匹配度,在如下文献中描述:授予Jing等人的名称为“InferringLocations from an Image”的美国专利8,131,118,好像在文中完全描述了一样为任何目的整体并入。进一步来说,通过分析每次摄影的内容及其元数据来估计它的重要性从而对数字摄影自动评级和选择的方法和选择的方法,在如下文章中描述:都属于德国伊尔梅瑙的the Fraunhofer Institute for Digital Media(数字媒体的弗劳恩霍夫研究所)的Daniel Kormann、Peter Dunker和Ronny Paduscheck写的的题为"Automatic Rating andSelection of Digital Photographs”的文章,好像在文中完全描述了一样为任何目的整体并入。
已知有各种不同的方法对于数码摄像机拍摄的数字图像的质量进行分析并给用户提供反馈。数码摄像机内的处理器生成并利用食谱数据文件并且与用于上传和下载的网络存储位置相联通,在如下文献中描述:Syed等人的名称为“Recipe Based Real-TimeAssistance for Digital Image Capture and Other Consumer Electronics Devices”公开号为2013/0050507的美国专利申请,一种确定有效策略简档的方法和系统,包括配置成发起对至少一个有效策略简档的请求的客户端装置、通信式耦合到客户端装置上并被配置成接收请求的服务器机构、以及配置成存储多个策略简档的策略数据存储部件,在如下文献中描述:Romanek等人的名称为“System and Method for Determining EffectivePolicy Profiles in a Client-Server Architecture”公开号为2010/0268772的美国专利申请,用于对图像的构成进行分析、特征化和/或评级并提供指导性的反馈或自动校正动作的方法和设备在如下文献中描述:Gabay的名称为“Methods,Circuits,Devices,Apparatuses and Systems for Providing Image Composition Rules,Analysis andImprovement”公开号为2012/0182447的美国专利申请,一种提供设装置角度图像校正的方法,主题的图像(例如静止或移动)经由移动装置的摄像机拍摄,在如下文献中描述:Romanek等人的名称为“System and Method for Determining Effective PolicyProfiles in a Client-Server Architecture”公开号为2010/0268772的美国专利申请,用于对图像的构成进行分析、特征化和/或评级并提供指导性的反馈或自动校正动作的方法和设备在如下文献中描述:Hubner等人的名称为“Method and Apparatus forProviding Device Angle Image Correction”公开号为2013/0063538的美国专利申请,一种在图像完全聚焦的电子摄像机中促进图像拍摄的设备和相关方法在如下文献中描述:Foster的名称为“Convergence Feedback Indicator,Provided When Taking a Picturein a Camera Application”公开号为2012/0086847的美国专利申请,一种提供对所拍摄的最终图像的质量估计的实时反馈的方法,包括计算初步获得的图像的质量得分,在如下文献中描述:CHEN等人的名称为“Smart Document Capture Based on Estimated Scanned-Image Quality”公开号为2014/0050367的美国专利申请,用于确定与用户装置的数字成象部件所拍摄的图象帧有关联的扩展性信息的方法和系统在在如下文献中描述:Hofmann等人的名称为“Feedback to User for Indicating Augmentability of an Image”公开号为WO2013/044983的PCT国际申请,好像在文中完全描述了一样为任何目的整体并入。
进一步地,数字图像采集系统包括用于拍摄数字图象的便携设备和数字处理部件,数字处理部件用于检测、分析、调用后续图像捕获、以及通知摄影师关于运动模糊并减小该设备所拍摄的图像中的摄像机运动模糊,在如下文献中描述:名称为“Method andApparatus for Initiating Subsequent Exposures Based on Determination ofMotion Blurring Artifacts”的美国专利8,244,053和名称为“Method Notifying UsersRegarding Motion Artifacts Based on Image Analysis 8,285,067”的美国专利,都好像在文中完全描述了一样为任何目的整体并入。
此外,具有释放按钮、定时器、内存和控制部件的摄像机,定时器测量该释放按钮的按压被释放以后经过的时间,用于释放按钮被再次按压时通过缩短聚焦所需的时间来防止拍摄效果好的照片的快门释放时刻被错过,在如下文献中描述:Hyo Hana的名称为“Camera”公开号为JP2008033200的日本专利申请,被脸部检测处理电路读取的通过的图像,对象的脸被检测,半按压快门按钮时对象的脸再次被脸部检测处理电路检测,用于提供一种能够无误地拍摄快速移动的儿童的成像设备,在如下文献中描述:Uchida Akihiro的名称为“Imaging Apparatus”公开号为JP2007208922的日本专利申请,以及执行图像评估处理来自动评估摄影图像(暴光条件评估、对比度评估、模糊或焦点模糊评估)的数码摄像机,用于使图像摄影设备比如数码摄像机能够自动地校正摄影图像,在如下文献中描述:Kita Kazunori的名称为“Image Photographing Apparatus”公开号为JP2006050494的日本专利申请,都好像在文中完全描述了一样为任何目的整体并入。
皮肤检测。各种不同的皮肤检测算法基于通过皮肤的颜色识别人的皮肤。例如,在计算、通信和网络的国际期刊(IJCCN)第1卷第3期2012年11月-12月(ISSN2319-2720)发表的Pallabi Saikia、Gollo Janam和Margaret Kathing写的题为“Face Detection usingSkin Colour Model and distance between Eyes”的论文中,好像在文中完全描述了一样为任何目的整体并入,建议在YCbCr色彩模型中,皮肤像素和区域可以通过具有0-255范围中77≤Cb≤127并且133≤Cr≤173而被识别,或者在使用归一化0-1范围时0.3≤Cb≤0.49并且0.51≤0.678而被识别。当使用其他色彩模型时检测人的皮肤被描述在例如应用信息系统的国际期刊(IJAIS)第3卷第4期2012年7月(ISSN:2249-0868)发表的都是印度贾朗达尔市的Lovely Professional University(令人愉快的专业的大学)的Amanpreet Kaur和B.V.Kranthi写的题为“Comparison between YCbCr Color Space and CIELab ColorSpace for Skin Color Segmentation”的论文中,好像在文中完全描述了一样为任何目的整体并入。
其他用于皮肤检测的技术基于皮肤反射,使用已知的光波长来检测来自人的皮肤的光反射的物理属性。这样的技术在一个宾夕法尼亚大学的计算机与信息科学学院ElliAngelopoulou写的题为“The Reflectance Spectrum of Human Skin”的技术报告MSCIS-99-29(12-20-1999)中描述,好像在文中完全描述了一样为任何目的整体并入,公开了人的皮肤可以基于人的皮肤的反射通常在600-700纳米达到在450和550纳米强度的三倍而被检测。其他基于皮肤反射的皮肤检测技术在一件物品中被描述在生物医学中的计算机方法和程序(70(2):179-186)发表的I.V.Meglinski和S.J写的题为“Computer simulation ofthe skin reflectance spectra”的文章中,该文章好像在文中完全描述了一样为任何目的整体并入。提供对各种不同的人类脸部区域的预测的模型在ACM(美国计算机学会)图形学汇刊ISSN:0730-0301(ACM出版社)2006年7月第25卷第3期第1013-1024页上发表的TimWeyrich等人写的题为“Analysis of Human Faces Using a Measurement-Based SkinReflectance Model”的研究报告中被描述,该报告好像在文中完全描述了一样为任何目的整体并入。由任一光源发出的任一光谱同样可以用作比如电灯泡或荧光灯,尤其是太阳的黑体光谱,具有集中在450-550纳米的强度,还具有在600-700纳米的大量强度(看成橙色/红色)。
头部姿势。已知各种不同的使用数码摄像机估计头部姿势的系统和方法。一种头部姿势估计方法基于包括从框运动估计器接收视频帧的框运动向量,选择用于分析的框,为所选择的框确定平均运动向量,基于所累计的平均运动向量来估计视频帧中用户头部的方位,在如下文献中描述:授予Li等人的名称为“Apparatus and Methods for Head PoseEstimation and Head Gesture Detection”的美国专利号7,412,077,生成低维度姿势空间并且使用该姿势估计用户头部的头旋转角在授予Wei等人的题为“Real Time Head PoseEstimation”的美国专利8,687,880中描述:"实时头姿势估计",用于完成准确且自动的头部姿势估计的技术,与尺度不变的头部跟踪方法整合以从图像中定位的头部所检测的面部特征为基础,在授予Zhu等人的名称为“Method and System for Head Tracking and PoseEstimation”的美国专利8,781,162中描述,基于多重图像中所捕获的深度数据确定主题的头部的三维姿势在Sharma等人的题为“Head Pose Estimation Using RGBD Camera”的公开号为2012/0293635U.S的美国专利申请中描述,一种用于估计头部姿势并不受照明改变的影响的获得优异的头部姿势识别结果的装置和方法,该装置包括头部区域提取单元、头部俯仰角单元、头部像片旋角单元、以及头部姿势显示单元,在LIU等人的名称为“Deviceand Method for Estimating Head Pose”公开号为2014/0119655的美国专利申请中公开,都好像在文中完全描述了一样为任何目的整体并入。
头部姿势技术还在如下文献中描述:在IEEE交易模式分析与机器智能汇刊2008年(数字对象标识符10.1109/TPAMI.2008.106)发表的Erik Murphy-Chutorian和MohanTrivedi写的题为“Head Pose Estimation in Computer Vision:A Survey”的文章,以及加州大学欧文分校的Xiangxin Zhu和Deva Ramanan写的题为“Face detection,PoseEstimation,and Landmark Localization in the Wild”的文章,都好像在文中完全描述了一样为任何目的整体并入。头部姿势和眼睛视线信息和技术还被描述在Jian-Gang Wang写的名为“Head-Pose and Eye-Gaze estimation:With Use of Face Domain knowledge”的书(ISBN-13:978-3659132100)中。
使用只放大人的一只眼睛的单目图像来测量眼睛视线被描述在第九次IEEE计算机视觉国际会议的学报中发表的都是新加坡的Jian-Gang Wang、Eric Sung和RondaVenkateswarlu写的题为“Jian-Gang Wang,Eric Sung,and Ronda Venkateswarlu”的文章中,一种等照度线曲率方法用来使用Haar型特征检测到的摄像机图像中的面部计算虹膜中心的位置被描述在International Symposium on Mechatronics and Robotics(机电一体化和机器人技术国际研讨会)(2013年12月10日,HCMUT,越南)上发表的越南胡志明的University of Technology(理工大学)的Dinh Quang Tri、Van Tan Thang、Nguyen DinhHuy和Doan写的题为“Gaze Estimation with a Single Camera based on an ARM-basedEmbedded Linux Platform”的论文中,一种从虹膜的图像准确测量面部眼睛视线的方法被描述在新加坡的南阳理工大学的Jia-Gang Wang和Eric Sung写的题为“Gaze Detectionvia Images of Irises”的文章中,两种使用放大人的两只眼睛或仅放大一只眼睛的单目图像来测量眼睛视线的新颖方法,分别称为"两个圆"和"一个圆"算法,被描述在新加坡639798的南阳理工大学电气和电子工程学院的Jian-Gang Wang and Eric Sung写的题为“Gaze Direction Determination”的论文中,ASEF眼睛定位器在网站:“github.com/laoyang/ASEF”(HTTPS://放在前面)中被描述,一种使用等照度属性定位低分辨率图像上瞳孔区域内的眼睛中心以获得抗线性光照变化的特点在IEEE交易模式分析与机器智能汇刊(2011)中发表的Roberto Valenti和Theo Gevers写的题为“Accurate Eye CenterLocation through Invariant Isocentric Patterns”的论文中描述,以及一种使用图像梯度来使眼睛中心定位具有准确性和容错性的方法被描述在Fabian Timm和ErhardtBarth写的题为“Accurate Eye Localisation by Means of Gradients”的文章中,都好像在文中完全描述了一样为任何目的整体并入。
一种基于所识别的用户面部尺寸或基于用户面部至少一个特征来控制配备有多个摄像机模块的便携式成像装置的缩放模式功能的方法被描述在Musatenko的名称为“Front Camera Face Detection for Rear Camera Zoom Function”公开号为2014/0184854的美国专利申请中,基于移动终端后面安装的第一摄像机和移动终端前面安装的第二摄像机的图像拍摄方法和设备被描述在KANG的名称为“Image Capturing ControlApparatus and Method”公开号为2014/0139667的美国专利申请中,一种拍摄想要的图像/自我图像/具有周围对象的自我图像的准确构造的方法和装置,通过使用运动传感器/方向传感器/定位传感器并通过匹配最小数量的对照点而取得期望的质量或者高分辨率和高质量,被描述在RAMSUNDAR SHANDILYA等的名称为“A Method for Capturing an AccuratelyComposed High Quality Self-image Using a Multi Camera Device”公开号为WO 2015/022700的PCT国际申请中,一种用于远程控制包括第一和第二图像拍摄单元的便携式电子装置中的第一图像拍摄单元的方法和计算机程序产品,该装置经由第二图像拍摄单位检测并跟踪对象而且检测对象区域中变化,被描述在Hope的名称为“Remote Control of anImage Capturing Unit in a Portable Electronic Device”公开号为2008/0212831的美国专利申请中,移动装置的摄像机辅助运动方向和速度估计的方法和装置,基于拍摄的代表移动装置看到的多个视图的多幅图像和调节该多幅图像的视角被描述在Hope的名称为“Camera Aided Motion Direction and Speed Estimation”公开号2008/0212831的美国专利申请中,具有前置摄像机和后置摄像机的智能移动电话,前置摄像机机参照系中的瞳孔中心的位置坐标在移动装置持有者观看显示屏上的视觉焦点时通过前置摄像机被收集被描述在Huang Hedong的名称为“Mobile Phone Shooting Focusing Method”公开号为CN103747183的中国专利申请的摘要中,这些文献都好像在文中完全描述了一样为任何目的整体并入。
由上述内容可见,提供一种图像分析方案和其他用于改进图像相关功能性的方法和系统是本技术领域的进步,具有简单、安全、有成本效益、负载平衡、冗余、可靠的的功能性,提供更低的CPU和/或内存使用量,易于使用,降低延迟、更快的,具有最少部件数,最少硬件,和/或使用现有的和可得到的元件、协议、程序和应用来提供更好的服务品质,避免过载,较好或最优的资源配置,更好的通信和额外的功能性,提供更好的用户体验。
发明内容
公开了一种用于估计与代表图像的文件相关联的数值的方法。该方法可以包括如下步骤:由数码摄像机拍摄图像;在第一色彩模型中获得该图像;通过使用图形识别算法检测图像中的对象;提取包括从图像中检测的对象的区域;计算在所提取的区域中两个通道之间的关联;并且基于所计算的关联来估计数值。非短暂的有形的计算机可读的存储介质可以包括执行该方法各步骤的代码。替换地或此外,装置在单壳体中可以包括数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器可以被内存配置成执行包括该方法的动作。单壳体可以是便携式或手持式的壳体而且该设备可以是电池供电的,比如笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
第一色彩模型可以是根据或基于CIE色彩空间,而且可以包括、根据或基于CIE1931RGB、CIE 1931XYZ、CIELUV、或CIEUVW色彩模型。替换地或此外,第一色彩模型可以是根据或基于RGB色彩空间,可以包括、根据或基于,RGB、sRGB、Adobe RGB、Adobe宽色域RGB、ProPhoto RGB色彩空间、苹果RGB、ISO RGB、ROMM RGB、国际电信联盟(ITU)无线电通信部分(ITU-R)推荐ITU-R BT.709、或ITU-R BT.202色彩模型。替换地或此外,该第一色彩模型可以是根据或基于亮度加色差(YUV)色彩空间,而且可以根据或基于YUV、YCbCr、Y'CbCr、YDbDr、YPbPr、xvYCC、YCgCo、或YIQ色彩模型。替换地或此外,该第一色彩模型可以根据或基于色相和饱和度色彩空间,比如HSL(色相-饱和度-亮度)、HSV(色相-饱和度-纯度)、或HSI(色相-饱和度-灰度)色彩模型。
对象可以是人体的一部分,比如人脸部的部分或整个,而且图形识别算法是脸部检测算法。该方法可以进一步包括步骤,其将提取的区域从第一色彩模型转化为第二色彩模型,可以根据或基于亮度加色差(YUV)色彩空间,而且可以包括、根据或基于YUV、YCbCr、Y'CbCr、YDbDr、YPbPr、xvYCC、YCgCo、或YIQ色彩模型。
该方法可以进一步包括如下步骤:检测所提取的区域中非对象相关的部分,从所提取的区域去除非对象相关的部分。该对象可以是人的部位,比如人脸的一部分或整体,和在所提取的区域中检测非对象相关的部分可以包括皮肤检测算法。第一色彩模型可以根据或基于亮度加色差(YUV)色彩空间,比如YCbCr色彩模型,而且两个通道可以是色度通道比如Cb和Cr分量。
该方法可以进一步包括如下步骤:计算在所提取的区域中两个通道每一个的平均值和标准偏差值,而且可以基在所提取的区域中于两个通道每一个的平均值与标准偏差值的比较来计算相关。替换地或此外,相关的计算可以包括计算相关系数,可以根据或基于皮尔逊积差相关系数,或者可以根据或基于秩相关系数比如斯皮尔曼的秩相关系数或Kendall的秩相关系数。数值可以包括或基于所计算的相关系数。
一种将多图像数值与表示数码摄像机所拍摄的N多个图像的N多个文件相关联的方法。该方法可以包括如下步骤:由数码摄像机依次拍摄的N多重图像,N多个图像文件分别被计为图像(i),这里i=1至N;使用图像处理算法处理N多个图像文件中每一个;基于各个图像文件的图象处理结果而分配N个图像数值VALUE(i),这里i=1至N;获得N个加权因子WEIGHT(i),这里i=1至N,这里对于所有的1≤i≤N-2,WEIGHT(i)≤WEIGHT(i+1);并且基于这N个图像数值的加权平均数来计算多重图像数值,每个与考虑的加权系数相关联。非短暂的有形的计算机可读的存储介质可以包括执行各步骤的代码。装置可以容纳在单壳体中而且可以在该单壳体中包括数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器可以被内存配置成执行包括该方法的动作。单壳体可以是便携式或手持式的壳体而且该装置可以是电池供电的,比如笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
对于所有1≤i≤N-1都满足表达式WEIGHT(i)<WEIGHT(i+1),而且N可以等于2、3、4、5、或10,或者可以N>10。N多重图像可以在小于1秒、0.5秒、0.3秒、0.2秒或0.1秒内依次拍摄。该方法可以实时执行并且可以在小于1秒、0.5秒、0.3秒、0.2秒或0.1秒内完成。
可以使用加权算数平均数来计算多图像数值,多图像数值可以等于或基于表达式:替换地或此外,多重图像数值可以使用加权几何平均数来计算,由此多重图像数值可以等于或基于表达式:替换地或此外,多重图像数值可以使用加权调和平均数来计算,由此多重图像数值可以等于或基于表达式:
该方法可以和最大阈值或最小阈值一起使用,其中该方法还可以包括将多重图像数值与最大阈值或最小阈值分别比较的步骤,而且还可以包括如果该数值比如多重图像数值大于最大阈值或小于最小阈值则分别采取动作的步骤,所采取的动作可以是由数码摄像机拍摄另外的图像。替换地或此外,所采取的动作可以包括存储一个或多个图像比如最后拍摄的图像或所有图像到内存,或替换地,放弃一个或多个图像。该方法可以进一步包括将多重图像数值与图像(N)相关联的步骤,该数值可以嵌入图像(N)文件中,比如嵌入文件元数据中。
在加权平均数计算中使用的至少一个图像的加权因子WEIGHT(i)可以修改为乘以系数就得到结果WEIGHT(i)*系数。替换地或此外,与在加权平均数计算中使用N图像有关联的加权系数WEIGHT(N)可以被修改为乘以系数就是WEIGHT(N)*系数。
该方法可以和与数码摄像机集成或搭配在一起的传感器一起使用,以感知数码摄像机上的物理现象或对数码摄像机产生影响的物理现象,在此传感器感知物理现象并提供测量该现象或与该现象对应的传感器数据,其中系数可以基于传感器数据。传感器可以是温度、湿度、压力、音频、振动、光、声音、接近度、流量、电压、或电流传感器。替换地或此外,传感器可以是运动传感器,比如用于测量数码摄像机的加速度的大小和方向的加速度计。加速度计可以是压电的、压阻的、电容的、MEMS、或电动机械开关的加速度计,还可以是单轴、2个轴、或3个轴加速度计。
方法可以进一步包括将概率分布拟合到数值VALUE(i)的步骤,这里i=1至N,其中该系数可以基于被拟合的对称的概率分布。拟合概率分布的步骤可以包括计算这些数值VALUE(i),这里i=1至N的平均值,而且该系数可以基于算出的平均数值与VALUE(i)之差。概率分布可以是正态分布、增长分布(the logistic distribution)、或学生“t”分布,拟合概率分布的步骤可以包括计算数值VALUE(i),这里i=1至N的标准偏差。该系数可以基于算出的平均数值与VALUE(i)之差,除以算出的标准偏差值。
替换地或此外,该方法可以进一步包括数值VALUE(i)的曲线拟合的步骤,这里i=1至N,系数可以基于所拟合的曲线。曲线拟合可以将这些数值拟合到一次多项式(线性)方程、二次多项式方程、或三次多项式方程,曲线拟合可以基于最小化最小二乘方距离。该系数可以基于图像i的被拟合曲线的期望值和实际值VALUE(i)之差。替换地或此外,该方法可以进一步包括基于各个图像文件的图像处理结果将另外的N图像相关的数值VALUE(i),这里i=1至N分配给各个图像文件的步骤,该系数可以基于VALUE(i)的值中的至少一个,比如基于VALUE(N)的值。替换地或此外,该方法可以进一步包括使用另外的不同的图像处理算法来处理N多重图像文件中至少一个的步骤;而且基于各个图像文件IMAGE(i)的另外的图象处理结果来分配至少一个数值VALUE(i),这里i=1至N给各个图像文件。该系数可以基于VALUE(i)的值中的至少一个或者基于VALUE(N)的值。
一种通过估计人的视线方向和限定了视线的数码摄像机之间的角偏差来控制第一摄像机的方法,与包括具有第一中心视线的第一数码摄像机和与第一数码摄像机平行且对立的具有第二中心视线的第二数码摄像机的装置一起使用。该方法可以包括如下步骤:由第二数码摄像机将图像拍摄为图像文件;通过使用脸部检测算法检测图像中的人脸;基于所拍摄的图像估计第二中心视线与从第二摄像机至所检测到的人脸的假想轴线之间的角偏差α;基于所拍摄的图像估计从第二摄像机至所检测到的人脸的假想轴线与人脸视线方向之间的角偏差β;基于所估计的角偏差α和所估计的角偏差β估计第一中心视线和人脸视线方向之间的角偏差比如采取行动,比如启动、停止、控制、或禁止行动,作为对所估计的角偏差的值的响应。估计角偏差α的步骤可以包括估计第二水平中心视线与水平或竖直(或水平和竖直两个方向)检测到的人脸之间的水平或竖直(或水平和竖直两个方向)的角偏差;而且估计角偏差β的步骤可以包括估计到所检测到的脸部的水平或竖直(或水平和竖直两个方向)的视线与水平或竖直(或水平和竖直两个方向)的人脸视线方向之间的水平或竖直(或水平和竖直两个方向)的角偏差。非短暂的有形的计算机可读的存储介质可以包括执行该方法各步骤的代码。
该装置可以容纳在单壳体中而且可以在该单壳体中包括第一和第二数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器可以被内存配置成采取包括该方法的行动。单壳体可以是便携式或手持式的壳体而且该装置可以是电池供电的。该装置可以是笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
角偏差α可以被估计为设定值,比如30°、45°或60°。替换地或此外,角偏差α可以基于等式α=γ*(DEV/HD)被估计,其中DEV可以是所检测到的脸部位置距离图像中心的水平偏差,HD可以是所拍摄的图像的总水平距离,而且γ可以是第二摄像机的水平角视场。进一步地,角偏差α可以基于等式α=γ*(DEV/HD)被计算,其中DEV可以是所检测到的脸部位置距离图像中心的竖直偏差,HD可以是所拍摄的图像的总竖直距离,而且γ可以是第二摄像机的竖直角视场。
估计角偏差β的步骤可以基于在所拍摄的图像上施加人的视线方向估计算法,人的视线方向估计算法可以基于或使用眼睛检测或眼睛跟踪。替换地或此外,人的视线方向估计算法可以基于或使用头部姿势检测,头部姿势检测可以基于或使用眼睛检测或眼睛跟踪。
替换地或此外,人的视线方向估计算法可以基于或使用脸部特征点检测或者可以基于或使用一个或多个人脸器官,比如鼻子、右鼻孔、左鼻孔、右脸颊、左脸颊、右眼、左眼、右耳、或左耳。替换地或此外,角偏差β可以基于所检测到的人脸器官而被估计,作为对检测右耳和左耳的响应角偏差β可以被估计为0°,作为对检测右耳、左眼和右眼并且不检测左耳的响应角偏差β可以被估计为30°,作为对只检测右耳和右眼并且不检测左耳和和左眼的响应角偏差β可以被估计为90°。
该装置还可以包括具有第三中心视线的第三数码摄像机,第三中心视线可以与第一中心视线平行且对立,该方法可以进一步包括由第三数码摄像机将另外的图像拍摄为另外的图像文件的步骤;通过将所拍摄的图像和另外拍摄的图结合起来形成所检测到的人脸的3D表示;而且估计角偏差β的步骤可以分析所形成的人脸的3D表示。
所采取的行动可以包括控制第一摄像机而且可以包括改变第一数码摄像机的设置。替换地或此外,第一数码摄像机的控制可以包括在内存中保存或放弃第一数码摄像机所拍摄的图像。该方法可以和最大阈值或最小阈值一起使用,而且该方法可以进一步包括如下步骤:将角偏差与最大或最小阈值分别比较的步骤,以及立即或在时间间隔比如0.5、1、2或3秒之后对角偏差的值是高于最大阈值或是低于最小阈值分别采取行动。
一种基于一台摄像机所拍摄的图像的图像处理来控制另一台照像机操作的装置。该装置可以包括具有景象第一中心线的第一数码摄像机;具有与第一中心视线平行且对立的第二中心视线的第二数码摄像机,而且被配置成用来将图像拍摄成图像文件;用于存储计算机可执行的指令而且用于存储图像文件的内存;用于执行指令的处理器,该处理器耦合到该内存而且耦合到该第一及第二数码摄像机上,而且被内存配置成用于通过使用脸部检测算法来检测图像中的人脸和用于基于所估计的角偏差α和所估计角偏差β来估计景象的第一中心线和人脸视线方向之间的角偏差耦合到该处理器上的控制端口用于输出控制信号以响应所估计出的角偏差的值;以及容纳第一和第二数码摄像机、内存、处理器、以及控制端口的单个便携式或手持式壳体。景象的第二中心线与从第二摄像机至所检测的人脸的假想轴线之间的角偏差α可以被限定,角偏差β可以被限定在从第二摄像机至所检测的人脸的假想轴线和人脸视线方向之间。可以响应该控制信号而采取行动,比如启动、停止、控制、或禁止动作。
该装置可以进一步包括视觉指示器,该视觉指示器包括可视信号发送元件,可以是可见光发射器,比如半导体器件、白炽灯或荧光灯,并且采取行动可以包括启动或控制该视觉指示器。该可见光发射器可以适于稳定照明而且适于响应所估计出的角偏差的值、多重图像数值、或任何其他数值而闪烁。替换地或此外,照明水平、位置、类型、颜色、或可见光发射器的稳定照明可以是对所估计出的角偏差的值、多重图像数值、或任何其他数值的响应。替换地或此外,可见光发射器可以是显示数字或字母数字的显示发射器,其可以基于LCD(液晶显示器)、TFT(薄膜晶体管)、FED(场致发射显示器)或CRT(阴极射线管),用来显示与所估计出的角角偏差的值、多重图像数值、或任何其他数值相对应的数值。
装置可以进一步包括声音指示器,包括声音信号发送元件、其包括机电或压电的发声器,用于发射声音,而且采取行动可以包括激活或控制该声音指示器。声音信号发送元件可以包括蜂鸣器、谐音发声器或振铃器,或者可以包括扬声器和耦合到扬声器上的数模转换器。
声音信号发送元件可以用于生成单个或多音调,从声音信号发送元件发出的声音可以是对所估计出的角偏差的值、多重图像数值、或任何其他数值的响应。从声音信号发送元件发出的声音的音量、类型、稳定性、音高、节奏、动态、音色、或纹理是对所估计出的角偏差的值、多重图像数值、或任何其他数值的响应。替换地或此外,从声音信号发送元件发出的声音可以人的说话声音,而且该声音可以是音节、单词、短语、句子、短故事或长故事以响应所估计出的角偏差的值、多重图像数值、或任何其他数值。
文中任一图象处理算法可以是使用图形识别的对象检测算法,对象可以是人体的一部分,比如,部分或整个人脸,图形识别算法可以是面部检测算法。与各个IMAGE(i)相关联的数值IMAGE(i)可以指示在各个图像中检测出对象的概率。替换地或此外与各个IMAGE(i)相关联的数值IMAGE(i)可以指示在各个图像中所检测的对象的位置。
这些数值(比如多重图像数值)可以用于估计像清晰度、噪声、动态范围、色调再现、对比度、颜色准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。该图像文件可以是根据、基于或包括可移植网络图形技术(PNG)、图形交换格式(GIF)、联合照相专家组(JPEG)、Windows位图(BMP)、可交换的图像文件格式(Exif)、标记图像文件格式(TIFF)、或原始图象格式(RIF)的一种格式。
该方法可以和最大阈值或最小阈值一起使用,还可以包括将数值(比如多重图数值)与最大阈值或最小阈值分别比较的步骤,而且可以包括如果该数值大于最大阈值或小于最小阈值则分别采取行动的步骤。所采取的行动可以包括将一个或多个图像比如最后拍摄的图像或所有图像存储到内存,或替换地,放弃一个或多个图像。该方法可以进一步包括将数值与文件相关联的步骤,比如讲数值嵌入图像文件中或文件元数据中。数值可以用于估计图像清晰度、噪声、动态范围、色调再现、对比度、颜色准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。
该方法可以进一步包括步骤,控制数码摄像机以响应数值(比如多重图像数值),而且该数码摄像机的控制可以包括改变数码摄像机的设置。设置可以是数码摄像机的孔径大小、曝光时间、焦距、或曝光指数。
该方法可以进一步包括由发射器在数字网络上发射图像文件、数值(比如多重图像数值)、或两种数据都有的步骤。数字网络可以是无线网络,发射器可以是无线发射器。该无线网络可以是楼内或车载网络,即无线个人局域网络(PAN),该无线发射器可以是WPAN收发机的一部分,而且WPAN可以根据或基于Bluetooth.TM(蓝牙).或IEEE 802.15.1-2005标准,或者该WPAN可以是根据或基于Zigbee.TM.、IEEE 802.15.4-2003、或Z-Wave.TM.的无线控制网络。替换地或此外,无线网络可以是无线局域网(WLAN),无线发射器可以是WLAN收发机的一部分,而且WLAN根据或基于IEEE 802.11-2012、IEEE 802.11a、IEEE 802.11b、IEEE802.11g、IEEE 802.11n、或者IEEE 802.11ac。替换地或此外,无线网络可以是手机网络,无线发射器可以是手机网络收发机的一部分,而且手机网络可以是根据或基于使用UMTS W-CDMA、UMTS HSPA、UMTS TDD、CDMA2000 1xRTT、CDMA2000EV-DO、GSM EDGE-Evolution的第三代(3G)网络,手机网络可以是第四代(4G)网络,第四代(4G)网络使用HSPA+、移动WiMAX、LTE、LTE-Advanced、MBWA,或者可以基于IEEE802.20-2008。
有形的机器可读的介质(例如存储器)可以具有详细记录文中所述的各个方法和步骤的一部分(或所有)的一组指令存储其上,以便当由一个或多个处理器执行时会导致一个或多个处理器执行文中所述这些方法和步骤的部分或所有。网络部件中任何一个都可以是计算装置,其包括处理器和计算机可读的内存(或任何其他有形的机器可读的介体),而且计算机可读的内存可以包括计算机可读的指令以便当被处理器读取的时候这些指令导致处理器执行文中所述的一个或多个方法或步骤。当由计算机处理器执行时,非短暂的计算机可读的介质包含被计算机处理器执行的时候导致该处理器执行文中所述的各步骤中至少部分步骤的计算机指令。
上述内容概要不没有详尽列出本发明的所有方面。确实,可以预见的是本发明包括可以从对上面概述的各种不同方面的合适的组合和衍生而实行的所有系统和方法,以及在下面的详细说明中公开的和与该申请一起提交的权利要求书中特别指出的所有系统和方法。这样的组合具有未在上述概要说明中详述的特别的优点。
附图说明
本发明在此被描述,仅仅经由非限制性实施例,参照附图,其中如同指定如同元件表示。理解,其这些附图仅仅提供有关典型的实施例的消息并当然不是在范围中被认为是限制的:
图1是示意性说明计算机的框图;
图2是示意性说明互联网和服务器、客服端、以及连接到互联网上的计算机工作站的框图;
图3是示意性说明数码摄像机的框图;
图4是示意性说明具有两个图像传感器的数码摄像机的框图;
图5是描绘拿着双摄像机手持装置的人的透视图,这里人和摄像机正在看同一对象;
图5a是描绘拿着双摄像机手持装置的人的俯视图,这里人和摄像机正在看同一对象;
图5b是描绘拿着双摄像机手持装置的人的透视图,这里人和摄像机正在看不同对象;
图5c是描绘拿着双摄像机手持装置的人的俯视图,这里人和摄像机正在看不同对象;
图5d是描绘在拿着双摄像机手持装置的人的俯视图中的几何关系,这里人和摄像机正在看不同对象;
图6是示意性说明估计人的视线方向与摄像机的视线的角偏差的流程图;
图7是示意性说明基于面部检测和直方图分析来计算图像的QI的流程图;
图8示意性说明基于面部检测和相关分析来计算图像的QI的流程图;
图9是示意性说明计算多帧QI的流程图;
图10是示意性说明基于以多因子为基础计算出的系数而计算并使用多帧QI的流程图;
图11示意性说明图像中的距离测量;
图12描绘了使用圆点网格;
图13描绘了包括分立的后摄像机和前摄像机以及用户的布局的几何关系;以及
图14描绘了摄像机2D视场的横截面。
具体实施方式
根据本发明所述的设备和方法的原理和操作可以参照附图和所附的描述来理解,其中在不同的图中出现的相同或相似的部件(硬件或软件)由相同的附图标记来表示。附图和描述仅仅是概念上的。在实际作法中,单个部件可以实现一个或多个功能;替换地或此外,每个功能都可以被多个部件和装置实现。在这些图和描述中,相同的附图标记(有时,甚至有使用不同的后缀的情况,例如5、5a、5b和5c)指示相同、基本相似、相似或具有相似功能性的功能或实际装置。容易理解的是如同通常在此描述并且用图说明的一样,本发明各部件可能够被设置并被设计为种类多样的不同配置。因而,接下来将更详细地描述的本发明的设备、系统、和方法的实施例,如同附图中显示的那样,意图不在于限制本发明所要求的保护范围,而仅仅是表达本发明的实施例。可以理解的是文中的单数形式“一种”、“一个”和“该”包括多个所指物,除非另外在上下文清楚地表示其他含义。因而,例如,提及"一个部件表面"包括提及一个或多个这样的表面。通过术语"基本上"意思是详述的特性、参数、或数值不必确切取得,而偏差或变化包括,例如容差、测量误差、测量精度限制和本领域的技术人员所知的会在数量中发生的其他因素,其不妨碍作用,其不妨碍意图提供的作用和特性。
文中使用的全方位参考(例如上部、更低、向上、向下、左、右、向左,向右、顶部、底部、高于、低于、竖直、水平、顺时针、逆时针等等)仅仅是用于识别目的以帮助读者理解本发明,不产生限制作用,特别是就位置、方位、或本发明的使用而言不产生限制作用。
具有两个摄像机机模块的各种不同的智能电话和其他手持装置是可以得到的,这两个摄像机模块通常被定位成拍摄对立面的场景。其中一个通常称为“后置”摄像机的摄像机被朝向作为拍摄目标的对象,而另一个通常称为“前置”摄像机的摄像机通常装在该装置的屏幕侧,被朝向成拍摄持有该装置的人,例如用于视频会议。持有这样的双摄像机装置51的人51的透视视图50在图5中示出而且该场景的俯视图50a在图5a中示出。人51正在看植物A 53,其位于人51的视场(FOV)中,该视场具有竖直角55a和水平角55(它们可能是相同、相似的、或不同的角度),以由视线57所示的人51的视线方向为中心。类似地,装置52中后置摄像机的视场被示出具有竖直角56a和水平角56,两者都以后置摄像机的视线58为中心。植物B 54被示出在房间中邻近植物A 53,但是人51和装置52后置的摄像机都没有看织物B 54。由于后置摄像机和人51正在看相同的对象,即植物A 53,它们的各自的视场中有大量的重叠,而且由后置摄像机拍摄的图像对应于被人51看的图像。
如图5b所示,视场不重叠的布局在持有双摄像机装置52的人51的透视视图50b中示出,这个场景的俯视图50c在图5c中示出。人51看植物B54,其位于具有竖直角55a和水平角55(它们可能是相同、相似的、或不同的角度)的人51的视场(FOV)中,以由视线57所示的人51的视线方向为中心。装置52中后置摄像机的视场被示出具有朝着植物A 53的竖直角56a和水平角56,两者都以后置摄像机的视线58为中心。后置摄像机和人51不在看相同对象,因为后置摄像机正在拍摄植物A 53的图像而人51正在看植物B 54。因此在它们各自的视场中没有重叠,而且由后置摄像机拍摄的图像与人51看见的图像不同。
传统地,人51可以看装置52的屏幕以核实后置摄像机拍摄的实际图像,并且相应地操作后置摄像机,比如通过按压或触动快门按钮来拍摄图像。不过,有时,装置52不包括人51可以看见的屏幕,因此要拍摄的场景不是对人51显而易见的。进一步地,如果人51只要直接看感兴趣的对象(比如植物B 54)而不看屏幕上的图像,这更直观和易于使用。在这样的情况下,可以使用后置摄像机来估计并评价在后置摄像机的视场和人51的视场之间是部分重叠或完全重叠,还是没有重叠或弱的重叠,比如在视图50b和50c中所示的。人51可以被通知关于所估计出的重叠程度,而且可以相应地采取行动,比如更好地定位后置摄像机以改进对感兴趣对象的拍摄,或者可以决定在估计出是大量或完全重叠的情况下拍摄一帧。
俯视图50c的几何略图被示出为图5d中的俯视图50d。如上所述,虚线58表示作为手持装置52一部分的后置摄像机的水平视线(通常为视场的中心)。在大多数情况下,表示为虚线58a的后置摄像机的视线是平行于而且反向对着后置摄像机的视线58,而且可以被认为是线58a的延伸。表示为虚线58b的假想线平行于后置摄像机的视线58,但是源自人51的眼睛,用作人51的视线方向或视线57的假想起源。虚线57a正在将前置摄影机的视线起源连接到人51的视线起源。角α59a在前置摄像机的视线58a和将前置摄像机连接到人51的线57a之间形成。由于虚线58、58a和58b彼此平行,角α59b在线57a和表示人51的视线的虚线58b之间形成,虚线58b平行于后置摄像机的视线58,角α59b与角α59a相等。一般来说,角α59a是所检测的人51的脸部距离前置摄像机的视线58a的角偏差。
角β59c被定义在线57a和实际的人51的视线方向57之间。这样的角β59c通常表示或取决于被装置52的前置摄像机所检测的头姿势。角被定义为人51的视线(视线方向)57和假想线58b之间的角,假想线58b平行于后置摄像机的视线58。如图所示,角可以被计算为因而通过估计或获得角α59a和角β59c,角可以被计算或被估计。角表示人51的视线57距离后置摄像机的视线58(或线58a)的偏差,因此可以用于指示或估计后置摄像机的视场56和人51视场55的重叠水平。例如,在的情况,指示视场大量或完全重叠。假设后置摄像机的视场56具有总共为Φ度(±Φ/2度)的水平角开口,在的情况下,可以预计视场基本上或完全不重叠。在一例子中,该范围可以被定义在获得足够重叠的区间,比如的区间。在通常情况下,角可以用作对各个视场的重叠度的测量,比如成比例的估计。
估计角或视场的重叠度的流程图60在图6中示出。持有装置52的人51的图像由装置52的前置摄像机拍摄作为"接收图像"步骤61的一部分,而且该图像被脸部检测算法处理以检测并且优选地确定人51的脸部的位置作为"脸部检测"步骤62的一部分。
在"估计用户角位置"的步骤63中,角a 59a被估计或计算。在一例子中,使用预设值。例如,低数值的角α59a比如α≤25°或α=0°是不合理的,由于装置52可能干涉或阻挡人51的视线57。在另一例子中,低数值的角α59a可以仅仅在一个平面上被使用,比如竖直地或水平地。例如,当用户51支撑装置52在其胸前或其头上,在水平面上可以获得低数值,在竖直面中得到的仍然是非低值。类似地,高数值的角α59a比如α≥75°或α=90°是不合理的,是对用户51不舒服的,而且使装置52的使用不直观而且难以支撑和使用。因此,角α59a的合理数值的例子可以是30°、45°或60°。
替换地或此外,基于分析或处理在"接收图像"步骤61中收到的所捕获的图像来估计或计算用户角位置。所捕获的图像110的图形化示图在图11中示出。在一个例子中,单个人的脸部114在"脸部检测"步骤62中被检测,脸部中心的水平位置被确定并且显示为图11中的虚线112。虚的竖直线112被计算为在所检测的脸部114的中心处,或优选地在所检测的脸部的两眼之间。
接着,计算由位于图像水平中心的假想的虚线111表示的图像中心和所检测的脸部114的中心位置线112(在图11中示出为偏差线113的)之间的距离偏差113。距离偏差113(DEV)表示人的位置(特别是它的面位置)距离由图像中心线111表示的最佳视点的偏差。总的水平距离(HD)115表示图像的水平端到端的距离。总的水平距离115和偏差距离113可以通过像素数量、在印出来的或显示出来的图像上的实际距离、或者用来估计图像中的距离的任何其他方法来测量。假设前置摄像机具有总共为γ度(±γ/2度)的水平角开口,总的水平距离(HD)115与在对象距离比如头距离处的前置摄像机的视场(γ)成比例。
头距离的估计可以基于已知人正将该装置支撑在已知的被估计距离比如30-40cm处,或者替换地头距离的计算或估计是通过使用在具有已知的γ的已知摄像机所拍摄的图像中的头尺寸,比作普通人的头尺寸。因而通过使用已知的(或平均的)头尺寸(或者已知尺寸的任何其他对象),可以计算水平距离115和前置摄像机视场(γ)之间的比例。
类似地,偏差距离(DEV)113与角α59a成比例。像这样,角α59a可以被计算为α=γ*(DEV/HD)。清楚地,在所检测的脸部114在图像110的水平中心的情况下,意味着DEV=零,则α=零,建议所检测脸部位于前置摄像机的视线上。假设视场为常用的120°,而且偏差在中心线111和图像边缘之间的中心(DEV=HD/4),则由此产生的角α59a被计算为α120°/4=30°。
在"估计用户视线检测"步骤64中,估计角β59c。可以使用任何用于估计人的视线方向的算法。在一个例子中,用户视线方向的估计可以基于眼睛位置的检测、眼睛跟踪、或任何其他以视线方向为基础的眼睛检测。替换地或此外,人视线的方向的估计可以基于、根据或使用头姿势估计或检测算法。优选地,用户视线方向可以基于头姿势和眼睛位置检测的结合,如下述文献中所述:例如IEEE Transaction on Image Processing(IEEE图像处理事务)第21卷第2期2012年2月中发表的Roberto Valenti写的题为“Combining Head Poseand Eye Information for Gaze Estimation”的论文,以及Roberto Valenti、AdelLablack、Nicu Sebe、Chabane Djeraba和Theo Gevers写的题为“Visual Gaze estimationby Joint Head and Eye Information”的文章,都好像在文中完全描述了一样为任何目的整体并入。
各种不同的技术可用来检测人脸各器官比如鼻子、鼻子角、眼睛、眼角、嘴、嘴角、脸颊、耳朵和其他脸部的特征点的存在和位置。这样的算法的一个例子被描述在如下文献中:Proc.of IEEE Conference on Computer Vision and Pattern Recognition(IEEE计算机视觉与模式识别会议的会议录)2009年中发表的J.Sivic,M.Everingham和A.Zisserman写的题为“Who are you?'-Learning Person Specific Classifiers fromVideo”的论文,题为“Detector of Facial Landmarks”的M.Uricar的硕士论文2011年5月,以及VISAPP'12:关于计算机视觉理论和应用的第七次国际会议的会议录2012年中发表的M.Uricar、V.Franc和V.Hlava写的题为“Detector of Facial Landmarks Learned by theStructured Output SVM”的论文,都好像在文中完全描述了一样为任何目的整体并入。进一步地,面部特征点检测的一种开放源码实现检测可以从:cmp.felk.cvut.cz/~uricamic/flandmark/(http://放在前面)下载得到(2015年3月)。
在一例子中,脸部特征点(或面部各器官)检测可以用于通过估计用户头姿势来估计用户视线,用户头姿势可以由角β59c来表示。例如,可以使用检测到脸部特征点或器官的存在或数量。在一例子中,如果用户的两只耳朵都被检测到,则人51直视(或基本上直视)看前置摄像机,相应地角β59c为零或接近零(β=0°或β~0°),比如β≤10°。在视图50c中图示说明的情况下,人51的左耳朵可能不在图像中显示并因而不能被检测,而其它的面部器官比如左脸颊和左眼睛、以及右耳朵在所拍摄的图像中被拍摄并因而可以被检测。在这样的情况下,头姿势角β59c可以被估计为大约30°。类似地,在只有右侧脸被显示并被检测的情况下,比如右眼睛、右脸颊、以及右耳朵,可以估计的是用户51头姿势基本在前置摄像机的视线左边而且垂直于前置摄像机的视线,因此β=90°或β~90°。类似地,右或左鼻孔或脸颊的检测可以用于估计头姿势。
立体视觉是从由两个或更多个数码摄像机获得的数字图象提取3D信息。通过比较与从两个有利于观察的地方看到的一个场景有关的信息,三维(3D)信息可以通过检查对象在两个面板中的相对位置来提取,类似于称为立体观测的人的双眼处理。在立体视觉方案中,两个摄像机互相水平地移位并用于获得一个场景的两个不同视图,以类似于人的双眼视觉的方式。通过比较这两个图像,可以获得相对深度信息,以多差距的形式,其与到对象的距离差成反比。通常,需要几个处理步骤,包括从图像去除失真比如桶形失真以确保观察到的图像是纯粹投影的,投射回到共用面使图像得以成对比较(称为图像校正),通过估计两个图像中特征的位置创建差距地图,通过倒置通过共同投影所观察到的差距而转换成高度地图,当利用正确的比例常数时高度地图可被校准以提供精确的距离。多视图立体处理算法被描述在Steven M.Seitz,Brian Curless,James Diebel,Daniel Scharstein,andRochard Szeliski写的题为“A Comparison and Evaluation of Multi-View StereoReconstruction Algorithms”的论文中,该文献好像在文中完全描述了一样为任何目的整体并入。具有多个摄像机的装置越来越受欢迎,比如可以从总部设在美国西雅图98109的AMAZON.COM公司获得的亚马逊(Amazon)Fire Phone,具有多个后置摄像机并且支持3D图像拍摄,在‘Fire Phone用户指南’中作了描述,该文献好像在文中完全描述了一样为任何目的整体并入。
在一例子中,使用两个(或更多个)前置摄像机,提供给用户51立体视觉能力,形成并分析3D模型用来估计头姿势和视线方向。用于立体视觉信息提取头姿势和视线方向的算法在澳大利亚国立大学Yoshio Matsumoto和Alexander Zelinsky的一项的题为“AnAlgorithm for Real-Time Stereo Vision Implementation of Head Pose and GazeDirection Measurement”的研究中描述,该文献好像在文中完全描述了一样为任何目的整体并入。
计算或估计相对于装置52的前置摄像机的人51的角位置示出为角α59a,作为步骤63"估计用户角位置"的一部分。计算或估计相对于装置52的前置摄像机的人51的视线示出为角β59c,作为步骤64"估计用户的视线方向"的一部分。在步骤65“计算用户视线检测”中,用户51的视线方向距离最佳的后置摄像机的视线58或58b的偏差,由角表示,可以被计算为并且在"采取行动"的步骤66中可以采取行动以响应计算出或估计出的角度的数值。文中所述的任何行动,比如作为"采取行动"步骤105的一部分或"采取行动"步骤89的一部分的动作,同样适用于"采取行动"步骤66,基于所计算或所估计的角的数值。
进一步地,对后置数码摄像机的控制可以基于角本身的估计值或者基于角的估计值高于(或低于)预设阈值这一事实。例如,一旦角 的估计值超过最大阈值或者一旦下落到低于最小阈值,动作可以被启动或被控制。例如,后置数码摄像机可以自动地拍摄另外的图像,或者禁止用户拍摄图像。进一步地,只有当阈值被超过或任何其他条件被满足持续预设时间间隔时采取行动,以便能够稳定运行。例如,后置数码摄像机在角低于设置阈值(例如30°)持续0.5、1、2或3秒的情况下可以自动地拍摄另外的图像。在另一个例子中,数码摄像机设置可以被控制,比如改变孔径尺寸(例如孔直径),曝光时间或指数、焦距、曝光指数、或者它们的任意结合。例如,曝光指数和曝光时间可以被控制以响应所测量的或所估计的清晰度或其他特征,以改进所拍摄的图像的清晰度。替换地或此外,角的值可以用作将所拍摄的图像保存到内存的条件,以便仅仅与高于最小阈值的数值相关联的所拍摄的图像被保存,而同时与低于最小阈值的数值相关联的所拍摄的图像被放弃。
虽然上面对于计算或估计人51的视线距离最佳的视线的水平偏差举了例子,但是该方法和系统可以同样适用于计算或估计用户视线方向的竖直偏差。在这样的情况下,竖直的用户偏差在步骤63"估计用户角位置"中被估计或被计算,竖直的用户视线方向在步骤64"估计用户视线方向"中被估计或计算,这些数值用于在步骤65"计算用户视线偏差"中计算竖直偏差。在一个例子中,竖直和水平偏差被估计或被计算,而且动作可以使用所获得的这两个数值中的无论哪一个。进一步在这样的情况下,总角可以基于计为的竖直值并基于计为的水平值而被计算,比如然后在步骤66"采取行动"中所采取的行动可以基于的值。
虽然图5d和5c表示2D投影面,该方法可以同样适用于现实世界3D场景,这里可以使用多投影(超出竖直与水平投影)以获得后置摄像机和用户视线视场的重叠的更好的估计。例如,可用使用多重水平面和/或具有不同深度的水平面,以及任何其他平面角。可以计算所有这些多重2D投影的加权平均数以获得总角的相关性的更好的估计。
用户角位置在上面描述为在步骤63"估计用户角位置"中基于由装置52的后摄像机拍摄的图像的图像处理而被估计。类似地,用户视线方向在上面被描述为在在步骤64"估计用户视线方向"中基于由装置52的前置摄像机拍摄的图像的图象处理而被估计。替换地或此外,用户角位置、用户视线方向、或两者可以使用装置52中另一个传感器来估计在。进一步地,用户角位置、用户视线方向、或两者可以使用不是装置52的一部分的另一个传感器(或多个传感器)来估计。例如,一个传感器(或多个传感器)可以在所感测的人51身体外部,植入身体内,或可以是穿戴式的。
虽然上面对于后置摄像机FOV和用户FOV的2D重叠的估计做了解释说明,但是同样可以估计3D(体积)的重叠。在一例子中,考虑由摄像机机拍摄的无穷大体积的一部分,比如通过设置深度限制,如图14所示。要考虑的体积被定义为在由距离’a’限定的平面和由距离’b’限定的平面之间的体积,而且在FOV内。类似地,作为用户FOV的一部分的体积可以由表示垂直于用户中心视线的两个平行平面的两个距离值定义,如图14所示。
一般的物理布局的俯视图在图13中示出,具有后置摄像机222,其具有中心视线207,而且FOV被线202和203限制。与后置摄像机222不同而且分开的前置摄像机221被示出具有的中心视线208,而且FOV被线204和205限制。前置摄像机221被定位成拍摄用户的头220,用户的头220被定位具有视线方向206,FOV被线200和201限制。
由于人类成年人的头尺寸被认为基本上类似于大多数人,假定已知前置摄像机221的属性,可以估计用户220离前置摄像机221的距离(在图5d中表示为视图50d中的线58c)。进一步地,与人220的视线206相对于前置摄像机221的角偏差有关的角β59c可以如上所述那样估计。用户视场206的起源的坐标,定义为用户坐标系统(0,0,0)的,可以相对于后置摄像机222的坐标系统而确定,基于所估计的距离和所估计的角β59c。因而可以构造变换矩阵用于从用户坐标系统到后置摄像机222坐标系统的变换。所估计的距离可以用于构造平移矩阵,而且用户视线(在用户视线估计中计算的)可以用于构造旋转矩阵,而且这两个矩阵可以结合形成变换矩阵。至和来自后置摄像机222和至前置摄像机221的变换矩阵可以从两个摄像机的已知距离和角度来计算,无论它们是否集成在单个装置中。考虑到圆锥体表示3D视场,在用户视场内每个点的坐标可以使用前置摄像机221的坐标系统来计算。在一个例子中,可以使用圆锥体公式比如x2+y2=E2*z2,这里z是圆锥体的轴。
在由3D坐标定义的空间中的点可以被确定或估计为在后置摄像机222的视场里面或外面。使用后置222与前置221摄像机机的已知距离和关系,可以构造旋转和平移矩阵,使的一个坐标系统中的点得以变换到其它坐标系统。例如,平移矩阵可以基于摄像机之间的已知距离来构造,而且旋转矩阵可以基于装置比如智能手机中摄像机的已知位置来构造。基于从前置摄像机221至文中所述的用户视线坐标系统的已知旋转和平移矩阵,位于后置摄像机222坐标系统中的点可以变换到用户视线坐标系统。后置摄像机222的聚焦属性可以用于估计景深(DOF)内的视场坐标,以估计准确的对象尺寸和与后置摄像机222的距离,为了从后置摄像机222估计精确的物体大小和距离。例如,在景深为距离摄像机5至10米的情况下,该摄像机的视角为X,假设圆锥体形状的视场,点可以被计算并确定为在DOF区域中视场里面或外面。3D坐标系统通过乘变换矩阵中一个坐标系统中的点而容易转换成另一个系统,变换矩阵包含对于获得该第二坐标系统中的点坐标来说适当的旋转和平移。
一种估计后置摄像机和头FOV共享FOV的百分率的方法是在DOF内在后置摄像机FOV内各点上使用蒙特卡洛(Monte Carlo)分析方法,将它们转换成头坐标系统,并且检查它们是否在用户视场内。在图14所示的例子中,由线230和231限定的视场的DOF的2D横断面被定义为在距离’a’和’b’之间。在这个区域内的任一点可以被认为是"相关FOV"。在蒙特卡洛法中我们在这个相关的后置摄像机的FOV内选择多个随机点(比如100或1000个点),而且每个点被变换成用户头坐标系统来检查它是否在用户FOV内。
通过了这个测试的点的数量除以随机选择的点的总数得到的分数被定义为点的‘通过分数’,标记为’G’。
这个分数计算可以作为替代或与其结合地用作"估计用户视线检测"步骤65的一部分。进一步,作为"采取行动"步骤66的一部分,可以在该通过分数高于(或低于)预设阈值时采取行动。例如,如果通过分数高于0.8(80%)则可以采取行动。
多个FOV重叠水平的计算可以使用各种不同的算法和技术,比如恢复绝对的摄像机方位和位置的线性时间算法,对于在户外城市场景中的地面图像节点的网络,在IJCV49(2/3)2002年九月/十月、第143-174页、Mattew Antone和Seth Teller写的题为“ScalableExtrinsic Calibration of Omni-Directional Image Networks”的文章中描述,从配对点对应性来估计轴向摄像机之间的相对姿势在如下文献中描述:在葡萄牙科英布拉的科英布拉(Coimbra)大学的Francisco Vasconcelos和Joan P.Barreto写的题为“Towards aminimal solution for the relative pose between axial cameras”的文章,授予Datta等人的名称为“Automatically Determining Field of View Overlap Among MultipleCameras”的美国专利.8,913,791,都好像在文中完全描述了一样为任何目的整体并入。用于计算FOV重叠的其他方法在如下文献中描述:由计算机科学中演讲笔记、摄影测量的图像分析刊登的第6952卷2011年第13-24页Daniel Muhle,Steffen Abraham,ChristianHeipke and Manfred Wiggenhagen写的题为“Estimating the Mutual Orientation in aMulti-camera System with a Non Overlapping Field of View”的这一章,好像在文中完全描述了一样为任何目的整体并入。
方法可以用于估计树211后置摄像机222和用户220都看得见,兔子212只有用户220看到,花210只有后置摄像机222看到。要指出的是在图13所示的例子中,后置摄像机222和前置摄像机221各自的FOV中心线207和208不可以在同一条线上。
假设摄像机具有3.39mm高的传感器(参照风景模式),然后其一半为1.695mm。例如,IPhone4的焦距被列出为3.85mm。通过计算atan(1.695/3.85)从中心至顶部是23.75°,或者从顶部到底部是47.5°。对于更长的尺寸4.52/2=2.26mm,计算atan(2.26/3.85)=30.41°中心到侧边,或者60.8°左到右(还是参照风景方位)。因此,这样的摄像机属性可以由水平60.8°由竖直47.5°来定义。iPhone 5S后置摄像机的传感器尺寸据报告为4.89x3.67mm,具有4.12mm的焦距。在这样的情况下,水平计算结果为2*atan((4.89/2)/4.12)=61.4°宽,而且顶部到底部2*atan((3.67/2)/4.12)=48.0°。
一种计算图象获取装置(或系统)所拍摄的图像的照片质量的方法,在Sivan的题为“Real Time Assessment of Picture Quality”公开号为WO2014/064690的专利合作条约(PCT)国际申请(IA)中被描述,好像在文中完全描述了一样为任何目的整体并入。文中各步骤组成的方法的每一个可以包含、包括或基于在'690PCT公开文献中所述的各功能性或结构,或者为'690PCT公开文献中所述的各功能性或结构的一部分、或整体,功能性或结构(例如软件),其在'690PCT出版物中描述的。进一步地,文中每一个器件或元件可以包含、包括'690PCT公开文献中所述的器件或元件、或者为'690PCT公开文献中所述的器件或元件的一部分、或整体。
文中术语"质量指标"(QI)指表示图像或其一部分比如该图像中的一个区域或一个对象的质量的数值。图象质量是度量通常是被成像系统引入的所感知的图像退化(通常与理想的或完美的图像相比)比如失真或假像的图像特性,在摄像机的图像面上形成图像然后被用电子方法或化学方法测量以产生照片。在一例子中,图象质量可以与距离在摄像机中通过测量光而形成的照片的理想模型的偏差有关,光代表在某个时间点落到每个点上的光的数量。进一步地,其质量应当被确定的图像主要不是摄像机中摄影法的结果,而是存储或传输图像的结果。一个典型的例子是数字图象已经被压缩、存储或传输,然后再被解压缩。除非已经使用无损压缩方法,这样处理过的图象通常与原始图像不同而后计算距离(理想的)原始的图像的偏差是质量度量。在一个例子中,QI可以如'690PCT公开文献中所述。替换地或此外,QI可以与量化在整个图像中或在其区域中存在的特征、特性、或对象有关。
以具有三个通道的色彩模型格式估计图像文件的数值的方法。图像文件中包括所检测的对象(比如人脸)的图像区域被提取并且被转化为亮度/色差色彩模型。非对象部分被检测并被从所提取的区域去除(比如非皮肤部分),并且色差信号通道之间的相关性被计算。估计数值是基于比较通道平均值和标准偏差值,或通过计算各自的相关系数。估计数值可以通过分析多个顺序拍摄的图像,通过将数值和与每个图像的加权因子关联起来,而且通过使用加权算术平均数,加权几何平均数,或加权调和平均数来计算多重图像数值。计算加权系数可以基于图像年龄、差异分析、所检测的趋势,或者基于传感器输出。
在典型的数码摄像机比如图3所示的数码摄像机30中,这样得到的图象质量取决于上述所有的三个因素:摄像机的成像过程偏离针孔模型的程度、图像测量过程的质量高低、以及在由摄像机产生的图像中比如由JPEG编码方法引入的编码假像的多少。虽然图象质量通常就与理想模型的偏差来客观地确定,图象质量同样可以与图像的主观的感觉有关系,比如由人看照片。图象质量评价法(IQM)在如下文献中描述:马来西亚大学电气工程系的Kim-Han Thung和Paramesran写的题为“A survey of Image Quality Measures”的文章,以及Alan Chalmers等人的题为“Image Quality Metrics”的论文(Course#44,SIGGRAPH 2000),都好像在文中完全描述了一样为任何目的整体并入。
用于确定图像中脸部区域的系统与方法,和用于计算图像的总的图像曝光得分的系统和方法在授予Krishnaswamy的名称为“Detecting Exposure Quality in Images”的美国专利8,873,850中描述,好像在文中完全描述了一样为任何目的整体并入。
图象质量的因素可以包括像清晰度、噪声、动态范围、色调再现、对比度、色彩准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、或假像。图像清晰度通常是受镜头(比如数码摄像机30的镜头31)设计和制造质量、焦距、孔径、以及与图像中心的距离的影响,受图像传感器特征(比如图像传感器32)比如像素得分和抗混叠滤波器的影响,并受到聚焦准确度的影响,还受大气扰动(热效应和气雾剂)的影响。噪声是图像密度的随机变量,在胶片中看着是颗粒并且在数字图像中是像素水平变量,它通常是由图像传感器内基本物理学─光的光子性质和热的热能的作用而引起的。动态范围(或曝光范围)指摄像机可以拍摄的光水平范围,通常用f制光圈、EV(曝光值)、或区带(曝光中的所有两个因素)来度量。色调再现是场景亮度和再现的图像亮度之间的关系。对比度,也称为gamma,是在对数-对数空间中色调再现曲线的斜率。色彩准确度涉及色彩变化、饱和度、以及它的白平衡算法的有效性。失真是指使导致直线弯曲的像差。渐晕(或光衰减)是在角落附近使图像变暗的作用。横向色差(LCA),也称为"彩色边纹现象",导致颜色聚焦在与图像中心的不同距离处,而且在图像的角落附近是最明显的。镜头眩光可以指由镜头元件和镜头的内部管桶之间的反射导致的镜头和光学系统中的杂散光,而且会导致图像成雾(阴影细节和颜色的损失)以及"鬼"像。颜色摩尔纹是图像中出现的人工色带,具有高空间频率的重复图形,如同织物或篱栅。它受镜头清晰度、抗锯齿(低通)滤波器(软化图像)、以及去马赛克的软件影响。
炫光。炫光或镜头炫光,是通过通常不想要的成像机构在镜头系统中散射的光,比如镜头中材料不均匀性导致的内部反射和散射。炫光有两种表现形式:看得见的假像和横跨图像的朦胧。朦胧通过降低对比度和色彩饱和度(增加光给暗像区域,增加白色给饱和区,减少它们的饱和度)而使图像看起来"被冲蚀"。当光沿着路径通过镜头时,形成通常是镜头可变光阑形状形的看得见的假像,包含一个或多个来自镜头表面的反射。炫光尤其是由在图像中非常亮的光源(图像产生可见的假像)或者照射到镜头中而不在图像中非常亮的光源(图像产生朦胧)而导致的。最常见地,这发生在正对太阳进行拍摄时(当太阳在框架中或镜头指向太阳的方向的时候),炫光通过使用镜头遮光罩或其他遮光物来减少。
镜头炫光的空间分布通常表现为在横跨图像或视图的成行的几个星暴、环、或圆。镜头炫光图形通常横跨场景广泛分布而且随着摄像机相对于光源移动而改变位置,随着光位置而跟踪,随着摄像机指向偏离亮光而褪去,直到完全没有炫光。炫光的特定空间分布取决于成像元件的孔径的形状。当亮光源正照射在镜头上而不在其视场中时,镜头炫光显现为冲蚀图像的并降低对比度的朦胧。现代镜头使用镜头涂层来减少反光的数量并使炫光减到最小。摄像滤波器的使用会导致炫光,特别是亮光的鬼像(在中心倒置的情况下)。在数码摄像机中,太阳正照射在在无保护的镜头上,炫光会是一组小彩虹的形式。这个假像由图像传感器上的内部衍射形成,其表现为衍射光栅。
背光。背光是指源自感兴趣的对象后面的亮光,导致主要主题的曝光不足。站在窗户前面的人或通过外面的门进入的人是常用的例子。当使用普通数码摄像机查看时,通过门进入的人显现为轮廓。
模糊。运动模糊是在静止图像中摄像机和对象之间相对运动的明显的图像拖尾,而且通常是记录单个帧期间当所拍摄的图像或对象(或摄像机)的位置改变时导致的,由于快速移动或长时间曝光,既然摄像机创建不表示单一时刻的图像,而图像可以表示在一段时间内的场景。快速移动的对象、摄像机的移动、或更长的曝光时间会导致模糊假像,使其显现为模糊。相对于摄像机移动的任一对象看起来模糊或沿着相对运动的方向涂抹,这个涂抹可以出现在正在移动的对象上或者在静态背景或对象上(如果摄像机正在移动的话)。一种通过检查并计算与图像相关联的功率光谱的氡变换来估计与移动的对象相关联的图像的运动模糊的方法和系统,被描述在McCloskey等人的名称为“Fourier Domain BlurEstimation Method and System”公开号为2011/0096180的美国专利申请中,该文献好像在文中完全描述了一样为任何目的整体并入。
估计图像中人脸曝光的QI的一个例子在图7的流程图70中示出。通常从图像传感器比如作为数码摄像机30的一部分的图像传感器32接收所拍摄的图像作为"接收图像"的步骤71的一部分。使用任一脸部检测技术或算法在所拍摄的图像中检测人脸作为"脸部检测"的步骤72的一部分。
"脸部检测"的步骤72通常包括在所拍摄的图像内识别一组像素的算法,其涉及人脸的存在、位置、以及尺寸。常用的脸部检测算法关注前面的人脸的检测,而其他算法尝试解决更一般和困难的多视图脸部检测的问题。也就是说,脸部检测是沿着来自观察者脸部的轴旋转(平面内旋转),或者沿着竖直的或左-右的轴旋转(平面外旋转),或者两者都有。具有脸部检测特征的各种不同的脸部检测技术和装置(例如,摄像机)被如下专利文献公开:授予Smith等人的题为“Facial Image Processing”的美国专利5,870,138,授予Gibbon等人的题为"Method and Means for Detecting People in Image Sequences"的美国专利5,987,154,授予Baluja等人的题为“"Method for Finding All Frontal Faces inArbitrarily Complex Visual Scenes”的美国专利6,128,397,授予Darrell等人的题为“"Method and Apparatus for Personnel Detection and Tracking”的美国专利6,188,777,授予Luo等人的题为“Method for Automatic Determination of Main Subjects inPhotographic Images”的美国专利6,282,317,授予Steffens等人的题为“FaceRecognition from Video Images”的美国专利6,301,370、授予Qian的题为“System forDetecting Skin-Tone Regions within an Image”的美国专利6,332,033、授予Qian等人的题为“Method for Robust Human Face Tracking in Presence of Multiple Persons”的美国专利6,404,900、授予DeLuca的题为"Red-Eye Filter Method and Apparatus"的美国专利6,407,777、授予Chen等人的题为"Method for Locating Faces in Digital ColorImages"的美国专利号7,508,961,授予Steinberg等人的题为“Digital Image ProcessingComposition Using Face Detection Information”的美国专利7,315,630、授予Chen等人的题为"Method for Locating Faces in Digital Color Images"美国专利7,110,575、授予Yan的题为“System and Method for Biometrics-Based Facial Feature Extraction”的美国专利6,526,161、授予Parulski等人的题为“Image Revising Camera and Method”的美国专利6,516,154、授予Hong等人的题为“Method and Apparatus for Detecting aFace-Like Region and Observer Tracking Display”的美国专利6,504,942,授予Gotsman等人的题为“"Method and System for Detecting and Classifying Objects inan Image”的美国专利6,501,857、授予Gilman等人的题为“Correcting Exposure andTone Scale of Digital Images Captured by an Image Capture Device”的美国专利6,473,199,都好像在文中完全描述了一样为任何目的整体并入。另一个具有人脸检测装置的摄像机在授予Ray等人的名称为“Face Detecting Camera and Method”的美国专利6,940,545中公开,该专利文献好像在文中完全描述了一样为任何目的整体并入。图象处理可以使用如下的书中所述的算法和技术:John C.Russ的"The Image Processing Handbook"第六个版,好像在文中完全描述了一样为任何目的整体并入。各种不同的脸部检测技术进一步描述在Microsoft Research(微软研究)在2010年6月发表并且Cha Zhang和ZhengyouZhang写的题为“A Survey of Recent Advances in Face Detection”的文章中,该文献好像在文中完全描述了一样为任何目的整体并入。
各种不同的对象检测(或识别)方案一般是,并且脸部检测技术尤其是,基于使用Haar型特征(Haar型小波)而不是通常的图像灰度。Haar型特征考虑检测窗口中特定位置处的邻近的矩形区域,在每个区域中求像素灰度的总和,计算这些总和之差。这个差然后用于将图像分类成多个分段。Viola-Jones对象检测框架。当应用于脸部检测时,使用Haar特征基于假设所有的人脸都有一些相似的属性,比如眼睛区域比上部脸颊更暗,鼻梁区域比眼睛更亮。Haar特征被Viola-Jones的对象检测框架所使用,被描述在Paul Viola和MichaelJones写的文章中,比如计算机视觉的国际期刊(the International Journal ofComputer Vision)2004题为“Robust Real-Time Face Detection”的文章和公认的计算机视觉与模式识别会议(Conference on Computer Vision and Pattern Recognition)2001的题为“Rapid Object Detection using a Boosted Cascade of Simple Features”的文章,都好像在文中完全描述了一样为任何目的整体并入。
一些脸部检测算法使确切检测出的人脸轮廓得以在所拍摄的图像中确切定位。不过,可以用作"脸部检测"的步骤72的一部分的用于脸部检测的常用技术,仅仅提供所检测的脸部在所拍摄的图像中的大体位置,以及各种不同的其他表征,比如脸部尺寸。在"脸部区域抽取"的步骤73中,所拍摄的图像至少包含所检测的脸部的区域或部分被提取进行进一步处理,允许忽略不包括所检测的人脸的图像部分,是唯一感兴趣的元素。例如,所提取的区域可以是包括椭圆形或圆形的人脸的矩形或正方形。
在"接收图像"的步骤71中接收的所拍摄的图像可以使用任何色彩空间格式,比如RGB、YUV、或YCrCb。对于进一步处理(如下所述),在色彩和发光度被承载在分开的通道上的情况使用YCrCb色彩模型是优选的。因而,在“转换成YCrCb格式”的步骤74中所提取的脸部区域使用常规的转换方案转换为YCrCb格式。
皮肤检测涉及在图像中识别皮肤颜色的像素或区域的过程,通常基于预定的肤色的颜色。皮肤检测技术被描述在如下文章中:罗格斯大学计算机科学系的Ahmed Elgammal、Crystal Muang和Dunxu Hu写的题为“Skin Detection-a Short Tutorial”的文章,马来西亚沙巴大学工程和信息技术学院的Chelsia Amy Doukim、Jamal Ahmed Dargham和AliChekima写的题为“Comparison of Three Colour Spaces in Skin Detection”的文章,以及莫斯科国立大学计算数学和控制论系的教员Vladimir Vezhnevets、Vassili Sazonov和Alia Andreeva写的题为“A Survey on Pixel-Based Skin Color DetectionTechniques”的文章,好像在文中完全描述了一样为任何目的整体并入。
在"脸部区域提取"的步骤73中从完全接收的图像中提取的区域通常包括背景和其他不是所检测的人脸的元素。在"去除非皮肤区域的"步骤75中,不属于所检测的人脸的部分的多个部位(或多个像素)被去除(或被标志以便在进一步加工中被忽略)以只对所检测的脸部进行分析。在一个例子中,非脸部分的去除基于已知的人的肤色。
在一个例子中,使用以不同光波长反射的亮度分量的差异检测人的皮肤。当图像在白天被拍摄的时候,可以通过使用GPS位置或时间来验证,通过使用所识别的对象(比如车辆),或基于装置白平衡检测,亮度值可以被使用。人的皮肤在蓝-紫(~450nm)光谱和绿-黄(~550nm)光谱的反射低于在橙-红(600-700nm)光谱的反射。因此,当使用YCbCr色彩模型时,具有与更高的Cr值有关联的更高的亮度(Y)值的像素可以被认为是人的皮肤。例如,CbCr值(80,160)可能比值(80,135)更与皮肤相关。在一个例子中,概率(或可信度水平)可以与人的皮肤检测有关联,与在550-650nm上同等的反射有关的同等的灰度表明是代表人的皮肤的概率低(比如20%),而是CbCr值(80,160)的灰度值的三倍的CbCr值(80,135)表明只有5%的概率是代表人的皮肤。在一个例子中,阈值被设置(比如75%),只有概率高于该阈值的像素被认为是代表人的皮肤。
命名为"脸部提取和准备"的流程图70a,是流程图70的一部分,包括"脸部检测"的步骤72、"脸部区域提取"的步骤73、"转换成YCrCb格式"的步骤74、以及"去除非皮肤区域"的步骤75。流程图70a提供一种用于从所接收的图像中只提取所检测的脸部的方法,以适合未来分析的色彩模型比如使用YCrCb色彩模型表示这个人脸。
所提取的被检测的脸部在流程图70b中估计质量,流程图70b是流程图70的一部分而且被命名为"QI分析"。QI分析的流程图70b包括"计算直方图"的步骤76、“计算偏差+平均数”的步骤77、以及"估计相关性"的步骤78。
作为"计算直方图"的步骤76的一部分,所提取的脸部图像的一个或所有像素通道的分布和所去除的非皮肤/非脸部部分一起来计算。例如,如果像素通道由代表数值0至255个的8位表示,可能的256个值的直方图将被计算。形成的直方图可以然后用于计算平均数(均值)和直方图值的标准偏差,作为"计算偏差+平均数"的步骤77的一部分。例如YCrCb被使用的话,计算色彩模型每个通道的平均数和标准偏差,即‘Y’分量的平均数和标准偏差(分别计为MEAN(Y)and DEV(Y))、‘Cr’分量的平均数和标准偏差(分别计为MEAN(Cr)andDEV(Cr))、以及‘Cb’分量的平均数和标准偏差(分别计为MEAN(Cb)and DEV(Cb))。
基于以前的分析或统计,已知人脸的图像表现出各种特性。在一个例子中,已知人脸的色彩分布显示好的相关性。在使用YCrCb色彩模型的例子中,Cr和Cb值的分布预计是相似的或甚至是基本相同。因此,比较各种不同的通道并测量在两个通道之间的相关性提供所提取的人脸图像的质量指示,而且可以作为"估计相关性"的步骤78的一部分来执行。例如,可以比较MEAN(Cr)和MEAN(Cb),而且绝对差可以被定义为MEAN_DIFF=|MEAN(Cr)-MEAN(Cb)|。在最优情况下,MEAN_DIFF=0表示相同的均值,指示两个通道之间的高相关水平。更高的数值表示通道之间更低的相关性。替换地或此外,通道的标准偏差用于计算相关性,这里DEV_REL被定义为DEV_REL=DEV(Cr)/DEV(Cb)。在最优情况下,DEV_REL=1表示相同的标准偏差,指示两个通道之间高的相关水平。远高于1的值(比如2.5)或远低于1的值(例如0.25)表示通道之间更低的相关性。相关性可以将使用MEAN和DEV的值结合起来,提供相关性的更高可信度的测量。所计算的相关性可以用作QI的基础,这里较低的相关性表明较低的QI值而且较高的相关性表明较高的QI值。在一个例子中,QI可以被估计为QI=1/MEAN_DIFF,以便相似的MEAN值(高相关性)结果为高的QI值,而远离的MEAN值表明低的QI值。在使用DEV估计QI的另一个例子中,QI可以被定义为QI=|1/(DEV_REL-1)|,以便相似的DEV值导致更高的QI值,而远离的MEAN值表明低的QI值。
作为"加标签/通知"的步骤79的一部分,所估计的QI(基于色调相关性)然后与在"接收图像"的步骤71中所拍摄的图像有关联。在一个例子中,所估计的QI值被添加给图像文件元数据,比如“标签”,是用户或机器可以用来加标签的。在另一个例子中,通知用户图像的QI比如通过显示QI值作为图像的一部分(当显示时)。
现在参照图8中所示的流程图80,该图图示说明用于估计并关联与图像有关的QI的一般化方法。通常从图像传感器接收所拍摄的图像作为"接收图像"的步骤81的一部分(对应于流程图70中"接收图像"的步骤71),图像传感器比如是数码摄像机30的一部分的图像传感器32。
虽然对于图像中的脸部检测举了流程图70的例子,该方法可以同样适用于检测并提取任何图像中的任何对象。流程图80a(对应于流程图70中的"脸部提取和准备"的流程图70a)是流程图80的一部分并被命名为"对象提取和准备",而且包括"对象检测"的步骤82、"对象区域提取"的步骤83、"转换成另一种格式"的步骤84,以及"去除非对象区域"的步骤85,分别对应于流程图70中"脸部检测"的步骤72、"脸部区域提取"的步骤73、"转换成YCrCb格式"的步骤74,以及"去除非皮肤区域"的步骤75。
对象检测(a.k.a.‘对象识别’)是在数字图象和视频中检测并发现真实世界的对象的语义实例的过程,对象通常属于某个类别(比如人类、建筑物、或车辆)。目标检测技术被描述在如下文献中:在图象处理国际期刊(DIP)第6卷第6期-2012年发表的DilipK.Prasad写的题为“Survey of The Problem of Object Detection In Real Images”的文章,以及在曼彻斯特大学的成像科学与生物医学工程部发表的A.Ashbrook和N.A.Thacker写的题为“Tutorial:Algorithms For 2-dimensional Object Recognition”的教程,都好像在文中完全描述了一样为任何目的整体并入。各种不同的对象检测技术基于图形识别被描述在如下文献中:计算机视觉2000年3月的第4章题为“PatternRecognition Concepts”中,切片机出版社2011年(ISBN-13:978-0-9719777-1-6)出版的名为“Hands-On Pattern Recognition-Challenges in Machine Learning,Volume 1”书,都好像在文中完全描述了一样为任何目的整体并入。
使用对象检测算法,识别图像中对象的存在、类型、位置,而且相关联的区域(包括对象)在"对象区域抽取"的步骤83中被提取。应当指出的是提取可以是新的更小的图像的形式,或通过在原始图像中标记并识别该区域。例如,不包括在该区域中的像素可以被废弃或被标志以便这些像素不参与任何进一步的处理。在"转换成另一种格式"的步骤84中,所提取的区域被转换为另一种色彩模型,其对于进一步处理来说是优选的,比如转换为YCrCb格式,其更适于估计Cr和Cb分量之间的相关性。在这种情况下在步骤82中用于对象检测的算法更好或更有效地使用在特定的色彩模型(不是所接收的图像格式)上,转换成优选的色彩模型作为"转换成另一格式"的步骤84的一部分可以在"接收图像"的步骤81中接收的原始图像上在"目标检测"的步骤82之前被执行。为了隔离对象本身并去除任何背景或任何其他非对象相关的像素或区域,可以使用对象已知特征,作为"去除非对象区域"的步骤85的一部分。
虽然对于以直方图为基础估计QI并计算通道的平均数和标准偏差举了流程图70的例子,但是该方法可以同样地应用于对于所提取的对象区域的任何类型的分析。流程图80b(对应于流程图70中的"QI分析"流程图70b)是流程图80的一部分并被称为"QI分析",而且包括"计算特征"的步骤86、"比较数值"的步骤87、以及"估计QI"的步骤88,分别对应于流程图70中的"计算直方图"的步骤76,"计算偏差+平均数"的步骤77,以及"估计关联/QI"的步骤78。
所提取的对象的一个或多个特征或特性用作计算和估计QI的基础。这些特性可以基于特定通道或色彩模型的多个通道的特征或特性,或者可以基于两个或更多个通道的相关性。优选地,与最佳的或理想的对象有关的特征或特性基于现有的统计而知的或本领域已知的。所提取的对象区域然后被分析以获得测量或代表特征或特性的一个或多个值,作为"计算特征"的步骤86的一部分。计算出的数值然后与已知或期望值相比较,作为"比较数值"的步骤87的一部分。然后基于最优的或期望的值与实际获得的值之差计算或估计QI,而且这些差在"估计QI"的步骤88中用于计算图像QI。由此得到的QI然后与所拍摄的图像相关联而且可以在"采取行动"的步骤89中被用户或被机器使用,对应于流程图70中的"加标签/通知"的步骤79。在'690PCT公开文献中描述的用户通知或反馈技术同样适用于此作为"采取行动"的步骤89的一部分。
在包括三个通道通的通用色彩模型中,三个通道通常称为A、B、C(比如RGB),每个都代表相关联的值的向量,图像由形成该图像的多个像素来限定,比如总共N个像素,这里每个像素(i),(1<i<N)涉及三个值SLi、bi、和c;(ai,bi,ci)对应于这三个通道。类似地,在包括四个通道通常称为A、B、C、D(比如CMYK)的通用色彩模型中图像由形成该图像的多个像素比如总的N个像素限定,每个像素(i),(1<i<N)涉及四个值ai、bi、ci和di,对应于四个通道。与每个通道相关联的平均数(平均)值可以被计算为:
M E A N ( A ) = A v e r a g e ( A ) = a &OverBar; = &mu; a = &Sigma; i = 1 N a i N
M E A N ( B ) = A v e r a g e ( B ) = b &OverBar; = &mu; b = &Sigma; i = 1 N b i N
M E A N ( C ) = A v e r a g e ( C ) = c &OverBar; = &mu; c = &Sigma; i = 1 N c i N
每个通道的标准偏差可以被计算为:
D E V ( A ) = &sigma; a = 1 N &Sigma; i = 1 N ( a i - a &OverBar; ) 2
D E V ( B ) = &sigma; b = 1 N &Sigma; i = 1 N ( b i - b &OverBar; ) 2
D E V ( C ) = &sigma; c = 1 N &Sigma; i = 1 N ( a i - c &OverBar; ) 2
这些平均数值和标准偏差值可以作为"计算特征"的步骤86的一部分被计算,"计算特征"的步骤86是"QI分析"的流程图80b的一部分,而且可以作为“估计QI”的步骤88的一部分用于估计QI值。例如,QI可以基于这些平均数值、标准偏差值,或两者被估计或计算。相关性可以基于两个通道(来自三个或四个通道)、三个通道、或在四个通道(如果用了的话)上。进一步地,相关系数可以涉及线性的或非线性相关。相关系数可以在"估计QI"的步骤89中用作估计QI的基础。
在一个例子中,皮尔逊积差相关系数被用作在两个变量之间的线性相关度的度量,提供两个变量X和Y之间的线性相关性(依赖)的一种度量,假定为包括端值的+1和-1之间并包括端值的范围内的数值,这里1是完全正相关,0是不相关,-1是完全负相关。两个变量之间的皮尔逊积差相关系数被定义为这两个变量的协方差除以它们的标准偏差的乘积。
在A和B两个通道(rab)之间的皮尔逊样本相关系数(r)可以由下式计算:而且QI与相关性成反比。
虽然作为例子相关性是使用皮尔逊积差相关系数来计算并表达,其他用于计算相关性的方法同样可以使用。例如,可以使用秩相关系数,比如斯皮尔曼的秩相关系数和Kendall的秩相关系数(τ),其测量当一个变量增加时其他变量趋于增加的程度,而不需要这个增加由线性关系表达。如果当一个变量增加时,其它变量减小,这些秩相关系数为负。
测量相关性的其他技术涉及距离相关、布朗协方差/布朗相关、随机相关系数、以及多分格相关法。可以使用的以上和其他相关法被描述在如下文献中:JDMS 1:3539 1990年1月/2月中Richard Taylor写的题为“"Interpretation of the CorrelationCoefficient:A Basic Review”的文章,名为“Practical Statistics"的书(2006年第4版)中Dr.Rick Yount写的题为“Pearson's R,Chi-Square,T-Test,and ANOVE”的第4章和题为“Correlation Coefficients”的第22章,都好像在文中完全描述了一样为任何目的整体并入。
虽然就为了估计与对象检测有关的QI而进行的图像分析来说描述了“QI分析”的流程图80b,一般来说该分析,尤其是所计算的相关性可以作为整体用于估计图像的任何特性或特征,或者在执行"对象提取和准备"的流程图80a之后背景被去除了的所提取的对象的任何特性或特征。在一个例子中,相关性可以用于估计与图像质量有关的任一因素的估计或度量相关的QI值,比如图像清晰度、噪声、动态范围、色调再现、对比度、色彩准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。
基于所计算的相关系数来计算QI值作为"估计QI"的步骤88的一部分。在一个例子中,所估计的相关系数或所估计的QI被与预设的阈值比较。如果所估计的相关系数或所估计的QI高于预设的阈值则可以采取行动作为“采取行动”的步骤89的一部分,或替换地如果所估计的相关系数或所估计的QI低于预设阈值则采取动作。进一步地,在'690PCT公开文献中描述的任何动作可以同样地用作"采取行动"的步骤89的一部分。进一步地,数码摄像机(比如数码摄像机30)可以是基于所估计的QI值本身或者基于所估计的QI高于(或低于)预设的阈值的情形而被控制。例如,一旦超过最大阈值或者一旦低于最低阈值,数码摄像机可以自动地拍摄另外的图像。替换地或此外,该值可以用作将所拍摄的图像存储到存储器的条件,以便只有与高于最小阈值的QI值有关的所拍摄的图像被保存,而与低于最小阈值的QI值有关的所拍摄的图像被丢弃。在另一个例子中,数码摄像机的设置可以被控制,比如改变孔径大小(例如孔径直径)、曝光时间或指数、焦距、曝光指数、或者它们的任意组合。例如,曝光指数和曝光时间可以被控制以响应所测量或所估计的清晰度或其他特征,以改进所拍摄的图像的清晰度。
对于数码摄像机,与摄影相关联的成本和努力是无不足道的。因此,在许多情况下,用户可以拍摄场景的多个连续照片,所以拍摄者然后可以在晚些时候选择这组中最好的照片或者对它们排序以仔细研究视图转换。许多数码摄像机提供“连拍”或连续高速拍摄模式,通过按压或触发快门按钮或保持其按下状态来快速连续地拍摄几张照片。通常今天的数码摄像机能够在连拍模式每秒拍摄并记录10-40张静止图像,在某些可以得到的数码摄像机中还能够有更快的拍摄速度。具有高的连续拍摄速度的能力的摄像机通常被用在主题运动时,比如体育摄影、或机会短暂的情形。不用精确地预先准备动作,拍摄者可以简单地开始拍摄,刚好在他们相信该动作将要发生之前,假定很可能拍摄到至少一个帧是可接受的。
类似地,视频录制涉及使用固定的帧速率拍摄多图像。视频每个单位时间静止图片的数量范围是从旧的机械摄像机6-8帧每秒(帧/秒)到新的专业摄像机120或更多帧每秒。PAL标准(常用在欧洲大部分国家)和SECAM(在法国和俄罗斯受欢迎)规定25帧/s,而NTSC标准(美国、加拿大、日本等等)规定29.97个帧。取得运动图像的舒适的最小帧速率是大约16帧每秒。通常,在连拍模式或在拍摄视频时,多帧拍摄速率是连续的,因此在速率为10帧/秒(帧数每秒)的情况,这些静止图像每隔1/10秒被拍摄,而且30帧/秒的速率涉及每隔1/30秒拍摄。
假阳性错误,或简称为假阳性,通常被称为“误报”,是给定的条件实际上还没有被满足时却指示已经被满足的结果。假阳性错误是在测试正在检查单个条件而且导致肯定的或阴性决定的情形下第一类错误,肯定的或阴性决定通常被称为"真或假"。假阳性率是产生阳性测试结果的缺席事件的比例,即,假定是缺席事件则出现阳性测试结果的条件概率。假阳性率等于显著性水平。测试的特异性等于1减去假阳性率。假阴性错误,或简称为假阴性,是在条件实际上成功时指示其失败的情形。假阴性错误是在测试步骤出现的第二类错误,在测试步骤单个条件被检查且结果可以是阳性或阴性的。互补地,假阴性率是被测试而产生阴性测试结果的事件的比例,即,假定被寻找的事件已经发生则出现阴性测试结果的条件概率。
QI值可以与作为图像处理算法施加到图像上的结果的这个图像相关联。例如,上面的流程图70描述了一种用于估计图像中所检测的人脸的QI的示例性方法,而且上面的流程图80描述了一种用于估计图像中所检测的对象的QI的示例性方法。不过,图象处理算法会由于与图像质量有关的任何因素而在估计或测量中提供假阴性或假阳性结果。与图像质量有关的因素比如图像清晰度、噪声、动态范围、色调再现、对比度、色彩准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。
不过,在拍摄多图像的情况下,比如通过连拍或视频模式,可以使用最近拍摄的图像以减少假阴性或假阳性率并改进所估计的QI的可信度水平。以多个(或单个)以前的帧为基础估计的QI被表示为多帧QI(Multi-Frame QI,MFQI)。例如,可以假设以小于1秒的短间隙比如相隔1/10或1/30秒拍摄的两个连续图象之间具有高度相关性,既然预期大多数动作或场景不能快速地改变。当使用通过处理最近所拍摄的图像获得的信息来分析图像时高度相关性可以被使用。
用于估计图像(i)的多帧QI(MFQI)的流程图90的例子被表示为MFQI(i),基于之前所拍摄的三幅图像,表示为(i-3)、(i-2)、和(i-1),这里(i-3)是指“最早”拍摄的图像,(i-1)是指在当前讨论(i)之前最后拍摄的图像,在图9中示出。作为流程图90的一部分的流程图90a描述了图像(i-3)的处理,而且包括"接收图像i-3"的步骤91a,其涉及拍摄帧(例如,通过按压拍摄按钮),接收并存储所拍摄的图像,接着是图象处理算法施加到所拍摄的图像(i-3)上的"对象检测"的步骤92a,而且基于该处理结果,确定所拍摄的图像的QI,其作为"确定QI(i-3)"的步骤93a的一部分。类似地,作为流程图90的一部分的流程图90b描述图像(i-2)的处理,而且包括"接收图像i-2"的步骤91b,其涉及拍摄帧(例如,通过按压拍摄按钮),接收并存储所拍摄的图像,接着是图象处理算法施加到所拍摄的图像(i-2)上的"对象检测"的步骤92b,而且基于该处理结果,确定所拍摄的图像的QI,其作为"确定QI(i-2)"的步骤93b的一部分。图像(i-1)在作为流程图90的一部分的流程图90c中被处理,描述图像(i-1)的处理,而且包括"接收图像i-1"的步骤91c,其涉及拍摄帧(例如,通过压拍摄按钮),接收并存储所拍摄的图像,接着是图象处理算法施加到所拍摄的图像(i-1)上的"对象检测"步骤92c,而且基于处理结果确定所拍摄的图像的QI,其作为"确定QI(i-1)"的步骤93c的一部分。
在"确定MFQI(i)"的步骤94中,计算与image(i)有关的多帧QI,不仅基于表示为QIi的对image(i)所估计或计算的QI值,而且还基于以前的图像的QI值,即QIi-3、QIi-2和QIi-1。虽然对于使用三个以前的图像在流程图90中举了例子但是同样可以使用任意数量的图像。例如,只有最后拍摄的一帧可以使用,最后的两帧可以使用,最后的四帧可以使用。当流程图90中描述的图象处理被描述为对象检测的时候,例如在"对象检测"的步骤92a中,任何其他图象处理方案同样可以使用。进一步地,不同的图象处理算法可以用于不同的以前的图像。
在一个例子中,作为"确定MFQI(i)"的步骤94的一部分,加权算数平均数(均值)用于计算MFQI(i)。加权因子w与每个QI值相关联:加权值Wi-3与Qi-3相关联,加权值Wi-2与Qi-2相关联,加权值Wi-1与Qi-1相关联,而且加权值Wi与Qi相关联。使用加权算数平均数,MFQI(i)可以被计算为:
M F O I ( i ) = Q I ( i - 3 ) w ( i - 3 ) + Q I ( i - 2 ) w ( i - 2 ) + Q I ( i - 1 ) w ( i - 1 ) + Q I ( i ) w ( i ) + w ( i - 3 ) + w ( i - 2 ) + w ( i - 1 ) + w ( i )
一般情况下N+1帧的总和被用于计算MFQI(i),它可以被计算为:
M F Q I ( i ) = &Sigma; j = 0 N w ( i - j ) Q I ( i - j ) &Sigma; j = 0 N w ( i - j )
在归一化的情况下该计算被简化如下:
M F Q I ( i ) = &Sigma; j = 0 N w ( i - j ) Q I ( i - j )
在一个例子中,将相等的加权分配给所有的帧,结果为简单的均值。在一个例子中,最近的帧比“更早的”帧被分配更高的加权,假设较后面的帧比较早的帧有更高的相关性。应当指出的"确定MFQI(i)"的步骤94中所计算的MFQI(i)可以用作所计算的QI(i)的替换或附加,而且像这样可以用于采取行动,比如在文中所述的"加标签/通知"的步骤79或"采取行动"的步骤89中所描述的。
常用的对象检测算法(例如脸部检测算法)表现出低的假阳性率,因此在这种情况下所使用的算法实际上返回对象位置,对象(比如人脸)真正被检测到的概率到达接近100%,因此我们可以分配数值QI=100%。不过,由于在所拍摄的图像中各种不同的损伤,比如图像清晰度、噪声、动态范围、色调再现、对比度、色彩准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像的影响,该算法会呈现出假阴性,图像中物体真正在的地方却不能通过所使用的算法被检测或定位。例如,人会被显示在图像中,但是他的脸部不会被检测,例如由于头姿势。在这样的情况下,该算法可以返回数值0%(QI=0%)作为对象存在的概率。在多帧被快速地和连续地拍摄的情况下,对象在多个连续相邻的帧中被检测到(100%概率),然后该对象在一个帧中没有被检测到(0%概率),多帧QI可以用于更好地估计在图像中的人脸存在的概率。假设N=4和简单平均数,每帧被分配加权因子1/4(1/N),由此得到MFQI(i)=300%/4=75%。在使用加权平均数的例子中使用相同数据,其中加权系数是Wi=0.4,Wi-1=0.3,Wi-2=0.2以及Wi-3=0.1,由此得到的MFQI(i)=60%。在这个例子中,加权系数根据图像的计时(或'年龄')而被降低,‘越早的’图像比新的或“年青的”图像越处于弱势,因而Wi>Wi-l>Wi-2>Wi-3...
虽然上面对于使用加权算数平均数来进行MFQI估计或计算举了例子,同样可以使用其他方案。在一个例子中,可以使用加权几何平均数,通常根据:
类似地,可以使用加权调和平均数,通常根据:
M F Q I ( i ) = &Sigma; j = 0 N w ( i - j ) &Sigma; j = 0 N w ( i - j ) Q I ( i - j ) .
虽然上面的例子设想了加权的线性影响,同样可以使用任何非线性的依赖或功能。
上面的例子是基于序列中各帧的相关性的存在,通常由于它们拍摄之间的短时隙(例如,小于1秒,小于0.5秒,或小于200毫秒)。不过,在一些情况下相关性可能不存在。例如,在对象检测的情况下,对象可以位于一个帧的框边缘附近并且不在下一帧的框中。进一步地,要检测的物体可以正在移动并因而在图像中形成光流,直到离开帧位置。当帧的QI基本上不同于为多个以前的帧获得的QI的时候时这样的情况可以被检测。例如,假设序列QIi-3=90,QIi-2=87,QIi-1=91,以及Qi=32,与最后拍摄的frame(i)相关联的低的QI可以指示不同的场景(例如,在框外的人脸),结果为与以前的图像的不相关或有低的相关性。在这样的情况下,计算MFQI(i)仅仅基于与年龄有关的加权,会导致不准确的数值。优选地,这样截然不同的(不相关的)QI值不可以用在MFQI(i)计算中(比如假定Wi=0),或者可以和降低的加权量一起使用。一般情况,不使用原始的只与年龄有关的Wi,而使用新的加权w'i,这里w'i=Wi*Θ这里Θ是加权系数0<Θ<1,以便当假定Θ=1时,‘年龄’加权完全被认为是MFQI(i)计算的一部分,而且通过假定Θ=0,‘年龄’加权完全被消除并且不用作MFQI(i)计算的一部分。无论如何,在以上计算中和以上等式中Wi被替换成w'i,因而考虑了加权系数Θ。
各帧QI的平均值(平均数),假定N个帧被表示为I=1...N,(N是被考虑的最后的帧)而且每个都与QI(i)相关联,可以被计算为:
M E A N ( Q I ) = A v e r a g e ( Q I ) = Q I &OverBar; = &mu; Q I = &Sigma; i = 1 N Q I ( i ) N
而且标准偏差可以被计算为:
D E V ( Q I ) = &Sigma; Q I = 1 N &Sigma; i = 1 N ( Q I ( i ) - Q I &OverBar; ) 2 .
同样地,仅仅以前那些帧(i=1...N-l)可以用于计算以前帧的平均数和标准偏差,不考虑考虑中最后的帧。加权系数Θ可以取决于最后的帧的QI值(QIN)和所计算的QI平均值NEAN(QI)之间的‘距离’,而且可以由|QI-MEAN(QI)|表达。优选地,加权系数Θ可以取决于最后的帧的QI值(QIN)和所计算的QI平均值NEAN(QI)之间的归一化‘距离’,由表达。
大的DISTANCE值表示基本上不同的QI值,而且像这样会得到加权系数Θ的较低值。相反,小的距离值表示非基本上不同的QIN值,而且像这样会得到加权系数Θ的较高值。例如,DISTANCE=0意味着与所计算的平均值相同的数值,因而非基本上不同。在另一例子中,DISTANCE=2意味着两个标准偏差的间隔,意味着基本上不同的QI值。根据DISTANCE计算加权系数Θ的例子可以是:当DISTANCE=0时结果为最大的Θ=1的值,值当DISTANCE=2时数值Θ=1/3。同样可以使用非连续相关,比如当DISTANCE≤2被满足时分配Θ=1,而且在距离>2的情况下Θ=0。在另一个例子中,QI被假设为呈现出具有平均值MEAN(QI)和标准偏差DEV(QI)的正态概率,而且加权系数Θ等于或基于要取得的QIN值的概率,被表示为N(QIN)。如上所述基于DISTANCE计算的加权系数在文中被计为Θ(分布)。
虽然上面对于将QI值拟合到正态(高斯)分布举了例子,同样可以使用任何其他分布拟合法,而且表现出任何类型的分布。优选地,表现出相对于平均值的对称分布,在这种分布中与QI值有关的数据在平均数周围对称分布这时离平均数越远出现数据的频率越小,比如正态分布、增长分布(the logistic distribution),或学生的t分布。分布拟合可以基于参数法,这种方法中分布的参数由数据系列来计算,比如力矩法、L力矩法、以及最大似然(ML)方法。替换地或此外,可以使用基于回归的方法,通过使用累加概率分布函数的变换以便数据的累加概率和数值之间的线性关系被发现,其还需要取决于所选择的概率而变换。
虽然在上面的例子中假定这些QI值在相邻帧之间是相似的,而且正态分布,同样可以是这些QI值呈现出趋势。例如,假定一组连续的QI值为20、25、30、35、40、或45清楚地表明QI值的稳定的线性增长,接下来的QI值被清楚地预测为50。在这样的情况下,与QIN值相关联的帧基本上是不同于预计值,可以与权系数Θ的低值相关联。
曲线拟合是构造具有到一系列数据点上的最佳拟合的曲线或数学函数的过程,可能受到约束。曲线拟合可以涉及内插(在需要到数据的确切拟合的地方)或者平滑(其中"平滑"函数被构造成近似拟合该数据)。所拟合的曲线可以用作帮助数据可视化,以推断在没有数据可获得的地方的函数值,以总结两个或更多个变量之间的关系。外插法是指超出所观测的数据范围的拟合曲线的使用,而且由于它会反映用于构造该曲线的方法像它反映观测数据一样多所以易于有一定程度的不确定性。曲线拟合在John Q.Howell的名为“TheKaleidaGraph Guide to Curve Fitting”和名为“A Least-Square-Distance Curve-Fitting Technique”的指南中描述,都好像在文中完全描述了一样为任何目的整体并入。
曲线拟合可以用于将QI值拟合到如下形式的一次多项式(线性)方程:y=ax+b,代表一条有斜率的直线,变量y代表QI值而且变量x代表帧数(i,i=1...N)。可以使用具有如下形式:y=ax2+bx+c的二次多项式方程,或者替换地,可以使用具有如下形式:y=ax3+bx2+cx+d的三次多项式。用于曲线拟合的等式可以然后用于外插以预测QIN的值,在文中表示为PREDICTED(QIN)。在一组连续的QI值为20、25、30、35、40、45(对应于帧数1、2、3、4、5、6)的例子中,该组拟合线性方程y=5x+15(a=5,b=15),并因而接下来的QI(7)被预测为PREDICTED(QI7)=50。在这样的情况下,DISTANCE可以被定义为DISTANCE=I PREDICTED(QIN)-QIN|,加权系数Θ可以基于这个数值来计算,这里DISTANCE数值越低所分配的加权系数Θ越高。基于如上所述的曲线拟合计算的加权系数Θ在文中计为Θ(曲线-拟合)。在一个例子中,所用的系数Θ通过使用所计算的Θ(分布)和Θ(曲线-拟合)而基于QI值,而且结合后的系数Θ,计为Θ(拟合),被计算为Θ(分布)和Θ(曲线-拟合)的函数,例如使用等式:Θ(拟合)=Θ(曲线-拟合)*Θ(分布)。
虽然加权系数Θ在上面被举例为基于每个都与它的QI相关联的多个连续的帧而被估计或计算,加权系数进一步基于从传感器的输入而被估计。装置(比如智能电话)是市场上买得到的,包括数码摄像机和环境传感器,而且该传感器的输出可以用于确定加权系数的估计或对加权系数的估计产生影响,通过拍摄特定帧时感应发生的周围环境状况给与这个帧相关联的加权因子。能够测量或响应物理现象的任何元件都可以用作传感器。适当的传感器可以适合于特定的物理现象,比如响应于温度、湿度、压力、音频、振动、光、声音、接近度、流量、电压、或电流传感器传感器。进一步地,该传感器可以是如下文献中描述的任何传感器:Binder等人的名称为“System and Method for Server Based Control”公开号为2013/0201316的专利申请,好像在文中完全描述了一样为任何目的整体并入。该传感器可以是基于半导体的并且可以基于MEMS技术。例如,传感器可以是用于感测或估计运动的加速计,已知运动在所拍摄的图像中形成运动模糊。在这样的情况下,可以在感测到的运动越大时分配给加权系数Θ的数值越低,为了最小化或消除受运动模糊影响的帧。另外的各种不同传感器的使用被进一步描述在'690PCT的公开文献中。
在一个例子中,该传感器是运动传感器,而且可以包括一个或多个加速计,其测量绝对加速度或相对于自由落体的加速度。例如,每个轴线一个单轴加速计可以被使用,需要三个这样的加速计用于三轴感测。该运动传感器可以是单个或多轴传感器,检测加速度的大小和方向作为矢量,并因而可以被用于感测方位、加速度、振动、冲击以及跌落。运动传感器输出可以是模拟或数字信号,代表所测量的值。运动传感器可以基于压电式加速度计,其利用某些材料的压电效应测量机械变量(例如加速度、振动、和机械冲击)的动态改变。压电式加速度计通常依靠压电陶瓷(例如锆钛酸铅)或单晶体(例如石英、电石)。压电石英加速计被公开在如下文献中:授予Zhang等人的名称为“Piezoelectric QuartzAccelerometer”的美国专利7,716,985、授予Offenberg的名称为“Accelerometer Sensorof Crystalline Material and Method for Manufacturing the Same”的美国专利5,578,755、以及授予Le Traon等人的名称为“Monolithic Accelerometric Transducer”的美国专利5,962,786,都好像在文中完全描述了一样为任何目的整体并入。替换地或此外,运动传感器可以基于微机电系统(MEMS,a.k.a.微机电系统)技术。基于MEMS的运动传感器被公开在如下文献中:授予Axelrod等人的名称为“Accelerometer”的美国专利7,617,729、授予McNie等人的名称为“Micro-Machining”的美国专利6,670,212以及授予Mehregany的名称为“Three-axis Accelerometers and Fabrication Methods”的美国专利7,892,876,都好像在文中完全描述了一样为任何目的整体并入。MEMS运动传感器的一个例子是由STMicroelectronics NV制造的LIS302DL并且被描述在2008年10月第4版的数据手册LIS302DL STMicroelectronics NV,'MEMS motion sensor 3-axis-±2g/±8g smartdigital output"piccolo"accelerometer'中,该文献好像在文中完全描述了一样为任何目的整体并入。
替换地或此外,该运动传感器可以基于电倾斜和振动开关或任何其他电动机械开关,比如在如下文献中描述的传感器:授予Whitmore等人的名称为“Omnidirectional Tiltand vibration sensor”的美国专利7,326,866,好像在文中完全描述了一样为任何目的整体并入。电动机械开关的一个例子是可以从美国新罕布什尔州莱巴嫩的SignalQuest公司得到的SQ-EN-200,在2009-08-03更新的数据手册‘DATASHEET SQ-SEN-200Omnidirectional Tilt and Vibration Sensor’中描述,好像在文中完全描述了一样为任何目的整体并入。同样可以使用其他类型的运动传感器,比如基于压电、压阻、和电容元件的装置,以将机械运动转换成电信号。使用加速计控制被公开在授予Sato等人的名称为“Accelerometer-Based Controller”的美国专利7,774,155中,好像在文中完全描述了一样为任何目的整体并入。
从传感器输出的代表物理现象的数值,或基于传感器的输出,可以用于估计加权系数Θ。例如,会对图像产生很大影响的测量值比如使图象质量(比如运动)恶化或影响图像特征的测量值,可以与较低数值的加权系数Θ相关联,以减少对受物理现象影响的帧的作用。例如,在没有运动被检测的情况下,合理的是假定Θ=1,而感应到高度加速或速度(比如上述的预设阈值)会导致Θ=0。基于如上所述的传感器输出而计算的加权系数Θ在文中计为Θ(传感器)。
虽然上面对于表示与各个图像相关联的质量指标的QI值举了例子,文中的方法可以同样地适用于施加到图像上的任何数值。例如,在'690PCT公开文献中描述的任何QI或其他数值同样可以被用在此。通常,图象处理算法用于将数值关联到图像,在文中定义为QI,包括数值不与任何质量测量相关联的情况。例如,图象处理算法可以与所拍摄的图像的特性或特征相关联。在一个如上所述的例子中,图象处理算法是对象检测算法,比如脸部检测算法,而且与图像相关联的数值是在所拍摄的图像中真正找到该图像的概率。在这样的情况下,如果在图像中对象被检测到,则对象检测方案可以返回例如数值100%,或者在该算法无法检测到对象的情况下返回0%。在另一个例子中,该数值可以用于估计图像清晰度、噪声、动态范围、色调再现、对比度、颜色准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。在另一个例子中,该数值是指对象在图像中的位置。
一般情况下,MFQI(i)可以基于根据各个帧的年龄加权的数值(比如QI值)而被计算或估计,而且这些加权因子可以进一步根据加权系数Θ而被更新,加权系数Θ可以基于对QI[Θ(分布)]的大量不同的值进行的分析,基于在检测到趋势的情况下的曲线拟合[Θ(曲线-拟合)],基于传感器输出[Θ(传感器)],或者它们任意结合的函数,通常表示为Θ=f[Θ(分布),Θ(曲线-拟合),Θ(传感器)]=f[Θ(分布),Θ(拟合)]。在一个例子中,这些加权因子或加权系数Θ基于或根据如'690PCT公开文献中所述的可信水平。
用于多帧分析的总体流程图100在图10中示出。数码摄像机101(可以与摄像机30一致)拍摄N个图像,被计为image(1)109a、image(2)109b、image(3)109c、以及image(N)109N,是数字文件格式。每个image(i)(i=1到N)被使用图像处理来处理作为"图象处理1"的步骤102e的一部分,优选的是在它拍摄之后直接实时处理,确定与各个所拍摄的图像的特性或特征对应的值。由此得到的Value(i)(比如各个QI值)与每个image(i)相关联,以使Value(1)108a对应于image(1)109a,Value(2)108b对应于image(2)109b,Value(3)108c对应于image(3)109c,以及Value(N)108N对应于image(N)109N。这些值被存储在内存中(可以与主内存125a一致),还存储与所指定的年龄有关的加权因子Wi,作为"内存(w(i),QI(i))"的步骤103的一部分。用于提供以所拍摄的所有图像为基础的数值比如MFQI值的多帧分析作为“多帧分析”的步骤104a的一部分被执行,而且计算出的数值可以用作"采取行动"的步骤105中采取行动的基础,其可以对应于"采取行动"的步骤89。在流程图100中所描述的分析可以被离线执行在远程位置,比如由远程服务器在因特网上提供的服务。优选地,在流程图100中所描述的分析可以本地执行,比如与数码摄像机搭配,或与数码摄像机集成在一起,而且可以实时执行,比如在连拍模式中接下来的帧被拍摄之前或者作为视频拍摄的一部分。在一个例子中,作为"采取行动"的步骤105的一部分,数字摄像机(比如数字摄像机30)的控制可以基于多估计的或计算的多帧的数值(比如MFQI)本身,或者基于所估计的MFQI值高于(或低于)预设阈值的事实。例如,一旦超过最大阈值或一旦降到低于最低阈值,由数码摄像机自动拍摄另外的图像。在另一个例子中,这些数码摄像机设置可以被控制,比如改变孔径大小(例如孔径直径)、曝光时间或指数、焦距、曝光指数、或者它们的任意组合。例如,曝光指数和曝光时间可以被控制以响应所测量或所估计的清晰度或其他特征,以改进所拍摄的图像的清晰度。替换地或此外,该数值可以用作一个条件,其用于保存捕获的图像对一个存储器,以便在最低门限上方的与一个MFQI值有关的仅仅捕获的图像被保存,而同时在最低门限下面的与一个MFQI值有关的捕获的图像被放弃。"复帧分析"步骤104a可以基于,或使用,每一值根据加权因数Wi被加重量的地方的一次加权平均数,例如加权算平均数,加权几何平均值,或加权调和平均。替换地或此外,该数值可以用作将所拍摄的图像存储到内存的条件,以便只有与高于最小阈值的MFQI值相关联的所拍摄的图像被保存,而与低于最小阈值的MFQI值相关联的所拍摄的图像被丢弃。“多帧分析”的步骤104a可以基于或使用加权平均数,每个数值都根据加权因子Wi而被加权,比如加权算术平均数、加权几何平均数、或加权调和平均数。
在"系数估计[w'(i)←w(i)*0]"的步骤104c中,一个或多个加权因子wi(比如最后拍摄的帧N的加权量wN)被修改为wi*Θ,而且在最后的帧的情况下,步骤104a中的多帧分析正在使用wN*Θ而不是原始的、仅仅基于年龄的wN。加权系数Θ可以基于数值QI(i)(一般是Value(i))的曲线拟合在"曲线/分布拟合"的步骤104b中被计算,如上所述而且被计为G(曲线-拟合)。替换地或此外,加权系数Θ可以基于数值QI(i)(一般为Value(i))的分布在"曲线/分布拟合"的步骤104b中被计算,如上所述而且被计为Θ(分布),或者可以基于这两者,如上所述而且被计为G(拟合)。
替换地或此外,加权系数Θ可以基于响应于数码摄像机101的环境的传感器,优选的是在各个图像被数码摄像机101拍摄的时刻被感测。例如,传感器可以是"运动传感器"107(可以是加速计),与数字摄像机101一起被机械地容纳在壳体中、附着到数字摄像机101上、或机械耦合到数字摄像机101上如虚线106所示。加权系数Θ可以在"运动系数估计"的步骤104d中被计算并且在"曲线/分布拟合"的步骤104b中被使用,如上所述而且被计为Θ(传感器)。
作为处理的一部分许多图象处理算法输出两个或多个数值。例如,对象检测算法可以提供对象在图像中的位置,以及对象真正被检测到的概率。在这样的情况下,这些数值之一,例如感兴趣的主要特性,可以(作为QI值)被用于"多帧分析"的步骤104a中的多帧计算(比如MFQI)。同时,从图象处理获得的其它数值,可以用于计算加权系数Θ,在流程图100中示出被计为Θ(图像1)。在提供检测概率和所检测的对象在图像中的位置的对象检测算法的例子中,可以将光流计算为MFQI,检测的可信度/概率可以用于根据总的多帧分析相应地调节每个图像的贡献。
在另一个例子,所拍摄的图像image(1)109a、image(2)109b、...image(N)109N正在被另一个图象处理算法处理,该图像处理算法与用于计算数值108a至108N的图像处理不同,而且这样的方案被"图象处理2"的步骤102b描述。从这个另外的图象处理获得的数值可以用于计算加权系数Θ,计为Θ(图像2)。因此,一般情况下,加权系数Θ可以是所有举例因子的函数,归一化为:Θ=f[Θ(拟合),Θ(图像1),Θ(图像2),Θ(传感器)],而且作为"系数估计[w'(i)←w(i)*Θ]"的步骤104c的一部分被计算。在一个例子中,通过乘上所有的产生影响的因子,总的加权系数Θ可以被计算,即被计算为:Θ=Θ(拟合)*Θ(图像1)*Θ(图像2)*Θ(传感器)。
在上面的"采取行动"的步骤66中,动作被执行以响应角的估计值,在"采取行动"的步骤89中动作被执行以响应所估计的QI的估计值,而且在"采取行动"的步骤105中动作被执行以响应所估计的MFQI的估计值。响应该估计值(角QI、或MFQI)所采取的行动可以包括控制、激活、或启动影响物理现象的致动器,而且致动器和它的控制可以是如Binder等人的名称为“System and Method for Server Based Control”公开号为2013/0201316的美国专利申请中所描述,好像在文中完全描述了一样为任何目的整体并入。
所采取的行动可以包括指示器的激活,可以包括一个或多个发送视觉或声音信号的部件,或向人指示状态的任何其他装置。指示器可以包括发送视觉信号的装置。例如,当估计值(角QI、或MFQI)超过最小或最大阈值时指示器可以被激活。替换地或此外,这些指示器参数可以基于估计值来控制。在一个例子中,该装置发出可见光,比如光发射二极管(LED),或使用液晶显示器(LCD),液晶显示器(LCD)使用在所施加的电场中反射率的改变。LED可以是多色LED,比如可以从美国NJ的RSR电子设备公司获得的部件号为08L5015RGBC的LED,在数据手册Multi Color LED Part No.08L5015RGBC中描述,该文献好像在文中完全描述了一样为任何目的整体并入。不过,任何类型的电的可见光发光体比如手电筒、白炽灯、以及小型荧光灯可以被使用。可以使用多个发光器,照明可以是稳定的、闪烁或闪光。进一步地,单状态视觉指示器可以用于提供多指示,比如通过使用(同一视觉指示器的)不同颜色、不同的灰度水平、占空比可变的波形等等。进一步地,发送视觉信号可以与装置10的功能、主题或形状相关联。这样的概念上的关系可以包括,例如受估计值影响的发光体的亮度、外表、位置、类型、颜色和稳定性。在一个例子中,指示器的操作基于数字的数字显示,以其取得的任何数值的估计值的数字形式提供读数。例如,指示器可以使用可从Lite-On Electronics公司得到的部件号为LTC-3610G的四倍数字的、七个段的、LED显示器,而且在2011年3月下载的Lite-On Electronics公司出版物BNS-OD-C131/A4中在描述,该文献好像在文中完全描述了一样为任何目的整体并入。类似地,指示器可以基于字母数字的数字显示,其提供字符形式的读数,包括数字、字母或符号。例如,该指示器可以使用可从Lite-On Electronics公司获得的部件号为LTM-8647AC的四倍数字的、七个段的、LED显示器,而且在2011年3月下载的Lite-On Electronics公司出版物BNS-OD-C131/A4中描述,该文献好像在文中完全描述了一样为任何目的整体并入。
本发明可以类似地用于以各种方式和格式显示单词消息,比如滚动、静态、粗体和闪光。该装置可以进一步显示单词和字符之外的可视显示材料,比如箭头、符号、ASCII码和非ASCII码字符、静止图像比如图片和视频。该指示器可以使用任何电子显示器或用于表示可视信息的任何其他输出装置。该显示可以是数字或模拟视频显示,而且可以使用的技术诸如LCD(液晶显示器)、TFT(薄膜晶体管)、FED(场致发射显示器)、CRT(阴极射线管)或任何其他可视地显示信息比如图形或文本的电子屏幕技术。在许多情况下,需要适配器(未示出)将模拟显示器连接到数字数据。例如,适配器可以转换成复合视频(PAL、NTSC)或S-视频或HDTV信号。模拟显示器通常使用接口,比如复合视频,比如NTSC、PAL或SECAM格式。类似地,模拟RGB、VGA(视频图形阵列)、SVGA(超级视频图像阵列)、SCART、S-视频和其他标准模拟接口可以被使用。进一步地,个人计算机监视器、等离子或平板显示、CRT、DLP显示或投影电视机可以同样地被使用。标准数字接口比如IEEE1394接口,也称为Fire WireTM,可以被使用。可被使用的其他数字接口是USB、SDI(串行数字接口)、火线(Fire Wire)、HDMI(高清晰多媒体接口)、DVI(数字的视频接口)、UDI(统一显示接口)、显示端口(DisplayPort)、数字分量视频和DVB(数字视频广播)。
在一个例子中,指示器有声音或音乐产生。估计值可以与音乐的曲调(或音调)或任何其他单个声音相关联,一旦激活指示器其就被播放。指示器可以包括发送声音信号的装置(发声器),其发出听得见的声音,其可被人听见(具有在20-20,000Hz波段中的频率分量)。在一个例子中,装置是蜂音器(或蜂鸣器)、谐音发声器、口哨发生器或振铃器。蜂音器在本领域中已知并是基于机电或陶瓷的压电发声器,制造高音高噪声。发声器可以发出单或多音调,而且可以连续或间歇运行。在另一个例子中,发声器模仿人类的声音或产生音乐,通常通过使用具有用于存储这些声音(例如点击、锣、音乐、歌曲、语音消息等等)的存储器、重建声音的电表示的数模转换器、以及驱动扬声器的驱动的电路,扬声器是将电信号转换成声音的电声转换器。提供音乐和机械运动的贺卡的例子被公开在Segan的名称为“UserInteractive Greeting Card”公开号为2007/0256337的美国专利申请中,该文献好像在文中完全描述了一样为任何目的整体并入。‘锣’的声音可以使用来自西门子的SAE800而生成,该装置在数据手册“Programmable Single-/Dual-/Triple-Tone Gong,SAE 800,Siemens semiconductor Group,02.05”中描述,该文献好像在文中完全描述了一样为任何目的整体并入。
在一个例子中,人的语音谈话声被指示器播放。声音可以是音节、单词、短语、句子、短篇故事或长的故事,而且可以基于语音合成或事先录下来的。男或女的语音可以被使用,年轻或老的。声音的文本优选地与形状或主题相关联。例如,系统的估计值或与所取得的值相关联的质量值可以被听见,比如‘好’、‘不在区域中’和‘质量差’。
音调、声音、旋律或歌曲发声器通常包含存储预先录制或合成语音或音乐的数字表示的内存、用于创建模拟信号的数字-模拟(D/A)转换器、扬声器和用于馈送该扬声器的驱动器。包括发声器的指示器,可以基于可以从总部设在台湾新竹的Holtek半导体公司获得的名称为‘36Melody Music Generator’的Holtek HT3834CMOS VLSI集成电路(IC),而且与应用电路一起被描述在数据手册第1.00版2006年11月2日中,该文献好像在文中完全描述了一样为任何目的整体并入。类似地,发声器可以基于来自位于日本东京的Seiko-Epson公司电子器件市场部的EPSON 7910系列'Multi-Melody IC,而且与应用电路一起被描述在1998年的数据手册PF226-04中,该文献好像在文中完全描述了一样为任何目的整体并入。一般的音频控制器可以基于在1997年8月1日出版的数据手册912-3000-035修订2.1中描述的OPTi82C931‘Plug and Play Integrated Audio Controller’的‘Natural Speech&Complex Sound Synthesize’,该文献好像在文中完全描述了一样为任何目的整体并入。类似地,音乐合成器可以基于可从雅马哈公司得到的在YMF721Catalog No.LSI-4MF721A20YMF721中描述的OPL4-ML2FM+Wavetable Synthesizer LSI,该文献好像在文中完全描述了一样为任何目的整体并入。
包括声音信号比如音乐生成的装置的一些例子被公开在如下文献中:授予Schwartzberg的名称为“Game Apparatus Utilizing Controllable Audio Signals”的美国专利4,496,149、授予Breedlove等人的名称为“Electronic Learning Aid or Gamehaving Synthesized Speech”的美国专利7,414,186、授予Scarpa等人的名称为“Systemand Method for Teaching Musical Notes”的美国专利7,414,186、授予Lee等人的名称为“Electronic Instructional Apparatus”的美国专利4,968,255、授予Bunger等人的名称为“Electronic Piano”的美国专利4,248,123、以及授予Milner的名称为“Musical PuzzleUsing Sliding Tiles”的美国专利4,796,891,具有用于合成人声的装置的玩具被公开在授予Rose的题为“Talking Doll Responsive to External Signal”的美国专利4,840,602中,这些文献都好像在文中完全描述了一样为任何目的整体并入。
在一个例子中,作为对(角QI、或MFQI)估计值的响应采取行动可以作为所拍摄的图像的一部分或作为将要拍摄的图像的一部分被用户看见。例如,网格可以在图像被拍摄之后实时或离线地覆盖显示屏上预览的图像。网格可以具有“圆点网格”图样,通常由充满的或未充满的圆形阵列组成,这些圆形通常同样大小和相对于它们的直径来说较为紧密地间隔。网格图样,比如圆点网格图样,可以进一步向观看者提供信息,通过变化的透明度、变化的圆半径(或任何其他重复性元素)。网格元素比如圆点网格中的圆可以是透明的(或不透明的)而非网格区域(比如不是圆点网格中的圆)可以是成块的或不透明的,或者替换地,网格元素可以是不透明的而图像的其余部分是透明的(或不透明的)。图像的例子如图12中视图‘a’所示,类似‘国际跳棋’的圆点网格(大约50%透明度)被示出为视图‘b’,而不透明的圆点网格被示出为视图‘c’。
文中所述这些方法中任一方法的任何部分或整体可以作为部分来提供或用作应用程序接口(API),定义为中介软件,作为使应用软件和应用平台之间得以互相作用和数据共享的接口,以横跨该接口的少数或所有的服务被提供而且通常被用于曝光或使用特定的软件功能,而同时保护应用的其余部分。API可以基于或根据可移植性操作系统接口(POSIX)标准,与命令行shell一起定义API和兼容Unix的变异体以及其他操作系统的软件的实用程序接口,其他操作系统比如POSIX.1-2008,其同时也是EEE STD.1003.1TM-2008题为"Standard for Information Technology-Portable Operating System Interface(POSIX(R))Description",和开放组技术标准基础说明书,第7期,IEEE STD.1003.1TM,2013版.
文中所述这些方法中任一方法的任何部分或整体可以由处理器实施,比如处理器127,或者通过作为装置的一部分和该数码摄像机集成在一起的处理器比如处理器33实施,而且可以进一步与各种不同的装置和系统结合使用,例如装置可以是个人计算机(PC)、台式计算机、移动电脑、膝上电脑、笔记本电脑、平板电脑、服务器、手持式电脑、手持式设备、个人数字助理(PDA)装置、手机、手持式PDA装置、板上装置、外接装置、混合装置、混合器件、车载装置、非车载的装置、移动或便携设备、或非移动或非便携设备。
文中的任何装置可以作为在客户/服务器架构的意义中的客户装置,通常启动对接收服务、功能性、和其他装置(服务器或客户)的资源的请求。这些装置的每一个可以进一步使用、存储、整合、或操作面向客户(或终点专用)操作系统,例如Microsoft(包括其演变:可以从总部设在美国华盛顿州的雷德蒙德的微软公司获得的Windows 7、Windows XP、Windows8,和Windows 8.1,)、Linux、以及可以从总部设在美国加利福尼亚州的山景城的谷歌公司获得的Google Chrome OS。进一步地,这些装置的每一个可以进一步使用、存储、整合、或操作移动操作系统比如安卓(可以从谷歌公司获得,而且包括其演变比如2.2版本(Froyo)、2.3版本(Gingerbread)、4.0版本(Ice Cream Sandwich)、4.2版本(Jelly Bean)、以及4.4版本(KitKat))、iOS(可以从苹果公司获得,而且包括其演变比如版本3-7)、Phone(可以从微软公司获得,而且包括其演变比如版本7、版本8、或版本9)、或者操作系统(可以从总部设在加拿大安大略省滑铁卢的黑莓公司获得)。替换地或此外,装置的每一个虽然在文中没有被表示为服务器,可以同样地作为在客户/服务器架构的意义中的服务器。文中这些服务器中任何一个在此可以是使用超文本传送协议(HTTP)的网络服务器,其经由因特网响应HTTP请求,而且文中任何请求可以是HTTP请求。
网页浏览器的例子包括微软Internet Explorer(可以从总部设在美国华盛顿州的雷德蒙德的微软公司获得),Google Chrome是免费软件网页浏览器(由总部设在美国加利福尼亚州的山景城Googleplex的谷歌开发)、OperaTM(由总部设在挪威奥斯陆的OperaSoftware ASA开发)、和Mozilla(由总部设在美国加利福尼亚州的山景城的Mozilla公司开发)。网页浏览器可以是移动浏览器,例如Safari(由总部设在美国加利福尼亚州库比蒂诺的苹果校园的苹果股份有限公司开发)、Opera MiniTM(由总部设在挪威奥斯陆的Opera Software ASA开发)、以及安卓网页浏览器。
文中的任何装置可以与部分或整个器具整合在一起。家用电器主功能可以与食品贮、处理、或制备相关联,例如微波炉、电动搅拌机、炉子、烤炉、或用于加热食物的电磁灶有关,或者家用电器可以是冰箱、冷冻库、食品加工机、洗碗机、食物搅合器、饮料制造机、煮咖啡器,或冰茶制作器。器具主要功能可以与环境控制相关联,而且器具可以包括或者作为其一部分的HVAC系统、空调或加热器。器具的主要功能可以与清洁相关联,例如洗衣机,用于清洗衣物的干衣机、或真空吸尘器。器具的主功能可以与水控制或水暖相关联。器具可以是电话答录机、电话机、家庭影院系统、HiFi系统、CD或DVD播放机、电炉、垃圾压缩机、烟雾报警器、电灯组件,或干燥器。器具可以是手持式计算设备或电池供电的便携式电子装置,例如笔记本或膝上电脑、媒体播放器、手机、个人数字助理(PDA)、图象处理装置、数码摄像机,或录像机。与器具整合在一起会涉及共享例如容纳在相同壳体中的元件,例如共享用于连接到电源的电源连接器,在此整合涉及共享同一连接器用于从同一电源供电。与器具整合在一起可以涉及共享同一电源、共享同一处理器、或安装到同一表面上。
文中所述的步骤可以是连续的而且按描述的顺序执行。例如,在一个步骤被执行以响应另一个步骤的情况下,或者一旦另一个步骤完成,这些步骤被一个接一个地执行。不过,在两个或更多个步骤没有被明显地描述成顺序执行的情况下,这些步骤可以按任何顺序执行或者可以同时执行。两个或更多个步骤可以被两个不同的网络部件执行,或在相同网络部件中执行,而且可以使用多处理或多任务并行执行。
有形的机器可读的介质(比如存储器)可以具有详细描述文中所述的方法和步骤一部分(或全部)的一组指令存储其上,以便当由一个或多个处理器执行时,可以导致一个或多个处理器执行文中所述方法和步骤的一部分或所有,其此处所述的。任何网络部件可以是计算装置,其包括处理器和计算机可读的存储器(或任何其他有形的机器可读的介质),而且计算机可读的存储器可以包括计算机可读的指令以便在由处理器读取时,这些指令导致处理器执行文中所述的方法或步骤中的一个或多个。
文中所述的布局和方法可以使用硬件、软件或两者的结合来实现。术语"软件集成"或对于文中两个程序或过程的整合的任何其他其他参考,被使用在此以包括但不限于(直接或通过另一组件)组合起来、一起工作或一起运行或形成整体的软件组件(例如程序、模块、功能、过程等等),通常用于共享共同目的或目标的组合。这样的软件集成可采取共享相同程序代码的形式,交换数据,由同一管理器程序管理,由同一处理器执行,在同一介质上存储,共享同一GUI或其他用户界面,共享外围硬件(例如监视器、打印机、键盘和存储器),共享数据或数据库,或成为单个封装的一部分。术语"硬件集成"或硬件部件的集成被使用在文中以包括但不限于(直接或通过另一部件)组合起来、一起工作或一起运行或形成整体的硬件部件,通常用于共享共同目的或目标的组合。这样的硬件集成可以采取共享相同电源(或电源)或共享其他资源的形式,交换数据或控制(例如通过通信),由同一管理器管理,物理上连接或附加的,共享外围硬件连接(例如监视器、打印机、键盘和存储器),成为单个封装的一部分或安装在单壳体中(或任何其他物理配置),共享通信端口,或者使用同一软件或硬件或用同一软件或硬件控制。文中的术语"集成"被使用在此以在适用的情况下包括但不限于软件集成、硬件集成、或它们的任何结合。
任何连网协议都可以用来在网络(例如因特网22)内网络部件(例如客户、和服务器)之间交换信息。例如,可以预见的是通信可以使用TCP/IP来完成。通常,HTTP和HTTPS作为消息转送信封被用在TCP/IP顶上。这两个协议能够比其他消息管理技术更好地处理防火墙技术。不过,如果需要更大的通信可靠性,伙伴可以选择使用消息排队系统而不是HTTP和HTTPS。消息系统排队系统的不起限制作用的例子是IBM的MQ系列或微软的消息队列中间件技术(MSMQ)。在下文描述的系统适合HTTP/HTTPS两者、消息排队系统、和其他通信传送协议技术。此外,取决于网络内各种不同伙伴的不同商务和技术要求,物理网络可以包括并利用多通信协议技术。
术语“端口”是指接入装置、电路或网络的地方,在此能量或信号可以被供应或被收回。联网设备的术语"接口"涉及物理接口、逻辑接口(例如物理接口的一部分或者有时在工业中称为子接口——例如,但是不限于与网络接口有关联的特有的VLAN)、和/或虚拟接口/界面(例如,基于一些特性聚集在一起的业务,例如,但是不限于隧道接口)。如文中所用的,术语"分立的"与两个(或更多个)元件、过程、或功能性有关,是指一个不影响也不妨碍另一个的情形。例如,分立的通信,例如在一对分立的数据路由装置上,一个数据路由上的通信不影响也不妨碍其它数据路由上的通信。
一些实施例可以与各种不同的装置、网络部件、和系统结合使用,例如,个人计算机(PC)、台式计算机、移动电脑、膝上电脑、笔记本电脑、平板电脑、服务器、手持式电脑、手持式设备、个人数字助理(PDA)装置、手机、手持式PDA装置、板上装置、外接装置、混合装置、车载装置、非车载装置、移动或便携设备、非移动或便携设备、无线通信站、无线通信装置、无线接入点(AP)、有线或无线路由器、有线或无线调制解调器、有线或无线网络、局域网(LAN)、无线局域网(WLAN)、城域网(MAN)、无线城域网(WMAN)、广域网络(WAN)、无线WAN(WWAN)、个人局域网(PAN)、无线PAN(WPAN)、装置和/或网络操作基本上根据现有的802.11、802.11a、802.11b、802.1lg、802.11k、802.11n、802.11r、802.16、802.16d、802.16e、802.20、802.21标准和/或未来的版本和/或以上所述标准的衍生产品、作为以上网络一部分的单元和/或装置,单向和/或双向无线电通信系统、蜂窝无线电话通信系统、手机、无线电话、个人通信系统(PCS)装置、包含无线通信装置的PDA装置、移动或便携式全球定位系统(GPS)装置、包含GPS接收机或收发机或芯片的装置、包含RFID的元件或芯片、多输入多输出(MIMO)收发机或装置、单输入多输出(SIMO)收发机或装置、多输入单输出(MISO)收发机或装置、具有一个或多个内部天线和/或外部天线的装置、数字视频广播(DVB)装置或系统、多标准的无线电装置或系统、有线或无线手持装置(例如BlackBerry,PalmTreo)、无线应用协议(WAP)装置、等等。
如文中所用的,术语"程序"、"可编程的"、和"计算机程序"意在包括实现功能的任何序列或者人或机器可识别的步骤。这样的程序不是固有地与任何具体的计算机或其他设备有关,可以在几乎任何编程语言或环境中被提出,包括例如C/C++、Fortran、COBOL、PASCAL、汇编语言、标记语言(例如HTML、SGML、XML、VoXML)等等,以及面向对象的环境,例如公共对象请求代理体系结构(CORBA),JavaTM(包括J2ME、Java Beans等等)等等,以及在固件或其他实施中。通常,程序模块包括例行例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。术语"应用程序"(也称为‘应用’、‘软件应用’、或‘应用软件’)被使用文中,包括但不限于计算机程序,其被设计为直接为用户或为另一个应用程序执行特定的功能。应用软件通常是一个或多个程序构成的一组,被设计为为特定的应用执行操作。通常,应用软件取决于管理并整合计算机能力但是不直接执行益于用户的任务的系统软件,例如要执行的操作系统。应用软件的类型的例子可以包括会计软件、媒体播放器、和办公用套装软件。应用可以与计算机和它的系统软件捆绑,或者可以分别地被发表,而且进一步地可以被作为私有的被开发并编码,或作为开放源代码、软件。大多数应用被设计用于帮助人们完成活动。
术语“任务”和“过程”是在文中被一般化使用以描述任何类型的运行程序,包括但不限于计算机进程、任务、线程,执行应用程序、操作系统、用户进程、设备驱动程序、本机代码、机器或其他语言等,并可以是交互和/或非交互式的、本地和/或远程执行、在前景和/或背景中执行、在用户和/或操作系统的地址空间中执行、函数库和/或独立应用的例程,而且不限于任何特定的内存分配技术。各图中图示说明的信号和信息的步骤、连接和处理包括但不限于任何框图和流程图和消息序列图,通常可以以相同或不同的串行或并行顺序执行和/或由不同的组件和/或进程、线程等执行,和/或在不同的连接上并与其他实施例中的其他功能结合,除非这使实施例无法使用或者明确或隐含地要求的顺序(例如读取数值、处理数值的顺序-数值必须在处理之前获得,虽然一些相关的处理可以在读取操作之前、同时、和/或之后进行)在某些进程步骤被以特定地顺序描述或者在字母和/或数字标记是用来识别某些步骤的地方,实施方案不限于执行这些步骤的任何特定顺序。特别是,标记只是为了步骤方便识别,意图不在于暗示、指定或要求执行这些步骤的特定顺序。此外,其他的实施例可以使用比文中所论述的步骤更多或更少的步骤。它们也可以在分布式计算环境中进行,其中的任务是由通过通信网络链接的远程处理设备执行的。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
在下面的权利要求书中所有装置加功能元件的相应的结构、材料、以及行为等等意图在于包括任何结构、或材料,用于与其他请求保护的元件相结合来执行,如同特别地要求一样。本发明的描述为了说明和描述起见被提供,但是意图不在于将本发明具体到或限制于所公开的形式。本发明不应当被认为是局限于如上所述的特定的实施例,而应当被理解为覆盖在所附的权利要求书中在相当程度上陈述的本发明的各个方面。本发明可以适用的各种不同的修改、等价的过程、以及众多结构,本发明所指向的本技术领域的技术人员一旦看了本公开内容是容易想到的。
在这个说明书中所引用的所有的公开文献、标准、专利、和专利申请通过参考并入文中,就像各个公开文献、专利、或专利申请被具体地和个别地指示通过参考整体并入文中一样。

Claims (210)

1.一种通过估计人的视线方向和数码摄像机的视线之间的角偏差来控制第一摄像机的方法,和包括具有第一中心视线的第一数码摄像机和具有与第一中心视线平行且对立的第二中心视线的第二数码摄像机的装置一起使用,该方法包括步骤:
由第二数码摄像机拍摄图像到图像文件;
通过使用脸部检测算法检测图像中的人脸;
基于所拍摄的图像估计第二中心视线和从第二摄像机到所检测的人脸的假想线之间的角偏差a;
基于所拍摄的图像估计从第二摄像机到所检测的人脸的假想线和人脸视线方向之间的角偏差β;
基于所估计的角偏差a和所估计的角偏差β来估计第一中心视线和人脸视线方向之间的角偏差
作为对角偏差的估计值的响应启动、控制、停止或禁止行为。
2.根据权利要求1所述的方法,其中估计角偏差a的步骤包括估计第二水平中心视线和水平检测的人脸之间的角偏差;而且其中估计角偏差β的步骤包括估计到所检测的脸的水平视线和水平的人脸视线方向之间的水平角偏差。
3.根据权利要求1所述的方法,其中估计角偏差a的步骤包括估计第二竖直中心视线和水平检测的人脸之间的竖直角偏差;而且其中估计角偏差β的步骤包括估计到所检测的人脸的竖直视线和竖直人脸视线方向之间的竖直角偏差。
4.一种非短暂的有形的计算机可读的存储介质,包括执行权利要求1的方法中各个步骤的代码。
5.一种装置,容纳在单壳体中而且在该单壳体中包括第一和第二数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器被内存配置成执行包括权利要求1的方法的动作。
6.根据权利要求5所述的装置,其中单壳体是便携或手持的壳体而且 该装置是电池供电的。
7.根据权利要求5所述的装置,其中该装置是笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
8.根据权利要求1所述的方法,其中角偏差α被估计为设置值。
9.根据权利要求8所述的方法,其中设置值是30°、45°、或60°。
10.根据权利要求1所述的方法,其中角偏差α是基于所拍摄的图像中所检测的脸部的位置来估计。
11.根据权利要求10所述的方法,其中角偏差α基于所检测的脸部位置距离图像中心的偏差。
12.根据权利要求11所述的方法,其中角偏差α基于等式α=γ*(DEV/HD)来计算,其中DEV是所检测的脸部位置距离图像中心的水平偏差,HD是所拍摄的图像的总的水平距离,而且γ是第二摄像机的水平角视场。
13.根据权利要求11所述的方法,其中角偏差a基于等式α=γ*(DEV/HD)来计算,其中DEV是所检测的脸部位置距离图像中心的竖直偏差,HD是所拍摄的图像的总的竖直距离,而且γ是第二摄像机的竖直角视场。
14.根据权利要求1所述的方法,其中估计角偏差β是基于将人的视线方向估计算法施加到所拍摄的图像上。
15.根据权利要求14所述的方法,其中人的视线方向估计算法是基于或使用眼睛检测或眼睛跟踪。
16.根据权利要求14所述的方法,其中人的视线方向估计算法是基于或使用头姿势检测。
17.根据权利要求16所述的方法,其中人的视线方向估计算法进一步基于或使用眼睛检测或眼睛跟踪。
18.根据权利要求14所述的方法,其中人的视线方向估计算法进一步基于或使用脸部特征点检测。
19.根据权利要求14所述的方法,其中人的视线方向估计算法进一步基于或使用一个或多个人脸器官的检测。
20.根据权利要求19所述的方法,其中人脸器官包括鼻子、右鼻孔、左鼻孔、右脸颊、左脸颊、右眼睛、左眼睛、右耳朵、或左耳朵。
21.根据权利要求19所述的方法,其中角偏差β是基于所检测的人脸器官而被估计。
22.根据权利要求21所述的方法,其中作为对检测到右耳朵和左耳朵两只耳朵的响应,角偏差β被估计为0°。
23.根据权利要求21所述的方法,其中作为对检测到右耳朵、左眼睛、以及右眼睛但是没检测到左耳朵的响应,角偏差β被估计为30°。
24.根据权利要求21所述的方法,其中作为对只检测到右耳朵和右眼睛但是没检测到左耳朵和左眼睛的响应,角偏差β被估计为90°。
25.根据权利要求14所述的方法,其中该装置进一步包括具有与第一中心视线平行且对立的第三中心视线的第三数码摄像机,该方法包括:
由第三数码摄像机拍摄附加图像到附加图像文件;而且通过将所拍摄的图像与附加拍摄的图像结合起来形成所检测的人脸的3D表达;而且
其中估计角偏差β的步骤包括分析所形成的3D人脸表达。
26.根据权利要求1所述的方法,其中图像文件是根据、基于或包括可移植网络图形技术(PNG)、图形交换格式(GIF)、联合照相专家组(JPEG)、Windows位图(BMP)、可交换的图像文件格式(Exif)、标记图像文件格式(TIFF)、或原始图象格式(RIF)的一种格式。
27.根据权利要求1所述的方法,其中角偏差被计算为
28.根据权利要求1所述的方法,其中行为包括控制第一照相机。
29.根据权利要求28所述的方法,其中控制第一数码摄像机包括改变第一数码摄像机的设置。
30.根据权利要求28所述的方法,其中控制第一数码摄像机包括将第一数码摄像机所拍摄的图像保存在内存中。
31.根据权利要求1所述的方法,和最大阈值或最小阈值一起使用,而且其中该方法进一步包括将角偏差与最大或最小阈值分别作比较的步骤。
32.根据权利要求31所述的方法,进一步包括如果角偏差的值高于最大阈值或低于最小阈值则分别启动、停止、控制、或禁止该行动的步骤。
33.根据权利要求32所述的方法,进一步包括如果角偏差的值高于最大阈值或低于最小阈值持续一个时隙则分别启动、停止、控制、或禁止该行动的步骤。
34.根据权利要求33所述的方法,其中时隙是0.5、1、2、或3秒。
35.根据权利要求1所述的方法,其中该装置进一步包括提示器,该提示器包括发送视觉信号的部件,而且其中采取行动包括激活或控制视觉提示器。
36.根据权利要求35所述的方法,其中发送视觉信号的部件是发射可见光发射机。
37.根据权利要求36所述的方法,其中发射可见光发射机是半导体器件、白炽灯或荧光灯。
38.根据权利要求36所述的方法,其中发射可见光发射机适于稳定照明而且适于闪烁以响应所估计的角偏差的值。
39.根据权利要求36所述的方法,其中发射可见光发射机的照明水平是对所估计的角偏差的值的响应。
40.根据权利要求36所述的方法,其中可见光发射机的位置、类型、色彩、或稳定性是对所估计的角偏差的值的响应。
41.根据权利要求36所述的方法,其中可见光发射机是用于显示与所估计的角偏差的数值相对应的数值的数字或字母数字的显示器。
42.根据权利要求41所述的方法,其中可见光发射机基于基于LCD(液晶显示器)、TFT(薄膜晶体管)、FED(场致发射显示器)或CRT(阴极射线管)。
43.根据权利要求1所述的方法,其中该装置进一步包括声音提示器,该声音提示器包括用于发射声音的声音信号发送元件,而且其中采取行动包括激活或控制声音提示器。
44.根据权利要求43所述的方法,其中声音信号发送元件包括机电或压电的发声器。
45.根据权利要求44所述的方法,其中声音信号发送元件包括蜂鸣器、谐音发声器或振铃器。
46.根据权利要求43所述的方法,其中声音信号发送元件包括扬声器而且该装置进一步包括耦合到该扬声器上的数字至模拟转换器。
47.根据权利要求43所述的方法,其中声音信号发送元件用来生成单或多音调。
48.根据权利要求43所述的方法,其中从声音信号发送元件发出的声音是对所估计的角偏差的值的响应。
49.根据权利要求48所述的方法,其中从声音信号发送元件发出的声音的音量、类型、稳定性、音高、节奏、动态、音色、或纹理是对所估计出的角偏差的值的响应。
50.根据权利要求43所述的方法,其中从声音信号发送元件发出的声音是人的语音谈话声。
51.根据权利要求50所述的方法,其中该声音是音节、单词、短语、句子、短故事或长故事以响应所估计出的角偏差的值。
52.一种通过估计人的视线方向和数码摄像机的视线之间的角偏差来控制第一摄像机的装置,该装置包括:
具有第一中心视线的第一数码摄像机;
具有与第一中心视线平行且对立的第二中心视线的第二数码摄像机;
用于存储计算机可执行的指令并存储图像文件的内存;
用于执行指令的处理器,该处理器耦合到内存并耦合到第一和第二数码摄像机上,而且被内存配置成通过使用脸部检测算法检测图像中的人脸并且基于所估计的角偏差a和所估计的角偏差β来估计第一中心视线和人脸视线方向之间的角偏差
容纳第一和第二数码摄像机、内存、处理器、以及控制端口的单个便携式或手持式壳体;
其中角偏差a被限定在第二中心视线和从第二摄像机到所检测的人脸的 假想线之间,而且角偏差β被限定在从第二摄像机到所检测的脸部的假想线和人脸视线方向之间。
53.根据权利要求52所述的装置,其中角偏差a被限定在第二水平中心视线和从第二摄像机到所检测的人脸的水平假想线之间,而且角偏差β被限定在从第二摄像机到所检测的脸部的水平假想线和人脸水平视线方向之间。
54.根据权利要求52所述的装置,其中角偏差a被限定在第二竖直中心视线和从第二摄像机到所检测的人脸的竖直假想线之间,而且角偏差β被限定在从第二摄像机到所检测的脸部的竖直假想线和人脸竖直视线方向之间。
55.根据权利要求52所述的装置,其中该装置是笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
56.根据权利要求52所述的装置,其中角偏差a被处理器估计为设置值。
57.根据权利要求52所述的装置,其中设置值是30°、45°、或60°。
58.根据权利要求52所述的装置,其中角偏差a由处理器基于所拍摄的图像中所检测的脸部的位置来估计。
59.根据权利要求58所述的装置,其中角偏差a由处理器基于所检测的脸部的位置距离图像中心的偏差来估计。
60.根据权利要求59所述的装置,其中角偏差a由处理器基于等式α=γ*(DEV/HD)来计算,其中DEV是所检测的脸部位置距离图像中心的水平偏差,HD是所拍摄的图像的总的水平距离,而且γ是第二摄像机的水平角视场。
61.根据权利要求59所述的装置,其中角偏差a由处理器基于等式α=γ*(DEV/HD)来计算,其中DEV是所检测的脸部位置距离图像中心的竖直偏差,HD是所拍摄的图像的总的竖直距离,而且γ是第二摄像机的竖直角视场。
62.根据权利要求52所述的装置,其中角偏差β由处理器基于将人的 视线方向估计算法施加到所拍摄的图像上来估计。
63.根据权利要求62所述的装置,其中人的视线方向估计算法基于或使用眼睛检测或眼睛跟踪。
64.根据权利要求62所述的装置,其中人的视线方向估计算法基于或使用头姿势检测。
65.根据权利要求64所述的装置,其中人的视线方向估计算法进一步基于或使用眼睛检测或眼睛跟踪。
66.根据权利要求62所述的装置,其中人的视线方向估计算法进一步基于或使用脸部特征点检测。
67.根据权利要求62所述的装置,其中人的视线方向估计算法进一步基于或使用一个或多个人脸器官的检测。
68.根据权利要求67所述的装置,其中其中人脸器官包括鼻子、右鼻孔、左鼻孔、右脸颊、左脸颊、右眼睛、左眼睛、右耳朵、或左耳朵。
69.根据权利要求67所述的装置,其中角偏差β基于所检测的人脸器官来估计。
70.根据权利要求69所述的装置,其中作为对检测到右耳朵和左耳朵两只耳朵的响应,角偏差β被估计为0°。
71.根据权利要求69所述的装置,其中作为对检测到右耳朵、左眼睛、以及右眼睛但是没检测到左耳朵的响应,角偏差β被估计为30°。
72.根据权利要求69所述的装置,其中作为对只检测到右耳朵和右眼睛但是没检测到左耳朵和左眼睛的响应,角偏差β被估计为90°。
73.根据权利要求62所述装置,进一步包括耦合到处理器上的第三数码摄像机用于拍摄附加图像到附加图像文件,
第三数码摄像机具有与第一中心视线平行且对立的第三中心视线,而且其中估计角偏差β由处理器基于分析通过将所拍摄的图像和附加拍摄的图像结合起来而形成的3D人脸表达来进行。
74.根据权利要求52所述的装置,其中图像文件是根据、基于或包括 可移植网络图形技术(PNG)、图形交换格式(GIF)、联合照相专家组(JPEG)、Windows位图(BMP)、可交换的图像文件格式(Exif)、标记图像文件格式(TIFF)、或原始图象格式(RIF)的一种格式。
75.根据权利要求52所述的装置,其中角偏差被计算为
76.根据权利要求52所述的装置,其中控制端口被耦合以控制第一数码摄像机。
77.根据权利要求76所述的装置,其中控制端口被耦合以通过改变第一数码摄像机的设置来控制第一数码摄像机。
78.根据权利要求52所述的装置,与最大阈值和最小阈值一起使用,而且其中控制信号被产生作为对角偏差与最大阈值或最小阈值作比较的响应。
79.根据权利要求78所述的装置,其中控制信号被产生以响应角偏差 的值高于最大阈值或低于最小阈值。
80.根据权利要求52所述的装置,进一步包括视觉指示器,该视觉指示器包括耦合到控制端口上视觉信号发送部件用来激活或控制该视觉提示器。
81.根据权利要求80所述的装置,其中该视觉信号发送部件是可视光发射机。
82.根据权利要求81所述的装置,其中可视光发射机是半导体器件、白炽灯或荧光灯。
83.根据权利要求81所述的装置,其中可视光发射机适于作为对所估计的角偏差的值的响应稳定照明和闪烁。
84.根据权利要求81所述的装置,其中可见光发光器的照明水平是对所估计的角偏差的值的响应。
85.根据权利要求81所述的装置,其中可视光发射机的位置、类型、色彩、或稳定性是对所估计的角偏差的值的响应。
86.根据权利要求81所述的装置,其中可见光发射机是用于显示与所估计的角偏差的数值相对应的数值的数字或字母数字的显示器。
87.根据权利要求86所述的装置,其中可见光发射机基于LCD(液晶显示器)、TFT(薄膜晶体管)、FED(场致发射显示器)或CRT(阴极射线管)之一。
88.根据权利要求52所述的装置,进一步包括耦合到控制端口上的声音提示器,该控制端口用于激活或控制声音提示器,该声音提示器包括用于发射声音的声音信号发送元件。
89.根据权利要求88所述的装置,其中声音信号发送元件包括机电或压电的发声器。
90.根据权利要求89所述的装置,其中声音信号发送元件包括蜂鸣器、谐音发声器或振铃器。
91.根据权利要求88所述的装置,其中声音信号发送元件包括扬声器而且该装置进一步包括耦合到该扬声器上的数字至模拟转换器。
92.根据权利要求88所述的装置,其中声音信号发送元件用来生成单或多音调。
93.根据权利要求88所述的装置,其中从声音信号发送部件发出的声音是对所估计的角偏差的值的响应。
94.根据权利要求93所述的装置,其中从声音信号发送元件发出的声音的音量、类型、稳定性、音高、节奏、动态、音色、或纹理是对所估计出的角偏差的值的响应。
95.根据权利要求88所述的装置,其中从声音信号发送元件发出的声音是人的语音谈话声。
96.根据权利要求95所述的装置,其中该声音是音节、单词、短语、句子、短故事或长故事以响应所估计出的角偏差的值。
97.一种用于估计与表达图像的文件相关联的数值的方法,该方法包括步骤:
由数码相机拍摄图像;
以第一色彩模型获得图像;
通过使用图形识别算法来检测图像中的对象;
从图像中提取包括所检测的对象的区域;计算所提取的区域中两个通道之间的相关性;以及
基于所计算的相关性估计数值。
98.一种非短暂的有形的计算机可读的存储介质,包括执行权利要求97的方法中各个步骤的代码。
99.一种装置,容纳在单壳体中而且在该单壳体中包括数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器被内存配置成执行包括权利要求97的方法的动作。
100.根据权利要求99所述的装置,其中单壳体是便携式或手持式壳体而且该装置是电池供电的。
101.根据权利要求99所述的装置,其中该装置是笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
102.根据权利要求97所述的方法,其中第一色彩模型是根据或基于CIE色彩空间,而且其中第一色彩模型包括、根据或基于CIE 1931 RGB、CIE 1931 XYZ、CIELUV、或CIEUVW色彩模型。
103.根据权利要求102所述的方法,其中第一色彩模型是根据或基于RGB色彩空间。
104.根据权利要求103所述的方法,其中第一色彩模型包括、根据或基于RGB、sRGB、Adobe RGB、Adobe宽色域RGB、ProPhoto RGB色彩空间、苹果RGB、ISO RGB、ROMM RGB、国际电信联盟(ITU)无线电通信部分(ITUR)推荐ITU-R BT.709、和ITU-R BT.202。、
105.根据权利要求97所述的方法,其中第一色彩模型根据或基于亮度加色差(YUV)色彩空间。
106.根据权利要求105所述的方法,其中第一色彩模型包括、根据或基于YUV,YCbCr,Y'CbCr,YDbDr,YPbPr,xvYCC,YCgCo,或YIQ色彩模型。
107.根据权利要求97所述的方法,其中第一色彩模型根据或基于亮度加色相和饱和度色彩空间。
108.根据权利要求107所述的方法,其中第一色彩模型包括、根据或基于HSL(色相-饱和度-亮度)、HSV(色相-饱和度-纯度)、或HSI(色相-饱和度-灰度)色彩模型。
109.根据权利要求97所述的方法,其中对象是人体的一部分。
110.根据权利要求109所述的方法,其中对象是人脸的一部分或整体,而且图形识别算法是脸部检测算法。
111.根据权利要求97所述的方法,进一步包括将所提取的区域从第一色彩模型转换成第二色彩模型的步骤。
112.根据权利要求111所述的方法,其中第二色彩模型根据或基于亮度加色差(YUV)色彩空间。
113.根据权利要求112所述的方法,其中第二色彩模型包括、根据或基于YUV、YCbCr、Y'CbCr、YDbDr、YPbPr、xvYCC、YCgCo、或YIQ色彩模型。
114.根据权利要求97所述的方法,进一步包括在所提取的区域中检测非对象相关部分。
115.根据权利要求114所述的方法,进一步包括从所提取的区域去除非对象相关的部分的步骤。
116.根据权利要求114所述的方法,其中对象是人的器官。
117.根据权利要求116所述的方法,其中在所提取的区域中检测非对象相关的部分包括皮肤检测算法。
118.根据权利要求116所述的方法,其中对象是人脸的一部分或整体。
119.根据权利要求97所述的方法,其中第一色彩模型根据或基于亮度加色差(YUV)色彩空间,而且其中两个通道是亮度通道。
120.根据权利要求119所述的方法,其中第一色彩模型根据或基于YCbCr色彩模型,而且其中两个通道包括或基于Cb和Cr分量。
121.根据权利要求97所述的方法,进一步包括计算所提取的区域中两个通道中每一个的平均数值和标准偏差值的步骤。
122.根据权利要求121所述的方法,其中相关性基于将所提取的区域中两个通道中每一个的平均数值和标准偏差值作比较而进行计算。
123.根据权利要求121所述的方法,其中计算相关性包括计算相关系数。
124.根据权利要求123所述的方法,其中相关系数根据或基于皮尔逊积差相关系数。
125.根据权利要求123所述的方法,其中相关系数根据或基于秩相关系数。
126.根据权利要求125所述的方法,其中计算相关性包括计算根据或基于斯皮尔曼的秩相关系数或Kendall的秩相关系数。
127.根据权利要求123所述的方法,其中这些数值包括或基于所计算的相关系数。
128.根据权利要求97所述的方法,与最大阈值或最小阈值一起使用,而且其中该方法进一步包括将该数值与最大或最小阈值分别比较的步骤。
129.根据权利要求128所述的方法,进一步包括如果该数值高于最大阈值或低于最小阈值则启动、停止、控制或禁止行动。
130.根据权利要求129所述的方法,其中所采取的行动是由数码摄像机拍摄附加图像。
131.根据权利要求97所述的方法,进一步包括将该数值与文件相关联的步骤。
132.根据权利要求131所述的方法,其中该数值嵌入图像文件中。
133.根据权利要求132所述的方法,其中该数值嵌入元数据中。
134.根据权利要求97所述的方法,进一步包括通过发射机在数字网络上发射图像文件和数值的步骤。
135.根据权利要求134所述的方法,其中数字网络是无线网络,而且发射机是无线发射机。
136.根据权利要求135所述的方法,其中无线网络是是楼内或车载网 络,即无线个人局域网络(PAN),而且该无线发射机是WPAN收发机的一部分。
137.根据权利要求136所述的方法,其中WPAN根据或基于Bluetooth.TM.或IEEE802.15.1-2005标准,或者其中WPAN是根据或基于Zigbee.TM.、IEEE 802.15.4-2003、或Z-Wave.TM.的无线控制网络。
138.根据权利要求135所述的方法,其中无线网络是无线LAN(WLAN)而且无线发射机是WLAN收发机的一部分。
139.根据权利要求138所述的方法,其中WLAN根据或基于IEEE 802.11-2012、IEEE802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n、或IEEE 802.11ac。
140.根据权利要求135所述的方法,其中无线网络是蜂窝手机网络而且无线发射机是蜂窝电话网络无线收发机的一部分。
141.根据权利要求140所述的方法,其中蜂窝电话网络根据或基于使用UMTS W-CDMA、UMTS HSPA、UMTS TDD、CDMA2000 1xRTT、CDMA2000EV-DO、GSM EDGE-Evolution的第三代(3G)网络,或者其中蜂窝电话网络是第四代(4G)网络,第四代(4G)网络使用HSPA+、移动WiMAX、LTE、LTE-Advanced、MBWA,或者基于IEEE802.20-2008。
142.根据权利要求97所述的方法,其中图像文件是根据、基于或包括可移植网络图形技术(PNG)、图形交换格式(GIF)、联合照相专家组(JPEG)、Windows位图(BMP)、可交换的图像文件格式(Exif)、标记图像文件格式(TIFF)、exposure index或原始图象格式(RIF)的一种格式。
143.根据权利要求97所述的方法,其中该数值用于估计图像清晰度、噪声、动态范围、色调再现、对比度、颜色准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。
144.根据权利要求97所述的方法,进一步包括控制数码摄像机以响应该数值的步骤。
145.根据权利要求144所述的方法,其中控制数码摄像机包括改变数码摄像机的设置。
146.根据权利要求145所述的方法,其中设置是数码摄像机的孔径大小、曝光时间、焦距、或曝光指数。
147.一种将多图像数值与表达数码摄像机所拍摄的N多个图像的N多个文件相关联的方法,该方法包括步骤:
由数码摄像机顺序拍摄N多个图像由N多个图像文件表达,分别计为IMAGE(i),这里i=1至N;
使用图像处理算法处理N多个图像文件中的每一个,基于各个图像文件的图像处理结果给各个图像文件分配N个图像数值VALUE(i),这里i=1至N;
获得N个加权因子WEIGHT(i),这里i=1至N,这里对于所有的1≤i≤N-1,WEIGHT(i)≤WEIGHT(i+1);而且基于N个图像数值的加权平均数来计算多图像数值,每一个都与考虑的加权因子相关联。
148.一种非短暂的有形的计算机可读的存储介质,包括执行权利要求147的方法中各个步骤的代码。
149.一种装置,容纳在单壳体中而且在该单壳体中包括数码摄像机、用于存储计算机可执行的指令的内存、以及用于执行指令的处理器,处理器被内存配置成执行包括权利要求147的方法的动作。
150.根据权利要求149所述的装置,其中单壳体是便携式或手持式壳体而且该装置是电池供电的。
151.根据权利要求149所述的装置,其中该装置是笔记本、膝上电脑、媒体播放器、手机、个人数字助理(PDA)、或图象处理装置。
152.根据权利要求147所述的方法,其中对于所有的1≤i≤N-1,WEIGHT(i)<WEIGHT(i+1)。
153.根据权利要求147所述的方法,其中N等于2、3、4、5或10。
154.根据权利要求147所述的方法,其中N>10。
155.根据权利要求147所述的方法,其中N多个图像被在小于1秒、0.5秒、0.3秒、0.2秒、或0.1秒的时间拍摄。
156.根据权利要求147所述的方法,其中图像文件是根据、基于或包括可移植网络图形技术(PNG)、图形交换格式(GIF)、联合照相专家组(JPEG)、Windows位图(BMP)、可交换的图像文件格式(Exif)、标记图像文件格式(TIFF)、或原始图象格式(RIF)的一种格式。
157.根据权利要求147所述的方法,其中多图像数值被使用加权算术平均数来计算,由此多图像数值等于或基于表达式:
158.根据权利要求147所述的方法,其中多图像数值被使用加权几何平均数来计算,由此多图像数值等于或基于表达式:
159.根据权利要求147所述的方法,其中多图像数值被使用加权调和平均数来计算,由此多图像数值等于或基于表达式:
160.根据权利要求147所述的方法,其中多图像数值被用于估计图像清晰度、噪声、动态范围、色调再现、对比度、颜色准确度、失真、渐晕、曝光准确度、横向色差(LCA)、镜头眩光、颜色摩尔纹、背光,或假像。
161.根据权利要求147所述的方法,进一步包括通过发射机在数字网络上发射图像文件和多图像数值的步骤。
162.根据权利要求161所述的方法,其中数字网络是无线网络,而且发射机是无线发射机。
163.根据权利要求162所述的方法,其中无线网络是是楼内或车载网络,即无线个人局域网络(PAN),而且该无线发射机是WPAN收发机的一部分。
164.根据权利要求163所述的方法,其中WPAN根据或基于Bluetooth.TM.或IEEE802.15.1-2005标准,或者其中WPAN是根据或基于Zigbee.TM.、IEEE 802.15.4-2003、或Z-Wave.TM.的无线控制网络。
165.根据权利要求162所述的方法,其中无线网络是无线LAN(WLAN)而且无线发射机是WLAN收发机的一部分。
166.根据权利要求165所述的方法,其中WLAN根据或基于IEEE 802.11-2012、IEEE802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n、或IEEE 802.11ac。
167.根据权利要求162所述的方法,其中无线网络是蜂窝手机网络而且无线发射机是蜂窝电话网络无线收发机的一部分。
168.根据权利要求167所述的方法,其中蜂窝电话网络根据或基于使用UMTS W-CDMA、UMTS HSPA、UMTS TDD、CDMA2000 1xRTT、CDMA2000EV-DO、GSM EDGE-Evolution的第三代(3G)网络,或者其中蜂窝电话网络是第四代(4G)网络,第四代(4G)网络使用HSPA+、移动WiMAX、LTE、LTE-Advanced、MBWA,或者基于IEEE802.20-2008。
169.根据权利要求147所述的方法,与最大阈值或最小阈值一起使用,而且其中该方法进一步包括将多图像数值与最大或最小阈值分别比较的步骤。
170.根据权利要求169所述的方法,进一步包括如果该多图像数值高于最大阈值或低于最小阈值则分别启动、停止、控制或禁止行动。
171.根据权利要求170所述的方法,其中所采取的行动是由数码摄像机拍摄另外的图像。
172.根据权利要求147所述的方法,进一步包括将多该图像数值与图像(N)相关联的步骤。
173.根据权利要求172所述的方法,其中该数值嵌入图像(N)的文件中。
174.根据权利要求173所述的方法,其中该数值嵌入文件元数据中。
175.根据权利要求147所述的方法,进一步包括控制数码摄像机以响应多图像数值的步骤。
176.根据权利要求175所述的方法,其中控制数码摄像机包括改变该数据摄像机的设置。
177.根据权利要求176所述的方法,其中设置是数码摄像机的孔径大小、曝光时间、焦距、或曝光指数。
178.根据权利要求175所述的方法,其中控制数码摄像机包括将图像 文件中至少一个图像文件保存到内存。
179.根据权利要求147所述的方法,其中在加权平均数计算中使用的至少一个图像的加权因子WEIGHT(i)被修改为乘以系数得到WEIGHT(i)*系数。
180.根据权利要求179所述的方法,其中在加权平均数计算中使用的与图像N相关联的加权系数WEIGHT(N)被修改为乘以系数得到WEIGHT(N)*系数。
181.根据权利要求179所述的方法,和与数码摄像机集成或搭配在一起的传感器一起使用,以感测在数码摄像机上的物理现象或对数码摄像机产生影响的物理现象,在此传感器感知物理现象并提供测量该现象或与该现象对应的传感器数据,其中该系数基于传感器数据。
182.根据权利要求181所述的方法,其中传感器是温度、湿度、压力、音频、振动、光、声音、接近度、流量、电压、或电流传感器。
183.根据权利要求181所述的方法,其中传感器可以是运动传感器。
184.根据权利要求183所述的方法,其中加速计用于测量数码摄像机的加速度的大小和方向。
185.根据权利要求184所述的方法,其中加速计是压电的、压阻的、电容的、MEMS、或电动机械开关的加速计。
186.根据权利要求184所述的方法,其中,加速计是单轴、2个轴、或3个轴的加速计。
187.根据权利要求179所述的方法,进一步包括将概率分布拟合到数值VALUE(i),这里i=1至N的步骤,而且其中系数基于所拟合的概率分布。
188.根据权利要求187所述的方法,其中概率分布是对称概率分布。
189.根据权利要求188所述的方法,其中拟合概率分布的步骤包括计算数值VALUE(i),这里i=1至N的平均数的步骤。
190.根据权利要求189所述的方法,其中系数基于所计算的平均数值。
191.根据权利要求190所述的方法,其中系数基于所计算的平均数值 和VALUE(i)之差。
192.根据权利要求188所述的方法,其中概率分布是正态分布、增长分布(thelogistic distribution)、或学生“t”分布。
193.根据权利要求192所述的方法,其中拟合概率分布的步骤包括计算数值VALUE(i),这里i=1至N的标准偏差。
194.根据权利要求193所述的方法,其中该系数可以基于所计算的标准偏差值。
195.根据权利要求194所述的方法,其中系数基于算出的平均数值与VALUE(i)之差,除以算出的标准偏差值。
196.根据权利要求179所述的方法,进一步包括数值VALUE(i)的曲线拟合的步骤,这里i=1至N,而且其中系数基于所拟合的曲线。
197.根据权利要求196所述的方法,其中曲线拟合可以将这些数值拟合到一次多项式(线性)方程、二次多项式方程、或三次多项式方程,而且其中曲线拟合基于最小化最小二乘方距离。
198.根据权利要求196所述的方法,其中该系数基于图像i的被拟合曲线的期望值和VALUE(i)之差。
199.根据权利要求179所述的方法,其中该方法可以进一步包括基于各个图像文件的图像处理结果将另外的N个与图像相关联的数值VALUE(i),这里i=1至N分配给各个图像文件的步骤。
200.根据权利要求199所述的方法,其中该系数基于VALUE(i)的值中的至少一个。
201.根据权利要求200所述的方法,其中系数基于VALUE1(N)的值。
202.根据权利要求179所述的方法,其中,该方法进一步包括使用另外的不同的图像处理算法来处理N多个图像文件中至少一个的步骤;而且基于各个图像文件IMAGE(i)的另外的图象处理结果来分配至少一个数值VALUE1(i),这里i=1至N给各个图像文件。
203.根据权利要求202所述的方法,其中该系数基于VALUE1(i)的值中的至少一个。
204.根据权利要求203所述的方法,其中该系数基于VALUE1(N)的值。
205.根据权利要求147所述的方法,其中图像处理算法是使用图形识别的对象检测算法。
206.根据权利要求205所述的方法,其中对象是人体的一部分。
207.根据权利要求206所述的方法,其中对象是人脸的一部分或整体,而且图形识别算法是脸部检测算法。
208.根据权利要求206所述的方法,其中与各个IMAGE(i)相关联的数值VALUE(i)指示各个图像中检测到对象的概率。
209.根据权利要求206所述的方法,其中各个IMAGE(i)相关联的数值VALUE(i)指示在各个图像中所检测的对象的位置。
210.根据权利要求147所述的方法,其中该方法在少于1秒、0.5秒、0.3秒、0.2秒、或0.1秒.完成。
CN201580005858.XA 2014-04-22 2015-04-19 基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机的系统和方法 Pending CN106030614A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201461982482P 2014-04-22 2014-04-22
US61/982,482 2014-04-22
US201462060020P 2014-10-06 2014-10-06
US62/060,020 2014-10-06
US201462085284P 2014-11-27 2014-11-27
US62/085,284 2014-11-27
US201562131854P 2015-03-12 2015-03-12
US62/131,854 2015-03-12
US201562143117P 2015-04-05 2015-04-05
US62/143,117 2015-04-05
PCT/IL2015/050413 WO2015162605A2 (en) 2014-04-22 2015-04-19 System and method for controlling a camera based on processing an image captured by other camera

Publications (1)

Publication Number Publication Date
CN106030614A true CN106030614A (zh) 2016-10-12

Family

ID=54333377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580005858.XA Pending CN106030614A (zh) 2014-04-22 2015-04-19 基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机的系统和方法

Country Status (4)

Country Link
US (2) US9661215B2 (zh)
EP (2) EP3134850B1 (zh)
CN (1) CN106030614A (zh)
WO (1) WO2015162605A2 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106556572A (zh) * 2016-11-14 2017-04-05 天津津航技术物理研究所 一种光学薄膜特性之间相关性的确定方法
CN107067438A (zh) * 2017-03-24 2017-08-18 清华大学 基于线性回归的双向视线方向估计方法和装置
CN108156387A (zh) * 2018-01-12 2018-06-12 深圳奥比中光科技有限公司 通过检测眼睛视线自动结束摄像的装置及方法
CN108182695A (zh) * 2017-12-29 2018-06-19 纳恩博(北京)科技有限公司 目标跟踪模型训练方法及装置、电子设备和存储介质
CN108200340A (zh) * 2018-01-12 2018-06-22 深圳奥比中光科技有限公司 能够检测眼睛视线的拍照装置及拍照方法
CN108958706A (zh) * 2017-05-26 2018-12-07 尚程 测灰度机械随机数生成器及其使用方法
CN109357616A (zh) * 2018-12-04 2019-02-19 宁波吉吉娃电子科技有限公司 自动化变频光波炉
CN109581306A (zh) * 2018-11-21 2019-04-05 浙江大华技术股份有限公司 一种雷球校准系统及方法
CN109709576A (zh) * 2018-12-20 2019-05-03 安徽优思天成智能科技有限公司 一种用于废气激光雷达的姿态估计方法
CN110176039A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 一种针对人脸识别的摄像机调校方法和系统
CN110276129A (zh) * 2019-06-21 2019-09-24 贵州大学 基于燃烧控制系统控制燃烧炉供给燃料当量比的方法、系统及装置
CN110864673A (zh) * 2018-08-28 2020-03-06 财团法人工业技术研究院 信息显示方法及其显示系统
CN111132599A (zh) * 2017-09-22 2020-05-08 斯玛特艾公司 具有减少的反射的图像获取
CN111163575A (zh) * 2020-01-02 2020-05-15 杭州涂鸦信息技术有限公司 一种五路彩灯支持远程控制的方法及系统
CN111291701A (zh) * 2020-02-20 2020-06-16 哈尔滨理工大学 一种基于图像梯度和椭圆拟合算法的视线追踪方法
CN111583239A (zh) * 2020-05-09 2020-08-25 中南大学 蜂窝结构几何规整度图像识别方法及系统
CN111742233A (zh) * 2018-02-26 2020-10-02 雅马哈精密科技株式会社 定位装置及定位方法
CN111861959A (zh) * 2020-07-15 2020-10-30 广东欧谱曼迪科技有限公司 一种超长景深超宽动态图像合成算法
CN111947648A (zh) * 2020-08-13 2020-11-17 中国科学院国家天文台南京天文光学技术研究所 一种对存在天顶盲区的两轴旋转系统指向误差的修正方法
CN112868049A (zh) * 2018-10-16 2021-05-28 Hrl实验室有限责任公司 使用基于贴片的投影相关性进行高效自运动估计
CN113903100A (zh) * 2020-07-06 2022-01-07 丰田自动车株式会社 车辆和车厢内外监控系统
CN114140459A (zh) * 2021-12-09 2022-03-04 中铁二院工程集团有限责任公司 基于原始激光点云的铁路横断面测量方法
CN114283548A (zh) * 2021-12-27 2022-04-05 北京科技大学天津学院 一种无人机火灾持续监测方法及其系统
CN115567664A (zh) * 2022-10-13 2023-01-03 长沙观谱红外科技有限公司 红外成像机器人
CN117169872A (zh) * 2023-08-25 2023-12-05 广州珠观科技有限公司 一种基于立体摄像机和毫米波雷达信息融合的机器人自主导航系统

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
CN104200237B (zh) * 2014-08-22 2019-01-11 浙江生辉照明有限公司 一种基于核化相关滤波高速自动多目标跟踪方法
WO2016035181A1 (ja) 2014-09-03 2016-03-10 株式会社ニコン 撮像装置、情報処理装置、及び撮像システム
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
US9794522B2 (en) * 2015-02-06 2017-10-17 Google Inc. Systems, methods, and devices for managing coexistence of multiple transceiver devices by optimizing component layout
EP3289430B1 (en) 2015-04-27 2019-10-23 Snap-Aid Patents Ltd. Estimating and using relative head pose and camera field-of-view
WO2016197297A1 (zh) * 2015-06-08 2016-12-15 北京旷视科技有限公司 活体检测方法、活体检测系统以及计算机程序产品
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image
US9875427B2 (en) * 2015-07-28 2018-01-23 GM Global Technology Operations LLC Method for object localization and pose estimation for an object of interest
US10341561B2 (en) * 2015-09-11 2019-07-02 Facebook, Inc. Distributed image stabilization
US10178341B2 (en) * 2016-03-01 2019-01-08 DISH Technologies L.L.C. Network-based event recording
US9912861B1 (en) * 2016-03-02 2018-03-06 Amazon Technologies, Inc. Systems and methods for determining a depth or reflectance of objects
WO2017154706A1 (ja) * 2016-03-09 2017-09-14 株式会社ニコン 検出装置、情報処理装置、検出方法、検出プログラム、及び検出システム
US10687184B2 (en) 2016-05-13 2020-06-16 Google Llc Systems, methods, and devices for utilizing radar-based touch interfaces
CN107464571B (zh) * 2016-06-06 2020-12-01 南京邮电大学 一种数据质量评估的方法、设备及系统
US10168524B2 (en) * 2016-08-10 2019-01-01 Kla-Tencor Corporation Optical measurement of bump hieght
US10157457B2 (en) * 2016-08-10 2018-12-18 Kla-Tencor Corporation Optical measurement of opening dimensions in a wafer
US10359613B2 (en) * 2016-08-10 2019-07-23 Kla-Tencor Corporation Optical measurement of step size and plated metal thickness
KR20180023310A (ko) * 2016-08-25 2018-03-07 엘지전자 주식회사 이동 단말기 및 그 제어방법
WO2018048838A1 (en) * 2016-09-06 2018-03-15 Apple Inc. Still image stabilization/optical image stabilization synchronization in multi-camera image capture
US10783430B2 (en) 2016-09-26 2020-09-22 The Boeing Company Signal removal to examine a spectrum of another signal
US20200059509A1 (en) * 2016-11-04 2020-02-20 Sony Mobile Communications, Inc. Uploading a file from a user device to a data storage service
JP6794808B2 (ja) * 2016-12-07 2020-12-02 コニカミノルタ株式会社 画像処理装置、同装置によるicカード処理回数の通知方法及び通知プログラム
KR102581945B1 (ko) * 2017-02-07 2023-09-25 삼성전자주식회사 스킨 정보 제공 방법 및 이를 지원하는 전자 장치
GB2560340A (en) * 2017-03-07 2018-09-12 Eyn Ltd Verification method and system
US10375374B2 (en) * 2017-03-29 2019-08-06 Plethron Inc. Dimension extractable object comprising spatial metadata for a captured image or video
US10467147B1 (en) 2017-04-28 2019-11-05 Snap Inc. Precaching unlockable data elements
US10565696B2 (en) * 2017-06-05 2020-02-18 Qualcomm Incorporated Systems and methods for producing image feedback
KR102351542B1 (ko) * 2017-06-23 2022-01-17 삼성전자주식회사 시차 보상 기능을 갖는 애플리케이션 프로세서, 및 이를 구비하는 디지털 촬영 장치
CN107295256A (zh) * 2017-06-23 2017-10-24 华为技术有限公司 一种图像处理方法、装置与设备
US10699148B2 (en) 2017-08-21 2020-06-30 Lifesize, Inc. Dynamic calibration of detection system for active areas of interest within video data
US10740446B2 (en) * 2017-08-24 2020-08-11 International Business Machines Corporation Methods and systems for remote sensing device control based on facial information
US10921422B2 (en) * 2017-10-25 2021-02-16 The Boeing Company Below-noise after transmit (BAT) Chirp Radar
WO2019111550A1 (ja) * 2017-12-08 2019-06-13 日本電気株式会社 人物照合装置、方法、及び非一時的なコンピュータ可読媒体
AU2017279562A1 (en) * 2017-12-18 2019-07-04 Canon Kabushiki Kaisha System and method of grouping images
WO2019161207A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
WO2019161246A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for visual rendering based on sparse samples with predicted motion
US11308312B2 (en) 2018-02-15 2022-04-19 DMAI, Inc. System and method for reconstructing unoccupied 3D space
US11002819B2 (en) 2018-04-24 2021-05-11 The Boeing Company Angular resolution of targets using separate radar receivers
US10961774B2 (en) * 2018-05-07 2021-03-30 Johnson Controls Technology Company Systems and methods for window setting adjustment
CN108769476B (zh) * 2018-06-06 2019-07-19 Oppo广东移动通信有限公司 图像获取方法及装置、图像采集装置、计算机设备和可读存储介质
JP2021177582A (ja) * 2018-07-31 2021-11-11 ソニーグループ株式会社 制御装置、制御方法、およびプログラム
US10748310B2 (en) * 2018-09-12 2020-08-18 Microsoft Technology Licensing, Llc Drawing tutorial application utilizing image processing
US11333603B2 (en) * 2018-10-30 2022-05-17 Canon Kabushiki Kaisha Processing apparatus, processing method, and storage medium
CN109379149B (zh) * 2018-11-14 2020-08-04 浙江大华技术股份有限公司 一种摄像区域目标的确定方法、装置及系统
CN109784226B (zh) * 2018-12-28 2020-12-15 深圳云天励飞技术有限公司 人脸抓拍方法及相关装置
US20220181020A1 (en) * 2019-03-29 2022-06-09 University Health Network System and method for remote patient monitoring
GB2597171B (en) * 2019-04-05 2023-06-14 Project Giants Llc High dynamic range video format detection
US10839502B2 (en) 2019-04-17 2020-11-17 Shutterfly, Llc Photography session assistant
US11080514B2 (en) * 2019-09-13 2021-08-03 Citrix Systems, Inc. Facial recognition based auto zoom
US20210383103A1 (en) * 2019-09-19 2021-12-09 Arctan Analytics Pte. Ltd. System and method for assessing customer satisfaction from a physical gesture of a customer
US11356623B2 (en) * 2020-06-01 2022-06-07 City University Of Hong Kong System and method for processing an image
TWI792106B (zh) * 2020-07-09 2023-02-11 財團法人工業技術研究院 資訊顯示方法及其處理裝置與顯示系統
WO2022187691A1 (en) * 2021-03-05 2022-09-09 Lab4U, Inc. Methods and electronic devices for quantitatively determining changes in color of a sample over time
CN113238652B (zh) * 2021-05-11 2023-07-14 北京字跳网络技术有限公司 视线估计方法、装置、设备及存储介质
CN115484387B (zh) * 2021-06-16 2023-11-07 荣耀终端有限公司 一种提示方法及电子设备
CN113965641B (zh) * 2021-09-16 2023-03-28 Oppo广东移动通信有限公司 音量调节方法及装置、终端及计算机可读存储介质
US11900840B2 (en) * 2021-12-13 2024-02-13 Qualcomm Incorporated Chrominance optimizations in rendering pipelines
US11889178B2 (en) * 2022-02-28 2024-01-30 Motorola Mobility Llc Electronic device with automatic eye gaze tracking and camera adjustment
WO2024028672A1 (en) * 2022-08-02 2024-02-08 Corephotonics Ltd. Object tracker using gaze estimation
CN116453198B (zh) * 2023-05-06 2023-08-25 广州视景医疗软件有限公司 一种基于头部姿态差异的视线校准方法和装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050196018A1 (en) * 2001-12-31 2005-09-08 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
CN101489467A (zh) * 2006-07-14 2009-07-22 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
US20090268944A1 (en) * 2008-04-28 2009-10-29 Omron Corporation Line of sight detecting device and method
CN101627335A (zh) * 2007-03-02 2010-01-13 索尼爱立信移动通讯股份有限公司 便携式电子设备中图像捕获单元的远程控制
CN101815174A (zh) * 2010-01-11 2010-08-25 北京中星微电子有限公司 摄像控制方法及控制装置
CN101866215A (zh) * 2010-04-20 2010-10-20 复旦大学 在视频监控中采用视线跟踪的人机交互装置和方法
US8077914B1 (en) * 2006-08-07 2011-12-13 Arkady Kaplan Optical tracking apparatus using six degrees of freedom
CN102473033A (zh) * 2009-09-29 2012-05-23 阿尔卡特朗讯 一种注视点检测方法及其装置
US8218832B2 (en) * 2007-12-07 2012-07-10 Denso Corporation Apparatus for detecting feature of driver's face
US20130063538A1 (en) * 2011-09-13 2013-03-14 Verizon Patent And Licensing Inc. Method and apparatus for providing device angle image correction
CN103051795A (zh) * 2012-12-18 2013-04-17 广东欧珀移动通信有限公司 移动终端前后摄像头的切换方法及移动终端
US20130176445A1 (en) * 2011-07-04 2013-07-11 Lee V. Streeter Motion compensation in range imaging
US20130188834A1 (en) * 2010-08-09 2013-07-25 Yoshinobu Ebisawa Gaze point detection method and gaze point detection device
US8614674B2 (en) * 2009-05-21 2013-12-24 May Patents Ltd. System and method for control based on face or hand gesture detection
US20140055602A1 (en) * 2010-04-13 2014-02-27 General Dynamics Armament And Technical Products, Inc. Display System
US20140085451A1 (en) * 2012-09-24 2014-03-27 Fujitsu Limited Gaze detection apparatus, gaze detection computer program, and display apparatus

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4047187A (en) 1974-04-01 1977-09-06 Canon Kabushiki Kaisha System for exposure measurement and/or focus detection by means of image senser
US4516260A (en) 1978-04-28 1985-05-07 Texas Instruments Incorporated Electronic learning aid or game having synthesized speech
US4248123A (en) 1979-04-25 1981-02-03 Baldwin Piano & Organ Company Electronic piano
US4317991A (en) 1980-03-12 1982-03-02 Honeywell Inc. Digital auto focus system utilizing a photodetector array
US4367027A (en) 1980-03-12 1983-01-04 Honeywell Inc. Active auto focus system improvement
US4496149A (en) 1982-11-10 1985-01-29 Schwartzberg Robert B Game apparatus utilizing controllable audio signals
JPS61105978A (ja) 1984-10-30 1986-05-24 Sanyo Electric Co Ltd オ−トフオ−カス回路
US4796891A (en) 1987-02-02 1989-01-10 Applied Design Laboratories, Inc. Musical puzzle using sliding tiles
US5291234A (en) 1987-02-04 1994-03-01 Asahi Kogaku Kogyo Kabushiki Kaisha Auto optical focus detecting device and eye direction detecting optical system
US4840602A (en) 1987-02-06 1989-06-20 Coleco Industries, Inc. Talking doll responsive to external signal
GB2210722B (en) 1987-10-08 1992-03-25 Video Technology Electronics L Electronic instructional apparatus
JP2748678B2 (ja) 1990-10-09 1998-05-13 松下電器産業株式会社 階調補正方法および階調補正装置
US5138459A (en) 1990-11-20 1992-08-11 Personal Computer Cameras, Inc. Electronic still video camera with direct personal computer (pc) compatible digital format output
US5402170A (en) 1991-12-11 1995-03-28 Eastman Kodak Company Hand-manipulated electronic camera tethered to a personal computer
US5488429A (en) 1992-01-13 1996-01-30 Mitsubishi Denki Kabushiki Kaisha Video signal processor for detecting flesh tones in am image
US5638136A (en) 1992-01-13 1997-06-10 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for detecting flesh tones in an image
KR100276681B1 (ko) 1992-11-07 2001-01-15 이데이 노부유끼 비디오 카메라 시스템
US5386103A (en) 1993-07-06 1995-01-31 Neurnetics Ltd. Identification and verification system
CA2119327A1 (en) 1993-07-19 1995-01-20 David Crawford Gibbon Method and means for detecting people in image sequences
DE4341271B4 (de) 1993-12-03 2005-11-03 Robert Bosch Gmbh Beschleunigungssensor aus kristallinem Material und Verfahren zur Herstellung dieses Beschleunigungssensors
US5835616A (en) 1994-02-18 1998-11-10 University Of Central Florida Face detection using templates
US5781650A (en) 1994-02-18 1998-07-14 University Of Central Florida Automatic feature detection and age classification of human faces in digital images
JP3893480B2 (ja) 1994-09-28 2007-03-14 株式会社リコー デジタル電子カメラ
US5870138A (en) 1995-03-31 1999-02-09 Hitachi, Ltd. Facial image processing
US5724456A (en) 1995-03-31 1998-03-03 Polaroid Corporation Brightness adjustment of images using digital scene analysis
US5710833A (en) 1995-04-20 1998-01-20 Massachusetts Institute Of Technology Detection, recognition and coding of complex objects using probabilistic eigenspace analysis
US5642431A (en) 1995-06-07 1997-06-24 Massachusetts Institute Of Technology Network-based system and method for detection of faces and the like
US5962786A (en) 1995-09-26 1999-10-05 Onera (Office National D'eudes Et De Recheres Aerospatiales) Monolithic accelerometric transducer
US6636635B2 (en) 1995-11-01 2003-10-21 Canon Kabushiki Kaisha Object extraction method, and image sensing apparatus using the method
US6151073A (en) 1996-03-28 2000-11-21 Fotonation, Inc. Intelligent camera flash system
US5991456A (en) 1996-05-29 1999-11-23 Science And Technology Corporation Method of improving a digital image
US5978519A (en) 1996-08-06 1999-11-02 Xerox Corporation Automatic image cropping
US5818975A (en) 1996-10-28 1998-10-06 Eastman Kodak Company Method and apparatus for area selective exposure adjustment
US6249315B1 (en) 1997-03-24 2001-06-19 Jack M. Holm Strategy for pictorial digital image processing
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6407777B1 (en) 1997-10-09 2002-06-18 Deluca Michael Joseph Red-eye filter method and apparatus
US6128397A (en) 1997-11-21 2000-10-03 Justsystem Pittsburgh Research Center Method for finding all frontal faces in arbitrarily complex visual scenes
US6148092A (en) 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
US6268939B1 (en) 1998-01-08 2001-07-31 Xerox Corporation Method and apparatus for correcting luminance and chrominance data in digital color images
GB2333590A (en) 1998-01-23 1999-07-28 Sharp Kk Detecting a face-like region
US6192149B1 (en) 1998-04-08 2001-02-20 Xerox Corporation Method and apparatus for automatic detection of image target gamma
US6301370B1 (en) 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US6097470A (en) 1998-05-28 2000-08-01 Eastman Kodak Company Digital photofinishing system including scene balance, contrast normalization, and image sharpening digital image processing
US6404900B1 (en) 1998-06-22 2002-06-11 Sharp Laboratories Of America, Inc. Method for robust human face tracking in presence of multiple persons
US6456732B1 (en) 1998-09-11 2002-09-24 Hewlett-Packard Company Automatic rotation, cropping and scaling of images for printing
GB9819821D0 (en) 1998-09-12 1998-11-04 Secr Defence Improvements relating to micro-machining
JP3291259B2 (ja) 1998-11-11 2002-06-10 キヤノン株式会社 画像処理方法および記録媒体
US6263113B1 (en) 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image
US6473199B1 (en) 1998-12-18 2002-10-29 Eastman Kodak Company Correcting exposure and tone scale of digital images captured by an image capture device
US6282317B1 (en) 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
US6438264B1 (en) 1998-12-31 2002-08-20 Eastman Kodak Company Method for compensating image color when adjusting the contrast of a digital color image
US6421468B1 (en) 1999-01-06 2002-07-16 Seiko Epson Corporation Method and apparatus for sharpening an image by scaling elements of a frequency-domain representation
US6393148B1 (en) 1999-05-13 2002-05-21 Hewlett-Packard Company Contrast enhancement of an image using luminance and RGB statistical metrics
US6501857B1 (en) 1999-07-20 2002-12-31 Craig Gotsman Method and system for detecting and classifying objects in an image
US6526161B1 (en) 1999-08-30 2003-02-25 Koninklijke Philips Electronics N.V. System and method for biometrics-based facial feature extraction
US6504951B1 (en) 1999-11-29 2003-01-07 Eastman Kodak Company Method for detecting sky in images
US6940545B1 (en) 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US6527611B2 (en) 2001-02-09 2003-03-04 Charles A. Cummings Place and find toy
US6516154B1 (en) 2001-07-17 2003-02-04 Eastman Kodak Company Image revising camera and method
TW524011B (en) * 2001-08-10 2003-03-11 Veutron Corp Circuit using RGB signals of scanner for color space conversion
US7053935B2 (en) 2002-02-21 2006-05-30 Eastman Kodak Company Apparatus and method for accurate electronic color capture and reproduction
US7110575B2 (en) 2002-08-02 2006-09-19 Eastman Kodak Company Method for locating faces in digital color images
US7203338B2 (en) 2002-12-11 2007-04-10 Nielsen Media Research, Inc. Methods and apparatus to count people appearing in an image
US20040174434A1 (en) 2002-12-18 2004-09-09 Walker Jay S. Systems and methods for suggesting meta-information to a camera user
US7508961B2 (en) 2003-03-12 2009-03-24 Eastman Kodak Company Method and system for face detection in digital images
US20040252217A1 (en) * 2003-06-12 2004-12-16 Battles Amy E. System and method for analyzing a digital image
US7317815B2 (en) 2003-06-26 2008-01-08 Fotonation Vision Limited Digital image processing composition using face detection information
US7639889B2 (en) 2004-11-10 2009-12-29 Fotonation Ireland Ltd. Method of notifying users regarding motion artifacts based on image analysis
US7315630B2 (en) 2003-06-26 2008-01-01 Fotonation Vision Limited Perfecting of digital image rendering parameters within rendering devices using face detection
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
JP4415188B2 (ja) 2004-08-09 2010-02-17 カシオ計算機株式会社 画像撮影装置
US7639888B2 (en) 2004-11-10 2009-12-29 Fotonation Ireland Ltd. Method and apparatus for initiating subsequent exposures based on determination of motion blurring artifacts
US7326866B2 (en) 2005-01-18 2008-02-05 Signalquest, Inc. Omnidirectional tilt and vibration sensor
US20060204232A1 (en) * 2005-02-01 2006-09-14 Harvey Weinberg Camera with acceleration sensor
US7774826B1 (en) 2005-03-18 2010-08-10 Novell, Inc. System and method for determining effective policy profiles in a client-server architecture
US7414186B2 (en) 2005-10-20 2008-08-19 Joseph Scarpa System and method of teaching musical notes
US7965887B2 (en) * 2005-12-01 2011-06-21 Cognex Technology And Investment Corp. Method of pattern location using color image data
JP4554529B2 (ja) 2006-02-06 2010-09-29 富士フイルム株式会社 撮像装置
US7617729B2 (en) 2006-02-21 2009-11-17 Physical Logic Ag Accelerometer
US7804983B2 (en) 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
JP4151982B2 (ja) 2006-03-10 2008-09-17 任天堂株式会社 動き判別装置および動き判別プログラム
US8743137B2 (en) 2006-04-10 2014-06-03 Edgenet, Inc. Method for electronic color matching
US7634864B2 (en) 2006-05-04 2009-12-22 Segan Llc User interactive greeting card
US7578189B1 (en) 2006-05-10 2009-08-25 Qualtre, Inc. Three-axis accelerometers
US8781162B2 (en) 2011-01-05 2014-07-15 Ailive Inc. Method and system for head tracking and pose estimation
JP2008033200A (ja) 2006-08-01 2008-02-14 Nikon Corp カメラ
US7412077B2 (en) 2006-12-29 2008-08-12 Motorola, Inc. Apparatus and methods for head pose estimation and head gesture detection
CN100397086C (zh) 2007-07-09 2008-06-25 北京信息工程学院 新型压电石英加速度计
US8352479B2 (en) 2007-12-10 2013-01-08 At&T Intellectual Property I, L.P. Systems,methods and computer products for content-derived metadata
US8131118B1 (en) 2008-01-31 2012-03-06 Google Inc. Inferring locations from an image
US9218648B2 (en) 2009-10-27 2015-12-22 Honeywell International Inc. Fourier domain blur estimation method and system
JP5338630B2 (ja) * 2009-11-18 2013-11-13 セイコーエプソン株式会社 画像処理方法およびプログラム、画像処理装置
US9319640B2 (en) * 2009-12-29 2016-04-19 Kodak Alaris Inc. Camera and display system interactivity
WO2011085562A1 (en) 2010-01-18 2011-07-21 Hewlett-Packard Development Company, L.P. System and method for automatically extracting metadata from unstructured electronic documents
US8823856B2 (en) 2010-10-12 2014-09-02 Blackberry Limited Convergence feedback indicator, provided when taking a picture in a camera application
CN102572211B (zh) * 2010-12-20 2015-11-25 韩华泰科株式会社 估计光源的方法和设备
US8379999B2 (en) 2011-01-18 2013-02-19 Chanan Gabay Methods, circuits, devices, apparatuses and systems for providing image composition rules, analysis and improvement
AU2011200696B2 (en) 2011-02-17 2014-03-06 Canon Kabushiki Kaisha Method, apparatus and system for rating images
US8406548B2 (en) 2011-02-28 2013-03-26 Sony Corporation Method and apparatus for performing a blur rendering process on an image
US9582707B2 (en) 2011-05-17 2017-02-28 Qualcomm Incorporated Head pose estimation using RGBD camera
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US8659667B2 (en) 2011-08-29 2014-02-25 Panasonic Corporation Recipe based real-time assistance for digital image capture and other consumer electronics devices
WO2013044983A1 (en) 2011-09-30 2013-04-04 Layar B.V. Feedback to user for indicating augmentability of an image
US20130258089A1 (en) * 2011-11-03 2013-10-03 Intel Corporation Eye Gaze Based Image Capture
US20130201316A1 (en) 2012-01-09 2013-08-08 May Patents Ltd. System and method for server based control
US8687880B2 (en) 2012-03-20 2014-04-01 Microsoft Corporation Real time head pose estimation
US9208550B2 (en) 2012-08-15 2015-12-08 Fuji Xerox Co., Ltd. Smart document capture based on estimated scanned-image quality
EP2912602A4 (en) 2012-10-23 2016-03-16 Ishay Sivan REAL-TIME IMAGE QUALITY EVALUATION
US9406135B2 (en) 2012-10-29 2016-08-02 Samsung Electronics Co., Ltd. Device and method for estimating head pose
KR101983288B1 (ko) 2012-11-22 2019-05-29 삼성전자주식회사 카메라 촬영 제어장치 및 방법
US8873850B2 (en) 2012-11-30 2014-10-28 Google Inc. Detecting exposure quality in images
US20140184854A1 (en) 2012-12-28 2014-07-03 Motorola Mobility Llc Front camera face detection for rear camera zoom function
US9330471B2 (en) 2013-02-14 2016-05-03 Qualcomm Incorporated Camera aided motion direction and speed estimation
US8913791B2 (en) 2013-03-28 2014-12-16 International Business Machines Corporation Automatically determining field of view overlap among multiple cameras
CN103747183B (zh) 2014-01-15 2017-02-15 北京百纳威尔科技有限公司 一种手机拍摄对焦方法
WO2015022700A2 (en) 2014-02-13 2015-02-19 Deepak Valagam Raghunathan A method for capturing an accurately composed high quality self-image using a multi camera device

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050196018A1 (en) * 2001-12-31 2005-09-08 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
CN101489467A (zh) * 2006-07-14 2009-07-22 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
US8077914B1 (en) * 2006-08-07 2011-12-13 Arkady Kaplan Optical tracking apparatus using six degrees of freedom
CN101627335A (zh) * 2007-03-02 2010-01-13 索尼爱立信移动通讯股份有限公司 便携式电子设备中图像捕获单元的远程控制
US8218832B2 (en) * 2007-12-07 2012-07-10 Denso Corporation Apparatus for detecting feature of driver's face
US20090268944A1 (en) * 2008-04-28 2009-10-29 Omron Corporation Line of sight detecting device and method
US8614674B2 (en) * 2009-05-21 2013-12-24 May Patents Ltd. System and method for control based on face or hand gesture detection
CN102473033A (zh) * 2009-09-29 2012-05-23 阿尔卡特朗讯 一种注视点检测方法及其装置
CN101815174A (zh) * 2010-01-11 2010-08-25 北京中星微电子有限公司 摄像控制方法及控制装置
US20140055602A1 (en) * 2010-04-13 2014-02-27 General Dynamics Armament And Technical Products, Inc. Display System
CN101866215A (zh) * 2010-04-20 2010-10-20 复旦大学 在视频监控中采用视线跟踪的人机交互装置和方法
US20130188834A1 (en) * 2010-08-09 2013-07-25 Yoshinobu Ebisawa Gaze point detection method and gaze point detection device
US20130176445A1 (en) * 2011-07-04 2013-07-11 Lee V. Streeter Motion compensation in range imaging
US20130063538A1 (en) * 2011-09-13 2013-03-14 Verizon Patent And Licensing Inc. Method and apparatus for providing device angle image correction
US20140085451A1 (en) * 2012-09-24 2014-03-27 Fujitsu Limited Gaze detection apparatus, gaze detection computer program, and display apparatus
CN103051795A (zh) * 2012-12-18 2013-04-17 广东欧珀移动通信有限公司 移动终端前后摄像头的切换方法及移动终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKUYA MINAGAWA 等: "Face-Direction Estimating System Using Stereo Vision", 《INDUSTRIAL ELECTRONICS, CONTROL AND INSTRUMENTATION, 1997. IECON 97. 2 3RD INTERNATIONAL CONFERENCE ON NEW ORLEANS》 *
XIANGXIN ZHU 等: "Face Detection, Pose Estimation, and Landmark Localization in the Wild", 《COMPUTER VISION AND PATTERN RECOGNITION(CVPR), 2012 IEEE CONFERENCE》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106556572A (zh) * 2016-11-14 2017-04-05 天津津航技术物理研究所 一种光学薄膜特性之间相关性的确定方法
CN107067438A (zh) * 2017-03-24 2017-08-18 清华大学 基于线性回归的双向视线方向估计方法和装置
CN107067438B (zh) * 2017-03-24 2019-12-24 清华大学 基于线性回归的双向视线方向估计方法和装置
CN108958706A (zh) * 2017-05-26 2018-12-07 尚程 测灰度机械随机数生成器及其使用方法
CN108958706B (zh) * 2017-05-26 2023-07-28 尚程 测灰度机械随机数生成器及其使用方法
CN111132599A (zh) * 2017-09-22 2020-05-08 斯玛特艾公司 具有减少的反射的图像获取
CN108182695B (zh) * 2017-12-29 2021-10-29 纳恩博(北京)科技有限公司 目标跟踪模型训练方法及装置、电子设备和存储介质
CN108182695A (zh) * 2017-12-29 2018-06-19 纳恩博(北京)科技有限公司 目标跟踪模型训练方法及装置、电子设备和存储介质
CN108200340A (zh) * 2018-01-12 2018-06-22 深圳奥比中光科技有限公司 能够检测眼睛视线的拍照装置及拍照方法
CN108156387A (zh) * 2018-01-12 2018-06-12 深圳奥比中光科技有限公司 通过检测眼睛视线自动结束摄像的装置及方法
CN111742233A (zh) * 2018-02-26 2020-10-02 雅马哈精密科技株式会社 定位装置及定位方法
CN111742233B (zh) * 2018-02-26 2023-06-09 雅马哈精密科技株式会社 定位装置及定位方法
US11057606B2 (en) 2018-08-28 2021-07-06 Industrial Technology Research Institute Method and display system for information display based on positions of human gaze and object
CN110864673A (zh) * 2018-08-28 2020-03-06 财团法人工业技术研究院 信息显示方法及其显示系统
CN112868049B (zh) * 2018-10-16 2022-07-01 Hrl实验室有限责任公司 使用基于贴片的投影相关性进行高效自运动估计
CN112868049A (zh) * 2018-10-16 2021-05-28 Hrl实验室有限责任公司 使用基于贴片的投影相关性进行高效自运动估计
CN109581306A (zh) * 2018-11-21 2019-04-05 浙江大华技术股份有限公司 一种雷球校准系统及方法
CN109581306B (zh) * 2018-11-21 2020-12-08 浙江大华技术股份有限公司 一种雷球校准系统及方法
CN109357616B (zh) * 2018-12-04 2020-08-28 温岭市第二绝缘材料厂 自动化变频光波炉
CN109357616A (zh) * 2018-12-04 2019-02-19 宁波吉吉娃电子科技有限公司 自动化变频光波炉
CN109709576A (zh) * 2018-12-20 2019-05-03 安徽优思天成智能科技有限公司 一种用于废气激光雷达的姿态估计方法
CN110176039A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 一种针对人脸识别的摄像机调校方法和系统
CN110276129A (zh) * 2019-06-21 2019-09-24 贵州大学 基于燃烧控制系统控制燃烧炉供给燃料当量比的方法、系统及装置
CN110276129B (zh) * 2019-06-21 2022-11-29 贵州大学 基于燃烧控制系统控制燃烧炉供给燃料当量比的方法、系统及装置
CN111163575A (zh) * 2020-01-02 2020-05-15 杭州涂鸦信息技术有限公司 一种五路彩灯支持远程控制的方法及系统
CN111163575B (zh) * 2020-01-02 2021-08-20 杭州涂鸦信息技术有限公司 一种五路彩灯支持远程控制的方法及系统
CN111291701A (zh) * 2020-02-20 2020-06-16 哈尔滨理工大学 一种基于图像梯度和椭圆拟合算法的视线追踪方法
CN111291701B (zh) * 2020-02-20 2022-12-13 哈尔滨理工大学 一种基于图像梯度和椭圆拟合算法的视线追踪方法
CN111583239A (zh) * 2020-05-09 2020-08-25 中南大学 蜂窝结构几何规整度图像识别方法及系统
CN111583239B (zh) * 2020-05-09 2021-03-30 中南大学 蜂窝结构几何规整度图像识别方法及系统
CN113903100A (zh) * 2020-07-06 2022-01-07 丰田自动车株式会社 车辆和车厢内外监控系统
CN113903100B (zh) * 2020-07-06 2023-09-29 丰田自动车株式会社 车辆和车厢内外监控系统
CN111861959A (zh) * 2020-07-15 2020-10-30 广东欧谱曼迪科技有限公司 一种超长景深超宽动态图像合成算法
CN111947648B (zh) * 2020-08-13 2023-09-05 中国科学院国家天文台南京天文光学技术研究所 一种对存在天顶盲区的两轴旋转系统指向误差的修正方法
CN111947648A (zh) * 2020-08-13 2020-11-17 中国科学院国家天文台南京天文光学技术研究所 一种对存在天顶盲区的两轴旋转系统指向误差的修正方法
CN114140459A (zh) * 2021-12-09 2022-03-04 中铁二院工程集团有限责任公司 基于原始激光点云的铁路横断面测量方法
CN114140459B (zh) * 2021-12-09 2023-04-07 中铁二院工程集团有限责任公司 基于原始激光点云的铁路横断面测量方法
CN114283548A (zh) * 2021-12-27 2022-04-05 北京科技大学天津学院 一种无人机火灾持续监测方法及其系统
CN115567664A (zh) * 2022-10-13 2023-01-03 长沙观谱红外科技有限公司 红外成像机器人
CN115567664B (zh) * 2022-10-13 2023-06-23 长沙观谱红外科技有限公司 红外成像机器人
CN117169872A (zh) * 2023-08-25 2023-12-05 广州珠观科技有限公司 一种基于立体摄像机和毫米波雷达信息融合的机器人自主导航系统
CN117169872B (zh) * 2023-08-25 2024-03-26 广州珠观科技有限公司 一种基于立体摄像机和毫米波雷达信息融合的机器人自主导航系统

Also Published As

Publication number Publication date
EP3134850A4 (en) 2018-02-21
WO2015162605A2 (en) 2015-10-29
US20170237897A1 (en) 2017-08-17
US20160261793A1 (en) 2016-09-08
EP4250738A3 (en) 2023-10-11
EP4250738A2 (en) 2023-09-27
US9661215B2 (en) 2017-05-23
EP3134850A2 (en) 2017-03-01
EP3134850B1 (en) 2023-06-14
US9866748B2 (en) 2018-01-09
WO2015162605A3 (en) 2015-12-17

Similar Documents

Publication Publication Date Title
CN106030614A (zh) 基于对一台摄像机所拍摄的图像的处理来控制另一台摄像机的系统和方法
CN109951633A (zh) 一种拍摄月亮的方法和电子设备
Mann An historical account of the'WearComp'and'WearCam'inventions developed for applications in'Personal Imaging'
CN110072070A (zh) 一种多路录像方法及设备
CN105409211B (zh) 用于图像处理的带皮肤色调校正的自动白平衡
CN108696680A (zh) 用于焦点控制的电子设备和方法
CN111327814A (zh) 一种图像处理的方法及电子设备
CN106605403A (zh) 拍摄方法和电子设备
CN111866483B (zh) 颜色还原方法及装置、计算机可读介质和电子设备
CN108391060A (zh) 一种图像处理方法、图像处理装置和终端
WO2021078001A1 (zh) 一种图像增强方法及装置
CN108024054A (zh) 图像处理方法、装置及设备
CN111385514B (zh) 人像处理方法和装置以及终端
CN111741303B (zh) 深度视频处理方法、装置、存储介质与电子设备
CN106134189A (zh) 图像处理装置、摄像装置、图像处理方法及程序
CN110462617A (zh) 用于通过多个相机认证生物数据的电子装置和方法
WO2020056690A1 (zh) 一种视频内容关联界面的呈现方法、装置及电子设备
CN110533598A (zh) 用于连续多帧图像去噪的装置及方法
CN108200352A (zh) 一种调解图片亮度的方法、终端及存储介质
CN103810683B (zh) 照片处理方法和装置
CN113850709A (zh) 图像变换方法和装置
CN109121194A (zh) 用于电子设备的状态转换的方法和装置
WO2022214004A1 (zh) 一种目标用户确定方法、电子设备和计算机可读存储介质
CN114697516B (zh) 三维模型重建方法、设备和存储介质
CN113875227A (zh) 信息处理设备、信息处理方法和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170615

Address after: Israel Tel Aviv

Applicant after: GM patent Co., Ltd.

Address before: Israel Tel Aviv

Applicant before: Gao Hei F Ed Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012