CN103957359B

CN103957359B - 摄像装置及其对焦方法

Info

Publication number: CN103957359B
Application number: CN201410205508.5A
Authority: CN
Inventors: 孙丽
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2016-08-24
Anticipated expiration: 2034-05-15
Also published as: CN103957359A; WO2015172630A1

Abstract

本发明公开了一种摄像装置及其对焦方法，所述对焦方法包括步骤：在拍摄过程中，采集声音；判断采集到的声音中是否有与预存的声音相匹配的目标声音，若是，则对发出所述目标声音的目标声源进行对焦。从而，通过采集声音、分离声音、匹配声音，从而识别出目标声音及对应的目标声源，并自动对该目标声源进行对焦，最终实现了通过声音对跟踪目标进行跟踪拍摄，即使跟踪目标不断转换或不断移动，也能实现实时跟踪拍摄。

Description

摄像装置及其对焦方法

技术领域

本发明涉及摄像技术领域，尤其是涉及一种摄像装置及其对焦方法。

背景技术

摄像装置传统的对焦方法通常是手动对焦，由用户选择焦点，然后对焦点进行对焦。手动对焦比较繁琐，而且效率较低，特别是当目标不断转换或目标不断移动时，手动对焦更是无法实现实时跟踪拍摄。现有技术中虽然也有自动对焦的方法，但现有的自动对焦还无法实现对特定目标的跟踪拍摄。

发明内容

本发明的主要目的在于提供一种摄像装置及其对焦方法，旨在通过声音进行自动对焦，以实现对跟踪目标进行跟踪拍摄。

为达以上目的，本发明提出一种摄像装置的对焦方法，包括步骤：

在拍摄过程中，采集声音；

判断采集到的声音中是否有与预存的声音相匹配的目标声音，若是，则对发出所述目标声音的目标声源进行对焦。

优选地，所述判断采集到的声音中是否有与预存的声音相匹配的目标声音包括：

若采集到的声音为至少两声源发出的声音，则分离出各声源的声音；

提取出各声源的声音的声学特征，并分别与预存的声音的声学特征进行比较；

若其中一声源的声音的声学特征与预存的声音的声学特征相匹配，则判定该声源的声音为目标声音，该声源为目标声源。

优选地，所述对发出所述目标声音的目标声源进行对焦包括：

对发出所述目标声音的目标声源进行定位；

对准所述目标声源的定位方向进行对焦。

优选地，所述方法还包括：若预存的声音至少有两个，且匹配出的目标声音也至少有两个，则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。

优选地，判断采集到的声音中是否有与预存的声音相匹配的目标声音的步骤之后还包括：若采集到的声音中没有与预存的声音相匹配的目标声音，则对任一发声声源进行对焦。

本发明同时提出一种摄像装置，声音采集模块、处理模块和对焦模块，其中：

声音采集模块，用于采集声音；

处理模块，用于判断采集到的声音中是否有与预存的声音相匹配的目标声音，若是，则向对焦模块发送第一对焦信号；

对焦模块，用于根据所述第一对焦信号对发出所述目标声音的目标声源进行对焦。

优选地，所述处理模块用于：

若检测到采集到的声音为至少两声源发出的声音，则分离出各声源的声音；提取出各声源的声音的声学特征，并分别与预存的声音的声学特征进行比较；若其中一声源的声音的声学特征与预存的声音的声学特征相匹配，则判定该声源的声音为目标声音，该声源为目标声源。

优选地，所述对焦模块用于：对发出所述目标声音的目标声源进行定位，控制摄像头对准所述目标声源的定位方向进行对焦。

优选地，所述对焦模块用于：若预存的声音至少有两个，且匹配出的目标声音也至少有两个，则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。

优选地，所述处理模块用于：若判定采集到的声音中没有与预存的声音相匹配的目标声音，则向所述对焦模块发送第二对焦信号；

所述对焦模块用于：根据所述第二对焦信号对任一发声声源进行对焦。

本发明所提供的一种摄像装置的对焦方法，通过采集声音、分离声音、匹配声音，从而识别出目标声音及对应的目标声源，并自动对该目标声源进行对焦，最终实现了通过声音对跟踪目标进行跟踪拍摄，即使跟踪目标不断转换或不断移动，也能实现实时跟踪拍摄。

附图说明

图1是本发明的摄像装置的对焦方法第一实施例的流程图；

图2是本发明中声音匹配的具体流程图；

图3是本发明的摄像装置的对焦方法第二实施例的流程图；

图4是本发明的摄像装置一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所述的摄像装置，包括一切具有摄像功能的设备，如手机、平板电脑、摄像机、监控摄像头等等。

参见图1，提出本发明的摄像装置的对焦方法第一实施例，所述对焦方法包括以下步骤：

步骤S101：开始摄像

步骤S102：在拍摄过程中采集声音

摄像装置利用至少两麦克风，优选利用由多个麦克风组成的麦克风阵列来采集声音。

步骤S103：判断采集到的声音中是否有与预存的声音相匹配的目标声音

摄像装置中预先录制或获取了某人的声音片段，并对该声音片段进行分析，提取出该声音片段的声学特征并予以存储。摄像装置实时或定时的对采集到的声音进行采样，分析采集到的声音中是否有与预存的声音相匹配的目标声音，若其中有目标声音，则进入步骤S104；若没有目标声音，则保持当前的对焦状态。

声音的匹配流程具体如图2所示，包括以下步骤：

步骤S110：判断采集到的声音是否为单一声源发出的声音

若为至少两声源发出的声音，则进入步骤S120；若为单一声源发出的声音，则进入步骤S160。

步骤S120：分离出各声源的声音

可以利用传统的声源分离方法，如基于独立分量分析的声源分析方法分离出多个声源中每一个声源的声音，其充分利用在声源之间声源的源信号是独立的这一事实。在独立分量分析中，根据声源数量使用维数等于麦克风数量的线性滤波器，当声源的数量小于麦克风的数量时，能够完全恢复源信号。当声源数量超过麦克风数量时，可以使用L1范最小化方法，该方法利用了语音功率谱的概率分布接近拉普拉斯分布而不是高斯分布这一事实。

优选利用以下方法进行声源分离：将来自至少两个声源的模拟声音输入转换为数字声音输入；将数字声音输入从时域转换到频域；产生第一解集，且该解集使得来自声源1到N中活动的那些声音的估计的误差最小；根据第一解集估计活动声源的数量，以生产最优分离解集，该最优分离解集最接近收到的模拟声音输入的每个声源；将最优分离解集转换到时域。从而，即使在声源数量超过麦克风数量，并且出现一些具有高S/N的背景噪声、回声和混响的环境里，也能够分离出每个声源的声音。

步骤S130：提取出各声源的声音的声学特征，并分别与预存的声音的声学特征进行比较

目前声音匹配方法中常用的提取声学特征的方法包括线性预测倒谱(LPCC)参数、美化倒谱参数(MFCC)等等。

具体的，摄像装置从各声源的声音中提取声学特征形成待识别的特征矢量序列，如将每个待识别的特征矢量序列与预存的声音的声学特征形成的特征矢量序列进行匹配得分(也称为对数似然的分，或似然的分，或得分)，进行判决；根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果。

步骤S140：若其中一声源的声音的声学特征与预存的声音的声学特征相匹配，则判定该声源的声音为目标声音，该声源为目标声源

若其中一声源的声音的匹配得分最高，且超过预设阈值，则判定该声音为目标声音，该声源为目标声源。

步骤S150：提取出采集到的声音的声学特征

若采集到的声音由单一声源发出，则直接提取出该声音的声学特征形成的待识别的特征矢量序列。

步骤S160：判断采集到的声音的声学特征与预存的声音的声学特征是否匹配

将待识别的特征矢量序列与预存的声音的声学特征形成的特征矢量序列进行匹配得分，进行判决；根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果。若相匹配，则进入步骤S170；否则，则判定采集到的声音中没有目标声音。

步骤S170：判定采集到的声音为目标声音，发声声源为目标声源

若匹配得分超过预设阈值，则判定采集到的该声音为目标声音，发声声源为目标声源。

当匹配出目标声音后，则进入步骤S104。

步骤S104：对发出目标声音的目标声源进行对焦

摄像装置检测到目标声音后，则利用传统的定位方法对发出目标声音的目标声源进行定位，然后控制摄像头对准目标声源的定位方向，对该目标声源进行对焦。从而，利用该对焦方法，可以利用摄像头对跟踪目标进行实时跟踪拍摄。

在某些实施例中，摄像装置中预存了至少两个人的声音，并对预存的多个声音进行优先级排序，当据此匹配出的目标声音至少有两个时，摄像装置则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。即，摄像装置中存储了多个跟踪目标的声音特征，当多个跟踪目标同时发声时，则对准优先级较高的跟踪目标进行对焦。或者，也可以由用户从预存的跟踪目标中指定一跟踪目标进行跟踪拍摄。

参见图3，提出本发明的摄像装置的对焦方法第二实施例，所述对焦方法包括以下步骤：

步骤S201：开始摄像

步骤S202：在拍摄过程中采集声音

步骤S203：判断采集到的声音中是否有与预存的声音相匹配的目标声音

若有目标声音，则进入步骤S204；若没有目标声音，则进入步骤S205。

步骤S204：对发出目标声音的目标声源进行对焦

步骤S205：对任一发声声源进行对焦

当发声声源为唯一声源时，则对该唯一声源进行定位，控制摄像头对准该声源的定位方向进行对焦；当发声声源有多个时，则对多个声源进行分离，并选择任一声源进行定位，控制摄像头对准该声源的定位方向进行对焦。本实施例尤其适用于会议场景，当会议中重要人物讲话时，则聚焦于该重要人物；当重要人物没有讲话，而有其他人发言时，则聚焦于其它人。

此外，摄像装置此时也可以根据预设规则选择对焦目标，如就近原则、音量最大原则等。

摄像装置可以在开始拍摄之前预先存储跟踪目标的声音，然后在拍摄过程中对跟踪目标进行跟踪拍摄。摄像装置也可以在拍摄过程中选定跟踪目标，然后对该跟踪目标进行跟踪拍摄。例如，拍摄过程中，用户在拍摄画面上选定一跟踪目标，摄像装置根据现有的转换方法将跟踪目标在拍摄画面上的平面位置转换为空间位置，并获取该跟踪目标的声音，通过分析提取出该声音的声学特征并予以存储，随后无论该跟踪目标在摄像范围内如何移动，摄像装置都能对其跟踪拍摄。

从而，本发明的摄像装置的对焦方法，通过采集声音、分离声音、匹配声音，从而识别出目标声音及对应的目标声源，并自动对该目标声源进行对焦，最终实现了通过声音对跟踪目标的跟踪拍摄，即使跟踪目标不断转换或不断移动，也能实现实时跟踪拍摄。

参见图4，提出本发明的摄像装置一实施例，所述摄像装置包括声音采集模块、处理模块和对焦模块。

声音采集模块：用于采集声音。

声音采集模块通过至少两麦克风，优选通过由多个麦克风组成的麦克风阵列来采集声音。

处理模块：用于判断采集到的声音中是否有与预存的声音相匹配的目标声音，若是，则向对焦模块发送第一对焦信号。

摄像装置中预先录制或获取了某人的声音片段，并对该声音片段进行分析，提取出该声音片段的声学特征并予以存储。

处理模块实时或定时的对采集到的声音进行采样，分析采集到的声音中是否有与预存的声音相匹配的目标声音，若其中有目标声音，则向对焦模块发送第一对焦信号。

具体的，处理模块首先判断采集到的声音是否为单一声源发出的声音。

如果是至少两声源发出的声音，则分离出各声源的声音。可以利用传统的声源分离方法，如基于独立分量分析的声源分析方法分离出多个声源中每一个声源的声音，其充分利用在声源之间声源的源信号是独立的这一事实。在独立分量分析中，根据声源数量使用维数等于麦克风数量的线性滤波器，当声源的数量小于麦克风的数量时，能够完全恢复源信号。当声源数量超过麦克风数量时，可以使用L1范最小化方法，该方法利用了语音功率谱的概率分布接近拉普拉斯分布而不是高斯分布这一事实。优选利用一下方法进行声源分离：将来自至少两个声源的模拟声音输入转换为数字声音输入；将数字声音输入从时域转换到频域；产生第一解集，且该解集使得来自声源1到N中活动的那些声音的估计的误差最小；根据第一解集估计活动声源的数量，以生产最优分离解集，该最优分离解集最接近收到的模拟声音输入的每个声源；将最优分离解集转换到时域。从而，即使在声源数量超过麦克风数量，并且出现一些具有高S/N的背景噪声、回声和混响的环境里，也能够分离出每个声源的声音。

声源分离后，提取出各声源的声音的声学特征，并分别与预存的声音的声学特征进行比较。目前声音匹配方法中常用的提取声学特征的方法包括线性预测倒谱(LPCC)参数、美化倒谱参数(MFCC)等等。具体的处理模块从各声源的声音中提取声学特征形成待识别的特征矢量序列，如将每个待识别的特征矢量序列与预存的声音的声学特征形成的特征矢量序列进行匹配得分(也称为对数似然的分，或似然的分，或得分)，进行判决；根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果。若其中一声源的声音的声学特征与预存的声音的声学特征相匹配(如，其中一声源的声音的匹配得分最高，且超过预设阈值)，则判定该声源的声音为目标声音，该声源为目标声源；否则，则，则判定采集到的声音中没有目标声音。

如果是单一声源发出的声音，则直接提取出采集到的声音的声学特征，判断采集到的声音的声学特征与预存的声音的声学特征是否匹配，若相匹配，则判定采集到的声音为目标声音，发声声源为目标声源，否则，则判定采集到的声音中没有目标声音。

在某些实施例中，当处理模块判定采集到的声音中没有目标声音时，则向对焦模块发送第二对焦信号。

对焦模块：用于根据第一对焦信号对发出目标声音的目标声源进行对焦。

具体的，对焦模块接收到第一对焦信号后，则利用传统的定位方法对发出目标声音的目标声源进行定位，然后控制摄像头对准目标声源的定位方向，对该目标声源进行对焦。从而，利用该对焦方法，可以利用摄像头对跟踪目标进行实时跟踪拍摄。

当摄像装置中预存了至少两个人的声音，并对预存的多个声音进行了优先级排序，而处理模块据此匹配出的目标声音至少有两个时，对焦模块则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。即，摄像装置中存储了多个跟踪目标的声音特征，当多个跟踪目标同时发声时，则对准优先级较高的跟踪目标进行对焦。或者，也可以由用户从预存的跟踪目标中指定一跟踪目标进行跟踪拍摄。

在某些实施例中，当处理模块向对焦模块发送第二对焦信号时，对焦模块根据第二对焦信号对任一发声声源对焦。当发声声源为唯一声源时，则对该唯一声源进行定位，控制摄像头对准该声源的定位方向进行对焦；当发声声源有多个时，处理模块则对多个声源进行分离，对焦模块选择任一声源进行定位，控制摄像头对准该声源的定位方向进行对焦。本实施例尤其适用于会议场景，当会议中重要人物讲话时，则聚焦于该重要任务；当重要人物没有讲话，而有其他人发言时，则聚焦于其它人。此外，对焦模块此时也可以根据预设规则选择对焦目标，如就近原则、音量最大原则等。

摄像装置可以在开始拍摄之前预先存储跟踪目标的声音，然后在拍摄过程中对跟踪目标进行跟踪拍摄。摄像装置也可以在拍摄过程中选定跟踪目标，然后对该跟踪目标进行跟踪拍摄。例如，拍摄过程中，用户在拍摄画面上选定一跟踪目标，摄像装置根据现有的转换方法将跟踪目标在拍摄画面上的平面位置转换为空间位置，并获取该跟踪目标的声音，通过分析提取出该声音的声学特征并予以存储，随后无论该跟踪目标在摄像范围内如何移动，都可通过声音的特征匹配，来确定目标声源的方位，进而摄像装置都能对其对焦跟踪拍摄。

据此，本发明的摄像装置，通过采集声音、分离声音、匹配声音，从而识别出目标声音及对应的目标声源，并自动对该目标声源进行对焦，最终实现了通过声音对跟踪目标的跟踪拍摄，即使跟踪目标不断转换或不断移动，也能实现实时跟踪拍摄。

需要说明的是，上述方法实施例中的技术特征在本装置均对应适用。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来控制相关的硬件完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质可以是ROM/RAM、磁盘、光盘等。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种摄像装置的对焦方法，应用于移动终端，其特征在于，包括步骤：

在拍摄过程中，确定用户在拍摄画面上选定的跟踪目标，获取所述跟踪目标的声音，通过分析提取出该声音的声学特征并予以存储；

采集声音，判断采集到的声音中是否有与预存的声音的声学特征相匹配的目标声音，若是，则对发出所述目标声音的目标声源进行对焦。

2.根据权利要求1所述的摄像装置的对焦方法，其特征在于，所述判断采集到的声音中是否有与预存的声音相匹配的目标声音包括：

3.根据权利要求1所述的摄像装置的对焦方法，其特征在于，所述对发出所述目标声音的目标声源进行对焦包括：

对发出所述目标声音的目标声源进行定位；

对准所述目标声源的定位方向进行对焦。

4.根据权利要求1-3任一项所述的摄像装置的对焦方法，其特征在于，所述方法还包括：若预存的声音至少有两个，且匹配出的目标声音也至少有两个，则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。

5.根据权利要求1-3任一项所述的摄像装置的对焦方法，其特征在于，判断采集到的声音中是否有与预存的声音相匹配的目标声音的步骤之后还包括：若采集到的声音中没有与预存的声音相匹配的目标声音，则对任一发声声源进行对焦。

6.一种摄像装置，应用于移动终端，其特征在于，声音采集模块、处理模块和对焦模块，其中：

声音采集模块，用于采集声音；

处理模块，用于在拍摄过程中，确定用户在拍摄画面上选定的跟踪目标，获取所述跟踪目标的声音，通过分析提取出该声音的声学特征并予以存储；判断采集到的声音中是否有与预存的声音的声学特征相匹配的目标声音，若是，则向对焦模块发送第一对焦信号；

7.根据权利要求6所述的摄像装置，其特征在于，所述处理模块用于：

8.根据权利要求6所述的摄像装置，其特征在于，所述对焦模块用于：对发出所述目标声音的目标声源进行定位，控制摄像头对准所述目标声源的定位方向进行对焦。

9.根据权利要求6-8任一项所述的摄像装置，其特征在于，所述对焦模块用于：若预存的声音至少有两个，且匹配出的目标声音也至少有两个，则根据预设的优先级顺序对优先级较高的目标声音所对应的目标声源进行对焦。

10.根据权利要求6-8任一项所述的摄像装置，其特征在于，所述处理模块用于：若判定采集到的声音中没有与预存的声音相匹配的目标声音，则向所述对焦模块发送第二对焦信号；