CN109696658B

CN109696658B - 采集设备、声音采集方法、声源跟踪系统及其方法

Info

Publication number: CN109696658B
Application number: CN201710994756.6A
Authority: CN
Inventors: 刘成
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-08-24
Anticipated expiration: 2037-10-23
Also published as: US20210349178A1; CN109696658A; US11525883B2; EP3703387A4; EP3703387A1; WO2019080705A1

Abstract

一种采集设备、声音采集方法、声源跟踪系统和声源跟踪方法。该采集设备包括语音采集装置、图像采集装置和信息处理装置。图像采集装置被配置为采集所述采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；信息处理装置被配置为处理光学图像以确定采集对象的位置信息，并根据采集对象的位置信息控制语音采集装置的拾音角度。该采集设备通过采集并处理跟踪区域的光学图像，以确定采集对象的位置，从而控制语音采集装置进行声源跟踪，可以提高声源跟踪的准确性和效率，降低噪声，还可以实现多声源识别跟踪。

Description

采集设备、声音采集方法、声源跟踪系统及其方法

技术领域

本公开的实施例涉及一种采集设备、声音采集方法、声源跟踪系统和声源跟踪方法。

背景技术

声源定位技术是一种确定一个或多个声源的空间位置信息的技术。声源定位技术具有被动探测方式、非接触式测量、不受通讯条件干扰、隐蔽性强、不受能见度限制等特点，从而声源定位技术可以广泛应用于医学研究、交通检测、视频会议、军事、机器人语音识别等领域。

发明内容

本公开至少一实施例提供一种采集设备，其包括：语音采集装置、图像采集装置和信息处理装置。图像采集装置被配置为采集所述采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；信息处理装置被配置为处理光学图像以确定采集对象的位置信息，并根据采集对象的位置信息控制语音采集装置的拾音角度。

例如，在本公开一实施例提供的采集设备中，所述采集对象为可穿戴设备，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；所述信息处理装置还被配置为：确定所述可穿戴设备在所述光学图像中的图像位置信息；根据所述图像位置信息确定所述可穿戴设备在所述摄像坐标系中的水平方位角度，所述可穿戴设备的所述水平方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的采集设备中，所述采集对象为可穿戴设备，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中，所述信息处理装置还被配置为：确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；将所述可穿戴设备的所述摄像位置信息转换为在所述语音采集坐标系中的语音采集位置信息；以及根据所述语音采集位置信息确定所述可穿戴设备在所述语音采集坐标系中的方位角度，所述可穿戴设备的所述方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的采集设备中，所述采集对象为声源对象，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；所述信息处理装置还被配置为：确定可穿戴设备在所述光学图像中的图像位置信息；确定在所述光学图像中所述可穿戴设备和所述声源对象之间的第一图像相对位置信息；以及根据所述可穿戴设备的图像位置信息以及所述第一图像相对位置信息，确定所述声源对象在所述摄像坐标系中的水平方位角度，所述声源对象的所述水平方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的采集设备中，所述信息处理装置还被配置为：确定所述可穿戴设备在所述光学图像中的图像参考位置信息；在所述光学图像中确定所述可穿戴设备的图像位置信息和图像参考位置信息之间的第二图像相对位置信息；获取所述声源对象和所述图像参考位置信息之间的第三图像相对位置信息；以及根据所述第三图像相对位置信息以及所述第二图像相对位置信息，确定所述第一图像相对位置信息。

例如，在本公开一实施例提供的采集设备中，所述采集对象为声源对象，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；所述信息处理装置还被配置为：确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；确定在所述摄像坐标系中所述可穿戴设备和所述声源对象之间的第一摄像相对位置信息；根据所述可穿戴设备的摄像位置信息和所述第一摄像相对位置信息，确定所述声源对象在所述摄像坐标系中的摄像声源位置信息；将所述摄像声源位置信息转换为在所述语音采集坐标系中的语音采集声源位置信息；以及根据所述语音采集声源位置信息确定所述声源对象在所述语音采集坐标系中的方位角度，所述方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的采集设备中，所述信息处理装置还被配置为：确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息；在所述摄像坐标系中确定所述可穿戴设备的摄像位置信息和摄像参考位置信息之间的第二摄像相对位置信息；获取所述声源对象和所述摄像参考位置信息之间的第三摄像相对位置信息；以及根据所述第三摄像相对位置信息以及所述第二摄像相对位置信息，确定所述第一摄像相对位置信息。

本公开至少一实施例还提供一种声源跟踪系统，其包括可穿戴设备和上述任一项所述的采集设备。可穿戴设备包括发光元件。在可穿戴设备位于采集设备的跟踪区域之内时，发光元件被配置为发光。

例如，在本公开一实施例提供的声源跟踪系统中，在所述可穿戴设备位于所述采集设备的跟踪区域之内时，所述图像采集装置被配置为采集所述采集设备的跟踪区域的光学图像。

例如，在本公开一实施例提供的声源跟踪系统中，所述图像采集装置设置在摄像坐标系中，所述可穿戴设备还包括控制器和惯性测量单元，所述惯性测量单元被配置为检测所述可穿戴设备的运动信息；所述控制器或所述信息处理装置被配置为：获取所述可穿戴设备的类型信息；获取所述可穿戴设备的运动信息；根据所述可穿戴设备的运动信息和所述可穿戴设备的类型信息，确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息，或者，确定所述可穿戴设备在所述光学图像中的图像参考位置信息。

例如，本公开一实施例提供的声源跟踪系统包括多个可穿戴设备，所述多个可穿戴设备的发光元件的发光参数的变化方式彼此不同。

本公开至少一实施例还提供一种声音采集方法，其包括：获取采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；处理光学图像以确定采集对象的位置信息；以及根据采集对象的位置信息控制采集设备的语音采集装置的拾音角度。

例如，在本公开一实施例提供的声音采集方法中，图像采集装置被配置为采集所述光学图像，所述采集对象为可穿戴设备，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；所述声音采集方法还包括：确定所述可穿戴设备在所述光学图像中的图像位置信息；根据所述图像位置信息确定所述可穿戴设备在所述摄像坐标系中的水平方位角度，所述可穿戴设备的所述水平方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的声音采集方法中，图像采集装置被配置为采集所述光学图像，所述采集对象为可穿戴设备，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；所述声音采集方法还包括：确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；将所述可穿戴设备的所述摄像位置信息转换为在所述语音采集坐标系中的语音采集位置信息；以及根据所述语音采集位置信息确定所述可穿戴设备在所述语音采集坐标系中的方位角度，所述可穿戴设备的所述方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的声音采集方法中，图像采集装置被配置为采集所述光学图像，所述采集对象为声源对象，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；所述声音采集方法还包括：确定可穿戴设备在所述光学图像中的图像位置信息；确定在所述光学图像中所述可穿戴设备和所述声源对象之间的第一图像相对位置信息；以及根据所述可穿戴设备的图像位置信息以及所述第一图像相对位置信息，确定所述声源对象在所述摄像坐标系中的水平方位角度，所述声源对象的所述水平方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的声音采集方法中，确定在所述光学图像中所述可穿戴设备和所述声源对象之间的第一图像相对位置信息，包括：确定所述可穿戴设备在所述光学图像中的图像参考位置信息；在所述光学图像中确定所述可穿戴设备的图像位置信息和图像参考位置信息之间的第二图像相对位置信息；获取所述声源对象和所述图像参考位置信息之间的第三图像相对位置信息；以及根据所述第三图像相对位置信息以及所述第二图像相对位置信息，确定所述第一图像相对位置信息。

例如，在本公开一实施例提供的声音采集方法中，图像采集装置被配置为采集所述光学图像，所述采集对象为声源对象，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；所述声音采集方法还包括：确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；确定在所述摄像坐标系中所述可穿戴设备和所述声源对象之间的第一摄像相对位置信息；根据所述可穿戴设备的摄像位置信息以及所述第一摄像相对位置信息，确定所述声源对象在所述摄像坐标系中的摄像声源位置信息；将所述摄像声源位置信息转换为在所述语音采集坐标系中的语音采集声源位置信息；以及根据所述语音采集声源位置信息确定所述声源对象在所述语音采集坐标系中的方位角度，所述方位角度被设置为所述语音采集装置的拾音角度。

例如，在本公开一实施例提供的声音采集方法中，确定在所述摄像坐标系中所述可穿戴设备和所述声源对象之间的第一摄像相对位置信息，包括：确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息；在所述摄像坐标系中确定所述可穿戴设备的摄像位置信息和摄像参考位置信息之间的第二摄像相对位置信息；获取所述声源对象和所述摄像参考位置信息之间的第三摄像相对位置信息；以及根据所述第三摄像相对位置信息以及所述第二摄像相对位置信息，确定所述第一摄像相对位置信息。

本公开至少一实施例还提供一种声源跟踪方法，其包括：在确定可穿戴设备位于采集设备的跟踪区域之内时，控制可穿戴设备的发光元件发光；获取采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；处理光学图像以确定采集对象的位置信息；以及根据采集对象的位置信息控制采集设备的语音采集装置的拾音角度。

例如，在本公开一实施例提供的声源跟踪方法中，图像采集装置被配置为采集所述光学图像，所述图像采集装置设置在摄像坐标系中，所述可穿戴设备还包括惯性测量单元，所述声源跟踪方法还包括：通过所述惯性测量单元检测所述可穿戴设备的运动信息；获取所述可穿戴设备的类型信息；根据所述可穿戴设备的运动信息和所述可穿戴设备的类型信息，确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息，或者，确定所述可穿戴设备在所述光学图像中的图像参考位置信息。

本公开实施例提供一种采集设备、声音采集方法、声源跟踪系统和声源跟踪方法，其通过采集设备采集并处理光学图像，以确定采集对象的位置，从而控制语音采集装置进行声源跟踪，可以提高声源跟踪的准确性和效率，降低噪声，还可以实现多声源识别跟踪。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开一实施例提供的一种采集设备的示意性框图；

图2为本公开一实施例提供的一种可穿戴设备的示意性框图；

图3为一种摄像机标定模型的坐标系示意图；

图4A为本公开一实施例提供的一种采集设备跟踪采集对象的一种场景示意图；

图4B为本公开一实施例提供的一种采集设备跟踪采集对象的另一种场景示意图；

图4C为本公开一实施例提供的一种采集设备跟踪采集对象的又一种场景示意图；

图5A为本公开一实施例提供的另一种采集设备跟踪采集对象的一种场景示意图；

图5B为本公开一实施例提供的另一种采集设备跟踪采集对象的另一种场景示意图；

图5C为本公开一实施例提供的另一种采集设备跟踪采集对象的又一种场景示意图；

图6为本公开一实施例提供的一种声源跟踪系统的示意性框图；

图7为本公开实施例提供的一种声音采集方法的流程图；

图8为本公开实施例提供的一种声源跟踪方法的总体流程图；以及

图9为本公开实施例提供的一种声源跟踪方法的示意性流程图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

麦克风阵列由一组按一定方式排布的麦克风组成。可以利用麦克风阵列拾取语音信号，并利用数字信号处理技术对被拾取的语音信号进行分析和处理，继而实现对声源的定位。同时，麦克风阵列可以将其拾音角度指向声源的方位，抑制其他方位的噪声干扰，从而实现声源跟踪。在一些情况下，麦克风阵列虽然可以较准确地控制拾音角度，但对声源的定位准确度不高、速度较慢，仅靠麦克风阵列难以实现对声源准确、及时地跟踪。尤其，当麦克风阵列的跟踪区域存在多个声源时，则可能导致声源跟踪失败。

视觉识别跟踪技术包括从视频中检测出特定物体的位置，并保持对其位置进行跟踪。视觉识别跟踪技术可以基于物体的外形、颜色、红外等自身的光学特征而实现对特定物体进行检测和跟踪。当特定物体的识别特征较复杂，或者特定物体处于运动或变形(由于运动、姿态变化、遮挡等原因导致)等状态时，利用视觉识别跟踪技术检测和跟踪特定物体则较困难。

本公开至少一实施例提供一种采集设备、声音采集方法、声源跟踪系统和声源跟踪方法，其通过采集设备采集并处理光学图像，以确定采集对象的位置，从而控制语音采集装置进行声源跟踪，可以提高声源跟踪的准确性和效率，降低噪声，实现多声源识别跟踪。

需要说明的是，在本公开下面的描述中，“位置信息”可以包括角度方位、距离和位置矢量等中的一种或多种。

下面结合附图对本公开实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图1为本公开一实施例提供的一种采集设备的示意性框图。

例如，如图1所示，本公开实施例提供的采集设备101可以包括语音采集装置102、信息处理装置105和图像采集装置104。图像采集装置104被配置为获取采集设备101的跟踪区域之内的光学图像，光学图像可以包括采集对象。信息处理装置105被配置为处理光学图像以确定采集对象的位置信息，并根据采集对象的位置信息控制语音采集装置102的拾音角度。

例如，跟踪区域可以包括图像采集装置104的图像采集区域。

例如，拾音角度可以为语音采集装置102采集声音时的声源方位角。

例如，语音采集装置102可以包括多个语音采集器件103。图1仅示出了两个语音采集器件103，但本公开不限于此。根据实际设计需要，语音采集装置102可以包括多个(例如三个、四个、五个等)语音采集器件103。语音采集装置102可以包括麦克风阵列，即多个语音采集器件103组成麦克分阵列。多个语音采集器件103的排列形式可以为一字形、三角形、环形、十字形、球形、螺旋形等。一字形例如可以表示多个语音采集器件103排列为一行或一列。

例如，语音采集器件103可以为各种类型的麦克风或其他能够采集语音的器件。麦克风可以为驻极体电容器麦克风或微型机电系统(MEMS)麦克风等。

例如，语音采集器件103可以采集声源对象的声音信息。信息处理装置105还被配置为处理语音采集器件103采集的声音信息。

例如，语音采集器件103可以设置在采集设备101的表面。

例如，图像采集装置104可以包括一个或多个摄像头。摄像头例如可以为智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头或者网络摄像头等。在一个示例中，图像采集装置104可以包括一个单目摄像头，也就是说，图像采集装置104包括一个摄像头。单目摄像头可以用于确定获取到的光学图像中指定像素或指定区域在空间中相对于图像采集装置104的角度方位。在另一个示例中，图像采集装置104可以包括一个或多个多目(例如，双目、三目等)摄像头，即，图像采集装置104包括多个(例如，两个、三个等)摄像头。多目摄像头可以用于确定获取到的光学图像中指定像素或指定区域在空间中相对于图像采集装置104的角度方位和距离。

例如，图像采集装置104的工作波段可以为可见光波段、红外波段、紫外波段或它们的组合。图像采集装置104可以通过组合多个滤光片和多个摄像头而实现不同的工作波段。例如，滤光片可以包括红外滤光片、可见光滤光片等。红外滤光片用于透过红外光，例如，透过波长为0.85μm-0.95μm的红外光；可见光滤光片用于透过可见光，例如，透过波长为0.63μm-0.76μm的可见光。滤光片可以设置在摄像头的图像输入端以透过特定波长的光，从而使摄像头采集到的光学图像为红外图像或可见光图像等，也就是说，图像采集装置104的工作波段为红外波段、可见光波段等。

例如，图像采集装置104中的摄像头可以具有旋转、调整焦距、自动对焦功能中的一种或多种，从而图像采集装置104可以跟踪位于采集设备101的跟踪区域之内的物体。

例如，语音采集装置102的拾音角度所覆盖的范围可以包括采集设备101的跟踪区域，从而图像采集装置104可以跟踪位于采集设备101的跟踪区域内的任意位置的物体。

例如，图像采集装置104可以设置在采集设备101的表面或外部，且面向采集设备101的跟踪区域，从而可以采集该跟踪区域内的光学图像。

例如，信息处理装置105可以是具有数据处理能力和/或程序执行能力的处理装置。信息处理装置105包括但不限于处理器、单片机、数字信号处理(Digital SignalProcess,DSP)、专用集成电路(Application Specific Integrated Circuits,ASIC)等器件中的一种或多种。处理器例如可以为中央处理单元(CPU)、现场可编程门阵列(FPGA)或张量处理单元(TPU)等。信息处理装置105可以包括上述器件中的一个或多个芯片。

例如，信息处理装置105还被配置为对光学图像进行预处理。预处理可以消除光学图像中的无关信息或噪声信息，以便于更好地识别光学图像中的采集对象。预处理例如可以包括对光学图像进行缩放、伽玛(Gamma)校正、图像增强或降噪滤波等处理。

本公开实施例提供的采集设备通过采集并处理光学图像，以确定采集对象的位置，从而控制语音采集装置的进行声源跟踪，可以提高声源跟踪的准确性和效率，降低噪声、实现多声源识别跟踪。

例如，如图1所示，采集设备101还包括第一电源107。第一电源107用于在信息处理装置105的控制下向采集设备101中的各个组件提供操作所需的电力。第一电源107可以包括外接的直流或交流电源线。第一电源107还可以包括电池，例如一次电池或二次电池。

例如，如图1所示，采集设备101还包括第一通信装置106。第一通信装置106被配置为可以通过无线信号接收和传送信息。信息处理装置105还被配置处理第一通信装置106接收的信息。例如，第一通信装置10可以为无线收发机。

例如，跟踪区域也可以包括第一通信装置106的通信范围。

例如，信息处理装置105、第一通信装置106和第一电源107可以设置在采集设备101的内部。

图2为本公开一实施例提供的一种可穿戴设备的示意性框图。

例如，如图2所示，本公开实施例提供的可穿戴设备201可以包括一个或多个发光元件202。发光元件202被配置为可以发出光线，且其发出的光线可以被传输至可穿戴设备201之外。发光元件202例如可以分布在可穿戴设备201的表面或内部，只要发光元件202发出的光线可以传输至可穿戴设备201之外即可。本公开对此不作限制。例如，当发光元件202分布在可穿戴设备201的内部时，其发出的光线例如可以透过可穿戴设备201的透明外壳传输到可穿戴设备201之外。

例如，在可穿戴设备201位于采集设备101的跟踪区域之内时，发光元件202被配置为发光，且图像采集装置104被配置为获取采集设备101的跟踪区域的光学图像。由此，图像采集装置104可以接收发光元件202发出的光线并呈现在光学图像中。

例如，可穿戴设备201可以为手环、手表、眼镜、衣帽、项链或其他类型的可穿戴设备中的一种或多种。

例如，发光元件202可以为发光二极管(LED)、阴极发射灯等。发光元件202例如可以为红外LED阵列。本公开实施例对此不作限制。

例如，发光元件202发出的光线可以是红外线、可见光、紫外线中的一种或多种。在一个示例中，发光元件202发出的光线可以为红外线，该红外线可以为近红外线或中红外线。近红外线的波长范围为0.7μm至2.5μm。中红外线的波长范围可以为2.5μm至25μm。

例如，在同一个可穿戴设备201中，多个发光元件202的发光参数的变化方式均相同。不同的可穿戴设备201中的发光元件202的发光参数的变化方式彼此不相同，从而采集设备101可以根据采集到的光学图像中发光元件202的发光参数的变化方式而区分不同的可穿戴设备201，进而实现多声源跟踪。

例如，发光元件202的发光参数可以包括发光波长、发光频率、发光波段或发光亮度等中的一个或多个。例如，采集设备101可以检测发光元件202发出的光的波长，以区分不同的可穿戴设备201；采集设备101也可以检测一段时间内光学图像序列中发光元件202的发光参数的变化方式，以区分不同的可穿戴设备201。发光参数的变化方式例如可以作为可穿戴设备201的标识信息，且可以通过无线信号由可穿戴设备201传输到采集设备101中。当采集设备101检测到发光元件202的发光参数的变化方式后，根据发光元件202的发光参数的变化方式可以确定可穿戴设备201的类型信息。

例如，如图2所示，可穿戴设备201还包括惯性测量单元207。惯性测量单元207用于测量可穿戴设备201的加速度，从而检测可穿戴设备201的运动信息。在可穿戴设备201位于采集设备101的跟踪区域之内时，若发光元件202被遮挡，则惯性测量单元207可以检测可穿戴设备201的位置信息并将其传输至采集设备101，从而避免由于发光元件202被遮挡而造成声源对象跟踪丢失的问题。

例如，惯性测量单元207至少具有测量水平方向加速度的能力。由此，惯性测量单元207可以为三轴加速度传感器和三轴角速度传感器的组合，或者三轴加速度传感器、三轴角速度传感器和三轴磁场传感器的组合等。本公开不限制惯性测量单元207的具体结构。

例如，惯性测量单元207还被配置为确定声源对象的位置。

例如，如图2所示，可穿戴设备201还包括第二通信装置206。第二通信装置206被配置为可以通过无线信号接收和传送信息。例如，第二通信装置206可以为无线收发机。例如，通过WiFi、蓝牙或NFC等无线连接方式，第二通信装置206可以与第一通信装置106进行通信。

例如，如图2所示，可穿戴设备201还包括控制器204和存储器205。控制器204可以控制可穿戴设备201的相关组件协同工作。控制器204被配置为控制发光元件202发光，控制第二通信装置206发送和/或接收信息和读取惯性测量单元207的测量值。例如，控制器204可以包括处理器或微处理器等。

例如，控制器204可以控制发光元件202调整其一种或多种发光参数。调整发光参数的时间周期应长于图像采集装置104的采样间隔。调整发光元件202的发光参数，形成一个发光参数变化的时间序列以作为可穿戴设备201的标识信息，从而区分不同的可穿戴设备201。例如，通过调整发光元件202的亮度，形成明暗变化的时间序列以作为可穿戴设备201的标识信息。通过调整颜色(即波长)，形成例如“红蓝绿黄红黄绿”的颜色变化的时间序列以作为可穿戴设备201的标识信息。

例如，存储器205中存储有控制器204运行所需代码和可穿戴设备201的标识信息、类型信息等。

例如，声源对象靠近与离开采集设备101的跟踪区域可以通过第一通信装置106和第二通信装置206互相进入与离开彼此的通信范围判断，也可以通过声源对象进入或离开图像采集装置104的拍摄区域(即图像采集区域)判断。例如，在一个示例中，当图像采集装置104拍摄到的光学图像中存在声源对象时，采集设备101的第一通信装置106可以经由无线信号将触发信号传输至可穿戴设备201的第二通信装置206，然后第二通信装置206将触发信号传输至控制器204，从而控制器204控制发光元件201发光。在另一个示例中，当第二通信装置206检测到第一通信装置106进入其通信范围时，第二通信装置206将触发信号传输至控制器204，从而控制器204控制发光元件201发光。触发信号例如可以为触发发光元件202发光的信号。

例如，如图2所示，可穿戴设备201还包括第二电源203。第二电源203用于为发光元件202、控制器204、存储器205、第二通信装置206和惯性测量单元207提供电力。第二电源203可以为可充电电池、太阳能电池等。但不限于此，第二电源也可以为一次电池或二次电池。

例如，第二电源203、控制器204、第二通信装置206和存储器205等可以设置在可穿戴设备201的内部。

例如，在一个实施例中，采集对象可以为可穿戴设备201。下面结合图4A和5A对采集对象为可穿戴设备201进行说明。

例如，如图4A所示，在一个示例中，采集设备101A包括语音采集装置102A和图像采集装置104A。图像采集装置104A可以包括一个单目摄像头。该单目摄像头的工作波段为可见光波段。该语音采集装置102A包括四个语音采集器件103。四个语音采集器件103按照一字形排布。

例如，如图4A所示，图像采集装置104A和语音采集装置102A可以均设置在摄像坐标系402(即O-xyz坐标系)中。摄像坐标系402的原点O可以为图像采集装置104A的中心。摄像坐标系402的y轴方向可以为图像采集装置104A的中心和语音采集装置102A的中心的连线的方向(例如，图4A中的竖直方向)。摄像坐标系402的z轴方向为图像采集装置104A的光轴方向405，图像采集装置104A的光轴方向405可以为图像采集装置104A所在的采集设备101A的表面的法线方向。摄像坐标系402的x轴方向可以为yz平面的法线方向。

例如，在摄像坐标系402中，x轴方向可以为水平方向，y轴方向可以为竖直方向。

例如，语音采集装置102A的四个语音采集器件103可以沿x轴方向排布为一列，从而语音采集装置102A可以具有声源水平定位能力。

例如，图像采集装置104A的中心和语音采集装置102A的中心在摄像坐标系402中的竖直方向(即为y轴方向)上的投影重合。也就是说，图像采集装置104A的中心和语音采集装置102A的中心在xz平面上的投影重合。

例如，在图4A所示的示例中，可穿戴设备201A为手环。可穿戴设备201A包括多个(例如，四个或五个等)均匀设置在手环表面的红色LED灯。多个红色LED灯的发光参数的变化方式相同。例如，多个红色LED灯可以按照相同的亮度变化规律发光。

例如，摄像机标定利用摄像机所拍摄到的图像来还原空间中的物体。摄像机标定可以采用针孔模型。如图3所示，在摄像机标定模型中，摄像机坐标系462(即o_c-x_cy_cz_c坐标系)是以摄像机为基准建立的坐标系。图像坐标系472(即o_p-x_py_p坐标系)是以摄像机所采集的目标物体的光学图像为基准建立的坐标系。世界坐标系482(即o_w-x_wy_wz_w坐标系)则是以目标物体为基准建立的坐标系。坐标系492(即o_q-uv坐标系)为像素坐标系。世界坐标系482可以根据运算需求自由放置。摄像机坐标系462的原点o_c可以位于摄像机光心(即投影中心)上，图像坐标系472的原点o_p可以位于摄像机的光轴与成像平面的交点(u₀,v₀)上。摄像机坐标系462的z_c轴为摄像机的光轴，摄像机坐标系462的x_c轴、y_c轴分别与图像坐标系472的x_p轴、y_p轴平行。图像坐标系472的x_p轴、y_p轴也分别与像素坐标系492的u轴、v轴平行。图像坐标系472中的每个点的坐标(x_c,y_c)主要用于表征物体从摄像机坐标系462向图像坐标系472的透视投影关系。像素坐标系492中的每个点的像素坐标(u,v)表示像素的列数和行数，且能从摄像机中得到。

例如，在坐标转换过程中，图像坐标系472下的光学图像需先转换到摄像机坐标系462中，然后转换到世界坐标系482中。由此，光学图像中的每个点可以与世界坐标系482中的相应点相对应。图像坐标系472和摄像机坐标系462通过透视投影实现相互转换，摄像机坐标系462和世界坐标系482则通过刚体变化(旋转和平移)实现相互转换。

例如，在本公开实施例中，摄像坐标系即为图3中的摄像机坐标系462。光学图像所在的坐标系可以为图3中的图像坐标系472。

例如，在图4A所示的示例中，采集设备101A的信息处理装置还被配置为：确定可穿戴设备201A在光学图像中的图像位置信息；以及根据图像位置信息确定可穿戴设备201A在摄像坐标系402中的水平方位角度。可穿戴设备201A在摄像坐标系402中的水平方位角度即为在三维空间中可穿戴设备201A相对于语音采集装置102A的水平方位角度。可穿戴设备201A在摄像坐标系402中的水平方位角度可以被设置为语音采集装置102A的拾音角度。

例如，图像采集装置104A可以接收发光元件202A发出的光线，并呈现在光学图像中。从而，采集设备101A的信息处理装置可以通过处理光学图像而确定发光元件202A在光学图像中的图像位置信息，然后将发光元件202A的图像位置信息转换到摄像坐标系402中，从而确定发光元件202A在摄像坐标系402中的摄像位置矢量。如图4A所示，在摄像坐标系402中，发光元件202A的摄像位置矢量即可作为可穿戴设备201A的摄像位置矢量403。可穿戴设备201A的摄像位置矢量403在xz平面上的投影即为可穿戴设备201A的水平投影位置矢量404。第一水平方位角度406可以为可穿戴设备201A的水平投影位置矢量404与图像采集装置104A的光轴方向405的夹角。第一水平方位角度406表示可穿戴设备201A的水平方位角度，也就是说，第一水平方位角度406可以被设置为语音采集装置102A的拾音角度。

例如，如图5A所示，在另一个示例中，采集设备101B可以包括语音采集装置102B和图像采集装置104B。图像采集装置104B可以包括一个可旋转的双目摄像头。双目摄像头的工作波段可以为红外波段。双目摄像头的采样率可以为25帧/秒。语音采集装置102B包括五个语音采集器件103。五个语音采集器件103按照球形阵列排布。语音采集装置102B可以具有声源三维定位能力。

例如，如图5A所示，图像采集装置104B设置在摄像坐标系502(即O'-x'y'z'坐标系)中，语音采集装置102B设置在语音采集坐标系503(即O”-x”y”z”坐标系)中。摄像坐标系502的原点O'可以为图像采集装置104B的两个摄像头的中点，摄像坐标系502的x'轴方向可以为图像采集装置104B的两个摄像头的连线方向，摄像坐标系502的z'轴方向可以为图像采集装置104B的光轴方向505。摄像坐标系502的y'轴方向可以沿x'z'平面的法线方向。语音采集坐标系503的原点O”可以为语音采集装置102B的中心，语音采集坐标系503的z”轴方向可以为采集设备101B的法线方向506,语音采集坐标系503的y”轴可以与摄像坐标系502的y'轴彼此平行，语音采集坐标系503的x”轴方向可以沿y”z”平面的法线方向。

例如，如图5A所示，图像采集装置104B中的双目摄像头的旋转轴可以沿y'轴方向，即，双目摄像头可以绕y'轴方向旋转。又例如，图像采集装置104B中的双目摄像头的旋转轴可以通过语音采集坐标系503的原点O”，即，在y'轴方向上，摄像坐标系502的原点O'和语音采集坐标系503的原点O”的投影彼此重合。双目摄像头的旋转角度例如可以通过伺服电机、角度传感器、霍尔传感器等得到。本公开对此不作限定。

例如，图像采集装置104B中的两个摄像头之间的距离可以表示为摄像头距离507。该摄像头距离507预先已知并且在摄像坐标系502中保持不变。

例如，语音采集装置102B的中心与图像采集装置104B的中心之间的距离可以表示为原点距离508。该原点距离508预先已知且在语音采集坐标系503和摄像坐标系502中均保持不变。

例如，摄像坐标系502和语音采集坐标系503可以根据双目摄像头的旋转角度和原点距离508实现相互转换。即，摄像坐标系502的坐标(x'，y'，z')可以转换为在语音采集坐标系503中的相应坐标(x”，y”，z”)。

例如，图5A所示的示例可以包括可穿戴设备201B，且可穿戴设备201B为一副眼镜。可穿戴设备201B的发光元件202B可以包括两个红外LED灯，两个红外LED灯可以分别设置在眼镜镜框两端的表面上。但不限于此。可穿戴设备201B也可以包括一个红外LED灯，或者，可穿戴设备201B也可以包括三个或四个红外LED灯等，且三个或四个红外LED灯可以均匀分布在眼镜镜框的表面。

例如，在图5A所示的示例中，采集设备101B的信息处理装置还被配置为：确定可穿戴设备201B在摄像坐标系502中的摄像位置信息；将可穿戴设备201B的摄像位置信息转换为在语音采集坐标系503中的语音采集位置信息；以及根据语音采集位置信息确定可穿戴设备201B在语音采集坐标系503中的方位角度。可穿戴设备201B在语音采集坐标系503中的方位角度即为在三维空间中可穿戴设备201B相对于语音采集装置102B的方位角度。从而，可穿戴设备201B在语音采集坐标系503中的方位角度可以被设置为语音采集装置102B的拾音角度。

例如，图像采集装置104B可以接收可穿戴设备201B的发光元件202B发出的光线，并呈现在光学图像中。从而，采集设备101B的信息处理装置可以通过处理光学图像而确定发光元件202B在光学图像中的图像位置信息，然后将发光元件202B的图像位置信息转换到摄像坐标系502中以得到发光元件202B在摄像坐标系502中的摄像位置信息，接着将发光元件202B的摄像位置信息转换为其在语音采集坐标系503中的语音采集位置信息。如图5A所示，矢量504表示发光元件202B在摄像坐标系502中的摄像位置矢量，即可穿戴设备201B的摄像位置矢量。可穿戴设备201B的摄像位置矢量504可以根据发光元件202B在图像采集装置104B的两个摄像头图像中各自的位置、摄像头的焦距、旋转角度和摄像头距离507计算得到。矢量604表示发光元件202B在语音采集坐标系503中的语音采集位置矢量，即可穿戴设备201B的语音采集位置矢量。可穿戴设备201B的语音采集位置矢量604可以根据图像采集装置104B的旋转角度、原点距离508和可穿戴设备201B的摄像位置矢量504确定。例如，由于两个原点O'和O”之间的相对位置固定，因此，可以得到原点O'和O”之间的矢量，再根据摄像坐标系502中的摄像位置矢量504，即可得到语音采集坐标503下的语音采集位置矢量604。原点O'和O”之间的矢量、摄像位置矢量504和语音采集位置矢量604形成一个首尾相接的三角形。

可穿戴设备201B的方位角度可以为可穿戴设备201B的语音采集位置矢量604在语音采集坐标系503中的立体角度。可穿戴设备201B的语音采集位置矢量604在x”z”平面上的投影为可穿戴设备201B的水平投影位置矢量605。第二水平方位角度606可以为可穿戴设备201B的水平投影位置矢量605与采集设备101B的法线方向506的夹角。第二水平方位角度606即为可穿戴设备201B的水平方位角度。第一竖直方位角度(未示出)可以为可穿戴设备201B的语音采集位置矢量604与水平投影位置矢量605的夹角。第一竖直方位角度即为可穿戴设备201B的竖直方位角度。语音采集位置矢量604在语音采集坐标系503中的立体角度包括可穿戴设备201的水平方位角度和/或竖直方位角度，也就是说，语音采集装置102B的拾音角度可以为第二水平方位角度606和/或第一竖直方位角度。例如，在一个示例中，可穿戴设备201B的方位角度可以包括可穿戴设备201B的水平方位角度，即第二水平方位角度606可以被设置为语音采集装置102B的一个拾音角度。在另一个示例中，可穿戴设备201B的方位角度为3D立体方位角度，且可以包括可穿戴设备201B的水平方位角度和竖直方位角度，也就是说，第一竖直方位角度和第二水平方位角度606被设置语音采集装置102B的拾音角度，从而语音采集装置102B可以更精确的对准声源对象的方向。

例如，图5A所示的示例还可以包括可穿戴设备201C，且可穿戴设备201C为一根项链。可穿戴设备201C上的发光元件202C也可以包括两个红外LED灯，该两个红外LED灯可以分别设置在项链挂坠的正反表面上。

例如，如图5A所示，发光元件202B(即眼镜)上的两个红外LED灯的发光参数(例如，发光亮度)的变化方式相同。发光元件202C(即项链)上的两个红外LED灯的发光参数(例如，发光亮度)的变化方式也相同。而发光元件202B上的两个红外LED灯的发光参数的变化方式和发光元件202C上的两个红外LED灯的发光参数的变化方式彼此不相同，从而采集设备101B的信息处理装置可以根据红外LED灯的发光参数的变化方式区分可穿戴设备201B和可穿戴设备201C。

例如，发光元件202B和发光元件202C的亮度变化规律彼此不相同。发光元件202B的变化规律可以基于可穿戴设备201B的存储器中存储的二进制标识符。发光元件202C的变化规律可以基于可穿戴设备201C的存储器中存储的二进制标识符。二进制1和0分别代表亮度的明暗，每个二进制符号对应的亮度的持续时间例如可以为0.4s。

需要说明的是，关于可穿戴设备201C的定位过程与可穿戴设备201B的定位过程相类似，在此不再赘述。

例如，如图5A所示，矢量509表示发光元件202C在摄像坐标系502中的摄像位置矢量，即可穿戴设备201C的摄像位置矢量。矢量607表示发光元件202C在语音采集坐标系503中的语音采集位置矢量，即可穿戴设备201C的语音采集位置矢量。矢量608表示可穿戴设备201C的水平投影位置矢量。可穿戴设备201C的方位角度可以为可穿戴设备201C的语音采集位置矢量607在语音采集坐标系503中的立体角度。第三水平方位角度609可以为可穿戴设备201C的水平投影位置矢量608与采集设备101B的法线方向506的夹角。第三水平方位角度609即为可穿戴设备201C的水平方位角度。第二竖直方位角度(未示出)可以为可穿戴设备201C的语音采集位置矢量607与水平投影位置矢量608的夹角。第二竖直方位角度即为可穿戴设备201C的竖直方位角度。例如，在一个示例中，可穿戴设备201C的方位角度可以包括可穿戴设备201C的水平方位角度，也就是说，第三水平方位角度609可以被设置为语音采集装置102B的另一个拾音角度。由此，采集设备101B可以实现多声源跟踪。

例如，在另一个实施例中，采集对象可以为声源对象。下面结合图4B-4C和5B-5C对采集对象为声源对象进行说明。

例如，如图4B所示，在一个示例中，采集设备111A包括语音采集装置112A和图像采集装置114A。图像采集装置114A和语音采集装置112A均设置在摄像坐标系402中。

例如，如图4B所示，可穿戴设备211A可以为一副眼镜。图4B所示的可穿戴设备211A与图5A所示的可穿戴设备201B可以相同或类似，但不限于此。两者也可以不相同，例如，图4B所示的可穿戴设备211A的发光元件212A可以包括三个红外LED灯。

需要说明的是，图4B所示的示例中的采集设备111A与图4A所示的示例中的采集设备101A相同或类似，重复之处不再赘述。

例如，如图4B所示，声源对象可以为第一用户401的嘴部。但不限于此，声源对象例如还可以为扬声器、搭载在机器人上的语音播放系统等。

例如，图4B所示的示例与图4A所示的示例的处理过程基本相同，不同之处包括：图4B所示的示例可以确定声源对象在摄像坐标系402中的水平方位角度，从而使语音采集装置102A的拾音角度更加精确。

例如，在图4B所示的示例中，采集设备111A的信息处理装置被配置为：确定可穿戴设备211A在光学图像中的图像位置信息；确定在光学图像中可穿戴设备211A和声源对象之间的第一图像相对位置信息；以及根据可穿戴设备211A的图像位置信息以及第一图像相对位置信息，确定声源对象在摄像坐标系402中的水平方位角度。声源对象在摄像坐标系402中的水平方位角度即为在三维空间中声源对象相对于语音采集装置112A的水平方位角度。声源对象在摄像坐标系402中的水平方位角度可以被设置为语音采集装置112A的拾音角度。

例如，可穿戴设备211A和声源对象之间的第一图像相对位置信息可以预先设定且固定不变。如图4B所示，第一图像相对位置信息可以为在光学图像中第一用户401的眼睛和嘴部之间的相对位置信息。从而，采集设备111A的信息处理装置可以被配置为处理光学图像以确定在图像坐标系中发光元件202A的图像位置信息，以及根据可穿戴设备211A的图像位置信息(即，发光元件202A的图像位置信息)以及第一图像相对位置信息确定声源对象的图像位置信息，然后将声源对象的图像位置信息转换到摄像坐标系402中，从而确定声源对象的在摄像坐标系402中的摄像位置矢量。

如图4B所示，在摄像坐标系402中，矢量413为可穿戴设备211A的摄像位置矢量；可穿戴设备211A的摄像位置矢量413可以根据在光学图像中可穿戴设备211A的图像位置信息确定。矢量417为光学图像上的第一图像相对位置信息的矢量。矢量415可以根据矢量413和矢量417确定，矢量415即为声源对象的摄像声源位置矢量。在光学图像上，根据矢量417和可穿戴设备211A的图像位置信息可以确定声源对象在光学图像中的图像位置信息，根据声源对象的图像位置信息则可以确定声源对象的摄像声源位置矢量415。例如，矢量413、415和417形成首尾相接的三角形，当知道三角形的两边413和417后，则能确定第三边415。矢量414为声源对象的水平投影位置矢量，即声源对象的摄像声源位置矢量415在xz平面上的投影。第四水平方位角度416可以为声源对象的水平投影位置矢量414与图像采集装置114A的光轴方向405的夹角。第四水平方位角度416表示声源对象的水平方位角度，也就是说，第四水平方位角度416可以被设置为语音采集装置102A的拾音角度。

例如，如图4C所示，在另一个示例中，采集设备121A包括语音采集装置122A和图像采集装置124A。

例如，与图4B所示的示例不同，图4C所示的示例中的可穿戴设备221A可以为手环。因此，可穿戴设备221A与声源对象之间的相对位置关系可能随着第一用户401的移动而发生变化。图4C所示的可穿戴设备221A与图4A所示的可穿戴设备201A可以相同。但不限于此，两者也可以不相同。

需要说明的是，图4C所示的示例中的采集设备121A、声源对象等可以与图4B所示的示例相同，重复之处不再赘述。

例如，在图4C所示的示例中，采集设备121A的信息处理装置被配置为：确定可穿戴设备221A在光学图像中的图像参考位置信息；在光学图像中确定可穿戴设备221A的图像位置信息和图像参考位置信息之间的第二图像相对位置信息；获取声源对象和图像参考位置信息之间的第三图像相对位置信息；以及根据第三图像相对位置信息和第二图像相对位置信息，确定所述可穿戴设备和所述声源对象之间的第一图像相对位置信息。

例如，图像参考位置信息与可穿戴设备221A相关。例如，图像参考位置信息可以为当可穿戴设备221A处于最可能的穿戴位置时，该最可能的穿戴位置在光学图像中对应的位置信息。最可能的穿戴位置例如可以表示第一用户401在自然站立状态下，可穿戴设备221A在第一用户401上的位置。采集设备121A的信息处理装置可以对光学图像进行图像处理，以获取第一用户401在光学图像上的轮廓信息。根据第一用户401的轮廓信息和可穿戴设备221A的类型则可以在光学图像中确定图像参考位置信息。

例如，当确定图像参考位置信息后，根据第一用户401的身体参数即可确定声源对象和图像参考位置信息之间的第三图像相对位置信息。

需要说明的是，在用户的轮廓上，图像参考位置信息和第三图像相对位置信息固定且不随用户运动而变化，因此，图像参考位置信息和第三图像相对位置信息可以预先检测并存储在可穿戴设备221A中。

例如，若可穿戴设备221A为手环，则其最可能的穿戴位置为手腕，图像参考位置信息可以为第一用户401的手部自然下垂时的手腕位置在光学图像中对应的位置信息。在手环的运动和姿态轨迹中，若运动轨迹大致为摆线，则可能对应手环位于手腕上的情况，频繁出现在摆线底部的点则较大可能对应手部自然下垂时的手腕位置，该摆线底部的点的位置信息即为图像参考位置信息。根据第一用户401的身体参数则可以确定第一用户401的手部长度，从而根据图像参考位置信息和第一用户401的手部长度可以确定第一用户401的嘴部位置(即声源对象)。又例如，若可穿戴设备221A是眼镜，则其最可能的穿戴位置是眼部，在眼镜的运动和姿态轨迹中，若运动轨迹大致为同高度的直线，则其可能对应眼镜稳定架在鼻梁上的情况，从而可以确定第一用户401的眼部位置，根据一般人头部大小即可确定第一用户401的嘴部位置(即声源对象)。

例如，可以预先输入第一用户401的身体参数、可穿戴设备221A的穿戴位置等信息，以便于后续计算。第一用户401的身体参数、可穿戴设备221A的穿戴位置等信息可以存储在可穿戴设备221A的存储器中。

例如，如图4C所示，在光学图像上(也就是说，在图像坐标系中)，矢量428为第二图像相对位置信息的矢量，矢量429为第三图像相对位置信息的矢量；矢量427为第一图像相对位置信息的矢量，且可以根据矢量428和矢量429确定(矢量427、428和429形成三角形的三边)。在摄像坐标系402中，矢量423为可穿戴设备221A的摄像位置矢量；矢量425为声源对象的摄像声源位置矢量。矢量424为声源对象的水平投影位置矢量，即声源对象的摄像声源位置矢量425在xz平面上的投影。第五水平方位角度426可以为声源对象的水平投影位置矢量424与图像采集装置124A的光轴方向405的夹角。第五水平方位角度426表示声源对象的水平方位角度。第五水平方位角度426可以被设置为语音采集装置102A的拾音角度。

需要说明的是，图4C所示的示例中确定第一图像相对位置信息之后的处理过程与图4B所示的示例中的处理过程相同，重复之处不再赘述。即，在确定所述可穿戴设备和所述声源对象之间的第一图像相对位置信息(即矢量427)之后，则可以根据可穿戴设备221A的摄像位置信息(即摄像位置矢量423)获得声源对象的摄像声源位置信息(即摄像声源位置矢量425)，再根据声源对象的摄像声源位置信息(即摄像声源位置矢量425)获得第五水平方位角度426。

例如，如图5B所示，在又一个示例中，采集设备111B包括语音采集装置112B和图像采集装置114B。图像采集装置114B设置在摄像坐标系502中，语音采集装置112B设置在语音采集坐标系503中。

需要说明的是，图5B所示的示例中的采集设备111B、可穿戴设备211B可以分别与图5A所示的示例中的采集设备101B、可穿戴设备201B相同，重复之处不再赘述。

例如，如图5B所示，声源对象可以为第一用户401的嘴部。

例如，如图5B所示，采集设备111B的信息处理装置还被配置为：确定可穿戴设备211B在摄像坐标系502中的摄像位置信息；确定在摄像坐标系502中可穿戴设备211B和声源对象之间的第一摄像相对位置信息；根据可穿戴设备211B的摄像位置信息以及第一摄像相对位置信息，确定声源对象在摄像坐标系502中的摄像声源位置信息；将摄像声源位置信息转换为在语音采集坐标系503中的语音采集声源位置信息；以及根据语音采集声源位置信息确定声源对象在语音采集坐标系503中的方位角度。声源对象在语音采集坐标系503中的方位角度即为在三维空间中声源对象相对于语音采集装置112B的方位角度。声源对象在语音采集坐标系503中的方位角度可以被设置为语音采集装置112B的拾音角度。

例如，可穿戴设备211B和声源对象之间的第一摄像相对位置信息可以预先设定且固定不变。如图5B所示，第一摄像相对位置信息可以为在摄像坐标系502中第一用户401的眼睛和嘴部之间的相对位置信息。在摄像坐标系502中，矢量514表示可穿戴设备211B的摄像位置矢量。矢量516为第一摄像相对位置信息的矢量。矢量516可以根据第一用户401的身体参数和可穿戴设备211B的类型预先设置。矢量517表示声源对象的摄像声源位置矢量，矢量517可以根据矢量514和矢量516确定。在语音采集坐标系503中，矢量614表示声源对象的语音采集声源位置矢量，矢量614通过矢量517转换得到。声源对象的方位角度可以为声源对象的语音采集声源位置矢量614在语音采集坐标系503中的立体角度。声源对象的语音采集声源位置矢量614在x”z”平面上的投影即为声源对象的水平投影位置矢量615。第六水平方位角度616可以为声源对象的水平投影位置矢量615与采集设备111B的法线方向506的夹角。第六水平方位角度616即为声源对象的水平方位角度。第三竖直方位角度(未示出)可以为声源对象的语音采集声源位置矢量614与水平投影位置矢量615的夹角。第三竖直方位角度即为声源对象的竖直方位角度。语音采集声源位置矢量614在语音采集坐标系503中的立体角度包括声源对象的水平方位角度和/或竖直方位角度。例如，在一个示例中，声源对象的方位角度可以包括声源对象的水平方位角度，也就是说，第六水平方位角度616可以被设置为语音采集装置112B的一个拾音角度。但不限于此，声源对象的方位角度为3D立体方位角度，且可以包括声源对象的水平方位角度和竖直方位角度。

例如，如图5C所示，在再一个示例中，采集设备121B包括语音采集装置122B和图像采集装置124B。

例如，与图5B所示的示例不同，图5C所示的示例中的可穿戴设备221B可以为手环。图5C所示的示例中的采集设备121B、声源对象等可以与图5B所示的示例相同，重复之处不再赘述。

例如，在图5C所示的示例中，采集设备121B的信息处理装置被配置为：确定可穿戴设备221B在摄像坐标系502中的摄像参考位置信息；在摄像坐标系502中确定可穿戴设备221B的摄像位置信息和摄像参考位置信息之间的第二摄像相对位置信息；获取声源对象和摄像参考位置信息之间的第三摄像相对位置信息；以及根据第三摄像相对位置信息以及第二摄像相对位置信息，确定第一摄像相对位置信息。

例如，摄像参考位置信息与可穿戴设备221B相关。例如，摄像参考位置信息可以为可穿戴设备221B处于最可能的穿戴位置时的位置信息。图像参考位置信息可以表示摄像参考位置信息在光学图像中对应的位置信息。关于最可能的穿戴位置的说明可以参考上述相关描述，重复之处不再赘述。

例如，如图5C所示，如果第一用户401抬起手臂，可穿戴设备221B的惯性测量单元可以获取可穿戴设备221B的运动轨迹，并判断出可穿戴设备221的实时位置信息相对摄像参考位置信息的位置信息，即第二摄像相对位置信息。可穿戴设备221B的实时位置信息可以为其摄像位置信息。

例如，如图5C所示，在摄像坐标系502中，矢量628为第二摄像相对位置信息的矢量，矢量628可以通过可穿戴设备221B的惯性测量单元检测得到。矢量629为第三摄像相对位置信息的矢量。矢量629可以根据第一用户401的身体参数和可穿戴设备221B的类型预先设置。矢量526为第一摄像相对位置信息的矢量，且可以根据矢量628和矢量629确定。矢量527为可穿戴设备221B的摄像位置矢量；矢量524为声源对象的摄像声源位置矢量。在语音采集坐标系503中，矢量624表示声源对象的语音采集声源位置矢量，且矢量624通过矢量527转换得到。声源对象的方位角度可以为声源对象的语音采集声源位置矢量624在语音采集坐标系503中的立体角度。声源对象的语音采集声源位置矢量624在x”z”平面上的投影即为声源对象的水平投影位置矢量625。第七水平方位角度626可以为声源对象的水平投影位置矢量625与采集设备121B的法线方向506的夹角。第七水平方位角度626即为声源对象的水平方位角度，第四竖直方位角度(未示出)可以为声源对象的语音采集声源位置矢量624与水平投影位置矢量625的夹角。第四竖直方位角度即为声源对象的竖直方位角度，声源对象的方位角度可以包括声源对象的水平方位角度和/或竖直方位角度。例如，在一个示例中，声源对象的方位角度可以包括声源对象的水平方位角度，也就是说，第七水平方位角度626可以被设置为语音采集装置122B的一个拾音角度。

需要说明的是，为了清楚简要地说明本公开实施例的技术方案，上述图5B和图5C所示的示例的相关描述中，省略对第二用户501进行描述。但本领域技术人员应当知道，在不矛盾的情况下，对第一用户401的相关描述可以适用于第二用户501。

图4A-图5C没有示出位于采集设备内部的信息处理装置、第一通信装置和第一电源。图4A-图5C也没有示出可穿戴设备内部的第二电源、控制器、存储器、第二通信装置和惯性测量单元。

需要说明的是，在上述描述中，在图4A至4C所示的示例中，位置矢量(包括摄像位置矢量、水平投影位置矢量)仅包括方位信息。在图5A至5C所示的示例中，位置矢量(包括摄像位置矢量、水平投影位置矢量、语音采集位置矢量)包括方位信息和距离信息。

图6为本公开一实施例提供的一种声源跟踪系统的示意性框图。如图6所示，该声源跟踪系统10包括可穿戴设备201和采集设备101。

例如，采集设备101的图像采集装置可以设置在摄像坐标系中。

例如，可穿戴设备201可以包括惯性测量单元。可穿戴设备201的惯性测量单元被配置为检测可穿戴设备的运动信息。

例如，在一个示例中，可穿戴设备201还可以包括控制器。可穿戴设备201的控制器被配置为：获取可穿戴设备201的类型信息；获取可穿戴设备201的运动信息；根据可穿戴设备201的运动信息和可穿戴设备201的类型信息，确定可穿戴设备201在摄像坐标系中的摄像参考位置信息，或者，确定可穿戴设备201在光学图像中的图像参考位置信息。例如，可穿戴设备201为手环，最可能的穿戴位置为手腕，最可能的穿戴状态为手臂自然下垂，因此，摄像参考位置信息可以为手环戴于自然下垂的手腕上的位置信息。而图像参考位置信息为手环戴于自然下垂的手腕时，该穿戴位置在光学图像中对应的位置信息。

例如，在另一个示例中，采集设备101的信息处理装置被配置为：获取可穿戴设备201的类型信息；获取可穿戴设备201的运动信息；根据可穿戴设备201的运动信息和可穿戴设备201的类型信息，确定可穿戴设备201在摄像坐标系中的摄像参考位置信息，或者，确定可穿戴设备201在光学图像中的图像参考位置信息。

例如，可穿戴设备201的类型信息可以存储在可穿戴设备201的存储器中。

例如，声源跟踪系统10可以包括多个可穿戴设备。多个可穿戴设备的发光元件的发光参数的变化方式彼此不同。

需要说明的是，采集设备101的示意性框图可以参看图1，可穿戴设备201的示意性框图可以参看图2。可穿戴设备201和采集设备101的具体说明可以参考上述采集设备的实施例中的相关描述，重复之处不再赘述。

图7为本公开实施例提供的一种声音采集方法的流程图。

例如，如图7所示，本公开实施例提供的声音采集方法可以包括以下步骤：

步骤S10：获取采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；

步骤S20：处理光学图像以确定采集对象的位置信息；以及

步骤S30：根据采集对象的位置信息控制采集设备的语音采集装置的拾音角度。

例如，在步骤S10中，采集设备的图像采集装置被配置为采集光学图像。

例如，在一个实施例中，采集对象可以为可穿戴设备。

需要说明的是，关于可穿戴设备和采集设备的具体说明可以参考上述采集设备的实施例中的相关描述。

例如，在一个示例中，如图4A所示，采集设备101A的图像采集装置104A和语音采集装置102A均设置在摄像坐标系402中。图像采集装置104A的中心和语音采集装置102A的中心在摄像坐标系中的竖直方向上的投影重合，也就是说，图像采集装置104A的中心和语音采集装置102A的中心在xz平面上的投影重合。声音采集方法还包括：确定可穿戴设备在光学图像中的图像位置信息；以及根据图像位置信息确定可穿戴设备在摄像坐标系中的水平方位角度。可穿戴设备在摄像坐标系中的水平方位角度可以被设置为语音采集装置的拾音角度。

例如，在另一个示例中，如图5A所示，图像采集装置104B设置在摄像坐标系502中，语音采集装置102B设置在语音采集坐标系503中。例如，声音采集方法还包括：确定可穿戴设备在摄像坐标系中的摄像位置信息；将可穿戴设备的摄像位置信息转换为在语音采集坐标系中的语音采集位置信息；以及根据语音采集位置信息确定可穿戴设备在语音采集坐标系中的方位角度。可穿戴设备在语音采集坐标系中的方位角度可以被设置为语音采集装置的拾音角度。

例如，如图5A所示，可穿戴设备201B的语音采集位置矢量604在x”z”平面上的投影为可穿戴设备201B的水平投影位置矢量605。第二水平方位角度606可以为可穿戴设备201B的水平投影位置矢量605与采集设备101B的法线方向506的夹角。第二水平方位角度606即为可穿戴设备201B的水平方位角度。第一竖直方位角度(未示出)可以为可穿戴设备201B的语音采集位置矢量604与水平投影位置矢量605的夹角。第一竖直方位角度即为可穿戴设备201B的竖直方位角度。可穿戴设备201B的方位角度可以包括可穿戴设备201B的水平方位角度和/或竖直方位角度。

例如，在另一个实施例中，采集对象可以为声源对象。

例如，在一个示例中，语音采集装置和图像采集装置均设置在摄像坐标系中，图像采集装置的中心和语音采集装置的中心在摄像坐标系中的竖直方向上的投影重合。声音采集方法还包括：确定可穿戴设备在光学图像中的图像位置信息；确定在光学图像中可穿戴设备和声源对象之间的第一图像相对位置信息；根据可穿戴设备的图像位置信息以及第一图像相对位置信息，确定声源对象在光学图像中的图像位置信息；以及根据声源对象的图像位置信息确定声源对象在摄像坐标系中的水平方位角度。声源对象在摄像坐标系中的水平方位角度可以被设置为语音采集装置的拾音角度。

例如，如图4B所示，可穿戴设备211A和声源对象之间的第一图像相对位置信息不随第一用户401的运动而变化。矢量417表示光学图像上的第一图像相对位置信息的矢量。矢量413表示可穿戴设备211A的摄像位置矢量，且可以根据在光学图像中可穿戴设备211A的图像位置信息确定。矢量415表示声源对象的摄像声源位置矢量，且可以根据在光学图像中声源对象的图像位置信息确定。矢量414为声源对象的水平投影位置矢量，即声源对象的摄像声源位置矢量415在xz平面上的投影。第四水平方位角度416为声源对象的水平投影位置矢量414与图像采集装置114A的光轴方向405的夹角，第四水平方位角度416表示声源对象在摄像坐标系中的水平方位角度。

例如，在另一个示例中，语音采集装置和图像采集装置均设置在摄像坐标系中，图像采集装置的中心和语音采集装置的中心在摄像坐标系中的竖直方向上的投影重合。声音采集方法还包括：确定可穿戴设备在光学图像中的图像参考位置信息；在光学图像中确定可穿戴设备的图像位置信息和图像参考位置信息之间的第二图像相对位置信息；获取声源对象和图像参考位置信息之间的第三图像相对位置信息；根据第三图像相对位置信息以及第二图像相对位置信息，确定第一图像相对位置信息；根据可穿戴设备的图像位置信息以及第一图像相对位置信息，确定声源对象在光学图像中的图像位置信息；以及根据声源对象的图像位置信息确定声源对象在摄像坐标系中的水平方位角度。

例如，如图4C所示，可穿戴设备221A和声源对象之间的第一图像相对位置信息可以随第一用户401的运动而变化。在光学图像上，矢量428为第二图像相对位置信息的矢量，矢量429为第三图像相对位置信息的矢量，矢量427表示第一图像相对位置信息的矢量。在摄像坐标系402中，矢量423为可穿戴设备221A的摄像位置矢量；矢量425为声源对象的摄像声源位置矢量。矢量424为声源对象的水平投影位置矢量，即声源对象的摄像声源位置矢量425在xz平面上的投影。第五水平方位角度426为声源对象的水平投影位置矢量424与图像采集装置124A的光轴方向405的夹角，第五水平方位角度426表示声源对象在摄像坐标系中的水平方位角度。

例如，在又一个示例中，图像采集装置设置在摄像坐标系中，语音采集装置设置在语音采集坐标系中。声音采集方法还包括：确定可穿戴设备在摄像坐标系中的摄像位置信息；确定在摄像坐标系中可穿戴设备和声源对象之间的第一摄像相对位置信息；根据可穿戴设备的摄像位置信息以及第一摄像相对位置信息，确定声源对象在摄像坐标系中的摄像声源位置信息；将摄像声源位置信息转换为在语音采集坐标系中的语音采集声源位置信息；以及根据语音采集声源位置信息确定声源对象在语音采集坐标系中的方位角度。声源对象在语音采集坐标系中的方位角度可以被设置为所述语音采集装置的拾音角度。

例如，如图5B所示，可穿戴设备211B和声源对象之间的第一摄像相对位置信息不随第一用户401的运动而变化。在摄像坐标系502中，矢量514表示可穿戴设备211B的摄像位置矢量。矢量516表示第一摄像相对位置信息的矢量。矢量517表示声源对象的摄像声源位置矢量。在语音采集坐标系503中，矢量614表示声源对象的语音采集声源位置矢量。声源对象的语音采集声源位置矢量614在x”z”平面上的投影即为声源对象的水平投影位置矢量615。第六水平方位角度616可以为声源对象的水平投影位置矢量615与采集设备111B的法线方向506的夹角，第六水平方位角度616即为可穿戴设备211B的水平方位角度。第三竖直方位角度(未示出)可以为声源对象的语音采集声源位置矢量614与水平投影位置矢量615的夹角。第三竖直方位角度即为可穿戴设备211B的竖直方位角度。可穿戴设备211B的方位角度可以包括可穿戴设备211B的水平方位角度和/或竖直方位角度。

例如，在再一个示例中，图像采集装置设置在摄像坐标系中，语音采集装置设置在语音采集坐标系中。声音采集方法还包括：确定可穿戴设备在摄像坐标系中的摄像参考位置信息；在摄像坐标系中确定可穿戴设备的摄像位置信息和摄像参考位置信息之间的第二摄像相对位置信息；获取声源对象和摄像参考位置信息之间的第三摄像相对位置信息；根据第三摄像相对位置信息以及第二摄像相对位置信息，确定第一摄像相对位置信息；根据可穿戴设备的摄像位置信息以及第一摄像相对位置信息，确定声源对象在摄像坐标系中的摄像声源位置信息；将摄像声源位置信息转换为在语音采集坐标系中的语音采集声源位置信息；以及根据语音采集声源位置信息确定声源对象在语音采集坐标系中的方位角度。声源对象在语音采集坐标系中的方位角度可以被设置为所述语音采集装置的拾音角度。

例如，如图5C所示，可穿戴设备221B和声源对象之间的第一图像相对位置信息可以随第一用户401的运动而变化。在摄像坐标系502中，矢量628为第二摄像相对位置信息的矢量。矢量629为第三摄像相对位置信息的矢量。矢量526为第一摄像相对位置信息的矢量。矢量527为可穿戴设备221B的摄像位置矢量；矢量524为声源对象的摄像声源位置矢量。在语音采集坐标系503中，矢量624表示声源对象的语音采集声源位置矢量。声源对象的语音采集声源位置矢量624在x”z”平面上的投影即为声源对象的水平投影位置矢量625。第七水平方位角度626可以为声源对象的水平投影位置矢量625与采集设备121B的法线方向506的夹角。第七水平方位角度626即为可穿戴设备221B的水平方位角度。第四竖直方位角度(未示出)可以为声源对象的语音采集声源位置矢量624与水平投影位置矢量625的夹角。第四竖直方位角度即为可穿戴设备221B的竖直方位角度，可穿戴设备221B的方位角度可以包括可穿戴设备221B的水平方位角度和/或竖直方位角度。

需要说明的是，关于声音采集方法的具体说明可以参考采集设备的实施例中关于图4A到图5C所示的示例的相关描述，在此不再赘述。

图8为本公开实施例提供的一种声源跟踪方法的总体流程图；图9为本公开实施例提供的一种声源跟踪方法的示意性流程图。

例如，如图8所示，本公开实施例提供的声源跟踪方法可以包括以下步骤：

步骤S50：在确定可穿戴设备位于采集设备的跟踪区域之内时，控制可穿戴设备的发光元件发光；

步骤S60：获取采集设备的跟踪区域之内的光学图像，光学图像包括采集对象；

步骤S70：处理光学图像以确定采集对象的位置信息；以及

步骤S80：根据采集对象的位置信息控制语音采集装置的拾音角度。

例如，在步骤S50中，可穿戴设备靠近与离开采集设备的跟踪区域可以通过可穿戴设备的第一通信装置和采集设备第二通信装置互相进入与离开彼此的通信范围进行判断，也可以通过可穿戴设备进入或离开采集设备的图像采集装置的拍摄区域进行判断。

例如，在步骤S60中，采集设备的图像采集装置被配置为采集光学图像。

需要说明的是，步骤S70和步骤S80的处理过程可以参考采集设备的实施例中关于图4A到图5C所示的示例的相关描述。

例如，采集对象可以为声源对象，也可以为可穿戴设备。

下面以可穿戴设备设置用户身上为例详细说明声源跟踪方法。例如，如图9所示，当用户靠近采集设备，且进入采集设备的跟踪区域内时，执行步骤S301：控制发光元件发出光线；然后执行步骤S302：检测发光元件。在步骤S301中，当用户进入采集设备的跟踪区域内时，可穿戴设备的控制器可以控制发光元件发光。在步骤S302中，采集设备的图像采集装置用于采集跟踪区域内的光学图像，采集设备的信息处理装置可以对采集到的光学图像进行处理，以检测光学图像中是否具有发光元件。

例如，当检测失败，即未检测到发光元件时，图像采集装置持续采集跟踪区域的光学图像。

例如，当未检测到发光元件，且用户离开跟踪区域时，则图像采集装置停止采集跟踪区域的光学图像，即执行步骤S307：停止声源跟踪。

例如，当检测成功，即检测到发光元件时，可以执行步骤S303：确定采集对象的位置信息。在步骤S303中，信息处理装置可以对包含有发光元件的光学图像进行进一步处理以确定采集对象的位置信息。确定采集对象的位置信息的具体操作过程可以参考采集设备的实施例中相关描述。

例如，当检测到发光元件时，还可以执行步骤S304：跟踪发光元件。在步骤S304中，信息处理装置可以控制图像采集装置跟踪发光元件。例如，在步骤S304中，一方面，信息处理装置可以实时检测发光元件在光学图像中的位置；另一方面，信息处理装置可以控制图像采集装置进行旋转、调整焦距、对焦等操作中的一种或多种，以控制图像采集装置跟踪发光元件。

例如，在一个示例中，当检测到发光元件时，还可以执行步骤S305：获取可穿戴设备的惯性测量单元的信息。在步骤S305中，信息处理装置还可以控制第一通信装置从可穿戴设备处获取惯性测量单元的测量信息。信息处理装置还可以处理惯性测量单元的测量信息以确定用户的嘴部(即声源对象)的位置信息。

例如，在305步骤中，可以根据惯性测量单元测量到的加速度和角速度和/或磁场信息，确定可穿戴设备201的姿态信息和位置信息。位置信息需要通过姿态信息进行确定。

例如，在另一个示例中，当检测到发光元件时，还可以执行步骤S308和步骤S309。步骤S308包括监测惯性测量单元的测量信息；步骤S309包括根据惯性测量单元的测量信息确定用户的嘴部的位置信息。可以通过可穿戴设备的控制器实现步骤S308和步骤S309的功能。即，在步骤S308中，通过控制器实时读取测惯性测量单元的测量信息；在步骤S309中，通过控制器对惯性测量单元的测量信息进行处理以确定用户的嘴部的位置信息。

例如，在步骤S308中，惯性测量单元可以一直处于工作状态。也就是说，在可穿戴设备进入采集设备的跟踪区域之前，从可穿戴设备接通电源开始，惯性测量单元就开始检测可穿戴设备的运动信息。从而，惯性测量单元可以对可穿戴设备进行长时间监测，监测时间一般大于0.5小时。根据惯性测量单元的监测结果可以确定可穿戴设备的运动和姿态轨迹中实际穿戴位置对应的点。

例如，若可穿戴设备的实际穿戴位置与最可能的穿戴位置相同，则步骤S309可以包括：获取可穿戴设备的设备类型和最可能的穿戴位置；获取用户信息；根据可穿戴设备的最可能的穿戴位置、可穿戴设备的运动和姿态轨迹、用户信息，确定用户的嘴部(即声源对象)的位置信息。若可穿戴设备的实际穿戴位置与最可能的穿戴位置不相同，则步骤S309可以包括：获取可穿戴设备的实际穿戴位置；获取用户信息；根据可穿戴设备的实际穿戴位置、可穿戴设备的运动和姿态轨迹、用户信息，确定用户的嘴部的位置信息。

例如，根据可穿戴设备的最可能的穿戴位置可以确定可穿戴设备的参考位置信息。可穿戴设备的参考位置信息可以包括摄像参考位置信息和图像参考位置信息。摄像参考位置信息可以为可穿戴设备处于最可能的穿戴位置下的位置信息。而图像参考位置信息可以为当可穿戴设备处于最可能的穿戴位置时，该最可能的穿戴位置在光学图像中对应的位置信息。

例如，声源跟踪方法还包括：通过惯性测量单元检测可穿戴设备的运动信息；获取可穿戴设备的类型信息；根据可穿戴设备的运动信息和可穿戴设备的类型信息，确定可穿戴设备在摄像坐标系中的摄像参考位置信息，或者，确定可穿戴设备在光学图像中的图像参考位置信息。

例如，可穿戴设备的设备类型和最可能的穿戴位置可以存储在可穿戴设备的存储器中。

例如，用户可以在穿戴该可穿戴设备的时候输入用户信息。用户信息包括但不限于用户的身体参数、可穿戴设备的实际穿戴位置等。

需要说明的是，确定用户的嘴部(即声源对象)的位置信息的具体操作过程可以参考采集设备的实施例中相关描述。

例如，在步骤S304、步骤S305、步骤S309中获得的信息可以用于步骤S303中，以使获取的采集对象的位置信息更加精确。

例如，当检测到用户停留在采集设备的跟踪区域时，则执行步骤306：控制语音采集装置的拾音角度对准采集对象的方向。在步骤S306中，可以通过信息处理装置控制语音采集装置的拾音角度对准采集对象的方向。

例如，在用户停留在采集设备的跟踪区域时，步骤303和步骤306可以是相互促进和迭代。一方面，图像采集装置采集到的发光元件的位置信息可以用于确定语音采集装置的拾音角度。另一方面，语音采集装置对声源对象的定位信息可以用于确定图像采集装置采集到的光学图像中发光元件的位置信息。

例如，当检测到用户离开采集设备的跟踪区域时，则执行步骤S307：停止声源跟踪。在步骤S307中，当检测到用户靠近采集设备，且进入采集设备的跟踪区域内时，重新执行步骤S301。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种采集设备，包括：

语音采集装置、图像采集装置和信息处理装置，其中，

所述图像采集装置被配置为采集所述采集设备的跟踪区域之内的光学图像，所述光学图像包括采集对象；

所述信息处理装置被配置为处理所述光学图像以确定所述采集对象的位置信息，并根据所述采集对象的位置信息控制所述语音采集装置的拾音角度；

其中，所述采集对象为声源对象，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；以及

所述信息处理装置还被配置为：

确定可穿戴设备在所述光学图像中的图像位置信息；

确定在所述光学图像中所述可穿戴设备和所述声源对象之间的第一图像相对位置信息；以及

根据所述可穿戴设备的图像位置信息以及所述第一图像相对位置信息，确定所述声源对象在所述摄像坐标系中的水平方位角度，所述声源对象的所述水平方位角度被设置为所述语音采集装置的拾音角度；

所述信息处理装置还被配置为：

确定所述可穿戴设备在所述光学图像中的图像参考位置信息；

在所述光学图像中确定所述可穿戴设备的图像位置信息和图像参考位置信息之间的第二图像相对位置信息；

获取所述声源对象和所述图像参考位置信息之间的第三图像相对位置信息；以及

根据所述第三图像相对位置信息以及所述第二图像相对位置信息，确定所述第一图像相对位置信息。

2.根据权利要求1所述的采集设备，其中，所述采集对象为可穿戴设备，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；

所述信息处理装置还被配置为：

确定所述可穿戴设备在所述光学图像中的图像位置信息；

根据所述图像位置信息确定所述可穿戴设备在所述摄像坐标系中的水平方位角度，所述可穿戴设备的所述水平方位角度被设置为所述语音采集装置的拾音角度。

3.根据权利要求1所述的采集设备，其中，所述采集对象为可穿戴设备，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中，

所述信息处理装置还被配置为：

确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；

将所述可穿戴设备的所述摄像位置信息转换为在所述语音采集坐标系中的语音采集位置信息；以及

根据所述语音采集位置信息确定所述可穿戴设备在所述语音采集坐标系中的方位角度，所述可穿戴设备的所述方位角度被设置为所述语音采集装置的拾音角度。

4.根据权利要求1所述的采集设备，其中，所述采集对象为声源对象，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；

所述信息处理装置还被配置为：

确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；

确定在所述摄像坐标系中所述可穿戴设备和所述声源对象之间的第一摄像相对位置信息；

根据所述可穿戴设备的摄像位置信息和所述第一摄像相对位置信息，确定所述声源对象在所述摄像坐标系中的摄像声源位置信息；

将所述摄像声源位置信息转换为在所述语音采集坐标系中的语音采集声源位置信息；以及

根据所述语音采集声源位置信息确定所述声源对象在所述语音采集坐标系中的方位角度，所述方位角度被设置为所述语音采集装置的拾音角度。

5.根据权利要求4所述的采集设备，其中，所述信息处理装置还被配置为：

确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息；

在所述摄像坐标系中确定所述可穿戴设备的摄像位置信息和摄像参考位置信息之间的第二摄像相对位置信息；

获取所述声源对象和所述摄像参考位置信息之间的第三摄像相对位置信息；以及

根据所述第三摄像相对位置信息以及所述第二摄像相对位置信息，确定所述第一摄像相对位置信息。

6.一种声源跟踪系统，包括：可穿戴设备和权利要求1-5任一项所述的采集设备，所述可穿戴设备包括发光元件，其中，

在所述可穿戴设备位于所述采集设备的跟踪区域之内时，所述发光元件被配置为发光。

7.根据权利要求6所述的声源跟踪系统，其中，在所述可穿戴设备位于所述采集设备的跟踪区域之内时，所述图像采集装置被配置为采集所述采集设备的跟踪区域的光学图像。

8.根据权利要求6所述的声源跟踪系统，其中，所述图像采集装置设置在摄像坐标系中，所述可穿戴设备还包括控制器和惯性测量单元，

所述惯性测量单元被配置为检测所述可穿戴设备的运动信息；

所述控制器或所述信息处理装置被配置为：

获取所述可穿戴设备的类型信息；

获取所述可穿戴设备的运动信息；

根据所述可穿戴设备的运动信息和所述可穿戴设备的类型信息，确定所述可穿戴设备在所述摄像坐标系中的摄像参考位置信息，或者，确定所述可穿戴设备在所述光学图像中的图像参考位置信息。

9.根据权利要求6-8任一项所述的声源跟踪系统，包括多个可穿戴设备，所述多个可穿戴设备的发光元件的发光参数的变化方式彼此不同。

10.一种声音采集方法，包括：

获取采集设备的跟踪区域之内的光学图像，所述光学图像包括采集对象；

处理所述光学图像以确定所述采集对象的位置信息；以及

根据所述采集对象的位置信息控制所述采集设备的语音采集装置的拾音角度；

其中，图像采集装置被配置为采集所述光学图像，所述采集对象为声源对象，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；

所述声音采集方法还包括：

确定可穿戴设备在所述光学图像中的图像位置信息；

其中，确定在所述光学图像中所述可穿戴设备和所述声源对象之间的第一图像相对位置信息，包括：

11.根据权利要求10所示的声音采集方法，其中，图像采集装置被配置为采集所述光学图像，所述采集对象为可穿戴设备，所述图像采集装置和所述语音采集装置均设置在摄像坐标系中，所述图像采集装置的中心和所述语音采集装置的中心在所述摄像坐标系中的竖直方向上的投影重合；

所述声音采集方法还包括：

确定所述可穿戴设备在所述光学图像中的图像位置信息；

12.根据权利要求10所示的声音采集方法，其中，图像采集装置被配置为采集所述光学图像，所述采集对象为可穿戴设备，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；

所述声音采集方法还包括：

确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；

13.根据权利要求10所示的声音采集方法，其中，图像采集装置被配置为采集所述光学图像，所述采集对象为声源对象，所述图像采集装置设置在摄像坐标系中，所述语音采集装置设置在语音采集坐标系中；

所述声音采集方法还包括：

确定所述可穿戴设备在所述摄像坐标系中的摄像位置信息；

根据所述可穿戴设备的摄像位置信息以及所述第一摄像相对位置信息，确定所述声源对象在所述摄像坐标系中的摄像声源位置信息；

14.根据权利要求13所示的声音采集方法，其中，确定在所述摄像坐标系中所述可穿戴设备和所述声源对象之间的第一摄像相对位置信息，包括：

15.一种声源跟踪方法，包括：

在确定可穿戴设备位于采集设备的跟踪区域之内时，控制所述可穿戴设备的发光元件发光；

处理所述光学图像以确定所述采集对象的位置信息；以及

所述声源跟踪方法还包括：

确定可穿戴设备在所述光学图像中的图像位置信息；

16.根据权利要求15所述的声源跟踪方法，其中，所述图像采集装置被配置为采集所述光学图像，所述图像采集装置设置在所述摄像坐标系中，所述可穿戴设备还包括惯性测量单元，

所述声源跟踪方法还包括：

通过所述惯性测量单元检测所述可穿戴设备的运动信息；

获取所述可穿戴设备的类型信息；