CN116320891A

CN116320891A - 一种音频处理方法、穿戴式设备

Info

Publication number: CN116320891A
Application number: CN202310271346.4A
Authority: CN
Inventors: 童伟峰; 张亮
Original assignee: Heng Xuan Technology Beijing Co ltd
Current assignee: Heng Xuan Technology Beijing Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-23

Abstract

本申请提供一种音频处理方法、穿戴式设备，涉及音频处理领域。音频处理方法应用于穿戴式设备，音频处理方法包括：获取音频数据和图像数据；基于所述图像数据确定声源方向；根据所述声源方向分别对所述音频数据进行波束成形处理。通过图像数据确定声源方向，减少在多声源或噪音环境下确定声源方向的运算量和提高确定声源方向的准确率，进而提高对音频数据进行波束成形处理的效率与准确性。

Description

一种音频处理方法、穿戴式设备

技术领域

本申请涉及音频处理领域，具体而言，涉及一种音频处理方法、穿戴式设备。

背景技术

多麦克风阵列波束成形技术会先确定声源方向，目前，通常是对多麦克风阵列中各麦克风采集的音频数据进行处理，从中确定目标声源方向，然后再对麦克风采集的音频数据进行处理，对目标声源方向外的声音进行降噪，或对目标声源方向上的声音进行放大等，以使用户能够准确地收听目标声源方向的声音。例如，助听器可以基于多麦克风阵列波束成形技术过滤音频数据中的噪音，使助听器能够更为清晰地播放特定方向上的声音。

然而，当环境中存在噪声或存在多个声源，从多个麦克风分别采集的音频数据中识别目标声源方向时，因不同声音的干扰，会使得识别目标声源方向的运算量较大，且对目标声源方向的识别准确率会降低，从而导致设备的功耗增加，识别目标声源方向的延迟增加等问题。

发明内容

有鉴于此，本申请旨在提供一种音频处理方法、穿戴式设备，以减少识别声源方向的运算量，以及提高对声源方向的识别准确率。

第一方面，本申请实施例提供一种音频处理方法，应用于穿戴式设备，所述音频处理方法包括：获取音频数据和图像数据；基于所述图像数据确定声源方向；根据所述声源方向分别对所述音频数据进行波束成形处理。

本申请实施例中，通过图像数据确定声源方向，相较于从噪音或多个声源的音频数据中确定声源方向，可以减少穿戴式设备从存在噪音或多个声源的音频数据中识别声源方向的情况，以及结合图像数据可以确定的声源方向更为确定。由此，可以降低穿戴式设备确定声源方向的运算量与提高所确定的声源方向的准确性，从而降低穿戴式设备对音频数据进行处理的功耗以及提高穿戴式设备对音频数据进行处理的效率。

一实施例中，所述基于所述图像数据确定声源方向之前，所述音频处理方法还包括：基于所述图像数据构建地图；基于所述地图构建确定所述穿戴式设备的位姿；对应的，所述基于所述图像数据确定声源方向，包括：识别所述图像数据中的声源目标；根据所述声源目标、所述位姿和所述地图，确定所述声源方向。

本申请实施例中，利用图像数据构建的地图，再根据地图可以确定穿戴式设备的位姿，相较于直接利用声源目标与穿戴式设备之间的位置关系确定声源方向，使用位姿和地图可以使得确定的声源方向更为准确，进而使得穿戴式设备能够对音频数据进行更为准确地处理。

一实施例中，所述识别所述图像数据中的声源目标之后，所述方法还包括：识别所述图像数据中所述声源目标的类型；若确定所述声源目标的类型为人物，识别所述人物的口部特征；若所述口部特征表征所述人物未发声，将所述人物从所述声源目标中剔除。

对于人物，其发出声音时，通常会有口部特征的变化，本申请实施例中，利用人物的口部特征判断声源目标，可以提高判断声源目标的准确性，将未发声的人物从声源目标中剔除，可以使得未发生的人物不作为声源目标来确定声源方向，从而提高确定声源方向的准确性。

一实施例中，所述基于所述图像数据构建地图之后，所述方法还包括：获取所述穿戴式设备的惯性测量数据；基于所述惯性测量数据和所述地图确定所述穿戴式设备的位姿。

本申请实施例中，利用惯性测量数据辅助确定穿戴式设备的位姿，可以有效提高位姿的准确性。同时，在移动、旋转等场景下，使用惯性测量数据可以有助于实现穿戴式的快速定位与位姿确定，减少声源方向确定及对音频数据进行处理的延迟。

一实施例中，所述穿戴式设备包括麦克风阵列，所述麦克风阵列包括多个麦克风，所述音频数据包括不同所述麦克风分别采集的子音频数据，所述根据所述声源方向对所述音频数据进行波束成形处理，包括：基于所述声源方向、不同所述麦克风之间的预设位置关系，确定各所述麦克风各自对应的波束成形的时延参数；基于所述各自对应的时延参数和不同所述子音频数据进行波束成形处理。

本申请实施例中，预设不同麦克风之间的位置关系，可以在确定声源方向之后，提高确定波束成型时延参数的效率，减少波束成型耗费的时间，从而降低对音频数据进行处理的延时。

第二方面，本申请实施例提供一种穿戴式设备，包括：图像采集件，用于采集图像数据；麦克风阵列，包括多个麦克风，不同所述麦克风分别布设在所述穿戴式设备上的不同位置，所述麦克风阵列用于采集音频数据；处理器，分别与所述图像采集件和所述麦克风阵列连接，所述处理器用于执行如第一方面任一项所述的音频处理方法。

一实施例中，所述穿戴式设备包括眼镜部件，所述图像采集件设置在所述眼镜部件内，所述眼镜部件与所述处理器连接。

一实施例中，所述穿戴式设备还包括助听模块和扬声器，所述助听模块包括波束成形处理单元和滤波器组件，所述波束成型处理单元与所述处理器连接；所述波束成形处理单元和所述滤波器组件连接，所述滤波器组件与所述扬声器连接，所述波束成形处理单元用于对麦克风阵列采集的音频数据做波束成形处理，所述滤波器组件用于对波束成形处理后的所述音频数据进行滤波，所述扬声器用于对滤波后的所述音频数据进行播放。

本申请实施例中，在穿戴式设备上设置助听模块和扬声器，以使穿戴式设备可以实现助听器的功能，扩大穿戴式设备的适用范围。

一实施例中，所述穿戴式设备还包括耳机组件，所述麦克风阵列、所述助听模块和所述扬声器设置于所述耳机组件内。

本申请实施例中，可以将麦克风阵列、助听模块和扬声器设置于耳机组件内，以使穿戴式设备可以通过耳机组件实现助听器的功能。

一实施例中，所述穿戴式设备还包括：惯性测量组件，所述惯性测量组件与所述处理器连接，所述惯性测量组件用于采集所述穿戴式设备的惯性测量数据。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如第一方面所述音频处理方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的穿戴式设备的结构框图；

图2为本申请一实施例提供的音频处理方法的流程图；

图3为本申请实施例提供的一种声源目标识别示意图。

图标：穿戴式设备100；图像采集件110；麦克风阵列120；处理器130。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参阅图1，图1为本申请实施例提供的一种穿戴式设备的结构框图。穿戴式设备100包括：图像采集件110、麦克风阵列120和处理器130。

图像采集件110，用于采集图像数据。

本实施例中，图像采集件110可以为各类采集图像数据的器件或设备，例如，图像采集件110可以为图像传感器、摄像头等，图像传感器可以为红外传感器、深度传感器等。在一些实施例中，图像采集件110的图像采集范围可以为该穿戴式设备用户的视线范围或穿戴式设备的正向范围。

麦克风阵列120，用于采集音频数据。

本实施例中，麦克风阵列120包括多个麦克风，麦克风阵列120中的不同麦克风设置在穿戴式设备上的不同位置。例如，当穿戴式设备为头戴式设备时，麦克风阵列120的不同麦克风可以分别设置在头戴式设备的左右两侧或其中任意一侧，对于麦克风阵列设置在同一侧时，麦克风阵列的不同麦克风设置在穿戴式设备同一侧的不同位置上。

在一些实施例中，麦克风阵列120可以为多个，每一麦克风阵列120设置在穿戴式设备上的不同位置。例如，当头戴式设备包括两侧时，还可以头戴式设备的两侧分别设置麦克风阵列，麦克风阵列的不同麦克风分别设置在头戴式设备上的不同位置，例如，头戴式设备包括左右耳机时，左右耳机上分别设置一个麦克风阵列，每一麦克风阵列包括设置在耳机上不同位置的多个麦克风。

麦克风阵列120的布设可以参考现有技术，在此不进行赘述。

处理器130，用于执行本申请实施例所提供的音频处理方法，音频处理方法的具体内容将在后文展开。

本实施例中，处理器130可以为MCU(Microcontroller Unit，微控制单元)、CPU(central processing unit，中央控制单元)等。处理器130可以对图像采集件110采集的视频数据、麦克风阵列120采集的音频数据进行处理。处理器130与图像采集件110、麦克风阵列120之间的连接方式不做限制，例如，处理器130与图像采集件110、麦克风阵列120之间可以通过间接或无线通信的方式连接，具体实现方式可以参考现有技术，在此不再展开。

其中，穿戴式设备还包括存储器，存储器可以分别与图像采集件110、处理器130和麦克风阵列120通信连接，存储器可以存储麦克风阵列120中各麦克风之间的位置关系、麦克风阵列120采集的音频数据和图像采集件110采集的图像数据等。

在一些实施例中，穿戴式设备还可以包括音频播放设备，音频播放设备可以包括扬声器、耳机、音箱等，处理器130可以将处理后的音频数据通过音频播放设备输出。

一实施例中，穿戴式设备可以包括眼镜部件。

本实施例中，穿戴式设备可以为智能眼镜，例如，AR(AugmentedReality，增强现实)眼镜、VR(Virtual Reality，虚拟现实)眼镜等，智能眼镜的具体结构可以参考现有技术，在此不进行赘述。

当穿戴式设备包括眼镜部件时，图像采集件110可以设置在眼镜部件内，以采集眼镜所朝向方向的图像数据。在一些实施例中，处理器130还可以设置在眼镜部件内。

一实施例中，穿戴式设备可以包括助听模块和扬声器，助听模块包括波束成形处理单元和滤波器组件，波束成型处理单元与处理器连接；波束成形处理单元和滤波器组件连接，滤波器组件与所述扬声器连接，波束成形处理单元用于对麦克风阵列采集的音频数据做波束成形处理，滤波器组件用于对波束成形处理后的音频数据进行滤波，扬声器用于对滤波后的所述音频数据进行播放。

本实施例中，穿戴式设备可以实现助听器的功能，穿戴式设备的助听模块的滤波器组件，滤波器组件可以对需进行播放的音频数据进行滤波放大，从而使得音频数据能够在放大后由扬声器播放，辅助听力障碍者接收声音。在一些实施例中，滤波器组件包括分析滤波器组和合成滤波器组，分析滤波器组和合成滤波器组连接，分析滤波器组可以将输入的音频数据分为多个频段的音频信号，并分别使用不同的增益分别对每一频段的音频信号进行调整，合成滤波器可以将进行增益调整后的多个音频信号合成为一路音频数据，以将该音频数据输出。在一些实施例中，可以使用gamma tonefilter(一种滤波器)、crossoverfilter(一种滤波器)等滤波器实现分析滤波器组和合成滤波器组的功能。上述仅为示例，滤波器组件及耳机组件可以参考现有技术，在此不再展开。

一实施例中，穿戴式设备还可以包括耳机组件，麦克风阵列、助听模块和扬声器设置于耳机组件内。在一些实施例中，处理器也可以设置在耳机组件内。

在一些实施例中，耳机组件可以包括左耳机组件、右耳机组件或者耳机组件包括左耳机组件和右耳机组件的其中之一。麦克风阵列、助听模块和扬声器可以分别设置于左耳机组件、右耳机组件或者其中之一。其中，当耳机组件同时包括左耳机组件和右耳机组件时，每一耳机组件内分别设置有麦克风阵列、助听模块和扬声器。

在一些实施例中，穿戴式设备可以同时包括眼镜部件和耳机部件，处理器130可以设置在眼镜部件或耳机部件二者中的任意一者上，眼镜部件和耳机部件之间通信连接。

在一些实施例中，处理器130还可以包括第一处理器和第二处理器，第一处理器设置于眼镜部件上，用于处理图像数据，确定声源方向，第二处理器设置于耳机部件上，第二处理器用于基于声源方向对音频数据进行波束成形处理。眼镜部件和耳机部件可以通过蓝牙、超宽带通信、近场通信、物联网等方式无线通信连接，还可以通过USB(UniversalSerial Bus，通用串行总线)、UART(Universal Asynchronous Receiver/Transmitter，通用异步收发传输器)等方式有线连接。

一实施例中，穿戴式设备还可以包括惯性测量组件。

本实施例中，惯性测量组件用于采集穿戴式设备的惯性测量数据，例如，惯性测量组件可以包括陀螺仪、加速度计等惯性元件。

接下来，将结合上述穿戴式设备，对本申请所提供的音频处理方法进行说明。

请参阅图2，图2为本申请实施例提供的一种音频处理方法的流程图。音频处理方法包括：

S110，获取音频数据和图像数据。

本实施例中，穿戴式设备包括处理器130、图像采集件110和麦克风阵列120，穿戴式设备的处理器130可以获取图像采集件110采集的图像数据与麦克风阵列120采集的音频数据。

其中，图像采集件110可以采集包括声源目标在内的图像数据，声源目标为可能发出声音的目标，例如，声源目标可以为人、动物、机器设备等。麦克风阵列120可以采集穿戴式设备所处环境中声源目标发出的声音，即音频数据，麦克风阵列120中，不同麦克风所采集声音分别为不同的子音频数据。

S120，基于图像数据确定声源方向。

本实施例中，在获取图像数据之后，可以对图像数据中的声源目标进行识别，确定图像数据中发声的目标和该目标所在图像数据中的位置或方位，并将该目标相较于穿戴式设备的方向确定为声源方向。

在一些实施例中，对声源目标进行识别时，还可以对声源目标的特征进行识别，例如，发声特征、外形特征等。由此，可以通过声源目标的特征对声源目标的类型进行确定，例如，根据发声特征、外形特征确定声源目标为人物、动物或机器设备。在确定声源目标为人物时，还可以将声源目标为男性、女性，或老人、小孩、青年等。

当穿戴式设备处于噪音环境或多声源环境下时，可以对图像数据中的声源目标进行识别，确定与音频数据中声音来源匹配的声源目标。

一实施例中，可以识别图像数据中声源目标的类型；若确定声源目标的类型为人物，识别人物的口部特征；若口部特征表征人物未发声，将该人物从声源目标中剔除。

人物在说话时，通常会有口部特征，当识别到声源目标为人物时，则可以判断该人物的口部特征是否表征该人物是否发声，若该人物的口部特征表征该人物未发声，则可以确定该人物不为声源目标，将其从声源目标中剔除，以在后续过程中不对该人物进行分析处理，减少工作量，以及提高声源目标识别的准确性。

其中，对声源目标的识别、人物特征的识别等可以使用神经网络技术，例如，TensorFlow、PyTorch、Caffe/Caffe2、Keras、MXNe等神经网络技术，神经网络对声源目标的识别可以参考现有技术，在此不再赘述。

在一些实施例中，还可以根据声源目标的发声时的其他特征对声源目标进行筛选。例如，还可以将音频数据中声音的音质与从图像数据中所识别的声源目标进行匹配，判断音频数据中的声音是否为该声源目标所发出。例如，音频数据中声音的音质表征该声音为男性的声音，而识别的声源目标为女性，则可以判断该女性与音频数据的声源目标不匹配，从而重新确定声源目标。上述仅为示例，不应成为对本申请的限制。

在一些实施例中，还可以将穿戴式设备正向的声源确定为声源目标。

请参阅图3，图3为本申请实施例提供的一种声源目标识别示意图。人物在交谈时，或在看电影、视频等场景时，人物通常会面向发出声音的目标，例如，交谈时会朝向交谈对象，看电影时，会朝向播放电影的电子设备。故用户对穿戴式设备正常穿戴时，穿戴式设备同样会面向目标，此时，可以将穿戴式设备正向的声源确定为声源目标，当正向有多个声源目标场景下，可以将图像数据中靠近中部的声源识别为声源目标。

在一些实施例中，当穿戴式设备包括眼镜部件时，还可以在眼镜部件上设置标记，将该标记表示的方向确定为声源方向。如图3所示，标记可以是刻度、箭头符号等，用户可以将标记朝向目标，以将该标记方向上的目标识别为声源目标，在该场景下，可以将图像数据上预设位置的声源识别为声源目标。上述仅为示例，不应成为对本申请的限制。

在一些实施例中，当确定图像数据中仅存在一个目标时，且确定该目标的类型与音频数据中的声音来源类型相匹配时，则可以将该目标确定为声源目标。

一实施例中，在确定声源方向前，可以基于图像数据构建地图，然后基于地图构建确定穿戴式设备的位姿，接着根据声源目标、位姿和地图，确定声源方向。

本实施例中，穿戴式设备的位姿包括穿戴式设备在地图中的位置、朝向等。麦克风通常具有全方位收音的特性，当穿戴式设备的位姿不同时，所采集的图像数据和音频数据不同，所确定的声源方向也可能不同，例如，当用户平视前方时，确定的声源方向为用户正前方，而当用户仰头时，确定确定的声源方向可能为用户正前方偏下。因此，在确定声源方向时，可以确定穿戴式设备的位姿，使得通过位姿确定的声源方向更具准确性。

本实施例中，图像采集件110采集的图像数据可以为图像视频，或连续的多帧图像，处理器130可以根据图像视频或连续多帧图像构建穿戴式设备所在环境的地图，其中，由于图像数据包括声源目标，该地图中也可以包括声源目标，且声源目标在地图中的位置与在图像数据中的位置相匹配。

在构建地图之后，可以根据地图和图像数据确定穿戴式设备的位姿，并根据地图、位置和声源目标，确定声源目标相较于穿戴式设备的方向，即声源方向。本实施例中，构建地图确定位姿，以及根据地图、位姿和声源目标确定声源方向的具体实现过程可以参考现有技术，例如SLAM(Simultaneous Localization and Mapping，同步定位与地图构建)，在此不再进一步说明。

在一些实施例中，穿戴式设备还包括惯性测量组件，在构建地图后，处理器130还可以获取穿戴式设备的惯性测量数据，并基于惯性测量数据和地图确定穿戴式设备的位姿。

在一些场景中，穿戴式设备可能随用户的运动而发生运动，此时，穿戴式设备的位姿可能会发生较快地变化，例如，当穿戴式设备为智能眼镜等头戴式的设备时，用户仰头、摆头、旋转等均会使得穿戴式设备的位姿发生改变，而利用地图确定穿戴式设备位姿的效率较低，可能会带来较大的延迟，甚至可能由于对图像数据处理不及时导致确定声源方向出错，因此，在本申请实施例中，可以使用惯性测量数据辅助地图确定穿戴式设备位姿，以提高确定声源方向的准确性和效率。

S130，根据声源方向分别对音频数据进行波束成形处理。

一实施例中，根据声源方向分别对音频数据进行波束成形处理包括：进行基于声源方向、不同麦克风之间的预设位置关系，确定各麦克风各自对应的波束成形的时延参数；基于各自对应的时延参数和不同子音频数据进行波束成形处理。

波束成形处理需计算声源方向相较于不同麦克风之间时延参数，从而根据每一麦克风对应的时延参数，对不同麦克风采集的子音频数据进行调整，最后将调整的子音频数据后合成，得到用于播放的音频数据。本实施例中，麦克风阵列120包括多个麦克风，可以将不同麦克风之间的位置关系以及不同麦克风在穿戴式设备上的位置为预先设置好的，从而在确定声源方向之后，可以较为快速地计算声源方向与不同麦克风之间的时延参数，从而减少波束成形处理的对音频播放带来的延时。其中，波束成形的时延参数和波束成形处理的实现过程可以参考现有技术，在此不再赘述。其中，在一些实施例中，处理器可以将音频数据和声源方向传输至波束成形单元，以使波束成形单元对音频数据进行波束成形处理。

此外，需要说明的是，穿戴式设备对音频数据进行处理时，外界声音可能会被用户收听到，若对音频数据的处理时间过长，导致穿戴式设备输出音频数据的延时过长，则可能使得用户从外界收和从穿戴式设备各自收听到相同声音的时间不一致，从而出现声音重复的情况，因此，上述音频处理方法在应用于助听类设备时，还可以提高用户的收听体验。基于所述图像数据确定声源方向，根据所述声源方向分别对所述音频数据进行波束成形处理，从而减少了音频数据处理的时延，从而减少了助听模块获得音频数据的时延，提高了助听设备的用户收听体验。

在一些实施例中，当图像数据中不包括声源目标时，例如，图像传感器的图像采集方向为用户前方，而声源目标在用户后方时，穿戴式设备还可以通过多麦克风阵列120波束成形技术确定声源方向及对音频数据进行处理。多麦克风阵列120波束成形技术可以参考现有技术，在此不再赘述。

基于同一发明构思，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被运行时执行上述实施例中提供的方法。其中，计算机可以是上述的穿戴式设备。

该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如SSD(Solid State Disk，固态硬盘))等。

在本申请所提供的实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备，或上述实施例中的穿戴式设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read－Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频处理方法，其特征在于，应用于穿戴式设备，所述音频处理方法包括：

获取音频数据和图像数据；

基于所述图像数据确定声源方向；

根据所述声源方向分别对所述音频数据进行波束成形处理。

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像数据确定声源方向之前，所述音频处理方法还包括：

基于所述图像数据构建地图；

基于所述地图构建确定所述穿戴式设备的位姿；

对应的，所述基于所述图像数据确定声源方向，包括：识别所述图像数据中的声源目标；根据所述声源目标、所述位姿和所述地图，确定所述声源方向。

3.根据权利要求2所述的方法，其特征在于，所述识别所述图像数据中的声源目标之后，所述方法还包括：

识别所述图像数据中所述声源目标的类型；

若确定所述声源目标的类型为人物，识别所述人物的口部特征；

若所述口部特征表征所述人物未发声，将所述人物从所述声源目标中剔除。

4.根据权利要求2所述的方法，其特征在于，所述基于所述图像数据构建地图之后，所述方法还包括：

获取所述穿戴式设备的惯性测量数据；

基于所述惯性测量数据和所述地图确定所述穿戴式设备的位姿。

5.根据权利要求1所述的方法，其特征在于，所述穿戴式设备包括麦克风阵列，所述麦克风阵列包括多个麦克风，所述音频数据包括不同所述麦克风分别采集的子音频数据，所述根据所述声源方向对所述音频数据进行波束成形处理，包括：

基于所述声源方向、不同所述麦克风之间的预设位置关系，确定各所述麦克风各自对应的波束成形的时延参数；

基于所述各自对应的时延参数和不同所述子音频数据进行波束成形处理。

6.一种穿戴式设备，其特征在于，包括：

图像采集件，用于采集图像数据；

麦克风阵列，包括多个麦克风，不同所述麦克风分别布设在所述穿戴式设备上的不同位置，所述麦克风阵列用于采集音频数据；

处理器，分别与所述图像采集件和所述麦克风阵列连接，所述处理器用于执行如权利要求1－5任一项所述的音频处理方法。

7.根据权利要求6所述的穿戴式设备，其特征在于，所述穿戴式设备包括眼镜部件，所述图像采集件设置在所述眼镜部件内，所述眼镜部件与所述处理器连接。

8.根据权利要求6所述的穿戴式设备，其特征在于，所述穿戴式设备还包括助听模块和扬声器，所述助听模块包括波束成形处理单元和滤波器组件，所述波束成型处理单元与所述处理器连接；所述波束成形处理单元和所述滤波器组件连接，所述滤波器组件与所述扬声器连接，所述波束成形处理单元用于对麦克风阵列采集的音频数据做波束成形处理，所述滤波器组件用于对波束成形处理后的所述音频数据进行滤波，所述扬声器用于对滤波后的所述音频数据进行播放。

9.根据权利要求8所述的穿戴式设备，其特征在于，所述穿戴式设备还包括耳机组件，所述麦克风阵列、所述助听模块和所述扬声器设置于所述耳机组件内。

10.根据权利要求6所述的穿戴式设备，其特征在于，所述穿戴式设备还包括：惯性测量组件，所述惯性测量组件与所述处理器连接，所述惯性测量组件用于采集所述穿戴式设备的惯性测量数据。

11.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1－5任一项所述的方法。