CN111556282A

CN111556282A - 远距离音视频采集的系统、方法、计算机设备和存储介质

Info

Publication number: CN111556282A
Application number: CN202010181016.2A
Authority: CN
Inventors: 陈文博; 夏若彬
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-08-18

Abstract

本申请涉及一种远距离音视频采集系统、方法、计算机设备和存储介质。通过采集第一区域的图像信息，获取沿着图像采集设备光轴平行方向线性排列的麦克风阵列采集的音频信息，根据麦克风阵列中各个麦克风的音频信息，判断声音音源，获取声源为第一区域的定向音频信息，存储模块存储图像信息和定向音频信息用以后续音视频的监控以及分析；沿着图像采集设备光轴平行方向线性排列的麦克风阵列实现了定向远距离的音频采集，图像采集模块和音频处理模块则根据图像采集区域获取定向音频，增加了监控过程中音视频信息的关联性，方便了后续利用音频和与之相应的图像信息进行联动行为。

Description

远距离音视频采集的系统、方法、计算机设备和存储介质

技术领域

本申请涉及监控技术领域，特别是涉及一种远距离音视频采集系统、方法、计算机设备和存储介质。

背景技术

随着监控技术的发展，出现了音视频采集技术，通过给摄像机配备麦克风，用于在产品录制视频的同时拾取环境声音，或用来捕获视频中目标发出的声音。然而，相关技术中使用的全指向麦克风系统，内部没有去混响、降噪等相关的处理，采集音频的范围有限，基本在5米以内。对于像银行、监狱、黄金珠宝店等敏感区域和场所，目前尚没有通过音频采集、提取人们的语音关键词来分析、判断危险情况并预警的监控系统。

针对相关技术中，音视频采集系统音频采集范围小，音频视频信息关联性差的问题，目前尚未提出有效的解决方案。

发明内容

基于此，有必要针对上述技术问题，提供一种远距离音视频采集系统、方法、计算机设备和存储介质。

根据本发明的一个方面，提供了一种远距离音视频采集系统，包括图像采集设备、麦克风阵列、音频处理模块和存储模块，

所述图像采集设备用于对第一区域进行图像采集，获取图像信息；所述麦克风阵列进行音频采集，获取音频信息，所述麦克风阵列包括至少两个麦克风，呈线性排列，其中，所述麦克风阵列所处的直线与所述图像采集设备的光轴平行；

所述音频处理模块用于对所述音频信息进行处理，获取所述第一区域的定向音频信息；

所述存储模块用于存储所述图像信息和与所述图像信息所对应的所述定向音频信息。

在其中一个实施例中，所述麦克风阵列中的麦克风间距可调。

在其中一个实施例中，所述系统还包括主控芯片，所述主控芯片用于对所述定向音频信息进行语音识别，获取语音识别结果；所述主控芯片用于对所述图像信息进行图像识别，获取图像识别结果；所述主控芯片用于匹配所述语音识别结果与所述图像识别结果。

在其中一个实施例中，所述系统还包括联动模块，所述联动模块在所述语音识别结果满足触发条件的情况下，触发联动行为。

根据本发明的另一个方面，还提供一种远距离音视频采集方法，应用于远距离音视频采集系统，所述远距离音视频采集系统包括麦克风阵列，所述方法包括：

采集第一区域的图像信息，获取所述麦克风阵列采集的音频信息；

根据预设的音频处理算法处理所述音频信息，得到所述第一区域的定向音频信息；

存储所述图像信息和所述定向音频信息。

在其中一个实施例中，所述获取所述麦克风阵列采集的音频信息，根据预设的音频处理算法处理所述音频信息，得到第一区域的定向音频信息，包括：获取所述麦克风阵列中各个麦克风获取的音频信息，所述音频信息包括声压，根据所述声压判断声源；在所述声源在所述远距离音视频采集系统的图像采集范围内时，对所述声源对应的音频信息进行加强；在所述声源不在所述远距离音视频采集系统的图像采集范围内时，对所述声源对应的音频信息进行压制；获取定向音频信息。

在其中一个实施例中，所述根据预设的音频处理算法处理所述音频信息，得到所述第一区域的定向音频信息包括：根据所述麦克风阵列中各个麦克风之间的间距值，选取音频处理算法；根据所述音频处理算法处理所述音频信息，得到所述定向音频信息。

在其中一个实施例中，所述存储所述图像信息和所述定向音频信息之后，所述方法还包括：对所述定向音频信息进行语音识别，获取语音识别结果；对所述图像信息进行图像识别，获取图像识别结果；根据所述语音识别结果与所述图像识别结果，匹配所述语音识别结果中的声源和所述图像识别结果中的身份特征。

在其中一个实施例中，所述方法还包括：在所述语音识别结果中的第一声源满足关键字触发条件的情况下，触发联动行为，并获取与所述第一声源对应的第一身份特征。

根据本发明的另一个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述远距离音视频采集方法。

根据本发明的另一个方面，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述远距离音视频采集方法。

上述远距离音视频采集系统、方法、计算机设备和存储介质，通过图像采集设备采集第一区域的图像信息，沿着图像采集设备光轴平行方向线性排列的麦克风阵列采集音频信息，音频处理模块根据麦克风阵列中各个麦克风的音频信息，判断声音音源，获取声源为第一区域的定向音频信息，存储模块存储图像信息和定向音频信息用以后续音视频的监控以及分析；沿着图像采集设备光轴平行方向线性排列的麦克风阵列实现了定向远距离的音频采集，图像采集模块和音频处理模块则根据图像采集区域获取定向音频，增加了监控过程中音视频信息的关联性，方便了后续利用音频和与之相应的图像信息进行联动行为。

附图说明

图1是根据本发明的一个实施例中的远距离音视频采集系统应用场景图；

图2是根据本发明一个实施例中远距离音视频采集系统20的示意图；

图3是根据本发明一个实施例中的麦克风阵列14与音频处理模块22的示意图；

图4是根据本发明一个实施例中的麦克风阵列14的示意图；

图5是根据本发明一个实施例中的远距离音视频采集系统20的示意图；

图6是根据本发明一个实施例中的远距离音视频采集方法流程图一；

图7是根据本发明一个实施例中的远距离音视频采集方法流程图二；

图8是根据本发明一个实施例中的远距离音视频采集方法示意图；

图9是根据本发明一个实施例中的远距离音视频采集方法流程图三；

图10是根据本发明一个实施例中的远距离音视频采集方法流程图四。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1是根据本发明的一个实施例中的远距离音视频采集系统应用场景图，本申请提供的远距离音视频采集系统，可以应用于对于应用环境中对一个特定空间的音视频监控。其中，图像采集设备12的监控区是第一区域，图像采集设备12上安装有麦克风阵列14，该远距离音视频采集系统在采集第一区域的图像信息的同时，需要采集第一区域内的声源所发出的音频信息。

在一个实施例中，图2是根据本发明一个实施例中远距离音视频采集系统20的示意图，如图2所示，提供了一种远距离音视频采集系统20，该系统包括图像采集设备12、麦克风阵列14、音频处理模块22和存储模块，存储模块未在图中示出，图像采集设备12对第一区域进行图像采集，该第一区域与摄像头的镜头大小以及监控距离相关，根据应用场景，选择合适的图像采集设备后，即可确定第一区域，例如，以图像采集设备12的光轴为对称轴的，总共为60度的水平角区域为第一区域。麦克风阵列14可以线性安装在图像采集设备12的外壳底部，也可以与图像采集设备12分体设置，无论采用何种设置方式，麦克风阵列14所在直线与图像采集设备12的光轴所在直线平行，图像采集设备12可以为筒形枪机，也可以是会上下左右转动的云台机或者其他机型，但麦克风的线性拾音方向始终和镜头方向保持一致。

音频处理模块22对麦克风阵列14采集到的音频信息进行处理，图3是根据本发明一个实施例中的麦克风阵列14与音频处理模块22的示意图，如图3所示，实施例中的麦克风阵列由4个麦克风组成，麦克风1(Microphone1，MIC1)的方向为所需要采集的目标声源方向，而MIC4方向的声源则为需要重点消除的噪音，MIC2和MIC3为辅助判断声源方位的中间装置，音频处理芯片22通过从4个MIC拾取的声源的特征差异，通过声源定向算法来判断声源方向，从而获取指定声源方向的音频信息。

在采集到第一区域的图像信息，并且计算获得了第一区域的定向音频信息后，远距离音视频采集系统的存储模块存储图像信息和与图像信息所对应的定向音频信息，将图像信息与音频信息关联存储，方便后续对音视频信息的分析和利用。

上述远距离音视频采集系统20，通过图像采集设备12采集第一区域的图像信息，沿着图像采集设备光轴平行方向线性排列的麦克风阵列14采集音频信息，音频处理模22块根据麦克风阵列14中各个麦克风的音频信息，判断声音音源，获取声源为第一区域的定向音频信息，存储模块存储图像信息和定向音频信息用以后续音视频的监控以及分析，沿着图像采集设备光轴平行方向线性排列的麦克风阵列14实现了定向远距离的音频采集，音频处理模块22则根据图像采集区域获取定向音频，增加了监控过程中音视频信息的关联性，方便了后续利用音频和与之相应的图像信息进行联动行为。

在一个实施例中，麦克风阵列14中的麦克风间距可调。图4是根据本发明一个实施例中的麦克风阵列14的示意图，如图4所示，4个MIC之间的间距如下：MIC1和MIC2的中心间距为d1，MIC2和MIC3的中心间距为d2，MIC3和MIC4的中心间距为d3，其中d1、d2、d3彼此可以相同也可以不同，不同的间距值对应的音频处理算法会有差别。例如，在d1、d2、d3相同的情况下，该麦克风阵列为均匀线性麦克风阵列，d3＝2d2＝2d1的情况下，该麦克风阵列为嵌套线性阵列，嵌套型阵列可看成几组均匀线性阵列的叠加，是一类特殊的非均匀阵列，不同的麦克风阵列14可以适用不同的采集场景，通常麦克风阵列长度较长则波束成形时的波束宽度较窄。本实施例中，通过将麦克风设置位置可移动，来提供可改变的麦克风阵列14，从而更好地进行定向拾音。

在一个实施例中，远距离音视频采集系统20还包括主控芯片24，主控芯片24用于对定向音频信息进行语音识别，获取语音识别结果，此处的语音识别包括两方面，一方面是对于语音音色的识别，从而分辨不同的语音主体，即不同的说话的人，另一方面，还会对语音进行关键字识别，即对监控区域内所有人的说话内容进行识别；同时，主控芯片24对图像信息进行图像识别，获取图像识别结果，上述图像识别主要针对语音主体，通过对图像中人脸人形的识别，获取图像特征，结合语音识别中的特征，在两者特征吻合的情况下，将语音识别的语音与图像中的任务图像匹配，例如，图像识别发现监控画面中有女性人物的嘴部开合，而语音识别也得到一段判断为女性的语音片段，则可以将图像信息中该女性人物的图像与该语音片段匹配。通过主控芯片24，对采集到的图像信息和定向音频信息进行进一步识别分析，并将特征符合的图像识别结果和语音识别结果相匹配，进一步提高了图像信息和音频信息的关联性，使得监控区域内的音频信息与图像信息在被调用时能同时呈现。

在一个实施例中，图5是根据本发明一个实施例中的远距离音视频采集系统20的示意图，如图5所示，远距离音视频采集系统20系统还包括联动模块30，联动模块在语音识别结果满足触发条件的情况下，触发联动行为。远距离音视频采集系统20可对采集到的声音信号进行关键字识别，关键字识别可以用于在识别到敏感词汇时触发报警、接收指令和人机交互等，在需要监控范围比较远的敏感区域，例如银行、珠宝首饰店、问询室、监狱放风场所等，该监控系统可有效防范风险和意外发生，同时，根据语音识别结果和图像识别结果的结合，提供触发该关键字的人员图像信息。可选地，联动模块30还包括报警联动模块32和通信模块34，报警联动模块32用于在识别到语音关键字时执行报警行为，如呼叫警卫处，关闭监控区域的大门等，可选地，远距离音视频采集系统20还配备外接设备如高分贝喇叭、警示灯等，报警联动模块于上述外接设备相连，对识别到的风险进行报警联动，对危险人员避免危险的进一步升级具有震慑和遏制作用；通信模块34则可以外接其他系统如人脸身份识别系统，在关键字被触发时，获取到远距离音视频采集系统20中的图像信息，发送给人脸身份识别系统，即可通过该图像信息识别出触发关键字的语音主体的身份。本实施例中通过远距离音视频采集系统20中的联动模块30提取语音关键词进行分析，通过关键词识别判断危险情况并预警的监控系统，提高了远距离音视频采集系统20的联动性。

根据本发明的另一个方面，还提供了一种远距离音视频采集方法，应用于远距离音视频采集系统20，远距离音视频采集系统20包括麦克风阵列14，图6是根据本发明一个实施例中的远距离音视频采集方法流程图一，如图6所示，该方法包括：

S602：采集第一区域的图像信息，获取麦克风阵列14采集的音频信息；远距离音视频采集系统20中的图像采集设备12采集第一区域的图像信息，第一区域为图像采集设备12的监控区域，麦克风阵列14则全向性地采集远距离音视频采集系统20所在环境中的所有音频信息

S604：根据预设的音频处理算法处理音频信息，得到第一区域的定向音频信息；远距离音视频采集系统20中包括音频处理模块22，音频处理模块22上包含预设的声源定向分析算法、降噪算法、回声消除算法等，麦克风陈列14采集的音频信息将通过音频处理模块22，得到声源为第一区域的定向音频信息，其中，声源定向算法包括波束成形、基于高分辨率谱估计和声达时间差等。

S606：存储图像信息和定向音频信息；在采集到第一区域的图像信息，并且计算获得了第一区域的定向音频信息后，远距离音视频采集系统20存储图像信息和与图像信息所对应的定向音频信息，将图像信息与音频信息关联存储，方便后续对音视频信息的分析和利用。

上述远距离音视频采集方法，通过图像采集设备12采集第一区域的图像信息，沿着图像采集设备光轴平行方向线性排列的麦克风阵列14采集音频信息，音频处理模22块根据麦克风阵列14中各个麦克风的音频信息，判断声音音源，获取声源为第一区域的定向音频信息，存储图像信息和定向音频信息用以后续音视频的监控以及分析，沿着图像采集设备光轴平行方向线性排列的麦克风阵列14实现了定向远距离的音频采集，音频处理模块22则根据图像采集区域获取定向音频，增加了监控过程中音视频信息的关联性，方便了后续利用音频和与之相应的图像信息进行联动行为。

在一个实施例中，图7是根据本发明一个实施例中的远距离音视频采集方法流程图二，如图7所示，麦克风阵列采集音频信息，远距离音视频采集系统根据预设的音频处理算法处理音频信息，得到第一区域的定向音频信息，包括：

S702：获取麦克风阵列14中各个麦克风获取的音频信息，音频信息包括声压，根据声压判断声源；

当远距离音视频采集系统20所处的环境下有声音发出时，麦克风阵列14中的各个麦克风虽然都能采集到声音信号但产生的声压不会全部相等。MIC离声源越近，产生的声压就会越大，音频处理模块通过自带的算法根据几个MIC产生声压的声压差来判断音源方向。

S704a：在声源在远距离音视频采集系统20的图像采集范围内时，对声源对应的音频信息进行加强；

S704b：在声源不在远距离音视频采集系统20的图像采集范围内时，对声源对应的音频信息进行压制；

上述步骤S704a和S704b，在判断声音是从摄像头的监控方向即第一区域传来时，算法会对该数据进行保真、降风噪、放大等处理后保存；而当判断声音是从非监控区域即不是第一区域采集而来的，算法会对该数据进行压制、消除等处理，减少其对有用数据的干扰影响。

S706：获取定向音频信息；根据上述步骤对音频信息进行处理后，得到定向音频信息。

图8是根据本发明一个实施例中的远距离音视频采集方法示意图，如图8所示，在一个实施例中，4MIC线性麦克风阵列，采集到的声源距离可达15米及以上，最大水平角度约120°，并确保水平视场角90°范围内的声音基本无压制，与摄像机自身的图像视场角基本一致，上述实施例可以使得在定向音频信息中，在图像采集设备12的视场范围内的声音基本无压制。

在一个实施例中，所述远距离音视频采集系统根据预设的音频处理算法处理所述音频信息，得到所述第一区域的定向音频信息包括：根据麦克风阵列中各个麦克风之间的间距值，选取音频处理算法；根据音频处理算法处理所述音频信息，得到定向音频信息。例如，在d1、d2、d3相同的情况下，该麦克风阵列为均匀线性麦克风阵列，d3＝2d2＝2d1的情况下，该麦克风阵列为嵌套线性阵列，嵌套型阵列可看成几组均匀线性阵列的叠加，是一类特殊的非均匀阵列，不同的麦克风阵列可以适用不同的采集场景，通常麦克风阵列长度较长则波束成形时的波束宽度较窄。本实施例中，通过将麦克风设置位置可移动，来提供可改变的麦克风阵列，选取与麦克风阵列相对应的音频处理算法，从而更好地进行定向拾音。

在一个实施例中，图9是根据本发明一个实施例中的远距离音视频采集方法流程图三，如图9所示，远距离音视频采集系统20存储图像信息和定向音频信息之后，该方法还包括：

S902：对定向音频信息进行语音识别，获取语音识别结果；

S904：对图像信息进行图像识别，获取图像识别结果；

S906：根据语音识别结果与图像识别结果，匹配语音识别结果中的声源和图像识别结果中的身份特征。

上述实施例中，远距离音视频采集系统20对定向音频信息进行语音识别，获取语音识别结果，此处的语音识别包括两方面，一方面是对于语音音色的识别，从而分辨不同的语音主体，即不同的说话的人，另一方面，还会对语音进行关键字识别，即对监控区域内所有人的说话内容进行识别；同时，对图像信息进行图像识别，获取图像识别结果，上述图像识别主要针对语音主体，通过对图像中人脸人形的识别，获取图像特征，结合语音识别中的特征，在两者特征吻合的情况下，将语音识别的语音与图像中的任务图像匹配，例如，图像识别发现监控画面中有女性人物的嘴部开合，而语音识别也得到女性的语音片段，则可以将图像信息中该女性人物的图像与该语音片段匹配。通过本实施例中的方法，对采集到的图像信息和定向音频信息进行进一步识别分析，并将特征符合的图像识别结果和语音识别结果相匹配，进一步提高了图像信息和音频信息的关联性，使得监控区域内的音频信息与图像信息在被调用时能同时呈现。

在一个实施例中，图10是根据本发明一个实施例中的远距离音视频采集方法流程图四，如图10所示，方法还包括：

S1002：在语音识别结果中的第一声源满足关键字触发条件的情况下，触发联动行为，并获取与所述第一声源对应的第一身份特征。

远距离音视频采集系统20包括预设的触发关键字，可对采集到的声音信号进行关键字识别，关键字识别可以用于在识别到敏感词汇时触发报警、接收指令和人机交互等，在需要监控范围比较远的敏感区域，例如银行、珠宝首饰店、问询室、监狱放风场所等，该监控系统可有效防范风险和意外发生，同时，根据语音识别结果和图像识别结果的结合，提供触发该关键字的人员图像信息。在识别到语音关键字时可执行联动报警行为，如呼叫警卫处，关闭监控区域的大门等，可选地，还可以通过外接设备如高分贝喇叭、警示灯等，对识别到的风险进行报警联动，对危险人员避免危险的进一步升级具有震慑和遏制作用；此外，远距离音视频采集系统20还可以外接其他系统如人脸身份识别系统，在关键字被触发时，获取到远距离音视频采集系统20中的图像信息，发送给人脸身份识别系统，即可通过该图像信息识别出触发关键字的语音主体的身份。本实施例中，通过关键词识别判断危险情况并预警的监控系统，提高了远距离音视频采集系统20的联动性。

应该理解的是，虽然图6-10中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图6-10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述远距离音视频采集方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述远距离音视频采集方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种远距离音视频采集系统，其特征在于，所述系统包括图像采集设备、麦克风阵列、音频处理模块和存储模块；

所述图像采集设备用于对第一区域进行图像采集，获取图像信息；所述麦克风阵列用于音频采集，获取音频信息，所述麦克风阵列包括至少两个麦克风，呈线性排列，其中，所述麦克风阵列所处的直线与所述图像采集设备的光轴平行；

2.根据权利要求1所述的系统，其特征在于，所述麦克风阵列中的麦克风间距可调。

3.根据权利要求1所述的系统，其特征在于，所述系统还包括主控芯片；

所述主控芯片用于对所述定向音频信息进行语音识别，获取语音识别结果；

所述主控芯片用于对所述图像信息进行图像识别，获取图像识别结果；

所述主控芯片用于匹配所述语音识别结果与所述图像识别结果。

4.根据权利要求3所述的系统，其特征在于，所述系统还包括联动模块；

所述联动模块用于在所述语音识别结果满足触发条件的情况下，触发联动行为。

5.一种远距离音视频采集方法，应用于远距离音视频采集系统，所述远距离音视频采集系统包括麦克风阵列，其特征在于，所述方法包括：

存储所述图像信息和所述定向音频信息。

6.根据权利要求5所述的方法，其特征在于，所述获取麦克风阵列采集的音频信息，根据预设的音频处理算法处理所述音频信息，得到第一区域的定向音频信息，包括：

获取所述麦克风阵列中各个麦克风获取的音频信息，所述音频信息包括声压，根据所述声压判断声源；

在所述声源在所述远距离音视频采集系统的图像采集范围内时，对所述声源对应的音频信息进行加强；

在所述声源不在所述远距离音视频采集系统的图像采集范围内时，对所述声源对应的音频信息进行压制；

获取定向音频信息。

7.根据权利要求5所述的方法，其特征在于，所述根据预设的音频处理算法处理所述音频信息，得到所述第一区域的定向音频信息包括：

根据所述麦克风阵列中各个麦克风之间的间距值，选取音频处理算法；

根据所述音频处理算法处理所述音频信息，得到所述定向音频信息。

8.根据权利要求5所述的方法，其特征在于，所述存储所述图像信息和所述定向音频信息之后，所述方法还包括：

对所述定向音频信息进行语音识别，获取语音识别结果；

对所述图像信息进行图像识别，获取图像识别结果；

根据所述语音识别结果与所述图像识别结果，匹配所述语音识别结果中的声源和所述图像识别结果中的身份特征。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

在所述语音识别结果中的第一声源满足关键字触发条件的情况下，触发联动行为，并获取与所述第一声源对应的第一身份特征。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求5至9中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求5至9中任一项所述的方法的步骤。