CN112614508B

CN112614508B - 音视频结合的定位方法、装置、电子设备以及存储介质

Info

Publication number: CN112614508B
Application number: CN202011457311.2A
Authority: CN
Inventors: 郝昊; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2022-12-06
Anticipated expiration: 2040-12-11
Also published as: CN112614508A

Abstract

本申请提供一种音视频结合的定位方法、装置、电子设备以及存储介质。其中，在音视频结合的定位方法中，首先获取由图像采集部件采集得到的用户图像，再利用用户图像，计算得到用户的嘴部坐标。接着获取用户到图像采集部件的距离，并利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。同时获取由音频采集部件采集的用户的语音信号，然后基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。最后利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。

Description

音视频结合的定位方法、装置、电子设备以及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音视频结合的定位方法、装置、电子设备以及存储介质。

背景技术

近年来，随着科技的发展，越来越多的人工智能设备出现在人们生活中，这些人工智能设备可以与用户进行交互，执行用户下达的各种指令，极大的方便了用户的生活或者工作。这些人工智能设备在与用户进行交互时，需要先对用户进行定位，才能准确的与相应的用户进行交互。

在现有技术中，语音识别或者图像识别这两种定位方法在人工智能设备应用中还处于两个相对独立的领域。因此，人工智能设备在对用户进行定位时，一般都是通过语音识别或者图像识别其中的一种方式对用户进行定位。然而，在复杂的声学环境中，通过语音识别对用户进行定位时，定位结果就会不太准确，或者在人数比较多的环境中，通过图像识别对用户进行定位时，定位结果同样会不太准确。

发明内容

有鉴于此，本申请提供一种音视频结合的定位方法、装置、电子设备以及存储介质，以解决现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定位，导致定位结果不准确的问题。

为实现上述目的，本申请提供如下技术方案：

本申请第一方面公开了一种音视频结合的定位方法，包括：

获取由图像采集部件采集得到的用户图像；

利用所述用户图像，计算得到所述用户的嘴部坐标；

获取所述用户到所述图像采集部件的距离；

利用所述嘴部坐标以及所述用户到所述图像采集部件的距离，计算得到所述用户与所述图像采集部件的俯仰角；

获取由音频采集部件采集的所述用户的语音信号；

基于所述音频采集部件的坐标系，计算得到所述用户与所述图像采集部件的俯仰角所对应的用户与所述音频采集部件的俯仰角；

利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位。

可选的，上述的方法，所述利用所述用户图像，计算得到所述用户的嘴部坐标，包括：

从所述用户图像中提取出人体轮廓图；

基于所述人体轮廓图，获取所述用户的人体姿态参数；

利用所述人体姿态参数进行人体姿态估计，得到所述用户的骨架模型；

获取所述骨架模型中的头部坐标以及肩部中心关节点坐标，并利用所述头部坐标以及所述肩部中心关节点坐标计算得到所述嘴部坐标。

可选的，上述的方法，所述基于所述人体轮廓图，获取所述用户的人体姿态参数，包括：

获取所述人体轮廓图的初始人体姿态参数；

基于所述初始人体姿态参数，预测得到多个当前时刻的人体姿态参数；

利用最优化算法，从多个所述当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为所述用户的人体姿态参数。

可选的，上述的方法，所述利用所述嘴部坐标以及所述用户到所述图像采集部件的距离，计算得到所述用户与所述图像采集部件的俯仰角，包括：

将所述嘴部坐标转换成所述图像采集部件所在坐标系中对应的坐标；

将转换后的坐标以及所述用户到所述图像采集部件的距离代入预设的公式，计算得到所述用户与所述图像采集部件的俯仰角。

可选的，上述的方法，所述获取由音频采集部件采集的所述用户的语音信号，包括：

将所述音频采集部件采集到的原始语音信号进行数据预处理；

将处理后的语音信号进行子带分析，得到对应的频域信号；

对所述频域信号进行回声消除以及噪音消除，得到所述用户的语音信号。

可选的，上述的方法，所述利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位，包括：

基于所述音频部件的俯仰角，计算得到所述用户的语音信号的时延值；

按照所述时延值对所述用户的语音信号进行时延补偿；

利用波束形成算法，计算得到补偿后的语音信号的各个波束输出功率，并查找出所述各个波束输出功率中的最大波束输出功率；

按照所述最大波束输出功率所对应的波束，确定出所述用户的位置。

本申请第二方面公开了一种音视频结合的定位装置，包括：

图像获取单元，用于获取由图像采集部件采集得到的用户图像；

第一计算单元，用于利用所述用户图像，计算得到所述用户的嘴部坐标；

距离获取单元，用于获取所述用户到所述图像采集部件的距离；

第二计算单元，用于利用所述嘴部坐标以及所述用户到所述图像采集部件的距离，计算得到所述用户与所述图像采集部件的俯仰角；

语音获取单元，用于获取由音频采集部件采集的所述用户的语音信号；

第三计算单元，用于基于所述音频采集部件的坐标系，计算得到所述用户与所述图像采集部件的俯仰角所对应的用户与所述音频采集部件的俯仰角；

定位单元，用于利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位。

可选的，上述的装置，所述第一计算单元，包括：

提取子单元，用于从所述用户图像中提取出人体轮廓图；

第一获取子单元，用于基于所述人体轮廓图，获取所述用户的人体姿态参数；

姿态估计子单元，用于利用所述人体姿态参数进行人体姿态估计，得到所述用户的骨架模型；

第一计算子单元，用于获取所述骨架模型中的头部坐标以及肩部中心关节点坐标，并利用所述头部坐标以及所述肩部中心关节点坐标计算得到所述嘴部坐标。

可选的，上述的装置，所述第一获取子单元，包括：

第二获取子单元，用于获取所述人体轮廓图的初始人体姿态参数；

预测子单元，用于基于所述初始人体姿态参数，预测得到多个当前时刻的人体姿态参数；

查找子单元，用于利用最优化算法，从多个所述当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为所述用户的人体姿态参数。

可选的，上述的装置，所述第二计算单元，包括：

转换子单元，用于将所述嘴部坐标转换成所述图像采集部件所在坐标系中对应的坐标；

第二计算子单元，用于将转换后的坐标以及所述用户到所述图像采集部件的距离代入预设的公式，计算得到所述用户与所述图像采集部件的俯仰角。

可选的，上述的装置，所述语音获取单元，包括：

数据处理子单元，用于将所述音频采集部件采集到的原始语音信号进行数据预处理；

分析子单元，用于将处理后的语音信号进行子带分析，得到对应的频域信号；

消除子单元，用于对所述频域信号进行回声消除以及噪音消除，得到所述用户的语音信号。

可选的，上述的装置，所述定位单元，包括：

第三计算子单元，用于基于所述音频部件的俯仰角，计算得到所述用户的语音信号的时延值；

时延补偿子单元，用于按照所述时延值对所述用户的语音信号进行时延补偿；

第四计算子单元，用于利用波束形成算法，计算得到补偿后的语音信号的各个波束输出功率，并查找出所述各个波束输出功率中的最大波束输出功率；

定位子单元，用于按照所述最大波束输出功率所对应的波束，确定出所述用户的位置。

本申请第三方面公开了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本发明第一方面中任意一项所述的方法。

本申请第四方面公开了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本发明第一方面中任意一项所述的方法。

从上述技术方案可以看出，本申请提供的音视频结合的定位方法，首先获取由图像采集部件采集得到的用户图像，再利用用户图像，计算得到用户的嘴部坐标。接着获取用户到图像采集部件的距离，并利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。同时获取由音频采集部件采集的用户的语音信号，然后基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。最后利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。由此可知，本申请的方法在对用户进行定位时，将图像采集部件和音频采集部件得到的相关数据相结合，能够更准确地输出用户的定位结果，解决了现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定位，导致定位结果不准确的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种音视频结合的定位方法的流程图；

图2为本申请另一实施例公开的步骤S102的一种实施方式的流程图；

图3为本申请另一实施例公开的人体骨架模型的示意图；

图4为本申请另一实施例公开的步骤S105的一种实施方式的流程图；

图5为本申请另一实施例公开的步骤S107的一种实施方式的流程图；

图6为本申请另一实施例公开的均匀圆阵示意图的示意图；

图7为本申请另一实施例公开的一种音视频结合的定位装置的示意图；

图8为本申请另一实施例公开的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

并且，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

由背景技术可知，语音识别或者图像识别这两种定位方法在人工智能设备应用中还处于两个相对独立的领域。因此，人工智能设备在对用户进行定位时，一般都是通过语音识别或者图像识别其中的一种方式对用户进行定位。然而，在复杂的声学环境中，通过语音识别对用户进行定位时，定位结果就会不太准确，或者在人数比较多的环境中，通过图像识别对用户进行定位时，定位结果同样会不太准确。

基于此，本申请提供一种音视频结合的定位方法、装置、电子设备以及存储介质，以解决现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定位，导致定位结果不准确的问题。

本申请实施例提供了一种音视频结合的定位方法，如图1所示，具体包括：

S101、获取由图像采集部件采集得到的用户图像。

需要说明的是，在对用户进行定位时，首先获取由图像采集部件采集得到的用户图像，图像采集部件可以是摄像头等采集图像的部件，本实施例中以摄像头为例。人工智能设备在对用户进行定位时，该设备上携带的摄像头就会对用户进行拍摄，得到用户的图像。

S102、利用用户图像，计算得到用户的嘴部坐标。

需要说明的是，在获取到由图像采集部件采集得到的用户图像之后，从用户图像中获取与该用户相关的数据，并按照获取到的用户图像建立空间坐标系，计算出该用户的嘴部坐标。

可选的，在本申请的另一实施例中，步骤S102的一种实施方式，如图2所示，具体包括：

S201、从用户图像中提取出人体轮廓图。

需要说明的是，通过背景减除的方法对获取到的用户图像进行前景分割，将用户图像中的人体所在区域与背景区域分割开，从中提取出该用户的人体轮廓图。其中，该方法可以结合粒子滤波技术实现，完成对人体目标的跟踪估计。粒子滤波的算法流程如下：

(1)粒子集初始化

由先验概率p(x₀)生成采样粒子

之后的循环执行步骤(2)到步骤(4)。

(2)重要性采样

从重要性概率密度中生成采样粒子

计算粒子权值

并进行归一化。

(3)重采样

对粒子集

进行重采样，重采样后的粒子集为

(4)输出

计算K时刻的状态估计值：

S202、基于人体轮廓图，获取用户的人体姿态参数。

需要说明的是，在提取用户的人体轮廓图之后，可以从人体轮廓图中获取到与该用户人体姿态参数的相关数据，然后从这些数据中得到最匹配该用户的人体姿态参数。

可选的，在本申请另一实施例中，步骤S202的一种实施方式，具体包括：

获取人体轮廓图的初始人体姿态参数。

基于初始人体姿态参数，预测得到多个当前时刻的人体姿态参数。

利用最优化算法，从多个当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为用户的人体姿态参数。

需要说明的是，在提取用户的人体轮廓图之后，首先获取该人体轮廓图的初始人体姿态参数，然后基于初始人体姿态参数，可以预测得到多个当前时刻的人体姿态参数，人体的每个骨架节点都会得到多个估计值。最后利用最优化算法进行数据拟合，从多个当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为该用户的人体姿态参数。其中，在获得最匹配的该用户的人体姿态参数之后，可以根据该参数对原始人体模型进行更新，用于下一时刻的参数预测。

可选的，在本申请的另一实施例中，执行上述步骤利用最优化算法，从多个当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为用户的人体姿态参数之后，还可以包括：

通过人体运动学先验知识，对人体姿态参数进行约束及优化，用于下一时刻的参数预测。

其中，人体运动的先验包括运动学约束、人体运动模型等。运动学约束是人体作为一个动态系统，必须符合人体生理极限的约束，比如人体各个关节点的旋转范围、人体各个部分不能相互穿透等。通过上述约束，可将人体状态空间分为合法空间和非法空间，只在合法空间里搜索，减少姿态优化的搜索范围。人体运动模型是可通过训练模型获取人体动作的时域特征，加强姿态估计的准确性，但是能针对特定的运动类型，比如跑步。该方法需要先采集该类运动的运动数据，训练人体运动模型，用已有运动模型优化人体姿态估计结果。

而优化可以采用确定性梯度下降技术，通过设置损失函数，计算梯度下降，不停的将损失函数最小化，从而迭代估计相邻两帧之间的人体姿态变化。

S203、利用人体姿态参数进行人体姿态估计，得到用户的骨架模型。

需要说明的是，在得到用户的人体姿态参数之后，利用人体姿态参数进行人体姿态估计，得到用户的骨架模型。其中，用户的骨架模型的示意图可以如图3所示，该图中包含了用户的各个骨架节点。

S204、获取骨架模型中的头部坐标以及肩部中心关节点坐标，并利用头部坐标以及肩部中心关节点坐标计算得到嘴部坐标。

需要说明的是，结合图3，建立该用户对应的空间坐标系，然后获取到骨架模型中的头部坐标以及肩部中心关节点坐标，并利用头部坐标以及肩部中心关节点坐标就可计算得到该用户的嘴部坐标。

S103、获取用户到图像采集部件的距离。

需要说明的是，在摄像头采集到用户的用户图像之后，获取该用户的人体所在平面到摄像头的距离。例如，可以利用距离感应器获取该用户的人体所在平面到摄像头的距离。

S104、利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。

需要说明的是，获取到用户的嘴部坐标以及用户到图像采集部件的距离之后，通过建立图像采集部件的空间坐标系，然后根据用户的嘴部坐标以及用户到图像采集部件的距离，就可以计算得到该用户与图像采集部件的俯仰角。

可选的，在本申请的另一实施例中，步骤S104的一种实施方式，具体包括：

将嘴部坐标转换成图像采集部件所在坐标系中对应的坐标。

将转换后的坐标以及用户到图像采集部件的距离代入预设的公式，计算得到用户与图像采集部件的俯仰角。

需要说明的是，建立图像采集部件的空间坐标系，然后将用户的嘴部坐标按照图像采集部件的空间坐标系进行转换，得到该用户的嘴部坐标在图像采集部件的空间坐标系中对应的坐标。将转换后的坐标以及用户到图像采集部件的距离代入公式：

就可以计算得到用户与图像采集部件的俯仰角，其中，φ表示用户与图像采集部件的俯仰角，y表示用户转换后的嘴部钟作彪，d表示用户到图像采集部件的距离。

S105、获取由音频采集部件采集的用户的语音信号；

需要说明的是，当检测到有语音信号时，音频采集部件会自动采集当前的语音信号，然后对采集到的语音信号进行数据处理以及噪音消除等操作，从采集到的语音信号中获取到用户所发出的语音信号。其中音频采集部件可以是麦克风这样的音频采集部件，在本实施例中以麦克风为例进行说明。

可选的，在本申请的另一实施例中，步骤S105的一种实施方式，如图4所示，具体包括：

S401、将音频采集部件采集到的原始语音信号进行数据预处理。

需要说明的是，在音频采集部件采集到的原始语音信号之后，对采集到的原始语音信号进行高通滤波，去除直流分量。根据采样率设置不同，预处理过程还包括对信号的降采样处理，将高于16kHz采样率的语音信号降采样至16kHz。因为一般的语音识别系统中，采样率最高选择在16kHz。而通常音频系统中，为达到较好的音效，常用的采样率为32kHz，44.1kHz，48kHz及96kHz等，均可降采样至16kHz，满足语音识别处理需求同时可提高计算速度。

S402、将处理后的语音信号进行子带分析，得到对应的频域信号.

需要说明的是，将处理后的语音信号进行子带分析，例如使用DFT调制滤波器组将处理后的语音信号变换成对应的频域信号，也就是子带信号。其中，选择一个低通滤波器H(Z)，其截止频率为π/M，作为原型滤波器。对原型滤波器H(Z)作等间隔频移，得到的滤波器组则称为DFT调制滤波器组。

S403、对频域信号进行回声消除以及噪音消除，得到用户的语音信号。

需要说明的是，利用自适应滤波器模拟麦克风接收到的回声信号，通过采用谱减法对子带信号进行回声消除，得到回声消除后的子带信号。然后通过计算回声消除后信号子带域的信噪比和对数谱偏差来判别当前帧为噪音还是语音信号，从而得到用户的语音信号。

例如，将所有子带分成n个临界频带，则各个临界频带上的平均能量为E_p(l,i)，其中l表示帧号，i＝1,2,...,n。则输入信号所有临界频带上的总能量为：

其中，总能量大于一定阈值时可以判断当前帧为语音帧。

取前m帧信号，用来初始化噪声的临界频带能量，设噪声的临界频带能量为E_n(l,i)，则各个临界频带上的信噪比为：

将各个临界频带信噪比量化求和，可得输入信号在临界频带上的总信噪比，总信噪比小于一定阈值时，可以判断当前帧为噪声帧。

对临界频带能量取对数得到信号的对数能量E_log，初始化长时对数能量E_logL，计算当前帧的对数能量和长时对数能量之间的偏差，为对数谱偏差：

若偏差值较小，当前帧语音与前几帧语音之间的能量变化较小。

综上所述，可以判别当前帧为噪声帧还是语音帧，如果是噪声帧，则更新噪声帧频带能量E_n(l,i)，如果是用户的语音帧，则可以进一步进行声源定位。

S106、基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。

需要说明的是，建立麦克风的空间坐标系，然后基于麦克风的坐标系，计算得到用户与摄像头的俯仰角所对应的用户与麦克风的俯仰角。

例如，当智能音视频设备结构设计完成后，摄像头位置和麦克风阵列位置固定，空间位置已知。设摄像头原点O₁的位置坐标为(0，0,0)，则麦克风坐标系原点O₂在摄像头坐标系中的位置为(Δx,Δy,Δz)。以摄像头坐标系O₁X₁Y₁Z₁为参考，其中原点为O₁，设俯仰角为声源(x_s,y_s,z_s)与O₁X₁Y₁的夹角，记为φ，则的φ取值范围为[-90°，90°]。

在[-90°，90°]范围内，每间隔1°取1个φ值，获得一组φ₁,φ₂,...,φ₁₈₀,φ₁₈₁，通过这组φ值解算出对应的一组声源S的坐标为(x_s1,y_s1,z_s1)...(x_s181,y_s181,z_s181)。

设麦克风坐标系中的俯仰角为φ′，则

通过声源S的坐标为(x_s1,y_s1,z_s1)...(x_s181,y_s181,z_s181)解算出对应φ₁′,φ′₂,...,φ′₁₈₀,φ′₁₈₁值，与摄像头俯仰角一一对应。

当获取到用户与摄像头的俯仰角后，就可计算得到对应的用户与麦克风的俯仰角。

S107、利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。

需要说明的是，在获取到用户的语音信号以及用户与麦克风的俯仰角之后，就可以用户的语音信号以及用户与麦克风的俯仰角在空间的各个方向做固定波束形成，从而对用户进行定位，得到用户的准确位置。

可选的，在本申请的另一实施例中，步骤S107的一种实施方式，如图5所示，具体包括：

S501、基于音频部件的俯仰角，计算得到用户的语音信号的时延值。

需要说明的是，如图6所示，声源和麦克风阵列均处于三维空间中，N个阵元均匀分布在一个圆周上的均匀圆阵，圆周半径为r，θ是信号与x轴夹角，为方位角，声源与z轴正方向的夹角

为音频部件的俯仰角,各阵元坐标记为(x_n,y_n)(n＝1,2,...,N)。将数据代入公式：

就可以计算得到用户的语音信号的时延值。

S502、按照时延值对用户的语音信号进行时延补偿。

S503、利用波束形成算法，计算得到补偿后的语音信号的各个波束输出功率，并查找出各个波束输出功率中的最大波束输出功率。

需要说明的是，利用波束形成算法，计算得到补偿后的语音信号的各个波束输出功率之后，需要查找出各个波束输出功率中的最大波束输出功率，因为波束输出功率最大的波束的方向，就是声源的方向。

S504、按照最大波束输出功率所对应的波束，确定出用户的位置。

需要说明的是，由于波束输出功率最大的波束的方向，就是声源的方向，因此只要根据最大波束输出功率所对应的波束所指向的位置，就可以确定出用户的准确位置。

本申请实施例提供的音视频结合的定位方法中，首先获取由图像采集部件采集得到的用户图像，再利用用户图像，计算得到用户的嘴部坐标。接着获取用户到图像采集部件的距离，并利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。同时获取由音频采集部件采集的用户的语音信号，然后基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。最后利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。由此可知，本申请的方法在对用户进行定位时，将图像采集部件和音频采集部件得到的相关数据相结合，能够更准确地输出用户的定位结果，解决了现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定位，导致定位结果不准确的问题。

本申请另一实施例还公开了一种音视频结合的定位装置，如图7所示，具体包括：

图像获取单元701，用于获取由图像采集部件采集得到的用户图像。

第一计算单元702，用于利用用户图像，计算得到用户的嘴部坐标。

距离获取单元703，用于获取用户到图像采集部件的距离。

第二计算单元704，用于利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。

语音获取单元705，用于获取由音频采集部件采集的用户的语音信号。

第三计算单元706，用于基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。

定位单元707，用于利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。

本申请实施例提供的音视频结合的定位装置中，首先图像获取单元701获取由图像采集部件采集得到的用户图像，第一计算单元702再利用用户图像，计算得到用户的嘴部坐标。接着距离获取单元703获取用户到图像采集部件的距离，第二计算单元704利用嘴部坐标以及用户到图像采集部件的距离，计算得到用户与图像采集部件的俯仰角。同时语音获取单元705获取由音频采集部件采集的用户的语音信号，然后第三计算单元706基于音频采集部件的坐标系，计算得到用户与图像采集部件的俯仰角所对应的用户与音频采集部件的俯仰角。最后定位单元707利用语音信号以及用户与音频采集部件的俯仰角，对用户进行定位。由此可知，本申请的方法在对用户进行定位时，将图像采集部件和音频采集部件得到的相关数据相结合，能够更准确地输出用户的定位结果，解决了现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定位，导致定位结果不准确的问题。

本实施例中，图像获取单元701、第一计算单元702、距离获取单元703、第二计算单元704、语音获取单元705、第三计算单元706以及定位单元707的具体执行过程，可参见对应图1的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，第一计算单元702的一种实施方式，包括：

提取子单元，用于从用户图像中提取出人体轮廓图。

第一获取子单元，用于基于人体轮廓图，获取用户的人体姿态参数。

姿态估计子单元，用于利用人体姿态参数进行人体姿态估计，得到用户的骨架模型。

第一计算子单元，用于获取骨架模型中的头部坐标以及肩部中心关节点坐标，并利用头部坐标以及肩部中心关节点坐标计算得到嘴部坐标。

本实施例中，提取子单元、第一获取子单元、姿态估计子单元、第一计算子单元的具体执行过程，可参见对应图2的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，第一获取子单元的一种实施方式，包括：

第二获取子单元，用于获取人体轮廓图的初始人体姿态参数。

预测子单元，用于基于初始人体姿态参数，预测得到多个当前时刻的人体姿态参数。

查找子单元，用于利用最优化算法，从多个当前时刻的人体姿态参数中查找出最匹配的人体姿态参数，作为用户的人体姿态参数。

本实施例中，第二获取子单元、预测子单元、查找子单元的具体执行过程，可参见对应上述方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，第二计算单元704的一种实施方式，包括：

转换子单元，用于将嘴部坐标转换成图像采集部件所在坐标系中对应的坐标。

第二计算子单元，用于将转换后的坐标以及用户到图像采集部件的距离代入预设的公式，计算得到用户与图像采集部件的俯仰角。

本实施例中，转换子单元、第二计算子单元的具体执行过程，可参见对应上述方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，语音获取单元705的一种实施方式，包括：

数据处理子单元，用于将音频采集部件采集到的原始语音信号进行数据预处理。

分析子单元，用于将处理后的语音信号进行子带分析，得到对应的频域信号。

消除子单元，用于对频域信号进行回声消除以及噪音消除，得到用户的语音信号。

本实施例中，数据处理子单元、分析子单元、消除子单元的具体执行过程，可参见对应图4的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，定位单元707的一种实施方式，包括：

第三计算子单元，用于基于音频部件的俯仰角，计算得到用户的语音信号的时延值。

时延补偿子单元，用于按照时延值对用户的语音信号进行时延补偿。

第四计算子单元，用于利用波束形成算法，计算得到补偿后的语音信号的各个波束输出功率，并查找出各个波束输出功率中的最大波束输出功率。

定位子单元，用于按照最大波束输出功率所对应的波束，确定出用户的位置。

本实施例中，第三计算子单元、时延补偿子单元、第四计算子单元、定位子单元的具体执行过程，可参见对应图5的方法实施例内容，此处不再赘述。

本申请另一实施例还提供了一种电子设备，如图8所示，具体包括：

一个或多个处理器801。

存储装置802，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器801执行时，使得一个或多个处理器801实现如上述实施例中任意一项方法。

本申请另一实施例还提供了计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音视频结合的定位方法，其特征在于，包括：

获取由图像采集部件采集得到的用户图像；

利用所述用户图像，计算得到所述用户的嘴部坐标；

获取所述用户到所述图像采集部件的距离；

获取由音频采集部件采集的所述用户的语音信号；

利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位；

所述利用所述嘴部坐标以及所述用户到所述图像采集部件的距离，计算得到所述用户与所述图像采集部件的俯仰角，包括：

将转换后的坐标以及所述用户到所述图像采集部件的距离代入预设的公式，计算得到所述用户与所述图像采集部件的俯仰角，所述预设的公式为：

其中，φ为所述用户与所述图像采集部件的俯仰角，y为所述用户转换后的嘴部纵坐标，d为所述用户到所述图像采集部件的距离；

基于所述音频采集部件的坐标系，计算得到所述用户与所述图像采集部件的俯仰角所对应的用户与所述音频采集部件的俯仰角，所述音频采集部件为麦克风，所述图像采集部件为摄像头，包括：

基于所述麦克风的空间坐标系，计算所述用户与所述摄像头的俯仰角所对应的所述用户与所述麦克风的俯仰角，计算公式为：

φ′为所述麦克风的空间坐标系的俯仰角，通过声源S的坐标为(x_s1,y_s1,z_s1)…(x_s181,y_s181,z_s181)计算对应φ₁′,φ′₂,…,φ′₁₈₀,φ′₁₈₁值，与所述摄像头俯仰角对应。

2.根据权利要求1所述的方法，其特征在于，所述利用所述用户图像，计算得到所述用户的嘴部坐标，包括：

从所述用户图像中提取出人体轮廓图；

基于所述人体轮廓图，获取所述用户的人体姿态参数；

3.根据权利要求2所述的方法，其特征在于，所述基于所述人体轮廓图，获取所述用户的人体姿态参数，包括：

获取所述人体轮廓图的初始人体姿态参数；

4.根据权利要求1所述的方法，其特征在于，所述获取由音频采集部件采集的所述用户的语音信号，包括：

将处理后的语音信号进行子带分析，得到对应的频域信号；

5.根据权利要求1所述的方法，其特征在于，所述利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位，包括：

基于所述音频采集部件的俯仰角，计算得到所述用户的语音信号的时延值；

按照所述时延值对所述用户的语音信号进行时延补偿；

6.一种音视频结合的定位装置，其特征在于，包括：

定位单元，用于利用所述语音信号以及所述用户与所述音频采集部件的俯仰角，对所述用户进行定位；

φ′为所述麦克风的空间坐标系的俯仰角，通过声源S的坐标为(x_s1,y_s1,z_s1)…(x_s181,y_s181,z_s181)计算对应φ′₁,φ′₂,…,φ′₁₈₀,φ′₁₈₁值，与所述摄像头俯仰角对应。

7.根据权利要求6所述的装置，其特征在于，所述第一计算单元，包括：

提取子单元，用于从所述用户图像中提取出人体轮廓图；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任意一项所述的方法。

9.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的方法。