CN117152807A

CN117152807A - 人体头部定位方法、装置和存储介质

Info

Publication number: CN117152807A
Application number: CN202310954232.XA
Authority: CN
Inventors: 李旭东; 张玥
Original assignee: Beijing Odin Information Technology Co ltd
Current assignee: Beijing Odin Information Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-12-01

Abstract

本公开提供用于人机交互的人体头部定位方法、装置和计算机可读存储介质。用于人机交互的人体头部定位方法包括检测人体头部在图像中的像素坐标；根据人体头部的像素坐标、占据的像素尺寸和人体头部的先验尺寸估算人体头部与摄像头的距离；和根据预先确定的摄像头参数和估算的人体头部与摄像头的距离计算人体头部的空间点三维坐标。本公开的实施例实现了利用一个摄像头比较准确且快速地获得和追踪人体头部的空间点三维坐标，并以此使得虚拟形象与人进行更逼真的交互。

Description

人体头部定位方法、装置和存储介质

技术领域

本公开涉及图像处理技术，具体而言，涉及一种用于人机交互的人体头部定位方法、装置和计算机可读存储介质。

背景技术

为了实现虚拟形象与不特定对象(例如，路人)之间的眼神、手势、语言等深度交互，需要识别交互对象并且获得交互对象的位置信息。在识别过程中，交互对象可能离开屏幕再返回，此时系统会将其识别为新用户，不能继续之前的沟通内容。在多人场景下，因为每个人姿势、角度、距离屏幕远近等影响，可能无法准确判断交互对象，也就无法准确地进行智能交互。

在获得交互对象的位置信息过程中，当前可以采用双目或多目摄像头同时检测，以此来计算得到目标的三维信息。但该方法的成本较高，首先，多个摄像头的时间同步难以控制，且计算量庞大，难以以每秒30帧的帧率实时检测；其次，不同摄像头对同一待检测物体的检测位置具有不可忽略的量化误差，导致后续计算得到的三维位置坐标具有更大的误差。

如果采取单目摄像头确定交互对象的位置，目前的传统算法理论上只能用射影几何的方法确定人脸的极线的方向，无法确定深度信息，即交互对象与虚拟人的距离信息，从而无法提供逼真的交互，例如不能为虚拟人的眼神交互提供尽可能逼真的对视体验。此外，采用单目摄像头确定深度信息的现有技术路线还存在以下问题。如果根据不同远近的物体模糊程度不同，对物体的边缘模糊情形进行建模来推定物体的深度信息，这种方法对于图片分辨率的要求很高，在人脸检测的应用场景下，由于分辨率不足导致的图片模糊会剧烈影响对人脸距离相机的深度信息的估计。如果通过物体的表面阴影变化来推测深度信息，该种方法只适用于估测同一个连续表面上的相对深度，无法用于对人脸与摄像头的距离估计的应用场景。其他方法，例如从物体的遮挡关系推测深度信息、从大气散射造成的霾现象中推测深度信息等，都对图像里的物体类别和性质加入了很强的约束，场景非常局限，无法用于对人脸距离的估计。

发明内容

本公开提供一种用于人机交互的人体头部定位方法、装置和计算机可读存储介质，有助于实现智能的人机交互，实现更生动的交互体验。

为了解决上述技术问题中的至少之一，根据本公开的第一方面，提供了一种用于人机交互的人体头部定位方法，其包括：检测人体头部在图像中的像素坐标；根据人体头部的像素坐标、占据的像素尺寸和人体头部的先验尺寸估算人体头部与摄像头的距离；和根据预先确定的摄像头参数和估算的人体头部与摄像头的距离计算人体头部的空间点三维坐标。

本公开的实施例通过上述方法可以利用一个摄像头比较准确且快速地获得人体头部的空间点三维坐标，尤其是深度信息。上述方法适用于图像中出现一人或多人的情形，在多人的情形下，可以获得每个人的头部与摄像头的距离，由此可以分辨每个人的位置，更准确地判断交互的对象。通过分辨交互对象的位置，虚拟形象也可以在屏幕的范围内变换位置，从而进行更加自然的交互，同时还能保证眼神等细节的交流。

可选的，所述摄像头参数是摄像头的内参矩阵，所述人体头部距离摄像头的距离是人脸的中心点距离摄像头的中心的距离，人体头部的空间点三维坐标由人脸中心点相对于摄像头的主光轴在横向和纵向偏移的距离以及人脸的中心点距离摄像头的中心的距离来表示。

可选的，所述检测人体头部在图像中的像素坐标包括使用目标检测算法检测人体头部，得到头部矩形框。

可选的，用于人机交互的人体头部定位方法还可以包括使用训练的卷积神经网络模型提取当前的人脸特征向量；计算当前的人脸特征向量与存储的人脸特征向量的空间距离；将计算的空间距离与预设的阈值进行比较来判断当前的人脸是否在之前出现过。

本公开的实施例可以进一步通过对人脸进行面部特征的识别来增加交互效果，增强用户体验。通过上述的面部特征识别可以判断该交互对象在之前是否出现过，如果再次出现，虚拟形象可以与交互对象继续之前沟通的内容，可以实现交互内容的连续性。

可选的，如果根据计算的空间距离与所述预设的阈值进行比较判断当前的人脸没有出现过，将当前获取的声纹特征与存储的声纹特征进行比较；如果在存储的声纹特征中找到与其匹配的存储的声纹特征，则判断当前的人脸出现过，并根据所述存储的声纹特征和存储的人脸特征向量的对应关系调取对应的存储的人脸特征向量；和计算所述调取的存储的人脸特征向量与所述当前的人脸特征向量的空间距离，如果根据所述空间距离与所述预设的阈值的比较结果确定是同一个人，则将用所述当前的人脸特征向量和所述调取的存储的人脸特征向量求平均来替代所述调取的存储的人脸特征向量；如果根据所述空间距离与所述预设的阈值的比较结果确定不是同一个人，则用所述当前的人脸特征向量替换所述调取的存储的人脸特征向量。

为了增加识别的准确性，可以通过声纹特征来确认当前的交互对象是否在之前出现过。例如，当通过人脸特征向量判断当前的交互对象之前没有出现过之后，如果采集到当前人的声纹特征，可以再通过声纹特征的比较来进一步确认，从而增加判断的准确性。如果声纹特征与存储的声纹特征都不匹配，那么就判断当前交互对象没有出现过，从而开启新的交互。如果通过声纹特征判断当前交互对象出现过，可以将当前人脸提取的特征向量与存储的与声纹特征对应的人脸特征向量进行比较，从而判断存储在数据库的人脸特征向量是否需要被替换。

可选的，用于人机交互的人体头部定位方法还可以包括识别人脸的唇形轮廓，根据该唇形轮廓判断该人是否在说话。

在摄像头的镜头范围内存在多人的时候，可以通过识别唇形的方式来确定与虚拟形象正在交互的对象。

可选的，当检测到交互对象的语音信息时，存储语音信息的声纹特征，并且存储该声纹特征与交互对象的人脸特征向量之间的对应关系。

可选的，所述人脸特征向量的维度至少为128。

可选的，用于人机交互的人体头部定位方法还可以包括使用通用数据集对卷积神经网络的模型参数进行训练，获得预训练模型，使用自制数据集对训练之后的卷积神经网络的模型参数继续进行训练，获得卷积神经网络模型，所述自制数据集的图像从实际应用场景采集。

使用自制数据集对训练之后的卷积神经网络的模型参数继续进行训练可以使得训练之后的数据与应用场景更加匹配，对人脸的识别准确性更高。

根据本公开的第二方面，本公开的实施例提供用于人机交互的人体头部定位装置，其包括用于采集人的头部和/或人脸信息的摄像头，采集语音的麦克风；处理器；存储器，其上存储有计算机程序，其中，当该程序被处理器执行时实现如第一方面实施例所述的头部定位方法。

根据本公开的第三方面，本公开的实施例提供计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序被处理器执行时实现如第一方面实施例所述的头部定位方法。

根据本公开的第四方面，本公开的实施例提供了一种智能AI助手，其包括用于显示虚拟形象的屏幕；用于采集人的头部和/或人脸信息的摄像头；用于采集路人的语音的麦克风；处理器；和存储有一个或者多个计算机程序的存储器，所述一个或者多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，执行如第一方面实施例所述的头部定位方法。

本公开的实施例可以实现与路人交互的智能AI助手，其通过一个摄像头即可以判断路人的位置，从而与路人进行对视的个性化交流。同时在多人场景下，可以通过判断路人的位置和/或声纹来准确判断交互的对象。加入人脸识别技术和/或声纹识别技术可以避免把出现过的路人识别为新用户，与交互的对象继续之前的沟通，实现更加精确的智能对话体验。

实施本公开的任一装置并不一定需要同时达到以上所述的所有优点。本公开的其它特征和优点将在随后的说明书实施例中阐述，并且，部分地从说明书实施例中变得显而易见，或者通过实施本公开而了解。本公开实施例的目的和优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简要地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1是根据本公开实施例的人体头部定位的示意性流程图；

图2是根据本公开实施例的人体头部定位的另一示意性流程图；

图3是根据本公开实施例的人体头部定位的再一示意性流程图；

图4是根据本公开实施例的人体头部定位装置的结构示意图；

图5是根据本公开实施例的应用人体头部定位装置的智能AI助手的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不必然表示数量限制。“包括”或者“包含”等类似的词语意指出现该词前面的元件或物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1示出了根据本公开一个实施例的人体头部定位的示意性流程图，该方法100包括步骤S110-S140。

在步骤S110，利用张氏标定法对摄像头进行内参标定，获得矩阵P。矩阵P用于建立从空间点三维坐标到图像像素点二维坐标的映射，映射方式用以下公式表明：

x＝PX

其中X表示空间点三维坐标，X＝[x y z]；P为摄像头的矩阵，x为图像像素点的二维齐次坐标，x＝[c_x c_y 1]。矩阵P具有如下的形式：

其中f代表摄像头焦距，p_x和p_y分别代表摄像头的主点偏置，即，摄像头中轴线上的世界点投影到二维图像上的像素点的横、纵坐标。

在步骤S120，对于含有头部的图片，采取深度学习的方法检测头部在二维图像中的位置。举例来说，可以采取目标检测(object detection)深度学习框架(例如yolo-v5)，通过大规模人体头部数据集进行深度学习训练，得到的预训练模型可以以超过每秒30帧的帧率检测二维图像当中的人体头部目标，检测具有高实时性、高准确率、高召回率和时域稳定性。

检测结果可以以矩形框的形式返回。根据矩形框，可以得到人头部中心在图片上的像素坐标c_xc_y和头部在图片中占据的像素尺寸的大小h_box。人头部的中心可以用人脸中心点表示，头部的像素尺寸的大小可以用矩形框的尺寸来表示。

在步骤S130，根据成像原理，人头部(以人脸中心点作为头部位置，设为起点)距离摄像机中心的距离z可以用以下的公式估计测算：

其中v为像距，h_head为头部自顶向下的高度。为了简化计算，由于人头距离摄像头一般较远，成像近似于落在一倍焦距处，因此像距v可以约等于焦距f。由此估算公式为：

h_head可以根据人头部正常尺寸的先验知识来确定，例如可以将h_head设置为一个固定值，也可以根据交互对象的其他信息来调整，比如性别、年龄等。

此处z的含义即为人头部所代表的空间点的三维坐标的z坐标。

在步骤S140，根据摄像头参数、估算的头部距离摄像头的距离确定头部的空间点三维坐标。由摄像头的矩阵P出发，根据z坐标推导出x坐标和y坐标，推导公式如下：

其中，x是人头部(例如，以人脸中心点表示头部位置)和摄像机的主光轴相比，向右偏移的实际距离，y是人头部和摄像机的主光轴相比向上偏移的实际距离。

该检测方法实现了采用同时对画面中多个人的头部的检测、追踪，并利用每个人头部的画面像素尺寸信息，对每个人头部的三维位置同时进行预测。综合所有位置信息后，可以选择和三维虚拟人距离最近的路人作为交互对象进行交互。通过采用上述方法来定位头部位置，只需要一个摄像头就可以实现对人头部的三维坐标的实时快速确定，降低成本，在简化计算的同时确保了定位的准确性，可以实现虚拟形象与人类的实时交互，获得更自然更逼真的互动效果。

为了实现更智能的交互效果，在图1所示的实施例的基础上可以进一步执行图2所示的方法200。

为了辨别当前互动的对象是否之前出现过，是否继续之前的交流内容，可以进一步进行人的面部特征的识别。

在图2中的步骤S210，使用卷积神经网络模型提取当前人脸特征向量。例如，可以采用深度卷积神经网络(CNN)模型提取所有人的至少128维人脸特征向量，将头部图像映射到至少128维空间(如欧式空间)，并保存到人脸特征数据库。

在步骤S220，计算当前人脸特征向量与存储的人脸特征向量的空间距离，两个点x和y之间的距离d(x,y)计算公式如下，其中n为空间维度：

在步骤S230，确定空间距离是否小于阈值。空间距离直接与图片相似度相关，同一个人的不同图像中空间距离小，不同人的图像在空间中有较大的距离，可以通过设定空间距离的阈值，来确定不同图像中的两个人是否是同一人。除欧式距离外，也可以采用其他算法来计算人脸特征向量之间的空间距离。例如，在本算法中，可以通过数据归一化，以1为阈值，小于1认为是同一个人，数值越小，同一个人的概率越大；大于等于1，认为是不同的人，数值越大，不同人的概率越大。

如果通过比较认为提取的人脸与之前存储的是同一个人(S250)，可以继续之前的互动或者会话，如果认为提取的人脸与之前存储的不是同一个人(S260)，可以将当前的人作为新用户，存储其人脸特征向量以及语音信息的声纹特征(如果有的话)，或者可以进入进一步的确认环节(参见图3)。

为了提高人脸识别的准确度，卷积神经网络模型在训练时可以在预训练模型的基础上使用自制人脸数据集通过迁移学习来训练模型。自制人脸数据集的数据可以收集自交互设备所应用的场景。使用自制数据集训练模型之后，对于两个不同人脸，可以获得更大的距离，有利于更好地区分人脸。

图3示出了在图2所示的方法的基础上通过获取声纹特征来进一步判断当前的人是否出现过的方法300。这可以避免由于人脸没有正对摄像头等情况下出现的误判的问题。在步骤S310中，通过麦克风等设备获得当前说话的人的声音，从声音提取声纹特征，并且与存储的声纹特征相比较来判断是否在存储的声纹特征中存在相匹配的声纹特征(S320)。声纹识别算法可以采用例如ECAPA-TDNN模型，经过训练，声纹模型的分类准确率可以达到0.9608以上，而两两对比的准确率可以达到0.99980以上。

如果没有匹配的声纹，则将人脸的特征向量存储在人脸数据库中，将声纹特征存储在声纹数据库中并且存储它们之间的对应关系(S330)。如果有匹配的声纹特征，则判断与当前的人之前交互过(S340)。在存储的数据库中调取与匹配的声纹特征相对应的人脸特征向量并且对当前的人的图像提取人脸特征向量(S350)。在步骤S360，将调取的人脸特征向量与提取的当前人的人脸特征向量之间的空间距离与阈值进行比较，如果该距离低于预定的阈值，则用提取的人脸特征向量和存储的人脸特征向量两者的均值代替存储的人脸特征向量(S370)，否则可以用提取的当前人的人脸特征向量代替之前存储的人脸特征向量(S380)。

在S320处判断没有匹配声纹的情况下，可以通过重新获取图像和/或声音来重复进行图2和/或图3的步骤，进一步确认判断的准确性(因为由于人的移动，获取的图像或者声音的可能有较多干扰)。

图3的实施例是在图2所示的人脸识别的步骤的基础上，再采用声纹特征比较进行进一步确认的方法。这样即便在图2所示的步骤中获取的人脸图像存在问题而导致判断错误(例如，获取的不是正面图像、表情变化大、图像不够清晰等)，也可以通过声纹特征重新进行确认，避免将同一人识别为新的用户而无法继续之前的交互。在图3的实施例中，可以获取人的正面图像用于比较，如果声纹特征匹配而图像的特征向量不匹配时，可以用该正面图像的人脸特征向量更新人脸特征数据库，用于后续的人脸识别。

为了更好地在多人场景下确定交互的对象，还可以加入唇形特征的识别。例如，在沟通开始时，如果麦克风检测到有输入，则通过人脸唇形特征判定当前说话人。例如，可以通过Dlib算法进行人脸关键点检测。该方法可以与图1所示的人体头部定位的方法相结合，在对人体头部进行定位生成三维坐标之后，进一步通过检测唇形特征，在多个人中确定正在交互的对象。该步骤也可以结合到图2所示的实施例中，在对人的面部识别之后进行。唇形特征的识别可以在其他合适或需要的情况下进行。

图4示出了根据本公开一个实施例的人体头部定位装置的结构示意图。该人体头部定位装置400可以包括处理器410、摄像头420、显示器430、扬声器440、麦克风450、存储器460、电源模块470和通信模块480。可以理解的是，本公开的实施例的结构示意图不构成对人体头部定位装置的具体限定。在本公开的另一些实施例中，该装置可以包括更多或者更少的部件，或者拆分/组合某些部件，或者不同的部件布置。图示的部件可以用硬件、软件或硬件和软件的组合来实现。例如，以下所述的处理器410和存储器460的部分功能还可以通过远程设备中的处理器和/或存储器来实现，即处理器410和存储器460的一部分可能包含在远程设备中。

处理器410可以包括一个或多个处理单元。例如，处理器可以包括中央处理器、图形处理器、数字信号处理器、图像信号处理器、神经网络处理器等中的一种或多种，可以是独立的器件或者集成在一起的处理器，其可以用于读取和执行指令，并且产生控制信号。处理器410还可以包括存储器，用于存储指令和数据。该处理器可以吞吐30帧率的图像、以便利用部署的深度模型进行实时的推理预测，并通过后续的矩阵运算确定头部坐标的位置。处理器410通过执行指令可以实现上述实施例中一个或多个所述的方法。

摄像头420具有捕捉外部图像的功能，其帧速率一般不低于30帧/秒，以保证检测的实时性和连续性。可选地，摄像头420具有至少120度的视域角，这样可以保证摄像头具有足够广的取景范围。

显示器430可以包括一个或者多个显示面板。为了显示等身的虚拟形象，显示器430可以设置得足够大。虚拟形象可以在屏幕的范围内走动、变换位置，从而和路人进行更加自然的交互。

扬声器440可以传送虚拟形象的声音，麦克风450用于采集交互对象的语音信号。麦克风450可以是单独的部件，或者可以结合到摄像头420或者其他设备中。

存储器460可以存储计算机可执行程序代码，其包括指令。存储器还可以存储图像数据、视频数据、音频数据、由图像提取的人脸特征向量数据集、声纹数据集、人脸特征向量和声纹数据的对应关系、唇形数据中的一种或者多种。存储器可以包括高速随机存取存储器、非易失性存储器等。

电源模块470可以对装置中的各部分进行供电，也可以提供充放电管理(如果使用电池的话)。

通信模块480可以包括有线和/或无线通信的解决方案。通信模块480可以将采集的数据发送到云服务器或者远程服务器进行处理，由此降低对现场设备的算力和数据存储的需求。

图5示出了一种智能AI助手50，其基于图4所述的人体头部定位装置实现。该智能AI助手的摄像头51采集交互对象的图像信息。通过执行存储的指令确定交互对象54的头部三维坐标。智能AI助手50的处理器控制显示器52所显示的虚拟形象53，与交互对象进行互动或者对话等。图5示出的摄像头51、显示器52的具体工作方式和结构分别与图4中的摄像头420和显示器430相同，不再赘述。智能AI助手50可以单独实现如上述实施例中一个或多个所述的方法，也可以通过远程服务器的处理器来实现部分指令。智能AI助手可以通过上述实施例实现对人体头部的检测和追踪，指导虚拟形象与人进行眼神、手势和/或语言的交互，增强用户体验。例如，智能AI助手50可以用作智能广告牌，增加广告的体验和传播效果，也可以用于银行等公共场所，辅助或者替代人工服务。

以上所述仅是本公开的示范性实施方式，而非用于限制本公开的保护范围，本公开的保护范围由所附的权利要求确定。

Claims

1.一种用于人机交互的人体头部定位方法，其特征在于包括：

检测人体头部在图像中的像素坐标；

根据人体头部的像素坐标、占据的像素尺寸和人体头部的先验尺寸估算人体头部与摄像头的距离；和

根据预先确定的摄像头参数和估算的人体头部与摄像头的距离计算人体头部的空间点三维坐标。

2.根据权利要求1所述的人体头部定位方法，其特征在于所述摄像头参数是摄像头的内参矩阵，所述人体头部距离摄像头的距离是人脸的中心点距离摄像头的中心的距离，人体头部的空间点三维坐标由人脸中心点相对于摄像头的主光轴在横向和纵向偏移的距离以及人脸的中心点距离摄像头的中心的距离来表示。

3.根据权利要求1所述的人体头部定位方法，其特征在于检测人体头部在图像中的像素坐标包括使用目标检测算法检测人体头部，得到头部矩形框。

4.根据权利要求1所述的人体头部定位方法，其特征在于还包括：

使用训练的卷积神经网络模型提取当前的人脸特征向量；

计算当前的人脸特征向量与存储的人脸特征向量的空间距离；和

将计算的空间距离与预设的阈值进行比较来判断当前的人脸是否在之前出现过。

5.根据权利要求4所述的人体头部定位方法，其特征在于还包括：

如果根据计算的空间距离与所述预设的阈值进行比较判断当前的人脸没有出现过，将当前获取的声纹特征与存储的声纹特征进行比较；

如果在存储的声纹特征中找到与其匹配的存储的声纹特征，则判断当前的人脸出现过，并根据所述存储的声纹特征和存储的人脸特征向量的对应关系调取对应的存储的人脸特征向量；和

计算所述调取的存储的人脸特征向量与所述当前的人脸特征向量的空间距离，如果根据所述空间距离与所述预设的阈值的比较结果确定是同一个人，则将用所述当前的人脸特征向量和所述调取的存储的人脸特征向量求平均来替代所述调取的存储的人脸特征向量；如果根据所述空间距离与所述预设的阈值的比较结果确定不是同一个人，则用所述当前的人脸特征向量替换所述调取的存储的人脸特征向量。

6.根据权利要求4所述的人体头部定位方法，其特征在于还包括识别人脸的唇形轮廓，根据该唇形轮廓判断该人是否在说话。

7.根据权利要求1或4所述的人体头部定位方法，其特征在于当检测到交互对象的语音信息时，存储语音信息的声纹特征，并且存储该声纹特征与交互对象的人脸特征向量之间的对应关系。

8.根据权利要求4所述的人体头部定位方法，其特征在于包括使用通用数据集对卷积神经网络的模型参数进行训练，获得预训练模型，使用自制数据集对训练之后的卷积神经网络的模型参数继续进行训练，获得卷积神经网络模型，所述自制数据集的图像从实际应用场景采集。

9.一种用于人机交互的人体头部定位装置，其特征在于包括

摄像头，其用于采集人的头部和/或人脸信息；

麦克风，其用于采集语音；

处理器；

存储器，存储有一个或者多个计算机程序，所述一个或者多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，实现如权利要求1至8中任一项所述的头部定位方法。

10.一种计算机可读存储介质，其特征在于其上存储有计算机程序，其中，当所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的头部定位方法。

11.一种智能AI助手，其特征在于包括用于显示虚拟形象的屏幕；用于采集人的头部和/或人脸信息的摄像头；用于采集人的语音的麦克风；处理器；和存储有一个或者多个计算机程序的存储器，所述一个或者多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，执行如权利要求1-8中任一项所述的头部定位方法。