CN111476126A

CN111476126A - 一种室内定位方法、系统及智能设备

Info

Publication number: CN111476126A
Application number: CN202010228840.9A
Authority: CN
Inventors: 王月岭; 孟卫明; 蒋鹏民; 高雪松; 王彦芳; 张淯易; 唐至威; 刘帅帅; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-31
Anticipated expiration: 2040-03-27
Also published as: CN111476126B

Abstract

本申请公开一种室内定位方法、系统及智能设备，该方法包括响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放位置信息对应的语音。本申请在人员定位过程中使用声纹识别和人脸识别对人员进行身份识别，确定查询人和被查询人的身份信息后，通过摄像头获取人员与摄像头的距离和图像距离计算确定人员位置，使用声纹识别确定人员位置，两者相结合得到被查询人在室内的位置，使得室内定位效果更好。

Description

一种室内定位方法、系统及智能设备

技术领域

本申请涉及室内定位技术领域，特别涉及一种室内定位方法、系统及智能设备。

背景技术

室内定位是指在室内环境中实现位置定位，主要采用无线通讯、基站定位、惯导定位等多种技术集成形成一套室内位置定位体系，从而实现人员、物体等在室内空间中的位置监控。除通讯网络的蜂窝定位技术外，常见的室内无线定位技术还有：Wi-Fi、蓝牙、红外线、超宽带、RFID、ZigBee和超声波。

Wi-Fi技术通过无线接入点(包括无线路由器)组成的无线局域网络(WLAN)，可以实现复杂环境中的定位、监测和追踪任务。很容易受到其他信号的干扰，从而影响其精度，定位器的能耗也较高；蓝牙技术是一种短距离低功耗的无线传输技术，对于复杂的空间环境，蓝牙定位系统的稳定性稍差，受噪声信号干扰大；红外线技术室内定位是通过安装在室内的光学传感器，接收各移动设备(红外线IR标识)发射调制的红外射线进行定位，具有相对较高的室内定位精度。但是，由于光线不能穿过障碍物，使得红外射线仅能视距传播，容易受其他灯光干扰，并且红外线的传输距离较短，使其室内定位的效果很差。

发明内容

基于上述技术问题，本申请的发明目的在于提供一种室内定位方法、系统及智能设备。

本申请实施例第一方面示出一种智能设备，包括：

用户输入接口，用于接收用户输入的指令；

声音输出模块，用于播放声音信号；

与所述用户输入接口和所述声音输出模块连接的控制器，用于执行：

响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；

如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；

如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音。

本申请实施例第二方面示出一种室内定位方法，包括：

如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人的位置信息，播放所述位置信息对应的语音。

本申请实施例第三方面示出一种室内定位系统，包括第一智能音箱，至少一个摄像头，至少一个第二智能音箱和数据库；

所述第一智能音箱，用于响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人的位置信息，播放所述位置信息对应的语音；

所述摄像头，用于利用人脸识别确定人员的位置信息，将所述位置信息实时传输给所述数据库；

所述第二智能音箱，用于利用声纹识别确定人员的位置信息，将所述位置信息实时传输给所述数据库；

所述数据库，用于存储所述摄像头和所述第二智能音箱传输的人员位置信息。

本申请实施例第四方面示出一种室内定位方法，包括：

利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；

若未利用人脸识别确定被查询人当前时间点的位置信息，利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音。

由以上技术方案可以看出，本申请实施例示出一种室内定位方法、系统及智能设备，本申请实施例示出的技术方案中，响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音。本申请在人员定位过程中使用了声纹识别与人脸识别对人员进行身份识别，确定查询人和被查询人的身份信息后，通过摄像头获取人员与摄像头的距离和图像距离计算确定人员位置，使用声纹识别确定人员位置，两者相结合得到被查询人在室内的位置，使得室内定位的效果更好。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A中示例性示出了根据实施例中智能音箱、摄像头与数据库之间操作场景的示意图；

图1B中示例性示出了根据实施例中智能音箱200的硬件配置框图；

图2A示例性示出了一种室内定位方法的流程图；

图2B示例性示出了一种确定查询人和被查询人的身份信息的方法流程图；

图2C示例性示出了另一种确定查询人和被查询人的身份信息的方法流程图；

图3A中示出了图像中心点测距示意图；

图3B中示出了人脸框中心点z方向距离示意图；

图3C中示出了人脸框中心点x方向距离示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。以下结合附图，详细说明本申请各实施例提供的技术方案。

图1A中示例性示出了智能音箱、摄像头与数据库之间操作场景的示意图。如图1A所示，数据库100和智能音箱200之间，数据库100与摄像头300之间可以通过无线方式进行通信。

图1B中示例性示出了智能音箱200的配置框图。如图1B所示，智能音箱200包括控制器210、用户输入接口220、声音输出模块230、通信器240、供电电源250。

控制器210包括随机存取存储器(RAM)211、只读存储器(ROM)212、处理器213、通信接口以及通信总线。控制器210用于控制智能音箱200的运行和操作，以及内部各部件之间的通信协作、外部和内部的数据处理功能。

用户输入接口220，可包括麦克风221、触摸板222、传感器223、按键224等中至少一者，从而用户可以通过语音、触摸、手势、按压等将用户指令输入到智能音箱200。

声音输出模块230，用于输出声音信号，具体是在控制器210的控制下播放位置信息对应的声音。

通信器240在控制器210的控制下，实现与数据库100之间控制信号和数据信号的通信。通信器240可以包括红外信号接口和射频信号接口。

可选地，智能音箱200还包括供电电源250，用于在控制器210的控制下为智能音箱200各元件提供运行电力支持。形式可以为电池及相关控制电路。

图2A中示例性示出了一种室内定位方法的流程图。

结合图2A所示的方法来说，该方法包括如下步骤：

步骤S31：接收查询人的语音查询指令；

查询人通过发出查询语句的声音来发出查询指令。例如，查询语句内容可以是“儿子在哪里”，也可以是“小红在哪里”。

步骤S32：响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；

在一种可能的实施例中，查询人的查询语句为名字查询，名字查询为查找某个人的名字(姓名、小名等)。

结合图2B所示的方法来说，确定查询人和被查询人的身份信息的方法，包括：

步骤S3211：响应于查询人发出的语音，利用声纹识别算法识别所述查询人的身份信息；

步骤S3212：根据所述语音查询指令，确定被查询人的身份信息。

当查询人的查询语句为名字查询时，通过语义理解识别到被查询人的名字以及语义为找人时即可查询位置。

示例性的，在获取到查询人发出“小红在哪里”的查询语句后，优先根据查询人的语音和声纹识别算法确定查询人的身份是小明，根据查询语句确定被查询人的身份是小红。

在一种可能的实施例中，查询人的查询语句为关系查询，关系查询为语句中查询与自己的某种关系，如“爸爸在哪儿”等。因为家庭成员不同时使用相同的语句来查询人员得到的被查询人的身份不同，例如：家庭成员中有爷爷奶奶、爸爸妈妈以及儿子，当查询人爷爷说出“儿子在哪里”时，被查询的人是爸爸，当查询人爸爸说出“儿子在哪里”时，被查询的人是儿子。因此要获取人员的位置信息要先确认查找人的身份信息，其身份信息的确认需要根据声纹识别来确定。

结合图2C所示的方法来说，所述语音查询指令包括查询人与被查询人的关系，确定查询人和被查询人的身份信息的方法，包括：

步骤S3221：响应于查询人发出的语音，利用声纹识别确定查询人的身份信息；

步骤S3222：根据所述查询人的身份信息、所述查询人与被查询人的关系和预设知识图谱，确定被查询人的身份信息。

其中，预设知识图谱以家庭知识图谱为例，构建家庭知识图谱的步骤，包括：

1)确认家庭成员数量构建实体；

2)确认各家庭成员之间的关系构建边；

3)形成家庭知识图谱。

示例性的，在获取到查询人发出“爸爸在哪里”的查询语句后，优先利用查询人的声音和声纹识别算法确定查询人的身份是爸爸，根据查询语句了解到被查询人与查询人之间的关系是父子，通过家庭知识图谱中找到爸爸的爸爸是爷爷，从而确定被查询人的身份是爷爷。

在一种可能的实施例中，在确定查询人和被查询人的身份信息的步骤之前，可根据查询人发出的语音查询指令，判断所述语音查询指令是关系查询还是名字查询。如果所述语音查询指令是名字查询，执行步骤S3211-S3212；如果所述语音查询指令是关系查询，执行步骤S3221-S3222。

步骤S33：如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；

需要说明的是，在实现室内定位前需要根据室内布局情况确定使用摄像头的个数，合理在室内设置摄像头，避免出现拍摄死角和多个摄像头拍摄重复的现象。确定摄像头的参数，其中，参数包括水平视场角、垂直视场角、摄像头在坐标系中的坐标位置、方向、水平偏转角度、垂直偏转角度。摄像头会实时将利用人脸识别算法得到的人员及位置信息传输给数据库。

其中，利用人脸识别确定被查询人当前时间点的位置信息的步骤，包括：

1)利用人脸识别技术确定待识别人员所在的摄像头(包括RGB以及深度)；

2)利用人脸检测技术确定人脸中心点的像素位置；

3)根据RGB深度图像确定人脸中心点位置与所述摄像头之间的距离；

4)根据所述人脸中心点的像素位置，所述人脸中心点位置与摄像头之间的距离，以及，所述摄像头在坐标系中的位置坐标、方向、水平偏转角、垂直偏转角、水平视场角和垂直视场角，确定人员与摄像头之间的相对位置；

具体通过人脸识别确定人员与摄像头之间的相对位置，如下：

如图3A所示，A为人脸框中心点坐标位置，Ox为与A垂直位置相同的水平中心位置，O为图像中心位置，S为摄像头位置。已知图像分辨率高为m，宽为n，水平视场角为alpha1，垂直视场角为alpha2，水平偏转角度为alpha3，垂直偏转角度为alpha4，A点坐标位置为(x，y)，SA距离为b，设RGB图像水平距离为a，SOx距离为c，SO距离为d，AOx距离为e，∠ASOx为beta1，∠OxSO为beta2。

则tan(alpha1/2)＝(a/2)/c,tan(beta1)＝e/c,而e＝a/2*((m/2-x)/(m/2))，从而得到beta1，已知SA距离，从而得到c。同理根据垂直方向示意图可以得到SO的距离d。

如图3B左所示，当人脸框中心点在图中上半部时，已知c，d，alpha4，设OOx距离为g，可得zx＝d*sin(alpha4),f＝g*cos(alpha4),g＝(c²-d²)^0.5。则z＝zx-f可知。如图3B右所示，当人脸框中心点在图中下半部时，已知c，d，alpha4，设OOx距离为g，可得zx＝d*sin(alpha4),f＝g*cos(alpha4),g＝(c²-d²)^0.5。则z＝zx+f可知。

如图3C左所示，当人脸框中心点在图中右半部时，S’为S点垂直向下移动z距离，因此S’O距离可通过z和SO距离d获得，Az为A点，因此S’Az距离可通过z和SA距离b获得，由此可得j＝S’O*sin(alpha3)，k＝AzO*cos(alpha3),AzO＝(S’Az²-S’O²)^0.5。则Ax＝j+k可知。如图3C右所示，当人脸框中心点在图中左半部时，同理可得j＝S’O*sin(alpha3)，k＝AzO*cos(alpha3)，AzO＝(S’Az²-S’O²)^0.5。则Ax＝k-j可知。

而y轴方向由AzO＝(S’Az²-Ax²)^0.5得到。至此得到人脸框中心点相对于摄像头的坐标，即人员与摄像头之间的相对位置。

5)根据所述人员与摄像头之间的相对位置，确定所述人员的位置信息。

其中，根据所述人员与摄像头之间的相对位置，确定所述人员的位置信息的步骤，包括：

确定所述人员与摄像头之间的相对位置所属的智能音箱；

确定所述智能音箱的位置信息为所述人员的位置信息。

示例性的，当待识别人员出现在摄像头的拍摄范围内，利用人脸识别技术确定待识别人员的身份，通过计算确定该人员与摄像头之间的相对位置(x,y,z)，通过(x,y,z)确定(x,y,z)所属的智能音箱，该智能音箱的位置信息是202房间，将该人员身份和其对应的202房间传输至数据库中。

当查询人发出语音查询指令后，确定被查询人为上述人员时，将该人员所处的202房间播报给查询人。

单独的使用人脸识别有时无法准确得到人员的位置。例如：当室内的摄像头刚好拍不到人脸时，可以采用声纹识别来确认人员位置。

步骤S34：如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音。

需要说明的是，在实现室内定位前需要根据室内布局情况确定使用智能音箱的个数和位置，合理在室内设置智能音箱，避免出现语音接收死角和多个智能音箱距离太近的现象，每个房间可设置1个或多个智能音箱。确定每个智能音箱的覆盖范围信息。智能音箱会实时将利用声纹识别技术得到的人员及位置信息传输给数据库。

其中，利用声纹识别确定被查询人的位置信息的步骤，包括：

1)响应于语音唤醒指令，获取人员的语音；

2)根据所述语音，利用声纹识别所述人员的身份信息；

3)确定唤醒的智能音箱的覆盖位置为所述人员的位置信息。

示例性的，人员通过语音唤醒最近的智能音箱，人员通过发出语句，利用声纹识别技术识别出该人员的身份信息，人员唤醒的智能音箱覆盖位置是202房间左侧，那么该人员所在的位置信息是202房间左侧。

当查询人发出语音查询指令后，确定被查询人为上述人员，该人员的脸并未出现在摄像头的拍摄范围内，所以当前时间数据库中并没有利用人脸识别算法传输的该人员的位置信息。将利用声纹识别确定该人员所处的202房间播报给查询人。

当当前时间点使用人脸识别和声纹识别都无法准确得到人员的位置。例如：当室内的摄像头刚好拍不到人脸且该人员在某个位置但是没有发出语音时，可以根据声纹识别和人脸识别的结果找到该人员最近时间点出现的位置信息。

步骤S35：如果未获取到数据库中利用人脸识别和声纹识别确定被查询人当前时间点的位置信息，获取数据库中利用人脸识别和声纹识别确定被查询人最近时间点的位置信息，播放所述最近时间点和所述位置信息对应的语音。

具体的，当查询人发出语音查询指令后，确定被查询人的身份后，在数据库中未获取到利用人脸识别确定被查询人当前时间点的位置信息，也未获取到利用声纹识别确定被查询人当前时间点的位置信息时，可以获取由摄像头或智能音箱传输的被查询人最近时间点出现的位置信息。其中，未获取当前时间点的位置信息可能是由于被查询人未被摄像头捕捉到或未发出语音，也可能是由于被查询人不在室内。通过获取被查询人最近出现的位置信息可以方便了解被查询人的动向。

例如：当查询人发出语音查询指令，并确定被查询人后，未获取到数据库中当前时间点的位置信息。如果数据库中有3分钟前利用人脸识别算法传输的被查询人的位置201房间，以及，15分钟前利用声纹识别传输的被查询人的位置202房间。3分钟前利用人脸识别算法传输的被查询人的位置信息201房间为被查询人最近时间点的位置信息。将3分钟前、201房间播报给查询人。查询人根据该播报信息可大致推断被查询人的位置信息或离开房间的时间。

单独的使用人脸识别或声纹识别有时无法准确得到人员的位置。例如：当室内的摄像头刚好拍不到人脸时，可以采用声纹识别来确认人员位置；当人员在某个位置但是没有发出语音时，可以利用人脸识别确认人员位置；当声纹识别和人脸识别都不起作用时，可以根据声纹识别和人脸识别的结果找到最近的位置信息。因此，本申请使用人脸识别和声纹识别相结合能够更准确的确认人员位置。

在一种可能的实施例中，查询人发出的查询语句中可能包括查询被查询人的移动轨迹。数据库可将由通过摄像头和人脸识别算法传输的人员位置和通过智能音箱和声纹识别传输的人员位置信息按照时间顺序存储。当查询人发出查询被查询人的移动轨迹并确认被查询人的身份信息后，从数据库中获取被查询人对应位置信息的数据，并将被查询人的位置信息按照时间正序或倒序播报给查询人。如果查询语句中包括时间范围，例如爸爸一天内的行动轨迹，则在数据库中获取从当前时间点前24小时的被查询人的位置信息，并按照时间正序或倒序播报给查询人。通过使用人脸识别和声纹识别相结合的方式更能方便查询人全面了解到被查询人员的移动轨迹。

本申请实施例提供一种智能设备，包括：

用户输入接口，用于接收用户输入的指令；

声音输出模块，用于播放声音信号；

与所述用户输入接口和所述声音输出模块连接的控制器210，用于执行：

本申请实施例提供一种室内定位系统，包括第一智能音箱，至少一个摄像头，至少一个第二智能音箱和数据库；

所述第一智能音箱，用于响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；

所述数据库，用于存储所述摄像头和所述第二智能音箱传输的人员位置信息。其中，第一智能音箱，摄像头，第二智能音箱分别与数据库连接。

需要说明的是，本申请中的第一智能音箱和第二智能音箱在结构和功能上是相同的。为了区别查询人和被查询人所用的智能音箱，所以将查询人唤醒的智能音箱定义为第一智能音箱，将被查询人唤醒的智能音箱定义为第二智能音箱。

由以上技术方案可以看出，本申请实施例示出一种室内定位方法、系统及智能音箱，本申请实施例示出的技术方案中，响应于查询人的语音查询指令，确定查询人和被查询人的身份信息；如果获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音；如果未获取到数据库中利用人脸识别确定被查询人当前时间点的位置信息，获取到数据库中利用声纹识别确定被查询人当前时间点的位置信息，播放所述位置信息对应的语音。本申请在人员定位过程中使用了声纹识别和人脸识别对人员进行身份识别，确定查询人和被查询人的身份信息后，通过摄像头获取人员与摄像头的距离和图像距离计算确定人员位置，使用声纹识别确定人员位置，两者相结合得到被查询人在室内的位置，使得室内定位的效果更好。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的室内定位方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：Read-Only Memory，简称：ROM)或随机存储记忆体(英文：Random Access Memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于室内定位方法、系统及智能音箱的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种智能设备，其特征在于，包括：

用户输入接口，用于接收用户输入的指令；

声音输出模块，用于播放声音信号；

2.根据权利要求1所述的智能设备，其特征在于，所述语音查询指令包括查询人与被查询人的关系，所述控制器按照以下步骤执行确定查询人和被查询人的身份信息的操作：

响应于查询人发出的语音，利用声纹识别确定查询人的身份信息；

根据所述查询人的身份信息、所述查询人与被查询人的关系和预设知识图谱，确定被查询人的身份信息。

3.根据权利要求1所述的智能设备，其特征在于，所述控制器，还用于执行：

如果未获取到数据库中利用人脸识别和声纹识别确定被查询人当前时间点的位置信息，获取数据库中利用人脸识别和声纹识别确定被查询人最近时间点的位置信息，播放所述最近时间点和所述位置信息对应的语音。

4.一种室内定位方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述语音查询指令包括查询人与被查询人的关系，所述确定查询人和被查询人的身份信息的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，还包括：

7.一种室内定位系统，其特征在于，包括：

第一智能音箱，至少一个摄像头，至少一个第二智能音箱和数据库；

8.根据权利要求7所述的室内定位系统，其特征在于，所述利用人脸识别确定人员的位置信息的步骤，包括：

确定人脸中心点的像素位置；

根据RGB深度图像确定人脸中心点位置与所述摄像头之间的距离；

根据所述人脸中心点的像素位置，所述人脸中心点位置与摄像头之间的距离，以及，所述摄像头在坐标系中的位置坐标、方向、水平偏转角、垂直偏转角、水平视场角和垂直视场角，确定人员与摄像头之间的相对位置；

根据所述人员与摄像头之间的相对位置，确定所述人员的位置信息。

9.根据权利要求7所述的室内定位系统，其特征在于，所述利用声纹识别确定人员的位置信息的步骤，包括：

响应于语音唤醒指令，获取人员的语音；

根据所述人员的语音，利用声纹识别所述人员的身份信息；

确定唤醒的第二智能音箱的覆盖位置为所述人员的位置信息。

10.一种室内定位方法，其特征在于，包括：