CN112417712A

CN112417712A - 目标设备的确定方法、装置、计算机设备和存储介质

Info

Publication number: CN112417712A
Application number: CN202110083450.1A
Authority: CN
Inventors: 刘恩泽; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-02-26

Abstract

本申请涉及智能语音设备技术领域，提供了一种目标设备的确定方法、装置、计算机设备和存储介质，包括：获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；获取各个所述智能语音设备为目标设备的似然度；根据所述似然度，从所述智能语音设备中确定出目标设备；本申请中根据用户的当前定位获取用户朝向范围内的智能语音设备，进而再获取各个智能语音设备为目标设备的似然度，准确确定出目标设备；从远场声学问题转化为近场问题，服务更加可靠。

Description

目标设备的确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及智能语音设备的技术领域，特别涉及一种目标设备的确定方法、装置、计算机设备和存储介质。

背景技术

在智能语音业务中，存在用户和智能设备之间的语音交互。这个语音交互行为中的信息，本质上包括两类：一类是目标确定信息，用以明确需要操作的目标设备是什么智能语音设备；另一类是操作信息，是用户向智能语音设备真正发送的具体指令。目前，常规的做法是：直接在智能语音设备中嵌入传声器，并提供唤醒的能力。在用户需要发起智能语音业务时，首先唤醒智能语音设备，完成目标确定信息的确认后，再进一步发出智能语音设备的相关控制指令，完成用户希望的相关功能。

上述做法存在以下几个问题：

首先，如果用户身边存在多个智能语音设备，为了正确地使用某个智能语音设备，用户需记住不同的唤醒词，否则无法准确区分自己想唤醒的智能语音设备。

其次，如果智能语音设备是一种声信号输出设备或伴随着很大噪声的设备，则智能语音设备产生的声音将干扰用户的唤醒，设备响应不可靠。

最后，对于距离用户较远的智能语音设备，将无法与之交互，完全受限于语音所达距离。

发明内容

本申请的主要目的为提供一种目标设备的确定方法、装置、计算机设备和存储介质，旨在克服目前无法从多个智能语音设备中准确确定出用户所要交互的目标设备的缺陷。

为实现上述目的，本申请提供了一种目标设备的确定方法，包括以下步骤：

获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；

根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；

获取各个所述智能语音设备为目标设备的似然度；

根据所述似然度，从所述智能语音设备中确定出目标设备。

进一步地，所述获取各个所述智能语音设备为目标设备的似然度的步骤，包括：

获取所述用户的状态参数，所述状态参数至少包括用户习惯信息、用户所处环境的环境信息；

将所述用户当前的定位、用户习惯信息、用户所处环境的环境信息表示为一个n维向量；

将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

将所述用户当前的定位表示为一个n维向量；

进一步地，所述计算各个所述智能语音设备为目标设备的似然度的计算公式为：

其中，

为规范化因子，

为任意实值特征函数；

ω为所述预设的最大熵模型在最大熵条件下的参数。

获取所述用户在当前时间的用户习惯信息；

将所述用户在当前时间的用户习惯信息表示为一个n维向量；

获取所述用户所在环境的环境信息；

将所述用户所在环境的环境信息表示为一个n维向量；

进一步地，所述根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备的步骤之后，还包括：

若所述用户所朝向范围内不存在智能语音设备，则获取所述用户在当前时间的用户习惯信息；

将所述用户在当前时间的用户习惯信息表示为一个n维向量；

将所述n维向量输入至预设的最大熵模型中，计算当前环境内的各个智能语音设备为目标设备的似然度；

获取当前环境内的各个智能语音设备为目标设备的最大似然度，并判断所述最大似然度是否大于阈值；

若大于，则发出语音，请求所述用户所要启动的目标设备。

若所述用户所朝向范围内不存在智能语音设备，则获取所述用户所在环境的环境信息；

将所述用户所在环境的环境信息表示为一个n维向量；

若大于，则发出语音，请求所述用户所要启动的目标设备。

本申请还提供了一种目标设备的确定装置，包括：

第一获取单元，用于获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；

第二获取单元，用于根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；

第三获取单元，用于获取各个所述智能语音设备为目标设备的似然度；

确定单元，用于根据所述似然度，从所述智能语音设备中确定出目标设备。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的目标设备的确定方法、装置、计算机设备和存储介质，获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；获取各个所述智能语音设备为目标设备的似然度；根据所述似然度，从所述智能语音设备中确定出目标设备；本申请中根据用户的当前定位获取用户朝向范围内的智能语音设备，进而再获取各个智能语音设备为目标设备的似然度，准确确定出目标设备；从远场声学问题转化为近场问题，服务更加可靠。

附图说明

图1 是本申请一实施例中目标设备的确定方法步骤示意图；

图2是本申请一实施例中目标设备的确定装置结构框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种目标设备的确定方法，包括以下步骤：

步骤S1，获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；

步骤S2，根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；

步骤S3，获取各个所述智能语音设备为目标设备的似然度；

步骤S4，根据所述似然度，从所述智能语音设备中确定出目标设备。

在本实施例中，上述方法应用管理终端上，该管理终端可以是服务器。上述管理终端上可以预先存储有当前环境中各个智能语音设备的相关信息，例如方位信息，名称信息等。上述用户身上佩戴有便携设备，该便携设备上设置有体位传感器，体位传感器不仅能够提供用户在空间中的具体坐标，还可以提供周向方位和俯仰角度等信息。用户的体位朝向，是仲裁目标智能设备的重要信息。

具体地，如上述步骤S1所述的，上述便携设备与上述管理终端连接，上述便携设备基于体位传感器获取用户的方位朝向信息以及姿态信息；上述定位传感器采集高精准定位系统，将实现复杂空间的比较精确的空间定位。其定位误差不大于10cm；上述便携设备除了满足定位要求而外，也需要对体位有相对精确的定位区间，例如：周向误差，小于 20°；俯仰误差，小于10°。

如上述步骤S2所述的，由于当前环境中的智能语音设备都是预先部署好的，且每个智能语音设备的位置都可以预先记录在上述管理终端上；因此，根据所述用户的定位，便可以获取所述用户所朝向范围内的智能语音设备。上述用户所朝向范围指的是某个大致方位（周向角度和俯仰角度），具有一定的幅度，例如用户当前面向正东面，则可以获取周向±45度，俯仰±30度，朝向方向的所有智能语音设备。

如上述步骤S3-S4所述的，上述用户所朝向范围内的智能语音设备可以有多个，为了准确的确定出目标设备，可以获取到各个所述智能语音设备为目标设备的似然度，即各个所述智能语音设备为目标设备的似概率；根据上述似然度，则可以从用户所朝向范围内的智能语音设备准确确定出用户所要交互的目标设备。在本实施例中，获取上述似然度可以采取多种方式，例如当前用户的定位、当前用户的用户习惯、当前环境的环境参数等；根据不同的参数，计算出用户所朝向范围内的智能语音设备为目标设备的似然度；最终可以选择出似然度最高的智能语音设备作为上述目标设备。

在目前目标设备的确定过程中，确定过程过于复杂，每个智能语音设备嵌入智能语音模块，而唤醒词一旦固定，很难更换。唤醒词需要统一管理。其次，智能设备在不需要语义理解的情况下，只需要电气操作信号，没有必要在智能设备处完成语音到设备电气操作信号的转换。而在本实施例中，基于上述目标设备的确定方法，采用空间定位的方式，比目前的声学定位更加自然，鲁棒性和精确性更高。不会因为智能语音设备的声学特质，干扰语音命令到电气指令的转换。同时，最重要的一点是用户与智能语音设备之间的交互，已经从远场声学问题转化为近场问题，使得服务更加可靠，用户也更加自然与智能语音设备进行交互。

在一实施例中，所述获取各个所述智能语音设备为目标设备的似然度的步骤S3，包括：

a、获取所述用户的状态参数，所述状态参数至少包括用户习惯信息、用户所处环境的环境信息；

b、将所述用户当前的定位、用户习惯信息、用户所处环境的环境信息表示为一个n维向量；

c、将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在本实施例中，上述状态参数代表上述用户所处状态的一些参数，其可以是上述用户习惯信息、用户所处环境的环境信息。在其他实施例中，上述状态参数不限于此，其也可以是其它任何对用户选择目标设备产生影响的参数；例如用户偏好、气候等等，在此不进行一一赘述。

在本实施例中，上述n维向量可以表示为

，其中X作为一个随机变量，其表示的是用户的定位、用户习惯信息、用户所处环境的环境信息。上述预设的最大熵模型的似然函数为：

其中，

是对数似然函数；

是输入向量；

为输出向量；

是训练数据的经验概率分布；

为规范化因子，

为任意实值特征函数。

针对上述最大熵模型，可采用改进的迭代尺度法（IIS），获得最大熵模型在最大熵条件下的各个参数ω，从而得到上述预设的最大熵模型。最大熵原理可以表述为在满足约束条件下模型集合中，选取熵最大的模型。使用该预设的最大熵模型进行似然度的计算，得到各个所述智能语音设备为目标设备的似然度。

在本实施例中，训练上述最大熵模型，训练数据为（X，Y），X为n维向量，Y为m维向量，表示为，

，分别表示m个智能语音设备分别是目标设备的概率。基于改进的迭代尺度法（IIS），训练上述模型，得到上述预设的最大熵模型。

在另一实施例中，所述获取各个所述智能语音设备为目标设备的似然度的步骤S3，包括：

步骤S31，将所述用户当前的定位表示为一个n维向量；

步骤S32，将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在本实施例中，上述n维向量可以表示为

，其中X作为一个随机变量，其表示的是用户的各个位置和体位信息。上述预设的最大熵模型的似然函数为：

其中，

是对数似然函数；

是输入向量；

为输出向量；

是训练数据的经验概率分布；

为规范化因子，

为任意实值特征函数。

在上述实施例中，所述计算各个所述智能语音设备为目标设备的似然度的计算公式为：

其中，

为规范化因子，

为任意实值特征函数；

ω为所述预设的最大熵模型在最大熵条件下的参数。

步骤S301，获取所述用户在当前时间的用户习惯信息；

步骤S302，将所述用户在当前时间的用户习惯信息表示为一个n维向量；

步骤S303，将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在本实施例中，上述步骤S302、步骤S303，与上述步骤S31、步骤S32类似，区别在于本实施例中的上述预设的最大熵模型的输入X定义为描述用户作息习惯的随机变量：其具体表达为一个n维向量，分别表示用户在某个具体时间点的用户习惯信息，如阅读、上网、看比赛、跑步、睡眠、进食等的概率值。在基于用户习惯计算似然度时，首先查询系统当前时间，获取用户在当前时刻的先验习惯信息随机变量。

举例而言，在本实施例中，比如在晚上8点钟，用户听音乐的概率很高，则该用户打开智能音响设备的似然度则越大，即智能音响设备为目标设备的似然度就越高。

在又一实施例中，所述获取各个所述智能语音设备为目标设备的似然度的步骤S3，包括：

步骤S3a，获取所述用户所在环境的环境信息；

步骤S3b，将所述用户所在环境的环境信息表示为一个n维向量；

步骤S3c，将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在本实施例中，上述步骤S3b、步骤S3c，与上述步骤S31、步骤S32类似，区别在于本实施例中的上述预设的最大熵模型的输入X定义为描述环境信息的随机变量；其具体表达为一个n维向量，分别表示温度、湿度、光照强度等的概率值。在基于环境信息计算似然度时，可以直接查询当前环境信息，获取当前环境信息下，针对某一智能语音设备的似然度。

举例而言，在本实施例中，当前温度越高（已经38℃），则该用户打开智能空调设备的似然度则越大，即智能空调设备为目标设备的似然度就越高。

在一些实施例中，若获取到用户的定位之后，用户在该定位中没有朝向的智能语音设备，此时则需要进一步进行确认。

具体地，在一实施例中，所述根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备的步骤S2之后，还包括：

将所述用户在当前时间的用户习惯信息表示为一个n维向量；

若大于，则发出语音，请求所述用户所要启动的目标设备。

在本实施例中，上述n维向量的表达、似然度的计算过程与上述实施例中相似，在此不再进行赘述。

在另一实施例中，所述根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备的步骤S2之后，还包括：

将所述用户所在环境的环境信息表示为一个n维向量；

若大于，则发出语音，请求所述用户所要启动的目标设备。

在一实施例中，上述获取用户当前的定位的步骤S1之前，还包括：

接收用户的唤醒语音，并判断所述唤醒语音中是否包含预设唤醒词；

若包含，则进入获取用户当前的定位的步骤。

在本实施例中，还设置有对上述便携设备的语音唤醒功能，当用户说出对应的唤醒词时可以唤醒上述便携设备，从而采集用户的定位。在一些实施例中，上述便携设备可以是智能耳机。

参照图2，本申请一实施例中还提供了一种目标设备的确定装置，包括：

在一实施例中，上述第三获取单元30，包括：

状态获取子单元，用于获取所述用户的状态参数，所述状态参数至少包括用户习惯信息、用户所处环境的环境信息；

向量表示子单元，用于将所述用户当前的定位、用户习惯信息、用户所处环境的环境信息表示为一个n维向量；

似然度计算子单元，用于将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在另一实施例中，上述第三获取单元30，包括：

第一表示子单元，用于将所述用户当前的定位表示为一个n维向量；

第一计算子单元，用于将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在上述实施例中，上述似然度计算子单元、第一计算子单元计算各个所述智能语音设备为目标设备的似然度的计算公式为：

其中，

ω为所述预设的最大熵模型在最大熵条件下的参数。

在另一实施例中，上述第三获取单元30，包括：

第一获取子单元，用于获取所述用户在当前时间的用户习惯信息；

第二表示子单元，用于将所述用户在当前时间的用户习惯信息表示为一个n维向量；

第二计算子单元，用于将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在又一实施例中，上述第三获取单元30，包括：

第二获取子单元，用于获取所述用户所在环境的环境信息；

第三表示子单元，用于将所述用户所在环境的环境信息表示为一个n维向量；

第三计算子单元，用于将所述n维向量输入至预设的最大熵模型中，计算各个所述智能语音设备为目标设备的似然度。

在一实施例中，上述目标设备的确定装置，还包括：

第四获取单元，用于若所述用户所朝向范围内不存在智能语音设备，则获取所述用户在当前时间的用户习惯信息；

第一表示单元，用于将所述用户在当前时间的用户习惯信息表示为一个n维向量；

第一计算单元，用于将所述n维向量输入至预设的最大熵模型中，计算当前环境内的各个智能语音设备为目标设备的似然度；

第一判断单元，用于获取当前环境内的各个智能语音设备为目标设备的最大似然度，并判断所述最大似然度是否大于阈值；

第一确定单元，用于若大于，则发出语音，请求所述用户所要启动的目标设备。

在一实施例中，上述目标设备的确定装置，还包括：

第五获取单元，用于若所述用户所朝向范围内不存在智能语音设备，则获取所述用户所在环境的环境信息；

第二表示单元，用于将所述用户所在环境的环境信息表示为一个n维向量；

第二计算单元，用于将所述n维向量输入至预设的最大熵模型中，计算当前环境内的各个智能语音设备为目标设备的似然度；

第二判断单元，用途获取当前环境内的各个智能语音设备为目标设备的最大似然度，并判断所述最大似然度是否大于阈值；

第二确定单元，用于若大于，则发出语音，请求所述用户所要启动的目标设备。

在本实施例中，上述装置实施例中的各个单元、子单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标设备的确定等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标设备的确定方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种目标设备的确定方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的目标设备的确定方法、装置、计算机设备和存储介质，获取用户当前的定位；其中，所述用户的定位为所述用户在当前环境中的方位朝向信息以及姿态信息；根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备；获取各个所述智能语音设备为目标设备的似然度；根据所述似然度，从所述智能语音设备中确定出目标设备；本申请中根据用户的当前定位获取用户朝向范围内的智能语音设备，进而再获取各个智能语音设备为目标设备的似然度，准确确定出目标设备；从远场声学问题转化为近场问题，服务更加可靠。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标设备的确定方法，其特征在于，包括以下步骤：

获取各个所述智能语音设备为目标设备的似然度；

根据所述似然度，从所述智能语音设备中确定出目标设备。

2.根据权利要求1所述的目标设备的确定方法，其特征在于，所述获取各个所述智能语音设备为目标设备的似然度的步骤，包括：

3.根据权利要求1所述的目标设备的确定方法，其特征在于，所述获取各个所述智能语音设备为目标设备的似然度的步骤，包括：

将所述用户当前的定位表示为一个n维向量；

4.根据权利要求2所述的目标设备的确定方法，其特征在于，所述计算各个所述智能语音设备为目标设备的似然度的计算公式为：

其中，

为规范化因子，

为任意实值特征函数；

ω为所述预设的最大熵模型在最大熵条件下的参数。

5.根据权利要求1所述的目标设备的确定方法，其特征在于，所述获取各个所述智能语音设备为目标设备的似然度的步骤，包括：

获取所述用户在当前时间的用户习惯信息；

将所述用户在当前时间的用户习惯信息表示为一个n维向量；

6.根据权利要求1所述的目标设备的确定方法，其特征在于，所述获取各个所述智能语音设备为目标设备的似然度的步骤，包括：

获取所述用户所在环境的环境信息；

将所述用户所在环境的环境信息表示为一个n维向量；

7.根据权利要求1所述的目标设备的确定方法，其特征在于，所述根据所述用户的定位，获取所述用户所朝向范围内的智能语音设备的步骤之后，还包括：

将所述用户在当前时间的用户习惯信息表示为一个n维向量；

若大于，则发出语音，请求所述用户所要启动的目标设备。

8.一种目标设备的确定装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。