CN112562671A

CN112562671A - 一种服务机器人的语音控制方法和装置

Info

Publication number: CN112562671A
Application number: CN202011432047.7A
Authority: CN
Inventors: 王俊锋
Original assignee: Shanghai Leiangyun Intelligent Technology Co ltd
Current assignee: Shanghai Leiangyun Intelligent Technology Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26

Abstract

本申请涉及一种服务机器人的语音控制方法，包括：对获取的语音信号进行预处理；当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位；启动雷达传感器，获取周围空间的点云信息；根据点云信息对初始声源方位进行修正，确定修正声源方位；根据修正声源方位控制服务机器人的运动。本方案将声源定位和雷达定位进行结合，通过唤醒词、声源定位两方面来确定真正的用户，避免机器人追踪无关的路人，减少机器人的损耗；仅当用户说出唤醒词，唤醒机器人之后，才进行声源定位，降低数据的处理量；通过雷达传感器对声源定位进行修正，从而确保定位的方向更准确，追踪用户的效果更精确。

Description

一种服务机器人的语音控制方法和装置

技术领域

本申请涉及语音交互技术领域，具体涉及一种服务机器人的语音控制方法和装置。

背景技术

按照国际机器人联盟的分类，机器人一般分为工业机器人和服务机器人，工业机器人一般用于制造业生产环境，而服机器人一般用于生活等非制造业环境。作为全球机器人行业重要的细分领域，服务机器人技术近年来取得了长足的进步和发展，在家庭、教育、公共服务、医疗等领域实现了一系列突破性应用。

随着物联网、云计算、移动互联网为代表的新一代信息技术的发展，智慧城市、智慧社区等概念逐渐变为现实，社会的发展也在向更加智能化、数字化的方向稳步迈进。在这样的时代背景下，智能服务机器人与智慧城市、智慧社区等概念非常契合，逐渐应用于更广泛的场景。

相关技术中，现有的智能机器人大多通过红外人体识别的方法来追踪用户，控制机器人进行旋转来面向用户。但是在公共场所，由于周围可能人数很多，红外人体识别的方法将会失效。此外，仅通过红外识别，无法确定真正的用户，多数时候会追踪到路过的路人，浪费机器人的电量，增加不必要的损耗。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种服务机器人的语音控制方法和装置。

根据本申请实施例的第一方面，提供一种服务机器人的语音控制方法，包括：

对获取的语音信号进行预处理；

当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位；

启动雷达传感器，获取周围空间的点云信息；

根据点云信息对初始声源方位进行修正，确定修正声源方位；

根据修正声源方位控制服务机器人的运动。

进一步地，所述点云信息是通过雷达传感器对周围空间进行扫描后获得的；

所述根据点云信息对初始声源方位进行修正，包括：

根据点云信息确定周围存在的每一个探测对象的方位；

从中筛选出与初始声源方位最接近的一个探测对象的方位，将该探测对象的方位作为参考方位；

根据参考方位对初始声源方位进行修正。

进一步地，所述根据点云信息确定周围存在的每一个探测对象的方位，包括：

将点云信息区分为多个不同的探测对象；

根据每个探测对象所对应的点云，计算该探测对象在雷达坐标系下的方位角；

根据预设的坐标转换矩阵，将每一个探测对象的方位角从激光雷达坐标系转换到声源探测坐标系。

进一步地，所述点云信息是激光雷达坐标系下的点的三维坐标；

相应地，所述计算该探测对象在雷达坐标系下的方位角，包括：

将探测对象所对应的点云的所有点的纵坐标丢弃，保留二维平面坐标；

根据保留的二维平面坐标拟合一个二维向量，将该二维向量作为该探测对象的方位角。

进一步地，所述根据参考方位对初始声源方位进行修正，包括：

根据预设的第一定位精度，将初始声源方位转换为第一角度范围；

根据预设的第二定位精度，将参考方位转换为第二角度范围；

计算第一角度范围和第二角度范围的交集，根据交集确定修正声源方位。

进一步地，所述根据修正声源方位控制服务机器人的运动，包括：

确定机器人的当前面向方位；

根据当前面向方位和修正声源方位确定旋转方向和旋转角度；

向机器人的驱动装置发送控制指令，以使所述机器人按照指定的旋转方向和旋转角度进行运动。

进一步地，所述方法还包括：

当识别出预设的唤醒词时，则提取初始语音信号的声纹特征，并将当前声纹特征锁定为该语音信号的声纹特征；

在锁定的持续期间内，对获取的语音信号进行特征比对，保留与当前声纹特征一致的语音信号，丢弃与当前声纹特征不一致的语音信号；

根据保留的语音信号进行相应的语音交互。

进一步地，所述持续期间为预设值；所述方法还包括：

在锁定的持续期间内，如果接收到与当前声纹特征一致的语音信号，则将持续期间重置；

持续期间结束时，解除当前声纹特征的锁定。

根据本申请实施例的第二方面，提供一种服务机器人的语音控制装置，包括：

预处理模块，用于对获取的语音信号进行预处理；

声源定位模块，用于当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位；

点云获取模块，用于启动雷达传感器，获取周围空间的点云信息；

定位修正模块，用于根据点云信息对初始声源方位进行修正，确定修正声源方位；

运动控制模块，用于根据修正声源方位控制服务机器人的运动。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一种实施例所述方法的操作步骤。

本申请的实施例提供的技术方案具备以下有益效果：

本方案将声源定位和雷达定位进行结合，通过唤醒词、声源定位两方面来确定真正的用户，避免机器人追踪无关的路人，减少机器人的损耗；仅当用户说出唤醒词，唤醒机器人之后，才进行声源定位，降低数据的处理量；通过雷达传感器对声源定位进行修正，从而确保定位的方向更准确，追踪用户的效果更精确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种服务机器人的语音控制方法的流程图。

图2是根据一示例性实施例示出的一种服务机器人的语音控制装置的电路框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

图1是根据一示例性实施例示出的一种服务机器人的语音控制方法的流程图。该方法可以包括以下步骤：

步骤S1：对获取的语音信号进行预处理；

步骤S2：当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位；

步骤S3：启动雷达传感器，获取周围空间的点云信息；

步骤S4：根据点云信息对初始声源方位进行修正，确定修正声源方位；

步骤S5：根据修正声源方位控制服务机器人的运动。

本方案将声源定位和雷达定位进行结合，通过唤醒词、声源定位两方面来确定真正的用户，避免机器人追踪无关的路人，减少机器人的损耗；仅当用户说出唤醒词，唤醒机器人之后，才进行声源定位，降低数据的处理量；通过雷达传感器对声源定位进行修正，从而确保定位的方向更准确，追踪用户的效果更精确。因而本申请的方案能够很好地适应社区、商场等公共场所，避免附近的路人影响到正在与机器人进行语音交互的用户；采用本方案的语音交互服务机器人，能够更好地应用于智慧城市、智慧社区的建设中。

一些实施例中，所述点云信息是通过雷达传感器对周围空间进行扫描后获得的；雷达传感器可以是激光雷达传感器，安装在机器人本体上。机器人本体上还可以设置麦克风阵列，声源定位可以通过基于到达时延差的声源定位方法来实现。

所述根据点云信息对初始声源方位进行修正，包括：

根据点云信息确定周围存在的每一个探测对象的方位；

根据参考方位对初始声源方位进行修正。

由于机器人的周围可能存在多个人，甚至还有其他物体(比如车辆等)，因而获取的点云信息中能识别出多个探测对象，每个探测对象都对应一团相距较近的点，根据这一团相距较近的点可以确定该探测对象的方位。

一些实施例中，所述根据点云信息确定周围存在的每一个探测对象的方位，包括：

将点云信息区分为多个不同的探测对象；

根据点云的聚合情况，可以将点云信息区分开。在计算探测对象的方位角之前，可以先通过轮廓识别算法，识别出人体轮廓，将属于其它物体的点云信息丢弃掉，以减少计算量。

由于声源定位、雷达定位分别属于两个不同的体系，因此需要将方位角转换到声源定位的坐标体系下。坐标转换矩阵与麦克风阵列、雷达传感器的安装位置有关，可以事先通过测量来确定，保存在机器人的控制系统中，计算时直接使用即可。

一些实施例中，所述点云信息是激光雷达坐标系下的点的三维坐标。

服务机器人通常不具备竖直方向上的移动能力，只需要在水平方向上追踪用于即可，因而可以直接丢弃点云的纵坐标，方便后续计算。声源探测坐标系可以是以机器人自身为原点，在水平平面上的坐标系。

根据二维坐标拟合二维向量时，该向量是可以是从原点出发的一个单位向量，然后根据约束条件求解该单位向量。约束条件可以是：探测对象的所有点(二维平面坐标)到该单位向量所在直线的距离之和最短；也可以是：探测对象的所有点(二维平面坐标)的中间位置；或者是其它合理的约束条件。

一些实施例中，所述根据参考方位对初始声源方位进行修正，包括：

任何的定位手段，包括声源定位、雷达定位，都一定存在精度问题。定位精度是在系统设计完成时就已经确定的，与硬件设计、软件算法有关，可以通过具体实验来确定，保存在机器人的控制系统中。

第一定位精度是声源定位的精度，比如可以是5％；第二定位精度是雷达定位的精度，比如可以是3％；这样第一角度范围就是计算所得的初始声源方位附近5％的数值，第二角度范围就是计算所得的参考方位附近3％的数值。将这个两个数值范围取交集，从交集中确定修正声源方位。如果没有交集，则取初始声源方位、参考方位之一为准，或者可以取二者之间的中值。

一些实施例中，所述根据修正声源方位控制服务机器人的运动，包括：

确定机器人的当前面向方位；

机器人的当前面向方位，与机器人的结构设计有关。如果麦克风阵列、雷达传感器与机器人同时旋转(比如机器人是一体结构，旋转时所有部件都同步旋转；或者麦克风阵列、雷达传感器安装在执行旋转追踪的部分)，则当前面向方位为固定数值，预先测量并保存在控制系统中即可。如果机器人只有一部分能旋转(比如下半部分固定，上半部分可以旋转追踪用户)，麦克风阵列、雷达传感器安装在固定的部分，则当前面向方位需要通过陀螺仪等传感器进行测量。

比如，当前面向方位为固定数值的情况，可以将当前面向方位标定为0，声源方位的范围是(-180，+180)，正数代表顺时针，负数代表逆时针，数字代表角度数。假设某次计算得到的修正声源方位是-36，则旋转方向是逆时针，旋转角度是36度。

一些实施例中，所述方法还包括：

根据保留的语音信号进行相应的语音交互。

在社区、商场等公共场所，服务机器人的周围通常会有很多人，因而容易接收到不同来源的语音信号。当一个用户正在与服务机器人进行语音交互时，服务机器人很有可能接收到附近的路人的讲话声音，从而打乱用户的交互操作，影响语音交互的服务体验，给用户带来困扰。

本申请的实施例中，在接收到唤醒词之后，根据包含唤醒词的语音信号的声纹特征，设定一个持续期间将声纹特征进行锁定；在持续期间内，只有同一个人的语音指令才会被保留并进行交互，避免其他人插队的情况出现，能够较好地适用于多人同时在场的应用场景。

一些实施例中，所述持续期间为预设值；比如，持续期间可以是10秒、15秒、30秒等，可以设定为其它合理的数值。相应地，所述方法还包括：

持续期间结束时，解除当前声纹特征的锁定。

容易理解的是，持续期间可以刷新，只要在持续期间内有下一次语音输入，则持续期间重新开始计算，这样就使一个用户能够连续进行交互。只有当前一个用户长时间(超过持续期间即可)未输入语音信号，才能使下一个用户进行语音交互。

应当理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图2是根据一示例性实施例示出的一种服务机器人的语音控制装置的电路框图。参照图2，该装置包括：预处理模块201、声源定位模块202、点云获取模块203、定位修正模块204、运动控制模块205。

预处理模块201用于对获取的语音信号进行预处理。

声源定位模块202用于当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位。

点云获取模块203用于启动雷达传感器，获取周围空间的点云信息。

定位修正模块204用于根据点云信息对初始声源方位进行修正，确定修正声源方位。

运动控制模块205用于根据修正声源方位控制服务机器人的运动。

关于上述实施例中的装置，其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述，此处不再详细阐述说明。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种服务机器人的语音控制方法：对获取的语音信号进行预处理；当识别出预设的唤醒词时，对包含唤醒词的初始语音信号进行声源定位，确定初始声源方位；启动雷达传感器，获取周围空间的点云信息；根据点云信息对初始声源方位进行修正，确定修正声源方位；根据修正声源方位控制服务机器人的运动。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种服务机器人的语音控制方法，其特征在于，包括：

对获取的语音信号进行预处理；

启动雷达传感器，获取周围空间的点云信息；

根据修正声源方位控制服务机器人的运动。

2.根据权利要求1所述的方法，其特征在于，所述点云信息是通过雷达传感器对周围空间进行扫描后获得的；

所述根据点云信息对初始声源方位进行修正，包括：

根据点云信息确定周围存在的每一个探测对象的方位；

根据参考方位对初始声源方位进行修正。

3.根据权利要求2所述的方法，其特征在于，所述根据点云信息确定周围存在的每一个探测对象的方位，包括：

将点云信息区分为多个不同的探测对象；

4.根据权利要求3所述的方法，其特征在于：所述点云信息是激光雷达坐标系下的点的三维坐标；

5.根据权利要求2-4任一项所述的方法，其特征在于，所述根据参考方位对初始声源方位进行修正，包括：

6.根据权利要求1-4任一项所述的方法，其特征在于：所述根据修正声源方位控制服务机器人的运动，包括：

确定机器人的当前面向方位；

7.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

根据保留的语音信号进行相应的语音交互。

8.根据权利要求7所述的方法，其特征在于：所述持续期间为预设值；所述方法还包括：

持续期间结束时，解除当前声纹特征的锁定。

9.一种服务机器人的语音控制装置，其特征在于，包括：

预处理模块，用于对获取的语音信号进行预处理；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的操作步骤。