CN113010015A

CN113010015A - 一种机器人交互对象确定方法、机器人及存储介质

Info

Publication number: CN113010015A
Application number: CN202110305096.2A
Authority: CN
Inventors: 陈炜; 张涛
Original assignee: Shenzhen Pudu Technology Co Ltd
Current assignee: Shenzhen Pudu Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-22
Also published as: CN114610154A

Abstract

本发明公开了一种机器人交互对象确定方法、机器人及存储介质，其中，方法部分包括：确定是否触发人机交互模式，若触发则对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息，确定机器人周围的语音信息与屏幕前方的人脸识别信息是否来源于同一用户，若来源于同一用户，则确定用户为机器人的目标交互对象；本发明中，当机器人判断声音和与机器人屏幕前方捕获到的人脸来源于同一对象时，才将该对象作为目标交互用户，解决了无法从包含干扰声源的复杂环境中，准确地目标交互对象的问题，使机器人能够在嘈杂环境中准确识别目标交互对象，进而可以准确地获取目标交互对象的声音，做到所答即所问，从而提高了用户与机器人的交互体验。

Description

一种机器人交互对象确定方法、机器人及存储介质

技术领域

本发明涉及人工智能机器人领域，尤其涉及一种机器人交互对象确定方法、机器人及存储介质。

背景技术

随着现代科技的飞速发展，智能机器人的应用范围越来越广泛，商场、银行等公共场所均可应用智能机器人与用户进行交互，以降低成本提高用户体验。

现有技术中，一般通过语音识别用户命令的技术，实现机器人和人类用户交互。但由于公共场所的真实环境较为复杂，存在其他用户的语音干扰和环境中的非语音干扰的情况，导致机器人在于用户的过程中答非所问，降低用户体验。例如，多个用户都发出语音信号，部分用户是向机器人发出语音命令，但部分用户之仅是彼此交谈，同时公共场还存在电视、音箱的声源等干扰。这些干扰会对机器人对交互用户的识别造成影响，使得机器人无法从包含干扰声源的复杂环境中，准确地定位交互对象，导致与机器人的交互体验不佳。

发明内容

本发明提供一种机器人交互对象确定方法、机器人及存储介质，以解决现有技术中，机器人无法从包含干扰声源的复杂环境中，准确地定位交互对象，导致交互体验不佳的技术问题。

一种机器人交互对象确定方法，包括：

确定是否触发人机交互模式；

若触发所述人机交互模式，则对机器人屏幕前方进行人脸识别，以获得所述机器人屏幕前方的人脸识别信息；

确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户；

若所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息来源于同一用户，则确定所述用户为所述机器人的目标交互对象。

进一步地，所述确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户，包括：

确定所述语音信息的声源位置；

判断所述人脸识别信息中是否有与所述声源位置对应的人脸位置；

若所述人脸识别信息中有与所述声源位置对应的人脸位置，则确定所述语音信息和所述人脸位置对应的人脸识别信息来源于同一用户。

进一步地，所述语音信息为通过麦克风阵列获取的多通道语音信息，所述确定所述语音信息的声源位置，包括：

确定不同麦克风采集到所述语音信息的采集时间，所述不同麦克风布置在所述机器人的不同位置，形成所述麦克风阵列；

根据所述不同麦克风的采集时间对所述语音信息进行标记，以获得所述语音信息的多通道感知数据，所述多通道感知数据为各通道感知的时间差；

将所述多通道感知数据输入预设声音定位模型，以获得所述语音信息的声源位置。

进一步地，所述确定是否触发人机交互模式，包括：

根据所述机器人的屏幕前方的人脸识别结果确定是否触发所述人机交互模式；

或者，根据所述机器人周围的语音信息确定是否触发所述人机交互模式。

进一步地，所述确定所述机器人周围的语音信息是否触发所述人机交互模式，包括：

将所述语音信息进行降噪和滤波处理，并将处理后的所述语音信息转化为文字信息；

确定所述文字信息是否包含预设关键字；

若所述文字信息包含所述预设关键字，则触发所述人机交互模式；

若所述文字信息未包含所述预设关键字，则不触发所述人机交互模式。

进一步地，所述确定是否触发人机交互模式之前，所述方法还包括：

获取所述机器人周围的声音信息；

确定所述声音信息的声音能量是否大于或者等于预设阈值；

若所述声音信息的声音能量大于或者等于所述预设阈值，则对所述机器人周围的声音信息进行过滤，以清除所述声音信息的环境杂音，获得所述机器人周围的语音信息。

进一步地，所述确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户之后，所述方法还包括：

若所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息来源于不同用户，则确定所述语音信息的声源位置数量；

根据所述语音信息的声源位置和声源位置数量确定所述目标交互对象；

根据所述目标交互对象的位置调整所述机器人的站立位置，以使所述机器人朝向所述目标交互对象的脸部中心。

进一步地，所述根据所述语音信息的声源位置和声源位置数量确定所述目标交互对象，包括：

确定所述声源位置数量是否大于预设数量，所述预设数量为1；

若根据所述声源位置数量小于或者等于所述预设数量，则将所述声源位置上的用户作为所述目标交互对象；

若根据所述声源位置数量大于所述预设数量，则根据所述语音信息的声源位置确定与各所述声源位置中，与所述机器人之间距离最短的声源位置，并将所述距离最短的声源位置上的用户作为所述目标交互对象。

一种机器人，包括：

第一确定模块，用于确定是否触发人机交互模式；

识别模块，用于若触发所述人机交互模式，则对机器人屏幕前方进行人脸识别，以获得所述机器人屏幕前方的人脸识别信息；

第二确定模块，用于确定所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息是否来源于同一用户；

第三确定模块，用于若所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息来源于同一用户，则确定所述用户为所述机器人的目标交互对象。

一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述机器人交互对象确定方法的步骤。

一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述机器人交互对象确定方法的步骤。

上述机器人交互对象确定方法、机器人及存储介质所提供的一个方案中，通过确定是否触发人机交互模式，若触发人机交互模式，则对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息，确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户，若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于同一用户，则确定用户为机器人的目标交互对象；本发明中，当机器人判断声音和与机器人屏幕前方捕获到的人脸来源于同一对象时，才将该对象作为目标交互用户，解决了无法从包含干扰声源的复杂环境中，准确地目标交互对象的问题，使得机器人能够在嘈杂环境中准确识别目标交互对象，进而可以准确地获取目标交互对象的声音，做到所答即所问，从而提高了用户与机器人的交互体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中机器人交互对象确定系统的一结构示意图；

图2是本发明一实施例中机器人交互对象确定方法的一流程示意图；

图3是本发明一实施例中机器人交互对象确定方法的另一流程示意图；

图4是本发明一实施例中机器人的一内部结构示意图；

图5是本发明一实施例中机器人的另一内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的机器人交互对象确定方法，可应用在如图1所示的机器人交互系统中，该机器人交互系统包括机器人和多个用户(包括用户1、用户2……用户n)，其中，机器人为该机器人交互对象确定方法的执行主体。机器人在启动后，通过确定是否触发人机交互模式，若触发人机交互模式，则对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息，确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户，若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于同一用户，则确定用户为机器人的目标交互对象；本发明中，当机器人判断声音和与机器人屏幕前方捕获到的人脸来源于同一对象时，才将该对象作为目标交互用户，解决了无法从包含干扰声源的复杂环境中，准确地目标交互对象的问题，使得机器人能够在嘈杂环境中准确识别目标交互对象，进而可以准确地获取目标交互对象的声音，做到所答即所问，从而提高了用户与机器人的交互体验。

在一实施例中，如图2所示，提供一种机器人交互对象确定方法，以该方法应用在图1中的机器人为例进行说明，包括如下步骤：

S10：确定是否触发人机交互模式。

具体地，确定是否触发人机交互模式有两种方式：

S11：根据机器人的屏幕前方的人脸识别结果确定是否触发人机交互模式。

机器人启动后，会对机器人的屏幕前方进行人脸识别，确定是否能够识别到人脸，若识别到人脸，则会触发人机交互模式。

或者，

S12：根据机器人周围的语音信息确定是否触发人机交互模式。

本实施例中的机器人安装有声音获取装置，在机器人启动后，会通过声音获取装置获取机器人周围的语音信息，并确定语音信息是否触发人机交互模式。

例如，对获取的语音信息件进行语音识别，根据语音识别结果确定语音信息是否是呼叫机器人，若确定语音信息是在呼叫机器人，则触发人机交互模式；若确定语音信息未呼叫机器人，则不触发人机交互模式，机器人忽略该语音信息，继续确定下一语音信息。

S20：若触发人机交互模式，则对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息。

本实施例中的机器人安装有人脸识别装置(如摄像头)，在确定触发人机交互模式之后，通过人脸识别装置对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息并记录。

例如，人脸识别装置可以是摄像头，在机器人头顶正前方装有一个摄像头，该摄像头位于头部正面中心点，摄像头的捕获范围一般为100-120°范围，在上述视角范围内有能力识别获取到图像中的人脸。

本实施例中，人脸识别装置为摄像头、摄像头位于头部正面中心点仅为示例性说明，在其他实施例中，人脸识别装置还可以是其他图像获取设备，摄像头还可以在机器人的其他位置，在此不再赘述。

S30：确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户。

在获取机器人屏幕前方的人脸识别信息之后，确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户。

例如，在确定触发人机交互模式之后，对该机器人周围的语音信息件进行声源定位以确定声源的方向，然后机器人对机器人屏幕前方的进行人脸识别，若在声源的方向在机器人屏幕前方，且在机器人屏幕前方的捕获到人脸识别信息，则确定该语音信息与机器人屏幕前方的人脸识别信息来源于同一用户；若在声源的方向未在机器人屏幕前方，则确定该语音信息与人脸识别信息来源于不同用户。

S40：若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于同一用户，则确定用户为机器人的目标交互对象。

在确定语音信息与人脸识别信息是否来源于同一用户之后，若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于同一用户，则确定用户为机器人的目标交互对象，此时可直接与目标交互对象进行正常交互，可根据目标交互对象的语音信息进应答，以便准确解决用户问题，提高用户交互体验的同时，减少机器人寻找交互对象的步骤；若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于不同用户，此时无法确定目标交互对象，则根据语音信息的声源位置调整机器人的位置，以寻找到目标交互对象，为用户提供更好的体验。

本实施例中，通过确定是否触发人机交互模式，若触发人机交互模式，则对机器人屏幕前方进行人脸识别，以获得机器人屏幕前方的人脸识别信息，确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户，若机器人周围的语音信息与机器人屏幕前方的人脸识别信息来源于同一用户，则确定用户为机器人的目标交互对象；本发明中，当机器人判断声音和与机器人屏幕前方捕获到的人脸来源于同一对象时，才将该对象作为目标交互用户，解决了无法从包含干扰声源的复杂环境中，准确地目标交互对象的问题，使得机器人能够在嘈杂环境中准确识别目标交互对象，进而可以准确地获取目标交互对象的声音，做到所答即所问，从而提高了用户与机器人的交互体验。

在一实施例中，步骤S30中，即确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户，具体包括如下步骤：

S31：确定语音信息的声源位置。

在获取机器人屏幕前方的人脸识别信息之后，需要通过机器人上的声音定位模块确定语音信息的声源位置。

例如，通过多通道感知设备(如麦克风阵列)获取机器人周围的语音信息之后，将多通道的语音信息输入声音定位模块(如预设声音定位模型)，获得声音定位模块输出的声源物体坐标，即可确定语音信息的声源位置。

S32：判断人脸识别信息中是否有与声源位置对应的人脸位置。

在确定语音信息的声源位置之后，若机器人屏幕前方的人脸识别信息中存在多个人脸，对应的则会获取到多个人脸识别信息，每一人脸识别信息会对应有一人脸位置，则需要判断人脸识别信息中是否有与声源位置对应的人脸位置。若人脸识别信息中没有有与声源位置对应的人脸位置，则确定语音信息和人脸位置对应的人脸识别信息来源于不同用户，此时机器人屏幕前方的人脸识别信息对应的用户，均不是目标交互对象。

S33：若是人脸识别信息中有与声源位置对应的人脸位置，则确定语音信息和人脸位置对应的人脸识别信息来源于同一用户。

在判断人脸识别信息中是否有与声源位置对应的人脸位置之后，若是人脸识别信息中有与声源位置对应的人脸位置，则确定语音信息和人脸位置对应的人脸识别信息的人脸识别信息来源于同一用户，表示语音信息与机器人屏幕前方的该人脸信息来源于同一用户，该人脸位置对应的用户则为目标交互用户。当人脸所处的位置与声源位置相同，才确定语音信息与人脸识别信息来源于同一用户，提高了判断的准确性。

本实施例中，通过确定语音信息的声源位置，判断人脸识别信息中是否有与声源位置对应的人脸位置，若是人脸识别信息中有与声源位置对应的人脸位置，则确定语音信息和人脸位置对应的人脸识别信息来源于同一用户，明确了确定机器人周围的语音信息与机器人屏幕前方的人脸识别信息是否来源于同一用户的具体步骤，提高了判断的准确性，为后续准确地确定目标交互对象提供了基础。

在一实施例中，语音信息为通过麦克风阵列获取的多通道语音信息，步骤S31中，即确定语音信息的声源位置，具体包括如下步骤：

S311：确定不同麦克风采集到语音信息的采集时间，不同麦克风布置在机器人的不同位置，形成麦克风阵列。

在采集语音信息的时候，需要确定不同麦克风采集到语音信息的采集时间。本实施例中，在机器人身上的不同位置布置多个麦克风，形成麦克风阵列，在采集的语音信息对声音信号进行增强，并滤除大部分噪声信号，增加语音信息的清晰度。同时，在采集机器人周围的语音信息时，可采集到的多通道语音信息，以便对语音信息的声源位置进行多维度灵活定位。

其中，可以根据机器人获取语音信息的实际需求，确定麦克风阵列的麦克风数目和排列形状。例如，为了便于拾音，麦克风阵列可以为环形麦克风阵列，将多个麦克风(如6麦克风)在机器人头部环形布置。

本实施例中。麦克风阵列为环形麦克风阵列、麦克风数量为6仅为示例性说明，在其他实施例中，麦克风阵列的形状还可以是其他，麦克风阵列的麦克风数据还可以是其他数值，在此不再赘述。

S312：根据不同麦克风的采集时间对语音信息进行标记，以获得语音信息的多通道感知数据，多通道感知数据为各通道感知的时间差。

在获取语音信息，并语音信息件声源定位时，根据不同麦克风的采集时间对语音信息进行标记，以获得语音信息的多通道感知数据，多通道感知数据为各通道感知的时间差。

S313：将多通道感知数据输入预设声音定位模型，以获得语音信息的声源位置。

在获得语音信息的多通道感知数据之后，将各通道感知的时间差输入预设声音定位模型，如AI声音定位模型，可以获得预设声音定位模型输出的语音信息的声源位置。

本实施例中，通过确定不同麦克风采集到语音信息的采集时间，不同麦克风布置在机器人的不同位置，形成麦克风阵列，根据不同麦克风的采集时间对语音信息进行标记，以获得语音信息的多通道感知数据，多通道感知数据为各通道感知的时间差，将多通道感知数据输入预设声音定位模型，以获得语音信息的声源位置，明确了确定语音信息的声源位置的具体过程，采用多通道语音信息数据进行声源定位，提高了定位准确性，为声源位置的确定提供了基础。

在一实施例中，步骤S12中，即根据机器人周围的语音信息确定是否触发人机交互模式，具体包括如下步骤：

S121：将语音信息进行降噪和滤波处理，并将处理后的语音信息转化为文字信息。

在获取机器人周围的语音信息之后，将语音信息进行降噪和滤波处理，获得处理后语音信息，提高语音信息的清晰度，将处理后的语音信息输入预设语义分析模型，以将语音信息转化为文字信息。

S122：确定文字信息是否包含预设关键字。

在将语音信息转化为文字信息之后，确定文字信息是否包含预设关键字。其中，预设关键字为预先设置好并存储的，用于触发机器人交互模式的字段，预设关键字包括机器人、机器人名字等相关字段。

S123：若文字信息包含预设关键字，则触发人机交互模式。

在确定文字信息是否包含预设关键字之后，若文字信息包含预设关键字，则触发人机交互模式。

S124：若文字信息未包含预设关键字，则不触发人机交互模式。

在确定文字信息是否包含预设关键字之后，若文字信息未包含预设关键字，则不触发人机交互模式。

例如，预设关键字为机器人，若语音信息转化的文字信息为：呼叫机器人，你在干什么，则确定触发人机交互模式；若语音信息转化的文字信息为：你在干什么，则确定未触发人机交互模式。

本实施例中，预设关键字为机器人、语音信息转化的文字信息仅为示例性说明，在其他实施例中，预设关键字还可以是其他字段、语音信息转化的文字信息还可以是其他，在此不再赘述。

本实施例中，在获取机器人周围的语音信息之后，将语音信息进行降噪和滤波处理，并将处理后的语音信息转化为文字信息，确定文字信息是否包含预设关键字，若文字信息包含预设关键字，则触发人机交互模式，若文字信息未包含预设关键字，则不触发人机交互模式，明确了根据机器人周围的语音信息确定是否触发人机交互模式的具体过程，为后续确定机器人与目标交互对象交互提供了基础。

在一实施例中，步骤S10之前，即确定是否触发人机交互模式之前，所述方法还具体包括如下步骤：

S101：获取机器人周围的声音信息；

S102：确定声音信息的声音能量是否大于或者等于预设阈值；

S103：若声音信息的声音能量大于或者等于预设阈值，则对机器人周围的声音信息进行过滤，以清除声音信息的环境杂音，获得机器人周围的语音信息。

在获取机器人周围的声音信息之后，将声音信息进行降噪和滤波处理之前，机器人需要对周围的声音信息进行声音能量检测，以确定声音信息的声音能量是否大于或者等于预设阈值。若声音信息的声音能量大于或者等于预设阈值，表示该声音信息可能是用户对机器人发出的语音信号，需要进一步确定是否在呼叫机器人，则需要对机器人周围的声音信息进行过滤，以清除声音信息的环境杂音，获得机器人周围的语音信息，以便分析处来自用户的语音信息的内容。若声音信息的声音能量小于预设阈值，表示该声音信息可能是机器人周围的环境杂音，机器人不需要理会，则无需对将声音信息进行进一步处理，以免频繁对声音信息进行处理，降低了机器人的计算量，减少能耗。

本实施例中，将语音信息进行降噪和滤波处理之前，通过确定语音信息的声音能量是否大于或者等于预设阈值，若语音信息的声音能量大于或者等于预设阈值，则对机器人周围的声音信息进行过滤，以清除声音信息的环境杂音，获得机器人周围的语音信息，通过确定语音信息的声音能量是否超过预设阈值，进而根据确定结果确定是否对声音信息进行进一步处理以获得来自用户的语音信息，降低了机器人的计算量，减少能耗。

在一实施例中，如图3所示，步骤S30之后，即确定机器人周围的语音信息，与机器人屏幕前方的人脸识别信息是否来源于同一用户之后，所述方法还具体包括如下步骤：

S51：若机器人周围的语音信息，与机器人屏幕前方的人脸识别信息来源于不同用户，则确定语音信息的声源位置数量。

S52：根据语音信息的声源位置和声源位置数量确定目标交互对象；

S53：根据目标交互对象的位置调整机器人的站立位置，以使机器人朝向目标交互对象的脸部中心。

在确定机器人周围的语音信息，与机器人屏幕前方的人脸识别信息是否来源于同一用户之后，若机器人周围的语音信息，与机器人屏幕前方的人脸识别信息来源于不同用户，表示待交互对象可能并不位于机器人的正前方，需要则对机器人周围的语音信息见定位，获得各语音信息的声源位置和声源位置的数量，然后根据语音信息的声源位置和声源位置数量确定目标交互对象。在确定目标交互对象之后，要根据目标交互对象的位置调整调整机器人的站立位置，使得机器人的屏幕朝向目标交互对象的脸部中心，即使目标交互对象位于机器人的前方，在机器人与目标交互对象进行语音交互时，能够更加智能化和拟人化。此外，因为机器人的正面准确转向目标交互对象，机器人的拾音方向正好与声源方向重合，使得拾音角度最优，也十分有利于语音信息的准确获取，提高后续交互对目标交互对象的语音信息的清晰度，并提高后续交互的用户体验。同时，还需要对目标交互对象的语音信息进行语义识别，以根据语义识别结果对目标交互对象进行应答。

其中，根据目标交互对象的位置调整机器人的站立位置包括两种调整方式：第一，若目标交互对象的位置离机器人原站立位置较远，机器人可以移动至与目标交互对象对应的位置，以使机器人朝向目标交互对象的脸部中心，即让机器人移动到目标交互对象的对面。第一，若目标交互对象的位置离机器人原站立位置较近，即目标交互对象在机器人旁并处于机器人的侧面，此时机器人不需要移动到其他地方，仅需要调整姿势，使得机器人的屏幕朝向目标交互对象的脸部中心，即让机器人与目标交互对象面对面，以方便后续进行交互，

本实施例中，在确定机器人周围的语音信息，与机器人屏幕前方的人脸识别信息是否来源于同一用户之后，若机器人周围的语音信息，与机器人屏幕前方的人脸识别信息是否来源于不同用户，则确定语音信息的声源位置数量，根据语音信息的声源位置和声源位置数量确定目标交互对象；根据目标交互对象的位置调整机器人的站立位置，以使机器人朝向目标交互对象的脸部中心，增加了机器人与用户进行交互之前，确定目标交互对象的场景，使得机器人的屏幕朝向目标交互对象的脸部中心，提高用户交互体验。

在一实施例中，步骤S52，即根据语音信息的声源位置和声源位置数量确定目标交互对象，具体包括如下步骤：

S521：确定声源位置数量是否大于预设数量，预设数量为1；

S522：若根据声源位置数量小于或者等于预设数量，则将声源位置上的用户作为目标交互对象；

S523：若根据声源位置数量大于预设数量，则根据语音信息的声源位置确定与各声源位置中，与机器人之间距离最短的声源位置，并将距离最短的声源位置上的用户作为目标交互对象。

本实施例中，需要确定声源位置数量是否大于预设数量，其中，预设数量为1，若根据声源位置数量小于或者等于预设数量，则将声源位置上的用户作为目标交互对象，即确定机器人周围是否只有一个待交互用户(发出有效语音信息的用户)，若机器人周围只有一个待交互用户，则将该用户作为目标交互对象。

若根据声源位置数量大于预设数量，则根据语音信息的声源位置确定与各声源位置中，与机器人之间距离最短的声源位置，并将距离最短的声源位置上的用户作为目标交互对象；即，若机器人周围有多个待交互用户，则根据各待交互用户的位置(声源位置)，确定各待交互用户与机器人之间的距离，并选取与机器人距离最近的一个待交互用户作为目标交互对象，以减少机器人的移动距离。

本实施例中，通过确定声源位置数量是否大于预设数量，预设数量为1，若根据声源位置数量小于或者等于预设数量，则将声源位置上的用户作为目标交互对象，若根据声源位置数量大于预设数量，则根据语音信息的声源位置确定与各声源位置中，与机器人之间距离最短的声源位置，并将距离最短的声源位置上的用户作为目标交互对象，明确了根据语音信息的声源位置和声源位置数量确定目标交互对象具体过程，在存在多个待交互用户时，选择较近的一个待交互用户作为目标交互对象进行交互，能够在较少机器人移动操作的同时，增加用户的交互体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种机器人，该机器人的内部结构与上述实施例中机器人交互对象确定方法一一对应。如图4所示，该机器人包括第一确定模块401、识别模块402、第二确定模块403和第三确定模块404。各功能模块详细说明如下：

第一确定模块401，用于确定是否触发人机交互模式；

识别模块402，用于若触发所述人机交互模式，则对机器人屏幕前方进行人脸识别，以获得所述机器人屏幕前方的人脸识别信息；

第二确定模块403，用于确定所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息是否来源于同一用户；

第三确定模块404，用于若所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息来源于同一用户，则确定所述用户为所述机器人的目标交互对象。

进一步地，所述第二确定模块403具体用于：

确定所述语音信息的声源位置；

进一步地，所述语音信息为通过麦克风阵列获取的多通道语音信息，所述第二确定模块403具体还用于：

进一步地，所述第一确定模块401具体用于：

进一步地，所述第一确定模块401具体还用于：

确定所述文字信息是否包含预设关键字；

进一步地，所述确定是否触发人机交互模式之前，所述第一确定模块401 具体还用于：

获取所述机器人周围的声音信息；

确定所述声音信息的声音能量是否大于或者等于预设阈值；

进一步地，所述确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户之后，所述第三确定模块404具体还用于：

进一步地，所述第三确定模块404具体还用于：

关于机器人装置的具体限定可以参见上文中对于机器人交互对象确定方法的限定，在此不再赘述。上述机器人中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种机器人，该机器人的内部结构图可以如图5 所示。该机器人包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该机器人的处理器用于提供计算和控制能力。该机器人的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该机器人的数据库用于存储获取到的语音信息、人脸识别信息等数据。该机器人的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种机器人交互对象确定方法。

在一个实施例中，提供了一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

确定是否触发人机交互模式；

确定所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息是否来源于同一用户；

若所述机器人周围的语音信息与所述机器人屏幕前方的人脸识别信息来源于同一用户，则确定所述用户为所述机器人的目标交互对象。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

确定是否触发人机交互模式；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM (RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种机器人交互对象确定方法，其特征在于，包括：

确定是否触发人机交互模式；

2.如权利要求1所述的机器人交互对象确定方法，其特征在于，所述确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户，包括：

确定所述语音信息的声源位置；

3.如权利要求2所述的机器人交互对象确定方法，其特征在于，所述语音信息为通过麦克风阵列获取的多通道语音信息，所述确定所述语音信息的声源位置，包括：

4.如权利要求1所述的机器人交互对象确定方法，其特征在于，所述确定是否触发人机交互模式，包括：

5.如权利要求4所述的机器人交互对象确定方法，其特征在于，所述确定所述机器人周围的语音信息是否触发所述人机交互模式，包括：

确定所述文字信息是否包含预设关键字；

6.如权利要求1所述的机器人交互对象确定方法，其特征在于，所述确定是否触发人机交互模式之前，所述方法还包括：

获取所述机器人周围的声音信息；

确定所述声音信息的声音能量是否大于或者等于预设阈值；

7.如权利要求1-6任一项所述的机器人交互对象确定方法，其特征在于，所述确定所述机器人周围的语音信息，与所述机器人屏幕前方的人脸识别信息是否来源于同一用户之后，所述方法还包括：

8.如权利要求7所述的机器人交互对象确定方法，其特征在于，所述根据所述语音信息的声源位置和声源位置数量确定所述目标交互对象，包括：

9.一种机器人，其特征在于，包括：

第一确定模块，用于确定是否触发人机交互模式；

10.一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述机器人交互对象确定方法的步骤。

11.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述机器人交互对象确定方法的步骤。