CN115376187A

CN115376187A - 一种多人机交互场景下说话对象检测装置及方法

Info

Publication number: CN115376187A
Application number: CN202210966740.5A
Authority: CN
Inventors: 林哲远; 宛敏红; 朱世强; 黄敏; 李想; 王文
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-22
Also published as: WO2024032159A1

Abstract

本发明属于计算机技术领域，公开了一种多人机交互场景下说话对象检测装置及方法，包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块；本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息；实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并在连续的图像帧中识别跟踪同一个人物；通过人脸序列数据信息与音频帧数据信息识别人群中的说话者；通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。

Description

一种多人机交互场景下说话对象检测装置及方法

技术领域

本发明属于计算机技术领域，尤其涉及一种多人机交互场景下说话对象检测装置及方法。

背景技术

在人-人或人-机的语言交互过程中，必有一方是说话者，另一方是说话的对象，即说话者预期得到回应的对象。

在人机交互过程中，机器人会在接收到语音信息后进行回复。当单人与机器人交互时，在人说话时，机器人必然是对应的说话对象，因此机器人可以直接处理接收到的语音信息，然后进行回复。这样的功能已经在一些智能终端进行使用，且有较好的效果。

但是人群与机器人的交互比单人与机器人的交互更加复杂。由于同时存在人与人、人与机器人之间的交互，机器人无法判断正在说话的人物是否在对机器人说话，而只能机械地对每一句话进行回复，影响了使用者之间的对话与体验。在这样的情况下，人只能通过重复使用唤醒词与机器人进行多轮对话，降低了对话的效率。

现有的方法由于模型的超参数限制以及数据集的原因，限制了参与人机交互的人数、人的位置。这些方法不能适用于人数随时变化的实际应用场景。

发明内容

本发明目的在于提供一种多人机交互场景下说话对象检测装置及方法,以解决上述的技术问题。

为解决上述技术问题，本发明的一种多人机交互场景下说话对象检测装置及方法的具体技术方案如下：

一种多人机交互场景下说话对象检测装置，包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块；

所述音频视频采集模块用于实时采集带时间戳的彩色图像和带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；

所述文本生成模块通过音频帧数据生成带有词语级、句子级、对话主题级的不同层级的时间戳的文本信息，并将所述文本信息存入到文本数据库中；

所述人脸检测跟踪模块通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；所述说话人特征提取检测模块利用机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

所述说话对象特征提取检测模块利用机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。

进一步的，所述音频视频采集模块包括视频采集模块、音频采集模块、视频帧数据库、音频帧数据库；

所述视频采集模块用于实时地使用相机采集带时间戳的彩色图像；所述音频采集模块用于使用麦克风采集带时间戳的音频信息；

所述视频帧数据库按时间顺序存储带时间戳的彩色图片；

所述音频帧数据库按时间顺序存储带时间戳的音频。

进一步的，所述人脸检测跟踪模块包括人脸检测模块、人脸跟踪模块、人脸序列数据库；

所述人脸检测模块使用深度学习方法检测图片中的人脸；

所述人脸跟踪模块用于在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物，即便人物在视野中消失后再次出现，仍能使用原有的id来表示这个人物；

所述人脸序列数据库用于存储带有时间戳的人脸序列数据。

进一步的，所述说话人特征提取检测模块包括说话人脸特征提取模块、说话人音频帧序列特征提取模块、说话人多模态融合模块、说话状态检测模块、说话人数据库；

所述说话人脸特征提取模块用于将人脸图片序列数据信息分别输入到深度学习网络中，并提取人物面部的时序、空间特征；

所述说话人音频帧序列特征提取模块用于将说话人音频帧序列信息输入到深度学习网络中，并提取其中的人声音频特征；

所述说话人多模态融合模块用于将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征；

所述说话状态检测模块用于将所述说话人多模态的特征输入到深度学习网络中，并预测人物的说话状态；

所述说话人物数据库用于存储当前时刻的说话人物信息。

进一步的，所述说话对象特征提取检测模块包括说话对象人脸特征提取模块、说话对象音频帧序列特征提取模块、文本序列特征提取模块、说话对象多模态融合模块、说话对象检测模块、说话对象数据库、场景数据库；

所述说话对象人脸特征提取模块用于将说话对象人脸图片序列数据信息输入到深度学习网络中，并提取人物面部的时序、空间特征；

所述说话对象音频帧序列特征提取模块用于将说话对象音频帧序列信息输入到深度学习网络中，并提取其中的人声信息特征；

所述文本序列特征提取模块用于将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中，并提取文本语义特征；

所述说话对象多模态融合模块用于将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个多模态的特征；

所述说话对象检测模块用于将上述说话对象多模态的特征输入到深度学习网络中，并逐一预测说话人的说话对象；

所述说话对象数据库用于存储当前时刻的说话对象信息，供其他模块调用，或作为结果输出；

所述场景数据库用于存储前一时刻的说话人物、说话对象信息，供说话对象检测模块使用。

进一步的，所述文本生成模块包括语音识别模块、文本数据库；所述语音识别模块用于通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息；

所述文本数据库用于按时间顺序和层级区别存储文本信息。

本发明还公开了一种多人机交互场景下说话对象检测方法，包括如下步骤：

步骤S1，音频视频采集模块实时地使用相机采集带时间戳的彩色图像，使用麦克风采集带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；

步骤S2，文本生成模块实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并将上述文本信息存入到文本数据库中；

步骤S3，人脸检测跟踪模块通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；

步骤S4，说话人特征提取检测模块通过机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

步骤S5，说话对象特征提取检测模块通过机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。

进一步地，所述步骤S1彩色图像以ROS主题的方式发布，通过订阅图像主题的方式实时获取彩色图像；音频信息以ROS主题的方式发布，通过订阅音频主题的方式实时获取音频信息；所述步骤S2使用YOLO进行人脸检测，并使用Deep SORT的模型进行多目标跟踪，跟踪的结果为，为每一个人赋予一个ID，在整个过程中，每个人的ID唯一且固定。

进一步地，所述步骤S4包括如下具体步骤：

步骤S401，特征提取，包括说话者人脸图片序列特征提取、音频帧特征提取；

步骤S402，使用深度学习的方法，对提取出的特征进行融合编码；

步骤S403，使用深度学习方法，预测人群中的说话者。

进一步地，所述步骤S5包括如下具体步骤：

步骤S501，特征提取，包括说话者人脸图片序列特征提取、音频帧特征提取、文本特征提取；

步骤S502，使用深度学习的方法，对提取出的特征进行融合编码，即进行多模态特征融合；

步骤S503，使用深度学习方法，对编码信息进行解码，预测每个人物是说话对象的概率；

使用Transformer方法对信息进行编码、提取特征，然后进行解码，预测说话对象。

本发明的一种多人机交互场景下说话对象检测装置及方法具有以下优点：

1.可以适应不同人数的场景，能在实际的人数随时变化的人机交互场景中进行说话对象的预测；

2.使用多模态融合的编码模块，能把不同模块的相关信息进行关联，并提取出对说话对象判断有用的信息；

3.使用深度学习方法进行预测，不需要复杂的人工特征提取方法，能提高使用过程中的预测效率。

附图说明

图1为本发明的多人与机器人交互场景示意图；

图2为本发明的多人机交互场景下说话对象检测装置模块示意图；

图3为本发明的多人机交互场景下说话对象检测方法流程图；

图4为本发明实施例提供的说话对象特征提取检测模块的一个可选模型架构示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种多人机交互场景下说话对象检测装置及方法做进一步详细的描述。

如图1所示，为多人与机器人交互场景的一个可选的示意图，如图2所示，本发明的一种多人机交互场景下说话对象检测装置，包括音频视频采集模块10、文本生成模块11、人脸检测跟踪模块12、说话人特征提取检测模块13、说话对象特征提取检测模块14。

音频视频采集模块10能实时地使用相机采集带时间戳的彩色图像，使用麦克风采集带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步。

文本生成模块11能通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并将上述文本信息存入到文本数据库中；

人脸检测跟踪模块12能通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；

说话人特征提取检测模块13能通过机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

说话对象特征提取检测模块14能通过机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。

具体地，音频视频采集模块10包括视频采集模块100、音频采集模块101、视频帧数据库102、音频帧数据库103；

视频采集模块100能实时地使用相机采集带时间戳的彩色图像；

音频采集模块101能使用麦克风采集带时间戳的音频信息；

视频帧数据库102按时间顺序存储带时间戳的彩色图片，供其他模块调用；

音频帧数据库103按时间顺序存储带时间戳的音频，供其他模块调用；

具体地，人脸检测跟踪模块12包括人脸检测模块120、人脸跟踪模块121、人脸序列数据库122；

人脸检测模块120能使用深度学习方法检测图片中的人脸；

人脸跟踪模块121能在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物，即便人物在视野中消失后再次出现，仍能使用原有的id来表示这个人物；

人脸序列数据库122能存储带有时间戳的人脸序列数据，供其他模块调用；

具体地，说话人特征提取检测模块13包括说话人脸特征提取模块130、说话人音频帧序列特征提取模块131、说话人多模态融合模块132、说话状态检测模块133、说话人数据库134；

说话人脸特征提取模块130能将人脸图片序列数据信息分别输入到深度学习网络中，并提取说话人人物面部的时序、空间特征；

说话人音频帧序列特征提取模块131能将说话人音频帧序列信息输入到深度学习网络中，并提取其中的人声音频特征；

说话人多模态融合模块132能将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征；

说话状态检测模块133能将上述说话人多模态的特征输入到深度学习网络中，并预测说话人人物的说话状态；

说话人物数据库134能存储当前时刻的说话人物信息，供其他模块调用；

具体地，说话对象特征提取检测模块14包括说话对象人脸特征提取模块140、说话对象音频帧序列特征提取模块141、文本序列特征提取模块142、说话对象多模态融合模块143、说话对象检测模块144、说话对象数据库146、场景数据库145；

说话对象人脸特征提取模块140能将说话对象人脸图片序列数据信息输入到深度学习网络中，并提取人物面部的时序、空间特征；

说话对象音频帧序列特征提取模块141能将说话对象音频帧序列信息输入到深度学习网络中，并提取其中的人声信息特征；

文本序列特征提取模块142能将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中，并提取文本语义特征；

说话对象多模态融合模块143能将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个说话对象多模态的特征；

说话对象检测模块144能将上述说话对象多模态的特征输入到深度学习网络中，并逐一预测说话人的说话对象；

说话对象数据库146能存储当前时刻的说话对象信息，供其他模块调用，或作为结果输出；

场景数据库145能存储前一时刻的说话人物、说话对象信息，供说话对象检测模块使用。

具体地，文本生成模块11包括语音识别模块110、文本数据库111；

语音识别模块110能通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息；

文本数据库111能按时间顺序和层级区别存储文本信息，供其他模块调用；

如图3所示，一种多人机交互场景下说话对象检测的系统与方法的流程图，包括以下步骤：

步骤S1，音频视频采集模块10实时地使用相机采集带时间戳的彩色图像，使用麦克风采集带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；

具体地，当前时刻的彩色图像是指实际运行中实时获取的彩色图像，优选的，在使用Robot Operating System (ROS)的机器人系统中，单目相机彩色图像以ROS主题的方式发布，可通过订阅图像主题的方式实时获取彩色图像。阵列麦克风音频信息以ROS主题的方式发布，可通过订阅音频主题的方式实时获取音频信息。

步骤S2，文本生成模块11实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并将上述文本信息存入到文本数据库中；

步骤S3，人脸检测跟踪模块12通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；

在一个示例性实施例中，可以使用YOLO进行人脸检测，并使用Deep SORT的模型进行多目标跟踪。跟踪的结果为，为每一个人赋予一个ID，在整个过程中，每个人的ID唯一且固定。

步骤S4，说话人特征提取检测模块13通过机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

具体地，步骤S4包括：

步骤S403，使用深度学习方法，预测人群中的说话者。

步骤S5，说话对象特征提取检测模块14通过机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库；

具体地，步骤S5进一步包括：

步骤S503，使用深度学习方法，对编码信息进行解码，预测每个人物是说话对象的概率。

在一个示例性实施例中，可以使用Transformer方法对信息进行编码、提取特征，然后进行解码，预测说话对象。如图4所示，输入数据为说话者人脸图像序列、其他人物图像序列、对应时间段的音频帧、对应时间的文本序列。首先分别对图像信息、音频信息、文本信息进行特征提取，获得对应的人脸图像的空间与时序特征向量、音频特征向量，以及文本特征向量；在多模态融合模块中，将所有的特征向量进行拼接，实现多模态的融合；融合的信息通过Transformer 进行编码获得融合信息的特征向量；将该向量传入Transformer 解码器中，实现解码与每个人物为说话对象的概率。预测是顺序预测，首先预测机器人为说话对象的概率，之后对每个人进行概率预测，前一个人物预测的特征结果被重新输入到解码器中，作为下一个人物预测的解码器的输入。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种多人机交互场景下说话对象检测装置，其特征在于，包括音频视频采集模块（10）、文本生成模块（11）、人脸检测跟踪模块（12）、说话人特征提取检测模块（13）、说话对象特征提取检测模块（14）；

所述音频视频采集模块（10）用于实时采集带时间戳的彩色图像和带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；

所述文本生成模块（11）通过音频帧数据生成带有词语级、句子级、对话主题级的不同层级的时间戳的文本信息，并将所述文本信息存入到文本数据库中；

所述人脸检测跟踪模块（12）通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；所述说话人特征提取检测模块（13）利用机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

所述说话对象特征提取检测模块（14）利用机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。

2.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述音频视频采集模块（10）包括视频采集模块（100）、音频采集模块（101）、视频帧数据库（102）、音频帧数据库（103）；

所述视频采集模块（100）用于实时地使用相机采集带时间戳的彩色图像；所述音频采集模块（101）用于使用麦克风采集带时间戳的音频信息；

所述视频帧数据库（102）按时间顺序存储带时间戳的彩色图片；

所述音频帧数据库（103）按时间顺序存储带时间戳的音频。

3.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述人脸检测跟踪模块（12）包括人脸检测模块（120）、人脸跟踪模块（121）、人脸序列数据库（122）；

所述人脸检测模块（120）使用深度学习方法检测图片中的人脸；

所述人脸跟踪模块（121）用于在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物，即便人物在视野中消失后再次出现，仍能使用原有的id来表示这个人物；

所述人脸序列数据库（122）用于存储带有时间戳的人脸序列数据。

4.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述说话人特征提取检测模块（13）包括说话人脸特征提取模块（130）、说话人音频帧序列特征提取模块（131）、说话人多模态融合模块（132）、说话状态检测模块（133）、说话人数据库（134）；

所述说话人脸特征提取模块（130）用于将人脸图片序列数据信息分别输入到深度学习网络中，并提取人物面部的时序、空间特征；

所述说话人音频帧序列特征提取模块（131）用于将说话人音频帧序列信息输入到深度学习网络中，并提取其中的人声音频特征；

所述说话人多模态融合模块（132）用于将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征；

所述说话状态检测模块（133）用于将所述说话人多模态的特征输入到深度学习网络中，并预测人物的说话状态；

所述说话人物数据库（134）用于存储当前时刻的说话人物信息。

5.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述说话对象特征提取检测模块（14）包括说话对象人脸特征提取模块（140）、说话对象音频帧序列特征提取模块（141）、文本序列特征提取模块（142）、说话对象多模态融合模块（143）、说话对象检测模块（144）、说话对象数据库（146）、场景数据库（145）；

所述说话对象人脸特征提取模块（140）用于将说话对象人脸图片序列数据信息输入到深度学习网络中，并提取人物面部的时序、空间特征；

所述说话对象音频帧序列特征提取模块（141）用于将说话对象音频帧序列信息输入到深度学习网络中，并提取其中的人声信息特征；

所述文本序列特征提取模块（142）用于将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中，并提取文本语义特征；

所述说话对象多模态融合模块（143）用于将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个多模态的特征；

所述说话对象检测模块（144）用于将上述说话对象多模态的特征输入到深度学习网络中，并逐一预测说话人的说话对象；

所述说话对象数据库（146）用于存储当前时刻的说话对象信息，供其他模块调用，或作为结果输出；

所述场景数据库（145）用于存储前一时刻的说话人物、说话对象信息，供说话对象检测模块使用。

6.根据权利要求1所述的多人机交互场景下说话对象检测装置，其特征在于，所述文本生成模块（11）包括语音识别模块（110）、文本数据库（111）；所述语音识别模块（110）用于通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息；

所述文本数据库（111）用于按时间顺序和层级区别存储文本信息。

7.一种利用如权利要求1-6任一项所述的多人机交互场景下说话对象检测装置进行说话对象检测的方法，其特征在于，包括如下步骤：

步骤S1，音频视频采集模块（10）实时地使用相机采集带时间戳的彩色图像，使用麦克风采集带时间戳的音频信息，并按照时间顺序储存到视频帧数据库或音频帧数据库中，同一时刻采集到的视频和音频应根据时间戳进行同步；

步骤S2，文本生成模块（11）实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并将上述文本信息存入到文本数据库中；

步骤S3，人脸检测跟踪模块（12）通过机器视觉的方法检测彩色图像中的人脸，并在连续的图像帧中识别跟踪同一个人物，并将信息存入人脸序列数据库；

步骤S4，说话人特征提取检测模块（13）通过机器学习或深度学习方法，通过人脸序列数据信息与音频帧数据信息识别人群中的说话者，并将其信息存入到说话人物数据库中；

步骤S5，说话对象特征提取检测模块（14）通过机器学习或深度学习方法，通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人，并将说话对象信息存入到说话对象数据库。

8.根据权利要求7所述的方法，其特征在于，所述步骤S1彩色图像以ROS主题的方式发布，通过订阅图像主题的方式实时获取彩色图像；音频信息以ROS主题的方式发布，通过订阅音频主题的方式实时获取音频信息；所述步骤S2使用YOLO进行人脸检测，并使用DeepSORT的模型进行多目标跟踪，跟踪的结果为，为每一个人赋予一个ID，在整个过程中，每个人的ID唯一且固定。

9.根据权利要求7所述的方法，其特征在于，所述步骤S4包括如下具体步骤：

步骤S403，使用深度学习方法，预测人群中的说话者。

10.根据权利要求7所述的方法，其特征在于，所述步骤S5包括如下具体步骤：