CN115376187A - 一种多人机交互场景下说话对象检测装置及方法 - Google Patents

一种多人机交互场景下说话对象检测装置及方法 Download PDF

Info

Publication number
CN115376187A
CN115376187A CN202210966740.5A CN202210966740A CN115376187A CN 115376187 A CN115376187 A CN 115376187A CN 202210966740 A CN202210966740 A CN 202210966740A CN 115376187 A CN115376187 A CN 115376187A
Authority
CN
China
Prior art keywords
information
module
speaker
audio
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210966740.5A
Other languages
English (en)
Inventor
林哲远
宛敏红
朱世强
黄敏
李想
王文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210966740.5A priority Critical patent/CN115376187A/zh
Publication of CN115376187A publication Critical patent/CN115376187A/zh
Priority to PCT/CN2023/101635 priority patent/WO2024032159A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于计算机技术领域,公开了一种多人机交互场景下说话对象检测装置及方法,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息;实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并在连续的图像帧中识别跟踪同一个人物;通过人脸序列数据信息与音频帧数据信息识别人群中的说话者;通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。

Description

一种多人机交互场景下说话对象检测装置及方法
技术领域
本发明属于计算机技术领域,尤其涉及一种多人机交互场景下说话对象检测装置及方法。
背景技术
在人-人或人-机的语言交互过程中,必有一方是说话者,另一方是说话的对象,即说话者预期得到回应的对象。
在人机交互过程中,机器人会在接收到语音信息后进行回复。当单人与机器人交互时,在人说话时,机器人必然是对应的说话对象,因此机器人可以直接处理接收到的语音信息,然后进行回复。这样的功能已经在一些智能终端进行使用,且有较好的效果。
但是人群与机器人的交互比单人与机器人的交互更加复杂。由于同时存在人与人、人与机器人之间的交互,机器人无法判断正在说话的人物是否在对机器人说话,而只能机械地对每一句话进行回复,影响了使用者之间的对话与体验。在这样的情况下,人只能通过重复使用唤醒词与机器人进行多轮对话,降低了对话的效率。
现有的方法由于模型的超参数限制以及数据集的原因,限制了参与人机交互的人数、人的位置。这些方法不能适用于人数随时变化的实际应用场景。
发明内容
本发明目的在于提供一种多人机交互场景下说话对象检测装置及方法,以解决上述的技术问题。
为解决上述技术问题,本发明的一种多人机交互场景下说话对象检测装置及方法的具体技术方案如下:
一种多人机交互场景下说话对象检测装置,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;
所述音频视频采集模块用于实时采集带时间戳的彩色图像和带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步;
所述文本生成模块通过音频帧数据生成带有词语级、句子级、对话主题级的不同层级的时间戳的文本信息,并将所述文本信息存入到文本数据库中;
所述人脸检测跟踪模块通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;所述说话人特征提取检测模块利用机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
所述说话对象特征提取检测模块利用机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库。
进一步的,所述音频视频采集模块包括视频采集模块、音频采集模块、视频帧数据库、音频帧数据库;
所述视频采集模块用于实时地使用相机采集带时间戳的彩色图像;所述音频采集模块用于使用麦克风采集带时间戳的音频信息;
所述视频帧数据库按时间顺序存储带时间戳的彩色图片;
所述音频帧数据库按时间顺序存储带时间戳的音频。
进一步的,所述人脸检测跟踪模块包括人脸检测模块、人脸跟踪模块、人脸序列数据库;
所述人脸检测模块使用深度学习方法检测图片中的人脸;
所述人脸跟踪模块用于在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物,即便人物在视野中消失后再次出现,仍能使用原有的id来表示这个人物;
所述人脸序列数据库用于存储带有时间戳的人脸序列数据。
进一步的,所述说话人特征提取检测模块包括说话人脸特征提取模块、说话人音频帧序列特征提取模块、说话人多模态融合模块、说话状态检测模块、说话人数据库;
所述说话人脸特征提取模块用于将人脸图片序列数据信息分别输入到深度学习网络中,并提取人物面部的时序、空间特征;
所述说话人音频帧序列特征提取模块用于将说话人音频帧序列信息输入到深度学习网络中,并提取其中的人声音频特征;
所述说话人多模态融合模块用于将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征;
所述说话状态检测模块用于将所述说话人多模态的特征输入到深度学习网络中,并预测人物的说话状态;
所述说话人物数据库用于存储当前时刻的说话人物信息。
进一步的,所述说话对象特征提取检测模块包括说话对象人脸特征提取模块、说话对象音频帧序列特征提取模块、文本序列特征提取模块、说话对象多模态融合模块、说话对象检测模块、说话对象数据库、场景数据库;
所述说话对象人脸特征提取模块用于将说话对象人脸图片序列数据信息输入到深度学习网络中,并提取人物面部的时序、空间特征;
所述说话对象音频帧序列特征提取模块用于将说话对象音频帧序列信息输入到深度学习网络中,并提取其中的人声信息特征;
所述文本序列特征提取模块用于将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中,并提取文本语义特征;
所述说话对象多模态融合模块用于将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个多模态的特征;
所述说话对象检测模块用于将上述说话对象多模态的特征输入到深度学习网络中,并逐一预测说话人的说话对象;
所述说话对象数据库用于存储当前时刻的说话对象信息,供其他模块调用,或作为结果输出;
所述场景数据库用于存储前一时刻的说话人物、说话对象信息,供说话对象检测模块使用。
进一步的,所述文本生成模块包括语音识别模块、文本数据库;所述语音识别模块用于通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息;
所述文本数据库用于按时间顺序和层级区别存储文本信息。
本发明还公开了一种多人机交互场景下说话对象检测方法,包括如下步骤:
步骤S1,音频视频采集模块实时地使用相机采集带时间戳的彩色图像,使用麦克风采集带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步;
步骤S2,文本生成模块实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并将上述文本信息存入到文本数据库中;
步骤S3,人脸检测跟踪模块通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;
步骤S4,说话人特征提取检测模块通过机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
步骤S5,说话对象特征提取检测模块通过机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库。
进一步地,所述步骤S1彩色图像以ROS主题的方式发布,通过订阅图像主题的方式实时获取彩色图像;音频信息以ROS主题的方式发布,通过订阅音频主题的方式实时获取音频信息;所述步骤S2使用YOLO进行人脸检测,并使用Deep SORT的模型进行多目标跟踪,跟踪的结果为,为每一个人赋予一个ID,在整个过程中,每个人的ID唯一且固定。
进一步地,所述步骤S4包括如下具体步骤:
步骤S401,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取;
步骤S402,使用深度学习的方法,对提取出的特征进行融合编码;
步骤S403,使用深度学习方法,预测人群中的说话者。
进一步地,所述步骤S5包括如下具体步骤:
步骤S501,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取、文本特征提取;
步骤S502,使用深度学习的方法,对提取出的特征进行融合编码,即进行多模态特征融合;
步骤S503,使用深度学习方法,对编码信息进行解码,预测每个人物是说话对象的概率;
使用Transformer方法对信息进行编码、提取特征,然后进行解码,预测说话对象。
本发明的一种多人机交互场景下说话对象检测装置及方法具有以下优点:
1.可以适应不同人数的场景,能在实际的人数随时变化的人机交互场景中进行说话对象的预测;
2.使用多模态融合的编码模块,能把不同模块的相关信息进行关联,并提取出对说话对象判断有用的信息;
3.使用深度学习方法进行预测,不需要复杂的人工特征提取方法,能提高使用过程中的预测效率。
附图说明
图1为本发明的多人与机器人交互场景示意图;
图2为本发明的多人机交互场景下说话对象检测装置模块示意图;
图3为本发明的多人机交互场景下说话对象检测方法流程图;
图4为本发明实施例提供的说话对象特征提取检测模块的一个可选模型架构示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种多人机交互场景下说话对象检测装置及方法做进一步详细的描述。
如图1所示,为多人与机器人交互场景的一个可选的示意图,如图2所示,本发明的一种多人机交互场景下说话对象检测装置,包括音频视频采集模块10、文本生成模块11、人脸检测跟踪模块12、说话人特征提取检测模块13、说话对象特征提取检测模块14。
音频视频采集模块10能实时地使用相机采集带时间戳的彩色图像,使用麦克风采集带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步。
文本生成模块11能通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并将上述文本信息存入到文本数据库中;
人脸检测跟踪模块12能通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;
说话人特征提取检测模块13能通过机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
说话对象特征提取检测模块14能通过机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库。
具体地,音频视频采集模块10包括视频采集模块100、音频采集模块101、视频帧数据库102、音频帧数据库103;
视频采集模块100能实时地使用相机采集带时间戳的彩色图像;
音频采集模块101能使用麦克风采集带时间戳的音频信息;
视频帧数据库102按时间顺序存储带时间戳的彩色图片,供其他模块调用;
音频帧数据库103按时间顺序存储带时间戳的音频,供其他模块调用;
具体地,人脸检测跟踪模块12包括人脸检测模块120、人脸跟踪模块121、人脸序列数据库122;
人脸检测模块120能使用深度学习方法检测图片中的人脸;
人脸跟踪模块121能在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物,即便人物在视野中消失后再次出现,仍能使用原有的id来表示这个人物;
人脸序列数据库122能存储带有时间戳的人脸序列数据,供其他模块调用;
具体地,说话人特征提取检测模块13包括说话人脸特征提取模块130、说话人音频帧序列特征提取模块131、说话人多模态融合模块132、说话状态检测模块133、说话人数据库134;
说话人脸特征提取模块130能将人脸图片序列数据信息分别输入到深度学习网络中,并提取说话人人物面部的时序、空间特征;
说话人音频帧序列特征提取模块131能将说话人音频帧序列信息输入到深度学习网络中,并提取其中的人声音频特征;
说话人多模态融合模块132能将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征;
说话状态检测模块133能将上述说话人多模态的特征输入到深度学习网络中,并预测说话人人物的说话状态;
说话人物数据库134能存储当前时刻的说话人物信息,供其他模块调用;
具体地,说话对象特征提取检测模块14包括说话对象人脸特征提取模块140、说话对象音频帧序列特征提取模块141、文本序列特征提取模块142、说话对象多模态融合模块143、说话对象检测模块144、说话对象数据库146、场景数据库145;
说话对象人脸特征提取模块140能将说话对象人脸图片序列数据信息输入到深度学习网络中,并提取人物面部的时序、空间特征;
说话对象音频帧序列特征提取模块141能将说话对象音频帧序列信息输入到深度学习网络中,并提取其中的人声信息特征;
文本序列特征提取模块142能将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中,并提取文本语义特征;
说话对象多模态融合模块143能将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个说话对象多模态的特征;
说话对象检测模块144能将上述说话对象多模态的特征输入到深度学习网络中,并逐一预测说话人的说话对象;
说话对象数据库146能存储当前时刻的说话对象信息,供其他模块调用,或作为结果输出;
场景数据库145能存储前一时刻的说话人物、说话对象信息,供说话对象检测模块使用。
具体地,文本生成模块11包括语音识别模块110、文本数据库111;
语音识别模块110能通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息;
文本数据库111能按时间顺序和层级区别存储文本信息,供其他模块调用;
如图3所示,一种多人机交互场景下说话对象检测的系统与方法的流程图,包括以下步骤:
步骤S1,音频视频采集模块10实时地使用相机采集带时间戳的彩色图像,使用麦克风采集带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步;
具体地,当前时刻的彩色图像是指实际运行中实时获取的彩色图像,优选的,在使用Robot Operating System (ROS)的机器人系统中,单目相机彩色图像以ROS主题的方式发布,可通过订阅图像主题的方式实时获取彩色图像。阵列麦克风音频信息以ROS主题的方式发布,可通过订阅音频主题的方式实时获取音频信息。
步骤S2,文本生成模块11实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并将上述文本信息存入到文本数据库中;
步骤S3,人脸检测跟踪模块12通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;
在一个示例性实施例中,可以使用YOLO进行人脸检测,并使用Deep SORT的模型进行多目标跟踪。跟踪的结果为,为每一个人赋予一个ID,在整个过程中,每个人的ID唯一且固定。
步骤S4,说话人特征提取检测模块13通过机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
具体地,步骤S4包括:
步骤S401,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取;
步骤S402,使用深度学习的方法,对提取出的特征进行融合编码;
步骤S403,使用深度学习方法,预测人群中的说话者。
步骤S5,说话对象特征提取检测模块14通过机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库;
具体地,步骤S5进一步包括:
步骤S501,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取、文本特征提取;
步骤S502,使用深度学习的方法,对提取出的特征进行融合编码,即进行多模态特征融合;
步骤S503,使用深度学习方法,对编码信息进行解码,预测每个人物是说话对象的概率。
在一个示例性实施例中,可以使用Transformer方法对信息进行编码、提取特征,然后进行解码,预测说话对象。如图4所示,输入数据为说话者人脸图像序列、其他人物图像序列、对应时间段的音频帧、对应时间的文本序列。首先分别对图像信息、音频信息、文本信息进行特征提取,获得对应的人脸图像的空间与时序特征向量、音频特征向量,以及文本特征向量;在多模态融合模块中,将所有的特征向量进行拼接,实现多模态的融合;融合的信息通过Transformer 进行编码获得融合信息的特征向量;将该向量传入Transformer 解码器中,实现解码与每个人物为说话对象的概率。预测是顺序预测,首先预测机器人为说话对象的概率,之后对每个人进行概率预测,前一个人物预测的特征结果被重新输入到解码器中,作为下一个人物预测的解码器的输入。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (10)

1.一种多人机交互场景下说话对象检测装置,其特征在于,包括音频视频采集模块(10)、文本生成模块(11)、人脸检测跟踪模块(12)、说话人特征提取检测模块(13)、说话对象特征提取检测模块(14);
所述音频视频采集模块(10)用于实时采集带时间戳的彩色图像和带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步;
所述文本生成模块(11)通过音频帧数据生成带有词语级、句子级、对话主题级的不同层级的时间戳的文本信息,并将所述文本信息存入到文本数据库中;
所述人脸检测跟踪模块(12)通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;所述说话人特征提取检测模块(13)利用机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
所述说话对象特征提取检测模块(14)利用机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库。
2.根据权利要求1所述的多人机交互场景下说话对象检测装置,其特征在于,所述音频视频采集模块(10)包括视频采集模块(100)、音频采集模块(101)、视频帧数据库(102)、音频帧数据库(103);
所述视频采集模块(100)用于实时地使用相机采集带时间戳的彩色图像;所述音频采集模块(101)用于使用麦克风采集带时间戳的音频信息;
所述视频帧数据库(102)按时间顺序存储带时间戳的彩色图片;
所述音频帧数据库(103)按时间顺序存储带时间戳的音频。
3.根据权利要求1所述的多人机交互场景下说话对象检测装置,其特征在于,所述人脸检测跟踪模块(12)包括人脸检测模块(120)、人脸跟踪模块(121)、人脸序列数据库(122);
所述人脸检测模块(120)使用深度学习方法检测图片中的人脸;
所述人脸跟踪模块(121)用于在连续的图像帧中识别跟踪同一个人物并赋予一个固定的id表示这个人物,即便人物在视野中消失后再次出现,仍能使用原有的id来表示这个人物;
所述人脸序列数据库(122)用于存储带有时间戳的人脸序列数据。
4.根据权利要求1所述的多人机交互场景下说话对象检测装置,其特征在于,所述说话人特征提取检测模块(13)包括说话人脸特征提取模块(130)、说话人音频帧序列特征提取模块(131)、说话人多模态融合模块(132)、说话状态检测模块(133)、说话人数据库(134);
所述说话人脸特征提取模块(130)用于将人脸图片序列数据信息分别输入到深度学习网络中,并提取人物面部的时序、空间特征;
所述说话人音频帧序列特征提取模块(131)用于将说话人音频帧序列信息输入到深度学习网络中,并提取其中的人声音频特征;
所述说话人多模态融合模块(132)用于将上述说话人人物面部特征、人声音频特征融合成一个说话人多模态的特征;
所述说话状态检测模块(133)用于将所述说话人多模态的特征输入到深度学习网络中,并预测人物的说话状态;
所述说话人物数据库(134)用于存储当前时刻的说话人物信息。
5.根据权利要求1所述的多人机交互场景下说话对象检测装置,其特征在于,所述说话对象特征提取检测模块(14)包括说话对象人脸特征提取模块(140)、说话对象音频帧序列特征提取模块(141)、文本序列特征提取模块(142)、说话对象多模态融合模块(143)、说话对象检测模块(144)、说话对象数据库(146)、场景数据库(145);
所述说话对象人脸特征提取模块(140)用于将说话对象人脸图片序列数据信息输入到深度学习网络中,并提取人物面部的时序、空间特征;
所述说话对象音频帧序列特征提取模块(141)用于将说话对象音频帧序列信息输入到深度学习网络中,并提取其中的人声信息特征;
所述文本序列特征提取模块(142)用于将文本数据库中的层级的文本信息输入到自然语言的深度学习网络中,并提取文本语义特征;
所述说话对象多模态融合模块(143)用于将上述说话对象人物面部特征、人声音频特征、文本语义特征、来自场景数据库的场景特征融合成一个多模态的特征;
所述说话对象检测模块(144)用于将上述说话对象多模态的特征输入到深度学习网络中,并逐一预测说话人的说话对象;
所述说话对象数据库(146)用于存储当前时刻的说话对象信息,供其他模块调用,或作为结果输出;
所述场景数据库(145)用于存储前一时刻的说话人物、说话对象信息,供说话对象检测模块使用。
6.根据权利要求1所述的多人机交互场景下说话对象检测装置,其特征在于,所述文本生成模块(11)包括语音识别模块(110)、文本数据库(111);所述语音识别模块(110)用于通过音频帧数据生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息;
所述文本数据库(111)用于按时间顺序和层级区别存储文本信息。
7.一种利用如权利要求1-6任一项所述的多人机交互场景下说话对象检测装置进行说话对象检测的方法,其特征在于,包括如下步骤:
步骤S1,音频视频采集模块(10)实时地使用相机采集带时间戳的彩色图像,使用麦克风采集带时间戳的音频信息,并按照时间顺序储存到视频帧数据库或音频帧数据库中,同一时刻采集到的视频和音频应根据时间戳进行同步;
步骤S2,文本生成模块(11)实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并将上述文本信息存入到文本数据库中;
步骤S3,人脸检测跟踪模块(12)通过机器视觉的方法检测彩色图像中的人脸,并在连续的图像帧中识别跟踪同一个人物,并将信息存入人脸序列数据库;
步骤S4,说话人特征提取检测模块(13)通过机器学习或深度学习方法,通过人脸序列数据信息与音频帧数据信息识别人群中的说话者,并将其信息存入到说话人物数据库中;
步骤S5,说话对象特征提取检测模块(14)通过机器学习或深度学习方法,通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人,并将说话对象信息存入到说话对象数据库。
8.根据权利要求7所述的方法,其特征在于,所述步骤S1彩色图像以ROS主题的方式发布,通过订阅图像主题的方式实时获取彩色图像;音频信息以ROS主题的方式发布,通过订阅音频主题的方式实时获取音频信息;所述步骤S2使用YOLO进行人脸检测,并使用DeepSORT的模型进行多目标跟踪,跟踪的结果为,为每一个人赋予一个ID,在整个过程中,每个人的ID唯一且固定。
9.根据权利要求7所述的方法,其特征在于,所述步骤S4包括如下具体步骤:
步骤S401,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取;
步骤S402,使用深度学习的方法,对提取出的特征进行融合编码;
步骤S403,使用深度学习方法,预测人群中的说话者。
10.根据权利要求7所述的方法,其特征在于,所述步骤S5包括如下具体步骤:
步骤S501,特征提取,包括说话者人脸图片序列特征提取、音频帧特征提取、文本特征提取;
步骤S502,使用深度学习的方法,对提取出的特征进行融合编码,即进行多模态特征融合;
步骤S503,使用深度学习方法,对编码信息进行解码,预测每个人物是说话对象的概率;
使用Transformer方法对信息进行编码、提取特征,然后进行解码,预测说话对象。
CN202210966740.5A 2022-08-12 2022-08-12 一种多人机交互场景下说话对象检测装置及方法 Pending CN115376187A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210966740.5A CN115376187A (zh) 2022-08-12 2022-08-12 一种多人机交互场景下说话对象检测装置及方法
PCT/CN2023/101635 WO2024032159A1 (zh) 2022-08-12 2023-06-21 多人机交互场景下的说话对象检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210966740.5A CN115376187A (zh) 2022-08-12 2022-08-12 一种多人机交互场景下说话对象检测装置及方法

Publications (1)

Publication Number Publication Date
CN115376187A true CN115376187A (zh) 2022-11-22

Family

ID=84064895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210966740.5A Pending CN115376187A (zh) 2022-08-12 2022-08-12 一种多人机交互场景下说话对象检测装置及方法

Country Status (2)

Country Link
CN (1) CN115376187A (zh)
WO (1) WO2024032159A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024032159A1 (zh) * 2022-08-12 2024-02-15 之江实验室 多人机交互场景下的说话对象检测

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854535B (zh) * 2024-03-08 2024-05-07 中国海洋大学 基于交叉注意力的视听语音增强方法及其模型搭建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN111078010B (zh) * 2019-12-06 2023-03-14 智语科技(江门)有限公司 一种人机交互方法、装置、终端设备及可读存储介质
CN113408385B (zh) * 2021-06-10 2022-06-14 华南理工大学 一种音视频多模态情感分类方法及系统
CN114519880B (zh) * 2022-02-09 2024-04-05 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN114819110B (zh) * 2022-06-23 2022-10-21 之江实验室 一种实时识别视频中说话人的方法及装置
CN115376187A (zh) * 2022-08-12 2022-11-22 之江实验室 一种多人机交互场景下说话对象检测装置及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024032159A1 (zh) * 2022-08-12 2024-02-15 之江实验室 多人机交互场景下的说话对象检测

Also Published As

Publication number Publication date
WO2024032159A1 (zh) 2024-02-15

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN115376187A (zh) 一种多人机交互场景下说话对象检测装置及方法
Okuno et al. Social interaction of humanoid robot based on audio-visual tracking
Kumar et al. Harnessing ai for speech reconstruction using multi-view silent video feed
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
CN108962216A (zh) 一种说话视频的处理方法及装置、设备和存储介质
CN114187547A (zh) 目标视频的输出方法及装置、存储介质及电子装置
Cristani et al. Look at who’s talking: Voice activity detection by automated gesture analysis
CN113395597A (zh) 一种视频通讯处理方法、设备及可读存储介质
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
Rothkrantz Lip-reading by surveillance cameras
Petridis et al. Audiovisual laughter detection based on temporal features
WO2023231712A1 (zh) 数字人驱动方法、数字人驱动设备及存储介质
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
CN116229311B (zh) 视频处理方法、装置及存储介质
CN113593587B (zh) 语音分离方法及装置、存储介质、电子装置
Vayadande et al. Lipreadnet: A deep learning approach to lip reading
CN115171673A (zh) 一种基于角色画像的交流辅助方法、装置及存储介质
CN117153195B (zh) 基于自适应区域遮挡的说话人脸视频生成方法及系统
Jyoti et al. Salient face prediction without bells and whistles
Salman et al. Comparison of Deepfakes Detection Techniques
KR20230111889A (ko) 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템 및 방법
Landabaso et al. HMM recognition of expressions in unrestrained video intervals
Li et al. Beyond Conversational Discourse: A Framework for Collaborative Dialogue Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination